Ученые разработали алгоритм, который позволяет компьютеру отличать новостные сообщения от художественных текстов, а именно рассказов. Статья исследователей пока не принята к публикации в рецензируемый научный журнал, но ее препринт доступен на сайте arXiv.org.
Алгоритм, придуманный авторами этой научной работы, анализирует, сколько раз любое слово из текста встречается вместе с другими словами в рассказах и новостных сообщениях. Полученные данные впоследствии сравнивали.
Оказалось, что для двух данных типов текстов этот показатель заметно отличается. Исследователи проверили созданную ими методику при помощи 400 новостных заметок, случайным образом выбранных с новостного сайта National Public Radio , и 400 случайных рассказов из базы электронной библиотеки проекта "Гутенберг" . Чтобы исключить влияние исторических особенностей языка, авторы выбирали для анализа произведения писателей XX века.
Для новостных заметок точность угадывания составила 69,1 процента с погрешностью 1,22 процента, а для рассказов - 73,8 процента с погрешностью 5,15 процента.
Недавно другой коллектив ученых представил еще одну работу, в которой были продемонстрированы возможности использования компьютера для анализа текстов. Исследователи разработали алгоритм, при помощи которого компьютер смог расшифровать один из мертвых языков семитской группы за несколько часов.