28/08/2007 11:22
Компания Mail.ru внедрила на поисковом сервисе GoGo.Ru новую систему анализа
поисковых запросов для автоматического отбора потенциальных синонимов (вариантов
написания слова). Постоянно пополняемая база слов-синонимов используется
для того, чтобы пользователь мог получить наиболее полную и релевантную
выдачу, даже набрав в поисковой строке не самый популярный вариант написания
слова. Внедрение новой системы позволило поставить отбор слов-синонимов
на поток и сразу же увеличить объем словаря синонимов GoGo.Ru до 5 000 позиций.
Часто пользователь по очереди набирает в поисковой строке различные слова
с одинаковым смысловым значением ("крайслер" и "chrysler", "аниме" и "анимэ"
и т. д.), чтобы отыскать максимально полную информацию по интересующему
его предмету. Эта особенность была использована для добавления новых синонимов
в словарь GoGo.Ru. Сбор данных для словаря осуществляется при помощи специального
программного обеспечения, которое позволяет анализировать запросы одного
и того же пользователя, сделанные в ограниченном временном интервале. Затем
сформированный список потенциальных синонимов подвергается ручной модерации,
отсеиваются цепочки, состоящие из разных по смыслу запросов, и остаются
лишь подходящие пары слов для пополнения словаря. Используемая в системе
технология сбора и использования синонимов в поиске не имеет полных аналогов
в Интернете, как по принципу формирования словарной базы, так и по количеству
охватываемых категорий слов с неоднозначным написанием. Все синонимы в базе
поисковика можно условно разделить на три группы. К первой относятся названия
зарубежных торговых марок, имена компаний и другие слова, которые достаточно
часто встречаются в русскоязычных текстах в оригинальном написании. Если
в запросе фигурирует русская транскрипция бренда, система автоматически
будет искать это слово еще и в его иностранном варианте. Во вторую группу
синонимов попали слова, которые были заимствованы из других языков и могут
по-разному писаться на русском. Система, получив запрос с таким словом,
осуществляет поиск по всем распространенным вариантам написания. И, наконец,
третья группа синонимов предназначена для автоматического исправления ошибок
при вводе запросов. Эта часть словаря позволяет системе распознавать частые
опечатки и осуществлять поиск и по ошибочному, и по правильному написанию.
Вместе с тем возможны ситуации, когда использование синонимов в поиске нежелательно.
Тогда пользователь может с помощью оператора "!" задать поиск по точной
форме слова без альтернативных написаний и учета морфологии. Для этого нужно
просто ввести запрос вида "!слово". "Качество поиска в Интернете определяется
не только правильным ранжированием найденных по запросу веб-страниц, - говорит
генеральный директор компании Mail.Ru Дмитрий Гришин. - Задача современной
поисковой системы заключается в том, чтобы попытаться угадать "что имел
в виду пользователь" и подсказать ему правильный ответ".
Оригинал (на 28/08/2007): cybersecurity.ru
В случае обнаружения неточностей или ошибок просим Вас сообщить об этом по адресу
|