
Главная
Новости
Яндекс сообщает..
Расширение запросов
17.06.2008
Можно выразить одну и ту же потребность различными запросами. Элементарный пример – кажется, что совершенно эквивалентны по значению такие запросы, как «рестораны Москвы » и «московские рестораны ». Сходство поисковых потребностей, которые выражены в двух различных запросах, и можно оценить по степени близости слов в запросах, которая, в свою очередь, выражается разными языковыми способами.
Яндекс ищет с учетом морфологии и учитывает отношения двух типов:
а) словоизменительное отношение («кошке», «кошкой», «кошку», «кошки» – формы слова «кошка»);
б) видовое отношение (совершенный и несовершенный виды глагола), например “искать” – “найти”.
Что касается новой версии посика «Магадан», эта программа действует с учетом еще и таких отношений, как:
а) некоторые типы переходов из одной части речи в другую («москва» -> «московский»);
б) транслитерация («nokia» -> «нокия»);
в) аббревиатуры (РФ -> Российская Федерация).
Автоматически собираются списки пар слов, входящих в отношениях. Их собирали по текстам всего Рунета, по логам запросов в поисковиках. Вот, к примеру, как составляется словарь аббревиатур.
1. Прежде всего из архива веба выделяются цепочки <последовательность слов, слово в верхнем регистре в скобках>, например:
2. Пара оставляется, если из первых букв последовательности получается слово в скобках, затем расшифровки (без учета стоп-слов) нормализуются и отождествляются. Для каждой пары <расшифровка, аббревиатура> получается количество хостов, с которых она была извлечена.
3. Если средняя частота расшифровки аббревиатуры приближается к частоте стоп-слов, и если количнство хостов, на которых встречалась расшифровка, меньше N, то аббревиатура удаляется, например:
4. Если отличие двух расшифровок одной и той же аббревиатуры по Левенштейну не превышает минимальную длину расшифровок, умноженную на k, при равномерном распределении различий, расшифровка считается одной и той же:
5. Если две самые частотные расшифровки одной аббревиатуры оказываются в отношении, не превышающем определенного порога, то аббревиатура является омонимичной и удаляется, например: Если отношение двух самых частотных расшифровок одной аббревиатуры меньше некоторого порога, тогда такая аббревиатура считается омонимичной и в этой версии удаляется. Например, удаляются:
и
6. Если частота аббревиатуры оказывается ниже порога встречаемости, и если такие аббревиатуры совпадаютс частотными словарными словами, они удаляются:
Применение новых расширений слов запроса можно увидеть в таблице: