Сайты

Расширение запросов

ГлавнаяНовостиЯндекс сообщает..Расширение запросов

17.06.2008

Можно выразить одну и ту же потребность различными запросами. Элементарный пример – кажется, что совершенно эквивалентны по значению такие запросы, как «рестораны Москвы » и «московские рестораны ». Сходство поисковых потребностей, которые выражены в двух различных запросах, и можно оценить по степени близости слов в запросах, которая, в свою очередь, выражается разными языковыми способами.

Яндекс ищет с учетом морфологии и учитывает отношения двух типов:
а) словоизменительное отношение («кошке», «кошкой», «кошку», «кошки» – формы слова «кошка»);
б) видовое отношение (совершенный и несовершенный виды глагола), например “искать” – “найти”.

Что касается новой версии посика «Магадан», эта программа действует с учетом еще и таких отношений, как:
а) некоторые типы переходов из одной части речи в другую («москва» -> «московский»);
б) транслитерация («nokia» -> «нокия»);
в) аббревиатуры (РФ -> Российская Федерация).

Автоматически собираются списки пар слов, входящих в отношениях. Их собирали по текстам всего Рунета, по логам запросов в поисковиках. Вот, к примеру, как составляется словарь аббревиатур.

1. Прежде всего из архива веба выделяются цепочки <последовательность слов, слово в верхнем регистре в скобках>, например:

  • дорожно-транспортные происшествия (ДТП)
  • налог на добавленную стоимость (НДС)

2. Пара оставляется, если из первых букв последовательности получается слово в скобках, затем расшифровки (без учета стоп-слов) нормализуются и отождествляются. Для каждой пары <расшифровка, аббревиатура> получается количество хостов, с которых она была извлечена.

3. Если средняя частота расшифровки аббревиатуры приближается к частоте стоп-слов, и если количнство хостов, на которых встречалась расшифровка, меньше N, то аббревиатура удаляется, например:

  • правая рука (пр) -- 46 хостов
  • что я за это получу (чязэп) -- 16 хостов
  • центр информационных систем и технологий в управлении (цисту) -- 2 хоста

4. Если отличие двух расшифровок одной и той же аббревиатуры по Левенштейну не превышает минимальную длину расшифровок, умноженную на k, при равномерном распределении различий, расшифровка считается одной и той же:

  • внутренний валовый продукт <=> внутренний валовой продукт
  • железная дорога молдавии <=> железная дорога молдовы

5. Если две самые частотные расшифровки одной аббревиатуры оказываются в отношении, не превышающем определенного порога, то аббревиатура является омонимичной и удаляется, например: Если отношение двух самых частотных расшифровок одной аббревиатуры меньше некоторого порога, тогда такая аббревиатура считается омонимичной и в этой версии удаляется. Например, удаляются:

  • единая система почтовых переводов (еспп) -- 273
  • единая система приема платежей (еспп) -- 266

и

  • московский государственный строительный университет (мгсу) -- 2181
  • московский государственный социальный университет (мгсу) -- 718

6. Если частота аббревиатуры оказывается ниже порога встречаемости, и если такие аббревиатуры совпадаютс частотными словарными словами, они удаляются:

  • технические условия (ту)
  • институт гармонического развития и адаптации (игра)

Применение новых расширений слов запроса можно увидеть в таблице:

  • Транслитерация -- 25455 пар слов, 8% запросов
  • Переход из одной части речи в другую -- 17182 пар слов, 6% запросов
  • Аббревиатуры -- 19360 пар слов, 1,5% запросов

www.webmaster.ya.ru

Распечатать страницу

© Акцепт-У 2008.
Все права защищены
Санкт-Петербург, Бумажная ул., дом 18, БЦ "Портал" оф. 118 (корпус А2)
(812) 448-12-47
Участник проекта CMS Magazine