Перезвоните мне +7 (495) 229-01-61

«Палех» - новый поисковой алгоритм Яндекса

335

Наверное, вы уже слышали о новом поисковом алгоритме Яндекса. Благодаря «Палеху» система еще точнее понимает запросы пользователей, сопоставляя смысл ключевых слов и страниц. Этот удивительный алгоритм считывает смысл ключевых слов на основе нейронных сетей.

Принцип «длинного хвоста»

Ежедневно в поисковую строку Яндекса «вбивают» более 280 млн. запросов.  И если большинство из них (например, «Достоевский преступление и наказание») вводятся каждую секунду, то какие-то словосочетания набираются в строке всего один раз за всю историю поисковика.  Поразительно, но каждый день в Яндекс вводится около 100 млн. таких уникальных запросов.

Для наглядности частотное распределение запросов маркетологи Яндекса представляют в форме сказочной жар- птицы:

  • Клюв – это самые распространенные запросы. Клюв малышки невелик, но именно эти ключевые слова вводят чаще всего.
  • Туловище  включает запросы средней частотности.
  • Длинный хвост состоит из низкочастотных запросов. Такие ключи повторяются очень редко, но составляют существенную долю поискового потока.

«Палех» - новый поисковой алгоритм Яндекса

Подобно свету жар-птицы, новый алгоритм позволяет Яндексу лучше освещать данные по поисковым запросам «длинного хвоста».  Кстати, именно из-за этой былинной героини, частой участнице народных миниатюр, алгоритм и называется «Палех».

Разнообразные низкочастотные запросы условно можно разделить, например, на несколько групп:

  1. Детские запросы. Малыши поражают своей непосредственностью. Еще не освоившие принципы общения с Яндексом, они разговаривают с поисковиком как с желтым приятелем [дорогой яндекс покажи пожалуйста новую серию Лунтика].
  2. Кино и книжные запросы.  Многие пользователи хотят узнать название фильма или книги по одной фразе  [фильм, в котором героиня упала с лестницы и муж красил ее скипидаром («Смерть ей к лицу»,  книга, в которой мальчик прилетел в пустыню с маленькой планеты («Маленький Принц)].

Запросы «клюва» и «туловища» задают многократно, а значит – по таким ключевым словам за долгие годы работы Яндекса уже собрана разнообразная пользовательская статистика. Поисковая система успела накопить знания о популярных запросах, и безошибочно выдает релевантные результаты по ним.

Поведенческой же статистики по редким «хвостовым» запросам нет. Следовательно, Яндексу намного труднее понять, какие страницы подойдут для ответа на вопрос пользователя.  Кроме того, на релевантной странице далеко не всегда встречаются конкретные словосочетания и слова запроса, ведь люди выражают один и тот же смысл по-разному.

Яндекс не был бы Яндексом, если бы не стремился находить релевантные результаты даже по сложным редким запросам «длинного хвоста». Поэтому, разработчики поисковой системы подключили к решению этой задачи нейронные сети.

Семантический вектор запросов

В последние годы все больше ученых обращают внимание на  искусственные нейронные сети, уникальный метод обучения машин.  Эти сети уже успешно используются при анализе естественной информации – звуков, картинок, текстов. Представьте: нейронную сеть можно научить определять те или иные объекты на изображениях – например, цветы, кошек или облака. 

Итак, системе показывают огромное количество картинок:

  • Положительные примеры – картинки, на которых присутствуют нужные объекты;
  • Отрицательные примеры – картинки, на которых нет требуемых объектов.

В результате эмпирического анализа нейросеть  правильно определяет нужные объекты на изображениях.

Обучение с текстами  также проходит по  представленной схеме. Пары «запрос-заголовок» подбирают  с помощью накопленной статистики. Постепенно нейросеть запоминает поведение пользователей и начинает «понимать» смысловое соответствие запросов и заголовков страниц.

Поиск соответствий между запросами и страницами проводится при помощи сравнения чисел. Разработчики Яндекса  переводят миллиарды известных поисковику заголовков страниц в группы, состоящие из 300 чисел каждая. В результате накапливаются базы данных поисковика в трехсотмерном пространстве.

Чтобы понять принцип работы «Палеха», представим упрощенную систему координат.  В такой системе каждой веб-странице соответствует группа не из 300, а из 2 чисел. Следовательно,  Яндекс имеет дело с двухмерным пространством.  Каждому числу и каждой странице соответствует определенная координата в представленной плоскости.

«Палех» - новый поисковой алгоритм Яндекса

Взгляните на систему координат: каждый запрос размещен в том же пространстве координат, что и заголовок веб-страницы.  Если элементы расположены близко друг к другу, то страница отвечает на запрос пользователя.

Представленный способ обработки запросов и их сопоставления с вероятными ответами разработчики Яндекса назвали семантическим вектором. Этот способ идеально подходит для обработки «хвостовых» запросов.  Векторы помогают находить точные ответы на низкочастотные ключевые слова.  Представляя веб-страницы и запросы в виде векторов в трехсотмерном пространстве, можно понять, насколько они соответствуют друг другу, даже не имея общих ключевых слов.  

Семантический вектор разработчики Яндекса внедрили всего несколько месяцев назад. Ежедневно команда поисковика улучшает и развивает его нейронные модели.

Технология также применяется в других сервисах Яндекса – например, в Картинках и Видео. Удивительно, но семантический вектор также позволяет находить изображения, соответствующие поисковому запросу.

Планы разработчиков Яндекса справедливо можно назвать Наполеоновскими. Эта технология будет стремительно развиваться в разных направлениях. Например, можно переводить в векторы и профили пользователей в соцсетях, и полные тексты документов, и книги, и законы, и отзывы… Возможности семантических векторов безграничны.  Осмелимся предположить, что  через несколько лет поисковые системы будут понимать наши запросы на уровне человека. Очень умного человека. 

← Вернуться к новостям

Комментарии

Комментариев пока нет.

Написать комментарий


CAPTCHA
Перезвоните мне
Спасибо!

Ваше сообщение успешно отправлено

Извините,

Ошибка при отправке данных