Поисковик Google начал лучше понимать украинский благодаря алгоритму BERT. Что изменилось

1752

9 декабря Google сообщила, что запускает алгоритм BERT еще для 70 языков, в их число вошли украинский и русский.

На практике это означает, что поисковик сможет лучше распознавать смысловые нюансы и семантику предложений. AIN.UA коротко объясняет, что изменится для пользователей.

Как создали BERT и чем он отличается

BERT появился не сегодня. В реализации Google — это алгоритм для обработки запросов, написанных натуральным, а не программным языком. А если говорить шире, то BERT — набор методик для тренировки нейронных сетей.

Первые научные публикации о проекте вышли еще в 2018 году. Использовать BERT в поиске начали с октября 2019 года, сначала на 10% англоязычных запросов и сниппетах с обзорной информацией. Теперь BERT запускается глобально.

Аббревиатура BERT расшифровывается как Bidirectional Encoder Representations from Transformers. Ключевое слово здесь — Bidirectional, это принцип обработки слов в предложениях.

В отличие от предыдущих разработок, модель BERT анализирует контекст. Вместо фиксированного смысла для каждого слова, он ориентируется сразу во всем предложении.

Этот алгоритм не «читает» справа налево или наоборот, а понимает все связи между словами. Формально такой подход называется bidirectional, а по сути — non-directional, потому что направления «чтения» у модели нет.

Чтобы натренировать BERT, создатели использовали две стратегии.

  • Первая — Mask Language Model (MLM). В ней нейронной сети «скармливают» предложения, в которых 15% слов заменены на токены. Задача программы предсказать значение скрытых данных на основе контекста.
  • Второй подход — Next Sentence Prediction (NSP). В нем алгоритм пытался понять, связаны ли между собой два предложения. Например: «Компьютер не работает. Его нужно перезагрузить» и «Компьютер не работает. Кофе вкусный». Очевидно, что контекст объединяет только первую историю. Этому и научили BERT.

В качестве корпуса материалов использовали Wikipedia и книжные архивы. Важно заметить, что Google опубликовала BERT в открытом доступе — каждый может использовать подготовленную модель для дальнейшей работы.

BERT — коротко:

  • Чтобы использовать нейронные сети для расшифровки запросов, используют прием языкового моделирования. По сути, это задача на предугадывание слов.
  • Традиционные языковые модели используют N предыдущих слов и по ним подбирают значение следующего. В отличие от них, BERT для предугадывания использует и предыдущие и последующие слова, все предложение сразу.
  • Более того, единицы обработки для BERT это не целые слова, а составные части. Алгоритм способен отделить корень от суффиксов и префиксов, а также принять это во внимание при анализе.
  • BERT также натренирован так, чтобы лучше понимать связи между двумя разными предложениями. А потому — лучше отвечает на вопросы.
  • В поиске BERT особенно эффективен для длинных запросов.

Если вам интересно узнать о технологии подробнее, лучше изучить оригинальную научную статью, ее доступный пересказ на английском языке или материал журнала Wired.

Как это работает на практике

Архитектура BERT позволяет выделять наиболее важные детали в составе предложения. Это те вещи, которые для человека перевернут смысл предложения с ног на голову — а компьютеру раньше казались несущественными.

Одну из лучших иллюстраций приводит сама Google. До введения BERT поисковик воспринимал запрос 2019 brazil traveler to usa need a visa неправильно. Он упускал предлог to и показывал прямо противоположные правила. С новым методом, Google может подсказать более релевантные варианты.

А на вопрос: «Можно ли взять для кого-то лекарства по рецепту?» поисковик рассказывал о правилах заполнения рецептов.

Как объясняет SEO-эксперт Михаил Щербачев, ключевое отличие — повышение релевантности:

  1. Алгоритм повлияет на длинные запросы, которых с каждым годом становиться все больше.
  2. Любой экспертный материал станет лучше и релевантнее чем, к примеру, ветка с обсуждением на форуме или Википедии.
  3. Количество синонимов будет расти. Такие слова как памятник могут распознаваться как монумент и т.д.

Вы можете обнаружить что, вероятно, вам не стоит писать огромный рерайт из википедии и можно сделать совершенно другую структуру страницы, основанную на фото, отзывах и других микроэлементах.

Для веб-мастеров приход BERT поставит свои вызовы. Фактически, сайт невозможно оптимизировать специально для алгоритма.

Лучший рецепт — создавать релевантный контент, который окажется полезен пользователям. Чем больше вы покрываете нишевую тему, тем больше «авторитета» зарабатываете в глазах поисковика.

В пост-BERT эпоху важно качество контента, популярность, наличие внутренних ссылок и техническая оптимизация сайта, объясняют в блоге Raventools.

Оставить комментарий

Комментарии | 0

Поиск