«Самый большой прорыв в поиске за последние пять лет»: Google запустил BERT
Разбираемся, а в чём, собственно, прорыв и как это работает.
С помощью технологии BERT (Bidirectional Encoder Representations from Transformers — NLP на базе нейронных сетей) результаты поиска станут более осмысленными, приближенными к тому, что на самом деле хотел узнать пользователь. Просто специальные модели теперь будут обрабатывают слова в поисковом запросе не по порядку, а с учётом контекста. Уже сейчас поиск на основе BERT помогает лучше понять каждый десятый запрос в США на английском языке, а со временем, после успешного обучения обновление заработает для других языков и локализаций.
Отпадёт необходимость формулировать запрос специально — Search сможет понять контекст слов даже в длинном запросе со множеством предлогов типа “for” и “to”, иногда радикально меняющих смысл фразы.
Например, поиск “2019 brazil traveler to usa need a visa”. Здесь “to” и его связь с другими словами в запросе особенно важны для понимания смысла. Речь идёт о путешествии бразильца в США, а не наоборот. Раньше алгоритм не видел этой связи, и в выдачу попадали материалы о гражданах США, путешествующих в Бразилию. С помощью BERT поиск предоставит более релевантный результат для этого запроса.
Давайте посмотрим на другой запрос: “do estheticians stand a lot at work”. Раньше термин «автономный» воспринимался как слово «стоять» (“stand”). BERT всё поймёт правильно:
Вот ещё несколько примеров, когда BERT словит нюансы языка там, где компьютеры не воспринимают текст как люди.
Только с появлением BERT “for someone” стало важной смысловой частью этого запроса
Раньше при поиске вообще игнорировали слово “no”, не понимая, насколько оно важно для правильного ответа
BERT выбирает более полезный результат именно для взрослой категории пользователей
Понимание языка останется вечной проблемой, а значит совершенствовать Поиск придётся бесконечно. Конечно, лучше не испытывать BERT запросом “what state is south of Nebraska” («какой штат находится к югу от Небраски») — скорее всего, она выдаст “South Nebraska” («Южная Небраска»). Хотя очевидно, что это Канзас :–) Тем не менее модели, обучаемые на английском, уже пытаются применить к другим языкам. И даже успели получить ощутимый эффект на таких языках, как корейский, хинди и португальский.

Эффективная реклама с кешбэком 100%
Таргетированная реклама, которая работает на тебя!
Размещай ее в различных каналах, находи свою аудиторию и получай кешбэк 100% за запуск рекламы.
Подключи сервис от МегаФона, чтобы привлекать еще больше клиентов.