«Самый большой прорыв в поиске за последние пять лет»: Google запустил BERT
Разбираемся, а в чём, собственно, прорыв и как это работает.
С помощью технологии BERT (Bidirectional Encoder Representations from Transformers — NLP на базе нейронных сетей) результаты поиска станут более осмысленными, приближенными к тому, что на самом деле хотел узнать пользователь. Просто специальные модели теперь будут обрабатывают слова в поисковом запросе не по порядку, а с учётом контекста. Уже сейчас поиск на основе BERT помогает лучше понять каждый десятый запрос в США на английском языке, а со временем, после успешного обучения обновление заработает для других языков и локализаций.
Отпадёт необходимость формулировать запрос специально — Search сможет понять контекст слов даже в длинном запросе со множеством предлогов типа “for” и “to”, иногда радикально меняющих смысл фразы.
Например, поиск “2019 brazil traveler to usa need a visa”. Здесь “to” и его связь с другими словами в запросе особенно важны для понимания смысла. Речь идёт о путешествии бразильца в США, а не наоборот. Раньше алгоритм не видел этой связи, и в выдачу попадали материалы о гражданах США, путешествующих в Бразилию. С помощью BERT поиск предоставит более релевантный результат для этого запроса.
Давайте посмотрим на другой запрос: “do estheticians stand a lot at work”. Раньше термин «автономный» воспринимался как слово «стоять» (“stand”). BERT всё поймёт правильно:
Вот ещё несколько примеров, когда BERT словит нюансы языка там, где компьютеры не воспринимают текст как люди.
Понимание языка останется вечной проблемой, а значит совершенствовать Поиск придётся бесконечно. Конечно, лучше не испытывать BERT запросом “what state is south of Nebraska” («какой штат находится к югу от Небраски») — скорее всего, она выдаст “South Nebraska” («Южная Небраска»). Хотя очевидно, что это Канзас :–) Тем не менее модели, обучаемые на английском, уже пытаются применить к другим языкам. И даже успели получить ощутимый эффект на таких языках, как корейский, хинди и португальский.