Как поиск Facebook становится семантическим
Менеджер по разработке продукта Facebook рассказал Wired, как работают алгоритмы соцсети, чему уделяется больше внимания и с какими трудностями приходится сталкиваться.
Когда Миту Сингх (Mitu Singh) ищет в Facebook китайские рестораны, куда ходят его друзья, он рассчитывает, что ему не попадется ни один американско-китайский сетевой ресторан.
Я получаю действительно подлинные китайские рестораны, — говорит он, — Если бы это не всегда работало, то я бы, возможно, натыкался на «Panda Express» [американско-китайский ресторан быстрого питания — прим. ред].
Но однажды система сломалась. Она порекомендовала «State Bird Provisions» — один из самых модных, но все-таки не китайских, ресторанов Сан-Франциско. Это, конечно, не так плохо, как «Panda Express», но не то. К счастью, Сингх не только пользователь Facebook, но и ее сотрудник.
Эффективная и выгодная реклама с сервисом от МегаФона
Широкий выбор рекламных каналов, более 100 параметров по интересам, подробная аналитика и другие возможности уже ждут в Личном кабинете. А еще кешбэк 100% за запуск рекламы в первый месяц и еще 10% — каждый месяц.
После небольшого исследования он заметил, что человек, который создал страницу «State Bird Provision» обозначил еду ресторана как «дим-сам», что обычно означает легкое китайское блюдо. Но здесь речь идет об интерьере, посуде и способах подавать еду на стол, как это традиционно происходит в китайских ресторанах, а не о еде. Однако алгоритмы Facebook определили связь между словом «дим-сам» и «китайский ресторан», из-за чего и обозначили заведение как китайскую кухню.
Теперь задачей Сингха было решение проблемы — не только для себя, но и для всех пользователей. Он со своей командой должен был максимально приблизить виртуальный мир к соответствию с реальным. Эта проблема есть у многих сайтов — от Amazon.com до Yahoo, но особенно заметна она в Facebook, в соцсети, которая охватывает, наверное, всю нашу жизнь.
Загвоздка в том, что реальный мир постоянно меняется, и, если Facebook не будет развиваться вместе с ним, «люди разозлятся и правильно сделают», — считает Сингх.
Сингх как менеджер по разработке продукта ежедневно работает с инженерами для улучшения алгоритмов. Сейчас в Facebook более 1 миллиарда пользователей, и на каждого из них есть отдельная карта с графиком о взаимодействии человека с книгами, школой, фильмами, ресторанами, где указана и связь этих объектов друг с другом. Далее эта карта попадает в «Graph Search», поисковую систему Facebook.
По словам Кай Ю (Kai Yu), директора Института по глубокому изучению (Institute of Deep Learning), который является исследовательским центром поисковика Baidu, Самой большой проблемой является неоднозначность. У каждого объекта есть миллионы разных способов для выражения одного и того же смысла. До сих пор машинные алгоритмы тяжело справляются с этим огромным разнообразием.
Поэтому Facebook добавила некоторые структуры данных, которые позволяют инженерам быстрее определять тип объекта. Теперь они точно знают, что такое «schooliness» и «place-y-ness».
Сингх рассказывает, что многие пользователи хотят видеть у себя в графе «Образование» школу волшебства Хогвартс, которая встречается в книгах о Гарри Поттере. Но у Хогвартса очень низкий schooliness фактор, поскольку люди, которые хотят ее добавить, приходят из самых разных мест и обычно вообще никак не связаны между собой. Мы хотим сохранить свободу выражения. Если человек и правда хочет указать, что учится в Хогвартсе, кто мы такие, чтобы отказывать ему в этом? Однако это и не то, что мы хотим показывать на верхних строках списка при поиске реальных школ, где учатся люди, — добавляет Сингх.
В итоге ответы на запросы в Facebook становятся более точными и персонализированными, чем в традиционных поисковиках.
Google, Baidu и Foursquare также активно осваивают этот тип поиска, который, кроме всего прочего, делает более эффективным такой рекламный механизм, как таргетинг. Google и Baidu создают собственные графики, основанные больше на связях между страницами, чем на ключевых словах. Foursquare также запустил свой инструмент системы рекомендаций, хоть и с гораздо меньшим объемом данных, чем в Faceboook.
Источник: Wired