26 июня 2013, 14:55

Мониторинг социальных медиа — возможности и реальность

Развитие технологий поиска и мониторинга не стоит на месте. Поиск упоминаний, релевантных запросу, остается сложной задачей, и часто возникают вопросы: какую выдачу считать оптимальной? Почему у разных сервисов мониторинга так отличаются результаты выдачи по одним и тем же поисковым запросам? Мы попытаемся ответить на технические вопросы языком, доступным нетехническим специалистам.

Кирилл Кирюшин, Wobot

Определение оптимальной выдачи складывается из нескольких параметров:

Полнота выдачи — показатель количества найденных упоминаний в целом, чем больше, тем лучше. Этот параметр сильно зависит от количества ресурсов, которые проиндексированы или мониторятся в системе тем или иным способом.
Релевантность выдачи, т. е. насколько сообщения соответствуют поисковому запросу. Часто клиенты не сильно обращают внимание на релевантность сообщений, этим иногда пользуются разработчики систем мониторинга, чтобы увеличить количество отображаемых в системе сообщений.
Скорость поставки, т. е. как быстро можно получить результат мониторинга, при условии, что искомые сообщения уже выложены в Интернет.

Эффективная реклама с кешбэком 100%

Таргетированная реклама, которая работает на тебя!

Размещай ее в различных каналах, находи свою аудиторию и получай кешбэк 100% за запуск рекламы.

Подключи сервис от МегаФона, чтобы привлекать еще больше клиентов.

Узнать больше >>

Реклама. ПАО «МегаФон». ИНН 7812014560. ОГРН 1027809169585. ERID: 2W5zFGNJXGC.

Качество мониторинга социальных медиа определено возможностями существующих технологий поиска в сети Интернет. Разные компании используют разные технологии, поэтому часто возникают ощутимые различия между результатами, предоставляемыми той или иной системой мониторинга. Здесь стоит обсудить вопрос более детально. Весь поток данных для мониторинга можно условно разделить на три части по категориям источников поиска информации в сети Интернет:

Первая часть — это информация, получаемая через поисковые машины и их API (интерфейс программирования приложений). Например: Google, Яндекс, Yahoo и т. п.

Вторая часть — это информация, получаемая через API и RSS ленты площадок (ресурсов), которые предоставляют доступ к внутреннему поиску. Например: Twitter, Facebook, Vk и т. п.

Третья часть — это информация, получаемая поисковыми роботами самих мониторинговых систем.

Каждый из потоков может существовать как самостоятельный подход к мониторингу социальных медиа, но каждый имеет свои достоинства и недостатки. Рассмотрим особенности подходов подробнее.

Поисковые машины и их API

Поисковые машины (Яндекс, Google и т. д.) дают наиболее полную картину по поисковым запросам. Т. е. полнота выдачи у них самая высокая. Надо заметить, что это правило соблюдается скорее на поисковых запросах, по которым есть много сообщений, чем на тех, по которым мало сообщений. Однако API таких систем работает не всегда согласованно с тем, что мы видим, если вводим поисковый запрос в браузере. Есть несколько факторов, влияющих на полноту и релевантность выдачи публичных поисковых машин:

Ограничение по полноте — касается всех поисковых машин из-за невозможности проиндексировать всё и вся в сети Интернет. Каждый год сайты умирают и рождаются с невероятной, постоянно возрастающей динамикой, за которой практически невозможно угнаться.
Релевантность взамен полноты — это следствие политики поисковых систем, суть которой в максимально быстром предоставлении итога поиска в ущерб полноте. Это легко проверить, если сделать поиск, например, в Яндекс.Блоги или запомнить выданное количество сообщений и перейти на последнюю страницу поисковой выдачи — число сообщений сократится. Это происходит потому, что Яндекс и Google уточняют свою выдачу не сразу на все множество результатов, а постранично — главное чтобы пользователь максимально быстро получил первый результат. Т. е. первый подсчет полноты выдачи часто бывает обманчивым.
Различие в выдаче по API (предоставляемых этими сервисами) и выдаче на самом сайте поисковой системы (доступном широким массам). Как это ни странно, но API публичных систем поиска работают иначе. Иногда в результатах выдачи по поисковому запросу можно вообще не увидеть до 90% выдачи, которую можно видеть в браузерной версии. С чем связана такая дискриминация, очень сложно понять. Чаще всего это связано либо с политикой сервиса (стратегией развития), либо с наличием ошибок в работе операторов языка запросов (это логические операторы, использующиеся при поиске слов в связке. Например: поиск двух слов в одном предложении на определенном расстоянии при выдаче информации. Достаточно часто операторы поиска работают неадекватно, что приводит либо к потере информации в выдаче, либо к появлению новой нерелевантной информации, что зачастую пользователи не замечают. Объем таких методических погрешностей может достигать 20% выдачи.

Итог: поисковые машины неплохо справляются со своей задачей, но есть достаточно много узких мест, где выдача страдает как по полноте, так и по релевантности в угоду скорости предоставления результата.

API социальных сетей, блогов, форумов и RSS ленты

Twitter, Facebook и подобные социальные сети предоставляют API для мониторинга своих данных. Однако и здесь бывают подводные камни.

Не каждый ресурс способен проиндексировать весь свой контент. Особенно это характерно для крупных ресурсов, где трафик достигает невероятных значений (например, Facebook). Есть примеры, когда собственные API и даже внутренние поисковики этих ресурсов не выдают сообщения по определенным ключевым словам. Причем слова эти от сообщения к сообщению могут значительно различаться. Отследить это удается только постингом собственных сообщений с попыткой последующего мониторинга как через сайты социальных сетей, так и через их API и Яндекс.Блоги. Процент таких ошибок, как правило, не очень велик — около 1–2%. Поэтому релевантность в большинстве случаев достигает 99%.

Однако нужно помнить, что это поиск только по одному отдельно взятому ресурсу. Т. е. для мониторинга каждого ресурса через API нужно писать свой программный код. Поэтому некоторые поисковые системы берут плату с клиентов за подключение новых ресурсов. Кроме того, не все социальные медиа предоставляют API.

Использование только такого метода сбора информации снижает общую полноту поиска до 5–10%, особенно если иметь в виду огромное множество небольших по размеру специализированных форумов, блогов, интернет-страниц. В то же время — это самый быстрый и надежный метод поиска.

Роботы автоматических мониторинговых систем

Поисковые роботы, так называемые «краулеры», являются хорошим подспорьем для независимого мониторинга социальных медиа. Главное преимущество краулеров — возможность собирать с площадки любую находящуюся в открытом доступе информацию на ресурсе, в том числе и то, что ресурс может не отдавать через API.

Недостаток краулеров такой же, как и у API отдельных систем — небольшая полнота, ограниченная набором площадок. С учетом того, что структура данных на ресурсах может быть очень разная — для мониторинга каждой площадки настраивается свой поисковый робот.

Краулер может эффективно замещать собой мониторинг некоторых ресурсов (присутствующих в выдаче крупных поисковых машин), которые не настолько полноценно проиндексированы, как хотелось бы (по причине невозможности проиндексировать всё и вся, описанной выше). В дополнение ко всему перечисленному этот метод характеризуется пониженной скоростью мониторинга.

Чтобы оценить эффективность, можно воспользоваться сводной таблицей полноты, релевантности и скорости относительно каждого из подходов:

	Поисковые машины и их API	API социальных сетей и RSS ленты	Роботы автоматических мониторинговых систем
Полнота (сообщения могут не входить в результаты других методов)	Средне-высокая	Низкая	Средне-низкая
Релевантность (только для полученных сообщений)	Средняя	Высокая	Высокая
Скорость доставки сообщений	Средне-высокая — высокая	Высокая	Средняя

Очевидно, что ни один из перечисленных подходов в отдельности не решает задач мониторинга социальных медиа на 100%. Полнота ни у одного из методов не достигает отличных результатов, а ненайденные сообщения могут оказаться в выдаче других каналов поиска. Также видно, что крайне высокая степень релевантности API социальных сетей и краулеров сильно ослабляет их позиции в полноте среза сообщений.

Чтобы максимально приблизиться к результатам, близким к 100% релевантности и полноты данных, необходим комплексный подход. Например, в системе мониторинга Wobot используется совокупность данных мониторинга краулеров и потоков информации из API и RSS лент площадок при поддержке результатов больших поисковых машин, необходимых для проверки полноты сбора сообщений. Список уникальных площадок и ресурсов, с которых собираются сообщения, постоянно расширяется, и сейчас их число достигает приблизительно 500 000. Такой подход дает возможность собирать наиболее полные и максимально релевантные данные и понижать уровень шума и спамовых сообщений в поисковой выдаче.

Источник картинки на тизере: Soshable