Искусственный интеллект с точностью 99% от Brand Analytics

Brand Analytics кардинально повысил точность машинных алгоритмов тематических спам-фильтров и ввел новый – фильтр «поисковый спам».

Василий Чёрный, Brand Analytics

В результате обновленные спам-фильтры позволяют сократить время на аналитику «шумных» тем в полтора-два раза. Быстрее всех оценят новость те, кто уже «распробовал» спам-фильтры. Остальные – не отставайте ))

Защита от спама и фильтрация нерелевантных сообщений в Brand Analytics

Напомним, что в Brand Analytics есть автоматическая защита от спам-ботов – сообщения от автоматических аккаунтов можно исключить при создании темы мониторинга. Для фильтрации нерелевантного контента есть тематические и нетематические спам-фильтры, которые можно включать или выключать в настройках «Корзины» в зависимости от задач анализа. К тематическим относятся, например, объявления о продажах или о сборе средств для помощи. А теперь еще и новый фильтр – «поисковый спам». К нетематическим относятся дубли и нецензурная лексика. Подробнее о ранее введенных спам-фильтрах можно посмотреть у нас в блоге: http://blog.br-analytics.ru/brand-analytics-dobavlyaet-5-tematicheskih-spam-filtrov/.

Повышение точности тематических спам-фильтров

Повышение точности работы спам-фильтров до 99% означает, что ошибочных срабатываний фильтра теперь менее 1% (1 ошибка на 300 срабатываний), а невыявленных нерелевантных сообщений по тематике – не более 5%. Причем алгоритмы одинаково эффективны для всех спам-тематик.

Пример рекламного сообщения о продаже. Для одних задач анализа это полезный контент, для других – нерелевантный и должен быть исключен из анализа.

Добиться такой точности – удача для нас и наших клиентов :) И большой труд наших лингвистов. Во-первых, мы провели длительное тестирование различных машинных алгоритмов и смогли подобрать комбинацию наиболее эффективно работающих для данной задачи. Во-вторых, чтобы получить 99% на потоке реальных сообщений, а не «удобных» текстов, нужна кропотливая работа над качественными текстовыми корпусами для обучения алгоритмов и, собственно, само обучение. От качества которого и зависит результат. Мы немного хвастаемся? Да, мы правда довольны результатами и рады, что вы сможете их использовать.

Новый фильтр «поисковый спам»

Чтобы лучше находиться в поиске SEO-оптимизаторы включают в сообщения перечисления популярных слов, фраз и хештегов. Это популярный вид спама и теперь у пользователей Brand Analytics есть возможность его автоматически отфильтровывать. Включается новый спам-фильтр там же, где и другие – в настройках «Корзины».

Основной объем спам-сообщений публикуется в ВК. Однако не только там. Ниже пример сообщения на YouTube, отфильтрованного фильтром «поисковый спам». На скриншоте показано только начало длинного списка ключевых слов.

На скриншоте ниже настройки «Корзины» – включение спам-фильтров. Также выделен цветом новый фильтр «поисковый спам», статистика по фильтрам и объем удаленных сообщений.