Алексей Авдеев: «Не знаю, как это делают в ФСБ или ЦРУ, но да, мы научились автоматически выявлять звонки определенного типа»
Разбираемся, как устроен автоматический анализ телефонных разговоров и кому это нужно.
Недавно компания Calltouch объявила о выпуске нового инструмента — технологии обработки входящих звонков, позволяющей автоматически анализировать и определять их типы.
Cossa выяснила, что это такое, кому нужно и какие у технологии перспективы. Наш собеседник — Алексей Авдеев, коммерческий директор Calltouch.
— Андрей Коновалов, Cossa: Алексей, если в двух словах — что же вы сделали?
— Алексей Авдеев, Calltouch: Мы сделали Calltouch Predict — это технология определения типа и ценности входящего звонка.
— А.К.: То есть это некий алгоритм, который может выделять смысловые единицы в записи звонка и потом эти записи как-то классифицировать?
Эффективная и выгодная реклама с сервисом от МегаФона
Широкий выбор рекламных каналов, более 100 параметров по интересам, подробная аналитика и другие возможности уже ждут в Личном кабинете. А еще кешбэк 100% за запуск рекламы в первый месяц и еще 10% — каждый месяц.
— А.А.: Совершенно верно. Система умеет автоматически находить звонки определенного типа, типы эти задаются клиентом. Например, автодилер хочет знать, с каких рекламных каналов пришли звонки по продажам автомобилей, с каких — по продажам б/у автомобилей, по сервисным услугам, консультационные звонки или звонки негативные, и так далее. И система на основе заданных клиентом параметров будет автоматически эти звонки искать и отмечать.
— А.К.: Значит можно сказать, что все эти секретные технологии прослушки с автоматическим выявлением террористов, про которые мы так много читали в жёлтой прессе, стали наконец доступны и простым предпринимателям?
— А.А.: Это, конечно, громкое заявление . Я, к сожалению, не владею информацией, какие технологии использует ФСБ или ЦРУ, но, тем не менее, да, мы научились автоматически выявлять звонки определенного типа. Но мы используем эту технологию в маркетинговых целях, для оптимизации рекламных активностей и для контроля качества обслуживания клиента.
— А.К.: Самый очевидный вопрос: каким образом система это делает? И, пожалуй, более интересное: как происходит настройка? Клиент должен, скажем, ключевые слова указать, или тут какая-то более хитрая логика?
— А.А.: Система работает на базе трех основных модулей. Первый модуль — это распознавание речи, в текущий момент мы используем Yandex.SpeechKit. С помощью этой системы мы переводим речь в текст и дальше он анализируется вторым модулем — лингвистическим.
Этот модуль производит нормализацию текста и подготавливает его в специальном виде для передачи в модуль машинного обучения. Это важный этап, так как без правильной подготовки распознанного текста погрешность анализа может быть очень высокой.
Третий модуль — нейронная сеть, которая на основе отметок клиента выявляет признаки, характерные для звонков определенного типа. По полученному набору признаков последующие звонки типируются автоматически.
В общем, для того, чтобы начать, клиенту нужно просто вручную отметить звонки всех типов, которые ему нужны.
— А.К.: То есть он не задает каких-то конкретных атрибутов или списка слов, а условно говорит: вот этот звонок — это звонок-спам, а вот этот звонок — полезный, про б/у автомобиль?
— А.А.: Да, именно так. Только нужно, чтобы признаки были очевидны и понятны. Так, чтобы если попросить человека с улицы проклассифицировать звонки по этим признакам, он бы с этим спокойно справился. А если типы выделяются по каким-то субъективным параметрам, которые осознает только сам клиент, то звонки такого типа будут, скорее всего, отмечаться автоматически с большой погрешностью.
Для формирования обучающей выборки достаточно отметить вручную 150 звонков определенного типа. То есть клиенту нужно прослушать звонки за последнее время и всех типов, которые он хочет — свежих звонков, должно быть не меньше, чем по 150 штук.
— А.К.: Потом происходит какая-то корректировка? Система, например, относит звонок к определенному типу, а вы говорите: нет, это другое?
— А.А.: Совершенно верно. Дальше идет проверка, то есть из 150 звонков определенного типа, которые отметил клиент, 100 звонков идут в качестве обучающей выборки, они как раз учат машину, а 50 звонков — контрольная выборка. То есть система вначале учится, а потом на 50 звонках производит разметку, которая сравнивается с тем, что отметил клиент.
Нормальная для нас точность в начале такого теста — 95-100%, то есть один-два звонка могут определиться некорректно. Если достигнут этот результат, то система позволяет начать работу уже в стандартном режиме.
Если же некорректно отметилось больше двух звонков, тогда система предлагает расширить обучающую выборку. Нужно отметить еще хотя бы 50 звонков соответствующего типа, чтобы эта система могла работать боле точно. То есть, точность ниже 95% в принципе невозможна, система просто не позволит перейти к работе, пока не достигнет этого уровня.
— А.К.: А если сравнить машинные результаты с ручной сортировкой человеком?
— А.А.: Сейчас по нашим тестам точность определения варьируется от 96% до 100%. Результат, к нашему удивлению, оказался чуть ли не лучше, чем при человеческом ручном анализе — потому что исключается человеческий фактор.
— А.К.: А что именно анализируется системой? Может быть, учитывается эмоциональный фон, рисунок речи, её звучание?
— А.А.: Изначально мы разрабатывали систему бренд-мониторинга, которая автоматически искала по всем открытым источникам упоминание бренда и вычисляла, что это за упоминание: негативное или позитивное, изменение тренда — стало больше положительных или отрицательных упоминаний.
Поэтому сейчас мы потенциально можем анализировать большое количество параметров, не только типы звонков и обращений входящих, но и какие-то более глубокие вещи, как раз такие как тренды, их изменения, общая оценка настроения клиентов компании, и так далее.
В той версии, которую мы сейчас запустили, функционал достаточно простой, но наиболее ценный. Это определение типа звонка по заданным пользователем пожеланиям. В дальнейших релизах, я думаю, мы будем этот функционал расширять и добавлять к нему уже какие-то более детальные аналитические инструменты.
— А.К.: Вы потратили огромное количество человекочасов для того, чтобы заменить одно-единственное простое действие — отметку оператором типа звонка. Это же очень просто — оператор может после разговора поставить «птичку» в нужном месте и всё, одна секунда. Стоило ли так заморачиваться?
— А.А.: Да, самый простой способ разметки звонков — через оператора. Оператор во время разговора может нажать на определённую клавишу, и, скажем, клавиша «1» будет означать, что звонок спамный, клавиша «2» — что целевой, и нужно внести его в CRM, и так далее.
Также это можно сделать на стороне клиента, через голосовое меню: «Если вы хотите купить машину — нажмите «1», записаться на сервис — нажмите «2». Эти способы просты и незатратны, но проблема в очень большой зависимости от человеческого фактора.
Когда мы даем возможность выбирать клиенту, то погрешность чуть поменьше, чем когда мы вешаем выбор на оператора. Если оператор сам выбирает тип звонка — это, в итоге, приводит к полной каше.
По нашим тестам операторы, как правило, либо ставят типы звонков наобум, либо вообще не ставят, потому что это лишнее время, а тут клиент горит, и все горит, и работы много, и ему вообще не до этого.
Это в итоге приводит к достаточно высокой погрешности, либо к высоким издержкам — когда за оператором ставим супервайзера, который будет его поправлять, за супервайзером — другого супервайзера, потом руководителя, а сверху ещё и директора.
То есть слишком много человеческого фактора, слишком много административных издержек на то, чтобы этот способ работал хотя бы более-менее нормально.
— А.К.: Давайте еще раз вернёмся к вопросу про настройку. До какой степени могут быть детализированным пожелания пользователя? Те, которыми обозначается целевой звонок? Вот человек спрашивает нас про продукцию. Это, в общем, целевой звонок. А можем мы при анализе вопрос детализировать: по ассортименту, например, конкретные типы товаров или услуг разделить?
— А.А.: В теории да, но здесь надо понимать все-таки некоторые сложности работы технологии, то, что она построена на базе сервиса распознавания речи и качество распознавания речи, к сожалению, не 100% пока что.
Но если оператор беседует с клиентом о какой-то конкретной категории товаров, например — о газовых котлах — то мы, скорее всего, сможем точно определить тип этого звонка и по какому именно направлению шла беседа. Без очень детального углубления, на уровне категории это анализируется вполне успешно.
— А.К.: То есть, если человек звонил и обсуждал конкретную модель смартфона, мы можем сказать точно, что он общался по поводу смартфона; а вот что касается конкретной модели — будет зависеть от того, насколько он ее четко и разборчиво произнес.
— А.А.: Да, но, на самом деле всё еще сильно зависит от конкретных скриптов продаж. Если колл-центр жёстко натренирован использовать какие-то определенные фразы, тогда точность и глубину определения можно повысить в разы. Если оператор будет говорить: «Вы интересуетесь смартфонами Apple и несколько раз потом в беседе повторять именно название бренда Apple, то с высокой вероятностью мы сможем эту информацию в отчёт добавлять.
— А.К.: Получается такая СЕО-оптимизация разговорного текста: «Вы хотите купить квартиру в Москве недорого?»
— А.А.: Да, очень похоже. Но здесь мы снова начинаем зависеть от человеческого фактора, потому что в каких-то звонках оператор колл-центра будет забывать произносить заданные фразы. И если завязывать систему на конкретные фразы, которые мы научили операторов говорить, мы как раз рискуем, что что-то пойдет не так, оператор забудет или что-то еще. Поэтому нужно начинать здесь с каких-то широких базовых вещей, например — анализировать использование конкретных слов и их связь с результатами разговора в конкретной отрасли.
Мы такой подход протестировали на медицине. Для медучреждений очень важно понять, какой звонок первичный, а какой — повторный от уже существующего клиента. Проблема эта стоит остро, потому что часто люди звонят с разных телефонных номеров и просто по номеру это определить невозможно. И вот эта проблема решилась с помощью Calltouch Predict.
В этом же кейсе мы сразу же анализировали теги «запись на прием» и «звонок с негативным окрасом». Это все вычислялось очень точно, в отчёте можно было увидеть все звонки, когда человек звонил первично, и при этом те звонки, в которых он в итоге записался на прием, отмечались еще дополнительным тегом. Аналогично отмечались и звонки, когда клиент был чем-то недоволен.
Такие же эксперименты были на автомобильной тематике, выделялись звонки по типам направлений и по типам услуг автодилера. На интернет-магазинах мы строили пока что только верхний уровень, выделяли звонки продажные, консультационные и все такое.
Пока что мы не собрали статистику — насколько глубоко в интернет-магазине можно автоматически определять звонки по ассортиментной матрице, сейчас в процессе как раз всех этих тестов. Скоро можно будет поделиться более детально — насколько глубоко мы научились выявлять какие-то признаки.
— А.К.: Если говорить о бизнес-процессах, то ваша главная цель — повысить точность и снизить стоимость сортировки по сравнению с ручной обработкой?
— А.А.: Точность здесь на самом деле... Если сравнивать «ручное» прослушивание звонков, так называемый call-scoring, с автоматическим, то при прослушивании через хороший, опытный call-scoring центр, результаты по точности будут, несомненно, высокие.
Но проблема в том, что это будет стоить дорого, нам придется тратить двойной бюджет на обработку одного звонка: один оператор говорит по телефону, второй оператор потом этот звонок прослушивает, тратит столько же времени. И еще, что первым отделом, что вторым, нужно управлять и контролировать их работу.
А у нас весь бюджет на использование технологии сводится к нескольким рублям за распознавание минуты речи, то есть это в разы дешевле, чем «ручное» распознавание.
— А.К.: А на каких объемах входящих звонков целесообразно использовать такую технологию?
— А.А.: Надо понимать, что любые затраты, в том числе, что на маркетинг, что на контроль качества должны быть рентабельными. Нет смысла тратить, скажем, 20 тысяч рублей в случае, если вы заработаете за счет внедрения только 3 тысячи. Поэтому наше решение подойдет скорее средним и крупным компаниям, которым есть резон анализировать звонки, понимать как раз — какие звонки эффективные и какие нет. На основе этих данных оптимизировать маркетинг, оптимизировать бизнес процесс, работу отдела продаж и так далее.
По количеству звонков имеет смысл смотреть на использование этой технологии, если в месяц приходит хотя бы от 500 до 1000 звонков.
— А.К.: Интересный момент — с одной стороны, что технология показывает в среднем по сравнению с человеком более высокие показатели по распознаванию, с другой — отделы продаж задают жёсткие скрипты операторам колл-центра, делая их работу всё более механистичной. Может быть, человек тут уже вообще не нужен? Насколько близко мы подошли к тому, чтобы общение с колл-центром стало полностью автоматическим, когда на вопросы клиента отвечает речевой синтезатор?
— А.А.: Насчет искусственного интеллекта скажу честно — мы такую работу пока не вели. Но тема очень интересная и перспективная, и, судя по трендам, вполне возможно через несколько лет у нас уже можно будет большую часть операторов колл-центра заменить какими-то роботами.
Мы уже видели много кейсов, когда автоматизируются некоторые бизнес-процессы компаний за счет как раз речевых технологий, за счет умных голосовых меню. Например, автоматический звонок с подтверждением заказа: «Здравствуйте, вы заказали у нас диван и кресло, доставка на 23 июля, пожалуйста, подтвердите ваш заказ. — Да, подтверждаю. — Спасибо за подтверждение, до свидания».
Это все уже делается, в некоторых магазинах сейчас уже внедрены технологии, снижающие нагрузку на колл-центр, и автоматически обрабатывающие вызовы, когда все операторы колл-центра заняты. Если колл-центр не может принять вызов, звонок переводится на умное голосовое меню, и человек может, в принципе, с роботом пообщаться и совершить заказ.
Конечно, это пока что не одно и то же, что пообщаться с человеком, нельзя задать какие-то нестандартные вопросы, но покупатель уже может голосом сказать, что он хочет и получить всю информацию, вплоть до того, что даже автоматически поставить заказ на доставку.
— А.К.: Если хотите сделать заказ — нажмите 1, если просто поболтать — дождитесь ответа оператора.
— А.А.: Да, что-то такое.
— А.К.: Несколько лет назад была попытка внедрять на сайтах «инфов» — обучаемых электронных консультантов. Они как раз должны были на себя взять ответы на типовые вопросы. Но не пошло, не получилось замены человеку, сейчас уже нигде их не вижу.
— А.А.: Да, я тоже очень не люблю общаться с голосовым меню — это, в принципе, то же самое, что переписываться с чат-ботом. И это общий тренд — и мировой, и российский, эксперты прогнозировали снижение доли звонков из-за роста разных автоматических инструментов, но она особо не снижается, а в некоторых отраслях, наоборот, растёт.
Особенно на количество звонков влияет распространение мобильных технологий — людям комфортнее нажать на кнопку «позвонить» и поговорить с человеком, чем отправлять заявку через телефон. Это быстрее, проще и ты получаешь больше информации.
Поэтому, автоматизация разговора, я думаю, будет следующим большим трендом, но не могу прогнозировать, когда это случится. Общаться с роботами не хочется никому. Поэтому это станет возможно тогда, когда роботы будут говорить на нормальном человеческом языке и у тебя не будет ощущения, что ты проходишь сейчас тест Тьюринга или общаешься с бездушной машиной.
Источник фото на тизере: fastcompany.com
Мнение редакции может не совпадать с мнением автора. Если у вас есть, что дополнить — будем рады вашим комментариям. Если вы хотите написать статью с вашей точкой зрения — прочитайте правила публикации на Cossa.