Голосовые помощники: что мешает их развитию и что ждёт в будущем

Обзор рынка голосовых ассистентов с точки зрения пользователей и бизнеса: цифры, вызовы, перспективы.

21 июня 2021

С появления первых голосовых помощников прошло 25 лет, а технология всё ещё далека от совершенства. Алисы, Сири и Алексы не слышат собеседников, ошибаются, отвечают невпопад и не вызывают доверия у большинства пользователей.

Разберёмся, почему так происходит, как сегодня используются голосовые сервисы и есть ли перспективы развития у этой технологии.

Surf уже более 10 лет занимается разработкой мобильных приложений, в том числе банковских. Среди наших клиентов Росбанк, Магнит, KFC, «Лабиринт » и многие другие.

Как работает виртуальный помощник

Чтобы пользователь получил ответ, программа проходит пять этапов.

Убирает фоновый шум.
Преобразует звук в цифровой код.
Выделяет речь, анализирует отдельные слова и связь между ними.
Сравнивает полученную информацию с шаблонами. Система ищет варианты, как слово произносится. Если слово для неё новое, она так же сравнивает его с шаблонами. Когда голосовой помощник не может найти ответ, не понимает команду, то просит пользователя задать вопрос по-другому.
Выдаёт ответ, ориентируясь на библиотеку шаблонов и поведение пользователя в сети, его прошлые запросы в поисковых системах, геолокацию.

Программа может вступить в диалог, если ей не хватает данных. Например, уточнить, куда пользователь хочет поехать, если тот вызывает такси.

Несовершенная технология

Хотя схема выглядит стройной и понятной, она по-прежнему изобилует багами. Только за прошлый год голосовые помощники спровоцировали несколько довольно громких инфоповодов.

Например, Алиса по ошибке выдавала личный номер тверского пенсионера за номер администрации города Конаково. В итоге на бывшего мэра, давно ушедшего на пенсию, обрушилась лавина звонков горожан, желающих заказать пропуск. Та же Алиса вгоняла пользователей в ступор открытой критикой президента и фразами о том, что «он попал в Кремль случайно». А Siri неоднократно путала гимн стран Балтии с гимном СССР, включая жителям Эстонии и Латвии «Союз нерушимый».

Это лишь некоторые из ошибок, просочившихся в сеть. Куда больше милых багов, с которыми мы сталкиваемся при ежедневном взаимодействии с голосовыми помощниками. Но они по-прежнему пользуются спросом. По итогам 2020 года, объём мирового рынка умных колонок составил 154 млн единиц, увеличившись на 58% (аналитика компании Omdia).

За что мы их любим

Люди говорят почти в четыре раза быстрее, чем печатают. Голосовой помощник помогает быстрее ввести данные и получить ответ. Конечно, при условии, что программа чётко распознала речь и нашла шаблон в базе данных.

Голосовым приложением чаще пользуются, когда заняты руки. По этой причине из голосового приложения на смартфоне помощники быстро перекочевали в музыкальные колонки и умный дом. Можно заниматься домашними делами и параллельно заказывать еду из ресторана, не отвлекаясь на нажатие кнопок.

Самый популярный ответ на вопрос, почему вы используете виртуальных ассистентов — «Это быстро» (исследование Stonetemple)

Голосовые чатботы заменяют десятки сотрудников. Бизнесу выгоднее вложиться в разработку голосового помощника, ведь бот может общаться с сотнями клиентов одновременно, не уставать и не бегать покурить каждые полчаса.

Помощника можно персонализировать. Изменить голосовые команды, дать имя ассистенту вместо «заводского» и даже выбрать голос, чтобы о погоде и курсах валюты вам рассказывал Трамп или Баста.

Просто интересно. Каждый хотя бы раз так делал: задавал Алисе странный вопрос, а потом издевался над её ответом. А как ещё мог бы появиться баг с критикой Путина?

Что бесит в голосовых помощниках

Бот не понимает команды. Когда десять раз просишь включить ребёнку сказку про муми-тролля, а колонка десять раз включает Лагутенко, рано или поздно приходишь к мысли, что проще было бы написать.

Сложнее преодолеть языковой барьер. Текстовый запрос можно быстро перевести онлайн-переводчиком, а голосовой ассистент общается на ограниченном наборе языков.

Неловко как-то. Легче всего в контакт с голосовыми помощниками вступают зумеры. Бумерам, поколению 1990-х и даже миллениалам трудно заставить себя разговаривать с колонкой, чайником или утюгом. Ощущение идиотизма ещё сильнее, если приходится общаться с техникой в публичных местах.

Использовать голосовую команду для поиска информации без визуала сложно. На вопрос «Сколько времени?» ответ однозначный. А покупка техники, выбор отеля или ресторана уже требуют в ответ фотографии и видео.

Проблемы с защитой персональных данных. Например, Siri можно активировать, когда телефон находится в фоновом режиме. А значит, любой человек может включить ассистента и выполнить какие-то действия. Известный пример: в 2019 году Apple официально принесла извинения за то, что нанимала субподрядчиков, прослушивающих записи разговоров пользователей. В большинстве случаев запись включалась автоматически после того, как юзер произнёс ключевую фразу: «Привет, Siri». По словам Apple, прослушивание велось для того, чтобы повысить качество распознавания речи.

Кто пользуется голосовыми помощниками

Примерный портрет типичного любителя умных колонок — молодой человек в возрасте от 16 до 34 лет. Он с одинаковым успехом может быть как юношей, так и девушкой — статистика показывает, что голосовыми помощниками пользуются оба пола.

А ещё пользователь, вероятнее всего, китаец, так как наиболее популярны виртуальные помощники именно там. Вводить текстовые запросы на китайском довольно сложно, голос стал хорошей альтернативой. Да и в целом китайцы охотнее принимают новые технологии.

Поколения по-разному используют помощников. В рамках исследования «Будущее голосового поиска» портал Search Engine Watch сравнил запросы к голосовому помощнику подростков и взрослых:

Сценарии использования в бизнесе

Чаще всего боты заменяют менеджеров на входящих звонках и обзвоне. Один робот способен обработать за день до двух тысяч звонков. Компания может быстро окупить вложения на разработку помощника, убрав расходы на зарплаты, аренду площади, телефонию и интернет.

Голосовой ассистент может решать и локальные задачи бизнеса. Например, в числе кейсов Surf есть концепт для ресторана KFC. Клиенту помогает сделать заказ виртуальный полковник Сандерс. Пользователь может общаться с ним, как с кассиром.

С помощью полковника Сандерса можно:

быстро посмотреть нужный раздел меню, сказав «Покажи мне все бургеры»;
найти самое выгодное по цене блюдо: «Покажи мне все бургеры по акции»;
изучить новинки, близкие по вкусу. Система автоматически обрабатывает заказы постоянного клиента и предлагает попробовать блюда, схожие по составу;
заказать доставку домой. Если клиент заказывает не первый раз, ему не нужно говорить адрес и вводить контакты. Заказ оформляется в разы быстрее;
повторить заказ.

По данным рекламной сети AdColony за 2019 год, 61% покупателей предпочитает покупать у ритейлеров, которые позволяют изучить товар в дополненной реальности. Чтобы приложение максимально подтолкнуло клиента к покупке, мы предложили в пару к голосовому ассистенту использовать AR-режим для любого блюда.

Таким образом, голосовой ассистент помогает клиенту почувствовать себя так, будто он находится в реальном ресторане. Заказ блюд делается предельно быстро, компания может продать больше и сэкономить на обслуживании бизнеса.

Другой пример использования голосового помощника — семейство виртуальных ассистентов Сбербанка. Это кейс с прицелом на кастомизацию: помощников три, каждый со своим характером, голосом и целевой аудиторией. Количество сценариев соответствует широкому диапазону запросов: можно переводить деньги, записываться к парикмахеру, болтать, искать рецепты.

Juniper Research утверждает, что к 2024 году потребители будут взаимодействовать с голосовыми помощниками на более чем 8,4 миллиарда устройств. Казалось бы, такая статистика предвещает расцвет популярности голосовых помощников, что ведёт к росту кейсов, связанных с технологией. Но если всмотреться внимательнее, всё не так однозначно.

Что ждёт голосовых помощников в будущем

Исследование Forrester среди американских пользователей показывает, что заказ или повторный заказ товаров является самым непопулярным запросом (не более 5%). Чаще пользователи просто задают вопросы (83,1%) и справляются о погоде (77,1%). На вершине топа — включить музыку (88,7%). То есть большинство владельцев умных девайсов используют их исключительно как аудиоустройства.

Интеграция с аудиостриминговыми сервисами — самый понятный и популярный сценарий для виртуальных помощников. Голос — естественный и удобный способ управления музыкальным потоком. Музыка как настроенческая область сама подталкивает нас к голосовому взаимодействию.

В отличие от сервисных запросов — «купи бананы» или «позвони бабуле» — здесь менее всего важна точность. Напротив, пользователи стремятся уйти от детализации. On demand-обращения уступают место сложным и абстрактным формам: не «поставь КиШа», а «поставь что-нибудь бодрое». Это подтверждает готовность аудитории воспринимать голосового помощника как систему, потенциально способную на сложное, почти человеческое взаимодействие. И системы постепенно начинают этому соответствовать, самообучаясь и усиливая свои навыки кастомизации.

Именно поэтому наибольшее развитие голосовых помощников происходит не в ecommerce, фудтехе или в сфере госуслуг, а в музыкальных сервисах. Сегодня аудиостриминговые приложения — единственная область, в которой возможности виртуальных ассистентов раскрываются полностью и соответствуют ожиданиям потребителя. В остальных сферах голосовые помощники всё ещё не самодостаточны.

После периода завышенных ожиданий 2018–2019 годов, когда ИТ-компании одна за другой анонсировали выход умных колонок, кривая hype cycle вывела технологию на новый виток — избавления от иллюзий.

Оказалось, что на пути развития технологии стоят серьёзные препятствия. Есть сложности с интерфейсом ввода и вывода (вспомните, как часто вам хотелось показать Алисе, что именно вы имеете в виду). Есть трудности с эмоциональным восприятием помощников и общением с неживыми предметами. Голос удобен для управления, но в контексте человеческого общения он не существует сам по себе. Огромное значение имеет интонация, порядок слов — нюансы, к восприятию которых искусственный интеллект приблизился лишь отдалённо.

Но дело не только в способности голосовых помощников воспринимать эмоции или инверсию. Системы станут самодостаточными, по-видимому, только когда дополнятся другими девайсами. Например, AR-очками, которые добавят к голосовому управлению визуальный компонент.

Речь идёт не об отдельных кейсах использования виртуальных ассистентов, а о создании новой системы коммуникации XR — extended reality. Она объединит технологии AI, VR, MR и AR в единый способ взаимодействия с окружающей средой, в котором голосовое управление будет естественно сочетаться с другими компонентами.

XR станет новым информационным слоем в пространстве.

В тот момент, когда вы, надев AR-очки, сможете сказать Алисе: «Смотри, какой ресторан, добавь-ка его мне на карту и поищи похожий рядом с домом» — можно будет говорить, что голосовые помощники стали полноценной частью нашей жизни.

Какой вывод можно сделать из этой гипотезы? Ждём появления нового технологического чуда — AR-очков от Apple или Microsoft. До тех пор голосовые помощники смогут развиваться лишь линейно, оттачивая мастерство точного распознавания человеческой речи или даже эмоций. Пока этого вполне достаточно, чтобы отполировать технологию. И подготовить её к чему-то большему.

Что ещё почитать по теме

На чём разрабатывать мобильное приложение: натив VS кроссплатформа

Как бренду выстроить D2C и как в этом поможет мобильное приложение

Игры по новым правилам. Что означает отсутствие доступа к IDFA и как это повлияет на мобильный маркетинг в будущем

Новая реальность уже наступила: тренды в мобильных приложениях 2021

Секреты Brand Intimacy: как повысить лояльность клиентов с помощью мобильного приложения

Вирусный цикл, триггеры и награды. Как создать привычку использовать мобильное приложение