16.05.2022 • Игорь Калинин, генеральный директор TWIN • Просмотров: 1427

Что «под капотом» диалога с ботом?

По статистике от 37% до 86% россиян в телефонном разговоре пытаются поскорее «пройти робота» и услышать желанное «Соединяю с оператором». Хотя, если нужно узнать статус заявки или наличие товара, общение с автоматическим помощником даже удобнее — он быстро и без ошибок ответит на вопросы, поскольку получает сведения напрямую из базы данных. Тем не менее, сухой информации для пользователей недостаточно, все хотят, чтобы разговор был и полезен, и приятен. Можно ли научить бота такому?

Как понять собеседника?

В основе архитектуры голосового робота лежат методы понимания естественного языка (NLU, или Natural Language Understanding). Эта технология была изначально создана английской компанией OpenAI и с тех пор совершенствуется многими ведущими разработчиками.

Например, собственная технология компании TWIN позволяет с высокой точностью (более 96%) распознавать намерения абонента, выраженные самыми разными фразами. Намерение — это ключевое понятие в распознавании речи, по сути, это смысл запроса, то, чего собеседник хочет добиться или получить в разговоре.

К примеру:

«Хочу узнать баланс», «сколько у меня там на счету?», «сколько денег на моём телефоне?» — всё это примеры по-разному сформулированного, но одного и того же намерения.

Но всякая технология требует человеческого контроля — и потому качество разговоров проверяется на фокус-группах, отобранных с учетом обсуждаемой тематики. В них входят как разработчики голосовых продуктов, так и представители заказчика.

Как управлять логикой диалога?

Основная технология работы диалогового бота — сценарии. Это набор правил, которым следует бот, чтобы привести канву разговора к желаемому для клиента итогу — получению информации, оформлению заказа и т.д.

Для управления логикой диалога разработчики сценариев используют различные структуры:

Линейная структура далека от подобия разговору. Она используется в только однозначных ситуациях, когда человек хочет узнать баланс на своем счете или проверить статус заказа. По сути это пара «запрос-ответ» или прямая последовательность таких пар.
Кольцевая структура. Такой формат знаком нам по обычному голосовому меню. Здесь можно добавить разные блоки и даже управлять интонациями. И так возникает иллюзия хоть и короткого, но настоящего разговора.
Дерево. Разветвляющаяся структура, которую удобно использовать при большом количестве уточняющих вопросов. Например, так может выглядеть оформление заказа в интернет-магазине. Хотя дерево может быть очень разветвлённым, но каждый конкретный путь по нему всегда линеен.
Граф. Наиболее сложная и наиболее гибкая структура. Это узлы и связи между ними. Переход по связям выполняется при выполнении тех или иных заданных правил. Граф позволяет откатиться назад к любому месту разговора — например, когда он не привёл к результату, зашёл в тупик или собеседник изменил первоначальное намерение. Графы позволяют моделировать самые сложные логики диалога, предусмотреть различные варианты его хода при разных сценариях поведения абонента. В результате — максимальное приближение к подобию полноценного разговора.

Чаще всего классический коммерческий сценарий содержит последовательность таких этапов:

Вежливое приветствие и идентификация абонента
Ответы на вопросы
Уточняющие вопросы
Контекстные предложения
Мотивация сделать заказ именно сейчас: скидки, лимитированная коллекция, ограниченное количество — любая причина, по которой лучше не откладывать покупку.
Дополнительная помощь
Оценка качества диалога

Бывает, что человек звонит, потому что его не устраивает ассортимент, цены или условия. Такие коммуникации не ведут к продажам или продолжению сотрудничества, но они не менее полезные. Хотя даже тут система может учесть претензии клиента и на их основе подобрать наилучшее решение.

Важно:

Робот должен не должен общаться механически. Даже очень сложные сценарии можно структурировать так, чтобы обмен репликами превращался в конструктивный диалог.

Если сценарий построен правильно, позвонившему покажется, что он поговорил с сообразительным менеджером — получил исчерпывающие ответы на вопросы и не потратил лишнего времени.

Почти как человек

Чтобы преодолеть барьер — робость, страх или неприязнь звонящего к разговору с роботом — активно применяются технологии персонификации ботов. Совершенствуется синтез речи — в ней звучат человеческие интонации. Наиболее продвинутые боты — такие как твины, например — учатся распознавать эмоциональное состояние собеседника и подстраиваться под него. Кстати, такая подстройка может состоять не только из выбора лексикона, но и включать изменение тона разговора и даже выбор других логических веток сценария.

Голосовым и чат-ботам создают виртуальную личность — со своим именем, иногда даже внешностью и чертами характера (хрестоматийный пример — Алиса от Яндекса). В самом деле, неудобно общаться с тем, к кому даже не можешь обратиться по имени.

Пример из жизни:

Архитекторы TWIN создали ассистента для банка УРАЛСИБ — Оксану Соловьеву. У нее есть свой внешний образ (аватар) и узнаваемый голос. Автоматическая ассистентка принесла пользу для бизнеса УРАЛСИБа: время на обзвон клиентов сократилось в 2-3 раза, а расходы компании на каждый звонок сократились почти на треть.

Завтрашний день ботов

Уже сегодня некоторые системы обслуживания способны узнать человека по голосу. Такие решения используют крупнейшие российские банки и госорганы. И даже применяют их для идентификации собеседника — как известно, «голосовой слепок» не менее индивидуален, чем отпечатки пальцев или радужная оболочка глаз.

При активном развитии самообучающихся нейросетей и синтеза речи общение с клиентом можно максимально персонализировать — использовать индивидуальные речевые обороты, находить и запоминать интересующие темы диалога, подбирать тембр голоса и интонации. Разумеется, персонализированными должны быть и предложения клиенту.

Пример из жизни:

Shop&Show — известный в России и Европе телемагазин нового поколения. В его колл-центр ежемесячно поступает более 5 млн звонков. После внедрения твина его работу 92-95% звонков стали завершаться успешным результатом. Один из использованных приёмов — после определения номера звонящего твин за 0,001 секунды получает данные из базы клиентов компании и ведёт дальнейший диалог уже на основе ранее накопленной информации о собеседнике. А объединение голоса диктора и синтеза речи создало иллюзию общения с живым оператором. Это важно, ведь 80% клиентов телемагазина — пожилые люди.

Адаптивное обслуживание

Банкинг и финансы

Онлайн-торговля

Персонификация

Распознавание речи

Синтез речи

Технологии