Помните, мы просили вас начитать на диктофон монологи? Так вот мы их все послушали и ПРОАНАЛИЗИРОВАЛИ Точнее, не мы, а искусственный интеллект
Помните, мы просили вас отправить записанные отрывки из литературных произведений? Мы это сделали, чтобы проверить работу системы речевой аналитики TQM от Тинькофф. Эксперты считают, что речевые технологии могут кардинально изменить наш образ жизни, позволят сэкономить бизнесу деньги, а потребителю — время. Вместе с Тинькофф рассказываем, как негатив перевести в числа, что нужно, чтобы научить машину понимать сарказм, и почему так трудно считать эмоции пожилых женщин.
Начнем с главного. Смог ли алгоритм прочитать эмоции читателей?
Смог! Мы передали список аудиозаписей экспертам Тинькофф, чтобы они проанализировали эмоции с помощью TQM. В итоге алгоритм угадал эмоции — правда, в основном только негативные. Вообще, негатив, по словам экспертов Тинькофф, проще распознать, так как эмоция встречается чаще других: в 3–4% клиентских звонков. Для сравнения: радость можно уловить меньше чем в 1% звонков. Правда, как говорит Артур Самигуллин, руководитель платформы речевой аналитики в Тинькофф, оценку пользовательских аудио нельзя назвать точной: записи — это не настоящее общение с call-центром и не какие-то реальные эмоции, а начитанные тексты. TQM специализируется на реальном общении без наигранности.
Чаще всего TQM слышал негатив в отрывках из «Волка с Уолл-стрит». Ярче всего эта эмоция проявляется в записи Александра Стягуна.
Чуть меньше негатива алгоритм расслышал в записях Дмитрия и Саши Васина.
Нейтральные интонации алгоритм чаще находил среди отрывков из «Доктора Стрейнджлава». Самыми сдержанными и невозмутимыми оказались Антон Грибов и читатель под ником Разведчик.
Отрывки из «Крестного отца», по мнению TQM, могут звучать и негативно, и нейтрально. Примеры: негативный — у Рустама Шайхиева, и нейтральный — у Anna.
Ниже можно посмотреть результаты всех присланных записей. Одну оценку эмоций дал человек (редактор этого материала), а вторую — алгоритм TQM. Так как модель выдает числовые значения, мы присвоили им более понятные символы — эмодзи.
ИМЯ ЧИТАТЕЛЯ
НАЗВАНИЕ ОТРЫВКА
ОЦЕНКА ЭМОЦИЙ ЧЕЛОВЕКОМ
ОЦЕНКА ЭМОЦИЙ АЛГОРИТМОМ
Саша Васин
«Волк с Уолл-Стрит», попытка 1
😡
😡 (95%)
Саша Васин
«Волк с Уолл-Стрит», попытка 2
😡
😡 (91%)
Саша Васин
«Волк с Уолл-Стрит», попытка 3
😐
😒 (14%)
lopastvertoleta
«Волк с Уолл-Стрит», попытка 1
😒
😡 (89%)
lopastvertoleta
«Волк с Уолл-Стрит», попытка 2
😒
😒 (25%)
lopastvertoleta
«Волк с Уолл-Стрит», попытка 3
😒
😡 (77%)
AnnaNest
«Доктор Стренджлав», попытка 1
🙂
😐
AnnaNest
«Доктор Стренджлав», попытка 2
😒
😐
AnnaNest
«Доктор Стренджлав», попытка 3
😐
😐
AnnaNest
«Крестный отец», попытка 1
😐
😐
AnnaNest
«Крестный отец», попытка 2
😒
😐
AnnaNest
«Крестный отец», попытка 3
😐
😐
mitenindg
«Крестный отец»
😒
😐
Александр Стягун
«Крестный отец»
😐
😐
Александр Стягун
«Доктор Стренджлав»
🙂
😐
Александр Стягун
«Волк с Уолл-Стрит»
😒
😡 (97%)
Антон Грибов
«Доктор Стренджлав»
😐
😐
Антон Грибов
«Волк с Уолл-Стрит»
😒
😒 (52%)
Дмитрий
«Волк с Уолл-Стрит»
😡
😡 (96%)
Надежда
«Крестный отец»
😐
😐
Надежда
«Волк с Уолл-Стрит»
😒
😐
Разведчик
«Доктор Стренджлав»
😐
😐
Разведчик
«Волк с Уолл-Стрит»
😒
😒 (10%)
Рустам Шайхиев
«Крестный отец»
😡
😒 (51%)
Рустам Шайхиев
«Волк с Уолл-Стрит»
😐
😡 (97%)
baron_mercredi
«Крестный отец»
😐
😐
KateLate
«Волк с Уолл-Стрит»
😐
😒 (50%)
KateLate
«Крестный отец»
😒
😐
KateLate
«Доктор Стренджлав»
😐
😐
Anna
«Крестный отец»
😐
😐
Anna
«Доктор Стренджлав»
😒
😐
Anna
«Волк с Уолл-Стрит»
🙂
😐
Речевые технологии. Почему о них все говорят?
Вообще, речевые технологии — инструменты, умеющие распознавать и анализировать речь, а иногда и синтезировать голос — разрабатываются давно. Первые механические системы синтеза речи изобрели в конце XVIII века. А в 1937 году сотрудник лаборатории Bell создал первый электронный речевой синтезатор Voder, который мог петь, произносить звуки и слова с разными интонациями, которые задавал ему человек. В это же время в СССР ученый Лев Мясников продемонстрировал первый в мире прибор для распознавания речи, правда, распознавал он только отдельные звуки. В 1960-х СССР опережал другие страны в сфере развития голосовых технологий, но уже в 1980-х первенство перехватили ученые из США.
Речевые технологии требуют больших инвестиций как в аппаратную часть, так и в разработку софта. Сейчас над ними работают крупнейшие технологические компании мира: Google, Amazon, Microsoft и другие. Они внедряют голосовых помощников в свою технику, автомобили, предметы пользования людей с ограниченными возможностями здоровья; в бизнесе их используют для анализа телефонных разговоров с клиентами и роста продаж. Сегодня мировой рынок речевой аналитики превысил $8 млрд и продолжает стремительно расти.
Тинькофф разработал свою технологию для анализа речи. Зачем?
Тинькофф запустил свою технологию анализа речи на базе машинного обучения TQM (Tinkoff Quality Management) в 2018. Ее создали, чтобы анализировать качество работы call-центра. Эксперимент признали удачным: руководителям больше не нужно лично прослушивать звонки для контроля качества, а операторы могут улучшать свои коммуникативные навыки. С 2021 года Тинькофф начал продавать TQM сторонним организациям — для компании это новое направление бизнеса.
А что умеет делать TQM?
TQM интегрируется с телефонией и CRM, анализирует входящие и исходящие звонки — до миллиона разговоров за пять минут. Система способна на многое, например:
- Распознает свободную речь и переводит в текст.
- Находит негативные реплики клиентов по интонации и языковым тонкостям. Например, умеет различать благодарное «спасибо» и сарказм «ну, спасибо».
- Находит операторов с самым большим количеством негативных реплик клиентов и советует, на что обратить внимание.
- Анализирует офлайн-разговоры с клиентами. Например, в отделении банка или на кассе магазина.
- Анализирует переписку с клиентами в чатах и по электронной почте.
- Позволяет быстро находить и обращаться к нужным звонкам. Можно настроить поиск по ключевым словам, например по названию определенных сервисов. Система выделит искомые фразы.
- Составляет отчеты о звонках по более чем 10 параметрам: времени, конкретному оператору, подразделению, ключевым словам и так далее.
Как Тинькофф создавал алгоритм
Банк начал создавать анализатор речи в 2016 году. Тогда в команде проекта было всего два человека, а сейчас уже 18 — все они сотрудники Тинькофф, к посторонним специалистам не обращались. Алгоритм обучали на массиве из 350 000 аудиозаписей — эти примеры речи накопили за годы работы call-центра, специалисты пометили те звонки, в которых услышали негативные эмоции. Нейросеть слушала разговоры, переводила аудиоволны и распознанные тексты в цифровой код, изучала отчеты людей — и научилась находить закономерности самостоятельно. Сейчас точность анализа речи TQM — 80%, и программа продолжает совершенствоваться на уже новых примерах.
Во время обучения нейросети не обошлось без неожиданностей. Например, на этапе тестирования технологии выяснилось, что реже всего система верно распознает интонации женщин старшего возраста. Их реплики часто неоднозначны, и в итоге даже сотрудники банка, анализируя записи, спорили, есть ли скрытый негатив в диалоге с клиенткой или она всегда так разговаривает.
Как TQM определяет эмоции?
TQM работает благодаря так называемому недетерминированному подходу к обучению искусственного интеллекта. То есть, чтобы обучить нейросеть распознавать эмоции, человек не задает свои параметры (громкость голоса, скорость речи, использование определенных слов), а дает ей возможность самой определить вариации на большом количестве примеров. За счет этой особенности TQM добивается более высокой точности, чем другие системы с детерминированным подходом, при котором параметры задаются человеком.
Еще одно умение TQM, которым гордятся в Тинькофф, — семантический поиск по базе звонков. Дело в том, что клиент может выразить одну и ту же мысль сотнями разных формулировок. Например, при оформлении кредитной карты он может сказать: «У меня нет работы», «Я работаю неофициально», «Мне не дадут справку на работе», «Я недавно уволился» и так далее. TQM изучит контекст беседы и по реплике одного клиента найдет аналогичные по смыслу фразы в базе всех звонков. Такой анализ позволяет специалистам call-центра понимать, на каком этапе беседа заходит в тупик и что отвечать на такие реплики.
Зачем это бизнесу и сколько стоят услуги TQM?
Все просто: для бизнеса это новые точки роста и экономии. Технология речевого анализа помогает находить слабые места в скриптах, а отчеты по звонкам позволяют понять, что нужно в них доработать и как улучшить продажи товаров и услуг. Например, благодаря TQM в Тинькофф заметили, что, если оператор в разговоре произносит словосочетание «бесплатная доставка карты», это увеличивает конверсию в оформление на 15%. А еще банк вдвое снизил расходы на фонд оплаты труда в отделе контроля качества: теперь не люди, а нейросеть слушает и анализирует разговоры с клиентами.
Тинькофф продает технологию бизнесу — телекоммуникационным и страховым компаниям, ретейлу, интернет-компаниям, финансовым организациям и аутсорсинговым call-центрам. Можно пользоваться услугой в облаке, а можно установить ПО на свои серверы. Цена решения зависит от инфраструктуры и нагрузки конкретного бизнеса.
Что ждет TQM в будущем?
В скором времени у TQM появятся новые функции. Нейросеть научат:
- Визуализировать результативность звонков, чтобы лучше выявлять потребности клиентов и понимать, какие фразы работают, а какие нет. Инфографика наглядно покажет, почему в одной ситуации товар или услугу удалось продать, а в другой — клиент отказался.
- Выдавать рекомендации для операторов, чтобы они автоматически получали информацию о звонках и самообразовывались.
- Работать с соцсетями и рекламой. Это позволит анализировать, что пишут пользователи о компании, и увеличивать конверсию рекламных кампаний.
Прочитать больше о технологии TQM и заказать тест-драйв для своего бизнеса можно по ссылке.
Сделано в продано!
