истории

«С кофеваркой надо разговаривать» Интервью Дениса Филиппова, главного по речевым технологиям в «Яндексе»

05:12, 14 июня 2016

Источник: Meduza

В начале июня американский венчурный капиталист Мэри Микер представила очередной доклад о тенденциях развития интернета. В нем особое место уделяется речевым технологиям: Микер полагает, что за голосовым вводом — будущее интерфейсов. «Медуза» поговорила с Денисом Филипповым, отвечающим в «Яндексе» за развитие голосовых технологий, о том, как роботы понимают и синтезируют речь, можно ли научить их разговаривать с акцентом — и как мы будем взаимодействовать с кофеварками.

— Хотелось бы понять, что вообще представляют собой речевые технологии.

— Речевые технологии на самом деле состоят из набора нескольких технологий. Первая — распознавание речи. Человек что-то сказал, и мы должны получить текст сказанного. Желательно с максимальной точностью и качеством.

Вторая важная речевая технология — синтез речи. Тоже ясная задача, обратная распознаванию, — есть какой-либо текст, его нужно озвучить так, чтобы было понятно человеку.

Третья технология, которую тоже относят к речевым — это голосовая биометрия. По голосу можно определить множество важных характеристик человека. Например, пол — кто с нами говорит, мужчина или женщина; возрастной диапазон — ребенок, подросток, взрослый, пожилой человек. По голосу можно даже определить эмоциональное состояние человека.

Еще одна важная задача, которую решает биометрия — это узнавание человека по голосу.

Все это — речевые технологии. Но не менее важны разработки на стыке речевых технологий, технологий обработки текста и понимания его смысла. К этой сфере относится понимание естественного языка, а уже из него вырастает целая палитра разных технологий.

— Что входит в понимание языка? Умение вести диалог?

— Здесь важно понимание задачи человека — что вообще он хочет у нас спросить, на какую тему человек общается с нами? Дальше важно научиться выделять смысловые объекты из сказанного текста. Допустим, человек говорит: «Какая сегодня погода в Москве?» Мы можем понять, что человек разговаривает с нами о погоде, но для решения задачи нам этого недостаточно. Мы должны из этого текста понять, на какую дату человека интересует погода («сегодня» — это конкретная дата) и в каком городе он хочет ее узнать («Москва» — конкретное место на карте).

Кроме того, нам часто нужна технология поддержки контекста и ведения диалога. Допустим, вы спросили: «Какая сегодня погода в Москве?» Система вам ответила, а следом вы спрашиваете: «А что будет завтра?» В отрыве от первого запроса текстовая строчка «А что будет завтра?» взрывает мозг системе, она не понимает, к чему это. Но если у нас есть технология запоминания контекста, хранения предыдущих запросов, то мы можем совершенно легко ответить на этот вопрос и сказать, что завтра будет такая-то погода.

И чтобы все эти технологии заработали вместе, нам нужна еще одна — она называется «dialog manager», то есть технология ведения диалога. У нас есть понимание задачи, выделение смысловых объектов, технология, которая позволяет сгенерировать соответствующий текстовый ответ на запрос человека в зависимости от контекста. Но нам еще нужен движок, который объединит эти технологии и позволит реализовать сценарии общения по различным темам. А главное — выстроит с пользователем диалог.

Это, на мой взгляд, наиболее полная палитра речевых технологий. Они уже и не совсем речевые — в них много про понимание смысла, про умение поддержать диалог с учетом контекста, понимание, что человек уже поменял тему и хочет решить другую задачу.

— А как на практике работает распознавание речи?

— Распознавание, на мой взгляд, — самое сложное в разработке. Массовое распространение распознавание речи получило не так давно, лет пять-шесть назад. Системы для распознавания существовали и раньше, но уровня качества не хватало для их применения в массовых сервисах.

Принципиальный скачок случился за счет применения глубоких нейронных сетей и больших данных. Самые современные технологии распознавания речи применяют глубокие нейронные сети. Сами нейронные сети как математические модели были всегда, еще с 1960-х. Есть проблема: чтобы получить хорошее качество, нужно в эту нейронную сеть засунуть очень много данных и обеспечить для тренировки огромные вычислительные мощности, иначе тренировочный процесс может идти годами.

Чтобы разобраться в нейросетях:

Как обучают искусственный интеллект?

И получается, что распознавание речи состоит из двух основных частей — это акустическая модель, которая слышит звук, разбивает его на маленькие кусочки и пытается с той или иной вероятностью сказать, какая, например, фонема звучит в каждом кусочке этого звука. И языковая модель, которая описывает ту или иную тематическую область. Например, для навигатора — это тексты на географическую тематику (адреса, названия организаций и так далее), для поиска — тематика поисковых запросов, все, что люди спрашивают у поисковой строки. Для распознавания, допустим, совещаний — это тематика совещаний конкретной компании, то есть тексты, содержащие протоколы совещаний.

В чем здесь секрет? Нейронная сеть есть, но нужно собрать огромное количество данных для ее обучения, чтобы она начала показывать хоть какой-то нормальный результат в качестве распознавания. И акустическая модель — это тысячи часов размеченной речи. Вот человек что-то говорит, потом другие слушают записи и пишут, что было сказано в этой речи. И помечают, где были шумы и была ли фоновая речь.

Самая сложная задача сейчас в распознавании речи — отделить основного спикера от фоновых. Эта задача называется «вечеринка с коктейлем»: когда много народу, все что-то говорят, слышны обрывки фраз, гремит музыка на фоне, и распознаванию речи надо догадаться, кто же здесь основной спикер, чью речь ей нужно распознать.

С языковой моделью проще, потому что она тренируется на текстах. Но, опять же, важно найти эти тексты в большом количестве. Например, для тренировки общепоисковой модели мы используем терабайты текста. Это логи за все годы существования «Яндекса» — все, что люди спрашивали в поисковой строке, используется для тренировки модели. Но не всегда удается быстро найти такие данные.

Нам везет. Если у поиска что-то спрашивают голосом — мы эти данные берем и на них делаем модель. Если у навигатора спрашивают, у нас появляются данные. В сухом остатке у нас получается качество речевых технологий, которого достаточно для приложений «Яндекса».

— С синтезом речи, наверное, все просто — записал, как звучат буквы, и склеиваешь их между собой?

— У этой истории две стороны. То, о чем вы говорите — это технология «unit-selection», она появилась давным-давно. Работает она примерно так: мы берем диктора-донора и очень долго записываем его в студии, порядка двух месяцев. За диктором наблюдаем, чтобы он, не дай бог, в этой студии не начал говорить с разными интонациями. Пишем час-два в день, чтобы диктор не уставал и чтобы интонация всегда была ровная. А дальше все слова, которые были произнесены, нарезаются на кусочки (для упрощения понимания скажем, что на буквы). Из нарезанного составляется большая база данных: как звучит каждая «буква» в зависимости от того слова, в котором она находится. И когда у нас возникает задача озвучить какой-то текст, мы из этой базы собираем звуки и склеиваем их. На коротких текстах это работает достаточно хорошо. Стандартные фразы: «Здравствуйте, вас приветствует компания такая-то» или «Здравствуйте! Сегодня погода такая-то». Но это, по сути, не синтез речи, а просто воспроизведенные кусочки реальной речи.

Фото: «Яндекс»

Проблемы начинаются, когда мы пытаемся таким синтезом читать что-то длинное — даже электронное письмо на два предложения. Тогда у синтеза начинает либо «плавать» интонация, либо голос «булькает», потому что нет алгоритма, который отвечает за правильную склейку интонации на стыках смысловых предложений, фраз и так далее. И когда вы слышите длинный аудиотекст (например, если таким синтезом попробовать озвучить аудиокнижку), это очень быстро начинает раздражать, потому что интонация постоянно плавает, а слух устает это слышать.

Но есть второй подход, которым пошли мы — статистический. Это, в общем, то же самое, что и распознавание речи: есть акустическая модель, которая обучается на данных — записи речи с текстовыми транскрипциями. Данные — тот же диктор читает текст, но в гораздо меньшем объеме. Допустим, мы записали непрофессиональным диктором 600 предложений за один день в студии, синтезировали и получили голос.

Какие преимущества это дает? Во-первых, скорость разработки голосов — мы можем быстро создавать разные голоса. Во-вторых, это всегда четкая и одинаковая интонация на любой длине текста. Чем мы за это платим? Натуральностью, естественностью голоса. Голос у такого синтеза получается с роботизированным окрасом, он немного дребезжит, как робот. С разборчивостью и интонациями у нас уже все хорошо, и сейчас мы работаем над тем, чтобы найти алгоритмы, которые помогут этот голос сделать максимально натуральным. И в синтезе для нас сейчас это самое интересное.

— Получается, вы практически ничего из исходных записей не используете — просто учите машину говорить похожим голосом? Или как это происходит?

— В синтезе есть акустическая модель, она учится на том, что человек говорил. Модель умеет для заданного текста выдавать с той или иной вероятностью нужные фонемы с предсказанием пауз между словами и интонаций. И она как раз пытается воспроизводить уникальные характеристики голоса человека для узнаваемости синтезированного голоса.

Акустическая модель выдает нам числа, задающие параметры звуковой волны. А дальше у нас есть специальный модуль, он называется «вокодер». Он получает на вход последовательность чисел и преобразует их в звук, в речь. Грубо говоря, акустическая модель, подсмотрев, как говорит человек, как он читает текст, сама уже умеет читать вслух любой текст так же, как это делает человек.

Специально для этого интервью «Яндекс» заставил читать шапито про нашествие овец робота, который научился говорить голосом Юрия Левитана

— Вы еще говорили про биометрию…

— Да, мы сейчас активно работаем над этой технологией. Голосовая биометрия несколько похожа на любую речевую технологию. По сути, это классификатор, который обучается так: мы берем много-много разных аудиозаписей и размечаем их. В любых речевых технологиях все про данные и их подготовку. От объема и качества данных зависит итоговое качество речевых технологий.

В биометрии мы берем много записей и слушаем их на предмет того, кто там говорил: мужчина или женщина, какой примерно возрастной диапазон. Конечно, иногда бывают ошибки — голоса некоторых женщин похожи на детские, и не всегда пожилого человека выдает его голос. А дальше классификатор обучается на определение пола человека и его возраста с той или иной вероятностью.

Но самое важное в голосовой биометрии — решение задач идентификации (узнать человека из многих по голосу) и аутентификации (подтвердить с помощью голоса, что это именно тот человек, за которого он себя выдает). Для решения этих задач технология тренируется на так называемых голосовых слепках. Зная, что в этой записи говорил Денис Филиппов, мы создаем из нее некий уникальный слепок голоса, уникальную последовательность чисел, которые получены из характеристик моего голоса. И дальше, если есть какая-то запись речи человека, то мы голос в ней тоже представляем в виде последовательности чисел по тому же алгоритму, и если эта последовательность определенным образом совпадает с голосовым слепком, мы говорим, что с такой-то вероятностью в этой записи тоже был голос Дениса Филиппова.

В части аутентификации голос можно использовать как пароль. Человек, регистрируясь в системе, читает какую-то стандартную фразу — например, «Мой голос — мой пароль». Он зачитывает эту фразу три раза, и в системе хранятся отпечатки голоса человека с заранее известной фразой. И когда человек захочет залогиниться, он не набирает пароль, а просто говорит: «Мой голос — мой пароль», и система сравнивает эту запись с теми тремя.

— Тогда почему это широко не внедряется и мы все еще вводим пароли руками?

— Голос, конечно, можно использовать для авторизации, но это не очень надежно. И там, где она применяется — в бизнесе это в первую очередь банковские службы безопасности — голосовую биометрию используют только как дополнительный фактор идентификации и авторизации. Когда спросили кодовое слово, задали все эти секретные вопросы, то еще и по голосу на всякий случай проверяют, что это именно тот человек, за кого он себя выдает.

Никто пока не полагается на голос как на идеальное и единственное средство авторизации. Но мы работаем в этом направлении, и в узких сегментах бизнеса (особенно в части безопасности) биометрия имеет все шансы на активное применение.

— А телефон сильно искажает голос?

— Смотря что мы понимаем под телефоном. Когда мы открываем наш навигатор и говорим в него — мы, по сути, используем смартфон как диктофон. У него очень хороший микрофон, и не один, и сигнал записывается в хорошем качестве.

А если мы поднимаем трубку и звоним кому-нибудь по сотовому телефону — вот там все гораздо хуже, потому что сотовые операторы используют кодеки сжатия, GSM-кодеки. И, наверное, всем знакома ситуация: «Алло! Что ты сказал? Что-то тебя не слышно, повтори». Это не человек как-то тихо говорит — он просто находится в месте, где качество связи не очень хорошее. А качество сигнала в телефонной линии напрямую влияет на качество распознавания голоса. Если сигнал слабый, то даже человек не слышит, что уж говорить о системе.

— Я просто подумал, что можно же сделать приложение для защиты от пранкеров. Тебе звонят, и на экране высвечивается, что это не Петя, а кто-то от его имени.

— Да, как раз банки и все финансовые структуры такой штукой от пранкеров и защищаются. Мы звоним в банк, там поднимает трубку IVR (виртуальный помощник, который предлагает решить проблему без участия оператора — прим. «Медузы»), и как обычно выговаривает: «Здравствуйте! Вы позвонили в банк такой-то, что вас интересует?» Допустим, человек начинает что-то говорить, и достаточно получить от десяти секунд речи, чтобы уже более-менее точно понять, тот ли человек звонит, которым он представляется. А потом еще задать ему несколько разных вопросов, и система еще более уверенно скажет, клиент это банка или нет.

Более того, если говорить про пранкеров, есть общие базы голосовых слепков злоумышленников. То есть банки используют и идентификацию — просто по голосу пытаются понять, кто это говорит, и сравнивают записи голосов с базой пранкеров.

Фото: «Яндекс»

— Но в реальных продуктах, я так понимаю, вы не на биометрии сфокусированы?

— Ну, как в реальных. У нас в «Яндексе» два направления работы. Первое, основное — это обеспечение наших мобильных приложений речевыми технологиями. И там основной упор на качество распознавания речи, потому что, очевидно, нам нужен простой способ ввода поисковых запросов. Над синтезом мы начали работать, потому что нам интересно давать пользователю голосовой ответ. Сценарии использования голосовой биометрии мы пока только прорабатываем, но она может помочь, например, понять, что с нами сейчас разговаривает ребенок, и попытаться как-то персонализировать под него выдачу.

Второе направление работы — это бизнес. Мы с прошлого года начали активно искать в «Яндексе» новые бизнес-модели, и, в частности, стали предлагать B2B-рынку наши технологии.

Речевые технологии оформились в линейку «Яндекс.Speechkit», мы предлагаем эти продукты для автоматизации контакт-центров в банках и телекомах. И недавно у нас был проект с «Мегафоном» — и там как раз важна биометрия, потому что компания хочет узнавать своего клиента, чтобы строить полноценные сервисы самообслуживания.

— У «Мегафона» в call-центре теперь роботы отвечают?

— Да, в центральном филиале мы уже закончили первый этап. Виртуальный оператор Елена называется. Это автоматизированная система, которая этого не скрывает. Она так и представляется: «Я — виртуальный оператор Елена».

В телефонии у многих компаний проблема с тем, чтобы обеспечить достаточное количество операторов, чтобы не заставлять клиентов ждать на линии. Вы позвонили: «Здравствуйте! Мы рады вашему звонку, подождите несколько минут». И эти несколько минут могут превратиться и в пять, и в десять минут ожидания на линии. Ждать многие абоненты не готовы, кидают трубку, и в итоге недовольны качеством обслуживания.

А что позволяют речевые технологии? Виртуальный оператор на все звонки отвечает моментально. Он работает круглосуточно, без выходных и всегда с одинаково хорошим настроением. После приема звонка «Елена» определяет тему обращения человека (тут работает технология понимания естественного языка). Даже если человек с ужасным акцентом говорит: «Я там, это, 100 рублей было и куда-то делось», система понимает, что у человека проблема с балансом, куда-то деньги списались. Она определила тематику, а дальше специалисты «Мегафона» для каждой из тематик (их больше 60) прописали сценарии решения задачи. Виртуальный оператор начинает задавать конкретные вопросы и в итоге подводит человека в решению его проблемы.

— А много людей пугаются, бросают трубку или говорят: «Дайте мне живого человека»?

— Вначале было много. Когда просто поднималась трубка и говорилось: «Здравствуйте, я Елена». А сложные проблемы как всегда просто решаются. Стоило просто дописать: «Здравствуйте. Я виртуальный оператор Елена. Я робот. Чем я могу вам помочь?», сразу же этот испуг испарился. Люди сразу погружаются в нужный контекст, они понимают, что с ними общается железяка.

А выбор какой? Либо десять минут ждать на линии оператора, либо научиться общаться с виртуальным оператором, четко сформулировать свой запрос и моментально получить на него нормальный ответ, сохранив свое время. И это здорово.

— Сейчас речевые технологии выглядят так, будто они просто догоняют человека — по качеству распознавания, по естественности произношения. Но можно ли научить их чему-то такому, с чем человеку трудно?

— На самом деле система уже сейчас умеет несколько больше, чем человек. Взять тех же таксистов. Иногда я не понимаю, что он говорит, а навигатор понимает. То есть я сижу и просто: «Что это? Почему он его понял? Даже я его не понял».

Робот, который научился говорить как Оксана, голос «Яндекс.Навигатора», зачитывает материалы из «Шапито»

— То, как таксисты пытаются разговаривать с навигатором, уже даже в клип «Ленинграда» попало. А как вы учили нейросеть? Сажали людей с акцентом и заставляли говорить текст?

— В том числе и так. Но мы используем все данные — например, из наших приложений. У нас есть большое количество пользователей навигатора по всей стране, и они говорят в приложение адреса на всех возможных акцентах. А мы в итоге получаем максимально возможные вариации звучания всевозможных акцентов.

Дальше мы берем эти данные и доливаем их в тренировку акустической модели системы распознавания речи. И в итоге она умеет правильно понимать любые акценты и даже дефекты речи.

— А потом вы еще научите ее разговаривать с этим акцентом?

— Да.

— В теории.

— Нет, не в теории, но и на практике. Можно совершенно точно научить систему, и это как раз то, над чем мы сейчас работаем в синтезе — мы пытаемся без аудиозаписи [менять акценты]. Ну, как — мы используем, конечно, аудиозаписи для исследования голосовых характеристик.

Грубо говоря, наш синтез речи умеет говорить. И надо выяснить, какие числа в нем нужно крутить, чтобы он начал говорить как, не знаю, таджик. Или как грузин. Или армянин. Или русский из какого-нибудь региона с характерным говором. Особенности говоров — они тоже по идее должны поддаваться параметризации. Можно понять, что для этого говора подходят такие числа, а для этого акцента — такие.

— Может, вы еще эмоции синтезировать умеете?

— Да, эмоции — это то же самое, это тоже параметр нашего голоса. Когда мы печальные, это совершенно конкретно влияет на наш голос. Вы четко можете понять — человек расстроен или он в нормальном состоянии, или очень веселый. Как вы это понимаете? Вы используете ваш слуховой аппарат, который работает как классификатор, как та самая нейросеть. Условно говоря, эта нейросеть находится у вас в голове.

И мы пытаемся выяснить, что человек такого слышит, что понимает, даже не смотря на собеседника, что его голос печальный. Это и есть какие-то характеристики звуковой волны.

Когда мы делаем обучающую выборку для синтеза речи, мы наших дикторов просим: «Воспроизведите грустную эмоцию». Или очень веселый голос. И потом мы делим: эти данные, где голос был грустный, здесь он нейтральный, а вот этот голос с улыбкой на лице. А дальше уже пытаемся параметрами догнать эти эмоции.

— То есть в будущем можно будет аудиокниги озвучивать?

— Это мечта-мечта. Но в аудиокнигах кроме эмоций стоит еще задача определения пола. Идет повествование, дальше начинается диалог, и нужно определить, кто с кем говорит — это два мужчины, две женщины или мужчина с женщиной.

— А если одним голосом?

— Нет, ну одним голосом это легко решается: запустил ее, и она тебе будет рассказывать. А хочется это реально круто сделать, разными голосами, как в аудиоспектакле. В принципе, кажется, что для этого уже многое есть. Выделение объектов: имена у нас есть, мы можем понять, какие объекты в тексте относятся к мужчинам, какие — к женщинам.

— Может быть, еще каждому герою свой голос?

— В том числе. Если говорить про такие вещи, то есть речевые технологии, такой большой пласт. И это rocket science, там много чего делается, чтобы эти базовые вещи работали.

А есть другой rocket science — это как раз создание таких продуктов. Можно делать сколь угодно крутые технологии, но еще очень важно делать крутые продукты. И как раз-таки это тоже очень большая задача.

— Мэри Микер утверждает, что скоро голосовой ввод серьезно потеснит клавиатуры. И если добиться качества распознавания в 99%, это изменит мир. Но пока то, что есть — Siri, например — используется максимум для того, чтобы будильник поставить. А в кино все так радужно, Железный человек разговаривает с Джарвисом как с живым другом.

— А классика — фильм «Она». Космос, влюбился в нее (герой фильма влюбляется в операционную систему, разговаривающую женским голосом, — прим. «Медузы»).

Мэри Микер представляет доклад «Internet Trends»

Фото: Recode / YouTube

— Стоит ли нам ждать, что голосовые помощники и голосовые технологии станут нормальными собеседниками? Или это все будет работать по принципу — сказал команду, а она тебе ответила?

— Ждать точно стоит. Во-первых, почему клавиатуры не умрут? Из-за приватности. Вы не будете в лифте голосом диктовать приватную смску, даже я в это не верю. Это очевидно. В сценариях, где есть прайваси, всегда останется клавиатура или свайпы по экрану. Но не голос.

Голос будет точно там, где у нас заняты руки — в автомобиле. Я удивлюсь, если ваши знакомые автомобилисты пользуются навигатором, но не пользуются голосом в нем. Скорее пользуются. Это уже говорит о том, что кейс, где заняты руки и занято внимание, будет развиваться дальше.

По-хорошему, в ближайшие три-пять лет вы начнете разговаривать со своим автомобилем: «Поехали на работу», «Почитай основные новости и потом поставь что-нибудь послушать поживее», «Сделай похолоднее». Не стандартные сейчас автомобильные интерфейсы — искать там джойстики, крутить, выбирать на дисплее из кучи пунктов меню, искать нужные кнопки на панели. Это все будет голосом, здесь даже сомневаться не нужно. «Завези меня на заправку». Или даже не так. Вам машина будет говорить: «Слушай, мы сейчас заедем на заправку, а то до дома уже не хватит топлива».

Все сообщения из машины — это, конечно, тоже голосом, потому что иначе это небезопасно. И голосом надиктовать сообщение — уже не проблема.

— Со смартфонами понятно. А что кроме них подружится с речевыми технологиями?

— Все наши девайсы. Это мое внутреннее убеждение и глубокая внутренняя цель: с девайсами надо разговаривать голосом. Потому что достаешь из коробки кофеварку, и что там? Вот такая большая инструкция. Зачем мне это знать? Это лишняя информация — какие кнопки там нажимать. Я хочу кофе: эспрессо, американо, капуччино. Чашку поставил, сказал, что я хочу, и все, кофе готов.

Вот так это должно работать, а не куча рычажков, кнопок и так далее. Эти интерфейсы потихоньку устаревают, на их место придут новые. И голосовые интерфейсы наиболее нам привычны. Мы же на друг друге не нажимаем кнопки, чтобы что-нибудь сделать или попросить, верно?

А дальше уже интересна экосистема. Как эти все девайсы, с которыми мы можем пообщаться, будут связаны друг с другом, и какую функциональность они будут уметь, кроме фана? Siri — это действительно фан. Потому что она не решает какие-то действительно важные, жизненные задачи. Поставить будильник — это все равно быстро можно решить и без голоса, тут выгоды от голоса явного нет. На главном экране есть часы — все, в несколько тапов я это сделал. А если Siri меня еще и не с первого раза понимает, то это все, финиш — пользователь моментально теряет доверие в такому сервису. Поэтому соглашусь, что качество — это критически важно для дальнейшего развития голосовых интерфейсов и голосовых сервисов.

После этого нужно засунуть туда действительно важные сценарии использования, жизненно важные. Как правило, это сценарии с несколькими экранами — когда мне нужно какие-то разные приложения запустить или залезть в какие-то настройки. Естественно, проще голосом сказать: «Эй, Siri, почисти лишние фотографии». Фотки все равно загружаются в облако, но на телефоне они тоже хранятся, и из-за этого у меня вечно памяти не хватает.

Я хочу сказать телефону: «Слушай, у меня сегодня в два часа встреча, и мне никак нельзя на нее опоздать», и дальше пусть он мне сам составит маршрут, заранее предупредит меня и убедится, что я увидел его напоминание. Если встреча внешняя, пусть машина знает, каким маршрутом ехать, как только я в нее сел. И так можно растить пирог до бесконечности: «Слушай, меня жена попросила в магазин заехать. Нужно купить молоко, это и то. Напомни мне об этом». Или жена просто сказала где-то на кухне холодильнику, что молоко закончилось, а он разместил заказ в каком-нибудь продуктовом интернет-магазине. Но это уже совсем такое будущее.

— Эти сценарии в первую очередь про личную жизнь, а когда нас 10 человек на рабочем месте, каждый не будет сидеть и диктовать. Но может есть какие-то идеи, как голосовые технологии использовать в работе?

— Самое главное применение — это совещания. Мы, черт возьми, столько времени проводим в переговорках в «Яндексе». Мое расписание — не совру, если скажу, что у меня сегодня порядка семи рабочих встреч. Все забито. И, как правило, это переговоры — мы разговариваем, обсуждаем идеи, что-то рисуем. Много важной информации испаряется.

Кто-то пишет эти meeting notes по итогам встреч, но это уже испорченный телефон. Кто-то что-то забыл, кто-то не дописал, кто-то поленился просто записать, и все. Постоянно звучит: «Черт, мы же об этом говорили. Почему мы этого не сделали?!» Ну почему микрофон, который лежит на столе, не слушает нас и не высылает потом на почту то, о чем мы договорились?

Я уж не говорю о всяких профессиях, где люди должны печатать. Медицина, например. В США по закону врач должен протоколировать свои действия. Врач-педиатр, который вас принимает, обязан все записать. При этом он вам это все рассказывает, а потом это же пишет. Раньше писали от руки, а теперь они на клавиатуре набирают тексты в систему.

Это куча времени, врача и вашего. Зачем его тратить? Если он вам рассказывает, какой у вас диагноз, как лечить, пусть компьютер его слушает и сразу переводит текст в речь. То же самое хирурги. Ну делает он операцию. Зачем сидит ассистент и записывает все за хирургом?

Причем медицина — это вообще узкая тематика, там качество распознавания может быть очень высоким. Это важный момент: чем уже тематика, которую мы распознаем, тем выше качество. Если это голосовой поиск, мы не можем заранее предсказать, что человеку придет в голову спросить у «Яндекса». Это могут быть любые аспекты нашей жизни. Но в навигатор человек, скорее всего, будет спрашивать адреса, названия организаций, ну, может быть, геокоординаты. Набор вариантов сильно уже. И за счет этого в навигаторе уже почти идеальное качество, а в голосовом поиске качество похуже. В медицине такая же ситуация — очень узкая тематика, очень специфический язык. И кажется, что какой-то там термин, суперсложное лекарство или болезнь на латыни — это очень сложно распознать. Нет. Нет ничего сложнее для распознавания речи, чем короткие слова и широкая тематика.

— Но вам же все равно придется немного послушать врачей. Или уже не придется?

— Врачей нам не надо слушать. Акустическая модель настроена на язык. Вот русский язык: у нас есть все говоры, все акценты, как звучат голоса, мы знаем. Нам нужны только тексты. Тексты и все.

«С кофеваркой надо разговаривать» Интервью Дениса Филиппова, главного по речевым технологиям в «Яндексе»

Чтобы разобраться в нейросетях:

Читайте также

SOS-рассылка