истории

«Как думаете, какой запрос самый распространенный?» Глава Google Translate Барак Туровски — о том, как сервис переходит на нейросети

13:22, 7 марта 2017

Источник: Meduza

Фото: Brooks Kraft LLC / Corbis / Getty Images

Google объявил о масштабном обновлении сервиса Google Translate: в основу работы переводчика будут положены нейросети. Для некоторых языков нейронный перевод начал использоваться с ноября 2016 года; другие, в том числе и русский, перейдут на новую технологию в ближайшее время. Разработчики утверждают, что нейросети значительно улучшают качество перевода, поскольку машины могут анализировать не отдельные слова и фразы, а законченные предложения и контекст. О том, чем новая технология отличается от предшествующей, как измерить качество перевода, и о том, смогут ли машины переводить с одного языка на другой так же хорошо, как люди, журналист «Медузы» Константин Бенюмов поговорил с главным менеджером Google Translate Бараком Туровски.

Барак Туровски работает в Google с 2012 года, на протяжении последних трех лет руководит Google Translate, отвечая в том числе за алгоритмы пользовательского взаимодействия и дизайн. Туровски родился в СССР, до переезда в США жил и работал в Израиле. По его просьбе беседа велась на английском, но в ходе интервью Туровски несколько раз переходил на русский.

— Какое значение отводится Google Translate в компании?

— Переводчик — очень важный для нас продукт, и на его развитие выделяется большое количество сил и ресурсов. Главная причина в том, что почти 50% контента в интернете — на английском языке. Но если посмотреть на население планеты, то минимальными навыками английского владеют не больше 20% жителей Земли. Для эффективного использования интернета это очень серьезное препятствие.

Вообще, препятствий даже два. Во-первых, есть инфраструктурный барьер: огромное количество людей, например в Китае или в Индии, до сих пор вообще не имеет доступа в интернет. Но эта ситуация постепенно меняется — благодаря развитию мобильного интернета и смартфонов. Так что теперь эти страны просто сразу переходят к мобильному интернету, проскакивая десктоп. Но как только они попадают в интернет, они сразу сталкиваются с языковым барьером, то есть они не могут эффективно пользоваться интернетом.

Поэтому Google Translate — приоритетный продукт для нас. И, кстати, поэтому переводчик — такой популярный продукт, в месяц им пользуется более полумиллиарда человек, а в день мы переводим около 140 миллиардов слов.

— А эта задача скорее идеологическая — объединить мир — или скорее коммерческая — привлечь больше пользователей?

— Для пользователей переводчик бесплатный, и передо мной как перед руководителем продукта не ставится никаких задач по монетизации. Моя задача (и основная метрика [эффективности моей] работы) — обслужить как можно больше пользователей. Еще одна важная цель — упростить доступ к интернету, снять барьеры, которые препятствуют его эффективному использованию. О монетизации лично я вообще не думаю.

— Давайте поговорим о дизайне, за который вы тоже отвечаете. Дизайн в Google Translate явно играет не ведущую роль? По крайней мере, выглядит он максимально просто и за годы работы проекта претерпел минимум изменений.

— Вы совершенно правы. Переводчик — это инструмент, его задача — быть полезным и удобным, и дизайн, следовательно, должен быть минималистичным — чтобы не мешать пользоваться инструментом. Зато мы постоянно внедряем новые механизмы и способы взаимодействия с переводчиком — например, с помощью мобильного телефона или камеры. Есть Word Lens — функция, которая позволяет с помощью технологии дополненной реальности навести камеру на текст и перевести его.

— Это в ней нужно пальцем стирать пыль с текста?

— Нет, но это похожий механизм. Word Lens позволяет просто навести камеру и перевести текст, причем это работает в офлайне. А та функция, о которой говорите вы, немного сложнее — она позволяет сфотографировать документ, отправить снимок в облако, а затем перевести тот фрагмент текста, который вы указали, потерев его.

— Всегда было любопытно, в чем смысл механики со стиранием пыли.

— Во-первых, не всегда вам нужен перевод всего текста на снимке. Эту проблему можно решать разными путями, и возможно, в будущем мы придумаем какой-то другой способ. Во-вторых, на работу этой функции влияет множество факторов — например, качество фотографии и качество технологии распознавания текста. С помощью «стиралки» мы можем показать пользователю, что вообще [на его снимке] возможно перевести. Это способ показать, что именно мы переведем, и убрать всевозможный шум — это могут быть как картинки, так и нераспознанные символы. Но вообще-то там есть кнопка «перевести все»!

— Но ведь значение слова очень часто зависит от соседнего — и выделение слов и словосочетаний может полностью менять смысл для перевода. Особенно если вы вообще не знаете исходного языка.

— Да, и это одна из причин, почему мы работаем над тем, как улучшить опыт перевода с использованием камеры. Вторая область инноваций — это использование микрофона. Мы разработали так называемый режим беседы — когда вы просто кладете телефон на стол, а приложение распознает язык, на котором с вами говорят — вам даже не нужно ничего нажимать, — и вслух переводит реплики на ваш язык. Такой универсальный переводчик. И сейчас мы очень много сил тратим на то, чтобы улучшить его работу.

Have a conversation with Google Translate

Arturo Alvarez Demalde

И последнее, что связано с инновациями и дизайном, — нам очень много пишут пользователи о том, что перевод контента в фейсбуке или мессенджерах, в WhatsApp например, отнимает очень много времени. Нужно скопировать текст, закрыть приложение, открыть переводчик, вставить текст, выбрать нужный язык и так далее, а затем снова и снова. Поэтому мы придумали функцию Tap to Translate — она берет текст, который вы копируете, и показывает небольшую иконку, щелкнув по которой вы сразу увидите перевод, не покидая приложения.

Так что, возвращаясь к вашему вопросу, мы не так много работаем над совершенствованием базового текстового переводчика, но зато тратим очень много сил на то, чтобы улучшить взаимодействие с переводчиком через другие интерфейсы.

— О чем идет речь, кроме камеры и микрофона?

— К сожалению, об этом я говорить не могу, но мы постоянно изучаем новые интерфейсы.

#WeSpeakTranslate, do you?

Google

— Давайте перейдем к улучшению качества перевода — и собственно к технологии нейронного машинного перевода.

— Если дизайн — это работа над удобством для пользователей, чтобы им, к примеру, не приходилось руками вводить текст на незнакомом языке, то качество перевода — это основа основ, это то, над чем постоянно работают наши инженеры и ученые. И как раз сейчас мы осуществили крупнейший прорыв за последние десять лет — в том числе и для перевода с русского и обратно.

Технология нейронного машинного перевода, которую мы запустили в ноябре и которая в ближайшее время станет доступна для русского языка, — это довольно волшебная штука. Мы говорим о третьем поколении систем машинного перевода. Первое поколение было разработано в 1950–60-х годах в рамках советско-американского шпионского противостояния: все хотели быстро понимать, о чем говорит противник. Работа была основана на правилах, которые разрабатывали лингвисты, и каждое предложение нужно было переводить, применяя к нему различные правила.

Второе поколение — статистический машинный перевод, и десять лет назад Google был пионером этой технологии. Тут принцип другой: машина, применяя те же технологии, которые используются в поиске, ищет в интернете доступные варианты перевода, уже сделанные человеком. Любые открытые источники — документация ООН, новостные заметки — все, что удается найти, собирается и превращается в гигантский корпус данных на разных языках. В этих данных машина затем находит статистические закономерности и таким образом «выучивает» язык.

Главное различие состояло в том, что, во-первых, больше не нужны были лингвисты. В нашей команде, например, нет ни одного лингвиста — все делают инженеры и исследователи, ну и, конечно, сами машины. Во-вторых, открылись поразительные возможности для масштабирования — за десять лет мы разработали переводчики для 103 языков, обеспечив переводом почти 99% пользователей интернета.

Третье поколение — нейронное, то есть речь о технологии, которая имитирует механизмы работы мозга. Главное здесь, что машина теперь может учитывать контекст — то есть переводятся не слова и фразы, а законченные предложения. Предыдущее поколение машин не могло обработать фразы, в которых было больше пяти слов. Теперь система смотрит на предложение целиком и старается найти нужные варианты для перевода. В результате получается гораздо более живой перевод.

— Есть какой-то способ измерить улучшения качества перевода?

— Это особенно заметно на примере языков, которые по лингвистической структуре отличаются от английского. К примеру, в испанском грамматические формы часто похожи на английские, и поэтому с переводом мы неплохо справлялись и раньше. А если взять русский и особенно азиатские языки, где важен порядок слов в предложении и другие параметры, то читаемость итогового текста возрастает многократно. Предложения начинают звучать естественнее, меньше походить на перевод, выполненный машиной.

Простой пример: раньше, чтобы прочитать перевод фразы, выполненный с английского на японский, вам пришлось бы потратить около 15 секунд, но потом еще целая минута ушла бы на то, чтобы мысленно поменять местами нужные части фразы и правильно понять прочитанное. Теперь полученная фраза сразу звучит по-японски. И наоборот — перевод с японского гораздо больше похож на правильную английскую речь.

Вообще, главное мерило качества в случае с переводом — это его точность. Мы используем шкалу от 0 до 6. Под «мы» я подразумеваю людей, которые смотрят на перевод и оценивают его. Ноль по этой шкале — это полная белиберда, а шесть — отличный перевод. Но, конечно, перевод, выполненный на шесть, почти не встречается. Просто потому, что это не математика, где дважды два всегда равняется четырем, переводить можно разными способами, да и исходные фразы иногда бывают неоднозначными. Так что даже самый лучший перевод, выполненный человеком, — это где-то 5,5 и выше. Для некоторых языков нам удалось вплотную приблизиться к «человеческому» качеству перевода. Для других — особенно для тех, которые структурно отличаются от английского, — пока сохраняется существенный разрыв.

Сравнение качества машинного перевода второго (слева) и третьего поколений

Google

— Насколько важна для обучения машины обратная связь с человеком? Оценки, о которых вы говорите, как-то используются в совершенствовании работы переводчика?

— Фидбек от людей очень важен — и вот почему. В 2014 году мы запустили Google Translate Community — инструмент для краудсорсинга. Самое смешное, что запустили по просьбе людей из Казахстана. Мы работали над новыми языками [поддерживаемыми Google Translate], и казахский был одним из кандидатов. Это довольно распространенный язык — на нем говорят до 25 миллионов человек, но данных для обучения по нему почти нет. Поэтому добиться хорошего качества перевода с такого языка очень трудно. А люди очень просили сделать поддержку. В итоге мы сказали — данных не хватает (речь идет об отсутствии массива переводов с казахского на английский и обратно — прим. «Медузы»), если сделаете базу — подключим поддержку.

И мы запустили очень примитивный механизм, примерно как у «Википедии»: 300 добровольцев, кто-то переводит, кто-то читает и оценивает перевод. Задача была — собрать два миллиона фраз, с этим уже можно работать. И вот буквально через неделю фраз набралось уже несколько тысяч. Оказалось, Управление центральных коммуникаций президента Казахстана устроило пресс-конференцию и попросило всю страну помогать. Заявление, кстати, было на русском. И вот сотни, тысячи человек сидели и переводили в режиме 24 на 7. И мы запустили поддержку казахского, а затем и других языков, которые подключились позже. Так что без человеческих усилий у нас никуда, хотя подавляющее большинство работы выполняют машины.

— При этом Google Translate поддерживает эсперанто и некоторые вымирающие языки. Неужели для них корпус данных был больше, чем для казахского?

— Во-первых, эсперанто владеет довольно значительное количество людей. Во-вторых, сама идея языка, который позволит преодолеть языковой барьер, очень привлекательна для нас. С точки зрения формальных критериев — количества говорящих на языке и объема обучающих данных — и по соотношению этих критериев (разрыв должен быть не очень большим; если носителей языка много, а данных — мало, то качество перевода никогда не достигнет приемлемого уровня) эсперанто выигрывал у казахского.

— Как происходит дальнейшее обучение, когда массив текстов уже собран?

— В основе работы нейронного перевода — все тот же корпус данных, который остался в наследство от предыдущего поколения. Я уже говорил, что система пытается имитировать работу мозга. Обычно я объясняю этот принцип на примере своих сыновей. Старшему пять, младшему три, и, наблюдая за ними, я могу наблюдать за тем, как развиваются их языковые навыки. Машины пока еще довольно примитивны — примерно на уровне пятилетнего ребенка.

Мои дети — билингвы, и я вижу, что они умеют свободно переходить с одного языка на другой. Иногда они делают ошибки — и бывает, что вы понимаете, откуда берется ошибка: это значит, что ребенок запомнил и применил неправильный алгоритм. Иногда природу ошибки понять нельзя, но, скорее всего, виноват снова неверный алгоритм.

Биологически наш мозг устроен так: есть множество слоев нейронов, и каждый слой, получая импульс, передает информацию и контекст следующему слою. Машины делают так же: они смотрят на исходные данные, создают статистические алгоритмы и применяют их. Иногда, по множеству причин, выбирается неправильный алгоритм — чаще всего это связано с наличием мусорной информации в учебном корпусе данных. И, как и с человеческим мозгом, тут есть что-то вроде «черного ящика» — далеко не всегда можно понять, что именно пошло не так. И сейчас мы очень много занимаемся «переобучением», очищением тренировочных данных от мусора и так далее. Когда я работал системным администратором, первым правилом всегда было — перезагрузиться.

— Какие бывают распространенные ошибки нейронного перевода?

— Технология пока очень молодая, и сложности возникают часто. Например, когда речь идет о переводе единиц измерения, имен собственных и так далее. Все это будет постепенно улучшаться.

— Проблемы с измерениями связаны с тем, что машина начинает считать, что «фунт» и «килограмм» — это одно и то же? Какие еще есть проблемы?

— Это просто частный случай, хотя и важный, потому что перевод измерений — очень распространенная задача. Но главные проблемы — это объем и качество корпуса тренировочных данных.

— Если говорить о применении машинного перевода, то в каких областях он используется чаще всего?

— Знаете, когда я только начинал этим заниматься, я предполагал, что главное, с чем люди сталкиваются чаще всего, — это туризм и торговля. Но вы себе и представить не можете, насколько это далеко от правды. Если бы область применения ограничивалась путешествиями и торговлей — пользователей у нас было бы значительно меньше. Если я передам вам наши логи и вы сможете посмотреть на все запросы, которые мы обрабатываем, — как думаете, какой будет самым распространенным?

— Перевод интерфейса интернет-магазина?

— Это один из запросов, но не самый распространенный. Сдаетесь?

— Нет, ничего лучше не приходит в голову.

— Романтические отношения. Разумеется, надо делать скидку на то, что этот сценарий использования переводчика довольно легко определить; множество слов и фраз могут в равной степени относиться к различным областям, но фразы типа «замужем ли ты?», «я люблю тебя», «у тебя красивые глаза» — безошибочно относятся только к одной категории. Для большинства языков «я люблю тебя» — третья по популярности фраза для перевода. В некоторых языках — первая. Во французском, например.

— Научился ли переводчик работать с парами языков непосредственно, минуя английский?

— Пока нет. Популярность английского в интернете означает, что подавляющее большинство тренировочных данных — это перевод с английского на другие языки и обратно. И если человеку нужно перевести что-то с русского на японский — в большинстве случаев нам приходится переводить сперва с русского на английский и лишь затем на японский. Разумеется, прямой перевод был бы лучше, но мы поддерживаем перевод со 103 языков, то есть число их комбинаций — 103 в квадрате, это больше десяти тысяч языковых пар. Для обучения это очень сложно.

Зато нейронный перевод позволяет машинам учиться работать с несколькими языками одновременно. Например, языки можно объединять в родственные группы, что значительно упрощает нам работу. Кроме того, внутри родственных групп можно создавать работающие модели, которым уже не потребуется посредник в виде английского.

— Используется ли художественная литература для обучения машин? Ведь здесь как раз можно найти множество данных для различных пар языков.

— Мы стараемся использовать книги, но здесь есть много сложностей. Во-первых, книги не машиночитаемы, даже если сканировать их в pdf. Во-вторых, для обучающего корпуса важно не только наличие перевода, но и его, как мы говорим, коллинеарность. Иными словами, в идеале должен быть не просто передан смысл, но и сохранена структура предложений — тогда машине значительно проще выявить статистическую закономерность.

Переводы художественной литературы очень редко коллинеарны, о поэзии я вообще молчу. Перевести Айзека Азимова — это искусство. То, как Маршак переводил английский, — в детстве я даже не знал, что все эти стихотворения переведены. Ты смотришь на это и видишь, что перевод выполнен на исключительном уровне, выполнен людьми, которые сами являются литераторами. Для машины это создает колоссальные проблемы: если переведено не буквально, то все закономерности перемешиваются.

— То есть то, что человеку кажется великолепным переводом, машину, наоборот, сбивает с толку?

— Именно так. Потому что переводится, как говорится, не только буква, но и дух. Но машина смотрит на перевод буквально. Так что перевод машиной поэмы Пушкина на английский язык — это из области научной фантастики. Да мы и не стремимся: тут уже не математика, а искусство.

То же касается областей, которые я называю областями с «повышенными ставками», — перевод деловых или политических переговоров, например. Здесь недостаточно машинного перевода, здесь требуется полное погружение переводчика в среду и культуру, иначе всех нюансов не передать, а эти нюансы могут иметь критическое значение.

Но в целом я уверен, что с повседневным переводом — таким, как перевод страниц в интернете, — машины будут справляться все лучше и лучше, постепенно приближаясь к «человеческой» точности перевода.

Константин Бенюмов