Перейти к материалам

Когда компьютеры научатся понимать нас как люди?

9 карточек
  • Что случилось?
  • А разве люди уже не справляются с этими задачами?
  • Интересно. А где это используется?
  • Пока мы все равно общаемся с компьютером командами. А когда уже можно будет с ним нормально поговорить?
  • Как программисты научили машины делать все это?
  • Неужели машины так легко справляются со всеми этими задачами?
  • Где можно потестировать эти сервисы?
  • А в России уже используют эти технологии?
  • Круто! Кажется, мне это пригодится в моем бизнесе
1

Что случилось?

Мировая IT-индустрия вплотную подошла к тому, чтобы научить компьютер понимать самого человека, а не команды, которые он дает ему с помощью программного кода. Для этого разрабатываются так называемые «когнитивные сервисы». Это сервисы, с помощью которых компьютеры учатся делать то, что раньше могли делать только люди: перевод текста, анализ изображений, распознавание лиц и эмоций, модерация контента, распознавание речи, понимание смысла текста и так далее. Все это, благодаря когнитивным сервисам, основанным на технологиях машинного обучения, теперь могут делать компьютеры. 

2

А разве люди уже не справляются с этими задачами?

Справляются, и даже лучше машин (в большинстве случаев). Все дело в скорости и масштабируемости. Если у вас небольшой сайт, один человек вполне может справиться с модерацией комментариев. Но что делать, если на сайте ежедневно появляются тысячи сообщений? Миллионы? Тут не хватит никаких человеческих усилий. Когнитивные сервисы выполняют работу за долю секунды и могут легко обслуживать тысячи запросов за день.

3

Интересно. А где это используется?

Машинное распознавание образов позволяет автоматизировать модерацию неуместного контента — программы могут автоматически находить изображения порнографии и насилия. С их помощью можно группировать фото по категориям — например, в личной галерее пользователя либо при анализе любого большого массива изображений.

Компьютеры могут распознавать и лица. Именно эта технология узнает ваших друзей на фотографиях в Facebook или Google Photos. С помощью распознавания лиц можно находить похожих людей (как в FindFace) или авторизовать пользователя по фото.

Но и это еще не все. Программы могут распознавать даже эмоции людей. Это применяют в развлечениях (интерактивные маски от Snapchat), а еще в торговле и маркетинге — анализируя эмоции людей во время покупок, можно получить много полезной информации.

4

Пока мы все равно общаемся с компьютером командами. А когда уже можно будет с ним нормально поговорить?

Распознавание голоса — одна из самых перспективных технологий сейчас. Голосовые интерфейсы набирают все большую популярность. Скоро мы будем свободно говорить с компьютерами и смартфонами, а не только кликать на них — это естественно для человека. Кроме управления другими программами распознавание голоса позволяет легко преобразовывать в текст аудиозаписи лекций и выступлений.

За обработку услышанного компьютером текста отвечает технология, которая так и называется — обработка естественного языка (NLP — natural language processing). Она позволяет создавать интерфейсы, в которых пользователи общаются с компьютером обычным, живым языком — через голос или текст. С помощью NLP машины могут понимать сложные предложения, анализировать настроение текста, выделять ключевые фразы и темы. Она же позволяет машинам переводить слова и целые предложения, иногда — не хуже людей.

5

Как программисты научили машины делать все это?

С помощью машинного обучения. Не очень понятно, как написать программу, которая будет распознавать слова на слух — ведь человек сам не знает, как он это делает, он просто научился этому с детства. Поэтому для распознавания речи разработчики создают специальную программу, способную обучаться, и показывают ей миллион аудиозаписей с транскрипцией. Программа сама запоминает, как звучат те или иные слова. Аналогично с изображениями — если показать такой самообучающейся программе миллионы изображений автомобилей, она практически безошибочно будет определять на фото автомобили. И даже различные их марки, как это делает нейросеть от «Яндекса».

6

Неужели машины так легко справляются со всеми этими задачами?

Нет, конечно. У каждой из описанных технологий есть слабые места. Распознавание лиц пока что плохо работает при плохом освещении, при ракурсе сбоку, а также в тех случаях, когда сравниваются фотографии человека, изменившегося со временем. Распознавание речи не справляется с акцентами и диалектами. Программы, анализирующие естественный язык, не понимают юмор и иронию. Но технологии постоянно совершенствуются. И даже тот уровень, на котором они находятся сейчас, позволяет эффективно использовать их при разработке приложений и сервисов.

7

Где можно потестировать эти сервисы?

Зайдите на сайт How-Old.net — он по фотографии определяет, на сколько лет вы выглядите. Можно распознавать не только лица людей, но и собак — сайт What-Dog.net умеет определять по фотографии породу собаки (фото людей ему тоже можно показывать, попробуйте). CaptionBot описывает содержимое фотографии естественным языком. Еще один интересный сервис распознает и оценивает эмоции на фото.

Если вы разработчик, вы можете не тратить время и ресурсы на разработку этих технологий — это очень трудоемкое дело. Вместо этого можно воспользоваться одним из готовых решений других компаний. В пакет Cognitive Services от Microsoft, вместе с которым мы написали эти карточки, входят сервисы по распознаванию объектов и людей на изображениях, по синтезу и анализу естественного языка (например, сервис LUIS и Microsoft Bot Framework позволяют создавать чат-ботов, понимающих естественный язык), по работе с видео и многие другие.

8

А в России уже используют эти технологии?

Да. например, бренд аdidas использовал машинное распознавание лиц в своей кампании URBAN TRI, во время которой 6 тысяч людей приняли участие в коллективных тренировках, объединивших три дисциплины — бег, плавание и велоспорт. Специальный бот adidas получал селфи от участников мероприятий, распознавал их лица и отправлял им лучшие фото с тренировок.

Компания Iceberg разработала систему видеоаналитики для хоккея, которая с помощью компьютерного зрения фиксирует кучу данных о перемещениях игроков, их скорости и эффективности. Такая аналитика позволяет управлять отдельными аспектами игры, основываясь на данных, — например, какую защиту лучше выставить против определенного состава противника. Вот хорошее видео о том, как это работает.

Наконец, российское приложение Sarafan помогает с поиском одежды. Обычным потребителям оно позволяет опознать предмет одежды на фотографии и сразу же найти его в ближайших магазинах. Зато если это решение встроить в онлайн-магазин одежды, то оно будет автоматически предлагать посетителям вещи, похожие или подходящие к тем, что они уже выбрали или посмотрели. А это, в свою очередь, повышает глубину просмотра, конверсию и в конечном счете продажи.

Все эти проекты сделаны с использованием Microsoft Azure.

9

Круто! Кажется, мне это пригодится в моем бизнесе

Для того чтобы понять, как лучше всего применить когнитивные сервисы в своем деле, обратитесь в Microsoft.

P. S. О других технологиях, которые могут пригодиться вашему бизнесу, читайте здесь.