Когда компьютеры научатся понимать нас как люди?
1.
Что случилось?
2.
А разве люди уже не справляются с этими задачами?
3.
Интересно. А где это используется?
4.
Пока мы все равно общаемся с компьютером командами. А когда уже можно будет с ним нормально поговорить?
5.
Как программисты научили машины делать все это?
6.
Неужели машины так легко справляются со всеми этими задачами?
7.
Где можно потестировать эти сервисы?
8.
А в России уже используют эти технологии?
9.
Круто! Кажется, мне это пригодится в моем бизнесе
Что случилось?
Мировая IT-индустрия вплотную подошла к тому, чтобы научить компьютер понимать самого человека, а не команды, которые он дает ему с помощью программного кода. Для этого разрабатываются так называемые «когнитивные сервисы». Это сервисы, с помощью которых компьютеры учатся делать то, что раньше могли делать только люди: перевод текста, анализ изображений, распознавание лиц и эмоций, модерация контента, распознавание речи, понимание смысла текста и так далее. Все это, благодаря когнитивным сервисам, основанным на технологиях машинного обучения, теперь могут делать компьютеры.
А разве люди уже не справляются с этими задачами?
Справляются, и даже лучше машин (в большинстве случаев). Все дело в скорости и масштабируемости. Если у вас небольшой сайт, один человек вполне может справиться с модерацией комментариев. Но что делать, если на сайте ежедневно появляются тысячи сообщений? Миллионы? Тут не хватит никаких человеческих усилий. Когнитивные сервисы выполняют работу за долю секунды и могут легко обслуживать тысячи запросов за день.
Интересно. А где это используется?
Машинное распознавание образов позволяет автоматизировать модерацию неуместного контента — программы могут автоматически находить изображения порнографии и насилия. С их помощью можно группировать фото по категориям — например, в личной галерее пользователя либо при анализе любого большого массива изображений.
Компьютеры могут распознавать и лица. Именно эта технология узнает ваших друзей на фотографиях в Facebook или Google Photos. С помощью распознавания лиц можно находить похожих людей (как в FindFace) или авторизовать пользователя по фото.
Но и это еще не все. Программы могут распознавать даже эмоции людей. Это применяют в развлечениях (интерактивные маски от Snapchat), а еще в торговле и маркетинге — анализируя эмоции людей во время покупок, можно получить много полезной информации.
Пока мы все равно общаемся с компьютером командами. А когда уже можно будет с ним нормально поговорить?
Распознавание голоса — одна из самых перспективных технологий сейчас. Голосовые интерфейсы набирают все большую популярность. Скоро мы будем свободно говорить с компьютерами и смартфонами, а не только кликать на них — это естественно для человека. Кроме управления другими программами распознавание голоса позволяет легко преобразовывать в текст аудиозаписи лекций и выступлений.
За обработку услышанного компьютером текста отвечает технология, которая так и называется — обработка естественного языка (NLP — natural language processing). Она позволяет создавать интерфейсы, в которых пользователи общаются с компьютером обычным, живым языком — через голос или текст. С помощью NLP машины могут понимать сложные предложения, анализировать настроение текста, выделять ключевые фразы и темы. Она же позволяет машинам переводить слова и целые предложения, иногда — не хуже людей.
Как программисты научили машины делать все это?
С помощью машинного обучения. Не очень понятно, как написать программу, которая будет распознавать слова на слух — ведь человек сам не знает, как он это делает, он просто научился этому с детства. Поэтому для распознавания речи разработчики создают специальную программу, способную обучаться, и показывают ей миллион аудиозаписей с транскрипцией. Программа сама запоминает, как звучат те или иные слова. Аналогично с изображениями — если показать такой самообучающейся программе миллионы изображений автомобилей, она практически безошибочно будет определять на фото автомобили. И даже различные их марки, как это делает нейросеть от «Яндекса».
Неужели машины так легко справляются со всеми этими задачами?
Нет, конечно. У каждой из описанных технологий есть слабые места. Распознавание лиц пока что плохо работает при плохом освещении, при ракурсе сбоку, а также в тех случаях, когда сравниваются фотографии человека, изменившегося со временем. Распознавание речи не справляется с акцентами и диалектами. Программы, анализирующие естественный язык, не понимают юмор и иронию. Но технологии постоянно совершенствуются. И даже тот уровень, на котором они находятся сейчас, позволяет эффективно использовать их при разработке приложений и сервисов.
Где можно потестировать эти сервисы?
Зайдите на сайт How-Old.net — он по фотографии определяет, на сколько лет вы выглядите. Можно распознавать не только лица людей, но и собак — сайт What-Dog.net умеет определять по фотографии породу собаки (фото людей ему тоже можно показывать, попробуйте). CaptionBot описывает содержимое фотографии естественным языком. Еще один интересный сервис распознает и оценивает эмоции на фото.
Если вы разработчик, вы можете не тратить время и ресурсы на разработку этих технологий — это очень трудоемкое дело. Вместо этого можно воспользоваться одним из готовых решений других компаний. В пакет Cognitive Services от Microsoft, вместе с которым мы написали эти карточки, входят сервисы по распознаванию объектов и людей на изображениях, по синтезу и анализу естественного языка (например, сервис LUIS и Microsoft Bot Framework позволяют создавать чат-ботов, понимающих естественный язык), по работе с видео и многие другие.
А в России уже используют эти технологии?
Да. например, бренд аdidas использовал машинное распознавание лиц в своей кампании URBAN TRI, во время которой 6 тысяч людей приняли участие в коллективных тренировках, объединивших три дисциплины — бег, плавание и велоспорт. Специальный бот adidas получал селфи от участников мероприятий, распознавал их лица и отправлял им лучшие фото с тренировок.
Компания Iceberg разработала систему видеоаналитики для хоккея, которая с помощью компьютерного зрения фиксирует кучу данных о перемещениях игроков, их скорости и эффективности. Такая аналитика позволяет управлять отдельными аспектами игры, основываясь на данных, — например, какую защиту лучше выставить против определенного состава противника. Вот хорошее видео о том, как это работает.
Наконец, российское приложение Sarafan помогает с поиском одежды. Обычным потребителям оно позволяет опознать предмет одежды на фотографии и сразу же найти его в ближайших магазинах. Зато если это решение встроить в онлайн-магазин одежды, то оно будет автоматически предлагать посетителям вещи, похожие или подходящие к тем, что они уже выбрали или посмотрели. А это, в свою очередь, повышает глубину просмотра, конверсию и в конечном счете продажи.
Все эти проекты сделаны с использованием Microsoft Azure.
Круто! Кажется, мне это пригодится в моем бизнесе
Для того чтобы понять, как лучше всего применить когнитивные сервисы в своем деле, обратитесь в Microsoft.
P. S. О других технологиях, которые могут пригодиться вашему бизнесу, читайте здесь.