Вечером 24 мая «Яндекс» объявил лауреатов научной премии имени Ильи Сегаловича, — это один из основателей и первый технический директор «Яндекса». Премия уже третий год присуждается молодым ученым за исследования в области компьютерных наук, а также научным руководителям, которые готовят таких специалистов. Речь идет именно о научных исследованиях, которые не связаны со стартапами и индустрией — это передний край того, что сейчас происходит в российском фундаментальном IT. «Медуза» попросила лауреатов в номинации «молодой исследователь» рассказать и о своих работах, и о том, что, на их субъективный взгляд, больше всего будет влиять на развитие искусственного интеллекта (ИИ).
Александр Гришин, аспирант НИУ ВШЭ
Такой челлендж: сможете за одну минуту описать то, чем вы занимаетесь, но для человека не из IT?
Это несложно, ведь я занимаюсь такой вещью, которую довольно легко описать через компьютерные игры, а их все хорошо знают. В играх — не важно, тетрис ли это или бегалка и стрелялка — ты всегда выступаешь некоторым агентом, задача которого — набрать очки. Выглядит это обычно так: ты что-то видишь, как-то действуешь в предложенных обстоятельствах и в конце получаешь за свои действия какие-то очки. И все это довольно точно передает суть того, чем я занимаюсь — это обучение с подкреплением. «С подкреплением» означает, что в задаче присутствует награда, а «обучение» относится к агентам, которые должны как-то научится действовать, как-то правильно вести себя в любой ситуации. Иллюстрировать такой подход легко именно компьютерными играми, но те же самые решения на самом деле применяются для самых разных, в том числе гораздо более серьезных задач.
Недавно, например, было соревнование [разработчиков] по одной такой задаче — распределения электроэнергии. Как мы понимаем, у электрических сетей есть большая и логистически сложная задача по распределению электроэнергии между генераторами и потребителями, по регулированию напряжения и мощности в сетях и так далее. Конечно, как-то эта задача решается и сейчас, но далеко не так оптимально, как можно было бы это сделать в принципе. В то же время агенты обучения с подкреплением могут на основе исторических данных научится делать то же самое намного лучше, чем люди. А главная прелесть создания и совершенствования таких подходов в том, что по сути те же самые алгоритмы обучения с подкрепелением могут использоваться и в компьютерных играх, и в генерации атомной электроэнергии, и в игре в го и в управлении роботами — они будут обучаться сходным образом, только для решения разных задач.
За чем, как вам кажется, мы будем следить в ближайшем будущем? Что в ИИ произвело на вас самое большое впечатление в последнее время?
Есть одна большая проблема в обучении с подкреплением, которая заключается в том, что взаимодействие обучаемого агента со средой может быть очень дорогим — в смысле стоимости вычислений, в количестве времени и так далее. Если вспомнить про ту же задачу управления энергосетями, то понятно, что мы не может дать нейросети «подергать за рычаги» чтобы набраться нужного опыта. Это бы плохо закончилось. Для этого есть симулятор, который как-то воспроизводит работу этой станции. Но перенос опыта, полученного в симуляторе в реальную жизнь — это тонкий процесс, он не всегда проходит без проблем. Точнее даже так: он всегда сопряжен с какими-то проблемами, потому что реальная жизнь совсем не такая, как в симуляторе. Но вот недавно была работа, которая произвела на меня большое впечатление — работа в области обучения роботов передвижению, обучения бегать, лазать, прыгать и тд. Так вот, ребята обучали своего робота только в симуляторе, не позволяли ему вообще увидеть реальный мир ни разу, и после этого их робот с первого же раза смог бегать по пересеченной местности, забираться на гравий, передвигаться по ступенькам. И за 3-4 часа такого активного и бодрого движения он даже ни разу не упал, при том, что он, как я сказал, ни разу не видел до этого внешний мир! Это, конечно, было потрясающе. И это открывает огромные возможности, потому что в компьютере можно моделировать практически что угодно, прокручивать разные ситуации, и получать роботов, которые способны делать то, что нужно, сразу же, с нулевой попытки.
Александр Коротин, аспирант Сколтеха
Сможете попробовать за одну минуту описать то, чем вы занимаетесь, но для человека не из IT?
Я занимаюсь так называемым «онлайн-машинным обучением». Что это такое? Это методы усреднения или комбинации прогнозов нескольких моделей. Например, нам нужно спрогнозировать погоду на завтра, и при этом у нас есть для этого 15 разных [метеорологически] моделей, которые могут делать прогнозы, но которые устроены очень по-разному. Это могут быть и физические модели [симулирующие реальные физические процессы] и модели на машинном обучении [учитывающие только историю предыдущих наблюдений], да какие угодно — но каждая из этих моделей выдает собственный прогноз. Однако любому сервису, которым мы пользуемся — Яндекс.Погоде, Google-погоде, нужно выдать человеку единственный прогноз, причем желательно максимально точный. Возникает вопрос: какой из этих моделей доверять? При этом нужно понимать, что модель, хорошо работающая в один день, может ошибаться на следующий день, а та, что ошибалась вчера, сегодня может выдать прогноз более точный. Получается, что [из них нельзя выбрать просто в среднем более точные модели, а] нужен некоторый механизм или алгоритм, который мог бы выступать в роли некоторого арбитра и решать, какая модель будет более точной именно сегодня, и какой именно прогноз нужно выдать конечному пользователю.
Одно из направлений моих исследований как раз и заключается в том, чтобы создавать таких арбитров. Разрабатываемые мной арбитры оценивают погоду на достаточно долгий срок, а не на один день и дают при этом не точечный прогноз (вроде «будет +25°C»), а целое вероятностное распределение прогнозируемой величины. Это одно из направлений. Второе — это генеративное моделирование, генеративные нейронные сети, которые, в частности, позволяют создавать или улучшать изображения. Грубо говоря, это все то, что прячется под кнопкой «AI» в телефоне — все это работает на генеративных моделях.
За чем, как вам кажется, мы будем следить в ближайшем будущем? Что в ИИ произвело на вас самое большое впечатление в последнее время?
Пожалуй, это генеративные нейросети, при обучении которых используют совершенно новый принцип — принцип, идущий из физики и основанный на наших знаниях о диффузионных процессах. Генеративные сети, сделанные таким образом, превзошли по большинству метрик современные состязательные нейросети, которые сейчас в этой области везде используются. Возможно, что в той области, которой я занимаюсь, именно это направление станет прорывным в ближайшие годы.
Олег Cвидченко, студент магистратуры НИУ ВШЭ — Санкт-Петербург
Сможете попробовать за одну минуту описать то, чем вы занимаетесь, человеку не из IT?
Могу, даже двумя разными способами. Вспомним, как учатся животные. Мы знаем, что в их обучении важнейшую роль играет гормональное подкрепление: они либо получают выброс эндорфинов, дофамина и продолжают делать то, что к этому привело, либо они, например, наткнулись на что-то горячее, почувствовали боль и стараются дальше избегать того, что к этому привело. Мы пытаемся реализовать тот же принцип в алгоритмах, то есть создать алгоритмы, которые бы учились по такому же принципу, получая подкрепление или наказание, но при этом не имея заранее — что важно — правильных ответов на то, что именно им нужно делать в среде, где они действуют. Есть и второе объяснение: если вы знаете игру Detroit: Become Human в которой андроиды учились как-то сами взаимодействовать с миром, то вот — примерно то же самое в далеком будущем может получиться из того, что мы делаем.
За чем, как вам кажется, мы будем следить в ближайшем будущем? Что в ИИ произвело на вас самое большое впечатление в последнее время?
Очень здорово, что в последние годы OpenAI и DeepMind представили алгоритмы, которые научились побеждать человека в Dota и StarCraft. Это показывает, что в целом те [классы] алгоритмов, которые мы разрабатываем, действительно способны решать очень сложные проблемы. Способны эффективно распределять ресурсы, решать сложные задачи последовательного взаимодействия с окружением и так далее. Единственный нюанс у этих алгоритмов состоит в том, что они требуют очень много ресурсов для обучения. Правда много: 45 тысяч лет симулирования игры это вполне нормальная цифра и даже не предел. Проводить такие симуляции очень сложно, и, кажется, ближайшим трендом в той области, которой я занимаюсь, будут попытки уменьшить это время, чтобы тот же подход применять к каким-то задачам, когда нет такого количества ресурсов для обучения.
Если посмотреть шире на область глубокого обучения и машинное обучение, вообще-то сейчас очень хорошо развиваются генеративные сети. Это и дипфейки, и методы генерации изображений по описанию. Последний яркий пример — это статья от OpenAI, в которой эта генерация выглядит буквально вот так: алгоритму говорят «сделай картинку, на которой редиска в балетной пачке выгуливает собаку», и алгоритм действительно создает набор именно таких картинок. То, что это действительно получается, совершенно удивительно. Вообще сейчас часто, когда видишь новую статью по генеративным моделям, действительно часто говоришь себе: «вау, и так тоже можно?!».
С другими лауреатами 2021 года и всех прошлых лет можно познакомиться на сайте Премии.
Генеративно-состязательные нейросети (GAN)
Архитектура нейросетей, которые широко использутся для генерации данных, прежде всего изображений. Они обучаются в паре: одна нейросеть генерирует новое изображение, а вторая пытается угадать — является ли оно сгенерированным или «настоящим», то есть входящим в обучающую выборку. Таким образом, по мере обучения, генерирующая часть GAN находит все более изощренные уловки для того, чтобы создавать изображения, визуально неотличимые от настоящих.
OpenAI
Американская некоммерческая компания, разрабатывающая и лицензирующая технологии на основе машинного обучения. Разработчик многих фреймворков и платформ, создатель генерирующей текст нейросети GTP-3
DeepMind
Британская исследовательская компания, приобретенная Google в 2014 году. В частности, в DeepMind была разработана система AlphaGo, победившая человека в игру го, и AlphaFold, совершившая прорыв в предсказании белковых структур.