Diego Radames / Europa Press / Getty Images
разбор

Об искусственном интеллекте столько (надоедливых) новостей — а наша жизнь за год принципиально так и не поменялась Но ведь поменяется? Пробуем ответить на самые сложные вопросы о будущем ИИ

Источник: Meduza

«Год, когда искусственный интеллект съел интернет», — так озаглавлен материал журнала The New Yorker, посвященный итогам развития искусственного интеллекта (ИИ) в 2023-м. Это удивительно точное определение — новости, которые ранее не выходили за пределы ИТ-сообщества, так захватили общественное внимание, что к концу года все уже изрядно подустали от темы ИИ. Поэтому мы решили, что, подводя итоги, не станем в очередной раз вспоминать о выходе модели GPT-4, призывах лидеров индустрии приостановить развитие ИИ, скандале с увольнением Сэма Альтмана из OpenAI и запоздалой попытке Google вскочить в уходящий паровоз с мультимодальной сетью Gemini. Обо всем этом «Медуза» и другие СМИ и так подробно писали в течение года. Мы же сосредоточимся на менее заметных, но более важных вопросах. Например, где с момента появления ChatGPT генеративный ИИ начал применяться на практике, а не в качестве эксперимента? Какие профессии с наибольшей вероятностью окажутся под ударом больших языковых моделей? Надолго ли то, что мы наблюдаем, или волна интереса схлынет так же стремительно, как накатила? Почему «революция ИИ» случилась именно сейчас, а не на 10 лет раньше или позже? Какие идеи лежат в ее основе? И где пролегают границы возможностей подхода, который дал плоды в виде удивительных чат-ботов и фантастических генераторов изображений?


Итог первый

Бизнес активно внедряет языковые модели. Но пока это лишь вишенка на торте традиционных ИИ-инструментов

С момента запуска ChatGPT прошло около полутора лет — очень небольшое время для того, чтобы коммерческие аналитики и ученые смогли объективно оценить реальное влияние генеративного ИИ на бизнес и производство. В августовском отчете за 2023 год это попытались сделать аналитики компании McKinsey на основе опроса представителей бизнеса. Исследование ограничено компаниями, зарегистрированными в США, поэтому, строго говоря, переносить его выводы на весь мир нельзя. Однако важность США для глобальной экономики и тот факт, что многие респонденты работают по всему миру, все равно делает результаты довольно интересными.

Главные выводы исследования звучат так:

  • Около трети организаций уже используют генеративный ИИ (те самые чат-боты) для решения хотя бы одной рабочей задачи.
  • Хотя опыт использования ChatGPT и аналогов для личных задач есть у 79% опрошенных, на рабочем месте их используют в среднем лишь 22%.
  • Из тех организаций, что уже в каком-то виде применяют ИИ, 40% собираются и дальше наращивать внутренние инвестиции в адаптацию новых инструментов.
  • Лидерами в этом направлении стали вполне предсказуемые секторы: ИТ, медиа и телеком. Самые отстающие — энергетика и фармацевтика.
  • Главные направления использования генеративного ИИ — продажи и маркетинг (14%), разработка (13%) и поддержка клиентов (10%).
  • Самые популярные сценарии использования — создание черновых маркетинговых текстов, анализ трендов в предпочтениях покупателей, использование чат-ботов в службе поддержки.
  • Рейтинг рисков, которые респонденты видят в использовании генеративного ИИ, возглавляет проблема неточности сообщаемых моделью данных — это беспокоит 56% менеджеров. Компании, которые не просто думают про риски, но уже активно работают над их минимизацией, уделяют больше внимания проблеме безопасности тех данных, что пользователи сообщают языковой модели. Также многих беспокоят проблема соблюдения чат-ботами прав на интеллектуальную собственность (46%) и трудности совмещения ИИ с существующими регуляторными правилами (комплаенсом).
  • Несмотря на появление и широкое распространение чат-ботов за последний год, если говорить об искусственном интеллекте в целом, то его внедрение в 2023-м не столько выросло, сколько вернулось к показателю 2021-го, компенсировав спад 2022-го.

В целом, следует из отчета, бизнес с энтузиазмом воспринял новый инструмент, начал с ним экспериментировать и готов в него вкладываться дальше. Но пока новые языковые модели — лишь «рябь на поверхности воды» других компьютерных систем, развивавшихся долгие годы. Майкл Чуи, партнер McKinsey Global Institute, так резюмировал предварительные выводы об эффекте чат-ботов для бизнеса:

Мы много говорили о важности генеративного ИИ — и не без оснований, учитывая его революционный потенциал. Но это исследование — хорошее напоминание о том, что в мире ИИ есть много ценного и за пределами [генеративного ИИ]. Более того, некоторые из наших других исследований показывают, что потенциал негенеративного ИИ даже больше, чем генеративного <…> Повышение точности прогнозирования, оптимизация логистических сетей и предоставление рекомендаций по покупке следующего продукта способны принести прибыль компаниям, которые воспользуются возможностями ИИ в более широком смысле.

Итог второй

Чат-боты уже начинают влиять на рынок труда. Взрывной прогресс языковых моделей заставил задуматься о будущем работы очень многих

Пока влияние генеративного ИИ на экономику крайне невелико, но тем, кто переживает за свои рабочие места, это все равно не добавляет уверенности в будущем. В 2023 году генеративный ИИ (сначала в лице GPT-4, далее — везде) научился проходить разработанные для людей стандартизированные тесты, фактически решил проблему машинного перевода и начал писать код приемлемого качества. Это уже остро ставит вопрос о том, как будут делить между собой рынок труда люди и агенты ИИ.

Нет недостатка в тех, кто полагает, что чат-боты в некоторых областях изменят просто все — например, полностью «отменят» программирование. Тем, кому близка эта проблематика, можно порекомендовать недавнюю лекцию бывшего профессора компьютерных наук в Гарварде Мэтта Уэлша, в которой он аргументирует, как появление больших языковых моделей не просто упростит жизнь разработчиков, а сделает их услуги ненужными. Ведь так же, как генеративный ИИ закрыл проблему перевода между человеческими языками, он неизбежно решит и проблему перевода с человеческого на машинный — а это то, чем в основе своей и является программирование.

Лекция Мэтта Уэлша (на английском языке)

CS50

Даже если повременить с глобальными выводами и обратиться к статистике по занятости, то и здесь уже заметно негативное влияние ИИ — пока только на фрилансеров. В середине 2023 года исследователи из Вашингтонского университета, изучавшие динамику спроса и предложения на фриланс-бирже UpWork, обнаружили, что распространение чат-ботов заметно снизило количество доступных заказов и средний доход специалистов, работающих на платформе. Даже большой опыт и хорошая репутация никак не защитили фрилансеров-ветеранов от демпинга со стороны генеративного ИИ.

Более масштабный взгляд на проблему можно почерпнуть из большого анализа, проведенного исследователями OpenAI. Работа сделана по оригинальной методике: используя американскую базу данных O*NET, где представлены подробные описания рабочих задач для разных профессий, авторы установили долю задач для всех профессий, которые могут быть существенно ускорены с помощью чат-ботов. Определили эту долю не представители профессий, а эксперты по генеративному ИИ (в том числе и сами авторы).

Главный вывод исследования таков: подавляющее большинство работников неизбежно должны почувствовать на себе влияние генеративного ИИ — пусть не сейчас, но в будущем. Так, для 80% профессий как минимум 10% задач могут быть полностью автоматизированы. На зону высокого риска — то есть те профессии, где машины готовы отобрать у людей более половины функций, — приходится целых 19% рынка труда. В отличие от предыдущих волн автоматизации, на этот раз наиболее уязвимы не ручные, а интеллектуальные работы: переводчики и аналитики, копирайтеры и писатели, бухгалтеры и аудиторы.

Исследование не дает прогнозов о том, когда искусственный интеллект доберется до конкретных профессий. Речь в нем идет лишь о том, чтобы выделить конкретные рабочие задачи, которые, согласно экспертам по генеративному ИИ, либо уже успешно решаются чат-ботами, либо могут быть решены в ближайшем будущем. Это интересный взгляд на рынок труда, однако он неизбежно несет на себе отпечаток взгляда самих создателей ИИ, склонных неизбежно преувеличивать важность своей области экспертизы. Возможно, поэтому в топе наиболее уязвимых профессий неожиданно высоко оказались поэты — либо мы действительно плохо понимаем будущее ИИ, либо представления разработчиков OpenAI о поэзии сильно расходятся с общепринятыми.

Итог третий

Нынешний прогресс ИИ стал возможен благодаря одной (не самой простой) идее и ооочень большому количеству ресурсов

В мае 2015 года аспирант компьютерных наук Стэнфордского университета, а впоследствии сотрудник Tesla и OpenAI Андрей Карпатый опубликовал в своем личном блоге заметку под названием «Необъяснимая эффективность рекуррентных нейросетей», которую при желании вполне можно назвать пророческой. В ней он подробно, с юмором и примерами простого кода объясняет, как устроены рекуррентные нейросети и как, даже будучи очень простыми по сути, они способны производить впечатление неожиданной разумности — то самое, что многим подарило первое общение с ChatGPT.

В этой заметке Карпатый не претендовал на открытия и не вдавался в глубокие размышления. Он просто подвел итог нескольких лет развития рекуррентных нейросетей и множества попыток использовать их для создания систем машинного перевода и вообще языковых моделей. Но выводы получились удивительными.

Прежде чем обратиться к ним, небольшой экскурс. Рекуррентные нейросети известны очень давно, как минимум с 1970-х, хотя современную их историю разумнее отсчитывать от 1997 года, когда впервые была описана разновидность, называемая LSTM. Главное отличие такого рода нейросетей — в наличии памяти. Они сохраняют свое состояние после того, как обработали порцию поступающей информации, — и новая порция обрабатывается ими уже не так, как раньше. Это принципиально отличает такие нейросети от тех, что традиционно используются, например, в обработке изображений и каждую задачу (каждый «кусок» данных) анализируют изолированно.

Именно память делает рекуррентные нейросети максимально подходящими для работы с языком — линейной системой, где смысл сказанного всегда сильно зависит от того, что было сказано ранее. Классическая задача для рекуррентных нейросетей — машинный перевод. Он как раз предполагает преобразование последовательности слов «входящего» языка в соответствующую последовательность слов языка «исходящего». Есть и другие задачи, схожие по организации потока данных, — например, распознавание рукописного ввода.

Однако рекуррентным нейросетям можно поручить и другую, может быть, самую странную линейную задачу — предсказание следующей буквы (или слова, или части слова, токена) на основе предшествующей последовательности. Еще в 2011 году Илья Суцкевер, будущий технический директор OpenAI и соавтор GPT-4, обратил внимание, что, почти не меняя архитектуру нейросети, созданной для перевода, вы можете получить систему, которая будет генерировать продолжение любого текста в соответствии с данными, на которых она обучена.

Тогда речь еще не шла о диалоге, ответах на вопросы и вообще об осмысленности генерируемых текстов. Суцкевер и соавторы думали о продолжении текста как о задаче, которая позволит глубже понять содержащуюся в нем избыточность и, как следствие, позволит сильнее его сжать (это может быть полезно, например, при вводе текста людьми с нарушениями речи). Инженеры при этом уже использовали тексты «Википедии» и архивы The New York Times как основу для обучения модели: в статье с описанием той ИИ-системы есть созданные ей фрагменты из псевдо-«Вики» и псевдо-NYT. И хотя осмысленности в генерируемых текстах не было, в процессе обучения из ничего буквально возникали законы языка: орфография, пунктуация, стилистика и прочее.

Чтобы сравнить, на что у разработчиков языковых моделей ушли последние 12 лет, можно сопоставить ответы на вопросы, которые дают современная языковая модель, GPT-4, и ее «прабабушка», рекуррентная нейросеть, обученная на данных «Википедии» и описанная в работе 2011 года Ильей Суцкевером и соавторами. Ниже обе модели продолжают текст о смысле жизни (данный им небольшой фрагмент выделен жирным). Важно иметь в виду, что разница между моделями заключена не только в архитектуре (трансформер и RNN соответственно), но и в том, что GPT-4 после основного проходила дополнительное обучение, которое должно было научить ее не просто продолжать текст, а отвечать на вопросы, и качество этих ответов оценивалось людьми (это важнейший этап для современных языковых моделей — обучение с подкреплением на основе человеческого ответа, RLHF). Тем не менее, разница в ответах может быть интересной.

2011 год, RNN на 4,9 миллиона параметров:

The meaning of life is the tradition of the ancient human reproduction: it is less favorable to the good boy for when to remove her bigger. In the showʼs agreement unanimously resurfaced. The wild pasteured with consistent street forests were incorporated by the 15th century BE. In 1996 the primary rapford undergoes an effort that the reserve conditioning, written into Jewish cities, sleepers to incorporate the .St Eurasia that activates the population. Mar?a Nationale, Kelli, Zedlat-Dukastoe, Florendon, Ptuʼs thought is. To adapt in most parts of North America, the dynamic fairy Dan please believes, the free speech are much related to the

2023 год, GPT-4:

The meaning of life is a philosophical question concerning the significance and purpose of human existence. This question has been pondered by philosophers, theologians, scientists, and countless individuals throughout history. Answers vary widely and can include perspectives from religious, philosophical, and personal viewpoints, often reflecting beliefs about the nature of existence, the purpose of life, and the path to fulfillment or enlightenment.

А теперь вернемся к записи в блоге Андрея Карпатого. В ней тот же процесс предстает в дистиллированном виде: обучаясь статистическим корреляциям на основе крохотного корпуса текстов Шекспира, нейросеть (которая исходно о языке имеет не большее представление, чем кусок кремния) постепенно осваивает расстановку пробелов, потом английские артикли, потом драматические ремарки — а по итогу все то, что мгновенно сообщает глазу читателя: «Это текст Шекспира!». Точнее, «это похоже на текст Шекспира» — ведь стоит прочитать хотя бы одно предложение целиком, чтобы понять, что написана в нем полная бессмыслица. И это совершенно нормально и ожидаемо. И Карпатый делает акцент не на абсурдности «текстопродукта», а на противоположном выводе: при всей бессмысленности содержания довольно простая система в процессе прямолинейного обучения почти волшебным образом воспроизводит все более сложные законы формы.

Сейчас мы знаем, что бессмысленность содержания при правдоподобной форме была не врожденным свойством языковых моделей, а лишь их детской болезнью. Знаем хотя бы потому, что код, который выдают современные чат-боты, часто компилируется, а ответы на вопросы не так уж редко оказываются разумными. Конечно, далеко не всегда. Но отвлекаясь на недостатки, мы снова рискуем упустить главное: удивителен сам факт — системы, придуманные для переводов человеческих текстов с языка на язык, оказались способны «переводить» человеческие вопросы в ответы. И эти ответы регулярно оказываются верными.

В этом месте возникает два вопроса:

  • Что такого случилось за прошедшие десять лет, что языковые модели вдруг перестали быть генераторами смешных текстов «под Шекспира» (Летова, Бродского и т. д. — подобных проектов было очень много еще до ChatGPT), а стали осмысленно отвечать на вопросы и приносить пользу?
  • Можно ли экстраполировать этот рост полезности в будущее или мы имеем дело с «однократной» революцией, которая сменится стагнацией?

Попробуем ответить развернуто на оба.

Первое, что бросается в глаза, — это, конечно, размер: моделей, количества данных и машинного времени, потраченного на обучение. Команда исследователей из проекта Epoch, которые ведут учет наиболее значимых систем ИИ с начала 1950-х, отмечают, что за весь период наблюдений количество параметров в лучших для своего времени проектах увеличилось на семь порядков — то есть в 10 миллионов раз. Этот рост ускорялся с момента широкого распространения систем глубокого обучения в начале 2010-х, однако примерно с 2018 года именно в области языковых моделей он стал особенно резким. Более того, с 2020 года исследователи фиксируют появление класса особо больших языковых моделей с количеством параметров более 20 миллиардов, их пример — GPT-3. Появление этой модели открыло что-то вроде новой ниши — даже более современные, но не настолько большие системы уже не могут конкурировать с такими «монстрами» как GPT-3, PaLM, LLaMA и их аналогами. А стоимость создания все более крупных систем становится запретительной для подавляющего большинства исследовательских групп, особенно в академии.

Схожая картина наблюдается и если посмотреть на развитие моделей с точки зрения потраченных на их обучение вычислительных ресурсов. Рост по этому параметру даже более впечатляющий. Он сильно опережает закон Мура — это означает, что языковые модели «отъедают» от общего пирога мировых вычислительных ресурсов непропорционально большую долю. 

Исследователи Epoch в этой связи полагают, что наиболее разумно разделить развитие современных моделей на три периода:

  1. Эпоха до появления глубокого обучения, когда вычисления для обучения моделей росли примерно в соответствии с законом Мура, удваиваясь каждые 20 месяцев.
  2. Эпоха глубокого обучения. Где-то между 2010 и 2012 годами время удвоения резко сократилось и составило примерно шесть месяцев.
  3. Эпоха крупномасштабных вычислений. В 2015-2016 годах мегамодели стали отдельным трендом. Они обычно создаются корпорациями, и на их обучение затрачивают на два-три порядка больше ресурсов, чем на обучение систем, которые соответствуют динамике предыдущей эпохи. При этом рост вычислений в нише мегамоделей происходит медленнее: время удвоения составляет около 10 месяцев.

Наконец, если посмотреть на рост ИИ в разрезе данных, то есть подсчитать количество использованных для их обучения объемов информации, оказывается, что в средне- и долгосрочной перспективе прогресс может столкнуться с совершенно новым препятствием. Лимитирующим фактором для совершенствования ИИ станут не вычислительные ресурсы, а сама обучающая информация. В мире анализа текста и обработки изображения такого еще не было — самыми дорогими считались вычислительные ресурсы, а не данные, производить которые человечество научилось с головокружительной скоростью. Однако предварительный анализ Epoch показывает: лет через 15 прогресс ИИ имеет шанс замедлиться именно по причине информационного голода. Пока это предварительные расчеты, не учитывающие многих факторов, в том числе возможности более оптимального обучения моделей. Но, например, качественных текстовых данных, судя по всему, начнет не хватать уже в 2024 году.

У всего этого роста языковых моделей, который мы наблюдаем во всех трех измерениях (параметры, вычислительные ресурсы и данные) была одна движущая мотивация: качество результата все это время стабильно росло с увеличением масштаба модели. Какой бы она ни была по внутреннему устройству, ее всегда можно было улучшить — достаточно забросить в нее еще больше данных, вычислительных ресурсов и параметров.

Одновременно внутреннее устройство ИИ-систем становилось все более схожим. Это движение продолжалось до тех пор, пока везде не победила универсальная архитектура — Transformer. Она реализует одну, но важнейшую идею этого десятилетия — внутреннее внимание. Как работает эта не самая простая идея на практике, можно узнать, например, здесь.

Люди, не знакомые с «внутренностями» популярных ИИ-систем, даже не представляют, что на самом деле те, при всех различиях, вышли, как из гоголевской «Шинели», из статьи «Внимание — это все, что нужно» от команды Google Brain, где описывается Transformer. И хотя прогресс в развитии идей об архитектуре ИИ не останавливался и параллельно появлялись и другие изящные реализации идеи внимания, все они пока остаются на страницах научных статей, будучи не способны одолеть всепобеждающего «трансформера».

Работу трансформера можно описать технически, а можно метафорически. 

Наверное, лучшее техническое описание — это проект nanoGPT того же Андрея Карпатого, который посвящен созданию минимально функциональной языковой модели на базовом Python. Здесь можно посмотреть его часовую лекцию, в которой код nanoGPT пишется с нуля — если воспроизвести его самостоятельно, многое станет ясно.

Но главную идею, лежащую в основе трансформера, можно, конечно, изложить и без кода. Это нейросеть, полноценно реализующая единственную концепцию — внутреннее внимание. Чтобы понять, что это такое, нужно сначала разобраться с внешним вниманием. Оно в ИИ очень похоже на обычное человеческое внимание — например, когда мы скользим взглядом по изображению, мы уделяем внимание разным его частям и это сильно помогает нам понимать, что именно показано на изображении. Многие современные системы распознавания изображений действуют точно так же, хотя их предшественники — сверточные нейросети — работали несколько иначе. Они не свободно скользили «фокусом внимания» по изображению, а сканировали его строго определенным образом — это тоже внимание, но более «механистическое». Внутреннее внимание устроено примерно так же как внешнее, но каждый элемент нейросети в нем как бы «смотрит» на все остальные.

Возможно, вы помните, как были устроены титры советских «Приключений Шерлока Холмса и доктора Ватсона» — в них на кажущийся бессмысленным текст набрасывалась специальная маска с прорезями, с помощью которой сразу становилось ясно, что нужно читать и кто кого играл в картине. Этот образ точно отражает механизм внутреннего внимания — нужно только представить, что отдельные маски есть у каждого слова в тексте и это не зрители, а сами слова «набрасывают маски» на себя и друг на друга. Слова «Шерлок Холмс» тогда прочитают слова «Василий Ливанов» и проигнорируют все остальное, слова «доктор Ватсон» прочитают слова «Виталий Соломин» и так далее. Между элементами текста образуются взаимоотношения, которые и будут определять, что из текста передастся дальше по цепочке обработки информации, а что будет проигнорировано. Некоторое усложнение заключается в том, что у каждого слова может быть не одна, а несколько масок внимания (это называется multi-headed attention) — но это тоже вполне понятно интуитивно, ведь каждое слово может иметь несколько разных значений, и эти значения «обращают внимание» на разные слова-спутники. 

Если изложенное выше все равно звучит туманно, то придется все-таки разбираться с понятиями вектор запроса, вектор ключа и вектор значения — что это такое и как работает, наглядно можно посмотреть, например, здесь, либо в той же лекции про nanoGPT.

Подводя итог, мы можем констатировать, что революция языковых моделей, которую все наблюдали в последний год, случилась благодаря очень необычному стечению обстоятельств. Она была подготовлена исследованиями рекуррентных нейросетей и их применимости для решения одной конкретной задачи — машинного перевода (это упрощение, но не слишком большое). Эти нейросети успели продемонстрировать «необъяснимую эффективность» в генерации текстов, показать важность памяти и привлечь внимание специалистов — и ровно в этот момент на смену им пришла совершенно новая архитектура, существенно более подходящая для обучения огромных моделей на гигантских объемах данных. То, что для ИИ-моделей размер имеет значение, было ясно и раньше. Но цель создать модель, обученную на вообще всех доступных текстах, стала вполне осязаемой только с появлением трансформера.

Началась гонка, которую мы и наблюдаем сейчас. О том, что она продолжается, недвусмысленно говорит попытка Google обойти GPT-4 со своей новой системой Gemini. Однако бесконечной гонка не будет. Мы уже видим пределы взрывного роста — как в размерах моделей, так и в объемах данных, которые, кажется, скоро станут бутылочным горлышком прогресса. Очевидно, что этап «первоначального накопления капитала» в виде базовых языковых моделей подходит к концу и за ним следует этап специализации и совершенствования, который может оказаться даже более интересным.

Итог четвертый

Мультимодальность, специализация и «рассуждения» вместо мгновенных ответов главные тренды ближайшего ИИ-будущего

Попробовать заглянуть в ближайшее будущее можно с помощью анализа трендов в работах, которые исследовательские команды публикуют на главной площадке в мире ИИ — в архиве Корнельского университета. Последний доступный обзор публикаций по компьютерным наукам, регулярно проводимый командой компьютерных лингвистов из Мангеймского и Билефельдского университетов, рисует необычную картину всей области ИИ.

Во-первых, среди наиболее важных и цитируемых статей сейчас безраздельно доминирует индустрия, а не академические институты, как в большинстве других отраслей науки. Во-вторых, все высшие строчки рейтинга цитирования занимают описания языковых моделей (39 из 40 самых цитируемых статей) — хотя сфера ИИ существенно больше одной только компьютерной лингвистики. В-третьих, верхние строчки заняты исследователями и инженерами из США, за которыми по пятам следуют китайские специалисты. Другие страны сильно отстают.

Все это, однако, формальные критерии. Если попытаться выделить, что сейчас больше всего интересует инженеров ИИ, то главные темы можно свести к следующим:

  • Во-первых, заметен упор разработчиков новых систем на мультимодальность — то есть способность одновременно понимать и отвечать не только текстом, но и изображениями или даже звуком. Громче других эту способность «продают» создатели Gemini из Google. Этот ИИ может понимать, что изображено на фото пользователя, объяснить, что в изображении необычно, и ответить не только текстом, но и, например, пошаговыми инструкциями с фотографиями. Проблема с Gemini в том, что в ее пространном описании нет вообще никаких технических подробностей устройства — лишь обсуждение превосходства над конкурентами. Помимо того, что «под капотом» модели находится Transformer (а что же еще?), публике об этой системе пока ничего не известно. К счастью, существует уже несколько других мультимодальных ИИ-систем и несколько описаний того, как именно можно «поженить» между собой такие разные вещи, как текст и изображение. Все они исходят из того факта, что наиболее затратный шаг во всех современных системах — это обучение базовых моделей языка и изображений, которое может стоить десятки миллионов долларов. Оказалось, для того, чтобы достичь мультимодальности, достаточно взять такие готовые базовые модели и научить их говорить между собой, использовав тонкую прослойку третьей нейросети, которую уже можно обучить за вменяемые деньги (и время). Получается что-то вроде сендвича из готовых («замороженных») текстовой и визуальной моделей, между которыми находится подвижная тонкая прослойка, обеспечивающая взаимодействие. Так, например, организованы системы mPLUG-Owl и InstructBLIP.
  • Во-вторых, свою небольшую революцию в области языковых моделей произвела компания Meta, полноценно опубликовавшая свои модели Llama и Llama-2. На их основе возник целый зоопарк новых, более совершенных и часто специализированных моделей, выполняющих собственные задачи — например, создание компьютерного кода. Вообще, специализация моделей на конкретных задачах обещает стать главным трендом 2024-го. Это видно не только по быстрорастущему семейству Llama, но и по тому направлению, которое взяла OpenAI, представив свой магазин приложений.
  • В-третьих, одним из самых интересных трендов в области ИИ в 2023 году стал интерес инженеров к созданию не просто чат-ботов, но систем, которые способны рассуждать медленно и решать свои задачи поэтапно. Дело в том, что все главные современные языковые модели работают в очень специфическом режиме, напоминающем волнующегося студента или игрока в интеллектуальной викторине: каким бы трудным ни был вопрос, заданный системе, предполагается, что она обязана ответить на него мгновенно. У нее нет возможности подумать, оценить свой ответ, передумать, прокрутить в голове альтернативные гипотезы — и уже потом прийти к выводам. Сделать именно то, что мы по умолчанию ожидаем от человека, которому задаем сложный вопрос. Языковая модель просто начинает генерировать ответ — и на каждое слово у нее есть фиксированное количество вычислительных ресурсов. Именно поэтому при общении с современными чат-ботами так эффективны уточнения вроде «изложи ответ поэтапно, шаг за шагом, чтобы не ошибиться» — это уловки, которые искусственно растягивают решение на большее количество шагов, а значит, выделяют на решение задачи больше вычислительных ресурсов. Уже сейчас для сравнения качества работы разных систем между собой исследователи используют множественные вопросы и их цепочки. Но что, если делать это не искусственно, не вручную, а встроить механизм рассуждения, аналогичный человеческому, в саму систему, дать ей возможность подумать подольше над вопросами, которые действительно того стоят? Теоретическая работа, которая излагает первый подход к решению этой задачи, была опубликована сотрудниками Google Mind и Принстонского университета в мае и стала одной из самых цитируемых. Можно не сомневаться, что именно это направление исследований может дать крайне интересные результаты в области языковых моделей в 2024-м.
Итог пятый

У общества к нейросетям все больше вопросов

Год прорывов в области нейросетей не только не снял опасения по поводу искусственного интеллекта, но и усилил их.

Независимые исследователи из Стэнфорда, Принстона и MIT обвинили разработчиков популярных ИИ-моделей, в том числе GPT-4, Llama и Stable Diffusion 2, в недостаточной прозрачности. В октябре они представили индекс, который учитывает 100 критериев, среди которых как социальные, так и технологические факторы: воздействие на рынок труда и окружающую среду, особенности процесса обучения моделей, раскрытие информации о вычислительных ресурсах и т. д. В итоге только две модели из десяти удовлетворили более чем 50% критериев. При этом, к примеру, ни один из разработчиков не предложил механизм возмещения вреда пострадавшим пользователям и другим сторонам. Например, художникам, на работах которых учатся нейросети.

Представители разных отраслей настороженно относятся к бурному развитию ИИ. Одним из требований многомесячной забастовки голливудских сценаристов и актеров в 2023-м было как раз регулирование использования искусственного интеллекта в киноиндустрии.

По данным опроса Medscape, две трети врачей тоже обеспокоены тем, что ИИ влияет на диагностику и принятие решений о лечении. Каждый четвертый отрицательно относится к использованию ИИ для общения с пациентами, переживая из-за того, как алгоритмы обрабатывают конфиденциальную информацию. Целых 88% опрошенных назвали риском то, что пациенты, которые обратятся к инструментам вроде ChatGPT за медицинским советом, получат в ответ дезинформацию.

Никуда не делись и традиционные для ИИ проблемы: предвзятость моделей, невозможность интерпретировать результаты («черный ящик»), генерация опасного/неверного контента, неравный доступ к новым технологиям, необходимость защиты данных и непонимание машинами этических норм.

Наконец, скандал с увольнением и восстановлением в должности сооснователя и гендиректора OpenAI Сэма Альтмана стал тревожным сигналом того, что даже внутри индустрии есть беспокойство по поводу безопасности ИИ и ответственности его разработчиков. По словам управляющего директора исследовательского института AI Now Institute Сары Майерс Уэст, события в OpenAI подчеркнули, что регуляторы слишком долго осторожно относились к рынку — и пришло время его встраивания в систему антимонопольных законов.

итог шестой

Власти всерьез заинтересовались регулированием развития ИИ

Регуляторы в разных странах потратили большую часть 2023 года на обсуждение того, по каким именно правилам должна работать отрасль ИИ. В начале декабря депутаты Европейского парламента согласовали Artificial Intelligence Act — одну из первых в мире законодательных попыток ограничить использование ИИ. Документ направлен на снижение рисков автоматизации рабочих мест, распространения дезинформации и угроз национальной безопасности.

Новые правила будут пропорциональны уровню риска каждого ИИ-инструмента. Идея в том, чтобы создать гибкую шкалу регулирования, по которой самые жесткие ограничения получит наиболее рискованный ИИ. К таким отнесли системы, устанавливающие социальный рейтинг на основе поведения или личных характеристик, распознающие лица в общественных местах в реальном времени и эксплуатирующие уязвимости людей из-за их возраста, состояния здоровья или социального положения. После принятия закона использовать подобные алгоритмы в ЕС будет запрещено под угрозой штрафа на сумму до семи процентов от мировых продаж.

Впрочем, нормативный акт пока не стал законом. Его еще должны принять Европарламент и Европейский совет, в который входят главы государств и правительств стран-членов ЕС. Закон должен вступить в силу в 2025 году, а за это время многое в быстро развивающейся индустрии может измениться. Как именно будет выглядеть правоприменительная практика, тоже пока не ясно: правила затронут регулирующие органы 27 стран и потребуют найма новых экспертов в условиях ограниченных бюджетов. Компании, в свою очередь, наверняка попытаются оспорить отдельные положения закона в судах.

Европейские депутаты вообще явно стремятся стать мировыми законодателями мод в сфере регулирования новых технологий. AI Act они подготовили через пять лет после принятия GDPR — жесткого регламента по защите персональных данных. Но не факт, что их примеру захотят последовать другие страны. Лидер большинства в американском Сенате Чак Шумер уже выразил обеспокоенность тем, что в США подобный закон поставит местные компании в невыгодное положение в конкуренции с Китаем.

В КНР уже несколько лет регулируют работу рекомендательных алгоритмов и генеративного ИИ. В стране запрещено манипулирование ценами с помощью рекомендательных алгоритмов, а разработчики должны маркировать генеративный контент и обеспечивать «правдивость и точность» результатов работы своих моделей. Кроме того, местные законы защищают права работников, расписание и доход которых устанавливают алгоритмы (например, сотрудников служб доставки), — в частности, устанавливают минимальную зарплату и запрещают использовать жесткие ограничения по времени на выполнение заказов.

В США регулирование пока гораздо либеральнее — возможно, потому что обычные американцы не считают это приоритетом. Летом правительство предложило компаниям добровольно контролировать риски, связанные с безопасностью ИИ. Такие обязательства взяли на себя Microsoft, OpenAI, Amazon, Anthropic, Google, Meta и другие компании. Они должны проводить внешнее тестирование ИИ-инструментов на предмет предвзятости и конфиденциальности, обмениваться информацией о рисках с регуляторами и думать, как идентифицировать материалы, созданные искусственным интеллектом.

Осенний указ президента Джо Байдена пошел дальше, обязав разработчиков потенциально опасных моделей делиться с правительством результатами проверок безопасности до выпуска продуктов. Кроме того, документ предписывает Минюсту США разработать правила использования ИИ при вынесении приговоров и в прогнозировании преступлений. Указ предполагает и регламентацию правил аутентификации контента с помощью водяных знаков — чтобы граждане могли отличать фейки от правдивой информации.

Тем временем, некоторые компании сами делают шаги в сторону регулирования ИИ, особенно в области трудовых отношений. Например, Microsoft начал включать в трудовые контракты положения, защищающие права работников в конкуренции с искусственным интеллектом, а члены влиятельного профсоюза работников отелей и казино в Лас-Вегасе договорились с работодателями, что будут заранее получать предупреждения о внедрении новых технологий, которые влияют на рабочие места.

Учитывая глобальный охват решений на основе ИИ, отрасли нужно и международное регулирование. На ноябрьском саммите в Британии несколько десятков стран договорились сотрудничать в сфере ограничения рисков и координации ИИ-разработок. Мероприятие может стать ежегодным — по примеру климатического COP.

Другой международной площадкой может стать ООН, которую США стремятся привлечь для выработки общих правил игры в области ИИ. По замыслу дипломатов, организация должна призвать государства мира использовать искусственный интеллект в соответствии с основополагающими документами ООН, которые предполагают защиту прав человека и мирное сосуществование.

Предложенный американцами проект резолюции Генеральной ассамблеи ООН осуждает любое неправомерное использование ИИ, подрывающее мир и права человека. Документ обязывает страны-члены ООН способствовать «ответственному и инклюзивному проектированию, разработке, внедрению и использованию» ИИ для решения глобальных задач вроде искоренения голода, обеспечения чистой и доступной энергией и качественного образования для всех.

Вероятно, в 2024 году мы увидим больше попыток государств и международных организаций регулировать разработку и применение искусственного интеллекта. Вопрос в том, кто будет регулировать самих регуляторов.

По оценке правозащитной организации Freedom House, генеративный ИИ увеличивает масштаб дезинформации в интернете. В 2023 году по меньшей мере 47 правительств манипулировали онлайн-дискуссиями в свою пользу — это вдвое больше, чем 10 лет назад. Генерация текстов, аудио и изображений с помощью ИИ использовалась в уходящем году как минимум в 16 странах, чтобы посеять сомнения, очернить оппонентов или повлиять на общественные дебаты. А в 21 стране законы и вовсе заставляют цифровые платформы использовать машинное обучение для устранения нежелательных политических, социальных и религиозных высказываний.

  • Андрей Карпатый, нетехническая лекция о состоянии больших языковых моделей

State of GPT | BRK216HFS

Microsoft Developer

  • Андрей Карпатый, нетехническая лекция-введение в большие языковые модели

[1hr Talk] Intro to Large Language Models

Andrej Karpathy

Отдел «Разбор» и Илья Кабанов

Magic link? Это волшебная ссылка: она открывает лайт-версию материала. Ее можно отправить тому, у кого «Медуза» заблокирована, — и все откроется! Будьте осторожны: «Медуза» в РФ — «нежелательная» организация. Не посылайте наши статьи людям, которым вы не доверяете.