Нейросети постоянно учатся на больших наборах данных, но кто же их собирает? Такой труд часто не ценится и приносит мало денег Индийский стартап решил это исправить — и помочь самым бедным жителям своей страны
Для обучения искусственному интеллекту необходимы совершенно разные данные — на английском найти их не так сложно, а вот с другими языками нередко возникают проблемы. В то же время труд людей, создающих эти данные, как правило, плохо оплачивается. Индийский стартап Karya решил это исправить — и привлек к работе по сбору информации для машинного обучения малоимущих жителей сельских районов своей страны. «Медуза» пересказывает материал Time о компании, которая помогает людям, чьи языки недостаточно представлены в интернете, получить доступ к передовым технологиям и вырваться из долгов.
Зачастую технологии на основе искусственного интеллекта хорошо работают на английском, но не на других языках. Причина — в доступности текстов и аудио, на которых ИИ мог бы учиться. Например, в «Википедии» — популярном источнике обучения нейросетей — шесть миллионов статей на английском языке и только 30 тысяч на каннаде, одном из четырех крупнейших южноиндийских языков — на нем говорят около 60 миллионов людей, преимущественно в центральной и южной Индии.
Дефицит, отмечает Time, спровоцировал спрос на создание данных — текстов и аудио — на языках, на которых говорят одни из самых бедных людей в мире. В этом заинтересованы как технологические компании, стремящиеся распространить свои сервисы на более широкую аудиторию, так и научное сообщество и правительство, особенно из Индии — страны, чье почти полутора миллиардное население говорит на 22 языках и не менее 780 диалектах.
Мировой рынок сбора данных для обучения ИИ в 2022 году оценивался в два миллиарда долларов. При этом, как отмечает Time, в отрасли доминируют фирмы, которые выплачивают сборщикам зарплату на уровне, близком к минимальному, хотя продают данные с огромной наценкой.
Индийцы Ману Чопра и Вивек Сешадри во время работы в Microsoft Research провели исследование и подтвердили гипотезу, что создавать данные для обучения ИИ можно без специальной подготовки, знания английского и компьютера (нужен только смартфон) — то есть даже в самых бедных районах их страны. В 2021 году Чопра, Сешадри и Сафия Хусейн (в 2019 году она работала в Фонде ООН в области народонаселения) основали стартап Karya — «первую в мире компанию по этичному сбору данных».
Как и конкуренты — например, Appen и Alegion — Karya создает базы данных для обучения ИИ и продает их крупным технологическим компаниям. Однако значительную часть заработанных денег тратит на выплату сотрудникам, создающим эти данные. При этом стартап сотрудничает с беднейшими общинами. Для этого он объединился с некоммерческими организациями, работающими в сельских районах, а они, в свою очередь, распространили коды доступа к платформе Karya среди тех, кто особенно нуждается в заработке.
Стартап начал работу в деревнях Алахалли и Чилукавади в индийском штате Карнатака. Местные жители записывают, как читают тексты на своем родном языке — каннаде — и получают за это деньги. Причем уже через несколько часов после выполнения работы. Еще через несколько дней, после проверки записи на точность, им приходят дополнительные выплаты.
Karya платит сотрудникам по пять долларов за час работы — и не лишает фактического права на созданные ими датасеты (получившиеся наборы данных для машинного обучения). Поэтому всякий раз, когда материалы перепродаются другим компаниям, сотрудники стартапа получают отчисления. Так в отрасли больше не поступает никто, пишет Time. «Это не какая-то мечта о вымышленном лучшем мире. Мы можем платить нашим работникам в 20 раз больше минимальной заработной платы и при этом быть устойчивой организацией», — объяснил Чопра, родившийся в бедной семье и изменивший свою жизнь, благодаря стипендии Стэнфордского университета.
Часть денег Karya получает за счет грантов — если финансирование прекратится, существование компании окажется под угрозой. Однако Субхаштри Датта, управляющий партнер некоммерческой организации The/Nudge Institute, который пожертвовал стартапу 20 тысяч долларов, уверен, что Karya работает «на хорошей тяге».
30-летняя учительница Чандрика К. из Алахалли заработала 2570 рупий (около 31,30 долларов) за шестичасовую аудиозапись на каннаде — на нее она потратила несколько дней. Примерно столько Чандрика К. получает за месяц работы в сельской школе, добираться до которой ей приходится на трех автобусах. Часть средств, полученных от Karya, она собирается потратить на погашение кредита, который семье пришлось взять для лечения ее сестры (она вскоре умерла). В аналогичной ситуации оказались и другие сотрудники стартапа. Например, 25-летний Аджай Кумар взял кредит, чтобы оплатить лечение травмы спины своей матери — с помощью новой работы начал его погашать.
По словам Чопра, многие сельские жители рады сотрудничеству с Karya, поскольку это не требует тяжелого физического труда. 21-летний житель Чилукавади Канакарадж С. учится в колледже и, чтобы купить учебники и оплатить транспорт, работает в полях: в летние месяцы это особенно тяжело из-за жаркого климата. За час создания данных на каннаде Канакарадж может заработать больше, чем за день изнурительного труда. Работа в Karya выручает и 38-летнего Шиванну Н., возможности трудоустройства которого сильно ограничены из-за инвалидности — в детстве, после несчастного случая с фейерверком, он потерял руку.
Как пишет Time, сотрудничающие с Karya жители Алахалли и Чилукавади лишь отчасти понимают, что такое искусственный интеллект и в чем именно заключается суть их работы. По словам Чопры, команда стартапа говорила сотрудникам, что те «учат компьютер говорить на каннаде». 35-летний безработный отец троих детей Сиддаражу Л. сказал, что не знает, что такое ИИ, но был бы горд, если бы компьютер мог говорить на его родном языке.
«Большинство людей в деревнях не знают английского, — сказала 23-летняя студентка по имени Винутха, которая начала работать в стартапе, чтобы меньше зависеть от родителей. — Если бы компьютер мог понять каннаду, это было бы очень полезно».
На самом же деле проект Karya, в котором задействованы носители каннады из штата Карнатака, направлен на создание аудиоданных для индийской медицинской неправительственной организации. Она собирает информацию о туберкулезе — излечимом и предотвратимом заболевании, от которого все еще ежегодно умирают около 200 тысяч индийцев. Аудиозаписи на десяти диалектах каннады помогут обучить языковую модель, которая сможет распознавать вопросы индийцев о туберкулезе и отвечать на них. Нейросеть должна облегчить неграмотным людям доступ к важной информации о заболевании.
«Я узнала больше о туберкулезе и о том, как люди должны принимать лекарства», — рассказала 30-летняя Раджамма М. Раньше она работала в государственной инспекции и обходила дома, чтобы проверить, вакцинировались ли жители от коронавируса. Но в январе 2023-го лишилась этой работы.
Хотя Karya — все еще небольшая компания, у нее уже много известных клиентов, включая Microsoft, Массачусетский технологический институт и Стэнфордский университет. В феврале 2023-го стартап начал работу над проектом для Фонда Билла и Мелинды Гейтс; задача — создать набор голосовых данных на пяти языках, на которых говорят около миллиарда индийцев (маратхи, телугу, хинди, бенгальском и малаяламе). На их основе планируют разработать чат-бот, который будет отвечать на вопросы о здравоохранении, сельском хозяйстве, улучшении санитарных условий, финансах и рынке труда.
Для жителей Карнатаки работа с Karya стала важным источником дохода, но назвать его основным нельзя. По правилам стартапа, сотрудник может заработать максимум 1500 долларов, после чего его место занимает другой человек. При этом Чопра признался, что еще никто не достиг предельной суммы, поскольку рабочих задач не хватает на всех желающих. Дополнительные выплаты за перепродажу данных также получили не все — лишь четыре тысячи человек. Общая сумма начисленных роялти составила 116 тысяч долларов.
Компания уже выплатила в общей сложности 65 миллионов рупий (почти 800 тысяч долларов) примерно 30 тысячам жителей сельской местности в Индии. Чопра хочет, чтобы к 2030 году их количество достигло 100 миллионов. «Я искренне верю, что это самый быстрый способ вывести миллионы людей из нищеты, если все делать правильно», — убежден он.