Я хочу поддержать «Медузу»
Andrew Harrer / Bloomberg / Getty Images
истории

Google случайно опубликовала 2500 страниц технической документации своего поисковика Оказалось, что алгоритм учитывает клики людей в Chrome и ограничивает новые сайты

Источник: Meduza

В конце мая в сеть попали внутренние документы Google, раскрывающие некоторые принципы работы поискового алгоритма компании. Например, стало известно, что она использует данные Chrome для ранжирования сайтов и составляет «белые списки» источников под отдельные новостные события. Спустя неделю журналисты узнали о возможных многолетних нарушениях правил безопасности и конфиденциальности пользователей, которые происходили в Google. Компания была вынуждена признать, что все попавшие в сеть данные верны. «Медуза» подробно рассказывает об этой утечке.


Google создавал «белые списки» для запросов о ковиде и врал о том, какие параметры влияют на ранжирование сайтов

О первой утечке 27 мая сообщил Рэнд Фишкин — глава компании SparkToro и эксперт в области SEO-оптимизации. Он рассказал, что в начале месяца получил электронное письмо от анонимного источника, который утверждал, что у него есть доступ к большому количеству внутренних документов Google. Отправитель добавил, что подлинность документов подтверждена бывшими сотрудниками компании, которые также поделились с ним дополнительной информацией, связанной с поиском.

Фишкин поговорил с источником по видеосвязи, получил необходимые подтверждения достоверности информации и согласился ее обнародовать. Он также обратился к другому SEO-эксперту, основателю компании iPullRank Майку Кингу, чтобы совместно провести анализ документов. На следующий день после публикации анонимный информатор решил раскрыть свою личность и опубликовал ролик на YouTube. Им оказался SEO-специалист и основатель компании EA Eagle Digital Эрфан Азими.

Публичное заявление Эрфана Азими

Erfan Azimi (EA Eagle Digital)

В распоряжении Рэнда Фишкина и Майка Кинга оказалось 2500 страниц внутренней API-документации, которая по ошибке была загружена на GitHub. Судя по всему, она находилась там с 27 марта по 7 мая, и в этот промежуток времени ее нашел Азими. Информация, доступная в этом документе, является технической — большая ее часть представляет интерес в первую очередь для экспертов в области SEO-оптимизации. Однако она также позволяет узнать чуть подробнее о принципах работы поисковика.

Например, можно сделать вывод, что Google регулярно составляет так называемые «белые списки» сайтов, которые имеют более высокий рейтинг в поисковой выдаче. Ресурсы, которые в них не попадают, напротив, понижаются, и пользователям сложнее найти их при определенном запросе. Фишкин отмечает, что подобные списки использовали как минимум дважды: во время пандемии и выборов в США.

В целом стало понятнее, какие параметры действительно влияют на поиск. Например, Google отрицала, что собирает данные Chrome для ранжирования сайтов. Судя по утечке, это не так: браузер все же упоминается в разделах, посвященных поисковой выдаче. Также компания отрицала, что отдельные факторы, например, авторство контента, могут отражаться на результатах. Майк Кинг в своем разборе отмечает, что показатель E-E-A-T, который в том числе учитывает уровень экспертизы автора, все же влияет на ранжирование сайтов.

Эксперты выделяют еще целый ряд параметров, которые отражаются на выдаче. Например, упоминается система NavBoost, которая анализирует клики с учетом геолокации и делит их на несколько категорий, включая «хорошие», «плохие» и «длинные». Название домена, равно как и узнаваемость бренда в сети, играют важную роль и могут отражаться на результатах выдачи. Также есть отдельная «песочница» для новых сайтов — их ограничивают в выдаче, хотя ранее Google это также отрицала.

«Почти каждый запрос к API в утечках Google имеет географический модификатор — если вы занимаетесь SEO в местах, где алгоритм менее развит, чем в США (у них может быть меньше данных, меньше брендов, они не такие узнаваемые и т. д.)
То, что работает для SEO в США, не всегда работает в этих странах, а то, что работает в этих странах, не всегда работает здесь»

Нельзя сказать, что опубликованная информация является совсем неожиданной для SEO-экспертов. О каких-то вещах они уже подозревали и раньше. Но, как отмечает Рэнд Фишкин, многое из того, что попало в утечку, расходится с официальными заявлениями Google, которые они делали на протяжении многих лет. Это подрывает доверие к компании. Эксперт надеется, что в будущем публичные комментарии Google будут рассматриваться более критично.

В Google несколько дней отказывались комментировать утечку, но 30 мая представитель компании Дэвис Томпсон подтвердил изданию The Verge, что попавшие в сеть документы — настоящие. Он также отметил, что не стоит делать некорректные предположения о работе поисковых алгоритмов на основе «вырванной из контекста, устаревшей или неполной информации».

Сбои в сервисах Google приводили к случайному сбору персональных данных — в том числе детских разговоров

Через неделю после первой публикации стало известно о новой утечке. 3 июня журналист издания 404 Media Джозеф Кокс сообщил, что получил от анонимного источника большой массив данных, в котором он нашел подтверждения многочисленных нарушений правил информационной безопасности и конфиденциальности данных.

В утечке содержалась информация о тысячах нарушений, которые были зафиксированы в виде внутренних отчетов в период с 2013 по 2018 год. К ним относятся проблемы со сбором и обработкой данных, ошибки сотрудников, а также уязвимости у сторонних партнеров, услугами которых пользовалась компания. Каждому такому инциденту в отчетах присваивался рейтинг приоритетности, определяющий, насколько срочно требуется устранить ту или иную проблему.

Журналист выяснил, что в 2016 году один из сотрудников компании сообщил, что системы Google Street View расшифровывают и хранят автомобильные номера, которые попадают на фото. Обычно такая информация, равно как и лица людей, размываются для сохранения конфиденциальности. В отчете говорилось, что это произошло непреднамеренно — алгоритм для определения текста на фото в какой-то момент начал считывать в том числе и номера автомобилей. Хотя изначально система была настроена таким образом, чтобы определять их и игнорировать. В результате ошибки в распоряжении компании оказалась целая база геолоцированных номеров или их фрагментов.

Другой инцидент был связан с образовательной платформой Socratic, которую Google приобрела в 2018 году. Выяснилось, что в исходном коде сайта компании больше года хранилось более миллиона адресов электронной почты (в отчете говорилось, что также могли быть доступны IP-адреса и геолокация), в том числе принадлежащих детям. Упоминается еще один случай, затрагивающий несовершеннолетних пользователей. В неуточненный период времени у Google появилась база с записями речи примерно тысячи детей — по какой-то причине не сработал соответствующий фильтр, поэтому система в течение часа записывала их и сохраняла. Эти данные были удалены. 

В общей сложности Кокс упомянул больше десятка различных нарушений. Например, однажды пользователя облачного сервиса Google, предназначенного для государственных клиентов, перевели на продукт, предназначенный для обычных потребителей. Это поставило под угрозу конфиденциальность хранившихся в облаке данных. Также упоминается случай, когда из-за сбоя в функции совместных поездок в навигационном приложении Waze (принадлежит Google с 2013 года) утекли данные об адресах и маршрутах пользователей. Другой сбой связан с YouTube — сервис выдавал рекомендации, учитывая видеоролики, удаленные из истории просмотров, что противоречило политике сервиса.

«Думаю, после этого некоторые птички перестанут щебетать»

В отдельном тексте Джозеф Кокс рассказал, что в 2017 году один из сотрудников, работавший в Google по контракту, использовал права администратора, чтобы получить доступ к официальному аккаунту игровой компании Nintendo. Он смог найти еще не опубликованный ролик новой неанонсированной игры и поделился им с другом, что привело к утечке. Речь идет об игре Yoshiʼs Crafted World, вышедшей в 2019 году. При этом во внутреннем отчете компании говорится, что утечка могла быть «непреднамеренной».

Представители Google подтвердили журналисту достоверность опубликованной информации. Они также отметили, что рассмотрели каждый внутренний отчет и вынесли по нему соответствующее решение. В некоторых случаях нарушения вообще не требовали вмешательства, или были обнаружены на сторонних сервисах.

Джозеф Кокс добавил, что большинство этих инцидентов действительно быстро устранили, а каждый из них по отдельности мог затронуть лишь небольшое количество людей. Однако он подчеркнул, что опубликованная им информация — хороший пример того, насколько легкомысленно крупнейшие компании мира обращаются с конфиденциальными данными пользователей.

Михаил Герасимов

Magic link? Это волшебная ссылка: она открывает лайт-версию материала. Ее можно отправить тому, у кого «Медуза» заблокирована, — и все откроется! Будьте осторожны: «Медуза» в РФ — «нежелательная» организация. Не посылайте наши статьи людям, которым вы не доверяете.