истории

Некоторые зашифрованные тексты не удается декодировать на протяжении сотен и даже тысяч лет Вероятно, это получится изменить с помощью ИИ 

Источник: Meduza

Что можно узнать из зашифрованных древних текстов

В Ватиканской апостольской библиотеке более четырех веков хранится рукописная книга из 408 страниц, большую часть которой до недавнего времени было невозможно прочитать. В тексте использованы 34 необычных символа вперемешку с отдельными латинскими буквами, а надпись на титульном листе сделана на арабском. Ключ к шифру, известному как шифр Борга, был утерян. Кроме того, некоторые страницы в силу возраста книги были повреждены. 

Biblioteca Apostolica Vaticana

Книга, написанная с использованием шифра Борга

Biblioteca Apostolica Vaticana

Как пишет «Би-би-си», ученым удалось расшифровать содержимое книги с помощью машинного обучения. Текст, как гласила надпись в начале рукописи, содержал рецепты лечения «телесных недугов». После расшифровки выяснилось, что, например, для борьбы с дизентерией рекомендовалось выпивать несколько бокалов хорошего красного вина или ферментировать мускатный орех в тесте. Подобные методы лечения держались в тайне, поскольку могли вызвать подозрения в колдовстве. 

Фрагмент расшифрованного текста

Beáta Megyesi / Stockholm University

Около 1% хранящихся в библиотеках и архивах материалов могут быть зашифрованными. Профессор вычислительной лингвистики Стокгольмского университета Беата Медьеши, работавшая над декодированием шифра Борга, считает, что процесс расшифровки можно значительно ускорить с помощью искусственного интеллекта.

В разные времена люди шифровали разведданные, ритуалы тайных обществ, медицинские знания, любовную переписку — все, что хотели сохранить в секрете. Расшифровка подобных документов, которых сейчас нет в исторических хрониках, может изменить наше представление об эпохе или о конкретных исторических деятелях. Например, в 2023 году криптографы расшифровали более 50 писем, которые королева Шотландии Мария Стюарт писала во время заточения в Англии, с 1578 по 1584 годы. Из этих писем стали известны подробности участия Стюарт в заговорах против Елизаветы I с целью возвращения трона, а также детали ее напряженных отношений с сыном — Яковом VI Шотландским, будущим королем Англии Яковом I. 

Один из разворотов рукописной книги, написанной с использованием шифра Борга

Biblioteca Apostolica Vaticana

Некоторые шифры устроены очень просто: каждому символу соответствует латинская буква. Иногда для обозначения одной и той же буквы может использоваться сразу несколько различных знаков. Есть и более запутанные варианты. Кроме того, в шифр могут намеренно добавить лишние бессмысленные символы. А в отдельных случаях исследователи ничего не знают о языке, на котором изначально был написан зашифрованный текст.  

Все это сильно усложняет им работу. Например, Сесиль Пьеро и ее коллеги около полугода расшифровывали три страницы текста. Это было письмо императора Священной Римской империи и короля Испании Карла V своему послу во Франции Жану де Сен-Морису. Император писал о возможном покушении на себя, которое, как он считал, готовил король Франции Франциск I. Письмо было зашифровано с использованием 120 символов. Некоторые из них заменяли целые слова. 

Ключ к шифру Борга

Stockholm University

Как выглядит процесс расшифровки 

Сначала рукописный зашифрованный документ нужно перевести в цифровой формат. На две страницы, по словам Пьеро, может уйти целый день: дело часто осложняют неразборчивый почерк и выцветшие страницы. После этого электронный документ загружается в специальную программу, которая пытается подобрать ключ к шифру. 

Искусственный интеллект начинает ускорять этот процесс. Так, Мишель Вальдиспюль из Университета Осло и ее коллеги использовали онлайн-платформу Transkribus для расшифровки письма эпохи Тридцатилетней войны (1618–1648 гг.г). Его в 1637 году написал дворянин Сигизмунд Хойснер фон Вандерслебен шведскому риксканцлеру Акселю Оксеншерне. Он сообщал об угрозе заговора среди союзников Швеции. 

Transkribus, обученный на письмах на нескольких языках, написанных с XV по XVIII век, может распознавать и переводить рукописный текст в цифровой формат. С письмом фон Вандерслебена, которое было зашифровано с помощью чисел, инструмент справился успешно — хотя небольшое вмешательство со стороны ученых все же потребовалось. 

У существующих инструментов для транскрипции возникают трудности, когда в документе используются нестандартные или вымышленные знаки. Поэтому Беата Медьеши, Мишель Вальдиспюль и их коллеги из разных стран вместе разрабатывают новый инструмент на основе ИИ, который смог бы преобразовать такие тексты в машиночитаемые документы — Descrypt

После того, как исходный текст переведен в электронный формат, криптологи могут работать над его расшифровкой с помощью специальных программ (которые пока не используют ИИ). Простые шифры часто удается взломать, используя частотный анализ символов: их сопоставляют с буквами алфавита, которые встречаются в данном языке столь же часто. Например, наиболее распространенная буква в английском — E, тогда как Z, Q и X встречаются реже всего. Но в том же письме фон Вандерслебена для обозначения буквы E использовались восемь разных символов. Такой шифр можно было вскрыть только очень постепенно, методом проб и ошибок — и с участием человека, знающего старонемецкий язык. Вальдиспюль надеется, что ИИ со временем ускорит эту работу. 

Чего хотят добиться исследователи

Медьеши и ее коллеги пытаются полностью исключить из процесса этап транскрипции и сразу подбирать ключ к шифру на основе фотографий страниц. Исследователи обнаружили, что такой подход может работать в случае с простыми шифрами, где одному символу соответствует одна буква. 

Систему протестировали на кодексе Копиале — немецкой зашифрованной рукописи XVII века объемом 105 страниц, которая рассказывает о тайном обществе масонского типа. Искусственный интеллект, обученный на образцах рукописного почерка и изображениях строк шифра в связке с их расшифровкой, смог декодировать те фрагменты текста, которые раньше не видел. 

Главная сложность, которая стоит перед командой Descrypt, — это необходимость собрать достаточный объем данных для тренировки ИИ. Большие языковые модели вроде ChatGPT обучаются на триллионах слов, взятых из книг, статей и из интернета. В то же время масштаб находок исследователей, работающих над Descrypt, гораздо скромнее. Например, им удалось собрать 400 открыток конца XIX — начала XX веков. Судя по немногим расшифрованным фрагментам, это любовные письма на немецком языке. 

Команда Медьеши создала чат-бот с ИИ, который выполняет транскрипцию и дешифровку текста за один этап. Он также документирует процесс и объясняет свои решения, что помогает исключить вероятность того, что ИИ галлюцинирует. Фрагмент в 500 символов из шифра Борга бот смог перевести и расшифровать примерно за полчаса. Он также предоставил перевод на английский. Система также справилась и с двумя другими шифрами, ключи к которым ученые подобрали ранее.  

Команда Descrypt надеется, что сможет взломать шифры, которые до сих пор остаются неразгаданными. Вероятно, инструмент поможет в работе с древними текстами, написанными алфавитами, которые сегодня никто не может прочитать. Например, Фестский диск с Крита, созданный во втором тысячелетии до нашей эры. 

«Меня воодушевляет не только возможность разгадать одну конкретную историческую загадку, но и перспектива создания методов, которые могут помочь исследователям решить множество других задач», — говорит Медьеши.

Magic link? Это волшебная ссылка: она открывает лайт-версию материала. Ее можно отправить тому, у кого «Медуза» заблокирована, — и все откроется! Будьте осторожны: «Медуза» в РФ — «нежелательная» организация. Не посылайте наши статьи людям, которым вы не доверяете.