Перейти к материалам
истории

Некоторые зашифрованные тексты не удается декодировать на протяжении сотен и даже тысяч лет Вероятно, это получится изменить с помощью ИИ 

Источник: Meduza

Что можно узнать из зашифрованных древних текстов

В Ватиканской апостольской библиотеке более четырех веков хранится рукописная книга из 408 страниц, большую часть которой до недавнего времени было невозможно прочитать. В тексте использованы 34 необычных символа вперемешку с отдельными латинскими буквами, а надпись на титульном листе сделана на арабском. Ключ к шифру, известному как шифр Борга, был утерян. Кроме того, некоторые страницы в силу возраста книги были повреждены. 

Книга, написанная с использованием шифра Борга
Biblioteca Apostolica Vaticana

Как пишет «Би-би-си», ученым удалось расшифровать содержимое книги с помощью машинного обучения. Текст, как гласила надпись в начале рукописи, содержал рецепты лечения «телесных недугов». После расшифровки выяснилось, что, например, для борьбы с дизентерией рекомендовалось выпивать несколько бокалов хорошего красного вина или ферментировать мускатный орех в тесте. Подобные методы лечения держались в тайне, поскольку могли вызвать подозрения в колдовстве. 

Фрагмент расшифрованного текста
Beáta Megyesi / Stockholm University

Около 1% хранящихся в библиотеках и архивах материалов могут быть зашифрованными. Профессор вычислительной лингвистики Стокгольмского университета Беата Медьеши, работавшая над декодированием шифра Борга, считает, что процесс расшифровки можно значительно ускорить с помощью искусственного интеллекта.

В разные времена люди шифровали разведданные, ритуалы тайных обществ, медицинские знания, любовную переписку — все, что хотели сохранить в секрете. Расшифровка подобных документов, которых сейчас нет в исторических хрониках, может изменить наше представление об эпохе или о конкретных исторических деятелях. Например, в 2023 году криптографы расшифровали более 50 писем, которые королева Шотландии Мария Стюарт писала во время заточения в Англии, с 1578 по 1584 годы. Из этих писем стали известны подробности участия Стюарт в заговорах против Елизаветы I с целью возвращения трона, а также детали ее напряженных отношений с сыном — Яковом VI Шотландским, будущим королем Англии Яковом I. 

Один из разворотов рукописной книги, написанной с использованием шифра Борга
Biblioteca Apostolica Vaticana

Некоторые шифры устроены очень просто: каждому символу соответствует латинская буква. Иногда для обозначения одной и той же буквы может использоваться сразу несколько различных знаков. Есть и более запутанные варианты. Кроме того, в шифр могут намеренно добавить лишние бессмысленные символы. А в отдельных случаях исследователи ничего не знают о языке, на котором изначально был написан зашифрованный текст.  

Все это сильно усложняет им работу. Например, Сесиль Пьеро и ее коллеги около полугода расшифровывали три страницы текста. Это было письмо императора Священной Римской империи и короля Испании Карла V своему послу во Франции Жану де Сен-Морису. Император писал о возможном покушении на себя, которое, как он считал, готовил король Франции Франциск I. Письмо было зашифровано с использованием 120 символов. Некоторые из них заменяли целые слова. 

Ключ к шифру Борга
Stockholm University

Как выглядит процесс расшифровки 

Сначала рукописный зашифрованный документ нужно перевести в цифровой формат. На две страницы, по словам Пьеро, может уйти целый день: дело часто осложняют неразборчивый почерк и выцветшие страницы. После этого электронный документ загружается в специальную программу, которая пытается подобрать ключ к шифру. 

Искусственный интеллект начинает ускорять этот процесс. Так, Мишель Вальдиспюль из Университета Осло и ее коллеги использовали онлайн-платформу Transkribus для расшифровки письма эпохи Тридцатилетней войны (1618–1648 гг.г). Его в 1637 году написал дворянин Сигизмунд Хойснер фон Вандерслебен шведскому риксканцлеру Акселю Оксеншерне. Он сообщал об угрозе заговора среди союзников Швеции. 

Transkribus, обученный на письмах на нескольких языках, написанных с XV по XVIII век, может распознавать и переводить рукописный текст в цифровой формат. С письмом фон Вандерслебена, которое было зашифровано с помощью чисел, инструмент справился успешно — хотя небольшое вмешательство со стороны ученых все же потребовалось. 

У существующих инструментов для транскрипции возникают трудности, когда в документе используются нестандартные или вымышленные знаки. Поэтому Беата Медьеши, Мишель Вальдиспюль и их коллеги из разных стран вместе разрабатывают новый инструмент на основе ИИ, который смог бы преобразовать такие тексты в машиночитаемые документы — Descrypt

После того, как исходный текст переведен в электронный формат, криптологи могут работать над его расшифровкой с помощью специальных программ (которые пока не используют ИИ). Простые шифры часто удается взломать, используя частотный анализ символов: их сопоставляют с буквами алфавита, которые встречаются в данном языке столь же часто. Например, наиболее распространенная буква в английском — E, тогда как Z, Q и X встречаются реже всего. Но в том же письме фон Вандерслебена для обозначения буквы E использовались восемь разных символов. Такой шифр можно было вскрыть только очень постепенно, методом проб и ошибок — и с участием человека, знающего старонемецкий язык. Вальдиспюль надеется, что ИИ со временем ускорит эту работу. 

Чего хотят добиться исследователи

Медьеши и ее коллеги пытаются полностью исключить из процесса этап транскрипции и сразу подбирать ключ к шифру на основе фотографий страниц. Исследователи обнаружили, что такой подход может работать в случае с простыми шифрами, где одному символу соответствует одна буква. 

Систему протестировали на кодексе Копиале — немецкой зашифрованной рукописи XVII века объемом 105 страниц, которая рассказывает о тайном обществе масонского типа. Искусственный интеллект, обученный на образцах рукописного почерка и изображениях строк шифра в связке с их расшифровкой, смог декодировать те фрагменты текста, которые раньше не видел. 

Главная сложность, которая стоит перед командой Descrypt, — это необходимость собрать достаточный объем данных для тренировки ИИ. Большие языковые модели вроде ChatGPT обучаются на триллионах слов, взятых из книг, статей и из интернета. В то же время масштаб находок исследователей, работающих над Descrypt, гораздо скромнее. Например, им удалось собрать 400 открыток конца XIX — начала XX веков. Судя по немногим расшифрованным фрагментам, это любовные письма на немецком языке. 

Какие еще трудности бывают со сбором данных

Нейросети постоянно учатся на больших наборах данных, но кто же их собирает? Такой труд часто не ценится и приносит мало денег Индийский стартап решил это исправить — и помочь самым бедным жителям своей страны

Какие еще трудности бывают со сбором данных

Нейросети постоянно учатся на больших наборах данных, но кто же их собирает? Такой труд часто не ценится и приносит мало денег Индийский стартап решил это исправить — и помочь самым бедным жителям своей страны

Команда Медьеши создала чат-бот с ИИ, который выполняет транскрипцию и дешифровку текста за один этап. Он также документирует процесс и объясняет свои решения, что помогает исключить вероятность того, что ИИ галлюцинирует. Фрагмент в 500 символов из шифра Борга бот смог перевести и расшифровать примерно за полчаса. Он также предоставил перевод на английский. Система также справилась и с двумя другими шифрами, ключи к которым ученые подобрали ранее.  

Команда Descrypt надеется, что сможет взломать шифры, которые до сих пор остаются неразгаданными. Вероятно, инструмент поможет в работе с древними текстами, написанными алфавитами, которые сегодня никто не может прочитать. Например, Фестский диск с Крита, созданный во втором тысячелетии до нашей эры. 

«Меня воодушевляет не только возможность разгадать одну конкретную историческую загадку, но и перспектива создания методов, которые могут помочь исследователям решить множество других задач», — говорит Медьеши.

Читайте также

Разработчики регулярно называют свои новые ИИ-модели «самыми умными» — и приводят доказательства. Но как действительно понять, кто лучше? В этом помогают специальные тесты, хотя и они не идеальны

Читайте также

Разработчики регулярно называют свои новые ИИ-модели «самыми умными» — и приводят доказательства. Но как действительно понять, кто лучше? В этом помогают специальные тесты, хотя и они не идеальны