Что за манускрипт Войнича?
Одна из самых загадочных книг в истории человечества. Фолиант на 246 страниц, который хранится в библиотеке Йельского университета. Ориентировочно датирован XV веком и написан на неизвестном языке. В 1912 году его купил у иезуитов польско-литовский библиофил Вильфред Войнич, после смерти которого таинственный текст унаследовал его имя. Автор манускрипта неизвестен, но предполагается, что рукопись создана на территории Центральной Европы. С момента приобретения Войничем, книгу никто не расшифровал.
Есть идеи, о чем манускрипт?
Конкретных предположений мало. Рукописи недостает страниц, а существующие могут быть перепутаны. Зато ее обильно украшают иллюстрации, написанные разноцветными чернилами: одна из картинок, например, изображает чан с голыми женщинами, соединенными какой-то трубкой. Присутствуют также виды крепостных стен, монстров и драконов.
Исторические сводки показывают, что манускрипт Войнича впервые засветился при королевском дворе в Германии, где император купил его для помощи придворному астрологу, ошибочно приняв текст за раннюю работу английского естествоиспытателя Роджера Бэкона. Ученые же разделили книгу по диковинным картинкам, на шесть разделов: травы, астрономия, биология, космология, фармацевтические сведения и рецепты. Текст может быть как средневековым научным пособием, так и алхимическим справочником.
Почему его так сложно расшифровать?
Все дело в отсутствии хоть каких-то исходных данных. Автор использовал неизвестный лингвистам алфавит — его ни разу не встречали ни в более ранних текстах, ни потом. Система письма достаточно привычна: текст читается слева направо, регулярно встречаются не более 30 символов, присутствует разбиение на предложения и параграфы. Но совпадений с языками времен Средневековья нет.
Главное предположение ученых — создатель манускрипта вооружился одним из самых древних шифров, методом подстановки. При его использовании буквы реального алфавита заменяются другими символами или выдуманными элементами. Также рассматриваются версии о том, что раскрыть значение манускрипта можно лишь с помощью отдельной кодовой книги, он написан на искусственном языке, зашифрован стенографически или просто является искусной мистификацией.
Так что там с искусственным интеллектом?
Исследование, поднявшее шумиху в прессе, называется Decoding Anagrammed Texts Written in an Unknown Language and Script и было опубликовано еще в 2016 году. Его написали ученые из Альбертского университета в Канаде: профессор компьютерных наук Грег Кондрак и аспирант Брэдли Хауэр. Публикация засветилась на научных конференциях в 2017 году.
В ее основе — описание универсального метода, с помощью которого можно определить исходный язык зашифрованного текста. Предположение канадцев заключалось в том, что манускрипт, помимо шифра подстановки, может представлять собой большую альфаграмму — это вид анаграммы, в которой буквы переставляются по алфавиту. Например, слово «статья» превращается в «асттья». Если запечатлеть специфические повторения букв или частей слов, полученный цифровой «отпечаток» удастся сопоставить с реальной письменностью.
Чтобы натренировать собственноручно разработанный алгоритм ученые «скормили» ему декларацию прав человека, переведенную на 380 языков. Результаты оказались обнадеживающими — ИИ определял языки с 97% точностью. Когда такую же проверку прошел манускрипт Войнича, его первоисточником был назван иврит. Правда, стоит сразу развеять ожидания — примененный ИИ не полагался на глубинное обучение или нейронные сети. Применялся старый-добрый статистический анализ.
Удалось ли прочесть манускрипт?
Не совсем. Алгоритм подсказал исследователям, что 80% слов из манускрипта больше всего совпадают с ивритом. Но они все еще не знали, какой код использовался для шифрования. Кондрак и Хауэр обратились к носителям иврита с просьбой перевести первое предложение на современный английский — безуспешно.
Тогда они прогнали его через Google Translate, исправили очевидные грамматические ошибки и получили следующее: «Она дала рекомендации священнику, главе дома, и мне и людям». Странный результат — но признать за ним какой-то смысл действительно можно. В первой части текста также обнаружили слова «земледелец», «воздух», «свет» и «огонь»
В чем тогда проблема?
В допущениях и преувеличениях. Исследовательские методы Кондрака и Хауэра несовершенны. Для начала, их алгоритм был натренирован на современных языках — они серьезно отличаются от своих предшественников из Средневековья. У иврита, например, существенно поменялась грамматика, вокабуляр и произношение слов.
Следующий промах – хотя алгоритм и называет лучшее языковое совпадение, он не сообщает точного процента, с которым лидирует определенный язык. Любой высший результат в таких условиях принимается за достоверный. Ученый, к которому Кондрак обращался за первичной расшифровкой, вспоминает, что канадец также указывал на высокий уровень совпадения с малайским языком — а ведь он принципиально отличается от иврита.
Третья вольность касается сути манускрипта. Кондрак и Хауэр предположили, что помимо общепринятого использования шифра подстановки текст также переведен в анаграммы. В научном сообществе нет консенсуса по этому поводу — но что более интересно, этот подход облегчает перевод. Дело в том, что в иврите используется абджад или консонантное письмо, в котором отсутствуют гласные. Если предположить, что манускрипт написан на иврите, да еще и анаграммами (то есть с перестановкой букв), то откроется слишком широкое поле для трактовок: набор букв можно тасовать, подставляя согласные, до получения любого вменяемого результата.
Правда, винить Кондрак и Хауэр за преувеличения не стоит — статус первооткрывателей им приписала пресса, сами же ученые признавались, что открытая методика послужит лишь «отправной точкой».
То есть манускрипт все еще остается нераскрытой загадкой?
Да! Криптологи, историки и лингвисты продолжат ломать над ним голову. Ранее уже выдвигались странные теории — вплоть до идеи, что манускрипт является руководством по женскому здоровью. Так что не стоит бездушному алгоритму отнимать у исследователей такую ценную загадку. К слову, текст манускрипта оцифрован и доступен онлайн — попробовать себя в расшифровке может любой желающий.