Как раскрывают тайны манускрипта Войнича
Что стоит за сенсационной новостью о манускрипте Войнича и о российских ученых, можно ли точно определить язык по тексту, насколько адекватны математики в работе на «поле» лингвистики. 19 апреля российские СМИ растиражировали новость об «эпохальном» открытии российских математиков: ученые с помощью нового метода не просто доказали осмысленность знаменитой «рукописи Войнича», но и смогли определить, что она была написана на двух языках и с исключением букв для гласных звуков.
Рукопись Войнича — это средневековый иллюстрированный манускрипт, купленный в 1912 году антикваром Вильфредом Войничем. Созданный в XV веке (по данным радиоуглеродного анализа пергамента — но большинство ученых в настоящий момент сам текст не считают позднейшей подделкой), он написан на неизвестном языке с использованием неизвестного алфавита. Судя по иллюстрациям, текст состоит из тематических блоков: ботанического, астрономического, фармакологического и других. Сложность расшифровки текста сделала манускрипт Войнича «святым Граалем» для криптографов и объектом многих исследований, в том числе и с применением методов Big Data.
Новость о рукописи на сайте агентства «РИА Новости» была подана как нечто сенсационное. Это сразу вызвало некоторую настороженность. «До этого все попытки расшифровать уникальный документ и даже просто понять, является ли он осмысленным текстом, проваливались. 600 лет бесполезных стараний!.. Криптографы ЦРУ и АНБ, суперкомпьютеры и даже доктора "оккультных наук" расписались в своем полном бессилии. Последнее сообщение криптолога Гордона Рагга (Gordon Rugg) из Килского университета в Великобритании таково: "Рукопись Войнича является фальшивкой. Такой "сложный текст" легко сконструировать каждому, кто знаком с простыми методами копирования"», — говорилось в материале.
Во-первых, осмысленность текста была признана еще в 1970-х годах и несколько раз подтверждена в исследованиях 2010-х, о чем достаточно подробно писали даже в отечественных СМИ. Во-вторых, открытие, поданное в новости, было представлено только в виде институтского препринта, а не в статье в международном рецензируемом журнале (вышел препринт к тому же еще в 2016 году).
Эти странности в подаче материала заставили нас обратиться за разъяснениями сначала к автору исследования, а потом и к независимым экспертам — лингвистам, работающим со статистическими и математическими методами, а также с расшифровкой древних письменностей.
Формулу написать легко, а провести численный анализ — очень затратно
Сначала коротко о сути исследования. Авторы препринта, математики из МФТИ и Института прикладной математики РАН, опираются на свои работы, согласно которым «распределения символов текстов по частоте встречаемости являются устойчивой характеристикой не автора или тематики текста, но языка». То есть по набору при помощи математических средств можно определить, на каком языке он написан, благодаря тому, что у каждого языка есть свой характерный «профиль» (распределение показателя Херста). Далее, взяв за основу эти методы, ученые установили, что текст рукописи был написан на смеси нескольких языков. При этом в него добавили ложные пробелы и убрали символы, обозначающие гласные звуки.
Ведущий автор исследования, Юрий Орлов (ИПМ РАН и МФТИ), подчеркнул, что манускрипт Войнича вообще не является главной целью их работы. «"Сенсационная" рукопись — это лишь иллюстрация к математическому методу распознавания языков по тексту — задачи, по сути, для машинного обучения», — заявил Орлов.
Сам по себе манускрипт нам не интересен абсолютно. Наука относится именно к статистике языков. Через нее мы можем понять, на каком языке написан этот манускрипт. Но не то, что там написано, это важный момент.
Юрий Орлов
МФТИ и Институт прикладной математики имени М.В. Келдыша
По поводу использованного в работе лингвистического метода Орлов отмечает, что сам по себе анализ частоты буквосочетаний в текстах — вещь известная. Однако индикатор Херста лингвистам известен плохо, так как его трудно вычислить даже в математическом плане. Саму формулу написать легко, а провести численный анализ — очень затратно. Для этого и пригодился суперкомпьютер, находящийся в Институте имени М.В. Келдыша, подчеркивает математик.
Выбор именно индоевропейских языков для анализа объясняется тем, что все они очень похожи, говорит Орлов. Разработанные математиками индикаторы позволяют легко отличить языки внутри одной языковой группы, но не между семьями. Конечно, теоретически возможно провести ту же работу с другими группами (уральскими, алтайскими или иными), но ценность анализа заключается в его полноте, уверен Орлов. В случае с индоевропейскими языками набрать корпус текстов для каждого языка несложно, с другими семьями это сделать труднее.
Возвращаясь к манускрипту Войнича, Орлов отметил, что он и его коллеги привели пять доказательств (логарифмический профиль частотной упорядоченности букв в тексте на одном и нескольких языках, распределение показателя Херста, спектральный портрет матрицы условных вероятностей и другие) гипотезы о смеси языков в рукописи и выкидывании букв для гласных. Они подчеркнуто дистанцируются от «тусовки вокруг манускрипта», зато предъявили уникальный результат — открытый метод, статистический анализ с оценкой достоверности, которая может быть независимо проверена.
«Вывод обесценивается тем, что мы не понимаем, на каком материале они выводили и на каком — проверяли свою формулу»
Само по себе предположение, что текст манускрипта Войнича лишен букв для гласных, с неправильно расставленными пробелами — красивое и хорошее, отмечает лингвист Евгения Коровина, занимающаяся математической статистикой языка (Институт языкознания РАН). Раньше такую гипотезу никто не выдвигал. Она, например, красиво объясняет, почему букв там меньше, чем ожидалось бы для текста на европейском языке. Но проблема в том, что авторы исследования даже не указали, какие именно тексты на разных языках они сравнивали и каков был объем этих тестов. А языков в препринте упоминается огромное количество. Поэтому исследование не является воспроизводимым: если взять произвольные тексты на тех же языках, не факт, что выйдут те же закономерности.
С Коровиной согласна Мария Молина, специалист по корпусным методам в изучении древних языков (Институт языкознания РАН). Новые методы обработки лингвистических данных, по ее мнению, помогают получить информацию о том, что раньше для исследователей языка было закрыто. Однако недостаточно хорошо подготовленный входящий материал часто дискредитирует даже самые прекрасные методы обработки данных.
Вывод обесценивается тем, что мы не понимаем, на каком материале они выводили и на каком — проверяли свою формулу. Для своего материала я точно знаю, что небольшая методологическая ошибка — и я получаю критически отличающиеся цифры.
Мария Молина
Институт языкознания РАН
«Garbage in — garbage out», — добавляет Молина (GIGO — принцип в информатике, означающий, что при неверных входящих данных будут получены неверные результаты, даже если сам по себе алгоритм правилен, — прим. Indicator.Ru).
«Статистические методы — все-таки намеки на результаты, а не результаты»
Еще резче высказался Альберт Давлетшин (сотрудник Центра лингвистической компаративистики ИВКА РГГУ, занимается языком майя и полинезийскими языками). Если авторы препринта не собирались расшифровывать манускрипт Войнича, зачем они этим занимаются? И дальше, если говорить именно о расшифровке неизвестной письменности, встает вопрос за вопросом: «Исходные данные о письменности отсутствуют — какого типа письмо? Как получены разные транскрипции? Сколько знаков? Что лежит в основе существующих предположений о природе письма? Какова длина слова, выделяемого пробелами и без пробелов? Что означают пробелы? Каков объем словаря? Каково соотношение подписей и рисунков?
Вначале получается, что текст датский и только датский (и это исторически невозможно, про что в работе ни слова). Потом оказывается, что текст на двух неизвестных языках (верификация на этом этапе оказывается невозможной и принимается на веру). Притом что есть множество консервативных способов показать, что две страницы (большого объема) написаны одним письмом, но на разных языках, не прибегая к сложным математическим моделям. Наконец, если из текста убраны гласные, насколько это подтверждается стандартными, давно известными методами (например, Сухотина, Шеворошкина и Вентриса)?».
Критикует Давлетшин и нечуткость к филологии и истории, характерную для такого рода исследований:
Что я вижу в тексте: часто встречаются люди, которые хотят взять источник Х и забыть о том, что он источник и существует в некотором историческом, в том числе языковом, контексте, и что-то в нем посчитать как-нибудь. Гипотеза о том, что в рукописи более одного языка, интересна. Но ведь можно было же по-человечески как-то это показать. Статистические методы — все-таки намеки на результаты, а не результаты.
Альберт Давлетшин
Центр лингвистической компаративистики ИВКА РГГУ
Нет критерия, как отличить интересные результаты от ужасных
Более сбалансированную позицию занял Георгий Старостин, эксперт по сравнительно-историческому языкознанию (РГГУ). Его больше заинтересовало то, насколько новые математические методы полезны для решения стоящих перед лингвистами задач. «Модель, представленная в статье, производит странное впечатление. Она, с одной стороны, как бы относится к разряду "слепых", анализируя текстовые данные без каких-либо предварительных суждений об устройстве алфавита (например, диграфы, как английские ch, sh, должны считаться сочетаниями двух букв, хотя это на самом деле один звук). С другой стороны, из сравниваемых цепочек выкидываются гласные, которые, по мнению авторов текста, содержат меньше информации и скорее добавляют шум. Вообще, тестовая база явно очень маленькая, на таком количестве языков о чем-то фундаментальном говорить невозможно».
Результаты по сравнению индоевропейских и уральских языков, представленные в сопоставительной таблице 3 в статье, особенного оптимизма Старостину не внушают. Какие-то показатели степени близости языков улавливаются хорошо (например, внутригерманские или внутрироманские связи), какие-то — плохо (например, индоевропейскую семью методика уже не выявляет). Главное — нет критерия, как отличить интересные результаты от ужасных. В лучшем случае метод позволяет выделить небольшие языковые группы (хотя даже и здесь он не работает между близкородственными финским и эстонским), но все эти группы можно надежно выявить и без него.
Наконец, определять генетическую характеристику языка по распределению показателя Херста — интересная идея и, может быть, даже доводимая до какой-то научности. Но для этого потребуется обработать большое количество текстов на разных языках. И сразу встает проблема: многие языки бесписьменные, а насколько корректно сопоставлять алфавитные системы записи с фонетическими транскрипциями, остается неясным. Практического же толку от этой идеи будет очень мало, уверен Старостин. В лучшем случае ее, действительно, можно применить к казусам типа манускрипта Войнича, когда есть гипотеза, что какой-то язык со стандартной алфавитной письменностью шифруется по определенным принципам (например, с выкидыванием гласных и т. п.). Однако таких казусов в мире очень мало.
Подводим итоги
Что в сухом остатке? Дискуссия вокруг исследования ИПМ и МФТИ вскрыла глубокий разлом между лингвистическим сообществом (даже использующими статистические методы) и «чужими» относительно лингвистики специалистами, которые решили применить к языковому материалу свои математические инструменты.
То, что математики не хотят работать вместе с лингвистами, не просто рождает грубейшие ляпы, которые затем перекочевывают в СМИ (например, баскский язык в препринте назван индоевропейским, есть словосочетание «гласные буквы»). Красота моделей и вычислительная мощь суперкомпьютеров фактически обесценивается ошибками на точке ввода информации. Опять же, при желании и открытости контактов с коллегами из другой дисциплины этих ошибок легко можно было избежать.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Последние аномальные новости

В отчете об НЛО указаны две горячие точки

Гигантское озеро лавы на Ио

Давайте поговорим о НЛО

ИИ станет умнее любого человека в 2025 году

Как гамма-всплески порождают свет

МКС стала рассадником бактерий-мутантов

На дне Балтийского моря обнаружено НЛО

НЛО нарушают все законы физики

НЛО перевозят по пустынной дороге на прицепе

Обнаружили 13 штаммов бактерий-мутантов на МКС

Обнаружили самую крупную звездную черную дыру

Очень важно раскрыть данные об НЛО

Паломники сообщили об НЛО в небе Массачусетса

Почему на Марсе выделяется метан

Программа Kona Blue для реинжиниринга НЛО

Раскрытие проекта Aqua

Стоунхендж ориентирован как на Луну, так и на Солнце

Строительным элементам жизни легче формироваться в космосе

Такер Карлсон высмеял утверждения об инопланетянах

Хью Джекман был послан инопланетянами

Матовые стеклянные перегородки - особенности, виды, как выбрать

В районе Красной поляны обнаружили два дольмена

Два охотника стали первыми жертвами болезни оленей

Должно быть место для честного расследования НЛО

Древнейший вулканизм в Солнечной системе

Жители ХМАО засняли НЛО на фоне северного сияния

Загадка странных огней в ночном небе Вены

Китаец прожил 35 лет с просветом аорты

Люди эволюционировали как жуки, а не как позвоночные

Марсоход получил изображения окаменелостей людей

Нашли экзопланету-бродягу земного типа

НЛО в небе над Сызранью

НЛО, трансформации и откровения астронавтов

Ограничение калорий замедлило биологическое старение

Первая буква фамилии студентов определяет успеваемость

Полая Земля, летающие щиты и муравьиные боги

Почему умные люди верят в теории заговора

Сбывающиеся предсказания ясновидящей Ванги

Фрагменты белков могут возникать в космосе

Человек прилетевший с небес

Шамбала и полая Земля в древнем буддизме

Георадар будет искать водные объекты на Юпитере

Дьявольская комета наконец-то стала видна

Затерянный город найден на территории Тонгатапу

ИИ и НАСА борются с изменением климата

Инопланетное существо, выброшенное на австралийский пляж

Какова масса покоящегося нейтрино

НАСА предупреждает о военном присутствии Китая в космосе

НЛО пролетел над красотами Перта

Ортоклаз из свинца - это своего рода загадка

Отчет о программе Kona Blue

Паскагула устраивает вечеринку в честь похищения

Путешественник во времени показал фото из будущего

Самая глубокая дыра в земле была закрыта

Самые странные и неповторимые дома в Огайо

Случаи похищения людей инопланетянами будут изучены

Смертоносная пещера, которая может вызвать пандемию

Такер Карлсон видел свидетельства о подводных НЛО

У человека расплавились пальцы при встрече с НЛО

Увлечение внеземной жизнью восходит к 17-му веку

Черный зверь бродил по полю британского фермера

Встреча с НЛО в школе Ариэль в Зимбабве

Город-призрак, жители которого были вынуждены бежать

Горы и лавовые озера на Ио с высоты птичьего полета

Два неизвестных объекта пролетели мимо МКС

Документальный фильм о похищении в Паскагуле

ИИ VASA1, который может заставить изображения говорить

ИИ изучает планетарный пограничный слой Земли

Инопланетяне украли мои яйцеклетки

Китай осуществляет военные программы в космосе

Книга, предсказавшая катастрофу Титаника

Компания Boston Dynamics представила нового робота

Метеорологи предупреждают о погодных войнах между странами

НЛО залетел в действующий вулкан

Подводя черту под происхождением жизни

Прыщ превратился в опухоль размером с арбуз

Скрытый потенциал РНК в развитии биоинженерии будущего

Состоят ли дюны Титана из кометной пыли

Таинственная механика полета насекомых

Тайна аномалии Балтийского моря наконец-то раскрыта

Хаббл отправляется на поиски небольших астероидов

Гелиевая звезда с самым низким содержанием металлов

Екатеринбуржец выставил на продажу летающую тарелку

Жизнь может существовать в темных водных Европы

Загадка формирования массивных горячих субкарликов

ИИ способен революционизировать кредитование

Инопланетян следует искать на фиолетовых планетах

Инопланетяне похитили яйца у женщины

Метеорит пробил крышу дома

Непрерывные фейковые новости оказывают большее влияние

НЛО влетает в действующий вулкан-портал

НЛО пилотируются духовными сущностями

Океан Энцелада может поддерживать жизнь

Перуанские мумии не являются инопланетянами

Полицейская камера сняла аварийную посадку НЛО

Полярные сияния на холодных коричневых карликах

Попытки AARO вступить в контакт с Дэвидом Грушем

Правительство США намеренно скрывает информацию об НЛО

Разгадка тайн атмосферных рек

США провели испытания управляемого ИИ истребителя

Экстремальные холода в условиях потепления климата

В один прекрасный день ИИ сможет выполнять всю нашу работу

В сеть просочился отчет о встрече ВМС США с НЛО

Давайте поговорим о неопознанных подводных объектах

Доказательства существования инопланетной жизни

Жизнь нужно искать в пурпурных мирах

Жители графства Дербишир взбешены таинственным жужжанием

Как философы воспринимали инопланетную жизнь

Метеорит, пробивший крышу дома во Флориде, прилетел с МКС

Миссия НАСА Солнечный парус готовится к запуску

На протяжении 600 лет манускрипт Войнича остается загадкой

НАСА ищет дешевый способ доставки образцов с Марса

Обнаружена самая массивная черная дыра в нашей галактике

Паранормальные корни программы Пентагона по НЛО

Подтвержден полет аппарата Dragonfly к Титану

Правительство пытается скрыть правду о НЛО

Пурпурные миры населены инопланетянами

Робот-гуманоид Ameca может имитировать человеческую речь

Тестирование технологий для полета на Марс

Человекоподобный НЛО замечен в небе Калифорнии

Я встретил лысых инопланетян–гуманоидов

В небе Калифорнии замечен странный НЛО

Великобритания разрабатывает правила для ИИ

Город богов разрушило мегаземлетрясение

Еще один механизм выживания тихоходок в космосе

Жуткое послание убийцы Зодиака

Квантовый интернет все ближе

Ковчег Завета питал Великую пирамиду Гизы

Морской офицер выражает тревогу по поводу водных НЛО

Нет доказательств существования инопланетных технологий

Новая книга дает представление о космических поисках жизни

Обнаружили близкую массивную черную дыру

Перепись ближайших окрестностей Солнца

Проект по классификации гамма-всплесков

Пурпурный, а не зеленый цвет - цвет жизни на экзопланетах

Стивен Спилберг снимет новый фильм об НЛО

Тайна объекта в форме сердца на поверхности Плутона

Тайна орбитальной нестабильности планет-гигантов

Технология передачи энергии с космических электростанций

Церера таит в себе мрачную тайну

Электричество и батарейки древних египтян

Yeezy Boost 350 v2 Black Черные. Икона Стиля и Инновации

Билл Гейтс поддерживает искусственный интеллект

В небе Калифорнии замечен таинственный объект

В пещерах на Марсе могут находиться инопланетяне

Геолог-любитель получил сильные ожоги от НЛО

Житель Лондона принял вертолет за НЛО

За НЛО отправляйтесь в маленький городок в Висконсине

Звездолеты помогут в поисках новых физических явлений

Интернет может достичь квантовой скорости

Космические силы США готовятся к первой в истории миссии

Министерство обороны публикует документы Kona Blue

Нейтронные звезды нагреваются от аннигиляции темной материи

Нострадамус предсказал войну в 2024 году

Победителем президентских выборов в 2032 году станет робот

Подводные НЛО ставят под угрозу морскую безопасность США

Подводный НЛО сняло исследовательское судно

Проклятая могила с 450 обезглавленными вампирами

Рассекреченный отчет раскрывает дематериализацию НЛО

Тайна высоких уровней энергии в звездных сверхвспышках

Уважаемый астроном не верит в теории заговора об НЛО

Ярчайший гамма-всплеск породила коллапсирующая звезда

Франшиза Pro.Travel. Предпринимательский успех Татьяны Мамаевой

Возвращение денежных средств пострадавшим от брокеров-мошенников. Путь к справедливости

Встреча с НЛО, от которой у человека расплавились пальцы

Детеныш инопланетянина найден в мексиканской пещере

Инопланетяне помешали человечеству скатиться к ядерной войне

Как ученые сообщат человечеству об инопланетянах

Канадский рейтинг мест для наблюдения НЛО

Ключ к поиску жизни в отдаленных мирах

Лучшие наблюдения НЛО в Северной Каролине

Люди не верят, что никаких НЛО нет

Мужчина получил сильные ожоги при встрече с НЛО

Мужчина с разбитым сердцем построил Космические врата

Музей странного и чудесного в Канзасе

Настоящие убежища из сериала Fallout уже построены

НЛО заметили над долиной Нижнего Гудзона

НЛО около Антарктиды - ошибка программного обеспечения

НЛО представляют угрозу безопасность на море

Подводные НЛО ставят под угрозу морскую безопасность США

Призрачные нарушения звездных потоков темной материей

Термодинамика поможет описать расширение Вселенной

Что это за НЛО замечен над штатом Нью-Йорк

Эксцентриситет орбиты создал океан на Мимасе

Более четверти россиян верят в существование инопланетян

Гигантские человеческие скелеты в пещере Лавлок

Подписка на новости
Наверх