Студент НГУ провел исследование авторства романов «12 стульев» и «Золотой теленок»

Студент первого курса магистратуры Факультета информационных технологий Степан Полохин исследовал проблему атрибуции (приписывания) романов «12 стульев» и «Золотой теленок» методами статистического анализа данных. Эта проблема возникла еще в 2013 году, и, согласно части исследователей, реальным автором произведений является М. Булгаков. Целью работы было изучить возможность подлога в авторстве произведений «12 стульев» и «Золотой теленок» на основе теоретико-информационного подхода, основанного на использовании методов сжатия данных.

Согласно работе, в последние десятилетия при решении проблемы атрибуции литературных произведений наряду с традиционными литературоведческими методами стали применять и подходы таких внешне далеких дисциплин, как математическая статистика, теория случайных процессов, распознавание образов, а также ряд других разделов науки, относимых в настоящее время к искусственному интеллекту.

Студент подробно описывает схему применения теоретико-информационного информационного подхода, а затем экспериментально находит значения параметров, повышающих его эффективность, используя представительный набор прозаических произведений русских авторов первой половины XX века. После того, как был применен алгоритм сжатия данных с определенными параметрами, тексты были обработаны и проанализированы. В результате такого подхода к проблеме атрибуции текстов «12 стульев» и «Золотой теленок» Степан Полохин выяснил, что наиболее вероятными авторами произведений являются И. Ильф и Е. Петров, однако полученные результаты показывают, что влияние М. Булгакова на эти произведение довольно существенное, и, кроме того, наблюдается заметное сходство со стилем К. Паустовского.

— Идея исследования возникла после прочтения небольшого отрывка статьи Ирины Амлински «12 стульев от Михаила Булгакова». В ней автор указывала причины, по которым следует считать, что произведение написано не И. Ильфом и Е. Петровым. Эти доводы были весьма расплывчатыми, субъективными, поэтому захотелось решить вопрос авторства, который она подняла, несколько более формально. Нередко попадались работы, в которых исследовалась схожая проблема (атрибуция литературы), однако в подавляющем большинстве случаев задача решалась методами машинного обучения, в то время как метод, на котором построено мое исследование, был наиболее редким и мало проработанным. Работать над темой было несколько затруднительно: потребовалось собрать большую базу произведений советских писателей (для тестирования алгоритма), проделать огромную работу для поиска способа выбора оптимальных параметров алгоритма, провести немалое количество запусков для поиска оптимальных параметров, — объяснил специфику работы Степан Полохин.

По мнению автора работы, данный подход можно использовать не только для определения автора произведения, но и для решения исследовательских задач, требующих классификации текстов. Важной особенностью представленного алгоритма является то, что он не требует большого объема данных для построения качественной модели.

Продолжая использовать сайт, вы даете согласие на использование cookies и обработку своих данных. Узнайте подробности или измените свои настройки cookies.