Студент НГУ провел исследование авторства романов «12 стульев» и «Золотой теленок»

Студент первого курса магистратуры Факультета информационных технологий Степан Полохин исследовал проблему атрибуции (приписывания) романов «12 стульев» и «Золотой теленок» методами статистического анализа данных. Эта проблема возникла еще в 2013 году, и, согласно части исследователей, реальным автором произведений является М. Булгаков. Целью работы было изучить возможность подлога в авторстве произведений «12 стульев» и «Золотой теленок» на основе теоретико-информационного подхода, основанного на использовании методов сжатия данных.

Согласно работе, в последние десятилетия при решении проблемы атрибуции литературных произведений наряду с традиционными литературоведческими методами стали применять и подходы таких внешне далеких дисциплин, как математическая статистика, теория случайных процессов, распознавание образов, а также ряд других разделов науки, относимых в настоящее время к искусственному интеллекту.

Студент подробно описывает схему применения теоретико-информационного информационного подхода, а затем экспериментально находит значения параметров, повышающих его эффективность, используя представительный набор прозаических произведений русских авторов первой половины XX века. После того, как был применен алгоритм сжатия данных с определенными параметрами, тексты были обработаны и проанализированы. В результате такого подхода к проблеме атрибуции текстов «12 стульев» и «Золотой теленок» Степан Полохин выяснил, что наиболее вероятными авторами произведений являются И. Ильф и Е. Петров, однако полученные результаты показывают, что влияние М. Булгакова на эти произведение довольно существенное, и, кроме того, наблюдается заметное сходство со стилем К. Паустовского.

— Идея исследования возникла после прочтения небольшого отрывка статьи Ирины Амлински «12 стульев от Михаила Булгакова». В ней автор указывала причины, по которым следует считать, что произведение написано не И. Ильфом и Е. Петровым. Эти доводы были весьма расплывчатыми, субъективными, поэтому захотелось решить вопрос авторства, который она подняла, несколько более формально. Нередко попадались работы, в которых исследовалась схожая проблема (атрибуция литературы), однако в подавляющем большинстве случаев задача решалась методами машинного обучения, в то время как метод, на котором построено мое исследование, был наиболее редким и мало проработанным. Работать над темой было несколько затруднительно: потребовалось собрать большую базу произведений советских писателей (для тестирования алгоритма), проделать огромную работу для поиска способа выбора оптимальных параметров алгоритма, провести немалое количество запусков для поиска оптимальных параметров, — объяснил специфику работы Степан Полохин.

По мнению автора работы, данный подход можно использовать не только для определения автора произведения, но и для решения исследовательских задач, требующих классификации текстов. Важной особенностью представленного алгоритма является то, что он не требует большого объема данных для построения качественной модели.