Представлен обзор формальных методов установления авторства (атрибуции) текстов. В статье приведено описание наиболее известных программных систем для определения авторского стиля, ориентированных на русский язык, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. При решении задачи определения авторства текстов наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в работе уделяется внимание именно формальным методам идентификации автора текста. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилистических параметров текста и составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.
This paper reviews the methods used for attribution of texts. The paper also provides a description of the popular
software systems to determine the author's style, focused on the Russian language. An attempt was made to produce their
comparative analysis, to identify features and drawbacks of approaches. The analysis of syntactic, lexical-phraseological
and stylistic levels of text is the most interesting and the most difficult. Expert analysis of the author's style is a time consuming
process, so the attention is paid to the formal methods of attribution. Currently, for establishing the authorship of
texts following methods are used: the approaches of pattern recognition theory, methods of mathematical statistics and
probability theory, neural network algorithms, cluster analysis algorithms, etc. Among the problems hampering research
on attribution, the problem of choice of text parameters and sampling problem of reference texts are important. Further
research is needed to find a new or improving of existing methods of text attribution, to search for characteristics that
clearly separate styles of the authors, including short texts and small sample size.