Электронный архив НГУ

Формальные методы определения авторства текстов

Показать сокращенную информацию

dc.contributor.author Татьяна Викторовна Батура ru_RU
dc.contributor.author T. V. Batura en_EN
dc.creator Институт систем информатики им. А. П. Ершова СО РАН ru_RU
dc.creator AP Ershov Institute of Informatics Systems en_EN
dc.date.accessioned 2013-02-27T15:43:59Z
dc.date.available 2013-02-27T15:43:59Z
dc.date.issued 2012-02-27
dc.identifier.issn 1818-7900
dc.identifier.uri http://www.nsu.ru/xmlui/handle/nsu/258
dc.description.abstract Представлен обзор формальных методов установления авторства (атрибуции) текстов. В статье приведено описание наиболее известных программных систем для определения авторского стиля, ориентированных на русский язык, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. При решении задачи определения авторства текстов наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в работе уделяется внимание именно формальным методам идентификации автора текста. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилистических параметров текста и составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки. ru_RU
dc.description.abstract This paper reviews the methods used for attribution of texts. The paper also provides a description of the popular software systems to determine the author's style, focused on the Russian language. An attempt was made to produce their comparative analysis, to identify features and drawbacks of approaches. The analysis of syntactic, lexical-phraseological and stylistic levels of text is the most interesting and the most difficult. Expert analysis of the author's style is a time consuming process, so the attention is paid to the formal methods of attribution. Currently, for establishing the authorship of texts following methods are used: the approaches of pattern recognition theory, methods of mathematical statistics and probability theory, neural network algorithms, cluster analysis algorithms, etc. Among the problems hampering research on attribution, the problem of choice of text parameters and sampling problem of reference texts are important. Further research is needed to find a new or improving of existing methods of text attribution, to search for characteristics that clearly separate styles of the authors, including short texts and small sample size. en_EN
dc.language.iso ru
dc.publisher Новосибирский государственный университет ru_RU
dc.subject атрибуция текста ru_RU
dc.subject определение авторства ru_RU
dc.subject формальные параметры текста ru_RU
dc.subject авторский стиль ru_RU
dc.subject классификация текстов ru_RU
dc.subject classification of texts en_EN
dc.subject author's style en_EN
dc.subject formal parameters of the text en_EN
dc.subject authorship attribution en_EN
dc.subject text attribution en_EN
dc.title Формальные методы определения авторства текстов ru_RU
dc.title.alternative Formal methods of authorship attribution en
dc.type Article
dc.description.reference 1. Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста: Автореф. дис. … канд. техн. наук. Томск, 2010. 26 с. 2. Рогов А. А., Гурин Г. Б., Котов А. А., Сидоров Ю. В., Суровцова Т. Г. Программный комплекс СМАЛТ // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Х Всерос. науч. конф. «RCDL'2008». Дубна, 2008. С. 155–160. 3. Марков А. А. Об одном применении статистического метода // Известия Императорской Академии наук. Сер. 6. 1916. Т. 10, № 4. С. 239–242. 4. Фоменко В. П., Фоменко Т. Г. Авторский инвариант русских литературных текстов // Новая хронология Греции: Античность в Средневековье. М.: МГУ, 1995. 422 с. 5. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестн. МГУ. Сер. 9: Филология. 2000. № 2. С. 115–126. 6. Хмелёв Д. В. Классификация и разметка текстов с использованием методов сжатия данных // Все о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html 7. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. М.: Наука, 2001. Т. 37, № 2. С. 96–108. 8. Шевелёв О. Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. … канд. техн. наук. Томск, 2006. 18 с. 9. Севбо И. П. Графическое представление синтаксических структур и стилистическая диагностика. Киев: Наук. дум., 1981. 192 с. 10. Мартыненко Г. Я. Основы стилеметрии. Л.: ЛГУ, 1988. 170 с. 11. Рогов А. А., Сидоров Ю. В., Король А. В. Автоматизированная система обработки и анализа литературных текстов СМАЛТ // Труды и материалы II Междунар. конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М: МГУ, 2004. С. 485–486. 12. Морозов Н. А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук. 1915. Т. 20, кн. 4. С. 93–127. 13. Шевелёв О. Г. Методы автоматической классификации текстов на естественном языке: Учеб. пособие. Томск: ТМЛ-Пресс, 2007. 144 с. 14. Романов А. С., Мещеряков Р. В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог-2009». М.: РГГУ, 2009. Вып. 8, № 15. С. 432–437. ru_RU
dc.subject.udc 519.68; 681.513.7; 612.8.001.57; 007.51.52
dc.relation.ispartofvolume 10
dc.relation.ispartofnumber 4
dc.relation.ispartofpages 81-94


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию