Аннотации:
Объектом исследования являются тексты на естественном языке. Предмет исследования – возможность автоматизации извлечения знаний, представленных в текстах.
В данной работе рассматривается теоретико-модельный подход к формализации естественного языка для задач автоматизации процесса извлечения знаний из текстов.
Основной целью является извлечение знаний из текстов. Для этого была создана программная система, которая позволяет выявлять информацию, содержащуюся в тексте;
объединять информацию из нескольких текстов; находить пробелы информации.
Магистерская диссертация состоит из введения, шести глав, заключения и списка литературы. Объем: 31 страница; количество рисунков: 15; количество таблиц: 2; список литературы содержит 41 наименование.
Содержание работы
Во введении обосновывается актуальность темы исследований и приводится краткое содержание работы. В первой главе даётся формальная постановка задачи. Вторая глава
посвящена описанию предметной области, дан обзор существующих систем для поиска и извлечения знаний: Semantic Web и основанные на ней системы, Томита-Парсер компании Яндекс. В третьей главе обосновывается выбор теоретико-модельного похода, даны необходимы определения и формулировки. Четвертая глава описывает этапы порождения атомарной диаграммы модели по тексту: получение сигнатуры на основе морфологии; атомарных предложений на основе синтаксиса; получение пучка атомарных диаграмм. Описывает алгоритм разрешения референтных индексов. В пятой главе
показан пример интеграции моделей. В шестой главе демонстрируются вспомогательные средства полученной системы: визуализация модели, генерация вопросов на естественном языке, ответы на вопросы. В заключении перечислены основные результаты работы.
В результате работы над проектом была создана система, которая автоматизирует поиск и извлечение информации из текстов на естественном языке путём порождения атомарной диаграммы модели по заданным текстам.