В работе излагается технология автоматизированного наполнения онтологии фактографической поисковой системы. Суть технологии заключается в извлечении ключевых слов (словосочетаний) из корпуса текстов однородной тематики с целью дальнейшего использования извлеченных ключевых слов в качестве возможных значений атрибутов сущностей, описываемых в создаваемой онтологии предметной области, предназначенной для организации фактографического поиска в расширенном корпусе текстов соответствующей тематики. Предлагаемая технология основана на применении метода опорных векторов для разметки в текстах частей речи с после-дующим использованием метода случайных блужданий для извлечения семантически связанных ключевых слов (словосочетаний). К набору этих словосочетаний с целью отнесения конкретного словосочетания к определенному атрибуту описываемой в тексте сущности применяется обученная нейронная сеть со скрытым слоем. Таким образом, по набору семантически связанных пар слов строится онтология для конкретного документа, формирующаяся при работе нейронной сети, и далее с использованием СУБД на основе полученных данных организуется поиск.
This work is about technology of automated factographic retrieval system ontology filling . This technology contains extracting keywords from corpus of texts with similar topic for following using these keywords as possible values of entity’s attributes, that describes in created ontology of subject field for organizing of factographic retrieval in expanded corpus of text appropriated topics. Sug-gested technology based on support vector model for stamming text and following random-walk method for extracting keywords. After learned hidden layer neural network works with set of these keywords. So, ontology for document formed in neural network working builds by the set of seman-tic connected pairs of words and after with use of database search organizing.