Описание:
Интенсивный рост объема электронных документов делает актуальной задачу
автоматической кластеризации новых документов с целью вовлечения их в процесс научной
работы. От качества работы процесса кластеризации зависит корректность формирования
целевых групп документов на основе библиографических признаков и полнотекстового
содержания и в конечном итоге это выливается в экономию времени научного сотрудника,
которое он тратит на поиски необходимого для исследования материала. Рассматривается
вопрос, каким образом производить выделение ключевых слов из содержательной части
электронного документа, выделять ли отдельные ключевые слова, либо производить
выделение ключевых словосочетаний, относящихся к предметной области. Показано, что
более оптимальным алгоритмом для использования является FRiS-алгоритм, при его сравнении
с жадным алгоритмом.