Предложен подход к тематической классификации коротких текстов, основанный на применении тематических словарей предметной лексики. Рассматривается технология разработки тематических словарей и методы автоматизации их обучения в ситуации отсутствия обучающей выборки целевых текстов достаточного объема. Приводится описание алгоритма тематической классификации и результаты его экспериментального исследования на коллекции пользовательских интернет-запросов, для которых требовалось определить тематику в соответствии с рубрикатором видов деятельности в Интернете
The paper describes an approach to thematic categorization of short texts that is based on subject dictionaries of domain language vocabulary. The procedure of creating subject dictionary is proposed that involves the technique for learning the dictionary in the absence of adequate training sample of target texts. The proposed approach is illustrated by experiments aimed at assigning thematic categories to Internet user queries according to the subject headings of the rubricator of Internet activities. The categorization algorithm is presented and the results of experimental study discussed.