Интеллектуальную систему автоматизированного сбора, анализа и актуализации данных об инвестиционных проектах Российской Федерации из открытых интернет-источников с последующей интеграцией результатов в базу данных геоинформационной системы Института экономики и организации промышленного производства СО РАН (ИЭОПП СО РАН) разработала выпускница магистратуры Факультета информационных технологий Новосибирского государственного университета, инженер-технолог Центра финансовых технологий Полина Браер под научным руководством кандидата экономических наук, доцента Андрея Костина. Ее проект основан на использовании нескольких моделей нейронных сетей в зависимости от поставленной пользователем задачи.
Разработанная молодой исследовательницей система, анализируя открытые интернет-источники, не только предоставляет основную информацию об инвестиционном проекте, но и находит актуальные данные о степени его перспективности, определяет текущую стадию проекта, и выдает текущую стоимость инвестиций в него. Аналогов этой интеллектуальной системы на данный момент не существует, несмотря на активное применение и развитие нейросетей, а также возрастающую потребность в их использовании при работе с инвестиционными проектами. Данная разработка, помимо научных исследований в области экономики, может быть востребована органами государственного управления, инвестиционными агентствами и аналитическими подразделениями для мониторинга инвестиционной активности и актуализации баз данных инвестиционных проектов РФ.
— В настоящее время сведения об инвестиционных проектах размещаются в многообразных открытых источниках. Это официальные интернет-сайты органов государственной власти, региональные инвестиционные порталы, новостные издания, корпоративные ресурсы, а также специализированные аналитические платформы. Данные, характеризующие проекты, чаще всего обрывочны и неоднородны, представлены в разных форматах и могут не обновляться довольно долго или же обновления не вносятся вовсе. Описания проектов, сведения о стадиях их реализации и ее временных параметрах, участниках проекта, географической локализации, объемах и источниках финансирования и ряд других релевантных характеристик довольно часто содержатся в неструктурированных текстах. Все это значительно осложняет формирование единой и актуальной базы данных об инвестиционных проектах, а также снижает эффективность их аналитического исследования. В то же время традиционные геоинформационные системы по большей части ориентированы на использование структурированных данных, — рассказала Полина Браер.
Мониторинг инвестиционных проектов осуществляется вручную, что требует значительных временных затрат, затрудняет масштабирование и снижает оперативность обновления информации.
Эксперту необходимо найти текст в открытых интернет-источниках, проанализировать надежность сайта, на котором он размещен, руководствуясь при этом списком достоверных источников, сопоставить полученную информацию с размещенной на других достоверных сайтах. Это монотонная и рутинная работа, отнимающая много времени. Важное значение здесь имеет человеческий фактор — при переутомлении человек может допустить ошибки, на заметить важные факты, либо пропустить сайт, на котором и содержалась целевая информация.
Готовую базу инвестиционных проектов региона предоставляют по подписке специализированные агрегаторы. Однако полученных таким путем данных чаще всего недостаточно, потому что они содержат краткую информацию о наименовании проекта и его локации, описание отрасли и даты реализации. К тому же сервис или портал, который предоставляет эти данные может обновляться довольно редко. Часто обновляемые сервисы, как правило предоставляют информацию за довольно высокую стоимость. Как выяснилось при проведении данного исследования, региональные порталы, как правило, не обновляют информацию своевременно.
Поэтому возникает необходимость разработки интеллектуальной системы, способной автоматически выполнять поиск и сбор данных об инвестиционных проектах из открытых источников, анализировать неструктурированные текстовые материалы, определять актуальные характеристики проектов, формировать их содержательные описания и обеспечивать обновление базы данных, используемой для дальнейшего экономического и пространственного анализа.
— Научная новизна нашего исследования заключается в разработке системы интеллектуального анализа инвестиционных проектов, объединяющего автоматизированный сбор данных из открытых веб-источников, обработку неструктурированных текстов, нейросетевой анализ содержания публикаций и формирование актуализированной базы данных, пригодной для последующего геоинформационного анализа. В отличие от традиционных подходов, основанных на ручном мониторинге либо на использовании исключительно заранее структурированных данных, предлагаемый подход обеспечивает преобразование разрозненных текстовых сообщений в единое аналитическое представление инвестиционного проекта, — пояснила Полина Браер.
При создании интеллектуальной системы были использованы методы обработки естественного языка, машинного и глубокого обучения, трансферного обучения и веб-парсинга, а инструментальную основу составили Python, HuggingFace Transformers, Scikit-learn, BeautifulSoup и Selenium. Так была разработала интеллектуальная система, включающая четыре специализированных аналитических модуля: классификатор стадии реализации проекта на базе XLM-RoBERTa, модель оценки инвестиционной перспективности на основе логистической регрессии с TF-IDF, генератор текстового описания на базе ruT5, а также гибридный модуль извлечения объема инвестиций. Таким образом разработчики применили комплексный подход, сочетающий в себе автоматизированный сбор данных из открытых источников, их нейросетевую обработку и формирование актуализируемой аналитической базы для геоинформационного анализа.
— В реализованном нами коде зашит перечень определенных сайтов-источников, которые являются достоверными и наиболее приоритетными. При необходимости разработчик может внести в него изменения – одни источники внести, а другие – исключить, изменить приоритетность или добавить ключевые слова. При этом основная функциональность системы не нарушается. Система генерирует развернутое описание какого-либо определенного инвестиционного проекта, основываясь на тех статьях, которые она собрала в надежных интернет-источниках. Это исчерпывающая информация и пользователю уже нет необходимости искать недостающую информацию вручную на других сайтах. В ходе исследования мною было подсчитано, что работу, которая заняла бы у человека полную рабочую неделю, система выполняет за 3-4 часа. Нами для выполнения этой задачи была применена интеллектуальная модель Т5, — пояснила Полина Браер.
Модель Т5 была применена и для выполнения другой задачи — извлечения стоимости инвестиций в проект на данный момент. Она собирает информацию по упоминанию цен либо стоимостей, которые указываются в статьях, размещенных в открытых интернет-источниках, и анализирует, какая из этих стоимостей является именно инвестиционной, исходя из контекста, поскольку в статье могут упоминаться и другие цены.
Экспериментальной задачей стало определение показателя инвестиционной привлекательности проекта.
— Для определения инвестиционной привлекательности проекта мы использовали модель TF-IDF в совокупности с логистической регрессией. Это комбинация нейросети и статистической обработки данных. Модель выделяет в текстах ключевые слова, которые характеризуют проект. Например, «выполнено успешно», «построено», «сделано», «выполнено» или «завершено». По аналогии выделяет и негативные ключевые слова. При выполнении этой задачи нейросеть играет больше техническую роль — она превращает эти слова в векторы, в итоге слово становится определенным чистом, которое обрабатывается логистической регрессией и по итогам данной обработки инвестиционный проект попадает в одну из трех групп по степени перспективности: высокая, средняя или низкая. Следует уточнить, что инвестиционная привлекательность – показатель экспериментальный, так как понимание инвестиционной привлекательности субъективное и реальная классификация может различаться между разными специалистами — для одного проект может быть привлекательным, а для другого нет, — сказала Полина Браер.
Также интеллектуальная система способна предоставлять информацию о текущей стадии проекта. Их девять: от инициации до ввода в эксплуатацию или заморозки/отмены. Система также руководствуется данными из открытых интернет-источников. Она выдает результат, анализируя тексты, при этом использует ключевые слова, перечень которых расширен, потому что в статьях не всегда описывается очевидная стадия проекта, и требуются дополнительные ключевые слова, чтобы определить ее. При этом возможно использование нескольких источников. На этот случай в системе предусмотрены защитный механизм, предотвращающий упоминания стадии, ниже предшествующей. Например, стадия «инициация» не может следовать за стадией «строительство», потому что в реальности такое невозможно.
— В современных условиях цифровизации экономики возрастает роль информационно-аналитических систем, обеспечивающих сбор, систематизацию, обработку и интерпретацию данных, необходимых для принятия обоснованных управленческих решений. Теоретическая значимость нашего исследования заключается в развитии подходов к интеграции методов искусственного интеллекта, обработки естественного языка и геоинформационных систем в задачах анализа территориально распределенных экономических объектов. Полученные нами результаты расширяют представления о возможностях применения больших языковых и нейросетевых моделей для извлечения сведений из неструктурированных источников и их включения в контур геоаналитической обработки данных. Разработанная нами интеллектуальная система может быть использована для мониторинга инвестиционной активности, сопровождения проектных портфелей, актуализации баз данных инвестиционных проектов и дальнейшего пространственного анализа, — резюмировала Полина Браер.