Разработка НГУ для снижения «галлюцинаций» нейросетей стала победителем конкурса Yandex Open Source, проходившего при поддержке платформы для разработчиков SourceCraft в треке «Искусственный интеллект». В число лучших вошёл проект RAGU (Retrieval‑Augmented Generation & Understanding), над которым работает команда под руководством доцента Новосибирского государственного университета Ивана Бондаренко.
RAGU — это модульный движок GraphRAG, предназначенный для тех случаев, когда простого векторного поиска уже не хватает и нужно строить полноценные графы знаний по текстовым документам. Он позволяет собирать, хранить и гибко опрашивать структурированные данные, опираясь на граф связей между понятиями, а не только на похожесть формулировок.
— Сырой текст автоматически режется на устойчивые фрагменты, из них нейросеть выделяет сущности и связи, после чего RAGU собирает граф, объединяет дублирующиеся узлы и разбивает сеть на кластеры по алгоритму Лейдена, — описал суть его работы Иван Бондаренко.
В результате получился универсальный конструктор систем интеграции языковых моделей с базами знаний. Когда у пользователя возникает вопрос, особенно сложный, система позволяет сгенерировать ответ, основанный именно на знаниях о предметной области, причём корректно, быстро и без галлюцинаций. Тем самым, RAGU помогает искусственному интеллекту опираться на формальную модель знаний, извлечённых из документов, а не на общие статистические ассоциации.
Сейчас наработки RAGU уже используются в системе «Менон» — цифровом помощнике абитуриента НГУ, который отвечает на вопросы о поступлении, учебных программах и жизни в университете. В отличие от стандартных поисковых сервисов, «Менон» ведёт с пользователем диалог и формулирует ответы своими словами, опираясь на специально структурированную базу данных об университете.
— Такую систему можно адаптировать и для других отраслей — от строительства до работы с нормативной документацией. Везде, где есть архив документов или база знаний и нужно эффективно использовать её при принятии решений, важна система, которая, с одной стороны, хорошо понимает язык, а с другой — умеет строить формальную модель знаний на основе текстов, — подчеркнул Бондаренко.
По словам исследователя, команда систематически сравнивает своё решение с зарубежными и российскими аналогами.
— Мы сравнивали RAGU с китайским решением LightRAG, которое сейчас считают одним из наиболее продвинутых в мире, и рядом других библиотек. Наше решение показывает лучшую качество работы и в части самой нейросети MenoLite, и в части библиотеки RAGU, в которой эта модель используется, — отметил он.
Победа на конкурсе даёт проекту и репутационный, и практический эффект, поскольку победителям выдают гранты на использование ресурсов Yandex Cloud для развития открытых проектов.
— Для нас это, во‑первых, подтверждение качества продукта, а во‑вторых, возможность провести дополнительные эксперименты за счёт облачных ресурсов Яндекса. Сейчас мы активно используем эти мощности, чтобы успеть завершить серию экспериментов к дедлайну крупнейшей конференции по обработке естественного языка, где будем подавать статью про RAGU, — рассказал Иван Бондаренко.
Над проектом работает команда, куда входят сам Бондаренко как представитель лаборатории прикладных цифровых технологий НГУ, его выпускник Михаил Комаров и другие ребята - как нынешние студенты, так и выпускники, уже работающие в ИТ‑компаниях. Также в проекте участвуют студенты других университетов — от Дальневосточного федерального до Балтийского университета имени Канта.
В ближайших планах участников проекта: научить систему ещё лучше понимать «живую» человеческую речь и сложные диалоги. Разработчики работают над компонентом, который переписывает пользовательский вопрос в более независимую от контекста форму для поиска по графу знаний: он должен корректно обрабатывать неоднозначные аббревиатуры вроде «ИТ» (информационные технологии или Институт теплофизики), учитывать историю диалога, правильно привязывать местоимения и пропуски в фразах.