Разработка НГУ помогает нейросетям отвечать без «галлюцинаций»

Разработка НГУ для снижения «галлюцинаций» нейросетей стала победителем конкурса Yandex Open Source, проходившего при поддержке платформы для разработчиков SourceCraft в треке «Искусственный интеллект». В число лучших вошёл проект RAGU (Retrieval‑Augmented Generation & Understanding), над которым работает команда под руководством доцента Новосибирского государственного университета Ивана Бондаренко

RAGU — это модульный движок GraphRAG, предназначенный для тех случаев, когда простого векторного поиска уже не хватает и нужно строить полноценные графы знаний по текстовым документам. Он позволяет собирать, хранить и гибко опрашивать структурированные данные, опираясь на граф связей между понятиями, а не только на похожесть формулировок.

Сырой текст автоматически режется на устойчивые фрагменты, из них нейросеть выделяет сущности и связи, после чего RAGU собирает граф, объединяет дублирующиеся узлы и разбивает сеть на кластеры по алгоритму Лейдена, — описал суть его работы Иван Бондаренко.

В результате получился универсальный конструктор систем интеграции языковых моделей с базами знаний. Когда у пользователя возникает вопрос, особенно сложный, система позволяет сгенерировать ответ, основанный именно на знаниях о предметной области, причём корректно, быстро и без галлюцинаций. Тем самым, RAGU помогает искусственному интеллекту опираться на формальную модель знаний, извлечённых из документов, а не на общие статистические ассоциации. 

Сейчас наработки RAGU уже используются в системе «Менон» — цифровом помощнике абитуриента НГУ, который отвечает на вопросы о поступлении, учебных программах и жизни в университете. В отличие от стандартных поисковых сервисов, «Менон» ведёт с пользователем диалог и формулирует ответы своими словами, опираясь на специально структурированную базу данных об университете. 

Такую систему можно адаптировать и для других отраслей — от строительства до работы с нормативной документацией. Везде, где есть архив документов или база знаний и нужно эффективно использовать её при принятии решений, важна система, которая, с одной стороны, хорошо понимает язык, а с другой — умеет строить формальную модель знаний на основе текстов, — подчеркнул Бондаренко.

По словам исследователя, команда систематически сравнивает своё решение с зарубежными и российскими аналогами.

Мы сравнивали RAGU с китайским решением LightRAG, которое сейчас считают одним из наиболее продвинутых в мире, и рядом других библиотек. Наше решение показывает лучшую качество работы и в части самой нейросети MenoLite, и в части библиотеки RAGU, в которой эта модель используется, — отметил он. 

Победа на конкурсе даёт проекту и репутационный, и практический эффект, поскольку победителям выдают гранты на использование ресурсов Yandex Cloud для развития открытых проектов. 

Для нас это, во‑первых, подтверждение качества продукта, а во‑вторых, возможность провести дополнительные эксперименты за счёт облачных ресурсов Яндекса. Сейчас мы активно используем эти мощности, чтобы успеть завершить серию экспериментов к дедлайну крупнейшей конференции по обработке естественного языка, где будем подавать статью про RAGU, — рассказал Иван Бондаренко. 

Над проектом работает команда, куда входят сам Бондаренко как представитель лаборатории прикладных цифровых технологий НГУ, его выпускник Михаил Комаров и другие ребята - как нынешние студенты, так и выпускники, уже работающие в ИТ‑компаниях. Также в проекте участвуют студенты других университетов — от Дальневосточного федерального до Балтийского университета имени Канта.

В ближайших планах участников проекта: научить систему ещё лучше понимать «живую» человеческую речь и сложные диалоги. Разработчики работают над компонентом, который переписывает пользовательский вопрос в более независимую от контекста форму для поиска по графу знаний: он должен корректно обрабатывать неоднозначные аббревиатуры вроде «ИТ» (информационные технологии или Институт теплофизики), учитывать историю диалога, правильно привязывать местоимения и пропуски в фразах.

Продолжая использовать сайт, вы даете согласие на использование cookies и обработку своих данных. Узнайте подробности или измените свои настройки cookies.