Команда НГУ заняла первое место в престижном международном соревновании по компьютерной лингвистике SemEval-2026

16.03.2026

Команда исследователей из Новосибирского государственного университета заняла первое место в международном научном соревновании SemEval-2026 Task 8 «MTRAGEval: Evaluating Multi-Turn RAG Conversations». Руководителем команды был индустриальный доцент НГУ, научный сотрудник лаборатории прикладных цифровых технологий Механико-математического факультета НГУ, доцент Иван Бондаренко. Результаты работы, проделанной в рамках конкурса, будут представлены на крупнейшей в мире конференции по компьютерной лингвистике ACL, которая пройдет летом 2026 года.

Соревнование проводилось компанией IBM и включало в себя три трека. Команда НГУ участвовала в Task B — задаче генерации ответов на вопросы пользователя с учетом предоставленных справочных документов и истории многошагового диалога. Из 26 команд-участников команда НГУ заняла первое место, достигнув метрики качества 0,7827 (conditioned harmonic mean), что значительно превосходит лучший базовый результат организаторов (0,6390) на 14,4 процентных пункта.

SemEval (Semantic Evaluation) — ежегодный международный воркшоп по методам и алгоритмам вычислительной семантики, который проводится уже более 20 лет. В рамках этого мероприятия проходят соревнования по различным направлениям компьютерной лингвистики. В этом году в рамках соревнования SemEval участникам были представлены 13 сложных исследовательских задач. Одной из самых интересных и значимых задач являлась задача 8 (Task 8), посвящённая оценке качества работы систем RAG (Retrieval-Augmented Generation — генерация, дополненная поиском) в многошаговых диалогах. Подобные RAG-системы решают ключевую проблему современных больших языковых моделей: ограниченность картины мира и сложность адаптации к специализированным предметным областям. Дело в том, что "знания" большой языковой модели ограничены обучающей выборкой и не включают актуальную или доменно-специфичную информацию. RAG интегрирует языковые модели с внешними базами знаний, позволяя им находить и использовать актуальную информацию при генерации ответов.

— Наша команда предложила три ключевых подхода, обеспечивших победу в соревновании. Первый заключался в итеративном улучшении системного промпта с помощью LLM-агента. Мы разработали мультиагентную систему, в которой большая нейросеть Gemini анализирует результаты работы модели и предлагает улучшения для системного промпта. Процесс повторяется итеративно до выхода на плато качества. Вторым подходом стало применение метода In-context learning (обучение в контексте), при котором модель учится выполнять задачу на основе нескольких примеров правильного решения этой задачи, предоставленных во входном контексте. Для каждой категории задач исследователи выбирали наиболее типичные примеры с помощью метода медоид в метрическом пространстве эмбеддингов. Эти примеры добавлялись в промпт для демонстрации правильного поведения модели. Данный подход стабильно показывал лучшие результаты, — пояснил Иван Бондаренко.

Исследователи создали несколько сетевых алгоритмов с применением обоих подходов и произвели оценку их преимуществ, а затем решили объединить их. Из множества методов ансамблирования был выбран вариант с использованием нейросети-судьи, которая выбирала бы лучший из ответов ансамбля в каждом конкретном случае. Команда объединила семь разнородных языковых моделей (Gemini-3-Pro-Preview, GLM-4.6, Llama-3.3-70B-Instruct, Qwen3-235B-A22B-Instruct, Claude 4.5 Haiku, Qwen2.5-32B-Instruct и собственную модель Meno-Lite-0.1) и использовала GPT-4o-mini для выбора лучшего ответа в каждом конкретном случае. Разнообразие моделей и подходов обеспечило дополнительный прирост качества.

— Особого внимания заслуживает модель Meno-Lite-0.1 — собственная разработка нашей команды на базе Qwen2.5-7B-Instruct. Эта компактная модель с 7 миллиардами параметров была специально дообучена нами для работы в RAG-пайплайнах на корпусе русско- и англоязычных образовательных данных. Несмотря на небольшой размер, Meno-Lite показала качество, сопоставимое с моделями значительно большего размера, и внесла вклад в итоговый результат ансамбля, — пояснил Иван Бондаренко.

В состав команды НГУ, участвовавшей в конкурсе, вошли действующие и бывшие студенты и сотрудники НГУ: магистрант программы по машинному обучению, реализуемой совместно с ШАДом и ММФ НГУ Михаил Кулаков, четверокурсник Института интеллектуальной робототехники НГУ Иван Чернов, выпускник Института интеллектуальной робототехники НГУ, главный инженер открытого проекта RAGU Михаил Комаров, выпускник факультета информационных технологий НГУ Олег Седухин и выпускник Института интеллектуальной робототехники НГУ, участник проекта Meno Роман Дерунец.

Научная статья с описанием предлагаемого ими в рамках конкурса решения отправлена на рецензирование и будет представлена на конференции ACL (Association for Computational Linguistics) — крупнейшем в мире научном форуме по компьютерной лингвистике. Иван Бондаренко подчеркнул, что полученные результаты уже применяются в развитии внутреннего проекта университета Meno — интеллектуальной системы на базе технологий RAG. Разработанные участниками команды методы могут использоваться для улучшения качества диалоговых систем, работающих с внешними базами знаний, включая корпоративные и образовательные приложения.

Материал подготовил: Елена Панфило, пресс-служба НГУ

Последние новости