Разработка ученых НГУ упростит и ускорит создание национальных поисковых систем

Магистрант Факультета информационных технологий (ФИТ) НГУ Даниил Лютаев под научным руководством Владимира Борисовича Барахнина, доктора технических наук, профессора кафедры системы информатики ФИТ НГУ, разработал алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки именованных сущностей (названий, имен, дат и так далее) с использованием больших языковых моделей. Данный метод найдет применение во многих областях — создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и других сферах.

Распознавание именованных сущностей (то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты, такие как люди, организации, локации, даты и другое) является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно размеченных корпусов текста. Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки. Даниил Лютаев в своей работе исследует эффективность подхода на основе больших языковых моделей (Large Language Model, LLM), чтобы автоматизировать процесс переноса разметки с узбекского языка на русский и английский.

Изначально у исследователя был большой набор предложений (около 10000) на узбекском языке, в котором эксперты вручную разметили именованные сущности. Документ представлял собой таблицу, в которой напротив каждого слова есть определенный тег, похожий на язык разметки html, он показывает, является ли это слово частью именованной сущности или нет. Задача исследователя состояла в том, чтобы автоматически перенести эти предложения на другой язык с сохранением разметки.

«Это позволяет масштабировать размеченные данные на новые языки без повторных трудозатрат, разметка делается один раз, а переносится автоматически многократно», — поясняет Даниил.

Магистрант опирался на два традиционных подхода: перевод предложений и сущностей через переводчик и алгоритмическое сопоставление; перевод предложений через переводчик и выделение именованных сущностей без учета исходной разметки с помощью предобученных моделей. А также предложил свой подход — использовать большие языковые модели — в данном случае GPT-4o. Для каждого предложения формулировалась задача в определенном формате с примерами ответов. Все три метода сравнивались по стандартным метрикам, таким как точность, полнота, F1-мера (гармоническое среднее между двумя первыми параметрами), на 30 предложениях на русском и 30 предложениях на английском языках, которые были вручную размечены (исходный язык был узбекский).

В результате было установлено, что разметка может быть перенесена с высокой точностью (F1-мера ~ 0.9) даже при работе с морфологически разными типами языков: узбекский относится к агглютинативным языкам, русский – к флективным, английский – к изолирующим. В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке – например, на том, для которого требуются более низкие финансовые затраты.

«Смысл нашей работы заключался в том, чтобы показать, что LLM можно использовать для решения такой задачи эффективно и автоматически получить разметку на другом языке. Результат алгоритма переноса разметки уже может применяться во многих областях — поисковых системах, классификации документов, построении сетей связей, переводе, а также для самих моделей выделения именованных сущностей, где нужны наборы размеченных данных», — рассказывает Даниил.

Для подтверждения результатов дополнительно была проведена автоматическая оценка обратного перевода, то есть исходное предложение на узбекском переводили на целевой язык, например, русский, далее брали полученное русское предложение и переводили обратно на узбекский, потом сравнивали этот обратный перевод с оригиналом на семантическую схожесть. Такая оценка автоматизирована для любого количества предложений. Вторая оценка – сравнение семантической схожести на целевом языке результата приложения и эталонного предложения, дополнительно размеченного вручную. В работе показано, что эти две оценки коррелируют для 30 вручную размеченных предложений на русском и английском языках.

Разработанный подход может внести свой вклад в достижение информационного суверенитета и создание национальных поисковых систем. Помимо Google, который сейчас фактически охватил весь мир, свои полноценные национальные поисковики есть только в России (Яндекс) и в Китае (Baidu). Однако на земном шаре есть достаточно большое население, которое говорит на испанском, арабском, индийском, немецком языках. При этом суверенных поисковых систем в таких странах нет.

«Существующие поисковики не раскрывают алгоритмы, по которым они построены, при этом они обладают огромными ресурсами, которые большинству стран недоступны. Наша же задача состоит в том, чтобы разработать систему, которую можно воспроизвести. Научное знание является воспроизводимым и общедоступным, а наши алгоритмы являются частью науки и технологий. Кроме того, они в реализации относительно простые и дешёвые. Таким образом, то, что делает Google, мы делаем реально доступным. Это в том числе вносит свой вклад в решение вопроса национального суверенитета в информационных технологиях, что чрезвычайно важно. Разработанный нами алгоритм будет помогать развивать национальные сегменты интернета в странах Содружества Независимых Государств, таких как Узбекистан и Казахстан», — поясняет Владимир Барахнин.

Продолжая использовать сайт, вы даете согласие на использование cookies и обработку своих данных. Узнайте подробности или измените свои настройки cookies.