В НГУ состоялась встреча специалистов в области машинного обучения и анализа данных Open Data Science Siberia — Новости НГУ

01.04.2019

На площадке Новосибирского государственного университета состоялся ODS-митап по теме «NLU по-русски: ELMO vs. BERT». В роли докладчика выступил ассистент кафедры вычислительных систем Механико-математического факультета НГУ, преподаватель курса «Нейронные сети для обработки естественных языков» англоязычной магистерской программы Big Data Analytics and Artificial Intelligence Иван Бондаренко. Он поделился с аудиторией опытом применения последних разработок в области компьютерной лингвистики.

— Обработка естественных языков вышла на новый уровень: использование новых моделей позволяет учитывать значения слов, контекст и омонимы, значительно упрощает решение задачи составления словаря, что особенно актуально для языков с большим количеством словоформ (за счет падежей, уменьшительно-ласкательных форм и тому подобное), в том числе для флективных славянских языков. Использование подхода «переноса обучения» (transfer learning) можно считать своего рода революцией в компьютерной лингвистике, — отметил Иван Бондаренко во время своего выступления.

Одной из сфер применения машинного обучения для обработки естественных языков является проектирование чат-ботов, автоматизирующих процесс технической поддержки пользователей сложного технологического оборудования. Алгоритм должен правильно понять пользователя и выдать ответ, соответствующий запросу. Для этого нужно обучить модель на большом объеме текстов, обработанных специалистом предметной области. Если эта предметная область очень специфична (например, медицина или нефтегазовая отрасль), то предварительная обработка текстов требует квалифицированных специалистов и является затратной и растянутой во времени задачей.

В докладе большое внимание было уделено относительно новому в машинном обучении подходу. Этот подход появился с развитием глубоких нейронных сетей, он основан на следующей идее: нейронная сеть, обученная решению одной задачи, для которой существует очень большая обучающая выборка, затем применяется для решения другой родственной задачи в этой же области, но для которой доступна лишь совсем небольшая обучающая выборка. Это позволяет экономить время работы специалистов и использовать значительно меньший объем исходных данных для обучения модели. Подход хорошо зарекомендовал себя в области анализа изображений и компьютерного зрения. В 2017—2018 годах он более широко стал применяться и в компьютерной лингвистике.

Видеозапись выступления можно посмотреть на канале лаборатории аналитики потоковых данных и машинного обучения ММФ НГУ:

NLU по русски: ELMo vs BERT

Последние новости

18.06.2026

Студентка НГУ вместе с командой обучающихся ИТМО победила в хакатоне Калифорнийского университета

Разработку команды студентов — LongevMarker AI — высоко оценили эксперты.

Образование Факультет информационных технологий Хакатон

18.06.2026

НГУ занял 16 место в списке лучших вузов России по версии RAEX

Университет удерживает высокие позиции уже второй год подряд. По критерию «качество образования» НГУ является единственным вузов из региона, вошедшим в топ-10 лучших университетов России.

Наука Образование Рейтинги

17.06.2026

Ученые НГУ разработали новую методику цифровой обработки сигналов в волоконно-оптических линиях связи

Она позволяет избежать искажений при передаче сигнала при высоких скоростях на большие расстояния. Научная статья об этом исследовании вошла в число 10% самых просматриваемых работ, опубликованных в 2024 году в журнале Studies in Applied Mathematics.

Наука Ученые Исследование

Все новости