Разработанную учеными НГУ нейросеть научили распознавать голосовые команды управления автономными роботами

14 февраля 2024

Разработанную учеными НГУ нейросеть научили распознавать голосовые команды управления автономными роботами
Наука

Специалисты из Исследовательского института искусственного интеллекта (AIRI) и  Московского физико-технического института (МФТИ) в ходе совместной работы дообучили разработанную учеными НГУ нейросеть Wav2Vec2-Large-Ru-Golos для распознавания голосовых команд управления автономным роботом.

Научный сотрудник Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко отметил, что нейросетевые модели Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM ввиду своих высоких показателей качества распознавания речи, а также из-за простоты использования и доработки, оказались востребованными в сообществе специалистов по распознаванию речи на русском языке. По его оценкам, в некоторые периоды суммарная статистика скачиваний этих моделей достигала нескольких тысяч в месяц. Технических возможностей для того, чтобы отследить, кто и для каких целей столь массово использует эти нейросетевые модели, у ученых НГУ не имеется, но некоторые случаи им становятся известны, и дообучение распознавания голосовых команд управления автономным роботом — один из них.

— Суть работы наших коллег заключалась в следующем: они предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды на основе задач, которые ставятся роботу человеком. На первый взгляд, идея генерации плана действий (то есть решение задачи автоматического управления) с помощью нейросетевых моделей языка вместо специализированных алгоритмов выглядит удивительной, поскольку автоматическое управление и естественный язык - весьма разные научные предметы. Но на самом деле и то, и другое можно рассматривать как последовательность элементов некоторой знаковой системы. Соответственно, глубокую нейросеть, которая «понимает» язык, вполне можно дообучить превращению команды, поставленной человеком, в цепочку визуально-моторных инструкций управления, обеспечивающих выполнение роботом этой команды.  Так, например, простая команда человека «подай стакан воды» должна быть трансформирована в достаточно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом, — пояснил Иван Бондаренко.

Ученый отметил, что на описанном этапе возникает другая проблема - помимо того, что бортовой интеллект робота должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде чел гоовека, он еще должен быть способен правильно услышать эту команду, произнесенную человеком с помощью голоса. Именно эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.

Наши коллеги сравнили эти нейросети с моделью Whisper-Medium от OpenAI на открытом речевом корпусе Sberdevices Golos и пришли к выводу, что оба наших варианта Wav2Vec2 распознают русскую речь лучше, чем решение от OpenAI. При этом, если в качестве дополнительного этапа обработки результатов распознавания речи добавить модуль исправления опечаток, то уровень ошибок наших моделей снижается на три-четыре процентных пункт например, с 12,4 % ошибок у обычной Wav2Vec2-Large-Ru-Golos до 9 % у комбинации Wav2Vec2-Large-Ru-Golos с модулем исправления опечаток YaSpeller. Правда, на речевых звукозаписях голосовых команд, собранных коллегами из AIRI и МФТИ в конкретных условиях эксплуатации робота, ошибка распознавания речи возрастает до 50 % и даже более, — сказал Иван Бондаренко.  

Данные ошибки ученый объяснил крайне высоким уровнем акустических шумов и спецификой микрофонной системы, установленной на роботе. Он отметил, что после дообучения Wav2Vec2-Large-Ru-Golos на всего лишь получасе аннотированных звукозаписей голосовых команд, уровень ошибок распознавания слов снизился до 20% без исправления опечаток и до 11% с дополнительным исправлением опечаток. Для сравнения: считается, что средний уровень ошибок в распознавании человеческой речи другим человеком составляет около 25 %. Таким образом, способность разработанных учеными НГУ моделей распознавания речи эффективно дообучаться решению более специализированных задач распознавания речи даже на малых обучающих выборках оказалась полезной для их коллег-робототехников.

По моему глубокому убеждению, исследования в области искусственного интеллекта должны быть открытыми. Открытость не только снижает проблему воспроизводимости научных экспериментов. Открытость играет ещё и важную социальную роль, делая результаты отдельных научных групп - общими. Открытость обеспечивает эстафету научного познания, даёт возможность одним учёным продолжить там, где остановились другие и тем самым ускоряет процесс научного познания. Поэтому мы делаем результаты наших исследований открытыми в надежде, что они окажутся полезны коллегам из других научных коллективов. И наши надежды оправдываются! — подытожил Иван Бондаренко.



Материал подготовил:  Елена Панфило, пресс-служба НГУ

Фотографии:  Загрузить

Теги: Наука, Математический центр в Академгородке