Разработанную учеными НГУ нейросеть научили распознавать голосовые команды управления автономными роботами

Специалисты из Исследовательского института искусственного интеллекта (AIRI) и  Московского физико-технического института (МФТИ) в ходе совместной работы дообучили разработанную учеными НГУ нейросеть Wav2Vec2-Large-Ru-Golos для распознавания голосовых команд управления автономным роботом.

Научный сотрудник Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко отметил, что нейросетевые модели Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM ввиду своих высоких показателей качества распознавания речи, а также из-за простоты использования и доработки, оказались востребованными в сообществе специалистов по распознаванию речи на русском языке. По его оценкам, в некоторые периоды суммарная статистика скачиваний этих моделей достигала нескольких тысяч в месяц. Технических возможностей для того, чтобы отследить, кто и для каких целей столь массово использует эти нейросетевые модели, у ученых НГУ не имеется, но некоторые случаи им становятся известны, и дообучение распознавания голосовых команд управления автономным роботом — один из них.

— Суть работы наших коллег заключалась в следующем: они предложили использовать большие языковые модели типа ChatGPT, только открытые (LLaMA2 и MiniGPT4), для автоматической генерации плана действий автономного робота в зависимости от изменяющихся условий среды на основе задач, которые ставятся роботу человеком. На первый взгляд, идея генерации плана действий (то есть решение задачи автоматического управления) с помощью нейросетевых моделей языка вместо специализированных алгоритмов выглядит удивительной, поскольку автоматическое управление и естественный язык - весьма разные научные предметы. Но на самом деле и то, и другое можно рассматривать как последовательность элементов некоторой знаковой системы. Соответственно, глубокую нейросеть, которая «понимает» язык, вполне можно дообучить превращению команды, поставленной человеком, в цепочку визуально-моторных инструкций управления, обеспечивающих выполнение роботом этой команды.  Так, например, простая команда человека «подай стакан воды» должна быть трансформирована в достаточно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом, — пояснил Иван Бондаренко.

Ученый отметил, что на описанном этапе возникает другая проблема - помимо того, что бортовой интеллект робота должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде чел гоовека, он еще должен быть способен правильно услышать эту команду, произнесенную человеком с помощью голоса. Именно эту проблему коллеги из AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.

Наши коллеги сравнили эти нейросети с моделью Whisper-Medium от OpenAI на открытом речевом корпусе Sberdevices Golos и пришли к выводу, что оба наших варианта Wav2Vec2 распознают русскую речь лучше, чем решение от OpenAI. При этом, если в качестве дополнительного этапа обработки результатов распознавания речи добавить модуль исправления опечаток, то уровень ошибок наших моделей снижается на три-четыре процентных пункт например, с 12,4 % ошибок у обычной Wav2Vec2-Large-Ru-Golos до 9 % у комбинации Wav2Vec2-Large-Ru-Golos с модулем исправления опечаток YaSpeller. Правда, на речевых звукозаписях голосовых команд, собранных коллегами из AIRI и МФТИ в конкретных условиях эксплуатации робота, ошибка распознавания речи возрастает до 50 % и даже более, — сказал Иван Бондаренко.  

Данные ошибки ученый объяснил крайне высоким уровнем акустических шумов и спецификой микрофонной системы, установленной на роботе. Он отметил, что после дообучения Wav2Vec2-Large-Ru-Golos на всего лишь получасе аннотированных звукозаписей голосовых команд, уровень ошибок распознавания слов снизился до 20% без исправления опечаток и до 11% с дополнительным исправлением опечаток. Для сравнения: считается, что средний уровень ошибок в распознавании человеческой речи другим человеком составляет около 25 %. Таким образом, способность разработанных учеными НГУ моделей распознавания речи эффективно дообучаться решению более специализированных задач распознавания речи даже на малых обучающих выборках оказалась полезной для их коллег-робототехников.

По моему глубокому убеждению, исследования в области искусственного интеллекта должны быть открытыми. Открытость не только снижает проблему воспроизводимости научных экспериментов. Открытость играет ещё и важную социальную роль, делая результаты отдельных научных групп - общими. Открытость обеспечивает эстафету научного познания, даёт возможность одним учёным продолжить там, где остановились другие и тем самым ускоряет процесс научного познания. Поэтому мы делаем результаты наших исследований открытыми в надежде, что они окажутся полезны коллегам из других научных коллективов. И наши надежды оправдываются! — подытожил Иван Бондаренко.



Материал подготовил: Елена Панфило, пресс-служба НГУ