Исследовательская группа НГУ, в которую входят ученые и студенты направления «Психология» Института медицины и медицинских технологий (ИММТ) НГУ, создала автоматизированный подход к оценке депрессии, основываясь на акустических характеристиках человеческой речи. Работы по проекту проводились при финансовой поддержке программы «Приоритет-2030».
На сегодняшний день депрессия является одним из наиболее распространенных психических расстройств. По оценкам ВОЗ на 2025 год во всем мире от депрессии страдает порядка 332 миллиона человек. Депрессия может выступать как самостоятельное расстройство или сопутствовать другим, в том числе соматическим, заболеваниям. Ситуация осложняется тем, что зачастую депрессию «маскируют» соматические жалобы: пациенты испытывают неопределенные боли (например, частая головная боль), проблемы с сердцем, пищеварением, общее ухудшение самочувствия, при этом симптомы остаются неоднозначными, а определить «телесную» причину оказывается невозможно. В этой ситуации врачи общей практики зачастую не обладают временными ресурсами и необходимой квалификацией для углубленной диагностики и постановки точного диагноза.
— Помочь снизить нагрузку на врачей и обеспечить точную, качественную и своевременную диагностику может анализ объективных показателей депрессии. В качестве одного из таких показателей может служить анализ голоса. Следует отметить, что диагностика депрессии по акустическим характеристикам голоса обладает рядом преимуществ по сравнению с традиционными методами, основанными на методах самоотчета и интервью, в первую очередь потому, что полностью исключает фактор социальной желательности: это объективный показатель, который отражает состояние человека, при этом произвольно контролировать голос с целью сокрытия симптомов депрессии (или наоборот, аггравации симптомов) человек не может, — рассказала Марина Злобина, к.психол.н., старший преподаватель кафедры психологии личности ИММТ НГУ, руководитель проекта.
За рубежом уже вышло достаточно много работ, посвященных диагностике депрессии на основании акустических характеристик голоса, в том числе с применением нейросетевого подхода, однако пока нет данных о применении подобной технологии на практике. В России же такие решения только начинают появляться: например, существуют технологии оценки состояния человека по параметрам голоса, которые разрабатываются в рамках исследования функциональных состояний человека в условиях космических полетов, однако они не охватывают проблемы диагностики тревожно-депрессивных состояний.
Как отмечают авторы проекта, речь выступает естественным биомаркером психического состояния. Даже короткий ее отрывок содержит ценную информацию об энергетике голоса, которая подвержены изменениям при депрессивных и тревожных состояниях. На основе более 90 интервью исследователи обучили нейросетевую модель, которая классифицирует речь по четырем уровням выраженности депрессии — от отсутствия симптомов до тяжёлой формы. Для оценки степени выраженности симптомов депрессии использовали опросник PHQ-9.
— В основу разработки легла современная архитектура wav2veс, которая позволяет извлекать векторные акустические характеристики голоса. Обученная модель демонстрирует высокую точность, которая сопоставима с результатами ведущих зарубежных исследований: точность оценивалась на основе показателя F1 — гармоническое среднее между точностью (precision) и полнотой (recall), F1 достиг значения >0.94. Для практического использования технологии был создан прототип GUI-приложения NeuroVoiсe, который реализован на базе фреймворка PyQt5. Интерфейс обеспечивает полный цикл работы с данными — от загрузки или записи аудио до визуализации результатов и экспорта записей. Прототип позволяет как загружать уже сделанные записи, так и проводить оценку на лету, — пояснил Александр Фёдоров, к.психол.н., доцент, заведующий кафедрой клинической психологии ИММТ НГУ.
Работа над проектом велась в течение четырех месяцев — с сентября по декабрь 2025 года. В команду вошли Александр Фёдоров, к.психол.н., доцент, зав.кафедрой клинической психологии ИММТ, Марина Злобина, к.психол.н., старший преподаватель кафедры психологии личности ИММТ, Кирилл Кириленков, выпускник направления «Психология» ИММТ НГУ, а также студенты направления «Психология» Дарья Фаркова (4 курс) и Анастасия Глазунова (3 курс).
— Важно отметить, что технология не является заменой специалисту психологу или психиатру, однако может быть эффективно использована врачами общего профиля для выявления коморбидной депрессии при соматических заболеваниях, а также маскированной депрессии, часто проявляющейся в форме физических жалоб, болей и недомогания, которые невозможно объяснить соматическим заболеванием, — добавила Марина Злобина.
Проект является достаточно перспективным: в дальнейшем планируется расширение датасета и формирование на его основе базы данных интервью русскоязычных испытуемых, аналогичной англоязычной DAIC-WOZ (мультимодальный корпус, состоящий из аудио- и видеозаписей, а также расшифрованного текста интервью). Далее будет вестись обучение моделей уже на расширенном датасете, интеграция модели в итоговое приложение и его дальнейшее тестирование.
— В будущем разработанная технология может также использоваться для диагностики других психических расстройств (при наличии дополнительных данных, на основе которых можно будет дообучить модель). Кроме того, возможно подключение дополнительных модальностей (например, анализ мимики по видеозаписи), — подытожила Марина Злобина.