В Новосибирском государственном университете запущен сервис по автоматическому созданию аудиоверсий книг из оцифрованной части фонда Научной библиотеки университета. Проект основан на разработках Исследовательского центра искусственного интеллекта (Центра ИИ) НГУ и проходит этап апробации. После успешного выполнения пилотного проекта технологию планируется предложить другим библиотекам.
На данном этапе речь идет о переводе в аудиоформат книг университетского издательства и материалов, размещенных в электронной библиотеке, с разрешения правообладателей —всего около семи тысяч наименований.
Озвучивание выполняет нейросеть: текст извлекается из PDF, проходит предварительную обработку, после чего формируется звуковая версия.
— В перспективе мы планируем перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ. Сейчас это около 7 тысяч изданий, — рассказал ведущий научный сотрудник Центра искусственного интеллекта НГУ, кандидат физико-математических наук
Евгений Павловский.
По его словам, сервис не предполагает полной замены традиционного чтения, а создается как альтернативная форма доступа к тексту.
—
Мы не делаем художественную озвучку, полностью повторяющую оригинал. Это дополнительный способ работы с книгой. Для массового использования важно, что решение не является ресурсоемким: на одну книгу уходит примерно полчаса процессорного времени, причем речь о 16-ядерном процессоре, даже без видеокарты, — пояснил он.
Сервис создан на базе фреймворка «Каппа», разработанного в Центре ИИ НГУ. Он предназначен для управления датасетами и моделями искусственного интеллекта, их тестирования и оценки перед внедрением в рабочие процессы. Фреймворк позволяет проверять корректность работы моделей и снижать риск ошибок или так называемых «галлюцинаций» ИИ. В новом проекте «Каппа» используется для подготовки обучающих данных для озвучки и сбора обратной связи о качестве результата.
В пилотном режиме уже озвучены первые сто книг, сейчас команда ожидает обратную связь от библиотеки и пользователей. Вот один из
примеров работы сервиса.
В НГУ подчеркивают, что проект рассматривается как технологическая апробация. После отработки самой технологии и механизмов взаимодействия с библиотекой, сервис может быть предложен другим университетам и публичным библиотекам через партнерскую платформу или в каких-то иных форматах.
По оценке разработчиков, с точки зрения вычислительных ресурсов само озвучивание всего фонда возможно в течение месяца, однако на организационную подготовку и верификацию результатов озвучки может потребоваться до года.