Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения

Работа на достижение научно-технологического лидерства страны требует нового понимания, что такое университет, новых компетенций выпускников, развития собственной науки в университете и усиления тех инновационных направлений, которые слабо представлены в окружающей экосистеме.
Наличие современной инфраструктуры – одно из базовых условий для комфортной научно-исследовательской деятельности, инновационного творчества молодых ученых, самостоятельной и проектной работы студентов. Поэтому в рамках новой модели кампуса планируется строительство нескольких типов объектов, ориентированных на новую модель НГУ.

Будущее пространство кампуса будет отвечать современным требованиям и запросам студенческого сообщества, жителей и гостей Академгородка. Проектные решения позволят создать дополнительные зоны коворкинга и иного оффлайн-взаимодействия. Кампус послужит новым очагом современной комфортной среды для студентов и преподавателей.


Объекты первой очереди строительства Объекты второй очереди строительства

Подробнее об объектах
  • Учебно-научный центр Института медицины и медицинских технологий НГУ;
  • научно-исследовательский центр;
  • корпус для проектной работы студентов с библиотечным пространством нового типа.

Подробнее об объектах

Кампус мирового уровня НГУ – один из приоритетных проектов развития Новосибирской области, реализуемый в рамках федерального проекта «Создание сети современных кампусов» национального проекта «Наука и университеты». Проект одобрен Председателем Правительства РФ Михаилом Мишустиным и поддерживается Министерством науки и высшего образования РФ.

Строительство профинансировано из средств Федеральной адресной инвестиционной программы, а также за счет благотворительных средств. Общая стоимость строительства (в ценах 2021 года) – более 11 млрд рублей.

Минобрнауки РФ и Правительство Новосибирской области заинтересованы в реализации проекта и оказывают ему всестороннюю поддержку. Еженедельно университет предоставляет Правительству отчет о строительстве, а губернатор Новосибирской области Андрей Травников держит ситуацию под личным контролем. По мере возникновения острых вопросов, касающихся строительства, собирается Координационный штаб по содействию реализации проекта «Кампус мирового уровня НГУ
001.jpeg
2-ver.2.JPG

Посмотреть, как будут выглядеть новые корпуса, можно уже сейчас благодаря ролику с 3D-моделью кампуса, созданной студентами Инженерной школы ММФ НГУ*. Объекты первой очереди, которые были сданы и введены в эксплуатацию летом 2024 года, представлены в ролике для форума «Технопром 2024». В официальном открытии объектов первой очереди, которое состоялось 24 июля 2024 года, принял участие Председатель Правительства Российской Федерации Михаил Мишустин.

*Модель частично отражает текущий проект кампуса, частично является художественным вымыслом студентов.





Онлайн-экскурсию по Корпусу поточных аудиторий уже можно посмотреть в видео от NSU LIFE. Торжественное открытие с участием Заместителя Председателя Правительства Российской Федерации Дмитрия Чернышенко состоялось 29 августа 2025 года.



Строительство кампуса мирового уровня

Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в ИВМиМГ СО РАН студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института Новосибирского государственного университета Анна Мурашкина. В своем исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.

Актуальность моей работы обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного в виде множества исторических рукописей. Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка, — рассказала Анна Мурашкина.

Молодая исследовательница поставила перед собой задачу — с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения, в том числе Tesseract.

Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения, —  пояснила Анна Мурашкина.

Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки.

Для меня ценность проекта заключается в том, что я помогла оцифровать архив, в котором хранится история, – документы, созданные людьми прошлого, которые хотели передать свои знания будущим поколениям. Я рада, что помогаю перенести эти знания сквозь время, сохранить их и сделать доступными для более широкой аудитории. Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов, — сказала Анна Мурашкина. 


Материал подготовил: Елена Панфило, пресс-служба НГУ
Продолжая использовать сайт, вы даете согласие на использование cookies и обработку своих данных. Узнайте подробности или измените свои настройки cookies.