Суббота 19 июля 2025 года

Вы здесь: Главная» Все новости» Технологии» Новосибирская студентка создала приложение для анализа тибетских текстов

Новосибирская студентка создала приложение для анализа тибетских текстов

Четверг, 17 Июля 2025 16:02

Фото из открытых источников

Студенткой Новосибирского государственного университета (НГУ) разработано приложение для автоматического распознавания, оцифровки и анализа классических тибетских текстов на базе машинного обучения. О новации рассказал интернет-ресурс НГУ.

Эксперты уверены, что уникальная программная платформа пригодится библиотекарям и сотрудникам архива, историкам и другим исследователям. Она должна способствовать сохранению тибетского языкового наследия, которое является и частью культурного багажа бурятского народа.

Система ориентирована на старопечатные документы, в которых использовано тибетское слоговое письмо, которое восходит к древнеиндийскому письму брахми. Её придумала Анна Мурашкина, студентка направления "Фундаментальная и прикладная лингвистика" гуманитарного института НГУ, которая работает в Институте вычислительной математики и математической геофизики Сибирского отделения РАН. Для обучения модели были использованы изображения страниц классических тибетских текстов XVIII-XX веков, хранящиеся в архивах.

В старинных документах разного формата содержатся ценнейшие сведения о философии, религии, медицине, истории и искусстве, они являются ключом к изучению культурных традиций региона. Древние знания передаются в Тибете из поколения в поколение. Но бумажные носители этой бесценной информации подвержены разрушению.

Сейчас в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН на хранении находятся до 70 тысяч единиц хроники, и существуют риски их утраты. Одним из самых надежных способов их сохранения и систематизации остаётся оцифровка.

Мурашкина попыталась построить модель, использовав машинное обучение. Алгоритм должен в итоге научиться распознавать символы тибетского алфавита с изображений, переводить их в машиночитаемый вид. Задачей было иметь результат, превосходящий по точности уже существующие открытые решения.

Студентка вручную произвела лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Далее, на базе специфики тибетской графики, была разработана система оценки качества оптического распознавания символов (OCR).

Затем девушка сравнила существующие архитектуры и выбрала модель сверхточной нейросети, но и ей потребовалось дообучение, рассказала автор новации. Получился полный модульный алгоритм оптического распознавания символов, с этапами предобработки, сегментации, распознавания и постобработки.

Миронова Любовь Опубликовано в Технологии Теги Новости

Читайте также

В Китае добились отрицательных выбросов парниковых газов Инновационная стратегия электрического катализа, позволяющая удалять больше парниковых газов, чем производится, разработана китайскими исследователями, сообщает агентство Синьхуа. Углекислый газ и метан остаются двумя самыми распространёнными парниковыми газами, которые выделяются человеком.…

Создан новый материал, обещающий тысячекратный рост производительности электроники Революционные перемены в сфере электроники обещают новые достижения последних месяцев. Так, учёные разработали метод, делающий возможным заметное повышение производительности электронных устройств. Прорыв базируется, в первую очередь, на использовании уникального квантового…

Влияет ли ИИ на здоровье пользователей, показало исследование Новое научное изыскание продемонстрировало, что на нынешнем этапе развития искусственный разум не оказывает заметного пагубного влияния на психологическое состояние пользователей, а порой даже помогает укреплению их телесного здоровья. О деталях…

Интернет и СМИ

Новости СМИ2

Главное за сутки

МО: за ночь над регионами России сбили 73 украинских БПЛА Силы ПВО уничтожили и перехватили 73 украинских беспилотника над регионами России за ночь. Из них 10 дронов сбили над Московским регионом, в том числе 3 летевших на Москву дрона. Об…

Президент Путин скорректировал порядок проверки ложно отказавшихся от гражданства Украины Президент России Владимир Путин скорректировал регламент действий госорганов при обнаружении того, что отказавшийся от украинского паспорта гражданин РФ фактически продолжает им пользоваться. С соответствующим указом ознакомился ТАСС. Речь идет о…

В ЕС согласовали 18-й пакет санкций против России Послы ЕС после двух месяцев дискуссий согласовали 18-й пакет санкций против России, сообщил журналистам дипломатический источник в Брюсселе. ТАСС собрал главное о содержании нового пакета рестрикций. Сообщается, что 18-й пакет…

Тема дня

Военные приготовления Запада работают против него же

На новом витке обострения с Западом инструментов – таких, чтоб враги не использовали за прошедшие го...

Фото

Древний метеоритный кратер может быть на 800 млн лет моложе, чем считалось

Ранее в этом году исследователи объявили об открытии, по их мнению, старейшего в мире ударного крате...

Опрос

Какое время продлится напряженность в отношениях между Россией и Азербайджаном?

Показать результаты »

Анекдот дня

Когда телефон был привязан к стене, люди были свободны...

Еще »

Этот сайт использует файлы «cookie» с целью повышения удобства его использования. Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием сервиса «Яндекс. Метрика». Продолжая использовать сайт, вы соглашаетесь с Политикой конфиденциальности.