Студенткой Новосибирского государственного университета (НГУ) разработано приложение для автоматического распознавания, оцифровки и анализа классических тибетских текстов на базе машинного обучения. О новации рассказал интернет-ресурс НГУ.
Эксперты уверены, что уникальная программная платформа пригодится библиотекарям и сотрудникам архива, историкам и другим исследователям. Она должна способствовать сохранению тибетского языкового наследия, которое является и частью культурного багажа бурятского народа.
Система ориентирована на старопечатные документы, в которых использовано тибетское слоговое письмо, которое восходит к древнеиндийскому письму брахми. Её придумала Анна Мурашкина, студентка направления "Фундаментальная и прикладная лингвистика" гуманитарного института НГУ, которая работает в Институте вычислительной математики и математической геофизики Сибирского отделения РАН. Для обучения модели были использованы изображения страниц классических тибетских текстов XVIII-XX веков, хранящиеся в архивах.
В старинных документах разного формата содержатся ценнейшие сведения о философии, религии, медицине, истории и искусстве, они являются ключом к изучению культурных традиций региона. Древние знания передаются в Тибете из поколения в поколение. Но бумажные носители этой бесценной информации подвержены разрушению.
Сейчас в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН на хранении находятся до 70 тысяч единиц хроники, и существуют риски их утраты. Одним из самых надежных способов их сохранения и систематизации остаётся оцифровка.
Мурашкина попыталась построить модель, использовав машинное обучение. Алгоритм должен в итоге научиться распознавать символы тибетского алфавита с изображений, переводить их в машиночитаемый вид. Задачей было иметь результат, превосходящий по точности уже существующие открытые решения.
Студентка вручную произвела лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Далее, на базе специфики тибетской графики, была разработана система оценки качества оптического распознавания символов (OCR).
Затем девушка сравнила существующие архитектуры и выбрала модель сверхточной нейросети, но и ей потребовалось дообучение, рассказала автор новации. Получился полный модульный алгоритм оптического распознавания символов, с этапами предобработки, сегментации, распознавания и постобработки.
На новом витке обострения с Западом инструментов – таких, чтоб враги не использовали за прошедшие го...
Ранее в этом году исследователи объявили об открытии, по их мнению, старейшего в мире ударного крате...
Этот сайт использует файлы «cookie» с целью повышения удобства его использования. Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием сервиса «Яндекс. Метрика». Продолжая использовать сайт, вы соглашаетесь с Политикой конфиденциальности.
Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций
(Роскомнадзор). Реестровая запись от 07.06.2022 серия ЭЛ № ФС 77 – 83392. При использовании, полном или частичном
цитировании материалов planet-today.ru активная гиперссылка обязательна. Мнения и взгляды авторов не всегда совпадают с
точкой зрения редакции. На информационном ресурсе применяются рекомендательные технологии (информационные технологии
предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей
сети "Интернет", находящихся на территории Российской Федерации)".