Применение программных методов для автоматизированной обработки источников личного происхождения

Обложка

Цитировать

Полный текст

Аннотация

Предметом настоящего исследования являются программные методы автоматизированной предобработки исторических источников и разработка эффективного решения задач при работе с источниками личного происхождения. В рамках статьи проанализировано актуальное положение в области использования современных программных методов. Авторы демонстрируют основной круг аргументов, по которым такие исторические источники с технической точки зрения необходимо рассматривать отдельно. Проведен методологический разбор особенностей применения оптического распознания символов на основе предобработанных данных. Особое внимание уделено преимуществам и ключевым параметрам эффективности конечного результата работы при использовании автоматизированной преодобработки текстов, в том числе при дальнейшем использовании OCR-методов.   Научная новизна исследования заключается в предложении и подробном описании программного решения сложившейся проблемы на основе методов машинного обучения. Разработанная программа имеет три фазы работы с цифровыми копиями источников личного происхождения. В ее основе заложены использование библиотеки OpenCV и решения ряда задач с помощью преобразования Хафа. Опираясь на общий анализ исследования мы можем выделить основные преимущества автоматизированной предобработки сканированных документов: сокращение времени, повышение точности, борьба с искажениями и оптимизация процесса. Представленные результаты успешной апробации разработанного решения позволяют судить о возможных сферах ее эффективного применения.

Об авторах

Никита Дмитриевич Пригодич

Национальный исследовательский университет ИТМО; Санкт-Петербургский государственный университет

Email: ndprigodich@gmail.com
старший преподаватель; кафедра центр социальных и гуманитарных знаний;Старший научный сотрудник;

Семен Сергеевич Коробко

Национальный исследовательский университет ИТМО

Email: semenkorobko2@gmail.com
бакалавр; кафедра Информатика и программирование;

Список литературы

  1. Мирошниченко М. А., Шевченко Ю. В., Охрименко Р. С. Сохранение исторического наследия государственных архивов путем оцифровки архивных документов // Вестник Академии знаний. 2020. № 37(2). С. 188-194. doi: 10.24411/2304-6139-2020-10163.
  2. Куткин А. В., Назаров А. Н. Оцифровка документов в архивах Российской Федерации: анализ применяемого оборудования и программного обеспечения // Вестник ВНИИДАД. 2022. № 6. С. 41-52. doi: 10.55970/26191601_2022_6_41.
  3. Решетько К. М., Халамей К. Н. Применение искусственного интелекта в банковском секторе // Потенциал российской экономики и инновационные пути его реализации: материалы всероссийской научно-практической конференции. 2021. Т. 2. С. 87-89.
  4. Чурсина А. А. Российская практика цифровой обработки исторических источников: направления и результаты // Цифровое измерение новой социальной реальности: сборник научных студенческих статей. М.: Финансовый университет при Правительстве Российской Федерации, 2022. С. 167-176.
  5. Муракас Р. Оцифровка исторических материалов исследований социальных наук как источник данных современных исследований // Коммуникация в социально-гуманитарном знании, экономике, образовании: Материалы V Международной научно-практической конференции. Минск: Белорусский государственный университет, 2021. С. 107-110.
  6. Ваксина И. Р., Канев А. И., Латыпова К. Н. Оптическое распознавание символов рукописных текстов и табличных данных // Тенденции развития науки и образования. 2022. № 86-1. С. 45-49. doi: 10.18411/trnio-06-2022-15.
  7. Нестеров А. С. Анализ рынка современных информационных систем оптического распознавания символов (OCR) // Студенческий вестник. 2020. № 25-3(123). С. 82-85.
  8. Шабанов А. В. Обработка изображений при создании цифровых копий рукописей с угасающим текстом // Труды ГПНТБ СО РАН. 2013. № 5. С. 213-218.
  9. Максимов В. Ю., Клышинский Э. С., Антонов Н. В. Проблема понимания в системах искусственного интеллекта // Новые информационные технологии в автоматизированных системах. 2016. № 19. С. 43-60.
  10. Gevorkyan M. N., Demidova A. V., Demidova T. S., Sobolev A. A. Review and comparative analysis of machine learning libraries for machine learning // Discrete and Continuous Models and Applied Computational Science. 2019. Vol. 27, No. 4. P. 305-315. – doi: 10.22363/2658-4670-2019-27-4-305-315.
  11. Бурмистров А. В., Ильичев В. Ю. Распознавание объектов на изображениях с использованием базовых средств языка Python и библиотеки opencv // Научное обозрение. Технические науки. 2021. № 5. С. 15-19.
  12. Фаворская М. Н. Преобразование Хафа для задач распознавания // DSPA: Вопросы применения цифровой обработки сигналов. 2016. Т. 6, № 4. С. 826-830.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).