Методы комбинирования множественных результатов распознавания текста

Обложка

Цитировать

Полный текст

Аннотация

Задача комбинирования результатов распознавания текста на множестве изображений является важным компонентом систем распознавания документов в видеопоследовательности. В настоящее время все еще нет общего подхода к решению этой задачи, дающего высокую точность распознавания текста. В работе проведен сравнительный анализ известных подходов к межкадровому комбинированию результатов распознавания полей идентификационных документов. Показано, что различные подходы имеют преимущество на разных частях пакетов данных, при этом потенциальный идеальный результат распознавания может значительно превосходить результаты, полученные проанализированными методами.

Об авторах

Владимир Викторович Арлазаров

Федеральный исследовательский центр «Информатика и управление» Российской академии наук»; ООО «Смарт Энджинс Сервис»

Автор, ответственный за переписку.
Email: vva777@gmail.com

кандидат технических наук, заведующий отделом

Россия, Москва; Москва

Список литературы

  1. S. C. Kosaraju, M. Masum, N. Z. Tsaku, P. Patel, T. Bayramoglu, G. Modgil, M. Kang. DoT-Net: Document layout classification using texture-based CNN” // International Conference on Document Analysis and Recognition (ICDAR), 2019, P. 1029-1034. doi: 10.1109/ICDAR.2019.00168.
  2. D. He, D. Cohen, B. Price, D. Kifer, C. L. Giles. Multiscale multi-task FCN for semantic page segmentation and table detection” // International Conference on Document Analysis and Recognition (ICDAR), 2017, P. 254-261. doi: 10.1109/ICDAR.2017.50.
  3. F. Jia, C. Shi, Y. Wang, C. Wang, B. Xiao. “Grayscaleprojection based optimal character segmentation for camera-captured faint text recognition” // International Conference on Document Analysis and Recognition, 2017, P. 1301-1306. doi: 10.1109/ICDAR.2017.214.
  4. J. Baek et al., "What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis" // IEEE/CVF International Conference on Computer Vision (ICCV), 2019, P. 4714-4722. doi: 10.1109/ICCV.2019.00481.
  5. H. Li, S. Wang, A. C. Kot. “Image recapture detection with convolutional and recurrent neural networks” // Electronic Imaging, 2017, P. 87-91. doi: 10.2352/ISSN.2470-1173.2017.7.MWSF-329.
  6. N. Yusoff, L. Alamro. “Implementation of feature extraction algorithms for image tampering detection” // International Journal of Advanced Computer Research, 2019, 9(43), P. 197-211. doi: 10.19101/IJACR.PID37.
  7. D. Wemhoener, I. Z. Yalniz, R. Manmatha, "Creating an Improved Version Using Noisy OCR from Multiple Editions" // International Conference on Document Analysis and Recognition (ICDAR), 2013, P. 160-164. doi: 10.1109/ICDAR.2013.39.
  8. R. Wang, S. M. Pizer, J.-M. Frahm, “Recurrent neural network for (un-)supervised learning of monocular video visual odometry and depth” // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, P. 5555–5564.
  9. J. Jeong, Y. H. Yoon, J. H. Park, “Reliable road scene interpretation based on itom with the integrated fusion of vehicle and lane tracker in dense traffic situation” // Sensors 20, 2020, Article No. 2457. doi: 10.3390/s20092457.
  10. K. B. Bulatov, N. V. Fedotova and V. V. Arlazarov, “An approach to road scene text recognition with per-frame accumulation and dynamic stopping decision,” // International Conference on Machine Vision (ICMV 2020), 2021, V. 11605, P. 116051S1-116051S10. doi: 10.1117/12.2586912.
  11. K. B. Bulatov, P. V. Bezmaternykh, D. P. Nikolaev and V. V. Arlazarov, “Towards a unified framework for identity documents analysis and recognition” // Computer Optics, 2022, V. 46, N. 3, P. 436-454, doi: 10.18287/2412-6179CO-1024.
  12. Д. В. Полевой, К. Б. Булатов, Н. С. Скорюкина, Т. С. Чернов, В. В. Арлазаров, А. В. Шешкус. Ключевые аспекты распознавания документов с использованием малоразмерных цифровых камер // Вестник РФФИ. 2016. № 4. С. 97-108. doi: 10.22204/2410-4639-2016092-04-97-108.
  13. T. Kohonen, “Median strings” // Pattern Recognition Letters, V. 3, N. 5, 1985, P. 309-313. doi: 10.1016/01678655(85)90061-3.
  14. J. G. Fiscus. “A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER).” // IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings, 1997, P. 347-354.
  15. J. Kittler, M. Hatef, R. P. W. Duin, J. Matas, "On combining classifiers" // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, V. 20, N. 3, P. 226-239, doi: 10.1109/34.667881.
  16. А. Б. Петровский. Методы групповой классификации многопризнаковых объектов (часть 1) // Искусственный интеллект и принятие решений. 2009. №. 3. С. 3-14.
  17. А. Б. Петровский. Методы групповой классификации многопризнаковых объектов (часть 2) // Искусственный интеллект и принятие решений. 2009. №. 4. С. 3-14.
  18. D. V. Polevoy, M. A. Aliev, D. P. Nikolaev. “Choosing the best image of the document owner’s photograph in the video stream on the mobile device” // International Conference on Machine Vision (ICMV 2020), 2021, V. 11605, P. 1-9. doi: 10.1117/12.2586939.
  19. C. Zhanzhan, L. Jing, N. Yi, P. Shiliang, W. Fei, Z. Shuigeng. “You only recognize once: Towards fast video text spotting” // 27th ACM International Conference, 2019, P. 855-863. doi: 10.1145/3343031.3351093.
  20. В. Л. Арлазаров, О. А. Славин, В. В. Фарсобина В. В. “Алгоритмы поиска оптимального положения образов при их суммировании” // Искусственный интеллект и принятие решений. 2015. № 2. С. 25-34.
  21. M. Haris, G. Shakhnarovich, N. Ukita. “Recurrent backprojection network for video super-resolution” // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2019, P. 3897-3906. doi: 10.1109/CVPR.2019.00402.
  22. K. Mehregan, A. Ahmadyfard, H. Khosravi. “Superresolution of license-plates using frames of low-resolution video” // 5th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS), 2019, P. 1-6. doi: 10.1109/ICSPIS48872.2019.9066104.
  23. C. Merino-Gracia, M. Mirmehdi. “Real-time text tracking in natural scenes” // IET Computer Vision, 2014, 8(6), P. 670-681. doi: 10.1049/iet-cvi.2013.0217.
  24. S. Zhang, P. Li, Y. Meng, L. Li, Q. Zhou, X. Fu. “A video deblurring algorithm based on motion vector and an encoder-decoder network” // IEEE Access, 2019, V. 7, P. 86778-86788. doi: 10.1109/ACCESS.2019.2923759.
  25. V. V. Myasnikov, E. A. Dmitriev. “The accuracy dependency investigation of simultaneous localization and mapping on the errors from mobile device sensors” // Computer Optics, 2019, V. 43, N. 3, P. 492-503. doi: 10.18287/2412-6179-2019-43-3-492-503.
  26. К. Б. Булатов. “Выбор оптимальной стратегии комбинирования покадровых результатов распознавания символа в видеопотоке” // Информационные технологии и вычислительные системы, 2017, Т. 3, С. 45-55.
  27. R. Polikar. “Ensemble based systems in decision making” // IEEE Circuits and Systems Magazine, 2006, V. 6, N. 3, P. 21-45. doi: 10.1109/MCAS.2006.1688199.
  28. Z. H. Zhou “Ensemble methods: Foundations and algorithms”. New York: Chapman and Hall/CRC, 2012, ISBN: 978-1-4398-3003-1.
  29. К. Б. Булатов, В. Ю. Кирсанов, В. В. Арлазаров, Д. П. Николаев, Д. В. Полевой. “Методы интеграции результатов распознавания текстовых полей документов в видеопотоке мобильного устройства” // Вестник РФФИ, 2016, № 4, С. 109-115. doi: 10.22204/2410-4639-2016-092-04-109-115.
  30. Т. И. Булдакова, О. А. Славин, Д. Н. Путинцев. “Алгоритмы интеграции результатов распознавания в видеопоследовательностях полей документов, удостоверяющих личность” // Международный журнал прикладных и фундаментальных исследований, 2017, № 7, часть 2, С. 172-175.
  31. K. B. Bulatov, “A Method to Reduce Errors of String Recognition Based on Combination of Several Recognition Results with Per-Character Alternatives” // Bulletin of the South Ural State University, Series: Mathematical Modelling, Programming and Computer Software, V. 12, N 3, P. 74-88, 2019, doi: 10.14529/mmp190307.
  32. O. Petrova, K. Bulatov, V. L. Arlazarov, “Methods of weighted combination for text field recognition in a video stream” // International Conference on Machine Vision (ICMV 2019), 2020, V. 11433, 114332L, P. 1-7, doi: 10.1117/12.2559378.
  33. E. Andreeva, V. V. Arlazarov, O. Slavin, I. Janiszewski. “Experimental modeling the flow of character recognition results in video stream for document recognition” // International Conference on Machine Vision (ICMV 2018), 2019, V. 11041, 110411L, P. 1-6, doi: 10.1117/12.2522970.
  34. V. V. Arlazarov, O. A. Slavin, A. V. Uskov, I. M. Janiszewski, “Modelling the flow of character recognition results in video stream” // Bulletin of the South Ural State University, Series: Mathematical Modelling, Programming and Computer Software, V. 11, N 2, P. 14-28, 2018. doi: 10.14529/mmp180202.
  35. S. Reddy, M. Mathew, L. Gomez, M. Rusinol, D. Karatzas., C. V. Jawahar, “Roadtext-1k: Text detection & recognition dataset for driving videos” // arXiv preprint 2005.09496, 2020.
  36. Т. С. Чернов, Н. П. Разумный, А. С. Кожаринов, Д. П. Николаев, В. В. Арлазаров. “Оценка качества входных изображений в системах распознавания видеопотока” // Информационные технологии и вычислительные системы, 2017, № 4, С. 71-82.
  37. K. Bulatov, D. Polevoy, “Reducing overconfidence in neural networks by dynamic variation of recognizer relevance” // European Conference on Modelling and Simulation (ECMS 2015), 2015, P. 488-491. doi: 10.7148/2015-0488.
  38. V. V. Arlazarov, K. Bulatov, T. Chernov, V. L. Arlazarov, “MIDV-500: A Dataset for Identity Document Analysis and Recognition on Mobile Devices in Video Stream” // Computer Optics, V. 43, N 5, P. 818-824, 2019. doi: 10.18287/2412-6179-2019-43-5-818-824.
  39. K. Bulatov, D. Matalov, V. V. Arlazarov, “MIDV-2019: Challenges of the Modern Mobile-Based Document OCR” // International Conference on Machine Vision (ICMV 2019), V. 11433, 114332N, P. 1-6, 2020. DOI:
  40. 10.1117/12.2558438.
  41. L. Yujian, L. Bo. “A normalized Levenshtein distance metric” // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6), P. 1091-1095. doi: 10.1109/TPAMI.2007.1078.
  42. Y. S. Chernyshova, A. V. Sheshkus, V. V. Arlazarov, “Two-step CNN framework for text line recognition in camera-captured images” // IEEE Access, V. 8, P. 3258732600, 2020. doi: 10.1109/ACCESS.2020.2974051.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».