Comparative analysis of neural network models for handwritten signature dynamics recognition

E. S. Anisimova; Анисимова Э. С.; I. V. Anikin; Аникин И. В.

Comparative analysis of neural network models for handwritten signature dynamics recognition

Authors: Anisimova E.S.¹^,2, Anikin I.V.¹
Affiliations:
1. Kazan National Research Technical University named after A. N. Tupolev-KAI
2. Elabuga Institute of Kazan Federal University
Issue: Vol 4, No 3 (2024)
Pages: 77-85
Section: Киберфизические системы
URL: https://journals.rcsi.science/2782-5507/article/view/285516
ID: 285516

Cite item

Full Text

Abstract
Full Text
About the authors
References
Supplementary files
Statistics

Abstract

In this work, we investigated the application of neural networks for handwritten signature recognition, taking into account the dynamics of their input. We considered three types of architectures: Multilayer Perceptrons (MLPs), Long Short-Term Memory networks (LSTMs), and Convolutional Neural Networks (CNNs). We conducted a comparative analysis of the effectiveness of these architectures on the MCYT Signature 100 dataset, which contains signatures from 100 authors and their forgeries. Key hyperparameters, such as the optimizer (RMSProp, Adam, SGD), batch size, and number of layers, were varied for each architecture during the study. The results show that Convolutional Neural Networks (CNNs) achieve the best accuracy, outperforming MLPs and LSTMs. The proposed method has practical value for automating signature verification and can be applied in security systems and electronic document management.

Keywords

handwritten signature recognition, neural networks, LSTM, CNN, fully connected networks, sig-nature dynamics, verification, biometric authentication, data preprocessing, hyperparameters

Full Text

Введение

В современном цифровом мире аутентификация личности играет ключевую роль в обеспечении безопасности общества. Среди различных биометрических методов верификация по рукописной подписи сохраняет свою актуальность, особенно в юридически значимых документах и финансовых операциях [1]. Однако традиционные методы распознавания подписей [2, 3], основанные на статическом анализе изображения, уязвимы к подделкам высокого качества. Поэтому всё большее внимание сегодня привлекает анализ динамики рукописной подписи, учитывающий такие параметры, как координаты, давление, азимут, наклон пера [4-6]. Этот подход позволяет получить более полную информацию о процессе написания подписи и существенно повысить надёжность систем аутентификации.

Для распознавания рукописных подписей по динамике их ввода традиционно применяются такие методы, как метод опорных векторов [7], скрытые марковские модели [8], вейвлет-преобразования [9], теория нечётких множеств [10-11]. Однако в последние годы нейронные сети продемонстрировали выдающиеся результаты в различных областях, включая компьютерное зрение и анализ временных рядов. Их способность к обучению на больших объёмах данных и извлечению сложных зависимостей делает нейронные сети перспективным инструментом для распознавания динамики рукописных подписей. Несмотря на имеющиеся исследования, потенциал нейросетевого подхода в этой области остаётся не до конца исследованным. В частности, актуальными задачами являются разработка и исследование новых архитектур нейронных сетей, адаптированных к специфике данных о динамике подписи, а также оптимизация параметров обучения для достижения максимальной точности распознавания и устойчивости к подделкам. В данной статье рассматривается разработка и исследование нейросетевых моделей, включая полносвязную (MLP, Multilayer Perceptron), свёрточную (CNN, Convolutional Neural Network) и LSTM (Long Short-Term Memory) сети, для распознавания рукописных подписей с учётом динамики их ввода. Проводится сравнительный анализ эффективности предложенных моделей и исследуется их чувствительность к различным параметрам.

Материалы и методы

Для решения задачи распознавания рукописных подписей с учётом динамики их ввода был использован набор данных MCYT Signature 100 [12], содержащий рукописные подписи 100 авторов. Разделение набора данных на обучающую и валидационную выборки было проведено в стандартном соотношении 4:1 (4000 и 1000 подписей соответственно), что является общепринятой практикой в задачах машинного обучения и позволяет обеспечить достаточный объём данных для обучения модели и адекватную оценку её качества. Рукописные подписи были введены с использованием графического планшета Wacom INTUOS A6 USB. В процессе ввода рукописных подписей осуществлялось считывание следующих параметров: значений координат ( и ), давления на перо ( ), азимута ( ), угла наклона пера ( ) в каждой точке подписи. Параметры рабочей области графического планшета 127х97, чувствительность к нажиму – 1024 уровня. Таким образом, диапазоны значений параметров: : [0; 12700]; : [0; 9700]; : [0; 1024]; : [0; 3600]; : [300; 900](Рисунок 1).

Рис.1. Визуализация рукописных подписей пользователей 0002 (а) и 0036 (б) с параметрами из набора данных MCYT Signature 100

В процессе подготовки данных временные ряды были нормализованы с учётом характеристик графического планшета. Поскольку рукописные подписи содержат разное количество точек, для корректного сравнения признаков и последующей обработки данных была проведена интерполяция, унифицирующая длину последовательностей. Это необходимо, так как алгоритмы машинного обучения, используемые для распознавания, часто требуют входных последовательностей одинаковой длины.

В исследовании рассматривались как подлинные подписи, так и их подделки. Набор поддельных подписей был сформирован путём сбора 25 образцов для каждого из участников. Подлинные подписи каждого автора формировали отдельный класс, а все поддельные подписи были объединены в один класс, что в итоге привело к 101 классу. Обучающая выборка содержала по 20 подлинных подписей каждого автора. Каждая подпись представлена многомерным временным рядом размерности 1000x5, где 1000 – длина временного ряда (количество отсчётов после проведения интерполяции), а 5 – количество регистрируемых параметров: , , , , .

Для решения задачи классификации были разработаны и исследованы три типа нейронных сетей: полносвязная, свёрточная и LSTM. Выбор этих архитектур обусловлен их эффективностью в задачах анализа временных рядов. Полносвязные сети хорошо зарекомендовали себя в задачах классификации, LSTM сети способны учитывать долговременные зависимости во временных последовательностях, а свёрточные сети эффективно извлекают локальные признаки.

Экспериментальные исследования

Представим описание структуры и результатов экспериментов с каждой моделью.

Полносвязная нейронная сеть (MLP)

Для исследования влияния различных гиперпараметров на точность классификации полносвязной нейронной сети (MLP) была проведена серия экспериментов. В ходе экспериментов варьировались следующие гиперпараметры: оптимизатор (RMSProp, Adam, SGD), размер пакета данных (от 50 до 300) и количество слоёв (2, 3). Результаты экспериментов представлены в таблице 1. В каждом эксперименте фиксировалась архитектура сети, количество нейронов в каждом слое и использовалась функция активации ReLU. Это позволило оценить влияние выбранных гиперпараметров на производительность модели в задаче распознавания динамики рукописных подписей.

Таблица 1. Точность MLP при различных оптимизаторах, размерах пакета и количестве слоёв

Количество слоёв	Количество нейронов	Оптимизатор	Размер пакета	Функция активации	Точность (%)
2	100	RMSProp	50	ReLU	90,6
2	100	RMSProp	100	ReLU	91,8
2	100	RMSProp	150	ReLU	93,3
2	100	RMSProp	200	ReLU	92,8
2	100	RMSProp	250	ReLU	91,9
2	100	RMSProp	300	ReLU	92,1
2	100	Adam	50	ReLU	92,3
2	100	Adam	100	ReLU	84,9
2	100	Adam	150	ReLU	91,7
2	100	Adam	200	ReLU	92,5
2	100	Adam	250	ReLU	92
2	100	Adam	300	ReLU	91,8
2	100	SGD	50	ReLU	88,8
2	100	SGD	100	ReLU	87,3
2	100	SGD	150	ReLU	86
2	100	SGD	200	ReLU	87,1
2	100	SGD	250	ReLU	86,6
2	100	SGD	300	ReLU	85,9
3	100	RMSProp	50	ReLU	89,6
3	100	RMSProp	100	ReLU	91,1
3	100	RMSProp	150	ReLU	87,9
3	100	RMSProp	200	ReLU	93,6
3	100	RMSProp	250	ReLU	92,1
3	100	RMSProp	300	ReLU	92,6
3	100	Adam	50	ReLU	60,7
3	100	Adam	100	ReLU	81,4
3	100	Adam	150	ReLU	93,1
3	100	Adam	200	ReLU	92,7
3	100	Adam	250	ReLU	92,9
3	100	Adam	300	ReLU	92,5
3	100	SGD	50	ReLU	89,7
3	100	SGD	100	ReLU	87,7
3	100	SGD	150	ReLU	86,5
3	100	SGD	200	ReLU	84,7
3	100	SGD	250	ReLU	84,7
3	100	SGD	300	ReLU	85,8

LSTM нейронная сеть

Для исследования влияния оптимизатора, размера пакета и количества слоёв на точность классификации LSTM нейронной сети была проведена серия экспериментов. Количество нейронов в каждом слое было зафиксировано на 100, а коэффициент dropout – на 0.2. Варьировались следующие гиперпараметры: оптимизатор (RMSProp, Adam), размер пакета (50, 100, 150, 200, 250, 300) и количество слоёв (2, 3). Результаты экспериментов, демонстрирующие влияние этих параметров на точность, представлены в Таблице 2.

Таблица 2. Точность LSTM-сети при различных оптимизаторах, размерах пакета и количестве слоёв

Количество слоёв	Количество нейронов	Оптимизатор	Размер пакета	Коэффициент dropout	Точность (%)
2	100	RMSProp	50	0,2	88,7
2	100	RMSProp	100	0,2	88,8
2	100	RMSProp	150	0,2	83,5
2	100	RMSProp	200	0,2	88,1
2	100	RMSProp	250	0,2	87,2
2	100	RMSProp	300	0,2	87,2
2	100	Adam	50	0,2	89,2
2	100	Adam	100	0,2	88,8
2	100	Adam	150	0,2	88,1
2	100	Adam	200	0,2	87,8
2	100	Adam	250	0,2	85,8
2	100	Adam	300	0,2	86,5
3	100	RMSProp	50	0,2	87,8
3	100	RMSProp	100	0,2	86,9
3	100	RMSProp	150	0,2	87,3
3	100	RMSProp	200	0,2	85,8
3	100	RMSProp	250	0,2	85,6
3	100	RMSProp	300	0,2	85,1
3	100	Adam	50	0,2	84,6
3	100	Adam	100	0,2	85,8
3	100	Adam	150	0,2	87,8
3	100	Adam	200	0,2	87,2
3	100	Adam	250	0,2	86,7
3	100	Adam	300	0,2	86,2

Свёрточная нейронная сеть (CNN)

Для анализа чувствительности CNN к количеству слоёв, оптимизатору и размеру пакета был проведен ряд экспериментов. В Таблице 3 представлены результаты, демонстрирующие влияние следующих гиперпараметров: количество слоёв (2, 3), оптимизатор (RMSProp, SGD, Adam) и размер пакета (от 50 до 300). Функция активации (ReLU), количество фильтров (20), размер ядра свёртки (4x4), шаг свёртки (4) и размер окна пулинга (2x2) были зафиксированы.

Таблица 3. Точность CNN при различных оптимизаторах, размерах пакета и количестве слоёв

Количество слоёв	Оптимизатор	Размер пакета	Функция активации	Количество фильтров	Размер ядра свёртки	Шаг свёртки	Размер окна пулинга	Точность (%)
2	RMSProp	50	ReLU	20	4x4	4	2x2	93
2	RMSProp	100	ReLU	20	4x4	4	2x2	93,5
2	RMSProp	150	ReLU	20	4x4	4	2x2	93,5
2	RMSProp	200	ReLU	20	4x4	4	2x2	93,2
2	RMSProp	250	ReLU	20	4x4	4	2x2	94
2	RMSProp	300	ReLU	20	4x4	4	2x2	93
2	Adam	50	ReLU	20	4x4	4	2x2	91,9
2	Adam	100	ReLU	20	4x4	4	2x2	93,1
2	Adam	150	ReLU	20	4x4	4	2x2	93,2
2	Adam	200	ReLU	20	4x4	4	2x2	91
2	Adam	250	ReLU	20	4x4	4	2x2	93,5
2	Adam	300	ReLU	20	4x4	4	2x2	92,7
2	SGD	50	ReLU	20	4x4	4	2x2	92,7
2	SGD	100	ReLU	20	4x4	4	2x2	92
2	SGD	150	ReLU	20	4x4	4	2x2	92,8
2	SGD	200	ReLU	20	4x4	4	2x2	92,7
2	SGD	250	ReLU	20	4x4	4	2x2	91,7
2	SGD	300	ReLU	20	4x4	4	2x2	91,1
3	RMSProp	50	ReLU	20	4x4	4	2x2	94,3
3	RMSProp	100	ReLU	20	4x4	4	2x2	93,9
3	RMSProp	150	ReLU	20	4x4	4	2x2	93,5
3	RMSProp	200	ReLU	20	4x4	4	2x2	93,3
3	RMSProp	250	ReLU	20	4x4	4	2x2	93,5
3	RMSProp	300	ReLU	20	4x4	4	2x2	92,8
3	Adam	50	ReLU	20	4x4	4	2x2	91,9
3	Adam	100	ReLU	20	4x4	4	2x2	90,4
3	Adam	150	ReLU	20	4x4	4	2x2	91,9
3	Adam	200	ReLU	20	4x4	4	2x2	92,5
3	Adam	250	ReLU	20	4x4	4	2x2	92,5
3	Adam	300	ReLU	20	4x4	4	2x2	93,2
3	SGD	50	ReLU	20	4x4	4	2x2	93,5
3	SGD	100	ReLU	20	4x4	4	2x2	93,4
3	SGD	150	ReLU	20	4x4	4	2x2	93,1
3	SGD	200	ReLU	20	4x4	4	2x2	92,5
3	SGD	250	ReLU	20	4x4	4	2x2	92,4
3	SGD	300	ReLU	20	4x4	4	2x2	91,5

Обсуждение полученных результатов

В данной работе исследовалась задача распознавания рукописных подписей с использованием набора данных MCYT Signature 100, содержащего подписи 100 авторов, а также их подделки. Для решения задачи распознавания были разработаны и исследованы три типа нейронных сетей: полносвязная (MLP), долгой краткосрочной памяти (LSTM) и свёрточная (CNN). Выбор этих архитектур обусловлен их эффективностью в задачах анализа временных рядов, к которым относится и распознавание динамики рукописных подписей.

Полносвязная нейронная сеть (MLP). Анализ экспериментов с полносвязной нейронной сетью (MLP) выявил зависимость точности классификации от выбора оптимизатора и размера пакета данных. RMSProp показал наилучшую производительность, достигнув точности 93,6% с размером пакета 200 и трёхслойной архитектурой. Adam и SGD продемонстрировали менее стабильные результаты, кроме того, Adam оказался чувствителен к изменению архитектуры сети: его эффективность заметно снижалась при переходе от двух- к трёхслойной модели. В целом, результаты подчеркивают важность выбора подходящего оптимизатора и размера пакета для достижения оптимальной производительности MLP в задаче распознавания рукописных подписей.
LSTM нейронная сеть. Наилучшая точность (89,2%) была достигнута с использованием двухслойной архитектуры, оптимизатора Adam и размера пакета 50. При использовании RMSProp наибольшая точность составила 88,8% с размером пакета 100 (в двухслойной модели). Увеличение количества слоев до трёх в целом привело к снижению точности. Изменение размера пакета показывает незначительные колебания точности, не выявляя чёткой зависимости.
Свёрточная нейронная сеть (CNN). Наилучшая точность (94.3%) была достигнута при использовании трёхслойной CNN, оптимизатора RMSProp и размера пакета 50. Для двухслойной CNN максимальная точность составила 94% с оптимизатором RMSProp и размером пакета 250. Оптимизаторы Adam и SGD продемонстрировали более низкую точность по сравнению с RMSProp. Влияние размера пакета на точность было относительно небольшим, однако наблюдались некоторые колебания в зависимости от используемого оптимизатора.

Практическая ценность: Предложенный метод распознавания рукописных подписей с использованием нейронных сетей имеет высокую практическую ценность, поскольку позволяет автоматизировать процесс верификации подписей, что может быть применено в различных областях, таких как банковское дело, электронный документооборот, системы безопасности и другие. Автоматизация процесса верификации подписей повышает эффективность работы, снижает вероятность ошибок и мошенничества, а также уменьшает затраты на ручной труд.

Условия применимости: Для эффективного применения предложенного метода необходимо соблюдение следующих условий:

Наличие достаточного объёма данных для обучения.
Предварительная обработка данных.
Выбор подходящей архитектуры нейронной сети и настройка гиперпараметров.
Аппаратные ресурсы: Обучение и применение глубоких нейронных сетей может требовать значительных вычислительных ресурсов.

Заключение

Проведенное исследование подтвердило эффективность нейронных сетей для распознавания динамики рукописных подписей. Свёрточная нейронная сеть (CNN) продемонстрировала наилучший результат (94,3%), превосходя полносвязную (MLP) и LSTM нейронную сеть. Для CNN ключевым фактором достижения высокой точности стал выбор оптимизатора и количества слоёв. Влияние оптимизатора и размера пакета также оказалось важным для MLP и LSTM. Дальнейшие исследования могут быть направлены на разработку более сложных архитектур, комбинированных моделей, а также на исследование новых методов предобработки данных и техник расширения набора данных для повышения обобщающей способности моделей и их устойчивости к вариациям в стиле подписи. Это позволит создать более надёжные и точные системы распознавания динамики рукописных подписей.

About the authors

E. S. Anisimova

Kazan National Research Technical University named after A. N. Tupolev-KAI; Elabuga Institute of Kazan Federal University

Author for correspondence.
Email: vskhayrova@kai.ru
Russian Federation, Kazan; Elabuga

I. V. Anikin

Kazan National Research Technical University named after A. N. Tupolev-KAI

Email: vskhayrova@kai.ru
Russian Federation, Kazan

References

Самотуга А.Е. Распознавание субъектов и их психофизиологических состояний на основе параметров подписи для защиты документооборота / А.Е. Самотуга // Системная инженерия и информационные технологии. – 2023. – Т.2. – С.56-65.
Diaz M. Investigating the common authorship of signatures by off-line automatic signature verification without the use of reference signatures / M. Diaz, M.A. Ferrer, S. Ramalingam, R. Guest // IEEE Transactions on Information Forensics and Securi-ty. - 2020. Т. 1. – С. 487-499.
Mo L.-F., Zhu Y.-L., Mamat H., Ubul K. Off-line handwritten signature recognition based on discrete curvelet transform / L.-F. Mo, Y.-L. Zhu, H. Mamat, K. Ubul // Lecture Notes in Computer Science. – 2019. – P. 424-434.
Riesen K. Online signature verification based on string edit distance / K. Riesen, R. Schmidt // International Journal on Document Analysis and Recognition. - 2019. – V.1. – P. 41-54.
Sae-Bae N. A Simple and Effective Method for Online Signature Verification / Sae-Bae N., Memon Sae-Bae N. // BIOSIG 2013 – Proceedings of the 12th International Conference of the Biometrics Special Interest Group. - 2013. – P. 147-158.
Tolosana R. ICDAR 2021 competition on on-line signature verification / R. Tolo-sana, R. Vera-Rodriguez, C. Gonzalez-Garcia, Fierrez J. et al. // Lecture Notes in Computer Science. – 2021. – P. 723-737.
Elzeki O. Signature recognition based on support vector machine and deep convolu-tional neural networks for multi-region of interest / O. Elzeki, M. Shams, N. Hikal et al. // Journal of Theoretical and Applied Information Technology. – 2020. - V.98. – P. 3887-3897.
Maiorana E., Martinez-Diaz M., Campisi P., Ortega-Garcia J., Neri A. Template Pro-tection for HMM-based On-Line Signature Authentification / E. Maiorana, M. Mar-tinez-Diaz, P. Campisi et al. // CVPR Workshop. – 2008. - P.1-6.
Kumari M. Signature Recognition using 2D Discrete Wavelet Transforms Interna-tional / M. Kumari, A. Kumar, M. Saxena // Journal of Innovative Technology and Exploring Engineering (IJITEE). – 2020. – V. 9(7). – P. 528-532.
Anisimova E.S. Fuzzy Sets Theory Approach for Recognition Handwritten Signa-tures / E.S. Anisimova, I.V. Anikin // Lecture Notes in Electrical Engineering. – 2021. –P. 969-982.
Anikin I. Framework for Biometric User Authentication Based on a Dynamic Hand-written Signature / I. Anikin, E. Anisimova // Studies in Systems, Decision and Con-trol. – 2022. – 417. – P. 219-231.
Ortega-Garcia J. MCYT Baseline Corpus: a Bimodal Biometric Database / Ortega- J. Garcia, J. Fierrez-Aguilar, D. Simon et al. // IEEE Proceedings - Vision Image and Signal Processing. – 2003. – V.150. – P. 395-401.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

2. Fig. 1. Visualization of handwritten signatures of users 0002 (a) and 0036 (b) with parameters from the MCYT Signature 100 dataset

Download (233KB)

Indexing metadata

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register