Detecting and explaining anomalies in industrial Internet of things systems using an autoencoder
- Authors: Levshun D.A.1, Levshun D.S.1, Kotenko I.V.1
-
Affiliations:
- St. Petersburg Federal Research Center of the Russian Academy of Sciences
- Issue: Vol 15, No 1 (2025)
- Pages: 96-113
- Section: ONTOLOGY ENGINEERING
- URL: https://journals.rcsi.science/2223-9537/article/view/315168
- DOI: https://doi.org/10.18287/2223-9537-2025-15-1-96-113
- ID: 315168
Cite item
Full Text
Abstract
In industrial Internet of Things (IoT) systems, explaining anomalies plays a crucial role in identifying bottlenecks and optimizing processes. This paper proposes an approach to anomaly detection using an autoencoder and its explanation based on the SHAP method. The purpose of the anomaly explanation is to provide a set of data features in industrial IoT systems that most significantly influence anomaly detection. The novelty of this approach lies in its ability to quantify the contribution of individual features for specific data samples and to calculate an average contribution across the dataset, providing a feature importance ranking. The proposed approach is tested on Industrial IoT datasets with varying feature counts and data volumes. The anomaly detection achieves an F-measure of 88-93%, outperforming the comparable methods discussed. The study demonstrates how explainable artificial intelligence can identify the causes of anomalies in both individual samples and datasets as a whole. The theoretical importance of the proposed approach lies in its ability to shed light on the workings of intelligent detection models, enabling the identification of factors influencing their outcomes and uncovering previously unnoticed patterns. In practice, this method enhances security system operators' understanding of ongoing processes, aiding in threat identification and error detection within data.
Full Text
Введение
Технологии Интернета вещей (умного города, умных зданий, заводов, ферм и др.) призваны осуществлять сбор и анализ данных со всех объектов инфраструктуры, контролировать их работу и управлять ими [1, 2]. В промышленной области индустриальные системы Интернета вещей (ИСИВ) позволяют увеличить эффективность производственных процессов, снизить затраты и обеспечить более высокую степень автоматизации. Подобные системы представляют собой сеть взаимосвязанных устройств (датчиков и систем), используемых для сбора, передачи и анализа данных.
В то время как экономическая выгода от интеллектуализации очевидна, обратная сторона этого процесса заключается в значительном увеличении ущерба, который может быть причинён посредством информационных атак1. Процесс интеллектуализации объектов критически важной инфраструктуры далёк от завершения, а решения по защите подобных объектов не успевают за темпом их технологического развития. Это создаёт разрыв между возможностями атакующих и защитных мер.
В то же время существует большое количество средств защиты информации, основанных на методах искусственного интеллекта (ИИ) [3, 4]. Большинство передовых технологий, таких как глубокие нейронные сети (НС), работают в режиме «чёрного ящика», когда причины принятия решения относительно состояния безопасности остаются неизвестными. В данном случае большим подспорьем для операторов систем безопасности становится объяснимый ИИ (ОИИ) [5]. Объяснение отклонений в данных ИСИВ позволяет различить выбросы2 и аномалии3, специфичные для этой предметной области. Механизм обнаружения аномалий с использованием ОИИ способен выделить как аномалии, заслуживающие внимания с точки зрения поведения системы, так и выбросы из-за редкости значений в данных, не интересные с точки зрения её безопасности. Определение причин отклонений может сократить объём проверки, выполняемой экспертами. ОИИ может использовать различные методы, чтобы предоставить информацию о том, какие факторы способствовали возникновению аномалии.
В этой статье предложен подход к обнаружению аномалий при помощи автокодировщика (АК)4 и их объяснению на основе метода аддитивных объяснений Шепли (SHapley Additive exPlanations, SHAP) [6]. Модель АК используется для реконструкции входных данных от датчиков ИСИВ. Целью объяснения аномалий является предоставление набора признаков, которые способствуют ошибке реконструкции аномальных случаев.
1 Методы обнаружения аномалий
1.1 Обнаружение аномалий на основе интеллектуальных методов
Как правило, обнаружение атак осуществляется системами обнаружения вторжений, которые используют известные сигнатуры атак и ищут аномалии в виде отклонений от нормального поведения. Масштаб и разнообразие данных часто приводят к тому, что создавать «ручные» правила обнаружения атак и уязвимостей становится непрактичным. Использование машинного обучения позволяет искать закономерности в больших наборах данных и обучаться на них, чтобы предотвратить аналогичные атаки и динамически реагировать на изменение поведения ИСИВ.
Среди методов машинного обучения для обнаружения атак в ИСИВ часто применяются методы классификации: метод k-ближайших соседей [7], метод опорных векторов [8], скрытые марковские модели [9] и др. Традиционное машинное обучение зависит от экспертов, которые создают иерархию признаков данных. Для глубокого машинного обучения не всегда требуется наличие размеченного набора данных, оно способно использовать неструктурированные данные и автоматически определять особенности, которые отличают один образец от других. По этой причине широкое распространение получили глубокие НС для обнаружения атак [10, 11]. Сравнительно простым вариантом такой архитектуры являются глубокие НС с прямой связью для обнаружения вторжений. Но таким моделям часто не хватает способности обучаться на предыдущих входных данных и предыдущих итерациях обучения. Свёрточные НС (Convolutional Neural Network, CNN) позволяют анализировать структурированные данные [12]. Временные зависимости помогают учитывать рекуррентные НС, в частности с блоками долговременной краткосрочной памяти (Long Short-Term Memory, LSTM) [13].
При обучении моделей обнаружения аномалий получение большого количества маркированных аномальных данных, как это требуется при обучении с учителем, может быть трудоёмким, поскольку требуется ручная работа эксперта в предметной области. В результате полностью контролируемое обнаружение аномалий часто непрактично [14]. Ряд исследований направлен на применение методов обучения без учителя, для которых не требуются предварительные знаний о вредоносной активности.
Известной моделью подобного типа является АК, который представляет собой глубокую НС для реконструкции входа (входных данных). АК формирует данные в более низкой размерности (кодирование) и реконструирует данные в исходной размерности (декодирование), т.е. восстанавливает оригинальные данные. Ошибка реконструкции – это мера, которая используется для оценки качества работы АК (и других моделей, которые могут восстанавливать данные). Ошибка реконструкции определяется как разница между оригинальными и восстановленными данными.
Для обнаружения аномалий АК анализирует функцию идентичности нормальных экземпляров, которые соответствуют ожидаемым или типичным образцам. Эти данные представляют собой поведение или характеристики, которые модель считает стандартными, и на основе которых она будет определять, что является аномалией. Аномалии имеют высокую погрешность (ошибку) реконструкции, что и способствует их обнаружению. На таких принципах работают инструменты RANSynCoder [15] и InterFusion [16]. В [17] проводится сравнение ряда АК, включая вариационный АК (Variational AE, VAE) и неполный АК c CNN-1D с методом главных компонент обнаружения аномальной активности в ИСИВ.
В качестве кодера и декодера также могут использоваться рекуррентные НС, что даёт преимущество при анализе временных рядов. Например, такой подход реализован в LSTM-FWED (LSTM Encoder-Decoder Feature Weight) [18]. АК может быть включён в генеративно-состязательную сеть (Generative Adversarial Network, GAN), как это сделано в USAD [19], или объединён с графовой НС, как в FuSAGNet [20].
1.2 Объяснимое обнаружение аномалий
Система ОИИ пытается описать своё поведение, чтобы сделать его более понятным для людей. ОИИ позволяет исследователям и разработчикам анализировать, какие факторы влияют на результаты работы моделей.
Интерпретируемость модели можно разделить на две категории: глобальную и локальную. Глобальная интерпретируемость означает, что пользователи могут понять модель непосредственно из её общей структуры. Локальная интерпретируемость проверяет входные данные и пытается выяснить, почему модель принимает определённое решение. Примерами глобальных моделей ОИИ можно назвать нейронно-аддитивную модель (Neural Additive Model, NAM) [21] и объяснимую сеть глубокого доверия (Deep Belief Networks, DBN) [22]. Примерами локальных моделей являются TRUST (Transparency Relying Upon Statistical Theory) [23], LIME (Local Interpretable Model-Agnostic) [24] и SHAP [6]. Ряд моделей совместно используют глобальную и локальную интерпретации, например, [25, 26].
Методы ОИИ подразделяется на методы апостериорного объяснения и методы предварительного объяснения. Методы апостериорного объяснения используются для объяснения производительности модели после её обучения [27, 28]. Методы предварительного объяснения используются для объяснения производительности модели до её обучения, например, LIME. Данная модель аппроксимирует предсказания моделей чёрного ящика и обучается на локальной суррогатной модели для интерпретации отдельных прогнозов.
Большинство исследований об объяснениях вредоносной активности посвящены моделям, обучаемым с учителем, т.е. на заранее размеченных данных. Так, для обнаружения атак в [29] модели глубокого обучения объединяются с SHAP, который позволяет оценить вклад каждого признака в предсказание модели на основе теории игр. В [30] предложен подход к объяснению конкретной аномалии путём создания для неё случайного леса и дальнейшего извлечения правил, которые объясняют классификацию этой аномалии.
Модели для обнаружения аномалий, как правило, основаны на обучении без учителя. Объяснение результатов подобных моделей встречается реже, чем для моделей, основанных на обучении с учителем [31]. В [32] проводится анализ градиентов, «вносимых» каждым признаком конкретного экземпляра данных, которые можно получить из вариационного АК посредством автоматического дифференцирования5. Объяснимое обнаружение аномалий в [33] осуществляется на основе метода главных компонент и векторов Шепли, которые используются для объяснения полученных ошибок реконструкции. Схожим образом в [31, 34-36] объясняются при помощи метода SHAP ошибки реконструкции, полученные АК для выявления аномалий. Перечисленные подходы позволяют выделить признаки данных, которые наиболее важны с точки зрения их влияния на ошибку реконструкции для конкретного экземпляра данных.
2 Предлагаемый подход
Предлагается использовать АК в качестве модели обучения без учителя для обнаружения аномалий на основе полученных ошибок реконструкции данных. В обучении без учителя алгоритмы предназначены для выявления скрытых структур в данных без явных указаний на то, что искать. Ошибка реконструкции при этом представляет собой разницу между входным и выходным (реконструированным) значением. Экземпляры данных с ошибкой реконструкции, превышающий установленный для нормы порог, считаются аномальными. Целью модели ОИИ является определение признаков, оказывающих наибольшее влияние на результаты работы модели. Для этого модель ОИИ на основе SHAP вычисляет вектор Шепли для реконструированных признаков и связывает их с истинными значениями входных данных.
Предлагаемый подход включает следующие этапы.
2.1 Предобработка данных
После сбора данных для обучения модели необходимо провести их предобработку, включая удаление пропусков и дубликатов, нормализацию, кодирование категориальных признаков и разделение на обучающую и тестовую выборки. Подготовленные входные данные для модели ОИИ представляют собой набор векторов признаков (экземпляров):
X = {x1, x2, …, xN},
xi = {fi1, fi2, …, fiM}
где xi – i-ый вектор признаков, N – число векторов (длина набора данных), fij – значение j-того признака для i-ого вектора, M – число признаков данных.
Можно выделить множества значений отдельных признаков:
Fj = {f1j, f2j, …, fNj}.
2.2 Подготовка модели реконструкции данных
На данном этапе определяется модель АК, включая выбор архитектуры, определение слоёв, настройку функции потерь и оптимизатора. В данном подходе предлагается использовать АК с полносвязными слоями. Размер входного слоя кодера и выходного слоя декодера соответствуют числу признаков (M).
Выбираются и оптимизируются следующие гиперпараметры модели: количество скрытых слоёв кодера, количество нейронов на скрытых слоях, размер скрытого пространства, функция активации на скрытых слоях и функция активации на выходном слое. Для этого предлагается использовать алгоритм байесовской оптимизации [37]. Множество искомых гиперпараметров модели обозначается как множество λ, а пространство поиска этих гиперпараметров – как множество Λ, так что λ∊Λ. Функцию оптимизации β можно представить как β: (X, Λ) → Φλ, где Φλ – итоговая модель реконструкции данных с гиперпараметрами λ.
2.3 Обучение модели реконструкции данных
Обучение осуществляется на основе АК на нормальных данных. Кодировщик принимает входные данные и преобразует их в сжатое представление или латентное пространство. Декодировщик принимает сжатое представление и пытается восстановить исходные данные. Во время обучения АК минимизирует разницу между исходными и восстановленными данными, используя функцию потерь. Процесс реконструкции данных при помощи модели АК можно представить в следующем виде:
где xi – входной вектор данных, xi ∊X; xʹi – выходной (реконструированный) вектор данных, xʹi ∊ Xʹ, Xʹ – множество выходных векторов.
Можно выделить множества значений отдельных реконструированных признаков:
2.4 Вычисление пороговых значений для обнаружения аномалий
На этом этапе определяется ошибка реконструкции нормальных данных. В качестве показателя предлагается использовать значение среднеквадратичной ошибки реконструкции. Для каждого вектора данных:
Для отдельных признаков:
Таким образом, для исходного набора данных получается множество ошибок реконструкции отдельных экземпляров E = {ε1, ε2, …, εN} и ошибки реконструкции признаков данных R = {ξ1, ξ2, …, ξM}, где εi = ε(xi, xʹi) – ошибка реконструкции для i-того вектора данных.
Для определения порогового значения на обучающих данных используется метод 90-го процентиля, чтобы смягчить влияние выбросов в нормальных данных: P(E ≤ δ) ≥ 0.9, где P(E) – вероятностная мера, задающая распределение E, δ – пороговое значение ошибки реконструкции.
2.5 Обнаружение аномалий на тестовых данных
На данном этапе проводится сопоставление полученных ошибок прогнозирования с пороговым значением для выявления аномальных выбросов:
yi = 1, если εi ≥ δ, иначе 0, εi ∊ E,
где yi ∊ (0,1) – метка состояния безопасности для вектора признаков, значение 1 соответствует аномалии, а 0 – норме.
Для входного набора данных X результатом обнаружения является множество:
Y = {y1, y2, …, yN}.
Отдельно можно выделить подмножество аномальных экземпляров:
X* = {xi | yi = 1}, i = 1..n,
где n – количество аномальных образцов.
2.6 Выбор признаков с наибольшими ошибками реконструкции
Для этого необходимо определить упорядоченное множество:
Rʹ = {ξ(1), ξ(2), …, ξ(M)},
для которого:
ξ(1) ≥ ξ(2) ≥ … ≥ξ(M), ξ(j) ∊ R.
Здесь индекс в скобках обозначает порядковый номер, где ξ(1) – значение наибольшей ошибки реконструкции.
Выбирается подмножество r, которое содержит наибольшую ошибку реконструкции для m признаков: r = {ξ(1), ξ(2), …, ξ(m)}, m ≤ M, r ⊆ Rʹ.
2.7 Вычисление векторов Шепли для выбранных признаков
Для объяснения модели реконструкции необходимо определить модель объяснения Ω. Чтобы объяснить единичный случай xi, модель использует упрощённые входные данные z и отображение h, такое, что x = h(z), z ∈ {0, 1}. Таким образом, модель использует собственное упрощённое представление входных данных.
Для каждого признака из множества r необходимо объяснить, какие признаки (кроме выбранного) привели к ошибке реконструкции. Влияние каждого признака на реконструкцию определяется значением Шепли, которое описывает, как распределить общий выигрыш (или полезность) между участниками кооперативной игры. Значение Шепли для игрока определяется как среднее значение его предельного вклада по всем возможным порядкам входа игроков в игру. В данном случае число упорядоченных игроков равно M (число признаков). Пусть s подмножество j первых игроков (признаков) в этом упорядочении. В качестве характеристической функции кооперативной игры выступает модель АК, обозначенная как Φ. Тогда вклад j-го игрока определяется как разница между Φ(s) и Φ(s\j), где Φ(s) – результат реконструкции по выбранному подмножеству признаков, а Φ(s\j) – результат реконструкции по выбранному подмножеству признаков, исключая j-ый признак. Предыдущие разности вычисляются для всех возможных подмножеств s ⊆ F\{j}, где F\{j} – множество всех признаков, за исключением j-го.
Значение Шепли для j-го признака вектора данных xi при этом вычисляется как [6]:
где cимволом «!» обозначена функция факториала, а символом | | – размер множества.
Разница значений Φ(s) и Φ(s\j) определяет, как интересующий j-ый признак способствует реконструкции данных в заданном подмножестве признаков. Функцию модели ОИИ можно определить в форме линейной функции:
где φi0 – значение Шепли, при котором подмножество признаков является пустым.
Вектор Шепли – это вектор значений Шепли для всех игроков в игре. Для каждого признака в множестве r вычисляются векторы, которые содержат значения Шепли для всех признаков, помимо выбранного. Для этого исходная модель АК изменяется путём обнуления веса выбранного признака: Φk, k = 1..m. Так модель объяснения принимает на вход модель Φk и векторы данных xi, предсказывает целевое значение k-го признака и определяет вектор Шепли. Результатом этого шага является матрица V (размером m×M), в которой каждая строка представляет вектор Шепли для одного признака с наибольшей ошибкой реконструкции:
Для каждого признака определяется среднее абсолютное значение Шепли. В результате получается вектор:
Vi = {vi1, vi2, …viM},
Для выборки данных таким образом можно получить множество векторов:
{V1, V2, …, VN}.
2.8 Определение общего вклада признаков в обнаружение аномалий
Наивысшее значение Шепли соответствует наибольшему его вкладу в полученную ошибку реконструкции, т.е. впоследствии в результат обнаружения аномалий. Для каждого вектора Vi значения Шепли ранжируются от наибольшего к наименьшему:
vi(1) ≥ vi(2) ≥ … ≥vi(M), vi(j) ∊ Vi.
Здесь индексы (1)..(M) соответствует рейтингу признаков, где признак под индексом (1) соответствует наибольшему вкладу, а (M) – наименьшему.
Для всей выборки определяется средний рейтинг признаков по всем аномальным образцам и составляется множество:
G = {g1, g2, …, gM},
где (j) – рейтинг j-го признака для i-го образца.
Данный рейтинг и определяет общий вклад каждого признака в результат обнаружения аномалий на всей выборке.
3 Экспериментальная оценка
Задачей поставленных экспериментов является оценка эффективности подхода к объяснимому обнаружению аномалий в ИСИВ с целью повышения надёжности и безопасности производственных процессов. Входными данными являются показатели датчиков ИСИВ, а выходными – набор показателей качества, таких как аккуратность, точность, полнота и F-мера обнаружения аномалий, а также средний рейтинг общего вклада признаков.
3.1 Наборы данных
В качестве экспериментальных наборов данных используются BATADAL6 [38] и HAI7 [39]. Выбор обусловлен намерением сравнить подход к объяснимому обнаружению аномалий на данных ИСИВ с различным количеством признаков и объёмом данных. Указанные наборы часто используются на практике при оценке подходов к обнаружению аномалий в промышленных системах.
Набор данных BATADAL собран на основе показателей индустриальной системы для распределения воды. Хранение и распределение воды по узлам спроса гарантируется семью резервуарами, уровень воды в которых запускает работу одного клапана и одиннадцати насосов, распределённых по пяти насосным станциям. Насосы, клапаны и датчики уровня воды в резервуарах подключены к девяти программируемым логическим контроллерам, которые расположены в непосредственной близости от монитора контроля гидравлических компонентов. Набор BATADAL содержит показатели 42 датчиков и актуаторов. Размер нормальной выборки составляет 8 761, а выборки с аномалиями – 4 177 экземпляров.
Наборы данных HAI за 2020 (HAI 1.0) и 2021 (HAI 2.0) годы собраны на испытательном стенде промышленной системы управления, на котором имитируется выработка электроэнергии паровыми турбинами и гидроаккумулирующими электростанциями. Технологический процесс испытательного стенда разделён на четыре процесса: процесс котла (P1), процесс турбины (P2), процесс очистки воды (P3) и аппаратно-программное моделирование (P4). Набор данных HAI 1.0 содержит записи 59 точек сбора (показателей датчиков, положения клапанов и т.д.) в выборке 550 800 экземпляров нормальных и 295 000 – аномальных данных. Набор данных HAI 2.0 содержит записи 78 точек сбора в выборке 921 603 экземпляров нормальных и 402 005 – аномальных данных. С подробной структурой испытательных стендов и полным наименованием признаков можно ознакомиться в [38, 39]. Далее упоминаются отдельные элементы систем в том виде, в котором они приведены в оригинальных источниках. Технические подробности опущены.
3.2 Параметры моделей реконструкции данных
Размер входного слоя АК (n_input) соответствует количеству признаков данных. Для оптимизации гиперпараметров архитектуры АК для каждого набора данных используется байесовский оптимизатор библиотеки KerasTuner8. Области поиска составляют:
- количество скрытых слоёв (n_layers) – 1, 2 или 3;
- количество нейронов на скрытых слоях (n_units) – 64, 35, 32, 28 или 25;
- размер скрытого пространства (encoding_dim) – 32, 31 или 21;
- функция активации на скрытых слоях (hidden_afunc) – tanh9 или relu10;
- функция активации на выходном слое (output_afunc)– tanh или relu.
Параметры обучения на наборе данных BATADAL: размер пакета11 – 32; скорость обучения – 0.001; число эпох – 500. Параметры обучения на наборах данных HAI: размер пакета – 64; скорость обучения – 0.001; число эпох – 50. Чтобы ускорить расчёт SHAP, используется метод кластеризации k-средних. Число кластеров установлено в 100, а параметр m принят равным 5.
Описанный подход реализован с использованием языка Python.
3.3 Аналоги для сравнения
В качестве подходов к обнаружению аномалий для сравнения полученных результатов выбраны следующие подходы, основанные на методах обучения без учителя:
- USAD [19] – подход к обнаружению аномалий, основанный на двух АК в архитектуре GAN;
- VAE [17] – подход к обнаружению аномалий с использованием вариационного АК;
- RANSynCoder [15] – подход к обнаружению аномалий, включающий самонастройку признаков для случайного выбора наборов входных признаков и построения нескольких АК для реконструкции данных временного ряда;
- InterFusion [16] – подход к обнаружению аномалий, который основан на использовании иерархического VAE с двумя стохастическими скрытыми переменными, каждая из которых изучает низкоразмерные межметрические или временные вложения;
- FuSAGNet и SAE [20] – подход к обнаружению аномалий, который объединяет разреженный АК и графовую НС, явно моделируя взаимосвязи внутри многомерных временных рядов.
- LSTM-FWED [18] – подход к обнаружению аномалий на основе кодера-декодера LSTM с защитой веса признаков от состязательных атак.
3.4 Показатели качества
В качестве функции потерь для всех наборов данных и моделей используется среднеквадратичная ошибка. Показателями качества обнаружения аномалий является аккуратность (ACC), точность (P), полнота (R) и F-мера (F1):
где TP – количество правильно классифицированных аномальных образцов; TN – количество правильно классифицированных нормальных образцов; FP – количество нормальных образцов, ошибочно классифицированных как аномальные образцы; FN – количество аномальных образцов, ошибочно классифицированных как нормальные.
Каждый показатель фокусируется на различных аспектах производительности модели. Аккуратность показывает общую долю правильных предсказаний, но зависит от сбалансированности классов. Точность важна, когда необходимо минимизировать количество ложноположительных результатов, а полнота – когда нужно максимизировать количество правильно идентифицированных положительных случаев. F-мера объединяет точность и полноту в одну метрику, что позволяет лучше оценить баланс между ними.
3.5 Результаты
В результате оптимизации гиперпараметров на нормальной выборке получены модели АК, описание архитектуры которых представлено в таблице 1. Целью оптимизации являлась минимизация ошибки реконструкции нормальных данных.
Таблица 1 – Описание архитектуры итоговых моделей автокодировщиков
Модель | n_input | n_layers | n_units | encoding_dim | hidden_afunc | output_afunc |
AК-1 | 32 | 3 | 35, 28, 21 | 21 | tanh | tanh |
AК-2 | 58 | 1 | 31 | 31 | tanh | tanh |
AК-3 | 78 | 2 | 64, 32 | 32 | tanh | tanh |
В таблице 2 представлены результаты обнаружения аномалий на выбранных наборах данных. Результаты аналогов для набора данных BATADAL взяты из [38], для HAI 1.0 из [20], а для HAI 2.0 из [40].
Таблица 2 – Результаты обнаружения аномалий
Набор данных | Модель | ACC | P | R | F1 |
BATADAL | АК-1 | 0.9725 | 0.8919 | 0.8720 | 0.8818 |
VAE [17] | – | 0.9630 | 0.7620 | 0.8510 | |
LSTM-FWED [18] | 0.9396 | 0.9228 | 0.4740 | 0.6293 | |
HAI 1.0 | АК-2 | 0.9931 | 0.9435 | 0.9112 | 0.9271 |
FuSAGNet [20] | – | 0.8679 | 0.7479 | 0.8034 | |
SAE [20] | – | 0.7839 | 0.6566 | 0.7239 | |
USAD [19]. | – | 0.0932 | 0.1335 | 0.1098 | |
HAI 2.0 | АК-3 | 0.9963 | 0.8699 | 0.9808 | 0.9220 |
RANSynCoder [15] | – | 0.8910 | 0.7760 | 0.8290 | |
InterFusion [16] | – | 0.7440 | 0.8390 | 0.7890 | |
USAD [19]. | – | 0.7600 | 0.4800 | 0.5880 |
Для каждого набора данных выбрано 5 признаков с наибольшей ошибкой реконструкции (в скобках приведён перевод наименований признаков из оригинального описания соответствующих наборов данных):
- BATADAL – S_V2 (статус клапана V2), P_J14 (давление сочленения J14), S_PU4 (статус насоса PU4), F_PU6 (поток насоса PU6) и F_PU7 (поток насоса PU7);
- HAI0 – P2_SIT01 (текущая частота вращения турбины), P1_PCV02Z (текущее положение клапана PCV02), P1_PCV02D (команда для положения клапана PCV2), P1_FCV03D (команда для положения клапана FCV03) и P1_ FCV03Z (текущее положение клапана FCV03);
- HAI0 – P2_VT01 (сигнал фазовой задержки ключевого фазового зонда), P1_PCV02Z (текущее положение клапана PCV02), P2_SIT01, P2_SIT02 (текущая частота вращения турбины) и P1_PCV02D (команда для положения клапана PCV2).
Вектор Шепли для каждого признака можно изобразить в виде графика (см. рисунок 1). Из рисунка видно, как признак с наибольшей ошибкой реконструкции для экземпляра с наибольшей ошибкой влияет на предсказание модели, приближая его к ожидаемому значению. Тёмно-серыми значениями (слева) выделены признаки, которые приближают полученное значение образца к ожидаемому (выделен полужирным), а серыми справа – отдаляющие признаки. Снизу (на графиках - а, б, в) приведены наименования признаков и их значения для выбранного экземпляра. Положительный вклад имеют признаки, которые увеличивают предсказание целевого признака (S_V2 для BATADAL, P2_SIT01 для HAI 1.0 и P2_VT01 для HAI 2.0) и приближают предсказание к ожидаемому значению. Отрицательный вклад имеют признаки, которые уменьшают предсказание модели.
Рисунок 1 – Вектор Шепли для одного образца и признака: (а) S_V2 набора данных BATADAL, (б) P2_SIT01 набора данных HAI 1.0, (в) P2_VT01 набора данных HAI 2.0
Определён вектор средних значений Шепли для каждого образца данных. На рисунке 2 представлен график десяти признаков с наибольшим вкладом для экземпляра с высшей ошибкой реконструкции, т.е. первые 10 значений вектора средних значений Шепли Vi, i = 234 для HAI 1.0 и i = 653 для HAI 2.0. Вычислены значения среднего рейтинга каждого признака по всем аномальным экземплярам. На рисунке 3 представлен вклад признаков в обнаружение аномалий на наборе данных BATADAL, на рисунке 4 – на наборе данных HAI 1.0, на рисунке 5 – на наборе данных HAI 2.0.
Рисунок 2 – Вклад признаков в ошибку реконструкции для одного образца набора данных (а) HAI 1.0 и (б) HAI 2.0
Рисунок 3 – Вклад признаков в ошибку реконструкции на аномальных образцах набора данных BATADAL
Рисунок 4 – Вклад признаков в ошибку реконструкции на аномальных образцах набора данных HAI 1.0
Рисунок 5 – Вклад признаков в ошибку реконструкции на аномальных образцах набора данных HAI 2.0
3.6 Анализ результатов
Предложенный подход позволил получить наибольшую полноту обнаружения аномалий для всех экспериментальных наборов данных 87-98%, а точность обнаружения 87-94%, уступая не более 7% подходам, использованным в [15, 17]. При этом гармоничное среднее по F-мере для АК-1, 2 и 3 выше, чем у аналогов (88-93%), что свидетельствует о сбалансированном результате по полноте и точности обнаружения аномалий. Это позволяет минимизировать ложноположительные срабатывания и не пропустить положительные случаи. В задачах обнаружения аномалий значимость ложноположительных и ложноотрицательных срабатываний может значительно различаться.
Например, пропуск аномалии может иметь серьёзные последствия, в то время как ложное срабатывание может быть менее критичным. В производственных процессах пропуск аномалий может привести к поломке оборудования или снижению качества продукции и вызвать значительные финансовые потери. Ложные срабатывания могут привести к ненужным действиям, таким как блокировка процессов, вызов служб безопасности или др. В системах, где критически важно обнаруживать угрозы, часто принимается решение о повышении чувствительности к аномалиям, даже если это может привести к большему количеству ложных срабатываний.
Показатель аккуратности редко используется для оценки в задачах обнаружения аномалий. Причиной этому является несбалансированность данных – в большинстве случаев аномалии составляют лишь небольшую часть общего объёма данных. Высокая аккуратность может быть достигнута за счёт предсказания большинства классов без учёта аномалий.
Использование векторов Шепли позволяет продемонстрировать влияние признаков на полученный результат реконструкции. Например, на рисунке 1б можно видеть, что в равной степени (значение Шепли ± 0.0065) на текущую частоту вращения турбины стенда HAI влияют текущее положение клапанов FCV01 (P1_FCV01Z) и FCV02 (P1_FCV02D). Значения данных признаков имеют наибольший вклад в ошибку реконструкции экземпляра данных в целом (см. рисунок 2).
Наибольший вклад в обнаружение аномалий на наборе данных BATADAL вносят признаки F_PU8 (поток насоса PU8), P_J306 (давление сочленения J306) и L_T6 (уровень воды в баке T6).
Наибольший вклад в обнаружение аномалий на наборе данных HAI 1.0 вносят признаки P1_FCV01Z (текущее положение клапана FCV01), P1_B3004 (заданное значение уровня воды), P1_FCV01D (команда для положения клапана FCV01).
Наибольший вклад в обнаружение аномалий на наборе данных HAI 2.0 вносят признаки P1_FT02 (измеренный расход воды в баке нагревателя), P1_FT02Z (преобразование расхода воды из P1_FT02) и P1_B4002 (заданное значение температуры на выходе теплообменника). Как и для предыдущей версии набора данных, большое влияние имеют параметры, осуществляющие контроль температуры воды.
Объяснение аномалий помогает исследователям лучше понять поведение интеллектуальных моделей обнаружения, выявить факторы, влияющие на их выводы, и открыть незамеченные ранее закономерности. На практике предложенный подход может способствовать лучшему пониманию текущих процессов в системах безопасности, помогая обнаруживать угрозы и ошибки в данных.
Заключение
В статье описан подход к обнаружению аномалий при помощи АК и их объяснению на основе метода SHAP. АК обучается без учителя, исследуя функцию идентичности данных для реконструкции нормальных экземпляров. В отличие от аналогов, в разработанном подходе предлагается определять вклад признаков для отдельных образцов аномалий и вычислять средний вклад для всей выборки. Понимание того, какие признаки способствуют аномалиям, может помочь в улучшении моделей и алгоритмов для более точного обнаружения аномалий.
Оценка качества предлагаемого подхода проведена на известных наборах данных (BATADAL, HAI 1.0 и HAI 2.0). По итоговой F-мере обнаружения достигнут результат в 88-93%, который превосходит рассмотренные аналоги. Показано, как ОИИ может помочь раскрыть причины аномалий в отдельных образцах, и в выборке данных.
Авторский вклад
Котенко И.В. – выбор и постановка задачи исследования; Левшун Д.А., Левшун Д.С. – выбор решений; Левшун Д.А. – программная реализация и проведение экспериментов; Левшун Д.А., Левшун Д.С., Котенко И.В. – обсуждение результатов экспериментов, анализ полученных результатов.
1 Информационная атака — это преднамеренное действие, направленное на нарушение работы компьютерных систем, сетей или цифровых устройств с целью нанесения ущерба.
2 Выброс – в статистике результат измерения, выделяющийся из общей выборки.
3 Аномалия – это отклонение поведения системы от стандартного (ожидаемого). Они могут включать выбросы, а также охватывать более широкий спектр несоответствий, таких как временные изменения или неожиданные тенденции. Все выбросы могут быть аномалиями, но не все аномалии являются выбросами.
4 Автокодировщик (англ. Autoencoder, AE) – специальная архитектура искусственных НС, состоящая из двух частей: кодировщика (англ. encoder) и декодировщика (англ. decoder).
5 Автоматическое дифференцирование – это способ вычисления производной функции, заданный программно. Этот вид дифференцирования опирается на правило дифференцирования сложной функции, представление функции в виде последовательности элементарных операций и перегрузке программных инструкций (функций, операторов).
6 BATADAL (BATtle of the Attack Detection Algorithms). https://www.batadal.net/data.html.
7 HAI (Hardware-in-the-loop-based Augmented Industrial control system). https://github.com/icsdataset/hai.
8 KerasTuner. https://keras.io/keras_tuner/.
9 Гиперболический тангенс (англ. tanh) – функция активации, которая преобразует входные значения в диапазоне от -1 до 1на основе гиперболического тангенса.
10Линейный выпрямитель (англ. Rectified Linear Unit, ReLU) - это нелинейная функция активации, которая преобразует входное значение в значение от 0 до положительной бесконечности (если входное значение меньше или равно 0, то ReLU выдаёт 0, в противном случае – входное значение).
11 В глубоком обучении пакет (или батч) – это подмножество данных, которое используется для обучения модели за один шаг обновления весов.
About the authors
Diana A. Levshun
St. Petersburg Federal Research Center of the Russian Academy of Sciences
Email: gaifulina@comsec.spb.ru
ORCID iD: 0000-0002-5266-8649
Scopus Author ID: 58114512500
ResearcherId: ABG-9837-2020
Junior Researcher at the Laboratory of Computer Security Problems
Russian Federation, St. PetersburgDmitry S. Levshun
St. Petersburg Federal Research Center of the Russian Academy of Sciences
Email: levshun@comsec.spb.ru
ORCID iD: 0000-0003-1898-6624
Scopus Author ID: 57189306576
ResearcherId: C-1566-2018
Ph.D., Senior Researcher at the Laboratory of Computer Security Problems, Associate Professor at the Saint Petersburg State University of Telecommunications named after prof. M.A. Bonch-Bruevich and at the European University at St. Petersburg
Russian Federation, St. PetersburgIgor V. Kotenko
St. Petersburg Federal Research Center of the Russian Academy of Sciences
Author for correspondence.
Email: ivkote@comsec.spb.ru
ORCID iD: 0000-0001-6859-7120
Scopus Author ID: 15925268000
Sc. Eng., professor, Honored Scientist of the Russian Federation, Chief Researcher and Head of the Laboratory of Computer Security Problems at St. Petersburg Federal Research Center of the Russian Academy of Sciences, professor at ITMO University, Saint Petersburg State University of Telecommunications, Ural Federal University, Harbin Institute of Technology (China) and Heilongjiang University (China)
Russian Federation, St. PetersburgReferences
- Levshun D, Chevalier Y, Kotenko I, Chechulin A Design and verification of a mobile robot based on the integrated model of cyber-Physical systems. Simulation Modelling Practice and Theory. 2020; 105: 102151. doi: 10.1016/j.simpat.2020.102151.
- Fedorchenko EV, Novikova ES, Kotenko IV, Gaifulina DA, Tushkanova ON, Levshun DS, Meleshko AV, Murenin IN, Kolomeec MV. The security and privacy measuring system for the internet of things devices [In Russian]. Voprosy kiberbezopasnosti. 2022; 5: 28-46. DOI: 10.681/2311-3456-2022-5-28-46.
- Levshun D, Kotenko I. A survey on artificial intelligence techniques for security event correlation: models, challenges, and opportunities. Artificial Intelligence Review. 2023; 56(8): 8547-8590. doi: 10.1007/s10462-022-10381-4.
- Kotenko IV, Levshun DA. Methods of intelligent system event analysis for multistep cyber-attack detection: using machine learning methods [In Russian]. Iskusstvenniy Intellekt i Prinyatie Resheniy. 2023: 3: 3-15. doi: 10.14357/20718594230301.
- Nwakanma CI, Ahakonye LAC, Njoku JN, Odirichukwu JC, Okolie SA, Uzondu C, Kim DS. Explainable Artificial Intelligence (XAI) for Intrusion Detection and Mitigation in Intelligent Connected Vehicles: A Review. Applied Sciences. 2023; 13(3): 1252. doi: 10.3390/app13031252.
- Lundberg SM, Lee SI. A unified approach to interpreting model predictions. Advances in neural information processing systems. 2017; 30: 1-10. doi: 10.48550/arXiv.1705.07874.
- Yang H, Liang S, Ni J, Li H, Shen XS. Secure and efficient k-NN classification for industrial Internet of Things. IEEE Internet of Things Journal. 2020; 7(11): 10945-10954. doi: 10.1109/JIOT.2020.2992349.
- Hosseinzadeh M, Rahmani A M, Vo B, Bidaki M, Masdari M, Zangakani M Improving security using SVM-based anomaly detection: issues and challenges. Soft Computing 2021; 25(4): 3195-3223. doi: 10.1007/s00500-020-05373-x.
- Khan M A, Abuhasel K A. An evolutionary multi-hidden Markov model for intelligent threat sensing in industrial internet of things. The Journal of Supercomputing. 2021; 77(6): 6236-6250. doi: 10.1007/s11227-020-03513-6.
- Illy P, Kaddoum G, de Araujo-Filho, P F, Kaur K, Garg S. A hybrid multistage DNN-based collaborative IDPS for high-risk smart factory networks. IEEE Transactions on Network and Service Management. 2022; 19(4): 4273-4283. doi: 10.1109/TNSM.2022.3202801.
- Nandanwar H, Katarya R. Deep learning enabled intrusion detection system for Industrial IOT environment. Expert Systems with Applications. 2024; 249: 123808. doi: 10.1016/j.eswa.2024.123808.
- Setitra MA, Fan M, Agbley BLY, Bensalem ZEA. Optimized MLP-CNN model to enhance detecting DDoS attacks in SDN environment. Network. 2023; 3(4): 538-562. doi: 10.3390/network3040024.
- Hasan T, Malik J, Bibi I, Khan W U, Al-Wesabi F N, Dev K, Huang G. Securing industrial internet of things against botnet attacks using hybrid deep learning approach. IEEE Transactions on Network Science and Engineering. 2022; 10(5): 2952-2963. doi: 10.1109/TNSE.2022.3168533.
- Pang G, Shen C, Cao L, Hengel AVD. Deep learning for anomaly detection: A review. ACM computing surveys (CSUR). 2021; 54(2): 1-38. doi: 10.1145/3439950.
- Abdulaal A, Liu Z, Lancewicki T. Practical Approach to Asynchronous Multivariate Time Series Anomaly Detection and Localization. In: Proc of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2021; 2485-2494. doi: 10.1145/3447548.3467174.
- Li Z, Zhao Y, Han J, Su Y, Jiao R, Wen X, Pei D. Multivariate Time Series Anomaly Detection and Interpretation using Hierarchical Inter-Metric and Temporal Embedding. In: Proc of the 27th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2021: 3220-3230. doi: 10.1145/3447548.3467075.
- Kravchik M, Shabtai A. Efficient cyber attack detection in industrial control systems using lightweight neural networks and PCA. IEEE transactions on dependable and secure computing. 2021; 19(4): 2179-2197. doi: 10.1109/TDSC.2021.3050101.
- Liu Y, Xu L, Yang, S, Zhao D, Li X. Adversarial sample attacks and defenses based on LSTM-ED in industrial control systems. Computers & Security. 2024; 140: 103750. doi: 10.1016/j.cose.2024.103750.
- Audibert J, Michiardi P, Guyard F, Marti S, Zuluaga MA. USAD: Unsupervised Anomaly Detection on Multivariate Time Series. In: Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining; 2020 P 3395-3404. doi: 10.1145/3394486.3403392.
- Han S, Woo SS. Learning sparse latent graph representations for anomaly detection in multivariate time series. In: Proc of the 28th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2022; 2977-2986. doi: 10.1145/3534678.3539117.
- Utkin L, Konstantinov A. An Extension of the Neural Additive Model for Uncertainty Explanation of Machine Learning Survival Models. Cyber-Physical Systems: Intelligent Models and Algorithms Cham : Springer International Publishing. 2022; 3-13. doi: 10.1007/978-3-030-95116-0_1.
- Chen Q, Pan G, Chen W, Wu P. A novel explainable deep belief network framework and its application for feature importance analysis. IEEE Sensors Journal. 2021; 21(22): 25001-25009. doi: 10.1109/JSEN.2021.3084846.
- Zolanvari M, Yang Z, Khan K, Jain R, Meskin N. TRUST XAI: Model-agnostic explanations for ai with a case study on iiot security. IEEE Internet of Things Journal. 2023; 10(4); 2967-2978. doi: 10.1109/JIOT.2021.3122019.
- Ribeiro M T, Singh S, Guestrin C. "Why should i trust you?" Explaining the predictions of any classifier. In: Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2016; 1135-1144. doi: 10.1145/2939672.2939778.
- Liu M, Shi J, Cao K, Zhu J, Liu S. Analyzing the training processes of deep generative models. IEEE transactions on visualization and computer graphics. 2017; 24(1): 77-87. doi: 10.1109/TVCG.2017.2744938.
- Wang P Y, Galhotra S, Pradhan R, Salimi B. Demonstration of generating explanations for black-box algorithms using Lewis. In: Proc of the VLDB Endowment. 2021; 14(12): 2787-2790. doi: 10.14778/3476311.3476345.
- Moradi M, Samwald M. Post-hoc explanation of black-box classifiers using confident itemsets. Expert Systems with Applications. 2021; 165: 113941. doi: 10.1016/j.eswa.2020.113941.
- Nourani M, Roy C, Block JE, Honeycutt DR, Rahman T, Ragan E, Gogate V. Anchoring bias affects mental model formation and user reliance in explainable ai systems. In: Proc of the 26th International Conference on Intelligent User Interfaces. 2021; 340-350. doi: 10.1145/3397481.3450639.
- Abou El Houda Z, Brik B, Senouci SM. A novel iot-based explainable deep learning framework for intrusion detection systems. IEEE Internet of Things Magazine. 2022; 5(2): 20-23. doi: 10.1109/IOTM.005.2200028.
- Kopp M, Pevný T, Holeňa M. Anomaly explanation with random forests. Expert Systems with Applications 2020; 149: 113187. doi: 10.1016/j.eswa.2020.113187.
- Antwarg L, Miller R M, Shapira B, Rokach L. Explaining anomalies detected by autoencoders using Shapley Additive Explanations. Expert systems with applications. 2021; 186: 115736. doi: 10.1016/j.eswa.2020.113187.
- Nguyen QP, Lim KW, Divakaran DM, Low KH, Chan MC. Gee: A gradient-based explainable variational autoencoder for network anomaly detection. In: Proc of the 2019 IEEE Conference on Communications and Network Security (CNS). 2019; 91-99. doi: 10.1109/CNS.2019.8802833.
- Takeishi N. Shapley values of reconstruction errors of PCA for explaining anomaly detection. In: Proc of the 2019 international conference on data mining workshops (ICDMW). 2019; 793-798. doi: 10.1109/ICDMW.2019.00117.
- Roshan K, Zafar A. Utilizing XAI technique to improve autoencoder based model for computer network anomaly detection with shapley additive explanation (SHAP). International Journal of Computer Networks & Communications (IJCNC). 2021; 13(6): 1-20. doi: 10.5121/ijcnc.2021.13607.
- Huong TT, Bac TP, Ha KN, Hoang NV, Hoang NX, Hung NT, Tran KP. Federated learning-based explainable anomaly detection for industrial control systems. IEEE Access. 2022; 10: 53854-53872. doi: 10.1109/ACCESS.2022.3173288.
- Mathuros K, Venugopalan S, Adepu S. WaXAI: Explainable Anomaly Detection in Industrial Control Systems and Water Systems. In: Proceedings of the 10th ACM Cyber-Physical System Security Workshop. 2024; 3-15. doi: 10.1145/3626205.3659147.
- Snoek J., Larochelle H., Adams R. P. Practical bayesian optimization of machine learning algorithms. Advances in neural information processing systems. 2012; 25: 1-9.
- Taormina R, Galelli S, Tippenhauer NO, Salomons E, Ostfeld A, Eliades DG. Battle of the attack detection algorithms: Disclosing cyber attacks on water distribution networks. Journal of Water Resources Planning and Management. 2018; 144(8): 04018048. doi: 10.1061/(ASCE)WR.1943-5452.0000969.
- Shin HK, Lee W, Yun JH, Min BG. Two ICS security datasets and anomaly detection contest on the HIL-based augmented ICS testbed. In: Proc. of the 14th Cyber Security Experimentation and Test Workshop. 2021; 36-40. doi: 10.1145/3474718.3474719.
- Kim B, Alawami MA, Kim E, Oh S, Park J, Kim H. A comparative study of time series anomaly detection models for industrial control systems. Sensors. 2023; 23(3): 1310. doi: 10.3390/s23031310.
Supplementary files
