Машинный мониторинг текстовых чатов и предсказание аномалий

Обложка

Цитировать

Полный текст

Аннотация

Целью работы является разработка нового метода предсказания аномалий в текстовых чатах, не использующего корпусы текстов. Поставленные задачи: краткое представление статистического описания повторяемости аномалий, развитого в прошлых работах авторов, введение метода парных (обобщенных) N-грамм на коллекциях «существительное – глагол», синтез указанных методов в новый метод предсказания аномалий в системах обмена короткими сообщениями, тестирование метода. Предложен новый метод предсказания аномалий в потоке текстовых сообщений, не использующий корпус текстов для обучения, и, кроме того, допускающий онлайн-обучение. Материалом для работы были чаты, группы и каналы в Telegram, на которые подписан один из авторов работы, с большим объемом текстового материала. Метод использует статистическое распределение повторения аномалий, а также метод тематического моделирования на основе статистики пар «существительное – глагол». Оба метода предложены ранее в работах авторов. Проведенный эксперимент показал соответствие результатов, предсказанных с помощью предлагаемого метода, фактически зарегистрированным аномалиям. Применение предложенного метода может быть полезно в исследованиях и анализе появления аномалий в сложных социальных системах, взаимодействие в которых отражается в коммуникациях через социальные сети и мессенджеры. Подобного рода задачи являются актуальными как для государственных структур, так и для бизнеса, и могут позволить сгладить острые социальные и производственные проблемы. Особенно полезен предложенный метод для журналистов – он позволяет определить время наиболее вероятного появления значимых социальных явлений.

Об авторах

Елена Сергеевна Мозаидзе

ФГБОУ ВО Белгородский государственный технологический университет им. В.Г. Шухова

Email: mozaidze95@mail.ru
Белгород

Сергей Валентинович Зуев

ФГАОУ ВО Крымский федеральный университет им. В.И. Вернадского

Email: sergey.zuev@bk.ru
Симферополь

Список литературы

  1. КУЗОВЛЕВ В.И., ОРЛОВ А.О. Выявление аномалий при прогнозном анализе данных // Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. – 2016. – № 5. – C. 75–85.
  2. МИКОВА С.Ю., ОЛАДЬКО В.С. Сетевые аномалии и причины их возникновения в экономических информационных системах // Издательский центр «ИУСЭР. – Экономика и социум. – 2015. – №3 (16) – С. 76–81.
  3. САВЕНКОВ П.А., ИВУТИН А.Н. Методы анализа естественного языка в задачах детектирования поведенческих аномалий // Известия ТулГУ. – Технические науки. – 2022. – №3. – С. 358–366.
  4. САВИЦКИЙ Д.Е., ДУНАЕВ М.Е., ЗАЙЦЕВ К.С. Выявление аномалий при обработке потоковых данных в реальном времени // Int. Journal of Open Information Technologies. – 2022. – №6. – С. 70–76.
  5. ЧАСТИКОВА В.А., КОЗАЧЁК К.В., ГУЛЯЙ В.Г. Методы обработки естественного языка в решении задач обнаружения атак социальной инженерии // Вестник Адыгейского государственного университета. – Сер. 4: Естественно-математические и технические науки. – 2021. – №4 (291). – С. 95–108.
  6. https://hadoop.apache.org/ (дата обращения: 01.10.2021).
  7. BENMAHDI D., RASOLOFONDRAIBE L., CHIEMENTIN X. et al. RT-OPTICS: real-time classification based on OP-TICS method to monitor bearings faults // Journal of Intelli-gent Manufacturing. – June 2019. – Vol. 30, Iss. 5. – P. 2157–2170.
  8. BORJ P.R., RAJA K., BOURS P. Online grooming detection: A comprehensive survey of child exploitation in chat logs // Knowledge-Based Systems. – 2023. Vol. 259. 110039. – DOI: https://doi.org/10.1016/j.knosys.2022.110039 (accessed 1 July 2023).
  9. GUPTA A., MATTA P., PANT B. Identification of Cyber-criminals in Social Media using Machine Learning // Int. Conf. on Smart Generation Computing, Communication and Networking (SMART GENCON). – Bangalore, India. – 2022. – P. 1–6. – doi: 10.1109/SMARTGENCON56628.2022.10084119.
  10. LEMAIRE V., ALAOUI ISMAILI O., CORNU´EJOLS A. et al. Predictive k-means with localmodels // In: Workshop LDRC–2020 (Workshop on Learning Data Representation for Clus-tering) in PAKDD–2020 (The 24th Pacific-Asia Conf. On Knowledge Discovery and DataMining). – May 2020. – Singapore. – P. 11–16.
  11. MD TAHMID RAHMAN LASKAR, JIMMY XIANGJI HUANG, SMETANA V. et al. Extending Isolation Forest for Anomaly Detection in Big Data via K-Means // ACM Trans. – Cyber-Phys. Syst. 5, 4, Article 41. – 2021. – 26 p. – DOI: https://doi.org/10.1145/3460976.
  12. SARVANI A., VENUGOPAL B., DEVARAKONDA N. Anomaly Detection Using K-means Approach and Outliers DetectionTechnique // In: Soft Computing: Theories and Applications. Advances in Intelligent Systems and Computing, Springer, Singapore. – 2019 – P. 742.
  13. SHERIFF M.Z., NOUNOU M.N. Improved Fault De-tection and Process Safety Using Multiscale Shewhart Charts // Chem. Eng. Process Technol. – 2017. – Vol. 8(2). – P. 1–16. – doi: 10.4172/2157-7048.100032.
  14. TALEB N.N. Black Swan and Domains of Statistics // The American Statistician. – 2007. – Vol. 61, No. 3.
  15. TSIGKRITIS T., GROUMAS G., SCHNEIDER M. On the Use of k-NN in Anomaly Detection // Journal of Information Security. – 2018. – Vol. 9. – P. 70–84.
  16. https://spark.apache.org/ (дата обращения: 01.10.2021).
  17. VANNEL Z., DONGHYUN K., DAEHEE S., Ahyoung Leea An unsupervised anomaly detection frame-work for detecting anomalies in real time through network system’s log files analysis // High-Confidence Computing. – 2021. – Vol. 1, Iss. 2.
  18. WANG Z., ZHOU Y.H., LI G.M. Anomaly Detection by Using Streaming K-Means and Batch K-Means // 5th IEEE Int. Conf. on Big Data Analytics (IEEE ICBDA 2020). – Xiamen, China, 8–11 May 2020. – P. 11–17.
  19. ZIMEK A., SCHUBERT E. Outlier Detection // Encyclopedia of Database Systems. – Springer New York, 2017. – doi: 10.1007/978-1-4899-7993-3_80719-1.
  20. ZUEV S., KABALYANTS P. On the black swan risk dynamical evaluation // Int. Journal of Risk Assessment and Management. –2022. – Vol. 25, No. 1/2. – P. 56–66.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».