Сокращение пространства поиска оптимальных параметров кластеризации с использованием небольшого объема размеченных данных

Обложка

Цитировать

Полный текст

Аннотация

В работе представлен метод сокращения пространства поиска параметров кластеризации. Это достигается за счет выбора наиболее подходящих способов преобразования данных и мер различия на этапе, предваряющем выполнение непосредственно кластеризации. Для сравнения выбранных способов предлагается использовать коэффициент силуэта, который рассматривает метки классов из небольшого размеченного набора данных как метки кластеров. Приведены результаты экспериментальной проверки предложенного подхода для кластеризации текстов новостей.

Полный текст

Доступ закрыт

Об авторах

Виталий Иванович Юферев

Центральный банк Российской Федерации

Автор, ответственный за переписку.
Email: YuferevVI@cbr.ru

Консультант, Инновационная лаборатория «Новосибирск» Департамента информационных технологий

Россия, Москва

Николай Алексеевич Разин

Центральный банк Российской Федерации

Email: RazinNA@cbr.ru

Кандидат физико-математических наук, начальник Центра компетенций по искусственному интеллекту и продвинутой аналитике Департамента управления данными

Россия, Москва

Список литературы

  1. Ackerman M., Adolfsson A., Brownstein N. An effective and efficient approach for clusterability evaluation. arXiv:1602.06687. 2016.
  2. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // Journal of Machine Learning Research. 2012. V. 13. No 2. P. 281-305.
  3. Bora M.D.J., Gupta D.A.K. Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab // Internatinonal Journal of Computer Science and Information Techonolgies. 2014. V. No 2. P. 2501–2506.
  4. Brazdil P., Giraud-Carrier C., Soares C., Vilalta R. Metalearning: Applications to Data Mining. Berlin, Heidelberg: Springer Science & Business Media, 2008. doi: 10.1007/978-3-540-73263-1.
  5. Dash M., Choi K., Scheuermann P., Liu H. Feature selection for clustering-a filter solution // 2002 IEEE International Conference on Data Mining. Proceedings IEEE. 2002. P. 115–122.
  6. Data Clustering: Algorithms and Applications. Ed. by C.C. Aggarwal, C.K. Reddy. New York: Chapman and Hall/CRC, 2014. doi: 10.1201/9781315373515
  7. Feurer M., Hutter F. Hyperparameter Optimization // Automated Machine Learning. Ed. by F. Hutter et al. Cham: Springer, 2019. P. 3-33. doi: 10.1007/978-3-030-05318-5_1.
  8. Hernández-Reyes E., García-Hernández R.A., CarrascoOchoa J.A., Martínez-Trinidad J.F. Document Clustering Based on Maximal Frequent Sequences // Advances in Natural Language Processing. FinTAL 2006. Lecture Notes in Computer Science. Berlin: Springer, 2006. V. 4139. P. 257–267. doi: 10.1007/11816508_27
  9. Holder C., Middlehurst M., Bagnal A. A Review and Evaluation of Elastic Distance Functions for Time Series Clustering // Knowledge and Information Systems. 2023. V. 66, P. 765-809, 2023
  10. Hui X., Li Z. Clustering Validation Measures // Data Clustering: Algorithms and Applications. Boca Raton: CRC Press, 2014. P. 571-606.
  11. Jain A.K., Murty M.N., Flynn P.J. Data Clustering: a review // ACM Computing Surveys. New York: Association for Computing Machinery, 1999. V. 31. P. 264-323.
  12. Kassambara A. Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning. Sthda, 2017. V. 1. ISBN: 978-1-5424-6270-9.
  13. Kaufman L., Rousseeuw P. Clustering by Means of Medoids // Data Analysis based on the L1-Norm and Related Methods. Ed. by Y. Dodge. North-Holland. 1987. P. 405-416.
  14. Li Y., Zhang Y., Wei X. Hyper-parameter estimation method with particle swarm optimization. arXiv:2011.11944v2. 2020.
  15. Mahdavi K. Enhanced clustering analysis pipeline for performance analysis of parallel applications: Tesi doctoral, Universitat Politècnica de Catalunya, Departament d'Arquitectura de Computadors. Barcelona, 2022. doi: 10.5821/dissertation-2117-375586.
  16. Nelder J.A., Mead R. A simplex method for function optimization // The Computer Journal. 1965. V. 7. No 4. P. 308-313.
  17. Nguyen Q.H., Rayward-Smith V.J. Internal quality measures for clustering in metric spaces // International Journal of Business Intelligence and Data Mining. 2008. V.3. No 1. P. 4–29.
  18. Romano S., Vinh N.X., Bailey J., Verspoor K. Adjusting for chance clustering comparison measures // Journal of Machine Learning Research. 2016. V. 17. No 1. P. 4635–4666.
  19. Rousseeuw P. Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis // Journal of Computational and Applied Mathematics. 1987. V. 20. P. 53-65. doi: 10.1016/0377-0427(87)90125-7.
  20. Schneider M., Grinsell J., Russell T., Hickman R., Thomson R. Identifying Indicators of Bias in Data Analysis Using Proportionality and Separability Metrics // Proceedings of SBP-BRiMS conference. Washington, 2019. URL: http://sbp-brims.org/2019/proceedings/papers/work- ing_papers/Schneider.pdf (accessed: 30.01.2024).
  21. Thornton C., Hutter F., Hoos H.H., Leyton-Brown K. AutoWEKA: Combined selection and hyperparameter optimization of classification algorithms // Proceedings of the 19th ACM SIGKDD International Conference of Knowledge Discovery and Data Mining. Chicago, 2013. P. 847-855.
  22. Tong Y., Hong Z. Hyper-Parameter Optimization: A Review of Algorithms and Applications. arXiv:2003.05689. 2020.
  23. Vincent A.M., Jidesh P. An improved hyperparameter optimization framework for AutoML systems using evolutionary algorithms // Scientific Reports. 2023. V. 13. No 1. P. 4737. doi: 10.1038/s41598-023-32027-3.
  24. Vinh N.X., Epps J., Bailey J. Information theoretic measures for clustering comparison: is a correction for chance necessary? // Proceedings of the 26th Annual International Conference on Machine Learning – ICML’09. Montreal, 2009. P. 1073–1080. doi: 10.1145/1553374.1553511.
  25. Vysala A., Gomes J. Evaluating and Validating Cluster Results // Proceedings of 9th International Conference on Advanced Information Technologies and Applications (ICAITA 2020). 2020. V. 10. No 9. P. 37-45. doi: 10.5121/csit.2020.100904
  26. Wu J., Chen X.-Y., Zhang H., Xiong L.-D., Lei H., Deng S. Hyperparameter Optimization for Machine Learning Models Based on Bayesian Optimization // Journal of Electronic Science and Technology. 2019. V. 17. No 1. P. 26-40. doi: 10.11989/JEST.1674-862X.80904120.
  27. Xu R., Wunsch D. Survey of clustering algorithms // IEEE Transactions on Neural Networks, 2005. V. 16. No 3. P. 645-678. doi: 10.1109/TNN.2005.845141.
  28. Yang L., Shami A. On Hyperparameter Optimization of Machine Learning Algorithms: Theory and Practice. arXiv:2007.15745v3. 2022.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Итеративная схема поиска лучших параметров процесса кластеризации

Скачать (21KB)
3. Рис. 2. Предлагаемая схема поиска лучших параметров процесса кластеризации

Скачать (132KB)
4. Рис. 3. Распределение новостей по значениям поля «tag»

Скачать (20KB)
5. Рис. 4. Распределение новостей по их длинам в символах

Скачать (24KB)
6. Рис. 5. Зависимость AMI от параметра «количество кластеров» для кластеризации в разных ПР

Скачать (412KB)
7. Рис. 6. Зависимость SilCsoftmax(x) от размера порции данных

Скачать (424KB)
8. Рис. 7. Зависимость среднего значения и стандартного отклонения коэффициента корреляции Пирсона оценки SilCsoftmax(x) и оценки AMI для "хороших" ПР от размера набора данных, использованного для расчета SilCsoftmax(x)

Скачать (22KB)
9. Рис. 8. Зависимость среднего значения и стандартного отклонения коэффициента корреляции Пирсона оценки SilCsoftmax(x) и оценки AMI для "плохих" ПР от размера набора данных, использованного для расчета SilCsoftmax(x)

Скачать (18KB)

Примечание

* Настоящая статья отражает личную позицию авторов. Содержание и результаты данного исследования не следует рассматривать, в том числе цитировать в каких-либо изданиях, как официальную позицию Банка России или указание на официальную политику или решения регулятора. Любые ошибки в данном материале являются исключительно авторскими.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».