Using Ensembles with Enhanced Divergence in Forecast Space in Recommender Systems

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Рассматривается метод дивергентного решающего леса, основанный на достижении более высокой дивергенции в пространстве прогнозов по сравнению со стандартным случайным решающим лесом за счет включения на каждом шаге в ансамбль нового дерева Tx, которое строится исходя из условий минимизации специального функционала, являющегося разностью квадратичной ошибки Tx и квадрата расхождения прогнозов Tx и текущего ансамбля. Метод является развитием аналогичных ранее разработанных методов, которые предназначены для прогнозирования числовых переменных. Вработе представлены результаты применения метода дивергентного решающего леса для решения задач классификации, возникающих при создании рекомендательных систем. Исследована зависимость эффективности прогноза от глубины деревьев и одного из ключевых параметров алгоритма, регулирующего вклад двух составляющих в минимизируемый функционал. Исследования показали, что точность предлагаемой технологии заметно превышает точность случайного решающего леса и близка к точности метода CatBoost.

References

  1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning Data Mining, Inference, and Prediction. Springer Series in Statistics. New York: Springer, 2009.
  2. Breiman L. Random Forests // Machine Learning. 2001. V. 45. No. 1. P. 5–32.
  3. Friedman J. Stochastic gradient boosting // Comput. Statist. Data Anal. 2002. V. 38. No. 4. P. 367–378.
  4. Breiman L. Bagging predictors // Machine Learning. 1996. No. 24. P. 123–140.
  5. Tin Kam Ho. The random subspace method for constructing decision forests // IEEE Transact. Patt. Machine Intelligen. 1998. V. 20. No. 8. P. 832–844.
  6. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13–17 / eds. Krishnapuram B., Shah M., Smola A.J., Aggarwal C.C., Shen D., Rastogi R. 2016. P. 785–794.
  7. Ke G., Meng Q., Finley T. et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // NIPS’17: Proc. 31st Int. Conf. Neural Inform. Proc. Syst. 2017. P. 3149–3157.
  8. Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // J. Big Data. 2020. V. 7. No. 94.
  9. Zhuravlev Yu.I., Senko O.V., Dokukin A.A., Kiselyova N.N., Saenko I.A. Two-Level Regression Method Using Ensembles of Trees with Optimal Divergence // Dokl. Math. 2021. V. 103. P. 1–4.
  10. Докукин А.А., Сенько О.В. Новый двухуровневый метод машинного обучения для оценивания вещественных характеристик объектов // Изв. РАН. Теория и системы управления. 2023. No. 4. P. 17–24.
  11. Senko O.V., Dokukin A.A., Kiselyova N.N., et al. New Two-Level Ensemble Method and Its Application to Chemical Compounds Properties Prediction // Lobachev. J. Math. 2023. V. 44. No. 1. P. 188–197.
  12. Roy D., Dutta M. A systematic review and research perspective on recommender systems // J. Big Data. 2022. V. 9. No. 59.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 The Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».