Распространенные ошибки использования машинного обучения при прогнозировании событий и новый подход на основе моделей механизмов образования событий

Обложка

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Обсуждаются распространенные ошибки, допускаемые исследователями при прогнозировании событий с помощью моделей на основе машинного обучения. Такими ошибками являются: потеря самих событий, вследствие конструирования абстрактных признаков; обучение моделей происходит по клиентам, а не по событиям от клиентов; конструирование искусственных признаков; неправильная валидация и ошибочные метрики качества модели; используются статичные параметры. Приведен разбор совершенных ошибок одного примера с Kaggle. Площадь под ROC-кривой у такого примера очень высокая — 0,88. Однако эта метрика качества рассчитана некорректно. После исправления всех ошибок корректная метрика оказалась 0,599. Представлен иной подход к анализу и прогнозированию событий, который значительно отличается от классических методов машинного обучения. Метод основан на рассмотрении индивидуальных механизмов образования событий для каждого клиента. Строятся модели таких механизмов. Математическими методами восстанавливаются параметры моделей этих механизмов образования событий. Параметры экстраполируются на будущее. Прогноз будущего события получается в результате функционирования модели механизма с установленными значениями параметров. Метрика качества модели, площадь под кривой ROC, составила 0,615, что немного больше, чем в рассматриваемом примере с Kaggle, основанном на машинном обучении. Тем самым показано, что предложенный подход является конкурентным для передовых методов машинного обучения.

Полный текст

Доступ закрыт

Об авторах

Ю. А. Кораблев

Финансовый университет при Правительстве Российской Федерации (Финуниверситет)

Автор, ответственный за переписку.
Email: yura-korablyov@yandex.ru
Россия, Москва

В. А. Судаков

Федеральный исследовательский центр «Институт прикладной математики им. М. В. Келдыша» РАН

Email: sudakov@ws-dss.com
Россия, Москва

Список литературы

  1. Ехлаков Р. С., Судаков В. А. (2022). Прогнозирование стоимости котировок при помощи LSTM и GRU сетей // Препринты ИПМ им. М. В. Келдыша. № 17. 13 с. doi: 10.20948/prepr-2022-17 [Ekhlakov R. S., Sudakov V. A. (2022). Forecasting the cost of quotes using LSTM & GRU networks. Preprints of IAM after M. V. Keldysh, 17. 13 p. (in Russian).]
  2. Кораблев Ю. А. (2022). Об одном алгоритме восстановления функции по разным функционалам для прогнозирования редких событий в экономике // Финансы: теория и практика. № 3 (26). С. 196–225. doi: 10.26794/2587-5671-2022-26-3-196-225 [Korablev Yu.A. (2022). An algorithm for restoring a function from different functionals for predicting rare events in the economy. Finance: Theory and Practice, 3 (26), 196–225 (in Russian).]
  3. Кораблев Ю. А. (2023). Емкостный метод анализа и прогнозирования редких событий в экономике: монография. М.: РУСАЙНС. 296 с. ISBN: 978-5-466-04159 [Korablev Yu.A. (2023). Capacity method of analysis and forecasting of rare events in the economy. Moscow: RUSCIENS. 256 p. (in Russian).]
  4. Craven P., Wahba G. (1978). Smoothing noisy data with spline functions — estimating the correct degree of smoothing by the method of generalized cross-validation. Numerische Mathematik, 31 (4), 377–403. doi: 10.1007/BF01404567
  5. Friedman J. (1999). Greedy function approximation: A gradient boosting machine. Technical Report. Deptartment of Statistics. Stanford University.
  6. Friedman J. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 5 (29), 1189–1232. doi: 10.1214/aos/1013203451
  7. Golub G. H., Heath M., Wahba G. (1979). Generalized cross-validation as a method for choosing a good ridge parameter. Technometrics, 21 (2), 215–223. doi: 10.1080/00401706.1979.10489751
  8. Hansen P. C. (1992). Analysis of discrete ill-posed problems by means of the L-curve. SIAM Review, 34 (4), 561–580. doi: 10.1137/1034115
  9. Hansen P. C. (2001). The L-curve and its use in the numerical treatment of inverse problems. In: P. Johnston (ed.). Computational inverse problems in electrocardiology. Advances in Computational Bioengineering. Southampton: WIT Press.
  10. Korablev Yu.A. (2022). Restoration of function by integrals with cubic integral smoothing spline in R. ACM Transactions on Mathematical Software, 48 (2), 1–17. doi: 10.1145/3519384 ISSN: 0098-3500
  11. Nagesh S. C. (2022). Predict customers probable purchase. Kaggle. Available at: https://www.kaggle.com/code/nageshsingh/predict-customers-probable-purchase
  12. Nelder J. A., Mead R. (1965). A simplex method for function minimization. The Computer Journal, 4 (7), 308–313. doi: 10.1093/comjnl/7.4.308
  13. Quinn B. G., Fernandes J. M. (1991). A fast efficient technique for the estimation of frequency. Biometrika, 3 (78), 489–497.
  14. Quinn B. G., Hannan E. J. (2001). The estimation and tracking of frequency. Cambridge: Cambridge University Press. 278 p.

© Российская академия наук, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».