Estimation of traditional numerical characteristics of multimodal distribution laws of a one-dimensional random variable in conditions of large volume statistical data

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The efficiency of estimating the traditional numerical characteristics of multimodal symmetric and asymmetric distribution laws of a one-dimensional random variable with large amounts of statistical data is considered. To circumvent the problem of large samples, the formulas for discretization of the interval of values of a random variable by Sturgess, Brooks-Carruthers, Heinhold-Gaede and the formula for optimal discretization proposed by the authors of this article were used. For this purpose, data arrays have been formed that allow us to evaluate the numerical characteristics of the laws of distribution of random variables, taking into account their discrete values. Estimates of mathematical expectation, mean square deviation, coefficients of asymmetry and kurtosis are calculated from the transformed data sets. Estimates of the numerical characteristics of the considered distribution laws for continuous and discrete random variables with different volumes of initial statistical data are compared. The efficiency of methods for estimating the numerical characteristics of multimodal distribution laws based on initial statistical information and the results of transforming this information using the specifi ed discretization formulas has been established. The reliability of comparing the performance indicators of the studied methods was confirmed using the Kolmogorov-Smirnov criterion. It is shown that the Heinhold-Gaede formula and the optimal discretization formula proposed by the authors are more effective than the Sturgess and Brooks-Carruthers discretization formulas. The obtained results can be used in processing remote sensing data of natural objects, which are characterized by a large volume of statistical information and multimodal laws of distribution of spectral features.

About the authors

A. V. Lapko

Institute of Computational Modelling of the Siberian Branch of the Russian Academy of Sciences; Reshetnev Siberian State University of Science and Technology

Email: lapko@icm.krasn.ru
ORCID iD: 0000-0002-0664-3870
SPIN-code: 3913-2670

V. A. Lapko

Institute of Computational Modelling of the Siberian Branch of the Russian Academy of Sciences; Reshetnev Siberian State University of Science and Technology

Email: valapko@yandex.ru
ORCID iD: 0000-0001-6938-9323
SPIN-code: 2115-4928

References

  1. Лапко А. В., Лапко В. А. Оценивание традиционных числовых характеристик логнормальных законов распределения одномерной случайной величины в условиях большого объёма статистических данных. Измерительная техника, 73(2), 23–29 (2024). https://doi.org/10.32446/0368-1025it.2024-2-23-29; https://elibrary.ru/jxkngi
  2. Шипко В. В., Борзов С. М. Исследование эффективности классификации гиперспектральных данных при ограничениях на разрядность квантования, количество спектральных каналов и пространственное разрешение. Автометрия, 58(3), 79–87 (2022). https://doi.org/10.15372/AUT20220309; https://elibrary.ru/amztfv
  3. Борзов С. М., Нежевенко Е. С. Нейросетевые технологии в задачах обнаружения и классификации объектов. Автометрия, 59(3), 52–71 (2023). https://doi.org/10.15372/AUT20230307; https://elibrary.ru/uwyaqy
  4. Лебедев И. С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации. Информационно-управляющие системы, (3), 20–30 (2022). https://doi.org/10.31799/1684-8853-2022-3-20-30; https://elibrary.ru/zoevfc
  5. Кивчун О. Р. Алгоритм проверки данных на негауссовость с использованием алгоритмов векторного рангового анализа. Информационные технологии, 30(4), 198–205 (2024). https://doi.org/10.17587/it.30.198-205; https://elibrary.ru/yjwckt
  6. Шаруева А. В., Лапко А. В., Лапко В. А. Непараметрические методы проверки гипотез о распределениях случайных величин при анализе данных дистанционного зондирования. СО РАН, Новосибирск (2024). https://doi.org/10.53954/9785604990094; https://elibrary.ru/dfbrbi
  7. Лапко А. В., Лапко В. А. Сравнение эффективности методов дискретизации интервала изменения значений случайной величины при синтезе непараметрической оценки плотности вероятности. Измерительная техника, (3), 5–8 (2014). https://elibrary.ru/saehkp
  8. Sturges H. A. The choice of a class interval. Journal of the American Statistical Association, 21, 65–66 (1926). https://doi.org/10.1080/01621459.1926.10502161
  9. Storm R. Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle. Fachbuchverlag, Leipzig, (2001). (In German)
  10. Heinhold J., Gaede K.-W. Ingenieur-Statistik. R. Oldenbourg Verlag, München-Wien (1972). (In German) https://doi.org/10.1002/cite.330450621
  11. Лапко А. В., Лапко В. А. Оценивание интеграла от квадрата плотности вероятности одномерной случайной величины. Измерительная техника, (7), 22–28 (2020). https://doi.org/10.32446/0368-1025it.2020-7-22-28; https://elibrary.ru/nteghi
  12. Robertson C. A., Fryer J. G. Some descriptive properties of normal mixtures. Scandinavian Actuarial Journal, 1969(3-4), 137–146 (1969). https://doi.org/10.1080/03461238.1969.10404590
  13. Eisenberger I. Genesis of bimodal distributions. Technometrics, 6(4), 357–363 (1964). https://doi.org/10.1080/00401706.1964.10490199
  14. Ray S., Lindsay B. G. The topography of multivariate normal mixtures. Annals of Statistics, 33(5), 2042–2065 (2005). https://doi.org/10.1214/009053605000000417

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».