Estimation of traditional numerical characteristics of multimodal distribution laws of a one-dimensional random variable in conditions of large volume statistical data

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The efficiency of estimating the traditional numerical characteristics of multimodal symmetric and asymmetric distribution laws of a one-dimensional random variable with large amounts of statistical data is considered. To circumvent the problem of large samples, the formulas for discretization of the interval of values of a random variable by Sturgess, Brooks-Carruthers, Heinhold-Gaede and the formula for optimal discretization proposed by the authors of this article were used. For this purpose, data arrays have been formed that allow us to evaluate the numerical characteristics of the laws of distribution of random variables, taking into account their discrete values. Estimates of mathematical expectation, mean square deviation, coefficients of asymmetry and kurtosis are calculated from the transformed data sets. Estimates of the numerical characteristics of the considered distribution laws for continuous and discrete random variables with different volumes of initial statistical data are compared. The efficiency of methods for estimating the numerical characteristics of multimodal distribution laws based on initial statistical information and the results of transforming this information using the specifi ed discretization formulas has been established. The reliability of comparing the performance indicators of the studied methods was confirmed using the Kolmogorov-Smirnov criterion. It is shown that the Heinhold-Gaede formula and the optimal discretization formula proposed by the authors are more effective than the Sturgess and Brooks-Carruthers discretization formulas. The obtained results can be used in processing remote sensing data of natural objects, which are characterized by a large volume of statistical information and multimodal laws of distribution of spectral features.

About the authors

A. V. Lapko

Institute of Computational Modelling of the Siberian Branch of the Russian Academy of Sciences; Reshetnev Siberian State University of Science and Technology

Email: lapko@icm.krasn.ru
ORCID iD: 0000-0002-0664-3870
SPIN-code: 3913-2670

V. A. Lapko

Institute of Computational Modelling of the Siberian Branch of the Russian Academy of Sciences; Reshetnev Siberian State University of Science and Technology

Email: valapko@yandex.ru
ORCID iD: 0000-0001-6938-9323
SPIN-code: 2115-4928

References

  1. Лапко А. В., Лапко В. А. Оценивание традиционных числовых характеристик логнормальных законов распределения одномерной случайной величины в условиях большого объёма статистических данных. Измерительная техника, 73(2), 23–29 (2024). https://doi.org/10.32446/0368-1025it.2024-2-23-29; https://elibrary.ru/jxkngi
  2. Шипко В. В., Борзов С. М. Исследование эффективности классификации гиперспектральных данных при ограничениях на разрядность квантования, количество спектральных каналов и пространственное разрешение. Автометрия, 58(3), 79–87 (2022). https://doi.org/10.15372/AUT20220309; https://elibrary.ru/amztfv
  3. Борзов С. М., Нежевенко Е. С. Нейросетевые технологии в задачах обнаружения и классификации объектов. Автометрия, 59(3), 52–71 (2023). https://doi.org/10.15372/AUT20230307; https://elibrary.ru/uwyaqy
  4. Лебедев И. С. Адаптивное применение моделей машинного обучения на отдельных сегментах выборки в задачах регрессии и классификации. Информационно-управляющие системы, (3), 20–30 (2022). https://doi.org/10.31799/1684-8853-2022-3-20-30; https://elibrary.ru/zoevfc
  5. Кивчун О. Р. Алгоритм проверки данных на негауссовость с использованием алгоритмов векторного рангового анализа. Информационные технологии, 30(4), 198–205 (2024). https://doi.org/10.17587/it.30.198-205; https://elibrary.ru/yjwckt
  6. Шаруева А. В., Лапко А. В., Лапко В. А. Непараметрические методы проверки гипотез о распределениях случайных величин при анализе данных дистанционного зондирования. СО РАН, Новосибирск (2024). https://doi.org/10.53954/9785604990094; https://elibrary.ru/dfbrbi
  7. Лапко А. В., Лапко В. А. Сравнение эффективности методов дискретизации интервала изменения значений случайной величины при синтезе непараметрической оценки плотности вероятности. Измерительная техника, (3), 5–8 (2014). https://elibrary.ru/saehkp
  8. Sturges H. A. The choice of a class interval. Journal of the American Statistical Association, 21, 65–66 (1926). https://doi.org/10.1080/01621459.1926.10502161
  9. Storm R. Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle. Fachbuchverlag, Leipzig, (2001). (In German)
  10. Heinhold J., Gaede K.-W. Ingenieur-Statistik. R. Oldenbourg Verlag, München-Wien (1972). (In German) https://doi.org/10.1002/cite.330450621
  11. Лапко А. В., Лапко В. А. Оценивание интеграла от квадрата плотности вероятности одномерной случайной величины. Измерительная техника, (7), 22–28 (2020). https://doi.org/10.32446/0368-1025it.2020-7-22-28; https://elibrary.ru/nteghi
  12. Robertson C. A., Fryer J. G. Some descriptive properties of normal mixtures. Scandinavian Actuarial Journal, 1969(3-4), 137–146 (1969). https://doi.org/10.1080/03461238.1969.10404590
  13. Eisenberger I. Genesis of bimodal distributions. Technometrics, 6(4), 357–363 (1964). https://doi.org/10.1080/00401706.1964.10490199
  14. Ray S., Lindsay B. G. The topography of multivariate normal mixtures. Annals of Statistics, 33(5), 2042–2065 (2005). https://doi.org/10.1214/009053605000000417

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).