SUFFICIENT SAMPLE SIZE: LIKELIHOOD BOOTTRAPPING

Cover Page

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

Determining the appropriate sample size is crucial for building effective machine learning models. Existing methods often either lack a rigorous theoretical basis or are tied to specific statistical hypotheses about the model parameters. In this paper, we present two new methods based on likelihood values on bootstrapped subsamples. We demonstrate the correctness of one of these methods in a linear regression model. Computational experiments with both synthetic and real datasets show that the proposed functions converge as the sample size increases, highlighting the practical usefulness of the approach.

About the authors

N. S Kiselev

MIPT

Email: kiselev.ns@phystech.edu
Dolgoprudny, Russia

A. V Grabovoi

MIPT

Email: grabovoy.av@phystech.edu
Dolgoprudny, Russia

References

  1. Robert R Bies, Matthew F Muldoon, Bruce G Pollock et al. A genetic algorithm-based, hybrid machine learning approach to model selection // J. Pharmacokinet. Pharmacodyn. 2006. V. 33. № 2. P. 195.
  2. Cawley, Gavin C. On over-fitting in model selection and subsequent selection bias in performance evaluation // J. Mach. Learn. Res. 2010. V. 11. № 1. P. 2079–2107.
  3. Richard H Byrd, Gillian M Chin, Jorge Nocedal, Yuchen Wu. Sample size selection in optimization methods for machine learning // Math. Program. 2012. V. 134. № 1. P. 127–155.
  4. Rosa L Figueroa, Qing Zeng-Treitler, Sasikiran Kandula, Long H Ngo. Predicting sample size required for classification performance // BMC Med. Inf. Decis. Making. 2012. V. 12. № 1. P. 1–10.
  5. Indranil Balki, Afsaneh Amirabadi, Jacob Levman et al. Sample-size determination methodologies for machine learning in medical imaging research: a systematic review // Can. Assoc. Radiol. J. 2019. V. 70. № 4. P. 344–353.
  6. Adcock, C. J. A Bayesian Approach to Calculating Sample Sizes // J. R. Stat. Soc. D. 1988. V. 37. № 4. P. 433.
  7. Lawrence Joseph, David B. Wolfson, Roxane Du Berger. Sample Size Calculations for Binomial Proportions via Highest Posterior Density Intervals // J. R. Stat. Soc. D. 1995. V. 44. № 2. P. 143–154.
  8. Steven G Self, Robert H Mauritsen. Power/sample size calculations for generalized linear models // Biometrics. 1988. V. 44. № 1. P. 79–86.
  9. Gwowen Shieh. On power and sample size calculations for likelihood ratio tests in generalized linear models // Biometrics. 2000. V. 56. № 4. P. 1192–1196.
  10. Gwowen Shieh. On power and sample size calculations for Wald tests in generalized linear models // J. Stat. Plann. Inference . 2005. V. 128. № 1. P. 43–59.
  11. Dennis V. Lindley. The choice of sample size // J. R. Stat. Soc. D. 1997. V. 46. № 2. P. 129–138.
  12. Dennis V. Lindley. On Bayesian analysis, Bayesian decision theory and the sample size problem // J. R. Stat. Soc. D. 1997. V. 46. № 2. P. 139–144.
  13. Alan E. Gelfand, Fei Wang. A simulation-based approach to Bayesian sample size determination for performance under a given model and for separating models // Stat. Sci. 2002. V. 17. № 2. P. 192-208.
  14. Jing Cao, J. Jack Lee, Susan Alber. Comparison of Bayesian sample size criteria: ACC, ALC, and WOC // J. Stat. Plann. Inference. 2009. V. 139. № 12. P. 4111–4122.
  15. Pierpaolo Brutti, Fulvio De Santis, Stefania Gubbiotti. Bayesian-frequentist sample size determination: a game of two priors // METRON 2014. V. 72. № 2. P. 133–151.
  16. Hamid Pezeshk, Nader Nematollahi, Vahed Maroufy, John Gittins. The choice of sample size: a mixed Bayesian / frequentist approach // Stat. Methods Med. Res. 2008. V. 18. № 2. P. 183–194.
  17. A. V. Grabovoy, T. T. Gadaev, A. P. Motrenko, V. V. Strijov. Numerical Methods of Sufficient Sample Size Estimation for Generalised Linear Models // Lobachevskii J. Math. 2022. V. 43. № 9. P. 2453–2462.
  18. Anastasiya Motrenko, Vadim Strijov, Gerhard-Wilhelm Weber. Sample size determination for logistic regression // J. Comput. Appl. Math. 2014. V. 255. № 2. P. 743–752.
  19. Lawrence Joseph, Roxane Du Berger, Patrick Belisle. Bayesian and mixed Bayesian/likelihood criteria for sample size determination // Stat. Med. 1997. V. 16. № 7. P. 769–781.
  20. Markelle, Kelly. The UCI Machine Learning Repository. https://archive.ics.uci.edu.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».