За пределами тематического моделирования: анализ исторического текста с помощью больших языковых моделей

Обложка

Цитировать

Полный текст

Аннотация

Статья посвящена исследованию потенциала больших языковых моделей для тематического анализа исторических текстов. В качестве материала для исследования выбран дневник вологодского гимназиста Кирилла Антоновича Березкина, охватывающий период с января по сентябрь 1849 г. Этот дневник представляет собой уникальный источник для изучения повседневной жизни, мировоззрения и социальных взаимодействий молодого человека в провинциальной России середины XIX века. Записи К. Березкина затрагивают широкий спектр тем от учебы и семейных отношений до размышлений о политике, религии, литературе и искусстве. Анализ дневника позволяет погрузиться в атмосферу эпохи, понять ценности и стремления молодого дворянина на пороге взрослой жизни, а также проследить формирование его личности под влиянием исторического контекста. В исследовании применялась модель Gemini 1.5 Pro, которая способна обрабатывать объемные текстовые данные. Текст дневника анализировался как целиком, так и по отдельным месяцам, что позволило выявить специфические аспекты содержания. Новизна исследования заключается в применении современных больших языковых моделей для анализа русскоязычного исторического текста. Результаты показали, что Gemini 1.5 Pro способна эффективно выделять ключевые темы в дневнике, предоставляя интерпретируемые результаты. Модель успешно идентифицировала восемь основных тем, отражающих различные аспекты жизни гимназиста. Применение параллельного промптинга с помесячным разбиением текста позволило выявить более специфические темы и нюансы, которые упускались при анализе полного текста. Исследование подтвердило эффективность больших языковых моделей для анализа исторических источников, открывая новые возможности для автоматизации процесса тематического моделирования и выявления скрытых паттернов в больших массивах текстовых данных. Однако, стохастическая природа больших языковых моделей требует многократного анализа и тщательной интерпретации результатов, а также критического сопоставления с данными традиционных методов исторического анализа.

Об авторах

Алексей Валерьевич Кузнецов

Институт всеобщей истории РАН

Email: kuznetsovaleks@rambler.ru
ORCID iD: 0000-0003-4755-250X
научный сотрудник;

Список литературы

  1. Березкин К. А. Дневник / Подготовка текста к загрузке: Анна Завина, Антон Микерин. [Электронный ресурс]. // Электронный корпус «Прожито». URL: https://corpus.prozhito.org/person/925
  2. Березкин К. А. Дневник: к 190-летию К. А. Березкина / под ред. Г. Л. Шалагиной. 2-е изд., доп. СПб.; Вологда: Киселев А. В., 2020.
  3. Воронцов К. В. Обзор вероятностных тематических моделей // Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. М.: Изд-во НИУ ВШЭ, 2017. С. 195–268.
  4. Дневник Кирилла Антоновича Березкина / под ред. Г. Л. Шалагиной. СПб., 2014.
  5. Кузнецов А. В. Проблемы интерпретации результатов тематического моделирования в исторических исследованиях // Актуальные проблемы гуманитарных и общественных наук: Сборник статей IX Всероссийской научно-практической конференции. Пенза, 2023. С. 90–91.
  6. Милкова М. А. Тематические модели как инструмент «Дальнего чтения» // Цифровая экономика. 2019. № 1(5). С. 57–70.
  7. Agrawal A., Fu W., Menzies T. What is wrong with topic modeling? And how to fix it using search-based software engineering // Information and Software Technology. 2018. Vol. 98. Pp. 74–88.
  8. Althage M. Potenziale und Grenzen der Topic-Modellierung mit Latent Dirichlet Allocation für die Digital History // Digital History: Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft. 2022. Vol. 6. No. 24. P. 255–277.
  9. Binkley D., Heinz D., Lawrie D., Overfelt J. Understanding LDA in source code analysis // Proceedings of the 22nd International Conference on Program Comprehension. ACM, 2014. Pp. 26–36.
  10. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. Vol. 3. Pp. 993–1022.
  11. Blevins C. Topic Modeling Historical Sources: Analyzing the Diary of Martha Ballard // DH. 2011. Pp. 97–99.
  12. Bodrunova S. S. Topic Modeling in Russia: Current Approaches and Issues in Methodology // The Palgrave Handbook of Digital Russia Studies. 2021. Pp. 409–426.
  13. de Melo T., Merialdo P. Beyond Topic Modeling: Comparative Evaluation of Topic Interpretation by Large Language Models // Intelligent Systems Conference. Cham: Springer Nature Switzerland, 2024. Pp. 215–230.
  14. Denny M. J., Spirling A. Text preprocessing for unsupervised learning: Why it matters, when it misleads, and what to do about it // Political Analysis. 2018. Vol. 26. No. 2. Pp. 168–189.
  15. Doi T., Isonuma M., Yanaka H. Topic Modeling for Short Texts with Large Language Models // Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop). 2024. Pp. 21–33.
  16. Garcia G. G., Weilbach C. If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History // arXiv preprint arXiv:2310.10808. 2023. URL: https://arxiv.org/abs/2310.10808
  17. Gillings M., Hardie A. The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice // Digital Scholarship in the Humanities. 2023. Vol. 38. No. 2. Pp. 530–543.
  18. Goldstone A., Underwood T. The quiet transformations of literary studies: What thirteen thousand scholars could tell us // New Literary History. 2014. Vol. 45. No. 3. Pp. 359–384.
  19. Götter C. Künstliche Intelligenz und Geschichtswissenschaft. Mehr als ein neues Werkzeug für die Digital History? // Historische Zeitschrift. 2024. Vol. 319. No. 2. S. 299–330.
  20. Huang L. et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions // arXiv preprint arXiv:2311.05232. 2023. URL: https://arxiv.org/abs/2311.05232
  21. Jockers M. L., Mimno D. Significant themes in 19th-century literature // Poetics. 2013. Vol. 41. No. 6. Pp. 750–769.
  22. Kansteiner W. Digital doping for historians: Can history, memory, and historical theory be rendered artificially intelligent? // History and Theory. 2022. Vol. 61. No. 4. Pp. 119–133.
  23. Kirilenko A. P., Stepchenkova S. Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies // Tourism Management. 2025. Vol. 106. P. 105007.
  24. König M. ChatGPT und Co. in den Geschichtswissenschaften – Grundlagen, Prompts und Praxisbeispiele // Digital Humanities am DHIP. 19. August 2024. URL: https://dhdhi.hypotheses.org/9197 DOI: https://doi.org/10.58079/126eo
  25. Li D., Zhang B., Zhou Y. Can large language models (LLM) label topics from a topic model? // SocArXiv. 2023. URL: https://doi.org/10.31235/osf.io/23x4m
  26. Liu N. F. et al. Lost in the middle: How language models use long contexts // Transactions of the Association for Computational Linguistics. 2024. Vol. 12. Pp. 157–173.
  27. McGillivray B., Buning B., Hengchen S. Topic Modelling: Hartlib's Correspondence Before and After 1650 // Reassembling the Republic of Letters in the Digital Age. Göttingen, 2019. Pp. 426–428.
  28. Mu Y. et al. Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling // arXiv preprint arXiv:2405.00611. 2024. URL: https://arxiv.org/abs/2405.00611
  29. Mu Y. et al. Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 2024. Pp. 10160–10171.
  30. Newman D. J., Block S. Probabilistic Topic Decomposition of an Eighteenth-Century American Newspaper // Journal of the American Society for Information Science and Technology. 2006. Vol. 57. No. 6. Pp. 753–776.
  31. Oiva M. Topic Modeling Russian History // The Palgrave Handbook of Digital Russia Studies. 2021. Pp. 427–442.
  32. Pham C. et al. TopicGPT: A Prompt-based Topic Modeling Framework // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024. Pp. 2956–2984.
  33. Phoenix J., Taylor M. Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs at Scale. O’Reilly Media, Inc., 2024.
  34. Pollin Ch. Workshopreihe «Angewandte Generative KI in den (digitalen) Geisteswissenschaften» (v1.1.0). Zenodo. URL: https://doi.org/10.5281/zenodo.10647754
  35. Pu X., Gao M., Wan X. Summarization is (almost) dead // arXiv preprint arXiv:2309.09558. 2023. URL: https://arxiv.org/abs/2309.09558
  36. Schulhoff S. et al. The Prompt Report: A Systematic Survey of Prompting Techniques // arXiv preprint arXiv:2406.06608.
  37. Solanki S. R., Khublani D. K. Generative Artificial Intelligence: Exploring the Power and Potential of Generative AI. Apress, 2024.
  38. Stammbach D. et al. Revisiting automated topic model evaluation with large language models // arXiv preprint arXiv:2305.12152. 2023. URL: https://arxiv.org/abs/2305.12152
  39. Villamor Martin M., Kirsch D. A., Prieto-Nañez F. The promise of machine-learning-driven text analysis techniques for historical research: topic modeling and word embedding // Management & Organizational History. 2023. Vol. 18. No. 1. Pp. 81–96.
  40. Wang H. et al. Prompting large language models for topic modeling // 2023 IEEE International Conference on Big Data (BigData). IEEE, 2023. Pp. 1236–1241.
  41. Wehrheim L. Economic History Goes Digital: Topic Modeling the Journal of Economic History // Cliometrica. 2019. Vol. 13. No. 1. Pp. 83–125.
  42. Xu Z., Jain S., Kankanhalli M. Hallucination is inevitable: An innate limitation of large language models // arXiv preprint arXiv:2401.11817. 2024. URL: https://arxiv.org/abs/2401.11817

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).