За пределами тематического моделирования: анализ исторического текста с помощью больших языковых моделей
- Авторы: Кузнецов А.В.1
-
Учреждения:
- Институт всеобщей истории РАН
- Выпуск: № 4 (2024)
- Страницы: 47-65
- Раздел: Статьи
- URL: https://journals.rcsi.science/2585-7797/article/view/367309
- DOI: https://doi.org/10.7256/2585-7797.2024.4.72560
- EDN: https://elibrary.ru/UOIKPJ
- ID: 367309
Цитировать
Полный текст
Аннотация
Статья посвящена исследованию потенциала больших языковых моделей для тематического анализа исторических текстов. В качестве материала для исследования выбран дневник вологодского гимназиста Кирилла Антоновича Березкина, охватывающий период с января по сентябрь 1849 г. Этот дневник представляет собой уникальный источник для изучения повседневной жизни, мировоззрения и социальных взаимодействий молодого человека в провинциальной России середины XIX века. Записи К. Березкина затрагивают широкий спектр тем от учебы и семейных отношений до размышлений о политике, религии, литературе и искусстве. Анализ дневника позволяет погрузиться в атмосферу эпохи, понять ценности и стремления молодого дворянина на пороге взрослой жизни, а также проследить формирование его личности под влиянием исторического контекста. В исследовании применялась модель Gemini 1.5 Pro, которая способна обрабатывать объемные текстовые данные. Текст дневника анализировался как целиком, так и по отдельным месяцам, что позволило выявить специфические аспекты содержания. Новизна исследования заключается в применении современных больших языковых моделей для анализа русскоязычного исторического текста. Результаты показали, что Gemini 1.5 Pro способна эффективно выделять ключевые темы в дневнике, предоставляя интерпретируемые результаты. Модель успешно идентифицировала восемь основных тем, отражающих различные аспекты жизни гимназиста. Применение параллельного промптинга с помесячным разбиением текста позволило выявить более специфические темы и нюансы, которые упускались при анализе полного текста. Исследование подтвердило эффективность больших языковых моделей для анализа исторических источников, открывая новые возможности для автоматизации процесса тематического моделирования и выявления скрытых паттернов в больших массивах текстовых данных. Однако, стохастическая природа больших языковых моделей требует многократного анализа и тщательной интерпретации результатов, а также критического сопоставления с данными традиционных методов исторического анализа.
Об авторах
Алексей Валерьевич Кузнецов
Институт всеобщей истории РАН
Email: kuznetsovaleks@rambler.ru
ORCID iD: 0000-0003-4755-250X
научный сотрудник;
Список литературы
Березкин К. А. Дневник / Подготовка текста к загрузке: Анна Завина, Антон Микерин. [Электронный ресурс]. // Электронный корпус «Прожито». URL: https://corpus.prozhito.org/person/925 Березкин К. А. Дневник: к 190-летию К. А. Березкина / под ред. Г. Л. Шалагиной. 2-е изд., доп. СПб.; Вологда: Киселев А. В., 2020. Воронцов К. В. Обзор вероятностных тематических моделей // Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. М.: Изд-во НИУ ВШЭ, 2017. С. 195–268. Дневник Кирилла Антоновича Березкина / под ред. Г. Л. Шалагиной. СПб., 2014. Кузнецов А. В. Проблемы интерпретации результатов тематического моделирования в исторических исследованиях // Актуальные проблемы гуманитарных и общественных наук: Сборник статей IX Всероссийской научно-практической конференции. Пенза, 2023. С. 90–91. Милкова М. А. Тематические модели как инструмент «Дальнего чтения» // Цифровая экономика. 2019. № 1(5). С. 57–70. Agrawal A., Fu W., Menzies T. What is wrong with topic modeling? And how to fix it using search-based software engineering // Information and Software Technology. 2018. Vol. 98. Pp. 74–88. Althage M. Potenziale und Grenzen der Topic-Modellierung mit Latent Dirichlet Allocation für die Digital History // Digital History: Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft. 2022. Vol. 6. No. 24. P. 255–277. Binkley D., Heinz D., Lawrie D., Overfelt J. Understanding LDA in source code analysis // Proceedings of the 22nd International Conference on Program Comprehension. ACM, 2014. Pp. 26–36. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. Vol. 3. Pp. 993–1022. Blevins C. Topic Modeling Historical Sources: Analyzing the Diary of Martha Ballard // DH. 2011. Pp. 97–99. Bodrunova S. S. Topic Modeling in Russia: Current Approaches and Issues in Methodology // The Palgrave Handbook of Digital Russia Studies. 2021. Pp. 409–426. de Melo T., Merialdo P. Beyond Topic Modeling: Comparative Evaluation of Topic Interpretation by Large Language Models // Intelligent Systems Conference. Cham: Springer Nature Switzerland, 2024. Pp. 215–230. Denny M. J., Spirling A. Text preprocessing for unsupervised learning: Why it matters, when it misleads, and what to do about it // Political Analysis. 2018. Vol. 26. No. 2. Pp. 168–189. Doi T., Isonuma M., Yanaka H. Topic Modeling for Short Texts with Large Language Models // Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop). 2024. Pp. 21–33. Garcia G. G., Weilbach C. If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History // arXiv preprint arXiv:2310.10808. 2023. URL: https://arxiv.org/abs/2310.10808 Gillings M., Hardie A. The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice // Digital Scholarship in the Humanities. 2023. Vol. 38. No. 2. Pp. 530–543. Goldstone A., Underwood T. The quiet transformations of literary studies: What thirteen thousand scholars could tell us // New Literary History. 2014. Vol. 45. No. 3. Pp. 359–384. Götter C. Künstliche Intelligenz und Geschichtswissenschaft. Mehr als ein neues Werkzeug für die Digital History? // Historische Zeitschrift. 2024. Vol. 319. No. 2. S. 299–330. Huang L. et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions // arXiv preprint arXiv:2311.05232. 2023. URL: https://arxiv.org/abs/2311.05232 Jockers M. L., Mimno D. Significant themes in 19th-century literature // Poetics. 2013. Vol. 41. No. 6. Pp. 750–769. Kansteiner W. Digital doping for historians: Can history, memory, and historical theory be rendered artificially intelligent? // History and Theory. 2022. Vol. 61. No. 4. Pp. 119–133. Kirilenko A. P., Stepchenkova S. Facilitating topic modeling in tourism research: Comprehensive comparison of new AI technologies // Tourism Management. 2025. Vol. 106. P. 105007. König M. ChatGPT und Co. in den Geschichtswissenschaften – Grundlagen, Prompts und Praxisbeispiele // Digital Humanities am DHIP. 19. August 2024. URL: https://dhdhi.hypotheses.org/9197 DOI: https://doi.org/10.58079/126eo Li D., Zhang B., Zhou Y. Can large language models (LLM) label topics from a topic model? // SocArXiv. 2023. URL: https://doi.org/10.31235/osf.io/23x4m Liu N. F. et al. Lost in the middle: How language models use long contexts // Transactions of the Association for Computational Linguistics. 2024. Vol. 12. Pp. 157–173. McGillivray B., Buning B., Hengchen S. Topic Modelling: Hartlib's Correspondence Before and After 1650 // Reassembling the Republic of Letters in the Digital Age. Göttingen, 2019. Pp. 426–428. Mu Y. et al. Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling // arXiv preprint arXiv:2405.00611. 2024. URL: https://arxiv.org/abs/2405.00611 Mu Y. et al. Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). 2024. Pp. 10160–10171. Newman D. J., Block S. Probabilistic Topic Decomposition of an Eighteenth-Century American Newspaper // Journal of the American Society for Information Science and Technology. 2006. Vol. 57. No. 6. Pp. 753–776. Oiva M. Topic Modeling Russian History // The Palgrave Handbook of Digital Russia Studies. 2021. Pp. 427–442. Pham C. et al. TopicGPT: A Prompt-based Topic Modeling Framework // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024. Pp. 2956–2984. Phoenix J., Taylor M. Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs at Scale. O’Reilly Media, Inc., 2024. Pollin Ch. Workshopreihe «Angewandte Generative KI in den (digitalen) Geisteswissenschaften» (v1.1.0). Zenodo. URL: https://doi.org/10.5281/zenodo.10647754 Pu X., Gao M., Wan X. Summarization is (almost) dead // arXiv preprint arXiv:2309.09558. 2023. URL: https://arxiv.org/abs/2309.09558 Schulhoff S. et al. The Prompt Report: A Systematic Survey of Prompting Techniques // arXiv preprint arXiv:2406.06608. Solanki S. R., Khublani D. K. Generative Artificial Intelligence: Exploring the Power and Potential of Generative AI. Apress, 2024. Stammbach D. et al. Revisiting automated topic model evaluation with large language models // arXiv preprint arXiv:2305.12152. 2023. URL: https://arxiv.org/abs/2305.12152 Villamor Martin M., Kirsch D. A., Prieto-Nañez F. The promise of machine-learning-driven text analysis techniques for historical research: topic modeling and word embedding // Management & Organizational History. 2023. Vol. 18. No. 1. Pp. 81–96. Wang H. et al. Prompting large language models for topic modeling // 2023 IEEE International Conference on Big Data (BigData). IEEE, 2023. Pp. 1236–1241. Wehrheim L. Economic History Goes Digital: Topic Modeling the Journal of Economic History // Cliometrica. 2019. Vol. 13. No. 1. Pp. 83–125. Xu Z., Jain S., Kankanhalli M. Hallucination is inevitable: An innate limitation of large language models // arXiv preprint arXiv:2401.11817. 2024. URL: https://arxiv.org/abs/2401.11817
Дополнительные файлы

