Automatic Generation of Scientific Articles Abstracts Based on Large Language Models

Cover Page

Cite item

Full Text

Abstract

The concept of automation of the process of annotation of scientific materials (Russian-language scientific articles) is proposed and its practical implementation is carried out by means of machine learning technologies, and additional training of large language models. The relevance of correct and rational compilation of annotations is indicated, and the problems related to establishing a balance between the time-consuming process of annotation and ensuring compliance with key requirements for annotation are highlighted. The basics of annotation presented in the family of standards on information, librarianship, and publishing are analyzed, and the classification of annotations and requirements for their content and functionality is given. The essence and content of the annotation process, and the typical structure of the research object are presented schematically. The issue of integration of digital technologies into the annotation process is analyzed, and special attention is paid to the advantages of introducing machine learning and artificial intelligence technology. The digital toolkit used to generate text in natural language processing applications is briefly described. Its shortcomings for solving the problem posed in this scientific article are noted. The research part substantiates the choice of the machine learning model used to solve the problem of conditional text generation. The existing pre-trained large language models are analyzed and, considering the problem statement and existing limitations of computing resources, the ruT5-base model is selected. A description of the dataset is given, including scientific articles from journals included in the list of peer-reviewed scientific publications in which the main scientific results of dissertations for the degrees of candidate and doctor of science should be published. The data labeling technique based on the operation of the tokenizer of the pre-trained large language model is characterized, and the numerical characteristics of the dataset distributions and the parameters of the training pipeline are presented graphically and in tables. The ROUGE quality metric is used to evaluate the model, and the expert assessment method, including grammar and logic as basic criteria, is used to evaluate the results. The quality of automatic annotation generation is comparable to real texts and meets the requirements of information content, structure and compactness. The article may be of interest to an audience of scientists and researchers seeking to optimize their scientific activities in terms of integrating digitalization tools into the process of writing articles, as well as to specialists involved in training large language models.

About the authors

A. N Golubinskiy

Institute for Information Transmission Problems (Kharkevich Institute) Russian Academy of Sciences

Email: annikgol@mail.ru
Bolshoy Karetny Lane 19/1

A. A Tolstykh

OOO “RTK”

Email: tolstykh.aa@yandex.ru
Vysokovoltny Av. 1/49

M. Yu Tolstykh

Moscow State Linguistic University

Email: marina_lion@mail.ru
Koptevskaya St. 63

References

  1. Жмудь В.А. Методы научных исследований: учебное пособие. Москва: Ай Пи Ар Медиа. 2024. 344 c.
  2. Мейлихов Е.З. Искусство писать научные статьи: научно-практическое руководство. Долгопрудный: Издательский Дом «Интеллект». 2020. 335 c.
  3. ГОСТ 7.9-95 (ИСО 214-76). Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования // М.: Госстандарт России. 1995.
  4. ГОСТ Р 7.0.99-2018 (ИСО 214:1976). Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования // М.: Госстандарт России. 2018.
  5. ГОСТ 7.86-2003. Система стандартов по информации, библиотечному и издательскому делу. Издания. Общие требования к издательской аннотации // М.: Госстандарт России. 2003.
  6. ГОСТ Р 7.0.7-2021. Система стандартов по информации, библиотечному и издательскому делу. Статьи в журналах и сборниках. Издательское оформление // М.: Госстандарт России. 2021.
  7. Курицкая Е.В. Технология написания аннотации к техническому тексту // Актуальные вопросы современного языкознания и тенденции преподавания иностранных языков: теория и практика: Материалы III Всероссийской научно-практической конференции (Кострома, 20 октября 2022 г.). Кострома: Военная академия радиационной, химической и биологической защиты имени Маршала Советского Союза С.К. Тимошенко (г. Кострома) Министерства обороны Российской Федерации. 2023. С. 93–99.
  8. Schmarzo B. The Economics of Data, Analytics, and Digital Transformation: The theorems, laws, and empowerments to guide your organization's digital transformation // Packt Publishing. 2020. 260 р.
  9. Reinsel D., Gantz J., Rydning J. The Digitization of the World From Edge to Core // An IDC White Paper. 2018. 28 р.
  10. Толстых М.Ю. К вопросу обеспечения процессов цифровой трансформации в системе обучения // Цифровая трансформация образования: современное состояние и перспективы: Сборник научных трудов по материалам II Международной научно-практической конференции (Курск, 17–18 ноября 2023 г.). Курск: Курский государственный медицинский университет, 2024. С. 439–442.
  11. Хлыбова М.А. Цифровые технологии в обучении написанию аннотаций в магистратуре неязыкового вуза // Филологический аспект. 2023. № 05(22). С. 55–58.
  12. Солдатенкова Ю.А. YandexGPT и ChatGPT: характеристика, сравнение и основные отличия нейросетей // Моя профессиональная карьера. 2023. Т. 3. № 55. С. 277–284.
  13. Lal К., Sharma B. Research Integrity & Ethics Scientific Misconduct // National Seminar on Academic Integrity and Research Ethics. At: DIT University, Dehradun. 2023. pр. 129–143.
  14. Zmitrovich D., Abramov A., Kalmykov A., Tikhonova M., Taktasheva E., Astafurov D., Baushenko M., Snegirev A., Kadulin V., Markov S., Shavrina T., Mikhailov V., Fenogenova A. A Family of Pretrained Transformer Language Models for Russian: arXiv:2309.10931. arXiv. 2023.
  15. Touvron H. et al. Llama 2: Open Foundation and Fine-Tuned Chat Models: arXiv:2307.09288. arXiv. 2023.
  16. Brown T.B. et al. Language Models are Few-Shot Learners: arXiv:2005.14165. arXiv. 2020.
  17. Tunstall L., Werra L. von, Wolf T. Natural Language Processing with Transformers, Revised Edition. 1st edition. Sebastopol: O’Reilly Media, Inc. 2022. 406 p.
  18. Lin C.-Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out. Barcelona. 2004. pр. 74–81.
  19. Ravenscroft J., Oellrich A., Saha S., Liakata M. Multi-label Annotation in Scientific Articles – The Multi-label Cancer Risk Assessment Corpus // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016. pр. 4115–4123.
  20. Sun J., Wang Y., Li Z. An Improved Template Representation-based Transformer for Abstractive Text Summarization // IEEE International Joint Conference on Neural Network. 2020. рp. 1–8.
  21. Amusat O., Hegde H., Mungall C.J., Giannakou A., Byers N.P., Gunter D., Fagnan K., Ramakrishnan L. Automated Annotation of Scientific Texts for ML-based Keyphrase Extraction and Validation. arXiv.2311.05042. arXiv, 2023.
  22. Гуцыкова С.В. Метод экспертных оценок: теория и практика. Москва: Издательство «Институт психологии РАН». 2011. 144 c.
  23. Щеглов И.А. Роль студентоориентированного подхода в социализации экспертизы // Гуманитарный вестник. 2021. № 4(90). С. 1–15.
  24. Уилке К. Основы визуализации данных. Пособие по эффективной и убедительной подаче информации. Москва: Бомбора, 2024. 352 с.
  25. Иванов Б.Н. Теория вероятностей и математическая статистика: учебное пособие для вузов. Издание третье. Санкт-Петербург: Лань. 2024. 224 с.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».