Cosine similarity measure to process the unfinished sentences (using the example of studying the image of a patriot)

Cover Page

Cite item

Full Text

Abstract

In the context of the intensive development of natural language processing methods, the question arises about the integration of innovative technologies into the work processes of sociologists. Social scientists often face the need to process text data obtained both as part of their own research projects and on the Internet. Obviously, using available online sources as a database places increased demands on the techniques and procedures for processing a huge corpus of documents, often exceeding several hundred thousand lines. However, it is not beyond the scope of attention to work with the materials of author’s sociological research of a much smaller volume, which often require significant labor and time resources if they are processed manually. In this case, the consistency of collective coding and the role of the subjective opinion of experts in the generalization or grouping of data raises questions. The purpose of the article is to show the possibilities and limitations of using the cosine similarity measure to process the results of the unfinished sentences method. The empirical basis of the study was the materials obtained during the study of the image of a patriot in one of the Moscow universities in March 2025. A total of 70 students participated in the study. The article processed responses to a stimulus sentence, which the respondents had to complete in their own words: “A patriot always...” The results of calculating the cosine similarity measure have shown that this metric can be a useful tool in the initial search for statements that are similar in content. In case of doubt and the need to verify their conclusions or solve the problem of consistency of collective coding, the use of a measure of semantic proximity can act as a significant additional quantitative indicator to determine the thematic focus of each respondent’s utterance. Thus, using the cosine similarity assessment, it is possible to group the texts that are closest in semantic load, thereby bringing closer to understanding the general structure of the studied image and the thesaurus of the study participants. In conclusion, a conclusion is drawn about the modern requirements for the training of specialists in the social and humanitarian fields, which raises new methodological questions and opens up discussions about the optimal integration of technological advances in natural language processing into the analytical practices of social scientists and researchers.

About the authors

Antonina N. Pinchuk

Plekhanov Russian University of Economics

Email: antonina.pinchuk27@bk.ru
ORCID iD: 0000-0001-7842-7141
SPIN-code: 7853-0878
ResearcherId: J-8648-2018
Candidate of Sociology, Associate Professor Moscow, Russia

Dmitry A. Tikhomirov

Plekhanov Russian University of Economics

Email: dat1983@yandex.ru
ORCID iD: 0000-0002-1872-6788
SPIN-code: 3369-3077
ResearcherId: AAS-4884-2021
Candidate of Sociology, Associate Professor Moscow, Russia

Egor V. Vakhnenko

Plekhanov Russian University of Economics

Email: egor.vakhnenko@mail.ru
SPIN-code: 2707-9952
Student Moscow, Russia

References

  1. Бызов А. А. Интеллектуальный анализ текстов в социальных науках // Социология: методология, методы, математическое моделирование (Социология: 4М). 2019. № 49. С. 131–160. EDN GCIIVL.
  2. Hampton K. N. Studying the Digital: Directions and Challenges for Digital Methods // Annual Review of Sociology. 2017. № 43 (1). P. 167–188. doi: 10.1146/annurevsoc-060116-053505.
  3. Пузанова Ж. В. «Одиночество» как предмет эмпирического анализа // Социология: методология, методы, математическое моделирование (Социология: 4М). 2009. № 29. С. 132–154. EDN KNOYNZ.
  4. Зубова О. Г. Проективные методики в социологических исследованиях: теория и практика // Вестник Московского университета. Серия 18. Социология и политология. 2023. № 29 (1). С. 194–218. doi: 10.24290/1029-3736-2023-29-1-194-218. EDN RUIPJM.
  5. Татарова Г. Г. Основы типологического анализа в социологических исследованиях. М. : Высшее Образование и Наука, 2007. 236 с. ISBN 5-94084-047-7. EDN QOGTDB.
  6. Троцук И. В., Субботина М. В. «Ядро» и «периферия» понятий «счастье» и «справедливость»: метод неоконченных предложений как инструмент валидизации // Вестник РУДН. Серия: Социология. 2022. Т. 22, № 4. С. 782–801. doi: 10.22363/23132272-2022-22-4-782-801. EDN TAPIWN.
  7. Климова С. Г. Опыт использования методики неоконченных предложений в социологическом исследовании // Социология: методология, методы, математические модели (Социология: 4М). 1995. № 5-6. С. 49–64. EDN PFTWHV.
  8. Ольшанский В. Б. Становление метода неоконченных предложений в Советском Союзе 70-х гг. // Социология: методология, методы, математические модели (Социология: 4М). 1997. № 9. С. 82–97. EDN PFTWRB.
  9. Татарова Г. Г., Бурлов А. В. Метод неоконченных предложений в изучении образа («культурный человек») // Социология: методология, методы, математическое моделирование (Социология: 4М). 1997. № 9. С. 5–31. EDN PFTWPN.
  10. Татарова Г. Г., Бурлов А. В. Логическая организация анализа данных, полученных методом неоконченных предложений // Социологические исследования. 1999. № 8. С. 123–133. EDN SNBITP.
  11. Бурлов А. В. Метод неоконченных предложений в социологии: стратегии использования и логика анализа данных : дис. ...канд. соцол. наук : 22.00.01 / Бурлов Антон Вячеславович. М. : ИС РАН, 2001. 179 с. EDN QDMELN.
  12. Тихомиров Д. А., Новицкая К. В. Представления молодёжи Москвы о гендерных ролях и характеристиках современной женщины // Горизонты гуманитарного знания. 2018. № 3. С. 90–102. doi: 10.17805/ggz.2018.3.6. EDN VMKDDA.
  13. Сикевич З. В., Фёдорова А. А. «Мы – русские» (ассоциативные этнические образы молодых петербуржцев) // Социологическая наука и социальная практика. 2019. Т. 7, № 3 (27). С. 40–56. doi: 10.19181/snsp.2019.7.3.6688. EDN CPKOVO.
  14. Субботина М. В. Применение метода неоконченных предложений в изучении понятий со сложными коннотациями: концептуализация героизма и справедливости // Общество: социология, психология, педагогика. 2021. № 5 (85). С. 88–96. doi: 10.24158/spp.2021.5.15. EDN EXIGEF.
  15. Бубнов А. Ю., Савельева М. А. Память о Великой Отечественной войне: сравнительный анализ взглядов российской и белорусской молодёжи // Наука. Общество. Оборона. 2021. Т. 9, № 2 (27). С. 13. doi: 10.24412/2311-1763-2021-2-13-13. EDN VCTHOA.
  16. Савенкова А. С., Субботина М. В. Возможности метода неоконченных предложений в изучении «культуры отмены» // Вестник РУДН. Серия: Социология. 2024. Т. 24, № 3. С. 660–683. doi: 10.22363/2313-2272-2024-24-3-660-683. EDN DXLFCJ.
  17. Татарова Г. Г., Чиркова А. В. Здоровьесберегающее поведение молодёжи: формирование типообразующих признаков методом неоконченных предложений // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 25–61. doi: 10.19181/snsp.2024.12.1.2. EDN GWRDZA.
  18. Сикевич З. В. Опыт применения процедуры неоконченных предложений в социологическом исследовании // Вестник Санкт-Петербургского университета. Социология. 2019. Т. 12, № 4. С. 317–328. doi: 10.21638/spbu12.2019.402. EDN XKAFTS.
  19. Андриевская Н. К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. 2021. № 1 (20). С. 4–17. EDN ZDZKGK.
  20. Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина [и др.] // Проблемы управления. 2010. № 5. С. 2–14. EDN MUVNSP.
  21. Бермудес С. Х. Г. Метод измерения семантического сходства текстовых документов // Известия ЮФУ. Технические науки. 2017. № 3 (188). С. 17–29. doi: 10.23683/23113103-2017-3-17-29. EDN ZDHXJR.
  22. Белова К. М., Судаков В. А. Исследование эффективности методов оценки релевантности текстов // Препринты ИПМ им. М. В. Келдыша. 2020. № 68. С. 1–16. doi: 10.20948/prepr-2020-68. EDN CYCEWZ.
  23. Рассел М., Классен М. Data Mining. Извлечение информации из Facebook, Twitter, LinkedIn, Instagram, GitHub. СПб. : Питер, 2020. 464 с. ISBN 978-5-4461-1246-3.
  24. Sarika K., Vijay Kumar A., Vijay R. Beyond Text: Exploring Multimodal BERT Models // Journal of Computer Science Applications and Information Technology. 2025. № 10 (1). P. 1–6. doi: 10.15226/2474-9257/10/1/00164.
  25. BERT applications in natural language processing: a review / N. M. Gardazi, A. Daud, M. K. Malik [et al.] // Artif Intell Rev. 2025. Vol. 58. № 166. doi: 10.1007/s10462-02511162-5.
  26. Semantic Textual Similarity in Japanese Clinical Domain Texts Using BERT / F. W. Mutinda, Sh. Yada, Sh. Wakamiya, E. Aramaki // Methods of Information in Medicine. 2021. Т. 60, № S01. Р. e56–64. doi: 10.1055/s-0041-1731390. EDN QQSZZL.
  27. Syaifudin M. F., Adiatmaja G., Hidayaturrohman B. Calculation of Similarity between MUI Fatwas: A Comparison of Text Extraction Features and String Matching Algorithms // Halal Research Journal (HRJ). 2025. Vol. 5, № 1. Р. 1–13. doi: 10.12962/j22759970. v5i1.1226. EDN SWVYVB.
  28. Пузанова Ж. В., Тертышникова А. Г. Метод неоконченных предложений в исследовании социальных представлений (на примере образа террориста) // Tеория и практика общественного развития. 2015. № 4. С. 12–15. EDN TKAMQH.
  29. Пинчук А. Н., Тихомиров Д. А. Образ коррупционера в восприятии российской молодёжи: применение метода неоконченных предложений // Вестник Института социологии. 2019. Т. 10, № 2. С. 12–27. doi: 10.19181/vis.2019.29.2.573. EDN UFIZXB.
  30. Желизнык М. Н. Опыт использования метода неоконченных предложений в изучении образов «героя» и «антигероя» нашего времени // Мониторинг общественного мнения: экономические и социальные перемены. 2024. № 1 (179). С. 257–275. doi: 10.14515/monitoring.2024.1.2460. EDN TKBIIJ.
  31. Пинчук А. Н., Карепова С. Г., Тихомиров Д. А. Технологии Text Mining в социологическом анализе (на примере изучения представлений студентов о миссии современного вуза) // Социологическая наука и социальная практика. 2024. Т. 12, № 1. С. 62–79. doi: 10.19181/snsp.2024.12.1.3. EDN LOUOJW.

Supplementary files

Supplementary Files
Action
1. JATS XML


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).