Analysis of patient reviews using machine learning and linguistic methods

Cover Page

Cite item

Full Text

Abstract

With the advancement of digitalization, traditional methods of surveying consumers to assess their satisfaction with service quality are being replaced by approaches based on the automatic processing of text data from social media. This study aims to determine the degree of patient satisfaction with the quality of medical services by developing and testing an algorithm for classifying Russian-language text reviews collected from social media platforms. The focus is on analyzing the sentiment (positive/negative) of patient reviews about medical institutions and doctors, as well as identifying the review's subject—either the quality of medical services provided or the organization of patient care by the institution. A method was developed for classifying text reviews about the work of medical institutions posted by patients on two Russian doctor review platforms. Approximately 60,000 reviews were analyzed. Machine learning techniques, including various artificial neural network architectures, were tested. The classification algorithm demonstrated high efficiency, with the best performance achieved using a recurrent neural network architecture (accuracy = 0.9271). Incorporating named entity recognition into text analysis further enhanced the classification efficiency across all neural network-based classifiers. To improve classification quality, the study highlights the need for semantic segmentation of reviews by their subject and sentiment, followed by the separate analysis of these fragments.

Full Text

Введение

В настоящее время процесс анкетирования для оценки удовлетворённости потребителей набором услуг начал уступать место подходу, основанному на автоматической обработке текстов в социальных медиа с возможностью извлечения семантики. При использовании такого подхода выборка становится более представительной и независимой, а результаты анализа более достоверно отражают отношение потребителей. Особенно важно проведение подобного анализа в таких сферах деятельности человека, как медицина.

Целью работы является определение степени удовлетворённости качеством медицинских услуг пациентов путём классификации русскоязычных текстовых отзывов, извлечённых из социальных медиаресурсов, о работе медицинских учреждений и врачей.

Для достижения данной цели необходима разработка программных классификаторов, позволяющих разделить анализируемые текстовые данные по группам в соответствии с выбранными критериями: эмоциональная окраска; объект или субъект применения; причинно-следственная составляющая и пр. Жанровые и речевые особенности текстов в социальных медиа порождают необходимость разработки интеллектуальных алгоритмов классификации текстов, позволяющих проводить подробный анализ текстовых отзывов с учётом особенностей предметной области.

Онлайн-отзывы и онлайн-рейтинги формируют неформальные коммуникации, направленные на потребителей посредством интернет-технологий, связанные с использованием или характеристиками конкретных товаров и услуг или их продавцов [1]. Это активно используется в здравоохранении для оценки деятельности врачей и больниц.

На отзыв пациента могут влиять личностные характеристики врача: пол, возраст, специальность [2–5]. Например, более высокие оценки у врачей-женщин [2, 3], акушеров-гинекологов и врачей более молодого возраста [6]. В зависимости от частоты использования веб-сайтов для рейтингования врачей [7, 8] пользователи, имеющие разные ключевых характеристики, по-разному оценивают значимость онлайн-отзывов о врачах [9]. В качестве данных используются одновременно значение рейтинга и тексты комментариев [10]. В частности, выявлены факторы, влияющие на положительные оценки врача, связанные с его характеристиками и другими, не зависящими от него факторами.

В ряде исследований используются в качестве основы данных массивы текстов отзывов о врачах [11, 12]. Оценки врачей в социальных медиа могут дополнять информацию, предоставляемую традиционными опросами пациентов, и способствовать пониманию пациентами качества услуг, предоставляемых врачом или медицинским учреждением [13].

Анализ социальных медиа включает:

1)извлечение из различных ресурсов соответствующего контента социальных сетей [14];

2)выбор данных для прогнозного моделирования анализа настроений;

3)визуализация выводов, полученных в результате анализа [15].

Для анализа настроений на основе полученных данных можно использовать контролируемые и неконтролируемые методы [16]. Основные подходы к классификации полярности анализируемых текстов включают слово, предложение или абзацы.

В [17] рассмотрены методы интеллектуального анализа текста, в т.ч. на основе машинного обучения и онтологий, а также с использованием гибридного подхода. Показано, что не существует алгоритма, который бы работал хорошо для всех типов данных.

В [18] рассмотрены различные типы классификаторов текста, в частности: байесовский классификатор; дерево решений; K-ближайшего соседа (K-NN); метод опорных векторов (SVM); искусственная нейронная сеть (НС) на основе многослойного перцептрона; алгоритм Роккио. Общим недостатком всех алгоритмов является их низкая производительность.

В [19] рассмотрены два подхода к классификации текста: подход «Мешок слов»; сетевая классификация. Выделено 18 классов и классифицированы актуальные темы. Показано, что сетевой классификатор работал значительно лучше, чем текстовый. В [20] обсуждаются методы, позволяющие преодолеть трудности классификации коротких текстов на основе потоковых данных в социальных сетях.

В [21] предложена многомерная структура классификации текстовых документов. Показано, что классификация на основе многомерной модели категорий с использованием многомерных и иерархических классификаций превосходит плоскую классификацию.

В статье [22] предложен метод точной настройки модели, обученной с использованием некоторых известных документов, содержащих более богатую контекстную информацию.

Как показал приведённый обзор, в настоящее время не существует единого подхода к классификации текстовых ресурсов. Результаты категоризации зависят от предметной области, репрезентативности обучающей выборки и других факторов. Поэтому актуальной является задача разработки и применения интеллектуальных методов анализа отзывов об оказании медицинских услуг.

1 Модели классификации отзывов о медицинских услугах

В настоящем исследовании разработан метод классификации текстовых отзывов, полученных из социальных медиа. Результатом классификации стало распределение текстовых отзывов по следующим основаниям:

  • тональность текста: положительная или отрицательная;
  • объект адресации: отзыв о медицинском учреждении или о конкретном враче.

Для классификации отзывов были апробированы методы машинного обучения с использованием различных архитектур НС. В данном исследовании предложено три архитектуры НС, которые зарекомендовали себя наилучшим образом в задачах небинарной классификации текстовых данных. Эффективность предложенных алгоритмов сопоставлена с результатами классификации текстов с использованием моделей, показывающих хорошие результаты при бинарной классификации (BERT и SVM) [23, 24].

1.1 Сеть долгой краткосрочной памяти

Общая архитектура LSTM (Long Short-Term Memory) – сети, представленная на рисунке 1, состоит из следующих слоёв:

  • Слой Embedding – входной слой НС, состоящий из нейронов:

Emb=SizeD, SizeSvec, LSec, где SizeD – размер словаря в текстовых данных;

SizeSvec  – размер векторного пространства, в которое будут вставлены слова; SizeSvec=32;

LSec – длина входных последовательностей, равная максимальному размеру вектора, сформированного при предобработке слов.

  • Слой LSTM – рекуррентный слой НС. Включает 32 блока.
  • Слой Dense – выходной слой, состоящий из четырёх нейронов. Каждый нейрон отвечает за выходной класс. Функция активации – «softmax».

 

Рисунок 1 – LSTM-сеть: общая архитектура (а), LSTM-слой (б)

 

1.2 Рекуррентная НС

Общая архитектура рекуррентной НС, представленная на рисунке 2, состоит из следующих слоёв:

  • Слой Embedding – входной слой НС.
  • Слой GRU – рекуррентный слой НС. Включает 16 блоков.
  • Слой Dense – выходной слой, состоящий из четырёх нейронов. Функция активации – «softmax».

 

Рисунок 2 – Общая архитектура рекуррентной нейронной сети

 

1.3 Свёрточная НС

Общая архитектура свёрточной НС (Convolutional neural network, CNN), представленная на рисунке 3, состоит из следующих слоёв:

  • Слой Embedding – входной слой НС.
  • Слой Conv1D – свёрточный слой, необходим для глубокого обучения. С данным слоем точность классификации текстовых сообщений повышается. Функция активации – «relu».
  • Слой MaxPooling1D – слой, отвечающий за уменьшение размерности сформированных карт признаков. Максимальный пул равен 2.
  • Слой Dense – первый выходной слой, состоящий из 128 нейронов. Функция активации – «relu».
  • Слой Dense – итоговый выходной слой, состоящий из четырёх нейронов. Функция активации – «softmax».

 

Рисунок 3 – Общая архитектура свёрточной нейронной сети

 

1.4 Использование лингвистических алгоритмов

Особенностью анализируемых текстовых отзывов является наличие элементов разных классов внутри одного отзыва. Для повышения качества классификации объединены наиболее эффективные методы машинного обучения с лингвистическими методами, которые учитывают речевые и грамматические особенности языка текста. Общая схема алгоритма классификации представлена на рисунке 4.

 

Рисунок 4 – Общая схема алгоритма классификации

 

В качестве лингвистической составляющей разработанного алгоритма принята совокупность методов предобработки, валидации и детектирования именованных сущностей (имена врачей клиники).

2 Программная реализация системы классификации текстов

В качестве модуля для лингвистического анализа текста на русском языке использовалась библиотека Natasha на Python. С помощью данной библиотеки решаются базовые задачи обработки русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение, нормализация и детектирование именованных сущностей. Библиотека использовалась для поиска и извлечения именованных сущностей.

Для процессов инициализации, обучения НС, а также оценки эффективности классификации использовались следующие библиотеки:

  • Tensorflow – открытая программная библиотека для машинного обучения.
  • Keras – библиотека глубокого обучения, представляющая высокоуровневый API на Python, способный работать поверх TensorFlow.
  • Numpy – библиотека на Python, предназначенная для работы с многомерными массивами.
  • Pandas – библиотека на Python, предоставляющая специальные структуры данных и операции для работы с числовыми таблицами и временными рядами.

Для обучения моделей использован Google Colab.

3 Результаты экспериментов по классификации текстовых отзывов

3.1 Набор данных

Для оценки эффективности предложенных подходов проведён ряд экспериментов по классификации текстовых отзывов о медицинских услугах клиник и врачей. В качестве исходных данных использовались текстовые отзывы агрегаторов prodoctorov.ru и infodoctor.ru.

Извлечённые данные имели следующий перечень переменных:

  • city – город, в котором оставлен отзыв;
  • text – текст отзыва;
  • author_name – имя автора отзыва;
  • date – дата написания отзыва;
  • day – день написания отзыва;
  • month – месяц написания отзыва;
  • year – год написания отзыва;
  • doctor_or_clinic - бинарная переменная (отзыв написан о враче ИЛИ о клинике);
  • spec – специальность врача (для отзывов, посвящённых врачам);
  • gender – пол автора отзыва;
  • id – идентификационный номер отзыва.

По условиям экспериментов максимальное число слов в отзыве равно 90.

3.2 Результаты эксперимента по классификации текстовых отзывов по тональности

Для апробации алгоритмов определения тональности сформирована база из 5037 комментариев с сайта prodoctorov.ru с наличием исходной разметки по тональности и объекту применения.

В качестве алгоритма векторизации текстовых данных использовалась языковая модель RuBERT. Для бинарной классификации текста на категории (положительный или отрицательный) использовалась модель Трансформер. Соотношение обучающей и тестовой выборок составило 80/20. Результаты работы классификатора на тестовой выборке: Precision = 0,9857, Recall = 0,8909, F1-score = 0,9359. Полученные значения метрик качества работы классификатора позволяют утверждать о возможности применения данной архитектуры бинарного классификатора по тональности текста на источники данных медицинских отзывов.

На данной выборке также апробирован LSTM-классификатор (см. подраздел 1.1). Соотношение обучающей и тестовой выборок составило 80/20. Результаты классификации отзывов с сайта prodoctorov.ru с применением LSTM-сети следующие: позитивный отзыв о враче – 21%; позитивный отзыв о клинике – 54%; негативный отзыв о враче – 5%; негативный отзыв о клинике – 20%.

3.3 Эксперимент по классификации текстовых отзывов с применением различных моделей машинного обучения

Для классификации отзывов с использованием представленных в разделе 1 моделей машинного обучения использовались данные агрегатора infodoctor.ru. Преимущество этого агрегатора перед площадками (prodoctorov.ru, docdoc.ru) состоит в наличии группировки отзывов по рейтингу от одного до пяти для разных городов, что упрощает процедуру сбора данных. Выборки охватывают Москву, Санкт-Петербург и 14 других городов-миллионников России, по которым есть возможность сформировать минимально представительные выборки (не менее 1000 наблюдений в расчёте на один город), в период с июля 2012 года по август 2023 года. Всего извлечено 58246 отзывов. Примеры выбранных отзывов приведены в таблице 1 (тексты отзывов даны в оригинальном виде).

 

Таблица 1 – Примеры отзывов с сайта infodoctor.ru

Текст отзыва

Информация об отзыве

Класс тональности

Класс объекта применения

1

«Врач очень грубая, совершенно не имеет подход к людям, ваше заболевание её не интересует, для неё важнее пораньше уйти домой. Обращаться к такому врачу больше не хочется. Никому её не советую»

Екатерина,

13.04.2023 г., г. Москва

Отрицательный

О враче

2

«Проходил МРТ брюшной полости. Приняли меня не вовремя. Результаты по обследованию мне выдали сразу, обращусь с ними к врачу. Добираться до клиники мне было удобно. Общались со мной не очень хорошо. Не приду сюда повторно»

Камиль,

17.04.2023 г., г. Москва

Отрицательный

О клинике

3

«Все положительные отзывы составлены маркетологами, с отрицательными они всюду тщательно борются, реальные негативный отзывы пресекают. Клиника очень дорогая и ориентирована чисто на сбор денег, на ваше здоровье там всем глубоко фиолетово»

Анонимный пользователь, 10.04.2023 г.,

 г. Москва

Отрицательный

О клинике

4

«В этой клинике происходит сбор денег, потому что назначают ненужно обследование и ненужные анализы - это я узнала уже, когда все начала проходить, а потом задумалась, зачем мне все это»

Арина,

2.03.2023 г., г. Москва

Отрицательный

О клинике

5

«Плохой врач. Моя проблема - сильная сухость кожи и высыпание на этой почве. ######## сказала только «её надо увлажнять» и всё. Как и чем не сказала. Рекомендации по уходу или дальнейшим действиям пришлось выпрашивать. Ничего не назначила кроме одного крема, после просьб моих»

Без имени,

11.05.2023 г., г. Москва

Отрицательный

О враче

 

Соотношение обучающей и тестовой выборок для всех применяемых алгоритмов составило 80/20. Графики, отражающие результаты классификации на обучающем и тестовом наборах данных для LSTM-, GRU- и CNN-архитектурах, представлены на рисунке 5.

 

Рисунок 5 - Результаты классификации на обучающем и тестовом наборах данных для LSTM-сети (а), GRU-сети (б) и CNN-сети (в).

 

Сравнение показателей эффективности классификации текстовых отзывов представлено в таблице 2, где: Accuracy – точность при обучении; Val_accuracy – точность при проверке; Loss – потери при обучении; Val_loss – потери при проверке. Для оценки достоверности показателей характеристик предложенных моделей на используемом наборе данных проведены эксперименты с применением SVM и RuBERT. Из таблицы 2 видно, что эти алгоритмы показали чуть меньшую эффективность.

 

Таблица 2 – Показатели эффективности классификации текстовых отзывов

Показатели

LSTM

GRU

CNN

SVM

BERT

Accuracy

0.9369

0.9309

0.9772

0.8441

0.8942

Val_accuracy

0.9253

0.9271

0.9112

0.8289

0.8711

Loss

0.1859

0.2039

0.0785

0.3769

0.1729

Val_loss

0.2248

0.2253

0.3101

0.3867

0.2266

 

Одной из особенностей анализируемых текстовых отзывов стало наличие элементов разных классов внутри одного отзыва: одно текстовое сообщение могло содержать отзыв о враче и о клинике. В связи с этим введено два класса – положительный и отрицательный отзывы о клинике и враче – и применён лингвистический метод (Ling) поиска именованных сущностей (см. подраздел 1.4). Применение данного подхода позволило повысить эффективность классификации для всех трёх архитектур искусственных НС. Результаты классификации с использованием рассмотренных алгоритмов представлены на рисунке 6.

 

Рисунок 6 - Результаты классификации с использованием рассмотренных алгоритмов

 

Лингвистический подход применялся только к тем сообщениям, которые на первом этапе НС отнесла к категории «отзыв о клинике».

Применение метода поиска именованных сущностей к текстовым сообщениям позволило повысить эффективность классификации.

Среди отзывов, неправильно классифицированных (в т.ч. с учётом применения Ling), имеется набор длинных текстовых сообщений, которые семантически могут относиться одновременно к разным классам. Это отзывы, которые:

  • характеризуют клинику и врача, но без упоминания конкретного имени, что не позволяет отнести отзыв к смешанному классу;
  • включают противоположные высказывания о клинике, которые касаются разных сторон её функционирования (в первую очередь могут разниться мнения об организационном сопровождении и уровне медицинского обслуживания клиник). Более глубокая категоризация отзывов о клинике позволит повысить качество классификации.

Заключение

В статье представлен метод классификации текстовых отзывов о работе медицинских учреждений, извлечённых из социальных медиаресурсов. Данный метод предполагает применение одной из архитектур искусственных НС (LSTM, CNN, GRU) для классификации отзывов на основные категории (по тональности и по объекту обращения) и лингвистического подхода с извлечением именованных сущностей.

Проведён ряд экспериментов по классификации текстовых отзывов о медицинских услугах клиник и врачей. В качестве исходных данных использовались текстовые отзывы агрегаторов prodoctorov.ru и infodoctor.ru. Проанализировано около 60 тысяч отзывов. По результатам проведённых экспериментов можно сделать следующие выводы.

  • Классификация русскоязычных текстовых отзывов, извлечённых из социальных медиа, о медицинских учреждениях и врачах с использованием НС, имеет высокую эффективность при разбиении по тональности и объекту приложения. Наиболее высокую эффективность классификации показала архитектура на основе GRU (val_accuracy=0.9271).
  • Применение метода поиска именованных сущностей к текстовым сообщениям позволило повысить эффективность классификации.

Авторский вклад

Калабихина И.Е. - постановка и разработка задачи исследования; Мошкин В.С. - разработка и формализация моделей и алгоритмов; Колотуша А.В. - сбор и предобработка обучающего и тестового множества; Кашин М.И. - программная реализация программной системы; Клименко Г.А. - анализ современных подходов; Казбекова З.Г. - разработка и оценка применимости алгоритмов, подготовка обучающего и тестового множества.

×

About the authors

Irina E. Kalabikhina

Moscow State University named after M.V. Lomonosov

Email: ikalabikhina@yandex.ru
ORCID iD: 0000-0002-3958-6630
Scopus Author ID: 57190138890
ResearcherId: N-3625-2013

Doctor of Economics, Professor, Head of the Population Department of the Faculty of Economics, Editor-in-Chief of the journal "Population and Economics"

Russian Federation, Moscow

Vadim S. Moshkin

Ulyanovsk State Technical University

Author for correspondence.
Email: v.moshkin@ulstu.ru
ORCID iD: 0000-0002-9258-4909
Scopus Author ID: 57190250573
ResearcherId: L-3578-2016

PhD, Associate Professor of the Information Systems Department. Vice-Rector for Digital Transformation, Vice-President of the Russian Association of Artificial Intelligence

Russian Federation, Ulyanovsk

Anton V. Kolotusha

Moscow State University named after M.V. Lomonosov

Email: tony_kol@mail.ru
ORCID iD: 0000-0002-3089-3327
Scopus Author ID: 57223390271

Candidate of Economic Sciences, 2nd category programmer of the of the Laboratory of Information and Analytical Resources of the Department of Population of the Economics Faculty

Russian Federation, Moscow

Maksim I. Kashin

Ulyanovsk State Technical University

Email: m.kashin@ulstu.ru

Student of the "Software Engineering" specialty, Junior researcher of the Research Department of the Department of Scientific Research and Innovation

Russian Federation, Ulyanovsk

German A. Klimenko

Moscow State University named after M.V. Lomonosov

Email: german89000@mail.ru
ORCID iD: 0000-0003-3045-7151
Scopus Author ID: 57223391224

Postgraduate student of the Department of Population of the Economics Faculty

Russian Federation, Moscow

Zarina G. Kazbekova

Moscow State University named after M.V. Lomonosov

Email: kazbekova.zarina@bk.ru
ORCID iD: 0000-0002-7567-3184
Scopus Author ID: 57934120000

Candidate of Economic Sciences, Researcher of the Department of Population of the Economics Faculty, Graduate of the postgraduate program of the Department of Population

Russian Federation, Moscow

References

  1. Litvin SW, Goldsmith RE, Pan B. Electronic word-of-mouth in hospitality and tourism management. Tourism management. 2008; 29(3): 458-468. doi: 10.1016/j.tourman.2007.05.011.
  2. Emmert M, Meier F. An analysis of online evaluations on a physician rating website: evidence from a German public reporting instrument. Journal of medical Internet research. 2013; 15(8): e2655. doi: 10.2196/jmir.2655.
  3. Nwachukwu BU, Adjei J, Trehan SK, Chang B, Amoo-Achampong K, Nguyen JT, Ranawat AS. Rating a sports medicine surgeon's “quality” in the modern era: an analysis of popular physician online rating websites. HSS Journal. 2016; 12(3): 272-277. doi: 10.1007/s11420-016-9520-x.
  4. Obele CC, Duszak JrR, Hawkins CM, Rosenkrantz AB. What patients think about their interventional radiologists: assessment using a leading physician ratings website. Journal of the American College of Radiology. 2017; 14(5): 609-614. doi: 10.1016/j.jacr.2016.10.013.
  5. Emmert M, Meier F, Pisch F, Sander U. Physician choice making and characteristics associated with using physician-rating websites: cross-sectional study. Journal of medical Internet research. 2013; 15(8): e2702. doi: 10.2196/jmir.2702.
  6. Gao GG, McCullough JS, Agarwal R, Jha AK. A changing landscape of physician quality reporting: analysis of patients’ online ratings of their physicians over a 5-year period. Journal of medical Internet research. 2012; 14(1): e38. doi: 10.2196/jmir.2003.
  7. Galizzi MM, Miraldo M, Stavropoulou C, Desai M, Jayatunga W, Joshi M, Parikh S. Who is more likely to use doctor-rating websites, and why? A cross-sectional study in London. BMJ open. 2012; 2(6): e001493. doi: 10.1136/bmjopen-2012-001493.
  8. Hanauer DA, Zheng K, Singer DC, Gebremariam A, Davis MM. Public awareness, perception, and use of online physician rating sites. Jama. 2014; 311(7): 734-735. doi: 10.1001/jama.2013.283194.
  9. McLennan S, Strech D, Meyer A, Kahrass H. Public awareness and use of German physician ratings websites: Cross-sectional survey of four North German cities. Journal of medical Internet research. 2017; 19(11): e387. doi: 10.2196/jmir.7581.
  10. Lin Y, Hong YA, Henson BS, Stevenson RD, Hong S, Lyu T, Liang C. Assessing patient experience and healthcare quality of dental care using patient online reviews in the United States: mixed methods study. Journal of Medical Internet Research. 2020; 22(7): e18652. doi: 10.2196/18652.
  11. Emmert M, Meier F, Heider AK, Dürr C, Sander U. What do patients say about their physicians? An analysis of 3000 narrative comments posted on a German physician rating website. Health policy. 2014; 118(1): 66-73. doi: 10.1016/j.healthpol.2014.04.015.
  12. Shah AM, Yan X, Shah SAA, Mamirkulova G. Mining patient opinion to evaluate the service quality in healthcare: a deep-learning approach. Journal of Ambient Intelligence and Humanized Computing. 2020; 11: 2925-2942. doi: 10.1007/S12652-019-01434-8.
  13. Jiang S, Street RL. Pathway linking internet health information seeking to better health: a moderated mediation study. Health Communication. 2017; 32(8): 1024-1031. doi: 10.1080/10410236.2016.1196514.
  14. Hotho, Nürnberger A, Paaß G. A Brief Survey of Text Mining, LDV Forum - GLDV Journal for Computational Linguistics and Language Technology. 2005; 20: 19-62. doi: 10.21248/jlcl.20.2005.68.
  15. Păvăloaia V, Teodor E, Fotache D, Danileț M. Opinion Mining on Social Media Data: Sentiment Analysis of User Preferences, Sustainability. 2019; 11: 4459. doi: 10.3390/su11164459.
  16. Bespalov D, Bing B, Yanjun Q, Shokoufandeh A. Sentiment classification based on supervised latent n-gram analysis”. Proceedings of the 20th ACM international conference on Information and knowledge management (CIKM ’11). Association for Computing Machinery. 2011; NY, USA, 375–382. doi: 10.1145/2063576.2063635.
  17. Irfan R, King CK, Grages D, Ewen S, Khan SU, Madani SA, Kolodziej J, Wang L, Chen D, Rayes A, Tziritas N, Xu CZ, Zomaya AY, Alzahrani AS, Li H. A Survey on Text Mining in Social Networks, Cambridge Journal, The Knowledge Engineering Review. 2015; 30(2): 157-170. doi: 10.1017/S0269888914000277.
  18. Patel P, Mistry K. A Review: Text Classification on Social Media Data, IOSR Journal of Computer Engineering. 2015; 17(1): 80-84.
  19. Lee K, Palsetia D, Narayanan R, Patwary MdMA, Agrawal A, Choudhary AS. Twitter Trending Topic Classification. In Proceeding of the 2011 IEEE 11 th International Conference on Data Mining Workshops, ICDW’11. 2011; pp. 251-258.
  20. Kateb F, Kalita J. Classifying Short Text in Social Media: Twitter as Case Study. International Journal of Computer Applications. 2015; 111(9): 1-12. doi: 10.5120/19563-1321.
  21. Theeramunkong T, Lertnattee V. Multi-Dimension Text Classification, SIIT, Thammasat University, 2005. http://www.aclweb.org /anthology/C02-1155 (03 October 2024). doi: 10.1109/TITB.2004.832.
  22. Sornlertlamvanich V, Pacharawongsakda E, Charoenporn T. Understanding Social Movement by Tracking the Keyword in Social Media, in MAPLEX2015, 2015; Yamagata, Japan.
  23. Kalabikhina I, Moshkin V, Kolotusha A, Kashin M, Klimenko G, Kazbekova Z. Advancing Semantic Classification: A Comprehensive Examination of Machine Learning Techniques in Analyzing Russian-Language Patient Reviews. Mathematics. 2024; 12(4):566. doi: 10.3390/math12040566.
  24. Kalabikhina I, Zubova E, Loukachevitch N, Kolotusha A, Kazbekova Z., Banin E, Klimenko G. Identifying Reproductive Behavior Arguments in Social Media Content Users’ Opinions through Natural Language Processing Techniques, Population and Economics. 2023; 7(2): 40-59. doi: 10.3897/popecon.7.e97064.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Figure 1 - LSTM network: general architecture, LSTM layer

Download (413KB)
3. Figure 2 - General architecture of a recurrent neural network

Download (49KB)
4. Figure 3 - General architecture of a convolutional neural network

Download (87KB)
5. Figure 4 - General scheme of the classification algorithm

Download (31KB)
6. Figure 5 - Results of classification on the training and test dataset for an LSTM network, a GRU network, and a CNN network

Download (865KB)
7. Figure 6 - Classification results using the considered algorithms

Download (90KB)

Copyright (c) 2025 Kalabikhina I.E., Moshkin V.S., Kolotusha A.V., Kashin M.I., Klimenko G.A., Kazbekova Z.G.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».