Vietnamese Text Classification Algorithm using Long Short Term Memory and Word2Vec

Cover Page

Cite item

Full Text

Abstract

In the context of the ongoing forth industrial revolution and fast computer science development the amount of textual information becomes huge. So, prior to applying the seemingly appropriate methodologies and techniques to the above data processing their nature and characteristics should be thoroughly analyzed and understood. At that, automatic text processing incorporated in the existing systems may facilitate many procedures. So far, text classification is one of the basic applications to natural language processing accounting for such factors as emotions’ analysis, subject labeling etc. In particular, the existing advancements in deep learning networks demonstrate that the proposed methods may fit the documents’ classifying, since they possess certain extra efficiency; for instance, they appeared to be effective for classifying texts in English. The thorough study revealed that practically no research effort was put into an expertise of the documents in Vietnamese language. In the scope of our study, there is not much research for documents in Vietnamese. The development of deep learning models for document classification has demonstrated certain improvements for texts in Vietnamese. Therefore, the use of long short term memory network with Word2vec is proposed to classify text that improves both performance and accuracy. The here developed approach when compared with other traditional methods demonstrated somewhat better results at classifying texts in Vietnamese language. The evaluation made over datasets in Vietnamese shows an accuracy of over 90%; also the proposed approach looks quite promising for real applications.

About the authors

H. N Phat

Hanoi University of Science and Technology (HUST)

Author for correspondence.
Email: phat.nguyenhuu@hust.edu.vn
Dai Co Viet str. 1

N. T.M Anh

Hanoi University of Science and Technology (HUST)

Email: anh.ntm165774@sis.hust.edu.vn
Dai Co Viet str. 1

References

  1. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. vol. 9. pp. 1735–1780.
  2. Sak H., Senior A., Beaufays F. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition // arXiv preprint arXiv:1402.1128.2014.
  3. Phuong L.-H., Nguyen H., Roussanaly A., Ho T. A hybrid approach to word segmentation of vietnamese texts // Lecture Notes in Computer Science. 2013. vol. 5196. pp. 240–249.
  4. Hoang V.C.D., Dinh D., Nguyen N. le, Ngo H.Q. A comparative study on Vietnamese text classification methods // 2007 IEEE International Conference on Research, Innovation and Vision for the Future. 2007. pp. 267–273.
  5. Ngo Q.H., Dien D., Winiwarter W. A hybrid method for word segmentation with english- vietnamese bilingual text // 2013 International Conference on Control, Automation and Information Sciences (ICCAIS). 2013. pp. 48–52.
  6. Jindal P., Jindal B. Line and word segmentation of handwritten text documents written in Gurmukhi script using mid point detection technique // 2015 2nd International Con- ference on Recent Advances in Engineering Computational Sciences (RAECS). 2015. pp. 1–6.
  7. Gao Y. et al. Wacnet: Word segmentation guided characters aggregation net for scene text spotting with arbitrary shapes // 2019 IEEE International Conference on Image Processing (ICIP). 2019. pp. 3382–3386.
  8. Charoenpornsawat P., Schultz T. Improving word segmentation for Thai speech translation // 2008 IEEE Spoken Language Technology Workshop. 2008. pp. 241–244.
  9. Yu C. et al. Term extraction from Chinese texts without word segmentation // 2017 IEEE 11th International Conference on Application of Information and Communication Technologies (AICT). 2017. pp. 1–4.
  10. Nguyen T., Le A. A hybrid approach to Vietnamese word segmentation // 2016 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innovation, and Vision for the Future (RIVF). 2016. pp. 114–119.
  11. Zhang Z. et al. Effective subword segmentation for text comprehension // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2019. vol. 27. no. 11. pp. 1664–1674.
  12. Bal A., Saha R. An improved method for handwritten document analysis using segmentation, baseline recognition and writing pressure detection // Procedia Computer Science. 2016. vol. 93. pp. 403–415.
  13. Nguyen T.V., Tran H.K., Nguyen T.T.T., Nguyen H. Word segmentation for Vietnamese text categorization: An online corpus approach // RIVF06. 2005. vol. 172. pp. 1–6.
  14. Nguyen T., Lung V.D. Extracting the main content of Vietnamese scientific documents based on the structure // Vietnam Journal of Science and Technology (VJST). 2014. vol. 52. no. 3. pp. 269–280.
  15. Xiao L., Wang G., Zuo Y. Research on patent text classification based on Word2Vec and LSTM // 2018 11th International Symposium on Computational Intelligence and Design (ISCID). 2018. vol. 01. pp. 71–74.
  16. Hassan A., Mahmood A. Efficient deep learning model for text classification based on recurrent and convolutional layers // 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). 2017. pp. 1108–1113.
  17. Sarkar A., Chatterjee S., Das W., Datta D. Text classification using support vector machine // International Journal of Engineering Science Invention. 2015. vol. 4. no. 11. pp. 33–37.
  18. Linh B.K. et al. Vietnamese text classification based on topic modeling // 9th Fundamental and Applied IT Research (FAIR). 2016. vol. 01. pp. 532–537.
  19. De T.C., Khang P.N. Classify text with supported vector learning machine and decision tree // Can Tho University Journal of Science. 2012. vol. 21. no. a. pp. 269–280.
  20. Radhika K., Bindu K.R. A text classification model using convolution neural network and recurrent neural network // International Journal of Pure and Applied Mathematics. 2018. vol. 119. pp. 1549–1554.
  21. Fischer T., Krauss C. Deep learning with long short-term memory networks for financial market predictions // European Journal of Operational Research. 2018. vol. 270. no. 2. pp. 654–669.
  22. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. 2001. vol. 34. pp. 1–47.
  23. Yasotha R., Charles E.Y.A. Automated text document categorization // 2015 IEEE Seventh International Conference on Intelligent Computing and Information Systems (ICI- CIS). 2015. pp. 522–528.
  24. Farhoodi M., Yari A. Applying machine learning algorithms for automatic Persian text classification // 2010 6th International Conference on Advanced In-formation Manage- ment and Service (IMS). 2010. pp. 318–323.
  25. Krendzelak M., Jakab F. Text categorization with machine learning and hierarchical structures // 2015 13th International Conference on Emerging eLearning Technologies and Applications (ICETA). 2015. pp. 1–5.
  26. Giang N.L., Hien N.M. Classification of Vietnamese documents using support vector machine // VNU Journal of Science: Computer Science and Communication Engineering. 2005. pp. 1–10.
  27. Nguyen P., Hong T., Nguyen K., Nguyen N. Deep learning versus traditional classifiers on Vietnamese students’ feedback corpus // 2018 5th NAFOSTED Conference on Information and Computer Science (NICS). 2018. pp. 75–80.
  28. Vo Q., Nguyen H., Le B., Nguyen M. Multi-channel LSTM-CNN model for Vietnamese sentiment analysis // 9th International Conference on Knowledge and Systems Engineering (KSE). 2017. pp. 24–29.
  29. Vnexpress, The most read Vietnamese newspaper. 2020. URL: https://e.vnexpress.net/ (дата обращения: 05.12.2019).
  30. Tuoitre, Tuoitre news. 2020. URL: https://tuoitre.vn/ (дата обращения: 05.12.2019).
  31. Thanhnien, Thanhnien online newspaper. 2020. URL: https://thanhnien.vn/a (дата обращения: 05.12.2019).
  32. NLD, Nguoilaodong online newspaper. 2020. URL: https://nld.com.vn/ (дата обращения: 05.12.2019).
  33. Trung T.V. Python Vietnamese Core NLP Toolkit. 2019. URL: https://github.com/trungtv/pyvi (дата обращения: 05.12.2019).
  34. Nguyen D.Q. et al. A fast and accurate Vietnamese word segmenter // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018. pp. 2582–2587.
  35. Nguyen D.Q., Verspoor K. An improved neural network model for joint post tagging and dependency parsing // Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. 2018. pp. 1–11.
  36. Nguyen C.-T. et al. Vietnamese word segmentation with CRFs and SVMs: An investigation // Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation 2006. pp. 215–222.
  37. Le V.-D. Detailed explanation of Word2Vector Skip-gram. 2015. URL: http://www.programmersought.com/article/8383114826/ (дата обращения: 05.12.2019).
  38. Ma L., Zhang Y. Using word2vec to process big text data // 2015 IEEE International Conference on Big Data (Big Data). 2015. pp. 2895–2897.
  39. Barazza L. How does Word2Vec’s Skip-Gram work? 2017. URL: https://becominghuman.ai (дата обращения: 19.02.2017).
  40. Landthaler J. et al. Extending thesauri using word embedding’s and the inter-section method // ASAIL@ ICAIL. 2017. vol. 8. no. 1. pp. 112–119.
  41. An S. Recurrent Neural Networks. 2017. URL: https://www.cc.gatech.edu/ san37/post/dlhc-rnn/ (дата обращения: 10.10.2019).
  42. Zhang Y., Wallace B. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification // arXiv preprint arXiv:1510.03820. 2015.
  43. Le V.-D. Vietnamese stopwords, 2015. URL: https://github.com/stopwords/vietnamese- stopwords (дата обращения: 05.12.2019).
  44. Ting K.M. Confusion Matrix. Boston // MA: Springer US. 2010. pp. 209–209.
  45. Nguyen P., Hong T., Nguyen K., Nguyen N. Deep learning versus traditional classifiers on Vietnamese students’ feedback corpus // 2018 5th NAFOSTED Conference on Information and Computer Science (NICS). 2018. pp. 75–80.
  46. Nguyen K.V. et al. UIT-VSFC: Vietnamese students’ feedback corpus for sentiment analysis // 2018 10th International Conference on Knowledge and Systems Engineering (KSE). 2018. pp. 19–24.
  47. Van T.P., Thanh T.M. Vietnamese news classification based on bow with key-words extraction and neural network // 2017 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems (IES). 2017. pp. 43–48.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».