Efficient natural language classification algorithm for detecting duplicate unsupervised features

Cover Page

Cite item

Full Text

Abstract

This paper focuses on capturing the meaning of Natural Language Understanding (NLU) text features to detect the duplicate unsupervised features. The NLU features are compared with lexical approaches to prove the suitable classification technique. The transfer-learning approach is utilized to train the extraction of features on the Semantic Textual Similarity (STS) task. All features are evaluated with two types of datasets that belong to Bosch bug and Wikipedia article reports. This study aims to structure the recent research efforts by comparing NLU concepts for featuring semantics of text and applying it to IR. The main contribution of this paper is a comparative study of semantic similarity measurements. The experimental results demonstrate the Term Frequency–Inverse Document Frequency (TF-IDF) feature results on both datasets with reasonable vocabulary size. It indicates that the Bidirectional Long Short Term Memory (BiLSTM) can learn the structure of a sentence to improve the classification.

About the authors

S. Altaf

AUT University

Author for correspondence.
Email: saud@uaar.edu.pk
Maine Murry Road 1

S. Iqbal

Pakistan Space and Upper Atmosphere Research Commission (SUPARCO), Pakistan

Email: sofiaiqbal.suparco@gmail.com
Sector-H, DHA Phase II -

M. Soomro

Manukau Institute of Technology

Email: MWASEEM@manukau.ac.nz
Newbury Street -

References

  1. Alexopoulou, T., Michel, M., Murakami, A., & Meurers, D. Task Effects on Linguistic Complexity and Accuracy: A Large-Scale Learner Corpus Analysis Employing Natural Language Processing Techniques. Language Learning, 67(S1), pp. 180–208. 2017.
  2. Keersmaekers, A. Creating a richly annotated corpus of papyrological Greek: The possibilities of natural language processing approaches to a highly inflected historicallanguage. Digital Scholarship in The Humanities. 2019.
  3. Pajak, B., Fine, A., Kleinschmidt, D., & Jaeger, Learning Additional Languages as Hierarchical Probabilistic Inference: Insights from First Language Processing. Language Learning, 66(4), pp. 900–944. 2016.
  4. Merkx, D., & Frank, S. Learning semantic sentence representations from a visually grounded language without lexical knowledge. Natural Language Engineering, 25(4), pp. 451–466. 2019.
  5. Huang, F., Ahuja, A., Downey, D., Yang, Y., Guo, Y., & Yates, A. (2014). Learning Representations for Weakly Supervised Natural Language Processing Tasks. Computational Linguistics, 40(1), pp. 85–120.
  6. Kozachok, A. V., Kopylov, S. A., Meshcheryakov, R. V., Evsutin, O. O., & Tuan, L. M. An approach to a robust watermark extraction from images containing text. SPIIRAS Proceedings, 5(60), 128 p. 2018.
  7. Nazari, P., Khorram, E., & Tarzanagh, D. Adaptive online distributed optimization in dynamic environments. Optimization Methods and Software, pp. 1–25. 2019.
  8. Altaf, S., Waseem, M., & Kazmi, L. IDCUP Algorithm to Classifying Arbitrary Shapes and Densities for Center-based Clustering Performance Analysis. Interdisciplinary Journal of Information, Knowledge, And Management, 15, pp. 91 – 108. 2020.
  9. Chen, R., Dai, R., & Wang, M. Transcription Factor Bound Regions Prediction: Word2Vec Technique with Convolutional Neural Network. Journal of Intelligent LearningSystems and Applications, 12(01), pp. 1–13. 2020.
  10. Mitra, B., & Craswell, N. An Introduction to Neural Information Retrieval t. Foun-dations And Trends, In Information Retrieval, 13(1), pp. 1-126. 2018.
  11. Savyanavar, P., & Mehta, B. Multi-Document Summarization Using TF-IDF Algorithm. International Journal of Engineering and Computer Science. 2016.
  12. Liang, P. Learning executable semantic parsers for natural language understanding. Com-munications of the ACM, 59(9), pp. 68–76. 2016.
  13. Berant, J., & Liang, P. Imitation Learning of Agenda-based Semantic Parsers. Transactions Of the Association for Computational Linguistics, 3, pp. 545–558. 2015.
  14. Merkx, D., & Frank, S. Learning semantic sentence representations from a visually grounded language without lexical knowledge. Natural Language Engineering, 25(4), pp. 451–466. 2019.
  15. Roberts, L. Individual Differences in Second Language Sentence Processing. Language Learning, 62, pp. 172–188. 2012.
  16. Dontsov, D. O. Algorithm of thesaurus extension generation for enterprise search. SPIIRAS Proceedings, 7(30), 189 p. 2014.
  17. Aswani Kumar, C., Radvansky, M., & Annapurna, J. Analysis of a Vector Space Model, Latent Semantic Indexing and Formal Concept Analysis for Information Retrieval. Cybernetics And Information Technologies, 12(1), pp. 34–48. 2012.
  18. Ch, A. (2006). Latent Semantic Indexing based Intelligent Information Retrieval System for Digital Libraries. Journal Of Computing and Information Technology.
  19. Susanto, G., & Purwanto, H. Information Retrieval Menggunakan Latent Semantic Indexing Pada Ebook. SMATIKA JURNAL, 8(02), pp. 74–79. 2018.
  20. Blynova, N. Latent semantic indexing (LSI) and its impact on copywriting. Communications And Communicative Technologies, (19), pp. 4–12. 2019.
  21. Rataj, Karolina. “Electrophysiology of Semantic Violations and Lexical Ambiguity Resolution in Bilingual Sentence Processing.” Bilingual Lexical Ambiguity Resolution, pp. 250–72. 2020.
  22. Qu, C., Yang, L., Qiu, M., Croft, W. B., Zhang, Y., & Iyyer, M. BERT with History Answer Embedding for Conversational Question Answering. Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2019.
  23. Ghavidel, H., Zouaq, A., & Desmarais, M. Using BERT and XLNET for the Automatic Short Answer Grading Task. Proceedings of the 12th International Conference on Computer Supported Education. 2020.
  24. Choi, E., He, H., Iyyer, M., Yatskar, M., Yih, W., Choi, Y., Zettlemoyer, L. QuAC: Question Answering in Context. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
  25. Reddy, S., Chen, D., & Manning, C. D. CoQA: A Conversational Question Answering Challenge. Transactions of the Association for Computational Linguistics, 7, pp. 249–266. 2019.
  26. Sur, C. RBN: Enhancement in language attribute prediction using global representation of natural language transfer learning technology like Google BERT. SN Applied Sciences, 2(1). 2019.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».