Measuring similarity between Karel programs using character and word n-grams


Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

We present a method for measuring similarity between source codes. We approach this task from the machine learning perspective using character and word n-grams as features and examining different machine learning algorithms. Furthermore, we explore the contribution of the latent semantic analysis in this task. We developed a corpus in order to evaluate the proposed approach. The corpus consists of around 10,000 source codes written in the Karel programming language to solve 100 different tasks. The results show that the highest classification accuracy is achieved when using Support Vector Machines classifier, applying the latent semantic analysis, and selecting as features trigrams of words.

Об авторах

G. Sidorov

Instituto Politécnico Nacional (IPN)

Автор, ответственный за переписку.
Email: sidorov@cic.ipn.mx
Мексика, Mexico City

M. Ibarra Romero

Instituto Politécnico Nacional (IPN)

Email: francisco.castillo@upq.mx
Мексика, Mexico City

I. Markov

Instituto Politécnico Nacional (IPN)

Автор, ответственный за переписку.
Email: markovilya@yahoo.com
Мексика, Mexico City

R. Guzman-Cabrera

Engineering Division

Автор, ответственный за переписку.
Email: guzmanc81@gmail.com
Мексика, Guanajuato

L. Chanona-Hernández

Instituto Politécnico Nacional

Автор, ответственный за переписку.
Email: lchanona@gmail.com
Мексика, Mexico City

F. Velásquez

Polytechnic University of Queretaro

Автор, ответственный за переписку.
Email: francisco.castillo@upq.mx
Мексика, Queretaro

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Pleiades Publishing, Ltd., 2017

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).