Electronic corpus of the Tatar language based on the model of linguistic knowledge graphs

Ayrat R. Gatiatullin; Гатиатуллин Айрат Рафизович; Damir R. Mukhamedshin; Мухамедшин Дамир Рафкатович; Nikolai A. Prokopyev; Прокопьев Николай Аркадиевич; Dzhavdet Sh. Suleymanov; Сулейманов Джавдет Шевкетович

doi:10.18287/2223-9537-2024-14-4-542-554

Electronic corpus of the Tatar language based on the model of linguistic knowledge graphs

Autores: Gatiatullin A.R.¹, Mukhamedshin D.R.¹, Prokopyev N.A.¹, Suleymanov D.S.¹
Afiliações:
1. Tatarstan Academy of Sciences, Institute of Applied Semiotics
Edição: Volume 14, Nº 4 (2024)
Páginas: 542-554
Seção: APPLIED ONTOLOGIES OF DESIGNING
URL: https://journals.rcsi.science/2223-9537/article/view/352999
DOI: https://doi.org/10.18287/2223-9537-2024-14-4-542-554
ID: 352999

Citar

Texto integral

Resumo
Texto integral
Sobre autores
Bibliografia
Arquivos suplementares
Estatísticas

Resumo

The article presents a new version of the electronic corpus of the Tatar language, updated based on a linguistic knowledge graph model for Turkic languages. This new version of the corpus allows for information description across multiple linguistic levels: morphonological, syntactic, and semantic, through the use of knowledge graphs to represent linguistic data. This approach enhances corpus functionality, enabling searches that incorporate syntactic and semantic information. A distinctive feature of the electronic corpus implementation is that the model employed aligns closely with the structural and functional characteristics of Turkic languages and serves as a foundation for developing various software products for semantic text processing in Turkic languages. In particular, these products include the linguistic portal "Turkic Morphme" and the new version of the Tatar language electronic corpus, "Tugan Tel.".

Palavras-chave

electronic corpus, knowledge graph, database management system, linguistic unit, turkic languages

Texto integral

Введение

Современные технологии искусственного интеллекта, основанные на использовании больших языковых моделей, испытывают потребность в увеличении их информационных ресурсов за счёт включения различных электронных корпусов (ЭК). Это стало фактором усиления активности разработок ЭК для тюркских языков (ТЯ) [1-4]. В таблице 1 приведён список ЭК, проанализированных в ходе модернизации ЭК татарского языка «Туган тел». ЭК двух ТЯ включены в состав лингвистической платформы Национальный корпус русского языка (https://ruscorpora.ru/): башкирский национальный корпус объёмом 550 тыс. словоупотреблений и хакасский ЭК объёмом 1194 тыс. словоупотреблений. Большой набор ЭК собран на лингвистической платформе Sketch Engine, в числе которых есть тюркские ЭК (см. таблицу 2). Наибольшее количество ЭК разработано для турецкого языка, которые имеют синтаксическую или семантическую разметки: https://github.com/google-research-datasets/turkish-treebanks/ (турецкий TreeBank) и https://turkishpropbank.github.io/ (турецкий PropBank). Для турецкого языка создан лингвистический ресурс WordNet, с помощью которого можно организовать семантический поиск. Ресурсы для турецкого языка имеют только один вид разметки - синтаксический или семантический. В турецком PropBank реализована ситуационная разметка, а в WordNet – таксономическая. Для остальных ТЯ корпусы включают только морфологическую разметку.

Таблица 1 – Электронные корпусы тюркских языков

Table 1 – Electronic corpora of Turkic languages

Название	Адрес
Башкирский поэтический корпус	http://web-corpora.net/bashcorpus/search/
Корпус башкирского языка. Проза	http://212.193.132.98/bashkorp/bashkorp
Устный корпус башкирского языка	http://lingconlab.ru/spoken_bashkir/
Алматинский корпус казахского языка	http://web-corpora.net/KazakhCorpus/search/
Национальный корпус казахского языка	http://194.146.43.249/indexru/
Национальный корпус казахского языка	https://qazcorpus.kz/about/1/?lang=ru
Крымскотатарский электронный корпус	http://korpus.juls.savba.sk/QIRIM/
Электронный корпус тувинского языка	https://www.tuvancorpus.ru/
Национальный корпус турецкого языка	https://www.tnc.org.tr/
Корпус турецкого языка	https://tscorpus.com/
Spoken Turkish Corpus	https://std.metu.edu.tr/en/
Корпус узбекского языка	https://uzbekcorpus.uz/
Электронный корпус хакасского языка	https://khakas.altaica.ru/
Корпус шорского языка	https://corpora.iea.ras.ru/corpora/
Корпус якутского языка	http://adictsakha.nsu.ru/corpora/corp
Татарский национальный корпус «Туган тел»	https://tugantel.tatar/
Письменный корпус татарского языка.	https://www.corpus.tatar/
Корпус татарской художественной литературы	http://litcorpus.antat.ru/

Таблица 2 – Электронные корпусы тюркских языков на платформе Sketch Engine (https://www.sketchengine.eu/)

Table 2 – Electronic corpora of Turkic languages on the Sketch Engine platform (https://www.sketchengine.eu/)

Название	Адрес
Uzbek corpus from the web	https://www.sketchengine.eu/uzwac-uzbek-corpus/
Kazakh text corpora	https://www.sketchengine.eu/corpora-and-languages/kazakh-text-corpora/
Tatar Mixed Corpus from the web	https://www.sketchengine.eu/tatar-corpus-from-the-web/
Azerbaijani text corpora	https://www.sketchengine.eu/corpora-and-languages/azerbaijani-text-corpora/
Kyrgyz text corpora	https://www.sketchengine.eu/corpora-and-languages/kyrgyz-text-corpora/

В ЭК, размещаемых на платформе Национального корпуса русского языка, реализована возможность просмотра справочной грамматической информации о языковых единицах. Например, предыдущая версия ЭК «Туган тел» [5] включала только морфологическую разметку.

Проведённый анализ показал, что многие разработчики ЭК для ТЯ используют программный инструментарий и модели, реализованные для индоевропейского семейства языков, которые отличаются по своей структуре от ТЯ, обладающих богатой морфологией [6], а информация, представляемая в таких корпусах, не отображает всё богатство и полноту структурно-функциональных особенностей ТЯ.

Наиболее полное описание знаний и эффективное управление ими с использованием релевантных алгоритмов обработки с учётом специфики языка является важной и актуальной задачей при разработке лингвистических баз данных. Практика использования в портале «Тюркская морфема» представления данных в виде графа знаний (ГЗ) [7-9] способствует решению указанных задач, позволяя описывать в корпусе языка как онтологические, так и фактографические знания о мире.

Под ГЗ подразумевается разновидность семантической сети, определяемая в работе [10] как структурированный набор данных, собранный из разнородных источников, совместимый с моделью данных RDF и имеющий OWL-онтологию в качестве своей структуры.

Разновидностью ГЗ для представления лингвистической информации являются лингвистические ГЗ. Их отличительное свойство в том, что они описывают наряду с картиной мира также и средства для описания этого мира в виде лингвистических единиц и структур естественных языков. Исследованные в [6] лексические и грамматические особенности ТЯ [5] позволили построить модель ГЗ ТЯ, названную TurkLang [11]. Данная модель использовалась при создании новой версии ЭК «Туган тел».

1 Реализация архитектуры модели лингвистического ГЗ ТЯ TurkLang в ЭК

В проекте создания лингвистического портала «Тюркская морфема» [12] предложена модель лингвистического ГЗ ТЯ TurkLang, которая подходит для описания потенциальных возможностей языка и фактических данных, представленных в ЭК с текстами на ТЯ. Минимальной лингвистической единицей, представленной в этой модели, являются морфемы: корневая, аффиксальная и аналитическая. Это позволяет текст каждого предложения в корпусе представлять в виде последовательности морфем. Представление словоформы в виде фрагмента ГЗ согласно данной модели показано на рисунке 1. В узлах представлена информация о типе узла, а в скобках - содержимое конкретного узла. Узлы и рёбра фрагмента ГЗ можно условно отнести к трём уровням S1, S2, S3.

Рисунок 1 – Фрагмент графа знаний представления словоформы

Уровень S1 – поверхностный уровень, который содержит узлы графа с информацией из реальной словоформы, использованной в тексте татарского языка.

Уровень S2 – морфемный уровень, содержит узлы ГЗ с информацией об аффиксальных морфемах татарского языка. Информация уровня S2 едина для отдельного ТЯ и узлы уровня S1 ссылаются на узлы из уровня S2.

Уровень S3 – категориальный уровень, в котором представлены узлы ГЗ, общие для всех ТЯ. Это обозначения граммем, тэгов и грамматических категорий.

Информация, представленная на уровнях S2 и S3 фрагмента ГЗ извлекается из базы знаний (БЗ) портала «Тюркская морфема», в котором специалистами по ТЯ описаны потенциальные возможности и свойства ТЯ. Такой подход позволяет использовать единую систему обозначений и обеспечить полную совместимость лингвистических ресурсов портала «Тюркская морфема» и ЭК «Туган тел». Фрагменты ГЗ с библиотеками грамматических категорий идентичны в портале и в корпусе, поэтому можно извлекать эту информацию из БЗ портала «Тюркская морфема». С целью увеличения скорости обработки поисковых запросов фрагменты ГЗ дублируются и для поддержания актуальной информации в обоих программных продуктах периодически синхронизируются.

На рисунке 1 представлен фрагмент ГЗ ЭК «Туган тел», описывающий структуру осуществления поиска в корпусе по грамматическим категориям, представленным на рисунке 2. На этом рисунке представлены все граммемы татарского языка, которые сгруппированы в грамматические категории и образуют уровень S3 ГЗ, представленного на рисунке 1.

Рисунок 2 – Интерфейс для поиска в корпусе «Туган тел» по грамматическим категориям

Ещё один тип лингвистических единиц, который представлен в ГЗ ЭК «Туган тел» – это аналитические формы (analytic form). Аналитические формы – это формы слова с самостоятельным значением в сочетании со служебными словами. Пример фрагмента ГЗ, описывающего структуру аналитической формы, представлен на рисунке 3. Аналитическими морфемами в ТЯ являются такие части речи, как послелоги, частицы или вспомогательные глаголы. Аналитические морфемы в тексте так же, как и аффиксальные морфемы, выражают грамматическую роль, что в графе определяется связью типа Express с узлами типа граммемы.

Рисунок 3 – Фрагмент графа знаний представления аналитической формы

В разных ТЯ одни и те же морфемы, выражающие одно и то же значение, могут являться как аффиксальными, так и аналитическими морфемами. Например, в татарском языке роль инструмента в тексте выражается с помощью аналитической морфемы белән ‘с’ - чүкеч белән ‘с молотком’, в казахском она выражается с помощью аффиксальных алломорфов -бен/-мен/-пен – балғамен ‘с молотком’, а в турецком с помощью аффиксальных алломорфов -la/-le – çekiçle ‘с молотком’. Данная особенность написания связана с различием в правилах грамматики разных ТЯ, что выражается различием в связях между узлами ГЗ, представляющих аффиксальные и аналитические алломорфы.

Графовая структура БЗ ЭК «Туган тел» позволяет хранить в БЗ семантическую, синтаксическую и морфологическую информацию, а также осуществлять семантические поисковые запросы. Для этого в БЗ ЭК хранятся подграфы с двумя видами семантических универсалий.

Первый вид – это подграф знаний с ситуационными фреймами, который является объединением ресурсов FrameNet (http://framenet.icsi.berkeley.edu) и FrameBank [13]. FrameNet разработан для английского языка и не учитывает морфологию лингвистических единиц, с помощью которых выражаются значения семантических универсалиев, но в нём содержится наиболее полная база типовых ситуаций. FrameBank создан для русского языка с формализацией грамматических структур, используемых для описания ролей в ситуационных фреймах с учётом морфологии. Поскольку ТЯ – это языки с богатой морфологией, в них необходимо учитывать морфологическую информацию. Новая структура БЗ использует полноту базы FrameNet и морфологические элементы FrameBank.

Второй вид подграфа семантических универсалий – это таксономический подграф, реализованный в виде тезауруса типа WordNet. Фрагмент лингвистического ГЗ портала «Тюркская морфема» является точной копией ГЗ типа WordNet. Таксономическая часть графа для ТЯ представлена с помощью узлов графа концепт (concept), связываемых с помощью направленных рёбер. На рисунке 4 представлен фрагмент ГЗ с описанием таксономической информации, где область U ГЗ содержит семантические универсалии, которые представляют собой множество концептов и таксономические отношения между ними.

Рисунок 4 – Фрагмент графа знаний с таксономической структурой

Семантические универсалии, представленные в данной части ГЗ, в совокупности образуют семантический тезаурус. В области L1 представлены примеры лексем, которые встречаются в текстах ЭК языка ( в данном примере это татарский язык). Таким образом, все лексемы ‘үсемлек’ (‘рус.: растение’), которые встречаются в корпусе, имеют связь типа Express с концептом ‘plant:растение’. Все лексемы, которые обозначают разные виды растений, имеют связь с концептами тезауруса, которые в тезаурусе находятся с концептом ‘plant:растение’ в цепочке отношений гипонимии. Такая структура ГЗ ЭК позволяет производить семантический поиск.

Система управления корпусными данными работает с ЭК текстов на татарском языке и позволяет подключать лингвистические корпусы на других агглютинативных и флективных языках (к языкам агглютинативного типа относятся ТЯ, а к языкам флективного типа – славянские языки). Поисковые технологии реализованы на базе общедоступных программных средств: реляционной системы управления базой данных (СУБД) MariaDB и хранилища данных Redis. Для реализации предлагаемой структуры БЗ используется графовая СУБД Memgraph.

2 Реализация структуры БЗ ЭК «Туган тел» с помощью СУБД Memgraph

Первичной задачей в процессе реализации БЗ ЭК «Туган Тел» является перенос сущест-вующего ЭК в структуру ГЗ. На рисунке 5 показана итоговая схема графа, реализованная с помощью СУБД Memgraph, достаточная для переноса суще-ствующего ЭК в структуру БЗ.

Рисунок 5 – Схема графа, реализованного с помощью СУБД Memgraph

В отличие от схемы, реализованной с помощью СУБД MariaDB, в графе дополнительно появляются узлы типов «Clause» («Клауза»), «Syntaxeme» («Синтаксема»), «PunctuationMark» («Знак препинания»), «Morpheme» («Морфема»), «PartOfSpeech» («Часть речи»), необходимых для дальнейшего представления словоформ, клауз и синтаксем. Также в графе появляются узлы «Language» («Язык»), «Person» («Человек»), «Source» («Источник»), «DocumentName» («Название документа»), «Place» («Место»), «Building» («Здание»), необходимые для дальнейшего представления семантических связей с соответствующими объектами. Количество типов таких узлов неограниченно, и их набор может быть расширен без внесения изменений в основной ГЗ.

В качестве примера в представленную структуру можно поместить предложение: «Дөрес, әле Казанда моңа кадәр картлар йорты юк иде» («И вправду, до сих пор в Казани не было дома престарелых») с морфологической разметкой, извлечённой из существующего ЭК. Для узлов типа «Sentence» предусмотрено два свойства, в которых хранятся данные о предложении в целом: «name» (предложение без морфологической разметки), «full» (предложение с морфологической разметкой). Добавление предложения осуществляется при помощи запроса на языке Cypher:

CREATE (s:Sentence {name: “Дөрес, әле Казанда моңа кадәр картлар йорты юк иде.”, full: “Дөрес (И вправду) дөрес+Adj; Type2 әле (ещё) әле+CNJ;әле+PART; Казанда (в Казани) казан+N+Sg+LOC(ДА); казан+PROP+LOC(ДА); моңа (этого) моңа+PN; кадәр (до) кадәр+Adv; кадәр+POST; картлар (старики) карт+Adj+PL(ЛАр)+Nom;карт+N+PL(ЛАр)+Nom; йорты (дом) йорт+N+Sg+POSS_3SG(СЫ)+Nom; юк юк+MOD; иде и+V+PST_DEF(ДЫ); . Type1”});

Далее необходимо добавить узел типа «Document». Для таких узлов предусмотрено использование трёх свойств, в которых хранятся данные о документе: «name» (наименование файла документа), «length» (длина документа в словах), «publicationDate» (дата публикации). Представление метаданных о длине документа и дате публикации в виде свойств узла обусловлено необходимостью реализации поиска по интервалам длин документов и интервалам дат. Добавление узла документа при помощи запроса на языке Cypher имеет вид:

CREATE (d:Document {name: “1_17890_1_1.txt”, length: 445, publicationDate: date(“2010-07-08”)});

Для добавления узлов и связей, связанных с другими метаданными документа, необходимо добавить узлы соответствующих типов («Language», «DocumentName», «Source», «Person») и рёбра между узлом документа и добавленными узлами соответствующих типов («hasLanguage», «hasName», «hasSource», «hasAuthor»). Сделать это можно одним запросом на языке Cypher:

MATCH (d:Document {name: “1_17890_1_1.txt})

MERGE (d)-[:hasLanguage]->(l:Language {name: “Tatar”})

MERGE (d)-[:hasName]->(n:DocumentName {name: “Казанда да картлар йорты ачылачак”}) («В Казани откроется дом престарелых»)

MERGE (d)-[:hasSource]->(s:Source {name: “http://www.azatliq.org/”})

MERGE (d)-[:hasAuthor]->(p:Person {name: “Наил Алан”});

Чтобы указать, что созданный документ включает предложение, необходимо добавить ребро между узлом документа и узлом предложения типа «includesSentence». При этом у такого ребра есть дополнительные свойства «position» (порядковый номер предложения в документе) и «startPosition» (порядковый номер первого слова предложения в документе). Так как в добавляемом примере только одно предложение, оба свойства примут значение «1». Если предложений несколько, то указанные свойства в дальнейшем помогут построить контекст вокруг предложения и найти это предложение в нужном документе. Запрос на языке Cypher для добавления ребра выглядит так:

MATCH (d:Document {name: “1_17890_1_1.txt})

MATCH (s:Sentence {name: “Дөрес, әле Казанда моңа кадәр картлар йорты юк иде.”)

MERGE (d)-[:includesSentence {position: 1, startPosition: 1}]->(s);

Выполнение всех описанных запросов создаёт подграф, показанный на рисунке 6. Каждое предложение в корпусе может быть разделено на клаузы. Если предложение является простым, то оно состоит из одной клаузы, сложное предложение - из двух клауз. Для добавления клауз необходимо создать узлы типа «Clause» и соединить их с узлом предложения при помощи ребра с типом «includesClause». В добавляемом предложении клауза только одна, но их может быть несколько, поэтому у рёбер типа «includesClause» должны быть указаны свойства «position» (порядковый номер клаузы в предложении) и «startPosition» (порядковый номер первого слова клаузы в предложении). Добавление клаузы при помощи запроса на языке Cypher может быть выполнено следующим образом:

MATCH (s:Sentence {name: “Дөрес, әле Казанда моңа кадәр картлар йорты юк иде.”)

MERGE (s)-[:includesClause {position: 1, startPosition: 1}]->(c:Clause {name: “Дөрес, әле Казанда моңа кадәр картлар йорты юк иде.”});

Рисунок 6 – Подграф, включающий узлы предложения, документа и метаданных документа

Каждая клауза в ЭК может быть разделена на синтаксемы. Синтаксема - это минимальная, неделимая семантико-синтаксическая языковая единица, выступающая одновременно как носитель элементарного смысла и как конструктивный компонент более сложных синтаксических построений. Синтаксеме может соответствовать как отдельная словоформа, так и словосочетание или знак препинания. Таким образом, для представления синтаксем в БЗ используются узлы типов «Syntaxeme» для синтаксем, состоящих из словоформ, и «PunctuationMark» для синтаксем, состоящих из знаков препинания. Для представления связей между клаузами и синтаксемами используются рёбра типа «includesSyntaxeme», у которых должны быть указаны свойства «position» (порядковый номер синтаксемы в клаузе) и «startPosition» (порядковый номер первой словоформы или знака препинания синтаксемы в клаузе). Запрос для добавления синтаксем на языке Cypher представлен ниже:

MATCH (c:Clause {name: “Дөрес, әле Казанда моңа кадәр картлар йорты юк иде.”)

MERGE (с)-[:includesSyntaxeme {position: 1, startPosition: 1}]->(:Syntaxeme {name: “дөрес”})

MERGE (с)-[:includesSyntaxeme {position: 2, startPosition: 2}]->(:PunctuationMark {name: “,”})

MERGE (с)-[:includesSyntaxeme {position: 3, startPosition: 3}]->(:Syntaxeme {name: “әле”})

MERGE (с)-[:includesSyntaxeme {position: 4, startPosition: 4}]->(:Syntaxeme {name: “казанда”})

MERGE (с)-[:includesSyntaxeme {position: 5, startPosition: 5}]->(:Syntaxeme {name: “моңа кадәр”})

MERGE (с)-[:includesSyntaxeme {position: 6, startPosition: 7}]->(:Syntaxeme {name: “картлар йорты”})

MERGE (с)-[:includesSyntaxeme {position: 7, startPosition: 9}]->(:Syntaxeme {name: “юк иде”})

MERGE (с)-[:includesSyntaxeme {position: 8, startPosition: 11}]->(:PunctuationMark {name: “.”});

Выполнение запросов на добавление клауз и синтаксем создаёт подграф, показанный на рисунке 7. Узлы типа «PunctuationMark» являются конечными в текущей версии БЗ. Синтаксемы, состоящие из словоформ, должны быть разделены на словоформы. Словоформы представлены в графе БЗ узлами типа «WordForm», а связи между синтаксемами и словоформами – рёбрами типа «includesWordForm» со свойствами «position», указывающими порядковый номер словоформы в синтаксеме. В качестве примера показаны запросы для синтаксем “Казанда” («в Казани») и “картлар йорты” («дом престарелых»). Запрос, добавляющий в граф БЗ словоформы и связи с указанными синтаксемами, на языке Cypher выглядит следующим образом:

MATCH (s1:Syntaxeme {name: “казанда”})

MATCH (s2:Syntaxeme {name: “картлар йорты”})

MERGE (s1)-[:includesWordForm {position: 1}]->(:WordForm {name: “казанда”})

MERGE (s2)-[:includesWordForm {position: 1}]->(:WordForm {name: “картлар”})

MERGE (s2)-[:includesWordForm {position: 2}]->(:WordForm {name: “йорты”});

Рисунок 7 – Подграф, включающий узлы предложения, клауз и синтаксем

Морфологическая разметка каждой словоформы содержит лемму, часть речи и набор морфологических свойств (морфем) словоформы. Причём в части корпуса у каждой словоформы может быть несколько вариантов морфологической разметки.

Для представления в БЗ лемм используются узлы типа «Lemma», для представления частей речи – узлы типа «PartOfSpeech», для представления морфологических свойств – узлы типа «Morpheme». Последние имеют справочное свойство «affix», в котором указывается словообразующий аффикс, соответствующий морфеме. Связи между узлами словоформ и узлами лемм представлены в графе рёбрами типа «hasLemma», связи между узлами словоформ и узлами частей речи – рёбрами типа «hasPartOfSpeech», а связи между узлами словоформ и узлами морфем – рёбрами типа «hasMorpheme». Так как в ЭК может иметься разметка с морфологической неоднозначностью, у всех указанных рёбер присутствуют свойства «variant», указывающие на порядковый номер морфологической разметки словоформы. Для рёбер типа «hasMorpheme» дополнительно указывается свойство «position», указывающее на порядковый номер морфемы в цепочке. Добавление указанных узлов и рёбер в граф БЗ при помощи запроса на языке Cypher может быть представлено следующим образом:

MATCH (w1:WordForm {name: “казанда”})

MATCH (w2:WordForm {name: “картлар”})

MATCH (w3:WordForm {name: “йорты”})

CREATE (:Morpheme {name: “SG”, affix: “”}), (:Morpheme {name: “LOC”, affix: “да”}), (:Morpheme {name: “PL”, affix: “ЛАр”}), (:Morpheme {name: “NOM”, affix: “”}), (:Morpheme {name: “POSS_3SG”, affix: “СЫ”})

MERGE (w1)-[:hasLemma {variant: 1}]->(:Lemma {name: “казан”})

MERGE (w1)-[:hasPartOfSpeech {variant: 1}]->(:PartOfSpeech {name: “N”})

MERGE (w1)-[:hasMorpheme {variant: 1, position: 1}]->(:Morpheme {name: “SG”})

MERGE (w1)-[:hasMorpheme {variant: 1, position: 2}]->(:Morpheme {name: “LOC”})

MERGE (w1)-[:hasLemma {variant: 2}]->(:Lemma {name: “казан”})

MERGE (w1)-[:hasPartOfSpeech {variant: 2}]->(:PartOfSpeech {name: “PROP”})

MERGE (w1)-[:hasMorpheme {variant: 2, position: 1}]->(:Morpheme {name: “LOC”})

MERGE (w2)-[:hasLemma {variant: 1}]->(:Lemma {name: “карт”})

MERGE (w2)-[:hasPartOfSpeech {variant: 1}]->(:PartOfSpeech {name: “ADJ”})

MERGE (w2)-[:hasMorpheme {variant: 1, position: 1}]->(:Morpheme {name: “PL”)

MERGE (w2)-[:hasMorpheme {variant: 1, position: 2}]->(:Morpheme {name: “NOM”)

MERGE (w2)-[:hasLemma {variant: 2}]->(:Lemma {name: “карт”})

MERGE (w2)-[:hasPartOfSpeech {variant: 2}]->(:PartOfSpeech {name: “N”})

MERGE (w2)-[:hasMorpheme {variant: 2, position: 1}]->(:Morpheme {name: “PL”)

MERGE (w2)-[:hasMorpheme {variant: 2, position: 2}]->(:Morpheme {name: “NOM”)

MERGE (w3)-[:hasLemma {variant: 1}]->(:Lemma {name: “йорт”})

MERGE (w3)-[:hasPartOfSpeech {variant: 1}]->(:PartOfSpeech {name: “N”})

MERGE (w3)-[:hasMorpheme {variant: 1, position: 1}]->(:Morpheme {name: “SG”)

MERGE (w2)-[:hasMorpheme {variant: 1, position: 2}]->(:Morpheme {name: “POSS_3SG”);

Необходимо также добавить семантические связи между лексемами и объектами. Указанные синтаксемы обозначают здание “картлар йорты” (“дом престарелых”) (в графе узел типа «Building») и место “Казан” (“Казань”) (в графе узел типа “Place”). Добавление семантических связей при помощи запроса на языке Cypher выглядит так:

MATCH (s1:Syntaxeme {name: “казанда”})

MATCH (s2:Syntaxeme {name: “картлар йорты”})

MERGE (s1)-[:indicatedThePlace]->(:Place {name: “Казан”})

MERGE (s2)-[:isA]->(:Building {name: “картлар йорты”});

На рисунке 8 показан подграф, созданный после выполнения указанных запросов для синтаксем “Казанда” и “картлар йорты”. На этом подграфе уже видны общие вершины графа для различных типов узлов и рёбер, например, все три словоформы из примера имеют связь с частью речи “N” (существительное), так как для всех трёх словоформ существует морфологическая разметка с указанием этой части речи.

Рисунок 8 – Подграф, включающий узлы синтаксем, словоформ, лемм, морфем, частей речи и семантических связей с объектами

Заключение

Описанная концептуальная модель лингвистического ГЗ применяется для представления данных ЭК «Туган Тел». Реализация функционала модернизированной системы управления корпусными данными поддерживает функционал поиска по словоформам и леммам, а также поиск по морфемам. Применение новой модели лингвистического ГЗ и возможностей графовой СУБД позволяет расширить функционал системы, добавляя новые инструменты для исследования ТЯ.

Использование системы семантических универсалий в виде фреймовых и таксономических ГЗ позволяет объединять все корпусы в единый многоязычный корпус и производить многоязычный поиск и исследования ТЯ. Эта возможность позволит повысить эффективность деятельности лингвистов и типологов, работающих с ЭК на основе предложенной модели лингвистического ГЗ ТЯ TurkLang.

Sobre autores

Ayrat Gatiatullin

Tatarstan Academy of Sciences, Institute of Applied Semiotics

Autor responsável pela correspondência
Email: ayrat.gatiatullin@gmail.com
ORCID ID: 0000-0003-3063-8147
Scopus Author ID: 56500678000

PhD, Leading researcher

Rússia, Kazan

Damir Mukhamedshin

Tatarstan Academy of Sciences, Institute of Applied Semiotics

Email: damirmuh@gmail.com
ORCID ID: 0000-0003-0078-9198
Scopus Author ID: 57194654368
Researcher ID: KPY-5366-2024

Researcher

Rússia, Kazan

Nikolai Prokopyev

Tatarstan Academy of Sciences, Institute of Applied Semiotics

Email: nikolai.prokopyev@gmail.com
ORCID ID: 0000-0003-0066-7465
Scopus Author ID: 57190803409
Researcher ID: S-3829-2016

Researcher

Rússia, Kazan

Dzhavdet Suleymanov

Tatarstan Academy of Sciences, Institute of Applied Semiotics

Email: dvdt.slt@gmail.com
Scopus Author ID: 6603474810
Researcher ID: B-4793-2014

Doctor of Technical Sciences, Scientific Director, Academician of Tatarstan Academy of Sciences, Professor, Honored Scientist of the Republic of Tatarstan, member of the Russian Association of Artificial Intelligence (RAAI)

Rússia, Kazan

Bibliografia

Aksan M, Aksan Y. Linguistic Corpora: A View from Turkish. In: Oflazer, K., Saraçlar, M. (eds) Turkish Natural Language Processing. Theory and Applications of Natural Language Processing. 2018. Springer, Cham. doi: 10.1007/978-3-319-90165-7_14.
Salchak AYa. Electronic corpus of texts of the Tuvan language [In Russian]. The New Research of Tuva. 2012; 3(15): 110-114.
Bazarbayeva ZM, Zharkynbekova ShK, Amanbayeva AZh, Zhumabayeva ZhT, Karshygayeva AA. The National Corpus of Kazakh Language: Development of Phonetic and Prosodic Markers // Journal of Siberian Federal University. Humanities and Social Sciences. 2023; 16(8): 1256-1270. EDN: IVPVAN.
Sirazitdinov Z., Buskunbaeva L., Ishmukhametova A. About linguistic corpora of the Bashkir language // Proceedings of the International Conference "Turkic languages processing" Turklang-2015 / Tatarstan Academy of Sciences L.N. Gumilyov Eurasian National University Ministry of Education and Science of the Republic of Kazakhstan Kazan Federal University Institute of Philology and Intercultural Communication. – Kazan, Russia: Tatarstan Academy of Sciences, 2015. P.269-275. EDN ZDGYTR.
Mukhamedshin D., Gilmullin R., Khakimov B. Search Engine Capabilities in the Corpus Data Management System // UBMK 2023 - Proceedings: 8th International Conference on Computer Science and Engineering, Burdur; Turkey; 13-15 September 2023, pp. 449–452. doi: 10.1109/UBMK59864.2023.10286648.
Suleymanov DS, Gilmullin RA, Gatiatullin AR, Prokopyev NA. Cognitive potential of agglutinative languages in intelligent technologies [In Russian]. Ontology of designing. 2023; 13(4): 496-506. doi: 10.18287/2223-9537-2023-13-4-496-506.
Hogan A, Blomqvist E, Cochez M, d’Amato C, de Melo G, Gutierrez C, Gayo JEL, Kirrane S, Neumaier S, Pollere A. Knowledge graphs. ACM Computing Surveys (CSUR). 2021; 54(4): 1-37. doi: 10.1145/3447772.
Fensel D, Şimşek U, Angele K, Huaman E, Kärle E, Panasiuk O, Toma I, Umbrich J, Wahler A. Knowledge Graphs: Methodology, Tools and Selected Use Cases. Cham: Springer Cham, 2020. 164 p. doi: 10.1007/978-3-030-37439-6.
Ji S, Pan S, Cambria E, Marttinen P, Yu PS. A Survey on Knowledge Graphs: Representation, Acquisition, and Applications. IEEE Transactions on Neural Networks and Learning Systems. 2021; 33(2): 494-514. doi: 10.1109/TNNLS.2021.3070843.
Pan JZ, Vetere G, Gomez-Perez JM, Wu H. Exploiting Linked Data and Knowledge Graphs in Large Organizations. Cham: Springer Cham, 2017. 266 p. doi: 10.1007/978-3-319-45654-6.
Gatiatullin AR, Prokopyev NA, Suleymanov DS. Model of linguistic knowledge graphs of Turkic languages [In Russian]. Ontology of designing. 2024;. 14(3): 366-378. doi: 10.18287/2223-9537-2024-14-3-366-378.
Gatiatullin A, Suleymanov D, Prokopyev N, Khakimov B. About turkic morpheme portal // CEUR Workshop Proceedings, 2020; 2780: 226–243. EDN: ZNIQUO.
Lyashevskaya O, Kashkin E. FrameBank: A Database of Russian Lexical Constructions // International Joint Conference on the Analysis of Images, Social Networks and Texts, 2015. M.Y. Khachay et al. (Eds): AIST 2015, CCIS 542. P.1–11. doi: 10.1007/978-3-319-26123-2_34.

Arquivos suplementares

Ação

1. JATS XML

Baixar

2. Figure 1 – Fragment of the knowledge graph of the word form representation

Baixar (352KB)

Metadados

3. Figure 2 – Interface for searching in the “Tugan tel” corpus by grammatical categories

Baixar (1MB)

Metadados

4. Figure 3 – Fragment of the knowledge graph with analytical form representation

Baixar (490KB)

Metadados

5. Figure 4 – Fragment of the knowledge graph with taxonomic structure

Baixar (333KB)

Metadados

6. Figure 5 – Scheme of a graph implemented using the Memgraph DBMS

Baixar (209KB)

Metadados

7. Figure 6 – Subgraph containing sentence, document, and document metadata nodes

Baixar (158KB)

Metadados

8. Figure 7 – Subgraph containing sentence, clause, and syntaxeme nodes

Baixar (227KB)

Metadados

9. Figure 8 – Subgraph containing syntaxemes, word forms, lemmas, morphemes, parts of speech, and semantic links nodes

Baixar (433KB)

Metadados

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro