Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса эрзянского языка. В настоящий момент доступны два корпуса: корпус современного литературного эрзянского («основной корпус») и корпус эрзянских соцсетей и форумов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:
Что такое корпус?
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах эрзянского языка.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова катка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого эрзянского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет эрзянским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.
— Что такое морфологическая разметка и как она сделана?
В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание эрзянского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму валдо, анализатор не может понять, является ли это основной формой слова валдо («светлый»), формой аблатива от слова вал («о слове») или вообще формой глагола валомс «лить, сыпать». Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.
Эрзянский язык
Эрзянский язык — язык мордовской подгруппы уральских языков. Точное число говорящих неизвестно, поскольку в переписях большинство носителей эрзянского и мокшанского указывает «мордовский» в качестве родного языка; вероятно, речь идёт примерно о 400 тысячах человек. Для записи используется кириллическая орфография, алфавит совпадает с русским. Все морфологические категории выражаются суффиксально и в основном агглютинативно, большинство суффиксов имеет два сингармонических варианта (с гласными о/э и палатализованными/непалатализованными согласными). Именные грамматические категории включают число, падеж, определённость и посессивность. На переходных глаголах могут индексироваться лицо и число субъекта и объекта (субъектно-объектное спряжение). Прямое дополнение маркируется номинативом или генитивом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).