Text complexity and linguistic features: their correlation in English and Russian

Переведенное название: Сложность текста и лингвистические признаки: как они соотносятся в русском и английском языках

Dmitry A. Morozov, Anna V. Glazkova, Boris L. Iomdin

Результат исследования: Научные публикации в периодических изданияхстатьярецензирование

1 Цитирования (Scopus)

Аннотация

Автоматическая оценка читабельности текста - актуальная и непростая задача, которая требует учёта разнообразных лингвистических факторов. Сложность текста должна соответствовать уровню читателя: слишком сложный текст останется непонятым, слишком простой будет скучным. Исторически для оценки читабельности использовались простые характеристики: средняя длина слов и предложений, разнообразие лексики. Благодаря развитию методов обработки естественного языка набор используемых для оценки параметров текста существенно расширился. За последние годы было опубликовано множество работ, в которых исследовался вклад в сложность текста различных лексических, морфологических, синтаксических признаков. Тем не менее, поскольку использованные методы и корпусы довольно разнообразны, затруднительно делать общие выводы об эффективности различных лингвистических характеристик текста. Более того, не было проведено сравнение влияния признаков для различных языков. Целью настоящего исследования является проведение масштабного сравнения признаков различного характера. Мы экспериментально сравнили семь часто используемых типов признаков (индексы читабельности, традиционные, морфологические, синтаксические, пунктуационные, частотные признаки и тематическое моделирование) на материале трёх русскоязычных и трёх англоязычных корпусов, с использованием четырех распространённых алгоритмов машинного обучения: логистической регрессии, случайного леса, свёрточной нейронной сети и нейронной сети с прямой связью. Один из корпусов - корпус художественной литературы, читаемой российскими школьниками, - был создан для этого эксперимента с помощью масштабного опроса для обеспечения объективности разметки. Мы показали, какие типы признаков могут значительно повысить качество прогнозирования, и проанализировали их влияние в зависимости от характеристик корпуса, его языка и источника текстов.
Переведенное названиеСложность текста и лингвистические признаки: как они соотносятся в русском и английском языках
Язык оригиналаанглийский
Номер статьи7
Страницы (с-по)426-448
Число страниц23
ЖурналRussian Journal of Linguistics
Том26
Номер выпуска2
DOI
СостояниеОпубликовано - 2022

Предметные области OECD FOS+WOS

  • 6.02 ЯЗЫК И ЛИТЕРАТУРА

ГРНТИ

  • 16 ЯЗЫКОЗНАНИЕ

Fingerprint

Подробные сведения о темах исследования «Сложность текста и лингвистические признаки: как они соотносятся в русском и английском языках». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать