Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей

Борис Леонидович Иодмин, Dmitry A. Morozov

Результат исследования: Научные публикации в периодических изданияхстатьярецензирование

Аннотация

Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.
Переведенное названиеWho can understand “dunno”? Automatic assessment of text complexity in children’s literature
Язык оригиналарусский
Номер статьи4
Страницы (с-по)55-68
Число страниц14
ЖурналRusskaya Rech
Номер выпуска5
DOI
СостояниеОпубликовано - 2021

Предметные области OECD FOS+WOS

  • 6.02 ЯЗЫК И ЛИТЕРАТУРА
  • 5.09.EN КУЛЬТУРОЛОГИЯ

Fingerprint

Подробные сведения о темах исследования «Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей». Вместе они формируют уникальный семантический отпечаток (fingerprint).

Цитировать