Information-Theoretic method for classification of texts

B. Ya Ryabko, A. E. Gus’kov, I. V. Selivanova

Результат исследования: Научные публикации в периодических изданияхстатья

Аннотация

We consider a method for automatic (i.e., unmanned) text classification based on methods of universal source coding (or “data compression”). We show that under certain restrictions the proposed method is consistent, i.e., the classification error tends to zero with increasing text lengths. As an example of practical use of the method we consider the classification problem for scientific texts (research papers, books, etc.). The proposed method is experimentally shown to be highly efficient.

Язык оригиналаанглийский
Страницы (с-по)294-304
Число страниц11
ЖурналProblems of Information Transmission
Том53
Номер выпуска3
DOI
СостояниеОпубликовано - 1 июл 2017

Fingerprint Подробные сведения о темах исследования «Information-Theoretic method for classification of texts». Вместе они формируют уникальный семантический отпечаток (fingerprint).

  • Цитировать