Улучшение качества стилевой классификации русскоязычных текстов на основе статистических индексов

Улучшение качества стилевой классификации русскоязычных текстов на основе статистических индексов / В. В. Филимонов, А. А. Живодеров, Л. Г. Горбич, Е. И. Дерябина // Ergo... : Проблемы методологии, междисциплинарных исследований и комплексного обеспечения научно-исследовательской деятельности : сборник научных трудов. - Екатеринбург, 2022. - Вып. 6. - С. 74-84.

Документ доступен в ЦНБ УрО РАН: 

Нет

Год: 

2022

Связанные персоналии: 

Нет

Рубрики: 

  • Библиотечное дело

Вид издания: 

  • статья из сборника


h1

Публичные страницы

Публичные страницы

Страницы

Страницы

Аннотация

Аннотация

Для решения задачи автоматической стилевой классификации текстов были применены методы дискриминантного анализа. В качестве возможных факторов классификации рассматривались индекс триграмм (ИТ), индекс биграмм (ИБ), их отношение (ИТ/ИБ), индекс сжимаемости текстов (Deflate), а также информационные индексы: соотношение порядка и хаоса в системе - так называемая R-функция (Rf), и функция развития (Df). Найдены оптимальные сочетания индексов для решения этой задачи. Удалось добиться значительного улучшения качества классификации текстов при одновременном уменьшении количества используемых индексов по сравнению с предыдущими работами. To solve the problem of automatic stylistic classification of texts, methods of discriminant analysis were applied. The trigram index (TI), the bigram index (BI), their ratio (TI/BI), the text compressibility index (Deflate), as well as information indexes: the ratio of order and chaos in the system - the so-called R-function (Rf), and the development function (Df) were considered as possible classification factors. Optimal combinations of indexes for solving this problem are found. It was possible to achieve a significant improvement in the quality of text classification and reducing the number of used indexes in comparison with previous works.