Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. Является одной из задач документной лингвистики.
Классификация может осуществляться полностью вручную, либо автоматически с помощью созданного вручную набора правил, либо автоматически с применением методов машинного обучения.
Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.
Содержание 1 Подходы к классификации текстов
2 Постановка задачи
3 Этапы обработки
4 Обучающие методы 4.1 Наивная байесовская модель 5 Применение
6 Примечания
7 Литература
8 См. также
9 Ссылки
Классификация документов