Text categorization

Da Wikipedia, l'enciclopedia libera.

La Text Categorization o text classification (abbreviata come TC) è, in ambito di intelligenza artificiale, un'attività che si occupa di classificare testi digitali in linguaggio naturale assegnando in maniera automatica collezioni di documenti ad una o più classi appartenenti ad un insieme detto "set di classi" predefinito.

Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite autoapprendimento ad esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori.

Applicazioni[modifica | modifica sorgente]

Tipica applicazione per questa tecnica è l'interpretazione di e-mail, andando a segnalare possibili mail indesiderate (spam).

Voci correlate[modifica | modifica sorgente]