Modelli supervisionati e non supervisionati per il Data Mining

Jan 22, 2020 · 3m 52s
Modelli supervisionati e non supervisionati per il Data Mining
Description

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati. I modelli “supervisionati”, che sono metodi che vengono applicati nel momento...

show more
Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.

I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.

I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo.

Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.

La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.

Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.

Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.

I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.

I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.

Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.

L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.

Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale.

In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.

Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..

in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.
show less
Information
Author Valerio Maria Murgolo
Organization Valerio Maria Murgolo
Website -
Tags

Looks like you don't have any active episode

Browse Spreaker Catalogue to discover great new content

Current

Podcast Cover

Looks like you don't have any episodes in your queue

Browse Spreaker Catalogue to discover great new content

Next Up

Episode Cover Episode Cover

It's so quiet here...

Time to discover new episodes!

Discover
Your Library
Search