Unisteffo

Machine learning

Apprendimento

Machine learning

L'obiettivo del machine learning è quello di costruire un modello matematico in grado di associare tutti i valori di uno spazio di input a quelli di un altro spazio di output .

Per costruire il modello, usano insiemi di associazioni tra un vettore di input e un risultato di output :

Training set

Insieme di associazioni su cui ci si basa per creare il modello matematico.

Il codice di programmazione del modello!

Validation set

Insieme di associazioni usate per verificare che il modello matematico sia valido.

La Continuous Integration del modello!

Testing set

Insieme di associazioni usate per determinare l'efficacia del modello matematico.

Il benchmark del modello!

Supervised learning

Quando si è a conoscenza del dominio dello spazio di output , il machine learning è detto supervised learning.

In particolare, i problemi risolti in questo caso sono detti:

Problemi di binary classification se
Problemi di multi-class classification se
Problemi di regression se

Unsupervised learning

Quando non si è a conoscenza del dominio dello spazio di output , il machine learning è detto supervised learning.

In particolare, i problemi risolti in questo caso sono detti:

Problemi di novelty detection se si cerca di capire se qualcosa è simile o nuovo rispetto agli elementi precedenti
Problemi di clustering se si cerca di trovare gruppi a cui potrebbero appartenere gli elementi

Ottimizzazione

Come un problema di ottimizzazione

Possiamo astrarre il machine learning come il seguente problema di ottimizzazione:

Trova la funzione che minimizza gli errori sul training set e la complessità della funzione, dando opzionalmente priorità a uno dei due addendi.

Hypothesis space

Spazio delle funzioni adatte a descrivere la relazione tra input e output.

Loss function

Funzione predeterminata che determina l'errore del modello su un elemento del training set.

Complessità della funzione

Non ancora spiegato.

È la norma a infinito al quadrato o la norma quadratica?

Priorità

Parametro moltiplicativo predeterminato che permette di selezionare quanta importanza dare agli errori sul training set rispetto alla complessità del modello.

Se minore di 1, prioritizza gli errori.

Se maggiore di 1, prioritizza la semplicità.

Se troppo basso, il modello commette overfitting.

Se troppo alto, il modello perde accuratezza.