Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario definisce i termini del machine learning.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. Quindi, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.

Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.

L'ablazione può anche contribuire a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati

In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.

I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.

Ecco alcuni esempi di chip di accelerazione:

Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
Le GPU di NVIDIA, inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare in modo significativo la velocità di elaborazione.

accuracy

#fundamentals

#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

TP è il numero di veri positivi (previsioni corrette).
TN è il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN è il numero di falsi negativi (previsioni errate).

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

Sebbene sia una metrica preziosa per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è in genere una metrica scadente per valutare i modelli di classificazione che elaborano set di dati con squilibrio di classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano di gran lunga i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevicherà o meno ogni giorno, ma prevede semplicemente "no neve" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati per un secolo di previsioni:

Categoria	Numero
VP	0
TN	36499
FP	0
FN	25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale molto impressionante, il modello in realtà non ha capacità predittiva.

Precisione e richiamo sono in genere metriche più utili rispetto all'accuratezza per valutare i modelli addestrati su set di dati con classi sbilanciate.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

azione

Nel reinforcement learning, il meccanismo mediante il quale l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando una policy.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore
y costante pari a 0 e si estende lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
all'aumentare del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input di un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e dei pesi pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone sia costituito da:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola la sigmoide di -2,0, che è circa 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) al livello successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adattamento

#generativeAI

Sinonimo di ottimizzazione o ottimizzazione avanzata.

agente

Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.

Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dalla transizione tra gli stati dell'ambiente.

clustering agglomerativo

#clustering

Vedi clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

#Metric

Vedi AUC PR (area sotto la curva PR).

area sotto la curva ROC

#Metric

Consulta la sezione AUC (Area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi che non sono ancora stati inventati.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.

Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-head, che sono i componenti di base dei Transformer.

Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

attributo

#responsible

Sinonimo di funzionalità.

Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.

campionamento degli attributi

#df

Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.

AUC (area sotto la curva ROC)

#fundamentals

#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positiva
negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativo, negativo, negativo, negativo,
positivo, negativo, positivo, positivo, negativo, positivo, positivo,
positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi dai negativi ha il seguente aspetto:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1.0) moltiplicata per la larghezza della regione grigia (1.0). Pertanto, il prodotto di 1,0 e 1,0 produce un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un modello di classificazione che non riesce a separare le classi è la seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica ha un aspetto simile al seguente:

Calcolare manualmente l'area sotto questa curva sarebbe un'operazione laboriosa, motivo per cui in genere un programma calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un modello di classificazione sia più sicuro che un esempio positivo scelto a caso sia effettivamente positivo rispetto a un esempio negativo scelto a caso.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

realtà aumentata

Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.

autoencoder

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:

L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.

Vedi anche autoencoder variazionali.

valutazione automatica

#generativeAI

Utilizzo di software per valutare la qualità dell'output di un modello.

Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.

Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.

Contrasto con la valutazione umana.

bias di automazione

#responsible

Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni create senza automazione, anche quando il sistema decisionale automatizzato commette errori.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:

Cerca il modello più appropriato.
Ottimizza gli iperparametri.
Prepara i dati (inclusa l'esecuzione del feature engineering).
Esegui il deployment del modello risultante.

AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.

Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.

autorater evaluation

#generativeAI

Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un sistema di valutazione automatica è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.

Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.

modello autoregressivo

#generativeAI

Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di un modello di rete neurale, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.

Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema di scomparsa del gradiente.

precisione media a k

#Metric

Una metrica per riassumere il rendimento di un modello in un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

dove:

$n$ è il numero di elementi pertinenti nell'elenco.

Contrasto con il richiamo a k.

Fai clic sull'icona per un esempio.

Supponiamo che a un modello linguistico di grandi dimensioni venga fornita la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce il seguente elenco:

The General
Mean Girls
Platoon
Le amiche della sposa
Quarto potere
This is Spinal Tap

Quattro dei film nell'elenco restituito sono molto divertenti (ovvero pertinenti), ma due sono drammi (non pertinenti). La seguente tabella mostra i risultati nel dettaglio:

Posizione	Film	Pertinente?	Precisione a k
1	The General	Sì	1.0
2	Mean Girls	Sì	1,0
3	Platoon	No	non pertinente
4	Le amiche della sposa	Sì	0,75
5	Quarto potere	No	non pertinente
6	This is Spinal Tap	Sì	0,67

Il numero di risultati pertinenti è 4. Pertanto, puoi calcolare la precisione media a 6 nel seguente modo:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

condizione allineata all'asse

#df

In un albero decisionale, una condizione che coinvolge una sola caratteristica. Ad esempio, se area è una funzionalità, la seguente è una condizione allineata all'asse:

area > 200

Contrasto con la condizione obliqua.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
Durante la passata all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

bagging

#df

Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.

bag of words

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:

il cane salta
salta il cane
dog jumps the

Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

1 per indicare la presenza di una parola.
Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse il cane marrone è un cane con il pelo marrone, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.

base di riferimento

#Metric

Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica può fungere da buona base di riferimento per un modello profondo.

Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.

modello base

#generativeAI

Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.

Vedi anche modello preaddestrato e modello di base.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

inferenza batch

#GoogleCloud

Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip acceleratori. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.

Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

normalizzazione batch

Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:

Rendi le reti neurali più stabili proteggendole dai pesi anomali.
Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
Ridurre l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
Guida pratica per l'ottimizzazione del deep learning.

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.

Equazione di Bellman

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Utilizza l'architettura Transformer e si basa sull'auto-attenzione.
Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
È bidirezionale.
Utilizza la mascheratura per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, acronimo di A Light BERT.
LaBSE.

Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.

bias (etica/equità)

#responsible

#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

b
w₀

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta sull'asse y) pari a 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

bidirezionale

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:

Qual è il tuo _____?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe anche acquisire il contesto da "con" e "te", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigram

Un bigramma in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

la classe positiva
la classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Contrasto con la condizione non binaria.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

binning

Sinonimo di raggruppamento.

modello black box

Un modello il cui "ragionamento" è impossibile o difficile da comprendere per gli esseri umani. Ciò significa che, anche se gli esseri umani possono vedere in che modo i prompt influenzano le risposte, non possono determinare esattamente in che modo un modello black box determina la risposta. In altre parole, un modello a scatola nera non ha interpretabilità.

La maggior parte dei modelli di deep learning e dei modelli linguistici di grandi dimensioni sono scatole nere.

BLEU (Bilingual Evaluation Understudy)

Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.

Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.

Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.

Vedi anche BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.

Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.

BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.

Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.

aumentare

Una tecnica di machine learning che combina in modo iterativo un insieme di modelli di classificazione semplici e non molto accurati (definiti "classificatori deboli") in un modello di classificazione con elevata accuratezza (un "classificatore forte") mediante l'assegnazione di un peso maggiore agli esempi che il modello sta attualmente classificando in modo errato.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.

riquadro di delimitazione

In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.

Fotografia di un cane seduto su un divano. Un riquadro di selezione verde
con coordinate in alto a sinistra (275, 1271) e in basso a destra (2954, 2761) circoscrive il corpo del cane

trasmissione

Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Fai clic sull'icona per un esempio.

Date le seguenti definizioni di A e B, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Per ulteriori dettagli, consulta la seguente descrizione del broadcasting in NumPy.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:

<= 10 gradi Celsius rientrerebbe nel bucket "freddo".
11-24 gradi Celsius rientrano nella categoria "temperato".
>= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per ulteriori note.

Se rappresenti la temperatura come una funzionalità continua, il modello la considera come una singola funzionalità. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come una funzionalità separata. ovvero un modello può apprendere relazioni separate di ogni bucket con l'etichetta. Ad esempio, un modello di regressione lineare può apprendere pesi separati per ogni bucket.

Aumentando il numero di bucket, il modello diventa più complesso perché aumenta il numero di relazioni che deve apprendere. Ad esempio, i bucket freddo, temperato e caldo sono essenzialmente tre funzionalità separate su cui addestrare il modello. Se decidi di aggiungere altri due bucket, ad esempio per il freddo e il caldo, il modello dovrà ora essere addestrato su cinque funzionalità separate.

Come fai a sapere quanti bucket creare o quali devono essere gli intervalli per ciascun bucket? Le risposte in genere richiedono una buona dose di sperimentazione.

Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme osservato di etichette.

generazione di candidati

Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme di consigli molto più piccolo e utile.

Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.

campionamento dei candidati

Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

beagle
cane
un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).

L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come una caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

modello linguistico causale

Sinonimo di modello linguistico unidirezionale.

Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.

centroide

#clustering

Il centro di un cluster determinato da un algoritmo

Glossario del machine learning Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A

ablazione

Test A/B

chip dell'acceleratore

accuracy

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

azione

funzione di attivazione

Fai clic sull'icona per visualizzare un esempio.

apprendimento attivo

AdaGrad

adattamento

agente

clustering agglomerativo

rilevamento di anomalie

AR

area sotto la curva PR

area sotto la curva ROC

intelligenza artificiale generale

intelligenza artificiale

Attention,

attributo

campionamento degli attributi

AUC (area sotto la curva ROC)

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

Fai clic sull'icona per una definizione più formale di AUC.

realtà aumentata

autoencoder

valutazione automatica

bias di automazione

AutoML

autorater evaluation

modello autoregressivo

perdita ausiliaria

precisione media a k

Fai clic sull'icona per un esempio.

condizione allineata all'asse

B

backpropagation

bagging

bag of words

base di riferimento

modello base

batch

inferenza batch

normalizzazione batch

dimensione del batch

Rete neurale bayesiana

Ottimizzazione bayesiana

Equazione di Bellman

BERT (Bidirectional Encoder Representations from Transformers)

bias (etica/equità)

bias (matematica) o termine di bias

bidirezionale

modello linguistico bidirezionale

bigram

classificazione binaria

condizione binaria

binning

modello black box

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

aumentare

riquadro di delimitazione

trasmissione

Fai clic sull'icona per un esempio.

il bucketing

Fai clic sull'icona per ulteriori note.

C

livello di calibrazione

generazione di candidati

campionamento dei candidati

dati categorici

modello linguistico causale

centroide

Glossario del machine learning