Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario definisce i termini del machine learning.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. Quindi, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.

Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.

L'ablazione può anche contribuire a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati

In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.

In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.

I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.

Ecco alcuni esempi di chip di accelerazione:

Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
Le GPU di NVIDIA, inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare in modo significativo la velocità di elaborazione.

accuracy

#fundamentals

#Metric

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

TP è il numero di veri positivi (previsioni corrette).
TN è il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN è il numero di falsi negativi (previsioni errate).

Confronta e contrapponi l'accuratezza con la precisione e il richiamo.

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

Sebbene sia una metrica preziosa per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è in genere una metrica scadente per valutare i modelli di classificazione che elaborano set di dati con squilibrio di classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Poiché i giorni senza neve (la classe negativa) superano di gran lunga i giorni con neve (la classe positiva), il set di dati sulla neve per questa città è sbilanciato. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevicherà o meno ogni giorno, ma prevede semplicemente "no neve" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati per un secolo di previsioni:

Categoria	Numero
VP	0
TN	36499
FP	0
FN	25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale molto impressionante, il modello in realtà non ha capacità predittiva.

Precisione e richiamo sono in genere metriche più utili rispetto all'accuratezza per valutare i modelli addestrati su set di dati con classi sbilanciate.

Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.

azione

Nel reinforcement learning, il meccanismo mediante il quale l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando una policy.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore
y costante pari a 0 e si estende lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa retta ha una pendenza di +1, quindi
va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea è il seguente:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da -infinito a +positivo, mentre i valori y coprono l'intervallo da quasi 0 a
quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre
positiva, con la pendenza più alta a 0,0,5 e pendenze che diminuiscono gradualmente
all'aumentare del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input di un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e dei pesi pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone sia costituito da:

valore di input	peso dell'input
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola la sigmoide di -2,0, che è circa 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) al livello successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adattamento

#generativeAI

Sinonimo di ottimizzazione o ottimizzazione avanzata.

agente

Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.

Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dalla transizione tra gli stati dell'ambiente.

clustering agglomerativo

#clustering

Vedi clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

#Metric

Vedi AUC PR (area sotto la curva PR).

area sotto la curva ROC

#Metric

Consulta la sezione AUC (Area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi che non sono ancora stati inventati.

intelligenza artificiale

#fundamentals

Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.

Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.

Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-head, che sono i componenti di base dei Transformer.

Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.

attributo

#responsible

Sinonimo di funzionalità.

Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.

campionamento degli attributi

#df

Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.

AUC (area sotto la curva ROC)

#fundamentals

#Metric

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:

Una retta numerica con 8 esempi positivi da un lato e
9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positiva
negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0.

La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una retta numerica con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativo, negativo, negativo, negativo,
positivo, negativo, positivo, positivo, negativo, positivo, positivo,
positivo.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi dai negativi ha il seguente aspetto:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1.0) moltiplicata per la larghezza della regione grigia (1.0). Pertanto, il prodotto di 1,0 e 1,0 produce un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un modello di classificazione che non riesce a separare le classi è la seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica ha un aspetto simile al seguente:

Calcolare manualmente l'area sotto questa curva sarebbe un'operazione laboriosa, motivo per cui in genere un programma calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un modello di classificazione sia più sicuro che un esempio positivo scelto a caso sia effettivamente positivo rispetto a un esempio negativo scelto a caso.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

realtà aumentata

Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.

autoencoder

Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:

L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.

Vedi anche autoencoder variazionali.

valutazione automatica

#generativeAI

Utilizzo di software per valutare la qualità dell'output di un modello.

Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.

Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.

Contrasto con la valutazione umana.

bias di automazione

#responsible

Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni create senza automazione, anche quando il sistema decisionale automatizzato commette errori.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:

Cerca il modello più appropriato.
Ottimizza gli iperparametri.
Prepara i dati (inclusa l'esecuzione del feature engineering).
Esegui il deployment del modello risultante.

AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.

Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.

autorater evaluation

#generativeAI

Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un sistema di valutazione automatica è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.

Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.

modello autoregressivo

#generativeAI

Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di un modello di rete neurale, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.

Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema di scomparsa del gradiente.

precisione media a k

#Metric

Una metrica per riassumere il rendimento di un modello in un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

dove:

$n$ è il numero di elementi pertinenti nell'elenco.

Contrasto con il richiamo a k.

Fai clic sull'icona per un esempio.

Supponiamo che a un modello linguistico di grandi dimensioni venga fornita la seguente query:

List the 6 funniest movies of all time in order.

Il modello linguistico di grandi dimensioni restituisce il seguente elenco:

The General
Mean Girls
Platoon
Le amiche della sposa
Quarto potere
This is Spinal Tap

Quattro dei film nell'elenco restituito sono molto divertenti (ovvero pertinenti), ma due sono drammi (non pertinenti). La seguente tabella mostra i risultati nel dettaglio:

Posizione	Film	Pertinente?	Precisione a k
1	The General	Sì	1.0
2	Mean Girls	Sì	1,0
3	Platoon	No	non pertinente
4	Le amiche della sposa	Sì	0,75
5	Quarto potere	No	non pertinente
6	This is Spinal Tap	Sì	0,67

Il numero di risultati pertinenti è 4. Pertanto, puoi calcolare la precisione media a 6 nel seguente modo:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

condizione allineata all'asse

#df

In un albero decisionale, una condizione che coinvolge una sola caratteristica. Ad esempio, se area è una funzionalità, la seguente è una condizione allineata all'asse:

area > 200

Contrasto con la condizione obliqua.

B

backpropagation

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
Durante la passata all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.

In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.

Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.

bagging

#df

Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.

bag of words

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:

il cane salta
salta il cane
dog jumps the

Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:

1 per indicare la presenza di una parola.
Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse il cane marrone è un cane con il pelo marrone, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.

base di riferimento

#Metric

Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica può fungere da buona base di riferimento per un modello profondo.

Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.

modello base

#generativeAI

Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.

Vedi anche modello preaddestrato e modello di base.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

inferenza batch

#GoogleCloud

Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip acceleratori. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.

Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.

normalizzazione batch

Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:

Rendi le reti neurali più stabili proteggendole dai pesi anomali.
Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
Ridurre l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per le dimensioni del batch:

Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Per ulteriori informazioni, consulta le seguenti risorse:

Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
Guida pratica per l'ottimizzazione del deep learning.

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.

Equazione di Bellman

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Utilizza l'architettura Transformer e si basa sull'auto-attenzione.
Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
È bidirezionale.
Utilizza la mascheratura per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, acronimo di A Light BERT.
LaBSE.

Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.

bias (etica/equità)

#responsible

#fundamentals

1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

bias (matematica) o termine di bias

#fundamentals

Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:

b
w₀

Ad esempio, il bias è il b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.

Il grafico di una retta con pendenza 0,5 e bias (intercetta sull'asse y) pari a 2.

Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.

Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

bidirezionale

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:

Qual è il tuo _____?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe anche acquisire il contesto da "con" e "te", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigram

Un bigramma in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:

la classe positiva
la classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).

Contrasta con la classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Contrasto con la condizione non binaria.

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

binning

Sinonimo di raggruppamento.

modello black box

Un modello il cui "ragionamento" è impossibile o difficile da comprendere per gli esseri umani. Ciò significa che, anche se gli esseri umani possono vedere in che modo i prompt influenzano le risposte, non possono determinare esattamente in che modo un modello black box determina la risposta. In altre parole, un modello a scatola nera non ha interpretabilità.

La maggior parte dei modelli di deep learning e dei modelli linguistici di grandi dimensioni sono scatole nere.

BLEU (Bilingual Evaluation Understudy)

Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.

Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.

Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.

Vedi anche BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.

Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.

BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.

Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.

aumentare

Una tecnica di machine learning che combina in modo iterativo un insieme di modelli di classificazione semplici e non molto accurati (definiti "classificatori deboli") in un modello di classificazione con elevata accuratezza (un "classificatore forte") mediante l'assegnazione di un peso maggiore agli esempi che il modello sta attualmente classificando in modo errato.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.

riquadro di delimitazione

In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.

Fotografia di un cane seduto su un divano. Un riquadro di selezione verde
con coordinate in alto a sinistra (275, 1271) e in basso a destra (2954, 2761) circoscrive il corpo del cane

trasmissione

Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Fai clic sull'icona per un esempio.

Date le seguenti definizioni di A e B, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B a:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Per ulteriori dettagli, consulta la seguente descrizione del broadcasting in NumPy.

il bucketing

#fundamentals

Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.

Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:

<= 10 gradi Celsius rientrerebbe nel bucket "freddo".
11-24 gradi Celsius rientrano nella categoria "temperato".
>= 25 gradi Celsius sarebbe il bucket "caldo".

Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per ulteriori note.

Se rappresenti la temperatura come una funzionalità continua, il modello la considera come una singola funzionalità. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come una funzionalità separata. ovvero un modello può apprendere relazioni separate di ogni bucket con l'etichetta. Ad esempio, un modello di regressione lineare può apprendere pesi separati per ogni bucket.

Aumentando il numero di bucket, il modello diventa più complesso perché aumenta il numero di relazioni che deve apprendere. Ad esempio, i bucket freddo, temperato e caldo sono essenzialmente tre funzionalità separate su cui addestrare il modello. Se decidi di aggiungere altri due bucket, ad esempio per il freddo e il caldo, il modello dovrà ora essere addestrato su cinque funzionalità separate.

Come fai a sapere quanti bucket creare o quali devono essere gli intervalli per ciascun bucket? Le risposte in genere richiedono una buona dose di sperimentazione.

Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme osservato di etichette.

generazione di candidati

Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme di consigli molto più piccolo e utile.

Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.

campionamento dei candidati

Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

beagle
cane
un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).

L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, considera una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come una caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Contrasto con i dati numerici.

Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.

modello linguistico causale

Sinonimo di modello linguistico unidirezionale.

Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.

centroide

#clustering

Il centro di un cluster determinato da un algoritmo k-means o k-medie. Ad esempio, se k è 3, l'algoritmo k-means o k-medie trova 3 centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.

clustering basato sui centroidi

#clustering

Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato sui centroidi più utilizzato.

Contrasto con gli algoritmi di clustering gerarchico.

Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.

chain-of-thought prompting

#generativeAI

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze G sperimenterebbe un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta dell'LLM probabilmente:

Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
Spiega perché ha scelto queste formule e cosa significano le varie variabili.

La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, il prompting chain-of-thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta è sensata o meno.

chat

#generativeAI

I contenuti di un dialogo botta e risposta con un sistema ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e come ha risposto il modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:

Interrompere l'addestramento, intenzionalmente o a causa di determinati errori.
Acquisisci il checkpoint.
In un secondo momento, ricarica il checkpoint, possibilmente su un hardware diverso.
Riavvia l'addestramento.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.

set di dati bilanciato per classe

Un set di dati contenente etichette categoriche in cui il numero di istanze di ogni categoria è approssimativamente uguale. Ad esempio, considera un set di dati botanici la cui etichetta binaria può essere pianta autoctona o pianta non autoctona:

Un set di dati con 515 piante autoctone e 485 piante non autoctone è un set di dati bilanciato per classe.
Un set di dati con 875 piante autoctone e 125 piante non autoctone è un set di dati con sbilanciamento di classe.

Non esiste una linea di demarcazione formale tra i set di dati bilanciati per classe e i set di dati sbilanciati per classe. La distinzione diventa importante solo quando un modello addestrato su un set di dati con forte squilibrio di classe non riesce a convergere. Per maggiori dettagli, consulta Dataset: dataset sbilanciati in Machine Learning Crash Course.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? italiano?).
Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:

Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Fai clic sull'icona per ulteriori note.

Man mano che i modelli o i set di dati si evolvono, a volte gli ingegneri modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni della classe positiva possono improvvisamente diventare classi negative e viceversa.

Ad esempio, considera un modello di previsione di malattie di classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore grezzo per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente ansima, "Oh no! Non mi sento bene.")

Un anno dopo, forse i valori sono i seguenti:

Il valore grezzo per lo stesso paziente rimane a 0,95.
La soglia di classificazione cambia in 0,97.

Pertanto, il sistema ora riclassifica il paziente come classe negativa. ("Happy day! Non sono malato.") Stesso paziente. Diagnosi diversa.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

classificatore

#fundamentals

Un termine informale per un modello di classificazione.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per una classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

1.000.000 di etichette negative
10 etichette positive

Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.

Al contrario, il seguente set di dati è bilanciato per classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

517 etichette negative
483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:

1.000.000 di etichette con la classe "verde"
200 etichette con la classe "viola"
350 etichette con la classe "arancione"

L'addestramento di set di dati con classi sbilanciate può presentare sfide particolari. Per maggiori dettagli, consulta Dataset sbilanciati in Machine Learning Crash Course.

Vedi anche entropia, classe maggioritaria e classe minoritaria.

clipping

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi:

Tronca tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Taglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.

Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.

Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.

Cloud TPU

#TensorFlow

#GoogleCloud

Un acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente fornire un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni normali".

Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi
come fori intorno al centro di un bersaglio. L'anello più interno
di punti dati è classificato come cluster 1, l'anello centrale
come cluster 2 e l'anello più esterno come
cluster 3.

Per saperne di più, consulta il corso sul clustering.

co-adattamento

Un comportamento indesiderato in cui i neuroni prevedono pattern nei dati di addestramento basandosi quasi esclusivamente sugli output di altri neuroni specifici anziché sul comportamento della rete nel suo complesso. Quando i pattern che causano la co-adattamento non sono presenti nei dati di convalida, la co-adattamento causa un overfitting. La regolarizzazione dropout riduce la co-adattamento perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.

filtro collaborativo

Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di suggerimenti.

Per saperne di più, consulta la sezione Filtro collaborativo del corso Recommendation Systems.

modello compatto

Qualsiasi modello di piccole dimensioni progettato per essere eseguito su dispositivi di piccole dimensioni con risorse di calcolo limitate. Ad esempio, i modelli compatti possono essere eseguiti su cellulari, tablet o sistemi incorporati.

computing

(Sostantivo) Le risorse di calcolo utilizzate da un modello o un sistema, ad esempio potenza di elaborazione, memoria e spazio di archiviazione.

Vedi chip di accelerazione.

deriva del concetto

Un cambiamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, la variazione del concetto riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buone approssimazioni del mondo reale, il modello dovrebbe fare buone previsioni del mondo reale. Tuttavia, a causa della variazione del concetto, le previsioni del modello tendono a peggiorare nel tempo.

Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "efficiente dal punto di vista del consumo di carburante". ovvero le caratteristiche potrebbero essere:

peso dell'auto
compressione del motore
transmission type

mentre l'etichetta è:

a basso consumo di carburante
non efficiente in termini di consumo di carburante

Tuttavia, il concetto di "auto a basso consumo di carburante" è in continua evoluzione. Un modello di auto etichettato come efficiente in termini di consumo di carburante nel 1994 sarebbe quasi certamente etichettato come non efficiente in termini di consumo di carburante nel 2024. Un modello che soffre di concept drift tende a fare previsioni sempre meno utili nel tempo.

Confronta e contrapponi con la non stazionarietà.

Fai clic sull'icona per ulteriori note.

Per compensare il concept drift, esegui il retraining dei modelli più velocemente del tasso di concept drift. Ad esempio, se il concept drift riduce la precisione del modello di un margine significativo ogni due mesi, esegui il retraining del modello più frequentemente di ogni due mesi.

condizione

#df

In un albero decisionale, qualsiasi nodo che esegue un test. Ad esempio, il seguente albero decisionale contiene due condizioni:

Un albero decisionale composto da due condizioni: (x > 0) e
(y > 0).

Una condizione è chiamata anche divisione o test.

Condizione di contrasto con foglia.

Vedi anche:

Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.

confabulazione

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico rispetto ad allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, inclusi:

Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#responsible

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in modo da confermare le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare i dati in modi che influenzano un risultato a sostegno delle loro convinzioni esistenti. Il bias di conferma è una forma di bias implicito.

Il bias dell'osservatore è una forma di bias di conferma in cui un osservatore continua ad addestrare i modelli finché un'ipotesi preesistente non viene confermata.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Non tumorale (previsto)
Tumore (dati di fatto)	18 (VP)	1 (FN)
Non-Tumor (dato di fatto)	6 (FP)	452 (TN)

La matrice di confusione precedente mostra quanto segue:

Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a tre classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (dati di fatto)	88	12	0
Versicolor (dati di fatto)	6	141	7
Virginica (dati empirici reali)	2	27	109

Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.

analisi delle circoscrizioni

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un analizzatore sintattico può dividere questa frase nei seguenti due costituenti:

Il mio amico è una frase nominale.
adopted two cats è un sintagma verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, il gruppo verbale

ha adottato due gatti

potrebbe essere ulteriormente suddiviso in:

adottato è un verbo.
two cats è un altro sintagma nominale.

embedding contestuale del linguaggio

#generativeAI

Un embedding che si avvicina alla "comprensione" di parole e frasi in modo simile a quello di un oratore umano fluente. Gli incorporamenti del linguaggio contestualizzati possono comprendere sintassi, semantica e contesto complessi.

Ad esempio, considera gli incorporamenti della parola inglese cow. Gli embedding precedenti, come word2vec, possono rappresentare le parole in inglese in modo che la distanza nello spazio di embedding da cow a bull sia simile alla distanza da ewe (pecora femmina) a ram (pecora maschio) o da female a male. Gli incorporamenti del linguaggio contestualizzato possono fare un ulteriore passo avanti riconoscendo che i parlanti inglesi a volte usano casualmente la parola cow per indicare sia la mucca che il toro.

finestra contestuale

#generativeAI

Il numero di token che un modello può elaborare in un determinato prompt. Più è ampia la finestra contestuale, maggiore è la quantità di informazioni che il modello può utilizzare per fornire risposte coerenti e consistenti al prompt.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.

Contrasto con la funzionalità discreta.

campionamento di convenienza

Utilizzo di un set di dati non raccolti scientificamente per eseguire esperimenti rapidi. In un secondo momento, è essenziale passare a un set di dati raccolti scientificamente.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza dopo circa 700 iterazioni:

Grafico cartesiano. L'asse X è perso. L'asse Y indica il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
diminuisce bruscamente. Dopo circa 100 iterazioni, la perdita continua a diminuire, ma in modo molto più graduale. Dopo circa 700 iterazioni,
la perdita rimane invariata.

Un modello converge quando un ulteriore addestramento non migliora il modello.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.

Vedi anche interruzione anticipata.

Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.

programmazione conversazionale

#generativeAI

Un dialogo iterativo tra te e un modello di AI generativa allo scopo di creare software. Emetti un prompt che descrive un software. Poi, il modello utilizza questa descrizione per generare il codice. Poi, emetti un nuovo prompt per risolvere i difetti del prompt precedente o del codice generato e il modello genera il codice aggiornato. Continuate a fare avanti e indietro finché il software generato non è abbastanza buono.

Il conversation coding è essenzialmente il significato originale di vibe coding.

Contrasta con la codifica delle specifiche.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipica ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la seguente funzione non è convessa. Nota come la regione sopra il grafico non sia un insieme convesso:

Una curva a forma di W con due punti di minimo locale diversi.

Una funzione strettamente convessa ha esattamente un punto di minimo locale, che è anche il punto di minimo globale. Le funzioni a forma di U classiche sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le rette) non hanno forma a U.

Fai clic sull'icona per un'analisi più approfondita dei calcoli.

Molte delle funzioni di perdita comuni, tra cui le seguenti, sono funzioni convesse:

Molte varianti della discesa del gradiente garantiscono di trovare un punto vicino al minimo di una funzione strettamente convessa. Allo stesso modo, molte varianti della discesa del gradiente stocastico hanno un'alta probabilità (anche se non una garanzia) di trovare un punto vicino al minimo di una funzione strettamente convessa.

La somma di due funzioni convesse (ad esempio, perdita L₂ + regolarizzazione L₁) è una funzione convessa.

I modelli profondi non sono mai funzioni convesse. È interessante notare che gli algoritmi progettati per l'ottimizzazione convessa tendono a trovare soluzioni ragionevolmente buone sulle reti profonde, anche se non è garantito che queste soluzioni siano un minimo globale.

Per saperne di più, consulta Funzioni di convergenza e convesse in Machine Learning Crash Course.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.

Per informazioni dettagliate, consulta Boyd e Vandenberghe, Convex Optimization.

insieme convesso

Un sottoinsieme dello spazio euclideo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un'illustrazione di un rettangolo. Un'altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Un'illustrazione di un grafico a torta con una fetta mancante.
Un'altra illustrazione di un poligono molto irregolare.

convoluzione

In matematica, in termini semplici, una combinazione di due funzioni. Nel machine learning, una convoluzione combina il filtro convoluzionale e la matrice di input per addestrare i pesi.

Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello convoluzionale.

Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.

Per saperne di più, consulta Introduzione alle reti neurali convoluzionali nel corso Classificazione delle immagini.

filtro convoluzionale

Uno dei due attori in un'operazione di convoluzione. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono in genere impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono in genere inizializzati con numeri casuali e poi la rete addestra i valori ideali.

Per saperne di più, consulta Convoluzione nel corso Classificazione delle immagini.

livello convoluzionale

Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

L'animazione seguente mostra un livello convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione funziona su una diversa sezione 3x3 della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convoluzione:

Per saperne di più, consulta Livelli completamente connessi nel corso Classificazione delle immagini.

rete neurale convoluzionale

Una rete neurale in cui almeno uno strato è uno strato convoluzionale. Una tipica rete neurale convoluzionale è costituita da una combinazione dei seguenti livelli:

Le reti neurali convoluzionali hanno ottenuto ottimi risultati in alcuni tipi di problemi, come il riconoscimento delle immagini.

operazione di convoluzione

La seguente operazione matematica in due passaggi:

Moltiplicazione elemento per elemento del filtro convoluzionale e di una sezione di una matrice di input. La sezione della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
Somma di tutti i valori nella matrice dei prodotti risultante.

Ad esempio, considera la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ora immagina il seguente filtro convoluzionale 2x2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione di convoluzione coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convoluzione su questa sezione è la seguente:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra
della matrice di input, ovvero [[128,97], [35,22]].
Il filtro convoluzionale lascia intatti 128 e 22, ma azzera
97 e 35. Di conseguenza, l'operazione di convoluzione produce
il valore 150 (128+22).

Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.

costo

#Metric

Sinonimo di perdita.

co-training

Un approccio di apprendimento semi-supervisionato particolarmente utile quando sono vere tutte le seguenti condizioni:

Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
Si tratta di un problema di classificazione (binaria o multiclasse).
Il set di dati contiene due diversi insiemi di caratteristiche predittive indipendenti l'uno dall'altro e complementari.

Il co-training amplifica essenzialmente i segnali indipendenti in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buone o Cattive. Un insieme di funzionalità predittive potrebbe concentrarsi su caratteristiche aggregate come l'anno, la marca e il modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi su la cronologia di guida del precedente proprietario e la cronologia di manutenzione dell'auto.

L'articolo fondamentale sul co-training è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.

equità controfattuale

#responsible

#Metric

Una metrica di equità che controlla se un modello di classificazione produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne per uno o più attributi sensibili. La valutazione di un modello di classificazione per l'equità controfattuale è un metodo per individuare potenziali fonti di bias in un modello.

Per saperne di più, consulta uno dei seguenti articoli:

Equità: equità controfattuale in Machine Learning Crash Course.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Quando i mondi si scontrano: integrare diverse ipotesi controfattuali nell'equità)

bias di copertura

#responsible

Consulta la sezione Bias di selezione.

crash blossom

Una frase o un'espressione con un significato ambiguo. I crash blossom rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un crash blossom perché un modello NLU potrebbe interpretare il titolo letteralmente o figurativamente.

Fai clic sull'icona per ulteriori note.

Per chiarire il significato di questo titolo misterioso:

Red Tape può riferirsi a una delle seguenti situazioni:
- Un adesivo
- Eccessiva burocrazia
Holds Up può riferirsi a una delle seguenti situazioni:
- Supporto strutturale
- Ritardi

critico

Sinonimo di Deep Q-Network.

entropia incrociata

#Metric

Una generalizzazione della perdita logaritmica per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare il livello di generalizzazione di un modello a nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti sottratti dal set di addestramento.

funzione di distribuzione cumulativa (CDF)

#Metric

Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Ottenere una comprensione dei dati considerando campioni, misurazioni e visualizzazioni. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e risolvere i problemi del sistema.

aumento dei dati

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti per creare esempi aggiuntivi. Ad esempio, supponiamo che le immagini siano una delle tue caratteristiche, ma il tuo set di dati non contiene esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al tuo set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, ottenendo così dati etichettati sufficienti per consentire un ottimo addestramento.

DataFrame

#fundamentals

Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Consulta anche la pagina di riferimento di pandas.DataFrame.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su batch di dimensioni molto grandi; tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da poter essere memorizzato su tutti i dispositivi.

Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.

Vedi anche parallelismo dei modelli.

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per leggere i dati e trasformarli in un formato richiesto da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi, in cui ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator fornisce l'accesso agli elementi di un Dataset.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

un foglio di lavoro
un file in formato CSV (valori separati da virgola)

confine decisionale

Il separatore tra le classi apprese da un modello in un problema di classificazione binaria o multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e l'altra.

foresta di alberi decisionali

#df

Un modello creato da più alberi decisionali. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più comuni di foreste decisionali includono foreste casuali e alberi potenziati dal gradiente.

Per ulteriori informazioni, consulta la sezione Foreste decisionali del corso sulle foreste decisionali.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate gerarchicamente. Ad esempio, di seguito è riportata una struttura decisionale:

Un albero decisionale composto da quattro condizioni disposte
gerarchicamente, che portano a cinque foglie.

decoder

In generale, qualsiasi sistema ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più grezza, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un decoder all'interno dell'architettura Transformer.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.

modello deep

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello profondo è chiamato anche rete neurale profonda.

Contrasta con il modello ampio.

per le reti neurali profonde

Sinonimo di modello profondo.

Deep Q-Network (DQN)

Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

parità demografica

#responsible

#Metric

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i lillipuziani che i brobdingnagiani fanno domanda all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è la stessa di quella dei brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Contrasto con probabilità equalizzate e uguaglianza delle opportunità, che consentono ai risultati della classificazione aggregata di dipendere da attributi sensibili, ma non consentono ai risultati della classificazione per determinate etichette verità di riferimento specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che esplora i compromessi quando si esegue l'ottimizzazione per la parità demografica.

Per saperne di più, consulta Equità: parità demografica in Machine Learning Crash Course.

riduzione del rumore

Un approccio comune all'apprendimento auto-supervisionato in cui:

Rumore viene aggiunto artificialmente al set di dati.
Il modello tenta di rimuovere il rumore.

La rimozione del rumore consente l'apprendimento da esempi non etichettati. Il set di dati originale funge da target o etichetta e i dati rumorosi come input.

Alcuni modelli linguistici mascherati utilizzano la rimozione del rumore nel seguente modo:

Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni dei token.
Il modello tenta di prevedere i token originali.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Contrasto con la funzionalità sparsa.

strato denso

Sinonimo di strato completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

il numero di livelli nascosti
il numero di livelli di output, in genere 1
il numero di eventuali strati di embedding

Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

rete neurale convoluzionale separabile per profondità (sepCNN)

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. Noto anche come Xception.

Una convoluzione separabile per profondità (abbreviata anche come convoluzione separabile) fattorizza una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione separabile per profondità, con una profondità di 1 (n ✕ n ✕ 1), e poi una convoluzione puntuale, con lunghezza e larghezza di 1 (1 ✕ 1 ✕ n).

Per saperne di più, consulta Xception: Deep Learning with Depthwise Separable Convolutions.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un termine sovraccarico con le seguenti due possibili definizioni:

Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
Quando addestri un modello ML su chip acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona con chip di accelerazione. Al contrario, l'host in genere viene eseguito su una CPU.

privacy differenziale

Nell'apprendimento automatico, un approccio di anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) inclusi nel set di addestramento di un modello dall'esposizione. Questo approccio garantisce che il modello non impari o ricordi molto di una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esporre dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte utilizzano la privacy differenziale per proteggere la privacy individuale quando calcolano le statistiche sull'utilizzo dei prodotti per diverse fasce demografiche.

riduzione delle dimensioni

Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore delle funzionalità, in genere mediante la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha zero dimensioni, ad esempio ["Hello"].
- Un vettore ha una dimensione, ad esempio [3, 5, 7, 11].
- Una matrice ha due dimensioni, ad esempio [[2, 4, 18], [5, 7, 14]]. Puoi specificare in modo univoco una cella particolare in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una cella particolare in una matrice bidimensionale.
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.

prompt diretto

#generativeAI

Sinonimo di prompt zero-shot.

funzionalità discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).

Contrasto con la caratteristica continua.

modello discriminativo

Un modello che prevede etichette da un insieme di una o più funzionalità. Più formalmente, i modelli discriminativi definiscono la probabilità condizionata di un output in base alle funzionalità e ai pesi, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam a partire da caratteristiche e pesi è un modello discriminante.

La stragrande maggioranza dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, sono modelli discriminativi.

Contrasto con il modello generativo.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete adversarial generativa che determina se gli esempi creati dal generatore sono reali o falsi.

Per saperne di più, consulta la sezione Il discriminatore del corso sulle GAN.

impatto discriminatorio

#responsible

Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi della popolazione. Ciò si riferisce in genere a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillipuziano a un mutuo per una casa in miniatura abbia più probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lillipuziani Big-Endian hanno maggiori probabilità di avere indirizzi postali con questo codice postale rispetto ai lillipuziani Little-Endian, questo algoritmo potrebbe comportare un impatto disparato.

In contrasto con il trattamento disparato, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti per un processo decisionale algoritmico.

trattamento discriminatorio

#responsible

L'inclusione di attributi sensibili nel processo decisionale algoritmico in modo che diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, considera un algoritmo che determina l'idoneità dei lillipuziani a un prestito per una casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza l'affiliazione di un lillipuziano come Big-Endian o Little-Endian come input, sta attuando un trattamento discriminatorio lungo questa dimensione.

Si differenzia dall'impatto disparato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.

distillazione

#generativeAI

Il processo di riduzione delle dimensioni di un modello (noto come insegnante) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo presenta due vantaggi chiave rispetto al modello più grande (l'insegnante):

Tempi di inferenza più rapidi
Riduzione dell'utilizzo di memoria ed energia

Tuttavia, le previsioni dello studente in genere non sono buone come quelle dell'insegnante.

La distillazione addestra il modello studente a ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.

Confronta e contrapponi la distillazione con i seguenti termini:

Per saperne di più, consulta LLM: fine-tuning, distillazione e prompt engineering in Machine Learning Crash Course.

distribution

La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un valore specifico.

L'immagine seguente mostra gli istogrammi di due distribuzioni diverse:

A sinistra, una distribuzione della ricchezza secondo la legge di potenza rispetto al numero di persone che possiedono quella ricchezza.
A destra, una distribuzione normale dell'altezza rispetto al numero di persone che hanno quell'altezza.

Comprendere la distribuzione di ogni funzionalità ed etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.

L'espressione fuori distribuzione si riferisce a un valore che non compare nel set di dati o è molto raro. Ad esempio, un'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Vedi clustering gerarchico.

sottocampionamento

Termine sovraccarico che può significare una delle seguenti opzioni:

Riduzione della quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, esegui il downsampling delle immagini ad alta risoluzione in un formato a risoluzione inferiore.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classe sovra rappresentata per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio di classe, i modelli tendono ad apprendere molto sulla classe maggioritaria e non abbastanza sulla classe minoritaria. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi maggioritarie e minoritarie.

Per saperne di più, consulta Set di dati: set di dati sbilanciati in Machine Learning Crash Course.

DQN

Abbreviazione di Deep Q-Network.

regolarizzazione del dropout

Una forma di regolarizzazione utile per l'addestramento di reti neurali. La regolarizzazione del dropout rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Ciò equivale ad addestrare la rete a emulare un ensemble di reti più piccole di dimensioni esponenzialmente grandi. Per tutti i dettagli, consulta l'articolo Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinamico

#fundamentals

Qualcosa che viene fatto spesso o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.

Contrasto con il modello statico.

E

esecuzione eager

#TensorFlow

Un ambiente di programmazione TensorFlow in cui le operazioni vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate in modo esplicito. L'esecuzione eager è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono in genere molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

Fai clic sull'icona per ulteriori note.

L'interruzione anticipata può sembrare controintuitiva. Dopo tutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in diminuzione può sembrare come dire a uno chef di smettere di cucinare prima che il dolce sia completamente cotto. Tuttavia, addestrare un modello per troppo tempo può portare a un overfitting. ovvero, se addestri un modello troppo a lungo, il modello potrebbe adattarsi così bene ai dati di addestramento che non fa buone previsioni su nuovi esempi.

In contrasto con l'uscita anticipata.

Distanza di movimento terra (EMD)

#Metric

Una misura della similarità relativa di due distribuzioni. Più bassa è la distanza di Earth Mover, più simili sono le distribuzioni.

modifica distanza

#Metric

Una misurazione del grado di somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:

La distanza di modifica è facile da calcolare.
La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
La distanza di modifica può determinare il grado di somiglianza di stringhe diverse rispetto a una determinata stringa.

Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni sulle stringhe diverse. Per un esempio, vedi Distanza di Levenshtein.

Notazione di Einstein

Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione di Einstein utilizza simboli per identificare gli assi di ogni tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

strato di embedding

#fundamentals

Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.

Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello include un vettore one-hot lungo 73.000 elementi. Ad esempio, forse baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.

Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.

spazio di embedding

Lo spazio vettoriale d-dimensionale a cui vengono mappate le caratteristiche di uno spazio vettoriale di dimensione superiore. Lo spazio di embedding è addestrato per acquisire la struttura significativa per l'applicazione prevista.

Il prodotto scalare di due embedding è una misura della loro similarità.

vettore di embedding

In generale, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrivono gli input di quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in un livello di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ognuno contenente un numero in virgola mobile
compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione di una caratteristica di una specie arborea. Quale elemento rappresenta la caratteristica di quale specie di albero? È molto difficile per gli esseri umani determinarlo.

La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto a specie di alberi diverse. Le sequoie e le sequoie rosse sono specie arboree correlate, quindi avranno un insieme di numeri in virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambiano ogni volta che viene eseguito il retraining del modello, anche se viene eseguito con input identici.

funzione di distribuzione cumulativa empirica (eCDF o EDF)

#Metric

Una funzione di distribuzione cumulativa basata su misurazioni empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati che sono minori o uguali al valore specificato.

minimizzazione empirica del rischio (ERM)

Scegliendo la funzione che minimizza la perdita nel set di addestramento. Contrasto con la minimizzazione del rischio strutturale.

codificatore

In generale, qualsiasi sistema ML che converte una rappresentazione non elaborata, sparsa o esterna in una rappresentazione più elaborata, densa o interna.

Gli encoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un decoder. Alcuni Transformer accoppiano encoder e decoder, mentre altri Transformer utilizzano solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un encoder accetta una sequenza di input e restituisce uno stato interno (un vettore). Poi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder nell'architettura Transformer.

Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni in Machine Learning Crash Course.

endpoints

Una posizione indirizzabile in rete (in genere un URL) in cui è possibile raggiungere un servizio.

ensemble

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate in media o aggregate. In molti casi, un insieme produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un ensemble creato da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.

Per saperne di più, consulta Random Forest in Machine Learning Crash Course.

entropia

#df

#Metric

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è anche definita come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più elevata possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di esempi "1".
q è la frazione di esempi "0". Tieni presente che q = (1 - p)
log è generalmente log₂. In questo caso, l'unità di entropia è un bit.

Ad esempio, supponiamo quanto segue:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia tende a 0.

Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confronta l'entropia con:

Impurità di Gini
Funzione di perdita entropia incrociata

L'entropia viene spesso chiamata entropia di Shannon.

Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.

produzione

Nell'apprendimento per rinforzo, il mondo che contiene l'agente e gli consente di osservare lo stato. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, quest'ultimo passa da uno stato all'altro.

puntata

Nell'apprendimento per rinforzo, ogni tentativo ripetuto dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

epsilon greedy policy

Nell'apprendimento per rinforzo, una policy che segue una policy casuale con probabilità epsilon o una policy greedy altrimenti. Ad esempio, se epsilon è 0,9, la policy segue una policy casuale il 90% delle volte e una policy greedy il 10% delle volte.

Nel corso di episodi successivi, l'algoritmo riduce il valore di epsilon per passare da una strategia casuale a una strategia greedy. Spostando la policy, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.

uguaglianza di opportunità

#responsible

#Metric

Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza delle opportunità è correlata alle probabilità equalizzate, che richiedono che entrambi i tassi di veri positivi e i tassi di falsi positivi siano gli stessi per tutti i gruppi.

Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (lillipuziana o brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano lillipuziani o brobdingnagiani.

Ad esempio, supponiamo che 100 lillipuziani e 100 brobdingnaghi facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 1. Candidati lillipuziani (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	3
Rifiutato	45	7
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 7/10 = 70% Percentuale totale di studenti lillipuziani ammessi: (45+3)/100 = 48%

Tabella 2. Candidati brobdingnaghi (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	9
Rifiutato	5	81
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 81/90 = 90% Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano la parità di opportunità per l'accettazione di studenti qualificati perché i lillipuziani e i brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi.

Sebbene l'uguaglianza delle opportunità sia soddisfatta, le seguenti due metriche di equità non sono soddisfatte:

Parità demografica: i lillipuziani e i brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti lillipuziani viene ammesso, ma solo il 14% degli studenti brobdingnagiani.
Probabilità equalizzate: mentre gli studenti lillipuziani e brobdingnagiani qualificati hanno la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti lillipuziani e brobdingnagiani non qualificati abbiano la stessa probabilità di essere respinti non è soddisfatto. I Lillipuziani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.

Per saperne di più, consulta la sezione Equità: pari opportunità di Machine Learning Crash Course.

probabilità equalizzate

#responsible

#Metric

Una metrica di equità per valutare se un modello prevede i risultati in modo equo per tutti i valori di un attributo sensibile rispetto sia alla classe positiva sia alla classe negativa, non solo a una classe o all'altra esclusivamente. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità equalizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. La condizione di pari opportunità è soddisfatta a condizione che, indipendentemente dal fatto che un candidato sia un lillipuziano o un brobdingnagiano, se è qualificato, abbia la stessa probabilità di essere ammesso al programma e, se non è qualificato, abbia la stessa probabilità di essere rifiutato.

Supponiamo che 100 Lillipuziani e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:

Tabella 3. Candidati lillipuziani (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	2
Rifiutato	45	8
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47%

Tabella 4. Candidati brobdingnaghi (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	18
Rifiutato	5	72
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23%

La condizione di probabilità uguale è soddisfatta perché gli studenti lillipuziani e brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi, mentre quelli non qualificati hanno l'80% di possibilità di essere respinti.

Le probabilità equalizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, condizionati a Y".

Estimator

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli Estimator.

evals

#generativeAI

#Metric

Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, evals è l'abbreviazione di qualsiasi forma di valutazione.

valutazione

#generativeAI

#Metric

Il processo di misurazione della qualità di un modello o di confronto tra modelli diversi.

Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM in genere comporta valutazioni più ampie di qualità e sicurezza.

esempio

#fundamentals

I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buono
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi senza etichetta:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

experience replay

Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di replay, quindi campiona le transizioni dal buffer di replay per creare dati di addestramento.

bias dello sperimentatore

#responsible

Consulta la sezione relativa al bias di conferma.

problema del gradiente esplosivo

La tendenza dei gradienti nelle reti neurali profonde (soprattutto reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). I gradienti elevati spesso causano aggiornamenti molto grandi ai pesi di ogni nodo in una rete neurale profonda.

I modelli che soffrono del problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Il clipping del gradiente può attenuare questo problema.

Confrontalo con il problema di scomparsa del gradiente.

V

F₁

#Metric

Una metrica di classificazione binaria "roll-up" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Fai clic sull'icona per visualizzare gli esempi.

Supponiamo che precisione e richiamo abbiano i seguenti valori:

precisione = 0,6
recall = 0.4

Calcola F₁ nel seguente modo:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F₁ è vicino alla loro media. Quando precisione e richiamo differiscono in modo significativo, F₁ è più vicino al valore inferiore. Ad esempio:

precisione = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

oggettività

#generativeAI

Nel mondo del machine learning, una proprietà che descrive un modello il cui output si basa sulla realtà. L'accuratezza è un concetto, non una metrica. Ad esempio, supponi di inviare il seguente prompt a un modello linguistico di grandi dimensioni:

Qual è la formula chimica del sale da tavola?

Un modello che ottimizza l'accuratezza risponderebbe:

NaCl

È allettante presumere che tutti i modelli debbano basarsi sulla veridicità. Tuttavia, alcuni prompt, come i seguenti, devono indurre un modello di AI generativa a ottimizzare la creatività anziché l'accuratezza.

Scrivimi una filastrocca su un astronauta e un bruco.

È improbabile che il limerick risultante si basi sulla realtà.

Contrasto con l'ancoraggio.

vincolo di equità

#responsible

Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Ecco alcuni esempi di vincoli di equità:

Post-elaborazione dell'output del modello.
Modifica della funzione di perdita per incorporare una penalità per la violazione di una metrica di equità.
Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.

metrica di equità

#responsible

#Metric

Una definizione matematica di "equità" misurabile. Alcune metriche di equità comunemente utilizzate includono:

Molte metriche di equità si escludono a vicenda. Vedi Incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals

#Metric

Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.

percentuale di falsi negativi

#Metric

La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

falso positivo (FP)

#fundamentals

#Metric

Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.

Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.

percentuale di falsi positivi (FPR)

#fundamentals

#Metric

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La percentuale di falsi positivi è l'asse x di una curva ROC.

Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.

decadimento rapido

#generativeAI

Una tecnica di addestramento per migliorare le prestazioni degli LLM. Il decadimento rapido comporta una rapida diminuzione del tasso di apprendimento durante l'addestramento. Questa strategia aiuta a evitare che il modello esegua un overfitting dei dati di addestramento e migliora la generalizzazione.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

still
light
windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il cross di funzionalità risultante ha 2.000.000 di bucket.

Formalmente, un incrocio è un prodotto cartesiano.

I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

Per saperne di più, consulta Dati categorici: combinazioni di funzionalità in Machine Learning Crash Course.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Un processo che prevede i seguenti passaggi:

Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature.

Il feature engineering è talvolta chiamato estrazione delle funzionalità o featurizzazione.

Fai clic sull'icona per ulteriori note su TensorFlow.

In TensorFlow, il feature engineering spesso significa convertire le voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

estrazione delle caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

Recupero delle rappresentazioni delle funzionalità intermedie calcolate da un modello non supervisionato o preaddestrato (ad esempio, i valori dello strato nascosto in una rete neurale) da utilizzare come input in un altro modello.
Sinonimo di feature engineering.

importanza delle caratteristiche

#df

#Metric

Sinonimo di importanza delle variabili.

set di funzionalità

#fundamentals

Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.

specifiche della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle funzionalità dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:

I dati da estrarre (ovvero le chiavi delle funzionalità)
Il tipo di dati (ad esempio, float o int)
La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori delle funzionalità che compongono un esempio. Il vettore delle caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
Lo strato di input contiene due nodi, uno con il valore
0,92 e l'altro con il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:

una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre valori possibili rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
una funzionalità in virgola mobile, ad esempio 8.3.

In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.

featurizzazione

Il processo di estrazione delle caratteristiche da una fonte di input, come un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano il termine featurizzazione come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi caricano i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi di privacy della raccolta mirata dei dati e della minimizzazione dei dati.

Per saperne di più, consulta il fumetto sull'apprendimento federato.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.

Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali ricorrenti, che sono cicliche.

apprendimento few-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare modelli di classificazione efficaci a partire da un numero ridotto di esempi di addestramento.

Vedi anche apprendimento one-shot e apprendimento zero-shot.

prompting few-shot

#generativeAI

Un prompt che contiene più di un esempio che dimostra come il modello linguistico di grandi dimensioni deve rispondere. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`Regno Unito: GBP`	Un altro esempio.
`India:`	La query effettiva.

Il prompting few-shot in genere produce risultati più desiderabili rispetto al prompting zero-shot e al prompting one-shot. Tuttavia, il prompt few-shot richiede un prompt più lungo.

Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Per saperne di più, consulta Prompt engineering in Machine Learning Crash Course.

Violino

Una libreria di configurazione basata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altre basi di codice ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che le codebase di machine learning siano in genere suddivise in:

Codice della libreria, che definisce i livelli e gli ottimizzatori.
Codice "collante" del set di dati, che chiama le librerie e collega tutto.

Fiddle acquisisce la struttura di chiamata del codice di collegamento in una forma non valutata e modificabile.

ottimizzazione

#generativeAI

Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello linguistico di grandi dimensioni su un vasto set di dati generici, come tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, ad esempio rispondere a domande mediche. L'ottimizzazione in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.

Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:

Pre-addestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generiche, ad esempio tutte le immagini di Wikimedia Commons.
Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, come generare immagini di orche.

Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:

Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
Modifica solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
Aggiungendo altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.

L'ottimizzazione è una forma di transfer learning. Pertanto, il perfezionamento potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.

Confronta e contrapponi il fine-tuning con i seguenti termini:

Per saperne di più, consulta la sezione Ottimizzazione di Machine Learning Crash Course.

Modello flash

#generativeAI

Una famiglia di modelli Gemini relativamente piccoli ottimizzati per la velocità e la bassa latenza. I modelli Flash sono progettati per un'ampia gamma di applicazioni in cui risposte rapide e velocità effettiva elevata sono fondamentali.

Lino

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax fornisce funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.

Flaxformer

Una libreria Transformer open source, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

forget gate

La parte di una cella Long Short-Term Memory che regola il flusso di informazioni attraverso la cella. I cancelli di dimenticanza mantengono il contesto decidendo quali informazioni scartare dallo stato della cella.

foundation model

#generativeAI

#Metric

Un modello preaddestrato molto grande addestrato su un set di addestramento enorme e diversificato. Un modello di base può fare entrambe le seguenti operazioni:

Rispondere bene a un'ampia gamma di richieste.
Funge da modello di base per l'ottimizzazione o altre personalizzazioni.

In altre parole, un foundation model è già molto efficace in senso generale, ma può essere ulteriormente personalizzato per diventare ancora più utile per un'attività specifica.

frazione di successi

#generativeAI

#Metric

Una metrica per valutare il testo generato di un modello ML. La frazione di successi è il numero di output di testo generati "riusciti" diviso per il numero totale di output di testo generati. Ad esempio, se un modello linguistico di grandi dimensioni ha generato 10 blocchi di codice, cinque dei quali sono stati eseguiti correttamente, la frazione di esecuzioni riuscite sarebbe del 50%.

Sebbene la frazione di successi sia ampiamente utile in tutta la statistica, all'interno del machine learning, questa metrica è utile principalmente per misurare attività verificabili come la generazione di codice o i problemi di matematica.

softmax completo

Sinonimo di softmax.

Contrasta con il campionamento dei candidati.

Per saperne di più, consulta Reti neurali: classificazione multiclasse in Machine Learning Crash Course.

strato completamente connesso

Uno strato nascosto in cui ogni nodo è connesso a ogni nodo dello strato nascosto successivo.

Uno strato completamente connesso è noto anche come strato denso.

function transformation

Una funzione che accetta una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di rete generativa avversaria.

Gemini

#generativeAI

L'ecosistema che comprende l'AI più avanzata di Google. Gli elementi di questo ecosistema includono:

Vari modelli Gemini.
L'interfaccia conversazionale interattiva di un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
Varie API Gemini.
Vari prodotti aziendali basati sui modelli Gemini; ad esempio, Gemini for Google Cloud.

Modelli Gemini

#generativeAI

Modelli multimodali all'avanguardia di Google basati su Transformer. I modelli Gemini sono progettati specificamente per integrarsi con gli agenti.

Gli utenti possono interagire con i modelli Gemini in vari modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

Gemma

#generativeAI

Una famiglia di modelli aperti leggeri creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Sono disponibili diversi modelli Gemma, ognuno dei quali offre funzionalità diverse, come visione, codice e rispetto delle istruzioni. Per maggiori dettagli, vedi Gemma.

GenAI o genAI

#generativeAI

Abbreviazione di AI generativa.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi e mai visti prima. Un modello in grado di generalizzare è l'opposto di un modello che è overfitting.

Fai clic sull'icona per ulteriori note.

Addestra un modello sugli esempi nel set di addestramento. Di conseguenza, il modello apprende le peculiarità dei dati nel set di addestramento. La generalizzazione si chiede essenzialmente se il modello può fare buone previsioni su esempi che non sono nel set di addestramento.

Per favorire la generalizzazione, la regolarizzazione aiuta un modello ad addestrarsi in modo meno preciso sulle peculiarità dei dati nel set di addestramento.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce un overfitting perché la perdita di convalida alla fine diventa significativamente superiore alla perdita di addestramento.

Un grafico cartesiano in cui l'asse Y è etichettato come perdita e l'asse X
è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la
perdita di addestramento e l'altro la perdita di convalida.
I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
scende molto più in basso della perdita di convalida.

Per saperne di più, consulta la sezione Generalizzazione di Machine Learning Crash Course.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione dei minimi quadrati, basati sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:

Regressione logistica
regressione multiclasse
regressione dei minimi quadrati

I parametri di un modello lineare generalizzato possono essere trovati tramite ottimizzazione convessa.

I modelli lineari generalizzati presentano le seguenti proprietà:

La previsione media del modello di regressione dei minimi quadrati ottimale è uguale all'etichetta media nei dati di addestramento.
La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media nei dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza di un modello profondo, un modello lineare generalizzato non può "apprendere nuove caratteristiche".

testo generato

#generativeAI

In generale, il testo generato da un modello ML. Quando si valutano modelli linguistici di grandi dimensioni, alcune metriche confrontano il testo generato con il testo di riferimento. Ad esempio, supponiamo che tu stia cercando di determinare l'efficacia con cui un modello ML traduce dal francese all'olandese. In questo caso:

Il testo generato è la traduzione in olandese restituita dal modello di ML.
Il testo di riferimento è la traduzione in olandese creata da un traduttore umano (o software).

Tieni presente che alcune strategie di valutazione non prevedono testo di riferimento.

rete generativa avversaria (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

Per saperne di più, consulta il corso sulle reti generative avversariali.

AI generativa

#generativeAI

Un campo trasformativo emergente senza una definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di AI generativa possono creare ("generare") contenuti che siano tutti i seguenti:

complesso
coerente
originale

Esempi di AI generativa:

Modelli linguistici di grandi dimensioni (LLM), che possono generare testi originali sofisticati e rispondere alle domande.
Modello di generazione delle immagini, che può produrre immagini uniche.
Modelli di generazione di audio e musica, che possono comporre musica originale o generare un parlato realistico.
Modelli di generazione video, che possono generare video originali.

Anche alcune tecnologie precedenti, tra cui LSTM e RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come AI generativa, mentre altri ritengono che la vera AI generativa richieda un output più complesso di quello che possono produrre queste tecnologie precedenti.

Contrasto con il machine learning predittivo.

modello generativo

In termini pratici, un modello che esegue una delle seguenti operazioni:

Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. La parte generatore di una rete generativa avversaria rientra in questa categoria.
Determina la probabilità che un nuovo esempio provenga dal set di addestramento o sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi in inglese, un modello generativo potrebbe determinare la probabilità che un nuovo input sia una frase in inglese valida.

Un modello generativo può teoricamente distinguere la distribuzione degli esempi o di caratteristiche particolari in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Contrasto con i modelli discriminativi.

generatore

Il sottosistema all'interno di una rete adversariale generativa che crea nuovi esempi.

Contrasta con il modello discriminativo.

Impurità di Gini

#df

#Metric

Una metrica simile all'entropia. Gli splitter utilizzano valori derivati dall'impurità di Gini o dall'entropia per comporre condizioni per gli alberi decisionali. L'information gain deriva dall'entropia. Non esiste un termine equivalente accettato universalmente per la metrica derivata dall'impurità di Gini; tuttavia, questa metrica senza nome è importante quanto l'information gain.

L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.

Fai clic sull'icona per visualizzare i dettagli matematici sull'impurità di Gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dato estratto dalla stessa distribuzione. L'impurità di Gini di un insieme con due valori possibili "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) viene calcolata in base alla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità di Gini.
p è la frazione di esempi "1".
q è la frazione di esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità di Gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe il 37,5% di probabilità di essere classificata in modo errato e il 62,5% di probabilità di essere classificata correttamente.

Un'etichetta perfettamente bilanciata (ad esempio, 200 "0" e 200 "1") avrebbe un'impurità di Gini pari a 0,5. Un'etichetta molto squilibrata avrebbe un'impurità di Gini vicina a 0,0.

set di dati di riferimento

Un insieme di dati selezionati manualmente che acquisiscono i dati di riferimento. I team possono utilizzare uno o più golden dataset per valutare la qualità di un modello.

Alcuni set di dati di riferimento acquisiscono diversi sottodomini di dati empirici reali. Ad esempio, un set di dati di riferimento per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.

risposta di riferimento

#generativeAI

Una risposta nota per essere buona. Ad esempio, dato il seguente prompt:

2 + 2

La risposta ideale è:

4

Fai clic qui per visualizzare le note sulla risposta ideale e sul testo di riferimento.

Alcune metriche di valutazione, come ROUGE, confrontano il testo di riferimento con il testo generato di un modello. Quando a una richiesta esiste un'unica risposta corretta, la risposta ideale funge in genere da testo di riferimento.

Alcuni prompt non hanno una sola risposta corretta. Ad esempio, il prompt Riassumi questo documento probabilmente avrà molte risposte corrette. Per questi prompt, il testo di riferimento è spesso impraticabile perché un modello può generare una gamma molto ampia di possibili riassunti. Tuttavia, una risposta modello potrebbe essere utile in questa situazione. Ad esempio, una risposta ideale contenente un buon riepilogo del documento può contribuire ad addestrare uno strumento di valutazione automatica a scoprire i pattern di buoni riepiloghi dei documenti.

Google AI Studio

Uno strumento Google che fornisce un'interfaccia intuitiva per sperimentare e creare applicazioni utilizzando i modelli linguistici di grandi dimensioni di Google. Per maggiori dettagli, consulta la home page di Google AI Studio.

GPT (Generative Pre-trained Transformer)

#generativeAI

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a più modalità, tra cui:

generazione di immagini (ad esempio, ImageGPT)
generazione di immagini da testo (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. La pendenza indica la direzione di salita più ripida.

accumulo del gradiente

Una tecnica di retropropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo del gradiente aggiorna semplicemente un totale parziale dei gradienti. Poi, dopo aver elaborato l'ultimo mini-batch dell'epoca, il sistema aggiorna finalmente i parametri in base al totale di tutte le modifiche ai gradienti.

L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione delle dimensioni del batch nella normale backpropagation aumenta il numero di aggiornamenti dei parametri. L'accumulo del gradiente consente al modello di evitare problemi di memoria, ma di eseguire comunque l'addestramento in modo efficiente.

alberi (decisionali) con boosting del gradiente (GBT)

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa sul gradient boosting.
Il modello debole è un albero decisionale.

Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees del corso Decision Forests.

gradient boosting

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello forte. Ad esempio, un modello debole potrebbe essere un modello lineare o un piccolo albero decisionale. Il modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di gradient boosting, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello robusto viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello di partenza.
$F_{i+1}$ è il modello forte successivo.
$F_{i}$ è il modello forte attuale.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato restringimento, che è analogo al tasso di apprendimento nella discesa del gradiente.
$f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne del gradient boosting includono anche la derivata seconda (Hessiana) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nel gradient boosting. Vedi alberi (decisionali) con potenziamento del gradiente.

troncamento del gradiente

Un meccanismo comunemente utilizzato per mitigare il problema del gradiente esplosivo limitando artificialmente il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola in modo iterativo pesi e bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia, del machine learning.

Per saperne di più, consulta Regressione lineare: discesa del gradiente in Machine Learning Crash Course.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi del grafico rappresentano le operazioni. I bordi sono diretti e rappresentano il passaggio del risultato di un'operazione (un Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafico

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma prima costruisce un grafo e poi esegue tutto o parte di questo grafo. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.

Contrasto con l'esecuzione eager.

greedy policy

Nell'apprendimento per rinforzo, una policy che sceglie sempre l'azione con il rendimento previsto più alto.

fondatezza

Una proprietà di un modello il cui output si basa su (è "fondato su") materiale di origine specifico. Ad esempio, supponiamo di fornire un intero libro di testo di fisica come input ("contesto") a un modello linguistico di grandi dimensioni. Poi, chiedi al modello linguistico di grandi dimensioni di rispondere a una domanda di fisica. Se la risposta del modello riflette le informazioni contenute nel libro di testo, allora il modello è basato su quel libro di testo.

Tieni presente che un modello basato su dati reali non è sempre un modello fattuale. Ad esempio, il libro di testo di fisica inserito potrebbe contenere errori.

dati di fatto

#fundamentals

Realtà.

La cosa che è effettivamente accaduta.

Ad esempio, considera un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di riferimento per questo modello sono se lo studente si è effettivamente laureato entro sei anni.

Fai clic sull'icona per ulteriori note.

Valutiamo la qualità del modello rispetto ai dati di fatto. Tuttavia, il dato di fatto non è sempre completamente veritiero. Ad esempio, considera i seguenti esempi di potenziali imperfezioni nei dati empirici reali:

Nell'esempio del diploma, siamo sicuri che i registri dei diplomi di ogni studente siano sempre corretti? Il sistema di registrazione dell'università è impeccabile?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio, barometri). Come possiamo assicurarci che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata eseguita nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo assicurarci che ogni revisore valuti gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono valutatori umani esperti.

bias di attribuzione di gruppo

#responsible

Supporre che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti del bias di attribuzione di gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, le attribuzioni potrebbero non riflettere la realtà.

Vedi anche bias di omogeneità del gruppo esterno e bias di affinità. Per saperne di più, consulta anche Equità: tipi di bias in Machine Learning Crash Course.

H

allucinazione

#generativeAI

La produzione di output apparentemente plausibili ma errati dal punto di vista fattuale da parte di un modello di AI generativa che dichiara di fare un'affermazione sul mondo reale. Ad esempio, un modello di AI generativa che afferma che Barack Obama è morto nel 1865 sta allucinando.

hashing

Nel machine learning, un meccanismo per raggruppare dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente presenti nel set di dati è relativamente piccolo.

Ad esempio, sulla Terra esistono circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se in un set di dati compaiono solo 200 di queste specie di alberi, puoi utilizzare l'hashing per dividere le specie di alberi in 500 bucket.

Un singolo bucket potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe inserire baobab e acero rosso, due specie geneticamente diverse, nello stesso bucket. In ogni caso, l'hashing è ancora un buon modo per mappare grandi insiemi categorici nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un numero elevato di valori possibili in un numero molto inferiore di valori raggruppandoli in modo deterministico.

Per saperne di più, consulta Dati categorici: vocabolario e codifica one-hot in Machine Learning Crash Course.

euristica

Una soluzione semplice e rapida da implementare a un problema. Ad esempio, "Con un'euristica, abbiamo raggiunto una precisione dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è salita al 98%".

strato nascosto

#fundamentals

Uno strato di una rete neurale tra lo strato di input (le caratteristiche) e lo strato di output (la previsione). Ogni livello nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Una rete neurale profonda contiene più di uno strato nascosto. Ad esempio, l'illustrazione precedente è una rete neurale profonda perché il modello contiene due livelli nascosti.

Per saperne di più, consulta Reti neurali: nodi e livelli nascosti in Machine Learning Crash Course.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide iterativamente il cluster in un albero gerarchico.

Contrasto con il clustering basato sui centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

hill climbing

Un algoritmo per migliorare in modo iterativo ("salire una collina") un modello ML finché il modello smette di migliorare ("raggiunge la cima di una collina"). La forma generale dell'algoritmo è la seguente:

Crea un modello iniziale.
Crea nuovi modelli candidati apportando piccoli aggiustamenti al modo in cui addestri o ottimizzi. Ciò potrebbe comportare l'utilizzo di un set di addestramento leggermente diverso o di iperparametri diversi.
Valuta i nuovi modelli candidati ed esegui una delle azioni seguenti:
- Se un modello candidato supera il modello iniziale, questo diventa il nuovo modello iniziale. In questo caso, ripeti i passaggi 1, 2 e 3.
- Se nessun modello supera il modello iniziale, hai raggiunto la cima della collina e devi interrompere l'iterazione.

Consulta il Deep Learning Tuning Playbook per indicazioni sull'ottimizzazione degli iperparametri. Consulta i moduli sui dati di Machine Learning Crash Course per indicazioni sul feature engineering.

perdita hinge

#Metric

Una famiglia di funzioni di perdita per la classificazione progettate per trovare il limite decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il limite. Le SVM del kernel utilizzano la perdita hinge (o una funzione correlata, come la perdita hinge al quadrato). Per la classificazione binaria, la funzione di perdita hinge è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta reale, -1 o +1, e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita hinge rispetto a (y * y') ha il seguente aspetto:

Un grafico cartesiano costituito da due segmenti di retta uniti. Il primo
segmento di retta inizia in (-3, 4) e termina in (1, 0). Il segmento della seconda riga
inizia in corrispondenza di (1, 0) e continua all'infinito con una pendenza
pari a 0.

bias storico

#responsible

Un tipo di bias che esiste già nel mondo ed è entrato a far parte di un set di dati. Questi bias tendono a riflettere stereotipi culturali, disuguaglianze demografiche e pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, considera un modello di classificazione che prevede se un richiedente prestito non sarà in grado di restituire il prestito, che è stato addestrato su dati storici di insolvenza dei prestiti degli anni '80 di banche locali in due comunità diverse. Se i candidati precedenti della community A avevano una probabilità sei volte maggiore di non rimborsare i propri prestiti rispetto ai candidati della community B, il modello potrebbe apprendere un bias storico che lo porterebbe a essere meno propenso ad approvare prestiti nella community A, anche se le condizioni storiche che hanno portato a tassi di insolvenza più elevati in questa community non fossero più pertinenti.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

dati holdout

Esempi non utilizzati intenzionalmente ("tenuti in disparte") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout consentono di valutare la capacità del modello di generalizzare i dati diversi da quelli su cui è stato addestrato. La perdita sul set di attesa fornisce una stima migliore della perdita su un set di dati invisibile rispetto alla perdita sul set di addestramento.

host

#TensorFlow

#GoogleCloud

Quando addestri un modello di ML su chip acceleratori (GPU o TPU), la parte del sistema che controlla entrambi gli elementi seguenti:

Il flusso generale del codice.
L'estrazione e la trasformazione della pipeline di input.

L'host viene in genere eseguito su una CPU, non su un chip acceleratore; il dispositivo manipola i tensori sui chip acceleratori.

valutazione umana

#generativeAI

Un processo in cui persone giudicano la qualità dell'output di un modello ML; ad esempio, persone bilingue giudicano la qualità di un modello di traduzione ML. La valutazione umana è particolarmente utile per giudicare i modelli che non hanno una sola risposta corretta.

Contrasta con la valutazione automatica e la valutazione del sistema di valutazione automatico.

human-in-the-loop (HITL)

#generativeAI

Un idioma definito in modo generico che potrebbe significare una delle seguenti opzioni:

Una policy di visualizzazione critica o scettica dell'output dell'AI generativa.
Una strategia o un sistema per garantire che le persone contribuiscano a modellare, valutare e perfezionare il comportamento di un modello. Il coinvolgimento di un essere umano consente a un'AI di trarre vantaggio sia dall'intelligenza artificiale sia da quella umana. Ad esempio, un sistema in cui un'AI genera codice che viene poi esaminato dagli ingegneri informatici è un sistema human-in-the-loop.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive dell'addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una retta è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più comunemente nel machine learning, un iperpiano è il confine che separa uno spazio di dimensioni elevate. Le macchine a vettori di supporto con kernel utilizzano iperpiani per separare le classi positive da quelle negative, spesso in uno spazio molto dimensionale.

I

i.i.d.

Abbreviazione di indipendentemente e identicamente distribuito.

riconoscimento immagini

Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è noto anche come classificazione delle immagini.

Per saperne di più, consulta ML Practicum: Image Classification.

Per saperne di più, consulta il corso ML Practicum: classificazione delle immagini.

set di dati sbilanciato

Sinonimo di set di dati sbilanciato.

bias implicito

#responsible

Creare automaticamente un'associazione o un'ipotesi in base ai propri modelli mentali e ricordi. Il bias implicito può influire su quanto segue:

Come vengono raccolti e classificati i dati.
Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando si crea un modello di classificazione per identificare le foto di matrimoni, un ingegnere può utilizzare la presenza di un abito bianco in una foto come funzionalità. Tuttavia, gli abiti bianchi sono stati consueti solo durante determinate epoche e in determinate culture.

Vedi anche bias di conferma.

imputazione

Abbreviazione di imputazione del valore.

incompatibilità delle metriche di equità

#responsible

#Metric

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano inutili. Suggerisce invece che l'equità deve essere definita in modo contestuale per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Per una discussione più dettagliata sull'incompatibilità delle metriche di equità, consulta la sezione "On the (im)possibility of fairness".

apprendimento in-context

#generativeAI

Sinonimo di prompt few-shot.

indipendenti e identicamente distribuiti (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Una distribuzione i.i.d. è il gas ideale del machine learning, un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi questo periodo di tempo, potrebbero comparire differenze stagionali nei visitatori della pagina web.

Vedi anche non stazionarietà.

equità individuale

#responsible

#Metric

Una metrica di equità che controlla se individui simili vengono classificati in modo simile. Ad esempio, l'Accademia di Brobdingnag potrebbe voler soddisfare l'equità individuale assicurandosi che due studenti con voti identici e punteggi di test standardizzati abbiano la stessa probabilità di essere ammessi.

Tieni presente che l'equità individuale dipende interamente da come definisci la"similarità" (in questo caso, voti e punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di similarità non tiene conto di informazioni importanti (come il rigore del curriculum di uno studente).

Per una discussione più dettagliata sull'equità individuale, consulta la sezione "Equità attraverso la consapevolezza".

inferenza

#fundamentals

#generativeAI

Nel machine learning tradizionale, il processo di fare previsioni applicando un modello addestrato a esempi non etichettati. Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

Nei modelli linguistici di grandi dimensioni, l'inferenza è il processo di utilizzo di un modello addestrato per generare una risposta a un prompt di input.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso che un particolare esempio segue dalla radice ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

x = 7
y = 12
z = -3

Il percorso di inferenza nella seguente illustrazione passa attraverso tre condizioni prima di raggiungere la foglia (Zeta).

Un albero decisionale composto da quattro condizioni e cinque foglie.
La condizione radice è (x > 0). Poiché la risposta è Sì, il
percorso di inferenza va dalla radice alla condizione successiva (y > 0).
Poiché la risposta è Sì, il percorso di inferenza passa alla
condizione successiva (z > 0). Poiché la risposta è No, il percorso di inferenza
raggiunge il nodo terminale, ovvero la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

guadagno di informazioni

#df

#Metric

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei relativi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo principale = 0,6
entropia di un nodo secondario con 16 esempi pertinenti = 0,2
entropia di un altro nodo secondario con 24 esempi pertinenti = 0,1

Pertanto, il 40% degli esempi si trova in un nodo secondario e il 60% nell'altro nodo secondario. Pertanto:

somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Pertanto, l'information gain è:

guadagno di informazioni = entropia del nodo principale - somma ponderata dell'entropia dei nodi secondari
information gain = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzino l'acquisizione di informazioni.

bias di affinità

#responsible

Mostrare parzialità nei confronti del proprio gruppo o delle proprie caratteristiche. Se i tester o i valutatori sono amici, familiari o colleghi dello sviluppatore di machine learning, il bias di gruppo potrebbe invalidare il test del prodotto o il set di dati.

Il bias di affinità è una forma di bias di attribuzione di gruppo. Vedi anche bias di omogeneità del gruppo esterno.

Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati in una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono iterati per generare batch per addestramento, valutazione e inferenza.

livello di input

#fundamentals

Lo strato di una rete neurale che contiene il vettore di caratteristiche. ovvero il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due funzionalità:

Quattro strati: uno di input, due nascosti e uno di output.

in-set condition

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della funzionalità dello stile della casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della funzionalità di stile della casa è un altro (ad esempio, ranch), questa condizione restituisce No.

Le condizioni in-set in genere portano ad alberi decisionali più efficienti rispetto alle condizioni che testano le funzionalità codificate one-hot.

istanza

Sinonimo di esempio.

ottimizzazione delle istruzioni

#generativeAI

Una forma di ottimizzazione che migliora la capacità di un modello di AI generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di prompt di istruzioni, in genere relativi a un'ampia gamma di attività. Il modello ottimizzato per le istruzioni risultante tende quindi a generare risposte utili a prompt zero-shot in una serie di attività.

Confrontare e contrapporre con:

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello di ML in termini comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, sono altamente interpretabili. Basta controllare i pesi dell'addestramento di ogni caratteristica. Anche le foreste decisionali sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

accordo tra valutatori

#Metric

Una misura della frequenza con cui i valutatori umani sono d'accordo durante l'esecuzione di un'attività. Se i valutatori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni dell'attività. A volte viene anche chiamato accordo tra annotatori o affidabilità tra valutatori. Vedi anche Kappa di Cohen, una delle misure di concordanza inter-rater più utilizzate.

Per saperne di più, consulta Dati categorici: problemi comuni in Machine Learning Crash Course.

Intersection over Union (IoU)

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini di machine learning, l'IoU viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per i due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e il suo valore varia da 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e del riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine seguente:

Il riquadro di delimitazione previsto (le coordinate che delimitano la posizione in cui il modello prevede che si trovi il comodino nel dipinto) è delineato in viola.
Il riquadro di selezione dei dati empirici reali (le coordinate che delimitano la posizione effettiva del comodino nel dipinto) è evidenziato in verde.

In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a destra) è 7, quindi l'IoU è $\frac{1}{7}$.

La stessa immagine di sopra, ma con ogni riquadro di delimitazione diviso in quattro
quadranti. Ci sono sette quadranti in totale, poiché il quadrante in basso a destra del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono. Questa
sezione sovrapposta (evidenziata in verde) rappresenta
l'intersezione e ha un'area di 1.

IoU

Abbreviazione di Intersection over Union.

matrice degli elementi

Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generati dalla fattorizzazione matriciale che contiene indicatori latenti su ogni elemento. Ogni riga della matrice degli articoli contiene il valore di una singola funzionalità latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna della matrice degli elementi rappresenta un singolo film. I segnali latenti potrebbero rappresentare generi o essere segnali più difficili da interpretare che coinvolgono interazioni complesse tra genere, stelle, età del film o altri fattori.

La matrice degli elementi ha lo stesso numero di colonne della matrice di destinazione che viene fattorizzata. Ad esempio, dato un sistema di consigli sui film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.

elementi

In un sistema di suggerimenti, le entità che un sistema consiglia. Ad esempio, i video sono gli articoli consigliati da un negozio di video, mentre i libri sono gli articoli consigliati da una libreria.

iteration

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i pesi e i bias del modello, durante l'addestramento. La dimensione del batch determina quanti esempi il modello elabora in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Quando addestri una rete neurale, una singola iterazione prevede i seguenti due passaggi:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

Per saperne di più, consulta la sezione Discesa del gradiente in Machine Learning Crash Course.

J

JAX

Una libreria di calcolo di array che riunisce XLA (Accelerated Linear Algebra) e la differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX fornisce funzionalità come:

grad (differenziazione automatica)
jit (compilazione just-in-time)
vmap (vettorializzazione automatica o batch)
pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma molto più ampio, alla libreria NumPy di Python. Infatti, la libreria .numpy in JAX è una versione funzionalmente equivalente, ma completamente riscritta della libreria Python NumPy.

JAX è particolarmente adatto per velocizzare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo tra GPU e chip di accelerazione TPU.

Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.

K

Keras

Un'API Python per il machine learning molto diffusa. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, dove è disponibile come tf.keras.

Kernel Support Vector Machines (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra classi positive e negative mappando i vettori di dati di input in uno spazio di dimensioni superiori. Ad esempio, considera un problema di classificazione in cui il set di dati di input ha cento caratteristiche. Per massimizzare il margine tra le classi positive e negative, un KSVM potrebbe mappare internamente queste funzionalità in uno spazio di un milione di dimensioni. KSVM utilizza una funzione di perdita chiamata hinge loss.

keypoint

Le coordinate di caratteristiche particolari in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.

Convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare in base a nuovi dati. La k nella convalida incrociata k-fold si riferisce al numero di gruppi uguali in cui dividi gli esempi di un set di dati, ovvero addestri e testi il modello k volte. Per ogni ciclo di addestramento e test, un gruppo diverso è il set di test e tutti i gruppi rimanenti diventano il set di addestramento. Dopo k cicli di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre di impostare k su 4. Pertanto, dopo aver mischiato gli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro round di addestramento e test:

Ad esempio, l'errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverai la media e la deviazione standard dell'MSE in tutti e quattro i round.

K-means

#clustering

Un algoritmo di clustering popolare che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue le seguenti operazioni:

Determina in modo iterativo i migliori punti centrali k (noti come centroidi).
Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il quadrato cumulativo delle distanze di ogni esempio dal centroide più vicino.

Ad esempio, considera il seguente grafico dell'altezza rispetto alla larghezza del cane:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne
che con tre centroidi aggiunti.
I punti dati precedenti sono raggruppati in tre gruppi distinti,
e ogni gruppo rappresenta i punti dati più vicini a un particolare
centroide.

Immagina che un produttore voglia determinare le taglie ideali per i maglioni per cani small, medium e large. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore probabilmente dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano l'algoritmo k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte funzionalità.

Per saperne di più, consulta la sezione Che cos'è il clustering K-means? nel corso Clustering.

k-mediana

#clustering

Un algoritmo di clustering strettamente correlato a K-means. La differenza pratica tra le due è la seguente:

Nell'algoritmo k-means, i centroidi vengono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato centroide e ciascuno dei suoi esempi.
In k-medie, i centroidi vengono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

L'algoritmo k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-medie si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza k-mediana tra (2,2) e (5,-2) sarebbe:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di pesi diversi da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L₀ viene talvolta chiamata regolarizzazione della norma L0.

Fai clic sull'icona per ulteriori note.

La regolarizzazione L₀ è generalmente impraticabile nei modelli di grandi dimensioni perché la regolarizzazione L₀ trasforma l'addestramento in un problema di ottimizzazione convesso.

Perdita L₁

#fundamentals

#Metric

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto del delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ persa

La perdita L₁ è meno sensibile ai valori anomali rispetto alla perdita L₂.

L'errore assoluto medio è la perdita L₁ media per esempio.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma del valore assoluto dei pesi. La regolarizzazione L₁ contribuisce a portare i pesi delle caratteristiche irrilevanti o appena rilevanti a esattamente 0. Una caratteristica con un peso pari a 0 viene effettivamente rimossa dal modello.

Contrasto con la regolarizzazione _L2.

Perdita L₂

#fundamentals

#Metric

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi dell'etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = L₂ loss

A causa dell'elevazione al quadrato, la perdita L₂ amplifica l'influenza degli outlier. ovvero la perdita L₂ reagisce più fortemente alle previsioni errate rispetto alla perdita L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Nota che un singolo valore anomalo rappresenta 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L₂ come funzione di perdita.

L'errore quadratico medio è la perdita L₂ media per esempio. Perdita quadratica è un altro nome per la perdita L₂.

Fai clic sull'icona per visualizzare la matematica formale.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza i pesi in proporzione alla somma dei quadrati dei pesi. La regolarizzazione L₂ contribuisce a portare i pesi anomali (quelli con valori positivi elevati o negativi bassi) più vicini a 0, ma non esattamente a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nei modelli lineari.

Contrasto con la regolarizzazione L₁.

Per saperne di più, consulta Overfitting: regolarizzazione L2 in Machine Learning Crash Course.

etichetta

#fundamentals

Nell'apprendimento supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Ad esempio, in un set di dati per il rilevamento dello spam, l'etichetta sarebbe probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

esempio etichettato

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la seguente tabella mostra tre esempi etichettati di un modello di valutazione di una casa, ognuno con tre funzionalità e un'etichetta:

Numero di camere	Numero di bagni	Età della casa	Prezzo della casa (etichetta)
3	2	15	$345.000
2	1	72	$179.000
4	2	34	$392.000

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni su esempi non etichettati.

Esempio con contrasto etichettato con esempi senza etichetta.

Per saperne di più, consulta Apprendimento supervisionato in Introduzione al machine learning.

perdita di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato SpokeToCustomerAgent. Supponiamo inoltre che un agente del cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

Per saperne di più, consulta la sezione Monitoraggio delle pipeline in Machine Learning Crash Course.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialoghi in grado di generare risposte conversazionali realistiche.

LaMDA: our breakthrough conversation technology fornisce una panoramica.

punti di riferimento

Sinonimo di keypoints.

modello linguistico

Un modello che stima la probabilità che un token o una sequenza di token si verifichi in una sequenza di token più lunga.

Fai clic sull'icona per ulteriori note.

Sebbene controintuitivo, molti modelli che valutano il testo non sono modelli linguistici. Ad esempio, i modelli di classificazione del testo e di analisi del sentiment non sono modelli linguistici.

Per saperne di più, consulta Che cos'è un modello linguistico? in Machine Learning Crash Course.

modello linguistico di grandi dimensioni

#generativeAI

Come minimo, un modello linguistico con un numero molto elevato di parametri. In termini più informali, qualsiasi modello linguistico basato su Transformer, come Gemini o GPT.

Per saperne di più, consulta la sezione Modelli linguistici di grandi dimensioni (LLM) del corso intensivo su Machine Learning.

latenza

#generativeAI

Il tempo necessario a un modello per elaborare l'input e generare una risposta. Una risposta a latenza elevata richiede più tempo per essere generata rispetto a una risposta a latenza bassa.

I fattori che influenzano la latenza dei modelli linguistici di grandi dimensioni includono:

Lunghezze dei token di input e output
Complessità del modello
L'infrastruttura su cui viene eseguito il modello

L'ottimizzazione per la latenza è fondamentale per creare applicazioni reattive e facili da usare.

spazio latente

Sinonimo di spazio di embedding.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Tre tipi comuni di livelli sono i seguenti:

Il livello di input, che fornisce i valori per tutte le funzionalità.
Uno o più livelli nascosti, che trovano relazioni non lineari tra le caratteristiche e l'etichetta.
Il livello di output, che fornisce la previsione.

Ad esempio, la seguente illustrazione mostra una rete neurale con uno strato di input, due strati nascosti e uno strato di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è composto da tre neuroni e il secondo da due. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano tensori e opzioni di configurazione come input e producono altri tensori come output.

API Layers (tf.layers)

#TensorFlow

Un'API TensorFlow per costruire una rete neurale profonda come composizione di livelli. L'API Layers ti consente di creare diversi tipi di livelli, ad esempio:

tf.layers.Dense per un livello completamente connesso.
tf.layers.Conv2D per un livello convoluzionale.

L'API Layers segue le convenzioni dell'API Layers di Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Layers hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layers.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Per ulteriori informazioni, consulta la sezione Alberi decisionali del corso Decision Forests.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente con quale intensità regolare i pesi e i bias in ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 modifica i pesi e i bias tre volte più intensamente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, l'algoritmo di discesa del gradiente moltiplica il tasso di apprendimento per il gradiente. Il prodotto risultante è chiamato passo del gradiente.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato minimizzando la perdita L₂.

Distanza di Levenshtein

#metric

Una metrica di distanza di modifica che calcola il numero minimo di operazioni di eliminazione, inserimento e sostituzione necessarie per modificare una parola in un'altra. Ad esempio, la distanza di Levenshtein tra le parole "heart" e "darts" è pari a tre perché le tre modifiche seguenti sono il numero minimo di cambiamenti per trasformare una parola nell'altra:

heart → deart (sostituisci "h" con "d")
deart → dart (elimina "e")
freccetta → freccette (inserisci "e")

Tieni presente che la sequenza precedente non è l'unico percorso di tre modifiche.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata esclusivamente tramite addizione e moltiplicazione.

Il grafico di una relazione lineare è una retta.

Contrasto con non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per caratteristica per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli deep è generalmente non lineare.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli di deep learning. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le funzionalità.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare i calcoli.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

y' è la previsione non elaborata. In alcuni tipi di modelli lineari, questa previsione grezza verrà ulteriormente modificata. Ad esempio, vedi regressione logistica.
b è il bias.
w è una ponderazione, quindi w₁ è la ponderazione della prima funzionalità, w₂ è la ponderazione della seconda funzionalità e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda caratteristica e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti bias e pesi:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Pertanto, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ogni previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un particolare esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Inserendo questi valori nella formula si ottiene una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo i modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come unico componente della formula che fa previsioni. Ad esempio, la regressione logistica post-elabora la previsione grezza (y') per produrre un valore di previsione finale compreso tra 0 e 1, esclusivamente.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui sono vere entrambe le seguenti affermazioni:

Il modello è un modello lineare.
La previsione è un valore in virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.

LIT

Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come Language Interpretability Tool.

LLM

#generativeAI

Abbreviazione di modello linguistico di grandi dimensioni.

Valutazioni LLM

#generativeAI

#Metric

Un insieme di metriche e benchmark per valutare le prestazioni dei modelli linguistici di grandi dimensioni (LLM). A livello generale, valutazioni LLM:

Aiutare i ricercatori a identificare le aree in cui i modelli LLM devono essere migliorati.
Sono utili per confrontare diversi LLM e identificare quello migliore per una determinata attività.
Contribuire a garantire che gli LLM siano sicuri ed etici da utilizzare.

Per saperne di più, consulta Modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorica. Il termine regressione logistica si riferisce in genere alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è Log Loss. È possibile inserire più unità Log Loss in parallelo per le etichette con più di due valori possibili.
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli di deep learning che prevedono probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o meno. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello sta stimando:

Una probabilità del 72% che l'email sia spam.
Il 28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
Il modello utilizza questa previsione non elaborata come input per una funzione sigmoide, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come qualsiasi modello di regressione, un modello di regressione logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

Se il numero previsto è maggiore della soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

Per saperne di più, consulta Regressione logistica in Machine Learning Crash Course.

logit

Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che di solito viene poi passato a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multiclasse, i logit in genere diventano un input della funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare i calcoli.

La seguente formula calcola la perdita logaritmica:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, che sono coppie $(x,y)$ .
$y$ è l'etichetta in un esempio etichettato. Poiché si tratta di una regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, esclusi), dato l'insieme di funzionalità in $x$.

Per saperne di più, consulta Regressione logistica: perdita e regolarizzazione in Machine Learning Crash Course.

log-odds

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare i calcoli.

Se l'evento è una probabilità binaria, allora odds si riferisce al rapporto tra la probabilità di successo (p) e la probabilità di insuccesso (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di errore del 10%. In questo caso, la probabilità viene calcolata come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Il logit è semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma il logaritmo potrebbe essere qualsiasi base maggiore di 1. Attenendoci alla convenzione, il logit del nostro esempio è quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione log-odds è l'inverso della funzione sigmoidea.

Long Short-Term Memory (LSTM)

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura a mano, la traduzione automatica e la creazione di didascalie per le immagini. Le LSTM risolvono il problema del gradiente che svanisce che si verifica durante l'addestramento delle RNN a causa di lunghe sequenze di dati, mantenendo la cronologia in uno stato di memoria interno basato sul nuovo input e sul contesto delle celle precedenti della RNN.

LoRA

#generativeAI

Abbreviazione di adattabilità a basso ranking.

perdita

#fundamentals

#Metric

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

Per saperne di più, consulta Regressione lineare: perdita in Machine Learning Crash Course.

aggregatore di perdite

Un tipo di algoritmo di machine learning che migliora il rendimento di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorarne l'accuratezza.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra una
rapida diminuzione della perdita per le iterazioni iniziali, seguita da una
diminuzione graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello converge o quando si verifica l'overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

Per saperne di più, consulta Overfitting: interpretare le curve di perdita in Machine Learning Crash Course.

funzione di perdita

#fundamentals

#Metric

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di ridurre al minimo la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

La perdita L₂ (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
Log Loss è la funzione di perdita per la regressione logistica.

superficie di perdita

Un grafico del peso o dei pesi rispetto alla perdita. La discesa del gradiente mira a trovare il peso o i pesi per cui la superficie di perdita si trova a un minimo locale.

Adattabilità a basso ranking (LoRA)

#generativeAI

Una tecnica efficiente in termini di parametri per l'ottimizzazione che"congela" i pesi preaddestrati del modello (in modo che non possano più essere modificati) e poi inserisce un piccolo insieme di pesi addestrabili nel modello. Questo insieme di pesi addestrabili (noto anche come "matrici di aggiornamento") è notevolmente più piccolo del modello di base ed è quindi molto più veloce da addestrare.

LoRA offre i seguenti vantaggi:

Migliora la qualità delle previsioni di un modello per il dominio in cui viene applicato il fine tuning.
L'ottimizzazione è più rapida rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
Riduce il costo di calcolo dell'inferenza consentendo l'erogazione simultanea di più modelli specializzati che condividono lo stesso modello di base.

Fai clic sull'icona per scoprire di più sulle matrici di aggiornamento in LoRA.

Le matrici di aggiornamento utilizzate in LoRA sono costituite da matrici di decomposizione del rango, che vengono derivate dal modello base per filtrare il rumore e concentrare l'addestramento sulle caratteristiche più importanti del modello.

LSTM

Abbreviazione di Long Short-Term Memory.

M

machine learning

#fundamentals

Un programma o un sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili a partire da dati nuovi (mai visti prima) estratti dalla stessa distribuzione di quelli utilizzati per addestrare il modello.

Il machine learning si riferisce anche al campo di studio che si occupa di questi programmi o sistemi.

Per saperne di più, consulta il corso Introduzione al machine learning.

traduzione automatica

#generativeAI

Utilizzo di un software (in genere, un modello di machine learning) per convertire il testo da una lingua umana a un'altra, ad esempio dall'inglese al giapponese.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasto con la classe di minoranza.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

Processo decisionale di Markov (MDP)

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono prese per navigare in una sequenza di stati presupponendo che la proprietà di Markov sia valida. Nell'apprendimento per rinforzo, queste transizioni tra stati restituiscono una ricompensa numerica.

Proprietà di Markov

Una proprietà di determinati ambienti, in cui le transizioni di stato sono interamente determinate dalle informazioni implicite nello stato attuale e dall'azione dell'agente.

modello linguistico mascherato

Un modello linguistico che prevede la probabilità che i token candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità che una o più parole candidate sostituiscano il trattino basso nella seguente frase:

Il ____ nel cappello è tornato.

La letteratura in genere utilizza la stringa "MASK" anziché un trattino basso. Ad esempio:

La scritta "MASK" sul cappello è tornata.

La maggior parte dei moderni modelli linguistici mascherati sono bidirezionali.

matplotlib

Una libreria di tracciamento 2D open source di Python. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima una matrice di destinazione.

Nei sistemi di consigli, la matrice di destinazione spesso contiene le valutazioni degli utenti sugli elementi. Ad esempio, la matrice di destinazione per un sistema di consigli sui film potrebbe avere un aspetto simile al seguente, in cui i numeri interi positivi sono le valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:

	Casablanca	The Philadelphia Story	Black Panther	Wonder Woman	Pulp Fiction
Utente 1	5,0	3,0	0.0	2.0	0.0
Utente 2	4.0	0.0	0.0	1,0	5,0
Utente 3	3,0	1,0	4.0	5,0	0.0

Il sistema di consigli sui film mira a prevedere le valutazioni degli utenti per i film senza valutazione. Ad esempio, all'Utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti consiste nell'utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:

Una matrice utente, modellata come il numero di utenti X il numero di dimensioni di incorporamento.
Una matrice degli elementi, con dimensioni pari al numero di dimensioni dell'incorporamento moltiplicato per il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale sui nostri tre utenti e cinque elementi potrebbe produrre la seguente matrice utente e matrice elemento:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice utente e della matrice elemento genera una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione di Casablanca dell'utente 1, che è 5.0. Il prodotto corrispondente a quella cella nella matrice dei consigli dovrebbe essere intorno a 5.0, ed è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ancora più importante, all'Utente 1 piacerà Black Panther? Il prodotto scalare corrispondente alla prima riga e alla terza colonna produce una valutazione prevista di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale in genere produce una matrice utente e una matrice elemento che, insieme, sono molto più compatte della matrice target.

Errore assoluto medio (MAE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L₁. Calcola l'errore assoluto medio come segue:

Calcola la perdita L₁ per un batch.
Dividi la perdita L₁ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore che il modello prevede per $y$.

Ad esempio, considera il calcolo della perdita L₁ sul seguente batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Perdita (differenza tra valore effettivo e previsto)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ persa

Quindi, la perdita L₁ è 8 e il numero di esempi è 5. Pertanto, l'errore assoluto medio è:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Confronta l'errore assoluto medio con l'errore quadratico medio e l'errore quadratico medio della radice.

precisione media a k (mAP@k)

#generativeAI

#Metric

La media statistica di tutti i punteggi di precisione media a k in un set di dati di convalida. Un utilizzo della precisione media media a k è quello di valutare la qualità dei suggerimenti generati da un sistema di suggerimenti.

Sebbene la frase "media aritmetica" sembri ridondante, il nome della metrica è appropriato. Dopo tutto, questa metrica trova la media di più valori di precisione media a k.

Fai clic sull'icona per visualizzare un esempio.

Supponiamo di creare un sistema di consigli che generi un elenco personalizzato di romanzi consigliati per ogni utente. In base al feedback degli utenti selezionati, calcoli i seguenti cinque punteggi di precisione media a k (un punteggio per utente):

0,73
0,77
0,67
0,82
0,76

La precisione media a K è quindi:

$$\text{mean } = \frac{\text{0.73 + 0.77 + 0.67 + 0.82 + 0.76}} {\text{5}} = \text{0.75}$$

Errore quadratico medio (MSE)

#Metric

La perdita media per esempio quando viene utilizzata la perdita L₂. Calcola l'errore quadratico medio come segue:

Calcola la perdita L₂ per un batch.
Dividi la perdita L₂ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ where:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è la previsione del modello per $y$.

Ad esempio, considera la perdita nel seguente batch di cinque esempi:

Valore effettivo	Previsione del modello	Perdita	Errore quadratico
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = L₂ loss

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

L'errore quadratico medio è un ottimizzatore di addestramento popolare, in particolare per la regressione lineare.

Confronta l'errore quadratico medio con l'errore assoluto medio e l'errore quadratico medio della radice.

TensorFlow Playground utilizza l'errore quadratico medio per calcolare i valori di perdita.

Fai clic sull'icona per visualizzare ulteriori dettagli sugli outlier.

Gli outlier influenzano notevolmente l'errore quadratico medio. Ad esempio, una perdita di 1 è una perdita al quadrato di 1, ma una perdita di 3 è una perdita al quadrato di 9. Nella tabella precedente, l'esempio con una perdita di 3 account rappresenta circa il 56% dell'errore quadratico medio, mentre ciascuno degli esempi con una perdita di 1 account rappresenta solo il 6% dell'errore quadratico medio.

Gli outlier non influenzano l'errore assoluto medio tanto quanto l'errore quadratico medio. Ad esempio, una perdita di 3 account corrisponde solo al 38% circa dell'errore assoluto medio.

Il clipping è un modo per impedire che gli outlier estremi danneggino la capacità predittiva del modello.

mesh

#TensorFlow

#GoogleCloud

Nella programmazione parallela ML, un termine associato all'assegnazione dei dati e del modello ai chip TPU e alla definizione di come questi valori verranno suddivisi o replicati.

Mesh è un termine sovraccarico che può significare una delle seguenti cose:

Un layout fisico dei chip TPU.
Un costrutto logico astratto per mappare i dati e il modello sui chip TPU.

In entrambi i casi, una mesh viene specificata come forma.

meta-learning

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di meta-apprendimento può anche avere lo scopo di addestrare un modello ad apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. Gli algoritmi di meta-apprendimento in genere cercano di ottenere quanto segue:

Migliorare o apprendere le funzionalità progettate manualmente (ad esempio un inizializzatore o un ottimizzatore).
Essere più efficienti in termini di dati e calcolo.
Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow

#Metric

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.

API Metrics (tf.metrics)

#Metric

Un'API TensorFlow per valutare i modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Un piccolo sottoinsieme selezionato casualmente di un batch elaborato in una iterazione. La dimensione del batch di un mini-batch è in genere compresa tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (l'intero batch) sia composto da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 esempi casuali su 1000 e poi modifica di conseguenza i pesi e i bias.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi nel batch completo.

Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.

discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa del gradiente stocastico in mini batch stima il gradiente in base a un piccolo sottoinsieme dei dati di addestramento. La discesa stocastica del gradiente standard utilizza un mini-batch di dimensione 1.

Perdita minimax

#Metric

Una funzione di perdita per le reti generative avversariali, basata sull'entropia incrociata tra la distribuzione dei dati generati e dei dati reali.

La perdita minimax viene utilizzata nel primo articolo per descrivere le reti generative avversariali.

Per saperne di più, consulta la sezione Funzioni di perdita del corso Generative Adversarial Networks.

classe minoritaria

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento di classe. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive sono la classe di minoranza.

Contrasto con la classe maggioritaria.

Fai clic sull'icona per ulteriori note.

Un set di addestramento con un milione di esempi sembra impressionante. Tuttavia, se la classe minoritaria è scarsamente rappresentata, anche un set di addestramento molto grande potrebbe non essere sufficiente. Concentrati meno sul numero totale di esempi nel set di dati e più sul numero di esempi nella classe di minoranza.

Se il set di dati non contiene esempi sufficienti della classe minoritaria, valuta la possibilità di utilizzare il sottocampionamento (la definizione nel secondo punto elenco) per integrare la classe minoritaria.

Per saperne di più, consulta Set di dati: set di dati non bilanciati in Machine Learning Crash Course.

mix di esperti

#generativeAI

Un sistema per aumentare l'efficienza della rete neurale utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token o esempio di input. Una rete di gating indirizza ogni token o esempio di input all'esperto o agli esperti giusti.

Per maggiori dettagli, consulta uno dei seguenti documenti:

ML

Abbreviazione di machine learning.

MMIT

#generativeAI

Abbreviazione di multimodal instruction-tuned.

MNIST

Un set di dati di pubblico dominio compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ognuna delle quali mostra come una persona ha scritto manualmente una particolare cifra da 0 a 9. Ogni immagine viene memorizzata come una matrice di numeri interi 28x28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci di machine learning. Per maggiori dettagli, consulta The MNIST Database of Handwritten Digits.

modalità

Una categoria di dati di primo livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. In altre parole, un modello è l'insieme di parametri e della struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nell'ambito del machine learning supervisionato, i modelli differiscono leggermente. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di pesi e da un bias.
Un modello di rete neurale è costituito da:
- Un insieme di strati nascosti, ognuno contenente uno o più neuroni.
- I pesi e il bias associati a ogni neurone.
Un modello ad albero decisionale è costituito da:
- La forma dell'albero, ovvero il pattern in cui sono collegate le condizioni e le foglie.
- Le condizioni e i permessi.

Puoi salvare, ripristinare o creare copie di un modello.

L'apprendimento automatico non supervisionato genera anche modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli ML.

Una funzione algebrica come la seguente è un modello:

  f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Allo stesso modo, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un chiamante passa argomenti alla funzione Python precedente e la funzione Python genera l'output (tramite l'istruzione return).

Sebbene una rete neurale profonda abbia una struttura matematica molto diversa da una funzione algebrica o di programmazione, una rete neurale profonda accetta comunque un input (un esempio) e restituisce un output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatizzato.

capacità del modello

#Metric

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello aumenta in genere con il numero di parametri del modello. Per una definizione formale della capacità del modello di classificazione, vedi Dimensione VC.

cascata di modelli

#generativeAI

Un sistema che sceglie il modello ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che vanno da molto grandi (molti parametri) a molto più piccoli (molti meno parametri). I modelli molto grandi consumano più risorse di calcolo in fase di inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La concatenazione dei modelli determina la complessità della query di inferenza e poi sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la creazione di modelli in cascata è ridurre i costi di inferenza selezionando in genere modelli più piccoli e selezionando un modello più grande solo per query più complesse.

Immagina che un modello piccolo venga eseguito su uno smartphone e una versione più grande dello stesso modello venga eseguita su un server remoto. Una buona concatenazione di modelli riduce i costi e la latenza consentendo al modello più piccolo di gestire le richieste semplici e chiamando il modello remoto solo per gestire le richieste complesse.

Vedi anche router modello.

parallelismo del modello

Un modo per scalare l'addestramento o l'inferenza che inserisce diverse parti di un modello su diversi dispositivi. Il parallelismo del modello consente di utilizzare modelli troppo grandi per essere contenuti in un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere esegue le seguenti operazioni:

Suddivide il modello in parti più piccole.
Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
Combina i risultati per creare un unico modello.

Il parallelismo dei modelli rallenta l'addestramento.

Vedi anche parallelismo dei dati.

model router

#generativeAI

L'algoritmo che determina il modello ideale per l'inferenza nella cascata di modelli. Un router di modelli è in genere un modello di machine learning che impara gradualmente a scegliere il modello migliore per un determinato input. Tuttavia, un router di modelli a volte potrebbe essere un algoritmo più semplice, non di machine learning.

addestramento del modello

Il processo di determinazione del miglior modello.

MOE

#generativeAI

Abbreviazione di mixture of experts.

Momentum

Un algoritmo di discesa del gradiente sofisticato in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio corrente, ma anche dalle derivate del passaggio o dei passaggi che lo hanno preceduto immediatamente. Il momento prevede il calcolo di una media mobile ponderata in modo esponenziale dei gradienti nel tempo, in modo analogo al momento in fisica. A volte il momento impedisce all'apprendimento di rimanere bloccato nei minimi locali.

MT

#generativeAI

Abbreviazione di traduzione automatica.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

Iris setosa
Iris virginica
Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di Iris su nuovi esempi esegue la classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

Per saperne di più, consulta la sezione Reti neurali: classificazione multiclasse di Machine Learning Crash Course.

regressione logistica multiclasse

Utilizzo della regressione logistica nei problemi di classificazione multiclasse.

self-attention multi-head

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

Transformers ha introdotto l'auto-attenzione multi-testa.

multimodal instruction-tuned

Un modello ottimizzato per le istruzioni in grado di elaborare input oltre al testo, come immagini, video e audio.

modello multimodale

Un modello i cui input, output o entrambi includono più di una modalità. Ad esempio, considera un modello che prende come caratteristiche sia un'immagine sia una didascalia di testo (due modalità) e restituisce un punteggio che indica l'idoneità della didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

classificazione multinomiale

Sinonimo di classificazione multiclasse.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.

I modelli multi-task vengono creati eseguendo l'addestramento su dati appropriati per ciascuna delle diverse attività. Ciò consente al modello di imparare a condividere le informazioni tra le attività, il che lo aiuta a imparare in modo più efficace.

Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nella gestione di diversi tipi di dati.

No

Nano

#generativeAI

Un modello Gemini relativamente piccolo progettato per l'utilizzo sul dispositivo. Per maggiori dettagli, vedi Gemini Nano.

Vedi anche

Glossario del machine learning Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

A

ablazione

Test A/B

chip dell'acceleratore

accuracy

Fai clic sull'icona per visualizzare i dettagli sull'accuratezza e sui set di dati con sbilanciamento di classe.

azione

funzione di attivazione

Fai clic sull'icona per visualizzare un esempio.

apprendimento attivo

AdaGrad

adattamento

agente

clustering agglomerativo

rilevamento di anomalie

AR

area sotto la curva PR

area sotto la curva ROC

intelligenza artificiale generale

intelligenza artificiale

Attention,

attributo

campionamento degli attributi

AUC (area sotto la curva ROC)

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

Fai clic sull'icona per una definizione più formale di AUC.

realtà aumentata

autoencoder

valutazione automatica

bias di automazione

AutoML

autorater evaluation

modello autoregressivo

perdita ausiliaria

precisione media a k

Fai clic sull'icona per un esempio.

condizione allineata all'asse

B

backpropagation

bagging

bag of words

base di riferimento

modello base

batch

inferenza batch

normalizzazione batch

dimensione del batch

Rete neurale bayesiana

Ottimizzazione bayesiana

Equazione di Bellman

BERT (Bidirectional Encoder Representations from Transformers)

bias (etica/equità)

bias (matematica) o termine di bias

bidirezionale

modello linguistico bidirezionale

bigram

classificazione binaria

condizione binaria

binning

modello black box

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

aumentare

riquadro di delimitazione

trasmissione

Fai clic sull'icona per un esempio.

il bucketing

Fai clic sull'icona per ulteriori note.

C

livello di calibrazione

generazione di candidati

campionamento dei candidati

dati categorici

modello linguistico causale

centroide

clustering basato sui centroidi

chain-of-thought prompting

chat

posto di blocco

Glossario del machine learning