Questo glossario definisce i termini del machine learning.
A
ablazione
Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. Quindi, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.
Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.
L'ablazione può anche contribuire a determinare l'importanza di:
- Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
- Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati
In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.
Test A/B
Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.
In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.
chip dell'acceleratore
Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.
I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.
Ecco alcuni esempi di chip di accelerazione:
- Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
- Le GPU di NVIDIA, inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare in modo significativo la velocità di elaborazione.
accuracy
Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:
Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:
La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:
dove:
- TP è il numero di veri positivi (previsioni corrette).
- TN è il numero di veri negativi (previsioni corrette).
- FP è il numero di falsi positivi (previsioni errate).
- FN è il numero di falsi negativi (previsioni errate).
Confronta e contrapponi l'accuratezza con la precisione e il richiamo.
Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.
azione
Nel reinforcement learning, il meccanismo mediante il quale l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando una policy.
funzione di attivazione
Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.
Le funzioni di attivazione più comuni includono:
I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:
Un grafico della funzione di attivazione sigmoidea è il seguente:
Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.
apprendimento attivo
Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.
AdaGrad
Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.
adattamento
Sinonimo di ottimizzazione o ottimizzazione avanzata.
agente
Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.
Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dalla transizione tra gli stati dell'ambiente.
clustering agglomerativo
Vedi clustering gerarchico.
rilevamento di anomalie
Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.
AR
Abbreviazione di realtà aumentata.
area sotto la curva PR
Vedi AUC PR (area sotto la curva PR).
area sotto la curva ROC
Consulta la sezione AUC (Area sotto la curva ROC).
intelligenza artificiale generale
Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi che non sono ancora stati inventati.
intelligenza artificiale
Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.
Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.
Attention,
Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.
Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-head, che sono i componenti di base dei Transformer.
Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.
attributo
Sinonimo di funzionalità.
Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.
campionamento degli attributi
Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.
AUC (area sotto la curva ROC)
Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.
Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:
Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:
Sì, il modello precedente ha un'AUC di 0,5, non di 0.
La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:
L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.
Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.
realtà aumentata
Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.
autoencoder
Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:
- L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
- Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.
Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.
Ad esempio:
- Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
- Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.
Vedi anche autoencoder variazionali.
valutazione automatica
Utilizzo di software per valutare la qualità dell'output di un modello.
Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.
Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.
Contrasto con la valutazione umana.
bias di automazione
Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni create senza automazione, anche quando il sistema decisionale automatizzato commette errori.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
AutoML
Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:
- Cerca il modello più appropriato.
- Ottimizza gli iperparametri.
- Prepara i dati (inclusa l'esecuzione del feature engineering).
- Esegui il deployment del modello risultante.
AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.
Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.
autorater evaluation
Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un sistema di valutazione automatica è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.
modello autoregressivo
Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.
Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.
perdita ausiliaria
Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di un modello di rete neurale, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.
Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema di scomparsa del gradiente.
precisione media a k
Una metrica per riassumere il rendimento di un modello in un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
dove:
- \(n\) è il numero di elementi pertinenti nell'elenco.
Contrasto con il richiamo a k.
condizione allineata all'asse
In un albero decisionale, una condizione
che coinvolge una sola caratteristica. Ad esempio, se area
è una funzionalità, la seguente è una condizione allineata all'asse:
area > 200
Contrasto con la condizione obliqua.
B
backpropagation
L'algoritmo che implementa la discesa del gradiente nelle reti neurali.
L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:
- Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
- Durante la passata all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.
Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.
Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.
In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.
Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.
Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.
bagging
Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.
Il termine bagging è l'abbreviazione di bootstrap aggregating.
Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.
bag of words
Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:
- il cane salta
- salta il cane
- dog jumps the
Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:
- 1 per indicare la presenza di una parola.
- Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse il cane marrone è un cane con il pelo marrone, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
- Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.
base di riferimento
Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica può fungere da buona base di riferimento per un modello profondo.
Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.
modello base
Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.
Vedi anche modello preaddestrato e modello di base.
batch
L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.
Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
inferenza batch
Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").
L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip acceleratori. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.
Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
normalizzazione batch
Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:
- Rendi le reti neurali più stabili proteggendole dai pesi anomali.
- Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
- Ridurre l'overfitting.
dimensione del batch
Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.
Di seguito sono riportate le strategie più comuni per le dimensioni del batch:
- Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
- Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
- Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.
Per ulteriori informazioni, consulta le seguenti risorse:
- Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
- Guida pratica per l'ottimizzazione del deep learning.
Rete neurale bayesiana
Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.
Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.
Ottimizzazione bayesiana
Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.
Equazione di Bellman
Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.
BERT (Bidirectional Encoder Representations from Transformers)
Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.
BERT ha le seguenti caratteristiche:
- Utilizza l'architettura Transformer e si basa sull'auto-attenzione.
- Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
- È bidirezionale.
- Utilizza la mascheratura per l'addestramento non supervisionato.
Le varianti di BERT includono:
Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.
bias (etica/equità)
1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:
- bias di automazione
- Bias di conferma
- Bias dello sperimentatore
- bias di attribuzione di gruppo
- bias implicito
- Bias di affinità
- Bias di omogeneità del gruppo esterno
2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:
- Bias di copertura
- Bias di non risposta
- Bias di partecipazione
- bias di segnalazione
- distorsione di campionamento
- Bias di selezione
Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
bias (matematica) o termine di bias
Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:
- b
- w0
Ad esempio, il bias è il b nella seguente formula:
In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.
Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.
Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.
Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.
bidirezionale
Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.
Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:
Qual è il tuo _____?
Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe anche acquisire il contesto da "con" e "te", il che potrebbe aiutare il modello a generare previsioni migliori.
modello linguistico bidirezionale
Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.
bigram
Un bigramma in cui N=2.
classificazione binaria
Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:
Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:
- Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
- Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).
Contrasta con la classificazione multiclasse.
Vedi anche regressione logistica e soglia di classificazione.
Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.
condizione binaria
In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:
temperature >= 100
Contrasto con la condizione non binaria.
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
binning
Sinonimo di raggruppamento.
modello black box
Un modello il cui "ragionamento" è impossibile o difficile da comprendere per gli esseri umani. Ciò significa che, anche se gli esseri umani possono vedere in che modo i prompt influenzano le risposte, non possono determinare esattamente in che modo un modello black box determina la risposta. In altre parole, un modello a scatola nera non ha interpretabilità.
La maggior parte dei modelli di deep learning e dei modelli linguistici di grandi dimensioni sono scatole nere.
BLEU (Bilingual Evaluation Understudy)
Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.
Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.
Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.
Vedi anche BLEURT.
BLEURT (Bilingual Evaluation Understudy from Transformers)
Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.
Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.
BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.
Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.
aumentare
Una tecnica di machine learning che combina in modo iterativo un insieme di modelli di classificazione semplici e non molto accurati (definiti "classificatori deboli") in un modello di classificazione con elevata accuratezza (un "classificatore forte") mediante l'assegnazione di un peso maggiore agli esempi che il modello sta attualmente classificando in modo errato.
Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.
riquadro di delimitazione
In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.
trasmissione
Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.
Per ulteriori dettagli, consulta la seguente descrizione del broadcasting in NumPy.
il bucketing
Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.
Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:
- <= 10 gradi Celsius rientrerebbe nel bucket "freddo".
- 11-24 gradi Celsius rientrano nella categoria "temperato".
- >= 25 gradi Celsius sarebbe il bucket "caldo".
Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13
e 22
si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.
Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.
C
livello di calibrazione
Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme osservato di etichette.
generazione di candidati
Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme di consigli molto più piccolo e utile.
Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.
campionamento dei candidati
Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:
- beagle
- cane
- un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).
L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.
Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.
dati categorici
Caratteristiche con un insieme specifico di valori possibili. Ad esempio,
considera una funzionalità categorica denominata traffic-light-state
, che può
avere solo uno dei seguenti tre valori possibili:
red
yellow
green
Rappresentando traffic-light-state
come una caratteristica categorica,
un modello può apprendere
i diversi impatti di red
, green
e yellow
sul comportamento del conducente.
Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.
Contrasto con i dati numerici.
Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.
modello linguistico causale
Sinonimo di modello linguistico unidirezionale.
Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.
centroide
Il centro di un cluster determinato da un algoritmo