Questo glossario definisce i termini del machine learning.
A
ablazione
Una tecnica per valutare l'importanza di una caratteristica o di un componente rimuovendolo temporaneamente da un modello. Quindi, riaddestra il modello senza quella funzionalità o componente e, se il modello riaddestrato ha prestazioni significativamente peggiori, la funzionalità o il componente rimossi erano probabilmente importanti.
Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere una precisione dell'88% sul set di test. Per controllare l'importanza della prima funzionalità, puoi eseguire di nuovo l'addestramento del modello utilizzando solo le altre nove funzionalità. Se il modello riaddestrato ha prestazioni significativamente peggiori (ad esempio, precisione del 55%), la funzionalità rimossa era probabilmente importante. Al contrario, se il modello riaddestrato funziona altrettanto bene, allora la funzionalità probabilmente non era così importante.
L'ablazione può anche contribuire a determinare l'importanza di:
- Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
- Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati
In entrambi i casi, osserverai come cambia (o non cambia) il rendimento del sistema dopo aver rimosso il componente.
Test A/B
Un modo statistico per confrontare due (o più) tecniche: la A e la B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. Il test A/B non solo determina quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.
In genere, i test A/B confrontano una singola metrica su due tecniche; ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.
chip dell'acceleratore
Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.
I chip di accelerazione (o semplicemente acceleratori) possono aumentare notevolmente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU generica. Sono ideali per l'addestramento di reti neurali e attività simili ad alta intensità di calcolo.
Ecco alcuni esempi di chip di accelerazione:
- Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
- Le GPU di NVIDIA, inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può aumentare in modo significativo la velocità di elaborazione.
accuracy
Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:
Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 errate avrebbe un'accuratezza pari a:
La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per l'accuratezza della classificazione binaria è la seguente:
dove:
- TP è il numero di veri positivi (previsioni corrette).
- TN è il numero di veri negativi (previsioni corrette).
- FP è il numero di falsi positivi (previsioni errate).
- FN è il numero di falsi negativi (previsioni errate).
Confronta e contrapponi l'accuratezza con la precisione e il richiamo.
Per saperne di più, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate in Machine Learning Crash Course.
azione
Nel reinforcement learning, il meccanismo mediante il quale l'agente passa da uno stato all'altro dell'ambiente. L'agente sceglie l'azione utilizzando una policy.
funzione di attivazione
Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.
Le funzioni di attivazione più comuni includono:
I grafici delle funzioni di attivazione non sono mai singole linee rette. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:
Un grafico della funzione di attivazione sigmoidea è il seguente:
Per saperne di più, consulta Reti neurali: funzioni di attivazione in Machine Learning Crash Course.
apprendimento attivo
Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare ciecamente una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente la gamma particolare di esempi di cui ha bisogno per l'apprendimento.
AdaGrad
Un sofisticato algoritmo di discesa del gradiente che ridimensiona i gradienti di ogni parametro, assegnando di fatto a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, vedi Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.
adattamento
Sinonimo di ottimizzazione o ottimizzazione avanzata.
agente
Software in grado di ragionare sugli input multimodali dell'utente per pianificare ed eseguire azioni per suo conto.
Nel reinforcement learning, un agente è l'entità che utilizza una policy per massimizzare il rendimento previsto ottenuto dalla transizione tra gli stati dell'ambiente.
clustering agglomerativo
Vedi clustering gerarchico.
rilevamento di anomalie
Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore di 200 come sospetto.
AR
Abbreviazione di realtà aumentata.
area sotto la curva PR
Vedi AUC PR (area sotto la curva PR).
area sotto la curva ROC
Consulta la sezione AUC (Area sotto la curva ROC).
intelligenza artificiale generale
Un meccanismo non umano che dimostra un'ampia gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra un'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi che non sono ancora stati inventati.
intelligenza artificiale
Un programma o un modello non umano in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce il testo o un programma o un modello che identifica le malattie dalle immagini radiologiche mostrano entrambi intelligenza artificiale.
Formalmente, il machine learning è un sottocampo dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.
Attention,
Un meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successivi. Un tipico meccanismo di attenzione potrebbe consistere in una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.
Fai riferimento anche all'auto-attenzione e all'auto-attenzione multi-head, che sono i componenti di base dei Transformer.
Per saperne di più sull'auto-attenzione, consulta LLM: che cos'è un modello linguistico di grandi dimensioni? in Machine Learning Crash Course.
attributo
Sinonimo di funzionalità.
Nell'equità del machine learning, gli attributi si riferiscono spesso a caratteristiche relative agli individui.
campionamento degli attributi
Una tattica per l'addestramento di una foresta decisionale in cui ogni albero decisionale considera solo un sottoinsieme casuale di possibili caratteristiche durante l'apprendimento della condizione. In genere, per ogni nodo viene campionato un sottoinsieme diverso di funzionalità. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le funzionalità possibili per ogni nodo.
AUC (area sotto la curva ROC)
Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi tra loro.
Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello perfetto in modo non realistico ha un'AUC pari a 1,0:
Al contrario, la seguente illustrazione mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC di 0,5:
Sì, il modello precedente ha un'AUC di 0,5, non di 0.
La maggior parte dei modelli si trova a metà strada tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:
L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC, invece, prende in considerazione tutte le possibili soglie di classificazione.
Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.
realtà aumentata
Una tecnologia che sovrappone un'immagine generata al computer alla visualizzazione del mondo reale di un utente, fornendo così una visualizzazione composita.
autoencoder
Un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di un encoder e di un decoder. Gli autoencoder si basano sul seguente processo in due passaggi:
- L'encoder mappa l'input in un formato (intermedio) a dimensioni inferiori (in genere) con perdita.
- Il decodificatore crea una versione con perdita dell'input originale mappando il formato a dimensionalità inferiore al formato di input originale a dimensionalità superiore.
Gli autoencoder vengono addestrati end-to-end facendo in modo che il decodificatore tenti di ricostruire l'input originale dal formato intermedio dell'encoder nel modo più fedele possibile. Poiché il formato intermedio è più piccolo (con meno dimensioni) rispetto al formato originale, l'autoencoder è costretto a imparare quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.
Ad esempio:
- Se i dati di input sono un grafico, la copia non esatta sarà simile al grafico originale, ma leggermente modificata. Forse la copia non esatta rimuove il rumore dal grafico originale o riempie alcuni pixel mancanti.
- Se i dati di input sono di tipo testuale, un autoencoder genererà un nuovo testo che imita (ma non è identico a) il testo originale.
Vedi anche autoencoder variazionali.
valutazione automatica
Utilizzo di software per valutare la qualità dell'output di un modello.
Quando l'output del modello è relativamente semplice, uno script o un programma può confrontare l'output del modello con una risposta di riferimento. Questo tipo di valutazione automatica è talvolta chiamato valutazione programmatica. Metriche come ROUGE o BLEU sono spesso utili per la valutazione programmatica.
Quando l'output del modello è complesso o non ha una risposta corretta, a volte la valutazione automatica viene eseguita da un programma ML separato chiamato valutatore automatico.
Contrasto con la valutazione umana.
bias di automazione
Quando un decisore umano favorisce i consigli forniti da un sistema decisionale automatizzato rispetto alle informazioni create senza automazione, anche quando il sistema decisionale automatizzato commette errori.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
AutoML
Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può svolgere automaticamente attività come le seguenti:
- Cerca il modello più appropriato.
- Ottimizza gli iperparametri.
- Prepara i dati (inclusa l'esecuzione del feature engineering).
- Esegui il deployment del modello risultante.
AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche ai non esperti, in quanto rende più accessibili le complicate attività di machine learning.
Per saperne di più, consulta Machine Learning automatizzato (AutoML) in Machine Learning Crash Course.
autorater evaluation
Un meccanismo ibrido per giudicare la qualità dell'output di un modello di AI generativa che combina la valutazione umana con la valutazione automatica. Un sistema di valutazione automatica è un modello ML addestrato su dati creati tramite valutazione umana. Idealmente, uno strumento di valutazione automatica impara a imitare un valutatore umano.Sono disponibili valutatori automatici predefiniti, ma i migliori sono ottimizzati in modo specifico per l'attività che stai valutando.
modello autoregressivo
Un modello che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il successivo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.
Al contrario, i modelli di immagini basati su GAN di solito non sono autoregressivi, in quanto generano un'immagine in un singolo passaggio in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi perché generano un'immagine in più passaggi.
perdita ausiliaria
Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di un modello di rete neurale, che contribuisce ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.
Le funzioni di perdita ausiliari inviano gradienti efficaci ai livelli precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema di scomparsa del gradiente.
precisione media a k
Una metrica per riassumere il rendimento di un modello in un singolo prompt che genera risultati classificati, ad esempio un elenco numerato di consigli sui libri. La precisione media a k è la media dei valori di precisione a k per ogni risultato pertinente. La formula per la precisione media a k è quindi:
\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]
dove:
- \(n\) è il numero di elementi pertinenti nell'elenco.
Contrasto con il richiamo a k.
condizione allineata all'asse
In un albero decisionale, una condizione
che coinvolge una sola caratteristica. Ad esempio, se area
è una funzionalità, la seguente è una condizione allineata all'asse:
area > 200
Contrasto con la condizione obliqua.
B
backpropagation
L'algoritmo che implementa la discesa del gradiente nelle reti neurali.
L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:
- Durante la propagazione in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni previsione con ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch corrente.
- Durante la passata all'indietro (retropropagazione), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti gli strati nascosti.
Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a particolari neuroni.
Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenterà o diminuirà ogni peso più di un tasso di apprendimento basso.
In termini di calcolo, la retropropagazione implementa la regola della catena del calcolo. ovvero la retropropagazione calcola la derivata parziale dell'errore rispetto a ogni parametro.
Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le moderne API ML come Keras ora implementano la backpropagation per te. Finalmente.
Per saperne di più, consulta la sezione Reti neurali di Machine Learning Crash Course.
bagging
Un metodo per addestrare un ensemble in cui ogni modello costituente viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con reinserimento. Ad esempio, una foresta casuale è un insieme di alberi decisionali addestrati con il bagging.
Il termine bagging è l'abbreviazione di bootstrap aggregating.
Per ulteriori informazioni, consulta la sezione Foreste casuali del corso Decision Forests.
bag of words
Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, il modello bag of words rappresenta le tre frasi seguenti in modo identico:
- il cane salta
- salta il cane
- dog jumps the
Ogni parola viene mappata a un indice in un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase the dog jumps viene mappata in un vettore delle caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere uno dei seguenti:
- 1 per indicare la presenza di una parola.
- Un conteggio del numero di volte in cui una parola compare nel sacchetto. Ad esempio, se la frase fosse il cane marrone è un cane con il pelo marrone, sia marrone che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
- Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola appare nel bag.
base di riferimento
Un modello utilizzato come punto di riferimento per confrontare le prestazioni di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica può fungere da buona base di riferimento per un modello profondo.
Per un problema specifico, la baseline aiuta gli sviluppatori di modelli a quantificare il rendimento minimo previsto che un nuovo modello deve raggiungere per essere utile.
modello base
Un modello preaddestrato che può fungere da punto di partenza per l'ottimizzazione per svolgere attività o applicazioni specifiche.
Vedi anche modello preaddestrato e modello di base.
batch
L'insieme di esempi utilizzati in un'iterazione di addestramento . La dimensione del batch determina il numero di esempi in un batch.
Consulta la sezione Epoca per una spiegazione della relazione tra un batch e un'epoca.
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
inferenza batch
Il processo di inferenza delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").
L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip acceleratori. ovvero più acceleratori possono dedurre simultaneamente le previsioni su batch diversi di esempi senza etichetta, aumentando notevolmente il numero di inferenze al secondo.
Per saperne di più, consulta Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
normalizzazione batch
Normalizzazione dell'input o dell'output delle funzioni di attivazione in un livello nascosto. La normalizzazione dei batch può offrire i seguenti vantaggi:
- Rendi le reti neurali più stabili proteggendole dai pesi anomali.
- Consente tassi di apprendimento più elevati, che possono accelerare l'addestramento.
- Ridurre l'overfitting.
dimensione del batch
Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.
Di seguito sono riportate le strategie più comuni per le dimensioni del batch:
- Discesa stocastica del gradiente (SGD), in cui la dimensione del batch è 1.
- Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Il caricamento completo del batch è in genere una strategia inefficiente.
- Mini-batch in cui la dimensione del batch è generalmente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.
Per ulteriori informazioni, consulta le seguenti risorse:
- Sistemi ML di produzione: inferenza statica e dinamica in Machine Learning Crash Course.
- Guida pratica per l'ottimizzazione del deep learning.
Rete neurale bayesiana
Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo della casa di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo della casa di 853.000 con una deviazione standard di 67.200.
Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a prevenire l'overfitting.
Ottimizzazione bayesiana
Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni obiettivo computazionalmente costose ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiano. Poiché l'ottimizzazione bayesiana è di per sé molto costosa, viene solitamente utilizzata per ottimizzare attività costose da valutare che hanno un numero ridotto di parametri, ad esempio la selezione degli iperparametri.
Equazione di Bellman
Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare l'apprendimento Q utilizzando la seguente regola di aggiornamento:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Oltre al reinforcement learning, l'equazione di Bellman ha applicazioni nella programmazione dinamica. Consulta la voce di Wikipedia relativa all'equazione di Bellman.
BERT (Bidirectional Encoder Representations from Transformers)
Un'architettura del modello per la rappresentazione del testo. Un modello BERT addestrato può far parte di un modello più grande per la classificazione del testo o altre attività di ML.
BERT ha le seguenti caratteristiche:
- Utilizza l'architettura Transformer e si basa sull'auto-attenzione.
- Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre buone rappresentazioni di testo, anziché eseguire un'attività specifica come la classificazione.
- È bidirezionale.
- Utilizza la mascheratura per l'addestramento non supervisionato.
Le varianti di BERT includono:
Consulta la pagina Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing per una panoramica di BERT.
bias (etica/equità)
1. Stereotipare, mostrare preconcetti o favoritismi verso determinate cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:
- bias di automazione
- Bias di conferma
- Bias dello sperimentatore
- bias di attribuzione di gruppo
- bias implicito
- Bias di affinità
- Bias di omogeneità del gruppo esterno
2. Errore sistematico introdotto da una procedura di campionamento o reporting. Le forme di questo tipo di bias includono:
- Bias di copertura
- Bias di non risposta
- Bias di partecipazione
- bias di segnalazione
- distorsione di campionamento
- Bias di selezione
Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.
Per saperne di più, consulta Equità: tipi di bias in Machine Learning Crash Course.
bias (matematica) o termine di bias
Un'intercettazione o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simboleggiato da uno dei seguenti:
- b
- w0
Ad esempio, il bias è il b nella seguente formula:
In una semplice retta bidimensionale, il bias indica semplicemente l'intercetta sull'asse y. Ad esempio, la pendenza della retta nell'illustrazione seguente è 2.
Il bias esiste perché non tutti i modelli iniziano dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e che vengano addebitati 0,50 euro per ogni ora di permanenza di un cliente. Pertanto, un modello che mappa il costo totale ha una distorsione di 2 perché il costo più basso è di 2 euro.
Il bias non deve essere confuso con il bias in etica ed equità o con il bias di previsione.
Per saperne di più, consulta Regressione lineare in Machine Learning Crash Course.
bidirezionale
Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.
Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella seguente domanda:
Qual è il tuo _____?
Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che", "cosa" e "è". Al contrario, un modello linguistico bidirezionale potrebbe anche acquisire il contesto da "con" e "te", il che potrebbe aiutare il modello a generare previsioni migliori.
modello linguistico bidirezionale
Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.
bigram
Un bigramma in cui N=2.
classificazione binaria
Un tipo di attività di classificazione che prevede una delle due classi reciprocamente esclusive:
Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:
- Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
- Un modello che valuta i sintomi medici per determinare se una persona ha una determinata malattia (la classe positiva) o non ha quella malattia (la classe negativa).
Contrasta con la classificazione multiclasse.
Vedi anche regressione logistica e soglia di classificazione.
Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.
condizione binaria
In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:
temperature >= 100
Contrasto con la condizione non binaria.
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
binning
Sinonimo di raggruppamento.
modello black box
Un modello il cui "ragionamento" è impossibile o difficile da comprendere per gli esseri umani. Ciò significa che, anche se gli esseri umani possono vedere in che modo i prompt influenzano le risposte, non possono determinare esattamente in che modo un modello black box determina la risposta. In altre parole, un modello a scatola nera non ha interpretabilità.
La maggior parte dei modelli di deep learning e dei modelli linguistici di grandi dimensioni sono scatole nere.
BLEU (Bilingual Evaluation Understudy)
Una metrica compresa tra 0,0 e 1,0 per valutare le traduzioni automatiche, ad esempio dallo spagnolo al giapponese.
Per calcolare un punteggio, BLEU in genere confronta la traduzione di un modello ML (testo generato) con la traduzione di un esperto umano (testo di riferimento). Il grado di corrispondenza tra gli n-grammi nel testo generato e nel testo di riferimento determina il punteggio BLEU.
Il documento originale su questa metrica è BLEU: a Method for Automatic Evaluation of Machine Translation.
Vedi anche BLEURT.
BLEURT (Bilingual Evaluation Understudy from Transformers)
Una metrica per valutare le traduzioni automatiche da una lingua all'altra, in particolare da e verso l'inglese.
Per le traduzioni da e verso l'inglese, BLEURT è più in linea con le valutazioni umane rispetto a BLEU. A differenza di BLEU, BLEURT enfatizza le somiglianze semantiche (di significato) e può adattarsi alla parafrasi.
BLEURT si basa su un modello linguistico di grandi dimensioni preaddestrato (BERT per l'esattezza) che viene poi ottimizzato su testi di traduttori umani.
Il documento originale su questa metrica è BLEURT: Learning Robust Metrics for Text Generation.
aumentare
Una tecnica di machine learning che combina in modo iterativo un insieme di modelli di classificazione semplici e non molto accurati (definiti "classificatori deboli") in un modello di classificazione con elevata accuratezza (un "classificatore forte") mediante l'assegnazione di un peso maggiore agli esempi che il modello sta attualmente classificando in modo errato.
Per ulteriori informazioni, consulta la sezione Gradient Boosted Decision Trees? del corso Decision Forests.
riquadro di delimitazione
In un'immagine, le coordinate (x, y) di un rettangolo attorno a un'area di interesse, ad esempio il cane nell'immagine seguente.
trasmissione
Espandere la forma di un operando in un'operazione matematica con matrici a dimensioni compatibili per l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di addizione matriciale abbiano le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n in una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.
Per ulteriori dettagli, consulta la seguente descrizione del broadcasting in NumPy.
il bucketing
Conversione di una singola caratteristica in più caratteristiche binarie chiamate bucket o bin, in genere in base a un intervallo di valori. La caratteristica troncata è in genere una caratteristica continua.
Ad esempio, anziché rappresentare la temperatura come una singola caratteristica continua in virgola mobile, potresti dividere gli intervalli di temperatura in bucket discreti, ad esempio:
- <= 10 gradi Celsius rientrerebbe nel bucket "freddo".
- 11-24 gradi Celsius rientrano nella categoria "temperato".
- >= 25 gradi Celsius sarebbe il bucket "caldo".
Il modello tratterà ogni valore nello stesso bucket in modo identico. Ad esempio, i valori 13
e 22
si trovano entrambi nel bucket temperato, quindi il modello tratta i due valori in modo identico.
Per saperne di più, consulta Dati numerici: Binning in Machine Learning Crash Course.
C
livello di calibrazione
Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme osservato di etichette.
generazione di candidati
Il set iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi da consigliare a un utente. Le fasi successive e più costose di un sistema di consigli (come l'assegnazione del punteggio e il riposizionamento) riducono questi 500 a un insieme di consigli molto più piccolo e utile.
Per ulteriori informazioni, consulta la panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.
campionamento dei candidati
Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio etichettato beagle e dog, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:
- beagle
- cane
- un sottoinsieme casuale delle classi negative rimanenti (ad esempio, gatto, lecca-lecca, recinzione).
L'idea è che le classi negative possono imparare da un rinforzo negativo meno frequente, a condizione che le classi positive ricevano sempre un rinforzo positivo adeguato, e questo è effettivamente osservato empiricamente.
Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.
dati categorici
Caratteristiche con un insieme specifico di valori possibili. Ad esempio,
considera una funzionalità categorica denominata traffic-light-state
, che può
avere solo uno dei seguenti tre valori possibili:
red
yellow
green
Rappresentando traffic-light-state
come una caratteristica categorica,
un modello può apprendere
i diversi impatti di red
, green
e yellow
sul comportamento del conducente.
Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.
Contrasto con i dati numerici.
Per saperne di più, consulta la sezione Lavorare con dati categorici di Machine Learning Crash Course.
modello linguistico causale
Sinonimo di modello linguistico unidirezionale.
Consulta la sezione Modello linguistico bidirezionale per confrontare i diversi approcci direzionali nella modellazione del linguaggio.
centroide
Il centro di un cluster determinato da un algoritmo k-means o k-medie. Ad esempio, se k è 3, l'algoritmo k-means o k-medie trova 3 centroidi.
Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.
clustering basato sui centroidi
Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato sui centroidi più utilizzato.
Contrasto con gli algoritmi di clustering gerarchico.
Per saperne di più, consulta la sezione Algoritmi di clustering del corso sul clustering.
chain-of-thought prompting
Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:
Quante forze G sperimenterebbe un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.
La risposta dell'LLM probabilmente:
- Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
- Spiega perché ha scelto queste formule e cosa significano le varie variabili.
La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, il prompting chain-of-thought consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta è sensata o meno.
chat
I contenuti di un dialogo botta e risposta con un sistema ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e come ha risposto il modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.
Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).
posto di blocco
Dati che acquisiscono lo stato dei parametri di un modello durante l'addestramento o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:
- Interrompere l'addestramento, intenzionalmente o a causa di determinati errori.
- Acquisisci il checkpoint.
- In un secondo momento, ricarica il checkpoint, possibilmente su un hardware diverso.
- Riavvia l'addestramento.
classe
Una categoria a cui può appartenere un'etichetta. Ad esempio:
- In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
- In un modello di classificazione multi-classe che identifica le razze di cani, le classi potrebbero essere barboncino, beagle, carlino e così via.
Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.
Per saperne di più, consulta la sezione Classificazione del corso intensivo di machine learning.
set di dati bilanciato per classe
Un set di dati contenente etichette categoriche in cui il numero di istanze di ogni categoria è approssimativamente uguale. Ad esempio, considera un set di dati botanici la cui etichetta binaria può essere pianta autoctona o pianta non autoctona:
- Un set di dati con 515 piante autoctone e 485 piante non autoctone è un set di dati bilanciato per classe.
- Un set di dati con 875 piante autoctone e 125 piante non autoctone è un set di dati con sbilanciamento di classe.
Non esiste una linea di demarcazione formale tra i set di dati bilanciati per classe e i set di dati sbilanciati per classe. La distinzione diventa importante solo quando un modello addestrato su un set di dati con forte squilibrio di classe non riesce a convergere. Per maggiori dettagli, consulta Dataset: dataset sbilanciati in Machine Learning Crash Course.
modello di classificazione
Un modello la cui previsione è una classe. Ad esempio, i seguenti sono tutti modelli di classificazione:
- Un modello che prevede la lingua di una frase di input (francese? Spagnolo? italiano?).
- Un modello che prevede le specie di alberi (acero? Quercia? Baobab?).
- Un modello che prevede la classe positiva o negativa per una particolare condizione medica.
Al contrario, i modelli di regressione prevedono numeri anziché classi.
Due tipi comuni di modelli di classificazione sono:
soglia di classificazione
In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.
Un modello di regressione logistica restituisce un valore grezzo compreso tra 0 e 1. Quindi:
- Se questo valore grezzo è maggiore della soglia di classificazione, viene prevista la classe positiva.
- Se questo valore grezzo è inferiore alla soglia di classificazione, viene prevista la classe negativa.
Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.
La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
classificatore
Un termine informale per un modello di classificazione.
set di dati sbilanciato per classe
Un set di dati per una classificazione in cui il numero totale di etichette di ogni classe differisce in modo significativo. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:
- 1.000.000 di etichette negative
- 10 etichette positive
Il rapporto tra etichette negative e positive è di 100.000 a 1, quindi si tratta di un set di dati con classi sbilanciate.
Al contrario, il seguente set di dati è bilanciato per classe perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:
- 517 etichette negative
- 483 etichette positive
I set di dati multiclasse possono anche essere sbilanciati. Ad esempio, il seguente set di dati di classificazione multiclasse è anche sbilanciato perché un'etichetta ha molti più esempi rispetto alle altre due:
- 1.000.000 di etichette con la classe "verde"
- 200 etichette con la classe "viola"
- 350 etichette con la classe "arancione"
L'addestramento di set di dati con classi sbilanciate può presentare sfide particolari. Per maggiori dettagli, consulta Dataset sbilanciati in Machine Learning Crash Course.
Vedi anche entropia, classe maggioritaria e classe minoritaria.
clipping
Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:
- Riduzione dei valori della funzionalità superiori a una soglia massima fino a tale soglia.
- Aumentando i valori delle funzionalità inferiori a una soglia minima fino a quella soglia minima.
Ad esempio, supponiamo che meno dello 0,5% dei valori di una determinata caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, puoi:
- Tronca tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
- Taglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.
Gli outlier possono danneggiare i modelli, a volte causando l'overflow dei pesi�� durante l'addestramento. Alcuni valori anomali possono anche rovinare drasticamente metriche come l'accuratezza. Il clipping è una tecnica comune per limitare i danni.
Il taglio del gradiente forza i valori del gradiente all'interno di un intervallo designato durante l'addestramento.
Per saperne di più, consulta Dati numerici: normalizzazione in Machine Learning Crash Course.
Cloud TPU
Un acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning su Google Cloud.
clustering
Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente fornire un significato a ogni cluster.
Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:
Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni normali".
Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:
Per saperne di più, consulta il corso sul clustering.
co-adattamento
Un comportamento indesiderato in cui i neuroni prevedono pattern nei dati di addestramento basandosi quasi esclusivamente sugli output di altri neuroni specifici anziché sul comportamento della rete nel suo complesso. Quando i pattern che causano la co-adattamento non sono presenti nei dati di convalida, la co-adattamento causa un overfitting. La regolarizzazione dropout riduce la co-adattamento perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.
filtro collaborativo
Fare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di suggerimenti.
Per saperne di più, consulta la sezione Filtro collaborativo del corso Recommendation Systems.
modello compatto
Qualsiasi modello di piccole dimensioni progettato per essere eseguito su dispositivi di piccole dimensioni con risorse di calcolo limitate. Ad esempio, i modelli compatti possono essere eseguiti su cellulari, tablet o sistemi incorporati.
computing
(Sostantivo) Le risorse di calcolo utilizzate da un modello o un sistema, ad esempio potenza di elaborazione, memoria e spazio di archiviazione.
Vedi chip di accelerazione.
deriva del concetto
Un cambiamento nella relazione tra le caratteristiche e l'etichetta. Nel tempo, la variazione del concetto riduce la qualità di un modello.
Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buone approssimazioni del mondo reale, il modello dovrebbe fare buone previsioni del mondo reale. Tuttavia, a causa della variazione del concetto, le previsioni del modello tendono a peggiorare nel tempo.
Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "efficiente dal punto di vista del consumo di carburante". ovvero le caratteristiche potrebbero essere:
- peso dell'auto
- compressione del motore
- transmission type
mentre l'etichetta è:
- a basso consumo di carburante
- non efficiente in termini di consumo di carburante
Tuttavia, il concetto di "auto a basso consumo di carburante" è in continua evoluzione. Un modello di auto etichettato come efficiente in termini di consumo di carburante nel 1994 sarebbe quasi certamente etichettato come non efficiente in termini di consumo di carburante nel 2024. Un modello che soffre di concept drift tende a fare previsioni sempre meno utili nel tempo.
Confronta e contrapponi con la non stazionarietà.
condizione
In un albero decisionale, qualsiasi nodo che esegue un test. Ad esempio, il seguente albero decisionale contiene due condizioni:
Una condizione è chiamata anche divisione o test.
Condizione di contrasto con foglia.
Vedi anche:
Per ulteriori informazioni, consulta la sezione Tipi di condizioni del corso Decision Forests.
confabulazione
Sinonimo di allucinazione.
Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico rispetto ad allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.
configurazione
Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, inclusi:
- i livelli che compongono il modello
- la posizione dei dati
- iperparametri come:
Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:
bias di conferma
La tendenza a cercare, interpretare, favorire e ricordare le informazioni in modo da confermare le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare i dati in modi che influenzano un risultato a sostegno delle loro convinzioni esistenti. Il bias di conferma è una forma di bias implicito.
Il bias dell'osservatore è una forma di bias di conferma in cui un osservatore continua ad addestrare i modelli finché un'ipotesi preesistente non viene confermata.
matrice di confusione
Una tabella NxN che riassume il numero di previsioni corrette e errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:
Tumore (previsto) | Non tumorale (previsto) | |
---|---|---|
Tumore (dati di fatto) | 18 (VP) | 1 (FN) |
Non-Tumor (dato di fatto) | 6 (FP) | 452 (TN) |
La matrice di confusione precedente mostra quanto segue:
- Delle 19 previsioni in cui la verità di base era Tumore, il modello ne ha classificate correttamente 18 e in modo errato 1.
- Delle 458 previsioni in cui la verità di base era Non-Tumor, il modello ne ha classificate correttamente 452 e in modo errato 6.
La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare i pattern di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a tre classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando i dati empirici reali erano Virginica, la matrice di confusione mostra che il modello aveva molte più probabilità di prevedere erroneamente Versicolor rispetto a Setosa:
Setosa (previsto) | Versicolor (previsto) | Virginica (previsto) | |
---|---|---|---|
Setosa (dati di fatto) | 88 | 12 | 0 |
Versicolor (dati di fatto) | 6 | 141 | 7 |
Virginica (dati empirici reali) | 2 | 27 | 109 |
Come altro esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4 o 1 anziché 7.
Le matrici di confusione contengono informazioni sufficienti per calcolare una varietà di metriche di rendimento, tra cui precisione e richiamo.
analisi delle circoscrizioni
Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:
Il mio amico ha adottato due gatti.
Un analizzatore sintattico può dividere questa frase nei seguenti due costituenti:
- Il mio amico è una frase nominale.
- adopted two cats è un sintagma verbale.
Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, il gruppo verbale
ha adottato due gatti
potrebbe essere ulteriormente suddiviso in:
- adottato è un verbo.
- two cats è un altro sintagma nominale.
embedding contestuale del linguaggio
Un embedding che si avvicina alla "comprensione" di parole e frasi in modo simile a quello di un oratore umano fluente. Gli incorporamenti del linguaggio contestualizzati possono comprendere sintassi, semantica e contesto complessi.
Ad esempio, considera gli incorporamenti della parola inglese cow. Gli embedding precedenti, come word2vec, possono rappresentare le parole in inglese in modo che la distanza nello spazio di embedding da cow a bull sia simile alla distanza da ewe (pecora femmina) a ram (pecora maschio) o da female a male. Gli incorporamenti del linguaggio contestualizzato possono fare un ulteriore passo avanti riconoscendo che i parlanti inglesi a volte usano casualmente la parola cow per indicare sia la mucca che il toro.
finestra contestuale
Il numero di token che un modello può elaborare in un determinato prompt. Più è ampia la finestra contestuale, maggiore è la quantità di informazioni che il modello può utilizzare per fornire risposte coerenti e consistenti al prompt.
funzionalità continua
Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.
Contrasto con la funzionalità discreta.
campionamento di convenienza
Utilizzo di un set di dati non raccolti scientificamente per eseguire esperimenti rapidi. In un secondo momento, è essenziale passare a un set di dati raccolti scientificamente.
convergenza
Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza dopo circa 700 iterazioni:
Un modello converge quando un ulteriore addestramento non migliora il modello.
Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni prima di diminuire. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente una falsa sensazione di convergenza.
Vedi anche interruzione anticipata.
Per saperne di più, consulta Convergenza del modello e curve di perdita in Machine Learning Crash Course.
programmazione conversazionale
Un dialogo iterativo tra te e un modello di AI generativa allo scopo di creare software. Emetti un prompt che descrive un software. Poi, il modello utilizza questa descrizione per generare il codice. Poi, emetti un nuovo prompt per risolvere i difetti del prompt precedente o del codice generato e il modello genera il codice aggiornato. Continuate a fare avanti e indietro finché il software generato non è abbastanza buono.
Il conversation coding è essenzialmente il significato originale di vibe coding.
Contrasta con la codifica delle specifiche.
funzione convessa
Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipica ha una forma simile alla lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:
Al contrario, la seguente funzione non è convessa. Nota come la regione sopra il grafico non sia un insieme convesso:
Una funzione strettamente convessa ha esattamente un punto di minimo locale, che è anche il punto di minimo globale. Le funzioni a forma di U classiche sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le rette) non hanno forma a U.
Per saperne di più, consulta Funzioni di convergenza e convesse in Machine Learning Crash Course.
ottimizzazione convessa
Il processo di utilizzo di tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.
Per informazioni dettagliate, consulta Boyd e Vandenberghe, Convex Optimization.
insieme convesso
Un sottoinsieme dello spazio euclideo tale che una linea tracciata tra due punti qualsiasi del sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:
Al contrario, le due forme seguenti non sono insiemi convessi:
convoluzione
In matematica, in termini semplici, una combinazione di due funzioni. Nel machine learning, una convoluzione combina il filtro convoluzionale e la matrice di input per addestrare i pesi.
Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello convoluzionale.
Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella del filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.
Per saperne di più, consulta Introduzione alle reti neurali convoluzionali nel corso Classificazione delle immagini.
filtro convoluzionale
Uno dei due attori in un'operazione di convoluzione. (L'altro attore è una sezione di una matrice di input.) Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma una forma più piccola. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.
Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono in genere impostate su un pattern costante di 1 e 0. Nel machine learning, i filtri convoluzionali vengono in genere inizializzati con numeri casuali e poi la rete addestra i valori ideali.
Per saperne di più, consulta Convoluzione nel corso Classificazione delle immagini.
livello convoluzionale
Uno strato di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3x3:
L'animazione seguente mostra un livello convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione funziona su una diversa sezione 3x3 della matrice di input. La matrice 3x3 risultante (a destra) è costituita dai risultati delle 9 operazioni di convoluzione:
Per saperne di più, consulta Livelli completamente connessi nel corso Classificazione delle immagini.
rete neurale convoluzionale
Una rete neurale in cui almeno uno strato è uno strato convoluzionale. Una tipica rete neurale convoluzionale è costituita da una combinazione dei seguenti livelli:
Le reti neurali convoluzionali hanno ottenuto ottimi risultati in alcuni tipi di problemi, come il riconoscimento delle immagini.
operazione di convoluzione
La seguente operazione matematica in due passaggi:
- Moltiplicazione elemento per elemento del filtro convoluzionale e di una sezione di una matrice di input. La sezione della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
- Somma di tutti i valori nella matrice dei prodotti risultante.
Ad esempio, considera la seguente matrice di input 5x5:
Ora immagina il seguente filtro convoluzionale 2x2:
Ogni operazione di convoluzione coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di utilizzare la sezione 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convoluzione su questa sezione è la seguente:
Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ognuna delle quali agisce su una sezione diversa della matrice di input.
costo
Sinonimo di perdita.
co-training
Un approccio di apprendimento semi-supervisionato particolarmente utile quando sono vere tutte le seguenti condizioni:
- Il rapporto tra esempi senza etichetta ed esempi con etichetta nel set di dati è elevato.
- Si tratta di un problema di classificazione (binaria o multiclasse).
- Il set di dati contiene due diversi insiemi di caratteristiche predittive indipendenti l'uno dall'altro e complementari.
Il co-training amplifica essenzialmente i segnali indipendenti in un segnale più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buone o Cattive. Un insieme di funzionalità predittive potrebbe concentrarsi su caratteristiche aggregate come l'anno, la marca e il modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi su la cronologia di guida del precedente proprietario e la cronologia di manutenzione dell'auto.
L'articolo fondamentale sul co-training è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.
equità controfattuale
Una metrica di equità che controlla se un modello di classificazione produce lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne per uno o più attributi sensibili. La valutazione di un modello di classificazione per l'equità controfattuale è un metodo per individuare potenziali fonti di bias in un modello.
Per saperne di più, consulta uno dei seguenti articoli:
- Equità: equità controfattuale in Machine Learning Crash Course.
- When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Quando i mondi si scontrano: integrare diverse ipotesi controfattuali nell'equità)
bias di copertura
Consulta la sezione Bias di selezione.
crash blossom
Una frase o un'espressione con un significato ambiguo. I crash blossom rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape Holds Up Skyscraper è un crash blossom perché un modello NLU potrebbe interpretare il titolo letteralmente o figurativamente.
critico
Sinonimo di Deep Q-Network.
entropia incrociata
Una generalizzazione della perdita logaritmica per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.
convalida incrociata
Un meccanismo per stimare il livello di generalizzazione di un modello a nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti sottratti dal set di addestramento.
funzione di distribuzione cumulativa (CDF)
Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Ad esempio, considera una distribuzione normale di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.
D
analisi dei dati
Ottenere una comprensione dei dati considerando campioni, misurazioni e visualizzazioni. L'analisi dei dati può essere particolarmente utile quando un set di dati viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e risolvere i problemi del sistema.
aumento dei dati
Aumentare artificialmente l'intervallo e il numero di esempi di addestramento trasformando gli esempi esistenti per creare esempi aggiuntivi. Ad esempio, supponiamo che le immagini siano una delle tue caratteristiche, ma il tuo set di dati non contiene esempi di immagini sufficienti per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al tuo set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, ottenendo così dati etichettati sufficienti per consentire un ottimo addestramento.
DataFrame
Un tipo di dati pandas popolare per rappresentare i set di dati in memoria.
Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.
Ogni colonna di un DataFrame è strutturata come un array bidimensionale, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.
Consulta anche la pagina di riferimento di pandas.DataFrame.
parallelismo dei dati
Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su batch di dimensioni molto grandi; tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da poter essere memorizzato su tutti i dispositivi.
Il parallelismo dei dati in genere accelera l'addestramento e l'inferenza.
Vedi anche parallelismo dei modelli.
API Dataset (tf.data)
Un'API TensorFlow di alto livello per leggere i dati e
trasformarli in un formato richiesto da un algoritmo di machine learning.
Un oggetto tf.data.Dataset
rappresenta una sequenza di elementi, in cui
ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator
fornisce l'accesso agli elementi di un Dataset
.
set di dati
Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:
- un foglio di lavoro
- un file in formato CSV (valori separati da virgola)
confine decisionale
Il separatore tra le classi apprese da un modello in un problema di classificazione binaria o multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:
foresta di alberi decisionali
Un modello creato da più alberi decisionali. Una foresta decisionale fa una previsione aggregando le previsioni dei suoi alberi decisionali. I tipi più comuni di foreste decisionali includono foreste casuali e alberi potenziati dal gradiente.
Per ulteriori informazioni, consulta la sezione Foreste decisionali del corso sulle foreste decisionali.
soglia di decisione
Sinonimo di soglia di classificazione.
albero decisionale
Un modello di apprendimento supervisionato composto da un insieme di condizioni e foglie organizzate gerarchicamente. Ad esempio, di seguito è riportata una struttura decisionale:
decoder
In generale, qualsiasi sistema ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più grezza, sparsa o esterna.
I decoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un encoder.
Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.
Consulta Transformer per la definizione di un decoder all'interno dell'architettura Transformer.
Per saperne di più, consulta Modelli linguistici di grandi dimensioni in Machine Learning Crash Course.
modello deep
Una rete neurale contenente più di un strato nascosto.
Un modello profondo è chiamato anche rete neurale profonda.
Contrasta con il modello ampio.
per le reti neurali profonde
Sinonimo di modello profondo.
Deep Q-Network (DQN)
Nel Q-learning, una rete neurale profonda che prevede le funzioni Q.
Critic è un sinonimo di Deep Q-Network.
parità demografica
Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.
Ad esempio, se sia i lillipuziani che i brobdingnagiani fanno domanda all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di lillipuziani ammessi è la stessa di quella dei brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.
Contrasto con probabilità equalizzate e uguaglianza delle opportunità, che consentono ai risultati della classificazione aggregata di dipendere da attributi sensibili, ma non consentono ai risultati della classificazione per determinate etichette verità di riferimento specificate di dipendere da attributi sensibili. Consulta "Attacking discrimination with smarter machine learning" per una visualizzazione che esplora i compromessi quando si esegue l'ottimizzazione per la parità demografica.
Per saperne di più, consulta Equità: parità demografica in Machine Learning Crash Course.
riduzione del rumore
Un approccio comune all'apprendimento auto-supervisionato in cui:
La rimozione del rumore consente l'apprendimento da esempi non etichettati. Il set di dati originale funge da target o etichetta e i dati rumorosi come input.
Alcuni modelli linguistici mascherati utilizzano la rimozione del rumore nel seguente modo:
- Il rumore viene aggiunto artificialmente a una frase senza etichetta mascherando alcuni dei token.
- Il modello tenta di prevedere i token originali.
caratteristica densa
Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un tensore di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:
8 | 3 | 7 | 5 | 2 | 4 | 0 | 4 | 9 | 6 |
Contrasto con la funzionalità sparsa.
strato denso
Sinonimo di strato completamente connesso.
profondità
La somma di quanto segue in una rete neurale:
- il numero di livelli nascosti
- il numero di livelli di output, in genere 1
- il numero di eventuali strati di embedding
Ad esempio, una rete neurale con cinque strati nascosti e uno strato di output ha una profondità di 6.
Tieni presente che il livello di input non influisce sulla profondità.
rete neurale convoluzionale separabile per profondità (sepCNN)
Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti da convoluzioni separabili in profondità. Noto anche come Xception.
Una convoluzione separabile per profondità (abbreviata anche come convoluzione separabile) fattorizza una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: prima una convoluzione separabile per profondità, con una profondità di 1 (n ✕ n ✕ 1), e poi una convoluzione puntuale, con lunghezza e larghezza di 1 (1 ✕ 1 ✕ n).
Per saperne di più, consulta Xception: Deep Learning with Depthwise Separable Convolutions.
etichetta derivata
Sinonimo di etichetta proxy.
dispositivo
Un termine sovraccarico con le seguenti due possibili definizioni:
- Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
- Quando addestri un modello ML su chip acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona con chip di accelerazione. Al contrario, l'host in genere viene eseguito su una CPU.
privacy differenziale
Nell'apprendimento automatico, un approccio di anonimizzazione per proteggere i dati sensibili (ad esempio, le informazioni personali di un individuo) inclusi nel set di addestramento di un modello dall'esposizione. Questo approccio garantisce che il modello non impari o ricordi molto di una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, riducendo il rischio di esporre dati di addestramento sensibili.
La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte utilizzano la privacy differenziale per proteggere la privacy individuale quando calcolano le statistiche sull'utilizzo dei prodotti per diverse fasce demografiche.
riduzione delle dimensioni
Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore delle funzionalità, in genere mediante la conversione in un vettore di incorporamento.
dimensioni
Termine sovraccarico con una delle seguenti definizioni:
Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha zero dimensioni, ad esempio
["Hello"]
. - Un vettore ha una dimensione, ad esempio
[3, 5, 7, 11]
. - Una matrice ha due dimensioni, ad esempio
[[2, 4, 18], [5, 7, 14]]
. Puoi specificare in modo univoco una cella particolare in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una cella particolare in una matrice bidimensionale.
- Uno scalare ha zero dimensioni, ad esempio
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.
prompt diretto
Sinonimo di prompt zero-shot.
funzionalità discreta
Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animale, vegetale o minerale è una caratteristica discreta (o categorica).
Contrasto con la caratteristica continua.
modello discriminativo
Un modello che prevede etichette da un insieme di una o più funzionalità. Più formalmente, i modelli discriminativi definiscono la probabilità condizionata di un output in base alle funzionalità e ai pesi, ovvero:
p(output | features, weights)
Ad esempio, un modello che prevede se un'email è spam a partire da caratteristiche e pesi è un modello discriminante.
La stragrande maggioranza dei modelli di apprendimento supervisionato, inclusi i modelli di classificazione e regressione, sono modelli discriminativi.
Contrasto con il modello generativo.
discriminatore
Un sistema che determina se gli esempi sono reali o falsi.
In alternativa, il sottosistema all'interno di una rete adversarial generativa che determina se gli esempi creati dal generatore sono reali o falsi.
Per saperne di più, consulta la sezione Il discriminatore del corso sulle GAN.
impatto discriminatorio
Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi della popolazione. Ciò si riferisce in genere a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.
Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillipuziano a un mutuo per una casa in miniatura abbia più probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lillipuziani Big-Endian hanno maggiori probabilità di avere indirizzi postali con questo codice postale rispetto ai lillipuziani Little-Endian, questo algoritmo potrebbe comportare un impatto disparato.
In contrasto con il trattamento disparato, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti per un processo decisionale algoritmico.
trattamento discriminatorio
L'inclusione di attributi sensibili nel processo decisionale algoritmico in modo che diversi sottogruppi di persone vengano trattati in modo diverso.
Ad esempio, considera un algoritmo che determina l'idoneità dei lillipuziani a un prestito per una casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza l'affiliazione di un lillipuziano come Big-Endian o Little-Endian come input, sta attuando un trattamento discriminatorio lungo questa dimensione.
Si differenzia dall'impatto disparato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.
distillazione
Il processo di riduzione delle dimensioni di un modello (noto come insegnante) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. La distillazione è utile perché il modello più piccolo presenta due vantaggi chiave rispetto al modello più grande (l'insegnante):
- Tempi di inferenza più rapidi
- Riduzione dell'utilizzo di memoria ed energia
Tuttavia, le previsioni dello studente in genere non sono buone come quelle dell'insegnante.
La distillazione addestra il modello studente a ridurre al minimo una funzione di perdita in base alla differenza tra gli output delle previsioni dei modelli studente e insegnante.
Confronta e contrapponi la distillazione con i seguenti termini:
Per saperne di più, consulta LLM: fine-tuning, distillazione e prompt engineering in Machine Learning Crash Course.
distribution
La frequenza e l'intervallo di valori diversi per una determinata funzionalità o etichetta. Una distribuzione acquisisce la probabilità di un valore specifico.
L'immagine seguente mostra gli istogrammi di due distribuzioni diverse:
- A sinistra, una distribuzione della ricchezza secondo la legge di potenza rispetto al numero di persone che possiedono quella ricchezza.
- A destra, una distribuzione normale dell'altezza rispetto al numero di persone che hanno quell'altezza.
Comprendere la distribuzione di ogni funzionalità ed etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.
L'espressione fuori distribuzione si riferisce a un valore che non compare nel set di dati o è molto raro. Ad esempio, un'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.
clustering divisivo
Vedi clustering gerarchico.
sottocampionamento
Termine sovraccarico che può significare una delle seguenti opzioni:
- Riduzione della quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, esegui il downsampling delle immagini ad alta risoluzione in un formato a risoluzione inferiore.
- Addestramento su una percentuale sproporzionatamente bassa di esempi di classe sovra rappresentata per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con squilibrio di classe, i modelli tendono ad apprendere molto sulla classe maggioritaria e non abbastanza sulla classe minoritaria. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi maggioritarie e minoritarie.
Per saperne di più, consulta Set di dati: set di dati sbilanciati in Machine Learning Crash Course.
DQN
Abbreviazione di Deep Q-Network.
regolarizzazione del dropout
Una forma di regolarizzazione utile per l'addestramento di reti neurali. La regolarizzazione del dropout rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Ciò equivale ad addestrare la rete a emulare un ensemble di reti più piccole di dimensioni esponenzialmente grandi. Per tutti i dettagli, consulta l'articolo Dropout: A Simple Way to Prevent Neural Networks from Overfitting.
dinamico
Qualcosa che viene fatto spesso o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:
- Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o continuamente.
- L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
- L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.
modello dinamico
Un modello che viene riaddestrato frequentemente (forse anche in modo continuo). Un modello dinamico è un "apprendista permanente" che si adatta costantemente all'evoluzione dei dati. Un modello dinamico è noto anche come modello online.
Contrasto con il modello statico.
E
esecuzione eager
Un ambiente di programmazione TensorFlow in cui le operazioni vengono eseguite immediatamente. Al contrario, le operazioni chiamate in esecuzione del grafico non vengono eseguite finché non vengono valutate in modo esplicito. L'esecuzione eager è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono in genere molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.
interruzione anticipata
Un metodo di regolarizzazione che prevede di terminare l'addestramento prima che la perdita di addestramento finisca di diminuire. Nell'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.
In contrasto con l'uscita anticipata.
Distanza di movimento terra (EMD)
Una misura della similarità relativa di due distribuzioni. Più bassa è la distanza di Earth Mover, più simili sono le distribuzioni.
modifica distanza
Una misurazione del grado di somiglianza tra due stringhe di testo. Nel machine learning, la distanza di modifica è utile per i seguenti motivi:
- La distanza di modifica è facile da calcolare.
- La distanza di modifica può confrontare due stringhe note per essere simili tra loro.
- La distanza di modifica può determinare il grado di somiglianza di stringhe diverse rispetto a una determinata stringa.
Esistono diverse definizioni di distanza di modifica, ognuna delle quali utilizza operazioni sulle stringhe diverse. Per un esempio, vedi Distanza di Levenshtein.
Notazione di Einstein
Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione di Einstein utilizza simboli per identificare gli assi di ogni tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.
NumPy fornisce un'implementazione comune di Einsum.
strato di embedding
Uno speciale livello nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensionalità inferiore. Un livello di incorporamento consente a una rete neurale di eseguire l'addestramento in modo molto più efficiente rispetto all'addestramento basato solo sulla caratteristica categorica ad alta dimensionalità.
Ad esempio, attualmente Earth supporta circa 73.000 specie di alberi. Supponiamo che
la specie di albero sia una caratteristica del tuo modello, quindi il livello di input del modello
include un vettore one-hot lungo 73.000
elementi.
Ad esempio, forse baobab
potrebbe essere rappresentato in questo modo:
Un array di 73.000 elementi è molto lungo. Se non aggiungi un livello di incorporamento al modello, l'addestramento richiederà molto tempo a causa della moltiplicazione di 72.999 zeri. Forse scegli che lo strato di incorporamento sia composto da 12 dimensioni. Di conseguenza, il livello di incorporamento imparerà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.
In alcune situazioni, l'hashing è un'alternativa ragionevole a un livello di incorporamento.
Per saperne di più, consulta la sezione Incorporamenti di Machine Learning Crash Course.
spazio di embedding
Lo spazio vettoriale d-dimensionale a cui vengono mappate le caratteristiche di uno spazio vettoriale di dimensione superiore. Lo spazio di embedding è addestrato per acquisire la struttura significativa per l'applicazione prevista.
Il prodotto scalare di due embedding è una misura della loro similarità.
vettore di embedding
In generale, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrivono gli input di quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in un livello di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:
Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione di una caratteristica di una specie arborea. Quale elemento rappresenta la caratteristica di quale specie di albero? È molto difficile per gli esseri umani determinarlo.
La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto a specie di alberi diverse. Le sequoie e le sequoie rosse sono specie arboree correlate, quindi avranno un insieme di numeri in virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambiano ogni volta che viene eseguito il retraining del modello, anche se viene eseguito con input identici.
funzione di distribuzione cumulativa empirica (eCDF o EDF)
Una funzione di distribuzione cumulativa basata su misurazioni empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati che sono minori o uguali al valore specificato.
minimizzazione empirica del rischio (ERM)
Scegliendo la funzione che minimizza la perdita nel set di addestramento. Contrasto con la minimizzazione del rischio strutturale.
codificatore
In generale, qualsiasi sistema ML che converte una rappresentazione non elaborata, sparsa o esterna in una rappresentazione più elaborata, densa o interna.
Gli encoder sono spesso un componente di un modello più grande, in cui vengono spesso accoppiati a un decoder. Alcuni Transformer accoppiano encoder e decoder, mentre altri Transformer utilizzano solo l'encoder o solo il decoder.
Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.
Nelle attività da sequenza a sequenza, un encoder accetta una sequenza di input e restituisce uno stato interno (un vettore). Poi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.
Consulta Transformer per la definizione di un encoder nell'architettura Transformer.
Per saperne di più, consulta LLM: che cos'è un modello linguistico di grandi dimensioni in Machine Learning Crash Course.
endpoints
Una posizione indirizzabile in rete (in genere un URL) in cui è possibile raggiungere un servizio.
ensemble
Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate in media o aggregate. In molti casi, un insieme produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un ensemble creato da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.
Per saperne di più, consulta Random Forest in Machine Learning Crash Course.
entropia
Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia è anche definita come la quantità di informazioni contenute in ogni esempio. Una distribuzione ha l'entropia più elevata possibile quando tutti i valori di una variabile casuale sono ugualmente probabili.
L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dove:
- H è l'entropia.
- p è la frazione di esempi "1".
- q è la frazione di esempi "0". Tieni presente che q = (1 - p)
- log è generalmente log2. In questo caso, l'unità di entropia è un bit.
Ad esempio, supponiamo quanto segue:
- 100 esempi contengono il valore "1"
- 300 esempi contengono il valore "0"
Pertanto, il valore di entropia è:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 bit per esempio
Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia tende a 0.
Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.
Confronta l'entropia con:
- Impurità di Gini
- Funzione di perdita entropia incrociata
L'entropia viene spesso chiamata entropia di Shannon.
Per saperne di più, consulta Splitter esatto per la classificazione binaria con funzionalità numeriche nel corso Decision Forests.
produzione
Nell'apprendimento per rinforzo, il mondo che contiene l'agente e gli consente di osservare lo stato. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, quest'ultimo passa da uno stato all'altro.
puntata
Nell'apprendimento per rinforzo, ogni tentativo ripetuto dell'agente di apprendere un ambiente.
periodo
Un passaggio di addestramento completo sull'intero set di addestramento in modo che ogni esempio sia stato elaborato una volta.
Un'epoca rappresenta N
/dimensione batch
iterazioni di addestramento, dove N
è il
numero totale di esempi.
Ad esempio, supponiamo quanto segue:
- Il set di dati è composto da 1000 esempi.
- La dimensione del batch è di 50 esempi.
Pertanto, una singola epoca richiede 20 iterazioni:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
Per saperne di più, consulta Regressione lineare: iperparametri in Machine Learning Crash Course.
epsilon greedy policy
Nell'apprendimento per rinforzo, una policy che segue una policy casuale con probabilità epsilon o una policy greedy altrimenti. Ad esempio, se epsilon è 0,9, la policy segue una policy casuale il 90% delle volte e una policy greedy il 10% delle volte.
Nel corso di episodi successivi, l'algoritmo riduce il valore di epsilon per passare da una strategia casuale a una strategia greedy. Spostando la policy, l'agente esplora prima l'ambiente in modo casuale e poi sfrutta avidamente i risultati dell'esplorazione casuale.
uguaglianza di opportunità
Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.
L'uguaglianza delle opportunità è correlata alle probabilità equalizzate, che richiedono che entrambi i tassi di veri positivi e i tassi di falsi positivi siano gli stessi per tutti i gruppi.
Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (lillipuziana o brobdingnagiana) se gli studenti qualificati hanno la stessa probabilità di essere ammessi indipendentemente dal fatto che siano lillipuziani o brobdingnagiani.
Ad esempio, supponiamo che 100 lillipuziani e 100 brobdingnaghi facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:
Tabella 1. Candidati lillipuziani (il 90% è qualificato)
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 45 | 3 |
Rifiutato | 45 | 7 |
Totale | 90 | 10 |
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 7/10 = 70% Percentuale totale di studenti lillipuziani ammessi: (45+3)/100 = 48% |
Tabella 2. Candidati brobdingnaghi (il 10% è qualificato):
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 5 | 9 |
Rifiutato | 5 | 81 |
Totale | 10 | 90 |
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 81/90 = 90% Percentuale totale di studenti di Brobdingnag ammessi: (5+9)/100 = 14% |
Gli esempi precedenti soddisfano la parità di opportunità per l'accettazione di studenti qualificati perché i lillipuziani e i brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi.
Sebbene l'uguaglianza delle opportunità sia soddisfatta, le seguenti due metriche di equità non sono soddisfatte:
- Parità demografica: i lillipuziani e i brobdingnagiani vengono ammessi all'università a tassi diversi; il 48% degli studenti lillipuziani viene ammesso, ma solo il 14% degli studenti brobdingnagiani.
- Probabilità equalizzate: mentre gli studenti lillipuziani e brobdingnagiani qualificati hanno la stessa probabilità di essere ammessi, il vincolo aggiuntivo che gli studenti lillipuziani e brobdingnagiani non qualificati abbiano la stessa probabilità di essere respinti non è soddisfatto. I Lillipuziani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.
Per saperne di più, consulta la sezione Equità: pari opportunità di Machine Learning Crash Course.
probabilità equalizzate
Una metrica di equità per valutare se un modello prevede i risultati in modo equo per tutti i valori di un attributo sensibile rispetto sia alla classe positiva sia alla classe negativa, non solo a una classe o all'altra esclusivamente. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.
Le probabilità equalizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).
Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliput offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnag non offrono corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. La condizione di pari opportunità è soddisfatta a condizione che, indipendentemente dal fatto che un candidato sia un lillipuziano o un brobdingnagiano, se è qualificato, abbia la stessa probabilità di essere ammesso al programma e, se non è qualificato, abbia la stessa probabilità di essere rifiutato.
Supponiamo che 100 Lillipuziani e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni di ammissione vengano prese come segue:
Tabella 3. Candidati lillipuziani (il 90% è qualificato)
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 45 | 2 |
Rifiutato | 45 | 8 |
Totale | 90 | 10 |
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati respinti: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47% |
Tabella 4. Candidati brobdingnaghi (il 10% è qualificato):
Qualificato | Non qualificato | |
---|---|---|
Ammesso | 5 | 18 |
Rifiutato | 5 | 72 |
Totale | 10 | 90 |
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati respinti: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23% |
La condizione di probabilità uguale è soddisfatta perché gli studenti lillipuziani e brobdingnagiani qualificati hanno entrambi il 50% di possibilità di essere ammessi, mentre quelli non qualificati hanno l'80% di possibilità di essere respinti.
Le probabilità equalizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, condizionati a Y".
Estimator
Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli Estimator.
evals
Utilizzato principalmente come abbreviazione di valutazioni LLM. Più in generale, evals è l'abbreviazione di qualsiasi forma di valutazione.
valutazione
Il processo di misurazione della qualità di un modello o di confronto tra modelli diversi.
Per valutare un modello di machine learning supervisionato, in genere lo si confronta con un set di convalida e un set di test. La valutazione di un LLM in genere comporta valutazioni più ampie di qualità e sicurezza.
esempio
I valori di una riga di caratteristiche ed eventualmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:
- Un esempio etichettato è costituito da una o più funzionalità e da un'etichetta. Gli esempi etichettati vengono utilizzati durante l'addestramento.
- Un esempio senza etichetta è costituito da una o più funzionalità, ma nessuna etichetta. Gli esempi senza etichetta vengono utilizzati durante l'inferenza.
Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:
Funzionalità | Etichetta | ||
---|---|---|---|
Temperatura | Umidità | Pressione | Punteggio del test |
15 | 47 | 998 | Buono |
19 | 34 | 1020 | Eccellente |
18 | 92 | 1012 | Scadente |
Ecco tre esempi senza etichetta:
Temperatura | Umidità | Pressione | |
---|---|---|---|
12 | 62 | 1014 | |
21 | 47 | 1017 | |
19 | 41 | 1021 |
La riga di un set di dati è in genere l'origine non elaborata di un esempio. ovvero un sottoinsieme delle colonne del set di dati. Inoltre, le caratteristiche di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.
Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.
experience replay
Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di replay, quindi campiona le transizioni dal buffer di replay per creare dati di addestramento.
bias dello sperimentatore
Consulta la sezione relativa al bias di conferma.
problema del gradiente esplosivo
La tendenza dei gradienti nelle reti neurali profonde (soprattutto reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). I gradienti elevati spesso causano aggiornamenti molto grandi ai pesi di ogni nodo in una rete neurale profonda.
I modelli che soffrono del problema del gradiente esplosivo diventano difficili o impossibili da addestrare. Il clipping del gradiente può attenuare questo problema.
Confrontalo con il problema di scomparsa del gradiente.
V
F1
Una metrica di classificazione binaria "roll-up" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:
oggettività
Nel mondo del machine learning, una proprietà che descrive un modello il cui output si basa sulla realtà. L'accuratezza è un concetto, non una metrica. Ad esempio, supponi di inviare il seguente prompt a un modello linguistico di grandi dimensioni:
Qual è la formula chimica del sale da tavola?
Un modello che ottimizza l'accuratezza risponderebbe:
NaCl
È allettante presumere che tutti i modelli debbano basarsi sulla veridicità. Tuttavia, alcuni prompt, come i seguenti, devono indurre un modello di AI generativa a ottimizzare la creatività anziché l'accuratezza.
Scrivimi una filastrocca su un astronauta e un bruco.
È improbabile che il limerick risultante si basi sulla realtà.
Contrasto con l'ancoraggio.
vincolo di equità
Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Ecco alcuni esempi di vincoli di equità:- Post-elaborazione dell'output del modello.
- Modifica della funzione di perdita per incorporare una penalità per la violazione di una metrica di equità.
- Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.
metrica di equità
Una definizione matematica di "equità" misurabile. Alcune metriche di equità comunemente utilizzate includono:
Molte metriche di equità si escludono a vicenda. Vedi Incompatibilità delle metriche di equità.
falso negativo (FN)
Un esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non sia spam (la classe negativa), ma che in realtà sia spam.
percentuale di falsi negativi
La proporzione di esempi positivi effettivi per i quali il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
falso positivo (FP)
Un esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma che in realtà non lo sia.
Per saperne di più, consulta Soglie e matrice di confusione in Machine Learning Crash Course.
percentuale di falsi positivi (FPR)
La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il tasso di falsi positivi:
La percentuale di falsi positivi è l'asse x di una curva ROC.
Per saperne di più, consulta Classificazione: ROC e AUC in Machine Learning Crash Course.
decadimento rapido
Una tecnica di addestramento per migliorare le prestazioni degli LLM. Il decadimento rapido comporta una rapida diminuzione del tasso di apprendimento durante l'addestramento. Questa strategia aiuta a evitare che il modello esegua un overfitting dei dati di addestramento e migliora la generalizzazione.
caratteristica
Una variabile di input per un modello di machine learning. Un esempio è composto da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre funzionalità e un'etichetta:
Funzionalità | Etichetta | ||
---|---|---|---|
Temperatura | Umidità | Pressione | Punteggio del test |
15 | 47 | 998 | 92 |
19 | 34 | 1020 | 84 |
18 | 92 | 1012 | 87 |
Contrasto con l'etichetta.
Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.
incrocio di caratteristiche
Una caratteristica sintetica formata "incrociando" caratteristiche categoriche o raggruppate.
Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:
freezing
chilly
temperate
warm
e rappresenta la velocità del vento in uno dei seguenti tre bucket:
still
light
windy
Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei
sette bucket precedenti. Pertanto, il modello viene addestrato, ad esempio, su freezing
indipendentemente dall'addestramento su, ad esempio, windy
.
In alternativa, potresti creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:
freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy
Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore
tra un giorno freezing-windy
e un giorno freezing-still
.
Se crei una caratteristica sintetica da due caratteristiche che hanno molte bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra ne ha 2000, il cross di funzionalità risultante ha 2.000.000 di bucket.
Formalmente, un incrocio è un prodotto cartesiano.
I cross di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.
Per saperne di più, consulta Dati categorici: combinazioni di funzionalità in Machine Learning Crash Course.
e applicazione del feature engineering.
Un processo che prevede i seguenti passaggi:
- Determinare quali caratteristiche potrebbero essere utili per l'addestramento di un modello.
- Conversione dei dati non elaborati del set di dati in versioni efficienti di queste caratteristiche.
Ad esempio, potresti determinare che temperature
potrebbe essere una funzionalità utile. Poi, potresti sperimentare il raggruppamento
per ottimizzare ciò che il modello può apprendere da diversi intervalli di temperature
.
Il feature engineering è talvolta chiamato estrazione delle funzionalità o featurizzazione.
Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.
estrazione delle caratteristiche
Termine sovraccarico con una delle seguenti definizioni:
- Recupero delle rappresentazioni delle funzionalità intermedie calcolate da un modello non supervisionato o preaddestrato (ad esempio, i valori dello strato nascosto in una rete neurale) da utilizzare come input in un altro modello.
- Sinonimo di feature engineering.
importanza delle caratteristiche
Sinonimo di importanza delle variabili.
set di funzionalità
Il gruppo di funzionalità su cui viene addestrato il tuo modello di machine learning. Ad esempio, un semplice insieme di funzionalità per un modello che prevede i prezzi delle case potrebbe essere costituito da codice postale, dimensioni della proprietà e condizioni della proprietà.
specifiche della funzionalità
Descrive le informazioni necessarie per estrarre i dati delle funzionalità dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:
- I dati da estrarre (ovvero le chiavi delle funzionalità)
- Il tipo di dati (ad esempio, float o int)
- La lunghezza (fissa o variabile)
vettore di caratteristiche
L'array di valori delle funzionalità che compongono un esempio. Il vettore delle caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore delle caratteristiche per un modello con due caratteristiche discrete potrebbe essere:
[0.92, 0.56]
Ogni esempio fornisce valori diversi per il vettore delle caratteristiche, quindi il vettore delle caratteristiche per l'esempio successivo potrebbe essere simile a questo:
[0.73, 0.49]
Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque valori possibili potrebbe essere rappresentata con codifica one-hot. In questo caso, la porzione del vettore delle caratteristiche per un particolare esempio sarebbe costituita da quattro zeri e un singolo 1.0 nella terza posizione, come segue:
[0.0, 0.0, 1.0, 0.0, 0.0]
Come altro esempio, supponiamo che il tuo modello sia composto da tre funzionalità:
- una caratteristica categorica binaria con cinque valori possibili rappresentati con la codifica one-hot; ad esempio:
[0.0, 1.0, 0.0, 0.0, 0.0]
- un'altra caratteristica categorica binaria con tre valori possibili rappresentati
con la codifica one-hot; ad esempio:
[0.0, 0.0, 1.0]
- una funzionalità in virgola mobile, ad esempio
8.3
.
In questo caso, il vettore delle caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore delle funzionalità sarebbe:
0.0 1.0 0.0 0.0 0.0 0.0 0.0 1.0 8.3
Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando i vettori delle caratteristiche in Machine Learning Crash Course.
featurizzazione
Il processo di estrazione delle caratteristiche da una fonte di input, come un documento o un video, e la mappatura di queste caratteristiche in un vettore di caratteristiche.
Alcuni esperti di ML utilizzano il termine featurizzazione come sinonimo di feature engineering o estrazione delle caratteristiche.
apprendimento federato
Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati sui dispositivi per apportare miglioramenti al modello. I dispositivi caricano i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere eliminati.
Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi di privacy della raccolta mirata dei dati e della minimizzazione dei dati.
Per saperne di più, consulta il fumetto sull'apprendimento federato.
ciclo di feedback
Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento per lo stesso modello o per un altro modello. Ad esempio, un modello che consiglia film influenzerà i film che le persone vedono, il che influenzerà a sua volta i modelli di consigli sui film successivi.
Per saperne di più, consulta Sistemi ML di produzione: domande da porre in Machine Learning Crash Course.
rete neurale feed-forward (FFN)
Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali ricorrenti, che sono cicliche.
apprendimento few-shot
Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare modelli di classificazione efficaci a partire da un numero ridotto di esempi di addestramento.
Vedi anche apprendimento one-shot e apprendimento zero-shot.
prompting few-shot
Un prompt che contiene più di un esempio che dimostra come il modello linguistico di grandi dimensioni deve rispondere. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.
Parti di un prompt | Note |
---|---|
Qual è la valuta ufficiale del paese specificato? | La domanda a cui vuoi che l'LLM risponda. |
Francia: EUR | Un esempio. |
Regno Unito: GBP | Un altro esempio. |
India: | La query effettiva. |
Il prompting few-shot in genere produce risultati più desiderabili rispetto al prompting zero-shot e al prompting one-shot. Tuttavia, il prompt few-shot richiede un prompt più lungo.
Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.
Per saperne di più, consulta Prompt engineering in Machine Learning Crash Course.
Violino
Una libreria di configurazione basata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altre basi di codice ML, queste funzioni e classi rappresentano modelli e iperparametri di addestramento.
Fiddle presuppone che le codebase di machine learning siano in genere suddivise in:
- Codice della libreria, che definisce i livelli e gli ottimizzatori.
- Codice "collante" del set di dati, che chiama le librerie e collega tutto.
Fiddle acquisisce la struttura di chiamata del codice di collegamento in una forma non valutata e modificabile.
ottimizzazione
Un secondo passaggio di addestramento specifico per l'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:
- Preaddestramento: addestra un modello linguistico di grandi dimensioni su un vasto set di dati generici, come tutte le pagine di Wikipedia in lingua inglese.
- Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, ad esempio rispondere a domande mediche. L'ottimizzazione in genere prevede centinaia o migliaia di esempi incentrati sull'attività specifica.
Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:
- Pre-addestramento: addestra un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generiche, ad esempio tutte le immagini di Wikimedia Commons.
- Ottimizzazione:addestra il modello preaddestrato a svolgere un'attività specifica, come generare immagini di orche.
Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:
- Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione viene a volte chiamata ottimizzazione completa.
- Modifica solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta la sezione Ottimizzazione efficiente dei parametri.
- Aggiungendo altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.
L'ottimizzazione è una forma di transfer learning. Pertanto, il perfezionamento potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisca il numero di uccelli in un'immagine di input.
Confronta e contrapponi il fine-tuning con i seguenti termini:
Per saperne di più, consulta la sezione Ottimizzazione di Machine Learning Crash Course.
Modello flash
Una famiglia di modelli Gemini relativamente piccoli ottimizzati per la velocità e la bassa