Se usó la API de Cloud Translation para traducir esta página.

Glosario sobre aprendizaje automático

En este glosario, se definen los términos relacionados con el aprendizaje automático.

A

ablación

Técnica para evaluar la importancia de un atributo o componente quitándolo temporalmente de un modelo. Luego, vuelves a entrenar el modelo sin ese atributo o componente y, si el modelo reentrenado tiene un rendimiento significativamente peor, es probable que el atributo o componente quitado fuera importante.

Por ejemplo, supongamos que entrenas un modelo de clasificación con 10 atributos y logras un 88% de precisión en el conjunto de prueba. Para verificar la importancia del primer atributo, puedes volver a entrenar el modelo usando solo los otros nueve atributos. Si el modelo reentrenado tiene un rendimiento significativamente peor (por ejemplo, un 55% de precisión), es probable que el atributo quitado fuera importante. Por el contrario, si el modelo reentrenado tiene un rendimiento igual de bueno, es probable que ese atributo no fuera tan importante.

La ablación también puede ayudar a determinar la importancia de lo siguiente:

Componentes más grandes, como un subsistema completo de un sistema de AA más grande
Procesos o técnicas, como un paso de preprocesamiento de datos

En ambos casos, observarías cómo cambia (o no cambia) el rendimiento del sistema después de quitar el componente.

Pruebas A/B

Es una forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica existente y la B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene mejor rendimiento, sino también si la diferencia es estadísticamente significativa.

Las pruebas A/B suelen comparar una sola métrica en dos técnicas. Por ejemplo, ¿cómo se compara la precisión del modelo para dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad finita de métricas.

chip acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar cálculos clave necesarios para los algoritmos de aprendizaje profundo.

Los chips aceleradores (o simplemente aceleradores) pueden aumentar significativamente la velocidad y la eficiencia de las tareas de entrenamiento e inferencia en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y realizar tareas similares que requieren un uso intensivo del procesamiento.

Estos son algunos ejemplos de chips aceleradores:

Las unidades de procesamiento tensorial (TPUs) de Google con hardware dedicado para el aprendizaje profundo.
Las GPU de NVIDIA, aunque se diseñaron inicialmente para el procesamiento de gráficos, están diseñadas para permitir el procesamiento paralelo, lo que puede aumentar significativamente la velocidad de procesamiento.

exactitud

#fundamentals

#Metric

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de exactitud para la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

TP es la cantidad de verdaderos positivos (predicciones correctas).
TN es la cantidad de verdaderos negativos (predicciones correctas).
FP es la cantidad de falsos positivos (predicciones incorrectas).
FN es la cantidad de falsos negativos (predicciones incorrectas).

Compara y contrasta la exactitud con la precisión y la recuperación.

Haz clic en el ícono para obtener detalles sobre la precisión y los conjuntos de datos desequilibrados en cuanto a las clases.

Si bien es una métrica valiosa en algunas situaciones, la precisión es muy engañosa en otras. En particular, la exactitud suele ser una métrica deficiente para evaluar los modelos de clasificación que procesan conjuntos de datos con desequilibrio de clases.

Por ejemplo, supongamos que en una determinada ciudad subtropical nieva solo 25 días por siglo. Dado que los días sin nieve (la clase negativa) superan ampliamente a los días con nieve (la clase positiva), el conjunto de datos de nieve para esta ciudad está desequilibrado en cuanto a las clases. Imagina un modelo de clasificación binaria que debería predecir si nevará o no cada día, pero que simplemente predice "no nevará" todos los días. Este modelo es muy preciso, pero no tiene poder predictivo. En la siguiente tabla, se resumen los resultados para un siglo de predicciones:

Categoría	Número
VP	0
TN	36499
FP	0
FN	25

Por lo tanto, la precisión de este modelo es la siguiente:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Si bien el 99.93% de exactitud parece un porcentaje muy impresionante, el modelo en realidad no tiene poder predictivo.

La precisión y la recuperación suelen ser métricas más útiles que la exactitud para evaluar modelos entrenados en conjuntos de datos con clases desequilibradas.

Consulta Clasificación: Precisión, recuperación, exactitud y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

acción

En el aprendizaje por refuerzo, es el mecanismo por el cual el agente realiza la transición entre los estados del entorno. El agente elige la acción con una política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre las características y la etiqueta.

Entre las funciones de activación populares, se incluyen las siguientes:

Los diagramas de las funciones de activación nunca son líneas rectas únicas. Por ejemplo, el gráfico de la función de activación ReLU consta de dos líneas rectas:

Un gráfico cartesiano de dos líneas. La primera línea tiene un valor de Y constante de 0 y se extiende a lo largo del eje X desde -infinito, 0 hasta 0, -0.
La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a +infinito,+infinito.

El gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo bidimensional con valores de X que abarcan el dominio de -infinito a +infinito, mientras que los valores de Y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0 y 0.5,y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Haz clic en el ícono para ver un ejemplo.

En una red neuronal, las funciones de activación manipulan la suma ponderada de todas las entradas a una neurona. Para calcular una suma ponderada, la neurona suma los productos de los valores y los pesos relevantes. Por ejemplo, supongamos que la entrada pertinente para una neurona consta de lo siguiente:

valor de entrada	Peso de entrada
2	-1.3
-1	0.6
3	0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supongamos que el diseñador de esta red neuronal elige la función sigmoide como función de activación. En ese caso, la neurona calcula la sigmoide de -2.0, que es aproximadamente 0.12. Por lo tanto, la neurona pasa 0.12 (en lugar de -2.0) a la siguiente capa de la red neuronal. En la siguiente figura, se ilustra la parte pertinente del proceso:

Para obtener más información, consulta Redes neuronales: Funciones de activación en el Curso intensivo de aprendizaje automático.

aprendizaje activo

Un enfoque de entrenamiento en el que el algoritmo elige algunos de los datos sobre los cuales aprende. El aprendizaje activo es especialmente útil cuando los ejemplos etiquetados son pocos o difíciles de obtener. En lugar de buscar entre un amplio rango de ejemplos etiquetados, un algoritmo de aprendizaje activo busca selectivamente el rango particular de ejemplos que necesita para aprender.

AdaGrad

Algoritmo de descenso de gradientes que reajusta los gradientes de cada parámetro y le asigna una tasa de aprendizaje independiente a cada uno. Para obtener una explicación completa, consulta Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adaptación

#generativeAI

Sinónimo de ajuste o ajuste fino.

agente

Software que puede razonar sobre las entradas multimodales del usuario para planificar y ejecutar acciones en su nombre.

En el aprendizaje por refuerzo, un agente es la entidad que usa una política para maximizar el retorno esperado que se obtiene de la transición entre los estados del entorno.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

Detección de anomalías

Proceso de identificación de valores atípicos. Por ejemplo, si la media de un determinado atributo es 100 con una desviación estándar de 10, la detección de anomalías debería marcar un valor de 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

Área bajo la curva de PR

#Metric

Consulta PR AUC (área bajo la curva de PR).

área bajo la curva ROC

#Metric

Consulta AUC (área bajo la curva ROC).

Inteligencia artificial general

Un mecanismo no humano que demuestra una amplia variedad de capacidades de resolución de problemas, creatividad y adaptabilidad. Por ejemplo, un programa que demuestre inteligencia general artificial podría traducir texto, componer sinfonías y destacarse en juegos que aún no se han inventado.

inteligencia artificial

#fundamentals

Es un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, los programas o modelos que traducen textos o que identifican enfermedades a partir de imágenes radiológicas son muestras de inteligencia artificial.

Técnicamente, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a utilizar los términos inteligencia artificial y aprendizaje automático de manera indistinta.

Attention,

Es un mecanismo que se usa en una red neuronal y que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que necesita un modelo para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que otra parte de la red neuronal calcula el peso de cada entrada.

Consulta también autoatención y autoatención de múltiples cabezales, que son los componentes básicos de los Transformers.

Consulta LLMs: ¿Qué es un modelo de lenguaje grande? en el Curso intensivo de aprendizaje automático para obtener más información sobre la autoatención.

atributo

#responsible

Sinónimo de atributo.

En la equidad del aprendizaje automático, los atributos suelen hacer referencia a características relacionadas con las personas.

muestreo de atributos

#df

Es una táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de posibles atributos cuando aprende la condición. En general, se muestrea un subconjunto diferente de atributos para cada nodo. En cambio, cuando se entrena un árbol de decisión sin muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

#Metric

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté el AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.

Por ejemplo, la siguiente ilustración muestra un modelo de clasificación que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo irrealmente perfecto tiene un AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, la siguiente ilustración muestra los resultados de un modelo de clasificación que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los positivos de los negativos en cierta medida y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

Haz clic en el ícono para obtener información sobre la relación entre las curvas ROC y el AUC.

El AUC representa el área bajo una curva ROC. Por ejemplo, la curva ROC de un modelo que separa perfectamente los positivos de los negativos se ve de la siguiente manera:

El AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es simplemente la longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto de 1.0 y 1.0 genera un AUC de exactamente 1.0, que es la puntuación de AUC más alta posible.

Por el contrario, la curva ROC para un modelo de clasificación que no puede separar las clases en absoluto es la siguiente. El área de esta región gris es 0.5.

Una curva ROC más típica se ve aproximadamente de la siguiente manera:

Calcular el área bajo esta curva de forma manual sería un trabajo arduo, por lo que, por lo general, un programa calcula la mayoría de los valores del AUC.

Haz clic en el ícono para obtener una definición más formal del AUC.

El AUC es la probabilidad de que un modelo de clasificación tenga más certeza de que un ejemplo positivo elegido al azar sea realmente positivo que de que un ejemplo negativo elegido al azar sea positivo.

Para obtener más información, consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático.

realidad aumentada

Es una tecnología que superpone una imagen generada por computadora en la vista del mundo real de un usuario, lo que proporciona una vista compuesta.

codificador automático

Es un sistema que aprende a extraer la información más importante de la entrada. Los autoencoders son una combinación de un codificador y un decodificador. Los autoencoders se basan en el siguiente proceso de dos pasos:

El codificador asigna la entrada a un formato (intermedio) de menor dimensión (por lo general, con pérdida).
El decodificador crea una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de mayor dimensión.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original a partir del formato intermedio del codificador de la manera más precisa posible. Dado que el formato intermedio es más pequeño (de menor dimensión) que el formato original, el codificador automático se ve obligado a aprender qué información de la entrada es esencial, y la salida no será perfectamente idéntica a la entrada.

Por ejemplo:

Si los datos de entrada son un gráfico, la copia no exacta sería similar al gráfico original, pero con algunas modificaciones. Quizás la copia no exacta quite el ruido del gráfico original o complete algunos píxeles faltantes.
Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imita (pero no es idéntico a) el texto original.

Consulta también codificadores automáticos variacionales.

Evaluación automática

#generativeAI

Usar software para juzgar la calidad del resultado de un modelo

Cuando el resultado del modelo es relativamente sencillo, una secuencia de comandos o un programa pueden comparar el resultado del modelo con una respuesta ideal. A veces, este tipo de evaluación automática se denomina evaluación programática. Las métricas como ROUGE o BLEU suelen ser útiles para la evaluación programática.

Cuando el resultado del modelo es complejo o no tiene una respuesta correcta, a veces, un programa de AA independiente llamado calificador automático realiza la evaluación automática.

Compara esto con la evaluación humana.

sesgo de automatización

#responsible

Cuando una persona que toma decisiones favorece las recomendaciones hechas por un sistema automático de decisión por sobre la información obtenida sin automatización, incluso cuando el sistema de decisión automatizado comete un error.

Consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

AutoML

Cualquier proceso automatizado para compilar modelos de aprendizaje automático. AutoML puede realizar automáticamente tareas como las siguientes:

Busca el modelo más adecuado.
Ajusta los hiperparámetros.
Prepara los datos (incluida la ingeniería de atributos).
Implementa el modelo resultante.

AutoML es útil para los científicos de datos porque les permite ahorrar tiempo y esfuerzo en el desarrollo de canalizaciones de aprendizaje automático, y mejorar la precisión de las predicciones. También es útil para los no expertos, ya que les permite acceder a tareas complicadas de aprendizaje automático.

Consulta Aprendizaje automático automatizado (AutoML) en el Curso intensivo de aprendizaje automático para obtener más información.

Evaluación del evaluador automático

#generativeAI

Es un mecanismo híbrido para juzgar la calidad del resultado de un modelo de IA generativa que combina la evaluación humana con la evaluación automática. Un evaluador automático es un modelo de AA entrenado con datos creados por la evaluación humana. Lo ideal es que un autor aprenda a imitar a un evaluador humano.

Hay autorraters prediseñados disponibles, pero los mejores se ajustan específicamente para la tarea que evalúas.

Modelo autorregresivo

#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje autorregresivos predicen el siguiente token en función de los tokens predichos anteriormente. Todos los modelos de lenguaje grandes basados en Transformer son de regresión automática.

En cambio, los modelos de imágenes basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo pase hacia adelante y no de forma iterativa en pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

Pérdida auxiliar

Una función de pérdida, que se usa junto con la función de pérdida principal del modelo de red neuronal, que ayuda a acelerar el entrenamiento durante las primeras iteraciones cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes efectivos a las capas anteriores. Esto facilita la convergencia durante el entrenamiento, ya que combate el problema de desvanecimiento del gradiente.

Precisión promedio en k

#Metric

Es una métrica para resumir el rendimiento de un modelo en una sola instrucción que genera resultados clasificados, como una lista numerada de recomendaciones de libros. La precisión promedio en k es, bueno, el promedio de los valores de precisión en k para cada resultado relevante. Por lo tanto, la fórmula para la precisión promedio en k es la siguiente:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Donde:

$n$ es la cantidad de elementos pertinentes en la lista.

Compara esto con la recuperación en k.

Haz clic en el ícono para ver un ejemplo.

Supongamos que se le da la siguiente búsqueda a un modelo de lenguaje grande:

List the 6 funniest movies of all time in order.

Y el modelo de lenguaje grande devuelve la siguiente lista:

El general
Mean Girls
Pelotón
Damas en guerra
Citizen Kane
This is Spinal Tap

Cuatro de las películas de la lista devuelta son muy divertidas (es decir, son relevantes), pero dos son dramas (no son relevantes). En la siguiente tabla, se detallan los resultados:

Posición	Película	¿Es relevante?	Precisión en k
1	El general	Sí	1.0
2	Mean Girls	Sí	1.0
3	Pelotón	No	No es relevante
4	Damas en guerra	Sí	0.75
5	Citizen Kane	No	No es relevante
6	This is Spinal Tap	Sí	0.67

La cantidad de resultados relevantes es 4. Por lo tanto, puedes calcular la precisión promedio en 6 de la siguiente manera:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

condición alineada con el eje

#df

En un árbol de decisión, una condición que involucra solo una característica. Por ejemplo, si area es una característica, la siguiente es una condición alineada con el eje:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

Es el algoritmo que implementa el descenso de gradientes en las redes neuronales.

El entrenamiento de una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

Durante el pase hacia adelante, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida para ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
Durante el pase hacia atrás (retropropagación), el sistema reduce la pérdida ajustando los pesos de todas las neuronas en todas las capas ocultas.

Las redes neuronales suelen contener muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos aplicados a neuronas específicas.

La tasa de aprendizaje es un multiplicador que controla el grado en que cada pase hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje grande aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos de cálculo, la retropropagación implementa la regla de la cadena del cálculo. Es decir, la retropropagación calcula la derivada parcial del error con respecto a cada parámetro.

Hace años, los profesionales del AA tenían que escribir código para implementar la retropropagación. Las APIs de AA modernas, como Keras, ahora implementan la retropropagación por ti. ¡Vaya!

Consulta Redes neuronales en el Curso intensivo de aprendizaje automático para obtener más información.

Bagging

#df

Es un método para entrenar un ensamble en el que cada modelo constituyente se entrena con un subconjunto aleatorio de ejemplos de entrenamiento muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con bagging.

El término bagging es la abreviatura de bootstrap aggregating.

Consulta Bosques aleatorios en el curso de Bosques de decisión para obtener más información.

Bolsa de palabras

Representación de las palabras de una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de forma idéntica:

el perro salta
salta el perro
perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y salta. El valor distinto de cero puede ser cualquiera de los siguientes:

Un 1 para indicar la presencia de una palabra
Es el recuento de la cantidad de veces que una palabra aparece en la bolsa. (por ejemplo, si la frase fuera el perro negro es un perro con pelaje negro, entonces tanto negro como perro se representarían con un 2, mientras que las demás palabras con un 1)
Algún otro valor como por ejemplo el logaritmo de la cantidad de veces que una palabra aparece en la bolsa

modelo de referencia

#Metric

Un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como un buen modelo de referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores a cuantificar el rendimiento mínimo esperado que debe alcanzar un modelo nuevo para que sea útil.

modelo base

#generativeAI

Un modelo previamente entrenado que puede servir como punto de partida para el ajuste para abordar tareas o aplicaciones específicas

Consulta también modelo previamente entrenado y modelo fundamental.

lote

#fundamentals

Es el conjunto de ejemplos que se usan en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta época para obtener una explicación de cómo se relaciona un lote con una época.

Consulta Regresión lineal: Hiperparámetros en el Curso intensivo de aprendizaje automático para obtener más información.

Inferencia por lotes

#GoogleCloud

Proceso de inferencia de predicciones en varios ejemplos sin etiquetar divididos en subconjuntos más pequeños ("lotes").

La inferencia por lotes puede aprovechar las funciones de paralelización de los chips aceleradores. Es decir, varios aceleradores pueden inferir predicciones de forma simultánea en diferentes lotes de ejemplos sin etiquetar, lo que aumenta drásticamente la cantidad de inferencias por segundo.

Para obtener más información, consulta Sistemas de AA en producción: inferencia estática versus dinámica en el Curso intensivo de aprendizaje automático.

normalización por lotes

Normalizar la entrada o la salida de las funciones de activación en una capa oculta La normalización por lotes puede proporcionar los siguientes beneficios:

Hacer las redes neuronales más estables protegiéndolas de valores atípicos de pesos
Permitir tasas de aprendizaje más altas, lo que puede acelerar el entrenamiento
Reducir el sobreajuste

tamaño del lote

#fundamentals

Es la cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

A continuación, se indican algunas estrategias populares para determinar el tamaño del lote:

Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
Lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón de ejemplos. Por lo general, el procesamiento por lotes completo es una estrategia ineficiente.
Minilote, en el que el tamaño del lote suele ser entre 10 y 1,000. Por lo general, el minilote es la estrategia más eficiente.

Consulte los siguientes artículos para obtener más información:

Sistemas de AA de producción: inferencia estática frente a inferencia dinámica en el Curso intensivo de aprendizaje automático.
Guía de ajuste del aprendizaje profundo.

Red neuronal bayesiana

Una red neuronal probabilística que representa la incertidumbre entre pesos y resultados. Un modelo de regresión de red neuronal estándar suele predecir un valor escalar; por ejemplo, un modelo estándar predice el precio de una casa en 853,000. En contraste, una red neuronal Bayesiana predice una distribución de valores, por ejemplo, un modelo Bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Las redes neuronales bayesianas se basan en el teorema de Bayes para calcular la incertidumbre entre pesos y predicciones. Una red neuronal bayesiana puede ser útil en los casos en que se precisa calcular el grado de incertidumbre, como en modelos relacionados con la industria farmacéutica. Las redes neuronales Bayesianas también pueden ayudar a reducir el sobreajuste.

Optimización bayesiana

Técnica de modelo de regresión probabilístico para optimizar funciones objetivo costosas desde el punto de vista computacional. En cambio, se optimiza un sustituto que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Dado que la optimización bayesiana es muy costosa, se suele usar para optimizar tareas costosas de evaluar que tienen una pequeña cantidad de parámetros, como la selección de hiperparámetros.

Ecuación de Bellman

En el aprendizaje por refuerzo, la siguiente identidad satisface la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear el aprendizaje Q con la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones en la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

Es una arquitectura de modelo para la representación de texto. Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto o para otras tareas de AA.

BERT tiene las siguientes características:

Utiliza la arquitectura Transformer y, por lo tanto, se basa en la autoatención.
Usa la parte del codificador del Transformer. El trabajo del codificador es producir buenas representaciones de texto, en lugar de realizar una tarea específica como la clasificación.
Es bidireccional.
Utiliza el enmascaramiento para el entrenamiento no supervisado.

Las variantes de BERT incluyen las siguientes:

ALBERT, acrónimo de A Light BERT.
LaBSE.

Consulta Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing para obtener una descripción general de BERT.

sesgo (ética/equidad)

#responsible

#fundamentals

1. Estereotipo, prejuicio o preferencia de cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. Algunos tipos de este sesgo incluyen:

2. Error sistemático debido a un procedimiento de muestreo o de realización de un informe. Algunos tipos de este sesgo incluyen:

No se debe confundir con el término de sesgo en los modelos de aprendizaje automático ni con el sesgo de predicción.

Consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

ordenada al origen (matemática) o término de sesgo

#fundamentals

Una intersección o desplazamiento de un origen. La ordenada al origen es un parámetro en los modelos de aprendizaje automático, que se simboliza con cualquiera de los siguientes elementos:

b
w₀

Por ejemplo, la ordenada al origen es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, el sesgo solo significa "intersección con el eje Y". Por ejemplo, la ordenada al origen de la línea en la siguiente ilustración es 2.

Gráfico de una línea con una pendiente de 0.5 y un sesgo (intersección con el eje Y) de 2.

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo, supongamos que la entrada a un parque de diversiones cuesta EUR 2 y se cobra EUR 0.5 adicional por cada hora que se queda un cliente. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no se debe confundir con el sesgo en ética y equidad ni con el sesgo de predicción.

Consulta Regresión lineal en el Curso intensivo de aprendizaje automático para obtener más información.

bidireccional

Término que se usa para describir un sistema que evalúa el texto que precede y sigue a una sección de texto objetivo. En cambio, un sistema unidireccional solo evalúa el texto que precede a una sección de texto objetivo.

Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:

¿Qué te _____?

Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto proporcionado por las palabras "¿Qué", "es" y "la". En cambio, un modelo de lenguaje bidireccional también podría obtener contexto de "con" y "tú", lo que podría ayudarlo a generar mejores predicciones.

modelo de lenguaje bidireccional

Un modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación específica de un fragmento de texto según el texto anterior y siguiente.

bigrama

Un n-grama en el que N=2.

Clasificación binaria

#fundamentals

Es un tipo de tarea de clasificación que predice una de dos clases mutuamente exclusivas:

la clase positiva
la clase negativa

Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no son spam (la clase negativa).
Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o no la tiene (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

condición binaria

#df

En un árbol de decisión, una condición que tiene solo dos resultados posibles, por lo general, sí o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

Consulta Tipos de condiciones en el curso de Bosques de decisión para obtener más información.

discretización

Sinónimo de agrupamiento.

Modelo de caja negra

Un modelo cuyo "razonamiento" es imposible o difícil de entender para los humanos. Es decir, si bien los humanos pueden ver cómo las instrucciones afectan las respuestas, no pueden determinar con exactitud cómo un modelo de caja negra determina la respuesta. En otras palabras, un modelo de caja negra carece de interpretabilidad.

La mayoría de los modelos profundos y los modelos de lenguaje grandes son cajas negras.

BLEU (Bilingual Evaluation Understudy)

Es una métrica entre 0.0 y 1.0 para evaluar las traducciones automáticas, por ejemplo, del español al japonés.

Para calcular una puntuación, BLEU suele comparar la traducción de un modelo de AA (texto generado) con la traducción de un experto humano (texto de referencia). El grado en que coinciden los n-gramas en el texto generado y el texto de referencia determina la puntuación BLEU.

El documento original sobre esta métrica es BLEU: a Method for Automatic Evaluation of Machine Translation.

Consulta también BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Es una métrica para evaluar las traducciones automáticas de un idioma a otro, en especial hacia y desde el inglés.

En el caso de las traducciones desde y hacia el inglés, BLEURT se alinea más estrechamente con las calificaciones humanas que BLEU. A diferencia de BLEU, BLEURT enfatiza las similitudes semánticas (de significado) y puede adaptarse al parafraseo.

BLEURT se basa en un modelo de lenguaje grande entrenado previamente (BERT, para ser exactos) que luego se ajusta con texto de traductores humanos.

El documento original sobre esta métrica es BLEURT: Learning Robust Metrics for Text Generation.

potenciación

Técnica de aprendizaje automático que combina de forma iterativa un conjunto de modelos de clasificación simples y no muy precisos (también conocidos como "clasificadores débiles") en un modelo de clasificación con alta precisión (un "clasificador fuerte") mediante un incremento de ponderación para los ejemplos que el modelo actualmente clasifica de forma errónea.

Consulta ¿Qué son los árboles de decisión potenciados por gradiente? en el curso de Bosques de decisión para obtener más información.

cuadro de límite

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la siguiente imagen.

Fotografía de un perro sentado en un sofá. Un cuadro delimitador verde con coordenadas de la esquina superior izquierda de (275, 1271) y coordenadas de la esquina inferior derecha de (2954, 2761) circunscribe el cuerpo del perro.

transmisión

En una operación matemática de matrices, expansión de la forma de un operando a dimensiones compatibles para esa operación. Por ejemplo, el álgebra lineal requiere que los dos operandos en una operación de suma de matrices tengan las mismas dimensiones. En consecuencia, no se puede agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación expandiendo virtualmente el vector de longitud n en una matriz de forma (m, n) replicando los mismos valores en cada columna.

Haz clic en el ícono para ver un ejemplo.

Dadas las siguientes definiciones de A y B, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B si se expande de forma virtual B a:

 [[2, 2, 2],
  [2, 2, 2]]

Entonces, A+B se convierte en una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Para obtener más detalles, consulta la siguiente descripción de la emisión en NumPy.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios denominados agrupamientos o discretizaciones, que en general se basan en un rango de valores. Por lo general, el atributo segmentado es un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como un solo atributo de punto flotante continuo, podrías dividir los rangos de temperatura en discretos discretos, como los siguientes:

Las temperaturas inferiores o iguales a 10 grados Celsius se incluirían en el intervalo “frío”.
El intervalo de 11 a 24 grados Celsius sería el intervalo "templado".
Los valores mayores o iguales a 25 grados Celsius se incluirían en el bucket "cálido".

El modelo tratará cada valor del mismo bucket de forma idéntica. Por ejemplo, los valores 13 y 22 se encuentran en el bucket de temperatura, por lo que el modelo trata ambos valores de forma idéntica.

Haz clic en el ícono para ver notas adicionales.

Si representas la temperatura como un atributo continuo, el modelo la tratará como un solo atributo. Si representas la temperatura con tres discretizaciones, el modelo tratará cada discretización como un atributo independiente. Es decir, un modelo puede aprender relaciones independientes de cada discretización con la etiqueta. Por ejemplo, un modelo de regresión lineal puede aprender pesos separados para cada discretización.

Aumentar la cantidad de discretizaciones hace que tu modelo sea más complicado, ya que aumenta la cantidad de relaciones que debe aprender. Por ejemplo, los discretizaciones de frío, templado y cálido son, esencialmente, tres atributos separados para que tu modelo se entrene. Si decides agregar dos buckets más (por ejemplo, frío y caliente), tu modelo ahora deberá entrenarse en cinco atributos separados.

¿Cómo sabes cuántos discretizaciones crear o cuáles deberían ser los rangos de cada discretización? Por lo general, las respuestas requieren una buena cantidad de experimentación.

Consulta Datos numéricos: discretización en el Curso intensivo de aprendizaje automático para obtener más información.

C

capa de calibración

Ajuste posterior a la predicción, generalmente para dar cuenta del sesgo de predicción. Las predicciones ajustadas y las probabilidades deben coincidir con la distribución del conjunto de etiquetas observado.

generación de candidatos

Es el conjunto inicial de recomendaciones que elige un sistema de recomendación. Por ejemplo, considera una librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho menor de libros adecuados para un usuario específico, digamos 500. Pero incluso 500 libros son demasiados para recomendar a un usuario. Las fases posteriores y más costosas de un sistema de recomendación (como la puntuación y la reclasificación) reducen esos 500 a un conjunto de recomendaciones mucho más pequeño y útil.

Para obtener más información, consulta la descripción general de la generación de candidatos en el curso de Sistemas de recomendación.

muestreo de candidatos

Es una optimización del entrenamiento que calcula una probabilidad para todas las etiquetas positivas, por ejemplo, con softmax, pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, dado un ejemplo etiquetado como beagle y perro, el muestreo de candidatos calcula las probabilidades predichas y los términos de pérdida correspondientes para lo siguiente:

beagle
perro
un subconjunto aleatorio de las clases negativas restantes (por ejemplo, gato, golosina, cerca)

La idea es que las clases negativas pueden aprender de un refuerzo negativo menos frecuente, siempre y cuando las clases positivas siempre reciban el refuerzo positivo apropiado, y esto se controle empíricamente.

El muestreo de candidatos es más eficiente en términos de procesamiento que los algoritmos de entrenamiento que calculan predicciones para todas las clases negativas, en especial cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Atributos que tienen un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

red
yellow
green

Si se representa traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del conductor.

En ocasiones, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

Consulta Cómo trabajar con datos categóricos en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de lenguaje causal

Sinónimo de modelo de lenguaje unidireccional.

Consulta modelo de lenguaje bidireccional para comparar diferentes enfoques direccionales en el modelado del lenguaje.

centroid

#clustering

Es el centro de un clúster determinado por un algoritmo de k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

Consulta Algoritmos de agrupamiento en el curso de Clustering para obtener más información.

agrupamiento en clústeres basado en centroides

#clustering

Categoría de algoritmos de agrupamiento en clústeres que organiza los datos en clústeres no jerárquicos. k-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con los algoritmos de agrupamiento en clústeres jerárquico.

Consulta Algoritmos de agrupamiento en el curso de Clustering para obtener más información.

Cadena de pensamientos

#generativeAI

Una técnica de ingeniería de instrucciones que alienta a un modelo de lenguaje grande (LLM) a explicar su razonamiento paso a paso. Por ejemplo, considera la siguiente instrucción, y presta especial atención a la segunda oración:

¿Cuántas fuerzas G experimentaría un conductor en un automóvil que va de 0 a 96.56 km/h en 7 segundos? En la respuesta, muestra todos los cálculos pertinentes.

Es probable que la respuesta del LLM haga lo siguiente:

Muestra una secuencia de fórmulas físicas, reemplazando los valores 0, 60 y 7 en los lugares correspondientes.
Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamientos obliga al LLM a realizar todos los cálculos, lo que podría generar una respuesta más correcta. Además, las instrucciones de encadenamiento de pensamiento permiten que el usuario examine los pasos del LLM para determinar si la respuesta tiene sentido.

chatear

#generativeAI

Contenido de un diálogo bidireccional con un sistema de AA, por lo general, un modelo de lenguaje grande. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje grande) se convierte en el contexto para las partes posteriores del chat.

Un chatbot es una aplicación de un modelo de lenguaje grande.

punto de control

Son los datos que capturan el estado de los parámetros de un modelo durante el entrenamiento o después de que este se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente:

Detener el entrenamiento, tal vez de forma intencional o como resultado de ciertos errores
Captura el punto de control.
Más adelante, vuelve a cargar el punto de control, posiblemente en hardware diferente.
Reinicia el entrenamiento.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

En un modelo de clasificación binaria que detecta spam, las dos clases podrían ser spam y no es spam.
En un modelo de clasificación de varias clases que identifica razas de perros, las clases podrían ser caniche, beagle, pug, etcétera.

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de datos equilibrado por clase

Un conjunto de datos que contiene etiquetas categóricas en el que la cantidad de instancias de cada categoría es aproximadamente igual. Por ejemplo, considera un conjunto de datos botánicos cuya etiqueta binaria puede ser planta nativa o planta no nativa:

Un conjunto de datos con 515 plantas nativas y 485 plantas no nativas es un conjunto de datos equilibrado por clase.
Un conjunto de datos con 875 plantas nativas y 125 plantas no nativas es un conjunto de datos con desequilibrio de clases.

No existe una línea divisoria formal entre los conjuntos de datos con equilibrio de clases y los conjuntos de datos con desequilibrio de clases. La distinción solo se vuelve importante cuando un modelo entrenado en un conjunto de datos con un gran desequilibrio de clases no puede converger. Consulta Conjuntos de datos: conjuntos de datos desequilibrados en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, todos los siguientes son modelos de clasificación:

Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?).
Un modelo que predice especies de árboles (¿arce? ¿Roble? ¿Baobab?).
Un modelo que predice la clase positiva o negativa para una afección médica en particular.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Estos son dos tipos comunes de modelos de clasificación:

umbral de clasificación

#fundamentals

En una clasificación binaria, es un número entre 0 y 1 que convierte el resultado sin procesar de un modelo de regresión logística en una predicción de la clase positiva o la clase negativa. Ten en cuenta que el umbral de clasificación es un valor que elige un humano, no un valor que se elige durante el entrenamiento del modelo.

Un modelo de regresión logística genera un valor sin procesar entre 0 y 1. Luego:

Si este valor sin procesar es mayor que el umbral de clasificación, se predice la clase positiva.
Si este valor sin procesar es menor que el umbral de clasificación, se predice la clase negativa.

Por ejemplo, supongamos que el umbral de clasificación es 0.8. Si el valor sin procesar es 0.9, el modelo predice la clase positiva. Si el valor sin procesar es 0.7, el modelo predice la clase negativa.

La elección del umbral de clasificación influye en gran medida en la cantidad de falsos positivos y falsos negativos.

Haz clic en el ícono para ver notas adicionales.

A medida que evolucionan los modelos o los conjuntos de datos, los ingenieros a veces también cambian el umbral de clasificación. Cuando cambia el umbral de clasificación, las predicciones de clase positiva pueden convertirse repentinamente en clases negativas y viceversa.

Por ejemplo, considera un modelo de predicción de enfermedades de clasificación binaria. Supongamos que, cuando el sistema se ejecuta en el primer año, sucede lo siguiente:

El valor sin procesar para un paciente en particular es 0.95.
El umbral de clasificación es 0.94.

Por lo tanto, el sistema diagnostica la clase positiva. (El paciente jadea) "¡Oh, no! ¡Estoy enfermo!")

Un año después, tal vez los valores se vean de la siguiente manera:

El valor sin procesar para el mismo paciente sigue siendo 0.95.
El umbral de clasificación cambia a 0.97.

Por lo tanto, el sistema ahora reclasifica a ese paciente como de la clase negativa. (¡Qué día feliz! No estoy enfermo"). Es el mismo paciente. Diagnóstico diferente.

Para obtener más información, consulta Umbrales y la matriz de confusión en el Curso intensivo de aprendizaje automático.

clasificador

#fundamentals

Término informal para un modelo de clasificación.

conjunto de datos con desequilibrio de clases

#fundamentals

Un conjunto de datos para una clasificación en la que la cantidad total de etiquetas de cada clase difiere significativamente. Por ejemplo, considera un conjunto de datos de clasificación binaria cuyas dos etiquetas se dividen de la siguiente manera:

1,000,000 de etiquetas negativas
10 etiquetas positivas

La proporción de etiquetas negativas y positivas es de 100,000 a 1, por lo que se trata de un conjunto de datos con desequilibrio de clases.

En cambio, el siguiente conjunto de datos está equilibrado en cuanto a las clases porque la proporción de etiquetas negativas y positivas es relativamente cercana a 1:

517 etiquetas negativas
483 etiquetas positivas

Los conjuntos de datos de varias clases también pueden tener un desequilibrio de clases. Por ejemplo, el siguiente conjunto de datos de clasificación de varias clases también está desequilibrado en cuanto a las clases, ya que una etiqueta tiene muchos más ejemplos que las otras dos:

1,000,000 de etiquetas con la clase "verde"
200 etiquetas con la clase "púrpura"
350 etiquetas con la clase "naranja"

El entrenamiento de conjuntos de datos con clases desequilibradas puede presentar desafíos especiales. Consulta Conjuntos de datos desequilibrados en el Curso intensivo de aprendizaje automático para obtener más detalles.

Consulta también entropía, clase mayoritaria y clase minoritaria.

recorte

#fundamentals

Técnica para manejar valores atípicos realizando una o ambas de las siguientes acciones:

Se reducen los valores de características que superan un umbral máximo hasta ese umbral.
Se incrementan hasta un umbral mínimo aquellos valores de atributo que sean menores.

Por ejemplo, supongamos que menos del 0.5% de los valores de un atributo en particular se encuentran fuera del rango de 40 a 60. En ese caso, puedes hacer lo siguiente:

Recorta todos los valores superiores a 60 (el umbral máximo) para que sean exactamente 60.
Hacer un recorte de todos los valores menores que 40 (el umbral mínimo) para que sean exactamente 40

Los valores atípicos pueden dañar los modelos y, a veces, provocar un desbordamiento de los pesos durante el entrenamiento. Algunos valores atípicos también pueden afectar significativamente las métricas, como la precisión. El recorte es una técnica común para limitar el daño.

El recorte de gradientes fuerza los valores del gradiente dentro de un rango designado durante el entrenamiento.

Consulta Datos numéricos: Normalización en el Curso intensivo de aprendizaje automático para obtener más información.

Cloud TPU

#TensorFlow

#GoogleCloud

Es un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje automático en Google Cloud.

agrupamiento en clústeres

#clustering

Agrupar ejemplos relacionados, en especial durante el aprendizaje no supervisado Una vez que todos los ejemplos están agrupados, una persona puede, de forma opcional, asignar un significado a cada clúster.

Existen muchos algoritmos de agrupamiento en clústeres. Por ejemplo, el algoritmo de k-means agrupa los ejemplos según su proximidad a un centroide, como se muestra en el siguiente diagrama:

Un investigador humano podría luego revisar los clústeres y, por ejemplo, etiquetar el grupo 1 como "árboles enanos" y el grupo 2 como "árboles grandes".

Otro ejemplo podría ser un algoritmo de agrupamiento basado en la distancia del ejemplo desde un punto central, como se ilustra a continuación:

Decenas de puntos de datos se disponen en círculos concéntricos, casi como agujeros alrededor del centro de un tablero de dardos. El anillo más interno de puntos de datos se clasifica como clúster 1, el anillo intermedio se clasifica como clúster 2 y el anillo más externo como clúster 3.

Consulta el curso sobre clustering para obtener más información.

coadaptación

Es un comportamiento no deseado en el que las neuronas predicen patrones en los datos de entrenamiento basándose casi exclusivamente en salidas de otras neuronas específicas en lugar de basarse en el comportamiento de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos de validación, la coadaptación provoca un sobreajuste. La regularización de retirados reduce la coadaptación ya que asegura que las neuronas no puedan basarse solo en otras neuronas específicas.

filtrado colaborativo

Realizar predicciones sobre los intereses de un usuario en función de los intereses de muchos otros usuarios El filtrado colaborativo se usa con frecuencia en los sistemas de recomendación.

Para obtener más información, consulta Filtrado colaborativo en el curso de Sistemas de recomendación.

Modelo compacto

Cualquier modelo pequeño diseñado para ejecutarse en dispositivos pequeños con recursos de procesamiento limitados. Por ejemplo, los modelos compactos se pueden ejecutar en teléfonos celulares, tablets o sistemas integrados.

procesamiento

(Sustantivo) Recursos de procesamiento que usa un modelo o sistema, como la potencia de procesamiento, la memoria y el almacenamiento.

Consulta los chips aceleradores.

Desviación de conceptos

Un cambio en la relación entre los atributos y la etiqueta Con el tiempo, la desviación del concepto reduce la calidad de un modelo.

Durante el entrenamiento, el modelo aprende la relación entre los atributos y sus etiquetas en el conjunto de entrenamiento. Si las etiquetas del conjunto de entrenamiento son buenos sustitutos del mundo real, el modelo debería hacer buenas predicciones del mundo real. Sin embargo, debido a la desviación de conceptos, las predicciones del modelo tienden a degradarse con el tiempo.

Por ejemplo, considera un modelo de clasificación binaria que predice si un determinado modelo de automóvil es "eficiente en el consumo de combustible" o no. Es decir, los atributos podrían ser los siguientes:

Peso del automóvil
Compresión del motor
Tipo de transmisión

mientras que la etiqueta puede ser una de las siguientes:

eficiente en el consumo de combustible
No es eficiente en el consumo de combustible

Sin embargo, el concepto de "automóvil eficiente en el consumo de combustible" cambia constantemente. Un modelo de automóvil etiquetado como eficiente en el consumo de combustible en 1994 casi con certeza se etiquetaría como no eficiente en el consumo de combustible en 2024. Un modelo que sufre de desviación del concepto tiende a hacer predicciones cada vez menos útiles con el tiempo.

Compara y contrasta con la no estacionariedad.

Haz clic en el ícono para ver notas adicionales.

Para compensar la desviación de conceptos, vuelve a entrenar los modelos más rápido que la velocidad de la desviación de conceptos. Por ejemplo, si la desviación del concepto reduce la precisión del modelo en un margen significativo cada dos meses, vuelve a entrenar el modelo con mayor frecuencia que cada dos meses.

de transición

#df

En un árbol de decisión, cualquier nodo que realice una prueba. Por ejemplo, el siguiente árbol de decisión contiene dos condiciones:

Un árbol de decisión que consta de dos condiciones: (x > 0) y (y > 0).

Una condición también se denomina división o prueba.

Condición de contraste con hoja.

Consulta lo siguiente:

Consulta Tipos de condiciones en el curso de Bosques de decisión para obtener más información.

confabulación

Sinónimo de alucinación.

Es probable que confabulación sea un término más preciso desde el punto de vista técnico que alucinación. Sin embargo, la alucinación se popularizó primero.

configuración

Proceso de asignación de los valores iniciales de las propiedades que se usan para entrenar un modelo, lo que incluye lo siguiente:

las capas de composición del modelo
La ubicación de los datos
Hiperparámetros, como los siguientes:

En los proyectos de aprendizaje automático, la configuración se puede realizar a través de un archivo de configuración especial o con bibliotecas de configuración, como las siguientes:

sesgo de confirmación

#responsible

Tendencia a buscar, interpretar, favorecer y recordar información de una manera que confirme las creencias o hipótesis preexistentes propias. Los desarrolladores de aprendizaje automático pueden recopilar o etiquetar inadvertidamente los datos de formas que influyan en un resultado que respalde sus creencias. El sesgo de confirmación es una forma de sesgo implícito.

El sesgo de investigación es una forma de sesgo de confirmación en el cual un investigador continúa entrenando modelos hasta confirmar una hipótesis preexistente.

matriz de confusión

#fundamentals

Es una tabla de NxN que resume la cantidad de predicciones correctas e incorrectas que realizó un modelo de clasificación. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación binaria:

	Tumor (previsto)	Sin tumor (predicción)
Tumor (verdad fundamental)	18 (TP)	1 (FN)
No tumor (verdad fundamental)	6 (FP)	452 (TN)

En la matriz de confusión anterior, se muestra lo siguiente:

De las 19 predicciones en las que la verdad fundamental era Tumor, el modelo clasificó correctamente 18 y clasificó incorrectamente 1.
De las 458 predicciones en las que la verdad fundamental era No tumor, el modelo clasificó correctamente 452 y clasificó incorrectamente 6.

La matriz de confusión para un problema de clasificación de varias clases puede ayudarte a identificar patrones de errores. Por ejemplo, considera la siguiente matriz de confusión para un modelo de clasificación multiclase de 3 clases que categoriza tres tipos diferentes de iris (Virginica, Versicolor y Setosa). Cuando la verdad fundamental era Virginica, la matriz de confusión muestra que el modelo era mucho más propenso a predecir erróneamente Versicolor que Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (verdad fundamental)	88	12	0
Versicolor (verdad fundamental)	6	141	7
Virginica (verdad fundamental)	2	27	109

Como otro ejemplo, una matriz de confusión podría revelar que un modelo entrenado para reconocer dígitos escritos a mano tiende a predecir de manera incorrecta 9 en lugar de 4, o 1 en lugar de 7.

Las matrices de confusión contienen suficiente información para calcular una variedad de métricas de rendimiento, incluidas la precisión y la recuperación.

Análisis sintáctico de circunscripciones

Dividir una oración en estructuras gramaticales más pequeñas ("constituyentes") Una parte posterior del sistema de AA, como un modelo de comprensión del lenguaje natural, puede analizar los componentes con mayor facilidad que la oración original. Por ejemplo, considera la siguiente oración:

Mi amigo adoptó dos gatos.

Un analizador sintáctico de constituyentes puede dividir esta oración en los siguientes dos constituyentes:

Mi amigo es una frase nominal.
Adoptó dos gatos es una frase verbal.

Estos componentes se pueden subdividir aún más en componentes más pequeños. Por ejemplo, la frase verbal

adoptó dos gatos

se podría subdividir aún más en los siguientes tipos:

Adopted es un verbo.
Dos gatos es otra frase nominal.

embedding de lenguaje contextualizado

#generativeAI

Un embedding que se acerca a la "comprensión" de palabras y frases de la misma manera que lo hacen los hablantes humanos fluidos. Las incorporaciones de lenguaje contextualizadas pueden comprender la sintaxis, la semántica y el contexto complejos.

Por ejemplo, considera los embeddings de la palabra en inglés cow. Las incorporaciones más antiguas, como word2vec, pueden representar palabras en inglés de modo que la distancia en el espacio de incorporación de vaca a toro sea similar a la distancia de oveja (oveja hembra) a carnero (oveja macho) o de mujer a hombre. Las incorporaciones de lenguaje contextualizadas pueden ir un paso más allá y reconocer que los angloparlantes a veces usan la palabra cow de manera informal para referirse a una vaca o a un toro.

ventana de contexto

#generativeAI

Es la cantidad de tokens que un modelo puede procesar en una instrucción determinada. Cuanto más grande sea la ventana de contexto, más información podrá usar el modelo para proporcionar respuestas coherentes y uniformes a la instrucción.

atributo continuo

#fundamentals

Un atributo de punto flotante con un rango infinito de valores posibles, como la temperatura o el peso.

Compara esto con el atributo discreto.

muestreo de conveniencia

Uso de un conjunto de datos no recopilados científicamente con el objetivo de realizar experimentos rápidos. Posteriormente, es fundamental cambiar a un conjunto de datos recopilados científicamente.

convergencia

#fundamentals

Es un estado que se alcanza cuando los valores de la pérdida cambian muy poco o nada con cada iteración. Por ejemplo, la siguiente curva de pérdida sugiere convergencia alrededor de las 700 iteraciones:

Es un diagrama cartesiano. El eje X representa la pérdida. El eje Y representa la cantidad de iteraciones de entrenamiento. La pérdida es muy alta durante las primeras iteraciones, pero disminuye de forma abrupta. Después de aproximadamente 100 iteraciones, la pérdida sigue disminuyendo, pero de forma mucho más gradual. Después de aproximadamente 700 iteraciones, la pérdida se mantiene estable.

Un modelo converge cuando el entrenamiento adicional no lo mejora.

En el aprendizaje profundo, los valores de pérdida a veces se mantienen constantes o casi constantes durante muchas iteraciones antes de descender finalmente. Durante un período prolongado de valores de pérdida constantes, es posible que, temporalmente, tengas una falsa sensación de convergencia.

Consulta también interrupción anticipada.

Consulta Curvas de pérdida y convergencia del modelo en el Curso intensivo de aprendizaje automático para obtener más información.

Programación conversacional

#generativeAI

Es un diálogo iterativo entre tú y un modelo de IA generativa con el propósito de crear software. Emite una instrucción que describe algún software. Luego, el modelo usa esa descripción para generar código. Luego, emites una nueva instrucción para abordar las fallas de la instrucción anterior o del código generado, y el modelo genera código actualizado. Ambos seguirán intercambiando ideas hasta que el software generado sea lo suficientemente bueno.

El vibe coding de conversación es, esencialmente, el significado original de vibe coding.

Compara esto con la codificación especificacional.

función convexa

Función en la que la región por encima del gráfico de la función es un conjunto convexo. La función convexa prototípica tiene una forma similar a la letra U. Por ejemplo, las siguientes son todas funciones convexas:

Curvas con forma de U, cada una con un solo punto mínimo.

En contraste, la siguiente función no es convexa. Observa cómo la región sobre el gráfico no es un conjunto convexo:

Una curva en forma de W con dos puntos mínimos locales diferentes.

Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto mínimo global. Las funciones clásicas con forma de U son funciones estrictamente convexas. Sin embargo, algunas funciones convexas (por ejemplo, las líneas rectas) no lo son.

Haz clic en el ícono para ver los cálculos con más detalle.

Muchas de las funciones de pérdida comunes, incluidas las siguientes, son funciones convexas:

Muchas variaciones del descenso de gradientes garantizan encontrar un punto cerca del mínimo de una función estrictamente convexa. De manera similar, muchas variaciones del descenso de gradientes estocástico tienen una alta probabilidad (aunque no una garantía) de encontrar un punto cercano al mínimo de una función estrictamente convexa.

La suma de dos funciones convexas (por ejemplo, pérdida L₂ + regularización L₁) es una función convexa.

Los modelos profundos nunca son funciones convexas. Notablemente, los algoritmos diseñados para la optimización convexa tienden a encontrar soluciones razonablemente buenas en las redes profundas, de todos modos, aunque no está garantizado que esas soluciones sean un mínimo global.

Consulta Convergencia y funciones convexas en el Curso intensivo de aprendizaje automático para obtener más información.

optimización de función convexa

Proceso de uso de técnicas matemáticas, como el descenso de gradientes, para encontrar el mínimo de una función convexa. Gran parte de la investigación sobre el aprendizaje automático se ha centrado en formular distintos problemas como problemas de optimización convexa y en solucionar esas cuestiones de manera más eficaz.

Para obtener más información, consulta Convex Optimization de Boyd y Vandenberghe.

conjunto convexo

Es un subconjunto del espacio euclidiano tal que una línea trazada entre dos puntos cualesquiera del subconjunto permanece completamente dentro de él. Por ejemplo, las siguientes dos formas son conjuntos convexos:

Una ilustración de un rectángulo. Otra ilustración de un óvalo.

En contraste, las siguientes dos formas no son conjuntos convexos:

Una ilustración de un gráfico circular con una porción faltante.
Otra ilustración de un polígono muy irregular.

convolución

En matemáticas, la convolución es (informalmente) una manera de mezclar dos funciones que mide cuanta superposición hay entre las dos funciones En el aprendizaje automático, una convolución mezcla el filtro convolucional y la matriz de entrada para entrenar pesos.

En el aprendizaje automático, el término "convolución" suele ser una forma abreviada de referirse a la operación convolucional o a la capa convolucional.

Sin convoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para cada celda en un tensor grande. Por ejemplo, un algoritmo de aprendizaje automático que se entrena con imágenes de 2,000 x 2,000 se vería obligado a encontrar 4 millones de pesos separados. Gracias a las convoluciones, un algoritmo de aprendizaje automático solo tiene que encontrar pesos para cada celda en el filtro convolucional, lo que reduce drásticamente la memoria necesaria para entrenar el modelo. Cuando se aplica el filtro convolucional, simplemente se replica en todas las celdas de modo que cada una se multiplique por el filtro.

Consulta Introducción a las redes neuronales convolucionales en el curso de clasificación de imágenes para obtener más información.

filtro convolucional

Uno de los dos actores en una operación convolucional (El otro actor es una porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango que la de entrada, pero una forma más pequeña. Por ejemplo, en una matriz de entrada 28 x 28, el filtro podría ser cualquier matriz 2D más pequeña que 28 x 28.

En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen establecerse en un patrón constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales suelen inicializarse con números aleatorios y, luego, la red entrena los valores ideales.

Consulta Convolución en el curso de Clasificación de imágenes para obtener más información.

capa convolucional

Capa de una red neuronal profunda en la que un filtro convolucional pasa a lo largo de una matriz de entrada. Por ejemplo, considera el siguiente filtro convolucional de 3 x 3:

Una matriz de 3x3 con los siguientes valores: [[0,1,0], [1,0,1], [0,1,0]]

En la siguiente animación, se muestra una capa convolucional que consta de 9 operaciones convolucionales que involucran la matriz de entrada de 5 x 5. Observa que cada operación convolucional funciona en una porción diferente de 3 x 3 de la matriz de entrada. La matriz resultante de 3 x 3 (a la derecha) consta de los resultados de las 9 operaciones convolucionales:

Consulta Capas completamente conectadas en el curso de Clasificación de imágenes para obtener más información.

red neuronal convolucional

Una red neuronal en la que al menos una capa es una capa convolucional. Una red neuronal convolucional típica consta de alguna combinación de las siguientes capas:

Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el reconocimiento de imágenes.

operación convolucional

La siguiente operación matemática de dos pasos:

Multiplicación por elementos del filtro convolucional y una porción de una matriz de entrada (La porción de la matriz de entrada tiene el mismo rango y tamaño que el filtro convolucional).
Suma de todos los valores en la matriz de producto resultante

Por ejemplo, considera la siguiente matriz de entrada de 5 x 5:

La matriz de 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

Ahora, imagina el siguiente filtro convolucional de 2 x 2:

La matriz de 2x2: [[1, 0], [0, 1]]

Cada operación convolucional involucra una sola porción de 2 x 2 de la matriz de entrada. Por ejemplo, supongamos que usamos la división de 2 x 2 en la parte superior izquierda de la matriz de entrada. Por lo tanto, la operación de convolución en este segmento se ve de la siguiente manera:

Aplicación del filtro convolucional [[1, 0], [0, 1]] a la sección superior izquierda de 2 x 2 de la matriz de entrada, que es [[128,97], [35,22]].
El filtro convolucional deja intactos los valores 128 y 22, pero establece en cero los valores 97 y 35. Por lo tanto, la operación de convolución arroja el valor 150 (128 + 22).

Una capa convolucional consiste en una serie de operaciones convolucionales que actúan en porciones diferentes de la matriz de entrada.

costo

#Metric

Sinónimo de pérdida.

coentrenamiento

Un enfoque de aprendizaje semisupervisado, que es especialmente útil cuando se cumplen todas las condiciones siguientes:

La proporción de ejemplos sin etiquetar en relación con los ejemplos etiquetados en el conjunto de datos es alta.
Este es un problema de clasificación (binaria o multiclase).
El conjunto de datos contiene dos conjuntos diferentes de variables predictivas que son independientes entre sí y complementarias.

El entrenamiento conjunto amplifica los indicadores independientes para generar un indicador más potente. Por ejemplo, considera un modelo de clasificación que categoriza los autos usados individuales como Buenos o Malos. Un conjunto de atributos predictivos podría enfocarse en características agregadas, como el año, la marca y el modelo del automóvil; otro conjunto de atributos predictivos podría enfocarse en el historial de conducción del propietario anterior y el historial de mantenimiento del automóvil.

El documento fundamental sobre el coentrenamiento es Combining Labeled and Unlabeled Data with Co-Training de Blum y Mitchell.

Equidad contrafáctica

#responsible

#Metric

Es una métrica de equidad que verifica si un modelo de clasificación produce el mismo resultado para una persona que para otra idéntica a la primera, excepto en lo que respecta a uno o más atributos sensibles. Evaluar un modelo de clasificación para la equidad contrafáctica es un método para identificar posibles fuentes de sesgo en un modelo.

Consulta cualquiera de los siguientes artículos para obtener más información:

Equidad: Equidad contrafáctica en el Curso intensivo de aprendizaje automático.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness (Cuando los mundos chocan: Integración de diferentes suposiciones contrafácticas en la equidad)

sesgo de cobertura

#responsible

Consulta sesgo de selección.

crash blossom

Oración o frase con un significado ambiguo. Un crash blossom presenta un problema importante para la comprensión del lenguaje natural. Por ejemplo, el titular La cinta roja que sostiene un rascacielos es un crash blossom porque un modelo CLN podría interpretar el titular en sentido literal o figurado.

Haz clic en el ícono para ver notas adicionales.

Para aclarar ese misterioso título, aquí tienes un ejemplo:

Trámites burocráticos podría referirse a cualquiera de las siguientes opciones:
- Un adhesivo
- Burocracia excesiva
Holds Up puede referirse a cualquiera de las siguientes opciones:
- Soporte estructural
- Demoras

crítico

Sinónimo de red Q profunda.

entropía cruzada

#Metric

Es una generalización de la pérdida de registro para problemas de clasificación de clases múltiples. La entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Consulta también perplejidad.

validación cruzada

Es un mecanismo para estimar qué tan bien un modelo generalizará nuevos datos probando el modelo con uno o más subconjuntos de datos no superpuestos retenidos del conjunto de entrenamiento.

Función de distribución acumulativa (FDA)

#Metric

Es una función que define la frecuencia de las muestras menores o iguales que un valor objetivo. Por ejemplo, considera una distribución normal de valores continuos. Una CDF te indica que, aproximadamente, el 50% de las muestras deben ser menores o iguales a la media y que, aproximadamente, el 84% de las muestras deben ser menores o iguales a una desviación estándar por encima de la media.

D

análisis de datos

El proceso de obtener una comprensión de los datos mediante la consideración de muestras, mediciones y visualizaciones. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez un conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración del sistema.

magnificación de datos

Se incrementa de forma artificial el rango y la cantidad de ejemplos de entrenamiento a través de transformaciones sobre los ejemplos existentes para crear ejemplos adicionales. Por ejemplo, supongamos que uno de tus atributos son las imágenes, pero tu conjunto de datos no contiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas al conjunto de datos para permitir que el modelo se entrene adecuadamente. De no ser posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir variantes de la imagen original, lo que producirá, posiblemente, suficientes datos etiquetados para permitir un excelente entrenamiento.

DataFrame

#fundamentals

Un tipo de datos pandas popular para representar conjuntos de datos en la memoria.

Un DataFrame es similar a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.

Cada columna de un DataFrame se estructura como un array 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.

Consulta también la página de referencia oficial de pandas.DataFrame.

Paralelismo de datos

Es una forma de escalar el entrenamiento o la inferencia que replica un modelo completo en varios dispositivos y, luego, pasa un subconjunto de los datos de entrada a cada dispositivo. El paralelismo de datos puede permitir el entrenamiento y la inferencia en tamaños de lote muy grandes. Sin embargo, requiere que el modelo sea lo suficientemente pequeño como para caber en todos los dispositivos.

El paralelismo de datos suele acelerar el entrenamiento y la inferencia.

Consulta también paralelismo de modelos.

API de Dataset (tf.data)

#TensorFlow

Una API de TensorFlow de alto nivel para leer datos y transformarlos en un formato que requiere un algoritmo de aprendizaje automático. Un objeto tf.data.Dataset representa una secuencia de elementos, en la que cada uno de ellos contiene uno o más tensores. Un objeto tf.data.Iterator proporciona acceso a los elementos de un Dataset.

conjunto de datos (data set o dataset)

#fundamentals

Es una colección de datos sin procesar, que se suelen organizar (aunque no exclusivamente) en uno de los siguientes formatos:

una hoja de cálculo
Un archivo en formato CSV (valores separados por comas)

límite de decisión

Es el separador entre las clases que aprende un modelo en problemas de clasificación binaria o de clases múltiples. Por ejemplo, en la siguiente imagen, que representa un problema de clasificación binaria, el límite de decisión es la frontera entre la clase anaranjada y la azul:

Un límite bien definido entre una clase y otra.

bosque de decisión

#df

Es un modelo creado a partir de varios árboles de decisión. Un bosque de decisión realiza una predicción agregando las predicciones de sus árboles de decisión. Los tipos populares de bosques de decisión incluyen los bosques aleatorios y los árboles potenciados con gradientes.

Consulta la sección Bosques de decisión del curso sobre bosques de decisión para obtener más información.

umbral de decisión

Sinónimo de umbral de clasificación.

árbol de decisión

#df

Es un modelo de aprendizaje supervisado compuesto por un conjunto de condiciones y hojas organizadas de forma jerárquica. Por ejemplo, el siguiente es un árbol de decisión:

Un árbol de decisión que consta de cuatro condiciones dispuestas de forma jerárquica, que conducen a cinco hojas.

decodificador

En general, cualquier sistema de AA que convierta de una representación interna, densa o procesada a una representación externa, dispersa o más sin procesar.

Los decodificadores suelen ser un componente de un modelo más grande, en el que se combinan con un codificador.

En las tareas de secuencia a secuencia, un decodificador comienza con el estado interno generado por el codificador para predecir la siguiente secuencia.

Consulta Transformer para obtener la definición de un decodificador dentro de la arquitectura de Transformer.

Consulta Modelos de lenguaje grandes en el Curso intensivo de aprendizaje automático para obtener más información.

modelo profundo

#fundamentals

Una red neuronal que contiene más de una capa oculta.

Un modelo profundo también se denomina red neuronal profunda.

Compara esto con el modelo amplio.

diseño de red neuronal profunda

Sinónimo de modelo profundo.

Red de Deep Q (DQN)

En el aprendizaje Q, una red neuronal profunda que predice funciones Q.

Crítico es un sinónimo de Deep Q-Network.

Paridad demográfica

#responsible

#Metric

Es una métrica de equidad que se cumple si los resultados de la clasificación de un modelo no dependen de un atributo sensible determinado.

Por ejemplo, si tanto los liliputienses como los brobdingnagianos postulan a la Universidad de Glubbdubdrib, se logra la paridad demográfica si el porcentaje de liliputienses admitidos es el mismo que el porcentaje de brobdingnagianos admitidos, independientemente de si un grupo está, en promedio, más calificado que el otro.

Esto contrasta con la igualdad de probabilidades y la igualdad de oportunidades, que permiten que los resultados de la clasificación en conjunto dependan de atributos sensibles, pero no permiten que los resultados de la clasificación para ciertas etiquetas de verdad fundamental especificadas dependan de atributos sensibles. Consulta "Cómo combatir la discriminación con un aprendizaje automático más inteligente" para ver una visualización que explora las compensaciones cuando se optimiza la paridad demográfica.

Consulta Equidad: paridad demográfica en el Curso intensivo de aprendizaje automático para obtener más información.

Reducción de ruido

Un enfoque común del aprendizaje autosupervisado en el que se hace lo siguiente:

Se agrega ruido de forma artificial al conjunto de datos.
El modelo intenta quitar el ruido.

El eliminación de ruido permite el aprendizaje a partir de ejemplos sin etiqueta. El conjunto de datos original sirve como objetivo o etiqueta, y los datos ruidosos como entrada.

Algunos modelos de lenguaje enmascarados usan la eliminación de ruido de la siguiente manera:

Se agrega ruido de forma artificial a una oración sin etiquetar enmascarando algunos de los tokens.
El modelo intenta predecir los tokens originales.

atributo denso

#fundamentals

Es una característica en la que la mayoría o todos los valores son distintos de cero, por lo general, un tensor de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es denso porque 9 de sus valores no son cero:

Compara esto con el atributo disperso.

capa densa

Sinónimo de capa completamente conectada.

depth

#fundamentals

La suma de los siguientes elementos en una red neuronal:

la cantidad de capas ocultas
La cantidad de capas de salida, que suele ser 1
La cantidad de capas de incorporación

Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.

Ten en cuenta que la capa de entrada no influye en la profundidad.

Red neuronal convolucional separable en profundidad (sepCNN)

Es una arquitectura de red neuronal convolucional basada en Inception, pero en la que los módulos de Inception se reemplazan por convoluciones separables en profundidad. También se conoce como Xception.

Una convolución separable por profundidad (también abreviada como convolución separable) factoriza una convolución 3D estándar en dos operaciones de convolución separadas que son más eficientes desde el punto de vista computacional: primero, una convolución por profundidad, con una profundidad de 1 (n × n × 1) y, luego, una convolución punto a punto, con una longitud y un ancho de 1 (1 × 1 × n).

Para obtener más información, consulta Xception: Deep Learning with Depthwise Separable Convolutions (Xception: Aprendizaje profundo con convoluciones separables por profundidad).

etiqueta derivada

Sinónimo de etiqueta de proxy.

dispositivo

#TensorFlow

#GoogleCloud

Término sobrecargado con las siguientes dos definiciones posibles:

Categoría de hardware que puede ejecutar una sesión de TensorFlow y que incluye CPU, GPU y TPUs.
Cuando se entrena un modelo de AA en chips aceleradores (GPUs o TPU), es la parte del sistema que realmente manipula los tensores y las incorporaciones. El dispositivo funciona con chips aceleradores. En cambio, el host suele ejecutarse en una CPU.

privacidad diferencial

En el aprendizaje automático, es un enfoque de anonimización para proteger cualquier dato sensible (por ejemplo, la información personal de un individuo) incluido en el conjunto de entrenamiento de un modelo para que no se exponga. Este enfoque garantiza que el modelo no aprenda ni recuerde mucho sobre una persona específica. Esto se logra a través del muestreo y la adición de ruido durante el entrenamiento del modelo para ocultar los datos individuales, lo que mitiga el riesgo de exponer datos de entrenamiento sensibles.

La privacidad diferencial también se usa fuera del aprendizaje automático. Por ejemplo, los científicos de datos a veces usan la privacidad diferencial para proteger la privacidad individual cuando calculan estadísticas de uso del producto para diferentes datos demográficos.

reducción de dimensiones

Disminución de la cantidad de dimensiones que se usan para representar un atributo particular en un vector de atributos, generalmente mediante la conversión en un vector de incorporación.

dimensiones

Término sobrecargado con alguna de las siguientes definiciones:

Es la cantidad de niveles de coordenadas en un Tensor. Por ejemplo:
- Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].
- Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
- Una matriz tiene dos dimensiones; por ejemplo, [[2, 4, 18], [5, 7, 14]]. Se puede especificar de forma única una celda en particular en un vector unidimensional con una coordenada; se necesitan dos coordenadas para especificar de forma única una celda particular en una matriz bidimensional.
Es la cantidad de entradas en un vector de atributos.
Es la cantidad de elementos en una capa de incorporación.

Instrucción directa

#generativeAI

Sinónimo de instrucción sin ejemplos.

atributo discreto

#fundamentals

Un atributo con un conjunto finito de valores posibles. Por ejemplo, un atributo cuyos valores solo pueden ser animal, vegetal o mineral es un atributo discreto (o categórico).

Compara esto con el atributo continuo.

modelo discriminativo

Un modelo que predice etiquetas a partir de un conjunto de uno o más atributos. Más formalmente, los modelos discriminativos definen la probabilidad condicional de un resultado dados ciertos atributos y pesos, es decir:

p(output | features, weights)

Por ejemplo, un modelo que predice si un correo electrónico es spam o no a partir de atributos y pesos es un modelo discriminativo.

La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y regresión, son modelos discriminativos.

Compara esto con el modelo generativo.

discriminador

Sistema que determina si los ejemplos son reales o falsos.

De manera alternativa, es el subsistema dentro de una red neuronal adversarial generativa que determina si los ejemplos creados por el generador son reales o falsos.

Consulta El discriminador en el curso de las GAN para obtener más información.

Impacto dispar

#responsible

Tomar decisiones sobre personas que afectan de manera desproporcionada a diferentes subgrupos de la población Por lo general, se refiere a situaciones en las que un proceso algorítmico de toma de decisiones perjudica o beneficia a algunos subgrupos más que a otros.

Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de un liliputiense para un préstamo de una casa en miniatura es más propenso a clasificarlo como "inelegible" si su dirección postal contiene un determinado código postal. Si es más probable que los liliputienses big-endian tengan direcciones postales con este código postal que los liliputienses little-endian, este algoritmo puede generar un impacto dispar.

Se diferencia del trato dispar, que se enfoca en las disparidades que se producen cuando las características de los subgrupos son entradas explícitas en un proceso algorítmico de toma de decisiones.

Trato dispar

#responsible

Incorporar los atributos sensibles de los sujetos en un proceso de toma de decisiones algorítmico de modo que los diferentes subgrupos de personas reciban un trato diferente

Por ejemplo, considera un algoritmo que determina la elegibilidad de los liliputienses para un préstamo de vivienda en miniatura según los datos que proporcionan en su solicitud de préstamo. Si el algoritmo usa la afiliación de Lilliputian como Big-Endian o Little-Endian como entrada, está aplicando un trato dispar a lo largo de esa dimensión.

Esto contrasta con el impacto dispar, que se enfoca en las disparidades en los impactos sociales de las decisiones algorítmicas en subgrupos, independientemente de si esos subgrupos son entradas para el modelo.

destilación

#generativeAI

Proceso de reducir el tamaño de un modelo (conocido como profesor) en un modelo más pequeño (conocido como estudiante) que emula las predicciones del modelo original con la mayor fidelidad posible. La destilación es útil porque el modelo más pequeño tiene dos beneficios clave en comparación con el modelo más grande (el profesor):

Tiempo de inferencia más rápido
Menor uso de memoria y energía

Sin embargo, las predicciones del estudiante no suelen ser tan buenas como las del profesor.

La destilación entrena al modelo estudiante para minimizar una función de pérdida basada en la diferencia entre los resultados de las predicciones de los modelos estudiante y profesor.

Compara y contrasta la destilación con los siguientes términos:

Consulta LLMs: Ajuste, destilación y diseño de instrucciones en el Curso intensivo de aprendizaje automático para obtener más información.

distribución

La frecuencia y el rango de los diferentes valores para un atributo o una etiqueta determinados Una distribución captura la probabilidad de que se dé un valor en particular.

En la siguiente imagen, se muestran histogramas de dos distribuciones diferentes:

A la izquierda, se muestra una distribución de ley de potencias de la riqueza en comparación con la cantidad de personas que poseen esa riqueza.
A la derecha, se muestra una distribución normal de la altura en comparación con la cantidad de personas que tienen esa altura.

Comprender la distribución de cada atributo y etiqueta puede ayudarte a determinar cómo normalizar los valores y detectar valores atípicos.

La frase fuera de la distribución hace referencia a un valor que no aparece en el conjunto de datos o que es muy poco frecuente. Por ejemplo, una imagen del planeta Saturno se consideraría fuera de la distribución para un conjunto de datos que consta de imágenes de gatos.

agrupamiento en clústeres divisivo

#clustering

Consulta agrupamiento en clústeres jerárquico.

Reducción de muestreo

Término sobrecargado que significa una de las siguientes opciones:

Reducir la cantidad de información en un atributo para entrenar un modelo de manera más eficiente. Por ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, se reduce el muestreo llevando las imágenes de alta resolución a un formato de resolución más baja.
Entrenar con un porcentaje desproporcionadamente bajo de ejemplos de clases sobrerepresentadas para mejorar el entrenamiento del modelo en clases subrepresentadas. Por ejemplo, en un conjunto de datos con desequilibrio de clases, los modelos tienden a aprender mucho sobre la clase mayoritaria y no lo suficiente sobre la clase minoritaria. La reducción de muestreo ayuda a equilibrar la cantidad de entrenamiento en las clases mayoritarias y minoritarias.

Consulta Conjuntos de datos: Conjuntos de datos desequilibrados en el Curso intensivo de aprendizaje automático para obtener más información.

DQN

Abreviatura de Deep Q-Network.

Regularización de retirados

Es una forma de regularización útil para entrenar redes neuronales. La regularización de retirados quita una selección aleatoria de un número fijo de unidades de una capa de la red para un solo paso de gradiente. Cuantas más unidades se retiren, más sólida será la regularización. Esto es análogo a entrenar la red para emular un conjunto exponencialmente grande de redes más pequeñas. Para obtener más información, consulta Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

dinámico

#fundamentals

Algo que se hace con frecuencia o de forma continua. En el aprendizaje automático, los términos dinámico y en línea son sinónimos. A continuación, se muestran algunos usos comunes de dinámico y en línea en el aprendizaje automático:

Un modelo dinámico (o modelo en línea) es un modelo que se vuelve a entrenar con frecuencia o de forma continua.
El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente o continuo.
La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones a pedido.

modelo dinámico

#fundamentals

Un modelo que se vuelve a entrenar con frecuencia (quizás incluso de forma continua). Un modelo dinámico es un "aprendiz permanente" que se adapta constantemente a los datos en evolución. Un modelo dinámico también se conoce como modelo en línea.

Compara esto con el modelo estático.

E

ejecución inmediata

#TensorFlow

Entorno de programación de TensorFlow en el que las operaciones se ejecutan de inmediato. Por el contrario, las operaciones llamadas en ejecución por grafos no se ejecutan hasta que no se evalúen explícitamente. La ejecución inmediata es una interfaz imperativa, al igual que el código en la mayoría de los lenguajes de programación. Los programas de ejecución inmediata son generalmente mucho más fáciles de depurar que los programas de ejecución por grafos.

Interrupción anticipada

#fundamentals

Es un método de regularización que implica finalizar el entrenamiento antes de que la pérdida de entrenamiento deje de disminuir. En la interrupción anticipada, detienes intencionalmente el entrenamiento del modelo cuando la pérdida en un conjunto de datos de validación comienza a aumentar, es decir, cuando empeora el rendimiento de la generalización.

Haz clic en el ícono para ver notas adicionales.

La interrupción anticipada puede parecer contradictoria. Después de todo, indicarle a un modelo que detenga el entrenamiento mientras la pérdida sigue disminuyendo puede parecer como decirle a un chef que deje de cocinar antes de que el postre esté completamente horneado. Sin embargo, entrenar un modelo durante demasiado tiempo puede provocar un sobreajuste. Es decir, si entrenas un modelo durante demasiado tiempo, es posible que se ajuste tanto a los datos de entrenamiento que no realice buenas predicciones sobre ejemplos nuevos.

Compara esto con la salida anticipada.

Distancia de Earth Mover (EMD)

#Metric

Es una medida de la similitud relativa de dos distribuciones. Cuanto menor sea la distancia de movimiento de tierra, más similares serán las distribuciones.

Distancia de edición

#Metric

Es una medición de la similitud entre dos cadenas de texto. En el aprendizaje automático, la distancia de edición es útil por los siguientes motivos:

La distancia de edición es fácil de calcular.
La distancia de edición puede comparar dos cadenas que se sabe que son similares entre sí.
La distancia de edición puede determinar el grado en que diferentes cadenas son similares a una cadena determinada.

Existen varias definiciones de distancia de edición, cada una con diferentes operaciones de cadenas. Consulta Distancia de Levenshtein para ver un ejemplo.

Notación de Einsum

Es una notación eficiente para describir cómo se deben combinar dos tensores. Los tensores se combinan multiplicando los elementos de un tensor por los elementos del otro tensor y, luego, sumando los productos. La notación de Einsum usa símbolos para identificar los ejes de cada tensor, y esos mismos símbolos se reorganizan para especificar la forma del nuevo tensor resultante.

NumPy proporciona una implementación común de Einsum.

Capa de embedding

#fundamentals

Es una capa oculta especial que se entrena en un atributo categórico de alta dimensión para aprender gradualmente un vector de incorporación de menor dimensión. Una capa de incorporación permite que una red neuronal se entrene de manera mucho más eficiente que si solo se entrenara con el atributo categórico de alta dimensión.

Por ejemplo, actualmente, la Tierra admite alrededor de 73,000 especies de árboles. Supongamos que la especie de árbol es un atributo en tu modelo, por lo que la capa de entrada del modelo incluye un vector de un solo 1 de 73,000 elementos de longitud. Por ejemplo, tal vez baobab se representaría de la siguiente manera:

Es un array de 73,000 elementos. Los primeros 6,232 elementos tienen el valor 0. El siguiente elemento contiene el valor 1. Los últimos 66,767 elementos tienen el valor cero.

Un array de 73,000 elementos es muy largo. Si no agregas una capa de incorporación al modelo, el entrenamiento consumirá mucho tiempo debido a la multiplicación de 72,999 ceros. Quizás elijas que la capa de embedding conste de 12 dimensiones. En consecuencia, la capa de incorporación aprenderá gradualmente un nuevo vector de incorporación para cada especie de árbol.

En ciertas situaciones, el hashing es una alternativa razonable a una capa de incorporación.

Consulta Incorporaciones en el Curso intensivo de aprendizaje automático para obtener más información.

espacio de embedding

Es el espacio vectorial de d dimensiones al que se asignan los atributos de un espacio vectorial de mayor dimensión. El espacio de embedding se entrena para capturar la estructura que es significativa para la aplicación prevista.

El producto escalar de dos incorporaciones es la medida de su similitud.

vector de embedding

En términos generales, es un array de números de punto flotante tomados de cualquier capa oculta que describa las entradas de esa capa oculta. A menudo, un vector de incorporación es el array de números de punto flotante entrenado en una capa de incorporación. Por ejemplo, supongamos que una capa de embedding debe aprender un vector de embedding para cada una de las 73,000 especies de árboles de la Tierra. Quizás el siguiente array sea el vector de embedding de un árbol de baobab:

Es un array de 12 elementos, cada uno con un número de punto flotante entre 0.0 y 1.0.

Un vector de embedding no es un conjunto de números aleatorios. Una capa de embedding determina estos valores a través del entrenamiento, de manera similar a la forma en que una red neuronal aprende otros pesos durante el entrenamiento. Cada elemento del array es una calificación según alguna característica de una especie de árbol. ¿Qué elemento representa la característica de qué especie de árbol? Eso es muy difícil de determinar para los humanos.

La parte matemáticamente notable de un vector de incorporación es que los elementos similares tienen conjuntos similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto más parecido de números de punto flotante que las especies de árboles diferentes. Las secuoyas y las secuoyas rojas son especies de árboles relacionadas, por lo que tendrán un conjunto más similar de números de punto flotante que las secuoyas rojas y las palmeras de coco. Los números en el vector de embedding cambiarán cada vez que vuelvas a entrenar el modelo, incluso si lo vuelves a entrenar con la misma entrada.

función de distribución acumulativa empírica (eCDF o EDF)

#Metric

Una función de distribución acumulativa basada en mediciones empíricas de un conjunto de datos real. El valor de la función en cualquier punto a lo largo del eje X es la fracción de observaciones en el conjunto de datos que son menores o iguales que el valor especificado.

minimización del riesgo empírico (ERM)

Elegir la función que minimiza la pérdida en el conjunto de entrenamiento Compara esto con la minimización del riesgo estructural.

codificador

En general, cualquier sistema de AA que convierta una representación sin procesar, dispersa o externa en una representación más procesada, densa o interna.

Los codificadores suelen ser un componente de un modelo más grande, en el que se combinan con un decodificador. Algunos Transformers combinan codificadores con decodificadores, aunque otros Transformers usan solo el codificador o solo el decodificador.

Algunos sistemas usan el resultado del codificador como entrada para una red de clasificación o regresión.

En las tareas de secuencia a secuencia, un codificador toma una secuencia de entrada y devuelve un estado interno (un vector). Luego, el decodificador usa ese estado interno para predecir la siguiente secuencia.

Consulta Transformer para obtener la definición de un codificador en la arquitectura de Transformer.

Para obtener más información, consulta LLMs: ¿Qué es un modelo de lenguaje grande? en el Curso intensivo de aprendizaje automático.

extremos

Es una ubicación con dirección de red (por lo general, una URL) a la que se puede acceder a un servicio.

ensamble

Es una colección de modelos entrenados de forma independiente cuyas predicciones se promedian o agregan. En muchos casos, un conjunto produce mejores predicciones que un solo modelo. Por ejemplo, un bosque aleatorio es un ensamble creado a partir de varios árboles de decisión. Ten en cuenta que no todos los bosques de decisión son conjuntos.

Consulta Bosque aleatorio en el Curso intensivo de aprendizaje automático para obtener más información.

entropía

#df

#Metric

En la teoría de la información, es una descripción de qué tan impredecible es una distribución de probabilidad. Como alternativa, la entropía también se define como la cantidad de información que contiene cada ejemplo. Una distribución tiene la entropía más alta posible cuando todos los valores de una variable aleatoria son igualmente probables.

La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema de clasificación binaria) tiene la siguiente fórmula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Donde:

H es la entropía.
p es la fracción de ejemplos de "1".
q es la fracción de ejemplos "0". Ten en cuenta que q = (1 - p).
log suele ser log₂. En este caso, la unidad de entropía es un bit.

Por ejemplo, supongamos lo siguiente:

100 ejemplos contienen el valor "1".
300 ejemplos contienen el valor "0".

Por lo tanto, el valor de la entropía es el siguiente:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 bits por ejemplo

Un conjunto perfectamente equilibrado (por ejemplo, 200 "0" y 200 "1") tendría una entropía de 1.0 bits por ejemplo. A medida que un conjunto se vuelve más desequilibrado, su entropía se acerca a 0.0.

En los árboles de decisión, la entropía ayuda a formular la ganancia de información para ayudar al divisor a seleccionar las condiciones durante el crecimiento de un árbol de decisión de clasificación.

Compara la entropía con lo siguiente:

impureza de Gini
Función de pérdida de entropía cruzada

A menudo, la entropía se denomina entropía de Shannon.

Consulta Divisor exacto para la clasificación binaria con características numéricas en el curso de Bosques de decisión para obtener más información.

entorno

En el aprendizaje por refuerzo, el mundo contiene al agente y le permite observar el estado de ese mundo. Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un mundo físico como un laberinto. Cuando el agente aplica una acción al entorno, este cambia de estado.

episodio

En el aprendizaje por refuerzo, cada uno de los intentos repetidos del agente para aprender un entorno.

época

#fundamentals

Un recorrido de entrenamiento completo por todo el conjunto de entrenamiento, de manera que cada ejemplo se haya procesado una vez.

Un ciclo representa N/tamaño del lote iteraciones de entrenamiento, donde N es la cantidad total de ejemplos.

Por ejemplo, supongamos lo siguiente:

El conjunto de datos consta de 1,000 ejemplos.
El tamaño del lote es de 50 ejemplos.

Por lo tanto, una sola época requiere 20 iteraciones:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regresión lineal: Hiperparámetros en el Curso intensivo de aprendizaje automático para obtener más información.

Política de ε-greedy

En el aprendizaje por refuerzo, una política que sigue una política aleatoria con una probabilidad de epsilon o una política voraz en otros casos. Por ejemplo, si epsilon es 0.9, la política sigue una política aleatoria el 90% del tiempo y una política voraz el 10% del tiempo.

En episodios sucesivos, el algoritmo reduce el valor de epsilon para pasar de seguir una política aleatoria a seguir una política voraz. Al cambiar la política, el agente primero explora el entorno de forma aleatoria y, luego, explota de forma codiciosa los resultados de la exploración aleatoria.

Igualdad de oportunidades

#responsible

#Metric

Una métrica de equidad para evaluar si un modelo predice el resultado deseable con la misma precisión para todos los valores de un atributo sensible. En otras palabras, si el resultado deseable para un modelo es la clase positiva, el objetivo sería que la tasa de verdaderos positivos sea la misma para todos los grupos.

La igualdad de oportunidades se relaciona con la igualdad de probabilidades, que requiere que tanto las tasas de verdaderos positivos como las tasas de falsos positivos sean las mismas para todos los grupos.

Supongamos que la Universidad de Glubbdubdrib admite tanto a liliputienses como a brobdingnagianos en un programa riguroso de matemáticas. Las escuelas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas, por lo que muchos menos estudiantes están calificados. La igualdad de oportunidades se satisface para la etiqueta preferida de "admitido" con respecto a la nacionalidad (liliputiense o brobdingnagiana) si los estudiantes calificados tienen la misma probabilidad de ser admitidos, independientemente de si son liliputienses o brobdingnagianos.

Por ejemplo, supongamos que 100 liliputienses y 100 brobdingnagianos solicitan ingresar a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 1: Solicitantes de Lilliputian (el 90% cumple con los requisitos)

	Calificado	No cumple con los requisitos
Admitida	45	3
Rechazado	45	7
Total	90	10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes no calificados rechazados: 7/10 = 70% Porcentaje total de estudiantes de Lilliput admitidos: (45 + 3)/100 = 48%

Tabla 2: Solicitantes brobdingnagianos (el 10% está calificado):

	Calificado	No cumple con los requisitos
Admitida	5	9
Rechazado	5	81
Total	10	90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 81/90 = 90% Porcentaje total de estudiantes de Brobdingnag admitidos: (5 + 9)/100 = 14%

Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes calificados, ya que tanto los liliputienses como los brobdingnagianos calificados tienen un 50% de probabilidades de ser admitidos.

Si bien se satisface la igualdad de oportunidades, no se satisfacen las siguientes dos métricas de equidad:

Paridad demográfica: Los liliputienses y los brobdingnagianos son admitidos en la universidad en diferentes proporciones: el 48% de los estudiantes liliputienses son admitidos, pero solo el 14% de los estudiantes brobdingnagianos.
Probabilidades ecualizadas: Si bien los estudiantes calificados de Liliput y Brobdingnag tienen la misma probabilidad de ser admitidos, no se cumple la restricción adicional de que los estudiantes no calificados de Liliput y Brobdingnag tengan la misma probabilidad de ser rechazados. Los liliputienses no calificados tienen una tasa de rechazo del 70%, mientras que los brobdingnagianos no calificados tienen una tasa de rechazo del 90%.

Consulta Equidad: Igualdad de oportunidades en el Curso intensivo de aprendizaje automático para obtener más información.

Probabilidades ecualizadas

#responsible

#Metric

Es una métrica de equidad para evaluar si un modelo predice resultados con la misma precisión para todos los valores de un atributo sensible con respecto a la clase positiva y la clase negativa, no solo una clase o la otra de forma exclusiva. En otras palabras, tanto la tasa de verdaderos positivos como la tasa de falsos negativos deben ser iguales para todos los grupos.

Las probabilidades igualadas se relacionan con la igualdad de oportunidades, que solo se enfoca en las tasas de error para una sola clase (positiva o negativa).

Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite tanto a liliputienses como a brobdingnagianos en un riguroso programa de matemáticas. Las escuelas secundarias de Lilliput ofrecen un plan de estudios sólido de clases de matemáticas, y la gran mayoría de los estudiantes están calificados para el programa universitario. Las escuelas secundarias de Brobdingnag no ofrecen clases de matemáticas, por lo que muchos menos estudiantes están calificados. Se satisfacen las probabilidades igualadas siempre que, sin importar si un solicitante es liliputiense o brobdingnagiano, si está calificado, es igualmente probable que sea admitido en el programa y, si no está calificado, es igualmente probable que sea rechazado.

Supongamos que 100 liliputienses y 100 brobdingnagianos solicitan ingresar a la Universidad de Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:

Tabla 3: Solicitantes de Lilliputian (el 90% cumple con los requisitos)

	Calificado	No cumple con los requisitos
Admitida	45	2
Rechazado	45	8
Total	90	10
Porcentaje de estudiantes calificados admitidos: 45/90 = 50% Porcentaje de estudiantes no calificados rechazados: 8/10 = 80% Porcentaje total de estudiantes de Lilliput admitidos: (45 + 2)/100 = 47%

Tabla 4. Solicitantes brobdingnagianos (el 10% está calificado):

	Calificado	No cumple con los requisitos
Admitida	5	18
Rechazado	5	72
Total	10	90
Porcentaje de estudiantes calificados admitidos: 5/10 = 50% Porcentaje de estudiantes no calificados rechazados: 72/90 = 80% Porcentaje total de estudiantes de Brobdingnag admitidos: (5 + 18)/100 = 23%

Se cumple la igualdad de probabilidades porque los estudiantes calificados de Liliput y Brobdingnag tienen un 50% de probabilidades de ser admitidos, y los estudiantes no calificados de Liliput y Brobdingnag tienen un 80% de probabilidades de ser rechazados.

La igualdad de probabilidades se define formalmente en "Equality of Opportunity in Supervised Learning" de la siguiente manera: "El predictor Ŷ satisface la igualdad de probabilidades con respecto al atributo protegido A y el resultado Y si Ŷ y A son independientes, condicionales en Y".

Estimador

#TensorFlow

Es una API de TensorFlow obsoleta. Usa tf.keras en lugar de los Estimadores.

evals

#generativeAI

#Metric

Se usa principalmente como abreviatura de evaluaciones de LLM. En términos más generales, evals es la abreviatura de cualquier forma de evaluación.

sin conexión

#generativeAI

#Metric

Proceso para medir la calidad de un modelo o comparar diferentes modelos entre sí.

Para evaluar un modelo de aprendizaje automático supervisado, por lo general, lo comparas con un conjunto de validación y un conjunto de prueba. Evaluar un LLM suele implicar evaluaciones más amplias de calidad y seguridad.

ejemplo

#fundamentals

Son los valores de una fila de atributos y, posiblemente, una etiqueta. Los ejemplos de aprendizaje supervisado se dividen en dos categorías generales:

Un ejemplo etiquetado consta de uno o más atributos y una etiqueta. Durante el entrenamiento, se usan ejemplos etiquetados.
Un ejemplo sin etiquetar consta de uno o más atributos, pero no tiene etiqueta. Los ejemplos sin etiqueta se usan durante la inferencia.

Por ejemplo, supongamos que estás entrenando un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. Estos son tres ejemplos etiquetados:

Funciones			Etiqueta
Temperatura	Humedad	Presionar	Puntuación de la prueba
15	47	998	Bueno
19	34	1020	Excelente
18	92	1012	Deficiente

Estos son tres ejemplos sin etiquetas:

Temperatura	Humedad	Presionar
12	62	1014
21	47	1017
19	41	1021

Por lo general, la fila de un conjunto de datos es la fuente sin procesar de un ejemplo. Es decir, un ejemplo suele consistir en un subconjunto de las columnas del conjunto de datos. Además, los atributos de un ejemplo también pueden incluir atributos sintéticos, como combinaciones de atributos.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

Repetición de la experiencia

En el aprendizaje por refuerzo, es una técnica de DQN que se usa para reducir las correlaciones temporales en los datos de entrenamiento. El agente almacena las transiciones de estado en un búfer de reproducción y, luego, muestrea las transiciones del búfer de reproducción para crear datos de entrenamiento.

sesgo del experimentador

#responsible

Consulta sesgo de confirmación.

Problema del gradiente explosivo

Es la tendencia de los gradientes en las redes neuronales profundas (en especial, las redes neuronales recurrentes) a volverse sorprendentemente pronunciados (altos). Los gradientes pronunciados suelen causar actualizaciones muy grandes en los pesos de cada nodo en una red neuronal profunda.

Los modelos que sufren el problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar. El ajuste de gradientes puede mitigar este problema.

Compara esto con el problema de desvanecimiento de gradiente.

F

F₁

#Metric

Es una métrica de clasificación binaria "acumulada" que se basa tanto en la precisión como en la recuperación. Esta es la fórmula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Haz clic en el ícono para ver ejemplos.

Supongamos que la precisión y la recuperación tienen los siguientes valores:

precisión = 0.6
recuperación = 0.4

Puedes calcular F₁ de la siguiente manera:

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Cuando la precisión y la recuperación son bastante similares (como en el ejemplo anterior), la F₁ se acerca a su media. Cuando la precisión y la recuperación difieren significativamente, F₁ se acerca al valor más bajo. Por ejemplo:

precisión = 0.9
recuperación = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

Facticidad

#generativeAI

En el mundo del AA, una propiedad que describe un modelo cuya salida se basa en la realidad. La facticidad es un concepto, no una métrica. Por ejemplo, supongamos que envías la siguiente instrucción a un modelo de lenguaje grande:

¿Cuál es la fórmula química de la sal de mesa?

Un modelo que optimice la facticidad respondería de la siguiente manera:

NaCl

Es tentador suponer que todos los modelos deben basarse en la facticidad. Sin embargo, algunas instrucciones, como las siguientes, deberían hacer que un modelo de IA generativa optimice la creatividad en lugar de la facticidad.

Escribe un limerick sobre un astronauta y una oruga.

Es poco probable que la limerick resultante se base en la realidad.

Compara esto con la fundamentación.

restricción de equidad

#responsible

Aplicar una restricción a un algoritmo para garantizar que se satisfagan una o más definiciones de equidad Estos son algunos ejemplos de restricciones de equidad:

Procesar posteriormente el resultado de tu modelo
Modificar la función de pérdida para incorporar una penalización por incumplir una métrica de equidad
Agregar directamente una restricción matemática a un problema de optimización

métrica de equidad

#responsible

#Metric

Una definición matemática de "equidad" que se pueda medir Algunas métricas de equidad de uso común son las siguientes:

Muchas métricas de equidad son mutuamente excluyentes. Consulta la incompatibilidad de métricas de equidad.

falso negativo (FN)

#fundamentals

#Metric

Ejemplo en el que el modelo predice de manera incorrecta la clase negativa. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es spam (la clase negativa), pero ese mensaje de correo electrónico en realidad es spam.

tasa de falsos negativos

#Metric

Proporción de ejemplos positivos reales para los que el modelo predijo erróneamente la clase negativa. La siguiente fórmula calcula la tasa de falsos negativos:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Para obtener más información, consulta Umbrales y la matriz de confusión en el Curso intensivo de aprendizaje automático.

Falso positivo (FP)

#fundamentals

#Metric

Ejemplo en el que el modelo predice de manera incorrecta la clase positiva. Por ejemplo, el modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese mensaje de correo electrónico en realidad no es spam.

Para obtener más información, consulta Umbrales y la matriz de confusión en el Curso intensivo de aprendizaje automático.

tasa de falsos positivos (FPR)

#fundamentals

#Metric

Proporción de ejemplos negativos reales para los que el modelo predijo erróneamente la clase positiva. La siguiente fórmula calcula la tasa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

La tasa de falsos positivos es el eje X en una curva ROC.

Para obtener más información, consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático.

Decaimiento rápido

#generativeAI

Técnica de entrenamiento para mejorar el rendimiento de los LLM La disminución rápida implica reducir rápidamente la tasa de aprendizaje durante el entrenamiento. Esta estrategia ayuda a evitar que el modelo se sobreajuste a los datos de entrenamiento y mejora la generalización.

función

#fundamentals

Es una variable de entrada para un modelo de aprendizaje automático. Un ejemplo consta de uno o más atributos. Por ejemplo, supongamos que estás entrenando un modelo para determinar la influencia de las condiciones climáticas en las calificaciones de los estudiantes. En la siguiente tabla, se muestran tres ejemplos, cada uno de los cuales contiene tres características y una etiqueta:

Funciones			Etiqueta
Temperatura	Humedad	Presionar	Puntuación de la prueba
15	47	998	92
19	34	1020	84
18	92	1012	87

Compara esto con la etiqueta.

Consulta Aprendizaje supervisado en el curso Introducción al aprendizaje automático para obtener más información.

combinación de atributos

#fundamentals

Un atributo sintético que se forma al "combinar" atributos categóricos o agrupados en buckets

Por ejemplo, considera un modelo de "previsión del estado de ánimo" que representa la temperatura en uno de los siguientes cuatro intervalos:

freezing
chilly
temperate
warm

Y representa la velocidad del viento en uno de los siguientes tres buckets:

still
light
windy

Sin combinaciones de atributos, el modelo lineal se entrena de forma independiente en cada uno de los siete segmentos anteriores. Por lo tanto, el modelo se entrena en, por ejemplo, freezing de forma independiente del entrenamiento en, por ejemplo, windy.

Como alternativa, podrías crear una combinación de atributos de temperatura y velocidad del viento. Esta variable sintética tendría los siguientes 12 valores posibles:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Gracias a las combinaciones de atributos, el modelo puede aprender las diferencias de humor entre un día freezing-windy y un día freezing-still.

Si creas un atributo sintético a partir de dos atributos que tienen muchos discretizaciones diferentes, la combinación de atributos resultante tendrá una gran cantidad de combinaciones posibles. Por ejemplo, si un atributo tiene 1,000 discretizaciones y el otro tiene 2,000, la discretización resultante tendrá 2,000,000 de discretizaciones.

Formalmente, un cruce es un producto cartesiano.

Las combinaciones de atributos se usan principalmente con modelos lineales y rara vez con redes neuronales.

Consulta Datos categóricos: combinaciones de atributos en el Curso intensivo de aprendizaje automático para obtener más información.

ingeniería de atributos.

#fundamentals

#TensorFlow

Un proceso que incluye los siguientes pasos:

Determinar qué atributos podrían ser útiles para entrenar un modelo
Convertir los datos sin procesar del conjunto de datos en versiones eficientes de esos atributos

Por ejemplo, podrías determinar que temperature podría ser una función útil. Luego, puedes experimentar con el agrupamiento para optimizar lo que el modelo puede aprender de diferentes rangos de temperature.

En algunas ocasiones, la ingeniería de atributos se denomina extracción de características o featurización.

Haz clic en el ícono para ver notas adicionales sobre TensorFlow.

En TensorFlow, la ingeniería de atributos suele implicar la conversión de entradas del archivo de registro sin procesar en búferes del protocolo tf.Example. Consulta también tf.Transform.

Para obtener más información, consulta Datos numéricos: Cómo un modelo ingiere datos con vectores de características en el Curso intensivo de aprendizaje automático.

extracción de atributos

Término sobrecargado con alguna de las siguientes definiciones:

Recuperar representaciones de atributos intermedios calculadas por un modelo no supervisado o previamente entrenado (por ejemplo, valores de la capa oculta en una red neuronal) para usarlos en otro modelo como entrada
Sinónimo de ingeniería de atributos.

Importancia de los atributos

#df

#Metric

Sinónimo de importancia de las variables.

conjunto de atributos

#fundamentals

Es el grupo de atributos con el que se entrena el modelo de aprendizaje automático. Por ejemplo, un conjunto de atributos simple para un modelo que predice los precios de las viviendas podría constar del código postal, el tamaño de la propiedad y el estado de la propiedad.

especificación de atributos

#TensorFlow

Describe la información necesaria para extraer datos de características del búfer de protocolo tf.Example. Dado que el búfer de protocolo tf.Example es solo un contenedor de datos, debes especificar lo siguiente:

Los datos que se extraerán (es decir, las claves de los atributos)
El tipo de datos (por ejemplo, float o int)
La longitud (fija o variable)

vector de atributos

#fundamentals

Es el array de valores de atributo que componen un ejemplo. El vector de atributos se ingresa durante el entrenamiento y la inferencia. Por ejemplo, el vector de atributos para un modelo con dos atributos discretos podría ser el siguiente:

[0.92, 0.56]

Cuatro capas: una de entrada, dos ocultas y una de salida
La capa de entrada contiene dos nodos, uno con el valor 0.92 y el otro con el valor 0.56.

Cada ejemplo proporciona valores diferentes para el vector de atributos, por lo que el vector de atributos para el siguiente ejemplo podría ser similar al siguiente:

[0.73, 0.49]

La ingeniería de atributos determina cómo representar los atributos en el vector de atributos. Por ejemplo, un atributo categórico binario con cinco valores posibles se podría representar con codificación one-hot. En este caso, la porción del vector de características para un ejemplo en particular constaría de cuatro ceros y un solo 1.0 en la tercera posición, como se muestra a continuación:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como otro ejemplo, supongamos que tu modelo consta de tres atributos:

Un atributo categórico binario con cinco valores posibles representados con codificación one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
Otro atributo categórico binario con tres valores posibles representados con codificación one-hot; por ejemplo: [0.0, 0.0, 1.0]
Es una característica de punto flotante, por ejemplo, 8.3.

En este caso, el vector de atributos para cada ejemplo se representaría con nueve valores. Con los valores de ejemplo de la lista anterior, el vector de atributos sería el siguiente:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Para obtener más información, consulta Datos numéricos: Cómo un modelo ingiere datos con vectores de características en el Curso intensivo de aprendizaje automático.

featurización

Proceso de extracción de atributos de una fuente de entrada, como un documento o un video, y de asignación de esos atributos a un vector de atributos.

Algunos expertos en AA usan la featurización como sinónimo de ingeniería de atributos o extracción de atributos.

aprendizaje federado

Un enfoque de aprendizaje automático distribuido que entrena modelos de aprendizaje automático usando ejemplos descentralizados que residen en dispositivos como smartphones. En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo actual desde un servidor central de coordinación. Los dispositivos usan los ejemplos almacenados en ellos para mejorar el modelo. Luego, los dispositivos suben las mejoras del modelo (pero no los ejemplos de entrenamiento) al servidor de coordinación, donde se agregan con otras actualizaciones para generar un modelo global mejorado. Después de la agregación, ya no se necesitan las actualizaciones del modelo que computan los dispositivos y se pueden descartar.

Dado que los ejemplos de entrenamiento nunca se suben, el aprendizaje federado sigue los principios de privacidad de la recopilación de datos enfocada y la minimización de datos.

Consulta el cómic sobre el aprendizaje federado (sí, un cómic) para obtener más detalles.

ciclo de retroalimentación

#fundamentals

En el aprendizaje automático, situación en la que las predicciones de un modelo influyen en los datos de entrenamiento del mismo modelo o de otro. Por ejemplo, un modelo que recomienda películas influirá en las películas que miran las personas, lo que, a su vez, influirá en los modelos posteriores de recomendación de películas.

Para obtener más información, consulta Sistemas de AA en producción: Preguntas que debes hacer en el Curso intensivo de aprendizaje automático.

red neuronal prealimentada (FFN)

Red neuronal sin conexiones cíclicas o recurrentes. Por ejemplo, las redes neuronales profundas tradicionales son redes neuronales prealimentadas. Compara esto con las redes neuronales recurrentes, que son cíclicas.

aprendizaje en pocos intentos

Es un enfoque de aprendizaje automático que se suele usar para la clasificación de objetos y que está diseñado para entrenar modelos de clasificación eficaces a partir de una pequeña cantidad de ejemplos de entrenamiento.

Consulta también aprendizaje en un intento y aprendizaje sin ejemplos.

Instrucción con varios ejemplos

#generativeAI

Un prompt que contiene más de un ejemplo (algunos) que demuestran cómo debe responder el modelo de lenguaje extenso. Por ejemplo, la siguiente instrucción extensa contiene dos ejemplos que muestran a un modelo de lenguaje grande cómo responder una búsqueda.

Partes de una instrucción	Notas
`¿Cuál es la moneda oficial del país especificado?`	La pregunta que quieres que responda el LLM.
`Francia: EUR`	Veamos un ejemplo.
`Reino Unido: GBP`	Otro ejemplo.
`India:`	Es la búsqueda real.

En general, la instrucción con varios ejemplos produce resultados más deseables que la instrucción sin ejemplos y la instrucción con un solo ejemplo. Sin embargo, las instrucciones con pocos ejemplos requieren instrucciones más largas.

La instrucción con ejemplos limitados es una forma de aprendizaje en pocos intentos que se aplica al aprendizaje basado en instrucciones.

Consulta Ingeniería de instrucciones en el Curso intensivo de aprendizaje automático para obtener más información.

Violín tradicional

Una biblioteca de configuración que prioriza Python y establece los valores de las funciones y las clases sin código ni infraestructura invasivos. En el caso de Pax, y otras bases de código de AA, estas funciones y clases representan modelos y hiperparámetros de entrenamiento.

Fiddle supone que las bases de código de aprendizaje automático suelen dividirse en los siguientes elementos:

Código de la biblioteca, que define las capas y los optimizadores
Código "pegamento" del conjunto de datos, que llama a las bibliotecas y conecta todo.

Fiddle captura la estructura de llamadas del código de vinculación en una forma mutable y sin evaluar.

Ajuste

#generativeAI

Es un segundo paso de entrenamiento específico para la tarea que se realiza en un modelo entrenado previamente para ajustar sus parámetros para un caso de uso específico. Por ejemplo, la secuencia de entrenamiento completa para algunos modelos de lenguaje grandes es la siguiente:

Entrenamiento previo: Entrena un modelo de lenguaje grande con un vasto conjunto de datos generales, como todas las páginas de Wikipedia en inglés.
Ajuste: Entrena el modelo previamente entrenado para realizar una tarea específica, como responder preguntas médicas. Por lo general, el ajuste implica cientos o miles de ejemplos enfocados en la tarea específica.

Como otro ejemplo, la secuencia de entrenamiento completa para un modelo de imágenes grande es la siguiente:

Entrenamiento previo: Entrena un modelo de imágenes grande en un vasto conjunto de datos de imágenes generales, como todas las imágenes de Wikimedia Commons.
Ajuste: Entrena el modelo previamente entrenado para realizar una tarea específica, como generar imágenes de orcas.

El ajuste puede implicar cualquier combinación de las siguientes estrategias:

Modificar todos los parámetros existentes del modelo previamente entrenado A veces, esto se denomina ajuste fino completo.
Modificar solo algunos de los parámetros existentes del modelo entrenado previamente (por lo general, las capas más cercanas a la capa de salida), mientras se mantienen sin cambios otros parámetros existentes (por lo general, las capas más cercanas a la capa de entrada). Consulta Ajuste eficiente de parámetros.
Se agregan más capas, por lo general, sobre las capas existentes más cercanas a la capa de salida.

El ajuste es una forma de aprendizaje por transferencia. Por lo tanto, el ajuste puede usar una función de pérdida o un tipo de modelo diferente de los que se usan para entrenar el modelo previamente entrenado. Por ejemplo, podrías ajustar un modelo de imágenes grandes previamente entrenado para producir un modelo de regresión que devuelva la cantidad de aves en una imagen de entrada.

Compara y contrasta el ajuste fino con los siguientes términos:

Consulta Ajuste fino en el Curso intensivo de aprendizaje automático para obtener más información.

Modelo de flash

#generativeAI

Una familia de modelos Gemini relativamente pequeños y optimizados para la velocidad y la baja latencia. Los modelos Flash están diseñados para una amplia variedad de aplicaciones en las que las respuestas rápidas y la alta capacidad de procesamiento son fundamentales.

Lino

Una biblioteca de código abierto y alto rendimiento para el aprendizaje profundo compilada en JAX. Flax proporciona funciones para entrenar redes neuronales, así como métodos para evaluar su rendimiento.

Flaxformer

Una biblioteca de Transformer de código abierto, compilada en Flax, diseñada principalmente para la investigación multimodal y el procesamiento del lenguaje natural.

Puerta de olvido

Es la parte de una celda de memoria a largo plazo y a corto plazo que regula el flujo de información a través de la celda. Las puertas de olvido mantienen el contexto, ya que deciden qué información descartar del estado de la celda.

modelo de base

#generativeAI

#Metric

Un modelo previamente entrenado muy grande entrenado con un conjunto de entrenamiento enorme y diverso. Un modelo de base puede hacer lo siguiente:

Responder bien a una amplia variedad de solicitudes
Sirve como un modelo base para ajustes adicionales o cualquier otra personalización.

En otras palabras, un modelo de base ya es muy capaz en un sentido general, pero se puede personalizar aún más para que sea más útil para una tarea específica.

fracción de éxitos

#generativeAI

#Metric

Es una métrica para evaluar el texto generado de un modelo de AA. La fracción de éxitos es la cantidad de resultados de texto generados "correctos" dividida por la cantidad total de resultados de texto generados. Por ejemplo, si un modelo de lenguaje grande generó 10 bloques de código, de los cuales cinco fueron exitosos, la fracción de éxitos sería del 50%.

Si bien la fracción de éxitos es útil en general en las estadísticas, en el AA, esta métrica es principalmente útil para medir tareas verificables, como la generación de código o los problemas matemáticos.

softmax completo

Sinónimo de softmax.

Compara esto con el muestreo de candidatos.

Para obtener más información, consulta Redes neuronales: clasificación de clases múltiples en el Curso intensivo de aprendizaje automático.

capa completamente conectada

Una capa oculta en la que cada nodo está conectado a todos los nodos de la capa oculta subsiguiente.

Una capa completamente conectada también se conoce como una capa densa.

transformación de funciones

Es una función que toma otra función como entrada y devuelve una función transformada como salida. JAX usa transformaciones de funciones.

G

GAN

Abreviatura de red generativa adversaria.

Gemini

#generativeAI

El ecosistema que comprende la IA más avanzada de Google. Los elementos de este ecosistema incluyen lo siguiente:

Varios modelos de Gemini
Es la interfaz conversacional interactiva para un modelo de Gemini. Los usuarios escriben instrucciones, y Gemini responde a ellas.
Varias APIs de Gemini
Varios productos empresariales basados en modelos de Gemini, por ejemplo, Gemini para Google Cloud.

Modelos de Gemini

#generativeAI

Modelos multimodales de última generación basados en Transformer de Google. Los modelos de Gemini están diseñados específicamente para integrarse con agentes.

Los usuarios pueden interactuar con los modelos de Gemini de diversas maneras, como a través de una interfaz de diálogo interactiva y de SDKs.

Gemma

#generativeAI

Una familia de modelos abiertos y ligeros creados a partir de la misma investigación y tecnología que se utilizaron para crear los modelos de Gemini. Hay varios modelos de Gemma disponibles, cada uno con diferentes funciones, como visión, código y seguimiento de instrucciones. Consulta Gemma para obtener más información.

IA generativa o ia generativa

#generativeAI

Abreviatura de IA generativa.

generalización

#fundamentals

Es la capacidad de un modelo para realizar predicciones correctas sobre datos nuevos nunca antes vistos. Un modelo que puede generalizar es lo contrario de un modelo que tiene sobreajuste.

Haz clic en el ícono para ver notas adicionales.

Entrenas un modelo con los ejemplos del conjunto de entrenamiento. En consecuencia, el modelo aprende las peculiaridades de los datos en el conjunto de entrenamiento. La generalización básicamente pregunta si tu modelo puede hacer buenas predicciones sobre ejemplos que no están en el conjunto de entrenamiento.

Para fomentar la generalización, la regularización ayuda a que un modelo se entrene con menos exactitud en las peculiaridades de los datos del conjunto de entrenamiento.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

Curva de generalización

#fundamentals

Un gráfico de la pérdida de entrenamiento y la pérdida de validación como una función de la cantidad de iteraciones.

Una curva de generalización puede ayudarte a detectar un posible sobreajuste. Por ejemplo, la siguiente curva de generalización sugiere sobreajuste porque la pérdida de validación se vuelve, en última instancia, significativamente mayor que la pérdida de entrenamiento.

Un gráfico cartesiano en el que el eje Y está etiquetado como pérdida y el eje X está etiquetado como iteraciones. Aparecerán dos gráficos. En uno de los gráficos, se muestra la pérdida de entrenamiento y, en el otro, la pérdida de validación.
Los dos diagramas comienzan de manera similar, pero la pérdida de entrenamiento eventualmente
cae mucho más abajo que la pérdida de validación.

Consulta Generalización en el Curso intensivo de aprendizaje automático para obtener más información.

modelo lineal generalizado

Es una generalización de los modelos de regresión de mínimos cuadrados, que se basan en el ruido gaussiano, para otros tipos de modelos basados en otros tipos de ruido, como el ruido de Poisson o el ruido categórico. Entre los ejemplos de modelos lineales generalizados, se incluyen los siguientes:

Regresión logística
regresión de clases múltiples
Regresión de mínimos cuadrados

Los parámetros de un modelo lineal generalizado se pueden encontrar a través de la optimización convexa.

Los modelos lineales generalizados tienen las siguientes propiedades:

La predicción promedio del modelo óptimo de regresión de mínimos cuadrados es igual a la etiqueta promedio de los datos de entrenamiento.
La probabilidad promedio predicha por el modelo óptimo de regresión logística es igual a la etiqueta promedio de los datos de entrenamiento.

La potencia de un modelo lineal generalizado está limitada por sus atributos. A diferencia de un modelo profundo, un modelo lineal generalizado no puede "aprender atributos nuevos".

Texto generado

#generativeAI

En general, es el texto que genera un modelo de AA. Cuando se evalúan modelos de lenguaje grandes, algunas métricas comparan el texto generado con el texto de referencia. Por ejemplo, supongamos que intentas determinar la eficacia con la que un modelo de AA traduce del francés al neerlandés. En este caso, ocurre lo siguiente:

El texto generado es la traducción al neerlandés que genera el modelo de AA.
El texto de referencia es la traducción al neerlandés que crea un traductor humano (o un software).

Ten en cuenta que algunas estrategias de evaluación no incluyen texto de referencia.

red generativa adversaria (GAN)

Un sistema para crear datos nuevos en el que un generador crea datos y un discriminador determina si los datos creados son válidos o no.

Consulta el curso sobre redes adversarias generativas para obtener más información.

IA generativa

#generativeAI

Es un campo transformador emergente sin una definición formal. Dicho esto, la mayoría de los expertos coinciden en que los modelos de IA generativa pueden crear ("generar") contenido que cumpla con todos los siguientes criterios:

emergencia compleja,
coherente
original

Estos son algunos ejemplos de IA generativa:

Modelos de lenguaje grandes, que pueden generar texto original sofisticado y responder preguntas
Modelo de generación de imágenes, que puede producir imágenes únicas.
Modelos de generación de audio y música, que pueden componer música original o generar voz realista.
Modelos de generación de videos, que pueden generar videos originales.

Algunas tecnologías anteriores, como las LSTM y las RNN, también pueden generar contenido original y coherente. Algunos expertos consideran que estas tecnologías anteriores son IA generativa, mientras que otros creen que la verdadera IA generativa requiere resultados más complejos de los que pueden producir esas tecnologías anteriores.

Compara esto con el AA predictivo.

modelo generativo

Dicho en forma simple, un modelo que realiza una de las siguientes tareas:

Crea (genera) nuevos ejemplos para el conjunto de datos de entrenamiento. Por ejemplo, un modelo generativo podría crear poesía luego de entrenar con un conjunto de datos de poemas. La parte del generador de una red generativa adversaria entra en esta categoría.
Determina la probabilidad de que un nuevo ejemplo provenga del conjunto de entrenamiento o se haya creado con el mismo mecanismo que creó al conjunto de entrenamiento. Por ejemplo, luego de entrenar con un conjunto de datos formado por oraciones en inglés, un modelo generativo podría determinar la probabilidad de que una nueva entrada sea una oración válida en inglés.

Un modelo generativo puede, en teoría, discernir la distribución de ejemplos o atributos particulares en un conjunto de datos. Es decir:

p(examples)

Los modelos de aprendizaje no supervisado son generativos.

Compara esto con los modelos discriminativos.

generador

Es el subsistema dentro de una red generativa adversaria que crea nuevos ejemplos.

Compara esto con el modelo discriminativo.

Impureza de Gini

#df

#Metric

Es una métrica similar a la entropía. Los divisores usan valores derivados de la impureza de Gini o la entropía para componer condiciones para los árboles de decisión de clasificación. La ganancia de información se deriva de la entropía. No existe un término equivalente aceptado universalmente para la métrica derivada de la impureza de Gini. Sin embargo, esta métrica sin nombre es tan importante como la ganancia de información.

La impureza de Gini también se denomina índice de Gini o, simplemente, Gini.

Haz clic en el ícono para obtener detalles matemáticos sobre la impureza de Gini.

La impureza de Gini es la probabilidad de clasificar erróneamente un nuevo fragmento de datos extraído de la misma distribución. La impureza de Gini de un conjunto con dos valores posibles, "0" y "1" (por ejemplo, las etiquetas en un problema de

Glosario sobre aprendizaje automático Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

A

ablación

Pruebas A/B

chip acelerador

exactitud

Haz clic en el ícono para obtener detalles sobre la precisión y los conjuntos de datos desequilibrados en cuanto a las clases.

acción

función de activación

Haz clic en el ícono para ver un ejemplo.

aprendizaje activo

AdaGrad

adaptación

agente

agrupamiento aglomerado

Detección de anomalías

AR

Área bajo la curva de PR

área bajo la curva ROC

Inteligencia artificial general

inteligencia artificial

Attention,

atributo

muestreo de atributos

AUC (área bajo la curva ROC)

Haz clic en el ícono para obtener información sobre la relación entre las curvas ROC y el AUC.

Haz clic en el ícono para obtener una definición más formal del AUC.

realidad aumentada

codificador automático

Evaluación automática

sesgo de automatización

AutoML

Evaluación del evaluador automático

Modelo autorregresivo

Pérdida auxiliar

Precisión promedio en k

Haz clic en el ícono para ver un ejemplo.

condición alineada con el eje

B

propagación inversa

Bagging

Bolsa de palabras

modelo de referencia

modelo base

lote

Inferencia por lotes

normalización por lotes

tamaño del lote

Red neuronal bayesiana

Optimización bayesiana

Ecuación de Bellman

BERT (Bidirectional Encoder Representations from Transformers)

sesgo (ética/equidad)

ordenada al origen (matemática) o término de sesgo

bidireccional

modelo de lenguaje bidireccional

bigrama

Clasificación binaria

condición binaria

discretización

Modelo de caja negra

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

potenciación

cuadro de límite

transmisión

Haz clic en el ícono para ver un ejemplo.

Agrupamiento

Haz clic en el ícono para ver notas adicionales.

C

capa de calibración

generación de candidatos

muestreo de candidatos

datos categóricos

modelo de lenguaje causal

centroid

agrupamiento en clústeres basado en centroides

Cadena de pensamientos

chatear

punto de control

Glosario sobre aprendizaje automático