Se usó la API de Cloud Translation para traducir esta página.

Glosario sobre aprendizaje automático

En este glosario, se definen los términos relacionados con el aprendizaje automático.

A

ablación

Técnica para evaluar la importancia de un atributo o componente quitándolo temporalmente de un modelo. Luego, vuelves a entrenar el modelo sin ese atributo o componente y, si el modelo reentrenado tiene un rendimiento significativamente peor, es probable que el atributo o componente quitado fuera importante.

Por ejemplo, supongamos que entrenas un modelo de clasificación con 10 atributos y logras un 88% de precisión en el conjunto de prueba. Para verificar la importancia del primer atributo, puedes volver a entrenar el modelo usando solo los otros nueve atributos. Si el modelo reentrenado tiene un rendimiento significativamente peor (por ejemplo, un 55% de precisión), es probable que el atributo quitado fuera importante. Por el contrario, si el modelo reentrenado tiene un rendimiento igual de bueno, es probable que ese atributo no fuera tan importante.

La ablación también puede ayudar a determinar la importancia de lo siguiente:

Componentes más grandes, como un subsistema completo de un sistema de AA más grande
Procesos o técnicas, como un paso de preprocesamiento de datos

En ambos casos, observarías cómo cambia (o no cambia) el rendimiento del sistema después de quitar el componente.

Pruebas A/B

Es una forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica existente y la B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica tiene mejor rendimiento, sino también si la diferencia es estadísticamente significativa.

Las pruebas A/B suelen comparar una sola métrica en dos técnicas. Por ejemplo, ¿cómo se compara la precisión del modelo para dos técnicas? Sin embargo, las pruebas A/B también pueden comparar cualquier cantidad finita de métricas.

chip acelerador

#GoogleCloud

Es una categoría de componentes de hardware especializados diseñados para realizar cálculos clave necesarios para los algoritmos de aprendizaje profundo.

Los chips aceleradores (o simplemente aceleradores) pueden aumentar significativamente la velocidad y la eficiencia de las tareas de entrenamiento e inferencia en comparación con una CPU de uso general. Son ideales para entrenar redes neuronales y realizar tareas similares que requieren un uso intensivo del procesamiento.

Estos son algunos ejemplos de chips aceleradores:

Las unidades de procesamiento tensorial (TPUs) de Google con hardware dedicado para el aprendizaje profundo.
Las GPU de NVIDIA, aunque se diseñaron inicialmente para el procesamiento de gráficos, están diseñadas para permitir el procesamiento paralelo, lo que puede aumentar significativamente la velocidad de procesamiento.

exactitud

#fundamentals

#Metric

Es la cantidad de predicciones de clasificación correctas dividida por la cantidad total de predicciones. Es decir:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por ejemplo, un modelo que realizó 40 predicciones correctas y 10 incorrectas tendría una precisión de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La clasificación binaria proporciona nombres específicos para las diferentes categorías de predicciones correctas y predicciones incorrectas. Por lo tanto, la fórmula de exactitud para la clasificación binaria es la siguiente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

Donde:

TP es la cantidad de verdaderos positivos (predicciones correctas).
TN es la cantidad de verdaderos negativos (predicciones correctas).
FP es la cantidad de falsos positivos (predicciones incorrectas).
FN es la cantidad de falsos negativos (predicciones incorrectas).

Compara y contrasta la exactitud con la precisión y la recuperación.

Haz clic en el ícono para obtener detalles sobre la precisión y los conjuntos de datos desequilibrados en cuanto a las clases.

Si bien es una métrica valiosa en algunas situaciones, la precisión es muy engañosa en otras. En particular, la exactitud suele ser una métrica deficiente para evaluar los modelos de clasificación que procesan conjuntos de datos con desequilibrio de clases.

Por ejemplo, supongamos que en una determinada ciudad subtropical nieva solo 25 días por siglo. Dado que los días sin nieve (la clase negativa) superan ampliamente a los días con nieve (la clase positiva), el conjunto de datos de nieve para esta ciudad está desequilibrado en cuanto a las clases. Imagina un modelo de clasificación binaria que debería predecir si nevará o no cada día, pero que simplemente predice "no nevará" todos los días. Este modelo es muy preciso, pero no tiene poder predictivo. En la siguiente tabla, se resumen los resultados para un siglo de predicciones:

Categoría	Número
VP	0
TN	36499
FP	0
FN	25

Por lo tanto, la precisión de este modelo es la siguiente:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Si bien el 99.93% de exactitud parece un porcentaje muy impresionante, el modelo en realidad no tiene poder predictivo.

La precisión y la recuperación suelen ser métricas más útiles que la exactitud para evaluar modelos entrenados en conjuntos de datos con clases desequilibradas.

Consulta Clasificación: Precisión, recuperación, exactitud y métricas relacionadas en el Curso intensivo de aprendizaje automático para obtener más información.

acción

En el aprendizaje por refuerzo, es el mecanismo por el cual el agente realiza la transición entre los estados del entorno. El agente elige la acción con una política.

función de activación

#fundamentals

Es una función que permite que las redes neuronales aprendan relaciones no lineales (complejas) entre las características y la etiqueta.

Entre las funciones de activación populares, se incluyen las siguientes:

Los diagramas de las funciones de activación nunca son líneas rectas únicas. Por ejemplo, el gráfico de la función de activación ReLU consta de dos líneas rectas:

Un gráfico cartesiano de dos líneas. La primera línea tiene un valor de Y constante de 0 y se extiende a lo largo del eje X desde -infinito, 0 hasta 0, -0.
La segunda línea comienza en 0,0. Esta línea tiene una pendiente de +1, por lo que va de 0,0 a +infinito,+infinito.

El gráfico de la función de activación sigmoidea se ve de la siguiente manera:

Un gráfico curvo bidimensional con valores de X que abarcan el dominio de -infinito a +infinito, mientras que los valores de Y abarcan el rango de casi 0 a casi 1. Cuando x es 0, y es 0.5. La pendiente de la curva siempre es positiva, con la pendiente más alta en 0 y 0.5,y pendientes que disminuyen gradualmente a medida que aumenta el valor absoluto de x.

Haz clic en el ícono para ver un ejemplo.

En una red neuronal, las funciones de activación manipulan la suma ponderada de todas las entradas a una neurona. Para calcular una suma ponderada, la neurona suma los productos de los valores y los pesos relevantes. Por ejemplo, supongamos que la entrada pertinente para una neurona consta de lo siguiente:

valor de entrada	Peso de entrada
2	-1.3
-1	0.6
3	0.4

Por lo tanto, la suma ponderada es la siguiente:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supongamos que el diseñador de esta red neuronal elige la función sigmoide como función de activación. En ese caso, la neurona calcula la sigmoide de -2.0, que es aproximadamente 0.12. Por lo tanto, la neurona pasa 0.12 (en lugar de -2.0) a la siguiente capa de la red neuronal. En la siguiente figura, se ilustra la parte pertinente del proceso:

Para obtener más información, consulta Redes neuronales: Funciones de activación en el Curso intensivo de aprendizaje automático.

aprendizaje activo

Un enfoque de entrenamiento en el que el algoritmo elige algunos de los datos sobre los cuales aprende. El aprendizaje activo es especialmente útil cuando los ejemplos etiquetados son pocos o difíciles de obtener. En lugar de buscar entre un amplio rango de ejemplos etiquetados, un algoritmo de aprendizaje activo busca selectivamente el rango particular de ejemplos que necesita para aprender.

AdaGrad

Algoritmo de descenso de gradientes que reajusta los gradientes de cada parámetro y le asigna una tasa de aprendizaje independiente a cada uno. Para obtener una explicación completa, consulta Adaptive Subgradient Methods for Online Learning and Stochastic Optimization.

adaptación

#generativeAI

Sinónimo de ajuste o ajuste fino.

agente

Software que puede razonar sobre las entradas multimodales del usuario para planificar y ejecutar acciones en su nombre.

En el aprendizaje por refuerzo, un agente es la entidad que usa una política para maximizar el retorno esperado que se obtiene de la transición entre los estados del entorno.

agrupamiento aglomerado

#clustering

Consulta agrupamiento en clústeres jerárquico.

Detección de anomalías

Proceso de identificación de valores atípicos. Por ejemplo, si la media de un determinado atributo es 100 con una desviación estándar de 10, la detección de anomalías debería marcar un valor de 200 como sospechoso.

AR

Abreviatura de realidad aumentada.

Área bajo la curva de PR

#Metric

Consulta PR AUC (área bajo la curva de PR).

área bajo la curva ROC

#Metric

Consulta AUC (área bajo la curva ROC).

Inteligencia artificial general

Un mecanismo no humano que demuestra una amplia variedad de capacidades de resolución de problemas, creatividad y adaptabilidad. Por ejemplo, un programa que demuestre inteligencia general artificial podría traducir texto, componer sinfonías y destacarse en juegos que aún no se han inventado.

inteligencia artificial

#fundamentals

Es un programa o modelo no humano que puede resolver tareas sofisticadas. Por ejemplo, los programas o modelos que traducen textos o que identifican enfermedades a partir de imágenes radiológicas son muestras de inteligencia artificial.

Técnicamente, el aprendizaje automático es un subcampo de la inteligencia artificial. Sin embargo, en los últimos años, algunas organizaciones comenzaron a utilizar los términos inteligencia artificial y aprendizaje automático de manera indistinta.

Attention,

Es un mecanismo que se usa en una red neuronal y que indica la importancia de una palabra o parte de una palabra en particular. La atención comprime la cantidad de información que necesita un modelo para predecir el siguiente token o palabra. Un mecanismo de atención típico puede consistir en una suma ponderada sobre un conjunto de entradas, en la que otra parte de la red neuronal calcula el peso de cada entrada.

Consulta también autoatención y autoatención de múltiples cabezales, que son los componentes básicos de los Transformers.

Consulta LLMs: ¿Qué es un modelo de lenguaje grande? en el Curso intensivo de aprendizaje automático para obtener más información sobre la autoatención.

atributo

#responsible

Sinónimo de atributo.

En la equidad del aprendizaje automático, los atributos suelen hacer referencia a características relacionadas con las personas.

muestreo de atributos

#df

Es una táctica para entrenar un bosque de decisión en el que cada árbol de decisión considera solo un subconjunto aleatorio de posibles atributos cuando aprende la condición. En general, se muestrea un subconjunto diferente de atributos para cada nodo. En cambio, cuando se entrena un árbol de decisión sin muestreo de atributos, se consideran todos los atributos posibles para cada nodo.

AUC (área bajo la curva ROC)

#fundamentals

#Metric

Es un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria para separar las clases positivas de las clases negativas. Cuanto más cerca esté el AUC de 1.0, mejor será la capacidad del modelo para separar las clases entre sí.

Por ejemplo, la siguiente ilustración muestra un modelo de clasificación que separa perfectamente las clases positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo irrealmente perfecto tiene un AUC de 1.0:

Una recta numérica con 8 ejemplos positivos en un lado y 9 ejemplos negativos en el otro.

Por el contrario, la siguiente ilustración muestra los resultados de un modelo de clasificación que generó resultados aleatorios. Este modelo tiene un AUC de 0.5:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

La mayoría de los modelos se encuentran en algún punto intermedio entre los dos extremos. Por ejemplo, el siguiente modelo separa los positivos de los negativos en cierta medida y, por lo tanto, tiene un AUC entre 0.5 y 1.0:

Una recta numérica con 6 ejemplos positivos y 6 ejemplos negativos.
La secuencia de ejemplos es negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

El AUC ignora cualquier valor que establezcas para el umbral de clasificación. En cambio, el AUC considera todos los umbrales de clasificación posibles.

Haz clic en el ícono para obtener información sobre la relación entre las curvas ROC y el AUC.

El AUC representa el área bajo una curva ROC. Por ejemplo, la curva ROC de un modelo que separa perfectamente los positivos de los negativos se ve de la siguiente manera:

El AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es simplemente la longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto de 1.0 y 1.0 genera un AUC de exactamente 1.0, que es la puntuación de AUC más alta posible.

Por el contrario, la curva ROC para un modelo de clasificación que no puede separar las clases en absoluto es la siguiente. El área de esta región gris es 0.5.

Una curva ROC más típica se ve aproximadamente de la siguiente manera:

Calcular el área bajo esta curva de forma manual sería un trabajo arduo, por lo que, por lo general, un programa calcula la mayoría de los valores del AUC.

Haz clic en el ícono para obtener una definición más formal del AUC.

El AUC es la probabilidad de que un modelo de clasificación tenga más certeza de que un ejemplo positivo elegido al azar sea realmente positivo que de que un ejemplo negativo elegido al azar sea positivo.

Para obtener más información, consulta Clasificación: ROC y AUC en el Curso intensivo de aprendizaje automático.

realidad aumentada

Es una tecnología que superpone una imagen generada por computadora en la vista del mundo real de un usuario, lo que proporciona una vista compuesta.

codificador automático

Es un sistema que aprende a extraer la información más importante de la entrada. Los autoencoders son una combinación de un codificador y un decodificador. Los autoencoders se basan en el siguiente proceso de dos pasos:

El codificador asigna la entrada a un formato (intermedio) de menor dimensión (por lo general, con pérdida).
El decodificador crea una versión con pérdida de la entrada original asignando el formato de menor dimensión al formato de entrada original de mayor dimensión.

Los codificadores automáticos se entrenan de extremo a extremo haciendo que el decodificador intente reconstruir la entrada original a partir del formato intermedio del codificador de la manera más precisa posible. Dado que el formato intermedio es más pequeño (de menor dimensión) que el formato original, el codificador automático se ve obligado a aprender qué información de la entrada es esencial, y la salida no será perfectamente idéntica a la entrada.

Por ejemplo:

Si los datos de entrada son un gráfico, la copia no exacta sería similar al gráfico original, pero con algunas modificaciones. Quizás la copia no exacta quite el ruido del gráfico original o complete algunos píxeles faltantes.
Si los datos de entrada son texto, un codificador automático generaría texto nuevo que imita (pero no es idéntico a) el texto original.

Consulta también codificadores automáticos variacionales.

Evaluación automática

#generativeAI

Usar software para juzgar la calidad del resultado de un modelo

Cuando el resultado del modelo es relativamente sencillo, una secuencia de comandos o un programa pueden comparar el resultado del modelo con una respuesta ideal. A veces, este tipo de evaluación automática se denomina evaluación programática. Las métricas como ROUGE o BLEU suelen ser útiles para la evaluación programática.

Cuando el resultado del modelo es complejo o no tiene una respuesta correcta, a veces, un programa de AA independiente llamado calificador automático realiza la evaluación automática.

Compara esto con la evaluación humana.

sesgo de automatización

#responsible

Cuando una persona que toma decisiones favorece las recomendaciones hechas por un sistema automático de decisión por sobre la información obtenida sin automatización, incluso cuando el sistema de decisión automatizado comete un error.

Consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

AutoML

Cualquier proceso automatizado para compilar modelos de aprendizaje automático. AutoML puede realizar automáticamente tareas como las siguientes:

Busca el modelo más adecuado.
Ajusta los hiperparámetros.
Prepara los datos (incluida la ingeniería de atributos).
Implementa el modelo resultante.

AutoML es útil para los científicos de datos porque les permite ahorrar tiempo y esfuerzo en el desarrollo de canalizaciones de aprendizaje automático, y mejorar la precisión de las predicciones. También es útil para los no expertos, ya que les permite acceder a tareas complicadas de aprendizaje automático.

Consulta Aprendizaje automático automatizado (AutoML) en el Curso intensivo de aprendizaje automático para obtener más información.

Evaluación del evaluador automático

#generativeAI

Es un mecanismo híbrido para juzgar la calidad del resultado de un modelo de IA generativa que combina la evaluación humana con la evaluación automática. Un evaluador automático es un modelo de AA entrenado con datos creados por la evaluación humana. Lo ideal es que un autor aprenda a imitar a un evaluador humano.

Hay autorraters prediseñados disponibles, pero los mejores se ajustan específicamente para la tarea que evalúas.

Modelo autorregresivo

#generativeAI

Un modelo que infiere una predicción en función de sus propias predicciones anteriores. Por ejemplo, los modelos de lenguaje autorregresivos predicen el siguiente token en función de los tokens predichos anteriormente. Todos los modelos de lenguaje grandes basados en Transformer son de regresión automática.

En cambio, los modelos de imágenes basados en GAN no suelen ser autorregresivos, ya que generan una imagen en un solo pase hacia adelante y no de forma iterativa en pasos. Sin embargo, ciertos modelos de generación de imágenes son autorregresivos porque generan una imagen en pasos.

Pérdida auxiliar

Una función de pérdida, que se usa junto con la función de pérdida principal del modelo de red neuronal, que ayuda a acelerar el entrenamiento durante las primeras iteraciones cuando los pesos se inicializan de forma aleatoria.

Las funciones de pérdida auxiliares envían gradientes efectivos a las capas anteriores. Esto facilita la convergencia durante el entrenamiento, ya que combate el problema de desvanecimiento del gradiente.

Precisión promedio en k

#Metric

Es una métrica para resumir el rendimiento de un modelo en una sola instrucción que genera resultados clasificados, como una lista numerada de recomendaciones de libros. La precisión promedio en k es, bueno, el promedio de los valores de precisión en k para cada resultado relevante. Por lo tanto, la fórmula para la precisión promedio en k es la siguiente:

\[{\text{average precision at k}} = \frac{1}{n} \sum_{i=1}^n {\text{precision at k for each relevant item} } \]

Donde:

$n$ es la cantidad de elementos pertinentes en la lista.

Compara esto con la recuperación en k.

Haz clic en el ícono para ver un ejemplo.

Supongamos que se le da la siguiente búsqueda a un modelo de lenguaje grande:

List the 6 funniest movies of all time in order.

Y el modelo de lenguaje grande devuelve la siguiente lista:

El general
Mean Girls
Pelotón
Damas en guerra
Citizen Kane
This is Spinal Tap

Cuatro de las películas de la lista devuelta son muy divertidas (es decir, son relevantes), pero dos son dramas (no son relevantes). En la siguiente tabla, se detallan los resultados:

Posición	Película	¿Es relevante?	Precisión en k
1	El general	Sí	1.0
2	Mean Girls	Sí	1.0
3	Pelotón	No	No es relevante
4	Damas en guerra	Sí	0.75
5	Citizen Kane	No	No es relevante
6	This is Spinal Tap	Sí	0.67

La cantidad de resultados relevantes es 4. Por lo tanto, puedes calcular la precisión promedio en 6 de la siguiente manera:

$${\text{average precision at 6}} = \frac{1}{4} {\text{(1.0 + 1.0 + 0.75 + 0.67)} } $$ $${\text{average precision at 6}} = {\text{~0.85} } $$

condición alineada con el eje

#df

En un árbol de decisión, una condición que involucra solo una característica. Por ejemplo, si area es una característica, la siguiente es una condición alineada con el eje:

area > 200

Compara esto con la condición oblicua.

B

propagación inversa

#fundamentals

Es el algoritmo que implementa el descenso de gradientes en las redes neuronales.

El entrenamiento de una red neuronal implica muchas iteraciones del siguiente ciclo de dos pasos:

Durante el pase hacia adelante, el sistema procesa un lote de ejemplos para generar predicciones. El sistema compara cada predicción con cada valor de etiqueta. La diferencia entre la predicción y el valor de la etiqueta es la pérdida para ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para calcular la pérdida total del lote actual.
Durante el pase hacia atrás (retropropagación), el sistema reduce la pérdida ajustando los pesos de todas las neuronas en todas las capas ocultas.

Las redes neuronales suelen contener muchas neuronas en muchas capas ocultas. Cada una de esas neuronas contribuye a la pérdida general de diferentes maneras. La propagación inversa determina si se deben aumentar o disminuir los pesos aplicados a neuronas específicas.

La tasa de aprendizaje es un multiplicador que controla el grado en que cada pase hacia atrás aumenta o disminuye cada peso. Una tasa de aprendizaje grande aumentará o disminuirá cada peso más que una tasa de aprendizaje pequeña.

En términos de cálculo, la retropropagación implementa la regla de la cadena del cálculo. Es decir, la retropropagación calcula la derivada parcial del error con respecto a cada parámetro.

Hace años, los profesionales del AA tenían que escribir código para implementar la retropropagación. Las APIs de AA modernas, como Keras, ahora implementan la retropropagación por ti. ¡Vaya!

Consulta Redes neuronales en el Curso intensivo de aprendizaje automático para obtener más información.

Bagging

#df

Es un método para entrenar un ensamble en el que cada modelo constituyente se entrena con un subconjunto aleatorio de ejemplos de entrenamiento muestreados con reemplazo. Por ejemplo, un bosque aleatorio es una colección de árboles de decisión entrenados con bagging.

El término bagging es la abreviatura de bootstrap aggregating.

Consulta Bosques aleatorios en el curso de Bosques de decisión para obtener más información.

Bolsa de palabras

Representación de las palabras de una frase o pasaje, sin importar el orden. Por ejemplo, una bolsa de palabras representa las tres frases siguientes de forma idéntica:

el perro salta
salta el perro
perro salta el

Cada palabra se asigna a un índice en un vector disperso, donde el vector tiene un índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de atributos con valores distintos de cero en los tres índices correspondientes a las palabras el, perro y salta. El valor distinto de cero puede ser cualquiera de los siguientes:

Un 1 para indicar la presencia de una palabra
Es el recuento de la cantidad de veces que una palabra aparece en la bolsa. (por ejemplo, si la frase fuera el perro negro es un perro con pelaje negro, entonces tanto negro como perro se representarían con un 2, mientras que las demás palabras con un 1)
Algún otro valor como por ejemplo el logaritmo de la cantidad de veces que una palabra aparece en la bolsa

modelo de referencia

#Metric

Un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como un buen modelo de referencia para un modelo profundo.

Para un problema en particular, el modelo de referencia ayuda a los desarrolladores a cuantificar el rendimiento mínimo esperado que debe alcanzar un modelo nuevo para que sea útil.

modelo base

#generativeAI

Un modelo previamente entrenado que puede servir como punto de partida para el ajuste para abordar tareas o aplicaciones específicas

Consulta también modelo previamente entrenado y modelo fundamental.

lote

#fundamentals

Es el conjunto de ejemplos que se usan en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos en un lote.

Consulta época para obtener una explicación de cómo se relaciona un lote con una época.

Consulta Regresión lineal: Hiperparámetros en el Curso intensivo de aprendizaje automático para obtener más información.

Inferencia por lotes

#GoogleCloud

Proceso de inferencia de predicciones en varios ejemplos sin etiquetar divididos en subconjuntos más pequeños ("lotes").

La inferencia por lotes puede aprovechar las funciones de paralelización de los chips aceleradores. Es decir, varios aceleradores pueden inferir predicciones de forma simultánea en diferentes lotes de ejemplos sin etiquetar, lo que aumenta drásticamente la cantidad de inferencias por segundo.

Para obtener más información, consulta Sistemas de AA en producción: inferencia estática versus dinámica en el Curso intensivo de aprendizaje automático.

normalización por lotes

Normalizar la entrada o la salida de las funciones de activación en una capa oculta La normalización por lotes puede proporcionar los siguientes beneficios:

Hacer las redes neuronales más estables protegiéndolas de valores atípicos de pesos
Permitir tasas de aprendizaje más altas, lo que puede acelerar el entrenamiento
Reducir el sobreajuste

tamaño del lote

#fundamentals

Es la cantidad de ejemplos en un lote. Por ejemplo, si el tamaño del lote es 100, el modelo procesa 100 ejemplos por iteración.

A continuación, se indican algunas estrategias populares para determinar el tamaño del lote:

Descenso de gradientes estocástico (SGD), en el que el tamaño del lote es 1.
Lote completo, en el que el tamaño del lote es la cantidad de ejemplos en todo el conjunto de entrenamiento. Por ejemplo, si el conjunto de entrenamiento contiene un millón de ejemplos, el tamaño del lote sería de un millón de ejemplos. Por lo general, el procesamiento por lotes completo es una estrategia ineficiente.
Minilote, en el que el tamaño del lote suele ser entre 10 y 1,000. Por lo general, el minilote es la estrategia más eficiente.

Consulte los siguientes artículos para obtener más información:

Sistemas de AA de producción: inferencia estática frente a inferencia dinámica en el Curso intensivo de aprendizaje automático.
Guía de ajuste del aprendizaje profundo.

Red neuronal bayesiana

Una red neuronal probabilística que representa la incertidumbre entre pesos y resultados. Un modelo de regresión de red neuronal estándar suele predecir un valor escalar; por ejemplo, un modelo estándar predice el precio de una casa en 853,000. En contraste, una red neuronal Bayesiana predice una distribución de valores, por ejemplo, un modelo Bayesiano predice el precio de una casa en 853,000 con una desviación estándar de 67,200.

Las redes neuronales bayesianas se basan en el teorema de Bayes para calcular la incertidumbre entre pesos y predicciones. Una red neuronal bayesiana puede ser útil en los casos en que se precisa calcular el grado de incertidumbre, como en modelos relacionados con la industria farmacéutica. Las redes neuronales Bayesianas también pueden ayudar a reducir el sobreajuste.

Optimización bayesiana

Técnica de modelo de regresión probabilístico para optimizar funciones objetivo costosas desde el punto de vista computacional. En cambio, se optimiza un sustituto que cuantifica la incertidumbre con una técnica de aprendizaje bayesiano. Dado que la optimización bayesiana es muy costosa, se suele usar para optimizar tareas costosas de evaluar que tienen una pequeña cantidad de parámetros, como la selección de hiperparámetros.

Ecuación de Bellman

En el aprendizaje por refuerzo, la siguiente identidad satisface la función Q óptima:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Los algoritmos de aprendizaje por refuerzo aplican esta identidad para crear el aprendizaje Q con la siguiente regla de actualización:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones en la programación dinámica. Consulta la entrada de Wikipedia sobre la ecuación de Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

Es una arquitectura de modelo para la representación de texto. Un modelo BERT entrenado puede actuar como parte de un modelo más grande para la clasificación de texto o para otras tareas de AA.

BERT tiene las siguientes características:

Utiliza la arquitectura Transformer y, por lo tanto, se basa en la autoatención.
Usa la parte del codificador del Transformer. El trabajo del codificador es producir buenas representaciones de texto, en lugar de realizar una tarea específica como la clasificación.
Es bidireccional.
Utiliza el enmascaramiento para el entrenamiento no supervisado.

Las variantes de BERT incluyen las siguientes:

ALBERT, acrónimo de A Light BERT.
LaBSE.

Consulta Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing para obtener una descripción general de BERT.

sesgo (ética/equidad)

#responsible

#fundamentals

1. Estereotipo, prejuicio o preferencia de cosas, personas o grupos por sobre otros. Estos sesgos pueden afectar la recopilación y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. Algunos tipos de este sesgo incluyen:

2. Error sistemático debido a un procedimiento de muestreo o de realización de un informe. Algunos tipos de este sesgo incluyen:

No se debe confundir con el término de sesgo en los modelos de aprendizaje automático ni con el sesgo de predicción.

Consulta Equidad: Tipos de sesgo en el Curso intensivo de aprendizaje automático para obtener más información.

ordenada al origen (matemática) o término de sesgo

#fundamentals

Una intersección o desplazamiento de un origen. La ordenada al origen es un parámetro en los modelos de aprendizaje automático, que se simboliza con cualquiera de los siguientes elementos:

b
w₀

Por ejemplo, la ordenada al origen es la b en la siguiente fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

En una línea bidimensional simple, el sesgo solo significa "intersección con el eje Y". Por ejemplo, la ordenada al origen de la línea en la siguiente ilustración es 2.

Gráfico de una línea con una pendiente de 0.5 y un sesgo (intersección con el eje Y) de 2.

El sesgo existe porque no todos los modelos comienzan desde el origen (0,0). Por ejemplo, supongamos que la entrada a un parque de diversiones cuesta EUR 2 y se cobra EUR 0.5 adicional por cada hora que se queda un cliente. Por lo tanto, un modelo que asigna el costo total tiene un sesgo de 2 porque el costo más bajo es de 2 euros.

El sesgo no se debe confundir con el sesgo en ética y equidad ni con el sesgo de predicción.

Consulta Regresión lineal en el Curso intensivo de aprendizaje automático para obtener más información.

bidireccional

Término que se usa para describir un sistema que evalúa el texto que precede y sigue a una sección de texto objetivo. En cambio, un sistema unidireccional solo evalúa el texto que precede a una sección de texto objetivo.

Por ejemplo, considera un modelo de lenguaje enmascarado que debe determinar las probabilidades de la palabra o las palabras que representan el subrayado en la siguiente pregunta:

¿Qué te _____?

Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto proporcionado por las palabras "¿Qué", "es" y "la". En cambio, un modelo de lenguaje bidireccional también podría obtener contexto de "con" y "tú", lo que podría ayudarlo a generar mejores predicciones.

modelo de lenguaje bidireccional

Un modelo de lenguaje que determina la probabilidad de que un token determinado esté presente en una ubicación específica de un fragmento de texto según el texto anterior y siguiente.

bigrama

Un n-grama en el que N=2.

Clasificación binaria

#fundamentals

Es un tipo de tarea de clasificación que predice una de dos clases mutuamente exclusivas:

la clase positiva
la clase negativa

Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:

Un modelo que determina si los mensajes de correo electrónico son spam (la clase positiva) o no son spam (la clase negativa).
Un modelo que evalúa síntomas médicos para determinar si una persona tiene una enfermedad en particular (la clase positiva) o no la tiene (la clase negativa).

Compara esto con la clasificación de clases múltiples.

Consulta también regresión logística y umbral de clasificación.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

condición binaria

#df

En un árbol de decisión, una condición que tiene solo dos resultados posibles, por lo general, sí o no. Por ejemplo, la siguiente es una condición binaria:

temperature >= 100

Compara esto con la condición no binaria.

Consulta Tipos de condiciones en el curso de Bosques de decisión para obtener más información.

discretización

Sinónimo de agrupamiento.

Modelo de caja negra

Un modelo cuyo "razonamiento" es imposible o difícil de entender para los humanos. Es decir, si bien los humanos pueden ver cómo las instrucciones afectan las respuestas, no pueden determinar con exactitud cómo un modelo de caja negra determina la respuesta. En otras palabras, un modelo de caja negra carece de interpretabilidad.

La mayoría de los modelos profundos y los modelos de lenguaje grandes son cajas negras.

BLEU (Bilingual Evaluation Understudy)

Es una métrica entre 0.0 y 1.0 para evaluar las traducciones automáticas, por ejemplo, del español al japonés.

Para calcular una puntuación, BLEU suele comparar la traducción de un modelo de AA (texto generado) con la traducción de un experto humano (texto de referencia). El grado en que coinciden los n-gramas en el texto generado y el texto de referencia determina la puntuación BLEU.

El documento original sobre esta métrica es BLEU: a Method for Automatic Evaluation of Machine Translation.

Consulta también BLEURT.

BLEURT (Bilingual Evaluation Understudy from Transformers)

Es una métrica para evaluar las traducciones automáticas de un idioma a otro, en especial hacia y desde el inglés.

En el caso de las traducciones desde y hacia el inglés, BLEURT se alinea más estrechamente con las calificaciones humanas que BLEU. A diferencia de BLEU, BLEURT enfatiza las similitudes semánticas (de significado) y puede adaptarse al parafraseo.

BLEURT se basa en un modelo de lenguaje grande entrenado previamente (BERT, para ser exactos) que luego se ajusta con texto de traductores humanos.

El documento original sobre esta métrica es BLEURT: Learning Robust Metrics for Text Generation.

potenciación

Técnica de aprendizaje automático que combina de forma iterativa un conjunto de modelos de clasificación simples y no muy precisos (también conocidos como "clasificadores débiles") en un modelo de clasificación con alta precisión (un "clasificador fuerte") mediante un incremento de ponderación para los ejemplos que el modelo actualmente clasifica de forma errónea.

Consulta ¿Qué son los árboles de decisión potenciados por gradiente? en el curso de Bosques de decisión para obtener más información.

cuadro de límite

En una imagen, las coordenadas (x, y) de un rectángulo alrededor de un área de interés, como el perro en la siguiente imagen.

Fotografía de un perro sentado en un sofá. Un cuadro delimitador verde con coordenadas de la esquina superior izquierda de (275, 1271) y coordenadas de la esquina inferior derecha de (2954, 2761) circunscribe el cuerpo del perro.

transmisión

En una operación matemática de matrices, expansión de la forma de un operando a dimensiones compatibles para esa operación. Por ejemplo, el álgebra lineal requiere que los dos operandos en una operación de suma de matrices tengan las mismas dimensiones. En consecuencia, no se puede agregar una matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación expandiendo virtualmente el vector de longitud n en una matriz de forma (m, n) replicando los mismos valores en cada columna.

Haz clic en el ícono para ver un ejemplo.

Dadas las siguientes definiciones de A y B, el álgebra lineal prohíbe A+B porque A y B tienen dimensiones diferentes:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Sin embargo, la transmisión permite la operación A+B si se expande de forma virtual B a:

 [[2, 2, 2],
  [2, 2, 2]]

Entonces, A+B se convierte en una operación válida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Para obtener más detalles, consulta la siguiente descripción de la emisión en NumPy.

Agrupamiento

#fundamentals

Conversión de un solo atributo en varios atributos binarios denominados agrupamientos o discretizaciones, que en general se basan en un rango de valores. Por lo general, el atributo segmentado es un atributo continuo.

Por ejemplo, en lugar de representar la temperatura como un solo atributo de punto flotante continuo, podrías dividir los rangos de temperatura en discretos discretos, como los siguientes:

Las temperaturas inferiores o iguales a 10 grados Celsius se incluirían en el intervalo “frío”.
El intervalo de 11 a 24 grados Celsius sería el intervalo "templado".
Los valores mayores o iguales a 25 grados Celsius se incluirían en el bucket "cálido".

El modelo tratará cada valor del mismo bucket de forma idéntica. Por ejemplo, los valores 13 y 22 se encuentran en el bucket de temperatura, por lo que el modelo trata ambos valores de forma idéntica.

Haz clic en el ícono para ver notas adicionales.

Si representas la temperatura como un atributo continuo, el modelo la tratará como un solo atributo. Si representas la temperatura con tres discretizaciones, el modelo tratará cada discretización como un atributo independiente. Es decir, un modelo puede aprender relaciones independientes de cada discretización con la etiqueta. Por ejemplo, un modelo de regresión lineal puede aprender pesos separados para cada discretización.

Aumentar la cantidad de discretizaciones hace que tu modelo sea más complicado, ya que aumenta la cantidad de relaciones que debe aprender. Por ejemplo, los discretizaciones de frío, templado y cálido son, esencialmente, tres atributos separados para que tu modelo se entrene. Si decides agregar dos buckets más (por ejemplo, frío y caliente), tu modelo ahora deberá entrenarse en cinco atributos separados.

¿Cómo sabes cuántos discretizaciones crear o cuáles deberían ser los rangos de cada discretización? Por lo general, las respuestas requieren una buena cantidad de experimentación.

Consulta Datos numéricos: discretización en el Curso intensivo de aprendizaje automático para obtener más información.

C

capa de calibración

Ajuste posterior a la predicción, generalmente para dar cuenta del sesgo de predicción. Las predicciones ajustadas y las probabilidades deben coincidir con la distribución del conjunto de etiquetas observado.

generación de candidatos

Es el conjunto inicial de recomendaciones que elige un sistema de recomendación. Por ejemplo, considera una librería que ofrece 100,000 títulos. La fase de generación de candidatos crea una lista mucho menor de libros adecuados para un usuario específico, digamos 500. Pero incluso 500 libros son demasiados para recomendar a un usuario. Las fases posteriores y más costosas de un sistema de recomendación (como la puntuación y la reclasificación) reducen esos 500 a un conjunto de recomendaciones mucho más pequeño y útil.

Para obtener más información, consulta la descripción general de la generación de candidatos en el curso de Sistemas de recomendación.

muestreo de candidatos

Es una optimización del entrenamiento que calcula una probabilidad para todas las etiquetas positivas, por ejemplo, con softmax, pero solo para una muestra aleatoria de etiquetas negativas. Por ejemplo, dado un ejemplo etiquetado como beagle y perro, el muestreo de candidatos calcula las probabilidades predichas y los términos de pérdida correspondientes para lo siguiente:

beagle
perro
un subconjunto aleatorio de las clases negativas restantes (por ejemplo, gato, golosina, cerca)

La idea es que las clases negativas pueden aprender de un refuerzo negativo menos frecuente, siempre y cuando las clases positivas siempre reciban el refuerzo positivo apropiado, y esto se controle empíricamente.

El muestreo de candidatos es más eficiente en términos de procesamiento que los algoritmos de entrenamiento que calculan predicciones para todas las clases negativas, en especial cuando la cantidad de clases negativas es muy grande.

datos categóricos

#fundamentals

Atributos que tienen un conjunto específico de valores posibles. Por ejemplo, considera un atributo categórico llamado traffic-light-state, que solo puede tener uno de los siguientes tres valores posibles:

red
yellow
green

Si se representa traffic-light-state como un atributo categórico, un modelo puede aprender los diferentes impactos de red, green y yellow en el comportamiento del conductor.

En ocasiones, los atributos categóricos se denominan atributos discretos.

Compara esto con los datos numéricos.

Consulta Cómo trabajar con datos categóricos en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de lenguaje causal

Sinónimo de modelo de lenguaje unidireccional.

Consulta modelo de lenguaje bidireccional para comparar diferentes enfoques direccionales en el modelado del lenguaje.

centroid

#clustering

Es el centro de un clúster determinado por un algoritmo de k-means o k-median. Por ejemplo, si k es 3, entonces el algoritmo k-means o k-median encuentra 3 centroides.

Consulta Algoritmos de agrupamiento en el curso de Clustering para obtener más información.

agrupamiento en clústeres basado en centroides

#clustering

Categoría de algoritmos de agrupamiento en clústeres que organiza los datos en clústeres no jerárquicos. k-means es el algoritmo de agrupamiento en clústeres basado en centroides más utilizado.

Compara esto con los algoritmos de agrupamiento en clústeres jerárquico.

Consulta Algoritmos de agrupamiento en el curso de Clustering para obtener más información.

Cadena de pensamientos

#generativeAI

Una técnica de ingeniería de instrucciones que alienta a un modelo de lenguaje grande (LLM) a explicar su razonamiento paso a paso. Por ejemplo, considera la siguiente instrucción, y presta especial atención a la segunda oración:

¿Cuántas fuerzas G experimentaría un conductor en un automóvil que va de 0 a 96.56 km/h en 7 segundos? En la respuesta, muestra todos los cálculos pertinentes.

Es probable que la respuesta del LLM haga lo siguiente:

Muestra una secuencia de fórmulas físicas, reemplazando los valores 0, 60 y 7 en los lugares correspondientes.
Explica por qué eligió esas fórmulas y qué significan las distintas variables.

La instrucción de cadena de pensamientos obliga al LLM a realizar todos los cálculos, lo que podría generar una respuesta más correcta. Además, las instrucciones de encadenamiento de pensamiento permiten que el usuario examine los pasos del LLM para determinar si la respuesta tiene sentido.

chatear

#generativeAI

Contenido de un diálogo bidireccional con un sistema de AA, por lo general, un modelo de lenguaje grande. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje grande) se convierte en el contexto para las partes posteriores del chat.

Un chatbot es una aplicación de un modelo de lenguaje grande.

punto de control

Son los datos que capturan el estado de los parámetros de un modelo durante el entrenamiento o después de que este se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente:

Detener el entrenamiento, tal vez de forma intencional o como resultado de ciertos errores
Captura el punto de control.
Más adelante, vuelve a cargar el punto de control, posiblemente en hardware diferente.
Reinicia el entrenamiento.

clase

#fundamentals

Es una categoría a la que puede pertenecer una etiqueta. Por ejemplo:

En un modelo de clasificación binaria que detecta spam, las dos clases podrían ser spam y no es spam.
En un modelo de clasificación de varias clases que identifica razas de perros, las clases podrían ser caniche, beagle, pug, etcétera.

Un modelo de clasificación predice una clase. Por el contrario, un modelo de regresión predice un número en lugar de una clase.

Consulta Clasificación en el Curso intensivo de aprendizaje automático para obtener más información.

conjunto de datos equilibrado por clase

Un conjunto de datos que contiene etiquetas categóricas en el que la cantidad de instancias de cada categoría es aproximadamente igual. Por ejemplo, considera un conjunto de datos botánicos cuya etiqueta binaria puede ser planta nativa o planta no nativa:

Un conjunto de datos con 515 plantas nativas y 485 plantas no nativas es un conjunto de datos equilibrado por clase.
Un conjunto de datos con 875 plantas nativas y 125 plantas no nativas es un conjunto de datos con desequilibrio de clases.

No existe una línea divisoria formal entre los conjuntos de datos con equilibrio de clases y los conjuntos de datos con desequilibrio de clases. La distinción solo se vuelve importante cuando un modelo entrenado en un conjunto de datos con un gran desequilibrio de clases no puede converger. Consulta Conjuntos de datos: conjuntos de datos desequilibrados en el Curso intensivo de aprendizaje automático para obtener más información.

modelo de clasificación

#fundamentals

Un modelo cuya predicción es una clase. Por ejemplo, todos los siguientes son modelos de clasificación:

Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?).
Un modelo que predice especies de árboles (¿arce? ¿Roble? ¿Baobab?).
Un modelo que predice la clase positiva o negativa para una afección médica en particular.

Por el contrario, los modelos de regresión predicen números en lugar de clases.

Estos son dos tipos comunes de modelos de clasificación:

Clasificación binaria

Glosario sobre aprendizaje automático Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

A

ablación

Pruebas A/B

chip acelerador

exactitud

Haz clic en el ícono para obtener detalles sobre la precisión y los conjuntos de datos desequilibrados en cuanto a las clases.

acción

función de activación

Haz clic en el ícono para ver un ejemplo.

aprendizaje activo

AdaGrad

adaptación

agente

agrupamiento aglomerado

Detección de anomalías

AR

Área bajo la curva de PR

área bajo la curva ROC

Inteligencia artificial general

inteligencia artificial

Attention,

atributo

muestreo de atributos

AUC (área bajo la curva ROC)

Haz clic en el ícono para obtener información sobre la relación entre las curvas ROC y el AUC.

Haz clic en el ícono para obtener una definición más formal del AUC.

realidad aumentada

codificador automático

Evaluación automática

sesgo de automatización

AutoML

Evaluación del evaluador automático

Modelo autorregresivo

Pérdida auxiliar

Precisión promedio en k

Haz clic en el ícono para ver un ejemplo.

condición alineada con el eje

B

propagación inversa

Bagging

Bolsa de palabras

modelo de referencia

modelo base

lote

Inferencia por lotes

normalización por lotes

tamaño del lote

Red neuronal bayesiana

Optimización bayesiana

Ecuación de Bellman

BERT (Bidirectional Encoder Representations from Transformers)

sesgo (ética/equidad)

ordenada al origen (matemática) o término de sesgo

bidireccional

modelo de lenguaje bidireccional

bigrama

Clasificación binaria

condición binaria

discretización

Modelo de caja negra

BLEU (Bilingual Evaluation Understudy)

BLEURT (Bilingual Evaluation Understudy from Transformers)

potenciación

cuadro de límite

transmisión

Haz clic en el ícono para ver un ejemplo.

Agrupamiento

Haz clic en el ícono para ver notas adicionales.

C

capa de calibración

generación de candidatos

muestreo de candidatos

datos categóricos

modelo de lenguaje causal

centroid

agrupamiento en clústeres basado en centroides

Cadena de pensamientos

chatear

punto de control

Glosario sobre aprendizaje automático