Ejecuta la inferencia por lotes con GPUs en trabajos de Cloud Run

Puedes ejecutar la inferencia por lotes con el LLM Llama 3.2-1b de Meta y vLLM en un trabajo de Cloud Run y, luego, escribir los resultados directamente en Cloud Storage con activaciones de volúmenes de Cloud Run.

Consulta un codelab instructivo paso a paso en Cómo ejecutar la inferencia por lotes en trabajos de Cloud Run.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2025-09-23 (UTC)

Ejecuta la inferencia por lotes con GPUs en trabajos de Cloud Run Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Ejecuta la inferencia por lotes con GPUs en trabajos de Cloud Run