Ejecuta la inferencia por lotes con GPUs en trabajos de Cloud Run

Puedes ejecutar la inferencia por lotes con el LLM Llama 3.2-1b de Meta y vLLM en un trabajo de Cloud Run y, luego, escribir los resultados directamente en Cloud Storage con activaciones de volúmenes de Cloud Run.

Consulta un codelab instructivo paso a paso en Cómo ejecutar la inferencia por lotes en trabajos de Cloud Run.