Lyria | Generatore di musica con l'IA

Puoi utilizzare Lyria per generare nuove tracce di musica strumentale da un prompt di testo che fornisci nella console Google Cloud o invii in una richiesta all'API Gemini nell'API Vertex AI.

Prova Lyria su Vertex AI (Vertex AI Studio)

Funzionalità di Lyria e fase di lancio

Lyria offre funzionalità di AI generativa per la creazione musicale.

La seguente tabella descrive le funzionalità disponibili pubblicamente (GA) per tutti gli utenti:

Funzionalità Descrizione Fase di avvio
Generare musica da testo Genera tracce musicali strumentali da input di testo descrittivo. Disponibilità generale
Prompt negativi Guida il modello a evitare elementi specifici nella musica generata. Disponibilità generale
Seed per la riproducibilità Utilizza un seed per garantire output di generazione coerenti per gli stessi prompt e parametri. Disponibilità generale

Località

Una località è una regione che puoi specificare in una richiesta per controllare dove vengono archiviati i dati at-rest. Lyria 2 è disponibile a livello globale. Per l'elenco delle regioni disponibili per i servizi Vertex AI, consulta Località dell'AI generativa su Vertex AI.

Prestazioni e limitazioni

Limiti Valore
Modalità Generazione di musica da testo (solo strumentale)
Chiamate API (prompt per progetto al minuto) Consulta la [documentazione su quote e limiti](/vertex-ai/generative-ai/docs/quotas) per i limiti standard di Vertex AI Inference.
Latenza di richiesta (tempo di generazione) I clip audio vengono in genere generati entro 10-20 secondi. Alcune richieste potrebbero essere messe in coda durante i periodi di picco di utilizzo.
Numero massimo di clip audio restituiti per richiesta Fino al sample_count specificato. (Valore massimo per sample_count da definire, in genere un piccolo numero intero, ad es. 1-4).
Durata audio per clip 32,8 secondi
Formato audio restituito supportato Audio WAV con frequenza di campionamento di 48 kHz
Lingua del prompt di input Inglese (Stati Uniti) (en-us)

AI responsabile

Lyria genera musica strumentale da prompt di testo. Lyria applica misure di sicurezza, tra cui filtri per la sicurezza dei contenuti, controllo della recitazione e controlli dell'intento dell'artista, per impedire l'inserimento e la generazione di contenuti dannosi o inappropriati. Il watermarking SynthID viene utilizzato sull'audio generato. I prompt che violano le linee guida per l'IA responsabile potrebbero essere bloccati.

Versioni e ciclo di vita del modello Lyria Vertex AI

Il modello e la versione di Lyria sono i seguenti:

Nome modello Identificatore
Lyria 2 lyria-002

Generare musica da testo

Puoi generare nuove tracce di musica strumentale utilizzando testo descrittivo come input.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Vertex AI API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Vertex AI API.

    Enable the API

  6. Configura l'autenticazione per il tuo ambiente.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    Per utilizzare gli esempi di API REST in questa pagina in un ambiente di sviluppo locale, utilizza le credenziali che fornisci a gcloud CLI.

      Installa Google Cloud CLI. Dopo l'installazione, inizializza Google Cloud CLI eseguendo il seguente comando:

      gcloud init

      Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.

    Per saperne di più, consulta Autenticarsi per l'utilizzo di REST nella documentazione sull'autenticazione di Google Cloud .

    Console

    1. Nella console Google Cloud , vai alla pagina Vertex AI Studio > Media Studio.

      Media Studio

    2. Seleziona il modello Lyria o l'opzione di generazione musicale.

    3. (Facoltativo) Nel riquadro Impostazioni, configura le seguenti impostazioni:

      • Modello: scegli lyria-002 se sono disponibili più versioni.
      • Numero di campioni (sample_count): regola il numero di clip audio da generare per il prompt. (Non può essere utilizzato con l'origine).
      • Seed: inserisci un numero intero per ottenere risultati riproducibili. Non può essere utilizzata con Numero di campioni.
    4. Nella casella Scrivi il prompt, inserisci il prompt di testo in inglese americano che descrive la musica da generare.

    5. (Facoltativo) Nella casella Prompt negativo, inserisci termini o descrizioni da escludere dalla musica generata.

    6. Fai clic su Genera.

    7. I clip audio generati saranno disponibili per l'anteprima e il download come file WAV.

    REST

    Utilizza il metodo predict per inviare una richiesta di generazione di musica. La risposta conterrà direttamente i dati audio, in genere con codifica base64 se la risposta è in formato JSON.

    Per ulteriori informazioni sulle richieste del modello lyria-002, consulta il riferimento API del modello lyria-002.

    Per generare musica, invia una richiesta POST all'endpoint predict del modello.

    Richiesta:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
      -d '{
        "instances": [
          {
            "prompt": "An uplifting and hopeful orchestral piece with a soaring string melody and triumphant brass.",
            "negative_prompt": " dissonant, minor key",
            "seed": 12345
          }
        ],
        "parameters": {
          // "sample_count": 1 // Use either seed or sample_count
        }
      }'
    

    Risposta:

    Una richiesta riuscita restituisce un oggetto JSON contenente i dati audio generati. Dovrebbe avere un aspetto simile a questo:

    {
      "predictions": [
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
          "mimeType": "audio/wav"
        },
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
          "mimeType": "audio/wav"
        }
      ],
      "deployedModelId": "xxxxxxxxxxxxxxx",
      "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
      "modelDisplayName": "Lyria 2"
    }
    

    A questo punto, decodifica audioContent (base64) per ottenere il file audio WAV. Ogni clip dura 32,8 secondi.

    Passaggi successivi