Lyria | KI-Musikgenerator

Sie können Lyria verwenden, um neue Instrumentalmusik-Tracks aus einer Texteingabe zu generieren, die Sie in der Google Cloud Console angeben oder in einer Anfrage an die Gemini API in Vertex AI API senden.

Lyria in Vertex AI (Vertex AI Studio) ausprobieren

Lyria-Funktionen und Startphase

Lyria bietet auf generativer KI basierende Funktionen zum Erstellen von Musik.

In der folgenden Tabelle werden Funktionen beschrieben, die allgemein verfügbar sind:

Funktion Beschreibung Startphase
Musik aus Text generieren Instrumentale Musiktracks aus beschreibenden Texteingaben generieren General Availability
Negatives Prompting Sie können dem Modell Anweisungen geben, damit bestimmte Elemente in der generierten Musik vermieden werden. General Availability
Seed für Reproduzierbarkeit Verwenden Sie einen Seed, um konsistente Generierungsausgaben für denselben Prompt und dieselben Parameter zu erhalten. General Availability

Standorte

Ein Standort ist eine Region, die Sie in einer Anfrage angeben können, um zu steuern, wo Daten im Ruhezustand gespeichert werden. Lyria 2 ist weltweit verfügbar. Eine Liste der verfügbaren Regionen für Vertex AI-Dienste finden Sie unter Generative AI an Vertex AI-Standorten.

Leistung und Einschränkungen

Limits Wert
Betriebsarten Generierung von Musik aus Text (nur Instrumentalmusik)
API-Aufrufe (Prompts pro Projekt und Minute) Informationen zu den Standardlimits für Vertex AI-Inferenz finden Sie in der [Dokumentation zu Kontingenten und Limits](/vertex-ai/generative-ai/docs/quotas).
Anfragelatenz (Generierungszeit) Audioclips werden in der Regel innerhalb von 10 bis 20 Sekunden generiert. Bei hoher Auslastung werden einige Anfragen möglicherweise in die Warteschlange gestellt.
Maximale Anzahl von Audioclips, die pro Anfrage zurückgegeben werden Bis zum angegebenen sample_count. Der Maximalwert für sample_count wird noch festgelegt. In der Regel ist es eine kleine Ganzzahl, z. B. 1–4).
Audiolänge pro Clip 32,8 Sekunden
Unterstütztes zurückgegebenes Audioformat WAV-Audio mit einer Abtastrate von 48 kHz
Sprache des Eingabe-Prompts Amerikanisches Englisch (en-us)

Verantwortungsbewusste Anwendung von KI

Lyria generiert Instrumentalmusik aus Text-Prompts. Lyria wendet Sicherheitsmaßnahmen an, darunter Inhaltsfilter, Rezitationsprüfungen und Prüfungen der Künstlerabsicht, um die Eingabe und Generierung schädlicher oder unangemessener Inhalte zu verhindern. SynthID-Wasserzeichen werden für generierte Audioinhalte verwendet. Prompts, die gegen die Richtlinien für verantwortungsbewusste KI verstoßen, werden möglicherweise blockiert.

Lyria Vertex AI-Modellversionen und -lebenszyklus

Das Lyria-Modell und die Version lauten so:

Modellname Bezeichner
Lyria 2 lyria-002

Musik aus Text generieren

Sie können neue Instrumentalmusik-Tracks auf Basis eines beschreibenden Texts als Eingabe erstellen.

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Vertex AI API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Vertex AI API.

    Enable the API

  6. Richten Sie die Authentifizierung für Ihre Umgebung ein.

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    Wenn Sie die REST API-Beispiele auf dieser Seite in einer lokalen Entwicklungsumgebung verwenden möchten, nutzen Sie die Anmeldedaten, die Sie der gcloud CLI bereitstellen.

      Installieren Sie die Google Cloud CLI. Initialisieren Sie die Google Cloud CLI nach der Installation mit dem folgenden Befehl:

      gcloud init

      Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

    Weitere Informationen finden Sie in der Dokumentation zur Google Cloud -Authentifizierung unter Für die Verwendung von REST authentifizieren.

    Console

    1. Rufen Sie in der Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.

      Media Studio

    2. Wählen Sie das Modell Lyria oder die Option zum Generieren von Musik aus.

    3. Optional: Konfigurieren Sie im Bereich Einstellungen die folgenden Einstellungen:

      • Modell: Wählen Sie lyria-002 aus, wenn mehrere Versionen verfügbar sind.
      • Anzahl der Samples (sample_count): Passen Sie die Anzahl der Audioclips an, die für den Prompt generiert werden sollen. Kann nicht mit „Seed“ verwendet werden.
      • Seed: Geben Sie eine Ganzzahl für reproduzierbare Ausgaben ein. Kann nicht mit „Anzahl der Stichproben“ verwendet werden.
    4. Geben Sie im Feld Prompt schreiben Ihren Textprompt auf US-Englisch ein, der die zu generierende Musik beschreibt.

    5. Optional: Geben Sie im Feld Negativer Prompt Begriffe oder Beschreibungen ein, die nicht in der generierten Musik enthalten sein sollen.

    6. Klicken Sie auf Erstellen.

    7. Die generierten Audioclips sind als WAV-Dateien verfügbar und können als Vorschau angehört und heruntergeladen werden.

    REST

    Verwenden Sie die Methode predict, um eine Anfrage zur Musikgenerierung zu senden. Die Antwort enthält direkt die Audiodaten, die in der Regel Base64-codiert sind, wenn die Antwort JSON ist.

    Weitere Informationen zu lyria-002-Modellanfragen finden Sie in der API-Referenz des lyria-002-Modells.

    Senden Sie zum Generieren von Musik eine POST-Anfrage an den predict-Endpunkt des Modells.

    Anfrage

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
      -d '{
        "instances": [
          {
            "prompt": "An uplifting and hopeful orchestral piece with a soaring string melody and triumphant brass.",
            "negative_prompt": " dissonant, minor key",
            "seed": 12345
          }
        ],
        "parameters": {
          // "sample_count": 1 // Use either seed or sample_count
        }
      }'
    

    Antwort

    Bei einer erfolgreichen Anfrage wird ein JSON-Objekt mit den generierten Audiodaten zurückgegeben. Das sollte ungefähr so aussehen:

    {
      "predictions": [
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
          "mimeType": "audio/wav"
        },
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
          "mimeType": "audio/wav"
        }
      ],
      "deployedModelId": "xxxxxxxxxxxxxxx",
      "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
      "modelDisplayName": "Lyria 2"
    }
    

    Anschließend decodieren Sie audioContent (Base64), um die WAV-Audiodatei zu erhalten. Jeder Clip ist 32,8 Sekunden lang.

    Nächste Schritte