Lyria | AI Music Generator

Lyria を使用すると、 Google Cloud コンソールで指定したテキスト プロンプトから新しいインストゥルメンタル音楽トラックを生成したり、Vertex AI API の Gemini API にリクエストを送信したりできます。

Vertex AI で Lyria を試す(Vertex AI Studio)

Lyria の機能とリリース ステージ

Lyria は、音楽制作のための生成 AI 機能を備えています。

次の表に、すべてのユーザーに一般提供(GA)されている機能を示します。

機能 説明 リリース ステージ
テキストから音楽を生成する 説明文の入力からインストゥルメンタル音楽トラックを生成します。 一般提供
ネガティブ プロンプト 生成される音楽で特定の要素を避けるようにモデルをガイドします。 一般提供
再現性のためのシード シードを使用すると、同じプロンプトとパラメータに対して一貫した生成出力が得られます。 一般提供

ロケーション

ロケーションは、データの保存場所を制御するためにリクエストで指定できるリージョンです。Lyria 2 は世界中で提供されています。Vertex AI サービスで使用可能なリージョンの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。

パフォーマンスと制限事項

上限
モダリティ テキストから音楽を生成する(インストゥルメンタルのみ)
API 呼び出し(1 プロジェクト、1 分あたりのプロンプト) 標準の Vertex AI 推論の上限については、[割り当てと上限に関するドキュメント](/vertex-ai/generative-ai/docs/quotas) をご覧ください。
リクエストのレイテンシ(生成時間) 通常、音声クリップは 10 ~ 20 秒以内に生成されます。使用率がピークに達すると、一部のリクエストがキューに登録されることがあります。
リクエストごとに返される音声クリップの最大数 指定された sample_count まで。(sample_count の最大値は未定ですが、通常は小さな整数(例: 1-4)。
クリップあたりの音声の長さ 32.8 秒
サポートされている返される音声形式 48 kHz のサンプルレートの WAV 音声
入力プロンプトの言語 アメリカ英語(en-us)

責任ある AI

Lyria は、テキスト プロンプトからインストゥルメンタル音楽を生成します。Lyria は、コンテンツの安全フィルタ、朗読チェック、アーティストの意図チェックなどの安全対策を適用して、有害または不適切なコンテンツの入力と生成を防ぎます。生成された音声には SynthID の透かしが使用されます。責任ある AI のガイドラインに違反するプロンプトはブロックされることがあります。

Lyria Vertex AI モデルのバージョンとライフサイクル

Lyria のモデルとバージョンは次のとおりです。

モデル名 識別子
Lyria 2 lyria-002

テキストから音楽を生成する

説明テキストを入力として使用して、新しいインストゥルメンタル音楽トラックを生成できます。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Vertex AI API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Vertex AI API.

    Enable the API

  6. 環境の認証を設定します。

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    このページの REST API サンプルをローカル開発環境で使用するには、gcloud CLI に指定した認証情報を使用します。

      Google Cloud CLI をインストールします。 インストール後、次のコマンドを実行して Google Cloud CLI を初期化します。

      gcloud init

      外部 ID プロバイダ(IdP)を使用している場合は、まずフェデレーション ID を使用して gcloud CLI にログインする必要があります。

    詳細については、 Google Cloud 認証ドキュメントの REST を使用して認証するをご覧ください。

    コンソール

    1. Google Cloud コンソールで、[Vertex AI Studio] > [Media Studio] ページに移動します。

      Media Studio

    2. Lyria モデルまたは音楽生成オプションを選択します。

    3. 省略可: [設定] ペインで、次の設定を構成します。

      • モデル: 複数のバージョンが使用可能な場合は、lyria-002 を選択します。
      • サンプル数(sample_count: プロンプトに対して生成する音声クリップの数を調整します。(Seed では使用できません)。
      • シード: 再現可能な出力の整数を入力します。(サンプル数では使用できません)。
    4. [プロンプトを記述] ボックスに、生成する音楽の説明となるテキスト プロンプトを米国英語で入力します。

    5. 省略可: [ネガティブ プロンプト] ボックスに、生成される音楽から除外する単語や説明を入力します。

    6. [生成] をクリックします。

    7. 生成された音声クリップは、WAV ファイルとしてプレビューおよびダウンロードできます。

    REST

    predict メソッドを使用して、音楽生成リクエストを送信します。レスポンスには音声データが直接含まれます。レスポンスが JSON の場合は、通常は base64 でエンコードされます。

    lyria-002 モデル リクエストの詳細については、lyria-002 モデル API リファレンスをご覧ください。

    音楽を生成するには、モデルの predict エンドポイントに POST リクエストを送信します。

    リクエスト:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002:predict \
      -d '{
        "instances": [
          {
            "prompt": "An uplifting and hopeful orchestral piece with a soaring string melody and triumphant brass.",
            "negative_prompt": " dissonant, minor key",
            "seed": 12345
          }
        ],
        "parameters": {
          // "sample_count": 1 // Use either seed or sample_count
        }
      }'
    

    回答:

    リクエストが成功すると、生成された音声データを含む JSON オブジェクトが返されます。次のようになります。

    {
      "predictions": [
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_1",
          "mimeType": "audio/wav"
        },
        {
          "audioContent": "BASE64_ENCODED_WAV_STRING_SAMPLE_2",
          "mimeType": "audio/wav"
        }
      ],
      "deployedModelId": "xxxxxxxxxxxxxxx",
      "model": "projects/PROJECT_ID/locations/LOCATION/publishers/google/models/lyria-002",
      "modelDisplayName": "Lyria 2"
    }
    

    次に、audioContent(base64)をデコードして WAV 音声ファイルを取得します。各クリップの長さは 32.8 秒です。

    次のステップ