排解 Cloud TPU 工作流程問題
在 TPU 上執行訓練或推論工作負載後,下一步就是確保工作負載能正常運作。Cloud TPU 會產生各種指標和記錄,方便您尋找並偵錯任何 TPU VM 的異常行為。我們在本說明文件中將這類 VM 稱為異常值。
一般疑難排解工作流程如下:
- 查看 Cloud TPU 指標,檢查是否有異常的 TPU VM
- 查看異常 TPU VM 的 Cloud TPU 記錄
- 剖析工作負載
您可以在 Google Cloud主控台的 Metrics Explorer 和 Logs Explorer 中查看指標和記錄。您也可以使用監控和記錄資訊主頁,在個別資訊主頁中收集所有 Cloud TPU 相關指標和記錄。
Cloud TPU VM 指標
Cloud Monitoring 會自動收集 TPU 和其主機 Compute Engine VM 的指標。指標會追蹤數值數量隨時間變化,例如 CPU 使用率、網路用量或 TensorCore 閒置時間。如要進一步瞭解 Cloud TPU 指標,請參閱「監控 TPU VM」。
Cloud TPU 記錄
Cloud Logging 會自動從 TPU 和其主機 Compute Engine VM 收集記錄。Cloud Logging 會追蹤 Cloud TPU 產生的事件。您也可以檢測程式碼來產生記錄檔。Cloud TPU 會產生兩種記錄:
- TPU 工作站記錄
- 已稽核的資源記錄
TPU Worker 記錄包含特定區域中特定 TPU worker 的相關資訊,例如 TPU worker 可用的記憶體量 (system_available_memory_GiB)。
稽核的資源記錄包含特定 Cloud TPU API 呼叫的時間,以及發出呼叫的使用者。例如 CreateNode
、UpdateNode
和 DeleteNode
。
您也可以使用 cloud-tpu-diagnostics
PyPi 套件,將堆疊追蹤記錄到記錄檔。詳情請參閱「偵錯 TPU VM」。
如要進一步瞭解記錄,請參閱「記錄」。
監控與記錄資訊主頁
在 Google Cloud 主控台中使用單一頁面,可讓您更輕鬆地查看及解讀 Cloud TPU 相關指標和記錄。monitoring-debugging GitHub 存放區包含一組指令碼和設定檔,可使用 Terraform 自動部署資訊主頁,其中包含所有 Cloud TPU 相關指標和記錄。如要在 Google Cloud 專案中設定這些資訊主頁,請參閱監控和記錄資訊主頁。
在 TPU VM 上剖析工作負載
您可以使用剖析功能,在 TPU VM 上最佳化模型的訓練效能。您可以使用 TensorBoard 和 TPU TensorBoard 外掛程式來剖析模型。如要進一步瞭解如何剖析工作負載,請參閱「在 TPU VM 上剖析模型」。
如要進一步瞭解如何搭配支援的架構使用 TensorBoard,請參閱下列文件: