Informazioni sulla replica sincrona dei dischi

Persistent Disk regionale e Hyperdisk bilanciato ad alta affidabilità sono opzioni di archiviazione che ti consentono di implementare servizi ad alta affidabilità (HA) in Compute Engine. Persistent Disk a livello regionale e Hyperdisk bilanciato ad alta affidabilità replicano in modo sincrono i dati tra due zone nella stessa regione e garantiscono l'alta affidabilità per i dati del disco in caso di un massimo di un errore circoscritto a una zona.

I volumi Persistent Disk a livello di regione e Hyperdisk Balanced ad alta affidabilità sono progettati per i workload che richiedono un Recovery Point Objective (RPO) e un Recovery Time Objective (RTO) inferiori. Per scoprire di più su RPO e RTO, consulta Principi di base della ripristino di emergenza recovery.

I volumi Persistent Disk a livello regionale e Hyperdisk bilanciato ad alta affidabilità sono progettati per funzionare con i gruppi di istanze gestite a livello regionale.

Questo documento fornisce una panoramica su come creare servizi ad alta affidabilità con i volumi Persistent Disk a livello regionalee Hyperdisk bilanciato ad alta affidabilità .

Quando decidi di utilizzare Persistent Disk a livello di regione o Hyperdisk bilanciato ad alta affidabilità, assicurati di confrontare le diverse opzioni per aumentare la disponibilità del servizio e il costo, le prestazioni e la resilienza per le diverse architetture di servizio.

Informazioni sulla replica sincrona dei dischi

Un volume Persistent Disk a livello di regione o Hyperdisk bilanciato ad alta affidabilità, noto anche come disco regionale o disco replicato in modo sincrono, ha una zona primaria e una zona secondaria all'interno della sua regione in cui archivia i dati del disco:

  • La zona primaria è la stessa in cui si trova l'istanza di computing a cui colleghi il disco.
  • La zona secondaria è una zona alternativa a tua scelta all'interno della stessa regione.

Compute Engine gestisce le repliche del disco in entrambe queste zone. Quando scrivi dati sul disco, Compute Engine li replica in modo sincrono sulle repliche del disco in entrambe le zone per garantire l'alta affidabilità. Per garantire la durabilità, i dati di ogni replica zonale sono distribuiti su più macchine fisiche all'interno della zona. Le repliche zonali garantiscono che i dati del disco rimangano disponibili e forniscono protezione contro interruzioni temporanee in una delle zone del disco.

Stato di replica per le repliche a livello di zona

Lo stato della replica del disco per Persistent Disk regionale o Hyperdisk bilanciato ad alta affidabilità mostra lo stato di una replica a livello di zona rispetto al contenuto del disco. Le repliche a livello di zona per i tuoi dischi si trovano sempre in uno dei seguenti stati di replica del disco:

  • Sincronizzata: la replica è disponibile, riceve in modo sincrono tutte le scritture eseguite sul disco ed è aggiornata con tutti i dati sul disco.
  • Aggiornamento in corso: la replica è disponibile, ma sta ancora aggiornando i dati sul disco dall'altra replica.
  • Non sincronizzata: la replica non è al momento disponibile e non è sincronizzata con i dati sul disco.

Per scoprire come controllare e monitorare gli stati delle repliche a livello di zona, consulta Monitorare gli stati di replica dei dischi.

Stati di replica per i dischi regionali

A seconda dello stato delle singole repliche a livello di zona, il volume Persistent Disk regionale o Hyperdisk bilanciato ad alta affidabilità può trovarsi in uno dei seguenti stati di replica:

  • Completamente replicato:le repliche in entrambe le zone sono disponibili e sincronizzate con i dati più recenti del disco.
  • Aggiornamento in corso:le repliche a livello di zona sono disponibili, ma una delle repliche a livello di zona si sta aggiornando con i dati più recenti del disco.
  • Prestazioni ridotte:una delle repliche a livello di zona ha lo stato out of sync a causa di un errore o un'interruzione.

Se lo stato di replica del disco è catching up o degraded, una delle repliche a livello di zona non è aggiornata con tutti i dati. Qualsiasi interruzione durante questo periodo nella zona della replica integra comporta l'indisponibilità del disco fino al ripristino della zona della replica integra.

Quando il tuo volume Persistent Disk a livello di regione o Hyperdisk bilanciato ad alta affidabilità è in fase di recupero, Google Cloud inizia a ripristinare la replica a livello di zona in fase di recupero. Google consiglia di attendere che la replica zonale interessata recuperi i dati sul disco, dopodiché il suo stato cambierà in Synced. Dopo che la replica zonale passa allo stato sincronizzato, lo stato del disco regionale torna allo stato Fully replicated.

Se il disco regionale ha lo stato catching up o degraded per un periodo di tempo prolungato e non soddisfa i requisiti RPO della tua organizzazione, ti consigliamo di creare snapshot della replica primaria in uno dei seguenti modi:

  • Abilita gli snapshot pianificati.
  • Crea uno snapshot manuale del tuo Persistent Disk regionale o del tuo disco Hyperdisk bilanciato ad alta affidabilità .

Dopo aver creato uno snapshot, puoi creare un nuovo disco Persistent Disk a livello di regione o Hyperdisk bilanciato ad alta affidabilità utilizzando lo snapshot come origine. Lo snapshot viene ripristinato sul nuovo disco. Anche il nuovo disco inizia in uno stato completamente replicato con una replica dei dati integra.

Per scoprire come controllare lo stato di replica del tuo Persistent Disk regionale o Hyperdisk bilanciato ad alta affidabilità, consulta Determinare lo stato di replica dei dischi.

Checkpoint di recupero della replica

Un checkpoint di recupero delle repliche è un attributo del disco che rappresenta il punto nel tempo coerente in caso di arresto anomalo più recente di un disco completamente replicato. Compute Engine crea e gestisce automaticamente un singolo checkpoint di recupero delle repliche per ogni disco regionale. Quando un disco viene replicato completamente, Compute Engine aggiorna il checkpoint circa ogni 15 minuti per assicurarsi che rimanga aggiornato. Quando lo stato di replica del disco è degraded, Compute Engine ti consente di creare uno snapshot standard dal checkpoint di recupero delle repliche del disco. Lo snapshot standard risultante acquisisce i dati della versione coerente con gli arresti anomali più recente del disco completamente replicato.

In rari scenari, quando il disco è danneggiato, anche la replica a livello di zona sincronizzata con i dati più recenti del disco può non riuscire prima che la replica non sincronizzata si aggiorni. Non potrai forzare l'attacco del disco alle istanze di calcolo in nessuna delle due zone. Il disco replicato non è più disponibile e devi eseguire la migrazione dei dati su un nuovo disco. In questi scenari, se non hai snapshot standard esistenti disponibili per il disco, potresti comunque essere in grado di recuperare i dati del disco dalla replica incompleta utilizzando uno snapshot standard creato dal checkpoint di recupero delle repliche.

Compute Engine crea automaticamente i checkpoint di recupero delle repliche per ogni disco permanente regionale o Hyperdisk Equilibrato ad alta disponibilità montato. La creazione di questi punti di controllo non comporta costi aggiuntivi. Tuttavia, ti verranno addebitati eventuali costi di archiviazione applicabili per la creazione di snapshot e istanze di calcolo quando utilizzi questi checkpoint per eseguire la migrazione del tuo disco regionale alle zone operative.

Scopri di più su come recuperare i dati del disco regionale utilizzando un checkpoint di recupero delle repliche.

Failover dei dischi regionali

In caso di interruzione di una zona, la zona diventa inaccessibile e l'istanza di calcolo in quella zona non può eseguire operazioni di lettura o scrittura sul disco. Per consentire all'istanza di continuare a eseguire operazioni di lettura e scrittura per il disco regionale, Compute Engine consente la migrazione dei dati del disco all'altra zona in cui il disco ha una replica. Questo processo è chiamato failover.

Il processo di failover prevede il distacco della replica zonale dall'istanza nella zona interessata e il successivo collegamento della replica zonale a una nuova istanza nella zona secondaria. Compute Engine replica in modo sincrono i dati sul disco nella zona secondaria per garantire un failover rapido in caso di errore di una singola replica.

Failover per control plane regionale specifico per l'applicazione

Il control plane regionale specifico per l'applicazione non è un servizio Google Cloud . Quando progetti architetture di servizi ad alta affidabilità, devi creare il tuo control plane regionale specifico per l'applicazione. Questo control plane specifico per l'applicazione decide a quale istanza deve essere collegato il disco a livello di regione e qual è l'istanza principale corrente.

Quando viene rilevato un errore nell'istanza o nel database principale del disco a livello di regione, il control plane regionale specifico per l'applicazione dell'architettura del servizio HA può avviare automaticamente il failover all'istanza di standby nella zona secondaria. Durante il failover, il control plane regionale specifico per l'applicazione ricollega il disco a livello di regione all'istanza di standby nella zona secondaria. Compute Engine indirizza tutto il traffico a questa istanza in base agli indicatori controllo di integrità.

La latenza di failover complessiva, escluso il tempo di rilevamento dell'errore, è la somma delle seguenti latenze:

  • Meno di 1 minuto per collegare un disco regionale a un'istanza di standby
  • Tempo necessario per l'inizializzazione dell'applicazione e il ripristino in caso di arresto anomalo

Per saperne di più, consulta Informazioni sul control plane regionale specifico per l'applicazione.

La pagina Componenti di base per il ripristino di emergenza descrive i componenti di base disponibili su Compute Engine.

Failover tramite collegamento forzato

Uno dei vantaggi di Persistent Disk a livello regionale e di Hyperdisk bilanciato ad alta affidabilità è che, nell'improbabile caso di un'interruzione del servizio a livello di zona, puoi eseguire manualmente il failover del workload in un'altra zona. Quando la zona originale ha un'interruzione, non puoi completare l'operazione di distacco del disco finché la replica a livello di zona non viene ripristinata. In questo scenario, potrebbe essere necessario collegare la replica di zona secondaria a una nuova istanza di computing senza scollegare la replica di zona primaria dall'istanza principale. Questo processo è chiamato collegamento forzato.

Quando l'istanza di computing nella zona principale non è più disponibile, puoi forzare il collegamento del disco a un'istanza nella zona secondaria. Per eseguire questa attività, devi effettuare una delle seguenti operazioni:

  • Avvia un'altra istanza di computing nella stessa zona della replica del disco regionale che stai forzando il collegamento.
  • Mantieni un'istanza di computing hot standby in quella zona. Un hot standby è un'istanza in esecuzione identica a quella nella zona primaria. Le due istanze hanno gli stessi dati.

Compute Engine esegue l'operazione di collegamento forzato in meno di un minuto. Il Recovery Time Objective (RTO) totale dipende non solo dal failover dello spazio di archiviazione (il collegamento forzato del disco regionale), ma anche da altri fattori, tra cui:

  • Se devi prima creare un'istanza secondaria
  • Il periodo di tempo necessario al file system sottostante per rilevare un disco collegato a caldo
  • Il tempo di recupero delle applicazioni corrispondenti

Per ulteriori informazioni su come eseguire il failover dell'istanza di calcolo utilizzando l'associazione forzata, vedi Eseguire il failover del disco regionale utilizzando force-attach.

Persistent Disk regionale e Hyperdisk bilanciato ad alta affidabilità privilegiano la disponibilità del carico di lavoro, il che significa che ci sono compromessi per la protezione dei dati nell'improbabile caso in cui entrambe le repliche del disco non siano disponibili contemporaneamente. Per saperne di più, vedi Gestisci gli errori per i dischi regionali.

Limitazioni

Le sezioni seguenti elencano le limitazioni che si applicano a Persistent Disk a livello di regione e a Hyperdisk bilanciato ad alta affidabilità.

Limitazioni generali per i dischi regionali

  • Puoi collegare un Persistent Disk a livello di regione solo alle VM che utilizzano tipi di macchina E2, N1, N2 e N2D.
  • Puoi collegare l'Hyperdisk bilanciato ad alta affidabilità solo ai tipi di macchina supportati.
  • Non puoi creare un Persistent Disk a livello di regione da un'immagine del sistema operativo o da un disco creato da un'immagine del sistema operativo.
  • Non puoi creare un disco Hyperdisk bilanciato ad alta affidabilità clonando un disco a livello di zona. Per creare un disco Hyperdisk bilanciato ad alta affidabilità da un disco a livello di zona, completa i passaggi descritti in Passa da un disco a livello di zona a un disco Hyperdisk bilanciato ad alta affidabilità.
  • Quando utilizzi la modalità di sola lettura, puoi collegare un Persistent Disk bilanciato a livello di regione a un massimo di 10 istanze VM.
  • La dimensione minima di un Persistent Disk standard a livello di regione è di 200 GiB.
  • Le dimensioni di un volume Persistent Disk a livello di regione odi uno Hyperdisk bilanciato ad alta affidabilità possono solo essere aumentate e non ridotte.
  • I volumi Persistent Disk a livello di regione e Hyperdisk bilanciato ad alta affidabilità hanno caratteristiche di prestazioni diverse rispetto ai corrispondenti dischi a livello di zona. Per saperne di più, consulta Informazioni sulle prestazioni di Persistent Disk e Limiti delle prestazioni di Hyperdisk bilanciato ad alta affidabilità.
  • Non puoi utilizzare un volume Hyperdisk bilanciato ad alta affidabilità in modalità multi-writer come disco di avvio.
  • Se crei un disco replicato clonando un disco a livello di zona, le due repliche a livello di zona non sono completamente sincronizzate al momento della creazione. Dopo la creazione, puoi utilizzare la copia del disco a livello di regione in media entro 3 minuti. Tuttavia, potresti dover attendere decine di minuti prima che il disco raggiunga uno stato di replica completa e il Recovery Point Objective (RPO) sia vicino allo zero. Scopri come verificare se il disco ha raggiunto lo stato di replica completa.

Limitazioni per i checkpoint di recupero delle repliche

  • Un checkpoint di recupero della replica fa parte dei metadati del dispositivo e non mostra alcun dato del disco. Puoi utilizzare il checkpoint solo come meccanismo per creare uno snapshot del disco con prestazioni ridotte. Dopo aver creato lo snapshot utilizzando il checkpoint, puoi utilizzarlo per ripristinare i dati.
  • Puoi creare snapshot da un checkpoint di recupero delle repliche solo quando il disco è degradato.
  • Compute Engine aggiorna il checkpoint di recupero della replica del disco solo quando il disco è completamente replicato.
  • Compute Engine gestisce un solo checkpoint di recupero delle repliche per un disco e solo l'ultima versione di questo checkpoint.
  • Non puoi visualizzare i timestamp esatti di creazione e aggiornamento di un checkpoint di recupero delle repliche.
  • Puoi creare uno snapshot dal checkpoint di recupero delle repliche solo utilizzando l'API Compute Engine.

Passaggi successivi