存儲 / 備份介質故障處理應急預案
更新時間 2025-02-05 09:37:35
最近更新時間: 2025-02-05 09:37:35
分享文章
本頁介紹天翼云TeleDB數據庫存儲以及備份介質故障處理應急預案。
故障定位
存儲以及備份介質發生故障。
故障影響
可能對業務造成影響。
處理步驟
存儲組成為冗余的兩個控制器,兩個冗余電源,所有的LUN都通過兩條鏈路連接到主機,這樣保證了一條鏈路斷開時不影數據的訪問。同時主機上安裝多路徑軟件進行數據的負載均衡以及路徑的冗余。數據資源組的數據同時通過備份網絡在每天晚上通過備份軟件備份,起到數據備份的雙重保障功能。
存儲設備出現故障情況下的應急措施如下:
- 如果其中一個控制器出現問題,主機會通過另外一個控制器訪問資源。可以隨時在線更換控制器。
- 如果是其中一個電源有問題,那么不會影身到存儲的正常運行,可以及時在線更換電源排除故障。
- 對于是硬盤故障,根據硬盤的具體報錯信息在線更換硬盤。如果是對應的一個raid組中2塊硬盤同時損壞資源不能正常訪問,那么就需要停止主機的數據庫,然后重新建立raid資源,利用備份軟件對備份數據進行數據恢復操作。
- 如果不能在短時間恢復故障系統時,將聯系公司備件保障中心提供不低于故障系統的備機運到現場,替換故障存儲,恢復數據備份,主要有如下步驟:
- 連接新存儲到主機和備機上,劃分存儲資源,綁定到主機上,識別到存儲資源。
- 恢復數據。
- 主機和備機啟動雙機軟件,啟動數據庫,啟動應用即可。
- 數據庫恢復正常后通知業務部門。
- 由項目經理對問題進行總結,事后匯報情況處理記錄。