GBase新聞

專注于數據庫軟件產品和服務，致力于成為用戶最信賴的數據庫產品供應商

數據庫出現故障時，如何應急處理?別慌，照這樣做（上篇）

發布時間：2024-07-30

當數據庫發生故障時，你會如何進行應急處理？本文通過梳理南大通用GBase 8a數據庫系統使用中可能出現的各種異常情況，以期幫助大家應對GBase 8a數據庫使用中的突發故障，提供基本的問題解決思路。本期將從硬件故障、操作系統故障及資源使用情況異常三種類別展開。

1.硬件級別故障

1.1 GBase 8a數據節點硬件級別故障

現象描述
GBase 8a單節點宕機或Hang住。

現象分析
GBase 8a數據節點主機因電源模塊故障、主板等硬件原因導致宕機；另外還包括本地磁盤故障、對外服務網絡中斷、Raid卡故障所有通道連接中斷等系統無法正常對外提供服務的情況。

應急操作流程
GBase 8a集群允許一臺機器脫離集群，帶病運行一段時間，但無法長期運行,需要盡快停止業務，對故障硬件進行修復。建議處置方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)開放平臺通知設備維護廠商現場支持，進行故障硬件維修；（10分鐘）
3)運行部門停止故障集群上的作業。（取決于當時任務的大小，通常在1小時-4小時之間）
4)硬件廠商修復故障機器。（4-8小時）
5)GBase現場支持啟動數據庫服務，進行數據同步等狀態檢查，如有異常進行數據修復。（30分鐘）
6)運行部門啟動集群作業。

1.2 加載機硬件級別故障

現象描述
加載機宕機或Hang住。

現象分析
加載機主機因電源模塊故障、主板等硬件原因導致宕機；另外還包括本地磁盤故障、對外服務網絡中斷、Raid卡故障所有通道連接中斷等系統無法正常對外提供服務的情況。

應急操作流程
目前大數據平臺應用架構實現加載機高可用，8臺加載機任意一臺或多臺（非全部）出現故障，不會引起應用中斷。建議處置方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)開放平臺通知設備維護廠商現場支持，進行故障硬件維修；（10分鐘）
3)硬件廠商修復故障機器。（4-8小時）
4)GBASE南大通用現場支持或運行部門管理員啟動加載機上加載、應用服務等。（30分鐘）

2. 操作系統級別故障

2.1GBase 8a數據節點操作系統級別故障

2.1.1 操作系統損壞

現象描述
單節點操作系統損壞。

現象分析
GBase 8a數據節點Raid卡故障或操作系統故障，導致系統無法提供服務，需要重新安裝操作系統。

應急操作流程
GBase 8a集群允許一臺機器脫離集群，帶病運行一段時間，但無法長期運行,需要盡快停止業務，對故障機器進行修復。可以使用預先準備好的備用機加入GBase 8a集群，減少安裝操作系統的時間，縮短修復過程。建議處置方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)設置備用機，準備好加入集群。（10分鐘）
3)運行部門停止故障集群上的作業。（取決于當時任務的大小，通常在1小時-4小時之間）
4)GBASE南大通用現場支持停止故障機，配置備機IP，進行GBase 8a數據同步；（根據數據量大小，通常在12-24小時之間）
5)GBASE南大通用現場支持啟動GBase 8a集群。（20分鐘）
6)運行部門啟動集群作業。

2.1.2. 文件系統故障

現象描述
文件系統或者邏輯卷故障。

現象分析
本地磁盤、存儲磁盤損壞，導致文件系統或者邏輯卷故障，以及空間滿等，導致應用數據對磁盤讀寫異常。

應急操作流程
本地磁盤故障，導致系統io讀寫異常，不能正常對外服務。建議處置記錄方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)開放平臺通知硬件維保廠商，檢查硬件日志，定位問題；
3)嘗試登錄系統，檢查系統日志及磁盤讀寫情況；
4)一般情況下本地硬盤使用Raid5，出現該場景問題的幾率很低，硬件故障可能性較大；
5)硬件廠商更換故障磁盤；
6)如果文件丟失，使用備份文件進行恢復。GBase 8a數據庫文件損壞，使用GBase 8a同步功能進行修復。
7)GBASE南大通用現場支持啟動服務，觀察問題是否解決。

2.2.加載機操作系統級別故障

2.2.1.操作系統損壞

現象描述
單節點操作系統損壞。

現象分析
GBase 8a數據節點Raid卡故障或操作系統故障，導致系統無法提供服務，需要重新安裝操作系統。

應急操作流程
目前大數據平臺應用架構實現加載機高可用，8臺加載機任意一臺或多臺（非全部）出現故障，不會引起應用中斷。建議處置方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)開放平臺重新安裝操作系統。（1小時）
3)開放平臺配置IP、部署GBase 8a加載服務、客戶端、應用服務等。（1小時）
4)GBASE南大通用現場支持或運行部門管理員啟動該加載機服務。

2.2.2.文件系統故障

現象描述
文件系統或者邏輯卷故障。

現象分析
本地磁盤、存儲磁盤損壞，導致文件系統或者邏輯卷故障，以及空間滿等，導致應用數據對磁盤讀寫異常。

應急操作流程
大數據平臺應用架構實現加載機高可用，8臺加載機任意一臺或多臺（非全部）出現故障，不會引起應用中斷。建議處置記錄方法：
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)開放平臺通知硬件維保廠商，檢查硬件日志，定位問題；
3)嘗試登錄系統，檢查系統日志及磁盤讀寫情況；
4)一般情況下本地硬盤使用Raid5，出現該場景問題的幾率很低，硬件故障可能性較大；
5)硬件廠商更換故障磁盤；
6)GBase現場支持或運行部門管理員啟動服務，觀察問題是否解決。

3. 資源使用情況異常

3.1Swap使用率增高

現象描述
集群中大量節點Swap使用率增高

現象分析
GBase 8a軟件異常，或者異常SQL導致GBase 8a內存溢出，使用內存不斷增加，不及時處理會導致Swap空間占滿，系統異常宕機。

應急操作流程
此種異常大多由于GBase 8a軟件或異常SQL導致，需要通知應用協助排查問題原因。
1)運行部門聯系開放平臺協助排查問題，通知GBase現場支持協助排查問題；
2)運行部門和GBase現場支持分析系統中運行的異常SQL。
3)運行部門停止產生問題的SQL。
4)開放平臺清理操作系統內存，降低Swap使用率。
5)GBase現場支持協助開發優化異常SQL
6)運行部門避免未經測試的SQL運行在生產環境

3.2 CPU使用率增高

現象描述
集群中大量節點CPU使用率增高，IO接近飽和。

現象分析
CPU的大部分時間花在系統切換上，GBase 8a同時處理的并發過高，并且存在幾個超長任務（超過2小時未執行完）。

應急操作流程
此種異常大多由于業務調度的并發過高引起,會導致任務處理的整體速度降低。
1)運行部門聯系開放平臺協助排查問題，通知GBase現場支持協助排查；
2)運行部門和GBase現場支持分析系統中并發運行的任務數。
3)如果并發過高，運行部門降低并發數。如果存在超長SQL，商量是否需要先殺掉，以避免拉低整體性能。
4)GBase現場支持協助開發優化異常SQL，避免未經測試的SQL運行在生產環境。
5)運行部門避免在統一調度系統之外，手工調起作業。

3.3 磁盤IO異常繁忙

現象描述
集群中單個節點或多個節點IO異常繁忙。

現象分析
集群單個節點或多個節點DISKBUSY原高于其他節點（如超過12時間DISKBUSY高于80%）。

應急操作流程
此種異常大多由于硬盤故障或硬盤背板、RAID卡故障引起,會導致任務處理的整體速度降低。
1)運行部門聯系開放平臺確認問題，并進行后續處理；
2)硬件廠商抓取硬件運行日志，并分析。
3)如果并發過高，運行部門降低并發數。如果存在超長SQL，商量是否需要先殺掉，以避免拉低整體性能。
4)廠商分析日志確定故障硬件后，更換硬件，如更換硬件需停止操作系統，需停止集群服務。
5)GBase現場支持恢復服務。

3.4 磁盤空間滿或超過閾值

現象描述
集群中單個節點或多個節點磁盤空間滿或使用超過80%。

現象分析
集群中單個節點或多個節點磁盤空間使用超過80%，因GBase 8a集群數據節點須保留20%~30%作為臨時空間，磁盤總空間滿后，部分SQL會報錯，甚至可能到會GBase 8a服務進程crash。

應急操作流程
一般情況下短時間內磁盤使用大幅上升是由笛卡爾乘積SQL或GBase 8a執行計劃bug導致。
1)運行部門分析GBase 8a臨時空間使用情況。
2)運行部門分析運行SQL情況，確定哪條SQL導致。
3)Kill SQL，觀察空間是否釋放。
4)如笛卡爾乘積，則反饋開發部分進行處理;如GBase執行計劃問題，反饋數據庫廠商，要求提供短期解決方案及后期修復計劃。
5)恢復服務。

男生插女生下面的视频_麻豆视频福利_国产视频不卡在线_黑人巨大精品欧美一区二区区

客戶案例

解決方案

下載中心

GBase新聞

GBase活動

GBase新聞

數據庫出現故障時，如何應急處理?別慌，照這樣做（上篇）

解決方案

生態合作

客戶案例

服務與下載