男生插女生下面的视频_麻豆视频福利_国产视频不卡在线_黑人巨大精品欧美一区二区区

GBase新聞

專注于數據庫軟件產品和服務,致力于成為用戶最信賴的數據庫產品供應商

數據庫出現故障時,如何應急處理?別慌,照這樣做(上篇)

發布時間:2024-07-30

當數據庫發生故障時,你會如何進行應急處理?本文通過梳理南大通用GBase 8a數據庫系統使用中可能出現的各種異常情況,以期幫助大家應對GBase 8a數據庫使用中的突發故障,提供基本的問題解決思路。本期將從硬件故障、操作系統故障及資源使用情況異常三種類別展開。

1.硬件級別故障

1.1  GBase 8a數據節點硬件級別故障

現象描述
GBase 8a單節點宕機或Hang住。

現象分析
GBase 8a數據節點主機因電源模塊故障、主板等硬件原因導致宕機;另外還包括本地磁盤故障、對外服務網絡中斷、Raid卡故障所有通道連接中斷等系統無法正常對外提供服務的情況。

應急操作流程
GBase 8a集群允許一臺機器脫離集群,帶病運行一段時間,但無法長期運行,需要盡快停止業務,對故障硬件進行修復。建議處置方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)開放平臺通知設備維護廠商現場支持,進行故障硬件維修;(10分鐘)
3)運行部門停止故障集群上的作業。(取決于當時任務的大小,通常在1小時-4小時之間)
4)硬件廠商修復故障機器。(4-8小時)
5)GBase現場支持啟動數據庫服務,進行數據同步等狀態檢查,如有異常進行數據修復。(30分鐘)
6)運行部門啟動集群作業。

1.2 加載機硬件級別故障

現象描述
加載機宕機或Hang住。

現象分析
加載機主機因電源模塊故障、主板等硬件原因導致宕機;另外還包括本地磁盤故障、對外服務網絡中斷、Raid卡故障所有通道連接中斷等系統無法正常對外提供服務的情況。

應急操作流程
目前大數據平臺應用架構實現加載機高可用,8臺加載機任意一臺或多臺(非全部)出現故障,不會引起應用中斷。建議處置方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)開放平臺通知設備維護廠商現場支持,進行故障硬件維修;(10分鐘)
3)硬件廠商修復故障機器。(4-8小時)
4)GBASE南大通用現場支持或運行部門管理員啟動加載機上加載、應用服務等。(30分鐘)

2. 操作系統級別故障

2.1GBase 8a數據節點操作系統級別故障

2.1.1 操作系統損壞

現象描述
單節點操作系統損壞。

現象分析
GBase 8a數據節點Raid卡故障或操作系統故障,導致系統無法提供服務,需要重新安裝操作系統。

應急操作流程
GBase 8a集群允許一臺機器脫離集群,帶病運行一段時間,但無法長期運行,需要盡快停止業務,對故障機器進行修復。可以使用預先準備好的備用機加入GBase 8a集群,減少安裝操作系統的時間,縮短修復過程。建議處置方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)設置備用機,準備好加入集群。(10分鐘)
3)運行部門停止故障集群上的作業。(取決于當時任務的大小,通常在1小時-4小時之間)
4)GBASE南大通用現場支持停止故障機,配置備機IP,進行GBase 8a數據同步;(根據數據量大小,通常在12-24小時之間)
5)GBASE南大通用現場支持啟動GBase 8a集群。(20分鐘)
6)運行部門啟動集群作業。

2.1.2. 文件系統故障

現象描述
文件系統或者邏輯卷故障。

現象分析
本地磁盤、存儲磁盤損壞,導致文件系統或者邏輯卷故障,以及空間滿等,導致應用數據對磁盤讀寫異常。

應急操作流程
本地磁盤故障,導致系統io讀寫異常,不能正常對外服務。建議處置記錄方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)開放平臺通知硬件維保廠商,檢查硬件日志,定位問題;
3)嘗試登錄系統,檢查系統日志及磁盤讀寫情況;
4)一般情況下本地硬盤使用Raid5,出現該場景問題的幾率很低,硬件故障可能性較大;
5)硬件廠商更換故障磁盤;
6)如果文件丟失,使用備份文件進行恢復。GBase 8a數據庫文件損壞,使用GBase 8a同步功能進行修復。
7)GBASE南大通用現場支持啟動服務,觀察問題是否解決。

2.2.加載機操作系統級別故障

2.2.1.操作系統損壞

現象描述
單節點操作系統損壞。

現象分析
GBase 8a數據節點Raid卡故障或操作系統故障,導致系統無法提供服務,需要重新安裝操作系統。

應急操作流程
目前大數據平臺應用架構實現加載機高可用,8臺加載機任意一臺或多臺(非全部)出現故障,不會引起應用中斷。建議處置方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)開放平臺重新安裝操作系統。(1小時)
3)開放平臺配置IP、部署GBase 8a加載服務、客戶端、應用服務等。(1小時)
4)GBASE南大通用現場支持或運行部門管理員啟動該加載機服務。

2.2.2.文件系統故障

現象描述
文件系統或者邏輯卷故障。

現象分析
本地磁盤、存儲磁盤損壞,導致文件系統或者邏輯卷故障,以及空間滿等,導致應用數據對磁盤讀寫異常。

應急操作流程
大數據平臺應用架構實現加載機高可用,8臺加載機任意一臺或多臺(非全部)出現故障,不會引起應用中斷。建議處置記錄方法:
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)開放平臺通知硬件維保廠商,檢查硬件日志,定位問題;
3)嘗試登錄系統,檢查系統日志及磁盤讀寫情況;
4)一般情況下本地硬盤使用Raid5,出現該場景問題的幾率很低,硬件故障可能性較大;
5)硬件廠商更換故障磁盤;
6)GBase現場支持或運行部門管理員啟動服務,觀察問題是否解決。

3. 資源使用情況異常

3.1Swap使用率增高

現象描述
集群中大量節點Swap使用率增高

現象分析
GBase 8a軟件異常,或者異常SQL導致GBase 8a內存溢出,使用內存不斷增加,不及時處理會導致Swap空間占滿,系統異常宕機。

應急操作流程
此種異常大多由于GBase 8a軟件或異常SQL導致,需要通知應用協助排查問題原因。
1)運行部門聯系開放平臺協助排查問題,通知GBase現場支持協助排查問題;
2)運行部門和GBase現場支持分析系統中運行的異常SQL。
3)運行部門停止產生問題的SQL。
4)開放平臺清理操作系統內存,降低Swap使用率。
5)GBase現場支持協助開發優化異常SQL
6)運行部門避免未經測試的SQL運行在生產環境

3.2 CPU使用率增高

現象描述
集群中大量節點CPU使用率增高,IO接近飽和。

現象分析
CPU的大部分時間花在系統切換上,GBase 8a同時處理的并發過高,并且存在幾個超長任務(超過2小時未執行完)。

應急操作流程
此種異常大多由于業務調度的并發過高引起,會導致任務處理的整體速度降低。
1)運行部門聯系開放平臺協助排查問題,通知GBase現場支持協助排查;
2)運行部門和GBase現場支持分析系統中并發運行的任務數。
3)如果并發過高,運行部門降低并發數。如果存在超長SQL,商量是否需要先殺掉,以避免拉低整體性能。
4)GBase現場支持協助開發優化異常SQL,避免未經測試的SQL運行在生產環境。
5)運行部門避免在統一調度系統之外,手工調起作業。

3.3 磁盤IO異常繁忙

現象描述
集群中單個節點或多個節點IO異常繁忙。

現象分析
集群單個節點或多個節點DISKBUSY原高于其他節點(如超過12時間DISKBUSY高于80%)。

應急操作流程
此種異常大多由于硬盤故障或硬盤背板、RAID卡故障引起,會導致任務處理的整體速度降低。
1)運行部門聯系開放平臺確認問題,并進行后續處理;
2)硬件廠商抓取硬件運行日志,并分析。
3)如果并發過高,運行部門降低并發數。如果存在超長SQL,商量是否需要先殺掉,以避免拉低整體性能。
4)廠商分析日志確定故障硬件后,更換硬件,如更換硬件需停止操作系統,需停止集群服務。
5)GBase現場支持恢復服務。

3.4 磁盤空間滿或超過閾值

現象描述
集群中單個節點或多個節點磁盤空間滿或使用超過80%。

現象分析
集群中單個節點或多個節點磁盤空間使用超過80%,因GBase 8a集群數據節點須保留20%~30%作為臨時空間,磁盤總空間滿后,部分SQL會報錯,甚至可能到會GBase 8a服務進程crash。

應急操作流程
一般情況下短時間內磁盤使用大幅上升是由笛卡爾乘積SQL或GBase 8a執行計劃bug導致。
1)運行部門分析GBase 8a臨時空間使用情況。
2)運行部門分析運行SQL情況,確定哪條SQL導致。
3)Kill SQL,觀察空間是否釋放。
4)如笛卡爾乘積,則反饋開發部分進行處理;如GBase執行計劃問題,反饋數據庫廠商,要求提供短期解決方案及后期修復計劃。
5)恢復服務。