男生插女生下面的视频_麻豆视频福利_国产视频不卡在线_黑人巨大精品欧美一区二区区

GBase新聞

專注于數(shù)據(jù)庫軟件產(chǎn)品和服務(wù),致力于成為用戶最信賴的數(shù)據(jù)庫產(chǎn)品供應(yīng)商

數(shù)據(jù)庫出現(xiàn)故障時,如何應(yīng)急處理?別慌,照這樣做(下篇)

發(fā)布時間:2024-07-30

當(dāng)數(shù)據(jù)庫發(fā)生故障時,你會如何進行應(yīng)急處理?本文通過梳理南大通用GBase 8a數(shù)據(jù)庫系統(tǒng)使用中可能出現(xiàn)的各種異常情況,以期幫助大家應(yīng)對GBase 8a數(shù)據(jù)庫使用中的突發(fā)故障,提供基本的問題解決思路。本期續(xù)上篇,重點聚焦數(shù)據(jù)庫服務(wù)異常、數(shù)據(jù)丟失及其他異常等故障類型。

4.數(shù)據(jù)庫服務(wù)異常

4.1 GBase集群服務(wù)進程crash

現(xiàn)象描述
集群各節(jié)點服務(wù):gclusterd、gbased、gcware、gcrecover、gc_sync_server 5個進程異常crash。

現(xiàn)象分析
集群各節(jié)點服務(wù):gclusterd、gbased、gcware、gcrecover、gc_sync_server 5個進程異常crash。

應(yīng)急操作流程
此種異常大多由于某條SQL或某場景下觸發(fā)GBase bug導(dǎo)致,需要通知應(yīng)用協(xié)助排查問題原因。
1)通知開放平臺和GBase廠商協(xié)助排查問題。
2)運行部門分析系統(tǒng)中運行的異常SQL。
3)運行部門停止產(chǎn)生問題的SQL。
4)GBase廠商分析該問題場景,提供短期解決方法及后續(xù)修復(fù)時間。

4.2.GBase集群服務(wù)無法啟動

現(xiàn)象描述
集群各節(jié)點服務(wù):gclusterd、gbased、gcware、gcrecover、gc_sync_server服務(wù)無法啟動。

現(xiàn)象分析
集群各節(jié)點服務(wù):gclusterd、gbased、gcware、gcrecover、gc_sync_server 服務(wù)無法啟動,通常情況為GBase 8a集群產(chǎn)品bug導(dǎo)致。

應(yīng)急操作流程
通常情況為GBase 8a集群產(chǎn)品bug導(dǎo)致。
1)運行部門通知開放平臺和GBase廠商協(xié)助排查問題。
2)運行部門和GBase廠商分析運行日志及運行場景。
3)GBase廠商分析該問題場景,提供短期解決方法及后續(xù)修復(fù)時間。

5.數(shù)據(jù)丟失

5.1.集群中多節(jié)點故障,導(dǎo)致集群數(shù)據(jù)丟失

現(xiàn)象描述
多節(jié)點故障,集群數(shù)據(jù)丟失

現(xiàn)象分析
比較極端的情況下,GBase 8a數(shù)據(jù)庫多節(jié)點故障,導(dǎo)致集群數(shù)據(jù)丟失,數(shù)據(jù)無法修復(fù)。

應(yīng)急操作流程
用備份數(shù)據(jù)進行恢復(fù)。
1)通知開放平臺和GBase廠商協(xié)助排查問題;
2)運行部門停止運行任務(wù)。(10分鐘)
3)GBase廠商停止數(shù)據(jù)庫服務(wù);
4)GBase廠商從備份介質(zhì)恢復(fù)最近的備份數(shù)據(jù);(數(shù)據(jù)量大小不同,恢復(fù)需要的時間差異較大,通常在12-24小時之間)
5)GBase廠商啟動服務(wù),校驗集群數(shù)據(jù)一致性;(30分鐘)
6)運行部門恢復(fù)服務(wù),通知運行部門啟動任務(wù)。

6.其他異常

6.1 數(shù)據(jù)不一致錯誤

現(xiàn)象描述
集群節(jié)點出現(xiàn)數(shù)據(jù)不一致報警

現(xiàn)象分析
某個節(jié)點網(wǎng)絡(luò)閃斷的情況下,會出現(xiàn)數(shù)據(jù)不一致的情況,通常會在網(wǎng)絡(luò)恢復(fù)之后自動進行數(shù)據(jù)同步。如果長時間處于數(shù)據(jù)不一致狀態(tài),則需要手工同步數(shù)據(jù)。

應(yīng)急操作流程
在網(wǎng)絡(luò)恢復(fù)的情況下,數(shù)據(jù)不一致的節(jié)點會自動恢復(fù),檢查網(wǎng)絡(luò)情況,如果網(wǎng)絡(luò)恢復(fù)后一個小時數(shù)據(jù)依然不同步,考慮進行手工同步過程。
1)運行部門通知開放平臺和GBase廠商協(xié)助排查問題
2)臨時表加載個別報警可以等待10分鐘,集群自動同步成功,則問題正常結(jié)束,否則需要GBase現(xiàn)場支持判斷是否需要停止集群服務(wù),停止運行任務(wù),執(zhí)行3-6步操作。(取決于當(dāng)時任務(wù)的大小,通常在1小時-4小時之間)
3)GBase 8a停止數(shù)據(jù)庫服務(wù)(20分鐘)
4)GBase廠商分析數(shù)據(jù)不一致的表,進行手工同步 (根據(jù)表大小和不一致的表的數(shù)量,時間通常在2-8小時之間)
5)GBase廠商啟動數(shù)據(jù)庫服務(wù),校驗數(shù)據(jù)一致性(30分鐘)
6)GBase通知運行部門,系統(tǒng)恢復(fù),啟動任務(wù)運行。

6.2數(shù)據(jù)錯誤

現(xiàn)象描述
某SQL語句執(zhí)行結(jié)果集錯誤。

現(xiàn)象分析
由GBase 8a數(shù)據(jù)庫執(zhí)行計劃bug導(dǎo)致SQL語句結(jié)果集錯誤。

應(yīng)急操作流程
如發(fā)現(xiàn)此類問題,需應(yīng)用配合分析目前系統(tǒng)受到的影響范圍及考慮后續(xù)修復(fù)方法。
1)運行部門通知開放平臺和GBase廠商協(xié)助排查問題;
2)GBase廠商分析定位問題,給出詳細原因說明及修復(fù)方案、規(guī)避方法;
3)應(yīng)用部門依據(jù)廠商說明,分析影響范圍,排查影響范圍;
4)運行部門和GBase廠商修復(fù)錯誤數(shù)據(jù),并修改程序規(guī)避問題。
5)GBase廠商提供修復(fù)問題版本。

6.3 執(zhí)行報錯

現(xiàn)象描述
某SQL語句執(zhí)行報錯。

現(xiàn)象分析
由GBase 8a數(shù)據(jù)庫bug導(dǎo)致SQL語句執(zhí)行報錯。

應(yīng)急操作流程
如發(fā)現(xiàn)此類問題,需責(zé)成廠商分析該bug原因,并提供解決期限。
1)通知門通知開放平臺和GBase廠商協(xié)助排查問題;
2)Gbase廠商分析并提供規(guī)避方案。
3)應(yīng)用部門依據(jù)廠商說明,進行問題規(guī)避;
4)GBase廠商提供修復(fù)問題版本。

6.4 并發(fā)過高導(dǎo)致的數(shù)據(jù)庫節(jié)點負載過高問題

判斷并發(fā)過高主要表現(xiàn)在以下幾個方面:
(1)系統(tǒng)CPU使用平均超過90%。
(2)磁盤IO接近飽和。
(3)通過show processlist查看發(fā)現(xiàn)并發(fā)過高,且有1~3個超長任務(wù)(超過或接近1小時)。

解決方法:
1)降低調(diào)度系統(tǒng)并發(fā)數(shù)
2)調(diào)整長作業(yè)與短作業(yè)并發(fā)順序,長作業(yè)與短作業(yè)均勻運行,避免長作業(yè)集中運行