久久99国产精品尤物|久久黄色视频二区|三级在线播放试看无码一区二区|国产综合在线观看精品12

電話:+86 574 88168918 郵箱:sales@aliance.cn

首頁-新聞動態-新聞詳情

如何減少數據中心中最嚴重硬件故障?

發布時間:作者:cobinet 萬兆(zhao)屏(ping)蔽模(mo)塊瀏覽:249次來(lai)源(yuan):
CobiNet(寧波)推薦文章:

硬件故(gu)障(zhang)在大型和云服(fu)務基礎設(she)施中非常普遍,這些故(gu)障(zhang)可能導致違反服(fu)務水平協議(SLA)并造成巨(ju)大經(jing)濟損(sun)失。

內存故障是(shi)當今數(shu)據中(zhong)心中(zhong)最嚴重的(de)硬件故障之一(yi),眾所周(zhou)知,它嚴重影響(xiang)了系統的(de)可(ke)靠性、可(ke)用性和可(ke)維護性(RAS)。這(zhe)些故障可(ke)能是(shi)由超(chao)出(chu)正常使用范圍的(de)多(duo)種因素引起的(de),包括制造(zao)缺陷以及極端(duan)的(de)環境或操作條件。

雖然普遍(bian)接受的(de)技(ji)術,例如,糾錯碼(ECC)和(he)(he)可(ke)糾正錯誤,基于(yu)閾值的(de)預測性故障分析(xi)(PFA))可(ke)克服雙列直插式內存模塊(DIMM)的(de)一些可(ke)糾正錯誤,但(dan)它(ta)們具(ju)有(you)成本、可(ke)靠性、覆(fu)蓋范圍和(he)(he)性能方(fang)面的(de)影響。

可(ke)糾(jiu)正(zheng)(zheng)錯誤數量的(de)激(ji)增可(ke)能(neng)導致(zhi)服(fu)(fu)務器(qi)性(xing)能(neng)下降,甚至導致(zhi)拒絕(jue)服(fu)(fu)務。此外,ECC和基于閾(yu)值的(de)可(ke)糾(jiu)正(zheng)(zheng)錯誤的(de)PFA不能(neng)幫(bang)助克服(fu)(fu)無法糾(jiu)正(zheng)(zheng)的(de)錯誤,如災難性(xing)故(gu)障通常導致(zhi)崩(beng)潰(kui)。

對于(yu)嚴重(zhong)依(yi)賴服(fu)務器可(ke)靠性(xing)、可(ke)用(yong)性(xing)和(he)可(ke)維(wei)護性(xing)的組織,英(ying)(ying)特(te)爾(er)內存故(gu)障(zhang)預測(ce)(Intel MFP)是理想的解決(jue)方案。對于(yu)當今的數(shu)據中心而(er)言,提前(qian)預測(ce)未來的內存故(gu)障(zhang)已變(bian)得至關重(zhong)要(yao)。通過分析歷(li)史數(shu)據以預測(ce)潛(qian)在的災難性(xing)事件,英(ying)(ying)特(te)爾(er) MFP可(ke)以在內存故(gu)障(zhang)事件發生(sheng)之前(qian)對其進行預測(ce)。

該解決(jue)方案(an)具有多項創(chuang)新和原始功能。它基(ji)于歷史數(shu)據來預(yu)測行、列和單元格中的(de)微型故障,并(bing)使用(yong)低開(kai)銷的(de)在線學習方法來提高(gao)其(qi)預(yu)測精度并(bing)避免干擾關鍵的(de)計算(suan)任(ren)務。

這也(ye)使Intel MFP能夠(gou)為主動(dong)內存(cun)(cun)故障管理(li)生成估計(ji)的內存(cun)(cun)運行狀況評分,從而使用戶能夠(gou)采取相應(ying)的措施。英(ying)特爾(er)MFP與供應(ying)商(shang)無關,并且(qie)可以與其他數據中心(xin)管理(li)解決(jue)方(fang)案(包括英(ying)特爾(er)數據中心(xin)管理(li)器(Intel DCM))一(yi)起使用。

將與內存故障相關的服務(wu)器崩潰(kui)減少(shao)40%

在騰訊的(de)一(yi)個案(an)例研究中,英(ying)特爾MFP算法的(de)初(chu)步協(xie)作(zuo)測試(shi)顯示出(chu)快速(su)的(de)結果,并將(jiang)內(nei)存(cun)故(gu)障和系統停機(ji)時間減(jian)少了五倍(bei)。合作(zuo)伙伴還通過(guo)在操作(zuo)系統級別明(ming)智(zhi)地(di)避免出(chu)現內(nei)存(cun)故(gu)障,直到更換(huan)了該內(nei)存(cun)模塊為止,從(cong)而擴展了此(ci)支(zhi)持。

在與美團(tuan)的(de)類似案例研究(jiu)中,該公(gong)司發現(xian)由于內存錯誤(wu)導致的(de)服務器(qi)崩潰減少(shao)了40%。該公(gong)司通過(guo)將Intel MFP集成到其(qi)現(xian)有數據中心管(guan)理解決方案中,監(jian)控了服務器(qi)內存模塊的(de)運行狀(zhuang)況。通過(guo)分(fen)析以前由其(qi)數據中心管(guan)理軟件收集的(de)數據,他(ta)們(men)能夠為每個(ge)DRAM模塊生(sheng)成預測分(fen)數,然后采取適當的(de)措施來維護其(qi)SLA并最大化服務正常運行時間。

借助(zhu)新功能,英特爾(er)與全(quan)(quan)球領(ling)先的AMI合作,通(tong)過其BIOS、BMC和(he)安全(quan)(quan)解決方案(an)為全(quan)(quan)球互(hu)聯數(shu)字基(ji)礎(chu)架(jia)構提供電源、管理和(he)保護,并決心將這種(zhong)支持擴(kuo)展到整個(ge)行(xing)業。

因為捕獲和(he)(he)分(fen)析(xi)內存錯誤需(xu)要UEFI和(he)(he)BMC固件(jian)之間緊密(mi)的聯系,所以AMI致力于(yu)使(shi)Intel MFP易于(yu)被現有和(he)(he)將來的服務器平臺(tai)采用。

捕獲(huo)錯(cuo)(cuo)誤后,它們(men)將(jiang)由BIOS記錄(lu),然(ran)后某些元(yuan)數(shu)據(ju)(ju)信息將(jiang)傳遞到(dao)BMC固(gu)件。然(ran)后,BMC固(gu)件將(jiang)獲(huo)取此元(yuan)數(shu)據(ju)(ju),并(bing)通過Intel MFP引擎運行,以計(ji)算內(nei)存模塊的運行狀(zhuang)況得(de)分(fen)(fen)。當檢測到(dao)新的錯(cuo)(cuo)誤時(shi),AMI解決(jue)方案將(jiang)跟蹤每個內(nei)存模塊的運行狀(zhuang)況評分(fen)(fen),并(bing)公(gong)開結果(guo)供系統(tong)管理員進行分(fen)(fen)析。

AMI的默(mo)認實現(xian)在(zai)BUI的Web UI中提供當前的內(nei)存模塊運(yun)行狀況(kuang)(kuang)得分(fen)信息(xi),并通過遵循DMTF Redfish標準的RESTful API公(gong)開相同的內(nei)存運(yun)行狀況(kuang)(kuang)得分(fen)信息(xi)。

RESTful API可輕松與現有(you)(you)數(shu)(shu)據中心管(guan)理軟(ruan)件(jian)集成。但(dan)是,對于那些(xie)不太愿意(yi)與自己(ji)的(de)軟(ruan)件(jian)集成的(de)數(shu)(shu)據中心,AMI提供(gong)了一個稱為AMI Composer的(de)數(shu)(shu)據管(guan)理工(gong)具,該工(gong)具開發為完全符合Intel Rack Scale Design和DMTF Redfish標準,它將匯總所有(you)(you)信息并通過一個基于Web的(de)儀表板。

為數據中(zhong)心和云服務提供商(shang)帶來的(de)直接好(hao)處

當(dang)然(ran),在創建機器學習算法時(shi),它實際上永(yong)遠不會完成。當(dang)前的(de)Intel MFP模(mo)型支持(chi)在具有Intel Xeon可(ke)擴展處理器的(de)平(ping)臺上運(yun)行的(de)DDR4內(nei)存模(mo)塊,并且Intel繼續收(shou)集有關內(nei)存錯(cuo)誤和內(nei)存模(mo)塊故(gu)障的(de)更多信息,以(yi)改進模(mo)型。

此外,當新的內存模塊(kuai)類型引入行業(ye)或對現(xian)有(you)技術(shu)進(jin)行改進(jin)時,英特爾 MFP將為它們(men)提供支持。

最重要的(de)是,將(jiang)(jiang)對所有(you)更(geng)(geng)新進行適當的(de)分析(xi)以包含在MFP模型(xing)(xing)中,以便在英特爾更(geng)(geng)新MFP模型(xing)(xing)時,AMI將(jiang)(jiang)為提供給行業合作伙伴(ban)的(de)現(xian)有(you)技術提供易于(yu)實現(xian)的(de)更(geng)(geng)新。

對于數(shu)據中(zhong)心和云服務提供(gong)商而(er)言,在Aptio V UEFI固件和MegaRAC BMC固件中(zhong)添加(jia)Intel MFP支持的好處顯而(er)易見(jian)。改進了數(shu)據中(zhong)心SLA。通過主動的內(nei)存運行狀況評估和增強的內(nei)存頁(ye)面(mian)脫機(ji)策略,可以(yi)降低DIMM故障率(lv)。

而(er)(er)且,最(zui)重要的是(shi),更高的DIMM性(xing)能(neng)和可(ke)靠性(xing)可(ke)優化工作負載和虛擬機(VM)遷移決策(ce),從(cong)而(er)(er)提高效率和靈活性(xing),同時降低總擁有成(cheng)本。

對(dui)于(yu)希望在配(pei)備AMI Aptio V UEFI BIOS和MegaRAC BMC固(gu)件的(de)系(xi)統上利用英(ying)特爾MFP的(de)公司,建議他們(men)要求(qiu)其系(xi)統制(zhi)造商(shang)將AMI連同(tong)用于(yu)MegaRAC BMC固(gu)件的(de)帶有Intel MFP選(xuan)件包的(de)AMI和具有英(ying)特爾內存(cun)故障預測功能的(de)AMI一起包括在內。適用于(yu)Aptio UEFI固(gu)件的(de)eModule。

文章編輯:CobiNet(寧波)  
本公司專注于電訊配件,銅纜綜合布線系列領域產品研發生產超五類,六類,七類屏蔽網線/屏蔽模塊及相關模塊配件, 光纖及配件,我們是萬兆屏蔽模塊10G屏蔽模塊屏蔽線生(sheng)產廠家,綜合布線(xian)實施公司。

 歡(huan)迎來電咨詢0574 88168918,郵箱(xiang)sales@aliance.cn,網址(zhi)aliance.cn

相關新聞

 

?2016-2019寧波(bo)科博通信技術有(you)限公司(si)版(ban)權所有(you)