国产chinesehdxxxx野外,国产av无码专区亚洲av琪琪,播放男人添女人下边视频,成人国产精品一区二区免费看,chinese丰满人妻videos

Hadoop Failover

2022-02-28 09:25 更新

失敗類型

  1. 程序問題
  2. 進程崩潰
  3. 硬件問題

失敗處理

任務(wù)失敗

  1. 運行時異?;蛘逬VM退出都會報告給ApplicationMaster
  2. 通過心跳來檢查掛住的任務(wù)(timeout),會檢查多次(可配置)才判斷該任務(wù)是否失效
  3. 一個作業(yè)的任務(wù)失敗率超過配置,則認(rèn)為該作業(yè)失敗
  4. 失敗的任務(wù)或作業(yè)都會有ApplicationMaster重新運行

ApplicationMaster失敗

  1. ApplicationMaster定時發(fā)送心跳信號到ResourceManager,通常一旦ApplicationMaster失敗,則認(rèn)為失敗,但也可以通過配置多次后才失敗
  2. 一旦ApplicationMaster失敗,ResourceManager會啟動一個新的ApplicationMaster
  3. 新的ApplicationMaster負(fù)責(zé)恢復(fù)之前錯誤的ApplicationMaster的狀態(tài)(yarn.app.mapreduce.am.job.recovery.enable=true),這一步是通過將應(yīng)用運行狀態(tài)保存到共享的存儲上來實現(xiàn)的,ResourceManager不會負(fù)責(zé)任務(wù)狀態(tài)的保存和恢復(fù)
  4. Client也會定時向ApplicationMaster查詢進度和狀態(tài),一旦發(fā)現(xiàn)其失敗,則向ResouceManager詢問新的ApplicationMaster

NodeManager失敗

  1. NodeManager定時發(fā)送心跳到ResourceManager,如果超過一段時間沒有收到心跳消息,ResourceManager就會將其移除
  2. 任何運行在該NodeManager上的任務(wù)和ApplicationMaster都會在其他NodeManager上進行恢復(fù)
  3. 如果某個NodeManager失敗的次數(shù)太多,ApplicationMaster會將其加入黑名單(ResourceManager沒有),任務(wù)調(diào)度時不在其上運行任務(wù)

ResourceManager失敗

  1. 通過checkpoint機制,定時將其狀態(tài)保存到磁盤,然后失敗的時候,重新運行
  2. 通過zookeeper同步狀態(tài)和實現(xiàn)透明的HA

可以看出,一般的錯誤處理都是由當(dāng)前模塊的父模塊進行監(jiān)控(心跳)和恢復(fù)。而最頂端的模塊則通過定時保存、同步狀態(tài)和zookeeper來?實現(xiàn)HA

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號