人員屏障(People Barriers) Mars Climate Orbiter 事件
人員不足(Lack of Staff)
首先是人員不足。
主線調查發現行動導航團隊(Operations Navigation Team)的人員配置不足。
特別是○○○除了負責X與Y作業以外,同時還有Z作業。
此工作負荷量對於○○團隊有異常的影響。
二位團隊領導者發現在關鍵任務期間非常困難提供24小時整天的服務,如…。
降低○○○導致分配給X作業的護士人力必須增加。
然而就更早期而言…,這些人員不足可能會造成行動導航團隊(Operations Navigation Team)對其發現在X與Y系統間異常調查的妨礙。
反過來說,這個問題導致行動導航團隊(Operations Navigation Team)無法有效地運作其針對任何個案管理問題所設的屏障,最終可能危及任務成功與否。
管理之變更(Changes in Management)
管理的變更妨礙了對導航問題的有效反應。
在進入火星軌道(Mars Orbit Insertion, MOI)的前幾個月,調查人員發現○○團隊有「缺乏一些關鍵人物及最高管理階層變化」的情況。
有更多的問題降低了對處理特定危害的管理有效性。
例如因為一些○○○人認為○○團隊很隨意的就把任務推給他們,所以覺得「缺乏主導權(Ownership)」。
在這個流程中主要的管理失敗為該導航團隊沒有可能監管流程實施的系統管理或的任務確保人員。
反過來說,這可能有助於任務中不同階段的溝通。
溝通問題(Communication Issues)
溝通不良是防止任務失敗的人為屏障失效的另一種解釋。
調查人員下了「太空船操作團隊不瞭解導航團隊關心的事」這樣的結論。
行動導航團隊似乎被與開發團隊及其他在此行動的團隊同事隔離開來。
其他問題則源於巡航時期的團隊溝通本質。
例如一旦導航團隊發現導航資料有衝突時,他們會依靠電子郵件進行協調反應。
調查人員擔心使用這樣的方式通訊可能會造成訊息被「漏掉或沒注意到」的問題。
訓練問題(Training Issues)
主要及輔助調查也發現,訓練不足是工作人員沒有察覺任務可能危害的潛在因素。
這個因素與缺乏關鍵人物有關,因為沒有足夠的方法確保新團隊成員已經獲得必要操作技能。
特別是沒有明確的指導制度。
調查人員認為「沒有在操作用於軌道模型建置的○○軟體時使用公制單位進行編碼這項問題,應該會在適當的訓練中發現」。
一個特別值得關注的重點問題是,○○團隊不熟悉太空船上的高度控制系統…。「由於經驗不足與溝通不良,行動導航團隊及太空船操作團隊對這些功能與其對導航的影響都沒有完全理解」。
對於太空船特性的理解缺乏在事件整體中具有非常大的意義。
特別是它可能會妨礙行動導航團隊察覺其發現的差異問題的最高重要性。
附加屏障分析事件(Adding Barrier Analysis Events)
圖?將我們對任務失敗的人員屏障分析整合至ECF圖中。
此圖將一個新的事件增加到主要時間列,
這表示決定不隔離損壞的輪椅。
增加這個事件是因為之前的屏障分析發現○○是防止危害對目標發生作用的重要機會。
圖?同樣利用透過屏障分析的了解來解釋為何此機會沒有被運作。
人員缺乏、訓練不足、管理變更與行動導航及太空船操作團隊的溝通不良,都是未能察覺角動量數據低下(Angular Momentum Desaturation, AMD)異常的重要因素。
圖?也說明了屏障分析其助於發現在不良事件最初分析時,可能還沒被確定的關鍵事件序列的方法。
流程屏障(Process Barriers) Mars Climate Orbiter 事件
-
團隊分離(Separation of Teams)
-
無系統危害分析(No Systematic Hazard Analysis)
-
測試不足(Inadequate Testing)
-
缺乏監督(Lack of Oversight)
-
附加屏障分析事件(Adding Barrier Analysis Events)
團隊分離(Separation of Teams)
操作人員缺乏有關○○操作特性的必要訓練。
造成這個問題的其中一個原因是整體太空計畫沒有規劃由開發人員交接給操作人員的詳細交班作業。
○○也是多任務○○計畫中的第一個任務。
操作人員必須在同時追蹤A與B任務的情況下設想○○的管控。
○○計畫也是噴射推進實驗室(Jet Propulsion Laboratory)在只有少數開發人員「轉換」到操作團隊後進行的第一個任務,這個情況讓這些後勤問題變得更加複雜。
沒有導航人員從○○的開發及操作做交班。
進而影響了整體事件中的一連串重大事件。
尤其是導航團隊與其他操作人員可能對A與B之間的硬體與軟體相似點作了許多錯誤假設。
此處的關鍵點在於未將關鍵開發人員轉換至操作階段,而這項決定解除了保護○○任務的一個流程屏障機制。
如果導航操作團隊知道更多關於通知○○開發的決定,那麼他們可能會意識到○○異常的潛在重要性。
許多相關情況顯示這個轉換計畫的不足,而這是多任務火星計畫中的第一個項目子計畫。
只轉換最少人員的這個決策促使操作團隊對於A與B之間的相似點做出錯誤假設的狀況發生。
這些假設的錯誤本質也在圖10.9太陽能電池陣列(solar array)的變更中被提及與突顯出來。儘管因為這些錯誤假設是源於開發轉至操作的初期而造成後續問題出現,但這些問題仍對整體事件產生影響。
這樣的情況代表錯誤假設的可能性被雙線包圍(並為後續任何嘗試將根本原因從促成因素中分離出來的行動提供重要的起始點)。
無系統危害分析(No Systematic Hazard Analysis)
缺乏任何系統危害評估,例如使用故障樹分析為整體任務找出多數的重點。
這使得工程師無法考慮到各方面的可能失效模式。
同時也阻礙了開發和操作團隊完成系統性的關鍵功能評估。
特別是某些危害分析可能有助於找出對行動導航團隊使用的地面軟體而言是「極其關鍵」的特定元素。
最後,缺乏連貫的危害分析可能也會造成意外因應計畫不足。
沒有進行這樣的分析會造成一些潛在屏障去除的連鎖反應,這些屏障可能是在太空船發射前將導航軟體作為關鍵組件進行檢測、或隨後可能促進操作團隊在發現異常後重新思考意外因應計畫。
測試不足(Inadequate Testing)
流程屏障會因為缺乏系統層級的持續驗證而遭到進一步的削弱損害。
導航需求設定在太高的管理層級,
所以程式設計師及工程師需要確定如何在那些參與開發流程人的粗略引導下最大限度地符合要求。
如果能透過適當驗證的流程找到這些問題,則那些後果可能還不會那麼嚴重。
然而,只有A在毫無保險的狀態下發射後,才發現好幾個重大的系統及子系統問題。例如,檔案格式錯誤妨礙導航團隊從地面系統進行接收與遙測譯碼作業,時間幾乎長達6個月之久。
調查人員認為「AA地面軟體的獨立核實及驗證不足(驗證地面軟體微力度(small forces)性能端點對端點測試及軟體介面格式適用性測試似乎沒有完成)」。
缺乏監督(Lack of Oversight)
在BB任務期間,因為更多的監督不足造成驗證問題及缺乏任何系統層級危害分析情況愈發惡化。
對洛克希德‧馬丁航天製造廠商的子系統噴射推進開發監督不足。
造成了從開發轉移到操作的過渡期間人員配置數量減少的問題。
包含導航及軟體驗證等數個任務關鍵功能都有管理監督不足的情況。
這同樣使得在計畫執行期間維持責任與課責變得困難。
調查期間「誰負責?」及「誰是任務管理人員?」。
這些問題一再重複,調查人員記述了每當詢問人員這些問題時人員出現「猶豫及搖擺」的情況。
一線操作者對不良事件發生反應出感到罪惡和怪罪感是很正常的。
還有一位受訪者回答太空船操作管理者把自己當作任務管理者,好像沒有被指派一樣。
缺乏監督對○○開發和操作等不同面向都有重大影響。
如果這些監督確實到位,則可能讓相關人員在對○○硬體與軟體特性的假設更加審慎。
更連貫一致的監督也可能促進系統危害分析,特別是當高層要求其對於驗證須花費更多心力時。
附加屏障分析事件(Adding Barrier Analysis Events)
是否應該要將「觸發失效的事件」或「形成事件後果的情況」來表示特定的失效是很難以做決定的。
例如,用事件標示「決定不對火星軌道者號氣象觀測太空船(Mars Climate Orbiter, MCO)可能出現的錯誤進行事前分析」,可能會用情況標示「沒有系統危害分析」。
我們使用「事件」來表示那些在整體事件中可能變成後續分析焦點的各個階段。