品質改進指標的資料驗證

確保完整性、無重複、資料類型、範圍和寫驗證報告

數據驗證為針對收集到的數據監測其完整性及合理性,並消除錯誤的數值。 這個步驟將原始數據轉換為經驗證的數據 數據必須儘快進行驗證,最好在1~2天內:測量上的問題越早被偵測到,資料遺失的風險就越低。

資料驗證的方法

資料不是人工驗證就是自動化(電腦基礎)驗證。 .雖然一些人工的檢視是必要的,但是利用電腦自動進行驗證作業因為速度及正確性高,所以較受歡迎。 然而,重要的是瞭解資料驗證的限制。資料錯誤有很多可能的原因: 資料驗證的目的是儘可能從眾多的原因中偵測出多數明顯的錯誤。要找出所有細微的錯誤是不可能的。 因此,資料微輻的偏差可能逃過偵測(雖然使用冗餘傳感器可以減少這種可能性) 妥善落實監測計畫的品質保證要素也能降低資料發生問題的機會。

資料驗證有兩個重要的部份(保存原始資料,並進行備份,應用備份進行驗證步驟)。

  • 資料篩檢。第一步使用一系列的檢測掃描所有資料找出有問題和錯誤的數值。 資料驗證報告英烈出有問題的值。
  • 資料驗證。第二部分需要針對每一個有問題的數值決定如何處理─保留他、排除他、或以有效的值取代他。 這個部分需要人為判斷,這個人必須對於監測過程相當熟悉。

驗證程序

  1. 一般系統檢查
    • 資料紀錄:資料範圍的數量必須等於每筆紀錄衡量參數預期的數量。
    • 時間序列:是否有遺漏數值?這項測試應著重於每個數據記錄的時間和日期。
  2. 測量參數檢查
    • 範圍檢測。這些是最簡單、普遍的檢測。 數據會與可允許的上下限的比較(合理範圍、零、負值、季節性調整)。 如果數值符合篩選條件,則被認為是有效數值。然而,大多數的參數應有幾個檢核條件,因為單一的條件不太可能偵測所有問題。
    • 關聯測試:這種比較是基於各種參數間的預期物理關係。
    • 趨勢檢測:這些檢測須依據隨著時間數值改變的比率。
  3. 頻率計數
  4. 交叉列表/樞紐列表

有問題及遺漏數值的處理

  1. 產出資料驗證報告,需列出所有有問題的數據。報告中需針對每個有問題的數值,指出其數值、發生日期及時間、以及其符合哪個資料驗證的條件。
  2. 經過認證的人應檢視有問題的資料,並評估其可接受度。
  3. 如果使用重複的檢測條件,取代主要檢測條件
  4. 所有資料驗證作業應完整的紀錄於〝資料驗證日誌〞中。這個文件應針對每個拒絕或取代數值的資訊:標記資料的日期及時間、驗證碼、每個拒絕的數值或取代數值的來源應給予說明。

資料恢復率

The data recovery rate is defined as the number of valid data records collected versus that possible over the reporting period and should be determined for each primary sensor (for all levels at each site). 計算方法如下:
資料回復率(%) = 所收集的資料筆數 / 可能的資料筆數
這裡〝所收集的資料筆數〞=可能的資料筆數-無效的資料筆數