小樣本量用於快速週期品質改進

小樣本量可以在品質改進專案達成統計有效的結果

改善模式及其規劃-執行-研究-行動(Plan–Do–Study–Act, PDSA)循環通常需要頻繁的蒐集資料來測試對策及改進變革策略。 由於資料蒐集必須涉及許多病人的看法,可能會造成PDSA循環不足,以及局部改善行動發起的障礙。

小樣本量證明局部照護差異

改善專案不需要大量樣本來證明系統表現成果的差異。 局部品質成果所需樣本數如表1所示。 表1有兩種使用方法:

  • 第一,在完成稽核時,此表能夠快速顯示結果是否具有統計顯著意義。 舉例來說,當系統性能表現成果期望值為80%時,如果你的系統性能表現稽核觀察值為50%,則稽核樣本數大於12時顯示具有統計顯著意義。
  • 第二,你可以使用此表來計畫審核或PDSA循環所需的樣本數。 舉例來說,如果你「直覺」系統表現成果觀察值將會是50%,而期望值是90%時,則樣本數低到6個就足夠了(儘管規劃時多取一些額外的觀察值,來確保這些樣本足以代表你的系統平常表現成果並無傷大雅[外部效度])。
表1 改善專案最小樣本數要求:以觀察及期望系統表現成果為根據
系統表現成果觀察值(%) 系統表現成果期望值
80% 90%
95 26 140
90 70 n/a
85 260 180
80 n/a 50
75 280 28
70 80 20
66 45 15
60 25 10
50 12 6
40 10 5
20 5 5

為何小樣本有統計顯著效用?

正確嚴格設計的臨床對照實驗需要納入數百或數千名病人,為何這麼小的樣本數可能可以拒絕虛無假說?

  • 其中一個原因是我們觀察的項目是所謂的大差異(如:50% 對 80%),而臨床對照試驗通常聚焦在比較小的差異上。 如表1所示,隨著觀察成果越靠近期望目標,我們需要越大的樣本數來證明有顯著差異。 舉例來說,當你要證明75%的觀察成果與期望的80%成果有顯著不同時,將需要稽核280以上的樣本大小才能夠證明。
  • 第二,臨床研究人員需要精確地估計治療效果,而在局部稽核時,系統表現成果的精確估計相對而言並非最重要的考量,因此會有表1顯示的極小樣本數。 在稽核的範例中,10/20 (50%) 的病歷有成功的藥物順從性。統計學家使用95%信賴區間來描述研究結果的精確度;我們的稽核在95%的信心水準下,低點為28%,高點為72%。 然而,這個結果已經足夠我們得到局部系統表現成果下降到比80%還要低程度的結論。 我們並不特別在意實際的表現成果是28%或72%,因為錯誤都是不被容許的。

小心的處理小樣本

你必須對你的小樣本資料正確完整性具有極高的信心。 對於小樣本數而言,少數特定病人會佔據樣本中的大部分。 一名病人代表八名病人的實際作用貢獻。 因此,要「掌握」使用小樣本法,需要遵循明確的蒐集資料步驟。可應用五個步驟: 可應用五個步驟:

1. 定義出符合篩選條件。
我們從至本綜合醫院住院的病人序列中選擇合適的樣本。
2. 建立排除標準。
我們將住院時間小於12小時的病人排除。
3. 說明研究期間。
稽核將從2015年11月7日星期六8時開始,至2015年11月8日星期日16時結束。
4. 保留排除紀錄。
稽核期間篩選出23名住院病人序列,我們排除了2名在12小時內出院的病人,最終保留21名病人樣本以做稽核之用。
5. 完成資料蒐集。
我們完成了20名病人樣本的資料蒐集。1名病人的病歷未找到。

用藥整合監測的小樣本範例:

  • 首先,應該定義何為符合條件的樣本。 以監測作業的角度來看,目標應該是把持續符合條件 的病人納入監測。 理想中,以隨機抽樣為佳,但對於絕大多數的局部改善活動而言,隨機抽樣是帶來非必要的複雜性且不切實際的方法。 對初期的PDSA循環來說,焦點在於作業提供者及系統成效的變革,對此,使用便利抽樣會更切合實際。
    1. 便利抽樣基本上是「隨便你可以取得哪個」。 (舉例來說,在第一輪的『用藥整合格式使用』PDSA循環中,我們請來比較配合的志願醫師作為實施對象) 然而,在便利抽樣中,通常會有比較好的表現,因為這些對象通常是選擇有比較高的動機及意願進行變革的人。
    2. 因此,一旦你的變革對策看起來好像可以在想要的地方或層級有效發揮功能,你就應該在可行的時候將監測對象改為使用連續、非選擇性的提供者。
    3. 當然,你也可以故意選擇那些拒絕改變及對你的活動表達反對意見的醫師作為樣本。
  • 針對前述資料蒐集步驟第4點,持續追蹤被排除的病人(拒絕的紀錄)。 在範例中,調查期間有23名潛在符合條件的病人,但其中有2名病人因為住院時間小於12小時而被排除, 因此監測其他21名病人。
    接下來,最重要的考量是這21名病人的資料蒐集完整性。 假設21名病人確實符合監測條件,但是有1人的病歷找不到。 我們發現有10/20的病人有進行用藥整合,但我們無法確定那1位找不到病歷的病人是否有用要整合。 因此,實際監測結果可能是10/21(48%,95%信賴區間為27%至69%),或者11/21(52%,95%信賴區間為31%至73%)。 在這個範例中,不完整的資料蒐集不會實質改變我們對監測結果的解釋,因為無論那1位遺失病歷的病人是否有進行用藥整合,在95%信賴區間中數值並沒有包含80%。
    相較之下,假設有40名符合監測條件的病人,但其中20名病歷找不到。 我們發現可以審核的病歷中,有10/20進行用藥整合。 那我們的監測結果會變成? 答案是:我們無法預測。 我們的小樣本監測實際結果,最差可能是10/40(25%,95%信賴區間為12%至38%),或者最好可能是30/40(75%,95%信賴區間為62%至88%)。 因為這樣草率的方法,我們觀察的結論是,系統表現結果介於12%至88%之間。如此便造成整個監測作業變得毫無用處。

將小樣本應用於PDSA循環

假設用藥整合監測希望有局部改善成效,且第一個變革概念為必須由醫囑提供者完成新的用藥整合格式。對於第一個PDSA循環週期, 你規劃要獲得使用者對於新表格的可用性回饋。 此時你的主要調查指標就是醫師是否能在沒有你的說明協助下獨力完成這個表格。 在這個循環調查中,你需要納入多少醫師樣本?

你可以使用表1來規劃你的第一個PDSA循環。 在這個最初的階段,你可能會請跟你感情比較好、動機高的醫師(便利樣本)來試用表格。 這個階段的目標是要在沒有任何爭議的情況下取得至少90%以上的成功完成率。 相信我們,你不會想要把一個連有高度動機的使用者都必須先經過訓練及個人協助才能完成的表格實施在其他人的作業。 因此,你將選擇表1當中第3欄系統表現成果期望值為90%的資料。 接下來,你需要預測在第一輪的測試中,你期望你的這個新表格實際表現能有多好。 這裡,你應該保守一點的預測,因為在初期階段,恐怕並不是所有的結果都能一如預期的順利。 讓我們估計在沒有任何個人的說明協助或困難下,有60%的醫師能夠獨力完成新表格。 所以,樣本數10應該是足夠的。 換句話說,如果你懷疑在你的便利樣本中只有60%的人能夠獨力完成表格,那麼你只需要觀察就可以證明你還沒達到90%以上完成率的目標。

在第一輪(便利抽樣)10名自願參加的使用者中,5/10(50%)在沒有任何協助或說明的情況下完成了表格。 另外5名受挫並放棄使用。 表1告訴我們,在預期成功率90%及實際觀察成功率50%之情況下,任何樣本數8以上的監測都能讓你很有信心地拒絕新表格有90%以上成功完成率這樣的虛無假說。 換句話說,這個新表格仍然需要調整。

第一輪定量基礎的PDSA循環已經完成。 接下來需要獲得這10位參與者(尤其那5位無法完成表格的參與者)的定性意見回饋,並進行必要修改。 然後,在下個禮拜就可以開始第二輪的PDSA循環

練習範例

對於上述的用藥整合表格設計範例,可使用線上計算器(參考文獻#3)來計算在預期成功率為90%情況下,實際觀察到的成功率為50%(5/10)的確實機率P值。 同時可以計算這個結果的95%信賴區間。

  1. 選擇「Probabilities(機率)」 > 「Binomial Probabilities(二項機率分配)」
    在n、k、p欄分別輸入數值,
    n = 10, k = 5, p = 0.9
    點擊「Calculate」鍵
    答案:參閱「Method 1. exact binomial calculation(精確二項機率分配計算結果)」
    P = 0.0016349374 (0.002)
    說明:P值顯著小於0.05,因此具有統計上顯著差異,拒絕「預期結果與觀察結果兩者數值沒有差異」的虛無假說。 換句話說,專案沒有達到預期結果,而且其差異達到統計顯著意義。
  2. 選擇「Proportions(比例)」 > 「The Confidence Interval of a Proportion(單一比例的信賴區間)」
    在k、n欄分別輸入數值,
    k = 5, n = 10
    點擊「Calculate」鍵
    答案:參閱「95% confidence interval: including continuity correction(95%信賴區間:包括連續校正)」
    下界 = 0.2014
    上界 = 0.7986
    答案: CI: 20%–80%
    (0.2014 ~ 0.7986).
    說明:即使信賴區間範圍非常廣(20%至80%),但在品質改善專案中並不是太重要,因為無論是下界及上界數值多少,錯誤仍是不被接受的。 信賴區間是否達到或超過預期的90%成功率是這裡觀察的項目。

相關資源

  1. Etchells E, Ho M, Shojania KG. Value of small sample sizes in rapid-cycle quality improvement projects. BMJ Quality & Safety 2016; 25(3): 202-206.
  2. Etchells E, Woodcock T. Value of small sample sizes in rapid-cycle quality improvement projects 2: assessing fidelity of implementation for improvement interventions. BMJ Quality & Safety 2018; 27(1): 61-65.
  3. Lowry R. VassarStats: Website for Statistical Computation
  4. Perla RJ, Provost LP, Muray SK. Sampling considerations for health care improvement. Qual Manag Health Care 2013; 22(1): 36-47.
  5. Perla RJ, Provost LP. Judgment sampling: a health care improvement perspective. Qual Manag Health Care 2012; 20(3): 170-176.