統(tǒng)計方法選擇與綜合運用
陳長生
【摘要】 實驗設計、 資料搜集與整理分析是科學研究的3個緊密聯(lián)系的階段, 而良好的設計是順利地進行實驗和收集數(shù)據(jù)、 分析數(shù)據(jù)的先決條件。統(tǒng)計方法的選擇與正確應用依賴于研究方案中的統(tǒng)計學設計,應充分考慮實驗目的、 設計類型、 觀察指標組成的資料性質(zhì)和樣本大小等。
【關鍵詞】 統(tǒng)計學; 統(tǒng)計方法; 統(tǒng)計分析; 研究設計
正確運用統(tǒng)計方法的前提是良好的實驗設計。如果試驗前沒有良好的設計, 或者設計存在缺陷, 那么, 即使使用高級的計算機和復雜的統(tǒng)計方法處理數(shù)據(jù), 也只能得到錯誤的結(jié)論。對于生物(醫(yī)學)研究者來說, 統(tǒng)計問題咨詢應該在一個研究項目開始之前, 而不是在研究數(shù)據(jù)出來以后。沒有系統(tǒng)學習過生物(醫(yī)學)統(tǒng)計學的許多實際工作者常常錯誤地認為統(tǒng)計分析是在試驗完成后才考慮的問題, 而且不考慮研究目的、 資料類型以及統(tǒng)計方法的前提條件等有關統(tǒng)計方法選擇的問題。需強調(diào)的是,實驗設計、 資料搜集與整理分析是科學研究的三個緊密聯(lián)系的階段, 而良好的設計是順利地進行實驗和收集數(shù)據(jù)、 分析數(shù)據(jù)的先決條件, 希望通過運用統(tǒng)計方法的計算來彌補設計上的錯誤是不可能的, 也是有害的[1]。
1 統(tǒng)計分析步驟
統(tǒng)計方法的選擇依賴于研究方案中的統(tǒng)計學設計。統(tǒng)計學設計是要求研究工作者, 根據(jù)研究目的規(guī)定研究因素, 選擇觀察指標, 確定研究對象的樣本含量, 擬定研究的實施方法及數(shù)據(jù)收集、 整理和分析的模式, 以達到用最少的人力、 物力和時間, 獲得可靠的結(jié)論。在實際工作中, 必須根據(jù)醫(yī)學研究目的、 設計類型、 資料性質(zhì)、 樣本大小和分析過程中所遇到的各種實際情況等, 并結(jié)合專業(yè)方面的知識來恰當?shù)剡x擇和運用統(tǒng)計分析方法, 才能做出正確的、 符合實際的結(jié)論。在區(qū)分了研究資料的反應變量和解釋變量的基礎上, 數(shù)據(jù)的統(tǒng)計分析主要回答兩個問題: 一是反應變量的差異是否可歸因于分組因素或?qū)Ρ纫蛩兀?二是多個反應變量之間是否存在某種聯(lián)系? 因此, 醫(yī)學科研數(shù)據(jù)統(tǒng)計分析大致分以下4個步驟。
1.1 數(shù)據(jù)整理 主要進行數(shù)據(jù)質(zhì)量的核查、 異常值的處理, 考察數(shù)據(jù)分布及變量轉(zhuǎn)換等, 以及看數(shù)據(jù)是否符合特定統(tǒng)計方法所要求的條件。如計算均數(shù)和標準差要求數(shù)據(jù)基本上呈正態(tài)分布, 方差分析要求各組方差的差別不宜過大等。
1.2 統(tǒng)計描述 按分組因素或控制因素分組計算反應變量的基本統(tǒng)計量, 如均數(shù)、 百分率、 標準差、 標準誤等, 得出資料的大致輪廓和進一步分析方向。結(jié)果的表達方式主要是統(tǒng)計圖或統(tǒng)計表[2, 3]。
1.3 統(tǒng)計推斷 選擇和運用恰當?shù)慕y(tǒng)計方法(見統(tǒng)計方法選擇)作詳細分析, 如均數(shù)間的差異比較進行t檢驗或方差分析、 反應變量間的相互關系進行相關分析、 反應變量與解釋變量的依存關系擬合各類回歸模型等等。各種假設檢驗得到的P值是下結(jié)論的主要依據(jù)[2-4]。
1.4 結(jié)果表達 將各種分析結(jié)果簡單明了地表達出來, 為專業(yè)上的分析討論提供統(tǒng)計學背景[4]。有條件的話, 前3個步驟應在計算機上借助統(tǒng)計軟件完成。另外, 以上4個步驟只是一種粗略地劃分, 對有些資料,統(tǒng)計描述即可得出較為明確的結(jié)論。對于隨機分組的實驗設計資料或隨機抽樣的調(diào)查資料, 一般可根據(jù)資料性質(zhì)和分析目的找到恰當?shù)慕y(tǒng)計方法。但對于對比性資料的分析, 往往需要同時用多種統(tǒng)計方法進行處理或擬合復雜的統(tǒng)計模型。
2 統(tǒng)計方法選擇
生物(醫(yī)學)科學研究從研究設計開始到數(shù)據(jù)的收集、 整理、 分析的全過程中, 統(tǒng)計學知識始終貫穿其中, 而統(tǒng)計分析方法的正確選擇在數(shù)據(jù)處理中至關重要。在研究方案制定時選擇何種統(tǒng)計分析方法取決于實驗的目的、 不同的設計類型、 觀察指標組成的資料性質(zhì)和樣本大小等。
在研究設計時, 統(tǒng)計方法的選擇需考慮以下6個方面的問題: (1)看反應變量是單變量、 雙變量還是多變量; (2)看單變量資料屬于3種資料類型(計量、 計數(shù)及等級資料)中的哪一種; (3)看影響因素是單因素還是多因素; (4)看單樣本、 兩樣本或多樣本; (5)看是否是配對或配伍設計; (6)看是否滿足檢驗方法所需的前提條件, 必要時可進行變量變換, 應用參數(shù)方法進行假設檢驗往往要求數(shù)據(jù)滿足某些前提條件, 如兩個獨立樣本比較t檢驗或多個獨立樣本比較的方差分析, 均要求方差齊性, 因此需要做方差齊性檢驗。如果要用正態(tài)分布法估計參考值范圍, 首先要檢驗資料是否服從正態(tài)分布。在建立各種多重回歸方程時, 常需檢驗變量間的多重共線性和殘差分布的正態(tài)性。
不同的統(tǒng)計分析方法都有其各自的應用條件和適用范圍。實際應用時, 必須根據(jù)研究目的、 資料的性質(zhì)以及所要分析的具體內(nèi)容等選擇適當?shù)慕y(tǒng)計分析方法, 切忌只關心P值的大小(是否<0.05), 而忽略統(tǒng)計分析方法的應用條件和適用范圍。
3 統(tǒng)計方法綜合運用實例
例 根據(jù)2001年進行的大規(guī)模調(diào)查, 已知某地健康青年男子身高均數(shù)為168.34 cm, 體重均數(shù)為57.20 kg, 同年在該地應征男性青年中隨機抽取120名男子, 測得其身高、 體重資料見表1, 試對該資料進行統(tǒng)計分析[1]。表1 120名應征男性青年的身高與體重資料
3.1 資料的分布特征和數(shù)字特征的統(tǒng)計描述 本例屬于單樣本雙變量計量資料。對該資料進行統(tǒng)計分析時, 首先應對每一個變量的分布類型及其特征進行統(tǒng)計描述, 編制直方圖或頻數(shù)表, 計算相應的統(tǒng)計描述指標, 然后在此基礎上選擇和運用恰當?shù)慕y(tǒng)計方法進行統(tǒng)計推斷, 最后作出明確結(jié)論。
本例的身高、 體重頻數(shù)分布情況見圖1~2。由圖1可直觀看出, 身高的頻數(shù)分布特征為: 所有數(shù)據(jù)分布在155~182之間; 數(shù)據(jù)主要集中在164~173之間, 共有73人, 占總?cè)藬?shù)的60.8%; 各組段的頻數(shù)基本以168.5為中心呈對稱分布。因此, 可認為身高近似服從正態(tài)分布。而體重的頻數(shù)最多組段58~不在所有組段的中間位置, 各組段的頻數(shù)以61為中心呈不對稱分布(圖2), 故可認為體重呈偏態(tài)分布。圖1 120名應征男性青年身高的頻數(shù)分布圖表2給出了資料分布的數(shù)字特征: 均數(shù)(x)、 標準差(s)、 中位數(shù)(Md)、 四分位數(shù)間距(QR)和全距(R)。為了進一步說明各變量是否服從正態(tài)分布, 表2也同時給出了偏度系數(shù) 由表2可見, 身高的|ug1|和|ug2|均小于1.65, 故可認為身高服從正態(tài)分布(矩法正態(tài)性檢驗), 此結(jié)論與上述的直觀結(jié)果相同, 也與圖3的圖示法結(jié)論相同(散點幾乎都在一條直線上)。同理, 體重的|ug1|和|ug2|均大于1.65, 故可認為體重不服從正態(tài)分布, 此結(jié)論亦與上述的直觀結(jié)果相同, 顯然與圖4的圖示法結(jié)論也相同(散點不在一條直線上)。
由于身高近似服從正態(tài)分布, 且是大樣本數(shù)據(jù), 故可用樣本均數(shù)168.84 cm代表身高的平均水平, 用樣本標準差5.19 cm代表身高的個體差異, 用x±1.96 s來描述身高的95%散布范圍, 即168.84±1.96×5.19=158.67~179.01 cm。由于體重不服從正態(tài)分布, 用中位數(shù)58.00 kg代表體重的平均水平, 用四分位數(shù)間距8.75 kg代表體重的個體差異, 用百分位數(shù)P2.5~P97.5描述體質(zhì)量的95%參考值范圍, 即49.03~80.77 kg。
3.2 參數(shù)的點估計與區(qū)間估計 身高的均數(shù): =X=168.84 cm, SX=0.47 cm, 95% CI=167.90~169.78 cm 。體重的均數(shù): =X=57.67 kg, SX=0.63 kg, 95%CI=56.44~58.90 cm。體質(zhì)瘦弱(體重≤50 kg )檢出率: =p=17/120=14.17%, SP=3.18%, 95%CI=7.93%~10.41% 。身高與體重的相關系數(shù): =r=0.4040, Sr=0.0842, 95%CI=0.2423~0.5435。本例n=120, 屬于大樣本數(shù)據(jù), 由樣本均數(shù)分布規(guī)律可知, 雖然體重不是正態(tài)分布, 但在大樣本時, 其樣本均數(shù)近似服從正態(tài)分布, 故仍可用正態(tài)分布法進行總體均數(shù)的點估計與區(qū)間估計。相關系數(shù)也不服從正態(tài)分布, 故在計算ρ的95%CI時要進行反雙曲正切函數(shù)轉(zhuǎn)換。
3.3 假設檢驗 根據(jù)歷史資料, 已知10年前該地健康青年男子身高均數(shù)為166.50 cm, 體重均數(shù)為55.20 kg, 可通過假設檢驗回答: 本次調(diào)查結(jié)果所代表的該地健康青年男子的身高總體均數(shù)、 體重的總體均數(shù)、 是否比10年前提高了。
本例屬于大樣本資料, 可用樣本標準差作為總體標準差的估計值, 即身高標準差的估計值=S=5.19, 體重標準差的估計值=S=6.89, 分別進行單樣本u檢驗: 身高: u=4.98, P<0.01。體重: u=3.92, P<0.01。所以, 根據(jù)本次調(diào)查結(jié)果, 該地健康青年男子的身高和體重都比10年前有所增長。
同理, 還可以對體質(zhì)瘦弱檢出率、 身高與體重的相關系數(shù)等作假設檢驗。