將生物信息學知識帶進醫(yī)學統(tǒng)計學課堂教學
吳騁
摘 要:生物信息學的蓬勃發(fā)展已使醫(yī)學研究由宏觀逐步探索到微觀。醫(yī)學統(tǒng)計學作為一門醫(yī)學院校的基礎課程,其理論和方法在醫(yī)學研究的新要求下其理論和方法也有了新的發(fā)展與應用。將生物信息學知識帶入醫(yī)學統(tǒng)計學課堂教學,介紹醫(yī)學統(tǒng)計學的新發(fā)展,不但能使學員了解到本學科的前沿研究內(nèi)容,有效地激發(fā)學員的學習興趣,還能使他們掌握生物信息學研究的工具,提高今后從事醫(yī)學科研工作的能力。 關鍵詞: 生物信息學 醫(yī)學統(tǒng)計學 課堂教學 生物信息學融合了生物技術(shù)、計算機技術(shù)、數(shù)學和統(tǒng)計學的大量方法,已逐漸成為發(fā)現(xiàn)生命過程中所蘊涵知識的一門重要學科。其基本問題主要包括:DNA分析、蛋白質(zhì)結(jié)構(gòu)分析、分子進化。醫(yī)學統(tǒng)計學作為醫(yī)科院校的基礎課程之一,長期以來其理論和方法就廣泛應用于臨床醫(yī)學、基礎醫(yī)學的各類研究中。隨著生物新技術(shù)的誕生,在推動生物信息學發(fā)展的同時,醫(yī)學研究對象也由宏觀的病人、生物組織拓展到微觀的基因領域,所面對的實驗數(shù)據(jù)在性質(zhì)和結(jié)構(gòu)上也都有所不同,這對醫(yī)學統(tǒng)計學的應用提出了新的更高的要求。 目前,醫(yī)學統(tǒng)計學的很多原理和方法已成功地應用于這些新研究之中,并在此基礎之上有了新的發(fā)展和改進。如概率分布的知識與序列相似性分析、蛋白質(zhì)分類等技術(shù)密切相關;方差分析、非參數(shù)檢驗方法經(jīng)改進和結(jié)合后在基因表達數(shù)據(jù)的前期分析中發(fā)揮了較好的作用;而聚類分析、判別分析、相關分析這些大家所熟知的統(tǒng)計學方法更是在基因分類和調(diào)控網(wǎng)絡的建立中得到了廣泛的應用。在進行醫(yī)學統(tǒng)計學課堂教學時加入生物信息學方面的應用實例,不僅可以使學員了解本學科研究的前沿和醫(yī)學、生物信息學研究的新發(fā)展,還可以提高學員對于醫(yī)學統(tǒng)計學理論學習的興趣,掌握先進的生物實驗數(shù)據(jù)分析方法,提高今后從事醫(yī)學科研的能力。下面,本文在回顧醫(yī)學統(tǒng)計學授課主要內(nèi)容的基礎上,就醫(yī)學和生物信息學中的可能應用舉例如下: 一、概率分布 概率分布(probability distribution)是醫(yī)學統(tǒng)計學中多種統(tǒng)計分析方法的理論基礎。授課內(nèi)容一般包括:二項分布、Possion分布、正態(tài)分布、t分布、F分布等。 借助概率分布常常可以幫助我們了解生命指標的特征、醫(yī)學現(xiàn)象的發(fā)生規(guī)律等等。例如,臨床檢驗中計量實驗室指標的參考值范圍就是依據(jù)正態(tài)分布和t分布的原理計算得到;許多醫(yī)學試驗的“陽性”結(jié)果服從二項分布,因此它被廣泛用于化學毒性的生物鑒定、樣本中某疾病陽性率的區(qū)間估計等;而一定人群中諸如遺傳缺陷、癌癥等發(fā)病率很低的非傳染性疾病患病數(shù)或死亡數(shù)的分布,單位面積(或容積)內(nèi)細菌數(shù)的分布等都服從Poisson分布,我們就可以借助Poisson分布的原理定量地對上述現(xiàn)象進行研究。 在生物信息學中概率分布也有一定應用。例如,Poisson分布可以用于基因(蛋白質(zhì))序列的相似性分析。被研究者廣泛使用的分析工具BLAST (Basic Local Alignment Search Tool)能迅速將研究者提交的蛋白質(zhì)(或DNA)數(shù)據(jù)與公開數(shù)據(jù)庫進行相似性序列比對。對于序列a和b,BLAST發(fā)現(xiàn)的高得分匹配區(qū)稱為HSPs。而HSP得分超過閾值t的概率P(H(a,b)>t)可以依據(jù)Poisson分布的性質(zhì)計算得到。 二、假設檢驗 假設檢驗(hypothesis)是醫(yī)學統(tǒng)計學中統(tǒng)計推斷部分的重要內(nèi)容。假設檢驗根據(jù)反證法和小概率原理,首先依據(jù)資料性質(zhì)和所需解決的問題,建立檢驗假設;在假設該檢驗假設成立的前提下,采用適當?shù)臋z驗方法,根據(jù)樣本算得相應的檢驗統(tǒng)計量;最后,依據(jù)概率分布的特點和算得的檢驗統(tǒng)計量的大小來判斷是否支持所建立的檢驗假設,進而推斷總體上該假設是否成立。其基本方法包括:u檢驗、t檢驗、方差分析(ANOVA)和非參數(shù)檢驗方法。 假設檢驗為醫(yī)學研究提供了一種很好的由樣本推斷總體的方法。例如,隨機抽取某市一定年齡段中100名兒童,將其平均身高(樣本均數(shù))與該年齡段兒童應有的標準平均身高(總體均數(shù))做u檢驗,其檢驗結(jié)果可以幫助我們推斷出該市該年齡段兒童身高是否與標準身高一致,為了解該市該年齡段兒童的生長發(fā)育水平提供參考。又如,醫(yī)學中常常可以采用t檢驗、秩和檢驗比較兩種藥物的療效有無差別;用?2檢驗比較不同治療方法的有效率是否相同等等。 這些假設檢驗的方法在生物實驗資料的分析前期應用較多,但由于研究目的和資料性質(zhì)不同,一般會對某些方法進行適當調(diào)整和結(jié)合。 例如,基于基因芯片實驗數(shù)據(jù)尋找差異表達基因的問題。基因芯片(gene chip)是近年來實驗分子生物學的技術(shù)突破之一,它允許研究者在一次實驗中獲得成千上萬條基因在設定實驗條件下的表達數(shù)據(jù)。為了從這海量的數(shù)據(jù)中尋找有意義的信息,在對基因表達數(shù)據(jù)進行分析的過程中,找到那些在若干實驗組中表達水平有明顯差異的基因是比較基礎和前期的方法。這些基因常常被稱為“差異表達基因”,或者“顯著性基因”。如果將不同實驗條件下某條基因表達水平的重復測量數(shù)據(jù)看作一個樣本,尋找差異表達基因的問題其實就可以采用假設檢驗方法加以解決。 如果表達數(shù)據(jù)服從正態(tài)分布,可以采用t-檢驗(或者方差分析)比較兩樣本(或多樣本)平均表達水平的差異。 但是,由于表達數(shù)據(jù)很難滿足正態(tài)性假定,目前常用的方法基于非參數(shù)檢驗的思想,并對其進行了改進。該方法分為兩步:首先,選擇一個統(tǒng)計量對基因排秩,用秩代替表達值本身;其次,為排秩統(tǒng)計量選擇一個判別值,在其之上的值判定為差異顯著。常用的排秩統(tǒng)計量有:任一特定基因在重復序列中表達水平M值的均值 ;考慮到基因在不同序列上變異程度的統(tǒng)計量 ,其中,s是M的標準差;以及用經(jīng)驗Bayes方法修正后的t-統(tǒng)計量: ,修正值a由M的方差s2的均數(shù)和標準差估計得到。