第二個是“讀懂”,即找出全部基因在染色體上的位置,了解它們的功能。
整個基因組測序完成后的數(shù)據(jù)可以構成一本100萬頁的書,其上只有4個字母的反復出現(xiàn).
如何處理、存儲和分析這些數(shù)據(jù)?這已不是生物學家本身可以解決的問題,需要其他學科,特別是數(shù)學與計算機學科的介入.。首先介紹了分子生物學的一些最基本的知識,然后著重介紹了目前人類基因組研究中的若干問題及其所用到的數(shù)學方法與模型。
1、背景與基本知識
生命的基本單位是細胞,它由細胞膜、細胞質和細胞核三者組成,遺傳信息儲存在細胞核中。人的細胞核中含有23對染色體,染色體含DNA(脫氧核糖核酸)和蛋白質。DNA經螺旋、扭曲、折疊等壓縮到萬分之一并與蛋白質一起而組成染色體。
DNA是一種大分子,由兩股長鏈以螺旋式構成,這種螺旋結構是在1953年由沃森和克里克提出,并獲1962年的Nobel獎,是20世紀最偉大的科學發(fā)現(xiàn)之一。
DNA分子上的一個個有生物功能的片段是基因。基因由若干按一定順序排列的核苷酸組成。核苷酸由磷酸基團、脫氧核糖及堿基構成,有4種不同的堿基,即:腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶,分別用A,
G,C,T表示。核苷酸按其所含堿基的不同也分為4種。在DNA的雙股上,A,T成對出現(xiàn),G,C也成對出現(xiàn),每對稱為一個堿基對。
遺傳密碼在DNA的鏈上,密碼由4種不同的核苷酸按一定順序排列而成,即可看成由4個字母A,G,C,T排列而成.
據(jù)估計,人類的DNA約含有30億個密碼,排列組成至少10萬條基因.
決定人體蛋白質的20種氨基酸的遺傳密碼已找出,先由A, G, C,
T中每3個字母重復排列成一密碼子,共有43=64個密碼子.
每一密碼子對應一種氨基酸;但由于只有20種氨基酸,故這種對應只能是多對一的,例如AGA,AGG都對應于精氨酸,此種對應關系已完全確定,稱為遺傳密碼字典。
使人們驚嘆不已的是,自然界所有的生命形式都共用這本密碼。在確定了三聯(lián)體碼在DNA上線性串接的結合方式后,發(fā)現(xiàn)了為蛋白質編碼的基因結構。這些基因在DNA上所處的位置,稱為DNA的編碼區(qū),約占整個基因組的3%—5%,其余部分習慣上統(tǒng)稱為“廢物(Junk)”DNA.
在對編碼區(qū)上DNA的結構所進行的40多年的研究工作中,已造就了幾十名Nobel獎獲得者。然而,“Junk”DNA中包含的信息也許更多?傊毎毎巳旧w蛋白質(含氨基酸)、DNA(由核苷酸組成)基因(上有密碼子,即由A,G,C,T組成的三聯(lián)體碼)。
1987年,美國開始了人類基因組研究計劃,任務有兩個:第一個是“讀出”,即研究出人類基因組的全部核苷酸的順序;第二個是“讀懂”,即找出全部基因在染色體上的位置,了解它們的功能。用數(shù)學的語言來說,人類基因組計劃的最基本、最直接的結果是得到一個由4個字母(A,G,C,T)可重復排列而組成的長度為3×109的一維鏈.
解讀后,人們不僅獲得靜態(tài)的結構信息,而且還能得到動態(tài)的四維(時空)調控信息.
目前國際上找到了全長基因約2萬條, 平均每天能找到9條.
據(jù)報道,復旦大學發(fā)明了一種新技術,每日能找到15條.
科學家們把此計劃與40年代的曼哈頓計劃(研究原子彈、氫彈)和60年代的阿波羅計劃(宇航、登月)相比。
2、目前基因組研究中的若干數(shù)學方法
(1 )概率統(tǒng)計方法
概率統(tǒng)計是較早進入生命科學研究領域的學科之一,早在20世紀40—50年代,F(xiàn)isher和Wright就用它研究過數(shù)量遺傳學。下面給出幾個例子說明它在當今人類基因研究中的應用。
※2.1.1 隱馬爾可夫模型(HMM)
隱馬爾可夫模型(Hidden Markov
Models)是由兩個隨機變量序列組成:一個是觀測不到的馬爾可夫鏈{Yn: n≥0},
另一個是可以觀測到的隨機序列{Xn: n≥0}。且已知兩者間有如下的聯(lián)系:
n,條件概率為已知。{Yn, n≥0}稱為隱馬爾可夫鏈,{Xn, n≥0}稱為其觀測鏈。
隱馬爾可夫模型已在語音識別中得到廣泛應用[2,3],80年代末開始應用于計算生物學。目前,隱馬爾可夫模型在人類基因組研究的許多方面都有廣泛的應用,如,DNA序列的陣排列(alignment)[4~6]、尋找基因(genefinding)[7,8]、作基因圖(genetic
mapping)[9]、作物理圖(physical
mapping)[10]及蛋白質二級結構的預測[11]等.
這諸多應用的基本思想都源于如下的Bayes統(tǒng)計分析:
考慮隨機模型M=(S,PM), 對分別以P(M | s), P(s | M)表示P(x來自模型M
| x=s), P(x=s |
x來自模型M);則上述諸應用問題大多可抽象為如下的識別問題或判別問題——
(1)識別問題:現(xiàn)觀察到一序列s,
問此序列是來自模型M的概率是多少?由Bayes公式,欲計算P(M |
s),需知道兩個先驗概率P(M)和P(s)。但在實際問題中往往很難做到.
可退一步考慮如下的判別問題。
(2)判別問題:再考慮另一隨機模型N=(S,PN),根據(jù)觀察到的序列s,
判斷s是來自M,還是來自N?此時,可由比較兩個條件概率P(M | s)和P(N |
s)的大小來得到答案。仍由Bayes公式可得。
下面以“多個DNA序列的陣排列問題”為例子說明如何在DNA序列上建立隱馬爾可夫模型(HMM)。
設有r個DNA序列,其中, 序列a1, a2, …,ar的一個陣排列定義為:在a1, a2,
…, ar中不同的位置分別插入空隙符號“-”(gap),使其變?yōu)椋獭輒ax{n1, …,
nr}, 顯然,對于給定的序列a1, a2,…,
ar可以有許多不同的陣排列。例如,都是序列a=AGGT, b=ATGTG的陣排列。
引入陣排列的目的在于討論序列之間的相似性,為此,定義函數(shù)和要尋找使d(a1, a2, …,
ar)達到最小的那些排列,稱其為“最優(yōu)的陣排列”。由于所有可能的陣排列的數(shù)目隨序列的長度及序列個數(shù)呈指數(shù)增加,例如當r
= 2, n1 = n2 = L = 1
000所有可能的陣排列的數(shù)目大約為10600[12]。直接進行逐個比較來得到最優(yōu)的陣排列是不現(xiàn)實的,必須尋找其他的算法。最近,用HHM來解決此問題,得到了較好的結果(見文獻[4,13])。隱馬爾可夫模型(HMM)可如下建立:隱馬爾可夫鏈Yn取值為M(配對)、I
(插入)、及D(刪除)3個狀態(tài);可觀察到的序列Xn取值為A,G,C,T.
隱馬爾可夫鏈Yn可以看做在DNA序列上運動,在第k步時(相應于DNA序列上的第k個位置)取值若為配對狀態(tài)M,則以概率Pk(a
| M)在此位置產生字母若為插入狀態(tài)I,則以概率Pk(a | I)在此位置插入字母
若為刪除狀態(tài)D,則將位置k上的字母刪除。隱馬爾可夫鏈Yn的轉移矩陣為P( yk+1 | yk
)。于是當隱馬爾可夫鏈Yn運動了N+1步后,便可得到兩個序列,一是狀態(tài)序列:y0(開始),
y1, …,yN, yN+1 = ML+1(結束)(觀察不到);二是字母序列: x1, x2,
…, xV, V≤N(可觀察到)。當yi是M(配對)或I(插入)時,產生的字母記為xli,
則狀態(tài)序列y=y0,y1,…,yn,yn+1與字母序列x = x1, x2, …,
xV的概率分布為(其中, 因此序列x = x1, x2,…,
xV出現(xiàn)的概率為)。利用訓練集可以將模型中的未知參數(shù)k=0,…, N估計出來。
※2.1.2 物理圖與隨機區(qū)間覆蓋問題
作圖是人類基因組研究計劃中一項主要的任務,通過作圖可確定基因及其他功能區(qū)在DNA序列上的位置。關鍵的圖是物理圖和遺傳圖,遺傳圖是通過關聯(lián)分析將已知的基因的相對位置定位在染色體上;物理圖是將一組標記定位在染色體上并估計其間的相互距離,每一標記點可以是一條已知基因,也可以不是。現(xiàn)在,已構造出具有
30 000個標記點的整個人類基因組的物理圖,每個標記點的平均距離大約是100 kb
(kilobases)。
在作物理圖的過程中遇到如下的隨機區(qū)間覆蓋問題:
設M是一給定的區(qū)間(相當于染色體),其長度為G;I為隨機區(qū)間之集,其元素的區(qū)間長度的分布已知;P是隨機點的集合,其點隨機地分布在區(qū)間M上。稱一區(qū)間為anchored,如果它至少包含P中一個元素,稱I中的兩區(qū)間為連接的,如果它們的交集中包含P中一點,將所有相互連接的區(qū)間以它們所包含P中的最小點為左端點,以它們所包含P中的最大的點為右端點,組成一個新區(qū)間。稱為一個重疊群
(contig)。問題是:應選取多少個I中的元及P中的元,才能使所有的重疊群幾乎覆蓋了區(qū)間M?譬如,覆蓋M的比例平均起來達99%.
此問題已由Arratia等[14]較為圓滿的解決。
※2.1.3 結腸癌與大偏差醫(yī)學上發(fā)現(xiàn) 結腸癌是一種遺傳因素占主導地位的疾病,在某些家族中發(fā)病率很高,并有繼承性.
1991年Kinzler等人報告(見文獻[13]),結腸癌與位于第5條染色體長臂上的,稱做APC的遺傳基因的變異有關。但后來進一步的研究表明,同樣都是APC基因變異的人,而受感染的程度卻大不相同。一年后,Dove及其同事在老鼠中找到了類似的種群,稱為Min,極易患結腸瘤,同時他們還發(fā)現(xiàn)另一種群AKR,具有抵抗結腸瘤的能力。為進一步弄清其中的緣由,Lande等將其進行逆代雜交實驗,并分析實驗所得數(shù)據(jù),檢驗結腸瘤是否與某遺傳基因有關。對每一染色體上的一固定位置x,
引入統(tǒng)計量Z(x), 如果在此條染色體上沒有變異基因,則在任一位置x, Z(x)
服從均值為0的正態(tài)分布,但由于假設檢驗要在整條染色體上進行,發(fā)現(xiàn)是否在某一特殊區(qū)域內Z(x)較大,因而需要知道Z(x)沿整條染色體(或其上某一區(qū)域)的最大值的分布。Lander等證明了在他們所討論的問題中Z(x)
是參數(shù)為X=
2的Ornstein-Uhlenbeck過程。再利用Feingold等人(見文獻[15])的結果可知:對充分大的t有
其中X(t)是標準正態(tài)分布函數(shù),G是染色體的長度。利用上述結果,Lander等發(fā)現(xiàn)在老鼠的第4條染色體上有一特殊區(qū)域與其患結腸瘤有關,假設檢驗的置信度為0.002[16,
17]。 ※2.1.4 DNA序列分析與隨機徘徊
DNA序列是由A,G,C,T 4個字母組成的序列。1992年Voss,
Li-Kakeko對此做了頻譜分析.
同年,Peng等的工作揭示了DNA序列中存在長程相關而引起人們的興趣。發(fā)現(xiàn)這種相關性的方法是將DNA序列表為一維隨機徘徊:從第1個堿基(即第1個字母)算起,若是嘌呤堿基(即A或G)則向負走一步,若是嘧啶堿基(即C或T)則向正走一步。記n步后的凈位移為fn,
n =1, 2, …, L, L為序列長度.
在長度為l的窗口里計算位移的均方差,然后對全序列求和,得到Peng函數(shù)F(l)。他們發(fā)現(xiàn),對某種序列(所謂有內含子的序列)有
于是認為這種序列中堿基存在長程相關。長程相關是DNA序列分析中的一個研究熱點,它可以出現(xiàn)在相隔幾千個堿基的位置上。羅遼復把DNA序列表為二維隨機徘徊,張春霆提出了DNA序列的空間曲線表示,都取得了好的成果(見文獻[18])。
§2.2 拓撲學方法
DNA上堿基的排列次序稱為DNA的1級結構。雙鏈DNA的雙螺旋立體結構稱為DNA的2級結構。雙螺旋的中軸線(由每個堿基對的中點所連成的線)也絞擰成螺旋狀,稱為超螺旋,它可以打結,是DNA的3級結構。人類細胞中的46條染色體的DNA分子鏈連起來可達1.8
m,卷曲在細胞核中,就如同200
km長的釣魚線擠在一個籃球里[19]。研究DNA的2級和3級結構,雙螺旋及軸線的立體形狀、行為以及其生物功能,是非常重要的問題。拓撲學與幾何學,特別是紐結理論,是分析此問題的有力武器。
實際上,約在1969年美國拓撲學家Fuller,就是應研究DNA的分子生物學家的要求而研究閉帶形,并得到了與White公式實質上相同的結果。附帶談及,蛋白質也有3級,甚至4級結構。DNA中的堿基序列決定蛋白質的1級結構,即氨基酸序列。在合成后,蛋白質便自發(fā)折疊成一精確的3級結構,然后才能執(zhí)行催化、調控、化學輸運、流動和結構支持等功能。人們把“DNA序列決定氨基酸序列”稱為生命的第1密碼,而把“蛋白質氨基酸序列決定其自然結構”稱為第2密碼。破譯第2密碼的意義十分重大,其中必將用到幾何學與拓撲學(參看文獻[19])。
§2.3 數(shù)理語言學與密碼學方法
語言文字是人類表達和傳遞信息的工具,同樣,DNA序列也是用以表達和傳遞人類遺傳的信息。
DNA這本由30億個文字(A,G,C,T)寫成的無標點、無斷句的“天書”是否也應與某種“語言”相對應,如果能掌握它的“語言”就可以讀懂它了。美國科學家Zipf和Shannon用兩個標準的語言學實驗分析DNA,
Zipf實驗的結果發(fā)現(xiàn)“Junk”DNA與人類的語言具有一樣的特征,即單詞出現(xiàn)頻率的對數(shù)與單詞排序的對數(shù)呈線性關系。Shannon的實驗的結果也表明“Junk”DNA有很大的冗余度,這也和人類的語言一致,而DNA的編碼區(qū)則不顯示上述任何的語言特征。陳潤生等提出用密碼學的方法分析DNA序列,并取得了一些好結果。語言的數(shù)理研究始自Chomsky,從形式語言的角度來探討遺傳信息的傳遞將是很有意義的(詳見文獻[18]的3.3節(jié)彭守禮、劉次全的文章)。
3、基因突變
基因一般是穩(wěn)定的,但在機體內外因素的影響下,某些基因會發(fā)生變異或損傷,基因的突變有時可導致遺傳疾病,但也可產生新的種群,從而產生進化。突變與選擇是進化的動力。常見的突變是堿基置換(如A,G互換,C,T互換等)和基因缺失,或是各種插入、重復、倒位等。迄今,討論外源誘導突變的工作較多,如化學誘變、輻射、紫外線照射等;虻耐蛔兪欠褚灿腥缌孔榆S遷類似的內秉隨機性?
Monod認為,DNA中的一個突變,以及突變造成的某種蛋白質的過量生產、消失或功能改變屬于本質上的偶然性,內在的基因突變,成為密碼系統(tǒng)的固有噪音。突變在群體中發(fā)生是隨機的。
莫諾還認為蛋白質的氨基酸次序也是隨機的,他說,“如某種蛋白質含有200個氨基酸殘基,即使知道了199個的確切次序,也對剩下的1個不能預測(參見文獻[20],p.
71)。突變發(fā)生在密碼子的第1位,第2位或第3位,概率是不同的,第3位較易突變。從DNA到蛋白質,中間要經過RNA,因而有不確定性,構成Crick擺動。各基因的突變頻率不一,例如p53基因是突變最頻繁的抑癌基因,它的突變可引起癌癥;p73基因與此類似,它位于1號染色體短臂上。Tau基因則與癡呆癥有關.
關于腫瘤,目前認為它源于某些基因改變,引起細胞突變而異常增殖。單個基因的改變不足以形成腫瘤,腫瘤的發(fā)生是多種基因按一定順序改變的結果。不同腫瘤的點突變方式不同,如肺癌多為G變?yōu)門,結腸癌多為G變?yōu)锳。
關于對基因突變的數(shù)學研究,概率統(tǒng)計分析有一些(見文獻[1]),但真正有作用的數(shù)學模型尚未見到。突變是稀少的,高等生物突變率約在5%—8%。統(tǒng)計物理中研究大概率事件,而生命科學中則多為小概率事件,生命之出現(xiàn)本身就是小概率事件。
除基因突變外,染色體也可以發(fā)生畸變。畸變類型主要有兩種,一是染色體數(shù)目畸變,這時多出或丟失幾條染色體;另一種是染色體結構畸變,染色體發(fā)生斷裂。斷裂后的斷片未與斷端相接而丟失;或斷片接同源染色體的相應部分而重復;或斷片倒轉后接到斷端上而使順序顛倒等等,其結果可能引起先天愚呆、白血病等。
4、結束語
現(xiàn)在,每天得到的生物序列(主要是DNA序列、RNA序列與蛋白質的氨基酸序列等)的數(shù)據(jù)量以指數(shù)速度增加,按實驗室通常處理數(shù)據(jù)的方法只能處理這些數(shù)據(jù)中的極小一部分。
2000年6月26日,由美、英、日、法、德和中國組成的國際人類基因組計劃協(xié)作組分別在六國同時宣布人類基因組工作框架圖(覆蓋人類基因組90%區(qū)域的序列圖)繪制完成。如果說,人類基因組是一部蘊涵人類生命奧秘的天書,這一工作意味著人類已經破譯了這一天書中的絕大部分文字。這是人類在認識自身,探索生命奧秘的偉大征程中又一里程碑式的工作。
2001年2月15日,人類基因組計劃協(xié)作組又在世界著名的科學雜志《自然》上聯(lián)合發(fā)表了題為《人類基因組的序列的初步測定及分析》論文,這表明人類已經初步讀懂了這部天書的部分內容。整個基因組測序完成后的數(shù)據(jù)可以構成一本100萬頁的書,其上只有4個字母的反復出現(xiàn),既未發(fā)現(xiàn)語法,又沒標點。如何處理、存儲和分析這些數(shù)據(jù)?
這是數(shù)學家、物理學家和生物學家面對的一個難題,需要應用現(xiàn)有的數(shù)學方法甚至需要發(fā)展新的數(shù)學方法與理論來應付這一挑戰(zhàn)。另一方面,基因組相關數(shù)據(jù)庫及Internet技術的高度發(fā)達,使世界各國的科學家都能及時得到待分析的資料與數(shù)據(jù),因而從事理論研究的基本條件對所有學者都是相近的,我們應抓住這一大好時機。
不久前,著名的分子生物學家Gilbert,
Nobel獎獲得者在Nature上撰文指出,當前分子生物學已進入實驗與理論并行發(fā)展的階段。事實上,將概率論與數(shù)理統(tǒng)計、計算機等學科應用于分子生物學,經過10多年的發(fā)展,一門新興的學科生物信息學(Bioinformatics)已經形成,其研究的主要內容與方法可見文獻[21—23].
數(shù)學的思想與方法已在物理學中得到廣泛應用并獲得成功,可以相信在21世紀,其在分子生物學中的應用將會對整個生物學科產生極其深遠的影響。
|