香蕉视频下载链接,国产精品无码色一区二涩欲区三区

首頁 |

數(shù)學知識體系 |

數(shù)學史 |

數(shù)學家 |

數(shù)學研究 |

數(shù)學獎 |

數(shù)學應用 |

數(shù)學教育 |

趣味數(shù)學 |

數(shù)學論壇 |

討論區(qū)

生命遺傳信息與若干數(shù)學問題

許玉霞

自1953年沃森和克里克發(fā)現(xiàn)DNA的雙螺旋結構，人們對生命信息遺傳的研究進入了一個嶄新的時代，相繼發(fā)現(xiàn)了“遺傳密碼字典”、“遺傳的中心法則”等，使人們對生命是如何一代一代繁衍的，有了初步的了解。但離真正揭開生命信息遺傳之謎還差之甚遠。

1987年,美國開始了人類基因組研究計劃，任務有兩個：第一個是“讀出”，即研究出人類基因組的全部核苷酸的順序；

第二個是“讀懂”，即找出全部基因在染色體上的位置，了解它們的功能。

整個基因組測序完成后的數(shù)據(jù)可以構成一本100萬頁的書，其上只有4個字母的反復出現(xiàn). 如何處理、存儲和分析這些數(shù)據(jù)？這已不是生物學家本身可以解決的問題，需要其他學科，特別是數(shù)學與計算機學科的介入.。首先介紹了分子生物學的一些最基本的知識，然后著重介紹了目前人類基因組研究中的若干問題及其所用到的數(shù)學方法與模型。

1、背景與基本知識

生命的基本單位是細胞，它由細胞膜、細胞質和細胞核三者組成，遺傳信息儲存在細胞核中。人的細胞核中含有23對染色體，染色體含DNA（脫氧核糖核酸）和蛋白質。DNA經螺旋、扭曲、折疊等壓縮到萬分之一并與蛋白質一起而組成染色體。

DNA是一種大分子，由兩股長鏈以螺旋式構成，這種螺旋結構是在1953年由沃森和克里克提出，并獲1962年的Nobel獎，是20世紀最偉大的科學發(fā)現(xiàn)之一。

DNA分子上的一個個有生物功能的片段是基因。基因由若干按一定順序排列的核苷酸組成。核苷酸由磷酸基團、脫氧核糖及堿基構成，有4種不同的堿基，即：腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶，分別用A, G，C，T表示。核苷酸按其所含堿基的不同也分為4種。在DNA的雙股上，A，T成對出現(xiàn)，G，C也成對出現(xiàn)，每對稱為一個堿基對。

遺傳密碼在DNA的鏈上，密碼由4種不同的核苷酸按一定順序排列而成，即可看成由4個字母A，G，C，T排列而成. 據(jù)估計，人類的DNA約含有30億個密碼，排列組成至少10萬條基因. 決定人體蛋白質的20種氨基酸的遺傳密碼已找出，先由A, G, C, T中每3個字母重復排列成一密碼子，共有43=64個密碼子. 每一密碼子對應一種氨基酸；但由于只有20種氨基酸，故這種對應只能是多對一的，例如AGA，AGG都對應于精氨酸，此種對應關系已完全確定，稱為遺傳密碼字典。

使人們驚嘆不已的是，自然界所有的生命形式都共用這本密碼。在確定了三聯(lián)體碼在DNA上線性串接的結合方式后，發(fā)現(xiàn)了為蛋白質編碼的基因結構。這些基因在DNA上所處的位置，稱為DNA的編碼區(qū)，約占整個基因組的3%—5%，其余部分習慣上統(tǒng)稱為“廢物(Junk)”DNA. 在對編碼區(qū)上DNA的結構所進行的40多年的研究工作中，已造就了幾十名Nobel獎獲得者。然而，“Junk”DNA中包含的信息也許更多�？傊毎毎巳旧w蛋白質（含氨基酸）、DNA（由核苷酸組成）基因（上有密碼子，即由A，G，C，T組成的三聯(lián)體碼）。

1987年,美國開始了人類基因組研究計劃，任務有兩個：第一個是“讀出”，即研究出人類基因組的全部核苷酸的順序；第二個是“讀懂”，即找出全部基因在染色體上的位置，了解它們的功能。用數(shù)學的語言來說，人類基因組計劃的最基本、最直接的結果是得到一個由4個字母（A，G，C，T）可重復排列而組成的長度為3×109的一維鏈. 解讀后，人們不僅獲得靜態(tài)的結構信息，而且還能得到動態(tài)的四維（時空）調控信息. 目前國際上找到了全長基因約2萬條, 平均每天能找到9條. 據(jù)報道，復旦大學發(fā)明了一種新技術，每日能找到15條. 科學家們把此計劃與40年代的曼哈頓計劃（研究原子彈、氫彈）和60年代的阿波羅計劃（宇航、登月）相比。

2、目前基因組研究中的若干數(shù)學方法

（1 ）概率統(tǒng)計方法

概率統(tǒng)計是較早進入生命科學研究領域的學科之一，早在20世紀40—50年代，F(xiàn)isher和Wright就用它研究過數(shù)量遺傳學。下面給出幾個例子說明它在當今人類基因研究中的應用。

※2.1.1 隱馬爾可夫模型(HMM)

隱馬爾可夫模型(Hidden Markov Models)是由兩個隨機變量序列組成：一個是觀測不到的馬爾可夫鏈{Yn: n≥0}, 另一個是可以觀測到的隨機序列{Xn: n≥0}。且已知兩者間有如下的聯(lián)系: n，條件概率為已知。{Yn, n≥0}稱為隱馬爾可夫鏈，{Xn, n≥0}稱為其觀測鏈。

隱馬爾可夫模型已在語音識別中得到廣泛應用[2，3]，80年代末開始應用于計算生物學。目前，隱馬爾可夫模型在人類基因組研究的許多方面都有廣泛的應用，如，DNA序列的陣排列（alignment）[4~6]、尋找基因(genefinding)[7,8]、作基因圖(genetic mapping)[9]、作物理圖(physical mapping)[10]及蛋白質二級結構的預測[11]等. 這諸多應用的基本思想都源于如下的Bayes統(tǒng)計分析：

考慮隨機模型M=(S,PM), 對分別以P（M | s）, P(s | M)表示P(x來自模型M | x=s), P(x=s | x來自模型M)；則上述諸應用問題大多可抽象為如下的識別問題或判別問題——

（1）識別問題：現(xiàn)觀察到一序列s, 問此序列是來自模型M的概率是多少？由Bayes公式，欲計算P(M | s)，需知道兩個先驗概率P(M)和P(s)。但在實際問題中往往很難做到. 可退一步考慮如下的判別問題。

（2）判別問題：再考慮另一隨機模型N=（S，PN），根據(jù)觀察到的序列s, 判斷s是來自M，還是來自N？此時，可由比較兩個條件概率P（M | s）和P(N | s)的大小來得到答案。仍由Bayes公式可得。

下面以“多個DNA序列的陣排列問題”為例子說明如何在DNA序列上建立隱馬爾可夫模型（HMM）。

設有r個DNA序列，其中, 序列a1, a2, …，ar的一個陣排列定義為：在a1, a2, …, ar中不同的位置分別插入空隙符號“－”(gap)，使其變?yōu)椋獭輒ax{n1, …, nr}, 顯然，對于給定的序列a1, a2,…, ar可以有許多不同的陣排列。例如，都是序列a=AGGT, b=ATGTG的陣排列。

引入陣排列的目的在于討論序列之間的相似性，為此，定義函數(shù)和要尋找使d(a1, a2, …, ar)達到最小的那些排列，稱其為“最優(yōu)的陣排列”。由于所有可能的陣排列的數(shù)目隨序列的長度及序列個數(shù)呈指數(shù)增加，例如當r = 2, n1 = n2 = L = 1 000所有可能的陣排列的數(shù)目大約為10600[12]。直接進行逐個比較來得到最優(yōu)的陣排列是不現(xiàn)實的，必須尋找其他的算法。最近，用HHM來解決此問題，得到了較好的結果(見文獻[4，13])。隱馬爾可夫模型（HMM）可如下建立：隱馬爾可夫鏈Yn取值為M（配對）、I (插入)、及Ｄ（刪除）3個狀態(tài)；可觀察到的序列Xn取值為A，G，C，T. 隱馬爾可夫鏈Yn可以看做在DNA序列上運動，在第k步時（相應于DNA序列上的第k個位置）取值若為配對狀態(tài)M，則以概率Pk(a | M)在此位置產生字母若為插入狀態(tài)I，則以概率Pk(a | I)在此位置插入字母若為刪除狀態(tài)D，則將位置k上的字母刪除。隱馬爾可夫鏈Yn的轉移矩陣為P( yk+1 | yk )。于是當隱馬爾可夫鏈Yn運動了N+1步后，便可得到兩個序列，一是狀態(tài)序列：y0（開始）, y1, …，yN, yN+1 = ML+1（結束）（觀察不到）；二是字母序列: x1, x2, …, xV, V≤N（可觀察到）。當yi是M（配對）或I（插入）時，產生的字母記為xli, 則狀態(tài)序列y=y0,y1,…,yn,yn+1與字母序列x = x1, x2, …, xV的概率分布為（其中, 因此序列x = x1, x2,…, xV出現(xiàn)的概率為）。利用訓練集可以將模型中的未知參數(shù)k=0,…, N估計出來。

※2.1.2 物理圖與隨機區(qū)間覆蓋問題

作圖是人類基因組研究計劃中一項主要的任務，通過作圖可確定基因及其他功能區(qū)在DNA序列上的位置。關鍵的圖是物理圖和遺傳圖，遺傳圖是通過關聯(lián)分析將已知的基因的相對位置定位在染色體上；物理圖是將一組標記定位在染色體上并估計其間的相互距離，每一標記點可以是一條已知基因，也可以不是。現(xiàn)在，已構造出具有 30 000個標記點的整個人類基因組的物理圖，每個標記點的平均距離大約是100 kb (kilobases)。

在作物理圖的過程中遇到如下的隨機區(qū)間覆蓋問題：設M是一給定的區(qū)間（相當于染色體），其長度為G；I為隨機區(qū)間之集，其元素的區(qū)間長度的分布已知；P是隨機點的集合，其點隨機地分布在區(qū)間M上。稱一區(qū)間為anchored，如果它至少包含P中一個元素，稱I中的兩區(qū)間為連接的，如果它們的交集中包含P中一點，將所有相互連接的區(qū)間以它們所包含P中的最小點為左端點，以它們所包含P中的最大的點為右端點，組成一個新區(qū)間。稱為一個重疊群 (contig)。問題是：應選取多少個I中的元及Ｐ中的元，才能使所有的重疊群幾乎覆蓋了區(qū)間Ｍ？譬如，覆蓋M的比例平均起來達99%. 此問題已由Arratia等[14]較為圓滿的解決。

※2.1.3 結腸癌與大偏差醫(yī)學上發(fā)現(xiàn)

結腸癌是一種遺傳因素占主導地位的疾病，在某些家族中發(fā)病率很高，并有繼承性. 1991年Kinzler等人報告（見文獻[13]），結腸癌與位于第5條染色體長臂上的，稱做APC的遺傳基因的變異有關。但后來進一步的研究表明，同樣都是APC基因變異的人，而受感染的程度卻大不相同。一年后，Dove及其同事在老鼠中找到了類似的種群，稱為Min，極易患結腸瘤，同時他們還發(fā)現(xiàn)另一種群AKR，具有抵抗結腸瘤的能力。為進一步弄清其中的緣由，Lande等將其進行逆代雜交實驗，并分析實驗所得數(shù)據(jù)，檢驗結腸瘤是否與某遺傳基因有關。對每一染色體上的一固定位置x, 引入統(tǒng)計量Z(x), 如果在此條染色體上沒有變異基因，則在任一位置x, Z(x) 服從均值為0的正態(tài)分布，但由于假設檢驗要在整條染色體上進行，發(fā)現(xiàn)是否在某一特殊區(qū)域內Z(x)較大，因而需要知道Z(x)沿整條染色體（或其上某一區(qū)域）的最大值的分布。Lander等證明了在他們所討論的問題中Z(x) 是參數(shù)為X= 2的Ornstein-Uhlenbeck過程。再利用Feingold等人（見文獻[15]）的結果可知：對充分大的t有

其中X(t)是標準正態(tài)分布函數(shù)，G是染色體的長度。利用上述結果，Lander等發(fā)現(xiàn)在老鼠的第4條染色體上有一特殊區(qū)域與其患結腸瘤有關，假設檢驗的置信度為0.002[16, 17]。

※2.1.4 DNA序列分析與隨機徘徊

DNA序列是由A，G，C，T 4個字母組成的序列。1992年Voss, Li-Kakeko對此做了頻譜分析. 同年，Peng等的工作揭示了DNA序列中存在長程相關而引起人們的興趣。發(fā)現(xiàn)這種相關性的方法是將DNA序列表為一維隨機徘徊：從第1個堿基（即第1個字母）算起，若是嘌呤堿基（即A或G）則向負走一步，若是嘧啶堿基（即C或T）則向正走一步。記n步后的凈位移為fn, n =1, 2, …, L, L為序列長度. 在長度為l的窗口里計算位移的均方差，然后對全序列求和，得到Peng函數(shù)F(l)。他們發(fā)現(xiàn)，對某種序列（所謂有內含子的序列）有

于是認為這種序列中堿基存在長程相關。長程相關是DNA序列分析中的一個研究熱點，它可以出現(xiàn)在相隔幾千個堿基的位置上。羅遼復把DNA序列表為二維隨機徘徊，張春霆提出了DNA序列的空間曲線表示，都取得了好的成果(見文獻[18])。

§2.2 拓撲學方法

DNA上堿基的排列次序稱為DNA的1級結構。雙鏈DNA的雙螺旋立體結構稱為DNA的2級結構。雙螺旋的中軸線（由每個堿基對的中點所連成的線）也絞擰成螺旋狀，稱為超螺旋，它可以打結，是DNA的3級結構。人類細胞中的46條染色體的DNA分子鏈連起來可達1.8 m，卷曲在細胞核中，就如同200 km長的釣魚線擠在一個籃球里[19]。研究DNA的2級和3級結構，雙螺旋及軸線的立體形狀、行為以及其生物功能，是非常重要的問題。拓撲學與幾何學，特別是紐結理論，是分析此問題的有力武器。

實際上，約在1969年美國拓撲學家Fuller，就是應研究DNA的分子生物學家的要求而研究閉帶形，并得到了與White公式實質上相同的結果。附帶談及，蛋白質也有3級，甚至4級結構。DNA中的堿基序列決定蛋白質的1級結構，即氨基酸序列。在合成后，蛋白質便自發(fā)折疊成一精確的3級結構，然后才能執(zhí)行催化、調控、化學輸運、流動和結構支持等功能。人們把“DNA序列決定氨基酸序列”稱為生命的第1密碼，而把“蛋白質氨基酸序列決定其自然結構”稱為第2密碼。破譯第2密碼的意義十分重大，其中必將用到幾何學與拓撲學（參看文獻[19]）。

§2.3 數(shù)理語言學與密碼學方法

語言文字是人類表達和傳遞信息的工具，同樣，DNA序列也是用以表達和傳遞人類遺傳的信息。 DNA這本由30億個文字（A，G，C，T）寫成的無標點、無斷句的“天書”是否也應與某種“語言”相對應，如果能掌握它的“語言”就可以讀懂它了。美國科學家Zipf和Shannon用兩個標準的語言學實驗分析DNA, Zipf實驗的結果發(fā)現(xiàn)“Junk”DNA與人類的語言具有一樣的特征，即單詞出現(xiàn)頻率的對數(shù)與單詞排序的對數(shù)呈線性關系。Shannon的實驗的結果也表明“Junk”DNA有很大的冗余度，這也和人類的語言一致，而DNA的編碼區(qū)則不顯示上述任何的語言特征。陳潤生等提出用密碼學的方法分析DNA序列，并取得了一些好結果。語言的數(shù)理研究始自Chomsky，從形式語言的角度來探討遺傳信息的傳遞將是很有意義的(詳見文獻[18]的3.3節(jié)彭守禮、劉次全的文章)。

3、基因突變

基因一般是穩(wěn)定的，但在機體內外因素的影響下，某些基因會發(fā)生變異或損傷，基因的突變有時可導致遺傳疾病，但也可產生新的種群，從而產生進化。突變與選擇是進化的動力。常見的突變是堿基置換（如A，G互換，C，T互換等）和基因缺失，或是各種插入、重復、倒位等。迄今，討論外源誘導突變的工作較多，如化學誘變、輻射、紫外線照射等�；虻耐蛔兪欠褚灿腥缌孔榆S遷類似的內秉隨機性? Monod認為，DNA中的一個突變，以及突變造成的某種蛋白質的過量生產、消失或功能改變屬于本質上的偶然性，內在的基因突變，成為密碼系統(tǒng)的固有噪音。突變在群體中發(fā)生是隨機的。

莫諾還認為蛋白質的氨基酸次序也是隨機的，他說，“如某種蛋白質含有200個氨基酸殘基，即使知道了199個的確切次序，也對剩下的1個不能預測（參見文獻[20]，p. 71）。突變發(fā)生在密碼子的第1位，第2位或第3位，概率是不同的，第3位較易突變。從DNA到蛋白質，中間要經過RNA，因而有不確定性，構成Crick擺動。各基因的突變頻率不一，例如p53基因是突變最頻繁的抑癌基因，它的突變可引起癌癥；p73基因與此類似，它位于1號染色體短臂上。Tau基因則與癡呆癥有關. 關于腫瘤，目前認為它源于某些基因改變，引起細胞突變而異常增殖。單個基因的改變不足以形成腫瘤，腫瘤的發(fā)生是多種基因按一定順序改變的結果。不同腫瘤的點突變方式不同，如肺癌多為G變?yōu)門，結腸癌多為G變?yōu)锳。

關于對基因突變的數(shù)學研究，概率統(tǒng)計分析有一些（見文獻[1]），但真正有作用的數(shù)學模型尚未見到。突變是稀少的，高等生物突變率約在5%—8%。統(tǒng)計物理中研究大概率事件，而生命科學中則多為小概率事件，生命之出現(xiàn)本身就是小概率事件。

除基因突變外，染色體也可以發(fā)生畸變。畸變類型主要有兩種，一是染色體數(shù)目畸變，這時多出或丟失幾條染色體；另一種是染色體結構畸變，染色體發(fā)生斷裂。斷裂后的斷片未與斷端相接而丟失；或斷片接同源染色體的相應部分而重復；或斷片倒轉后接到斷端上而使順序顛倒等等，其結果可能引起先天愚呆、白血病等。

4、結束語

現(xiàn)在，每天得到的生物序列（主要是DNA序列、RNA序列與蛋白質的氨基酸序列等）的數(shù)據(jù)量以指數(shù)速度增加，按實驗室通常處理數(shù)據(jù)的方法只能處理這些數(shù)據(jù)中的極小一部分。

2000年6月26日，由美、英、日、法、德和中國組成的國際人類基因組計劃協(xié)作組分別在六國同時宣布人類基因組工作框架圖（覆蓋人類基因組90%區(qū)域的序列圖）繪制完成。如果說，人類基因組是一部蘊涵人類生命奧秘的天書，這一工作意味著人類已經破譯了這一天書中的絕大部分文字。這是人類在認識自身，探索生命奧秘的偉大征程中又一里程碑式的工作。

2001年2月15日，人類基因組計劃協(xié)作組又在世界著名的科學雜志《自然》上聯(lián)合發(fā)表了題為《人類基因組的序列的初步測定及分析》論文，這表明人類已經初步讀懂了這部天書的部分內容。整個基因組測序完成后的數(shù)據(jù)可以構成一本100萬頁的書，其上只有4個字母的反復出現(xiàn)，既未發(fā)現(xiàn)語法，又沒標點。如何處理、存儲和分析這些數(shù)據(jù)？

這是數(shù)學家、物理學家和生物學家面對的一個難題，需要應用現(xiàn)有的數(shù)學方法甚至需要發(fā)展新的數(shù)學方法與理論來應付這一挑戰(zhàn)。另一方面，基因組相關數(shù)據(jù)庫及Internet技術的高度發(fā)達，使世界各國的科學家都能及時得到待分析的資料與數(shù)據(jù)，因而從事理論研究的基本條件對所有學者都是相近的，我們應抓住這一大好時機。

不久前，著名的分子生物學家Gilbert, Nobel獎獲得者在Nature上撰文指出，當前分子生物學已進入實驗與理論并行發(fā)展的階段。事實上，將概率論與數(shù)理統(tǒng)計、計算機等學科應用于分子生物學，經過10多年的發(fā)展，一門新興的學科生物信息學（Bioinformatics）已經形成，其研究的主要內容與方法可見文獻[21—23]. 數(shù)學的思想與方法已在物理學中得到廣泛應用并獲得成功，可以相信在21世紀，其在分子生物學中的應用將會對整個生物學科產生極其深遠的影響。