• slider image
  • slider image
  • slider image
:::

人氣:3504
scimonth - 科技報導 | 2014-12-23 | 人氣:3504

作者/黃彥華(任職陽明大學系統與合成生物學研究中心)

New York City study #2

Flickr :David Yu

新世代定序技術,可以使我們快速獲得基因序列,但是定序結果和參考序的比對,或是完整基因體序列的組裝,都只是第一步,後續的「進階分析」及「資料解讀」,才是重點所在,才能有效地由這「大數據」之中,萃取出隱藏的生物醫學意義。

 

 

NGS的發展 將加速研究

 

過去十年來,新世代定序技術(next generation sequencing technologies, NGS)突飛猛進,隨著

不同的商業化技術服務問市,如Roche 454 pyrosequencing、Illumina Solexa、Life Technologies

SOLiD,使得基因體及轉錄體定序效率大為提高、價格快速下降,也讓過去受限於定序成本及效率的各種生物醫學研究,得到了很大的幫助。例如由美國國家基因體研究所(NHGRI)所資助的ENCODE計畫(ENCyclopedia Of DNA Elements),即為其中最令人印象深刻的一個例子。因為NGS技術的發展,ENCODE計畫大量的引用「以新世代定序技術為基礎」的各種研究方法,如染色質免疫沉澱–測序(ChIP-sequencing)的技術,來研究轉錄因子的在各種不同的組織,在染色體上的結合位置。由於ENCODE計畫對基因體調控區、基因表現調控機制、組織特異性(tissue-specificity)的諸多發現,對各種生醫研究具有重大意義,因此被Nature期刊選為2012年的十大科研新聞之一。我們可以預期,如果ENCODE計畫之中,還是採用費時、精確度不高的前一代研究方法,是不可能得到如此良好的結果。

 

新世代定序技術, 除了在基礎研究上提供了前所未有的豐富資料外,在轉譯醫學方面,因為利用高通量的NGS技術,對於遺傳及基因體變異疾病的致病因子及其機制,也有了許多重大的發現。目前醫學上有記錄的單基因遺傳疾病約有7000種,對於其中50%的疾病,已有若干致病基因變異被發現。有樂觀的研究人員,預測在2020年左右,因為定序技術的顯著改善,將可以破解餘下大部分單基因疾病的致病基因變異。

 

此外,對於「癌症」這種已被認為是「基因體的疾病」而言,國際上的大型計畫,如美國國家衛生院資助的「癌症基因體圖譜計畫」(The Cancer Genome Atlas, TCGA)、國際合作的「國際癌症基因體聯盟」(International Cancer Genome Consortium, ICGC)對各種人類癌症展開了大規模的定序計畫。TCGA預計在2015年底,要對25種癌症、超過一萬份來自病人的癌組織樣本,進行外顯子(exon)甚至是全基因體定序。我們可以預期,利用新世代定序技術的所得到的研究成果,將為人類提供大量的「致病的基因變異」及相關的「基因表現調控變化」的資料,為藥物基因體學(pharmacogenomics)奠定良好的基礎。研究人員將可以為不同的致病機制,設計不同的治療方法。也許在未來,醫療的目標,將會由「對症下藥」,變成「對人下藥」,也就是「針對不同的個人,其致病的不同基因變異,選用適當治療方式」。

 

有鑑於現今各種高通量技術在生醫產業應用的高度潛力,特別是在實現個人化醫療上、提供了造福全人類之健康的新希望。美國食品藥物管理局(FDA),於2013年10月,發佈了一份宣言《為個人化醫療鋪路,食藥局在這個新世代中對醫療產品發展所擔當的角色》(Paving the way for personalized medicine, FDA’s role in a new era of medical Product Development)。在這個宣言中,明確指出,新世代定序技術、計算生物學(生物資訊學)等領域快速進展,帶給了「個人化醫療」光明的前景。此外,FDA也在同一年11月,首次認證了NGS可以做為醫療診斷之用途。

 

NGS技術仍在快速進步之中,今年初(2014)Illumina公司已宣稱,使用該公司最新的HiSeq X Ten定序儀,可以在不到一天的時間內,以美金1000元的成本,定出個人的基因體全序列。以上這些事件,都指出同一個事實:各種高通量實驗技術,特別是新世代定序技術相關的應用,已經漸趨成熟穩定,將成為生醫產業之應用上的可以信賴的工具。我們可以預期,在可以預見的未來,應用NGS技術,將使得和人類疾病相關的基因體變異、基因表現之調控等資料,快速累積,此外,NGS技術也可應用於農林漁牧等領域上,加速對於生物多樣性、特殊表現型的相關研究。最後這些知識,將會應用於轉譯研究,造福人類的生活。

 

成功關鍵 在於「解讀」

 

目前可以應用NGS技術的生醫研究領域,若是依研究的對象,基本上可以略分為,一、人類基因體研究及基因流行病學研究;二、模式物種、或是特有品系的基因體註解及比較基因體研究。欲進行這些研究,需要下列三類生物序列及資訊處理分析能力:

 

(1)基因體(或表現序列)定序結果與參考基因體序列之快速比對

(2)將基因體定序結果快速組合為基因體全序列(de novo sequence assembly)

(3)解讀上述分析的結果,以回答該研究計畫,最初想要回答的問題

 

以目前臺灣來說, 已有很多學研團隊、定序服務公司、甚至對大資料之分析有興趣的個別研究者,可以做到第(1)、(2)類的新世代定序結果分析。但是針對生物醫學的研究計畫目的,解決生物醫學的問題,則不是上述單純的、定型化的技術操作,可以達到的目的。在以下的介紹,為了能讓讀者可以比較瞭解第(3)類資料解讀,和第(1)、(2)類的分析(以下將簡稱為「基本分析」)之間的差別,首先以「人類基因體研究及基因流行病學研究」為例,分別討論「基本分析」與「解讀」意義之時,所牽涉到的不同工作內容及特性。其次,關於進行「模式物種或是特有品系的全基因體註解和比較基因體研究」,所涉及的分析種類繁多,解讀之過程必須整合各種不同的分析及實驗結果,和人類基因體相關研究之間具有相當的差異,因此也於此另分段落提出我們個人的看法。

 

人類基因體及基因流行病學

 

NGS 定序結果的「基本分析」將成為實驗室常規

NGS技術的價格繼續下降及產能不斷提升,我們可以預期在不久的未來,NGS技術將會被一般規模的生物醫學實驗室大量採用,不會再是大型整合性計畫才能買單的高貴技術。另外,在定序結果的分析方面,不具生物資訊專才的研究人員,也可以很容易且可以在短時間之內,便完成上述第(1)、(2)類的分析。以一人份的外顯子定序結果而言,原始資料量可能是10 Giga bytes,分析過程產生的資料,可能會有30~50 Giga bytes。雖然看起來NGS的資料量很大,但是經過了過去數年的發展,現在不論是開源(open-source)或是商用軟體,都已經有良好而且方便的整合流程可以利用。如果偏好使用開源軟體來進行資料分析,想要「自行」找到病人基因體或是外顯子區域(exome)和參考序列不同之處,並不是十分困難的工作。比如說,在臺灣的生醫研究人員,可以考慮使用國家高速網路與計算中心所提供的Galaxy系統,參考生物資訊核心設施所提供的教育訓練材料;此外,也可以使用商用軟體,如CLC Bio來進行上述的定序比對分析、或是全基因體組裝的工作。

 

挑戰—有效地解讀資料

但是以上的步驟完成之後,並不意味著隱藏在新世代定序結果之中的生物醫學意義,可以被順利解讀。這種資料解讀的工作,是在新世代定序數據分析之中,最困難的一個環節,也是決定研究計畫成敗的關鍵。以加拿大的經驗為例,應用新世代定序結果分析,來尋找單基因致病變異,只有66%的成功率(Finding of Rare Disease Genes Canada, FORGE Canada)。很明顯的,在NGS被廣泛使用的今天,得到大量序列、並進行初步的分析,是相對的容易,但是進一步「解讀」結果,是具有挑戰性的。

 

舉例而言,在應用NGS技術於尋找致病基因變異時,最常見的一種困難,是得到數以萬計的候選變異位點,使得研究人員,無法直接以實驗方式,對各別的變異位點,逐一驗證和欲研究之生物現象之間的關聯性。要解決這樣的困境,必須要針對研究的目的,客製化資料分析的策略,將初始的序列比對結果,配合已有的各種生物知識,包含基因體註解、基因表現、生物路徑等等各種資料庫,進行進階分析。比如在尋找單基因遺傳疾病之致病變異時,由數以千計的候選位點之中,過濾出少於50個、最有可能造成疾病的基因變異,可能要配合各種人類基因體變異資料庫,如dbSNP、The 1000 Genomes Project、ClinVar、COSMIC、LSDB、HGMD等,來對候選的致病變異來進行過濾。

 

此外,在找到比較確定的致病基因變異位點後,為了預測基因變異對於細胞及組織的影響,以建議可能的致病機制並協助後續的實驗設計,此時就會要設計更進階的異質資料整合策略。舉例而言,若是發現和某特定疾病相關的基因體變化,是座落於非蛋白質轉譯區域(non-protein-coding region),在致病機制的研究上,在過去會造成很大的困擾。

 

因此,在解讀定序結果時,研究人員必須要考慮其它的可能性,如致病的基因體變異,是不是會影響轉錄因子和該變異區域的結合、或是改變了基因正常的剪接型式的調控。此時,一種可能的研究方式,是利用ENCODE已分析的實驗結果,來查詢是否和我們有興趣的區域重疊。換言之,我們在分析新世代定序數據時,很可能會利用其它研究所產生的大數據,來輔助解讀自己手上的新世代定序結果。

 

特有物種及比較基因體研究

 

NGS之技術,應用範圍不只是針對人類遺傳或是基因體疾病之研究而已,還可以用來研究病原致病之機制,以及新穎物種(品系)之特有的表現型調控機制等等。這種型式的資料分析,和一般已有參考序列(如人類基因體)之分析目的不同,因為前者的目的,是要研究特定物種之所以會有特別的表現型,其在基因層次的調控機制。比如榮陽團隊的靈芝基因體及表現體定序計畫,其中一個很重要的目的,是要藉由基因表現的資訊,註解生物反應路徑的啟動狀況,以明確指出「靈芝的菌絲體及子實體,皆可以產生可以調節哺乳類免疫功能的三帖類」。

 

(三帖類:一種化學物質,普遍存在於菌菇類植物當中。)

 

乍看之下,有了特定物種的定序結果,得到了組合序列或是完整的基因體全序列後,要想達到上述目的,似乎只需兩個步驟而已:使用NCBI BLAST進行序列資料庫比對,再使用京都基因與基因體百科全書(Kyoto Encyclopedia of Genes and Genome, KEGG)資料庫與相關工具,輔助註解新物種的生物反應路徑。但是,一個具前瞻性的新物種或是品系的基因體定序計畫,是具有開創該領域新的研究方向的作用,如人類基因體計畫的完成,對於各種生醫研究,都有著巨大的影響。因此,在進行基因體註解之時,為了能確實達到新物種定序計畫,所期望達到的生醫研究目的,有許多值得考慮的品管及進階分析議題。而類似的發想,也可以適用於其它物種的基因體定序計畫。例如在完成經濟物種的定序計畫後,經由註解,所得到的精確的基因體功能區及調控區的資料,可以應用於進階的實驗設計,有助於日後品系之鑑定、品種改良、育種等生技產業應用。以下我們將針對全基因體定序計畫之中,所包含的品質控管及多樣性的分析項目,進行討論。

 

NCBI BLAST(NCBI Basic Local Alignment Search Tool

美國國家生物技術資訊中心(National Center for Biotechnology Information, NCBI)隸屬於美國國衛院(NIH)。BLAST為在NCBI網站所提供資料庫搜尋的工具,主要在做生物序列如DNA、蛋白質序列的比對。

 

品質管控

在基因體序列的獲得及註解之中,全基因體定序及組合序列的品質評估,是一個相對被輕視的項目,最常見的評估,一般只有序列組合長度分佈(如N50)。但是,如果定序結果、或是組合序列的品質沒有達到一定的水準,後續的基因體註解,甚至是比較基因體學分析,既使做得再好,也無法彌補原始資料的誤失。換言之,新物種的註解,不只是比對序列資料庫而已,必須要重視所有處理資料及步驟的品質,對每個步驟所產生的衍生性資料,都要確實檢驗,是否有達到品管的要求,以確保最後的結果,是可以作為後續研究的基礎。比如說,具國際水準的生物資訊核心設施,在進行新物種之全基因體註解之前,除上述的序列組合長度分佈外,還會用原始定序讀序(reads)的再比對率(remapping ratio)、是否有外來物種污染定序結果、基因預測之狀況 (如基因數目、基因長度、及外顯子數量分佈、與相近物種之基因的差別大小、新穎基因的數量、基因的鹼基比例偏向、不含「已知基因」之區域的長度及分佈等),來對全基因體定序及組合之成果,進行進階的精細的評估。以上的這些結果,若與預期之範圍,有很大的出入,可能表示定序的結果或是序列組合的狀況,並不理想。以下舉出兩種經常會發生的意外狀況:

 

.在定序結果之中,有高比例的讀序(reads),其末端序列呈現不正常的鹼基偏向,這有可能是定序時插入序列的長度太短,以致於在定序時,對3’端點的讀序過程中,包含了轉接子(adaptor)區域。

 

.預測的基因數量,遠遠超過預期,比如和類似物種的註解結果相比,具有兩倍以上的基因。這種狀況,可以意味著組合序列的完整性低於預期,以致於有相當多的基因,被截成兩段,分在不同的接合序列(contigs)上。

 

除了以上的兩種狀況之外,還有更多的全基因體組合的品管問題,值得在進行全基因體的註解過程之中,加以考慮。

 

多樣性分析

一個具有國際水準的基因體定序計畫,一定包含一個完整的「基因體註解」、以及「比較基因體分析」。在新基因體定序計畫之中,序列的獲得、組合、與註解,是為了達到生物學研究上預先設定的目的,期望由定序結果的分析及比對,可以告訴我們一些本來不知道的資訊,並期望能由於這些知識,指引未來的研究方向及實驗設計。因此,完整的基因體註解,所涵蓋的分析項目,可能是超乎一般人想像的多,可以進行的分析種類,不是只有用區域性序列比對工具如BLAST進行序列資料庫的相似性比對而已。以英國劍橋桑格研究所(The Wellcome Trust Sanger Institute)與歐洲分子生物實驗室(EMBL)的歐洲生物資訊研究中心(EBI)合作的Ensembl計畫為例,對人類基因體的基本註解流程,就超過了50種以上的不同的基本分析項目,除了預測並註解基因的位置及結構外,還要再預測蛋白質功能區域、蛋白質修飾位點、基因家族(gene family)、預測外泌蛋白之特徵、基因啟動子預測、非蛋白質基因(noncoding RNA genes,如tRNA、miRNA、lncRNA)、在不同組織之中表現體分析、基因結構比對、重複性序列註解等等(可參見Ensembl網站)。此外,因為近年來在公開領域(public-domain)高通量資料之累積,Ensembl也加入了大量的基因表現、調控實驗結果,特別是來自於ENCODE的資料。

 

DNA定序技術

傳統定序→新世代定序→資料的解讀與分析→

 

傳統定序可分為「Sanger定序法」及「化學斷裂法」。將待定序的基因序列切成小片段,接入細菌質體,利用細菌生長繁殖快速的特性,大量複製待測質體片段,再利用電泳分析讀出DNA序列。適用於較長的DNA片段,但傳統定序法費工繁瑣,且十分昂貴。

 

新世代定序常見的儀器有Roche 454、Illumina Solexa及Life Technologies SOLiD,大幅提高效率、價格快速下降。先解讀各小片段基因序列,再運用資訊科技協助進行片段接合,不需進行質體複製,減少錯誤發生。

 

另外一個重要的基因體定序結果的分析項目:跨物種的基因體比對。這種分析,是利用演化所提供的線索,比較不同基因體間序列層次亦或是基因層次的異同。這種研究方法,除了應用於人類致病基因變異的研究之外,尚有其它多種應用的可能性:比如對於新定序的物種而言,可以借用相近的模式物種已有的基因體定序及註解結果,來加速對這個物種的基因結構、基因功能、及生物反應路徑的註解,找出新物種所具有的新穎表現型的調控機制;在流行病學方面,可以從病原菌間基因體相似程度推測,在不同時間地點發生的傳染病之間是否有相關性,藉此找出可能的病源、進而達到對傳染病的監控。

 

資料之整合 是未來的趨勢

 

隨著NGS技術的進步,在未來的研究與應用之中,基因體序列將快速累積,在這種情況下,若再考慮人類族群基因體研究或是比較眾多物種基因體研究,則需要整合的定序結果的資料筆數(如人次)可能高達數十乃至於上千。近兩年來,在國際生醫研究領域,針對少量(如小於10位)病人或是物種品系的定序結果分析,已不再被視為是新穎之事,目前在國際一流生醫期刊上,已經可以看到基於數千份、甚至是上萬份定序結果的研究。如沃克(David H Walker)等人於2013年發表於The Lancet infectious diseases期刊的流行病學研究,針對了390株結核桿菌,進行了全基因體定序及分析;另外珀塞爾米(Shaun M. Purcell)等人 於2014年2月,發表於Nature期刊,關於思覺失調症(schizophrenia)的致病變異研究之中,對2536位病人及2543位正常人,進行了外顯子定序(exome-sequencing)分析。

 

此外,近年來國際大型研究計畫的趨勢,走向了多樣性異質資料的收集。如ENCODE及TCGA等國際計畫,所開放的相關定序資料,涵蓋了基因體、轉譯體、附基因體、微小核醣核酸等等,另外,TCGA還收集了相當完整的臨床資料。這些計畫,已經將大部份的資料公開,如上述的The 1000 Genomes Project以及ENCODE都已經將資料公開,供各方自由下載使用。這些資料和以往最大的不同,在於其巨大的資料份數,以及分析時必須進行的複雜資料整合。

 

對於臺灣一般規模的生醫實驗室而言,面對高度的國際競爭,我們可以參考國際上已有之範例:其一,我們應善加利用各種國際大型研究計畫所產生的成果。利用資料探勘的技術,由這些龐大的、多樣性的異質資料之中,整合解讀出其中隱藏的意義,協助產生假說、並進而設計小型實驗予以驗證。其二,是各個團隊之間共享定序結果,甚至加入國際團隊,以群體的力量,來達到單一團隊所無法達到的目的。

 

 

致謝

本文作者黃彥華博士,目前任職於陽明大學系統與合成生物學研究中心,同時是科技部生技類核心設施 E3「臺灣生物資訊聯盟」的成員之一。作者感謝本中心主任楊永正老師、蔡毓舜博士、邱艦瑩先生,及國家高速網路與計算中心雲端小組王聿泰博士所提供的寶貴意見。

 

 

 

延伸閱讀

1. Mardis, E.R., The impact of next-generation sequencing technology on genetics, Trends Genet, Vol. 24: 133-141, 2008.

2. Birney, E. et al., Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project, Nature, Vol. 447:799-816, 2007.

3. Raney, B.J. et al., ENCODE whole-genome data in the UCSC genome browser (2011 update), Nucleic Acids Res, Vol. 39: D871-875, 2011.

4. Boycott, K.M. et al., Rare-disease genetics in the era of next-generation sequencing: discovery to translation, Nat Rev Genet, Vol. 14: 681-691, 2013.

5. Cancer Genome Atlas Research, N. et al., The Cancer Genome Atlas Pan-Cancer analysis project, Nature genetics, Vol. 45: 1113-1120, 2013.

6. Huang, Y.H. et al., Generation and analysis of the expressed sequence tags from the mycelium of Ganoderma lucidum, PLoS One, Vol. 8: e61127, 2013.

7. Durbin, R.M. et al., A map of human genome variation from population-scale sequencing, Nature, Vol. 467: 1061-1073, 2010.

8. Li, H. et al., The Sequence Alignment/Map format and SAMtools, Bioinformatics, Vol. 25: 2078-2079, 2009.

9. Flicek, P. et al., Ensembl 2011, Nucleic Acids Res, Vol. 39: D800-806, 2011.

 
網友個人意見,不代表本站立場,對於發言內容,由發表者自負責任。
發表者 樹狀展開
發表評論
評論規則*
任何人都可以發表評論
標題*
姓名*
信箱*
網站*
內容*
確認碼*
先以 52 加上 98 再乘以 7 是多少 ?  
輸入運算式的結果
您最多可以嘗試:10 次


合 作 與 贊 助 夥 伴

科技部 科技大觀園 國立教育廣播電台 國立自然科學博物館 生技醫藥國家型科技計畫 CASE PRESS RNAiCORE Connectome RNAiCORE

 

:::
快 速 登 入
使用Facebook登入 使用Google登入
會 員 登 入
搜尋
徵求計畫
新聞載入中,請稍後...
生命科學研究發展司

點此進入 生命科學研究發展司 網頁

臺灣大學科學教育發展中心

點此進入 臺灣大學科學教育發展中心 網頁

銘傳生科

點此進入 銘傳生科 網頁

海大海研所

點此進入 海大海研所 網頁

環球生技月刊

點此進入 環球生技月刊 網頁

研之有物

點此進入 研之有物 網頁

線 上 使 用 者
3人線上 (1人在瀏覽最新消息)

會員: 0
訪客: 3

更多…
流 量
今天: 1818
昨天: 102102102
本週: 1818
本月: 2897289728972897
總計: 657974657974657974657974657974657974
平均: 418418418