高通量RNA測序(RNA-seq)有望描繪出轉錄組的整體圖像,實現樣本內所有基因及其亞型的完整注釋和定量。隨著測序價格的不斷下降,以及個人化測序儀的上市,更多的實驗室有機會嘗試這種新技術。
然而,測序之后的數據分析才是真正的挑戰。在RNA-seq之后,還需要一些強大的計算工具,才能繪制出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
首先,他們介紹了一些方法,將讀數與參考轉錄組或基因組直接比對。之后,他們討論了鑒定表達基因和亞型的方法。zui后,他們還介紹了一些方法,來預計基因和亞型的豐度,以及分析樣品間的差異表達。
由于RNA-seq數據生成的不斷改善,現有計算工具的發展有著很大差異。在某些領域,如讀數定位,有多種算法存在,但在差異表達分析上,解決方案才剛剛出現。作者們強調了這些方法的核心原理和每種方法的關鍵差異,以及它們在RNA-seq分析上的應用。他們還討論了這些不同的方法如何影響結果以及數據的闡釋。
為了方便讀者參考,他們還將現有的方法列成了一張表,注明了它們的原理和用途。另外,他們精選了一些有代表性的方法,應用在已經發表的RNA-seq數據組中。此數據組包含了5800萬個末端配對的讀數。
數據比對是RNA-seq分析中的一項基本任務,然而也面臨著一些挑戰,比如數據量大,讀數很短(36-125 bp),錯誤率可觀,且許多讀數跨越外顯子-外顯子交界。對于RNA-seq的比對方法,作者將其分成“unspliced read aligners”和“spliced aligners” 兩類,并分別介紹。
轉錄組重建也是個很困難的任務,因為基因表達差異很大,且讀數可能來源于成熟的mRNA,也可能來源于未*剪接的前體RNA,這樣就很難鑒定成熟的轉錄本。當然,讀數短也為分析帶來了困難。目前的轉錄組重建方法主要有兩類,一類是基因組指導的,另一類是不依賴于基因組的。作者比較了這兩類方法,并具體介紹了每一類下面的幾種方法。
至于轉錄組的圖譜分析,DNA芯片一直是方法。在使用RNA-seq來估計基因表達時,需要將讀數適當地標準化,才能提取出有意義的表達預測值。作者介紹了一些方法,來預計基因和亞型的豐度,以及分析樣品間的差異表達。
作者還提到,隨著測序技術的成熟,如讀長不斷增加,現有的計算工具需要發展,也能滿足新的需求,同時新工具也會不斷出現,滿足新的應用。(來源:生物通 薄荷)
相關產品
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。