隨著大家對(duì)生命未知領(lǐng)域的探索,越來越多的需要依靠測(cè)序技術(shù)對(duì)生物的過程、代謝的特性進(jìn)行解析。尤其是現(xiàn)在廣泛利用的二代測(cè)序技術(shù),也是基于短序列的測(cè)序方式,它能夠以一種較高性價(jià)比的方式,給廣大的科研工作者以及實(shí)際的生產(chǎn)過程中的工作人員,提供非常有用的信息。
這種測(cè)序技術(shù)需要我們對(duì)生物學(xué)過程,包括對(duì)計(jì)算機(jī)代碼有些理解的基礎(chǔ),其中會(huì)包含一些生物信息學(xué)領(lǐng)域的專屬名詞,甚至?xí)缶邆渚幊袒A(chǔ)。這也造成了大家對(duì)環(huán)境宏基因組的分析過程上手難度的增加。宏基因組的測(cè)序量,一般在6~10GB+,往往帶來的是對(duì)計(jì)算成本,尤其是計(jì)算時(shí)長(zhǎng)高的消耗。基于北京超級(jí)云計(jì)算中心(以下簡(jiǎn)稱北京超算)的算力資源和平臺(tái),我們搭建了能夠?qū)Νh(huán)境宏基因組數(shù)據(jù)進(jìn)行分析的軟件和平臺(tái),在這個(gè)平臺(tái)上能實(shí)現(xiàn)群落功能的分析,并且整合了宏基因組分箱技術(shù),以及基于深度學(xué)習(xí)的病毒組分析。
1Tb的數(shù)據(jù)大約100個(gè)樣本,每個(gè)樣本測(cè)序深度在10個(gè)G左右。單純使用服務(wù)器進(jìn)行分析大約需要150天,在基于北京超算搭建的宏基因組數(shù)據(jù)分析平臺(tái)上進(jìn)行計(jì)算,7-20天之內(nèi)就可以完成數(shù)據(jù)分析,大大的節(jié)約了時(shí)間成本和計(jì)算費(fèi)用成本。
北京超算能夠提供非常強(qiáng)的硬件支持,滿足計(jì)算需求的同時(shí)提供7X24小時(shí)的專屬客服支持。近幾年來通過與北京超算的合作達(dá)成了一些論文計(jì)算的分析過程,并發(fā)表了一些文章。
案例1 濕地植物根際錳氧化物強(qiáng)化氨氧化過程
在解析錳氧化過程中,利用宏基因組分析平臺(tái),發(fā)現(xiàn)錳氧化過程和氨氧化過程存在耦合作用。錳氧化的過程中其實(shí)缺乏在濕地中的探索,我們?cè)谌珖?guó)各個(gè)城市進(jìn)行濕地樣本收集。對(duì)根際土和非根際土進(jìn)行宏基因組測(cè)序,以及常規(guī)的理化指標(biāo)的測(cè)定。
可以看到,宏基因組的測(cè)序量大約是3.7個(gè)TB。19年底到20年上半年,我的整個(gè)服務(wù)器都在跑這個(gè)數(shù)據(jù)還沒有跑完。在開發(fā)了基于超算的計(jì)算流程和計(jì)算軟件后,兩個(gè)月內(nèi)完成了所有的計(jì)算任務(wù)。簡(jiǎn)單分享一下我計(jì)算的成果。
我發(fā)現(xiàn)在蘆葦根際中錳氧化物的豐度含量比較高。錳氧化主要是微生物(介導(dǎo))的,所以我就好奇這個(gè)過程中到底有沒有錳氧化基因有一個(gè)富集呢。基因的豐度是通過宏基因測(cè)序,然后加上計(jì)算獲得的。我在對(duì)它進(jìn)行不同分類比較的時(shí)候發(fā)現(xiàn),根際和非根際錳氧化基因的組成類型其實(shí)是不一樣的,植物根際可以顯著的富集幾種類型的錳氧化基因。
除此之外,濕地植物的根際核心微生物和錳氧化的含量,有些微生物是和它呈正相關(guān)的,有些是呈負(fù)相關(guān)的。正負(fù)相關(guān)的這些微生物中,最明顯的功能上的區(qū)別在于:正相關(guān)的這些微生物中有一部分是能夠執(zhí)行氨氧化過程的。同樣的,在人工濕地中我們發(fā)現(xiàn)了錳氧化物和鐵氧化物都是微生物群落結(jié)構(gòu)關(guān)鍵的驅(qū)動(dòng)因子,同時(shí),錳氧化物的含量和氨氮濃度之間呈非常顯著的正相關(guān)性。大家都知道氨氧化很大程度上是由微生物(介導(dǎo))的,尤其是在人工濕地水處理的過程中。在錳的氧化過程中,錳氧化物起到了非常關(guān)鍵的作用。它們二者之間到底有沒有比較強(qiáng)的關(guān)聯(lián)性呢?在生物學(xué)角度,我們對(duì)錳氧化基因和氨氧化基因之間進(jìn)行了線性的回歸分析,分析發(fā)現(xiàn)它們兩個(gè)之間有非常強(qiáng)的線性關(guān)系。是不是別的氮轉(zhuǎn)化的過程也和錳氧化的基因有這樣的相關(guān)性呢?我們把剩下的一些氮轉(zhuǎn)化過程的關(guān)鍵基因與錳氧化基因進(jìn)行了關(guān)聯(lián)分析,發(fā)現(xiàn)除了氨氧化基因,別的氮轉(zhuǎn)化基因并沒有和錳氧化基因形成顯著的線性相關(guān)性。
我們又通過自建amoA的數(shù)據(jù)庫(kù),把執(zhí)行氨氧化過程的微生物分成氨氧化古菌、氨氧化細(xì)菌和完全氨氧化菌。通過比較分析,我們發(fā)現(xiàn)人工濕地中常規(guī)的水處理環(huán)境中,完全氨氧化菌的比重比較高,高于常規(guī)的氨氧化細(xì)菌,并且錳氧化基因的豐度也與完全氨氧化菌之間呈正相關(guān)性。
對(duì)環(huán)境的解析過程,最主要的目的之一是為了把它更好的應(yīng)用于污染治理過程中,在河北省晉州市龍門村,我們搭建了一個(gè)人工濕地的中試裝置。面向當(dāng)?shù)剞r(nóng)村的生活污水,我們?cè)谝恍┤斯竦刂腥藶榈南蚱渲屑尤脲i砂,即錳氧化物。我們發(fā)現(xiàn)加入的這部分錳氧化物可以提升氨氮的去除負(fù)荷,同時(shí)amoA的豐度也是得到了非常強(qiáng)的提升。
從自然發(fā)展到人為干預(yù)污染去除的過程中,由于前期使用超算獲得微生物相關(guān)的數(shù)據(jù),大大節(jié)省了分析的時(shí)間,有效提升了效率。
案例2 飲用水快速濾池完全氨氧化過程
在另一個(gè)水處理的環(huán)境中,我們考察了飲用水的快速砂濾池,在這個(gè)工程水處理的裝置中微生物的一些過程。同樣,我們對(duì)它進(jìn)行了采樣和測(cè)序,數(shù)據(jù)集大約是1個(gè)TB的測(cè)序深度。同樣在過程中,我們發(fā)現(xiàn)氨氮轉(zhuǎn)化比較好,而且和amoA的基因豐度也形成比較線性的關(guān)系。通過數(shù)據(jù)庫(kù)比對(duì)分析發(fā)現(xiàn),其中完全氨氧化菌起到了非常關(guān)鍵和重要的作用。它和錳的轉(zhuǎn)化,錳氧化基因的轉(zhuǎn)化過程,一同協(xié)同對(duì)整個(gè)砂濾池中的污染物形成了降解。
利用基于北京超算開發(fā)的宏基因組數(shù)據(jù)分析平臺(tái),能夠快速的提取其中的微生物信息,并對(duì)病毒數(shù)據(jù)進(jìn)行分析,解析水環(huán)境中相對(duì)完整的相互作用的網(wǎng)絡(luò);通過開發(fā)基于AI深度學(xué)習(xí)的算法,能夠?qū)κ删w形成非常好的識(shí)別,包括對(duì)宿主的預(yù)測(cè)。
北京超算AI智算云平臺(tái)可以提供非常豐富的GPU的計(jì)算資源,科研工作者無需自建資源即可完成建模任務(wù),幫助沒有深度學(xué)習(xí)經(jīng)驗(yàn)的同學(xué)實(shí)現(xiàn)對(duì)病毒的解析。
(報(bào)告現(xiàn)場(chǎng))
(本文內(nèi)容整理自:中國(guó)科學(xué)院生態(tài)環(huán)境研究中心助理研究員王東麟老師在第四屆“氮素生物地球化學(xué)循環(huán)”學(xué)術(shù)論壇的報(bào)告實(shí)錄)
相關(guān)稿件