深瞳工作室出品
“唐堯”基因組相關(guān)研究成果發(fā)表在《基因組蛋白質(zhì)組與生物信息學(xué)報(bào)》上,圖為當(dāng)期雜志封面。受訪者供圖
科技日?qǐng)?bào)記者 操秀英 策劃 劉恕 李坤
何忠(化名)沒(méi)有想到,自己身上不到20毫升的血液樣本,竟成就了一項(xiàng)被中國(guó)工程院院士、哈爾濱醫(yī)科大學(xué)黨委書記張學(xué)評(píng)價(jià)為“我國(guó)乃至世界范圍內(nèi)里程碑式的事件”的成果。
利用何忠的血液樣本,北京大學(xué)人民醫(yī)院教授高占成團(tuán)隊(duì)和中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)研究員康禹團(tuán)隊(duì)首次在世界范圍內(nèi)成功完成從端粒到端粒的中國(guó)人全基因組,獲得包括Y染色體在內(nèi)的高質(zhì)量真實(shí)人類二倍體以及完整無(wú)間隙的全基因組參考序列(44+XY)。
因?yàn)檫@個(gè)采樣點(diǎn)位于山西省臨汾市——幾千年前堯帝建立的古唐國(guó)遺址附近,研究團(tuán)隊(duì)將該參考基因組命名為“唐堯”。
在人們印象中,人類基因組圖譜早已公布,如今普通人的基因組也很容易被測(cè)出來(lái)。為何“唐堯”基因組會(huì)被評(píng)價(jià)為“里程碑式的事件”,這一基礎(chǔ)研究領(lǐng)域的突破意味著什么?科技日?qǐng)?bào)記者對(duì)此進(jìn)行了采訪。
現(xiàn)有人類參考基因組用于中國(guó)人有偏差
這是一項(xiàng)由臨床應(yīng)用需求催生的基礎(chǔ)研究。
過(guò)去幾十年,北京大學(xué)人民醫(yī)院呼吸與危重癥醫(yī)學(xué)科主任高占成的主要工作是接診來(lái)自全國(guó)各地的呼吸科疑難雜癥患者。他帶領(lǐng)團(tuán)隊(duì)首次診斷出多例孤兒肺病,如彌漫性肺淋巴管瘤病、肺泡蛋白沉積癥等。
諸多案例豐富了他的醫(yī)學(xué)實(shí)踐,但也給他帶來(lái)了診療困惑。不少疾病綜合征在不同種族人群中的臨床表現(xiàn)存在不小的差異。
“目前所有的腫瘤、遺傳病等測(cè)序診斷報(bào)告,均根據(jù)美國(guó)主導(dǎo)的GRCh37/38為人類參考基因組序列來(lái)判定正?;蜃儺悺!备哒汲烧f(shuō),GRCh37/38是來(lái)自多個(gè)人類個(gè)體基因組序列嵌合而成的一套基因組,主要來(lái)源是非洲和歐洲人。它不但不完整、錯(cuò)誤多,而且難以代表中國(guó)乃至亞裔族群。
以遺傳性肺囊性纖維化為例,這種病在歐美白人中表現(xiàn)為跨膜氯離子轉(zhuǎn)錄因子突變導(dǎo)致的功能缺失。但在中國(guó)患者中,該轉(zhuǎn)錄因子突變的發(fā)生率要小得多。
“預(yù)測(cè)疾病風(fēng)險(xiǎn)和診療時(shí),對(duì)于亞洲人種而言,僅對(duì)照現(xiàn)有參考組,可能會(huì)產(chǎn)生較大的偏差?!备哒汲烧f(shuō),這種偏差還會(huì)影響靶向藥物的研發(fā)。
2003年,國(guó)際知名藥廠阿斯利康在全球率先研發(fā)成功表皮生長(zhǎng)因子受體酪氨酸激酶抑制劑(EGFR-TKI)——吉非替尼,適用于存在表皮生長(zhǎng)因子受體(EGFR)基因突變的非小細(xì)胞肺癌患者。
隨后的研究發(fā)現(xiàn),EGFR基因突變存在明顯的種族特異性。中國(guó)和東亞種族不吸煙肺腺癌患者的突變率明顯高于歐美白人患者。
“目前的主流觀點(diǎn)認(rèn)為,不同人種基因組之間的差別只有千分之一。但從臨床實(shí)踐來(lái)看,實(shí)際差別可能遠(yuǎn)大于這個(gè)數(shù)字。”高占成說(shuō),“所以,我們有必要構(gòu)建中國(guó)人自己的參考基因組?!?/p>
但對(duì)于一個(gè)臨床醫(yī)生來(lái)說(shuō),這是個(gè)全新且較難攻克的課題。
2020年,一個(gè)合適的契機(jī)到來(lái)。
這一年,設(shè)在山西省臨汾市中心醫(yī)院的高占成呼吸病學(xué)山西工作室開(kāi)始籌建。
“這個(gè)工作室絕不能僅僅掛個(gè)牌子,要有具體的課題,能解決實(shí)實(shí)在在的問(wèn)題?!备哒汲烧f(shuō),繪制中國(guó)人自己的參考基因圖譜被提上日程。
他立即聯(lián)系他帶的第一個(gè)博士生,也是多年的合作伙伴——中國(guó)科學(xué)院北京基因組研究所研究員康禹。
“我當(dāng)然很高興能參與這項(xiàng)工作?!笨涤碚f(shuō),“我們判斷,現(xiàn)在的技術(shù)發(fā)展是構(gòu)建中國(guó)人參考基因組的最佳時(shí)機(jī),可以讓我們以較少花費(fèi)、較短時(shí)間完成這件事情。”
為中國(guó)人基因組研究提供更準(zhǔn)確的坐標(biāo)系
何忠何許人?為什么何忠的基因組就可以稱為參考基因組?
康禹說(shuō),選擇合適的樣本是第一步。悠久的歷史、多樣的地理氣候環(huán)境,塑造了中華民族獨(dú)特的遺傳多樣性。“‘唐堯’基因組是研究的起點(diǎn),我們決定從人數(shù)最多的漢族開(kāi)始?!笨涤碚f(shuō)。
“構(gòu)建中國(guó)人自己的參考基因圖譜,目的是為了更好地服務(wù)現(xiàn)代醫(yī)學(xué)應(yīng)用,所以樣本需要更好地代表現(xiàn)代中國(guó)人的基因組特征?!笨涤碚f(shuō),最終他們確定的樣本來(lái)自一名現(xiàn)在生活在山西省洪洞縣一個(gè)古老村莊的健康男青年——何忠。
這個(gè)地區(qū)是明代洪洞移民,即歷史上有名的“大槐樹(shù)”移民的起點(diǎn)。600多年前的這場(chǎng)遷徙持續(xù)了近半個(gè)世紀(jì),大量移民遍布中國(guó)各地,有些進(jìn)入東南亞?!拔覀冋J(rèn)為何忠的基因組有望成為現(xiàn)代漢族人群的代表?!备哒汲烧f(shuō)。
根據(jù)祖源分析,“唐堯”基因組的絕大部分為東亞人群特征。“這個(gè)樣本的Y染色體的分型在中國(guó)除了新疆、西藏等地外都有廣泛分布,極具代表性?!笨涤碚f(shuō)。
“唐堯” 基因組提示了中國(guó)人和歐洲人基因組水平的顯著差異。對(duì)照國(guó)際科學(xué)團(tuán)隊(duì)“端粒到端粒(T2T)”聯(lián)盟(以下簡(jiǎn)稱“T2T”聯(lián)盟)于2022年發(fā)布的新版本人類參考基因組 T2T-CHM13,“唐堯”顯示出11%差異序列和5%差異基因。
中國(guó)科學(xué)院院士陳潤(rùn)生說(shuō),“唐堯”彌補(bǔ)了漢族高質(zhì)量基因組的空白,完整的中國(guó)人基因組序列的發(fā)布,也將改變以往認(rèn)為不同人種基因組之間只有千分之一區(qū)別的認(rèn)知。
張學(xué)認(rèn)為,“唐堯”基因組將為漢族中國(guó)人基因組研究提供更準(zhǔn)確的定位基因和變異的坐標(biāo)系,同時(shí)解決歐洲血源參考基因組不適于中國(guó)人基因組研究的技術(shù)障礙。這將為我國(guó)醫(yī)學(xué)基因組研究,包括遺傳病診斷、常見(jiàn)病風(fēng)險(xiǎn)預(yù)測(cè)、腫瘤基因組變異、藥物基因組學(xué)等領(lǐng)域,建立技術(shù)體系和質(zhì)量基準(zhǔn)。
中國(guó)工程院院士程京認(rèn)為,“唐堯”基因組測(cè)序分析工作不僅具有非常重要的跨學(xué)科、跨領(lǐng)域的基礎(chǔ)研究意義和應(yīng)用價(jià)值,而且從DNA水平上回答了“何以中國(guó)人”這個(gè)重要的社會(huì)科學(xué)問(wèn)題,將幫助我們回答中國(guó)人起源、遷徙、歷史沿革和交流等問(wèn)題。
用兩年時(shí)間完成國(guó)際領(lǐng)先的質(zhì)量標(biāo)準(zhǔn)
配置最先進(jìn)的測(cè)序儀器和最精干的研發(fā)人員,“唐堯”項(xiàng)目以最快速度啟動(dòng)。僅用了不到兩年時(shí)間,2023年8月,項(xiàng)目組獲得何忠的完整無(wú)間隙高質(zhì)量基因組序列。
結(jié)果超出課題組的預(yù)期。
經(jīng)國(guó)際通用的評(píng)估基因組質(zhì)量的重要工具M(jìn)erqury評(píng)估,“唐堯”的質(zhì)量值達(dá)到了參考基因組的質(zhì)量標(biāo)準(zhǔn),質(zhì)量值為Q74.69,而T2T-CHM13的質(zhì)量值為Q73.94。
“這個(gè)數(shù)字說(shuō)明我們的參考基因組的錯(cuò)誤更少,拼接質(zhì)量高于T2T-CHM13?!笨涤碚f(shuō)。
將時(shí)間指針撥回到30多年前。1990年,在生命科學(xué)領(lǐng)域被譽(yù)為“登月計(jì)劃”的人類基因組計(jì)劃啟動(dòng)。11年后,該計(jì)劃發(fā)布了人類基因組工作草圖。又過(guò)了兩年,研究人員公布了當(dāng)時(shí)被稱為人類基因組“完成圖”。
此后數(shù)年,研究團(tuán)隊(duì)不斷完善人類基因組空白區(qū),但仍有約8%的序列缺失。
直到2022年,“T2T”聯(lián)盟填補(bǔ)了缺失的“拼圖”碎片,發(fā)布了T2T-CHM13新版本參考基因組。在這項(xiàng)成果中,科學(xué)家們成功地在人類基因組中增加了大約2億個(gè)堿基,解碼了從1號(hào)到22號(hào)染色體上的大部分空缺。而唯一被遺漏的,是人類所有染色體中最小的一條——Y染色體。
2023年,隨著兩篇研究論文發(fā)表在頂尖學(xué)術(shù)期刊《自然》上,人類Y染色體的完整序列終于展現(xiàn)在世人面前。
也就是說(shuō),國(guó)際基因組計(jì)劃用了30多年的時(shí)間才獲得包括Y染色體在內(nèi)的人類完整單倍體基因組序列。
“唐堯”課題組同樣拿到了這一結(jié)果。他們?cè)谑澜缟鲜状潍@得包括46條染色體的真實(shí)人類二倍體基因組序列(44+XY),能99.99%準(zhǔn)確地區(qū)分來(lái)自父本和母本的兩套單倍體基因組序列。
2022年,“T2T”聯(lián)盟測(cè)的是一個(gè)單倍體,即所采用的DNA序列不是來(lái)自自然人的組織樣本,而是來(lái)自女性子宮中的水泡狀胎塊(葡萄胎)細(xì)胞株——CHM13。
當(dāng)時(shí),“T2T”聯(lián)盟聯(lián)合主席、美國(guó)華盛頓大學(xué)霍華德·休斯醫(yī)學(xué)研究所研究員艾文·艾克勒對(duì)媒體表示:“我們現(xiàn)在已經(jīng)補(bǔ)全了一個(gè)人類基因組,下一個(gè)重點(diǎn)任務(wù)是補(bǔ)全二倍體基因組的父系和母系?!?/p>
“唐堯”課題組做到了。
“和‘T2T’聯(lián)盟能補(bǔ)上最后的‘拼圖’一樣,我們之所以能快速獲得這一成果,也得益于DNA測(cè)序和拼接技術(shù)的快速進(jìn)步,以及包括國(guó)際基因組計(jì)劃在內(nèi)的大量技術(shù)和理論積累。”康禹說(shuō),“我們?nèi)〉贸晒且驗(yàn)檎驹诹饲叭说募缟稀!?/p>
這并不是一項(xiàng)只要有儀器、有資金就能完成的工作?!皟赡昀铮覀兊膱F(tuán)隊(duì)夜以繼日,創(chuàng)新了大量算法和拼接方式。這才能夠?qū)崿F(xiàn)高準(zhǔn)確度地區(qū)分相似度極高的基因片段,實(shí)現(xiàn)高于NIH參考基因組的準(zhǔn)確度。”高占成說(shuō)。
避免“西方人比中國(guó)人更了解中國(guó)人”的尷尬
“這是中華民族群體遺傳學(xué)研究的一個(gè)新起點(diǎn)?!敝袊?guó)科學(xué)院北京基因組研究所原副所長(zhǎng)于軍說(shuō),“接下來(lái),我們將推進(jìn)其他有代表性的個(gè)體參考基因組測(cè)序,并開(kāi)展不同民族等群體的測(cè)序,最終我們希望能啟動(dòng)全民基因組測(cè)序工程。”
回顧過(guò)去,中國(guó)在基因組學(xué)技術(shù)領(lǐng)域的發(fā)展,可以說(shuō)是從參與到同步。
陳潤(rùn)生回憶說(shuō),1994年,國(guó)家自然科學(xué)基金資助開(kāi)展中華民族基因組若干位點(diǎn)基因結(jié)構(gòu)研究項(xiàng)目,標(biāo)志著我國(guó)人類基因組研究正式啟動(dòng)。
1999年,中國(guó)拿到了國(guó)際人類基因組計(jì)劃1%任務(wù)。以華大基因和中國(guó)科學(xué)院基因組所研究人員為主力的科學(xué)家團(tuán)隊(duì),高質(zhì)量完成了這一測(cè)序任務(wù),帶動(dòng)我國(guó)基因組學(xué)快速發(fā)展。在過(guò)去的20多年里,我國(guó)的基因組技術(shù)和研究取得了飛躍式的進(jìn)步。
在構(gòu)建中華民族自己的參考基因組方面,我國(guó)科學(xué)家也一直在努力。
“炎黃一號(hào)”是全球第一例中國(guó)人標(biāo)準(zhǔn)基因組序列圖譜,也是全球20億黃種人的首個(gè)個(gè)人基因序列圖。該項(xiàng)目完成于2007年10月11日,是我國(guó)科學(xué)家繼承擔(dān)國(guó)際人類基因組計(jì)劃1%任務(wù)、國(guó)際人類單體型圖譜10%任務(wù)后,用新一代測(cè)序技術(shù)100%獨(dú)立完成的中國(guó)人基因組圖譜。
隨后暨南大學(xué)、中國(guó)科學(xué)院北京基因組研究所等單位陸續(xù)開(kāi)展了類似研究。但受限于當(dāng)時(shí)的技術(shù)手段,這些基因組并未成為我國(guó)實(shí)際應(yīng)用中的參考基因組,未發(fā)揮應(yīng)有價(jià)值。
2023年,復(fù)旦大學(xué)、西安交通大學(xué)、中國(guó)醫(yī)學(xué)科學(xué)院等26家單位聯(lián)合發(fā)布了中國(guó)人群泛基因組聯(lián)盟一期研究進(jìn)展。該研究初步構(gòu)建了首個(gè)中國(guó)人群專屬的泛基因組參考圖譜,且該成果全部由中國(guó)科學(xué)家獨(dú)立完成。
在此基礎(chǔ)上,專家們認(rèn)為,我國(guó)要加快構(gòu)建中國(guó)人自己的基因組研究“坐標(biāo)系”的步伐。
20多年前,在人類基因組計(jì)劃基礎(chǔ)上,美國(guó)正式提出全新的大科學(xué)計(jì)劃——精準(zhǔn)醫(yī)學(xué)計(jì)劃。該計(jì)劃最終目標(biāo)是測(cè)定每一個(gè)人的基因組,也稱為“全民基因組計(jì)劃(All of Us 研究計(jì)劃)”。2022年,該計(jì)劃研究項(xiàng)目公布了第一批近10萬(wàn)人的全基因組測(cè)序數(shù)據(jù)供研究人員使用。數(shù)據(jù)包括身高、體重和血壓等基礎(chǔ)數(shù)據(jù)和調(diào)查數(shù)據(jù),例如關(guān)于參與者的人口統(tǒng)計(jì)數(shù)據(jù)、生活方式和總體健康狀況的數(shù)據(jù)。
高占成說(shuō),一旦美國(guó)的全民基因組計(jì)劃完成包括500萬(wàn)美籍華人在內(nèi)基因組測(cè)序,完全有可能形成“別人比我們自己更了解中國(guó)人基因組”的局面。
近年來(lái),國(guó)際科學(xué)家聯(lián)合成立了人類泛基因組聯(lián)盟(HPRC),試圖建立更精準(zhǔn)完整的世界主要人群的參考基因組,了解世界人口的多樣性。去年5月,HPRC制作的首個(gè)人類泛基因組參考草圖在《自然》發(fā)布,納入了全球47個(gè)樣本,其中包括3例中國(guó)南方漢族樣本。
張學(xué)關(guān)注到一個(gè)現(xiàn)象:基因組領(lǐng)域最主要的兩個(gè)國(guó)際聯(lián)盟——國(guó)際人類泛基因組聯(lián)盟、國(guó)際T2T基因組聯(lián)盟,其中的重要成員都是來(lái)自歐美的大學(xué)和研究所,我國(guó)研究機(jī)構(gòu)和實(shí)體并不在內(nèi)。
“這種形勢(shì)下,建立中國(guó)人自有的高質(zhì)量參考基因組是防止被‘卡脖子’的關(guān)鍵一步?!睆垖W(xué)說(shuō)。
“接下來(lái)我們將對(duì)‘唐堯’進(jìn)行進(jìn)一步的解析和注釋,讓它能更好地應(yīng)用于臨床?!笨涤碚f(shuō),我們希望基于自己的參考基因組發(fā)展出服務(wù)華人的靶向測(cè)序、基因組分析和診療技術(shù),并推動(dòng)未來(lái)的新藥研發(fā)。
亟待構(gòu)建中國(guó)人自己的基因組技術(shù)體系
受訪專家預(yù)計(jì),T2T-CHM13以其完整性和高質(zhì)量,有望逐漸取代目前正在使用的GRCh38參考基因組。
陳潤(rùn)生和中國(guó)檢驗(yàn)檢疫科學(xué)院體外診斷試劑所副所長(zhǎng)黃杰均建議,在新舊參考基因組交接之際,我國(guó)應(yīng)建立國(guó)家標(biāo)準(zhǔn),推廣使用“唐堯”作為中國(guó)人群基因組研究和臨床應(yīng)用中測(cè)序和分析的標(biāo)準(zhǔn)物質(zhì)和參考基因組,不再使用歐洲人的參考基因組來(lái)定義中國(guó)人的遺傳變異。同時(shí),在此基礎(chǔ)上建立中國(guó)人基因組學(xué)知識(shí)框架和應(yīng)用技術(shù)體系。
于軍等科學(xué)家認(rèn)為,要實(shí)現(xiàn)上述目標(biāo),我國(guó)人類基因組研究亟待進(jìn)一步加強(qiáng)頂層設(shè)計(jì)和規(guī)劃?!坝烧l(shuí)來(lái)測(cè),給誰(shuí)用,數(shù)據(jù)安全如何保障,這些問(wèn)題都需要系統(tǒng)研究。”
1993年,于軍參與人類基因組計(jì)劃這一里程碑式的科學(xué)計(jì)劃。他在導(dǎo)師梅納德·奧爾森的全力支持下,促成了中國(guó)科學(xué)家參與人類基因組計(jì)劃。
多年來(lái),中國(guó)的基因組研究計(jì)劃是什么,如何建立自主的基因測(cè)序技術(shù)和數(shù)據(jù)體系,這些問(wèn)題在于軍的腦海中揮之不去。
于軍認(rèn)為,我們目前的相關(guān)研究仍然是相對(duì)零散的,開(kāi)展的群體研究規(guī)模較小,且數(shù)據(jù)所有權(quán)分散在不同研究者手中,無(wú)法共享數(shù)據(jù)集成創(chuàng)新,造成了資源浪費(fèi)。
研究與應(yīng)用的分離,也是目前存在的突出問(wèn)題。于軍說(shuō),我國(guó)基因組領(lǐng)域的基礎(chǔ)科學(xué)研究、臨床準(zhǔn)入、應(yīng)用規(guī)范由不同部門管理,信息溝通效率不高,造成應(yīng)用需求難以對(duì)基礎(chǔ)科研起到有效牽引作用,基礎(chǔ)科研和臨床應(yīng)用之間無(wú)法形成有效反饋和良性循環(huán)。為了促進(jìn)基因組領(lǐng)域基礎(chǔ)研究和臨床醫(yī)學(xué)的合作與交流,北京大學(xué)人民醫(yī)院于今年1月成立了人類基因組研究中心,以深入拓展“唐堯”基因組的相關(guān)研究和醫(yī)學(xué)應(yīng)用。
于軍認(rèn)為,在陸續(xù)構(gòu)建中國(guó)人自己的參考基因組的基礎(chǔ)上,未來(lái)如何推動(dòng)更大規(guī)模的人群測(cè)序,最終實(shí)現(xiàn)全民測(cè)序,真正推動(dòng)精準(zhǔn)醫(yī)學(xué)的發(fā)展,都是當(dāng)前必須面對(duì)的課題?!澳銣y(cè)幾百人,我測(cè)幾千人,這些數(shù)據(jù)除了發(fā)表一些看起來(lái)還不錯(cuò)的論文,大部分并沒(méi)有推動(dòng)臨床診斷、新藥研發(fā)等實(shí)際應(yīng)用。”
針對(duì)這種現(xiàn)狀,專家認(rèn)為,目前亟待整合有限資源,包括資金、人才、樣本資源、基礎(chǔ)設(shè)施等條件,集中管理樣本和數(shù)據(jù),有效協(xié)調(diào)資源。
“我們可以探索成立一個(gè)類似國(guó)家人類基因組研究與管理中心這樣的機(jī)構(gòu)?!庇谲娊ㄗh,該機(jī)構(gòu)采用中央決策、專家委員會(huì)監(jiān)督指導(dǎo)、中心執(zhí)行的管理模式,統(tǒng)籌科技資金,協(xié)調(diào)社會(huì)資源,規(guī)范技術(shù)標(biāo)準(zhǔn),促進(jìn)科技轉(zhuǎn)化,防范安全風(fēng)險(xiǎn)。“以此實(shí)現(xiàn)自主建立我國(guó)具有國(guó)際競(jìng)爭(zhēng)力的人類基因組技術(shù)體系和知識(shí)框架的目標(biāo)?!?/p>