科技日報(bào)記者?張佳欣
制圖、寫歌、作詩、編程、生成視頻……生成式人工智能(AI)技術(shù)與各行業(yè)的結(jié)合不斷為人們帶來驚喜,在各領(lǐng)域掀起革新浪潮。
現(xiàn)在,AI的應(yīng)用場景再次拓展:美國AI蛋白質(zhì)設(shè)計(jì)公司Profluent宣布,一款完全由AI設(shè)計(jì)的基因編輯器,已成功編輯了人類細(xì)胞中的DNA。這預(yù)示著未來科學(xué)家能更精確、更快速地對抗疾病。
OpenCRISPR-1的物理結(jié)構(gòu),這是一種由Profluent的AI技術(shù)創(chuàng)建的基因編輯器。
圖片來源:singularityhub.com?
首款A(yù)I設(shè)計(jì)的基因編輯器
4月22日,初創(chuàng)公司Profluent宣布推出OpenCRISPRTM計(jì)劃,并聲稱其成功使用AI生成的基因編輯器(稱為OpenCRISPR-1)來編輯人類DNA。該公司表示,這是“世界上第一個(gè)開源的、AI生成的基因編輯器”,并且是“用AI從頭開始設(shè)計(jì)的”。
這家公司將大量生物數(shù)據(jù)輸入一個(gè)大型語言模型(LLM),在基因編輯技術(shù)CRISPR基礎(chǔ)上提出了新的編輯方法。其目標(biāo)是構(gòu)建比現(xiàn)有生物機(jī)制更有效、更有能力的基因編輯器,使生物體能夠抵御疾病和其他病原體。Profluent團(tuán)隊(duì)相信,在其他領(lǐng)域游刃有余的AI,同樣可以在基因編輯領(lǐng)域如魚得水。
“嘗試用AI設(shè)計(jì)的生物系統(tǒng)來編輯人類DNA是一次科學(xué)上的挑戰(zhàn)?!盤rofluent聯(lián)合創(chuàng)始人兼首席執(zhí)行官阿里·馬達(dá)尼說,“我們的成功預(yù)示著未來AI將精確設(shè)計(jì)出一系列定制的疾病治療方案。為了促進(jìn)基因編輯領(lǐng)域創(chuàng)新,推動(dòng)這一未來趨勢,我們正在開源OpenCRISPRTM計(jì)劃的產(chǎn)品?!边@意味著OpenCRISPR-1編輯器是開放的,允許個(gè)人、學(xué)術(shù)實(shí)驗(yàn)室和公司免費(fèi)試驗(yàn)該技術(shù)。
CRISPR和AI的“天作之合”
CRISPR這一基因編輯工具的靈感,來自細(xì)菌和古菌等原核生物的適應(yīng)性免疫機(jī)制。在自然界,細(xì)菌和古菌通過CRISPR-Cas系統(tǒng)來對抗病毒入侵。該系統(tǒng)通過記錄并剪切病毒基因組來保護(hù)細(xì)菌免受病毒感染。科學(xué)家們通過對CRISPR-Cas系統(tǒng)的研究,成功開發(fā)出了一系列強(qiáng)大的基因編輯工具,例如CRISPR-Cas9。
可以說,CRISPR是大自然擲了數(shù)十億次骰子后(自然選擇)產(chǎn)生的強(qiáng)大工具之一。不過,棘手的是,大多數(shù)Cas9蛋白長度超過1000個(gè)氨基酸,總體設(shè)計(jì)空間包含20的1000次方個(gè)可能序列,這比可觀測宇宙中的原子數(shù)量還要多幾個(gè)數(shù)量級。
只有當(dāng)這些蛋白質(zhì)以正確順序排列并相互作用,才能實(shí)現(xiàn)精準(zhǔn)切割。因此,即使是單個(gè)錯(cuò)誤突變,也可能讓蛋白質(zhì)完全喪失功能。通過實(shí)驗(yàn)探索所有可能的序列變異,需要幾代科學(xué)家的努力。但現(xiàn)在,通過AI系統(tǒng),在幾個(gè)小時(shí)內(nèi)就可以輕松發(fā)現(xiàn)功能性基因編輯器。
Profluent公司采用了一種新穎方式來使用AI:他們沒有增強(qiáng)現(xiàn)有系統(tǒng),而是使用大型語言模型從頭開始設(shè)計(jì)CRISPR組件。該模型也是聊天機(jī)器人ChatGPT和圖像生成系統(tǒng)DALL-E的基礎(chǔ)。
現(xiàn)在,人類的DNA,也能由AI重新改寫了。
語言模型生成多種CRISPR-Cas蛋白
生成蛋白質(zhì)語言模型需要大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而這需要涵蓋廣泛功能的大型、多樣化的天然蛋白質(zhì)序列數(shù)據(jù)集。為此,Profluent創(chuàng)建了迄今為止最廣泛的CRISPR系統(tǒng)數(shù)據(jù)集,包含510萬個(gè)CRISPR-Cas蛋白質(zhì)數(shù)據(jù)。研究人員利用該數(shù)據(jù)集訓(xùn)練AI大型語言模型,并要求AI創(chuàng)建可在CRISPR系統(tǒng)中代替Cas9的潛在蛋白質(zhì)。
結(jié)果顯示,系統(tǒng)從400萬個(gè)序列中進(jìn)行篩選,最終確定了包括OpenCRISPR-1在內(nèi)的新蛋白質(zhì)。這種新設(shè)計(jì)蛋白質(zhì)在測試中的表現(xiàn)與Cas9不相上下,但有一點(diǎn)明顯突出:它對脫靶位點(diǎn)的影響降低了95%。這意味著它更加精確,幾乎只在需要的地方起作用,而不會對DNA鏈造成任何多余損傷。
總體而言,這些結(jié)果將潛在Cas蛋白的范圍擴(kuò)大了近5倍。這些AI生成的蛋白質(zhì)表現(xiàn)出更廣泛的功能。它們在不同條件下保持高活性,能輕松適應(yīng)不同的溫度和分子環(huán)境。
Profluent尚未將這些合成基因編輯器進(jìn)行臨床試驗(yàn),因此尚不清楚它們能否趕上或超過CRISPR的性能。但概念論證表明,AI模型能夠編輯人類基因組。
此外,Profluent的平臺能隨意生成更多的基因編輯系統(tǒng),而OpenCRISPR-1只是“冰山一角”。
發(fā)表在預(yù)印本服務(wù)器bioRxiv上的論文尚未經(jīng)過專家同行評審。預(yù)計(jì)下個(gè)月,該公司將在美國基因和細(xì)胞治療學(xué)會年會上提交這篇論文。與此同時(shí),OpenCRISPR-1或其變體在多種生物體(包括植物、小鼠和人類)中是否都能發(fā)揮作用還有待證明。此外,技術(shù)的倫理和安全問題也需要考慮。但令人興奮的是,這些突破性成果為生成式AI開辟了一條新途徑,將對醫(yī)學(xué)和健康領(lǐng)域產(chǎn)生廣泛影響,有望從根本上改變?nèi)藗兊幕蛩{(lán)圖。