ChatGTP 等人工智能 (AI) 系統(tǒng)已經(jīng)風靡全球。從推薦下一部值得一看的電視節(jié)目到幫助疏通交通,他們幾乎無所不在。但是,人工智能系統(tǒng)能否學習生命的語言并幫助生物學家揭示令人興奮的科學突破?
在《自然通訊》雜志上發(fā)表的一項新研究中,由哈佛大學有機與進化生物學系 (OEB) 博士研究生 Yunha Hwang 領導的跨學科研究小組率先開發(fā)了一種能夠破譯復雜語言的人工智能 (AI) 系統(tǒng)基因組學。
基因組語言是生物學的源代碼。它描述了基因組中編碼的生物功能和調(diào)控語法。研究人員問我們是否可以開發(fā)一個人工智能引擎來“閱讀”基因組語言并流利地使用該語言,理解基因的含義或功能和規(guī)則?該團隊將微生物宏基因組數(shù)據(jù)集(現(xiàn)有的最大且最多樣化的基因組數(shù)據(jù)集)輸入機器以創(chuàng)建基因組語言模型(gLM)。
基因組數(shù)據(jù)的挑戰(zhàn)
“在生物學中,我們有一本已知單詞的字典,研究人員在這些已知單詞的范圍內(nèi)進行工作。問題在于,這部分已知單詞只占生物序列的不到百分之一,”黃說,“基因組數(shù)據(jù)的數(shù)量和多樣性正在爆炸式增長,但人類無法處理如此大量的復雜數(shù)據(jù)。”
大型語言模型 (LLM),例如 GPT4,通過處理大量不同的文本數(shù)據(jù)來學習單詞的含義,從而能夠理解單詞之間的關系?;蚪M語言模型 (gLM) 從高度多樣化的宏基因組數(shù)據(jù)中學習,這些數(shù)據(jù)來源于棲息在海洋、土壤和人類腸道等各種環(huán)境中的微生物。借助這些數(shù)據(jù),gLM 通過學習基因與其基因組背景之間的關系來了解每個基因的功能“語義”和調(diào)控“語法”。 gLM 與 LLM 一樣,是一種自我監(jiān)督模型——這意味著它僅從數(shù)據(jù)中學習有意義的基因表示,不需要人類分配的標簽。
標簽:
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!