亚洲最大中文字幕,亚洲黄毛片,日韩欧美电影在线看,中文字字幕在线中文乱,麻豆国产尤物av尤物在线观看,韩日一级片,欧美日本中文字幕

百圖生科首席AI科學(xué)家宋樂(lè):人工智能落地進(jìn)入“大模型”時(shí)代

今年,百圖生科首席AI科學(xué)家宋樂(lè)教授擔(dān)任ICML(International Conference on Machine Learning)大會(huì)主席,作為Program Chair,全面負(fù)責(zé)大會(huì)程序委員會(huì)的組建和論文評(píng)選等管理工作。中國(guó)生物計(jì)算企業(yè)高管出任AI頂級(jí)學(xué)術(shù)會(huì)議的此類職位,也可以被視作中國(guó)生物計(jì)算行業(yè)崛起的風(fēng)向標(biāo)。ICML作為國(guó)際機(jī)器學(xué)習(xí)學(xué)會(huì)主辦的國(guó)際會(huì)議,被公認(rèn)是人工智能、機(jī)器學(xué)習(xí)領(lǐng)域最頂級(jí)的國(guó)際會(huì)議之一,在整個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域享有崇高聲望。

據(jù)悉,作為全球著名的機(jī)器學(xué)習(xí)和圖深度學(xué)習(xí)專家,宋樂(lè)自2008年起就在卡內(nèi)基梅隆大學(xué)和喬治亞理工學(xué)院從事生物計(jì)算相關(guān)研究,利用機(jī)器學(xué)習(xí)技術(shù)對(duì)靶點(diǎn)挖掘、藥物設(shè)計(jì)取得了一系列突破成果。在多年學(xué)界探索之后,他于去年8月加入百圖生科,“投身業(yè)界,更多是因?yàn)榭捎^測(cè)的生物數(shù)據(jù)量越來(lái)越多,比如說(shuō)蛋白質(zhì)的序列數(shù)據(jù)已經(jīng)超過(guò)十億條。其次是計(jì)算能力的提升,再次是AI算法能力的積累,AI和制藥領(lǐng)域出現(xiàn)了很多新的模型和方法,能夠更準(zhǔn)確的預(yù)測(cè)。當(dāng)然,目前的研究?jī)H僅是冰山一角,AI+Drug還有無(wú)比廣闊的探索空間,我對(duì)這個(gè)賽道非常期待。”

“從ICML今年收錄的千篇論文情況來(lái)看,像醫(yī)學(xué)、生物學(xué)、蛋白質(zhì)、藥物、分子、化學(xué)等關(guān)鍵詞在文章標(biāo)題和摘要被提及次數(shù)總計(jì)超過(guò)200次,成為單一最大的研究方向之一。我們已經(jīng)看到越來(lái)越多的人工智能專家在開(kāi)始關(guān)注生物醫(yī)藥這個(gè)領(lǐng)域”,宋樂(lè)表示。

人工智能落地已經(jīng)進(jìn)入“大模型”時(shí)代。大規(guī)模預(yù)訓(xùn)練模型使用自監(jiān)督學(xué)習(xí)的方法讓模型對(duì)海量無(wú)標(biāo)注數(shù)據(jù)中的規(guī)律和知識(shí)進(jìn)行提煉、學(xué)習(xí),當(dāng)面向任務(wù)和場(chǎng)景應(yīng)用時(shí),只需要少量的任務(wù)標(biāo)注數(shù)據(jù),就能通過(guò)持續(xù)微調(diào)得到在應(yīng)用場(chǎng)景中非常好用的模型,對(duì)具體任務(wù)的賦能效果顯著,大規(guī)模預(yù)訓(xùn)練模型在NLP、CV等多類任務(wù)上已經(jīng)展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。

在宋樂(lè)看來(lái),人工智能大模型的下一個(gè)奇跡,將出現(xiàn)在生物計(jì)算領(lǐng)域,生物計(jì)算行業(yè)將出現(xiàn)規(guī)模最大、效果最好、價(jià)值最高的大模型,成為行業(yè)的重大基礎(chǔ)設(shè)施,不僅徹底改寫藥物研發(fā)的技術(shù)能力,也將對(duì)人工智能底層技術(shù)發(fā)展起到巨大的推動(dòng)作用,反哺其他行業(yè)的AI技術(shù)發(fā)展。

“人體這個(gè)多尺度的復(fù)雜網(wǎng)絡(luò),加上多模態(tài)、高噪音的超大規(guī)模生物數(shù)據(jù),需要獨(dú)有的超大模型來(lái)提升研發(fā)效果,這也是百圖生科在全力攻堅(jiān)的事”。根據(jù)宋教授的介紹,百圖生科正圍繞建模免疫系統(tǒng)復(fù)雜運(yùn)作機(jī)理的需求,構(gòu)建一系列對(duì)不同生物物質(zhì)、不同互作關(guān)系具有表征能力的大模型,覆蓋細(xì)胞、蛋白、基因、免疫系統(tǒng)等多個(gè)層面,而不只局限于熱門的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域。但即使在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)已經(jīng)被AlphaFold2充分挖掘的問(wèn)題上,大模型也能帶來(lái)顯著的提升。百圖生科與百度合作開(kāi)發(fā)了這個(gè)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練模型模塊,在沒(méi)有同源序列的幫助下對(duì)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè),對(duì)標(biāo)AlphaFold2預(yù)測(cè)的TM score結(jié)果,從0.3顯著提高到0.67。

“這只是起點(diǎn),我們正在開(kāi)發(fā)的是超過(guò)千億參數(shù)的超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型體系,我們把它稱作BioMap X(xTrimo,Cross-modal Transformer Representation of Interactome and Multi-Omics),它將是全球最大的生物多模態(tài)預(yù)訓(xùn)練模型體系,可用于生物醫(yī)藥領(lǐng)域包括靶點(diǎn)發(fā)現(xiàn)和藥物開(kāi)發(fā)的多個(gè)環(huán)節(jié)”。利用這個(gè)大規(guī)模預(yù)訓(xùn)練模型的初步基礎(chǔ),百圖生科已經(jīng)在一系列具體任務(wù)問(wèn)題上,特別是一些已有數(shù)據(jù)很少的問(wèn)題上,收獲了明顯的效果。例如,圍繞組合藥物協(xié)同效應(yīng)的預(yù)測(cè),大幅度的超過(guò)了SOTA水。目前,在一些實(shí)驗(yàn)數(shù)據(jù)很稀缺的免疫細(xì)胞上進(jìn)行的靶點(diǎn)發(fā)現(xiàn)任務(wù),也取得了良好的前期效果,即將完成驗(yàn)證后對(duì)外公布。

超大規(guī)模模型是AI行業(yè)的明珠,背后需要巨大的投入和綜合的底層技術(shù)能力。“藥物發(fā)現(xiàn)問(wèn)題的商業(yè)價(jià)值極高,比起其他任務(wù)場(chǎng)景,更能支持大規(guī)模模型的建設(shè)投入,目前百圖生科作為臺(tái)型生物計(jì)算企業(yè)敢于這樣做,未來(lái)一定也會(huì)有更多企業(yè)投身到這個(gè)趨勢(shì)中,最終推動(dòng)生物計(jì)算大模型成為AI屆最亮的明珠”。

超大規(guī)模模型建設(shè)離不開(kāi)超大規(guī)模的計(jì)算資源和高能高并發(fā)計(jì)算能力。據(jù)介紹,百圖生科的團(tuán)隊(duì),包括一大批百度主任架構(gòu)師、阿里P9專家這樣的高級(jí)人才,他們?cè)趯W(xué)術(shù)上累計(jì)發(fā)表過(guò)上千篇論文,在工程上實(shí)際構(gòu)建過(guò)超大規(guī)模的知識(shí)圖譜、計(jì)算集群,具有豐富的計(jì)算經(jīng)驗(yàn)。百圖生科也得益于百度的助力,搭建了高彈的超大規(guī)模計(jì)算集群,實(shí)現(xiàn)了大模型的高效訓(xùn)練。同時(shí),大模型能力的芯片化是下一步的關(guān)鍵方向。百圖生科正與包括百度昆侖芯科技等領(lǐng)先芯片企業(yè)合作,共同研發(fā)生物計(jì)算的專用芯片,通過(guò)探索與前沿生物計(jì)算算法相匹配的前沿芯片設(shè)計(jì),將大模型和生物計(jì)算特色需求的能力固化到芯片上。

超大規(guī)模生物數(shù)據(jù)無(wú)疑是建設(shè)大模型的另一個(gè)關(guān)鍵點(diǎn)。截止目前,百圖生科的免疫圖譜已經(jīng)形成了超十億級(jí)的實(shí)體數(shù)據(jù)、百億級(jí)的互作關(guān)系數(shù)據(jù)、千億級(jí)的關(guān)聯(lián)數(shù)據(jù),為大模型的打造提供了基礎(chǔ)。這些海量數(shù)據(jù)的形成,來(lái)自于百圖生科從創(chuàng)立之初就多管齊下的大投入決心和AI、生物技術(shù)能力建設(shè)。

宋樂(lè)認(rèn)為,公開(kāi)數(shù)據(jù)此前一直被認(rèn)為存在較高的噪音和不準(zhǔn)確,但這正是大模型所能消化的數(shù)據(jù)燃料,也是AI知識(shí)圖譜等技術(shù)在數(shù)據(jù)清洗上的優(yōu)勢(shì)所在。百圖生科構(gòu)建了大規(guī)模的挖掘引擎,從論文挖掘和知識(shí)抽提,到大規(guī)模生物數(shù)據(jù)庫(kù)的清洗整合、AI提升batch effect(批次效應(yīng))消除,再到利用知識(shí)圖譜推理技術(shù)發(fā)現(xiàn)分歧。運(yùn)用高通量濕實(shí)驗(yàn)?zāi)芰θヲ?yàn)證,公開(kāi)數(shù)據(jù)的整合挖掘仍然大有可為。

更關(guān)鍵的是海量自產(chǎn)數(shù)據(jù)的獲得。“高通量干濕實(shí)驗(yàn)閉環(huán)是生物計(jì)算的未來(lái),這也是百圖生科一直打造的差異化優(yōu)勢(shì),過(guò)往一年我們也在不斷努力,構(gòu)建了一萬(wàn)多米的高通量實(shí)驗(yàn)室,自主研發(fā)了世界首創(chuàng)的免疫模擬系統(tǒng),從而能產(chǎn)生海量的數(shù)據(jù)和高速的驗(yàn)證閉環(huán)。我們的系統(tǒng)具有對(duì)蛋白質(zhì)、細(xì)胞的高通量讀寫能力,能實(shí)現(xiàn)把物理世界的生物體快速讀取,獲得他們的幾十個(gè)參數(shù)維度,也能實(shí)現(xiàn)對(duì)多種蛋白、細(xì)胞的快速制備/編輯/改寫,讓他們能驗(yàn)證模型的結(jié)果,形成快速的閉環(huán)。”

在高通量實(shí)驗(yàn)系統(tǒng)打造的過(guò)程中,百圖生科融合了世界一流的生物技術(shù)團(tuán)隊(duì)和AI團(tuán)隊(duì)。生物團(tuán)隊(duì)中,上百位來(lái)自大藥企、著名實(shí)驗(yàn)室的專家,參與過(guò)100個(gè)以上的新藥研發(fā)項(xiàng)目,掌握全鏈條的世界領(lǐng)先技術(shù),例如免疫細(xì)胞的基因編輯技術(shù)等。AI團(tuán)隊(duì)中,有一批在細(xì)胞視覺(jué)、運(yùn)籌優(yōu)化等領(lǐng)域經(jīng)驗(yàn)豐富的專家,他們和生物團(tuán)隊(duì)融合,利用細(xì)胞視覺(jué)大大提升原有生物檢測(cè)方法的參數(shù)維度、反應(yīng)速度、成本優(yōu)勢(shì),不僅可以帶來(lái)更好的數(shù)據(jù),還可以用于閉環(huán)控制、確保生物系統(tǒng)的穩(wěn)定。“這就是我們自己研發(fā)的激光雷達(dá),有獨(dú)家的激光雷達(dá)能力,我們希望能成為最強(qiáng)大的‘自動(dòng)駕駛’公司”。

在技術(shù)能力之外,百圖生科還通過(guò)強(qiáng)大的臨床合作網(wǎng)絡(luò),為高通量實(shí)驗(yàn)?zāi)芰φ业礁嗟挠梦渲亍?ldquo;多組學(xué)數(shù)據(jù)、臨床科研數(shù)據(jù)對(duì)于模型構(gòu)建和算法提升幫助很大,因此公司成立之初就投入10億元建設(shè)‘免疫圖譜卓越計(jì)劃’,已經(jīng)與十余家中國(guó)TOP 30的醫(yī)院建立了合作,一批臨床醫(yī)院的著名專家、院長(zhǎng)、主任成為了我們的合作PI,我們也很快會(huì)推出‘卓越計(jì)劃’二期來(lái)加速這個(gè)過(guò)程。”宋樂(lè)說(shuō)。

目前,宋樂(lè)的團(tuán)隊(duì)已經(jīng)擁有數(shù)十名專家,累計(jì)發(fā)表了1000篇論文,獲得過(guò)300個(gè)專利,人才來(lái)源覆蓋了國(guó)內(nèi)外的頂級(jí)計(jì)算生物學(xué)院系,和頭部的AI科技大廠。值得關(guān)注的是,這里面很多人才并沒(méi)有計(jì)算生物學(xué)、生物信息學(xué)等生物相關(guān)的背景。百圖生科還成立了研究院,圍繞生命體精細(xì)化觀測(cè)、新型蛋白質(zhì)合成和細(xì)胞編輯、前沿多組學(xué)技術(shù)等方向建立了研究小組,與國(guó)內(nèi)外眾多一線高等院校、科研院所合作,利用公司的場(chǎng)景優(yōu)勢(shì)、生物和計(jì)算基礎(chǔ)設(shè)施優(yōu)勢(shì),與高校雙軌制培養(yǎng)優(yōu)秀人才,使其兼具研發(fā)能力和工業(yè)落地的實(shí)踐精神。

“現(xiàn)在的生物計(jì)算行業(yè)其實(shí)很像二十多年前互聯(lián)網(wǎng)行業(yè)爆發(fā)的前夜,有人說(shuō)21世紀(jì)是生物學(xué)的世紀(jì),也有人說(shuō)21世紀(jì)是人工智能的世紀(jì),我覺(jué)得人工智能技術(shù)賦能下的生物醫(yī)藥行業(yè),將會(huì)成為這個(gè)世紀(jì)最有潛力的方向。隨著越來(lái)越多的交叉學(xué)科人才涌入這個(gè)行業(yè),這個(gè)行業(yè)的人才競(jìng)爭(zhēng)也會(huì)加劇,但現(xiàn)在還是提早上車的最好時(shí)候。”宋樂(lè)說(shuō)。

關(guān)鍵詞: 人工智能 百圖生科 生物計(jì)算行業(yè) 激光雷達(dá)

來(lái)源:光明網(wǎng)
編輯:GY653

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作媒體供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

  • 相關(guān)推薦

相關(guān)詞