出品丨虎嗅科技組
作者丨蘇北佛樓蜜
編輯丨陳伊凡
【資料圖】
題圖丨視覺(jué)中國(guó)
2022年12 月,兩名計(jì)算生物學(xué)家Casey Greene和Milton Pividori開(kāi)創(chuàng)了一項(xiàng)不同尋常的實(shí)驗(yàn):他們請(qǐng)一名非科學(xué)家的助手幫助他們改進(jìn)三篇研究論文。在一份生物學(xué)手稿中,助手甚至在引用方程式時(shí)發(fā)現(xiàn)了一個(gè)錯(cuò)誤,審稿順利完成且費(fèi)用適中,每份文件不到0.50美元。
這名助手并非人類,而是一種名為GPT-3的人工智能算法。
“這將幫助我們提高研究人員的工作效率?!笨茖W(xué)家對(duì)此感到震驚。
如今,基于這一通用大模型算法誕生的產(chǎn)品ChatGPT,一經(jīng)推出,就引發(fā)了現(xiàn)象級(jí)關(guān)注。一時(shí)間,全球科技巨頭競(jìng)相宣布其將會(huì)把ChatGPT引入自己的業(yè)務(wù)。人們或驚嘆狂歡,或居安思危,ChatGPT所承載的意義似乎就快超越它本身。在百花齊放的應(yīng)用場(chǎng)景中,生物技術(shù)領(lǐng)域能如何搭上ChatGPT的快車?
ChatGPT與生物技術(shù)的結(jié)合
2020年,人工智能公司OpenAI發(fā)布的一款模型,自發(fā)布初就被大肆宣傳為生成式AI聊天機(jī)器人式工具,無(wú)論是創(chuàng)作散文、詩(shī)歌、計(jì)算機(jī)代碼,還是編輯研究論文,似乎無(wú)所不能。
昨日,微軟(Microsoft)公司表示,將把ChatGPT整合到搜索引擎Bing和網(wǎng)絡(luò)瀏覽器中,谷歌(Google)公司也在今日展示了其名為Bard的人工智能對(duì)話系統(tǒng)。這些系統(tǒng)可以根據(jù)用戶提供的復(fù)雜問(wèn)題,提供全面而綜合的回答,小到制定詳細(xì)的旅行計(jì)劃,大到分析公司的運(yùn)營(yíng)策略。
ChatGPT在生物技術(shù)上最有前景的應(yīng)用似乎是在蛋白質(zhì)生成和基因測(cè)序領(lǐng)域。
總部位于加利福尼亞的生物技術(shù)公司Profluent使用類似于ChatGPT的AI模型,創(chuàng)造了新型抗菌蛋白,并且已經(jīng)證明它們能夠在實(shí)驗(yàn)室中殺死細(xì)菌。
這一模型名稱為ProGen,是一種大型語(yǔ)言模型 (LLM),它利用大量文本作為訓(xùn)練數(shù)據(jù),開(kāi)發(fā)分析和生成語(yǔ)言的能力——類似于ChatGPT,但 Progen的語(yǔ)言是蛋白質(zhì)語(yǔ)言。
簡(jiǎn)單來(lái)說(shuō),就是使用 AI 和大型語(yǔ)言模型,例如為 ChatGPT 提供支持的語(yǔ)言模型,來(lái)學(xué)習(xí)生物學(xué)的基本語(yǔ)言,并設(shè)計(jì)具有治愈疾病潛力的新蛋白質(zhì)。
目前,ProGen生成了一百萬(wàn)種不同的人工序列,研究人員從中挑選了 100種在實(shí)驗(yàn)室中合成,其中66種產(chǎn)生了類似于雞蛋清溶菌酶的化學(xué)反應(yīng),用作陽(yáng)性對(duì)照。
該團(tuán)隊(duì)隨后選擇了五種新型抗菌蛋白,并測(cè)試了它們對(duì)大腸桿菌的抵抗力。其中兩種新蛋白質(zhì)能夠殺死細(xì)菌。
同時(shí),X射線成像顯示,盡管這些抗菌蛋白的氨基酸序列與任何已知的天然蛋白相差超過(guò)30%,但它們?nèi)匀徽郫B成與”天然表親們”幾乎相同的形狀。
這項(xiàng)研究可能意味著,未來(lái)我們能通過(guò)與AI合作,創(chuàng)造本不屬于自然界的蛋白質(zhì),并將這些蛋白質(zhì)賦予不同的功能,人類成為了微觀世界里的上帝。
攻克蛋白質(zhì)后,ChatGPT似乎又開(kāi)始朝著基因高歌猛進(jìn)。
科技公司Nvidia在今年的JP摩根醫(yī)療健康大會(huì)稱,隨著新一代基因組測(cè)序速度的不斷加快和成本的不斷降低,目前我們測(cè)序基因組DNA的能力已經(jīng)超越了分析DNA序列并從中獲取洞見(jiàn)的能力。而更快速有效地處理海量的基因組序列信息離不開(kāi)人工智能。
大型語(yǔ)言模型通過(guò)可以分析人類語(yǔ)言一樣分析DNA序列,以此加快基因組的拼接、基因突變的發(fā)現(xiàn),并且用人類對(duì)話的方式將發(fā)現(xiàn)表述給研究人員。
比如,整合ChatGPT的基因測(cè)序分析系統(tǒng)可能在處理患者的基因組測(cè)序數(shù)據(jù)后給出——“這名患者的某基因上的突變可能導(dǎo)致罕見(jiàn)遺傳病A”的結(jié)論,它似乎代替了醫(yī)生。
ChatGPT是萬(wàn)能的嗎?
一切的發(fā)現(xiàn)和應(yīng)用似乎都朝著好的方向前進(jìn)。但面對(duì)似乎全能的工具,隨之而來(lái)的是人類的反思和“批判”。它是萬(wàn)能的嗎?
部分看客也跟著給出了自己的答案:不是。
首先,我們開(kāi)始思考翻譯和替代的準(zhǔn)確率?
比如,目前大型語(yǔ)言系統(tǒng)的缺陷在于“提供信息的真實(shí)度有待提高”。由于ChatGPT基于對(duì)已有語(yǔ)言數(shù)據(jù)的學(xué)習(xí)提供回答,它的回答也受到數(shù)據(jù)庫(kù)中不真實(shí)、有偏見(jiàn)、或者過(guò)時(shí)知識(shí)的影響。
這可能意味著對(duì)于專業(yè)性強(qiáng)的話題,如果大型語(yǔ)言系統(tǒng)沒(méi)有經(jīng)過(guò)足夠?qū)I(yè)數(shù)據(jù)的訓(xùn)練,很可能提供錯(cuò)誤的回答。對(duì)于不了解專業(yè)知識(shí)的普通人來(lái)說(shuō),無(wú)法偵辨虛實(shí)。
此外,由于海量的數(shù)據(jù)訓(xùn)練是保證ChatGPT的基礎(chǔ),因此在數(shù)據(jù)的輸入過(guò)程中,可能存在歷史偏見(jiàn)等遺留問(wèn)題,種族、性別、文化、年齡歧視等不良因素都會(huì)隱匿在其中。想要人工剔除是十分困難的事情,如何防止ChatGPT根據(jù)這些數(shù)據(jù)輸出有害言論是需要解決的另一個(gè)挑戰(zhàn)。
在Nature上發(fā)表的最新評(píng)論中,有研究人員指出,建立使用ChatGPT的規(guī)范和法規(guī)至關(guān)重要,才能確保這一技術(shù)被正當(dāng)、透明、公平的使用。
開(kāi)發(fā)者比評(píng)論人更清楚這其中隱藏的問(wèn)題。去年9月,Google子公司DeepMind發(fā)表了一篇關(guān)于名為Sparrow的“對(duì)話代理”的論文4,該公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 表示,該論文將在今年以私人測(cè)試版的形式發(fā)布。谷歌的目標(biāo)是開(kāi)發(fā)甄別包括引用消息來(lái)源的能力在內(nèi)的功能。
一些科學(xué)家也認(rèn)為,目前,ChatGPT還沒(méi)有接受足夠?qū)I(yè)的內(nèi)容培訓(xùn),無(wú)法對(duì)技術(shù)主題有所幫助。Kareem Carr是哈佛大學(xué)的生物統(tǒng)計(jì)學(xué)博士生,當(dāng)他在工作中試用時(shí)感到不知所措。
“我認(rèn)為ChatGPT 很難達(dá)到我需要的水平?!彼f(shuō)。
因此,一些科技公司正在根據(jù)專業(yè)科學(xué)文獻(xiàn)對(duì)聊天機(jī)器人進(jìn)行培訓(xùn),盡管它們也遇到了自己的問(wèn)題。
去年11月,擁有Facebook的科技巨頭Meta發(fā)布了一個(gè)名為Galactica的法學(xué)碩士項(xiàng)目,該項(xiàng)目接受過(guò)科學(xué)摘要培訓(xùn),旨在使其特別擅長(zhǎng)制作學(xué)術(shù)內(nèi)容和回答研究問(wèn)題。
但測(cè)試中仍然出現(xiàn)了問(wèn)題,目前該演示已從公共訪問(wèn)中撤出。
對(duì)此,“不再能通過(guò)隨意濫用它來(lái)獲得樂(lè)趣了?!盡eta 的首席人工智能科學(xué)家Yann LeCun在推特上略顯憤懣地回應(yīng)道。
種種小小的不愉快背后,可能意味著ChatGPT的果實(shí)并未完全成熟??駳g之余,子彈仍需飛一會(huì)兒。