• 
    <ul id="auswy"><sup id="auswy"></sup></ul>
  • <ul id="auswy"></ul>

    AI科學家與后 AI 時代科研

    科學家和“co學家”的思想碰撞

    去年《自然-生物技術(shù)》有一篇小文章很有意思,題目是“It takes two to think”。這篇文章的意思簡單直白,即一個人的苦思容易走進死胡同,而太多人的討論又容易人云亦云,最合適的就是兩個人的思想碰撞,從而引爆科學突破。

    在科學界競爭多于合作的今天,找到一位能和自己隨意討論的科學家同伴并不容易。如果找不到合適的同伴,那么是否可以尋求“無所不能”的AI呢?當然可以,思想碰撞,也可能是發(fā)生于一位科學家和另一個“co學家”之間。

    這一個“co學家”全名“coscientist”。這個AI科學家智能體的概念于2023年被提出,近期谷歌團隊又將其進一步完善,讓它模仿科學家的思考方式,分析已發(fā)表的論文和數(shù)據(jù)庫,綜合結(jié)果,形成假設,并提出下一步的實驗設計。

    更重要的是,科學家可以和“co學家”互動,提出初始想法,或者對“co學家”的建議進行反饋,最后形成之前所沒有考慮到的假設。試用過的科學家對其能力感到震驚,一度懷疑“co學家”是不是作弊偷考題了。

    訓練AI科學家最缺語料

    一個好用的AI智能體需要四個要素——算力、算法、語料和決策。算力的發(fā)展帶來了ChatGPT,算法的突破帶來了DeepSeek,而決策的百花齊放則帶來了Manus等智能體。

    訓練AI科學家智能體最缺語料。訓練一個研究生從讀文獻開始,訓練AI科學家智能體也差不多。AI科學家需要的語料不僅僅是課本上的老知識,更重要的是科學論文中的新知識。科研論文具體統(tǒng)一的格式、嚴格的論證、全方位的覆蓋、專業(yè)人士的評估、持續(xù)不斷的更新……毫無疑問是非常好的AI訓練語料。

    理論上,新的論文不斷產(chǎn)生,訓練AI科學家智能體的語料永不枯竭。但是隨著我們越來越認識到語料對于訓練AI的重要性,開始出現(xiàn)了一個奇怪的局面,就是越來越多的知識、數(shù)據(jù)被各種機構(gòu)“圈養(yǎng)”,從而不能被使用。于是,一方面,公有語料因為高度重復而價值下降;另一方面,私有數(shù)據(jù)被各自的“護城河”保護而束之高閣。

    有人認為阻礙科學論文成為AI訓練語料的主要因素是付費墻,這觀點也對,也不對。當科學家把論文提交給期刊,并通過同行評議得以發(fā)表之后,期刊會組織人員對論文進行編輯,從而擁有了編輯后的論文版權(quán)。其他人如果要閱讀這篇論文,需要支付給出版社相當高的費用。

    我認為,Perplexity是目前最好用的、AI幻覺最少的科學問答AI,當它回答科學問題時,會列出真實科學文獻作為佐證。然而,為了繞過付費墻,這些論文基本上都是開放獲取的,即作者付費、讀者免費使用的論文。

    具有諷刺意義的是,這里面有大量MDPI和Frontiers旗下的期刊論文。被認為是掠奪性期刊大本營的兩家雜志社,居然成為AI時代的香餑餑。而當年為了畢業(yè)不得不在這些期刊中“灌水”的學生們,也沒有想到自己的論文真真切切地推動了科學發(fā)展吧?

    事實上,出版社壟斷的并不是論文,確切說,出版社壟斷的只是編輯后的論文。這就好比科學工作者們辛苦炒好了菜后,出版社拿到菜,挑了最好吃的一批,撒上蔥花,從而擁有了版權(quán)。沒有蔥花的論文可以自由分發(fā),但撒了蔥花的論文就不行了。

    2022年,我們就成為了世界第一論文發(fā)表大國,與此同時,我們卻是一個論文版權(quán)小國。我們貢獻了大量論文,卻讀不起科研論文,更不要說用科學家發(fā)表的論文訓練AI科學家。因為這些語料的限制,像誕生DeepSeek這樣的“超車時刻”,在很長一段時間可能會很難發(fā)生在中國的AI科學家智能體上。

    這也不是我們獨家的問題,全世界的科學家都苦期刊久矣,甚至開始有組織地拒絕為某些期刊審稿。

    重塑科學交流體系

    為了解決付費墻的問題,出版社提倡開放獲取,但讓作者付費的開放獲取加重了發(fā)表者的負擔,也使得缺少經(jīng)費的課題組更難發(fā)表成果。科學家們則搭建了各種類型的預印本平臺,這些預印本平臺接收未經(jīng)同行評議的論文,上傳即公開,可以第一時間分享科研成果;但缺少了同行評議,使得其部分論文粗制濫造。

    顯然,不管是開放獲取還是預印本都不夠完美。

    現(xiàn)在基于期刊的論文發(fā)表模式是百年前的產(chǎn)物,近20年來,我們的信息交流方式早已從單純紙媒快速轉(zhuǎn)變成基于文字、圖片、影像等的交流方式。在技術(shù)浪潮下,期刊終將消亡,現(xiàn)在的問題是:未來的知識,將以什么方式沉淀,又由什么方式流通?

    AI的發(fā)展或許是重塑現(xiàn)有論文發(fā)表和交流方式的機遇。

    論文發(fā)表最重要的節(jié)點是同行評議,審稿人一般需要通過四個維度評估論文:方法可靠性、內(nèi)容可讀性、結(jié)果創(chuàng)新性和影響力。前兩個維度,代表了一篇科學論文的最低標準,如果沒有達到即不能發(fā)表,在這兩個維度上,AI的表現(xiàn)已經(jīng)和人類相當,甚至超出了人類,完全可以替代部分審稿人的工作。

    后兩個維度,代表了不同期刊的標準,頂級期刊往往要求非常高的創(chuàng)新性和影響力。也有期刊反其道而行之,不要求評審人對創(chuàng)新性和影響力進行評估,比如Scientific Reports和Peer J。這些新型期刊有自己的理由:一項工作的創(chuàng)新性和影響力很難由少數(shù)幾個評審人準確判斷,應當交給時間和廣大的科學共同體評判。

    由于長時間形成的慣例,出版社和期刊主導了科研成果傳播的同行評議。或許是時候成立一個國際性的科學組織重塑整個科學交流體系了,給沒有“撒蔥花”的論文搭建一個可以發(fā)光發(fā)熱的平臺。而作為世界論文發(fā)表大國、在新媒體領(lǐng)域蓬勃發(fā)展的國家,也是迫切希望建立新的科學評估體系的國家,中國必然在其中扮演重要角色。

    來源:《中國科學報》