昨天凌晨,OpenAI突然發(fā)布的GPT-4讓所有人感受到了它強(qiáng)大的能力:不僅支持多模態(tài),邏輯推理能力也大大提升,部分標(biāo)準(zhǔn)化考試的成績甚至超過了90%的人類......
在這種情況下,估計(jì)昨天百度的員工“特別忙”,因?yàn)閺?月份開始,百度就開始對“文心一言”進(jìn)行大規(guī)模預(yù)熱,今天百度發(fā)布的“文心一言”將不可避免的會被拿來和GPT-4進(jìn)行對比,網(wǎng)上更是充斥著“壓力給到了百度這邊”等類似話題,大家都迫切想要看到“中國版ChatGPT”的表現(xiàn)到底如何。
但,該來的總是會來的。
今天下午2點(diǎn),百度在北京總部舉行了新聞發(fā)布會,主題圍繞“文心一言”。李彥宏表示,作為國內(nèi)大型企業(yè)中首家發(fā)布“類ChatGPT”產(chǎn)品的企業(yè),百度之所以選擇最先發(fā)布,是因?yàn)槭袌鲇行枨?,百度包括搜索、智能云以及小度音響等在?nèi)的產(chǎn)品,以及眾多的合作伙伴,都等待著用這項(xiàng)技術(shù),因此百度需要盡早的發(fā)布這項(xiàng)技術(shù)。
具體來說,文心一言具有文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、多模態(tài)生成、數(shù)理邏輯推算、中文理解等能力這五大特色功能。
文學(xué)創(chuàng)作
在現(xiàn)場,李彥宏通過通過6輪有關(guān)三體的對話演示,體現(xiàn)出了文心一言所具有的總結(jié)能力、推理能力等,很多事實(shí)性內(nèi)容對于大模型來說很容易出錯(cuò),而百度的文心一言通過采用了5500億知識圖譜的事實(shí)的訓(xùn)練數(shù)據(jù),來保證事實(shí)性問題回答準(zhǔn)確。

商業(yè)文案創(chuàng)作
在商業(yè)文案創(chuàng)作方面,文心一言表現(xiàn)出的能力符合預(yù)期,還為生成的5個(gè)公司名稱進(jìn)行了一一解釋。

數(shù)理邏輯推算
在“雞兔同籠”這一中國古代典型數(shù)學(xué)題的演示過程中,文心一言展現(xiàn)出了自身具備的數(shù)理推理能力,不僅可以給出答案,同時(shí)也給出了解題步驟,甚至在題目有問題的時(shí)候還對用戶進(jìn)行了提示。

有意思的是,我們也將相同的問題向ChatGPT進(jìn)行了提問,第一個(gè)問題雖然看似推理的很有邏輯,但ChatGPT并沒有給出正確的答案,第二個(gè)問題則得出了和文心一言相同的結(jié)果。


中文理解
據(jù)李彥宏表示,文心一言使用了大量中文數(shù)據(jù)集來進(jìn)行訓(xùn)練,在現(xiàn)場展示的有關(guān)“洛陽紙貴”的一系列問題中,藏頭詩的能力讓人印象深刻。此外,在談到文心一言能不能處理英文的問題時(shí),李彥宏表示可以處理,但他也承認(rèn)文心一言對英文的理解和處理能力現(xiàn)在還沒有中文這么好,部分原因是因?yàn)樵谟?xùn)練數(shù)據(jù)樣本還不夠大。

同樣的,為了更直觀的進(jìn)行對比,我們還是用ChatGPT來生成了藏頭詩,兩次回復(fù)的結(jié)果都表明ChatGPT似乎沒有理解藏頭詩的含義,在這一環(huán)節(jié),文心一言可以說是遠(yuǎn)超ChatGPT的表現(xiàn)。

多模態(tài)生成
在多模態(tài)生成方面,文生圖能力大家已經(jīng)司空見慣,但令人沒有想到的是,文心一言具備了用語音進(jìn)行回復(fù)的功能,甚至還可以將回復(fù)的文字內(nèi)容直接生成視頻。據(jù)李彥宏表示,目前每天已有幾萬個(gè)通過此功能生成的視頻在百家號里分發(fā)。不過,這項(xiàng)功能暫時(shí)還沒有對外開放。


據(jù)悉,文心一言是一種生成式大模型,這是一種技術(shù)棧的變化,對于算力的要求很高,可以說是一種“暴力美學(xué)”,通過芯片層、框架層、模型層、應(yīng)用層這四層架構(gòu)之間的相互協(xié)同,優(yōu)化后可以使得成本降低,效率提高。在未來,很多人的工作性質(zhì)也會因?yàn)楦啻竽P偷某霈F(xiàn)而發(fā)生不可逆轉(zhuǎn)的改變。同時(shí),李彥宏表示,大模型也給產(chǎn)業(yè)帶來了新型云計(jì)算、行業(yè)模型精調(diào)、應(yīng)用開發(fā)這三大新的機(jī)會。

據(jù)李彥宏介紹,文心一言大模型的訓(xùn)練數(shù)據(jù)包括萬億級網(wǎng)頁數(shù)據(jù)、數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)、百億級的語音日均調(diào)用數(shù)據(jù),以及5500億事實(shí)的知識圖譜等。
從底層來看,文心一言使用了六大技術(shù)模塊,包括知識增強(qiáng)、檢索增強(qiáng)、對話增強(qiáng)、有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示。其中,百度有特色的在于知識增強(qiáng)、檢索增強(qiáng)、對話增強(qiáng):在知識增強(qiáng)方面,知識圖譜為知識內(nèi)化和知識外用提供了支持;在檢索增強(qiáng)方面,百度搜索引擎每天有數(shù)以億級的使用量,通過使用基于語義理解和匹配的新一代檢索架構(gòu),可以和生成模型進(jìn)行聯(lián)合優(yōu)化,使得生成的效果更好;在對話增強(qiáng)方面,記憶機(jī)制、上下文理解和對話規(guī)劃也都很重要。
同時(shí),百度研發(fā)多年的飛槳也從開發(fā)訓(xùn)練和推理部署兩個(gè)方面來支撐文心一言效果更好、效率更高、性能更強(qiáng)。

從今日起,首批用戶即可通過邀請測試碼,在文心一言官網(wǎng)體驗(yàn)產(chǎn)品,后續(xù)將陸續(xù)開放給更多用戶。此外,百度智能云即將面向企業(yè)客戶開放文心一言API接口調(diào)用服務(wù)。3月16日起,正式開放預(yù)約,搜索“百度智能云”進(jìn)入官網(wǎng),可申請加入文心一言云服務(wù)測試。
說起文心一言,最早應(yīng)該可以追溯到2010年百度成立的“自然語言處理部”,到了2019年時(shí),百度發(fā)布的通用大模型“文心大模型ERNIE”則是現(xiàn)在文心一言的底座,經(jīng)過了多年的發(fā)展,“文心”家族也早已經(jīng)發(fā)展壯大起來。

文心能力全景圖
不過,相比于2010-2019年的超長時(shí)間跨度,在ChatGPT發(fā)布后的巨大影響力之下,留給文心一言的時(shí)間卻沒有那么多,從密集發(fā)布的造勢新聞中,也可以看出百度所面臨的巨大壓力:
2月7日,百度官宣“文心一言”項(xiàng)目時(shí),英文名是“ERNIE Bot”,三月份完成內(nèi)測,面向公眾開放。百度CTO王海峰任項(xiàng)目總指揮,其他帶隊(duì)高管還包括:百度集團(tuán)副總裁吳甜、百度技術(shù)委員會主席吳華等人。
2月13日,百度消息,文心一言3月和大家正式見面。
2月17日,在2023 AI+工業(yè)互聯(lián)網(wǎng)高峰論壇上,百度智能云宣布“文心一言”將通過百度智能云對外提供服務(wù),率先在內(nèi)容和信息相關(guān)的行業(yè)和場景落地。百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,“文心一言”是基于百度智能云技術(shù)打造出來的大模型,它將根本性地改變云市場的游戲規(guī)則,云服務(wù)將從數(shù)字時(shí)代躍遷到智能時(shí)代。
2月22日,李彥宏在發(fā)給百度全員的財(cái)報(bào)信中重點(diǎn)介紹了百度將在三月份推出的生成式AI產(chǎn)品文心一言,宣布計(jì)劃將多項(xiàng)主流業(yè)務(wù)與文心一言整合,將幫助百度增加用戶粘性。
2月28日,百度官方宣布:百度計(jì)劃于3月16日14時(shí)在北京總部召開新聞發(fā)布會,主題圍繞文心一言,甚至發(fā)布會的邀請函也出自文心一言之手。
從2月份開始預(yù)熱起,至今已有650家伙伴加入了文心一言生態(tài),李彥宏表示,這是任何一個(gè)企業(yè)都不能錯(cuò)過的機(jī)會,會釋放出指數(shù)級的商業(yè)需求,AI市場也將迎來爆發(fā)性的需求增長。

在國內(nèi)一眾宣稱正在開發(fā)“類ChatGPT”的科技公司中,或許只有阿里、騰訊、百度等大廠對大語言模型進(jìn)行了大規(guī)模且長期的投入,百度則是三家中對于人工智能傾注心血和時(shí)間最多的一家。目前,百度在人工智能領(lǐng)域已經(jīng)深耕十余年,擁有產(chǎn)業(yè)級知識增強(qiáng)文心大模型ERNIE ,具備跨模態(tài)、跨語言的深度語義理解與生成能力,在搜索問答、云計(jì)算、內(nèi)容創(chuàng)作生成、智能辦公等眾多領(lǐng)域都有應(yīng)用。同時(shí),百度搜索引擎更是在我國占據(jù)了絕對優(yōu)勢,海量的中文語料更是它區(qū)別于其他企業(yè)的“底氣”。
可以說,從技術(shù)實(shí)力和應(yīng)用場景上來看,百度是目前最有希望在大模型上追趕OpenAI的中國公司。不過,從發(fā)布會過程中百度股價(jià)的實(shí)時(shí)變化來看,市場已經(jīng)表達(dá)出了它的態(tài)度。

寫在最后
這一次,百度的確有些運(yùn)氣不好,昨天突然發(fā)布的GPT-4,讓大部分人對今天發(fā)布的文心一言已經(jīng)有了自己的判斷,但對于百度來說,其實(shí)未來的機(jī)會依然很大。
首先,在中文領(lǐng)域,OpenAI等國外企業(yè)所掌握的數(shù)據(jù)明顯少于百度,再加上數(shù)據(jù)安全和法律法規(guī)等限制因素,類似戰(zhàn)勝谷歌的戰(zhàn)役可能會再次上演;其次,大模型雖然表現(xiàn)出了驚人的能力,但商業(yè)模式的探索才僅僅是個(gè)開始,未來還有極大的不確定性,此次的發(fā)布會更是搶先占據(jù)了國內(nèi)用戶的心智,有利于文心一言生態(tài)的快速建立。
在文心一言發(fā)布會的最后,大屏幕上顯示出“AI的終極理想是為人類帶來更多自由和可能”,對于真正的終點(diǎn)來說,現(xiàn)在才只是走過了起跑線而已。