5月6日,在安徽合肥濱湖國際會展中心召開的訊飛星火認知大模型成果發(fā)布會上,劉慶峰詳細介紹了科大訊飛認知大模型“1+N”的能力,“1”是通用的認知智能大模型,“N”則是大模型在各個領域的落地,包括了教育、辦公、汽車、數(shù)字員工四大領域。
此前,在4月20日晚間的投資者交流會上,科大訊飛董事長劉慶峰宣布,將原本計劃在四季度發(fā)布的訊飛星火認知大模型,提前到5月6日(今日)發(fā)布。這一次看似不經(jīng)意的調(diào)整,實際上卻反映了其早已被險象環(huán)生的外部環(huán)境逼到的背水一戰(zhàn)的地步。
去年11月,驚艷亮相的ChatGPT可以說著實打了全球所有AI公司一個措手不及,國內(nèi)AI企業(yè)更是像被“趕鴨子上架”一樣拉到了臺前,百度“文心一言”、阿里“通義千問”、360“智腦”、商湯“日日新”、昆侖萬維“天工”、達觀數(shù)據(jù)“曹植”、智源研究院“悟道2.0”、復旦“MOSS”……一時間“萬家齊發(fā)”,很快促成了如今的“百模大戰(zhàn)”的名場面。
但有ChatGPT珠玉在前,國內(nèi)亮相的大模型雖然也盡力挖掘亮點,但總有瓦片難當?shù)母杏X,無法讓人一下產(chǎn)生與ChatGPT初次相遇時的“驚艷感”。因為大模型僅僅憑借生成式AI這一純粹的亮點來吊起外界的胃口顯然已經(jīng)不夠了,如果不能夠?qū)崒嵲谠诳吹綄ι鐣钌a(chǎn)產(chǎn)生的根本性、全面性的影響和重塑,也只不過是重復造車輪子罷了。
今天,在安徽合肥濱湖國際會展中心召開的訊飛星火認知大模型成果發(fā)布會上,劉慶峰給出了科大訊飛的答案,同時也亮出科大訊飛臨時起意調(diào)整星火認知大模型發(fā)布時間的底氣。劉慶峰介紹了科大訊飛認知大模型“1+N”的能力,“1”是通用的認知智能大模型,“N”則是大模型在各個領域的落地,包括了教育、辦公、汽車、人機交互以及醫(yī)療等等。
除此之外,劉慶峰還宣布了,即日起科大訊飛在教育、辦公、汽車、數(shù)字員工四大領域的硬件產(chǎn)品將基于訊飛火星大模型實現(xiàn)升級,提供更加智能化的語言理解能力,提升用戶的使用體驗。
星火大模型也可以喊“遙遙領先”
劉慶峰表示,當前通用人工智能最令人關注的有7個維度,分別是文本生成、語音理解、知識問答、邏輯推理、數(shù)學能力、代碼能力以及多模態(tài)能力,這7個方面能力的提升,可以讓通用大模型帶給人類生活方式顛覆式的變革,產(chǎn)生新的機遇。在會上,劉慶峰聯(lián)手科大訊飛研究院院長劉聰,現(xiàn)場展示了星火認知大模型這7大類核心能力。

在多風格多任務的本文生成能力方面,它可以幫助使用者撰寫發(fā)言稿、郵件、新聞通稿、營銷方案等等?,F(xiàn)場,劉聰使用星火認知大模型撰寫了一篇歡迎稿,續(xù)寫了一段孫悟空與奧特曼潛入今天會場后爭當星火認知大模型發(fā)言人的創(chuàng)意小故事,還嘗試編寫了郵件和品宣文案等等。從結(jié)果來看,星火大模型出文速度很快,且續(xù)寫故事增添了更多新的元素,比如在孫悟空和奧特曼之外,它還自主編撰了一位神秘的老者。當然,依照老規(guī)矩,如果不滿意也能夠根據(jù)需要多次點擊,讓這些文案生成不同的新版本。

另外,除了中文的文本生成能力之外,英文撰寫也不在話下。劉慶峰介紹,星火大模型從研發(fā)的第一天就立足于多語種,因此中英文是同步。他還透露,在剛剛過去的五一小長假期間,科大訊飛的翻譯機同期銷量增長了200%多,幾乎成了出國必備的神器。
當然,在這樣一個多元化的世界里,文本格式并不是固定的。現(xiàn)場,劉聰演示了文本生成的多風格能力,比如生成小紅書風格的文案,開口就是“小姐姐”也贏得了現(xiàn)場觀眾的拍手叫絕。劉慶峰自豪的說:“根據(jù)中科院人工智能智能產(chǎn)業(yè)學院、創(chuàng)新聯(lián)盟以及長三角人工智能產(chǎn)業(yè)鏈細分任務,在這些任務中,在目前已經(jīng)推出的認知大模型中,科大訊飛的測試結(jié)果是明顯領先的,中文水平已經(jīng)超過了ChatGPT,英文如果以滿分5分來算,現(xiàn)在ChatGPT是4.48分, 我們已經(jīng)達到了4.29分,已在快速的進步之中。”
在語言理解方面,星火大模型在多層次跨語種的語言理解方面具有較高的水平,比如對英文單詞、語法、時態(tài)等檢查,最高級別能夠達到對情感的分析。劉慶峰表示,目前對英文的語法句式以及關鍵單詞的糾錯能力,星火大模型已經(jīng)做到了業(yè)界最強,它不僅可以使用在訊飛的學習產(chǎn)品中,甚至可以應用于商務及海外交流當中。

同樣在中文方面,有很多時候漢語的造句通常是模棱兩可的,需要根據(jù)使用情景做出判斷。比如劉慶峰現(xiàn)場舉例,“小明拿到了冠軍,他默默地站了1分鐘”和“劉聰上課被老師批評,他默默地站了1分鐘”,同樣是針對“默默地站了一分鐘”,星火大模型可以避免掉入機器“魚香肉絲”“紅燒獅子頭”這類表面文字的陷阱中,從而分析出前者是高興自豪的心情,后者是難過反思的心情。
劉慶峰表示,語言理解將來是認知大模型調(diào)用各種插件和工具最核心的一項能力,根據(jù)測評,科大訊飛在481項測試維度中有119項詳細任務跟語言理解有關。雖然與CahtGPT相比尚有細微差距,但在國內(nèi),星火大模型在國內(nèi)可測的現(xiàn)有系統(tǒng)中是遙遙領先的!
在知識問答方面,現(xiàn)場星火大模型能夠快速回答關于生活、科學、常識、醫(yī)學甚至是“玄學”等多個領域的知識,比如在向其詢問了“量子科學的產(chǎn)業(yè)應用涵蓋了哪些領域”后,劉慶峰又接著問到“量子糾纏和心靈感應是不是一回事”這一被劉聰調(diào)侃為“玄學”的問題。出乎意料的是星火大模型并沒有像此前多個大模型一樣發(fā)生翻車現(xiàn)象,不僅沒有瞎編亂造答案,甚至還給出了“兩者是完全不同的概念”的標準答案。
劉慶峰介紹,星火大模型給出這些答案,是基于中國科學院的支持,通過大量的科技文獻中不斷訓練的結(jié)果。目前還有很多問題還在研究中,未來它不僅會根據(jù)歷史問題給出答復,甚至還會對未來的展望給出使用者建設性的意見。比如在醫(yī)學方面,通過與醫(yī)療機構的合作,星火大模型未來會變成個人的智能醫(yī)療助理。目前,科大訊飛只啟用了訊飛醫(yī)療專業(yè)系統(tǒng)中的部分醫(yī)療大模型,原因是醫(yī)療需要更加嚴謹對待,同時要符合相關的法規(guī),未來這些專業(yè)的能力將通過與醫(yī)療機構的合作逐漸釋放到通用大模型中。
在邏輯推理方面,星火大模型也得到了大幅度的提升,比如之前大家會在給AI提問的過程中挖坑,比如問“孔子在2008年奧運會上給大家做漢語培訓的故事”,星火大模型可以機智應答孔子不可能出現(xiàn)在08年奧運會上,這其中不僅是邏輯推理,同時也在常識上再次考驗了大模型的理解能力。另外對于雞兔同籠幾只腳等數(shù)學游戲,星火大模型也是手拿把掐,甚至還可以頭頭是道的分析與實際應用相結(jié)合的數(shù)學問題,比如“一只股票昨天漲10%,今天虧了10%,結(jié)果持股人虧了還是賺了”,星火大模型可以通過計算得出虧損的正確答案。
在代碼能力方面,星火大模型不僅可以生成代碼,還可以修改、理解、編譯代碼,并且多語言能力也讓其精通了Python、Java等多種能力。不過劉慶峰表示,星火大模型的代碼能力目前還在起步中,預計在未來兩三個月會有一個非常大的提升。按照科大訊飛內(nèi)部的星火大模型演進歷程,將會在8月15日左右實現(xiàn)代碼能力登上一個新臺階。

最后是在多模態(tài)領域,劉慶峰表示,相比ChatGPT最初只能夠使用文本對話的形式,目前對在大模型上使用更豐富的形態(tài)去輸入,用更豐富的方式去表達已經(jīng)成為關注的重點之一。在今天的所有現(xiàn)場演示當中,劉聰與星火大模型的對話就全部通過語音實現(xiàn),并且識別的準確率保持在較高的水準。除此之外,劉聰還演示了圖片輸入,比如輸出一張英文菜單,讓其翻譯為中文。不僅如此,還能根據(jù)翻譯結(jié)果詢問每道菜的味道、國家/地區(qū)等信息。當然,目前支持圖片識別的Pro版本還處于研發(fā)內(nèi)測當中,未來會全部開放。
除了多種方式輸入之外,星火大模型在輸出上也相交有了進步,比如可以人生朗讀,還可以一鍵生成虛擬數(shù)字人,展現(xiàn)了更加豐富的信息交互方式。
觸類旁通,顛覆行業(yè)應用
劉慶峰在發(fā)布會上表示,“認知大模型通過多種類型的數(shù)據(jù)去學習和訓練,最終在通用領域給了大家非常驚喜的表現(xiàn),但關鍵的問題在于,它還會像我們?nèi)祟愐粯佑|類旁通,在更多的領域?qū)崿F(xiàn)智慧的涌現(xiàn)。”而除了以上按照7個維度展現(xiàn)的星火大模型的通用能力之外,科大訊飛也現(xiàn)場宣布將率先在教育、辦公、汽車和數(shù)字員工四個領域集成人工智能技術,發(fā)布相關產(chǎn)品級的產(chǎn)品。
在教育領域
劉慶峰介紹,過去的幾年時間里已經(jīng)證明了科大訊飛在教育行業(yè)的成功,實現(xiàn)在5萬多所中小學、多個國家智慧教育示范區(qū)和先進教育試驗區(qū)應用,今天星火大模型將再次升級語言學習的能力。在劉慶峰看來,語言學習中有兩個非常困難的挑戰(zhàn),一個是作文,一個是口語。
以作文為例,作文的批改難度大,花費時間長,同時還需要教會學生改進的方法,一篇作文的批改可能就需要花費10分鐘,如果老師再進行更深入的分析和教學,一篇作文至少需要30分鐘以上,如果按照40人的班級計算,則僅作文一項任務就需要20個小時以上。

在現(xiàn)場的演示中,利用星火大模型的語言能力,整體批改作文的時間幾乎可以忽略。不僅如此,批改的作文會通過分數(shù)呈現(xiàn),當然分數(shù)不會是隨意評估的,訊飛學習機會像老師一樣仔細的批改文章,并提供評分依據(jù),包括第一步發(fā)現(xiàn)錯別字,第二步修改病句,發(fā)現(xiàn)斷句錯誤、標點錯誤、冗余或用詞不當?shù)葐栴},每一個細節(jié)上的小錯誤都能夠呈現(xiàn)出來,第三步則是內(nèi)容評價,除了指出問題所在,還能夠提供啟發(fā)式的建議,幫助學生提升寫作水平。

當然,除了中文作文外,英文作文也不在話下。比如它可以發(fā)現(xiàn)單詞拼寫錯誤、詞匯用法不當、句型結(jié)構問題等,最后提出優(yōu)化的建議。劉慶峰介紹,經(jīng)過測試,現(xiàn)在星火大模型這個功能絕對是業(yè)界從0到1的突破,在批改的準確率以及修訂的書面優(yōu)美度來說已經(jīng)超過了一般老師的平均水平。在今天上午中國人工智能學會的頒獎典禮上,其OCR識別技術還獲得了吳文俊科學創(chuàng)新一等獎。
另外在口語方面,針對口語環(huán)境、固定主題等口語訓練中的局限性,星火大模型帶來了一種類人的自由對話體驗,不僅可以自動評測使用者的發(fā)音,甚至可以根據(jù)主題主動拓展對話,讓使用者可以在對話的過程中自由發(fā)揮,甚至遇到不會的語句還可以用熟悉的母語進行對話,完全像人類間的聊天方式一樣訓練口語。當然這些也不再是演示,今天起將在科大訊飛學習機上支持上述功能。
在辦公領域
劉慶峰介紹,辦公領域一直以來面臨著三大問題,第一是記不全,傳統(tǒng)開會即便是專心聽講也很難把所有的信息掌握住,如果邊聽邊記,可能會出現(xiàn)跟不上演講者的速度,無法進行更深的思考;第二個問題是找不到關鍵內(nèi)容,通常大段的演講或錄音之后,很難去重新尋找到關鍵的信息,有時候即便重新從頭到尾的聽也很難查找;第三個問題是安全性,比如使用者擔心電子記錄是否會將數(shù)據(jù)傳到后臺等等。

面對這些,科大訊飛升級了會議紀要、語篇規(guī)整能力兩大能力,會議紀要功能可以將語音實時形成一份精簡的會議紀要,幫助使用者快速回溯會議內(nèi)容;語篇規(guī)整能力則可以去除語音中的口語化詞匯,過濾冗余信息,快速抓住要點信息并整理成書面化的文稿。
除此之外,訊飛聽見在星火大模型的加持之下,不僅可以錄音,還升級了“一鍵成稿能力”,包括全文摘要、工作代辦、工作計劃、新聞稿件、宣傳文案、多語種翻譯等等,還可以根據(jù)自己的記錄找到對應語音,實現(xiàn)字音同步。除此之外,一鍵成稿還能根據(jù)需求輸出不同的文章,比如將錄音轉(zhuǎn)為一篇新聞通稿,也可以根據(jù)宣傳口徑、關注方向、中英文需要等,在通稿上得到不同風格、不同語音、不同側(cè)重的新的稿件。
在汽車領域
汽車領域是人機交互技術應用的一個重要領域之一,尤其是汽車智能化的趨勢愈演愈烈??拼笥嶏w在汽車座艙內(nèi)提供了更加自由、更加擬人化的溝通方式,比如隨時提供行程信息,隨時應答各種問題,創(chuàng)造性對話、訂餐購物、風景講解等等。比如五一長假路途上,可以詢問它新的網(wǎng)紅路線,詢問風景區(qū)人流量如何,有沒有避開的新路線等等。
目前科大訊飛已為數(shù)千個車型提供業(yè)界領先的智能語音交互服務,提供多輪、多人、多區(qū)域、多模態(tài)的語音交互,累計服務用戶已經(jīng)超過4610萬,在國內(nèi)汽車智能語音應用市場保持占有率第一。
在數(shù)字員工領域
科大訊飛已經(jīng)推出過一款叫做虛擬人的智能交互機,這個交互機通過虛擬的形象可以以對話的方式實現(xiàn)導游、虛擬客服、導購、導診以及社區(qū)的服務等工作,現(xiàn)在科大訊飛已經(jīng)有 1000 多個虛擬形象的資產(chǎn),任何形象基本上都能找到,有300多個專業(yè)不同的聲音,并且還有30多萬用戶自定義的音庫。通過星火大模型,它變得更加的智能化,更加的人性化,而且自動可以調(diào)用各種工具,從而實現(xiàn)一個營業(yè)廳24小時不打烊的服務。目前科大訊飛已經(jīng)率先在10家直營的旗艦店上線虛擬導購的智能交互機。

另外現(xiàn)場還以公司招聘事項為例,演示了數(shù)字員工在人力資源方面的價值。在輸入指令后,系統(tǒng)即可自動按照事先設計的RPA腳本,操作計算機中的相應軟件,實現(xiàn)業(yè)務流程的自動化操作并輸出結(jié)果,還能進行數(shù)據(jù)分析,比如幫助人力部門度過簡歷投遞高峰期,尋找更加符合意向的員工等等,大幅減輕一線工作人員的壓力。
與此同時,劉慶峰在會上宣布,訊飛開放平臺將從今日開放星火認知大模型能力接口以及插件市場,面相全行業(yè)招募生態(tài)合作伙伴。同時,訊飛開放平臺宣布將聯(lián)合首批介入的36各行業(yè)、3000余家企業(yè)開發(fā)者,攻堅大模型行業(yè)通用解決方案。
另外,即日起,訊飛星火認知大模型也正式對行業(yè)合作伙伴和開放平臺開發(fā)者開放預約。
“國家隊”將繼續(xù)推動大模型進步
劉慶峰在會上介紹,科大訊飛素有中國的國家隊之稱,2011年科大訊飛便承建了語音及語言信息處理國家工程實驗室,“我們提出讓機器像人一樣能聽會說,這一次認知大模型本質(zhì)上是一次對話式的通用智慧的涌現(xiàn),語音和語言的核心能力是一個基礎條件?!?/p>

2014年科大訊飛推出“訊飛超腦計劃”,明確提出:讓機器像人一樣能理解會思考。2022年1月,科大訊飛又在其年度大會上將該計劃升級為“訊飛超腦2030計劃”,提出讓懂知識、善學習、能進化的通用人工智能技術成為每個人未來發(fā)展的重要機會,讓機器人走進家庭。
“在國家平臺和訊飛超腦計劃的支撐下,過去幾年我們在認知智能領域取得了一系列全球領先的成果?!?017年,科大訊飛承建認知智能國家重點實驗室,也就是從這一年起,科大訊飛不僅讓機器在全球首次通過了國家職業(yè)醫(yī)師資格考試、超過了96.3%參加考試的醫(yī)生,并且在SQuAD機器閱讀理解中全球首次超過人類平均水平,剛剛過去的2022年在OpenBookQA 科學知識推理中,單模型也超過人類平均水平?!?/p>
正是因為有這樣的系列的成果,所以當去年11月30日ChatGPT帶給大家驚喜之后,科大訊飛能夠通過關鍵的技術和研發(fā)體系,以及成建制的團隊,重現(xiàn)OpenAI的智慧。在2022年12月15日啟動認知大模型專項攻關后,科大訊飛到今年5月6日便正式將星火大模型推到了外界的面前。
劉慶峰表示,今天的大模型才剛剛開始,還在快速的成長和迭代的過程中,我們不是要在單個例子上證明誰更強,這沒有意義。因此我們向OpenAI致敬和學習,同時也要快速追趕并超越。而這就需要一套科學的評測體系。
科大訊飛通過認知智能全國重點實驗室牽頭設計了通用認知大模型評測體系,并與中科院人工智能產(chǎn)學研創(chuàng)新聯(lián)盟和長三角人工智能產(chǎn)業(yè)鏈聯(lián)盟共同探討形成了覆蓋7大類481個細分任務類型。在科學的評測體系中,推動大模型的發(fā)展。
最后,借用劉慶峰的話作為結(jié)尾,“我相信人工智能一定會以解決人類剛需而更深刻地載入史冊。我們期待著跟所有的合作伙伴一道,攜手努力,讓這樣一個人工智能建設美好世界的夢想成為燎原之勢?!?/p>
參考資料:
1.https://xinghuo.xfyun.cn/?ch=bdtg-xh-cy01&bd_vid=10620476027592690612
2.《攜手生態(tài),星火燎原!》,訊飛開放平臺