
全文字?jǐn)?shù):3600字,閱讀時(shí)間:13分鐘
本文來(lái)自智次方直播:AI落地應(yīng)用:大模型的無(wú)限可能
金秋9月,智次方與智用人工智能應(yīng)用研究院攜手推出AI大模型系列公開(kāi)課,從認(rèn)知、應(yīng)用、商業(yè)、安全等不同方向,帶您領(lǐng)略AI大模型的魅力與應(yīng)用前景。
9月13日晚,智用研究院AI產(chǎn)品總監(jiān) 周奇民老師以“AI落地應(yīng)用:大模型的無(wú)限可能”為主題進(jìn)行了一次深度內(nèi)容分享。
以下根據(jù)直播內(nèi)容整理:
01
AIGC是什么
目前AIGC成為了越來(lái)越多人關(guān)注的概念。AlGC 全稱(chēng)為 Al Generated Content(人工智能生成內(nèi)容),指基于大型預(yù)訓(xùn)練模型、生成對(duì)抗網(wǎng)絡(luò) (GAN)、擴(kuò)散模型等人工智能技術(shù),通過(guò)其泛化能力生成各種內(nèi)容。
狹義的AIGC更關(guān)注文本、圖像、音頻、視頻等內(nèi)容生成,等同于Generative Al概念。
其實(shí)在現(xiàn)階段來(lái)說(shuō),主要是在做文本生成,而且文本生成能力已經(jīng)非常出色。

比如可以用ChatGPT寫(xiě)小說(shuō)等等。其實(shí)從科學(xué)家或者開(kāi)發(fā)者的角度來(lái)看,GPT 4 本質(zhì)上是一個(gè)文本預(yù)測(cè)模型,GPT 中的 T 代表Transformer,這個(gè)模型是一個(gè)逐字生成的文本模型,你給它一段上下文,它會(huì)預(yù)測(cè)下一個(gè)字的概率最高的那個(gè)字,然后根據(jù)生成的字再作為上下文預(yù)測(cè)下一個(gè)字。

圖像生成方面,其實(shí)在四五年前就已經(jīng)存在了,但在過(guò)去的概念中,人們認(rèn)為生成的圖像質(zhì)量很差,人臉五官也歪七八扭的。而現(xiàn)在,通過(guò)不斷訓(xùn)練和優(yōu)化算法,生成的圖像已經(jīng)非常接近真實(shí)人物的照片了。例如,我們可以輸入一段文本描述,Midjourney就能直接生成圖片,并且圖像質(zhì)量很高。而且你會(huì)發(fā)現(xiàn)人臉的樣子、風(fēng)吹起來(lái)的效果、蓬松的頭發(fā)、衣服的質(zhì)感、光線的打光效果,以及背景的虛化等細(xì)節(jié)都已經(jīng)讓這張圖片很難分辨真假。
音頻生成方面,如果之前大家有看過(guò)一些短視頻,比如“注意看眼前的男人叫小帥”,這些視頻中使用的配音都是來(lái)自微軟的文字合成語(yǔ)音服務(wù),名為文本合成語(yǔ)音TTS(Text to speech)。除了傳統(tǒng)的音頻生成方式,現(xiàn)在還有很多新的技術(shù),比如Suno AI。以前我想用文本生成一段音樂(lè),但是無(wú)法將人聲與背景音樂(lè)完全融合。而現(xiàn)在可以根據(jù)你的文本生成一整段音樂(lè),包括和弦、人聲、音調(diào)、編排、和聲,所有的東西一氣呵成。這項(xiàng)技術(shù)剛剛在前幾天發(fā)布,所以AI的發(fā)展速度相當(dāng)迅速。

視頻生成方面,我輸入一段文字“有一只狗穿著超人的披風(fēng)在天上飛,幫我生成4 秒鐘的視頻”,現(xiàn)在已經(jīng)完全可以實(shí)現(xiàn)了。
還有跨模態(tài)生成,其實(shí)就是文本、圖像、音頻、視頻之間來(lái)回切換。
如果我們稍微擴(kuò)大視角,廣義的AIGC還包括蛋白質(zhì)結(jié)構(gòu)生成、環(huán)境模擬、人工智能體、虛擬人等橫跨各個(gè)領(lǐng)域的內(nèi)容生成。
在蛋白質(zhì)結(jié)構(gòu)生成領(lǐng)域,如果有從事生物行業(yè)的,可能會(huì)發(fā)現(xiàn)蛋白質(zhì)的三維結(jié)構(gòu)與其氨基酸的序列是高度相關(guān)的。什么意思呢?比如說(shuō)有一個(gè)氨基酸序列,就能猜測(cè)生成的蛋白質(zhì)的三維結(jié)構(gòu)是什么樣的。以前在沒(méi)有人工智能的情況下,序列到三維結(jié)構(gòu)之間存在很大的差距。很多事情都依賴(lài)于通過(guò)人工計(jì)算或經(jīng)驗(yàn)法則來(lái)處理。過(guò)去的經(jīng)驗(yàn)可以總結(jié)成一些例子,根據(jù)這些例子可以猜測(cè)下一個(gè)新的蛋白質(zhì)的序列。
在環(huán)境模擬領(lǐng)域,比如元宇宙就是將現(xiàn)實(shí)世界完全復(fù)制到虛擬世界。比如說(shuō)可以通過(guò)機(jī)器掃描每個(gè)細(xì)節(jié)和材質(zhì),或者基于人工智能體將現(xiàn)實(shí)世界的空間復(fù)制到虛擬世界中,這也是一種環(huán)境模擬。
02
AIGC能對(duì)行業(yè)做什么
以前我們采用的是專(zhuān)業(yè)人員生成內(nèi)容的模式PGC,后面發(fā)展為UGC模式,即所有人都可以成為創(chuàng)作者。例如很多社交媒體小紅書(shū)、抖音等,你發(fā)布一個(gè)視頻,你就是博主。現(xiàn)在UGC的下一步是AIGC,可能不再需要人來(lái)從事這項(xiàng)工作,只需要讓AI來(lái)完成。人類(lèi)能做什么呢?我們可以提供創(chuàng)意,或者干脆不給創(chuàng)意,讓AI自己去想。它現(xiàn)在已經(jīng)能夠逐漸轉(zhuǎn)變?yōu)锳IGC這樣的模式,因?yàn)樗邆涓呱a(chǎn)效率、豐富創(chuàng)造力和強(qiáng)導(dǎo)向性的優(yōu)點(diǎn)。
那AIGC的出現(xiàn)會(huì)影響哪些行業(yè)呢?
我們第一直覺(jué)能想到的就是媒體行業(yè),比如說(shuō)我們記錄一個(gè)新聞熱點(diǎn)(iPhone 發(fā)布),需要寫(xiě)一篇文章,我還需要手動(dòng)打字嗎?不需要。我直接告訴ChatGPT現(xiàn)在有個(gè)新的熱點(diǎn) iPhone 15 發(fā)布了,請(qǐng)針對(duì)這個(gè)時(shí)事做出評(píng)判。馬上一分鐘就給你寫(xiě)好1000 字的新聞稿,直接復(fù)制粘貼發(fā)送,就這么簡(jiǎn)單。
對(duì)于電商行業(yè),比如我是一家開(kāi)淘寶店賣(mài)衣服的,關(guān)于淘寶店的宣傳文案、衣服照片、網(wǎng)站代碼等都可以讓 AI 來(lái)幫我做。
對(duì)于影視行業(yè),拍電影的分鏡、劇本、音樂(lè)配音、音效全部交給AI。
對(duì)于娛樂(lè)行業(yè),比如說(shuō)大家玩的游戲-原神,原神里面的這個(gè) 3D 建模直接用AI 給你做了,你都不需要這么多設(shè)計(jì)師了。
所以說(shuō)AIGC 在內(nèi)容生成行業(yè)的影響肯定是會(huì)波及到這些行業(yè)的。
03
AIGC的文本生成應(yīng)用
AIGC有很大的潛力和充足的發(fā)展空間。
那下面我會(huì)以大家最熟悉的ChatGPT為例,展示它在文本生成方面的四個(gè)應(yīng)用。
第一個(gè),用通俗的語(yǔ)言,以小學(xué)生能聽(tīng)懂的口吻來(lái)解釋量子物理。這體現(xiàn)了總結(jié)能力和角色扮演能力。你甚至可以把論文扔給ChatGPT,它就可以幫你總結(jié)和解釋論文內(nèi)容。

第二個(gè),幫我用李白的口吻寫(xiě)一首關(guān)于生成式AI的詩(shī),考驗(yàn)它的創(chuàng)造能力。以前我們認(rèn)為AI不能創(chuàng)造,但現(xiàn)在不同了?,F(xiàn)在它可以生成一些從無(wú)到有的東西。

第三個(gè),如果一個(gè)人斷言自己總是說(shuō)謊,但告訴你他現(xiàn)在正在說(shuō)謊,那么你可以推斷他現(xiàn)在是說(shuō)真話還是假話??简?yàn)它的邏輯推理能力。

第四個(gè),代碼能力。它能夠信手拈來(lái)地編寫(xiě)代碼,而且速度非??臁?/p>

如果你之前關(guān)注過(guò)這方面的新聞,或者你是開(kāi)發(fā)人員,那么你應(yīng)該知道GitHub的代碼生態(tài)是個(gè)非常豐富的。因?yàn)镚itHub上面有許多不同的開(kāi)發(fā)者,他們將自己的代碼上傳到該網(wǎng)站,形成一個(gè)開(kāi)源的生態(tài)系統(tǒng),供大家相互學(xué)習(xí)。
然而,GitHub 最近推出了一個(gè)名為 GitHub Copilot 的服務(wù)。這個(gè) Copilot 服務(wù)可以根據(jù) GitHub 上的所有代碼,幫助開(kāi)發(fā)者生成文本。例如,你要寫(xiě)一段注釋?zhuān)憧梢悦枋瞿阆胍帉?xiě)的俄羅斯方塊游戲,Copilot 就會(huì)為你生成一整段文本,直接在 Visual Studio 這個(gè)開(kāi)發(fā)工具中幫助你生成。這樣,你就不需要手動(dòng)復(fù)制粘貼,也不需要跳到 ChatGPT 平臺(tái)讓他幫你寫(xiě)代碼,因?yàn)檫@個(gè)功能已經(jīng)內(nèi)嵌在開(kāi)發(fā)工具中,代碼生成過(guò)程非常流暢。此外,如果你復(fù)制了一段代碼,不知道它的用途,你可以直接復(fù)制粘貼到 ChatGPT 平臺(tái),讓它幫你解釋。它也能夠勝任這項(xiàng)任務(wù)。
總而言之,文本生成、推理能力和代碼能力都可以實(shí)現(xiàn)。
04
AIGC的文本生成+代碼解釋器應(yīng)用
GPT4強(qiáng)大的插件生態(tài)可以讓GPT實(shí)現(xiàn)更多可能性,使用高級(jí)數(shù)據(jù)分析插件(原代碼解釋器)使其根據(jù)需求直接生成代碼。并且對(duì)自己生成的代碼運(yùn)行輸出,如果遇到報(bào)錯(cuò)也能自行調(diào)試修改代碼直至能正常運(yùn)行。
比如說(shuō)你現(xiàn)在上傳一張包含文字的圖片,要求把文字抽取出來(lái)。然后它能解析你的問(wèn)題,立馬就在一個(gè)新建的環(huán)境中幫你寫(xiě)一段 Python 的代碼,并在它的環(huán)境中運(yùn)行。然后直接幫你識(shí)別出這些文字。

文字識(shí)別也叫OCR,它最基礎(chǔ)的用法是識(shí)別文字,但實(shí)際上它還能做很多其他的事情。意味著什么?意味著只要是能運(yùn)行代碼的,它都能做。比如說(shuō)我上傳一張七彩斑斕的圖片,要求將它轉(zhuǎn)換成不同的風(fēng)格,并制作成一個(gè)視頻。它能立即解析。你只需點(diǎn)擊下載就可以使用了。

另外,也能做數(shù)據(jù)分析可視化。假設(shè)我有一份房?jī)r(jià)數(shù)據(jù)表格文件,我上傳給ChatGPT,我告訴它根據(jù)數(shù)據(jù),幫我預(yù)測(cè)下一個(gè)月的價(jià)格趨勢(shì)。對(duì),然后它就能解析你的意圖,分析你的文件,編寫(xiě)并運(yùn)行代碼,生成表格,并進(jìn)行價(jià)格預(yù)測(cè)。

05
生成式AI的組合應(yīng)用
當(dāng)然,上述所有服務(wù)均只是生成式AI最基礎(chǔ)的應(yīng)用,各應(yīng)用之間也可以互相結(jié)合,以多模態(tài)的形式整合賦能千行百業(yè)。
以前的文字生成圖片都是不可控的,但是現(xiàn)在出現(xiàn)了很多新技術(shù),你可以訓(xùn)練一個(gè)自己的AI模型來(lái)固定這些圖片中的一個(gè)元素。
過(guò)去,如果要開(kāi)一家淘寶店,就得請(qǐng)模特、設(shè)計(jì)衣服等等各種細(xì)節(jié),現(xiàn)在AI就能為你完成。我用一個(gè)線稿設(shè)計(jì)圖,讓AI幫我生成一張衣服的圖片。然后再生成100張衣服的圖片,再用這些圖片訓(xùn)練一個(gè)自己的模型。然后用這個(gè)模型去生成模特穿衣的圖片,這個(gè)模特每次穿的衣服都是我設(shè)計(jì)的,可以使用不同的姿勢(shì)、光影和角度來(lái)制作這些圖片。

AIGC也可以應(yīng)用于智能客服?,F(xiàn)在智能客服已經(jīng)很像真人了。你只需要一張照片,就可以實(shí)現(xiàn)各個(gè)器官跟著文本、語(yǔ)音去動(dòng)。

我們也可以將 ChatGPT等大模型嵌入企業(yè)的一些內(nèi)部系統(tǒng)(例如OA 系統(tǒng)),比如說(shuō)員工想請(qǐng)假,由ChatGPT 去理解他的意圖,然后去調(diào)用OA 系統(tǒng),直接就可以去提交請(qǐng)假工單了。
剛剛提到的文本、圖像、音頻、視頻只是冰山一角,還有許多其他可能性值得我們?nèi)ネ诰颉?/p>
06
大模型的“幻覺(jué)”現(xiàn)象
大家知道Transformer模型的原理其實(shí)就是單字接龍。如果大家了解 GPT-2,它是開(kāi)源的。如果你了解開(kāi)發(fā),你可以自己下載一個(gè)模型,你會(huì)發(fā)現(xiàn),比如我想說(shuō)一句話:“今天天氣真好。”然后我把“今天天氣真”這五個(gè)字輸入模型,它會(huì)去計(jì)算下一個(gè)字在幾千、幾萬(wàn)個(gè)中文漢字中出現(xiàn)的概率最高。它計(jì)算出來(lái)了,概率最高的字是“好”,所以它就把“好”這個(gè)字添加進(jìn)去。所以說(shuō),它的原理并沒(méi)有基于真實(shí)現(xiàn)實(shí)的原理,它只是根據(jù)算法計(jì)算出來(lái)的。
假設(shè)你問(wèn)它一個(gè)關(guān)于天氣的問(wèn)題,如果你不連接任何天氣系統(tǒng)的接口,不問(wèn)氣象局今天的天氣如何,它就會(huì)胡說(shuō)八道。因?yàn)樗讓拥脑砭褪歉鶕?jù)算法計(jì)算出概率最高的字來(lái)生成下一個(gè)字。
所以幻覺(jué)是無(wú)法避免的,這是它的本質(zhì)機(jī)制。但是在使用 GPT 的過(guò)程中,你可以采取一些措施來(lái)避免大部分的幻覺(jué)。
舉個(gè)例子,你可以給它設(shè)計(jì)一個(gè)角色,告訴它只能基于我的數(shù)據(jù)源來(lái)回答問(wèn)題,對(duì)于其他不知道的事情,要回答“不知道”,并附上剛剛從氣象局獲得的數(shù)據(jù)。這樣,它就能根據(jù)真實(shí)數(shù)據(jù)來(lái)生成回答。這個(gè)過(guò)程我們稱(chēng)為“grounding”,可以在一定程度上減輕幻覺(jué)。所以說(shuō),幻覺(jué)是無(wú)法完全避免的,這是算法本身無(wú)法避免的特性。但是我們有辦法來(lái)緩解幻覺(jué)的影響。
我今天的分享就到這里,謝謝大家。