在线日韩女同,久久久久久久久久爽,欧美日高啪在线精视频,国产av美女被我操,玖玖视频在线观看免费,日韩乱人伦Av,九色高潮视频在线播放,青青re在线视频,大鸡巴在线视频网

科大訊飛智能語音的探索和突破
作者 | 雷峰網(wǎng)2021-12-23

在智能語音和人工智能產(chǎn)業(yè)中,技術(shù)革新很快,想要贏得領(lǐng)跑局面就必須從源頭技術(shù)上保持領(lǐng)先。而保持領(lǐng)先的秘密是“甘坐十年冷板凳“的決心,是對企業(yè)科研人員反復(fù)實驗,去窮盡每一種可能,推動技術(shù)上的微小改變的耐心,也是直面失敗的恒心。

正如創(chuàng)立22年的科大訊飛在探索人工智能實現(xiàn)路徑上的曲折,作為“年輕后浪“的熊世富在接下科大訊飛語音識別技術(shù)這個接力棒以來,失敗也是他最常面對的事情。

1、不是天才

人工智能被很多人稱之為改變未來的顛覆性技術(shù),而深度學(xué)習則是加速人工智能發(fā)展的顛覆性創(chuàng)新。

2010年以前,語音識別的主流方式是使用高斯混合模型(GMM)來建模,雖然語音識別的錯誤率有效的降低了,但GMM在自然場景下卻無法達到實用的級別。想要實現(xiàn)語音識別技術(shù)更廣泛的商用,必須有新的突破。2010年,微軟通過研究如何利用深層神經(jīng)網(wǎng)絡(luò)改善大詞匯量語音識別,成功地使得大規(guī)模的語音識別得到突破性進展,而這一研究也改變了世界語音識別業(yè)界格局。

而科大訊飛也成為除了微軟總部以外,第一批接觸深度學(xué)習并著手開始研究的團隊。一年后,科大訊飛已經(jīng)將深度神經(jīng)網(wǎng)絡(luò)(DNN)成功應(yīng)用到中文語音識別領(lǐng)域,并通過語音云平臺提供給廣大開發(fā)者使用。

熊世富便是在那個技術(shù)引領(lǐng)變革的時代,開啟了對人工智能語音領(lǐng)域的深入探索,從一個代碼小白一步步蛻變?yōu)樾袠I(yè)專家。

從語音產(chǎn)業(yè)的拓荒者到領(lǐng)頭羊,科大訊飛智能語音的探索和突破

如今,在加入科大訊飛的第七年,熊世富帶領(lǐng)團隊成功研發(fā)新一代端到端語音識別系統(tǒng)并全網(wǎng)上線,又一次保持了科大訊飛語音識別國際領(lǐng)先的地位。旁人總以為這位享譽公司的技術(shù)大咖應(yīng)該“天賦異稟”,自帶“碼力超強”的光環(huán)。殊不知,技術(shù)能力并不是一蹴而就,是要經(jīng)過時間打磨、沉淀出來。研究生培養(yǎng)方式不同于本科生,除了理論知識,還要求工程實踐能力。在中科大語音研究實驗室攻讀研究生的第一年,當時熊世富導(dǎo)師要求大家寫一個程序,他想了想,撓了撓頭,于是請教了同學(xué):“哎,Hello Word,用編程語言咋寫來著?”

孤身一人來到一個雖不算陌生的領(lǐng)域,但這里的一切規(guī)則都要重新學(xué)習、探尋,岔路曲徑通幽,沿途也有驚喜的收獲。

初識深度學(xué)習是熊世富在科大訊飛實習的期間。從最開始的跨語言遷移學(xué)習的任務(wù)到提升深度學(xué)習的訓(xùn)練效率,帶著升級打怪的快樂,熊世富總在語音方向里探索最前瞻的技術(shù)領(lǐng)域。

而魄力,則是他個人在探索深度學(xué)習技術(shù)上的優(yōu)勢和個人特色。從職業(yè)生涯的開始即選擇了一條大規(guī)模深度學(xué)習探索之路,而這種選擇也一直延續(xù)至今。

2013年,當業(yè)界詬病深度學(xué)習的訓(xùn)練效率之時,還是實習生的熊世富隨即想到了多卡訓(xùn)練這條路徑,多卡背后的代名詞是計算資源,大資源加持實驗才能找到答案。“也是幸運,當時我的導(dǎo)師是現(xiàn)今已為我們首席科學(xué)家的魏思,跟著他一起探索了很多前沿的方向。當時要申請計算資源,研究院都會批準,雖然我只是一個實習生。”熊世富每次回憶,都感嘆AI研究院對于前瞻研究重視,對于技術(shù)的包容以及對人才的支持。也正是研究院的這種氛圍,讓這位中科大高材生畢業(yè)之后留了下來。

2、直面不確定性:甘坐十年冷板凳

科大訊飛董事長人劉慶峰曾經(jīng)不止一次講過這樣一段話:“一定要對未來人工智能的核心技術(shù)突破,不能抱著急功近利的想法?;A(chǔ)理論的創(chuàng)新,源頭技術(shù)的創(chuàng)新,往往是具有最大的不確定性的。人家說三年不鳴,一鳴驚人,事實上真正做原創(chuàng),可能你要坐十年冷板凳、甚至一輩子冷板凳的心理準備。”

這也是中國科研工作者需要攀越的下一座高山:如果不知道哪一年看到曙光,那么做技術(shù)的人還會用盡全力么?

“甘坐十年冷板凳這句話對我們這些科研人員的影響力是巨大的,這也是我們對技術(shù)的追求,因為我們相信科技創(chuàng)新才能真正引領(lǐng)未來?!毙苁栏徽f到。

2018年,科大訊飛提出了引領(lǐng)性的全新語音識別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),進一步提高語音轉(zhuǎn)寫的準確率,引領(lǐng)語音識別技術(shù)的發(fā)展。而在此之前,最好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)(LSTM),但是,這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時延高的問題,尤其在工業(yè)界的實時識別系統(tǒng)中很難應(yīng)用。

而在另一邊,熊世富早已在2017年悄然開始了下一代的端到端語音識別系統(tǒng)的研發(fā)。“研發(fā)一代儲備一代,這是我們對技術(shù)的要求?!彼裕斏弦淮夹g(shù)DFCNN尚未成熟之時,熊世富就已經(jīng)開始研究更新一代的端到端智能語音系統(tǒng)了。

相比傳統(tǒng)語音系統(tǒng),端到端系統(tǒng)具有結(jié)構(gòu)簡潔、通用性強、不依賴語言學(xué)知識等優(yōu)點。進一步它能夠通過縮減人工預(yù)處理和后續(xù)處理,盡可能使模型從原始輸入到最終輸出,給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度,避免了多個模型間的誤差傳導(dǎo)。更通俗一些,端到端技術(shù)即針對需要多階段的或多步解決的問題,模型可以堆在一起優(yōu)化。因此它也被認為是未來智能語音的主流技術(shù)框架。

思想很簡單,但簡潔背后總逃不過“字越少,事越大”定律。該技術(shù)思想原本在翻譯任務(wù)中發(fā)揮重要作用,而將端到端技術(shù)運用語音方面的研究也是一個個頂尖團隊嘗試的方向,然而其效果始終沒有敵過非端到端技術(shù)。

構(gòu)建端到端智能語音系統(tǒng),熊世富花了整整兩年半的時間。

“確實啃下了不少硬骨頭,尤其是項目后半段在區(qū)分性訓(xùn)練技術(shù)上,明明已經(jīng)在大數(shù)據(jù)上驗證了,但仍然無法達到想要的效果”。為了突破這項技術(shù),熊世富就花了整整三個月時間攻關(guān)。

沒有結(jié)果的時候,自我質(zhì)疑是常態(tài)?!捌鋵嵾@三個月有一個半月是無用功。從科研的角度來看,做任何事情都可能面臨失敗,十個項目能夠成功兩個已經(jīng)是非常了不起的成績了,我們要接受做的大部分事情都可能是失敗的結(jié)局?!?/p>

“可是從前期的實驗結(jié)果和我過多年做語音識別的經(jīng)驗來看,我相信端到端語音識別技術(shù)一定是有前景的,可能真的會比上一代更好?!毙苁栏灰贿叧恋頂?shù)據(jù)、一邊迭代算法的系統(tǒng),繼續(xù)尋找問題所在。

2018年,科大訊飛端到端技術(shù)初露鋒芒,就在國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation,簡稱IWSLT)中,以在英德方向語音翻譯任務(wù)上端到端模型(End-to-End Model)顯著優(yōu)勢,獲得世界第一。

如果說 2010年深度學(xué)習的引入,是語音識別領(lǐng)域上一次顛覆性創(chuàng)新,那么新一代端到端語音識別的研究,無疑標志著語音識別新一輪創(chuàng)新的里程碑。

新一代端到端語音識別系統(tǒng)帶來的效果提升非常顯著 —— 識別效果相比傳統(tǒng)語音識別系統(tǒng)提升了15%-30%,在特定場景下,特別是時下的應(yīng)用熱點端側(cè)語音識別場景上,新系統(tǒng)能實現(xiàn)效果不降,系統(tǒng)資源占用大幅下降。

同時,科大訊飛也成為使用這項技術(shù)最廣泛的一家公司,系統(tǒng)于2019年在業(yè)界首次全網(wǎng)上線,并在訊飛輸入法、翻譯機、語音轉(zhuǎn)寫等重點業(yè)務(wù)上使用,并為語音識別帶來了更大的想象空間和更豐富的產(chǎn)品形態(tài),如方言免切換、多語種統(tǒng)一建模、中英隨心說等。

回憶起端到端語音識別系統(tǒng)成功的原因,熊世富認為:“當時業(yè)界大部分團隊包括公司內(nèi)部也有團隊都在做小數(shù)據(jù)的訓(xùn)練,而我認為只能用大數(shù)據(jù),才有成功的可能性,而這后來也證明是成功的關(guān)鍵突破。另外的難點在于算法框架的參數(shù)調(diào)整難度非常高,而這卻是我個人的優(yōu)勢所在,在科大訊飛,我經(jīng)歷了一代代最新語音識別框架的迭代和更新,也可以說一直在接觸業(yè)界最前沿的技術(shù)。”

從語音產(chǎn)業(yè)的拓荒者到領(lǐng)頭羊,科大訊飛智能語音的探索和突破

3、持續(xù)精進:勇闖科研的無人區(qū)

從研發(fā)到一項技術(shù)真正的落地,人們對它的要求通常是苛刻的。這一點從Gartner技術(shù)曲線便可以看出:一項新技術(shù)剛出現(xiàn)的時候是萌芽期,然后進入期望膨脹期,然后再回落到低谷期。在低谷期,各種各樣的困難逐步找到解決方式,才能夠進入穩(wěn)步的爬升期,再形成一個生產(chǎn)成熟期。

開發(fā)的新一代端到端語音識別系統(tǒng),是熊世富和他團隊所做努力的第一步?!岸说蕉苏Z音識別技術(shù)一個難點在于它非常依賴數(shù)據(jù),在通用領(lǐng)域數(shù)據(jù)積累豐富,但在垂直領(lǐng)域里,會有各種面向行業(yè)的專有名詞,端到端的效果還不夠好。所以端到端系統(tǒng)現(xiàn)在面臨的是如何深入各個領(lǐng)域,去解決一個領(lǐng)域的效果問題。只有攻克這一難題,端到端模型才能真正‘走出去’。”

或許,可以將聲學(xué)模型和語言建模能力結(jié)合可以打破數(shù)據(jù)的限制,來解決垂直領(lǐng)域的一個個定制問題?!氨热缥蚁肴タ次骱缡惺赘?,模型非常容易直接輸出食物品種的西紅柿,想要達到精準的轉(zhuǎn)化非常難。上一代深度學(xué)習只是進行聲學(xué)建模,而目前我們在嘗試將聲學(xué)和語言解耦,雖然是聯(lián)合訓(xùn)練,但是可以達到把特定領(lǐng)域的詞語單獨拎出來替換為我們想要的語言。”

熊世富創(chuàng)新性提出的熱詞整詞建模方法,顯著的提升了熱詞識別效果,也為攻克端到端語音識別的領(lǐng)域定制問題奠定了關(guān)鍵的基礎(chǔ)。

不過,伴隨著人工智能技術(shù)門檻的降低,核心技術(shù)領(lǐng)先的窗口期也在逐步縮短。帶領(lǐng)團隊持續(xù)提升公司語音識別的領(lǐng)先水平,屹立于世界的前沿是熊世富和他團隊持續(xù)在做的努力?!皦毫σ恢倍荚?,不敢有絲毫松懈。始終保持每年技術(shù)進步30%,這是我們對技術(shù)的要求,也是科大訊飛每一位科研人員的自我要求。”

而隨著萬物互聯(lián)的時代到來,物理空間和現(xiàn)實空間融合共生,每一次科技的技術(shù)突破,都是為了讓人們可以使用更為貼近“自然”的方式與機器進行溝通?!拔磥聿还苁俏覀兒腿斯ぶ悄?,還是和機器人之前,都應(yīng)該是自然的交互。如智能汽車、智能家居,都能和你對話和交流,并能夠理解你所講的話,從而提供服務(wù)?!?/p>

尋找下一代人機交互的方式,則是熊世富和團隊的終極使命。

從語音產(chǎn)業(yè)的拓荒者到領(lǐng)頭羊,科大訊飛智能語音的探索和突破

“或許多模態(tài)技術(shù)能夠打通人機交互的最后一公里,進而帶來顛覆性的交互體驗?!毙苁栏活A(yù)測道。多模態(tài)技術(shù),也叫深度學(xué)習多模態(tài)融合,指機器從文本、圖像、語音、視頻等多個領(lǐng)域獲取信息,實現(xiàn)信息轉(zhuǎn)換和融合,從而提升模型性能的技術(shù)。如在車載交互領(lǐng)域,科大訊飛的汽車級視線追蹤技術(shù)讓用戶注視即可實現(xiàn)喚醒交互,目光所至皆可控制。同時,唇音融合語音技術(shù)的創(chuàng)新型加入,具備唇音免喚醒、唇音檢出、唇音增強三大核心能力,開口說話就能一語直達,就算是輕聲細語,也能聽清。

4、科大訊飛——無限深入的神經(jīng)網(wǎng)絡(luò)

從面對國內(nèi)語音市場的一片空白到如今技術(shù)實力代表著全球領(lǐng)先水平,科大訊飛智能語音發(fā)展的歷程也在一定程度上代表了科大訊飛的一路走來的創(chuàng)業(yè)歷程。

可以說,在智能時代,科大訊飛就是一面中國智能語音的旗幟。中國語音產(chǎn)業(yè)聯(lián)盟剛剛發(fā)布的《2020-2021 中國智能語音行業(yè)白皮書》引用德勤數(shù)據(jù)顯示,作為大型智能語音科技企業(yè)的代表,科大訊飛憑借較強的研發(fā)優(yōu)勢,以60%的市場份額穩(wěn)居第一,競爭優(yōu)勢明顯。

而科大訊飛的理想也從讓機器開口說話到讓機器能聽會說,能理解會思考,用人工智能建設(shè)美好世界。

我們曾經(jīng)將科大訊飛比喻為一個很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)。

一個典型的生成式神經(jīng)網(wǎng)絡(luò)包括了輸入層、編碼層、輸出層,對于一個AI企業(yè)而言,輸入是AI三要素:算力、數(shù)據(jù)、算法,輸出是技術(shù)和產(chǎn)品,編碼層則是企業(yè)的組織方式和技術(shù)方法論,以及企業(yè)的人才。

在《不一樣的科大訊飛,他們把計算機視覺踢進“世界杯”》這篇文章中,我們了解了科大訊飛對人才的重視,以及獨特的組織方式。而在《科大訊飛認知智能,從場景中來,到行業(yè)中去》這篇文章中,我們則窺探了這個無限拓寬的神經(jīng)網(wǎng)絡(luò)的秘密——如何定義并建立對不同行業(yè)的真正認知。

這其中保證這個很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)發(fā)展張力的源泉,或許可以從創(chuàng)業(yè)之初的故事來的探尋——在公司歷史上著名的“半湯會議”上,當團隊聚集在一起對于公司未來議論紛紛之際,最終創(chuàng)始人劉慶峰拍板,“繼續(xù)做語音,誰不樂意直接走人”,堅定了“智能語音”的戰(zhàn)略方向?!叭紵盍恋幕鸢?,要么率先燎原,要么最先熄滅”,劉慶峰在當年的年度大會上說的話至今仍被掛在科大訊飛大廈的墻上,激勵著公司在智能語音與人工智能道路上不忘初心,堅守前行。

如今科大訊飛已經(jīng)在這個領(lǐng)域深耕了22年,這其中保證這個很寬、很深的生成式神經(jīng)網(wǎng)絡(luò)發(fā)展張力的源泉就是——源于熱愛的初心堅守。因為熱愛,才會22年不斷堅守,從未改變初心;因為相信,才會甘坐十年冷板凳的精神從源頭創(chuàng)新持續(xù)突破,讓人工智能多項核心技術(shù)世界領(lǐng)先,在國際競爭中擁有話語權(quán),或許這也是科大訊飛創(chuàng)業(yè)22年來最大的財富。而他們一路走來,在引領(lǐng)中國人工智能行業(yè)的變革中,也讓世界更加美好。


沒有關(guān)鍵詞
熱門文章
近日,工業(yè)和信息化部發(fā)布2021年第33號公告。公告指出,工業(yè)和信息化部批準了513項行業(yè)標準。在71項通信行業(yè)標準中,有關(guān)5G網(wǎng)絡(luò)切片和寬帶集群通信(B-TrunC)的行業(yè)標準如下。標準標號:YD/
2021-12-23
X
惠安县| 伊春市| 延寿县| 北辰区| 昔阳县| 安龙县| 彝良县| 小金县| 日喀则市| 拜城县| 墨竹工卡县| 乐都县| 黔西县| 中方县| 宿州市| 彰化县| 榆林市| 阜阳市| 涪陵区| 灵璧县| 河南省| 宜良县| 灵石县| 界首市| 永福县| 永登县| 那曲县| 方山县| 崇阳县| 富宁县| 呼伦贝尔市| 蒲江县| 宜城市| 会宁县| 溧阳市| 鹤壁市| 抚顺市| 收藏| 甘谷县| 富裕县| 揭阳市|