數(shù)據(jù)、算力和算法是AI發(fā)展的三大基石。數(shù)據(jù)和算力是AI發(fā)展的物質(zhì)基礎(chǔ),算法則是AI發(fā)展的靈魂。算法能夠指數(shù)級地釋放數(shù)據(jù)和算力的價值,應(yīng)用好、改進好算法成為新一輪AI技術(shù)發(fā)展的關(guān)鍵。AI領(lǐng)域較為知名的算法包括感知器、聚類算法、決策樹、支持向量機和卷積神經(jīng)網(wǎng)絡(luò)等。
1、感知器
美國計算機科學(xué)院羅森布拉特(F.Roseblatt)于1957年提出感知器,是神經(jīng)網(wǎng)絡(luò)第一個里程碑算法。所謂感知器,是一種用于二分類的線性分類模型,其輸入為樣本的特征向量,計算這些輸入的線性組合,如果輸出結(jié)果大于某個閥值就輸出1,否則輸出-1。作為一個線性分類器,感知器有能力解決線性分類問題,也可用于基于模式分類的學(xué)習(xí)控制中。感知器只能解決簡單的線性分類問題,應(yīng)用面很窄,但是在人工智能發(fā)展中起到了很大推動作用,由于是第一個神經(jīng)網(wǎng)絡(luò)算法,吸引了大量學(xué)者對神經(jīng)網(wǎng)絡(luò)開展研究,同時感知器也為后期更復(fù)雜算法如深度學(xué)習(xí)奠定基礎(chǔ)。
2、聚類算法
從機器學(xué)習(xí)的角度,聚類算法是一種“無監(jiān)督學(xué)習(xí)”,訓(xùn)練樣本的標(biāo)記信息是未知的,根據(jù)數(shù)據(jù)的相似性和距離來劃分,聚類的數(shù)目和結(jié)構(gòu)沒有事先給定。聚類的目的是尋找數(shù)據(jù)簇中潛在的分組結(jié)構(gòu)和關(guān)聯(lián)關(guān)系,通過聚類使得同一個簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大,同時不在同一個簇中的數(shù)據(jù)對象的差異性也盡可能地大。在人工智能中,聚類分析亦被稱為“無先驗學(xué)習(xí)”,是機器學(xué)習(xí)中的重要算法,目前被廣泛應(yīng)用于各種自然科學(xué)和工程領(lǐng)域。
目前已經(jīng)提出多種聚類算法,可分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。其中著名的分類算法k-means算法就是基于劃分的聚類算法。
3、決策樹
決策樹是一種簡單卻使用廣泛的分類器,通過訓(xùn)練數(shù)建立決策樹對未知數(shù)據(jù)進行高效分類。一棵決策樹一般包括根結(jié)點、內(nèi)部結(jié)點和葉子結(jié)點;葉子結(jié)點對應(yīng)最終決策結(jié)果,每一次劃分過程遍歷所有劃分屬性找到最好分割方式。決策樹的目標(biāo)是將數(shù)據(jù)按照對應(yīng)的類屬性進行分類,通過特征屬性的選擇將不同類別數(shù)據(jù)集合貼上對應(yīng)的類別標(biāo)簽,使分類后的數(shù)據(jù)集純度最高,而且能夠通過選擇合適的特征盡量使分類速度最快,減少決策樹深度。
4、支持向量機
支持向量機SVM(Support Vector Machine)是由Cortes和Vapnik于1995年首先提出的,它是一種基于統(tǒng)計學(xué)習(xí)的機器學(xué)習(xí)方法,在小樣本分類上也能獲得良好統(tǒng)計規(guī)律。同時,由于在文本分類中表現(xiàn)出特有的優(yōu)勢,成為當(dāng)時機器學(xué)習(xí)領(lǐng)域研究的熱點。SVM的學(xué)習(xí)方法主要包括線性可分向量機、線性支持向量機以及非線性支持向量機。
SVM通過建立一個最優(yōu)決策超平面,使得該平面兩側(cè)距平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。SVM采用核函數(shù)技巧將原始特征映射到更高維空間,解決原始低緯空間線性不可分的問題。通過將復(fù)雜的模式分類問題非線性投射到更高維空間變成線性可分的,SVM算法可在特征空間建立分類平面,解決非線性可分的問題。其學(xué)習(xí)策略是間隔最大化,將分類問題轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。
5、卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是近年發(fā)展起來,并引起廣泛重視的一種高效識別方法。CNN受生物自然視覺認(rèn)知機制啟發(fā)而來。一般地,其基本結(jié)構(gòu)包括兩層,一是特征提取層,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位臵關(guān)系也隨之確定下來;二是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。