-
當前位置:首頁 > 創(chuàng)意學院 > 技術(shù) > 專題列表 > 正文
神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)(神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)包括)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、神經(jīng)網(wǎng)絡(luò)有哪些主要分類規(guī)則并如何分類?
神經(jīng)網(wǎng)絡(luò)模型的分類
人工神經(jīng)網(wǎng)絡(luò)的模型很多,可以按照不同的方法進行分類。其中,常見的兩種分類方法是,按照網(wǎng)絡(luò)連接的拓樸結(jié)構(gòu)分類和按照網(wǎng)絡(luò)內(nèi)部的信息流向分類。
1
按照網(wǎng)絡(luò)拓樸結(jié)構(gòu)分類
網(wǎng)絡(luò)的拓樸結(jié)構(gòu),即神經(jīng)元之間的連接方式。按此劃分,可將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分為兩大類:層次型結(jié)構(gòu)和互聯(lián)型結(jié)構(gòu)。
層次型結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)將神經(jīng)元按功能和順序的不同分為輸出層、中間層(隱層)、輸出層。輸出層各神經(jīng)元負責接收來自外界的輸入信息,并傳給中間各隱層神經(jīng)元;隱層是神經(jīng)網(wǎng)絡(luò)的內(nèi)部信息處理層,負責信息變換。根據(jù)需要可設(shè)計為一層或多層;最后一個隱層將信息傳遞給輸出層神經(jīng)元經(jīng)進一步處理后向外界輸出信息處理結(jié)果。
而互連型網(wǎng)絡(luò)結(jié)構(gòu)中,任意兩個節(jié)點之間都可能存在連接路徑,因此可以根據(jù)網(wǎng)絡(luò)中節(jié)點的連接程度將互連型網(wǎng)絡(luò)細分為三種情況:全互連型、局部互連型和稀疏連接型
2
按照網(wǎng)絡(luò)信息流向分類
從神經(jīng)網(wǎng)絡(luò)內(nèi)部信息傳遞方向來看,可以分為兩種類型:前饋型網(wǎng)絡(luò)和反饋型網(wǎng)絡(luò)。
單純前饋網(wǎng)絡(luò)的結(jié)構(gòu)與分層網(wǎng)絡(luò)結(jié)構(gòu)相同,前饋是因網(wǎng)絡(luò)信息處理的方向是從輸入層到各隱層再到輸出層逐層進行而得名的。前饋型網(wǎng)絡(luò)中前一層的輸出是下一層的輸入,信息的處理具有逐層傳遞進行的方向性,一般不存在反饋環(huán)路。因此這類網(wǎng)絡(luò)很容易串聯(lián)起來建立多層前饋網(wǎng)絡(luò)。
反饋型網(wǎng)絡(luò)的結(jié)構(gòu)與單層全互連結(jié)構(gòu)網(wǎng)絡(luò)相同。在反饋型網(wǎng)絡(luò)中的所有節(jié)點都具有信息處理功能,而且每個節(jié)點既可以從外界接受輸入,同時又可以向外界輸出。
二、幾種常見的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)RNN、LSTM、GRU
傳統(tǒng)文本處理任務(wù)的方法中一般將TF-IDF向量作為特征輸入。顯而易見,這樣的表示實際上丟失了輸入的文本序列中每個單詞的順序。在神經(jīng)網(wǎng)絡(luò)的建模過程中,一般的前饋神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò),通常接受一個定長的向量作為輸入。卷積神經(jīng)網(wǎng)絡(luò)對文本數(shù)據(jù)建模時,輸入變長的字符串或者單詞串,然后通過滑動窗口加池化的方式將原先的輸入轉(zhuǎn)換成一個固定長度的向量表示,這樣做可以捕捉到原文本中的一些局部特征,但是兩個單詞之間的長距離依賴關(guān)系還是很難被學習到。
循環(huán)神經(jīng)網(wǎng)絡(luò)卻能很好地處理文本數(shù)據(jù)變長并且有序的輸入序列。它模擬了人閱讀一篇文章的順序,從前到后閱讀文章中的每一個單詞,將前面閱讀到的有用信息編碼到狀態(tài)變量中去,從而擁有了一定的記憶能力,可以更好地理解之后的文本。
其網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
由圖可見,t是時刻,x是輸入層,s是隱藏層,o是輸出層,矩陣W就是隱藏層上一次的值作為這一次的輸入的權(quán)重。
如果反復(fù)把式 2 帶入到式 1,將得到:
其中f和g為激活函數(shù),U為輸入層到隱含層的權(quán)重矩陣,W為隱含層從上一時刻到下一時刻狀態(tài)轉(zhuǎn)移的權(quán)重矩陣。在文本分類任務(wù)中,f可以選取Tanh函數(shù)或者ReLU函數(shù),g可以采用Softmax函數(shù)。
通過最小化損失誤差(即輸出的y與真實類別之間的距離),我們可以不斷訓練網(wǎng)絡(luò),使得得到的循環(huán)神經(jīng)網(wǎng)絡(luò)可以準確地預(yù)測文本所屬的類別,達到分類目的。相比于卷積神經(jīng)網(wǎng)絡(luò)等前饋神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)由于具備對序列順序信息的刻畫能力,往往能得到更準確的結(jié)果。
RNN的訓練算法為:BPTT
BPTT的基本原理和BP算法是一樣的,同樣是三步:
1.前向計算每個神經(jīng)元的輸出值;
2.反向計算每個神經(jīng)元的誤差項值,它是誤差函數(shù)E對神經(jīng)元j的加權(quán)輸入的偏導(dǎo)數(shù);
3.計算每個權(quán)重的梯度。
最后再用隨機梯度下降算法更新權(quán)重。
具體參考: https://www.jianshu.com/p/39a99c88a565
最后由鏈式法則得到下面以雅可比矩陣來表達的每個權(quán)重的梯度:
由于預(yù)測的誤差是沿著神經(jīng)網(wǎng)絡(luò)的每一層反向傳播的,因此當雅克比矩陣的最大特征值大于1時,隨著離輸出越來越遠,每層的梯度大小會呈指數(shù)增長,導(dǎo)致梯度爆炸;反之,若雅克比矩陣的最大特征值小于1,梯度的大小會呈指數(shù)縮小,產(chǎn)生梯度消失。對于普通的前饋網(wǎng)絡(luò)來說,梯度消失意味著無法通過加深網(wǎng)絡(luò)層次來改善神經(jīng)網(wǎng)絡(luò)的預(yù)測效果,因為無論如何加深網(wǎng)絡(luò),只有靠近輸出的若干層才真正起到學習的作用。 這使得循環(huán)神經(jīng)網(wǎng)絡(luò)模型很難學習到輸入序列中的長距離依賴關(guān)系 。
關(guān)于RNN梯度下降的詳細推導(dǎo)可以參考: https://zhuanlan.zhihu.com/p/44163528
梯度爆炸的問題可以通過梯度裁剪來緩解,即當梯度的范式大于某個給定值時,對梯度進行等比收縮。而梯度消失問題相對比較棘手,需要對模型本身進行改進。深度殘差網(wǎng)絡(luò)是對前饋神經(jīng)網(wǎng)絡(luò)的改進,通過殘差學習的方式緩解了梯度消失的現(xiàn)象,從而使得我們能夠?qū)W習到更深層的網(wǎng)絡(luò)表示;而對于循環(huán)神經(jīng)網(wǎng)絡(luò)來說,長短時記憶模型及其變種門控循環(huán)單元等模型通過加入門控機制,很大程度上彌補了梯度消失所帶來的損失。
LSTM的網(wǎng)絡(luò)機構(gòu)圖如下所示:
與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,LSTM仍然是基于xt和ht−1來計算ht,只不過對內(nèi)部的結(jié)構(gòu)進行了更加精心的設(shè)計,加入了輸入門it 、遺忘門ft以及輸出門ot三個門和一個內(nèi)部記憶單元ct。輸入門控制當前計算的新狀態(tài)以多大程度更新到記憶單元中;遺忘門控制前一步記憶單元中的信息有多大程度被遺忘掉;輸出門控制當前的輸出有多大程度上取決于當前的記憶單元。
在經(jīng)典的LSTM模型中,第t層的更新計算公式為
其中it是通過輸入xt和上一步的隱含層輸出ht−1進行線性變換,再經(jīng)過激活函數(shù)σ得到的。輸入門it的結(jié)果是向量,其中每個元素是0到1之間的實數(shù),用于控制各維度流過閥門的信息量;Wi 、Ui兩個矩陣和向量bi為輸入門的參數(shù),是在訓練過程中需要學習得到的。遺忘門ft和輸出門ot的計算方式與輸入門類似,它們有各自的參數(shù)W、U和b。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)不同的是,從上一個記憶單元的狀態(tài)ct−1到當前的狀態(tài)ct的轉(zhuǎn)移不一定完全取決于激活函數(shù)計算得到的狀態(tài),還由輸入門和遺忘門來共同控制。
在一個訓練好的網(wǎng)絡(luò)中,當輸入的序列中沒有重要信息時,LSTM的遺忘門的值接近于1,輸入門的值接近于0,此時過去的記憶會被保存,從而實現(xiàn)了長期記憶功能;當輸入的序列中出現(xiàn)了重要的信息時,LSTM應(yīng)當把其存入記憶中,此時其輸入門的值會接近于1;當輸入的序列中出現(xiàn)了重要信息,且該信息意味著之前的記憶不再重要時,輸入門的值接近1,而遺忘門的值接近于0,這樣舊的記憶被遺忘,新的重要信息被記憶。經(jīng)過這樣的設(shè)計,整個網(wǎng)絡(luò)更容易學習到序列之間的長期依賴。
GRU是在LSTM上進行簡化而得到的,GRU的網(wǎng)絡(luò)結(jié)構(gòu)如下所示:
Zt代表更新門,更新門的作用類似于LSTM中的遺忘門和輸入門,它能決定要丟棄哪些信息和要添加哪些新信息。
Rt代表重置門,重置門用于決定丟棄先前信息的程度。
要注意的是,h只是一個變量,因此在每個時刻,包括最后的線性組合,h都是在用以前的自己和當前的備選答案更新自己。舉例來說,這一個變量好比一杯酒,每次我們要把一部分酒倒出去,并把倒出去的酒和新加入的原料混合,然后在倒回來,這里的reset控制的就是要倒出去的,并且混合好之后再倒回來的酒的比例,而update控制的則是用多大的比例混合新原料和倒出來的之前調(diào)制好的酒。同理,也可以以此理解LSTM,LSTM的遺忘門功能上和reset相似,而輸入門與update相似,不同之處在于LSTM還控制了當前狀態(tài)的exposure,也就是輸出門的功能,這是GRU所沒有的。
1.百面機器學習
2. https://zhuanlan.zhihu.com/p/45649187
3. https://www.jianshu.com/p/39a99c88a565
三、
四、
以上就是關(guān)于神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
神經(jīng)網(wǎng)絡(luò)反向傳播例題(神經(jīng)網(wǎng)絡(luò)反向傳播例題及解析)
神經(jīng)網(wǎng)絡(luò)寫論文難嗎(神經(jīng)網(wǎng)絡(luò)論文題目)
腰椎間盤突出壓迫神經(jīng)腿疼怎么治(腰椎間盤突出壓迫神經(jīng)腿疼怎么治中藥)
上海景區(qū)景觀設(shè)計(上海景區(qū)景觀設(shè)計公司排名)