正文

gpt人工智能模型原理（gpt-3人工智能）

發(fā)布時間：2023-03-12 11:31:07 稿源：創(chuàng)意嶺閱讀： 144 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于gpt人工智能模型原理的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費在線使用，能給你生成想要的原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

你只需要給出你的關鍵詞，它就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端，官網(wǎng)：https://ai.de1919.com

本文目錄:

1、aiedu和chatgpt的區(qū)別
2、ChatGPT面世具有何意義？
3、chart gpt是什么
4、05-ELMo/BERT/GPT-NLP預訓練模型

gpt人工智能模型原理（gpt-3人工智能）

一、aiedu和chatgpt的區(qū)別

aiedu和ChatGPT都是基于人工智能技術的語言模型，但二者在技術平臺、應用場景、功能特點等方面有一定的區(qū)別。

技術平臺：aiedu是由中國科學院計算技術研究所主導開發(fā)的中文人工智能教育平臺，旨在為學生提供智能化的學習服務，包括在線課程、知識圖譜、作業(yè)測試等多個維度。而ChatGPT則是由OpenAI團隊開發(fā)的自然語言處理系統(tǒng)，通過大規(guī)模預訓練的神經(jīng)網(wǎng)絡模型，實現(xiàn)了深度的對話交互功能。

應用場景：aiedu主要應用于教育領域，為學生提供優(yōu)質(zhì)的在線學習體驗和個性化的學習輔助服務。而ChatGPT則主要應用于智能客服、聊天機器人、問答系統(tǒng)等領域，為用戶提供快捷、準確的信息查詢和解決方案。

功能特點：aiedu的功能主要包括教學資源庫、課件制作、在線測驗、學習分析等，旨在提升學生的學習效果和效率。而ChatGPT主要具備自然語言理解、語義分析、情感識別、知識檢索等功能，可以通過文字或語音與用戶進行實時交互，提供智能化的服務體驗。

總之，aiedu和ChatGPT雖然都是基于人工智能技術的語言模型，但二者的應用場景和功能特點有所不同，針對的需求群體和使用方式也各有側重。

二、ChatGPT面世具有何意義？

ChatGPT這種人工智能技術出現(xiàn)的重大歷史意義，不亞于互聯(lián)網(wǎng)和個人電腦的誕生。

ChatGPT是目前最為先進的聊天機器人，“更為智能的交互”則是ChatGPT之所以能引起全球廣泛關注的主要原因。比如Open AI為這個模型新增了代碼理解和生成能力，極大地拓寬了其應用場景；同時還加入了道德原則，使ChatGPT能夠識別惡意信息，識別后拒絕給出有效回答，有效提升用戶對話時的互動感。

1956年夏季，“人工智能”這一術語被正式提出，它標志著“人工智能”科學的正式誕生。此后，IBM公司研發(fā)的代號為“深藍”超級電腦擊敗了人類的世界國際象棋冠軍，更是進一步拓寬了人工智能技術的想象空間?？梢哉f，這門科學在提出伊始就被人類給予了超越人類智慧的野望。

但是自概念提出至今已有六十余年，除了科幻電影中的各種想象之外，普通民眾還沒有機會能夠直接接觸到AI技術，也沒有合適的渠道對這一深奧的技術進行了解。雖說各個內(nèi)容平臺早已經(jīng)開始使用智能算法技術進行個性化推薦，線上購物平臺也在使用人工智能技術提高廣告觸達率，但這些應用并沒有將用戶納入交互之中，在這一過程中，用戶僅僅充當著一個被動接受者的角色。

而ChatGPT的推出為用戶提供了一個參與到AI技術工作流程中的機會，也提供了一個途徑以使得長期對AI應用不甚了解的用戶可以切實地體會AI技術的發(fā)展。這在AI的發(fā)展歷程中具有一定的里程碑意義，意味著AI技術由“幕后”轉向了“臺前”。

Chat GPT未來可應用場景

1、獨立應用：Chat GPT本身強大的自然語言處理能力，可以讓當前有點「人工智障」的智能客服，語音工作助手、對話虛擬人有質(zhì)的飛躍等，其還能高效高質(zhì)的完成寫代碼、寫小說、寫新聞等文本創(chuàng)作類工作。同時也能輔助搜索，讓搜索效率進一步提高。

2、AIGC聯(lián)合應用：當把Chat GPT的能力和圖像識別等技術集合，就能產(chǎn)生無限可能。例如視頻生成網(wǎng)站QuickVid，用戶在網(wǎng)站輸入提示語、描述清楚想要創(chuàng)建的視頻主題，QucikVid 先利用 GPT-3 的生成文本功能生成短視頻腳本，再從腳本中自動提取或手動輸入的關鍵字。

基于這些關鍵字從免費的 Pexels 庫中選擇背景視頻，同時疊加由 DALL-E 2 生成的圖像，并調(diào)用 Google Cloud 的文本轉語音 API 來添加來自 YouTube 免版稅音樂庫的合成畫外音和背景音樂。

三、chart gpt是什么

ChatGPT是是由人工智能研究實驗室OpenAI在2022年11月30日發(fā)布的全新聊天機器人模型，一款人工智能技術驅(qū)動的自然語言處理工具，它能夠通過學習和理解人類的語言來進行對話，不僅上知天文下知地理，知識淵博，還能根據(jù)聊天的上下文進行互動，真正像人類一樣來聊天交流

但ChatGPT不單是聊天機器人的簡單，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。同時也引起無數(shù)網(wǎng)友沉迷與ChatGPT聊天，成為大家討論的火爆話題。

四、05-ELMo/BERT/GPT-NLP預訓練模型

這里可以參考CSDN上的文章-BERT原理和實踐： https://blog.csdn.net/jiaowoshouzi/article/category/9060488

在解釋BERT，ELMO這些預訓練模型之前，我們先看一下很久之前的計算機是如何讀懂文字的？

每個字都有自己的獨特的編碼。但是這樣是有弊端的，字和字之間的關聯(lián)關系是無法得知的，比如計算機無法知道dog和cat都是動物，它反而會覺得bag和dog是比較相近的。

所以后來就有了Word Class，將一系列的詞進行分類然后讓一類詞語和一類詞語之間更有關聯(lián)，但是這樣的方法太過于粗糙，比如dog，cat，bird是一類，看不出哺乳動物鳥類的區(qū)別。

在這個基礎之上，我們有了Word Embedding，Word Embedding我們可以想象成是一種soft的word class，每個詞都用向量來表示，它的向量維度可能表示這個詞匯的某種意思，如圖中dog，cat，rabbit的距離相比其他更近。那么word embendding是如何訓練出來的，是根據(jù)每個詞匯的上下文所訓練的。

每個句子都有bank的詞匯，四個bank是不同的token，但是同樣的type。（注：token-詞例， type-詞型， class-詞類 or token是出現(xiàn)的總次數(shù)(還有種理解是token是具有一定的句法語義且獨立的最小文本成分。 )，type是出現(xiàn)的不同事物的個數(shù)。）

對于典型的Word Embedding認為，每個詞type有一個embedding，所以就算是不同的token只要是一樣的type那么word embedding就是一樣的，語義也就是一樣的。

而事實上并非如此，1,2句bank指的是銀行，3,4為水庫。所以我們希望讓機器給不同意思的token而且type還一致，給予不同的embedding。在這個問題上，之前的做法是從字典中去查找這個詞包含幾種意思，但是這樣的做法顯然跟不上現(xiàn)實中詞語的一些隱含的含義。比如bank有銀行的意思，與money一起是銀行的意思，而與blood一起卻是血庫的意思。

所以我們想讓機器今天進一步做到每一個word token都可以有自己的embedding(之前是每個type有一個embedding或者有固定的一個或多個embedding)，那么怎么知道一個word應該有怎樣的embedding呢？我們可以取決于該詞的上下文，上下文越相近的token它們就會越相近的embedding。比如之前提到的bank，下面兩個句子它們的word token的embedding可能是相近的，而和上面的word token的embedding是相遠的。

所以我們想使用一種能夠基于上下文的Contextual word Embedding來解決一詞多義的問題。

這里使用ELMO可以做到這件事情，即每個word token擁有不同的word embedding。(右上角動物是芝麻街(美國公共廣播協(xié)會（PBS）制作播出的兒童教育電視節(jié)目)里的角色)。

它是基于RNN的預訓練模型，它只需要搜集大量語料(句子)且不需要做任何標注，就可以訓練這個基于RNN的語言模型，預測下一個token是什么，學習完了之后就得到了上下文的embedding。因為我們可以將RNN的隱藏層中的某一節(jié)點拿出來(圖中橙藍色節(jié)點)，它就是輸入當前結點的詞匯的word embedding。

從當計算識別到<BOS>，模型訓練開始。首先輸入"潮水"，然后當作輸入輸出"退了"，退了當做輸入輸出"就"。

假設當前要得到”退了”這個詞的上下文embedding，首先，因為前邊的RNN只考慮到了前文而沒有考慮到后文，所以這里就使用了同前文一樣的反向的RNN。然后，它從句尾開始進行，比如給它喂”知道”，它就要預測”就”，給它喂”就”，它就要預測”退了”。這時候就不僅考慮每個詞匯的前文，還會考慮每個詞的后文。最后將正向和逆向得到的兩個不同的上下文embedding(因為方向不同訓練結果也不一樣)拼接起來。

現(xiàn)在我們訓練的程度都會越來越深度，當層數(shù)增加，這樣就會產(chǎn)生Deep的RNN，因為很多層，而且每一層都會產(chǎn)生上下文Embedding，那么我們到底應該使用哪一層？每一層這種深度LSTM中的每個層都可以生成潛在表示(方框處)。同一個詞在不同的層上會產(chǎn)生不同的Embedding，那么我們應該使用哪一層呢？ELMo的策略是每一層得到的上下文embedding都要。

在上下文embedding的訓練模型中，每個詞輸入進去都會有一個embedding輸出來。但是在ELMo中，每個詞匯輸入進去，都會得到不止一個embedding，因為每層的RNN都會給到一個embedding，ELMo將它們統(tǒng)統(tǒng)加起來一起使用。

以圖中為例，這里假設ELMo有兩層RNN，這里是將α1(黃色，第一層得到的embedding)和α2(綠色，第二層得到embedding)加起來得到藍色的embedding，并做為接下來要進行不同任務的輸入。

但是這里存在一些問題，α1和α2是學習得到的，而且它是根據(jù)當前要進行的任務(如QA，POS of tagging )，然后根據(jù)接下來要進行的這些任務一起被學習出來。所以就導致不同任務導向下的α1和α2也不一樣。

ELMo的論文中提到，在不同任務下(SRL,Coref,SNLI,SQuAD,SST-5)。藍色的上下文embedding在經(jīng)過token(這里為沒有經(jīng)過上下文的embedding)，LSTM1，LSTM2后，它在不同階段需要的weight也不一樣。

BERT相當于是Transformer的Encoder部分，它只需要搜集大量的語料去從中學習而不經(jīng)過標注(不需要label)，就可以將Encoder訓練完成。如果之前要訓練Encoder，我們需要通過一些任務來驅(qū)動學習(如機器翻譯)。

BERT就是句子給進去，每個句子給一個embedding。

這里可以回憶下，Transformer的Enoder中有self-attention layer，就是給進去一個sequence，輸出也得到一個sequence。

雖然圖中使用是用詞作為單元進行輸入，但是在使用BERT進行中文的訓練時，字會是一個更好的選擇。比如，我們在給BERT進行輸入時，用one-hot給詞進行編碼，但是詞在中文中數(shù)量龐大，會導致維度過高。但是，字的話相對會少很多，特別是中文(大約幾千個，可以窮舉)。這樣以字為單位進行輸入會占很大優(yōu)勢。

共有兩種方法，一種是Mask LM遮蓋語言模型，另一種是Next Sentence Prediction下一句預測。

下面用上圖的例子來理解BERT是怎么樣來進行填空的：

1）這里假設在所有句子中的詞匯的第2個位置上設置一個<MASK>；

2）接下來把所有的詞匯輸入BERT，然后每個輸入的token都會得到一個embedding；

3）接下來將設置為<MASK>的embedding輸入到Linear Multi-class Classifier中中，要求它預測被<MASK>的詞匯是哪個詞匯？

但是這個Linear Multi-class Classifier它僅僅是一個線性分類器，所以它的能力十分弱，這也就需要在之前的BERT模型中需要將它的層數(shù)等參數(shù)設計的相當好，然后得到非常出色的representation，便于線性分類器去訓練。

那么我們怎么知道最后得到的embedding是什么樣的呢？如果兩個<MASK>下的詞匯(輸入時設置的<MASK>和最后預測的<MASK>)都放回原來的位置而且沒有違和感(就是語句還算通順)，那它們就有類似的embedding(比如退下和落下)。

如圖中，給定兩個句子1)醒醒吧和 2)你沒有妹妹。其中特殊符號[SEP]是告訴BERT兩個句子的分隔點在哪里。

特殊符號[CLS]一般放在句子的開頭，它用來告訴BERT從這開始分類任務，[CLS]輸入BERT后得到embedding然后通過Linear Binary Classifier得出結果說明：經(jīng)過BERT預測后現(xiàn)在我們要預測的兩個句子是接在一起 or 不應該被接在一起。

這里可能會有疑問，為什么不將[CLS]放在句尾，等BERT訓練完兩個句子再輸出結果？

對于上圖中的任務，BERT現(xiàn)在要做的事情就是給定兩個句子，讓BERT輸出結果這兩個句子是不是應該接在一起？

所以在語料庫的大量句子中，我們是知道哪些句子是可以接在一起的，所以也需要我們告訴BERT哪些句子是接在一起的。

Linear Binary Classifier和BERT是一起被訓練的，通過預測下一句這個任務，我們就可以把將BERT部分的最優(yōu)參數(shù)訓練出來。

現(xiàn)在我們知道了任務一和任務二，在原論文中兩種任務是要同時進行的，這樣才能將BERT的性能發(fā)揮到最佳。

現(xiàn)在我們知道了BERT要做什么事情，那么我們要如何去使用它？共有四種方法。論文中是將【BERT模型和接下來你要進行的任務】結合在一起做訓練。

第一種，假設當前任務是Input一個sentence，out一個class，舉例來說輸入一句話來判斷分類。

訓練流程：1）將做要分類的句子丟給BERT；

2）需要在句子開始加上分類的特殊符號，這個特殊符號經(jīng)過BERT輸出的embedding經(jīng)過線性分類器，輸出結果為當前的句子屬于的類別是真還是假。BERT和Linear Classifier的參數(shù)一起進行學習；

3）這里的Linear Classifier是Trained from Scratch是白手起家從頭開始，即它的參數(shù)隨機初始化設置，然后開始訓練；

4）而BERT則是加上Fine-tune微調(diào)策略(一種遷移學習方式*)，例如Generative Pre-trained Transformer(OpenAI GPT生成型預訓練變換器)(Radford等，2018)，引入了最小的任務特定參數(shù)，并通過簡單地微調(diào)預訓練參數(shù)在下游任務中進行訓練。

*這里不得不提一下遷移學習中的Fine-tune，這里可以參考csdn的一篇文章： https://blog.csdn.net/u013841196/article/details/80919857

( https://arxiv.org/abs/1805.12471 )

第二種，假設當前任務是input一個sentence，輸出這個句子中的每個詞匯屬于正例還是負例。舉例現(xiàn)在的任務是slot filling填槽任務(填槽指的是為了讓用戶意圖轉化為用戶明確的指令而補全信息的過程)（另一種解釋是從大規(guī)模的語料庫中抽取給定實體（query）的被明確定義的屬性（slot types）的值（slot fillers））(槽可以理解為實體已明確定義的屬性)，輸入的句子是 arrive Taipei on November 2nd輸出的槽是other dest on time time

訓練流程：

1）將句子輸入BERT，句子中的每個詞匯都會映射出一個embedding；

2）每個詞匯的embedding輸入Linear Classifier，輸出結果；

3）Linear Classifier 白手起家和Bert微調(diào)的方式一起去做學習。

第三種，假設當前任務是input輸入兩個句子，輸出class。舉例現(xiàn)在要進行自然語言預測，讓機器根據(jù)premise前提，預測這個hypothesis假設是True還是False還是unknown不知道。實際上，我們可以把這個任務當成三分類問題。

訓練過程：

1）在一個sentence前設置特殊符號[CLS]，然后在要輸入的兩個sentence中間設置[SEP]分隔符號；

2）將兩個sentence連同特殊符號一起輸入到BERT中；

3）將[CLS]輸入BERT后得到的embedding，再把它輸入linear Classifier中，得到class。

如圖所示，假設gravity的token序號是17，即，我們現(xiàn)在有一個問題通過QA Model后得到的s=17，e=17，那么答案就是為gravity；

同理，假設within a cloud的序號順序是77到79，即到 ,我們現(xiàn)在有一個問題通過QA Model后得到的s=77，e=79，那么答案就是為within a cloud。

https://arxiv.org/abs/1905.05950

https://openreview.net/pdf?id=SJzSgnRcKX

這張圖顯示了BERT從0-24層的層數(shù)在針對不同的NLP任務上的表現(xiàn)。

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

而所謂的GPT,它其實就是Transformer的Decoder。

我們簡單的描述下GPT的訓練過程：這里我們input<BOS>這個token和潮水，想要GPT預測輸出“退了”這個詞匯。

1）首先輸入[BOS]（begin of sentence）和潮水，通過Word Embedding再乘上matrix W變成a 1到a 4，然后把它們丟進self-attention 層中，這時候每一個input都分別乘上3個不同的matrix產(chǎn)生3個不同的vector，分別把它們命名為q，k，v。

q代表的是query (to match others用來去匹配其它的向量)

k代表的是key (to be matched用來去被query匹配的向量)

v代表的是value(information to be extracted用來被抽取的信息的向量)

2）現(xiàn)在要做的工作就是用每個query q 去對每個 key k做attention（吃2個向量，輸出就是告訴你這2個向量有多么匹配或者可以說輸入兩個向量輸出一個分數(shù)alpha（而怎么去吃2個向量output一個分數(shù)，有很多不同的做法））。這里要預測潮水的下一個詞，所以乘，乘上 , 乘上再經(jīng)過soft-max分別得到到。

3)我們用和每一個v相乘，和相乘加上和相乘。以此類推并相加，最終得到。

4)然后經(jīng)過很多層的self-attention，預測得到”退了”這個詞匯。

同理，現(xiàn)在要預測”退了”的下一個詞匯，按照前面的流程可以得到，然后經(jīng)過很多層的self-attention層，得到”就”這個詞匯。

GPT的神奇之處在于它可以在完全沒有訓練數(shù)據(jù)的情況下，就可以做到閱讀理解，摘要，翻譯。折線圖中顯示了它在參數(shù)量上升的情況下，F(xiàn)1的值的效果。

1.Transformer的問題：

word Embedding 無上下文

監(jiān)督數(shù)據(jù)太少

解決方法：

Contextual Word Embedding

2.ELMo( E mbeddings from L anguages Mo del)

- 多層雙向的LSTM的NNLM

- RNN-based language models(trained from lots of sentences)