-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
gpt2模型參數(shù)layer
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt2模型參數(shù)layer的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com
本文目錄:
一、gpt怎么解除300字限制
GPT(Generative Pre-trained Transformer)是一種深度學(xué)習(xí)模型,主要用于文本生成。它采用預(yù)先訓(xùn)練的可調(diào)整的變換器架構(gòu),可以用來(lái)預(yù)測(cè)文本序列的下一個(gè)單詞,預(yù)測(cè)句子的結(jié)構(gòu)等。
要解除GPT的300字限制,可以增加模型的容量,也就是增加模型參數(shù)的數(shù)量,這可以通過(guò)增加層數(shù)、增加每層中神經(jīng)元的數(shù)量,以及增加頭數(shù)等方式實(shí)現(xiàn)。另外,還可以采用雙向預(yù)測(cè)策略,同時(shí)從上文和下文預(yù)測(cè)下一個(gè)單詞,以提高模型的準(zhǔn)確性。
每次只能輸入300字,是因?yàn)镚PT模型受制于其參數(shù)的數(shù)量,它的參數(shù)越多,模型的容量越大,可以處理的文本越長(zhǎng)。
二、chatgpt衍生工具包括什么
ChatGPT衍生工具包包括:
1. ChatGPT模型:一種基于Transformer的聊天機(jī)器人模型,可以根據(jù)上下文生成自然語(yǔ)言回復(fù)。
2. ChatGPT訓(xùn)練框架:一個(gè)基于TensorFlow的訓(xùn)練框架,可以讓開(kāi)發(fā)者快速構(gòu)建和訓(xùn)練聊天機(jī)器人模型。
3. ChatGPT預(yù)訓(xùn)練模型:一系列預(yù)訓(xùn)練模型,可以幫助開(kāi)發(fā)者快速構(gòu)建聊天機(jī)器人。
4. ChatGPT模型庫(kù):一個(gè)模型庫(kù),可以讓開(kāi)發(fā)者輕松訪問(wèn)和使用ChatGPT模型。
5. ChatGPT API:一個(gè)RESTful API,可以讓開(kāi)發(fā)者輕松調(diào)用ChatGPT模
三、BERT詳解(附帶ELMo、GPT 介紹)
首先我會(huì)詳細(xì)闡述 BERT 原理,然后簡(jiǎn)單介紹一下 ELMO 以及 GPT
BERT 全稱為 B idirectional E ncoder R epresentation from T ransformer,是 Google 以 無(wú)監(jiān)督的方式利用大量無(wú)標(biāo)注文本 「煉成」的語(yǔ)言模型,其架構(gòu)為 Transformer 中的 Encoder(BERT=Encoder of Transformer)
我在 Transformer 詳解 中已經(jīng)詳細(xì)的解釋了所有 Transformer 的相關(guān)概念,這里就不再贅述
以往為了解決不同的 NLP 任務(wù),我們會(huì)為該任務(wù)設(shè)計(jì)一個(gè)最合適的神經(jīng)網(wǎng)絡(luò)架構(gòu)并做訓(xùn)練,以下是一些簡(jiǎn)單的例子
不同的 NLP 任務(wù)通常需要不同的模型,而設(shè)計(jì)這些模型并測(cè)試其 performance 是非常耗成本的(人力,時(shí)間,計(jì)算資源)。如果有一個(gè)能 直接處理各式 NLP 任務(wù)的通用架構(gòu) 該有多好?
隨著時(shí)代演進(jìn),不少人很自然地有了這樣子的想法,而 BERT 就是其中一個(gè)將此概念付諸實(shí)踐的例子
Google 在預(yù)訓(xùn)練 BERT 時(shí)讓它同時(shí)進(jìn)行兩個(gè)任務(wù):
1. 漏字填空
2. 下個(gè)句子預(yù)測(cè)
對(duì)正常人來(lái)說(shuō),要完成這兩個(gè)任務(wù)非常簡(jiǎn)單。只要稍微看一下前后文就知道完形填空任務(wù)中 [MASK] 里應(yīng)該填 退了 ;而 醒醒吧 后面接 你沒(méi)有妹妹 也十分合理(?)
接下來(lái)我會(huì)分別詳細(xì)介紹論文中這兩個(gè)任務(wù)的設(shè)計(jì)細(xì)節(jié)
在 BERT 中,Masked LM(Masked Language Model)構(gòu)建了語(yǔ)言模型,簡(jiǎn)單來(lái)說(shuō),就是 隨機(jī)遮蓋或替換 一句話里面的任意字或詞,然后讓模型通過(guò)上下文預(yù)測(cè)那一個(gè)被遮蓋或替換的部分,之后 做 Loss 的時(shí)候也只計(jì)算被遮蓋部分的 Loss ,這其實(shí)是一個(gè)很容易理解的任務(wù),實(shí)際操作如下:
這樣做的好處是,BERT 并不知道 [MASK] 替換的是哪一個(gè)詞,而且 任何一個(gè)詞都有可能是被替換掉的,比如它看到的 apple 可能是被替換的詞 。這樣強(qiáng)迫模型在編碼當(dāng)前時(shí)刻詞的時(shí)候 不能太依賴當(dāng)前的詞 ,而要考慮它的上下文,甚至根據(jù)上下文進(jìn)行 "糾錯(cuò)"。比如上面的例子中,模型在編碼 apple 時(shí),根據(jù)上下文 my dog is,應(yīng)該 把 apple 編碼成 hairy 的語(yǔ)義而不是 apple 的語(yǔ)義
我們首先拿到屬于上下文的一對(duì)句子,也就是兩個(gè)句子,之后我們要在這兩個(gè)句子中加一些特殊的 token: [CLS]上一句話[SEP]下一句話[SEP] 。也就是在句子開(kāi)頭加一個(gè) [CLS] ,在兩句話之間和句末加 [SEP] ,具體地如下圖所示
可以看到,上圖中的兩句話明顯是連續(xù)的。如果現(xiàn)在有這么一句話 [CLS] 我的狗很可愛(ài) [SEP] 企鵝不擅長(zhǎng)飛行 [SEP] ,可見(jiàn)這兩句話就 不是連續(xù)的 。在實(shí)際訓(xùn)練中,我們會(huì)讓這兩種情況出現(xiàn)的數(shù)量為** 1:1**
Token Embedding 就是正常的詞向量,即 PyTorch 中的 nn.Embedding()
Segment Embedding 的作用是用 embedding 的信息讓模型 分開(kāi)上下句 ,我們給上句的 token 全 0,下句的 token 全 1,讓模型得以判斷上下句的起止位置,例如
Position Embedding 和 Transformer 中的不一樣,不是三角函數(shù),而是 學(xué)習(xí)出來(lái)的
BERT 預(yù)訓(xùn)練階段實(shí)際上是將上述兩個(gè)任務(wù)結(jié)合起來(lái),同時(shí)進(jìn)行,然后將所有的 Loss 相加,例如
BERT 的 Fine-Tuning 共分為 4 種類型,以下內(nèi)容、圖片均來(lái)自臺(tái)大李宏毅老師 Machine Learning 課程 (以下內(nèi)容 圖在上,解釋在下)
為什么要用CLS?
這里李宏毅老師有一點(diǎn)沒(méi)講到,就是為什么要用第一個(gè)位置,即 [CLS] 位置的 output。這里我看了網(wǎng)上的一些博客,結(jié)合自己的理解解釋一下。因?yàn)?BERT 內(nèi)部是 Transformer,而 Transformer 內(nèi)部又是 Self-Attention, 所以 [CLS] 的 output 里面肯定含有整句話的完整信息 ,這是毋庸置疑的。但是 Self-Attention 向量中,自己和自己的值其實(shí)是占大頭的,現(xiàn)在假設(shè)使用 的 output 做分類,那么這個(gè) output 中實(shí)際上會(huì)更加看重 ,而 又是一個(gè)有實(shí)際意義的字或詞,這樣難免會(huì)影響到最終的結(jié)果。但是 [CLS] 是沒(méi)有任何實(shí)際意義的,只是一個(gè)占位符而已,所以就算 [CLS] 的 output 中自己的值占大頭也無(wú)所謂。當(dāng)然你 也可以將所有詞的 output 進(jìn)行 concat,作為最終的 output
首先將問(wèn)題和文章通過(guò) [SEP] 分隔,送入 BERT 之后,得到上圖中黃色的輸出。此時(shí)我們還要訓(xùn)練兩個(gè) vector,即上圖中橙色和黃色的向量。首先將橙色和所有的黃色向量進(jìn)行 dot product,然后通過(guò) softmax,看哪一個(gè)輸出的值最大,例如上圖中 對(duì)應(yīng)的輸出概率最大,那我們就認(rèn)為 s=2
同樣地,我們用藍(lán)色的向量和所有黃色向量進(jìn)行 dot product,最終預(yù)測(cè)得 的概率最大,因此 e=3。最終,答案就是 s=2,e=3
你可能會(huì)覺(jué)得這里面有個(gè)問(wèn)題,假設(shè)最終的輸出 s>e 怎么辦,那不就矛盾了嗎?其實(shí)在某些訓(xùn)練集里,有的問(wèn)題就是沒(méi)有答案的,因此此時(shí)的預(yù)測(cè)搞不好是對(duì)的,就是沒(méi)有答案
以上就是 BERT 的詳細(xì)介紹,參考以下文章
ELMo是Embedding from language Model的縮寫,它通過(guò)無(wú)監(jiān)督的方式對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練來(lái)學(xué)習(xí)單詞表示
這篇論文的想法其實(shí)非常簡(jiǎn)單,但是效果卻很好。它的思路是用 深度的雙向 Language Model 在大量未標(biāo)注數(shù)據(jù)上訓(xùn)練語(yǔ)言模型 ,如下圖所示
在實(shí)際任務(wù)中,對(duì)于輸入的句子,我們使用上面的語(yǔ)言模型來(lái)處理它,得到輸出向量,因此這可以看作是一種 特征提取 。但是 ELMo 與普通的 Word2Vec 或 GloVe 不同,ELMo 得到的 Embedding 是 有上下文信息 的
具體來(lái)說(shuō),給定一個(gè)長(zhǎng)度為 N 的句子,假設(shè)為 ,語(yǔ)言模型會(huì)計(jì)算給定 的條件下出現(xiàn) 的概率:
傳統(tǒng)的 N-gram 模型 不能考慮很長(zhǎng)的歷史 ,因此現(xiàn)在的主流是使用 多層雙向 LSTM 。在時(shí)刻 ,LSTM 的第 層會(huì)輸出一個(gè)隱狀態(tài) ,其中 , 是 LSTM 的層數(shù)。最上層是 ,對(duì)它進(jìn)行 softmax 之后得到輸出詞的概率
類似的,我們可以用 一個(gè)反向 來(lái)計(jì)算概率:
通過(guò)這個(gè) LSTM,我們可以得到 。我們的損失函數(shù)是這兩個(gè) LSTM 的 加和 :
這兩個(gè) LSTM 有各自的參數(shù) 和 ,而 Word Embedding 參數(shù) 和 Softmax 參數(shù) 是共享的
為了用于下游(DownStream)的特定任務(wù),我們會(huì)把不同層的隱狀態(tài)組合起來(lái),具體組合的參數(shù)是根據(jù)不同的特定任務(wù)學(xué)習(xí)出來(lái)的,公式如下:
GPT 得到的語(yǔ)言模型參數(shù)不是固定的,它會(huì)根據(jù)特定的任務(wù)進(jìn)行調(diào)整(通常是微調(diào)),這樣的到的句子表示能更好的適配特定任務(wù)。它的思想也很簡(jiǎn)單,使用 單向 Transformer 學(xué)習(xí)一個(gè)語(yǔ)言模型 ,對(duì)句子進(jìn)行無(wú)監(jiān)督的 Embedding,然后 根據(jù)具體任務(wù)對(duì) Transformer 的參數(shù)進(jìn)行微調(diào) 。GPT 與 ELMo 有兩個(gè)主要的區(qū)別:
這里解釋一下上面提到的 單向 Transformer 。在 Transformer 的文章中,提到了 Encoder 與 Decoder 使用的 Transformer Block 是不同的。在 Decoder Block 中,使用了 Masked Self-Attention ,即句子中的每個(gè)詞都只能對(duì) 包括自己在內(nèi)的前面所有詞進(jìn)行 Attention ,這就是單向 Transformer。GPT 使用的 Transformer 結(jié)構(gòu)就是將 Encoder 中的 Self-Attention 替換成了 Masked Self-Attention ,具體結(jié)構(gòu)如下圖所示
訓(xùn)練的過(guò)程也非常簡(jiǎn)單,就是將 n 個(gè)詞的詞嵌入 ( ) 加上位置嵌入 ( ),然后輸入到 Transformer 中,n 個(gè)輸出分別預(yù)測(cè)該位置的下一個(gè)詞
這里的位置編碼沒(méi)有使用傳統(tǒng) Transformer 固定編碼的方式,而是動(dòng)態(tài)學(xué)習(xí)的
Pretraining 之后,我們還需要針對(duì)特定任務(wù)進(jìn)行 Fine-Tuning。假設(shè)監(jiān)督數(shù)據(jù)集合 的輸入 是一個(gè)詞序列 ,輸出是一個(gè)分類的標(biāo)簽 ,比如情感分類任務(wù)
我們把 輸入 Transformer 模型,得到最上層最后一個(gè)時(shí)刻的輸出 ,將其通過(guò)我們新增的一個(gè) Softmax 層(參數(shù)為 )進(jìn)行分類,最后用 CrossEntropyLoss 計(jì)算損失,從而根據(jù)標(biāo)準(zhǔn)數(shù)據(jù)調(diào)整 Transformer 的參數(shù)以及 Softmax 的參數(shù) 。這等價(jià)于最大似然估計(jì):
正常來(lái)說(shuō),我們應(yīng)該調(diào)整參數(shù)使得 最大,但是 為了提高訓(xùn)練速度和模型的泛化能力 ,我們使用 Multi-Task Learning,同時(shí)讓它最大似然 和
這里使用的 還是之前語(yǔ)言模型的損失(似然),但是使用的數(shù)據(jù)不是前面無(wú)監(jiān)督的數(shù)據(jù) ,而是使用當(dāng)前任務(wù)的數(shù)據(jù) ,而且只使用其中的 ,而不需要標(biāo)簽
針對(duì)不同任務(wù),需要簡(jiǎn)單修改下輸入數(shù)據(jù)的格式,例如對(duì)于相似度計(jì)算或問(wèn)答,輸入是兩個(gè)序列,為了能夠使用 GPT,我們需要一些特殊的技巧把兩個(gè)輸入序列變成一個(gè)輸入序列
ELMo 和 GPT 最大的問(wèn)題就是 傳統(tǒng)的語(yǔ)言模型是單向的 —— 我們根據(jù)之前的歷史來(lái)預(yù)測(cè)當(dāng)前詞。但是我們不能利用后面的信息。比如句子 The animal didn’t cross the street because it was too tired 。我們?cè)诰幋a it 的語(yǔ)義的時(shí)候需要同時(shí)利用前后的信息,因?yàn)樵谶@個(gè)句子中, it 可能指代 animal 也可能指代 street 。根據(jù) tired ,我們推斷它指代的是 animal 。但是如果把 tired 改成 wide ,那么 it 就是指代 street 了。傳統(tǒng)的語(yǔ)言模型,都 只能利用單方向的信息 。比如前向的 RNN,在編碼 it 的時(shí)候它看到了 animal 和 street ,但是它還沒(méi)有看到 tired ,因此它不能確定 it 到底指代什么。如果是后向的 RNN,在編碼的時(shí)候它看到了 tired ,但是它還根本沒(méi)看到 animal ,因此它也不能知道指代的是 animal 。 Transformer 的 Self-Attention 理論上是可以同時(shí)關(guān)注到這兩個(gè)詞的,但是根據(jù)前面的介紹,為了使用 Transformer 學(xué)習(xí)語(yǔ)言模型,必須 用 Mask 來(lái)讓它看不到未來(lái)的信息 ,所以它也不能解決這個(gè)問(wèn)題的
根據(jù)上文內(nèi)容預(yù)測(cè)下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據(jù)下文預(yù)測(cè)前面的單詞,這種類型的LM被稱為自回歸語(yǔ)言模型。(GPT,ELMO)GPT 就是典型的自回歸語(yǔ)言模型。ELMO盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸LM,這個(gè)跟模型具體怎么實(shí)現(xiàn)有關(guān)系。ELMO是做了兩個(gè)方向(從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型),但是是分別有兩個(gè)方向的自回歸LM,然后把LSTM的兩個(gè)方向的隱節(jié)點(diǎn)狀態(tài)拼接到一起,來(lái)體現(xiàn)雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。
自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當(dāng)然,貌似ELMO這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因?yàn)槿诤夏J竭^(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游NLP任務(wù)有關(guān),比如生成類NLP任務(wù),比如文本摘要,機(jī)器翻譯等,在實(shí)際生成內(nèi)容的時(shí)候,就是從左向右的, 自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程 。而B(niǎo)ert這種DAE模式,在生成類NLP任務(wù)中,就面臨訓(xùn)練過(guò)程和應(yīng)用過(guò)程不一致的問(wèn)題,導(dǎo)致 生成類的NLP任務(wù)到目前為止都做不太好 。
自回歸語(yǔ)言模型只能根據(jù)上文預(yù)測(cè)下一個(gè)單詞,或者反過(guò)來(lái),只能根據(jù)下文預(yù)測(cè)前面一個(gè)單詞。相比而言,Bert通過(guò) 在輸入X中隨機(jī)Mask掉一部分單詞 ,然后預(yù)訓(xùn)練過(guò)程的主要任務(wù)之一是根據(jù)上下文單詞來(lái)預(yù)測(cè)這些被Mask掉的單詞,如果你對(duì)Denoising Autoencoder比較熟悉的話,會(huì)看出,這確實(shí)是典型的DAE的思路。那些被Mask掉的單詞就是在輸入側(cè)加入的所謂噪音。類似Bert這種預(yù)訓(xùn)練模式,被稱為DAE LM。
這種DAE LM的優(yōu)缺點(diǎn)正好和自回歸LM反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預(yù)測(cè)單詞的上文和下文,這是好處。缺點(diǎn)是啥呢? 主要在輸入側(cè)引入[Mask]標(biāo)記,導(dǎo)致預(yù)訓(xùn)練階段和Fine-tuning階段不一致的問(wèn)題 ,因?yàn)镕ine-tuning階段是看不到[Mask]標(biāo)記的。DAE嗎,就要引入噪音,[Mask] 標(biāo)記就是引入噪音的手段,這個(gè)正常。
XLNet的出發(fā)點(diǎn)就是:能否 融合自回歸LM和DAE LM兩者的優(yōu)點(diǎn) 。就是說(shuō)如果站在自回歸LM的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在DAE LM的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè)[Mask]標(biāo)記,讓預(yù)訓(xùn)練和Fine-tuning保持一致。當(dāng)然,XLNet還講到了一個(gè)Bert被Mask單詞之間相互獨(dú)立的問(wèn)題。
四、ai的雞湯是不是很厲害
GPT-3是OpenAI最新、最大的語(yǔ)言人工智能模型,由1750億個(gè)參數(shù)組成。總部位于舊金山的OpenAI研究實(shí)驗(yàn)室今年5月開(kāi)始逐步推出了該模型,并引起越來(lái)越大的反響。這個(gè)龐大的語(yǔ)言模型幾乎可以勝任所有可以用文字表達(dá)的工作:從回答問(wèn)題、寫文章、寫詩(shī)歌、甚至寫代碼……無(wú)一不包。那么,現(xiàn)實(shí)中它究竟有多厲害呢?
最近,國(guó)外一名剛?cè)腴TGPT-3不久的伯克利大學(xué)生利亞姆·波爾(Liam Porr),以一個(gè)假名,然后用人工智能模型建了一個(gè)完全假的博客。不過(guò),這卻成功“騙倒”了一大批內(nèi)容閱讀者。
這個(gè)充滿諷刺性和欺騙性的“AI把戲”很快騙過(guò)了Hacker News等科技極客圈子,然后真相曝光——瞬間成為了熱點(diǎn)話題——這么多人怎么就被一個(gè)完全由AI搭建起來(lái)的所謂“博客”給誆了?居然還有不少人“訂閱”了上面的消息?
盡管許多人猜測(cè)到目前為止最強(qiáng)大的語(yǔ)言生成AI工具——GPT-3會(huì)如何影響內(nèi)容生產(chǎn),但這種“以假亂真”的程度和效果是他們始料未及的。這是目前唯一一次GPT-3如此真實(shí)地展示自己的實(shí)力,足以說(shuō)明這一工具的應(yīng)用潛力。
在加州大學(xué)伯克利分校(University of California, Berkeley)學(xué)習(xí)計(jì)算機(jī)科學(xué)的波爾說(shuō),這次經(jīng)歷中最突出的一點(diǎn)是:“實(shí)際上,它超級(jí)簡(jiǎn)單,這是最可怕的部分?!?/p>
登上頭條狂漲粉的“AI雞湯文”
雖然GPT-3還沒(méi)有徹底開(kāi)放,但波爾卻依然輕輕松松獲取了接口。波爾提交了一份申請(qǐng)。他填寫了一張表格,里面有一份關(guān)于他打算使用的簡(jiǎn)單問(wèn)卷。但他也沒(méi)有等上多少時(shí)間。在聯(lián)系了伯克利的人工智能社區(qū)的幾名成員后,他很快找到了一名已經(jīng)有此權(quán)限的博士生。
這個(gè)博士生同意合作后,波爾很快就寫了一個(gè)小腳本讓他運(yùn)行。它給了GPT-3一個(gè)博客文章的標(biāo)題和介紹,并給出了幾個(gè)完整的版本。Porr的第一個(gè)帖子(在Hacker News上發(fā)布的那個(gè))和之后的每一個(gè)帖子都是從一個(gè)輸出中復(fù)制粘貼過(guò)來(lái)的,幾乎沒(méi)有編輯。
他說(shuō):“從我想到這個(gè)想法并與那個(gè)博士生取得聯(lián)系,到我真正創(chuàng)建了這個(gè)博客——這大概只花了幾個(gè)小時(shí)?!?/p>
波爾用假名字“adolos”寫的第一篇假博客,居然順順利利就登上了YC新聞平臺(tái)Hacker News熱門榜第一名!波爾說(shuō),他使用了三個(gè)獨(dú)立的賬號(hào)在Hacker News上提交并投票,試圖把他的帖子推得更高。管理員說(shuō)這個(gè)策略不起作用,但他的點(diǎn)擊率標(biāo)題起作用了。
不需要太多編輯就能生成內(nèi)容的訣竅是——理解GPT-3的優(yōu)缺點(diǎn)。波爾說(shuō):“它很擅長(zhǎng)創(chuàng)造漂亮的語(yǔ)言,但不太擅長(zhǎng)邏輯和理性?!币虼?,他選擇了一個(gè)不需要嚴(yán)格邏輯的流行博客類別——“雞湯文”,這樣就能實(shí)現(xiàn)高效和自助式的產(chǎn)出。
然后,他按照一個(gè)簡(jiǎn)單的公式來(lái)寫他的標(biāo)題:他在Medium和Hacker News上翻來(lái)翻去,看看在這些類別中發(fā)生了什么,然后把一些相對(duì)相似的東西放在一起?!陡杏X(jué)生產(chǎn)力不高?也許你應(yīng)該停止思慮過(guò)多》“”(Feeling unproductive? Maybe you should stop overthinking)他為其中一篇文章寫道?!洞竽懞蛣?chuàng)造力勝過(guò)智慧》(Boldness and creativity trumps intelligence),他又在另一篇文章中寫道。有幾次,這些標(biāo)題并沒(méi)有起到作用。但只要他堅(jiān)持正確的話題,這個(gè)過(guò)程就很容易實(shí)現(xiàn),“雞湯文”成功地幫著博客蹭蹭蹭狂漲粉。
兩周后,他幾乎每天都發(fā)帖子。隨后不久,Hacker News上就有人指責(zé)波爾的博客文章是GPT-3寫的。另一名用戶卻回應(yīng)說(shuō),這條評(píng)論“不可接受”。甚至有讀者讀后留言稱,“好文!和Ethan Hawke在Ted的演講一樣深刻!”對(duì)波爾的假博客持懷疑態(tài)度的少數(shù)人,居然就這樣被社區(qū)的其他成員投了反對(duì)票,妥妥證明了并非“大眾的眼睛都是雪亮的”。
一大部分人愣是沒(méi)看出來(lái)文章不是人類寫的,Medium、YC的新聞平臺(tái)等多家平臺(tái)都轉(zhuǎn)載刊發(fā)了他的第一篇博客、他的博客居然還瘋狂漲粉人氣居高不下……這讓小哥波爾開(kāi)始感到不淡定了,不過(guò)他自己也感到非常驚訝。
波爾說(shuō),他想證明GPT-3可以冒充人類作家。事實(shí)上,盡管該算法的書(shū)寫模式有些奇怪,偶爾也會(huì)出現(xiàn)錯(cuò)誤,但在他在Hacker News上發(fā)表的最重要的帖子上,只有三四個(gè)人懷疑該算法可能是由某個(gè)算法產(chǎn)生的。而且,所有這些評(píng)論都立即被其他社區(qū)成員否決。
最后,波爾以一條自己寫的神秘信息結(jié)束了這個(gè)項(xiàng)目。標(biāo)題為《如果我沒(méi)有道德,我將如何對(duì)待GPT-3》,文章將他的過(guò)程描述為一個(gè)假設(shè)。同一天,他還在自己真正的博客上發(fā)表了一篇更直白的自白,澄清曝光了“假博客”的始終。
AI語(yǔ)言工具引發(fā)擔(dān)憂與思考
根據(jù)OpenAI的算力統(tǒng)計(jì)單位petaflops/s-days,訓(xùn)練AlphaGoZero需要1800-2000pfs-day,而OpenAI的GPT-3用了3640pfs-day,看來(lái)?yè)碛形④洘o(wú)限算力的OpenAI,現(xiàn)在真的是為所欲為了。
對(duì)于專家來(lái)說(shuō),這一直是這種語(yǔ)言生成算法引起的擔(dān)憂。自從OpenAI首次發(fā)布GPT-2以來(lái),人們就猜測(cè)它很容易被濫用。而GPT-3已經(jīng)成為OpenAI迄今為止推出最新、最大的AI語(yǔ)言模型。在自己的博客文章中,該實(shí)驗(yàn)室重點(diǎn)關(guān)注了人工智能工具作為大量制造錯(cuò)誤信息的武器的潛力。其他人則想知道是否可以用它來(lái)大量發(fā)布谷歌游戲相關(guān)關(guān)鍵詞的垃圾帖子。
去年2月,OpenAI的GPT-2(該算法的早期版本)登上了新聞?lì)^條,OpenAI宣布將保留該版本,以防被濫用。這一決定立即引發(fā)了強(qiáng)烈反響,研究人員指責(zé)該實(shí)驗(yàn)室在“搞噱頭”。到了11月,該實(shí)驗(yàn)室終于改變了立場(chǎng),發(fā)布了這個(gè)模型,當(dāng)時(shí)還言之鑿鑿地稱“到目前為止沒(méi)有發(fā)現(xiàn)濫用的有力證據(jù)”。這不,這回“翻車”翻得有點(diǎn)厲害了。
該實(shí)驗(yàn)室對(duì)GPT-3采取了不同的方法;它既沒(méi)有拒絕,也沒(méi)有允許公眾訪問(wèn)。取而代之的是,它將算法提供給了那些申請(qǐng)私有測(cè)試的研究人員,目的是收集他們的反饋,并在今年年底將這項(xiàng)技術(shù)商業(yè)化。
波爾說(shuō),他的實(shí)驗(yàn)還展示了一個(gè)更平凡但仍然令人不安的選擇——人們可以使用該工具生成大量的點(diǎn)擊誘導(dǎo)內(nèi)容。他說(shuō):“很有可能會(huì)出現(xiàn)大量平庸無(wú)質(zhì)量的博客內(nèi)容,因?yàn)楝F(xiàn)在進(jìn)入的門檻太低了?!薄拔艺J(rèn)為在線內(nèi)容的價(jià)值將大大降低?!?/p>
波爾計(jì)劃用GPT-3做更多的實(shí)驗(yàn)。但他仍在等待OpenAI的介入。他說(shuō):“他們可能對(duì)我的所作所為感到不滿?!薄拔沂钦f(shuō),這有點(diǎn)傻?!?/p>
背后的“AI大法”O(jiān)penAI
在成立的短短四年時(shí)間里,OpenAI已經(jīng)成為全球領(lǐng)先的人工智能研究實(shí)驗(yàn)室之一。與Alphabet旗下的DeepMind等其他人工智能巨頭一樣,谷歌不斷推出引人注目的研究成果,并因此成名。它也是硅谷的寵兒,創(chuàng)始人包括埃隆·馬斯克(Elon Musk)和傳奇投資者山姆·奧特曼(Sam Altman)。
最重要的是,它因其使命而受到推崇。它的目標(biāo)是成為第一個(gè)創(chuàng)造人工智能的機(jī)器——一個(gè)具有人類思維的學(xué)習(xí)和推理能力的機(jī)器。其目的不是統(tǒng)治世界;相反,該實(shí)驗(yàn)室想要確保這項(xiàng)技術(shù)是安全發(fā)展的,并且它的好處能均勻地分配給全世界。
這意味著,如果AGI技術(shù)的發(fā)展遵循阻力最小的道路,那么它很容易失控。圍繞在我們身邊的那種笨拙的人工智能,就是一個(gè)例子。問(wèn)題是,AGI一直都很模糊。該領(lǐng)域內(nèi)的共識(shí)是,這種先進(jìn)的能力將需要幾十年,甚至幾個(gè)世紀(jì)的時(shí)間——如果真的有可能發(fā)展它們的話。許多人還擔(dān)心,過(guò)分追求這一目標(biāo)可能會(huì)適得其反。
大多數(shù)人第一次聽(tīng)說(shuō)OpenAI是在2019年2月14日。那天,實(shí)驗(yàn)室宣布了一項(xiàng)令人印象深刻的新研究:只需按下一個(gè)按鈕,就可以生成令人信服的論文和文章。
但也有一個(gè)問(wèn)題:研究人員說(shuō),這種被稱為GPT-2的模型釋放起來(lái)太危險(xiǎn)了。如果這樣強(qiáng)大的技術(shù)落入壞人之手,就很容易被“武器化”,制造大規(guī)模的虛假信息。這立即引起了科學(xué)家們的強(qiáng)烈反對(duì)。
在持續(xù)不斷的炒作指控中,OpenAI堅(jiān)稱GPT-2不是噱頭。更確切地說(shuō),這是一項(xiàng)經(jīng)過(guò)深思熟慮的實(shí)驗(yàn),經(jīng)過(guò)一系列內(nèi)部討論和辯論后達(dá)成一致。大家一致認(rèn)為,即使這次的行動(dòng)稍微有點(diǎn)過(guò)火,但它將為處理更危險(xiǎn)的研究開(kāi)創(chuàng)先例。
但OpenAI與GPT-2的媒體宣傳活動(dòng)也遵循了一種成熟的模式,這種模式讓更廣泛的人工智能社區(qū)產(chǎn)生了懷疑。多年來(lái),該實(shí)驗(yàn)室的重大、引人注目的研究公告一再被指責(zé)助長(zhǎng)了人工智能的炒作周期。批評(píng)人士還不止一次地指責(zé)該實(shí)驗(yàn)室大肆宣揚(yáng)其研究結(jié)果,甚至達(dá)到了錯(cuò)誤描述的地步。出于這些原因,該領(lǐng)域的許多人都傾向于保持一定的距離。
GPT-2引發(fā)如此強(qiáng)烈的反彈還有另一個(gè)原因。人們覺(jué)得OpenAI又一次違背了它之前關(guān)于開(kāi)放和透明的承諾,并走上了營(yíng)利的道路。未公開(kāi)的研究讓人們更加擔(dān)憂和懷疑——會(huì)不會(huì)是這項(xiàng)技術(shù)一直處于保密狀態(tài),為將來(lái)獲得許可做準(zhǔn)備?但是人們并不知道,這不是OpenAI唯一一次選擇隱藏它的研究。
以上就是關(guān)于gpt2模型參數(shù)layer相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
mbr轉(zhuǎn)gpt后無(wú)法開(kāi)機(jī)(mbr改成gpt進(jìn)不了系統(tǒng))
法國(guó)景觀設(shè)計(jì)留學(xué)申請(qǐng)流程(法國(guó)景觀設(shè)計(jì)留學(xué)申請(qǐng)流程及費(fèi)用)