正文

gpt embedding

發(fā)布時間：2023-06-12 16:38:21 稿源：創(chuàng)意嶺閱讀： 79

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于gpt embedding的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內容，有小程序、在線網頁版、PC客戶端和批量生成器

官網：https://ai.de1919.com。

本文目錄:

GPT的auto-regressive語言模型架構在信息表示方面有什么架構上的缺陷？具體如何改進？

gpt embedding

GPT的auto-regressive語言模型架構在信息表示方面有什么架構上的缺陷？具體如何改進？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現(xiàn)，其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言，GPT-2 并沒有特別新穎的架構，它和 transformer 的 Decoder 類似。相比較于GPT-1，GPT -2 使用了更大的預料，更大和更深的模型。

從transformer的decoder里移除了decoder對encoder的attention部分。也就是消除掉了seq2seq的過程。

GPT是一個語言模型，每一個時刻只能看見當前時刻前面時刻的信息，是一個auto regressive的過程。

GPT2，hidden state的大小有變化，根據層數的多少有small，medum，large，extra large的劃分。

GPT的訓練過程是交叉式的預測下一個單詞，測試的時候是輸入一個句子生成另外一個句子。

GPT的預訓練就是訓練一個語言模型。而bert的預訓練是masked language model和nsp的任務。

GPT由多個decocer block組成，每一個decoder block由masked self-attention和feed forward neural network組成。

一個timestamp的hidden state經過線性層轉換為vocab size大小的embedding，然后經過softmax，算出每個詞匯的概率，找出其中概率最大的詞作為預測輸出，然后下一個時刻的詞作為真實輸出，計算兩者的cross entropy來訓練模型。

每一個timestamp后面的位置都mask掉，設置一個負無群大的值，做softmax的時候，該位置的值就為0。

2）總結

transformer decoder的構造

預訓練的時候做語言模型的訓練

GPT2用更多更深的block