正文

gpt2訓練成本（gpt2 訓練）

發(fā)布時間：2023-03-13 03:16:40 稿源：創(chuàng)意嶺閱讀： 136 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于gpt2訓練成本的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內免費在線使用，能給你生成想要的原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

你只需要給出你的關鍵詞，它就能返回你想要的內容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端，官網(wǎng)：https://ai.de1919.com

本文目錄:

1、chatgpt需要多少顯卡
2、gpt2自動識別問題
3、GPT Understands, Too
4、finetune模型和gpt3的差別

gpt2訓練成本（gpt2 訓練）

一、chatgpt需要多少顯卡

1.6GB。ColossalAI表示，已低成本復現(xiàn)了一個ChatGPT訓練的基本流程，包括 stage1預訓練、stage2的獎勵模型的訓練，以及最為復雜的stage3強化學習訓練。具體亮點包括：一個開源完整的基于PyTorch的ChatGPT等效實現(xiàn)流程，涵蓋所有3個階段，可以幫助你構建基于預訓練模型的 ChatGPT 式服務。

二、gpt2自動識別問題

GPT-2（Generative Pre-trained Transformer 2）是由OpenAI開發(fā)的一個強大的自然語言處理模型，它能夠自動識別出用戶提問，并生成符合語法和邏輯的答案。該模型是通過對大量語言數(shù)據(jù)進行預訓練而獲得的，訓練數(shù)據(jù)包含了互聯(lián)網(wǎng)上的海量文本，因此模型具有很強的泛化能力和自然語言理解能力。在問答場景中，GPT-2能夠快速分析提問語句中的關鍵信息，理解用戶需求，并基于預訓練經驗生成符合用戶期望的答案。該模型已經在多個領域中得到了廣泛應用，例如智能客服、智能語音交互、個人助手等。

三、GPT Understands, Too

傳統(tǒng)fine-tune（使用訓練數(shù)據(jù)來微調模型參數(shù)），GPT在自然語言理解任務上未能取得很好的效果，關于NLU任務的一種新方法P-tuning，采用可訓練的連續(xù)的 prompt embeddings。

實驗表明：

與 discrete prompts類似，僅對輸入進行修改，不同之處在于用differential output embeddings來代替常規(guī)的input embeddings

prompt可以非常靈活，可以插入到context x或者target y中

pseudo tokens（偽標記）

可以從原始詞表V中找到一個better continuous prompts。最后，利用下游損失函數(shù)L，可以對continuous prompts hi 進行differentially optimize

training continuous prompts 存在兩個問題

P-tuning中，使用promp編碼器(LSTM+RELU激活的兩層MLP)將hi建模為一個序列

知識探索

所有prompt search方法都需要一些額外的數(shù)據(jù)來訓練或查找prompt。我們遵循AutoPrompt中的設置，作者從原始TRE-x數(shù)據(jù)集構建了一個訓練集，該訓練集與測試集類似，但答案分布略有不同

在傳統(tǒng)的知識探索中，不允許通過fine-tune來改變預先訓練好的模型參數(shù)。試圖評估語言模型在培訓前學習了多少知識。然而，這項工作的基本方面是比較P-tuning和fine-tune，尤其是在像GPT這樣的單向語言模型上。特別感興趣的是以下問題：單向和雙向語言模型是否從P-tuning中獲得了類似的改進？

在知識探索方面，許多事實只能通過硬編碼，而不能通過語言模型進行推斷。參數(shù)的微調可能會導致遺忘。相反，P-tuning不會改變預先訓練的模型的參數(shù)，而是通過尋找更好的continuous prompt來存儲知識。此外，在Bert和GPT采用P-tuning存在明顯的差異，使用MP+FT進行微調非常有效，但是GPT并不像BERTs那樣從MP+FT中受益更多。P-tuning與單向語言模型表現(xiàn)出更好的親和力。在里面就更大的型號而言，例如具有110億個參數(shù)的MegatronLM2，雖然微調幾乎不起作用，但Ptuning仍然適用，并在LAMA上達到了最先進的水平。

WiC和MultiRC都有相對較大的train sets,標準fine-tune可以從更大的數(shù)據(jù)集中獲得比P-tuning更多的優(yōu)勢。相反，在低資源環(huán)境下，P-tuning更有益

在base模型的規(guī)模下，在7項任務中，有6項任務的gpt2-base的P-tuning相比優(yōu)于基于bert的模型的最佳結果，除了Wic。

與BERT-larger-base相比，帶有P-tuning的GPT2在7項任務中有4項任務顯示出優(yōu)勢

唯一的例外是WiC任務，fine-tune取得最佳結果，推測這是因為詞義消歧任務不適用于prompt-based MLM prediction

用原始訓練集中32個未使用的樣本構建了一個新的開發(fā)集（Ddev32）設置公平比較之下，P-tuning在所有任務上都顯著優(yōu)于PET和PET best。更有趣的是，P-tuning甚至在7項任務中的4項任務上優(yōu)于GPT-3、PET（Ddev）和iPET（Ddev）。

盡管P-tuning在大多數(shù)任務中都能取得最佳效果，但在難以表述為完形填空問題的任務（例如WiC）中，微調的效果會更好

四、finetune模型和gpt3的差別

1）訓練時間：finetune模型需要很長的訓練時間，而GPT-3則不用訓練，只需要在現(xiàn)有的參數(shù)上進行微調即可。

2）計算量：finetune模型需要大量的計算資源，而GPT-3只需要很少的資源。

3）訓練數(shù)據(jù)：finetune模型需要大量的標記數(shù)據(jù)，而GPT-3只需要一小部分訓練數(shù)據(jù)。

4）精度：finetune模型的精度比GPT-3要高得多，它能夠更準確地預測結果。

5）使用價值：finetune模型更適合用于實際的人工智能應用，而GPT-3更適合用于實驗性的應用。