HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    gpt3參數(shù)量(gpt3參數(shù)量怎么算的)

    發(fā)布時(shí)間:2023-03-12 23:20:51     稿源: 創(chuàng)意嶺    閱讀: 129        問(wèn)大家

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于gpt3參數(shù)量的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    ChatGPT國(guó)內(nèi)免費(fèi)在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com

    本文目錄:

    gpt3參數(shù)量(gpt3參數(shù)量怎么算的)

    一、Prompt-NLP新范式

    NLP技術(shù)發(fā)展的四種范式:

    Prompt的起源可以追溯到GPT-2,T5,GPT-3等的一些研究,發(fā)現(xiàn)在輸入樣本前加入一個(gè)和任務(wù)相關(guān)的 前綴 ,就可以提示模型接下來(lái)要輸出的內(nèi)容。比如在GPT-3的預(yù)測(cè)階段,只需要在輸入樣本前加上Translate English to French: 就可以提示模型接下來(lái)要進(jìn)行翻譯任務(wù),即完全依靠模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)來(lái)進(jìn)行預(yù)測(cè),不需要在下游任務(wù)上再依靠task-specific的 監(jiān)督數(shù)據(jù) 對(duì)模型進(jìn)行fine-tune就可直接使用,一方面減少了fine-tune模型的計(jì)算和存儲(chǔ)代價(jià),另一方面也給樣本量極度缺乏的 少樣本領(lǐng)域(zero/few-shot) 帶來(lái)了福音。

    這種依靠 提示信息(Prompt) 來(lái)激發(fā)模型的內(nèi)在潛能,挖掘模型在大規(guī)模預(yù)訓(xùn)練階段學(xué)到的知識(shí)的做法引領(lǐng)了NLP領(lǐng)域的第四范式。人們逐漸開(kāi)始思考如何更加 高效地利用 預(yù)訓(xùn)練語(yǔ)言模型的大量參數(shù),如何將各種下游任務(wù)都統(tǒng)一到一個(gè) 通用框架 下,使得模型能夠根據(jù)不同的提示信息進(jìn)行不同的任務(wù),從而不需要再為每個(gè)下游任務(wù)訓(xùn)練單獨(dú)的模型。

    本文將對(duì)Prompt快速發(fā)展過(guò)程中一些重要論文的核心創(chuàng)新點(diǎn)進(jìn)行簡(jiǎn)要介紹,而不會(huì)詳細(xì)描述過(guò)多模型細(xì)節(jié)(欲知全貌建議直接讀原論文)。

    論文:Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

    該論文對(duì)Prompt模式的研究進(jìn)行了規(guī)范,提出了 Pattern-Verbalizer 的概念:

    比如對(duì)于5分類任務(wù),給定輸入樣本 a ,對(duì)應(yīng)的模板函數(shù) P 和標(biāo)簽映射函數(shù) v 可為:

    注意這里多種Prompt模板函數(shù)以及答案映射函數(shù)都是 人工手動(dòng)設(shè)計(jì) 的。

    然后利用新構(gòu)建出來(lái)的 P(x),v(l) 對(duì)預(yù)訓(xùn)練模型進(jìn)行fine-tune,其他更多細(xì)節(jié)不再展開(kāi),實(shí)驗(yàn)結(jié)果顯示該方法在少樣本任務(wù)上表現(xiàn)很好。

    論文:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners ( PET原班人馬

    GPT-3出來(lái)后顯示了其在少樣本學(xué)習(xí)上的驚人能力,但是其龐大的參數(shù)量也令人望而卻步。而本文作者提出 “小模型在少樣本學(xué)習(xí)上也可以有卓越表現(xiàn)” ,直接對(duì)標(biāo)GPT-3這個(gè)龐然大物,從而奠定了 PET所提范式 在江湖的霸主地位,引起了各大武林人士的關(guān)注。

    該文證明了PET所提范式的有效性,同時(shí)作者還分析發(fā)現(xiàn)設(shè)計(jì)不同的 Prompt 模板和標(biāo)簽映射函數(shù) Verbalizer 對(duì)模型性能影響較大,從而引起后來(lái)人員涌入改進(jìn)Prompt模板和標(biāo)簽映射Verbalizer構(gòu)造的浪潮中。

    論文:Making Pre-trained Language Models Better Few-shot Learners

    取代PET中手動(dòng)構(gòu)建Prompt模板和標(biāo)簽映射函數(shù)的過(guò)程,自動(dòng)化搜索模板和標(biāo)簽映射,同時(shí)參考GPT-3中的in-context learning,在輸入樣本中加入示例(demonstrations)作為上下文,幫助模型更好地理解要做什么。

    實(shí)驗(yàn)表明,在少樣本上,這種基于prompt的fine-tune效果能夠明顯好于標(biāo)準(zhǔn)的fine-tune,并且在樣本中加入示例確實(shí)能夠帶來(lái)增益。

    也許未必非要構(gòu)建人能理解的 離散tokens式 的Prompt,構(gòu)建模型能夠接受的 連續(xù)向量式 的Prompt也未嘗不可。

    4.1 論文: Prefix-Tuning : Optimizing Continuous Prompts for Generation

    該文針對(duì) NLG(Natural Language Generation) 任務(wù),提出了構(gòu)建連續(xù)的prompts。在預(yù)訓(xùn)練模型的每一層加上一個(gè)Prefix前綴矩陣,固定預(yù)訓(xùn)練模型的參數(shù),僅訓(xùn)練前綴矩陣的參數(shù),在few-shot設(shè)定下,性能超過(guò)標(biāo)準(zhǔn)的fine-tune。

    實(shí)驗(yàn)結(jié)果表明,在 全量 數(shù)據(jù)下,prompt-based fine-tune的效果能夠 相當(dāng) standard fine-tune;在 少樣本 下,能夠 超過(guò) standard fine-tune。

    4.2 論文:GPT Understands, Too ( P-tuning )

    該文針對(duì) NLU(Natural Language Understanding) 任務(wù),也提出了構(gòu)建連續(xù)的prompts。與 Prefix-tuning 不同的是,這里的prompts僅需要加在輸入層,而不用加在網(wǎng)絡(luò)的每一層,就可以work well。

    利用 biLSTM 對(duì)prompts進(jìn)行 Encode ,然后將編碼后的 prompts embedding 和樣本 x 輸入預(yù)訓(xùn)練語(yǔ)言模型(PLM),之后同時(shí)fine-tune prompt embeddings 和 pretrained model 。

    考慮到優(yōu)化連續(xù)的prompt向量有兩個(gè)問(wèn)題:

    因此作者提出先采用 biLSTM 作為 Prompt Encoder 來(lái)編碼prompt向量。

    具體Prompt模板設(shè)計(jì)為:

    實(shí)驗(yàn)結(jié)果表明,在 全量 數(shù)據(jù)下,prompt-based fine-tune的效果能夠 相當(dāng) 或超過(guò)standard fine-tune。

    論文:The Power of Scale for Parameter-Efficient Prompt Tuning

    該文提出為每個(gè)下游任務(wù)設(shè)計(jì)自己的prompt,拼接到輸入樣本上,然后完全freeze預(yù)訓(xùn)練模型的權(quán)重,僅訓(xùn)練prompts對(duì)應(yīng)的權(quán)重參數(shù)。發(fā)現(xiàn)隨著模型體積的增大, Prompt-tuning 的效果逐漸追上標(biāo)準(zhǔn) fine-tune 的效果。

    這里 Model Tuning 就是指標(biāo)準(zhǔn)的 fine-tune ,即在下游任務(wù)上對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行更新。

    最后對(duì)各論文實(shí)驗(yàn)結(jié)果的普遍規(guī)律進(jìn)行一個(gè)總結(jié)。各論文采用的fine-tune策略主要有以下三種:

    二、三星gpt3100平板參數(shù)

    若您想要了解三星P3100平板電腦的配置參數(shù),請(qǐng)參考以下介紹:

    1.CPU(處理器):1GHz 雙核。

    2.內(nèi)存:總RAM約1G;外置存儲(chǔ)卡:最大支持32GB micro SD卡。

    3.攝像頭:采用300萬(wàn)像素的后置攝像頭,30萬(wàn)像素前置攝像頭;支持4倍變焦。

    4.軟件格式:APK。

    5.藍(lán)牙版本:藍(lán)牙3.0。

    三、全球十大數(shù)字創(chuàng)新技術(shù)出爐

    點(diǎn)擊藍(lán)字

    科技 創(chuàng)新世界潮。

    全文共計(jì)2520字,預(yù)計(jì)閱讀時(shí)間7分鐘

    來(lái)源 | 數(shù)據(jù)觀綜合(轉(zhuǎn)載請(qǐng)注明來(lái)源)

    編輯 | 蒲蒲

    日前,聯(lián)合國(guó)教科文組織2021年 Netexplo 創(chuàng)新論壇在網(wǎng)上舉行。由技術(shù)領(lǐng)域全球知名大學(xué)組成的 Netexplo 大學(xué)網(wǎng)絡(luò)歷時(shí)一年,在全球范圍內(nèi)遴選出了10項(xiàng)極具突破性的數(shù)字創(chuàng)新技術(shù),這些創(chuàng)新對(duì) 社會(huì) 具有深遠(yuǎn)而持久的影響。

    阿根廷交易平臺(tái)Abakus

    受疫情影響,阿根廷經(jīng)濟(jì)遭受重創(chuàng),也使該國(guó)農(nóng)業(yè)部門的動(dòng)蕩加劇。鑒于此,阿根廷初創(chuàng)企業(yè)Abakus與瑞士區(qū)塊鏈基礎(chǔ)設(shè)施提供商CoreLedger推出了一個(gè)數(shù)字易貨平臺(tái),旨在幫助農(nóng)民克服金融波動(dòng)帶來(lái)的影響,打造數(shù)字易貨經(jīng)濟(jì)。

    Abakus系統(tǒng)基于一種以實(shí)物資產(chǎn)(例如大豆)為索引的加密貨幣,這種貨幣可能比本國(guó)不斷波動(dòng)的貨幣更穩(wěn)定,而代幣可以兌換成貨物或比索。這兩家公司表示,代幣化農(nóng)業(yè)資產(chǎn)將有助于農(nóng)民對(duì)沖通貨膨脹,并在國(guó)內(nèi)和國(guó)際上獲得流動(dòng)性。

    CoreLedger首席執(zhí)行官Johannes Schweifer表示:“ 在一個(gè)飽受通貨膨脹困擾的國(guó)家,獲得有形資產(chǎn)的能力可能是這些農(nóng)民生存與發(fā)展之間的區(qū)別。

    Abakus首席執(zhí)行官M(fèi)artin Furst表示:“ 由于國(guó)有公司的壟斷地位,阿根廷的農(nóng)民們難以生存,這些壟斷者決定了農(nóng)產(chǎn)品貿(mào)易的條件并大幅度削減了農(nóng)產(chǎn)品。農(nóng)業(yè)支持的代幣解決了現(xiàn)金和股票儲(chǔ)蓄計(jì)劃固有的波動(dòng)性和流動(dòng)性問(wèn)題。

    英國(guó)人工智能AlphaFold 2

    在國(guó)際象棋和圍棋領(lǐng)域取得巨大成功后,去年年底,人工智能再次大出風(fēng)頭。在國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)賽中,AlphaFold 2摘得桂冠,并破解了一個(gè)困擾人類50年的難題:預(yù)測(cè)蛋白質(zhì)如何折疊。

    據(jù)DeepMind官方宣布,該算法能夠精確地基于氨基酸序列,預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu),其準(zhǔn)確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學(xué)等實(shí)驗(yàn)技術(shù)解析的3D結(jié)構(gòu)相媲美。

    在過(guò)去50年中,“蛋白質(zhì)折疊問(wèn)題”一直是生物學(xué)界的重大挑戰(zhàn)。此前,生物學(xué)家主要利用X射線晶體學(xué)或冷凍電鏡等實(shí)驗(yàn)技術(shù)來(lái)破譯蛋白質(zhì)的三維結(jié)構(gòu),但這類方法耗時(shí)長(zhǎng)、成本高。而AlphaFold 2不僅預(yù)測(cè)準(zhǔn)確且效率高,有望促進(jìn)醫(yī)學(xué)領(lǐng)域不斷取得進(jìn)步。

    美國(guó)圖像生成系統(tǒng)Dall-E

    美國(guó)人工智能非營(yíng)利組織Open AI于今年1月份推出Dall—E,這是一個(gè)可以根據(jù)書面文字生成圖像的人工智能系統(tǒng)。取名DALL-E,是為了向藝術(shù)家薩爾瓦多-達(dá)利(Salvador Dali )和皮克斯的機(jī)器人WALL-E致敬。

    DALL-E是OpenAI基于GPT-3開(kāi)發(fā)的一種新型神經(jīng)網(wǎng)絡(luò)。它是GPT-3的一個(gè)小版本,使用了120億個(gè)參數(shù),而不是1750億個(gè)參數(shù)。但它已經(jīng)經(jīng)過(guò)專門訓(xùn)練,可以從文本描述生成圖像,使用的是文本-圖像對(duì)的數(shù)據(jù)集,而不是像GPT-3這樣非常廣泛的數(shù)據(jù)集。它可以使用自然語(yǔ)言從文字說(shuō)明中創(chuàng)建圖像,就像GPT-3創(chuàng)建網(wǎng)站和故事一樣。

    德國(guó)文本AI模型GPT-Neo

    OpenAI的GPT—3被認(rèn)為是目前最好的人工智能文本生成器,其擁有1750億個(gè)參數(shù),現(xiàn)已被數(shù)萬(wàn)開(kāi)發(fā)者用于300多個(gè)不同的應(yīng)用程序,每天輸出45億詞之多。

    但它是收費(fèi)的,這阻礙了更多開(kāi)發(fā)人員的采用,也不利于文本AI的快速發(fā)展。有鑒于此,德國(guó)Eleuther人工智能公司于今年3月下旬推出開(kāi)源的文本AI模型GPT—Neo,以彌補(bǔ)這方面的缺憾。研究人員稱,GPT—Neo的推出將會(huì)催生出一大批嶄新應(yīng)用,也會(huì)以更為低廉的成本釋放人們對(duì)人工智能未來(lái)的想象力。

    本質(zhì)上,GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目:GPT-Neo中的各種模型,設(shè)計(jì)原理接近GPT系列,但代碼并不一樣。作者們打算嘗試各種結(jié)構(gòu)和注意力類型,最終擴(kuò)展出GPT-3大小的大語(yǔ)言模型。為了實(shí)現(xiàn)這一目標(biāo),他們從復(fù)現(xiàn)GPT系列的模型開(kāi)始,不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

    中國(guó)量子計(jì)算機(jī)“九章”

    “九章”是由中國(guó)科學(xué)技術(shù)大學(xué)潘建偉、陸朝陽(yáng)等學(xué)者研制的76個(gè)光子的量子計(jì)算原型機(jī)。

    實(shí)驗(yàn)顯示,當(dāng)求解5000萬(wàn)個(gè)樣本的高斯玻色取樣時(shí),“九章”需200秒,而目前世界最快的超級(jí)計(jì)算機(jī)“富岳”需6億年。等效來(lái)看,“九章”的計(jì)算速度比“懸鈴木”快100億倍,并彌補(bǔ)了“懸鈴木”依賴樣本數(shù)量的技術(shù)漏洞。

    這一成果使得我國(guó)成功達(dá)到了量子計(jì)算研究的第一個(gè)里程碑:量子計(jì)算優(yōu)越性(國(guó)外也稱之為“量子霸權(quán)”),并牢固確立了我國(guó)在國(guó)際量子計(jì)算研究中的第一方陣地位,為未來(lái)實(shí)現(xiàn)可解決具有重大實(shí)用價(jià)值問(wèn)題的規(guī)?;孔幽M機(jī)奠定了技術(shù)基礎(chǔ)。

    對(duì)于“九章”的突破,《科學(xué)》雜志審稿人評(píng)價(jià)該工作是“一個(gè)最先進(jìn)的實(shí)驗(yàn)”(astate-of-the-artexperiment),“一個(gè)重大成就”(a major achievement)。

    美國(guó)人工智能“神經(jīng)破譯”

    “神經(jīng)破譯”是由MIT CSAIL和谷歌大腦的研究者攜手開(kāi)發(fā)的一款人工智能軟件,基于語(yǔ)言進(jìn)化原理,可以在不知道語(yǔ)言來(lái)源的情況下破譯古代語(yǔ)言,并揭示某種語(yǔ)言和其他語(yǔ)言之間的關(guān)聯(lián)。

    研究者們利用同一語(yǔ)族內(nèi)不同語(yǔ)言之間的聯(lián)系,用該人工智能破譯了兩種失傳的語(yǔ)言:烏加里特文和線性文字B,堪稱現(xiàn)代版的“羅塞塔石碑”?。≒S:羅塞塔石碑是一塊用3種語(yǔ)言寫了同一個(gè)內(nèi)容的石碑,幫助語(yǔ)言學(xué)家們讀懂古文字。)

    烏加里特文(Ugaritic),是一種楔形文字,屬于閃米特語(yǔ)族。從字面上來(lái)看,就知道它是一個(gè)叫做烏加里特(Ugarit)的文明使用的語(yǔ)言,這個(gè)文明位于當(dāng)今地中海沿岸的敘利亞,在公元前6000年前后就初現(xiàn)蹤跡,在公元前1190年前后滅亡。

    線性文字B(Linear B),由一種人類還沒(méi)有破譯出來(lái)的線性文字A演化而來(lái),主要存活于公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語(yǔ)的一種古代書寫形式。

    未來(lái),在這項(xiàng)研究起作用的情況下,或許可以像借助羅曼語(yǔ)族三種語(yǔ)言的數(shù)據(jù)庫(kù)一樣,直接用機(jī)器借助其他已知的人類語(yǔ)言,實(shí)現(xiàn)暴力破解。

    印度區(qū)塊鏈應(yīng)用程序Smashboard

    Smashboard網(wǎng)站稱自己是一個(gè)“另類的社交媒體網(wǎng)絡(luò),為性侵受害者提供獨(dú)特的功能,目的是通過(guò)減少報(bào)案帶來(lái)的心理創(chuàng)傷,讓他們的生活更輕松”。

    借助區(qū)塊鏈技術(shù),Smashboard允許用戶創(chuàng)建他們所遭受犯罪的私人和加密賬本,并將其安全地存儲(chǔ)在網(wǎng)上。例如,Smashboard為用戶提供了收集材料的選項(xiàng),“這些材料可作為日記,也可作為加密個(gè)人空間中的時(shí)間戳證據(jù)”。更重要的是,該應(yīng)用程序允許性虐待受害者找到法律顧問(wèn)或律師,并與他們私下互動(dòng)。受害者還可以與女權(quán)主義新聞工作者建立聯(lián)系,甚至可以給他們匿名舉報(bào)。

    目前,Smashboard的另一個(gè)障礙是應(yīng)用的覆蓋范圍。該應(yīng)用程序目前只能使用三種語(yǔ)言-英語(yǔ),法語(yǔ)和西班牙語(yǔ)。這意味著該應(yīng)用無(wú)法覆蓋使用印度當(dāng)?shù)卣Z(yǔ)言的性虐待受害者。

    澳大利亞人工智能“蠕蟲大腦驅(qū)動(dòng)器”

    研究人員從蠕蟲微小的大腦中獲得靈感,開(kāi)發(fā)出一種能夠控制自動(dòng)駕駛 汽車 的人工智能系統(tǒng)“蠕蟲大腦驅(qū)動(dòng)器”。與大多數(shù)網(wǎng)絡(luò)中使用數(shù)百萬(wàn)個(gè)神經(jīng)元相比,該系統(tǒng)只需要幾個(gè)神經(jīng)元。

    該系統(tǒng)只用了控制電路中的19個(gè)神經(jīng)元和7.5萬(wàn)個(gè)參數(shù),就成功控制了一輛 汽車 。研究小組相信他們的新方法可減少訓(xùn)練時(shí)間,并使人工智能在相對(duì)簡(jiǎn)單的系統(tǒng)中實(shí)現(xiàn)成為可能。

    四、gpt3.5-turbo什么區(qū)別

    GPT-3.5 Turbo是GPT-3的一個(gè)升級(jí)版本,也是一個(gè)自然語(yǔ)言處理模型。它引入了額外的超參數(shù)、更多的預(yù)訓(xùn)練數(shù)據(jù),以及更復(fù)雜的模型結(jié)構(gòu),使得它可以在更多的任務(wù)上取得更好的表現(xiàn)。GPT-3.5 Turbo將原來(lái)的13.5B參數(shù)增加到了32B,這意味著它可以處理更多的上下文信息和更復(fù)雜的語(yǔ)言規(guī)則,同時(shí)還可以在更高層次上理解語(yǔ)義。與GPT-3相比,GPT-3.5 Turbo在語(yǔ)言生成、對(duì)話、翻譯和搜索等任務(wù)上表現(xiàn)更佳??偟膩?lái)說(shuō),GPT-3.5 Turbo是一種更強(qiáng)大、更智能的AI對(duì)話系統(tǒng)。

    以上就是關(guān)于gpt3參數(shù)量相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    ChatGPT勸退創(chuàng)業(yè)者

    如何訪問(wèn)chatGPT(如何訪問(wèn)chat gpt)

    蘋果手機(jī)找不到chatGPT(蘋果手機(jī)找不到換行鍵)

    網(wǎng)絡(luò)營(yíng)銷專業(yè)好就業(yè)嗎(網(wǎng)絡(luò)營(yíng)銷專業(yè)好就業(yè)嗎男生)

    中國(guó)市場(chǎng)營(yíng)銷網(wǎng)網(wǎng)站(中國(guó)市場(chǎng)營(yíng)銷網(wǎng)網(wǎng)站官網(wǎng))