正文

openai開源項目（openhd開源項目）

發(fā)布時間：2023-03-13 01:23:33 稿源：創(chuàng)意嶺閱讀： 126 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于openai開源項目的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、2022年值得關注的5個AI趨勢 – thenewstack
2、啊哪個國家
3、chatgtp開源嗎
4、只需要十分之一數(shù)據(jù)，就能通關四大視覺任務，居然還開源了

openai開源項目（openhd開源項目）

一、2022年值得關注的5個AI趨勢 – thenewstack

COVID-19 大流行加速了 2021 年人工智能或機器學習的采用。企業(yè)對自動化的需求以及人工智能硬件和軟件的進步正在將應用人工智能變?yōu)楝F(xiàn)實。

以下是 2022 年的五種人工智能趨勢：

趨勢 1：大型語言模型 (LLM) 定義下一波對話式 AI

語言模型是基于自然語言處理技術和算法來確定給定單詞序列在句子中出現(xiàn)的概率，這些模型可以預測句子中的下一個單詞，總結文本信息，甚至可以從純文本創(chuàng)建可視化圖表。

大型語言模型 (LLM) 在包含大量數(shù)據(jù)的海量數(shù)據(jù)集上進行訓練。Google 的BERT和 OpenAI 的GPT-2和GPT-3是 LLM 的一些例子。眾所周知，GPT-3 在 570 GB 的文本上訓練了 1750 億個參數(shù)。這些模型可以生成從簡單的論文到復雜的金融模型的任何東西。

包括OpenAI、Hugging Face、Cohere、AI21 Labs在內(nèi)的AI 初創(chuàng)公司正在通過訓練具有數(shù)十億參數(shù)的模型來突破 LLM 的界限。

華為的PanGu-Alpha和百度的Ernie 3.0 Titan接受了包括電子書、百科全書和社交媒體在內(nèi)的 TB 級中文數(shù)據(jù)集的訓練。

2022 年，我們將看到大型語言模型成為下一代對話式 AI 工具的基礎。

趨勢二：多模態(tài)人工智能的興起

深度學習算法傳統(tǒng)上專注于從一種數(shù)據(jù)源訓練模型。例如，

這種類型的機器學習與單模態(tài) AI 相關聯(lián)，其中結果被映射到數(shù)據(jù)類型的單一來源——圖像、文本、語音。

多模態(tài) AI 是計算機視覺和對話式 AI 模型的終極融合，可提供更接近人類感知的強大場景。它將視覺和語音模式結合起來，將人工智能推理提升到一個新的水平。

多模式 AI 的最新示例是來自 OpenAI 的DALL-E，它可以從文本描述中生成圖像。

谷歌的多任務統(tǒng)一模型 ( MUM ) 是多模式 AI 的另一個例子。它承諾通過基于從 75 種不同語言中挖掘的上下文信息對結果進行優(yōu)先排序，從而增強用戶的搜索體驗。MUM 使用 T5 文本到文本框架，比 BERT（流行的基于轉(zhuǎn)換器的自然語言處理模型）強大 1000 倍。

NVIDIA 的GauGAN2模型將根據(jù)簡單的文本輸入生成照片般逼真的圖像。

趨勢 3：簡化和流線型 MLOps

機器學習操作 (MLOps) 或?qū)C器學習應用于工業(yè)生產(chǎn)的實踐非常復雜！

MLOps 是已納入基于云的 ML 平臺的概念之一，例如Amazon Web Services的Amazon SageMaker、Azure ML和Google Vertex AI。但是，這些功能不能用于混合和邊緣計算環(huán)境。因此，邊緣的監(jiān)控模型被證明是企業(yè)面臨的重大挑戰(zhàn)。在處理計算機視覺系統(tǒng)和對話式 AI 系統(tǒng)時，邊緣監(jiān)控模型變得更具挑戰(zhàn)性。

由于Kubeflow和MLflow等開源項目的成熟，MLOps 變得相當容易獲得。未來幾年，將出現(xiàn)一種流線型和簡化的 MLOps 方法，涵蓋云和邊緣計算環(huán)境。

趨勢 4：AI 驅(qū)動的低代碼開發(fā)

人工智能將影響 IT 的編程和開發(fā)。

大型語言模型 (LLM) 的興起和更廣泛的開源代碼可用性使 IDE 供應商能夠構建智能代碼生成和分析。

望未來，期待看到可以從內(nèi)聯(lián)注釋生成高質(zhì)量和緊湊代碼的工具。他們甚至能夠?qū)⒂靡环N語言編寫的代碼翻譯成另一種語言，通過將遺留代碼轉(zhuǎn)換為現(xiàn)代語言來實現(xiàn)應用程序現(xiàn)代化。

趨勢五：新型垂直化人工智能解決方案

Amazon Connect和Google Contact Center AI是垂直整合的經(jīng)典例子。兩者都利用機器學習功能來執(zhí)行智能路由、由機器人驅(qū)動的對話以及對聯(lián)絡中心代理的自動協(xié)助。

這些服務是為零售和制造垂直行業(yè)高度定制的。

二、啊哪個國家

Chatgpt并不屬于任何一個國家，它是由一家名為OpenAI的美國人工智能實驗室所研發(fā)出來的。OpenAI成立于2015年，目的是促進開源人工智能技術的發(fā)展和推廣。Chatgpt是OpenAI團隊研發(fā)的一款基于自然語言處理技術的智能對話系統(tǒng)，可以通過學習大量的語言數(shù)據(jù)進行智能問答和交流，其應用領域非常廣泛，可以用于客服系統(tǒng)、智能助手、教育培訓等方面。目前，Chatgpt已經(jīng)成為了現(xiàn)實中的AI機器人，獲得了廣泛的應用。

三、chatgtp開源嗎

不開源。ChatGPT并沒有開源，而且官方也沒有任何關于ChatGPT的開源計劃。chatgpt是OpenAI開發(fā)的一個大型預訓練語言模型，通俗一點說就是一個聊天機器人。它是GPT-3模型的變體，ChatGPT經(jīng)過了訓練，可以根據(jù)接收到的輸入生成類似人類的文本響應，具有更自然、更多樣化的特點。用戶可以向它提出無數(shù)問題，而且通常會得到有用的答案。

四、只需要十分之一數(shù)據(jù)，就能通關四大視覺任務，居然還開源了

Github鏈接：https://github.com/opengvlab

家人們，你們有沒有這種苦惱？

搬一次家就換一次家具，那些又貴又重的家具既不好搬運，又不好全部帶走。

下一次又重新購置一遍家具，浪費錢不說，關鍵是來來回回都做一樣的事情！家具還沒用過幾次，利用率不高呀！

這種搬家的苦惱，就好比AI領域，做幾個任務就需要開發(fā)幾個高度定制的模型，不僅所需的數(shù)據(jù)采集量非常大，每次還都得從頭標注。既提不起數(shù)據(jù)的學習效率，又耗費巨大的數(shù)據(jù)獲取成本。

光是AI前端研究就耗費如此巨大的精力，更別提應用場景中數(shù)以萬計的長尾任務。

那怎么辦？

做一款通用的深度學習模型，才是關鍵。

1 通用，才是技術根本

目前，通用語言模型（GLM）已經(jīng)取得了令人矚目的進展，比如BERT、T5和GPT-3，它們在應對廣泛的語言下游任務時已經(jīng)游刃有余。

相形之下，通用視覺模型（GVM）的研究遲遲未交出一份令人滿意的答卷。

以往的大多數(shù) GVM 研究主要利用一種監(jiān)督信號來源，如 ViT-G/14 采用有標簽監(jiān)督，SEER 采用樣本的不同增強之間的對比學習，CLIP采用圖片文本對進行監(jiān)督。如果是在單個監(jiān)督信號下進行的預訓練，這幾種范式確實能夠生成在固定場景下表現(xiàn)良好的模型。但如果用在場景多元、任務多樣的下游場景，這些模型就難以勝任了。

比如現(xiàn)在最火的自動駕駛，汽車處于移動狀態(tài)，既要看到路況，又要看到紅綠燈，還要注意行人，甚至在智能座艙興起后，還要和語言技術、LBS場景服務協(xié)同，這么多的感知數(shù)據(jù)與協(xié)同任務，這么多隨機的新任務，無論在體量還是維度方面，都對視覺模型的要求極大提高。

這時，打造一款通用視覺模型，降低研發(fā)門檻，尤其是學術界的時間成本、資金成本，才能暢享下游的極致場景體驗。

去年11月，上海人工智能實驗室聯(lián)合商湯科技、香港中文大學、上海交通大學發(fā)布通用視覺技術體系“書生”（INTERN），一套持續(xù)學習框架，用于系統(tǒng)化解決當下人工智能視覺領域中存在的任務通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。

前不久，上海人工智能實驗室聯(lián)合商湯科技發(fā)布通用視覺開源平臺OpenGVLab，面向?qū)W術界和產(chǎn)業(yè)界開放其超高效預訓練模型、超大規(guī)模公開數(shù)據(jù)集，以及業(yè)內(nèi)首個針對通用視覺模型的評測基準。

這些開源技術，究竟有何魔力？

2 大力出奇跡，打造通用視覺模型

“書生” （INTERN），就是練就通用視覺能力的底層技術。

從技術實現(xiàn)上講，“書生”技術體系由由七大模塊組成，包括三個基礎設施模塊和四個訓練階段構成。

書生（INTERN）結構圖

首先，通用視覺數(shù)據(jù)系統(tǒng)。

這是一個超大規(guī)模的精標數(shù)據(jù)集，擁有100億個樣本和各種監(jiān)督信號，并依照四大視覺任務分別設置了四個數(shù)據(jù)子集：多模態(tài)數(shù)據(jù)GV-D- 10B分類標注的GV-Dc-36M、檢測標注的GV-Dd-3M、分割標注的GV-Ds-143K。

另外，這一數(shù)據(jù)集還包含11.9萬的標簽系統(tǒng)，不僅涵蓋了自然界的眾多領域和目前計算機視覺研究中的幾乎所有標簽，還擴充了大量細粒度標簽，涵蓋各類圖像中的屬性、狀態(tài)等。

而這，就是書生“大力出奇跡”的一大注腳。

其次，通用視覺模型結構。

它是由一個具有CNN和Transformer的統(tǒng)一搜索空間構建而成。

為何要建立這樣的混合結構？要知道，多年來，卷積神經(jīng)網(wǎng)絡（CNN）一直主導著視覺表征學習，并在圖像分類、目標檢測和語義分割等下游任務中表現(xiàn)出穩(wěn)定的可遷移性。但最近幾年，Vision Transformer (ViT)僅使用普通的Transformer結構就能作為圖像編碼模型在ImageNet-1k上取得媲美 CNN 的性能，在大規(guī)模數(shù)據(jù)集上 ViT 更是展示出比 CNN 更大的潛力。

盡管ViT在性能上有優(yōu)點，但純Transformer網(wǎng)絡相比卷積神經(jīng)網(wǎng)絡缺乏某些歸納偏置（inductive biases），因此需要更多的數(shù)據(jù)和計算資源。此外，自注意的計算成本相對于輸入的數(shù)量是平方的，限制了對高輸入分辨率的應用。因此，將CNN和Transformer和MLP結合起來，平衡效率和有效性兩個方面，才是模型通用的關鍵。

這種兼具更好的泛化能力和更高的模型容量的模型結構名為MetaNet。在MetaNet網(wǎng)絡結構族里面進行網(wǎng)絡結構搜索，從而得到最優(yōu)的一個模型訓練結構。

統(tǒng)一搜索的MetaNet架構：Conv和Trans分別表示卷積和Transformer。C和S為每一階輸出通道數(shù)和步幅。

具體來看，MetaNet不僅基于強化學習的PPO算法提出了統(tǒng)一搜索架構，并且，為了避免傳統(tǒng)的下采樣模塊會成為模型性能的瓶頸，“書生“結合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM)，用來代替原本的下采樣模塊。

因此，在淺層，模型依然使用卷積來提取特征，但在深層，模型卻能將Transformer模塊和LG-DSM結合使用，以便于更好地提取全局信息。

同時，書生還基于最大的MetaNet-B15蒸餾出了多達13種不同的模型結構，共24種不同的模型權重，現(xiàn)已全部開源。

這些模型結構基本涵蓋了現(xiàn)有市面上大部分的主流backbone，不僅能夠很輕易地遷移到所需要的算法框架作為新網(wǎng)絡預訓練的初始化，而且只需要更短的訓練時間就可以達到比原來更好的訓練效果。

MetaNet 模型與其他模型結構比較，結果如下：

基于卷積、Transformer和兩者混合的結構，分別用C，T和H表示，可以看出，在圖像分類性能上，MetaNet系列的MN-B1，MN-B4和MN-B7，和其他的SOTA模型相比，不僅有更高的精度，還有更低的FLOPS和參數(shù)量。

除了分類任務，把MetaNet做為檢測和分割的backbone，在COCO數(shù)據(jù)集上使用Mask R-CNN結構訓練，結果發(fā)現(xiàn)：在模型參數(shù)量更小的前提下，MN-B4比Swin-T精度高出2到4個點。另外還在ADE20K數(shù)據(jù)集上進行了語義分割任務，MN-B4的mIoU指標比Swin-T高出5個點之多。

上述兩個實驗結果表明，MetaNet系列模型結構，在模型精度與計算量之間，都達到了新的SOTA！

最后，通用視覺評測基準。

視覺評測基準GV-B ，就像是一個「擂臺」。

如下表所示，測評基準收集了 26 個下游任務數(shù)據(jù)集，囊括了 4 種視覺任務類型：分類，檢測，分割和深度估計。

在設置上，該基準引入了百分比樣本（percentage-shot），只需要選取整個數(shù)據(jù)集的一部分，例如 10%、20% ，對比縮小下游任務的訓練數(shù)據(jù)量后的模型性能。

與傳統(tǒng)的少樣本設置相比，這種百分比樣本設置可以很好地保留原始數(shù)據(jù)集的長尾分布等屬性，并減輕對樣本選擇的敏感性。因為有一些數(shù)據(jù)集樣本類別分布不平衡，比如下表中的VOC07+12，百分比數(shù)據(jù)的劃分方式卻會繼承這種分布情況。

右側(cè)三列avg，min和max，分別表示在10%的數(shù)據(jù)中，不同類別樣本數(shù)量的平均值，最小值和最大值。

結合上述數(shù)據(jù)集和任務類型，論文選取了一些具有代表性的模型來做評測對比。為了比較公平性，該對比使用了這些模型的官方預訓練權重。這些模型包括：

有了超大精標數(shù)據(jù)集、模型結構，以及評測基準后，已經(jīng)是萬事俱備，只欠訓練。

書生作為中國古代讀書人的經(jīng)典形象，代表著一個通過不斷學習、不斷成長進而擁有各方面才能的人格化角色：從基礎的知識技能學習開始，到對多種專業(yè)知識觸類旁通，進而成長為擁有通用知識的通才。借此意象，“書生”（INTERN）系統(tǒng)可通過持續(xù)學習，舉一反三，逐步實現(xiàn)通用視覺領域的融會貫通，最終實現(xiàn)靈活高效的模型部署。

下面就來看看，這套系統(tǒng)是如何通過訓練，一步步從生手變成專家再到多面手，最終在各種任務中大顯身手。

第一階段，訓練的是基礎能力，被稱為“基礎模型”（Amateur）。

然而CLIP需要400M的圖像-文本對進行前訓練，囿于極大的數(shù)據(jù)量，CLIP很難進一步發(fā)展。但“書生”提出了一種新的訓練范式，DeCLIP（Data efficient CLIP ），能夠同時使用來自圖像-文本、圖像-圖像和文本-文本對的監(jiān)督信號進行模型預訓練，從而更有效地實現(xiàn)通用性。

此外，為了充分利用大規(guī)模多模態(tài)數(shù)據(jù)獲取基礎模型的優(yōu)勢，這一階段提出了Upstream-Amateur (Up-A)視覺語言預訓練框架，同時挖掘模態(tài)內(nèi)和跨模態(tài)知識。

這一訓練框架分為兩個預訓練階段：Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中，Up-A-G(左)使用群體監(jiān)督功能，從更豐富的監(jiān)督中學習。Up-A-L(右)采用局部自我監(jiān)督學習方法，對訓練好的視覺-語言模型進行調(diào)整，從而提高自身在密集預測CV任務中的表現(xiàn)。

Upstream-Amateur的框架

得益于這些內(nèi)在的監(jiān)督，DeCLIP-ResNet50可以在ImageNet上實現(xiàn)60.4%的zero-shot 精度第一。這比CLIP-ResNet50高出0.8%，數(shù)據(jù)使用量少了81%。當遷移到下游任務時，DeCLIP-ResNet50在11個視覺數(shù)據(jù)集中有8個優(yōu)于CLIP。

更關鍵的是，訓練完成的Upstream-Amateur為后續(xù)的訓練階段提供了一個很高的起點。

第二階段，訓練的是專業(yè)能力，被稱為“專家模型”（Expert）。

Up-A階段得到的基礎模型，在一般的視覺識別問題上顯示出優(yōu)異的性能。但要完全掌握檢測、分割等更具體的任務，還需要在每個任務中進行更專業(yè)的預訓練，這就促成了第二個階段的到來，專家模型。

對于每個專家，“書生”采用了一種簡單的多頭設計，每個頭是一個特定數(shù)據(jù)集的子網(wǎng)絡，從一個公共的、共享的“主干”分支出來。比如Up-E (C)、Up-E (D)和Up-E (S)，分別用于圖像分類、對象檢測和語義分割。

第三階段，訓練的是組合能力，被稱為“通才模型”（Generalist）。

上述的多任務是指不同數(shù)據(jù)集(如ImageNet和CIFAR)的一個視覺問題(如分類)，或一個數(shù)據(jù)集的多個視覺問題(如分類和檢測)。但關鍵是，如何將專家整合到一個統(tǒng)一的模型中，獲得一個更加通用的視覺模型。因此，在預訓練“專家”階段之后，又將“通才”作為第三個預訓練階段，以進一步統(tǒng)一特征表示。

“書生”提出了一個新的范式，名為“混合參數(shù)共享”，從而開發(fā)一個名為“多面手”的通才模型。

具體來說，由于專家捕獲的知識是相互關聯(lián)的，當專家的特征融合為一個共享的表示形式時，再利用基于軟共享的跨任務知識轉(zhuǎn)移和基于硬共享的通用表示學習的方法，在不引入任務沖突的情況下在專家之間傳遞信息（特征轉(zhuǎn)移），從而進一步提高了多任務訓練的模型(專家)性能，即“通才”能力。

在結構上，通才模型是所有專家的一個相互關聯(lián)的版本，因此可以把每個“專家主干”稱為“通才分支”。此外，我們還可以根據(jù)訓練相應專家的任務將通才中的每個分支分為圖像、補丁和像素。但無論是軟共享還是硬共享，都意味著從專家模型到通才模型的一次躍升。

在經(jīng)歷了前三個訓練階段模塊后，終于來到最后的任務遷移階段（Adaptation）。

這個階段屬于技術鏈條的下游，用來解決各式各樣不同類型的任務，而這也是最考驗“書生”舉一反三能力的時刻。它需要在這個階段把之前學到的通用知識，融會貫通地應用到不同特定任務中。

在此之前，很多遷移學習方法確實取得了很多進步，但問題是，這些方法既沒有利用上游預訓練中的隱含信息，也沒有考慮到下游數(shù)據(jù)在少鏡頭場景中的不足。

因此，“書生”提出了一種Multi-stage Fine-tuning (MF)方法，緩解在數(shù)據(jù)較少的情況下傳輸?shù)睦щy，再通過將上游數(shù)據(jù)編碼成生成模型，即VQ-GAN，可以將預訓練的模型轉(zhuǎn)移到多個任務和領域，而無需每次都使用上游數(shù)據(jù)，而這也使得“書生”更具通用性和可擴展性。

多級微調(diào)(MF)概述：VQ-GAN模型首先在第一階段使用上游數(shù)據(jù)進行訓練，然后在第二階段由它重構下游數(shù)據(jù)。在此之后，第三階段只對新增任務的特定參數(shù)進行重新表示的圖像訓練，第四階段則通過下游數(shù)據(jù)對整個模型進行微調(diào)。

至此，一個具有持續(xù)學習能力的通用視覺模型終于出世。

而具體有哪些提升，不如看一下更直觀的實驗數(shù)據(jù)對比！

3 一網(wǎng)打盡視覺領域四大任務

視覺領域，任務繁多，主流任務包含分類、目標檢測、語義分割、深度估計四大類型。

在這四大任務中，最強大的視覺模型還是去年OpenAI發(fā)布的CLIP模型。但相比較而言，“書生”則在準確率和數(shù)據(jù)使用效率上都有所提升。

1、精度表現(xiàn)

通過對“書生”訓練出的模型在GV-B上的評測對比，發(fā)現(xiàn)經(jīng)過多階段預訓練的MetaNet精度表現(xiàn)優(yōu)異。

在ImageNet等26個最具代表性的下游場景中， “書生”在分類、目標檢測、語義分割及深度估計等四大任務上，平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。

書生（INTERN）與CLIP-R50x16在不同樣本量上的性能對比，正確率展示

2、數(shù)據(jù)使用效率

“書生”在數(shù)據(jù)效率方面的提升尤為矚目：只需要1/10的下游數(shù)據(jù)，就能超過CLIP基于完整下游數(shù)據(jù)訓練的準確度。

以CLIP-R50x16和Up-G MN-B15在GV-B的評測對比為例，分別在分類、目標檢測、語義分割、深度估計四大類型的26個下游任務數(shù)據(jù)集上進行了評測，僅使用了10%數(shù)據(jù)進行訓練的Up-G MN-B15模型，在絕大部分數(shù)據(jù)集上都能比使用了全部訓練數(shù)據(jù)的CLIP-R50有更好的精度表現(xiàn)。這表明，經(jīng)過多階段預訓練的MetaNet具有極強的泛化能力，能夠在僅有少量的訓練樣本情況下，達到SOTA的精度表現(xiàn)。

在下游視覺場景中，小樣本訓練帶來的是極高的訓練速度，以及極低的訓練成本。

例如在花卉種類識別任務上，“書生“只需要每一類型的花卉提供兩個訓練樣本，就能實現(xiàn)99.7%的準確率。

這個花卉數(shù)據(jù)集由102種英國常見的花組成，每個類別有40至258張圖片。其中包含有很大的比例、姿勢和光線變化。

102個類別的花卉數(shù)據(jù)集：

https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

4 通用視覺平臺，已正式開源

如此強大的通用視覺訓練模型已經(jīng)正式開源！

更關鍵的是，連同上述講到的標簽數(shù)據(jù)集、網(wǎng)絡結構以及評測基準，均在OpenGVLab被統(tǒng)一打包開源。

其中的網(wǎng)絡結構除了MetaNet，還包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以滿足不同場景的應用，賦能計算機視覺。

然而，「書生」的布局不止于此。

OpenGVLab將與上海人工智能實驗室此前發(fā)布的OpenMMLab、OpenDILab一道，共同構筑開源體系OpenXLab，持續(xù)推進通用人工智能的技術突破和生態(tài)構建。

一位已經(jīng)使用過此次開源平臺的自動駕駛算法研究員表示：“書生系列模型充分覆蓋了從移動可部署的小模型，到超大規(guī)模自研結構，為行業(yè)帶來了希望，尤其是它的收斂速度，大幅節(jié)省了訓練開銷，是技術落地的一大助推器。“