正文

ChatGPT突然爆火，內(nèi)部人也驚呆了

發(fā)布時(shí)間：2023-03-06 13:44:33 稿源：互聯(lián)網(wǎng) 閱讀： 654 問大家

當(dāng)OpenAI在2022年11月底推出ChatGPT時(shí)，幾乎沒對(duì)其抱任何特別的期望，而當(dāng)ChatGPT開始在網(wǎng)上病毒式傳播后，OpenAI爭先恐后地追趕，并利用這次機(jī)會(huì)完善自己的模型。

周五，在接受MIT Technology Review采訪時(shí)，OpenAI團(tuán)隊(duì)對(duì)于這次“成功”顯得格外謙遜。

OpenAI人工智能政策研究人員Sandhini Agarwal表示，這在內(nèi)部被視為一次“研究預(yù)覽”，是一項(xiàng)已有兩年歷史的技術(shù)的更完善版本，也是一次通過收集用戶反饋來彌補(bǔ)其缺陷的嘗試。另一位研究人員Liam Fedus則指出，OpenAI并不想將其作為一項(xiàng)重大的突破來過度宣傳。

自11月以來，OpenAI已經(jīng)多次更新了ChatGPT，研究人員正在使用一種稱為“對(duì)抗性訓(xùn)練”的技術(shù)來阻止ChatGPT“越獄”（jailbreaking）。這項(xiàng)工作使多個(gè)聊天機(jī)器人相互對(duì)抗：一個(gè)聊天機(jī)器人扮演對(duì)手，通過生成文本來對(duì)抗另一個(gè)聊天機(jī)器，迫使其打破通常的限制。

此外，OpenAI還與微軟簽署了一項(xiàng)價(jià)值數(shù)十億美元的協(xié)議，并宣布與全球管理咨詢公司貝恩結(jié)成聯(lián)盟，目標(biāo)是通過突破性的人工智能技術(shù)增強(qiáng)客戶的業(yè)務(wù)潛力。在OpenAI之外，圍繞ChatGPT掀起了一場“大模型”的淘金熱，全球各地公司和投資者都積極參與其中。

以下是采訪的具體內(nèi)容：

火的完全“出乎意料”，會(huì)話數(shù)據(jù)對(duì)ChatGPT產(chǎn)生了巨大的積極影響

Jan Leike（負(fù)責(zé)提高系統(tǒng)安全性團(tuán)隊(duì)負(fù)責(zé)人）：老實(shí)說，這的確是勢不可擋的的。我們很驚訝，也在一直在努力完善。

John Schulman（聯(lián)合創(chuàng)始人）：在發(fā)布后的幾天里，我經(jīng)常查看Twitter，在這段瘋狂的時(shí)間里，充斥著ChatGPT截圖。我希望它能獲得更多的關(guān)注，但我沒想到它能火到這種程度。

Sandhini Agarwal（人工智能政策研究員）：我認(rèn)為這對(duì)我們所有人來說絕對(duì)是一個(gè)驚喜，人們開始使用它。我們對(duì)這些模型進(jìn)行了大量研究，以至于我們忘記了它們有時(shí)對(duì)外界來說是令人驚訝的。

Liam Fedus（人工智能政策研究員）：我們很驚訝它的反響，以前有很多人嘗試過使用聊天機(jī)器人，然而，我們的私人測試版讓我們相信，我們擁有了人們可能真正喜歡的東西。

Jan Leike：我想更好地理解是什么推動(dòng)了這一切，是什么推動(dòng)著病毒性傳播。老實(shí)說，我們不知道。

（團(tuán)隊(duì)的部分困惑來自于ChatGPT中的大多數(shù)技術(shù)都不是新的，ChatGPT是GPT-3.5的一個(gè)微調(diào)版本，GPT-3.5是OpenAI在聊天機(jī)器人發(fā)布前幾個(gè)月研究出的大型語言模型。GPT-3.5本身是GPT-3的更新版本，于2020年發(fā)布。OpenAI還在2022年1月發(fā)布了GPT-3.5的微調(diào)版本，名為InstructGPT。但這些早期版本的技術(shù)都沒有面向公眾發(fā)布。）

Liam Fedus：ChatGPT模型是從與InstructGPT相同的語言模型中進(jìn)行微調(diào)得出的，我們添加了一些會(huì)話數(shù)據(jù)，并在訓(xùn)練過程進(jìn)行了一些微調(diào)。

我們并不想將其作為一項(xiàng)重大的突破來過度宣傳，但事實(shí)證明，會(huì)話數(shù)據(jù)對(duì)ChatGPT產(chǎn)生了巨大的積極影響。通過標(biāo)準(zhǔn)基準(zhǔn)測試評(píng)估原始技術(shù)能力，模型之間實(shí)際上沒有實(shí)質(zhì)性差異，但ChatGPT更易于訪問和使用。

“不要等到完美的時(shí)候再發(fā)布它”

Sandhini Agarwal：當(dāng)我們準(zhǔn)備發(fā)布時(shí)，我們并不認(rèn)為這個(gè)模型存在其他新的風(fēng)險(xiǎn)，GPT-3.5已經(jīng)發(fā)布，我們知道它已經(jīng)足夠安全了。通過ChatGPT對(duì)人類偏好的訓(xùn)練，該模型可以自動(dòng)學(xué)習(xí)拒絕行為，即拒絕大量請求。

Jan Leike：我們確實(shí)為ChatGPT做了一些額外的“紅隊(duì)測試”（red teaming），OpenAI的每個(gè)人都試圖打破這種模式。我們有外部團(tuán)體在做同樣的事情。我們也有一個(gè)早期訪問計(jì)劃，由信任的用戶提供反饋。

Sandhini Agarwal：我們確實(shí)發(fā)現(xiàn)它輸出一些不必要的內(nèi)容，所以作為一個(gè)“研究預(yù)覽”這一意圖是好的。

John Schulman：你不能等到你的系統(tǒng)完美后再發(fā)布它。我們已經(jīng)對(duì)早期版本進(jìn)行了幾個(gè)月的測試，測試人員對(duì)產(chǎn)品有較好的印象。我們最擔(dān)心的是真實(shí)性，因?yàn)槟Ｐ拖矚g捏造東西。但是InstructGPT和其他大型語言模型已經(jīng)存在，所以我們認(rèn)為，只要ChatGPT在真實(shí)性和其他安全問題上優(yōu)于那些模型，應(yīng)該就是更好的選擇。在發(fā)布之前，根據(jù)我們有限的評(píng)估，確認(rèn)這些模型確實(shí)比其他模型更真實(shí)和安全，所以我們決定繼續(xù)發(fā)布。

很多問題浮現(xiàn)，“越獄”亟待解決

Sandhini Agarwal：隨著ChatGPT的病毒傳播，許多問題真正浮出水面，這是我們希望盡快解決的關(guān)鍵問題。比如，ChatGPT非常擅長拒絕不好請求，但它也很容易編寫提示，使它不會(huì)拒絕我們希望它拒絕的內(nèi)容。

Liam Fedus：看到用戶提供的多樣化和創(chuàng)造性的應(yīng)用程序令人興奮，但我們始終專注于需要改進(jìn)的領(lǐng)域。我們認(rèn)為，通過我們部署、獲取反饋和改進(jìn)的迭代過程，我們可以生產(chǎn)出最強(qiáng)大的技術(shù)。而隨著技術(shù)的發(fā)展，新的問題出現(xiàn)不可避免。

Sandhini Agarwal：我們最需要解決問題是“越獄”，當(dāng)我們發(fā)現(xiàn)越獄情況時(shí)，我們會(huì)將其添加到訓(xùn)練和測試數(shù)據(jù)中。

Jan Leike：每次有更好的模型時(shí)，我們都想將其發(fā)布并測試。我們非常樂觀地認(rèn)為，一些有針對(duì)性的對(duì)抗性訓(xùn)練可以大大改善越獄情況。目前還不清楚這些問題是否會(huì)完全消失，但我們認(rèn)為，這起碼可以讓很多越獄變得更加困難。

我認(rèn)為，一旦你部署了這些系統(tǒng)，就很難真正預(yù)測它們的真正安全問題。因此，我們非常重視監(jiān)控人們使用系統(tǒng)的目的，看看發(fā)生了什么，然后做出反應(yīng)。但很難預(yù)測當(dāng)一個(gè)系統(tǒng)觸及現(xiàn)實(shí)世界時(shí)會(huì)發(fā)生的一切。

Sandhini Agarwal：現(xiàn)在的風(fēng)險(xiǎn)肯定比六個(gè)月前高得多，但仍低于一年后的水平。顯然，這些模型真正重要的一點(diǎn)是它們所使用的環(huán)境。與谷歌和微軟想法一樣，它們注定要成為搜索引擎。像搜索這樣的大模型所需要的，與僅僅是一個(gè)好玩的聊天機(jī)器人的是不同的。

我們需要弄清楚如何在所有這些不同的用途之間保持平衡，創(chuàng)造出在不同環(huán)境中對(duì)人們有用的東西。在這些環(huán)境中，期望的行為可能會(huì)發(fā)生變化，這增加了更多的壓力。我們正在構(gòu)建這些模型，以便將其轉(zhuǎn)化為產(chǎn)品。ChatGPT是一種產(chǎn)品，現(xiàn)在我們有了API。我們正在構(gòu)建這種通用技術(shù)，并需要確保它在所有方面都能正常工作，這是我們目前面臨的關(guān)鍵挑戰(zhàn)之一。

本文來自華爾街見聞，歡迎下載APP查看更多