[AI新聞] GPT-4 以多模態模型改寫通用人工智慧新篇章

大數軟體
March 15, 2023, 11:13 a.m.

快速摘要

GPT四是OpenAI於二〇二三年三月十五日發布的大型多模態模型，是人工智慧從語言模型邁向通用人工智慧的重要里程碑。核心特點包含：支援文字與圖像雙模態輸入，可理解圖片內容、解讀迷因圖的幽默語境，並將手繪草圖直接轉換為可執行的網頁程式碼；在多項專業與學術基準測試中達到人類水準，表現優於谷歌同期推出的語言模型；應用程式介面計價為提示詞每千詞元零點零三美元、回覆詞每千詞元零點零六美元，付費訂閱用戶每四小時可呼叫一百次；微軟同步確認Bing對話功能使用的正是GPT四。GPT四的歷史意義在於打破人工智慧模型的「專用」侷限：以往視覺模型與語言模型各自獨立、互不相通，GPT四實現跨模態整合，結合文字生圖像及語音轉文字等工具，預示未來通用人工智慧將能同時理解圖片、文字與語音，開創多模態智慧新紀元。

OpenAI 如破曉的曙光般宣告 GPT-4 的誕生

今天（3/15）， OpenAI 重磅宣佈推出 GPT-4 ！相關的消息其實已經成為各大媒體熱議的焦點，所以不再贅述相關細節， GPT-4 的特點概括如下：

1. 可以產生較 GPT3.5 更加可靠、更富有創意的輸出
2. 一樣還是會一本正經的胡說八道，但這次經過多方調教以後，該模型會比GPT3.5 更加社會化
3. 在各種專業和學術基準測試中， GPT-4 表現出人類水平的實力，輕鬆擊敗一票類似的大型語言模型(包含 Google 之前推出的 PaLM，3/14 Google 推出的是 PaLM-E )
4. 未來會提供 API (提示詞的計價為0.03美元/1,000 Token，回覆詞的計價為0.06美元/1,000 Token)
5. ChatGPT Plus 用戶可每四小時呼叫 GPT-4 達100次
6. 要使用GPT-4 API 的開發者可以線上登記 GPT-4 API waitlist
7. 微軟亦證實，大家在 Bing 使用的對話模型正是 GPT-4

簡而言之，如眾人所料，全新的 GPT-4 成為了更強大、更可靠的語言模型。這次真正令人矚目的亮點是 GPT-4 不再局限於語言模型的範疇，而是以大型多模態模型的姿態揭示無窮潛能。除了文字輸入外，他還可以接受圖像輸入，因此在展示會中， OpenAI 示範了如何將一張手繪圖輕鬆轉化為網頁，並在官網上展示了 GPT-4 如何深刻洞悉一組圖片中的趣味，並巧妙地用文字呈現。正是這種多模態模型，讓通用人工智慧邁向了一大重要的里程碑！

GPT4 理解迷因圖的笑點

GPT4 可以將手繪圖轉換成網頁

通用人工智慧里程碑

在人工智慧嶄露頭角之時，監督式學習成為主宰，意味著要讓電腦洞悉圖像中的物件，需要先借助大量的"工人"智慧，透過眾多人工標記員的精心標註，方能打造一個專屬的圖像識別模型。在電腦視覺領域，這種學習方法取得了驚人的突破。2015年，孫劍領導的亞洲微軟研究院團隊憑藉著 ResNet 152層深度的神經網路，在ImageNet 大賽以僅僅3.5%的錯誤率擊敗眾多對手，該錯誤率甚至低於人眼判斷的5.1%。

儘管深度學習在電腦視覺領域擊敗了人類，但在自然語言處理（文字探勘）和語音識別方面一直受限，因為自然語言的結構複雜、標記困難以及標記量有限，使得傳統的監督式學習難以適用於這兩個領域。然而，ChatGPT 的橫空出世翻轉了這一局面。它利用自我監督式學習從大量非結構化資料中自問自答，隨後通過監督式學習微調（Fine-Tuning），最後運用強化學習學習人類回饋（RLHF），使得大語言模型（LLM）成為了自然語言處理的無敵利器。GPT 的誕生絕非偶然， OpenAI 團隊僅用六個月的時間便從零打造出 GPT-4 ，證明他們已掌握訓練大語言模型的關鍵技巧。只要數據量足夠大、計算力強大，他們便能訓練出更為可靠、更為強大的模型。

過去，討論人工智慧模型時，通常針對特定領域發展專屬模型，意味著視覺模型只能應對視覺問題，語言模型僅能處理語言問題，所有模型都局限於專用人工智慧階段，距離通用人工智慧仍有很大的差距。然而， GPT-4 的出現改變了這一現狀。它不僅能夠處理文字內容，還能應對圖像輸入並完全理解圖片中的含意，這無疑是通往通用人工智慧的重大突破。它不僅宣告多模態模型時代的來臨，更意味著僅在大型語言模型賽道上競爭顯得過於陳舊。此外， OpenAI 擁有眾多秘密武器，如 GPT-4 （文字生文字，圖像生文字）、DALL-E（文字生圖像）和 Whisper（語音生文字）等。不難想像，在不久的將來， OpenAI 的通用人工智慧模型將能同時理解圖片、文字和語音，甚至能像翻譯麻糬一般，實現機器間對不同格式資料的交流，從而開創智慧新紀元。