「人工通用智慧」(AGI:artificial general intelligence)

<aside> <img src="/icons/database_gray.svg" alt="/icons/database_gray.svg" width="40px" />

簪考資料

https://trackingai.org/IQ

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence?fbclid=IwY2xjawFZsFtleHRuA2FlbQIxMAABHUisQKCEfFRUxLY7JIhkGmjgZIPYWfuDxrkrzw6G3ozkNK2hZnwVYWK2rw_aem_zL4_16T_ltstWIVwuOLstw

https://www.ithome.com.tw/news/163913

https://m.weibo.cn/status/5055438500666520

</aside>

算是預期當中、也算是意外,正當我開始著手進行本自主學習計畫之際,2024/9/12 OpenAI 再度發布二款新模型,包括 o1-preview,以及 o1-mini。

該模型經過強化學習訓練,可以進行複雜的推理。 o1 在回答之前會先進行思考,它可以在回應使用者之前先產生一個長的內部思考鏈。這種「思考鏈」(chain of thought) 方法在各種推理密集型任務 (例如程式碼生成、數學問題解決和科學推理) 中顯著提高了效能,讓 o1 模型在許多領域中都超越了人類專家。

OpenAI o1 比「大多數人類」更聰明,據 Maxim Lott 在挪威門薩智商測試中的實驗, 它在挪威門薩智商測驗中擊敗了所有其他人工智慧,人類的平均智商分數為 100 分 (標準差 15 分),o1 模型的智商達到 97 (離網) ~ 120 (聯網),這可能標誌著人工智慧模型首次超越人類平均智商,而在一年多前, GPT-4 的智商只有 69 分;並且、應該會在 2026 年開始看到人工智慧的智商突破 140。

460144372_834118182164459_3387288380701288215_n.jpg

S__27041794.jpg

OpenAI 公司內部製定實現 AGI 的路線圖,分為 5 個階段

  1. 聊天機器人(ChatBots):目前AI系統所處的初級階段,主要用於聊天對話。
  2. 推理者(Reasoners):可以解決基礎問題的系統,相當於人類博士水平。OpenAI的下一代模型即將達到這個階段。
  3. 智能代理(Agents):可以代表用戶採取行動的系統,需要花費幾天時間完成任務。
  4. 創新者(Innovators):可以進行創新的AI系統。
  5. 組織(Organizations):超越個體,能夠完成一個組織的工作,是AGI最高階段。

o1模型測試的結果表明 OpenAI 已在其邁向「人工通用智慧」(artificial general intelligence,AGI) 的 5 層路線圖上,實現了第 2 階段的效能。這個里程碑表明,該模型”可以更頻繁地停止、思考和推理問題,以得出正確的答案” - - 這是第 3 階段 (人工智慧代理) 關鍵重要的先決條件。

基於目前公開資料,從 GPT-3 到 GPT-4(假設「GPT o1」指的是 GPT-4)在各個方面的數據比較:

比较项目 GPT-3 GPT-4

比較項目 GPT-3 GPT-4
模型規模 1750 億個參數 未公開具體參數數量,估計超過 GPT-3
語言理解能力 良好,能處理多種語言和複雜問題 提升約 10-15%,更準確理解上下文和細節
基準測試表現 在 GLUE、SuperGLUE 等標準測試中表現優異 在相同基準測試中分數提高約 10-15%
多語言支持 支持約 25 種語言 支持超過 50 種語言,非英語語言準確率提升約 20%
多模態能力 僅支持文本輸入和輸出 支持圖像和文本的多模態輸入,圖像理解準確率提高約 30%
生成文本質量 生成流暢但有時缺乏連貫性或創意 流暢性與連貫性提升約 25%,創意和多樣性提高約 20%
知識覆蓋範圍 廣泛但截至 2020 年的知識 知識更廣泛且更新,涵蓋更多專業領域,錯誤率降低約 20%
問題解決能力 能處理一般性問題和一些專業領域問題 在複雜和專業問題上的解決成功率提高約 25%
安全性與倫理性 有基本的內容過濾和安全措施 有害內容生成率降低約 30%,偏見指標改善約 15%
回應速度 良好,具體取決於使用的硬體資源 回應速度提高約 10%,計算效率更高
應用場景擴展 適用於聊天機器人、內容生成、翻譯等多種場景 擴展至更多專業領域和多模態應用,如醫療診斷輔助、法律諮詢等

AgentClinic

AgentClinic:在模擬臨床環境中評估 AI 的多模式代理基準

AgentClinic:在模擬臨床環境中評估 AI 的多模式代理基準

AgentClinic.pdf