「人工通用智慧」(AGI：artificial general intelligence)

簪考資料

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence?fbclid=IwY2xjawFZsFtleHRuA2FlbQIxMAABHUisQKCEfFRUxLY7JIhkGmjgZIPYWfuDxrkrzw6G3ozkNK2hZnwVYWK2rw_aem_zL4_16T_ltstWIVwuOLstw

https://www.ithome.com.tw/news/163913

https://m.weibo.cn/status/5055438500666520

</aside>

算是預期當中、也算是意外，正當我開始著手進行本自主學習計畫之際，2024/9/12 OpenAI 再度發布二款新模型，包括 o1-preview，以及 o1-mini。

該模型經過強化學習訓練，可以進行複雜的推理。 o1 在回答之前會先進行思考，它可以在回應使用者之前先產生一個長的內部思考鏈。這種「思考鏈」(chain of thought) 方法在各種推理密集型任務 (例如程式碼生成、數學問題解決和科學推理) 中顯著提高了效能，讓 o1 模型在許多領域中都超越了人類專家。

OpenAI o1 比「大多數人類」更聰明，據 Maxim Lott 在挪威門薩智商測試中的實驗，它在挪威門薩智商測驗中擊敗了所有其他人工智慧，人類的平均智商分數為 100 分 (標準差 15 分)，o1 模型的智商達到 97 (離網) ~ 120 (聯網)，這可能標誌著人工智慧模型首次超越人類平均智商，而在一年多前， GPT-4 的智商只有 69 分；並且、應該會在 2026 年開始看到人工智慧的智商突破 140。

OpenAI 公司內部製定實現 AGI 的路線圖，分為 5 個階段：

聊天機器人（ChatBots）：目前AI系統所處的初級階段，主要用於聊天對話。
推理者（Reasoners）：可以解決基礎問題的系統，相當於人類博士水平。OpenAI的下一代模型即將達到這個階段。
智能代理（Agents）：可以代表用戶採取行動的系統，需要花費幾天時間完成任務。
創新者（Innovators）：可以進行創新的AI系統。
組織（Organizations）：超越個體，能夠完成一個組織的工作，是AGI最高階段。

o1模型測試的結果表明 OpenAI 已在其邁向「人工通用智慧」(artificial general intelligence，AGI) 的 5 層路線圖上，實現了第 2 階段的效能。這個里程碑表明，該模型”可以更頻繁地停止、思考和推理問題，以得出正確的答案” - - 這是第 3 階段 (人工智慧代理) 關鍵重要的先決條件。

基於目前公開資料，從 GPT-3 到 GPT-4（假設「GPT o1」指的是 GPT-4）在各個方面的數據比較：

比较项目 GPT-3 GPT-4

比較項目	GPT-3	GPT-4
模型規模	1750 億個參數	未公開具體參數數量，估計超過 GPT-3
語言理解能力	良好，能處理多種語言和複雜問題	提升約 10-15%，更準確理解上下文和細節
基準測試表現	在 GLUE、SuperGLUE 等標準測試中表現優異	在相同基準測試中分數提高約 10-15%
多語言支持	支持約 25 種語言	支持超過 50 種語言，非英語語言準確率提升約 20%
多模態能力	僅支持文本輸入和輸出	支持圖像和文本的多模態輸入，圖像理解準確率提高約 30%
生成文本質量	生成流暢但有時缺乏連貫性或創意	流暢性與連貫性提升約 25%，創意和多樣性提高約 20%
知識覆蓋範圍	廣泛但截至 2020 年的知識	知識更廣泛且更新，涵蓋更多專業領域，錯誤率降低約 20%
問題解決能力	能處理一般性問題和一些專業領域問題	在複雜和專業問題上的解決成功率提高約 25%
安全性與倫理性	有基本的內容過濾和安全措施	有害內容生成率降低約 30%，偏見指標改善約 15%
回應速度	良好，具體取決於使用的硬體資源	回應速度提高約 10%，計算效率更高
應用場景擴展	適用於聊天機器人、內容生成、翻譯等多種場景	擴展至更多專業領域和多模態應用，如醫療診斷輔助、法律諮詢等

AgentClinic

AgentClinic：在模擬臨床環境中評估 AI 的多模式代理基準

AgentClinic.pdf