<aside> <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/74669eb4-5b30-42a0-b8b4-ad1bbc4925c0/d6e39796-8e1e-4c3d-8000-4e366e2f7752/book_598150.png" alt="https://prod-files-secure.s3.us-west-2.amazonaws.com/74669eb4-5b30-42a0-b8b4-ad1bbc4925c0/d6e39796-8e1e-4c3d-8000-4e366e2f7752/book_598150.png" width="40px" />
提示詞問答比較
</aside>
僅僅一年的時間,AI 技術有著如光速般的發展,從聊天機器人發展到支持「多模態」,文字、圖像、聲音、影片等等幾乎不包;LLM (大語言模型) 也從 GPT-2 只有 15 億的訓練參數,一下暴增到 GPT-4 有著 1.8 萬億的超大訓練參數。
截至我開始撰寫本計畫,最新的語言模型是 Meta 公司開源的 Llama3,雖然它只有 4,000 億的訓練參數,但是在各項的評估基準,Llama3 的效能已經接近 GPT-4。
以下是目前各知名 LLM 之效能、參數比較圖:


第一階段的問答,我「不提供任何法律文件」給 LLM 模型,我以相同的提示詞詢問不同的 LLM,任由各個模型自由回答,最後我再來比對每個 LLM 回答的情形如何。
各大公司發展的 LLM,基本上分為「封閉」和「開源」兩類。我根據下列兩個原則:
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> 推理引擎 (INFERENCE ENGINE)
Replicate — Run AI with an API
</aside>
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> 主流 LLM 模型
Meta Llama3-8b-8192
Google Gemini-1.5-Pro
Anthropic Claude-3 Haiku
Open AI GPT-3.5
Open AI GPT-4
Mixtral 8x7B
</aside>
第二階段的問答。我將「台灣的全民健康保險法」以及「越南的健康保險法」兩份法律PDF文件,分別提供給不同的 LLM 做差異分析,最後我再來比對每個 LLM 回答的情形如何。
第二階段我選擇有提供上傳文檔分析功能的 LLM。
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> 網頁平台
</aside>
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> 本機模型
AnythingLLM
</aside>
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> APP
通義千問
訊飛星火
</aside>
為了確認第二階段問答各 LLM 生成的結果,是否真的是完全按照我提供的法律條文生成差異比較結果?因此我改以提供單一法律文件,並針對該文件的內容進行問答,最後合併各 LLM 回答的結果進行比對。
為了確認各大模型對上傳文件的理解能力,我選擇第二階段問答結果比較完整的 LLM,對「台灣的全民健康保險法」以及「越南的健康保險法」這兩份法案,分別生成「文件目錄」和「文件摘要」,最後我再來比對每個 LLM 回答的情形如何。。
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> 網頁平台
</aside>
<aside> <img src="/icons/checklist_gray.svg" alt="/icons/checklist_gray.svg" width="40px" /> APP
Claude APP
通義千問 APP
</aside>
經過前面三個和 LLM 問答的階段以後,最後我將導入最新的「擷取增強生成 (RAG) 」,嘗試自己建立簡單的 LLM 本地訓練資料庫。
擷取增強生成 (RAG) 是對大型語言模型輸出最佳化的過程,因此在產生回應之前,它會參考其「訓練資料來源以外的知識庫」。RAG 將原本就很強大的 LLM 功能擴展到特定領域或組織的內部知識庫,這是改善 LLM 輸出具成本效益的方法,可讓 LLM 在各種情況下仍然相關、準確且有用。
我的自主學習計畫是使用 Notion 軟體幫我做學習過程紀錄,Notion 應該是第一個導入 AI Writing 功能協助進行筆記的軟體,但是使用 AI 功能必須付費、也伏法建立自己的知識庫,因此我使用下列兩個方法將 LLM 導入 RAG,並且將本計畫所完成的相關筆記、文件「餵入」相對應的 Vault (訓練庫) 裡。