Chat (聊天型) LLM 最讓人擔心的是生成「一本正經的胡說八道」讓人分不清真偽的結果。
LLM 具有強大的自然語言處理 (NLP),但仍然存在一些局限性。它們缺乏真正的理解能力,只能依賴過去的訓練數據進行回應,所以無法即時呈現將新知識或異常情況。在回應的內容中有些偏見及不準確的資訊,因此模型需要持續的不斷學習才能從中獲取新知識。
經過前面四個 LLM 問答階段的結果知道:
RAG 模型的基本原理是將檢索和生成兩個步驟結合起來。RAG 模型使用檢索模型從外部知識庫中檢索與用戶查詢相關的信息。然後,RAG 模型使用生成模塊對檢索到的信息進行處理,生成最終的答案。
RAG(Retriever, Generator, Ranker)是一種自然語言處理的模型架構,說明解決搜索和生成任務中的問題。框架結合了檢索(retrieval)、生成(generation)和排名三個關鍵的NLP子任務,在生成文本的過程中利用外部知識資料來源 可以達到產出更準確和深入及高品質的生成結果。
過去,大型語言模型常以簡體中文的文本訓練,欠缺繁體中文資料,並常出現偏誤。TAIDE與其他大型語言模型不同之處,在於TAIDE-LX-7B模型有繁體中文的文本生成能力;TAIDE在Meta Llama-2-7B的基礎上,再補充繁中字元、字詞,讓文本能更精準、流暢且具台灣特色。