1.jpg

4.jpg

2.jpg

5.jpg

3.jpg

6.jpg

你知道LLM(Large Language Model,大型語言模型)是什麼嗎?LLM是一種深度學習模型,透過吸收海量的文本數據學習知識。它能從大量的文章、影音、書籍中學習單詞和句子之間的關係,然後回答問題、翻譯、生成文本。除了作為聊天機器人,它也被廣泛運用在醫療、開發軟體和服務業,經常出現在日常生活中。想知道它的運作原理、優點與挑戰和其他實際應用?一起來看看這篇文章吧!

大型語言模型(Large Language Model, LLM)是一種深度學習模型,具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量的文本訓練,告訴它已存在的現象,像是新聞、書籍、影音等,使其擁有從海量的知識中識別、匯總、翻譯、預測、生成文字和其他內容的能力。簡單來說,它就是個記憶吐司,能吸收海量的知識,然後回答問題、生成文本、翻譯語言等。例如為產品描述生成文本、回答常見的問題(FAQ)、分析來自社交媒體和產品評論的客戶反饋。

LLM中的「大」是指模型在學習時可以自主更改參數的數量,參數越大代表模型的知識越豐富,能做到的事情也越多 。令人開心的是,它的知識範圍並不僅限於人類語言,還包括生物學語言(例如蛋白質、分子序列)、計算機語言(程式碼)等知識,因此被廣泛地運用在醫療保健、軟體開發、自然科學等領域。

LLM 如何運作?用途是什麼?

大型語言模型的工作原理是獲取大量的文本數據,從中學習單詞和句子之間的關係,訓練完畢後可用來分析現有文字的情感與意義或生成新的文本。而且隨著人工智慧的發展,模型能消化的數據集也越來越大,如此大量的文本使用無監督學習輸入人工智慧演算法進行訓練,當它被給予一個數據集而沒有明確的指令要如何處理它時,模型會自己學習單詞以及單詞和語句之間的關係與背後的概念。

它就像掌握一門語言的知識人,可以猜測句子和段落接下來會發生什麼,甚至想出新的單詞和概念。例如它可以學會根據上下文判斷「感冒」究竟是指身體上的不舒服,還是對某人感到排斥,又或者你和它說「今天心情不好」,它可能會關心你是不是遇到不順心的事情或身體不舒服等等。此外,大型語言模型也可以針對特定用例進行定製,通過微調或提示調整等技術,向模型提供少量數據以針對特定應用程式進行訓練。

LLM是一種深度學習模型,它能從大量的文章、影音、書籍中學習單詞和句子之間的關係,然後回答問題、翻譯、生成文本。

LLM 是怎麼訓練的?

大多數LLM都是在一個大型的、未經過標記的數據集上進行預先訓練(Pre-Training),之後會再根據不同需求判斷是否需要進行微調(Fine-Tuning),這時會加入少量的、以標記的數據集。訓練過程包括:

大型語言模型可以應用於不同種類的語言或場景,這不僅擴大了人工智慧的覆蓋範圍,也有望實現新一波的研究、創造力和生產力,因為它們可以為棘手的問題生成複雜的解決方案。例如,讓模型從分子和蛋白質結構資料庫中學習,然後利用這些知識提供可行的化合物,幫助科學家開發突破性的疫苗或治療方法;或是,信用卡公司使用LLM 進行異常檢測和欺詐分析,保護消費者。

LLM 為何颳起風潮?

大型語言模型的初衷其實源自於 2010 年的機器學習,因為機器本身無法思考、也無法吸收世界上所有的知識,因此科學家們退而求其次,先教會機器識字後,告訴它大量的現象,讓它自行判斷。幸運的事,機器找出了自己的規律、然後學習,這讓人工智慧有了大幅度的進步。後來從機器學習中發展出「深度學習」,讓電腦更好地從海量的資料中發展出可應用的模型,2014 年的 AlphaGo 就是一個經典例子。之後也陸續出現其他的深度學習模型,而其中擁有大量資料與參數的語言模型就是 LLM。