LLM
最近幾年大語言模型 (LLM; Large Language Model)已經風靡了世界,無論各行各業都想盡辦法要跟LLM沾上邊。但是,LLM真的是未來發展的聖杯嗎?
最近,強化學習之父Richard Sutton跳出來提到LLM是死路一條 (LLMs are a dead end)。圖靈獎楊立昆(LeCun Yann),深度學習的先驅、CNN的重要發明者,也有相同的見解
Richard Sutton認為強化學習是著重於理解你的世界;LLM則是著重在學習模仿人類。Sutton認為智慧是在理解與行動,而LLM則是卡在模仿這一層。他認為LLM有三個致命的缺陷:
- LLM缺乏真正的世界模型
預測人會說什麼,與預測世界會發生什麼,是完全不同的兩件事
例如一個燒開的熱水壺,LLM中知道「燙」、「別碰」,但不知道碰觸與燙傷之間的因果關係,沒有世界中的運作邏輯 - LLM沒有Ground Truth
沒有正確答案的定義,因此沒有回饋給LLM來進行修正改進
例如打乒乓球的電玩,將球回擊就得分,沒接到球就失分,正確的定義很簡單且明確,因此就很容易進行訓練、模型也能調整其策略;LLM在生成的時候,並沒有正確的概念,例如要求生成提升注意力的文章,很難有標準答案來判斷其生成的內容對錯,因此很難讓模型可以精進 - LLM沒辦法從經驗中學習
人類的學習是透過預期與實踐偏差來調整認知
例如今天下雨但沒有帶傘,多數人便會在未來關注氣象預報來決定是否帶傘;但LLM缺乏這樣的適應性(adaption)
另一個例子是你問LLM把冰塊放進微波爐會怎樣,LLM會回答你冰塊會融化。但如果經過5分鐘還沒完全融化,人多半會修正說微波爐沒有啟動,或是功率太低,但下次你問LLM,他還是回答會融化,而不會從上次的經驗來學習
Sutton認為目標是智慧的本質。沒有目標的系統只是一個行為系統,不是智慧系統。有人反駁LLM也有目標,預測下一個token就是他的目標。Sutton解釋LLM沒有主動實現某個目標的動力,只是執行預設的計算任務
Sutton提出了經驗學習範式(experiential paradigm)概念。核心是一個簡單且強大的感知、行動、獎勵 (Observation, Action, Reward)的循環。智慧就是這個flow不斷循環,不斷調整行動來增加獎勵
- LLM學習的來源是文件網頁,是間接的
- 經驗學習的來源是與系統與世界互動的,是直接的
Sutton提出了Temporal difference (TD) learning,認為智慧系統是由四個元件組合而成:
- 策略 (Policy)
當前的情境下應該做什麼,從狀態到行動的映射
例如行進的前方有一扇門,那應該要想辦法打該這扇門
好的策略應該要能泛化,就是能處理沒見過的新情境,例如開門方式有些推,有些是拉,有些是側拉 - 價值函數 (Value Function)
TD學習核心作用是用來評估當前狀態的好壞,作為策略調整的依據
例如下棋時,下在A位與B位,何者贏棋的機會較高
TD的價值評估的是長期收益,而非短期收益,依據當前預測與未來實際結果的差異來修正評估 - 感知 (Perception)
將雜亂的感知數據,整理為有意義的內部表示
例如感知到紅色、圓形、有斑點的物體,感知元件會將他整合,判別為狀似蘋果的內部表示,方便策略與價值函數來作出反應。這是與世界互動的第一線 - 世界轉換模型 (Transition Model)
負責預測行動會帶來的狀態變化,理解因果關係
例如知道按下開關燈會亮
除了物理規律,此模型還包含抽象規律 。這個模型不僅僅是從獎勵學習來的,而更是觀察行動與結果的對應關係中獲得
LeCun Yann則提出了JEPA(Joint Embedding Predictive Architecture)
Sutton認為LLM依賴人類創作的文件,那些是人對世界的描述,而非對世界本身的經驗。即使這些文件可以詳述人類的經驗,那也只是讓LLM達到local optima,而非global optima,從而失去真正通用的方法
除了上述的缺陷,Sutton指出LLM另一個大問題:泛化能力差
泛化指的是在一個任務學習到的知識,映射到另一個任務的能力。當前泛化的問題有兩方面
- 災難性遺忘(Catastrophic Forgotting)
當訓練新事物時,會遺忘掉所有的就事物 - 缺乏自動化的泛化機制
深度學習依賴梯度下降來優化模型參數,但無法歸納出新規律來應對新場景
好的泛化可以找出解決問題的多種方法,且能依照context來選擇最優的方法 (note: 就如Grand Truth知道何者為優,何者適合)
世界太大太複雜,不可能將所有的cases都納入訓練,因此需要系統能自動且持續的學習
Sutton還提出了宇宙演化的四階段
References:
- https://www.youtube.com/watch?v=RLR4OpetiEc
沒有留言:
張貼留言