Yoyo的雜記: Richard Sutton評論LLM

LLM

最近幾年大語言模型 (LLM; Large Language Model)已經風靡了世界，無論各行各業都想盡辦法要跟LLM沾上邊。但是，LLM真的是未來發展的聖杯嗎？

最近，強化學習之父Richard Sutton跳出來提到LLM是死路一條 (LLMs are a dead end)。圖靈獎楊立昆(LeCun Yann)，深度學習的先驅、CNN的重要發明者，也有相同的見解

Richard Sutton認為強化學習是著重於理解你的世界；LLM則是著重在學習模仿人類。Sutton認為智慧是在理解與行動，而LLM則是卡在模仿這一層。他認為LLM有三個致命的缺陷：

LLM缺乏真正的世界模型
預測人會說什麼，與預測世界會發生什麼，是完全不同的兩件事
例如一個燒開的熱水壺，LLM中知道「燙」、「別碰」，但不知道碰觸與燙傷之間的因果關係，沒有世界中的運作邏輯
LLM沒有Ground Truth
沒有正確答案的定義，因此沒有回饋給LLM來進行修正改進
例如打乒乓球的電玩，將球回擊就得分，沒接到球就失分，正確的定義很簡單且明確，因此就很容易進行訓練、模型也能調整其策略；LLM在生成的時候，並沒有正確的概念，例如要求生成提升注意力的文章，很難有標準答案來判斷其生成的內容對錯，因此很難讓模型可以精進
LLM沒辦法從經驗中學習
人類的學習是透過預期與實踐偏差來調整認知
例如今天下雨但沒有帶傘，多數人便會在未來關注氣象預報來決定是否帶傘；但LLM缺乏這樣的適應性(adaption)
另一個例子是你問LLM把冰塊放進微波爐會怎樣，LLM會回答你冰塊會融化。但如果經過5分鐘還沒完全融化，人多半會修正說微波爐沒有啟動，或是功率太低，但下次你問LLM，他還是回答會融化，而不會從上次的經驗來學習

Sutton認為目標是智慧的本質。沒有目標的系統只是一個行為系統，不是智慧系統。有人反駁LLM也有目標，預測下一個token就是他的目標。Sutton解釋LLM沒有主動實現某個目標的動力，只是執行預設的計算任務

Sutton提出了經驗學習範式(experiential paradigm)概念。核心是一個簡單且強大的感知、行動、獎勵 (Observation, Action, Reward)的循環。智慧就是這個flow不斷循環，不斷調整行動來增加獎勵

這個paradigm與LLM的差別在於學習的來源

LLM學習的來源是文件網頁，是間接的
經驗學習的來源是與系統與世界互動的，是直接的

Sutton舉嬰兒為例，認為嬰兒是透過try-n-error來學習，而不是單純的模仿。例如嬰兒碰觸玩具，而玩具發出聲音，嬰兒便會嘗試再碰觸玩具來驗證是否仍發出聲音。這就是一個observation-action-reward的循環。而現今的學校教育，是一種訓練而不是學習。他還舉例松鼠不上學，但透過與世界的互動，也可以知道怎麼找食物、如何躲避天敵、如何繁衍。

Sutton提出了Temporal difference (TD) learning，認為智慧系統是由四個元件組合而成：

策略 (Policy)
當前的情境下應該做什麼，從狀態到行動的映射
例如行進的前方有一扇門，那應該要想辦法打該這扇門
好的策略應該要能泛化，就是能處理沒見過的新情境，例如開門方式有些推，有些是拉，有些是側拉
價值函數 (Value Function)
TD學習核心作用是用來評估當前狀態的好壞，作為策略調整的依據
例如下棋時，下在A位與B位，何者贏棋的機會較高
TD的價值評估的是長期收益，而非短期收益，依據當前預測與未來實際結果的差異來修正評估
感知 (Perception)
將雜亂的感知數據，整理為有意義的內部表示
例如感知到紅色、圓形、有斑點的物體，感知元件會將他整合，判別為狀似蘋果的內部表示，方便策略與價值函數來作出反應。這是與世界互動的第一線
世界轉換模型 (Transition Model)
負責預測行動會帶來的狀態變化，理解因果關係
例如知道按下開關燈會亮
除了物理規律，此模型還包含抽象規律。這個模型不僅僅是從獎勵學習來的，而更是觀察行動與結果的對應關係中獲得

LeCun Yann則提出了JEPA(Joint Embedding Predictive Architecture)

Sutton認為LLM依賴人類創作的文件，那些是人對世界的描述，而非對世界本身的經驗。即使這些文件可以詳述人類的經驗，那也只是讓LLM達到local optima，而非global optima，從而失去真正通用的方法

除了上述的缺陷，Sutton指出LLM另一個大問題：泛化能力差
泛化指的是在一個任務學習到的知識，映射到另一個任務的能力。當前泛化的問題有兩方面

災難性遺忘(Catastrophic Forgotting)
當訓練新事物時，會遺忘掉所有的就事物
缺乏自動化的泛化機制
深度學習依賴梯度下降來優化模型參數，但無法歸納出新規律來應對新場景
好的泛化可以找出解決問題的多種方法，且能依照context來選擇最優的方法 (note: 就如Grand Truth知道何者為優，何者適合)
世界太大太複雜，不可能將所有的cases都納入訓練，因此需要系統能自動且持續的學習

另外，LLM還有一個問題，就是學習的頻寬不只來自於獎勵，更來自於感知數據。透過整合所有的感知訊號，來建構對世界的理解。人類是動物，如果能了解動物的智慧、了解松鼠的智慧，就可以了解AGI。

Sutton還提出了宇宙演化的四階段

References:

https://www.youtube.com/watch?v=RLR4OpetiEc

Yoyo的雜記

2026/01/07

Richard Sutton評論LLM

沒有留言: