2026/01/07

Richard Sutton評論LLM

 LLM

最近幾年大語言模型 (LLM; Large Language Model)已經風靡了世界,無論各行各業都想盡辦法要跟LLM沾上邊。但是,LLM真的是未來發展的聖杯嗎?

最近,強化學習之父Richard Sutton跳出來提到LLM是死路一條 (LLMs are a dead end)。圖靈獎楊立昆(LeCun Yann),深度學習的先驅、CNN的重要發明者,也有相同的見解


Richard Sutton認為強化學習是著重於理解你的世界;LLM則是著重在學習模仿人類。Sutton認為智慧是在理解與行動,而LLM則是卡在模仿這一層。他認為LLM有三個致命的缺陷:

  • LLM缺乏真正的世界模型
    預測人會說什麼,與預測世界會發生什麼,是完全不同的兩件事
    例如一個燒開的熱水壺,LLM中知道「燙」、「別碰」,但不知道碰觸與燙傷之間的因果關係,沒有世界中的運作邏輯
  • LLM沒有Ground Truth
    沒有正確答案的定義,因此沒有回饋給LLM來進行修正改進
    例如打乒乓球的電玩,將球回擊就得分,沒接到球就失分,正確的定義很簡單且明確,因此就很容易進行訓練、模型也能調整其策略;LLM在生成的時候,並沒有正確的概念,例如要求生成提升注意力的文章,很難有標準答案來判斷其生成的內容對錯,因此很難讓模型可以精進
  • LLM沒辦法從經驗中學習
    人類的學習是透過預期與實踐偏差來調整認知
    例如今天下雨但沒有帶傘,多數人便會在未來關注氣象預報來決定是否帶傘;但LLM缺乏這樣的適應性(adaption)
    另一個例子是你問LLM把冰塊放進微波爐會怎樣,LLM會回答你冰塊會融化。但如果經過5分鐘還沒完全融化,人多半會修正說微波爐沒有啟動,或是功率太低,但下次你問LLM,他還是回答會融化,而不會從上次的經驗來學習

Sutton認為目標是智慧的本質。沒有目標的系統只是一個行為系統,不是智慧系統。有人反駁LLM也有目標,預測下一個token就是他的目標。Sutton解釋LLM沒有主動實現某個目標的動力,只是執行預設的計算任務

Sutton提出了經驗學習範式(experiential paradigm)概念。核心是一個簡單且強大的感知、行動、獎勵 (Observation, Action, Reward)的循環。智慧就是這個flow不斷循環,不斷調整行動來增加獎勵

這個paradigm與LLM的差別在於學習的來源
  • LLM學習的來源是文件網頁,是間接的
  • 經驗學習的來源是與系統與世界互動的,是直接的
Sutton舉嬰兒為例,認為嬰兒是透過try-n-error來學習,而不是單純的模仿。例如嬰兒碰觸玩具,而玩具發出聲音,嬰兒便會嘗試再碰觸玩具來驗證是否仍發出聲音。這就是一個observation-action-reward的循環。而現今的學校教育,是一種訓練而不是學習。他還舉例松鼠不上學,但透過與世界的互動,也可以知道怎麼找食物、如何躲避天敵、如何繁衍。

Sutton提出了Temporal difference (TD) learning,認為智慧系統是由四個元件組合而成:

  • 策略 (Policy)
    當前的情境下應該做什麼,從狀態到行動的映射
    例如行進的前方有一扇門,那應該要想辦法打該這扇門
    好的策略應該要能泛化,就是能處理沒見過的新情境,例如開門方式有些推,有些是拉,有些是側拉
  • 價值函數 (Value Function)
    TD學習核心作用是用來評估當前狀態的好壞,作為策略調整的依據
    例如下棋時,下在A位與B位,何者贏棋的機會較高
    TD的價值評估的是長期收益,而非短期收益,依據當前預測與未來實際結果的差異來修正評估
  • 感知 (Perception)
    將雜亂的感知數據,整理為有意義的內部表示
    例如感知到紅色、圓形、有斑點的物體,感知元件會將他整合,判別為狀似蘋果的內部表示,方便策略與價值函數來作出反應。這是與世界互動的第一線
  • 世界轉換模型 (Transition Model)
    負責預測行動會帶來的狀態變化,理解因果關係
    例如知道按下開關燈會亮
    除了物理規律,此模型還包含抽象規律 。這個模型不僅僅是從獎勵學習來的,而更是觀察行動與結果的對應關係中獲得

LeCun Yann則提出了JEPA(Joint Embedding Predictive Architecture)



Sutton認為LLM依賴人類創作的文件,那些是人對世界的描述,而非對世界本身的經驗。即使這些文件可以詳述人類的經驗,那也只是讓LLM達到local optima,而非global optima,從而失去真正通用的方法

除了上述的缺陷,Sutton指出LLM另一個大問題:泛化能力
泛化指的是在一個任務學習到的知識,映射到另一個任務的能力。當前泛化的問題有兩方面

  • 災難性遺忘(Catastrophic Forgotting)
    當訓練新事物時,會遺忘掉所有的就事物
  • 缺乏自動化的泛化機制
    深度學習依賴梯度下降來優化模型參數,但無法歸納出新規律來應對新場景
    好的泛化可以找出解決問題的多種方法,且能依照context來選擇最優的方法 (note: 就如Grand Truth知道何者為優,何者適合)
    世界太大太複雜,不可能將所有的cases都納入訓練,因此需要系統能自動且持續的學習
另外,LLM還有一個問題,就是學習的頻寬不只來自於獎勵,更來自於感知數據。透過整合所有的感知訊號,來建構對世界的理解。人類是動物,如果能了解動物的智慧、了解松鼠的智慧,就可以了解AGI。

Sutton還提出了宇宙演化的四階段

References:

  • https://www.youtube.com/watch?v=RLR4OpetiEc

2025/09/10

雜記

價值的多寡,來自於是否放對了地方

0放在分子,它就是0,但如果放在分母,就會變成無限大

當你做的事,無法跟成就感連結,或是不能與分享喜悲作連結,那所做的事是否還有足夠的價值與意義?一切的一切,是否只剩下為生存而作的努力?

儀式感為生活中的行為注入意義與價值,讓日常不再那麼日常,能有一些不一樣的風格與調性,為人帶來不一樣的愉悅與滿足

年輕人就別花時間在短影音了。當你逐漸長大,會發現這個世界越來越沒有耐性,只要短、小、精、實。

趁著年輕,還有青春能揮霍,多花點時間在細節上吧

看影片,去品味為何要用一個十幾二十秒的鏡頭,只拍稻穗搖擺發出如浪潮的聲音
賞一幅畫,去思考一個留白的空間如果塞進幾個筆觸貨色塊,會有怎樣的不同
念一首詩,去回溯詩人怎樣用這樣的聲韻來營造那個情緒或情境

當一切都要求精煉時,掌握細節的底蘊,就會是你與他人不同的關鍵

家不是一個地方、一個場所,它是一個熱源
當感到寒冷,它能給你溫暖
當失去動能,它能為你添加柴火
當心死了,它讓你在火柴的星火中看到希望

但當家不再是個熱源
就會潰縮成一個場地,就是一個場地

要推測一個人的目的並不容易
但可以用「永續」來檢視政治人物
如果永續不在他的思慮中
那他的作為只是想殺鵝拿金蛋

2025/03/02

數位競爭策略

數位競爭策略 (The Future of Competitive Strategy)

對傳統產業,較常見的競爭策略有競爭論中的五力分析。但在未來數位時代,企業必須思考數位導向的競爭策略。

傳統企業數位轉型的四個進程:

  1. 提升營運效率
    利用互動是數據,改善生產流程與內部效率
    如即時監控感測器數據,減少生產設備停工時間
  2. 進階營運效率
    數據來自用戶與產品間的互動,提升營運效率與產品設計優化
  3. 數據驅動型服務
    將數據轉化為新產品/服務,為客戶創造新價值
  4. 平台化競爭
    結合生產與消費生態系,透過數位平台與多方協作,形成新的商業模式

將書中內容彙整如下圖


企業必須具有數位能力,才能企劃數位策略
數位能力:
  • 資源
    • 基礎設施
    • 資料
  • 流程
    • API



2025/01/31

互相

在電梯大樓的公共電梯間,某甲說話大聲了些,另一人出聲要他低聲些,別吵了鄰居。他冒出了一句:「如果怕吵,就不應該來住集合住宅」

很難相信我耳朵所聽到的

在台灣的文化,或是台語中,我們常常會說「互相互相」

這個互相,除了彼此之間相互協助、幫忙外,更重要的人與人之間的互信、體諒、同理。我們常說台灣最美的風景是人,我相信這個「互相」一定是很重要的一個元素

大概三十多年前,我跟一位企業家前輩常有機會聊天,從他身上學習到很多待人識人的觀點。他曾經告訴我,一個人能否做朋友,就看他有沒有「互相互相」的心。如果有,表示他在思考時,也會從你的角度思考,這種人值得深交;如果沒有,他看事情多半只從他的角度出發,這種人大概很難長久相處

你跟身邊的人也能「互相互相」嗎?

2025/01/13

「反對完美」 摘要與省思

 反對完美 : 科技與人性的正義之戰

Michael Sandel

  • 這本書探討的是透過科技來改造人類,達到臻於完美,這是否是好的、對的方向
  • Sandel基本上是不贊同這樣的科技應用於「改良」,但可以接受於「治療」
  • 人類透過許多方式,希望能讓人類更美好
    • 基因(先天)
      • 優生學
      • 基因工程
      • 產前檢驗
    • 後天
      • 美容
      • 菁英教育
      • 藥物
    • 後天的方式不易有長期的改變,但先天的方式則會影響物種發展
  • 我們應該如何定義「完美」?這樣的完美是否在長期上,能讓這個物種更適應生存環境;或是讓這個物種限於local optimal,而失去走向global optimum,走向另一個更佳的另一個local optimal的機會
  • 複製人是否符合於倫理、道德、法律?複製人的地位?
  • 幹細胞/胚胎的道德疑慮
    • 幹細胞來自
      • 無性複製胚胎
      • 剩餘胚胎 (生育治療診所產出的受精卵多於植入的數量)
    • 這些胚胎是否算是生命?
    • 從胚胎取得幹細胞,讓一個生命死亡、來幫助另一個人,是否合乎道德?
    • 目前美國法律只允許使用多餘的胚胎,不贊成為了研究製造胚胎
      • 美國每年有數萬個多餘胚胎
      • 德國禁止醫師培育多於植入的受精卵