🔥 Gate 動態大使專屬發帖福利任務第二期報名正式開啓!🏆 首期獲獎名單將於5月26日公布!
報名連結 👉 https://www.gate.com/questionnaire/6722
報名時間 🕙 5月23日11:00 - 5月26日 24:00 UTC+8
✍️ 5月26日 — 6月1日期間每日發帖,根據帖子內容評級瓜分 $300 獎池
🎁 獎勵詳情:
一、S級周度排名獎
S級:每週7日均完成發帖且整體帖子內容質量分數>90分可獲S級,挑選2名優質內容大使每人$50手續費返現券。
二、A/B 等級瓜分獎
根據各位動態大使發帖數量及帖子內容質量獲評等級,按評定等級獲獎:
A級:每週至少5日完成發帖且整體帖子內容質量90>分數>80可獲A級,從A級用戶中選出5名大使每人$20手續費返現券
B級:每週至少3日完成發帖且整體帖子內容質量80>分數>60可獲B級,從B級用戶中選出10名大使每人$10手續費返現券
📍 活動規則:
1.每週至少3日完成發帖才有機會獲獎。
2.根據發帖天數和整體發帖內容質量分數給予等級判定,分爲S/A/B等級,在各等級下選擇幸運大使獲獎。
💡 帖子評分標準:
1.每帖不少於30字。
2.內容需原創、有獨立見解,具備深度和邏輯性。
3.鼓勵發布市場行情、交易知識、幣種研究等主題,使用圖例或視頻可提高評分。
4.禁止發布FUD、抄襲或詆毀內容
卷積神經網路之父楊立昆:我對 LLM 模型沒興趣了,這四大挑戰才能定義 AI 下一步
本文來自 Meta 首席 AI 科學家、圖靈獎得主 Yann LeCun 與 NVIDIA 首席科學家 Bill Dally 的公開對談。LeCun 認為大型語言模型 (LLM) 熱潮已近尾聲,未來 AI 的突破將在於理解物理世界、推理規劃及開源模型。 (前情提要:OpenAI 發佈 o3 與 o4-mini 最強推理模型:能思考圖片、自動選用工具,數學、編碼性能再突破) (背景補充:OpenAI 傳秘密打造「自家社群平台」,劍指死對頭馬斯克的 X) 在AI 浪潮席捲全球的今天,當眾人目光仍聚焦於大型語言模型 (LLM) 的新進展時,被譽為卷積神經網路之父、現任 Meta 首席 AI 科學家的楊立昆(Yann LeCun)近期卻語出驚人地表示,他對 LLM 的興趣已逐漸減退。 上個月在一場與 NVIDIA 首席科學家 Bill Dally 的深度對談中,LeCun 詳述了他對 AI 未來發展方向的獨到見解,強調理解物理世界、持久記憶、推理與規劃能力,以及開源生態的重要性,才是引領下一波 AI 革命的關鍵,下文為您做重點整理。 告別 LLM 迷思:為何 AI 需要更懂世界? LeCun 坦言,儘管過去一年 AI 領域充滿了令人興奮的發展,但他認為 LLM 在很大程度上已成為業界產品團隊在邊際上改進的技術,例如追求更大的數據集、更強的算力,甚至生成合成數據來訓練模型。他認為這些並非最具前瞻性的研究方向。 相反地,他將目光投向了四大更根本的挑戰: 理解物理世界: 讓機器掌握我們生存的真實環境法則。 擁有持久記憶: 使 AI 能夠像人一樣累積和運用經驗。 具備推理能力: LeCun 認為目前讓 LLM 進行推理的方式過於簡化,需要更根本的方法。 實現規劃能力: 讓 AI 能預測行動後果並制定計畫。 LeCun 強調,人類嬰兒在出生後數月內就能習得基本的物理世界模型,例如推倒水瓶和滑動水瓶的區別。這種對世界運作方式的直觀理解,是我們與真實世界互動的基礎,其難度遠超處理語言。他認為,要讓 AI 真正理解並應對真實世界,所需的架構將與目前主流的 LLM 完全不同。 他進一步解釋,LLM 的核心是預測下一個「符號」。雖然符號可以是任何東西,例如自動駕駛模型中,感測器輸入的符號最終產生驅動汽車的符號,這在某種程度上是對物理世界的推理(例如判斷哪裡開車安全),但這種基於離散符號的方法有其局限性。 LeCun 指出,典型的 LLM 符號數量約在 10 萬個左右,模型產生的是一個覆蓋所有可能符號的機率分佈。然而,這種方法難以應用於高維度、連續性的真實世界數據,如影片。 「所有試圖讓系統通過預測影片像素級細節來理解世界或建立世界模型的嘗試,基本上都失敗了。」 LeCun 提到,過去 20 年的經驗表明,即使是透過重建損壞或變換後的圖像來學習圖像表徵的技術(如自編碼器),效果也不如他所提倡的「聯合嵌入」(Joint Embedding) 架構。後者不試圖在像素層面進行重建,而是學習圖像或影片的抽象表徵 (representation),並在該抽象空間中進行預測。 他舉例說明,如果拍攝一段房間的影片,然後停下,要求系統預測接下來的畫面,系統或許能預測出房間裡有人坐著,但無法精確預測每個人的樣貌,因為這些細節是不可預測的。 如果強迫模型去預測這些像素級細節,將會浪費大量資源在無法實現的任務上。「透過預測影片進行自我監督學習的嘗試都行不通,只有在表徵層面進行才有效。」這意味著,真正能理解世界的模型,其架構可能並非生成式的。 世界模型與 JAPA:通往真正推理的道路 那麼,如果不是 LLM,能夠理解物理世界、擁有持久記憶並進行推理規劃的模型會是什麼樣子? LeCun 認為答案在於「世界模型」(World Models)。他解釋,世界模型是我們內心對世界運作方式的模擬器,讓我們能夠在腦海中操縱想法、預測行為後果。這正是人類進行規劃和推理的核心機制,我們並非在符號空間中進行思考。 他提出了名為「聯合嵌入預測架構」(Joint Embedding Predictive Architecture, JAPA) 的概念。這種架構的運作方式是:將一段影片或圖像輸入編碼器得到一個表徵,再將後續的影片或圖像輸入另一個編碼器,然後嘗試在「表徵空間」中進行預測,而非在原始輸入空間(如像素或符號)中預測。雖然可以使用類似「填空」的訓練方法,但操作是在抽象的潛在空間 (latent space) 中進行。 這種方法的難點在於,如果設計不當,系統可能會「崩潰」,即忽略輸入,只產生一個恆定且無信息的表徵。LeCun 表示,直到五、六年前,才出現了有效防止這種情況的技術。他與同事們近年來已發表多篇論文,闡述 JAPA 世界模型的初步成果。 JAPA 的目標是建立一個預測器:當系統觀察到一段影片,它會形成對當前世界狀態的理解;接著,它需要能夠預測「如果我採取某個想像中的行動,下一個世界狀態會是什麼」。擁有這樣的預測器,AI 就能規劃一系列行動以達到特定目標。 LeCun 堅信,這才是實現真正推理和規劃的正確途徑,遠勝於目前一些所謂的「代理式推理系統」。這些系統通常生成大量符號序列,再用另一個神經網路挑選最佳序列,LeCun 形容這種方法如同「隨機寫程式,然後測試哪個能用」,效率極低且不可靠。 LeCun 也對當前一些 AI 研究者聲稱通用人工智慧 (AGI) 或他更傾向稱之為高級機器智慧 (AMI, Advanced Machine Intelligence) 指日可待的說法提出質疑。他認為,那種僅僅依靠擴展 LLM 規模、生成海量符號序列就能達到人類水平智慧的想法是「無稽之談」(nonsense)。 儘管他預計在未來 3 到 5 年內,能在小規模上掌握構建具有抽象世界模型並用於推理規劃的系統,並可能在十年左右達到人類水平,但他強調歷史上 AI 研究者多次宣告革命即將到來,結果都證明是過於樂觀。 「現在這一波也是錯誤的。」他認為,AI 在特定領域達到博士水平或...