梁文鋒,改變世界的理想主義者

  深度求索(DeepSeek )的爆火,是典型的「牆外開花牆內香」。
  2025年1月20日,當絕大多數中國人沉浸在即將過年的喜慶氛圍中時,位於杭州的深度求索公司不聲不響幹了件「大事」,發佈了最新的AI模DeepSeek-R 1。
  這是一個現象級應用,僅僅7天後,它就超越了世界上最知名的AI應用ChatGPT,成為美國蘋果應用商店中善受歡迎的免費App。
  華爾街的投資者們驚訝地發現,這款來自中國的App在功能上幾乎和ChatGPT一樣強大,但訓練成本低得驚人,只有ChatGPT的約5%,使用的算力很少。更特殊的是,它是開源的,免費分享自己的技術。
  資本市場立即作出回應,美國科技股暴跌。首當其衝的是壟斷了AI 晶片供應的英偉達,其市值一夜蒸發5800多億美元(約合4.3萬億元人民幣)。AI模型研發公司也難逃一劫, OpenAI、穀歌、微軟等公司股價應聲受挫。
  國外的聲音傳導到國內,中國消費者們才發現,原來國內有這麼強大的AI應用。兩個星期後,DeepSeek日活躍用戶已經突破3000萬人,成為僅次於豆包的中國第二大AI應用,而且使用人數還在快速增長。
  這是中國國產AI第一次沖進世界第–梯隊,更難得的是,這個成就是在美國限制中國先進晶片進口,試圖在科技領域「卡中國脖子」的背景下達成的。
  —時間,DeepSeek紅遍大江南北,也讓人們注意到做出這項突破的深度求索公司及其創始人——梁文鋒。
  非典型極客
  在全世界的記者忙著尋找梁文鋒時,他跑回了廣東湛江老家過年,沒有接受任何採訪。
  這不是故作神秘,而是梁文鋒低調性格的延續。今年剛滿40歲的他至今只接受過兩次採訪,那些在春節期間湧進他老家廣東湛江市米曆嶺村,想一睹其「芳容」的人也很可能會失望,因為據鄉親們講,梁文鋒很內向,回來過年時都「待在父母家,幾乎不出門」。
  接觸過梁文鋒的員工和商業夥伴有時會稱他為「極客」,這最初是國外描述科技怪人時用的一個詞,指那些聰明、熱愛技術、不喜歡社交、有點邋遢的人。
  梁文鋒是個「非典型極客」,他聰明、內向、熱愛技術,但並不是書呆子,而且也不邋遢,起碼在公開露面時看不出來。
  17歲時,梁文鋒以吳川市(湛江下屬縣級市)第一中學第一名的成績考上浙江大學電子資訊工程專業。他的數學很好,在中學時就自學過大學教材,癡迷於電腦技術,和張一鳴類似,在創業當了老闆後也經常親自打代碼開發程式。
  高中同學稱他喜歡足球,這是一項以激情著稱且充滿不確定性的運動。他在穿衣打扮上有點兒類似另一個著名企業家雷軍,並不算精緻,但也乾淨整潔。
  和很多人想像的不同,儘管癡迷於技術,且專業方向是機器視覺,這是AI的一個具體領域,但梁文鋒並不是那種聽到AI熱潮來了就立刻投入其中創業的人。2010年碩士畢業後,他有一個更現實的任務——賺錢。
  在嘗試多個領域後,梁文鋒最終決定進軍金融行業,用電腦研發演算法進行金融交易。2015年,他和兩個浙大校友一起創立了幻方量化,目標是成為世界頂級的量化對沖基金。到2021年,幻方量化管理的資產一度達到1000億元人民幣,但之後因為監管變嚴等原因,其管理資產規模明顯收縮。
  金融行業的經歷讓梁文鋒早早實現財富自由,成為億萬富翁,也給他之後創立深度求索提供了資金——這至關重要,因為這讓深度求索擺脫了職業投資人盈利要求的干擾,可以自由地做長遠且重要的事,這是他們後來成功的關鍵原因之一。
  對技術的熱愛並沒有讓梁文鋒滿足於做一個金融「巨鱷」。他在賺錢的同時也在不斷囤積顯卡。AI研發有3個最關鍵的要素:演算法、數據和算力。算力主要依靠的是一種特殊晶片——GPU。
  到2021年,梁文鋒已經囤了超過1萬張當時最先進的英偉達A100晶片。這非常幸運,很快因為美國的制裁,中國公司就買不到A100顯卡了。1萬張顯卡是公認的開發AI大模型的下限,當時,中國只有5家企業有超過1萬張顯卡,除了幻方量化,其他4家都是阿裏巴巴、位元組跳動等互聯網大廠。
  當時很多人認為囤顯卡是「億萬富翁的某種個人癖好」,但梁文鋒有自己的打算。
  務必瘋狂地懷抱雄心
  2023年4月11日,幻方量化在發佈做大模型公告時,引用了法國新浪潮導演特呂弗告誠青年導演的一句話:「務必要瘋狂地懷抱雄心,且還要瘋狂地真誠。」
  梁文鋒兼具「雄心」和「真誠」。
  當時,ChatGPT問世後,中國國內的投資人和互聯網大廠對做前沿創新普遍缺乏信心,認為差距太大,趕不上,最好還是做適用於特定領域內的AI應用,這樣也有商業價值。
  但梁文鋒不這麼看,2023年,他在接受微信公眾號「暗湧 Waves」採訪時稱:「我覺得創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢……我們的出發點,不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。」
  這是一個富於理想主義的目標。但光喊口號超越不了ChatGPT,梁文鋒認為,中國企業和矽谷企業最大的區別在於不擅長組織高密度的人才。為此,他建立了獨特的工作環境和文化。
  利中國其他AI企業喜歡招聘有海外工作經驗的人不同,深度求索公司的員工基本上都是中國國內頂尖高校畢業的學生,而且大多是應屆生或只工作了兩三年的人。
  招聘的核心條件只有兩條:熱愛和技術能力過關。梁文鋒認為,AI是一個全新的行業,經驗在這個領域的意義並不像在成熟的行業那樣重要,沒什麼成見的年輕人反而容易作出創新和突破。
  在深度求索公司,技術員工沒有什麼考核指標或KPI。梁文鋒鼓勵他們自由探索,交給他們重要的問題,不干預他們,讓他們自己想辦法,自己發揮。
  深度求索的員工待遇也很可觀,他們的月薪大多在5萬〜11萬元之間。
  這些員工並沒有辜負梁文鋒的期望,他們做出了多個關鍵技術創新。DeepSeek訓練成本明顯低於競爭對手,最主要的原因是採用了一種名為「混合專家」的架構(Mixture of Experts,簡稱 MoE )。
  MoE最早由法國公司Mistral AI提出並開源,理解它的方法是想像一個有上千人的會議場所,面對一個問題時,此前的許多AI大模型的解決辦法是讓會場裏的所有人給出建議;MoE架構會先區分問題的種類,比如是情感諮詢類問題,或者是廚藝問題,然後根據問題的不同種類,分配不同的「專家」去回答,而不是讓所有人回答。這樣會顯著減少模型的參數,提高訓練效率。
  深度求索員工郭達雅在MoE架構上做出了關鍵突破,他很年輕,2014年進大學讀書,是中山大學的博士。
  除了成本低,DeepSeek更令人震撼的地方是開源。
  通往AGI之路
  1月31日,OpenAI創始人兼CEO奧爾特曼罕見地回應了 DeepSeek相關的問題,他表示:「我個人認為,在這個問題(開源)上我們站錯了隊,需要想出一個不同的開源策略。」
  OpenAI是閉源的,這樣做對這家公司有好處,比如形成技術「護城河」,產生經濟效益,以此支撐巨大的開發成本;但不利於整個AI行業的進步。
  比如前面提到的MoE架構,據前「華為天才少年」、後來在AI領域創業的李博傑介紹,外界一直猜測OpenAI使用的就是MoE架構,但它一直不公布自己的技術細節。
  深度求索反其道而行之,選擇了開源。
  這不是完全的利他主義,背後也有商業考量。一個原因是,目前的AI大模型,包括ChatGPT,即使閉源,都很難賺錢,消費者的付費意願有限。與其爭「蚊子肉」,不如開源,可以迅速提高曝光率,也為未來的通用人工智慧(AGI)鋪路,後者真正具備巨大的商業價值。
  李博傑稱,DeepSeek的技術也並非最先進的,即便開源,也不會引來ChatGPT抄襲。而且,相比於技術形成的「護城河」,梁文鋒更相信人才。「我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,積累很多know-how (技術訣竅),形成可以創新的組織和文化,這就是我們的護城河。」
  儘管有上述多種考慮,開源仍然是一個富於理想主義的舉動。
  梁文鋒的夢想是實現AGI,即讓機器能夠完全像人一樣思考,這僅靠一兩家AI企業是很難實現的,需要整個行業共同努力。
  深度求索的資金全部來自於幻方量化,沒有接受過任何風險投資,這給了梁文鋒開源的底氣。早年的OpenAI也對開源持開放態度,公佈了很多論文,但其在接受巨額投資後,面臨盈利壓力,選擇了閉源。
  據《21世紀經濟報導》,在DeepSeek爆火後,已經有不少投資人找到他們,想投資,但其「大概率暫時不會接受新的融資」。
  外部投資是一把「雙刃劍」。隨著DeepSeek進入 AI行業的世界第一梯隊,模仿的道路已經結束。
  接下來的創新路徑充滿不確定性,可能需要大量試錯,需要付出巨大的成本。
  DeepSeek想堅持理想主義的初心,引領人類走上AGI之路,還面臨許多挑戰。
  (王亞坤/文)