國產(chǎn)大模型企業(yè)深度求索(DeepSeek)創(chuàng)始人梁文鋒(前排右)
1月20日下午,中共中央政治局常委、國務(wù)院總理李強主持召開專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會,聽取對《政府工作報告(征求意見稿)》的意見建議。
在此次座談會上,共有9人先后發(fā)言,就解決當(dāng)前發(fā)展中的問題、做好今年政府工作提出了意見建議。
他們分別是:
北京大學(xué)經(jīng)濟(jì)學(xué)院院長張輝
浙江大學(xué)黨委書記任少波
中國工商銀行黨委副書記、行長劉珺
國產(chǎn)大模型企業(yè)深度求索(DeepSeek)創(chuàng)始人梁文鋒
遨博(北京)智能科技股份有限公司董事長魏洪興
中國機(jī)械工業(yè)集團(tuán)有限公司副總經(jīng)理、總工程師陳學(xué)東
國家圖書館古籍館館長陳紅彥
中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院副院長杜斌
國際級運動健將、中國體操運動員鄒敬園
其中,深度求索(DeepSeek)是來自杭州的一家科技公司。這家公司是什么來頭,創(chuàng)始人梁文鋒為何能成為總理的“座上賓”?
來自東方的神秘力量 大模型界的“拼多多”
DeepSeek,全稱“杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司”,成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立。
在硅谷,DeepSeek很早就被稱作“來自東方的神秘力量”,也是網(wǎng)上熱議的“杭州六小龍”之一。
真正讓DeepSeek火出圈的是2024年12月26日,這家公司宣布上線并同步開源的 DeepSeek-V3模型,并公布了長達(dá)53頁的訓(xùn)練和技術(shù)細(xì)節(jié)。
它以1/11的算力、僅2000個GPU芯片訓(xùn)練出性能超越GPT-4o的大模型。其總訓(xùn)練成本只有557.6萬美元,而GPT-4o的約為1億美元,使用25000個GPU芯片。雙方的成本至少是10倍的差距。
在性能上,DeepSeek-V3在數(shù)學(xué)、代碼能力和中文知識問答方面還超過了ChatGPT-4o。
國外獨立測評機(jī)構(gòu)Artificial Analysis測試后,發(fā)出了“超越了迄今為止所有開源模型”的驚嘆;Meta科學(xué)家田淵棟感慨:“這是非常偉大的工作。”
“性價比”是商業(yè)社會中的制勝法寶之一,DeepSeek也因創(chuàng)新的模型架構(gòu)和史無前例的性價比被稱為“大模型界的拼多多”,引發(fā)字節(jié)、阿里、百度等大廠的大模型價格大戰(zhàn)。
在外部看來,降價很像在搶用戶,也有人說這家公司是行業(yè)的一條鯰魚,公司創(chuàng)始人梁文鋒表示,“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”
“搶用戶并不是我們的主要目的,我們降價一方面是因為在探索下一代模型的結(jié)構(gòu)中,成本先降下來了;另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西�!绷何匿h說。
中國大模型將成為不容忽視的力量
與DeepSeek-V3低成本訓(xùn)練一樣令人驚嘆的是DeepSeek的員工規(guī)模。
在團(tuán)隊配置上, DeepSeek團(tuán)隊只有139名研發(fā)人員,相比OpenAI擁有1200名研究人員,團(tuán)隊規(guī)模是DeepSeek的近乎9倍之多。
其中,算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學(xué)習(xí)方面的研究人員共有約70人。比如前段時間的熱門話題“雷軍千萬年薪挖95后天才AI少女”,這位“95后AI天才少女”羅福莉,就是DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一。
OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark曾這樣評價DeepSeek:“雇用了一批高深莫測的奇才”,還認(rèn)為中國制造的大模型,“將和無人機(jī)、電動汽車一樣,成為不容忽視的力量”。
梁文鋒是誰?
說回DeepSeek創(chuàng)始人梁文鋒,他出生于1985年,廣東湛江人,此前他接受專訪時自稱,“我是上世紀(jì)80年代在廣東一個五線城市長大的。我的父親是小學(xué)老師……”
17歲時,梁文鋒考入浙大,讀的是電子工程系人工智能方向,畢業(yè)后在浙大攻讀碩士研究生,論文題目是《基于低成本PTZ攝像機(jī)的目標(biāo)跟蹤算法研究》。
2015年,30歲的梁文鋒和朋友一起創(chuàng)辦了杭州幻方科技有限公司,立志成為世界頂級的量化對沖基金。2016年10月,幻方量化推出第一個AI模型,第一份由深度學(xué)習(xí)生成的交易倉位上線執(zhí)行。到2017年底,幾乎所有的量化策略都采用AI模型計算。
2023年5月,38歲的梁文鋒宣布做通用人工智能(AGI)。7月,他正式創(chuàng)辦杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,就是DeepSeek公司,專注于AI大模型的研究和開發(fā),公司設(shè)在杭州。
從公開的工作經(jīng)歷和職業(yè)生涯來看,梁文鋒在量化投資和高性能計算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗,創(chuàng)業(yè)范疇橫跨金融和人工智能領(lǐng)域。
這家公司為何會受邀參加座談會?
去年,12月18日至20日,李強總理在浙江調(diào)研。在杭州,李強來到城西科創(chuàng)大走廊未來科技城展館和之江實驗室調(diào)研。
他指出,創(chuàng)新是引領(lǐng)發(fā)展的第一動力。要主動擁抱科技變革浪潮,大力開展基礎(chǔ)研究和共性關(guān)鍵技術(shù)研究,加強算力等新型基礎(chǔ)設(shè)施布局建設(shè),取得更多原創(chuàng)性引領(lǐng)性成果,為實現(xiàn)高水平科技自立自強貢獻(xiàn)力量。
1月20日,就在參加總理座談會的當(dāng)天,DeepSeek正式發(fā)布DeepSeek-R1模型。這款大模型在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。
在座談會上,李強總理提到,“要以科技創(chuàng)新推動新舊動能轉(zhuǎn)換,集中力量突破關(guān)鍵核心技術(shù)和前沿技術(shù),加快推進(jìn)科技成果產(chǎn)業(yè)化,努力培育更多經(jīng)濟(jì)新增長點。”
DeepSeek只是杭州科技創(chuàng)新的一個代表,國產(chǎn)大模型公司在列總理座談會,可見國家對科技的重視,也足見杭州在人工智能領(lǐng)域的強大實力。
梁文鋒曾在訪談中提到,“隨著經(jīng)濟(jì)的發(fā)展,中國也應(yīng)該逐步成為技術(shù)創(chuàng)新的主要貢獻(xiàn)者”。
聲明:
本文僅代表作者個人觀點,與新江南網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容,新江南網(wǎng)號系信息發(fā)布平臺,新江南網(wǎng)僅提供信息存儲空間服務(wù)。如有侵權(quán)請出示權(quán)屬憑證聯(lián)系管理員([email protected])刪除!
閱讀推薦
新聞爆料