第72章 上頭的態度
“真是高手在民間啊!”付元峰感嘆道。
“付院士您太過獎了。”
付元峰卻是搖搖頭道:“我這人一向是有什麼說什麼的,你在這方面確實厲害,比我強的多。”
俞霖尷尬一笑,他這是純在開掛,和付元峰這種一步一個腳印走到現在的業內大佬是兩個體系。
舉個例子,假如俞霖和付元峰都在修仙界。
付元峰就是勤勤懇懇,努力修行到了大乘期。
俞霖則是路上撿了個蟠桃,吃了就飛昇成仙了。
“俞霖,你知道我為什麼把你叫過來嗎?”
付元峰的話打斷了俞霖的思緒。
俞霖搖搖頭老實回答道:“不知道。”
“那你知道國外最近一直在宣傳的ChatGPT嗎?”
“這個我知道。”
“咱們這邊也有在搞類似的東西,只是因為晶片算力的問題,遠遠比不上ChatGPT,但你的擬態神經元技術卻讓我看到了希望。
之前我們一直以為,硬體強才能訓練出足夠厲害的AI大模型,你的演算法一出來,我就知道我們錯了,錯的很離譜......”
付元峰和俞霖說了一大堆,總結下來就是openai燒了幾十億美元幹了五年,才在humanintheloop的基礎上,完成了ChatGPT的訓練。
而俞霖送來的擬態神經元技術,可以將這個時間縮短起碼千倍,耗費的金錢也只是那邊的零頭,且成品更加優秀。
俞霖聽完以後倒沒有太驚訝,畢竟這個技術可是出自夏晴那個平行時空,那邊的科技本來就比俞霖所在的時空要發達的多。
事實上,就算沒有擬態神經元技術,在某個平行時空的華夏,也做出了演算法方面的突破。
在那個時空,有個名為DeepSeek的AI,這個AI採用了高達6710億引數的MoE架構,每次計算僅啟用370億引數,透過動態路由演算法顯著降低計算和記憶體消耗。
這種架構在保持高效能的同時大幅提高了推理效率,相比傳統Transformer架構,MoE結合多頭潛在注意力(MLA)和DeepSeekMoE機制最佳化了長文字處理和語義捕捉能力,推理效率提升約40%。
有了演算法和架構上的突破,DeepSeekV3的訓練成本僅為557.6萬美元,遠低於GPT-4等模型的約1億美元。
團隊透過FP8混合精度訓練框架、DualPipe管道並行演算法以及跨節點通訊最佳化,實現了高效訓練,僅用278.8萬H800GPU小時完成14.8萬億token的預訓練,且訓練過程穩定無回滾。
這種高效訓練方法突破了算力瓶頸,尤其在晶片受限環境下表現出色。
DeepSeek在高效MoE架構、低成本訓練、強化學習創新、模型蒸餾、多模態擴充套件等領域創新,狠狠打了某些晶片巨頭的臉。
沒有高效能的晶片,靠著演算法和框架的突破,靠國產晶片適配,使DeepSeek的效能比肩國際頂尖模型,還透過開源和低成本策略重塑了AI行業生態,推動了技術普惠化和華夏AI的全球競爭力。
而來自夏晴那個時空的擬態神經元技術,比DeepSeek的演算法和框架技術突破還要強出兩到三個檔次,這也就是付元峰如此激動的原因了。
“俞霖,國外的那個AI不出意外的話,會在年底上市,你這邊有沒有什麼想法?你如果沒有做這方面模型的計劃,可以交給上頭來辦,上頭......”
“那個......付院士,我這裡其實已經有成品了。”俞霖打斷了付元峰的話說道。
付元峰聞言眼前一亮:“有成品了?快拿出來讓我看看!”
俞霖點點頭,拿出一個隨身碟。
付元峰接過隨身碟並沒有插在自己的電腦上,而是找來了另一臺筆記本,把隨身碟插進去。
點開隨身碟後,裡面是兩個檔案,一個是電腦版,一個是手機版,付元峰開啟電腦版點選安裝,很快知天的圖示就出現在了他的膝上型電腦上。
然後付元峰點開了ChatGPT,同時開始測試。
僅僅過了十分鐘,付元峰就直接關掉了ChatGPT,二者差距太大了,根本沒有可比性。
之後付元峰就在專心測試知天的各項功能和反應速度。
不管是生成對話,看圖寫話,生成圖片,甚至是生成影片,知天都能做到。
付元峰人都麻了,他看俞霖的眼神越來越古怪。
他是真想不明白,俞霖單槍匹馬能寫出擬態神經元技術就已經很厲害了,他居然還能以擬態神經元技術為基礎,訓練出一個如此完美的AI大模型。
測試了這麼半天,付元峰愣是一個BUG都沒發現。
一個人能做到這種程度,也太誇張了吧?這還是人嗎?
兩個小時後,付元峰的測試終於結束,他長嘆了一口氣道:“唉!真是長江後浪推前浪啊!俞霖你的知天很完美,完美到了能直接釋出的地步,我反正是找不到一點BUG。
不過俞霖,我不建議你直接釋出這個版本的知天,它太全面了,你這麼一更新,後面很有可能會更無可更。”
俞霖聞言露出了笑容:“付院士不瞞您說,我還真不打算直接釋出這個版本的知天,我會把知天的功能拆分一下,第一版只發布最基礎的問答功能,後續慢慢增加其他功能。”
“那擬態神經元技術呢?你打算授權給國內的其他廠商使用嗎?”付元峰問道。
這個問題俞霖有些遲疑,他一時也不知道該怎麼回答。
俞霖也不傻,他的擬態神經元技術現在還在專利申請階段,付元峰能得知這個技術,那就說明肯定是上頭把技術給他看的。
也就是說,今天他和付元峰的談話上頭很有可能會知道,甚至說付元峰就代表了上頭的態度。
因此俞霖不敢直接說出自己的想法,而是試探著問了一句:“您覺得我應該怎麼做呢?”
“當然該怎麼做就怎麼做,安心賺你的錢,沒有人會強迫你把技術共享。”
俞霖聞言眼前一亮,他明白了付元峰或者說上頭的意思,這是允許他吃獨食啊!
但很快,俞霖就想到了什麼,他嘿嘿一笑道:“付院士,你這邊需不需要我的擬態神經元技術呢?我可以免費授權給你。”
付元峰當即露出了孺子可教的表情,他拍了拍俞霖的肩膀道:“我這裡先不急,明天我帶你去見個人,他那邊是需要你這項技術的。”