行業(yè)行業(yè)
#本文由作者授權(quán)發(fā)布,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
“DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源,另一方面通過專利壁壘守護關(guān)鍵技術(shù)。”
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:佑斌
近日,中國AI企業(yè)深度求索(DeepSeek)在人工智能領(lǐng)域掀起技術(shù)風暴。其研發(fā)的大語言模型在多項基準測試中表現(xiàn)驚艷,不僅比肩或超越歐美頂尖模型,更以低一個數(shù)量級的訓(xùn)練成本實現(xiàn)這一突破。這場技術(shù)地震正在動搖AI發(fā)展范式——DeepSeek以超低成本實現(xiàn)超強性能的表現(xiàn),直接挑戰(zhàn)了行業(yè)對“大算力=高性能”的傳統(tǒng)認知,甚至引發(fā)連鎖反應(yīng):以英偉達為代表的AI芯片巨頭股價應(yīng)聲下跌,市場開始重新評估算力軍備競賽的商業(yè)邏輯。
值得關(guān)注的是,DeepSeek一方面將大模型代碼及訓(xùn)練文檔全面開源,另一方面通過專利壁壘守護關(guān)鍵技術(shù)。從AI專利分析平臺Maxipat檢索可見,其核心技術(shù)專利并未直接歸屬運營主體,而是分散布局于北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司、杭州幻方系公司(幻方科技/幻方人工智能基礎(chǔ)研究院)及寧波積冪信息科技等關(guān)聯(lián)企業(yè)。最新披露的專利CN118246542A,“人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法”,正是通過獨創(chuàng)的數(shù)據(jù)序列索引技術(shù),實現(xiàn)了訓(xùn)練數(shù)據(jù)存儲與通信資源消耗量級下降,這或許正是其極致性價比的底層密碼。
從Maxipat的AI對話和解讀中可以獲知:
這項專利解決的技術(shù)問題是人工智能模型訓(xùn)練中數(shù)據(jù)集處理效率低下和資源消耗較大的問題,特別是在大規(guī)模數(shù)據(jù)集訓(xùn)練時,數(shù)據(jù)的混合、打亂及切分操作會導(dǎo)致存儲和通信資源的大量消耗。
核心技術(shù)方案是一種人工智能模型訓(xùn)練數(shù)據(jù)集的構(gòu)建方法,該方法包括將數(shù)據(jù)集劃分為若干大小相同的數(shù)據(jù)序列,以數(shù)據(jù)序列為單位建立索引,根據(jù)需求比例抽取樣本數(shù)據(jù),將樣本數(shù)據(jù)以數(shù)據(jù)序列為單位混合并隨機打亂,將打亂后的樣本數(shù)據(jù)進行均勻切分得到若干個數(shù)據(jù)塊,每個數(shù)據(jù)塊包含若干個完整的數(shù)據(jù)序列,以及在每一步模型訓(xùn)練的數(shù)據(jù)輸入時,通過索引批量讀取相應(yīng)數(shù)據(jù)塊作為該步驟的模型訓(xùn)練數(shù)據(jù)。
技術(shù)優(yōu)勢在于,該方法通過將數(shù)據(jù)集切分為數(shù)據(jù)序列,并以數(shù)據(jù)序列為單位建立索引,實現(xiàn)了數(shù)據(jù)的按比例混合、打亂及切分操作,整個過程不會增加冗余數(shù)據(jù)存儲,從而有效減少了對存儲、通信資源的消耗,提高了數(shù)據(jù)處理的效率和模型訓(xùn)練的性能。
Maxipat的AI對話和解讀
主要作用如下:
減少存儲與通信開銷:通過索引管理數(shù)據(jù)序列(而非物理修改數(shù)據(jù)),顯著降低冗余數(shù)據(jù)存儲需求,節(jié)省存儲硬件成本(如SSD、內(nèi)存占用)。異步I/O和批量讀取優(yōu)化了數(shù)據(jù)傳輸效率,減少網(wǎng)絡(luò)帶寬和存儲I/O的壓力,間接降低分布式訓(xùn)練中的通信成本。
提升GPU利用率:高效的數(shù)據(jù)加載(如異步I/O)減少了GPU等待數(shù)據(jù)的空閑時間,使GPU更專注于計算任務(wù),提高單位GPU的利用率。數(shù)據(jù)預(yù)處理(混合、打亂、切分)通過邏輯操作完成,無需額外計算資源,減少對CPU或輔助硬件的依賴,釋放資源供GPU使用。
縮短訓(xùn)練周期:數(shù)據(jù)準備效率的提升(如快速采樣、動態(tài)調(diào)整比例)加速了迭代實驗過程,縮短整體訓(xùn)練時間。在相同時間內(nèi),用更少的GPU即可完成原定任務(wù),或更快釋放GPU資源供其他任務(wù)使用。
支持輕量化訓(xùn)練流程:通過邏輯索引管理,無需大規(guī)模數(shù)據(jù)復(fù)制或重組,降低對高性能存儲設(shè)備的依賴,使訓(xùn)練任務(wù)可在成本更低的硬件環(huán)境中運行。
除北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司外,杭州幻方人工智能基礎(chǔ)研究有限公司、寧波積冪信息科技有限公司、杭州幻方科技有限公司、上海積冪科技有限公司等關(guān)聯(lián)企業(yè)累計公開16項核心技術(shù)專利,其中多項聚焦于大模型訓(xùn)練效率提升與系統(tǒng)穩(wěn)定性優(yōu)化。例如公開號CN112925640B,主題為一種集群訓(xùn)練節(jié)點分配方法、電子設(shè)備,解決的技術(shù)問題是在集群訓(xùn)練節(jié)點分配領(lǐng)域中存在的資源利用率低和訓(xùn)練任務(wù)報錯率高的問題,特別是在大規(guī)模機器學(xué)習(xí)訓(xùn)練任務(wù)中,如何高效地分配計算資源以減少任務(wù)的總體報錯率和故障率。CN118503194A,主題為一種多GPU集群網(wǎng)絡(luò)的RDMA并行數(shù)據(jù)傳輸方法,CN118075198A,主題為一種高速網(wǎng)絡(luò)拓撲結(jié)構(gòu)路徑規(guī)劃的方法及設(shè)備,解決的技術(shù)問題是大規(guī)模集群和分布式訓(xùn)練場景中網(wǎng)絡(luò)擁塞導(dǎo)致GPU算力失效的問題。
從deepseek披露的專利,我們通過Maxipat可以清晰梳理出其技術(shù)路線。
技術(shù)點1:網(wǎng)絡(luò)與硬件優(yōu)化
多平面RDMA通信(CN118612157A):跨節(jié)點GPU直連,減少CPU依賴。胖樹網(wǎng)絡(luò)拓撲拆分(CN118250215A):邏輯分塊優(yōu)化路徑,降低擁塞。多GPU動態(tài)調(diào)度(CN114780203A):席位機制管理資源,避免沖突。網(wǎng)絡(luò)吞吐量提升,支持萬卡級集群訓(xùn)練。硬件利用率提高,故障率降低大幅度降低。
技術(shù)點2:數(shù)據(jù)存儲與處理
分布式異步IO存?。–N117707416A):分片存儲+并行讀取,IO效率提升。無損壓縮技術(shù)(CN109787638B):動態(tài)壓縮策略,存儲成本減少。智能數(shù)據(jù)集構(gòu)建(CN118246542A):數(shù)據(jù)序列索引抽樣,冗余數(shù)據(jù)趨零。實現(xiàn)PB級數(shù)據(jù)加載速度提升,支持千億參數(shù)模型訓(xùn)練。
技術(shù)點3:分布式訓(xùn)練框架
異構(gòu)斷點續(xù)訓(xùn)(CN117669701A):虛擬模型參數(shù)兼容不同并行策略。多GPU輪詢通信(CN118612158A):均衡網(wǎng)絡(luò)負載,帶寬利用率提高。動態(tài)任務(wù)調(diào)度(CN114138441B):優(yōu)先級+用戶權(quán)益多維度分配算力。實現(xiàn)千億模型訓(xùn)練效率提升,中斷恢復(fù)時間縮短至分鐘級。
技術(shù)點4:開發(fā)效率提升
云原生開發(fā)環(huán)境(CN115061725B):環(huán)境一鍵同步,開發(fā)到訓(xùn)練無縫銜接。長鏈接容錯機制(CN116032999A):動態(tài)重連策略,通信穩(wěn)定性99.99%。實現(xiàn)開發(fā)效率提升,支持AI+行業(yè)場景快速落地。
從底層網(wǎng)絡(luò)優(yōu)化到上層應(yīng)用落地,該公司通過高速通信、智能調(diào)度、高效數(shù)據(jù)工程、彈性訓(xùn)練框架,構(gòu)建了面向大語言模型的“端到端”技術(shù)體系,實現(xiàn)低成本、高可靠、超大規(guī)模的大語言模型的基礎(chǔ)設(shè)施能力。
所以冰凍三尺非一日之寒,Deepseek取得今天的成就并不是一蹴而就,而是長期的專注的研發(fā)的體現(xiàn),相比對于很多大廠,Deepseek雖然是小公司,但對大語言模型的投入和技術(shù)研發(fā)的深度并不遜色。
(原標題:Deepseek的專利揭秘,為什么能夠引爆AI界?)
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:佑斌
編輯:IPRdaily辛夷 校對:IPRdaily縱橫君
注:原文鏈接:Deepseek的專利揭秘,為什么能夠引爆AI界?(點擊標題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.globalwellnesspartner.com
文章不錯,犒勞下辛苦的作者吧