国产精品久久久久影院,成人午夜福利视频,国产精品久久久久高潮,国产精品 欧美 亚洲 制服,国产精品白浆无码流出

NVIDIA Dynamo 開源庫加速并擴展 AI 推理模型

發(fā)布者:EE小廣播最新更新時間:2025-03-19 來源: EEWORLD關鍵字:NVIDIA  AI 手機看文章 掃描二維碼
隨時隨地手機看文章

NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍

 image.png

美國加利福尼亞州圣何塞 —— GTC —— 太平洋時間 2025 年 3 月 18 日 —— NVIDIA 今日發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。

 

高效地編排和協(xié)調大量 GPU 上的 AI 推理請求,對確保 AI 工廠實現(xiàn)運行成本最小化、token 收益最大化來說至關重要。

 

隨著 AI 推理逐漸變?yōu)橹髁?,AI 模型在處理每個提示時都會生成數(shù)以萬計的 token 用于“思考”。提高推理性能的同時不斷降低推理成本,可加速服務提供商的增長并增加收入機會。

 

作為 NVIDIA Triton? 推理服務器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調并加速數(shù)千個 GPU 之間的推理通信,并使用分離服務將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進行單獨優(yōu)化,并確保更大程度地利用 GPU 資源。

 

“全世界各行業(yè)都在訓練 AI 模型以不同的方式進行思考和學習,從而使模型復雜度持續(xù)升級?!?strong>NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“為了實現(xiàn)自定義推理 AI 的未來,NVIDIA Dynamo 可以在這些模型上進行規(guī)?;渴?,從而為 AI 工廠實現(xiàn)降本增效”。

 

在 GPU 數(shù)量相同的情況下,Dynamo 可將 NVIDIA Hopper? 平臺上運行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72 機架組成的大型集群上運行 DeepSeek-R1 模型時,NVIDIA Dynamo 的智能推理優(yōu)化也可將每個 GPU 生成的 token 數(shù)量提高 30 倍以上。

 

為了提升這些推理性能,NVIDIA Dynamo 加入了一些功能,使其能夠提高吞吐量的同時降低成本。它可以根據(jù)不斷變化的請求數(shù)量和類型,動態(tài)添加、移除和重新分配 GPU,并精確定位大型集群中的特定 GPU,從而更大限度地減少響應計算和路由查詢。此外,它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲設備上,并在需要時快速檢索這些數(shù)據(jù),最大程度地降低推理成本。

 

NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署 AI 模型的方法。這將使用戶加速采用 AI 推理,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

 

推理性能提升


NVIDIA Dynamo 可將推理系統(tǒng)在處理過往請求時于顯存中保存的知識(稱為 KV 緩存),映射到潛在的數(shù)千個 GPU 中。

 

然后,它會將新的推理請求路由到與所需信息匹配度最高的 GPU 上,從而避免昂貴的重新計算,并釋放 GPU 來響應新的請求。

 

Perplexity AI 首席技術官 Denis Yarats 表示:“為了處理每月數(shù)以億計的請求,我們依靠 NVIDIA GPU 及推理軟件來提供業(yè)務和用戶所需的性能、可靠性和拓展性。我們期待通過 NVIDIA Dynamo 及其增強的分布式服務能力,進一步提高推理服務效率,滿足全新 AI 推理模型的計算需求?!?p> 

代理式 AI


AI 提供商 Cohere 計劃使用 NVIDIA Dynamo 為其 Command 系列模型中的代理式 AI 功能提供支持。

 

Cohere 工程部門高級副總裁 Saurabh Baji 表示:“擴展先進的 AI 模型需要復雜的多 GPU 調度、無縫協(xié)調和低延遲通信庫,以便在顯存和存儲中無縫傳輸推理上下文。我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗?!?p> 

分離服務


NVIDIA Dynamo 推理平臺還支持分離服務,將 LLM 的不同計算階段(包括建立對用戶查詢的理解,然后生成最佳響應)分配給不同的 GPU。這種方法非常適合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它們使用高級推理技術來改進上下文理解和響應生成。分離服務使得每個階段可以進行單獨的微調和資源調配,從而提高吞吐量并更快地響應用戶。

 

Together AI (AI Acceleration Cloud) 正在尋求將其專有的 Together Inference Engine 與 NVIDIA Dynamo 集成,以便推理工作負載實現(xiàn)跨 GPU 節(jié)點的無縫擴展。這也讓 Together AI 能夠動態(tài)地解決模型管線各個階段的流量瓶頸。

 

Together AI 首席技術官 Ce Zhang 表示:“經(jīng)濟高效地擴展推理模型需要新的先進推理技術,包括分離服務和上下文感知路由。借助我們專有的推理引擎,Together AI 可提供行業(yè)領先的性能。NVIDIA Dynamo 的開放性和模塊化使我們能夠將其組件無縫嵌入引擎,以滿足更多請求,同時優(yōu)化資源利用率,從而最大化我們在加速計算方面的投資。我們很高興能夠利用該平臺的突破性功能,經(jīng)濟高效地為用戶提供開源推理模型?!?p> 

NVIDIA Dynamo 組成結構


NVIDIA Dynamo 包含四項關鍵創(chuàng)新,可降低推理服務成本并改善用戶體驗:


GPU 規(guī)劃器 (GPU Planner):一種規(guī)劃引擎,可動態(tài)地添加和移除 GPU,以適應不斷變化的用戶需求,從而避免 GPU 配置過度或不足。


  • 智能路由器 (Smart Router):一個具備大語言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導請求的流向,從而最大程度減少因重復或重疊請求而導致的代價高昂的 GPU 重復計算,釋放出 GPU 資源以響應新的請求。

  • 低延遲通信庫 (Low-Latency Communication Library):推理優(yōu)化庫,支持先進的 GPU 到 GPU 通信,并簡化異構設備之間的復雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。

  • 顯存管理器 (Memory Manager):一種可在不影響用戶體驗的情況下,以智能的方式在低成本顯存和存儲設備上卸載及重新加載推理數(shù)據(jù)的引擎。

 

NVIDIA Dynamo 將作為 NVIDIA NIM? 微服務推出,并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持,具有生產(chǎn)級的安全性、支持和穩(wěn)定性。

 

關于 NVIDIA


NVIDIA是加速計算領域的全球領導者。


關鍵字:NVIDIA  AI 引用地址:NVIDIA Dynamo 開源庫加速并擴展 AI 推理模型

上一篇:英飛凌針對AI數(shù)據(jù)中心推出先進的電池備份單元技術,進一步完善Powering AI路線圖
下一篇:Gartner:D&A領導者應重點關注三大領域,以擴大AI規(guī)模

推薦閱讀最新更新時間:2025-06-26 15:23

被曝緊急推遲Blackwell AI芯片!英偉達回應:樣品試用已開始
8月5日消息,近日有關NVIDIA新款AI芯片Blackwell因設計缺陷而推遲發(fā)布的消息,引起了廣泛關注。 對此,NVIDIA方面表示:“Hopper的需求非常強勁,Blackwell的樣品試用已經(jīng)廣泛開始,產(chǎn)量有望在下半年增加。除此之外,我們不對謠言發(fā)表評論。” 此前,有外媒報道稱,Blackwell芯片可能因設計問題而推遲發(fā)布三個月甚至更長時間,這將影響到包括Meta、谷歌和微軟在內的多家大客戶,他們已經(jīng)預訂了價值數(shù)百億美元的芯片。 此外,還有消息人士透露,NVIDIA已經(jīng)向微軟等客戶通報了新款Blackwell芯片的延期情況。 不過摩根士丹利在最新報告中對Blackwell芯片的前景表示樂觀,認為生產(chǎn)僅會暫停約兩周,并預計
[嵌入式]
NVIDIA對其NVIDIA AI平臺進行更新 邁來芯推出Tactaxis
邁來芯推出Tactaxis 近日,邁來芯()完成了一項重大創(chuàng)新,以提高機器人與易碎或多樣化物體交互的能力。邁來芯推出了Tactaxis,這是一款完全集成的觸覺,結構緊湊且柔軟,可提供作用于其表面的 3D 力矢量。這項創(chuàng)新改善了機器人的手和抓具,使得像摘水果這樣的精細操作成為可能。該技術已成功地在功能原型中實現(xiàn)。 這款開創(chuàng)性的原型采用了 Melexis 經(jīng)過業(yè)界驗證的 Triaxis? 技術,具有多個 3D 磁力計像素(magnetomer xels)。該傳感器配有一塊嵌入到彈性材料中的磁體,這樣構成一個柔接觸界面,可模擬人體皮膚的屬性。該裝置具備高靈敏度,因此即使檢測到很小的力也會產(chǎn)生相應的響應。所能夠實現(xiàn)的力分辨率
[機器人]
美光Automata芯片源于英特爾 將成NVIDIA、AMD AI勁敵
美光(Micron)早在2013年便正式發(fā)布其“Automata”處理器技術,這項技術被認為在未來可能將導入網(wǎng)路通訊設備、移動與智能裝置、各項搜尋業(yè)務甚至是個人化醫(yī)學領域,除此之外,實際上Automata技術也是英特爾(Intel)旗下通用繪圖處理器(GPCPU)開發(fā)代號“Larrabee”的人工智能(AI)及繪圖研究的發(fā)展成果,Automata技術讓英特爾與美光在AI技術發(fā)展上,領先NVIDIA及超微(AMD)達多年時間。 根據(jù)科技網(wǎng)站Seeking Alpha網(wǎng)站報導預估,Automata技術未來將會導入四大領域,其一為未來所有智能交換器及路由器都將調整網(wǎng)路流量來采用Automata技術,全球所有網(wǎng)路連結也將因Automa
[半導體設計/制造]
NVIDIA穩(wěn)坐AI龍頭? Xilinx:FPGA處理速度快過GPU
日經(jīng)亞洲評論13日報導,NVIDIA Corporation雖憑借通用GPU(GPGPU)登上人工智能(AI)芯片一哥位置、但競爭對手早已在一旁虎視眈眈。 美國低功耗現(xiàn)場可程序邏輯門陣列(FPGA)制造商Xilinx表示,伙伴廠商利用FPGA芯片進行基因體定序與優(yōu)化語音識別所需的深度學習、察覺FPGA的耗能低于GPU且處理速度較快。 相較于GPU只能處理運算,F(xiàn)PGA能以更快速的速度一次處理所有與AI相關的信息。 英特爾(Intel Corp.) 在2015年底并購美國FPGA廠商Altera。 在GPU領域落后NVIDIA、超威(AMD)的英特爾打算藉由Xeon Phi進軍AI芯片市場。 NVIDIA Corporatio
[手機便攜]
博世與NVIDIA合作 發(fā)展自駕車AI技術
德國博世集團(Bosch)找來NVIDIA共同發(fā)展使用于自駕系統(tǒng)的人工智能(AI)技術,并希望能將此技術推廣到大眾汽車市場。博世的車輛AI系統(tǒng)將可透過深度神經(jīng)網(wǎng)路感測周遭狀況、理解3D環(huán)境、在HD地圖上自行定位、預測其他物件的行為與位置,找出最安全的行駛路線。 據(jù)Telematics Wire報導,博世執(zhí)行長Volkmar Denner在柏林舉辦的ConnectedWorld物聯(lián)網(wǎng)(IoT)大會上,宣布將與NVIDIA合作開發(fā)AI自駕系統(tǒng)。 NVIDIA的深度學習軟硬件可訓練車輛習得復雜的駕駛技巧,使系統(tǒng)操作自主化,還可透過空中下載(OTA)取得新的功能。 博世AI車載電腦系統(tǒng)所使用的NVIDIA次世代DRIVE PX平臺,搭載了
[半導體設計/制造]
芯片廠AI平臺點燃 英特爾、NVIDIA、高通、AMD火力全開
  全球科技大廠紛揭露人工智能(AI)最新布局藍圖,AI領域儼然成為新世代主流戰(zhàn)場,近期芯片業(yè)者英特爾(Intel)、 NVIDIA 、 高通 (Qualcomm)與AMD(AMD)持續(xù)擴大AI平臺投入力道,2017年勢將掀起激戰(zhàn),并醞釀新一波洗牌潮。下面就隨嵌入式小編一起來了解一下相關內容吧。   近年AI相關技術與應用發(fā)展大躍進,包括微軟(Microsoft)、Google、Facebook、IBM、百度、阿里巴巴等陸續(xù)釋出機器學習、深度學習等AI應用進展, 高通 、 NVIDIA 與英特爾等芯片大廠亦紛紛展示平臺技術整合實力,AI將成為規(guī)模更大且競爭更激烈的新世代戰(zhàn)場。    英特爾多方強化AI平臺戰(zhàn)力   在智能手機市
[嵌入式]
英偉達,車端「困局」
輔助駕駛的逐步普及,似乎并沒有給所有上游芯片企業(yè)帶來正向作用。作為從自動駕駛到量產(chǎn)輔助駕駛的核心參與者,英偉達就是一個典型案例。 本周,英偉達發(fā)布2026年財年的首個季度財報,截至2025年4月27日的第一季度收入為441億美元,比上一季度增長12%,比去年同期增長69%。而在上年同期,兩項數(shù)據(jù)分別是增長18%和262%。 其中,通用人工智能以及數(shù)據(jù)中心依然是英偉達業(yè)務的核心增長極。第一季度來自數(shù)據(jù)中心的收入為391億美元,較上一季度增長10%,較上年同期增長73%;占整體業(yè)務收入比重達到88.66%,提升約1.74個百分點。 盡管來自汽車和機器人業(yè)務的季度收入較上年同期增長72%,從增速來看,僅次于數(shù)據(jù)中心。
[汽車電子]
基于英偉達芯片的自動駕駛典型架構設計
NVIDIA DRIVE AGX 是一個可擴展的開放式自動駕駛汽車計算平臺,充當自動駕駛汽車的 大腦。作為同類產(chǎn)品中硬件平臺的佼佼者,NVIDIA DRIVE AGX 為功能安全的人工智能自動駕 駛提供高性能、高能效的計算。硬件方面,NVIDIA DRIVE 嵌入式超級計算平臺處理來自攝像頭、普通雷達和激光雷達傳 感器的數(shù)據(jù),以感知周圍環(huán)境、在地圖上確定汽車的位置,然后規(guī)劃并執(zhí)行安全的行車路線。軟件方面,NVIDIA DRIVE AGX 具備可擴展和軟件定義特性,平臺能夠提供先進的性能, 助力自動駕駛汽車處理大量傳感器數(shù)據(jù),并做出實時駕駛決策。 開放式 NVIDIA DRIVE 軟件 棧還可幫助開發(fā)者使用冗余和多樣化的深度神經(jīng)網(wǎng)絡
[嵌入式]
基于<font color='red'>英偉達</font>芯片的自動駕駛典型架構設計
小廣播
最新網(wǎng)絡通信文章

 
EEWorld訂閱號

 
EEWorld服務號

 
汽車開發(fā)圈

 
機器人開發(fā)圈

電子工程世界版權所有 京ICP證060456號 京ICP備10001474號-1 電信業(yè)務審批[2006]字第258號函 京公網(wǎng)安備 11010802033920號 Copyright ? 2005-2025 EEWORLD.com.cn, Inc. All rights reserved