国产精品久久久久影院,成人午夜福利视频,国产精品久久久久高潮,国产精品 欧美 亚洲 制服,国产精品白浆无码流出

Arm+AWS實現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

發(fā)布者:chunxing最新更新時間:2025-06-27 來源: elecfans關鍵字:Arm  AWS  于Arm 手機看文章 掃描二維碼
隨時隨地手機看文章

隨著人工智能 (AI) ,尤其是生成式 AI 的引入,汽車行業(yè)正迎來變革性轉變。麥肯錫最近對汽車和制造業(yè)高管開展的一項調查[1]表明,超過 40% 的受訪者對生成式 AI 研發(fā)的投資額高達 500 萬歐元,超過 10% 受訪者的投資額超過 2,000 萬歐元。


隨著行業(yè)向軟件定義汽車 (SDV) 不斷發(fā)展,到 2030 年,汽車中的代碼行數(shù)預計將從每輛車 1 億行增加至約 3 億行。面向汽車的生成式 AI 與 SDV 相結合,可共同實現(xiàn)性能和舒適性方面的車載用例,以幫助提升駕乘體驗。

本文將介紹一項由 Arm 與亞馬遜云科技 (AWS) 合作開發(fā)的車載生成式 AI 用例及其實現(xiàn)詳情。


用例介紹

隨著汽車愈發(fā)精密,車主已經(jīng)能在交車后持續(xù)接收諸如停車輔助或車道保持等功能更新,伴隨而來的挑戰(zhàn)是,如何讓車主及時了解新增的更新和新功能?過往通過紙質或在線手冊等傳統(tǒng)方法的更新方式已證明存在不足,導致車主無法充分了解汽車的潛能。

為了應對這一挑戰(zhàn),AWS 將生成式 AI、邊緣計算和物聯(lián)網(wǎng) (IoT) 的強大功能相結合,開發(fā)了一項車載生成式 AI 的演示。這項演示所展現(xiàn)的解決方案是由小語言模型 (SLM) 所支持的車載應用,旨在使駕駛員能夠通過自然語音交互獲取最新的車輛信息。該演示應用能夠在部署后離線運行,確保駕駛員在沒有互聯(lián)網(wǎng)連接的情況下,也能訪問有關車輛的重要信息。

該解決方案集成了多項先進技術,為用戶打造出更無縫、更高效的產品體驗。這項演示的應用部署在車內本地的小語言模型,該模型利用經(jīng) Arm KleidiAI 優(yōu)化的例程對性能進行提升。未經(jīng) KleidiAI 優(yōu)化的系統(tǒng)的響應時間為 8 至 19 秒左右,相比之下,經(jīng) KleidiAI 優(yōu)化的小語言模型的推理響應時間為 1 至 3 秒。通過使用 KleidiAI,應用開發(fā)時間縮短了 6 周,而且開發(fā)者在開發(fā)期間無需關注底層軟件的優(yōu)化。

Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問許多 AWS 上的熱門物聯(lián)網(wǎng)開發(fā)套件。當物理設備不可用,或者全球各地的團隊無法訪問物理設備時,在 Arm 虛擬硬件上進行開發(fā)和測試可節(jié)省嵌入式應用的開發(fā)時間。AWS 在汽車虛擬平臺上成功測試了該演示應用,在演示中,Arm 虛擬硬件提供了樹莓派設備的虛擬實例。同樣的 KleidiAI 優(yōu)化也可用于 Arm 虛擬硬件。

這個在邊緣側設備上運行的生成式 AI 應用所具備的關鍵特性之一是,它能夠接收 OTA 無線更新,其中部分更新使用 AWS IoT Greengrass Lite 接收,從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側設備上僅占用 5 MB 的 RAM,因此具有很高的內存效率。此外,該解決方案包含自動質量監(jiān)控和反饋循環(huán),用于持續(xù)評估小語言模型響應的相關性和準確性。其中采用了一個比較系統(tǒng),對超出預期質量閾值的響應進行標記,以進行審核。然后,通過 AWS 上的儀表板,以近乎實時的速度對收集到的反饋數(shù)據(jù)進行可視化,使整車廠的質保團隊能夠審核和確定需要改進的方面,并根據(jù)需要發(fā)起更新。

這個由生成式 AI 提供支持的解決方案,所具備的優(yōu)勢不僅僅在于為駕駛員提供準確的信息。它還體現(xiàn)了 SDV 生命周期管理的范式轉變,實現(xiàn)了更持續(xù)的改進周期,整車廠可以根據(jù)用戶交互來添加新內容,而小語言模型可以使用通過無線網(wǎng)絡無縫部署的更新信息進行微調。這樣一來,通過保證最新的車輛信息,用戶體驗得以提升,此外整車廠也有機會向用戶介紹和指導新特性或可購買的附加功能。通過利用生成式 AI、物聯(lián)網(wǎng)和邊緣計算的強大功能,這個生成式 AI 應用可以起到汽車用戶向導的作用,其中展示的方法有助于在 SDV 時代實現(xiàn)更具連接性、信息化和適應性的駕駛體驗。

端到端的上層實現(xiàn)方案

下圖所示的解決方案架構用于對模型進行微調、在 Arm 虛擬硬件上測試模型,以及將小語言模型部署到邊緣側設備,并且其中包含反饋收集機制。

0b54bde8-1070-11f0-9310-92fbcf53809c.png

圖:基于生成式 AI 的汽車用戶向導的解決方案架構圖

上圖中的編號對應以下內容:

1.

模型微調:AWS 演示應用開發(fā)團隊選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎模型,該模型已針對會話任務進行了預訓練。為了優(yōu)化駕駛員的汽車用戶向導聊天界面,團隊設計了言簡意賅、重點突出的回復,以便適應駕駛員在行車時僅可騰出有限注意力的情況。團隊創(chuàng)建了一個包含 1,000 組問答的自定義數(shù)據(jù)集,并使用 Amazon SageMaker Studio 進行了微調。

2.

存儲:經(jīng)過調優(yōu)的小語言模型存儲在 Amazon Simple Storage Service (Amazon S3) 中。

3.

初始部署:小語言模型最初部署到基于 Ubuntu 的 Amazon EC2 實例。

4.

開發(fā)和優(yōu)化:團隊在 EC2 實例上開發(fā)并測試了生成式 AI 應用,使用 llama.cpp 進行小語言模型量化,并應用了 Q4_0 方案。KleidiAI 優(yōu)化預先集成了 llama.cpp。與此同時,模型還實現(xiàn)了大幅壓縮,將文件大小從 3.8 GB 減少至 607 MB。

5.

虛擬測試:將應用和小語言模型傳輸?shù)?Arm 虛擬硬件的虛擬樹莓派環(huán)境進行初始測試。

6.

虛擬驗證:在虛擬樹莓派設備中進行全面測試,以確保功能正常。

7.

邊緣側部署:通過使用 AWS IoT Greengrass Lite,將生成式 AI 應用和小語言模型部署到物理樹莓派設備,并利用 AWS IoT Core 作業(yè)進行部署管理。

8.

部署編排:AWS IoT Core 負責管理部署到邊緣側樹莓派設備的任務。

9.

安裝過程:AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包,并自動完成安裝。

10.

用戶界面:已部署的應用在邊緣側樹莓派設備上為最終用戶提供基于語音的交互功能。

11.

質量監(jiān)控:生成式 AI 應用實現(xiàn)對用戶交互的質量監(jiān)控。數(shù)據(jù)通過 AWS IoT Core 收集,并通過 Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理,然后存儲到 Amazon S3。整車廠可通過 Amazon QuickSight 儀表板來監(jiān)控和分析數(shù)據(jù),及時發(fā)現(xiàn)并解決任何小語言模型質量問題。

接下來將深入探討 KleidiAI 及該演示采用的量化方案。

Arm KleidiAI

Arm KleidiAI 是專為 AI 框架開發(fā)者設計的開源庫。它為 Arm CPU 提供經(jīng)過優(yōu)化的性能關鍵例程。該開源庫最初于 2024 年 5 月推出,現(xiàn)在可為各種數(shù)據(jù)類型的矩陣乘法提供優(yōu)化,包括 32 位浮點、Bfloat16 和 4 位定點等超低精度格式。這些優(yōu)化支持多項 Arm CPU 技術,比如用于 8 位計算的 SDOT 和 i8mm,以及用于 32 位浮點運算的 MLA。

憑借四個 Arm Cortex-A76 核心,樹莓派 5 演示使用了 KleidiAI 的 SDOT 優(yōu)化,SDOT 是最早為基于 Arm CPU 的 AI 工作負載設計的指令之一,它在 2016 年發(fā)布的 Armv8.2-A 中推出。

SDOT 指令也顯示了 Arm 持續(xù)致力于提高 CPU 上的 AI 性能。繼 SDOT 之后,Arm 針對 CPU 上運行 AI 逐步推出了新指令,比如用于更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持,以期提高 32 位浮點性能,同時減半內存使用。

對于使用樹莓派 5 進行的演示,通過按塊量化方案,利用整數(shù) 4 位量化(也稱為 llama.cpp 中的 Q4_0)來加速矩陣乘法,KleidiAI 扮演關鍵作用。

llama.cpp 中的 Q4_0 量化格式

llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分:

左側 (LHS) 矩陣,以 32 位浮點值的形式存儲激活內容。

右側 (RHS) 矩陣,包含 4 位定點格式的權重。在該格式中,量化尺度應用于由 32 個連續(xù)整數(shù) 4 位值構成的數(shù)據(jù)塊,并使用 16 位浮點值進行編碼。

因此,當提到 4 位整數(shù)矩陣乘法時,它特指用于權重的格式,如下圖所示:

0b611660-1070-11f0-9310-92fbcf53809c.png

在這個階段,LHS 和 RHS 矩陣均不是 8 位格式,KleidiAI 如何利用專為 8 位整數(shù)點積設計的 SDOT 指令?這兩個輸入矩陣都必須轉換為 8 位整數(shù)值。

對于 LHS 矩陣,在矩陣乘法例程之前,還需要一個額外的步驟:動態(tài)量化為 8 位定點格式。該過程使用按塊量化方案將 LHS 矩陣動態(tài)量化為 8 位,其中,量化尺度應用于由 32 個連續(xù) 8 位整數(shù)值構成的數(shù)據(jù)塊,并以 16 位浮點值的形式存儲,這與 4 位量化方法類似。

動態(tài)量化可最大限度降低準確性下降的風險,因為量化尺度因子是在推理時根據(jù)每個數(shù)據(jù)塊中的最小值和最大值計算得出的。與該方法形成對比的是,靜態(tài)量化的尺度因子是預先確定的,保持不變。

對于 RHS 矩陣,在矩陣乘法例程之前,無需額外步驟。事實上,4 位量化充當壓縮格式,而實際計算是以 8 位進行的。因此,在將 4 位值傳遞給點積指令之前,首先將其轉換為 8 位。從 4 位轉換為 8 位的計算成本并不高,因為只需進行簡單的移位/掩碼運算即可。

既然轉換效率如此高,為什么不直接使用 8 位,省去轉換的麻煩?

使用 4 位量化有兩個關鍵優(yōu)勢:

縮小模型尺寸:由于 4 位值所需的內存只有 8 位值的一半,因此這對可用 RAM 有限的平臺尤其有益。

提升文本生成性能:文本生成過程依賴于一系列矩陣向量運算,這些運算通常受內存限制。也就是說,性能受限于內存和處理器之間的數(shù)據(jù)傳輸速度,而不是處理器的計算能力。由于內存帶寬是一個限制因素,縮小數(shù)據(jù)大小可最大限度減少內存流量,從而顯著提高性能。

如何結合使用 KleidiAI 與 llama.cpp?

非常簡單,KleidiAI 已集成到 llama.cpp 中。因此,開發(fā)者不需要額外的依賴項就能充分發(fā)揮 Armv8.2 及更新架構版本的 Arm CPU 性能。

兩者的集成意味著,在移動設備、嵌入式計算平臺和基于 Arm 架構處理器的服務器上運行 llama.cpp 的開發(fā)者,現(xiàn)在可以體驗到更好的性能。

除了 llama.cpp,還有其他選擇嗎?

對于在 Arm CPU 上運行大語言模型,雖然 llama.cpp 是一個很好的選擇,但開發(fā)者也可以使用其他采用了 KleidiAI 優(yōu)化的高性能生成式 AI 框架。例如(按首字母順序排列):ExecuTorch、MediaPipe、MNN和 PyTorch。只需選擇最新版本的框架即可。

因此,如果你正考慮在 Arm CPU 上部署生成式 AI 模型,探索以上框架有助于實現(xiàn)性能和效率的優(yōu)化。


總結

SDV 和生成式 AI 的融合,正在共同開創(chuàng)一個新的汽車創(chuàng)新時代,使得未來的汽車變得更加智能化,更加以用戶為中心。文中介紹的車載生成式 AI 應用演示由 Arm KleidiAI 進行優(yōu)化并由 AWS 所提供的服務進行支持,展示了新興技術如何幫助解決汽車行業(yè)的實際挑戰(zhàn)。該解決方案可實現(xiàn) 1 至 3 秒的響應時間并將開發(fā)時間縮短數(shù)周,證明更高效且離線可用的生成式 AI 應用不僅能夠實現(xiàn),而且非常適合車載部署。

汽車技術的未來在于打造無縫融合邊緣計算、物聯(lián)網(wǎng)功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來越復雜,潛在解決方案(比如本文介紹的解決方案)將成為彌合先進汽車功能與用戶理解間差距的關鍵。


關鍵字:Arm  AWS  于Arm 引用地址:Arm+AWS實現(xiàn)AI定義汽車 基于Arm KleidiAI優(yōu)化并由AWS提供支持

上一篇:恩智浦車輛網(wǎng)絡處理器S32G硬件設計(上)
下一篇:車載顯示接口測試趨勢分析

推薦閱讀最新更新時間:2025-07-02 12:43

Socionext開發(fā)基于AWS視頻編碼器,可提供高畫質內容
SoC設計與應用技術領導廠商Socionext Inc.(以下“Socionext”)宣布,成功開發(fā)了一款基于Amazon Web Services(以下“AWS”)的高速、高畫質視頻編碼器“H.264 Encoder on AWS”。視頻分發(fā)服務商可通過“H.264 Encoder on AWS”,可在不影響視頻質量的情況下,大幅縮短視頻從制作到交付周期約70%,有效控制成本的同時提高服務質量和視頻內容數(shù)量。 “H.264 Encoder on AWS”是一款在AWS的Amazon Elastic Compute Cloud(Amazon EC2)F1實例上運行的視頻編碼器,采用最常見的H.264編碼標準,可滿足視頻分發(fā)服務
[嵌入式]
Socionext開發(fā)基于<font color='red'>AWS</font>視頻編碼器,可提供高畫質內容
AWS新型云軟件集成智能泊車技術 實時顯示車位情況/更新時限信息避開罰單
(圖片來源:governmentnews.com.au) 據(jù)外媒報道,一項變革性的云技術可通過在智能手機上顯示空置停車位的實時圖像,并且可在車位使用時間到期時發(fā)送更新信息,從而減輕車主的停車負擔。研發(fā)該項技術的開發(fā)人員表示,該技術可能會改變游戲規(guī)則,提升人們對停車限制的遵守程度,甚至可讓市政當局改變停車時限,通過改變交通方向以減少擁堵。 亞馬遜云計算服務(Amazon Web Services)平臺的新型云軟件將智能泊車提升到一個新水平,能夠讓當?shù)厝嗽诘竭_停車場和當?shù)亟值乐?,實時看到停車場和街道上的空置或已經(jīng)占用的停車位的虛擬圖像。此外,該項技術還能為用戶更新停車時限信息,幫助他們避免被開罰單。 該項云服務集成
[汽車電子]
<font color='red'>AWS</font>新型云軟件集成智能泊車技術 實時顯示車位情況/更新時限信息避開罰單
Arm 精銳超級分辨率技術加持,《堡壘之夜》手游體驗震撼升級
作為 Epic Games 旗下的全球現(xiàn)象級游戲,《堡壘之夜》不僅在文化層面具有深遠影響,其技術實力同樣令人矚目,為實時圖形、跨平臺聯(lián)機和在線服務基礎設施方面樹立了行業(yè)標桿。這種對卓越的不懈追求貫穿了各個平臺,更在其手游版中得到充分體現(xiàn)。 然而,想在移動平臺上呈現(xiàn)完整的《堡壘之夜》體驗,必須要克服諸多工程挑戰(zhàn),包括更受限的 GPU 功率、更嚴格的內存帶寬限制,以及更苛刻的散熱條件。與此同時,玩家始終期望獲得穩(wěn)定而優(yōu)質的視覺體驗,同時又不會犧牲幀率或電池續(xù)航。 Arm ASR 助力《堡壘之夜》開啟下一代手游性能 Epic Games 正在與 Arm 合作,將 Arm 精銳超級分辨率技術 (Arm ASR) 集成到《堡壘之
[手機便攜]
一篇文章帶您玩轉T113的ARM+RISC-V+DSP三核異構!-米爾電子
近年來,隨著半導體產業(yè)的快速發(fā)展和技術的不斷迭代,物聯(lián)網(wǎng)設備種類繁多(如智能家居、工業(yè)傳感器),對算力、功耗、實時性要求差異大,單一架構無法滿足所有需求。因此米爾推出MYD-YT113i開發(fā)板(基于全志T113-i)來應對這一市場需求。 米爾基于全志T113-i核心板及開發(fā)板 一、 T113-i芯片及OpenAMP簡介 o T113-i芯片簡介 T113-i由兩顆ARM A7 、一顆C906(RISC-V)和一顆DSP(HIFI 4)組成。 · C906(RISC-V核)特性: 1. 主頻最高1008MHz 2. 32KB I-cache+32 KB D-cache 3. 操作系統(tǒng)支持裸跑和FreeRTOS實時操作
[嵌入式]
一篇文章帶您玩轉T113的<font color='red'>ARM</font>+RISC-V+DSP三核異構!-米爾電子
04_ARM硬件基礎
課程目標:了解我們常用硬件接口,并且編程控制 重點難點:對各個接口原理的掌握 考核目標:各個接口的作用,實現(xiàn)原理及特性 1. 硬件基礎概述 1.1. 為什么我們要去研究硬件 因為要去使用他,驅動它 1.2. 我們要研究什么 硬件原理及構造 地址 寄存器 協(xié)議 時長/頻率 1.3. 我們怎么研究 ARM手冊 芯片手冊 外設芯片手冊 1.4. ARM Cortex-A8 - S5PV210的硬件 分類 Clock Gating Power Gating Frequency Scaling SRAM/SROM OneNand SLC/MLC Nand DDR Camera IF/MIPI
[單片機]
ARM裸機s5pv210 】芯片初始化
#define GPJ0CON 0xE0200240 #define GPJ0DAT 0xE0200244 #define WTCON 0xE2700000 #define SVC_STACK 0xd0037d80 .global _start _start: // 第1步:關看門狗(向WTCON的bit5寫入0即可) ldr r0, =WTCON ldr r1, =0x0 str r1, // 第2步:設置SVC?!   M減棧,滿的意思是入棧先移動指針再填入數(shù)據(jù),減的意思是棧從高到低用 ldr sp, =SVC_STACK // 第3步:開/關icache
[單片機]
arm GIC介紹之四
GIC是ARM體系中重要的組件,在認識到GIC的組成和功能之后,了解到IRQ的大致流程,從硬件IRQ到來,到IRQ結束。我們實際在KERNEL里面,或者在設備驅動里面處理的IRQ其實是軟件意義上的,那么硬件的中斷和軟件的中斷如何聯(lián)系起來的呢,大概的處理流程是如何呢? 這章我們介紹這部分內容。 GIC 中斷處理流程 我們希望理解概念和流程,總結認識和思路,所以代碼細節(jié)上的解釋需要忽略掉??梢钥创a細節(jié),但是總結時候要去掉。畢竟,即使是自己看過了,過了一段時間再重新讀代碼,也是有些陌生的。我們還是以圖開始。 我們在之前介紹“arm GIC介紹之一/二/三”: http://blog.csdn.net/sunsissy/artic
[單片機]
<font color='red'>arm</font> GIC介紹之四
Arm 推出 GitHub 平臺 AI 工具,簡化開發(fā)者 AI 應用開發(fā)部署流程
專為 GitHub Copilot 設計的 Arm 擴展程序,可加速從云到邊緣側基于 Arm 平臺的開發(fā) Arm 原生運行器為部署云原生、Windows on Arm 以及云到邊緣側的 AI 軟件提供了無縫的開發(fā)體驗 GitHub Actions、原生 GitHub 運行器和基于 Arm 平臺的 AI 框架相結合,幫助全球 2000 萬開發(fā)者簡化 AI 應用開發(fā)部署流程 通過將 Arm? 計算平臺與全球最大的開發(fā)者社區(qū) GitHub 及其 GitHub Copilot 的強大優(yōu)勢相結合,Arm 正在引領軟件開發(fā)領域的變革。 借助 Copilot 的 AI 代碼建議,開發(fā)者可以在 Arm 平臺上更高效地編寫、測試和優(yōu)化
[嵌入式]
小廣播
最新嵌入式文章

 
EEWorld訂閱號

 
EEWorld服務號

 
汽車開發(fā)圈

 
機器人開發(fā)圈

電子工程世界版權所有 京ICP證060456號 京ICP備10001474號-1 電信業(yè)務審批[2006]字第258號函 京公網(wǎng)安備 11010802033920號 Copyright ? 2005-2025 EEWORLD.com.cn, Inc. All rights reserved