這篇文章提出了一種文本引導(dǎo)的變分圖像生成方法,旨在解決工業(yè)制造中異常檢測數(shù)據(jù)清潔的挑戰(zhàn)。該方法利用文本信息生成類似輸入圖像的非缺陷數(shù)據(jù)圖像,確保生成圖像與預(yù)期分布相一致。實(shí)驗(yàn)證明,即使有限的非缺陷數(shù)據(jù),該方法也比先前的方法更有效。通過在多個模型和數(shù)據(jù)集上進(jìn)行驗(yàn)證,證實(shí)了該方法的通用性和穩(wěn)定性。另外,利用生成的圖像還可以增強(qiáng)異常檢測模型的有效性。
讀者理解:
這篇文章提出了一種解決大規(guī)模工業(yè)制造中異常檢測任務(wù)中數(shù)據(jù)短缺問題的新框架。該框架包括方差感知圖像生成器、關(guān)鍵詞到提示生成器和文本引導(dǎo)知識整合器。作者通過實(shí)驗(yàn)驗(yàn)證了該框架在不同場景下的有效性,特別是在只有單個非缺陷圖像的情況下。實(shí)驗(yàn)結(jié)果顯示,該框架可以有效地進(jìn)行異常檢測和分割,即使在缺乏數(shù)據(jù)的工業(yè)環(huán)境中也能取得令人印象深刻的性能。文章指出,通過保持非缺陷圖像的特征來提高性能,并且即使在非缺陷圖像數(shù)量有限的情況下,也能避免與缺陷圖像混合的問題。
1 引言
這篇論文介紹了一種文本引導(dǎo)的變分圖像生成方法,旨在解決工業(yè)制造中的異常檢測和分割問題。傳統(tǒng)方法通過訓(xùn)練非缺陷數(shù)據(jù)的分布來進(jìn)行異常檢測,但這需要大量且多樣化的非缺陷數(shù)據(jù)。該方法利用文本信息生成類似輸入圖像的非缺陷數(shù)據(jù)圖像,并確保生成的圖像與預(yù)期分布相一致。實(shí)驗(yàn)證明,即使只有少量非缺陷數(shù)據(jù),該方法也優(yōu)于先前方法。
文章提出了四點(diǎn)貢獻(xiàn):
開發(fā)了一種基于變分的圖像生成器,用于預(yù)測和保留非缺陷圖像的方差;
開發(fā)了關(guān)鍵詞到提示生成器,解決了好產(chǎn)品數(shù)據(jù)缺乏多樣性的問題;
開發(fā)了基于文本引導(dǎo)的知識整合器方法,彌合了不同模態(tài)之間的語義鴻溝;
將方法應(yīng)用于幾種最先進(jìn)的算法,并在各種真實(shí)工業(yè)數(shù)據(jù)集上進(jìn)行了測試,結(jié)果表明,即使只有少量非缺陷圖像,該方法也表現(xiàn)出色。
2 初步分析
本節(jié)介紹了針對異常檢測任務(wù)的新生成圖像方法的初步實(shí)驗(yàn)。實(shí)驗(yàn)比較了基準(zhǔn)異常檢測模型和使用額外訓(xùn)練圖像的相同模型的性能。實(shí)驗(yàn)使用了來自MVTecAD數(shù)據(jù)集的單個榛子圖像,并利用了各種生成圖像方法。實(shí)驗(yàn)結(jié)果表明,性能受生成圖像的影響。有趣的是,良好的圖像質(zhì)量并不一定有助于提高性能。在保留原始圖像的關(guān)鍵元素的情況下,可以提高性能。因此,為了有效地訓(xùn)練生成圖像的非缺陷分布,需要考慮幾個因素:生成的圖像應(yīng)該與提供的非缺陷圖像的外觀類似,同時保留其視覺變化;找到生成視覺結(jié)構(gòu)良好的圖像的最佳提示非常重要;基于上述兩種信息內(nèi)容,即使給出了不足數(shù)量的非缺陷圖像,也應(yīng)該創(chuàng)建具有小語義差距的圖像。
3 方法
本節(jié)介紹了本文的方法,包括關(guān)鍵詞到提示生成器、方差感知圖像生成器和文本引導(dǎo)知識整合器。關(guān)鍵詞到提示生成器根據(jù)輸入文本中的關(guān)鍵詞生成一組提示,然后選擇最佳提示,其中包含與輸入圖像相似的信息。方差感知圖像生成器將非缺陷圖像的視覺特征編碼到正態(tài)分布中,以保持它們的方差,并通過生成器更新迭代生成圖像。文本引導(dǎo)知識整合器通過評估生成的文本提示與圖像集之間的潛在分布相似性,確定最佳的生成圖像集合。最后,生成的圖像集合被用作基準(zhǔn)異常檢測模型的額外訓(xùn)練集。
3.1 生成模塊
這部分介紹了生成模塊,包括關(guān)鍵詞到提示生成器和方差感知圖像生成器。關(guān)鍵詞到提示生成器通過將目標(biāo)對象名稱與一組預(yù)定義狀態(tài)詞結(jié)合起來,生成多個候選提示,并選擇與原始圖像潛在特征最相似的最佳提示。然后,將輸入圖像轉(zhuǎn)換為多個增強(qiáng)圖像,并饋送到方差感知圖像生成器中。方差感知圖像生成器將圖像編碼到相應(yīng)的潛在分布中,以保持它們的方差。最后,通過采樣解碼生成一組新的圖像。關(guān)鍵詞到提示生成器利用 WordNet 構(gòu)建了一組不同的詞,通過計(jì)算候選提示與原始圖像之間的距離來選擇最佳提示。方差感知圖像生成器基于 VQGAN 模型,擴(kuò)展了其架構(gòu)以預(yù)測潛在變量的方差,從而有效地表示圖像的外觀多樣性。
3.2 文本引導(dǎo)的知識集成器
在這個過程中,作者使用文本引導(dǎo)知識集成器生成與最佳提示相匹配的非缺陷圖像,并將它們添加到用于異常檢測模型的非缺陷數(shù)據(jù)池中。首先,從關(guān)鍵詞到提示生成器中選擇最佳提示,并通過 Clip 文本編碼器提取文本剪輯特征。同時,通過方差感知圖像生成器生成一組圖像,并通過對圖像特征求平均來估計(jì)視覺剪輯特征。接著,文本引導(dǎo)知識集成器通過余弦相似度評分選擇最佳生成圖像集合,用于訓(xùn)練異常檢測模型。在生成新圖像集合的每次迭代中,同時更新方差感知圖像生成器,以便生成與輸入非缺陷圖像相似的圖像,并增強(qiáng)生成圖像集合的多樣性。最后,通過利用均方誤差損失和傳統(tǒng) VQGAN 損失來訓(xùn)練模型,并使用 Adam 優(yōu)化器更新方差感知圖像生成器的參數(shù)。
4 實(shí)驗(yàn)
在這項(xiàng)研究中,提出了一種新穎的框架,通過結(jié)合文本引導(dǎo)和圖像生成來增強(qiáng)異常檢測性能。以下是實(shí)驗(yàn)的詳細(xì)總結(jié):
基線和數(shù)據(jù)集:選擇了幾種基線模型,包括Patchcore、Cflow、EfficientAD和Reverse Distillation,并在MVTecAD、MVTecADloco和BTAD數(shù)據(jù)集上進(jìn)行了比較分析。這些數(shù)據(jù)集包含了各種對象和紋理的圖像,以及實(shí)際工業(yè)產(chǎn)品的缺陷圖像。
實(shí)現(xiàn)細(xì)節(jié):使用了每個基線模型的原始設(shè)置,并使用預(yù)訓(xùn)練的ResNet-18模型作為默認(rèn)骨干網(wǎng)絡(luò)。還初始化了方差感知圖像生成器,并使用了預(yù)訓(xùn)練的CLIP模型。每次迭代生成20張圖像,訓(xùn)練時間平均為182.6秒。
定量結(jié)果:通過將最新的基線模型應(yīng)用于MVTecAD數(shù)據(jù)集,對本文設(shè)計(jì)的框架進(jìn)行了性能比較。結(jié)果顯示,本文的框架在一次、少量和完整訓(xùn)練任務(wù)中都取得了顯著的性能提升,驗(yàn)證了其泛化能力。此外,作者還分析了在一次訓(xùn)練任務(wù)中性能提升最高的五個類別。
實(shí)驗(yàn)分析:作者進(jìn)行了實(shí)驗(yàn)分析,驗(yàn)證了本文提出的模塊的有效性,并發(fā)現(xiàn)了添加生成圖像的額外啟示。作者還對文本生成圖像的數(shù)量對文本生成器性能的影響進(jìn)行了分析,并發(fā)現(xiàn)過多的非缺陷數(shù)據(jù)可能會成為數(shù)據(jù)表達(dá)中的重要噪聲。
優(yōu)化結(jié)果:本文可視化了關(guān)鍵詞到提示生成器成功找到最佳提示以及方差感知圖像生成器和文本引導(dǎo)知識整合器基于最佳提示生成的圖像結(jié)果。結(jié)果表明,作者的提示具有接近非缺陷圖像的特征,并且可以提高基于文本的知識整合模塊的性能。
消融研究:進(jìn)行了消融研究,評估了作者方法各組件的影響。結(jié)果顯示,本文的方法相比基線提高了4.6%。還分析了文本生成圖像的數(shù)量對文本生成器性能的影響,并發(fā)現(xiàn)隨著生成圖像數(shù)量的增加,模型性能不斷提高,但最終趨于飽和。
5 總結(jié)
這個實(shí)驗(yàn)主要是為了解決大規(guī)模工業(yè)制造中異常檢測任務(wù)中數(shù)據(jù)短缺的問題。研究提出了一個新的框架,包括方差感知圖像生成器、關(guān)鍵詞到提示生成器和文本引導(dǎo)知識整合器。通過廣泛的實(shí)驗(yàn),使用四種基線模型和三個數(shù)據(jù)集進(jìn)行比較分析。實(shí)驗(yàn)結(jié)果表明,該框架在所有假設(shè)場景下表現(xiàn)出色,尤其是在單個非缺陷圖像的情況下。研究發(fā)現(xiàn),潛變量的均勻分布有助于通過在再生過程中保持非缺陷圖像的特征來提高性能。通過基于文本的多模態(tài)模型,該框架在工業(yè)環(huán)境中有效執(zhí)行異常檢測和分割的潛力得到展示。此外,即使在有限數(shù)量的非缺陷圖像下,該方法也表現(xiàn)出色,這使本文能夠在有效收集大規(guī)模非缺陷圖像集的同時避免與缺陷圖像交織的問題。
上一篇:PLC常見故障解決方案
下一篇:分享電機(jī)軸承過電流的幾種解決方案
- 熱門資源推薦
- 熱門放大器推薦
- 潤石科技推出RS3215-Q1系列低壓差線性穩(wěn)壓器
- CANape 23開啟智能測試新時代(下)
- 軟件定義汽車電源管理設(shè)計(jì):NXP的PMIC選型攻略解析
- 深度測評時空壺X1同聲傳譯器:全球最先進(jìn)AI同傳設(shè)備的非凡實(shí)力
- 鐵威馬F6-424 Max:六盤位擴(kuò)容+國產(chǎn)系統(tǒng)兼容,小白也能玩轉(zhuǎn)NAS
- 開關(guān)電源給鉛酸電池恒流恒壓充電的電流跳動問題解析
- 自動駕駛中的激光雷達(dá)是否會傷害攝像頭?
- AI/ML賦能的玻璃破碎傳感器:智能家居安防的新突破
- 觸覺技術(shù)助力企業(yè)在激烈的市場競爭中脫穎而出
- LT1172HVCT、5V/1.25A 正降壓轉(zhuǎn)換器的典型應(yīng)用
- 【訓(xùn)練營】四條腿機(jī)器狗
- SG3525A 推挽式脈寬調(diào)制器控制電路的典型應(yīng)用
- LT1108CS8-12掌上電腦邏輯電源微功率DC/DC轉(zhuǎn)換器典型應(yīng)用電路
- AM2M-1515DH30-NZ ±15 Vout、2W 雙路輸出 DC-DC 轉(zhuǎn)換器的典型應(yīng)用
- LTC2945HMS 具有高達(dá) 200V 浪涌保護(hù)的堅(jiān)固型 4V 至 70V 高壓側(cè)功率監(jiān)視器的典型應(yīng)用
- 常用MCU全能燒錄器
- 【航順訓(xùn)練營】國產(chǎn)航順MCU開發(fā)學(xué)習(xí)板
- LTC3624EMSE-25 5V 輸出電壓、2A 同步降壓型穩(wěn)壓器的典型應(yīng)用,具有 1MHz、突發(fā)模式操作
- 具有備用電源監(jiān)控功能的 LTC4420IMSE 18V 雙輸入微電源路徑優(yōu)先器的典型應(yīng)用電路
- BOE(京東方)聯(lián)合榮耀打造榮耀Magic V5 以領(lǐng)先LTPO技術(shù)打造行業(yè)新標(biāo)桿
- 華為ADS 4發(fā)布:多傳感器融合,提升自動駕駛安全性
- 曉鶯說:線控制動變革風(fēng)云
- 大眾商用車推出AirConsole 將其信息娛樂系統(tǒng)擴(kuò)展為游戲機(jī)
- 福州大學(xué)發(fā)明新機(jī)器視覺傳感器 可使機(jī)器人對極端光照做出超快反應(yīng)
- 蘋果獲沉浸式虛擬顯示器相關(guān)的專利
- 英特爾汽車“折戟”,十年布局一夜歸零
- 寶馬自動充電機(jī)器人概念驗(yàn)證成功,引領(lǐng)無人充電新時代
- 智駕模式下LQR最優(yōu)算法在EPS中的應(yīng)用研究
- 6月超17款人形機(jī)器人新品推出