一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法

文檔序號(hào)：40642695發(fā)布日期：2025-01-10 18:48閱讀：3來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于物體檢測(cè)，涉及一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法。

背景技術(shù)：

1、在智能算法空前蓬勃發(fā)展的時(shí)代，在現(xiàn)有的智能工業(yè)生產(chǎn)線上，往往通過一些算法去替代工人或者監(jiān)督工人。動(dòng)作識(shí)別是這些算法的核心任務(wù)，現(xiàn)有研究已經(jīng)探索了使用動(dòng)作識(shí)別算法從不同角度識(shí)別對(duì)象或工人的各種技術(shù)路線。工業(yè)場(chǎng)景中對(duì)物體位置以及類別的檢測(cè)是智能制造的核心技術(shù)之一，與制造過程中的產(chǎn)品監(jiān)控密不可分。但工業(yè)場(chǎng)景中存在的物體種類以及形態(tài)千差萬(wàn)別，如何快速準(zhǔn)確實(shí)現(xiàn)對(duì)任意物體的位置和類別進(jìn)行檢測(cè)至關(guān)重要。隨著工業(yè)技術(shù)的發(fā)展，工業(yè)領(lǐng)域?qū)ξ矬w檢測(cè)的需求也越來越多，雖然目前已經(jīng)有令人鼓舞的結(jié)果，但傳統(tǒng)的工業(yè)物體檢測(cè)步驟包括常常采用yolo等模型進(jìn)行監(jiān)督學(xué)習(xí)，這依賴于對(duì)訓(xùn)練數(shù)據(jù)的收集，往往需要較多的訓(xùn)練樣本投入以及考慮正負(fù)樣本均衡等問題，實(shí)現(xiàn)成本較高。工業(yè)數(shù)據(jù)集的量級(jí)、質(zhì)量與最終工業(yè)物體檢測(cè)模型的準(zhǔn)確性是高度相關(guān)的。某些工業(yè)數(shù)據(jù)集由于因?yàn)椴杉щy、采集影響工人工作、采集時(shí)間短、采集頻率低等原因?qū)е聰?shù)據(jù)量不足，難以支持深度學(xué)習(xí)等高級(jí)算法的應(yīng)用。因此實(shí)現(xiàn)低成本、低時(shí)耗、智能化甚至全自動(dòng)的數(shù)據(jù)集標(biāo)注至關(guān)重要。

技術(shù)實(shí)現(xiàn)思路

1、為解決上述技術(shù)問題，本發(fā)明的目的是提供一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法。

2、本發(fā)明的一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，包括：

3、步驟1：將實(shí)際產(chǎn)線的視頻流按幀轉(zhuǎn)為實(shí)際產(chǎn)線圖片；

4、步驟2：從實(shí)際產(chǎn)線圖片中人工挑選出包含待檢測(cè)目標(biāo)物體的圖片作為模板圖片；

5、步驟3：將模板圖片輸入到blip-2，輸出每一張模板圖片的文字描述；

6、步驟4：采用詞頻統(tǒng)計(jì)策略，根據(jù)頻率、相關(guān)性的性質(zhì)自動(dòng)從文字描述中提取獲得提示詞；

7、步驟5：將提示詞和所有實(shí)際產(chǎn)線圖片輸入glip模型中，根據(jù)提示詞在實(shí)際產(chǎn)線圖片中找到待檢測(cè)目標(biāo)物體的目標(biāo)框；

8、步驟6：按照目標(biāo)框?qū)?shí)際產(chǎn)線圖片進(jìn)行切割，得到多張目標(biāo)框區(qū)域圖片；

9、步驟7：將目標(biāo)框區(qū)域圖片和模板圖片統(tǒng)一輸入到vit網(wǎng)絡(luò)，分別提取對(duì)應(yīng)的特征圖；

10、步驟8：將目標(biāo)框區(qū)域圖片提取出來的特征圖和模板圖片的特征圖進(jìn)行相似度比對(duì)，選取相似度高于閾值的目標(biāo)框區(qū)域圖片。

11、本發(fā)明的一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，具有以下有益效果：

12、在智能制造領(lǐng)域，傳統(tǒng)的框選標(biāo)注方法不僅耗費(fèi)大量的人力和時(shí)間，而且成本高昂，往往需要數(shù)千張的標(biāo)注數(shù)據(jù)來訓(xùn)練模型。采用本發(fā)明方法，可以成功地將這一成本降至最低，僅需幾張框選數(shù)據(jù)即可實(shí)現(xiàn)高效的模型訓(xùn)練。此外，針對(duì)通用模型在工業(yè)場(chǎng)景中難以準(zhǔn)確檢測(cè)各類物體的問題，本發(fā)明通過引入模板和額外信息，優(yōu)化了識(shí)別效果，顯著提高了模型的準(zhǔn)確性和魯棒性。更為重要的是，本發(fā)明方法解決了智能制造場(chǎng)景中不同檢測(cè)任務(wù)的適配難題，大幅縮短了耗時(shí)，使得產(chǎn)線體檢、問題發(fā)現(xiàn)和潛在客訴消除更加高效，為實(shí)現(xiàn)精益制造提供了強(qiáng)有力的技術(shù)支撐。這些創(chuàng)新不僅推動(dòng)了工業(yè)自動(dòng)化和智能化的發(fā)展，也為制造業(yè)的轉(zhuǎn)型升級(jí)提供了新的思路和方法。

技術(shù)特征：

1.一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，包括：

2.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟2中人工挑選出8-12張模板圖片，要確保模板圖片中的待檢測(cè)目標(biāo)物體清晰和完整。

3.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟4具體為：

4.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟5具體為：

5.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟6具體為：

6.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟7具體為：

7.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，其特征在于，所述步驟8具體為：

技術(shù)總結(jié)
本發(fā)明的一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法，包括：將實(shí)際產(chǎn)線的視頻流按幀轉(zhuǎn)為實(shí)際產(chǎn)線圖片；從實(shí)際產(chǎn)線圖片中挑選包含待檢測(cè)目標(biāo)物體的圖片作為模板圖片；將模板圖片輸入Blip?2，輸出文字描述；采用詞頻統(tǒng)計(jì)策略，根據(jù)頻率、相關(guān)性的性質(zhì)自動(dòng)從文字描述中提取獲得提示詞；將提示詞和所有實(shí)際產(chǎn)線圖片輸入Glip模型，根據(jù)提示詞在實(shí)際產(chǎn)線圖片中找到待檢測(cè)目標(biāo)物體的目標(biāo)框；按照目標(biāo)框?qū)?shí)際產(chǎn)線圖片進(jìn)行切割，得到多張目標(biāo)框區(qū)域圖片；將目標(biāo)框區(qū)域圖片和模板圖片輸入到VIT網(wǎng)絡(luò)，分別提取對(duì)應(yīng)的特征圖；將目標(biāo)框區(qū)域圖片的特征圖和模板圖片的特征圖進(jìn)行相似度比對(duì)，選取相似度高于閾值的目標(biāo)框區(qū)域圖片。

技術(shù)研發(fā)人員：馬曉光,吳量
受保護(hù)的技術(shù)使用者：東北大學(xué)佛山研究生創(chuàng)新學(xué)院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬曉光,吳量
技術(shù)所有人：東北大學(xué)佛山研究生創(chuàng)新學(xué)院
我是此專利的發(fā)明人

上一篇：一種衛(wèi)浴微氣泡發(fā)生裝置的制作方法
上一篇：一種紫砂壺打磨裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法