本發(fā)明屬于物體檢測(cè),涉及一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法。
背景技術(shù):
1、在智能算法空前蓬勃發(fā)展的時(shí)代,在現(xiàn)有的智能工業(yè)生產(chǎn)線上,往往通過一些算法去替代工人或者監(jiān)督工人。動(dòng)作識(shí)別是這些算法的核心任務(wù),現(xiàn)有研究已經(jīng)探索了使用動(dòng)作識(shí)別算法從不同角度識(shí)別對(duì)象或工人的各種技術(shù)路線。工業(yè)場(chǎng)景中對(duì)物體位置以及類別的檢測(cè)是智能制造的核心技術(shù)之一,與制造過程中的產(chǎn)品監(jiān)控密不可分。但工業(yè)場(chǎng)景中存在的物體種類以及形態(tài)千差萬(wàn)別,如何快速準(zhǔn)確實(shí)現(xiàn)對(duì)任意物體的位置和類別進(jìn)行檢測(cè)至關(guān)重要。隨著工業(yè)技術(shù)的發(fā)展,工業(yè)領(lǐng)域?qū)ξ矬w檢測(cè)的需求也越來越多,雖然目前已經(jīng)有令人鼓舞的結(jié)果,但傳統(tǒng)的工業(yè)物體檢測(cè)步驟包括常常采用yolo等模型進(jìn)行監(jiān)督學(xué)習(xí),這依賴于對(duì)訓(xùn)練數(shù)據(jù)的收集,往往需要較多的訓(xùn)練樣本投入以及考慮正負(fù)樣本均衡等問題,實(shí)現(xiàn)成本較高。工業(yè)數(shù)據(jù)集的量級(jí)、質(zhì)量與最終工業(yè)物體檢測(cè)模型的準(zhǔn)確性是高度相關(guān)的。某些工業(yè)數(shù)據(jù)集由于因?yàn)椴杉щy、采集影響工人工作、采集時(shí)間短、采集頻率低等原因?qū)е聰?shù)據(jù)量不足,難以支持深度學(xué)習(xí)等高級(jí)算法的應(yīng)用。因此實(shí)現(xiàn)低成本、低時(shí)耗、智能化甚至全自動(dòng)的數(shù)據(jù)集標(biāo)注至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法。
2、本發(fā)明的一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,包括:
3、步驟1:將實(shí)際產(chǎn)線的視頻流按幀轉(zhuǎn)為實(shí)際產(chǎn)線圖片;
4、步驟2:從實(shí)際產(chǎn)線圖片中人工挑選出包含待檢測(cè)目標(biāo)物體的圖片作為模板圖片;
5、步驟3:將模板圖片輸入到blip-2,輸出每一張模板圖片的文字描述;
6、步驟4:采用詞頻統(tǒng)計(jì)策略,根據(jù)頻率、相關(guān)性的性質(zhì)自動(dòng)從文字描述中提取獲得提示詞;
7、步驟5:將提示詞和所有實(shí)際產(chǎn)線圖片輸入glip模型中,根據(jù)提示詞在實(shí)際產(chǎn)線圖片中找到待檢測(cè)目標(biāo)物體的目標(biāo)框;
8、步驟6:按照目標(biāo)框?qū)?shí)際產(chǎn)線圖片進(jìn)行切割,得到多張目標(biāo)框區(qū)域圖片;
9、步驟7:將目標(biāo)框區(qū)域圖片和模板圖片統(tǒng)一輸入到vit網(wǎng)絡(luò),分別提取對(duì)應(yīng)的特征圖;
10、步驟8:將目標(biāo)框區(qū)域圖片提取出來的特征圖和模板圖片的特征圖進(jìn)行相似度比對(duì),選取相似度高于閾值的目標(biāo)框區(qū)域圖片。
11、本發(fā)明的一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,具有以下有益效果:
12、在智能制造領(lǐng)域,傳統(tǒng)的框選標(biāo)注方法不僅耗費(fèi)大量的人力和時(shí)間,而且成本高昂,往往需要數(shù)千張的標(biāo)注數(shù)據(jù)來訓(xùn)練模型。采用本發(fā)明方法,可以成功地將這一成本降至最低,僅需幾張框選數(shù)據(jù)即可實(shí)現(xiàn)高效的模型訓(xùn)練。此外,針對(duì)通用模型在工業(yè)場(chǎng)景中難以準(zhǔn)確檢測(cè)各類物體的問題,本發(fā)明通過引入模板和額外信息,優(yōu)化了識(shí)別效果,顯著提高了模型的準(zhǔn)確性和魯棒性。更為重要的是,本發(fā)明方法解決了智能制造場(chǎng)景中不同檢測(cè)任務(wù)的適配難題,大幅縮短了耗時(shí),使得產(chǎn)線體檢、問題發(fā)現(xiàn)和潛在客訴消除更加高效,為實(shí)現(xiàn)精益制造提供了強(qiáng)有力的技術(shù)支撐。這些創(chuàng)新不僅推動(dòng)了工業(yè)自動(dòng)化和智能化的發(fā)展,也為制造業(yè)的轉(zhuǎn)型升級(jí)提供了新的思路和方法。
1.一種基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟2中人工挑選出8-12張模板圖片,要確保模板圖片中的待檢測(cè)目標(biāo)物體清晰和完整。
3.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟4具體為:
4.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟5具體為:
5.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟6具體為:
6.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟7具體為:
7.如權(quán)利要求1所述的基于多模態(tài)大模型的工業(yè)場(chǎng)景下的通用物體檢測(cè)方法,其特征在于,所述步驟8具體為: