行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號：40597125發(fā)布日期：2025-01-07 20:37閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

本發(fā)明涉及智能體微調(diào)，特別是涉及一種行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、在金融、交通、文旅、政務(wù)、鄉(xiāng)村等眾多a2p（application?to?person，應(yīng)用到個人）場景中，有著廣泛的智能交互、生產(chǎn)自動化、降本增效、提高用戶轉(zhuǎn)化率和黏性等方面的廣泛需求。各行業(yè)借助人工智能技術(shù)實現(xiàn)智能化轉(zhuǎn)型升級、提升市場競爭力的需求變得越來越迫切。智能體能夠借助多模態(tài)處理能力，將文字、音頻、圖像等多種類型的數(shù)據(jù)轉(zhuǎn)換為機器能夠理解的形式，之后通過思考和記憶等模塊對輸入內(nèi)容進行推理和規(guī)劃，最后調(diào)用工具模塊執(zhí)行對應(yīng)任務(wù)。

2、智能體在行業(yè)應(yīng)用中能夠?qū)?fù)雜任務(wù)分解為更小的子任務(wù)，并自動調(diào)用工具和api，在提升各行業(yè)工作效率和自動化程度方面具有巨大潛力。例如，在金融服務(wù)方面，智能體可為銀行、證券等金融機構(gòu)提供全新的交互方式，用戶通過自然語言指令即可完成金融產(chǎn)品介紹、趨勢分析、投資咨詢等多種金融服務(wù)，覆蓋引流、轉(zhuǎn)化、營銷等多個階段，加速金融業(yè)數(shù)字化轉(zhuǎn)型升級。在文旅服務(wù)方面，旅游景區(qū)可通過智能體對游客進行針對性旅游宣傳并推送相關(guān)服務(wù)，實現(xiàn)文旅行業(yè)在宣傳渠道、在線服務(wù)、智能交互等方面的智能化升級。在政務(wù)服務(wù)方面，智能體可通過多輪交互讓用戶補全可能遺漏的信息、跟蹤投訴建議處理進度、形成服務(wù)閉環(huán)，解決企業(yè)群眾辦事難、辦事繁等問題。

3、目前，現(xiàn)有的智能體應(yīng)用大多基于通用大語言模型底座，通過設(shè)計一系列針對性的prompt（提示對話框），使智能體具備處理行業(yè)應(yīng)用任務(wù)的能力。由于通用大語言模型缺乏對行業(yè)知識或行業(yè)應(yīng)用的先驗知識，當遇到復(fù)雜行業(yè)任務(wù)時，任務(wù)完成準確率往往較低。其次，通過設(shè)計prompt誘導(dǎo)模型生成思維鏈和任務(wù)規(guī)劃的方式需要進行多次模型推理，而大語言模型采用自回歸方式生成內(nèi)容，使得整個任務(wù)的執(zhí)行時間較長，難以勝任實時性要求較高的應(yīng)用場景。此外，智能體微調(diào)行業(yè)應(yīng)用智能體的語言模型底座，需要構(gòu)建大量高質(zhì)量的指令數(shù)據(jù)，這些指令數(shù)據(jù)一般采用人工標注的方式，往往需要大量行業(yè)專家對指令數(shù)據(jù)進行標注和校對，人工成本較高，在實際應(yīng)用中難以快速推廣復(fù)制。

4、綜上所述，現(xiàn)有的行業(yè)智能體微調(diào)方法在復(fù)雜行業(yè)任務(wù)中的任務(wù)完成準確率較低，且任務(wù)推理速度有待進一步提高，人工標注的方式也在一定程度上提高了人工成本，不利于推廣。

技術(shù)實現(xiàn)思路

1、基于此，有必要針對上述技術(shù)問題，提供一種在復(fù)雜行業(yè)任務(wù)中的任務(wù)完成準確率較高、任務(wù)推理效率較高且能夠減少人工標注成本并利于推廣使用的行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)。

2、本發(fā)明提供了一種行業(yè)智能體自動微調(diào)方法，所述方法包括：

3、獲取行業(yè)數(shù)據(jù)，并對所述行業(yè)數(shù)據(jù)進行預(yù)處理，所述行業(yè)數(shù)據(jù)包括行業(yè)任務(wù)和行業(yè)知識的原始文檔，所述預(yù)處理包括數(shù)據(jù)解析和數(shù)據(jù)清洗；

4、采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對，并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對，以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗；

5、通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識，并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對，所述元知識包括所述第一指令響應(yīng)對所述的任務(wù)類型、關(guān)聯(lián)的行業(yè)知識和技能種類；

6、從多個維度對所述第二指令響應(yīng)對進行評估，以獲取所述第二指令響應(yīng)對在所述行業(yè)任務(wù)中的評估分數(shù)，并去除所述評估分數(shù)低于第一閾值的第二指令響應(yīng)對；

7、通過相似度判別將差異度超過第二閾值的第二指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集，并丟棄差異度低于第二閾值的第二指令響應(yīng)對；

8、基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào)，以提升所述語言模型在多任務(wù)環(huán)境中的性能。

9、在其中一個實施例中，所述獲取行業(yè)數(shù)據(jù)，并對所述行業(yè)數(shù)據(jù)進行預(yù)處理，包括：

10、從多種來源獲取所述行業(yè)數(shù)據(jù)，所述多種來源包括業(yè)務(wù)介紹、公司內(nèi)部數(shù)據(jù)庫以及用戶交互數(shù)據(jù)；

11、對所述行業(yè)數(shù)據(jù)進行去噪、填補缺失值以及數(shù)據(jù)標準化的數(shù)據(jù)清洗操作，并對清洗后的行業(yè)數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換，以適應(yīng)所述語言模型的輸入要求；

12、其中，所述數(shù)據(jù)轉(zhuǎn)換包括特征縮放、特征編碼、特征選擇以及數(shù)據(jù)歸一化。

13、在其中一個實施例中，所述采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對，并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對，以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗，包括：

14、通過所述投機推理構(gòu)建指令-響應(yīng)并行生成算法，以鼓勵所述語言模型生成多樣化指令數(shù)據(jù)，并通過所述思維鏈和思維樹生成中間推理步驟；

15、基于所述中間推理步驟對所述行業(yè)任務(wù)和行業(yè)知識進行檢索，以獲取所述行業(yè)任務(wù)和行業(yè)知識中與所述中間推理步驟關(guān)聯(lián)的事實內(nèi)容。

16、在其中一個實施例中，所述采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對，并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對，以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗，還包括：

17、基于所述事實內(nèi)容對所述中間推理步驟中的每個步驟進行真實性校驗，并根據(jù)校驗結(jié)果迭代調(diào)整所述中間推理步驟，以消除所述中間推理步驟中與所述事實內(nèi)容不符合的步驟策略。

18、在其中一個實施例中，所述通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識，并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對，包括：

19、通過所述指令編碼器將所述第一指令響應(yīng)對編碼為所述元知識，以降低所述第一指令響應(yīng)對中的噪聲，并從所述第一指令響應(yīng)對中壓縮提煉出與對應(yīng)行業(yè)任務(wù)關(guān)聯(lián)性高于第三閾值的關(guān)鍵信息；

20、通過解碼器根據(jù)所述元知識和所述第一指令響應(yīng)對生成新的指令數(shù)據(jù)，所述新的指令數(shù)據(jù)為所述第二指令響應(yīng)對。

21、在其中一個實施例中，所述多個維度包括任務(wù)完成度、工具使用度、上下文一致性以及任務(wù)相關(guān)性；

22、所述基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào)，以提升所述語言模型在多任務(wù)環(huán)境中的性能，之前還包括：

23、從所述任務(wù)完成度、工具使用度、上下文一致性以及任務(wù)相關(guān)性對所述第二指令響應(yīng)對進行評估，并根據(jù)評估結(jié)果對所述第二指令響應(yīng)的數(shù)據(jù)獎勵進行標注；

24、對比所述語言模型的原始輸出和標注后的所述第二指令響應(yīng)對，通過相似度判別篩選出數(shù)據(jù)獎勵標注為第一數(shù)值且差異度超過第二閾值的第二指令響應(yīng)對，并去除數(shù)據(jù)獎勵標注為第二數(shù)值且差異度低于第二閾值的第二指令響應(yīng)對；

25、其中，評估分數(shù)超過所述第一閾值的第二指令響應(yīng)對的數(shù)據(jù)獎勵標注為所述第一數(shù)值，評估分數(shù)低于所述第一閾值的第二指令響應(yīng)對的數(shù)據(jù)獎勵標注為所述第二數(shù)值。

26、在其中一個實施例中，所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對為篩選出的數(shù)據(jù)獎勵標注為第一數(shù)值且差異度超過第二閾值的第二指令響應(yīng)對；

27、所述基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào)，以提升所述語言模型在多任務(wù)環(huán)境中的性能，包括：

28、將所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對轉(zhuǎn)化為react格式，得到react格式的第二指令響應(yīng)對；

29、采用低秩適應(yīng)技術(shù)基于所述react格式的第二指令響應(yīng)對以及不同的行業(yè)任務(wù)和使用場景的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行微調(diào)訓(xùn)練，以更新所述語言模型的模型參數(shù)。

30、本發(fā)明還提供了一種行業(yè)智能體自動微調(diào)裝置，所述裝置包括：

31、數(shù)據(jù)預(yù)處理模塊，用于獲取行業(yè)數(shù)據(jù)，并對所述行業(yè)數(shù)據(jù)進行預(yù)處理，所述行業(yè)數(shù)據(jù)包括行業(yè)任務(wù)和行業(yè)知識的原始文檔，所述預(yù)處理包括數(shù)據(jù)解析和數(shù)據(jù)清洗；

32、指令響應(yīng)對生成模塊，用于采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對，并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對，以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗；

33、指令編碼器模塊，用于通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識，并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對，所述元知識包括所述第一指令響應(yīng)對所述的任務(wù)類型、關(guān)聯(lián)的行業(yè)知識和技能種類；

34、指令數(shù)據(jù)評估模塊，用于從多個維度對所述第二指令響應(yīng)對進行評估，以獲取所述第二指令響應(yīng)對在所述行業(yè)任務(wù)中的評估分數(shù)，并去除所述評估分數(shù)低于第一閾值的第二指令響應(yīng)對；

35、相似度判別模塊，用于通過相似度判別將差異度超過第二閾值的第二指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集，并丟棄差異度低于第二閾值的第二指令響應(yīng)對；

36、模型微調(diào)模塊，用于基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào)，以提升所述語言模型在多任務(wù)環(huán)境中的性能。

37、本發(fā)明還提供了一種電子設(shè)備，包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述的行業(yè)智能體自動微調(diào)方法。

38、本發(fā)明還提供了一種計算機存儲介質(zhì)，存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的行業(yè)智能體自動微調(diào)方法。

39、上述行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)，通過獲取行業(yè)數(shù)據(jù)，并對行業(yè)數(shù)據(jù)進行預(yù)處理，采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對，并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的指令響應(yīng)對，以基于預(yù)處理后的行業(yè)數(shù)據(jù)對該指令響應(yīng)對中的每個步驟進行校驗。隨后，通過指令編碼器從指令響應(yīng)對中抽取元知識，并通過元知識引導(dǎo)指令編碼器生成新的指令響應(yīng)對。之后再從多個維度對第二指令響應(yīng)對進行評估，以獲取新的指令響應(yīng)對在行業(yè)任務(wù)中的評估分數(shù)，并去除評估分數(shù)低于第一閾值的指令響應(yīng)對。然后通過相似度判別將差異度較高的新指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集，并丟棄差異度較低的新指令響應(yīng)對。最后，基于篩選出的微調(diào)數(shù)據(jù)集中的新指令響應(yīng)對結(jié)合行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào)，來提升語言模型在多任務(wù)環(huán)境中的性能。該方法通過將行業(yè)應(yīng)用中生成的思維鏈和任務(wù)規(guī)劃內(nèi)容編碼為元知識，并在解碼的過程中評估篩選出高質(zhì)量的指令數(shù)據(jù)，用于語言模型的微調(diào)，將模型在處理行業(yè)任務(wù)生成的思維鏈和任務(wù)規(guī)劃等中間過程，微調(diào)進行業(yè)智能體的模型參數(shù)中，加速了行業(yè)智能體的推理速度，而且不依賴專業(yè)人員的數(shù)據(jù)標注，適合行業(yè)應(yīng)用中短時間內(nèi)難以獲取大量人工指令數(shù)據(jù)的場景，在復(fù)雜行業(yè)任務(wù)中的提高了任務(wù)完成準確率和任務(wù)推理效率，更利于推廣使用。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖清,王振波,郭熹,張振字,羅剛,張立業(yè),熊梅艷
技術(shù)所有人：聯(lián)通在線信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種用于紙箱生產(chǎn)用自動上料裝置的制作方法
上一篇：一種模內(nèi)注塑陶瓷墊片定位機構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)與流程