本發(fā)明涉及智能體微調(diào),特別是涉及一種行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在金融、交通、文旅、政務(wù)、鄉(xiāng)村等眾多a2p(application?to?person,應(yīng)用到個人)場景中,有著廣泛的智能交互、生產(chǎn)自動化、降本增效、提高用戶轉(zhuǎn)化率和黏性等方面的廣泛需求。各行業(yè)借助人工智能技術(shù)實現(xiàn)智能化轉(zhuǎn)型升級、提升市場競爭力的需求變得越來越迫切。智能體能夠借助多模態(tài)處理能力,將文字、音頻、圖像等多種類型的數(shù)據(jù)轉(zhuǎn)換為機器能夠理解的形式,之后通過思考和記憶等模塊對輸入內(nèi)容進行推理和規(guī)劃,最后調(diào)用工具模塊執(zhí)行對應(yīng)任務(wù)。
2、智能體在行業(yè)應(yīng)用中能夠?qū)?fù)雜任務(wù)分解為更小的子任務(wù),并自動調(diào)用工具和api,在提升各行業(yè)工作效率和自動化程度方面具有巨大潛力。例如,在金融服務(wù)方面,智能體可為銀行、證券等金融機構(gòu)提供全新的交互方式,用戶通過自然語言指令即可完成金融產(chǎn)品介紹、趨勢分析、投資咨詢等多種金融服務(wù),覆蓋引流、轉(zhuǎn)化、營銷等多個階段,加速金融業(yè)數(shù)字化轉(zhuǎn)型升級。在文旅服務(wù)方面,旅游景區(qū)可通過智能體對游客進行針對性旅游宣傳并推送相關(guān)服務(wù),實現(xiàn)文旅行業(yè)在宣傳渠道、在線服務(wù)、智能交互等方面的智能化升級。在政務(wù)服務(wù)方面,智能體可通過多輪交互讓用戶補全可能遺漏的信息、跟蹤投訴建議處理進度、形成服務(wù)閉環(huán),解決企業(yè)群眾辦事難、辦事繁等問題。
3、目前,現(xiàn)有的智能體應(yīng)用大多基于通用大語言模型底座,通過設(shè)計一系列針對性的prompt(提示對話框),使智能體具備處理行業(yè)應(yīng)用任務(wù)的能力。由于通用大語言模型缺乏對行業(yè)知識或行業(yè)應(yīng)用的先驗知識,當遇到復(fù)雜行業(yè)任務(wù)時,任務(wù)完成準確率往往較低。其次,通過設(shè)計prompt誘導(dǎo)模型生成思維鏈和任務(wù)規(guī)劃的方式需要進行多次模型推理,而大語言模型采用自回歸方式生成內(nèi)容,使得整個任務(wù)的執(zhí)行時間較長,難以勝任實時性要求較高的應(yīng)用場景。此外,智能體微調(diào)行業(yè)應(yīng)用智能體的語言模型底座,需要構(gòu)建大量高質(zhì)量的指令數(shù)據(jù),這些指令數(shù)據(jù)一般采用人工標注的方式,往往需要大量行業(yè)專家對指令數(shù)據(jù)進行標注和校對,人工成本較高,在實際應(yīng)用中難以快速推廣復(fù)制。
4、綜上所述,現(xiàn)有的行業(yè)智能體微調(diào)方法在復(fù)雜行業(yè)任務(wù)中的任務(wù)完成準確率較低,且任務(wù)推理速度有待進一步提高,人工標注的方式也在一定程度上提高了人工成本,不利于推廣。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種在復(fù)雜行業(yè)任務(wù)中的任務(wù)完成準確率較高、任務(wù)推理效率較高且能夠減少人工標注成本并利于推廣使用的行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì)。
2、本發(fā)明提供了一種行業(yè)智能體自動微調(diào)方法,所述方法包括:
3、獲取行業(yè)數(shù)據(jù),并對所述行業(yè)數(shù)據(jù)進行預(yù)處理,所述行業(yè)數(shù)據(jù)包括行業(yè)任務(wù)和行業(yè)知識的原始文檔,所述預(yù)處理包括數(shù)據(jù)解析和數(shù)據(jù)清洗;
4、采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對,并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對,以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗;
5、通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識,并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對,所述元知識包括所述第一指令響應(yīng)對所述的任務(wù)類型、關(guān)聯(lián)的行業(yè)知識和技能種類;
6、從多個維度對所述第二指令響應(yīng)對進行評估,以獲取所述第二指令響應(yīng)對在所述行業(yè)任務(wù)中的評估分數(shù),并去除所述評估分數(shù)低于第一閾值的第二指令響應(yīng)對;
7、通過相似度判別將差異度超過第二閾值的第二指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集,并丟棄差異度低于第二閾值的第二指令響應(yīng)對;
8、基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào),以提升所述語言模型在多任務(wù)環(huán)境中的性能。
9、在其中一個實施例中,所述獲取行業(yè)數(shù)據(jù),并對所述行業(yè)數(shù)據(jù)進行預(yù)處理,包括:
10、從多種來源獲取所述行業(yè)數(shù)據(jù),所述多種來源包括業(yè)務(wù)介紹、公司內(nèi)部數(shù)據(jù)庫以及用戶交互數(shù)據(jù);
11、對所述行業(yè)數(shù)據(jù)進行去噪、填補缺失值以及數(shù)據(jù)標準化的數(shù)據(jù)清洗操作,并對清洗后的行業(yè)數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換,以適應(yīng)所述語言模型的輸入要求;
12、其中,所述數(shù)據(jù)轉(zhuǎn)換包括特征縮放、特征編碼、特征選擇以及數(shù)據(jù)歸一化。
13、在其中一個實施例中,所述采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對,并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對,以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗,包括:
14、通過所述投機推理構(gòu)建指令-響應(yīng)并行生成算法,以鼓勵所述語言模型生成多樣化指令數(shù)據(jù),并通過所述思維鏈和思維樹生成中間推理步驟;
15、基于所述中間推理步驟對所述行業(yè)任務(wù)和行業(yè)知識進行檢索,以獲取所述行業(yè)任務(wù)和行業(yè)知識中與所述中間推理步驟關(guān)聯(lián)的事實內(nèi)容。
16、在其中一個實施例中,所述采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對,并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對,以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗,還包括:
17、基于所述事實內(nèi)容對所述中間推理步驟中的每個步驟進行真實性校驗,并根據(jù)校驗結(jié)果迭代調(diào)整所述中間推理步驟,以消除所述中間推理步驟中與所述事實內(nèi)容不符合的步驟策略。
18、在其中一個實施例中,所述通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識,并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對,包括:
19、通過所述指令編碼器將所述第一指令響應(yīng)對編碼為所述元知識,以降低所述第一指令響應(yīng)對中的噪聲,并從所述第一指令響應(yīng)對中壓縮提煉出與對應(yīng)行業(yè)任務(wù)關(guān)聯(lián)性高于第三閾值的關(guān)鍵信息;
20、通過解碼器根據(jù)所述元知識和所述第一指令響應(yīng)對生成新的指令數(shù)據(jù),所述新的指令數(shù)據(jù)為所述第二指令響應(yīng)對。
21、在其中一個實施例中,所述多個維度包括任務(wù)完成度、工具使用度、上下文一致性以及任務(wù)相關(guān)性;
22、所述基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào),以提升所述語言模型在多任務(wù)環(huán)境中的性能,之前還包括:
23、從所述任務(wù)完成度、工具使用度、上下文一致性以及任務(wù)相關(guān)性對所述第二指令響應(yīng)對進行評估,并根據(jù)評估結(jié)果對所述第二指令響應(yīng)的數(shù)據(jù)獎勵進行標注;
24、對比所述語言模型的原始輸出和標注后的所述第二指令響應(yīng)對,通過相似度判別篩選出數(shù)據(jù)獎勵標注為第一數(shù)值且差異度超過第二閾值的第二指令響應(yīng)對,并去除數(shù)據(jù)獎勵標注為第二數(shù)值且差異度低于第二閾值的第二指令響應(yīng)對;
25、其中,評估分數(shù)超過所述第一閾值的第二指令響應(yīng)對的數(shù)據(jù)獎勵標注為所述第一數(shù)值,評估分數(shù)低于所述第一閾值的第二指令響應(yīng)對的數(shù)據(jù)獎勵標注為所述第二數(shù)值。
26、在其中一個實施例中,所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對為篩選出的數(shù)據(jù)獎勵標注為第一數(shù)值且差異度超過第二閾值的第二指令響應(yīng)對;
27、所述基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào),以提升所述語言模型在多任務(wù)環(huán)境中的性能,包括:
28、將所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對轉(zhuǎn)化為react格式,得到react格式的第二指令響應(yīng)對;
29、采用低秩適應(yīng)技術(shù)基于所述react格式的第二指令響應(yīng)對以及不同的行業(yè)任務(wù)和使用場景的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行微調(diào)訓(xùn)練,以更新所述語言模型的模型參數(shù)。
30、本發(fā)明還提供了一種行業(yè)智能體自動微調(diào)裝置,所述裝置包括:
31、數(shù)據(jù)預(yù)處理模塊,用于獲取行業(yè)數(shù)據(jù),并對所述行業(yè)數(shù)據(jù)進行預(yù)處理,所述行業(yè)數(shù)據(jù)包括行業(yè)任務(wù)和行業(yè)知識的原始文檔,所述預(yù)處理包括數(shù)據(jù)解析和數(shù)據(jù)清洗;
32、指令響應(yīng)對生成模塊,用于采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對,并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的第一指令響應(yīng)對,以基于預(yù)處理后的所述行業(yè)數(shù)據(jù)對所述第一指令響應(yīng)對中的每個步驟進行校驗;
33、指令編碼器模塊,用于通過指令編碼器從所述第一指令響應(yīng)對中抽取元知識,并通過所述元知識引導(dǎo)所述指令編碼器生成第二指令響應(yīng)對,所述元知識包括所述第一指令響應(yīng)對所述的任務(wù)類型、關(guān)聯(lián)的行業(yè)知識和技能種類;
34、指令數(shù)據(jù)評估模塊,用于從多個維度對所述第二指令響應(yīng)對進行評估,以獲取所述第二指令響應(yīng)對在所述行業(yè)任務(wù)中的評估分數(shù),并去除所述評估分數(shù)低于第一閾值的第二指令響應(yīng)對;
35、相似度判別模塊,用于通過相似度判別將差異度超過第二閾值的第二指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集,并丟棄差異度低于第二閾值的第二指令響應(yīng)對;
36、模型微調(diào)模塊,用于基于所述微調(diào)數(shù)據(jù)集中的第二指令響應(yīng)對結(jié)合所述行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào),以提升所述語言模型在多任務(wù)環(huán)境中的性能。
37、本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述的行業(yè)智能體自動微調(diào)方法。
38、本發(fā)明還提供了一種計算機存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的行業(yè)智能體自動微調(diào)方法。
39、上述行業(yè)智能體自動微調(diào)方法、裝置、電子設(shè)備及存儲介質(zhì),通過獲取行業(yè)數(shù)據(jù),并對行業(yè)數(shù)據(jù)進行預(yù)處理,采用思維鏈和思維樹構(gòu)建初始指令響應(yīng)對,并通過投機推理根據(jù)構(gòu)建的初始指令響應(yīng)對生成包含多個步驟的指令響應(yīng)對,以基于預(yù)處理后的行業(yè)數(shù)據(jù)對該指令響應(yīng)對中的每個步驟進行校驗。隨后,通過指令編碼器從指令響應(yīng)對中抽取元知識,并通過元知識引導(dǎo)指令編碼器生成新的指令響應(yīng)對。之后再從多個維度對第二指令響應(yīng)對進行評估,以獲取新的指令響應(yīng)對在行業(yè)任務(wù)中的評估分數(shù),并去除評估分數(shù)低于第一閾值的指令響應(yīng)對。然后通過相似度判別將差異度較高的新指令響應(yīng)對加入至微調(diào)數(shù)據(jù)集,并丟棄差異度較低的新指令響應(yīng)對。最后,基于篩選出的微調(diào)數(shù)據(jù)集中的新指令響應(yīng)對結(jié)合行業(yè)數(shù)據(jù)的指令數(shù)據(jù)集對面向行業(yè)應(yīng)用的語言模型進行訓(xùn)練微調(diào),來提升語言模型在多任務(wù)環(huán)境中的性能。該方法通過將行業(yè)應(yīng)用中生成的思維鏈和任務(wù)規(guī)劃內(nèi)容編碼為元知識,并在解碼的過程中評估篩選出高質(zhì)量的指令數(shù)據(jù),用于語言模型的微調(diào),將模型在處理行業(yè)任務(wù)生成的思維鏈和任務(wù)規(guī)劃等中間過程,微調(diào)進行業(yè)智能體的模型參數(shù)中,加速了行業(yè)智能體的推理速度,而且不依賴專業(yè)人員的數(shù)據(jù)標注,適合行業(yè)應(yīng)用中短時間內(nèi)難以獲取大量人工指令數(shù)據(jù)的場景,在復(fù)雜行業(yè)任務(wù)中的提高了任務(wù)完成準確率和任務(wù)推理效率,更利于推廣使用。