本申請涉及自然語言處理,特別涉及一種問答對的生成方法及裝置、電子設備、計算機可讀存儲介質(zhì)、計算機程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,構(gòu)建智能問答系統(tǒng)已成為研究和應用的熱點。智能問答系統(tǒng)能夠理解用戶的查詢意圖,從知識庫中檢索或生成準確的答案,為用戶提供高效、便捷地信息服務。為構(gòu)建高準確性的智能問答系統(tǒng),需要為準備若干領(lǐng)域的高質(zhì)量問答對。如何生成高質(zhì)量的問答對成為一個亟需解決的問題。
技術(shù)實現(xiàn)思路
1、本申請實施例的目的在于提供一種問答對的生成方法及電子設備、存儲介質(zhì)、計算機程序產(chǎn)品,用于生成高質(zhì)量的問答對。
2、一方面,本申請?zhí)峁┝艘环N問答對的生成方法,包括:
3、針對目標知識庫內(nèi)的待處理文本,根據(jù)預設劃分策略對其進行劃分,得到多個段落;
4、針對每一段落,基于預設提取策略為其提取出若干關(guān)鍵詞;
5、為每一段落和其對應的若干關(guān)鍵詞構(gòu)建第一輸入?yún)?shù),并通過指定大模型對所述第一輸入?yún)?shù)進行處理,得到該段落對應的問題;其中,所述第一輸入?yún)?shù)指示為該段落生成與所述若干關(guān)鍵詞相關(guān)的問題;
6、根據(jù)每一段落對應的若干關(guān)鍵詞,從所述多個段落中通過近似最近鄰搜索,召回與所述若干關(guān)鍵詞對應的若干相關(guān)段落;
7、基于每一段落對應的若干相關(guān)段落,為該段落的每一問題分別構(gòu)建第二輸入?yún)?shù),并通過所述指定大模型對所述第二輸入?yún)?shù)進行處理,得到該問題對應的答案;其中,所述第二輸入?yún)?shù)指示為該問題生成答案;
8、將所述待處理文本對應的每一問題及該問題對應的答案構(gòu)建為問答對,獲得多個問答對。
9、在一實施例中,所述針對目標知識庫內(nèi)的待處理文本,根據(jù)預設劃分策略對其進行劃分,得到多個段落,包括:
10、根據(jù)文本符號對所述待處理文本進行分割,得到多個文本單元;
11、對每一文本單元進行向量化處理,得到單元向量;
12、將每一文本單元的單元向量在邏輯詞向量庫內(nèi)進行近似最近鄰搜索,并基于該單元向量與最相似的邏輯詞向量之間的相似度,確定相似度評分;
13、將每一文本單元的相似度評分與相鄰的文本單元的相似度評分進行比較,若相似度評分的差值小于預設差值閾值,將文本單元與該向量的文本單元合并,所述多個文本單元經(jīng)合并得到多個段落。
14、在一實施例中,在所述將每一文本單元的單元向量在邏輯詞向量庫內(nèi)進行近似最近鄰搜索之前,所述方法還包括:
15、對預設邏輯詞列表中每一邏輯詞進行向量化處理,得到該邏輯詞對應的邏輯詞向量;
16、根據(jù)多個邏輯詞向量構(gòu)建邏輯詞向量庫。
17、在一實施例中,所述針對每一段落,基于預設提取策略為其提取出若干關(guān)鍵詞,包括:
18、針對每一段落,對該段落進行分詞處理,得到多個分詞結(jié)果;
19、從所述多個分詞結(jié)果中濾除特定字符和停用詞,并將剩余的分詞結(jié)果作為該段落的關(guān)鍵詞;其中,所述特定字符為非中文字符且非英文字母且非數(shù)字且非空白字符的字符。
20、在一實施例中,所述針對每一段落,基于預設提取策略為其提取出若干關(guān)鍵詞,包括:
21、針對每一段落,以預設邏輯詞列表中每一邏輯詞在該段落中進行匹配,若在該段落中匹配到任一邏輯詞,以該邏輯詞在該段落中的位置索引進行擴展,獲得該邏輯詞對應的文本區(qū)間;
22、對每一文本區(qū)間內(nèi)文本進行分詞處理,得到該文本區(qū)間對應的多個分詞結(jié)果;
23、從每一文本區(qū)間的多個分詞結(jié)果中濾除特定字符和停用詞,并將剩余的分詞結(jié)果作為該文本區(qū)間的關(guān)鍵詞;其中,所述特定字符為非中文字符且非英文字母且非數(shù)字且非空白字符的字符;
24、將每一段落中若干文本區(qū)間的關(guān)鍵詞進行去重處理,得到該段落的關(guān)鍵詞。
25、在一實施例中,所述為每一段落和其對應的若干關(guān)鍵詞構(gòu)建第一輸入?yún)?shù),包括:
26、分別將每一段落和其對應的若干關(guān)鍵詞填入至預設第一提示詞模板,得到第一輸入?yún)?shù);其中,所述第一提示詞模板指示生成問題。
27、在一實施例中,所述基于每一段落對應的若干相關(guān)段落,為該段落的每一問題分別構(gòu)建第二輸入?yún)?shù),包括:
28、針對該段落的每一問題,將該問題、該段落對應的若干關(guān)鍵詞、該若干關(guān)鍵詞對應的若干相關(guān)段落、所述待處理文本的全文摘要填入至預設第二提示詞模板,得到第二輸入?yún)?shù);其中,所述第二提示詞模板指示生成答案。
29、在一實施例中,所述待處理文本的全文摘要的獲取步驟包括:
30、將所述待處理文本和摘要提示詞交由所述指定大模型,獲得所述指定大模型輸出的全文摘要;其中,所述摘要提示詞指示生成摘要。
31、另一方面,本申請?zhí)峁┝艘环N電子設備,所述電子設備包括:
32、處理器;
33、用于存儲處理器可執(zhí)行指令的存儲器;
34、其中,所述處理器被配置為執(zhí)行上述問答對的生成方法。
35、進一步的,本申請?zhí)峁┝艘环N計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序可由處理器執(zhí)行以完成上述問答對的生成方法。
36、此外,本申請?zhí)峁┝艘环N計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述問答對的生成方法。
37、本申請方案,可以對目標知識庫內(nèi)的多個文本進行有效預處理,進而借助指定大模型有效生成問題和答案,為目標知識領(lǐng)域構(gòu)建出高質(zhì)量的問答對。
1.一種問答對的生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對目標知識庫內(nèi)的待處理文本,根據(jù)預設劃分策略對其進行劃分,得到多個段落,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述將每一文本單元的單元向量在邏輯詞向量庫內(nèi)進行近似最近鄰搜索之前,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對每一段落,基于預設提取策略為其提取出若干關(guān)鍵詞,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對每一段落,基于預設提取策略為其提取出若干關(guān)鍵詞,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為每一段落和其對應的若干關(guān)鍵詞構(gòu)建第一輸入?yún)?shù),包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每一段落對應的若干相關(guān)段落,為該段落的每一問題分別構(gòu)建第二輸入?yún)?shù),包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述待處理文本的全文摘要的獲取步驟包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計算機程序,所述計算機程序可由處理器執(zhí)行以完成權(quán)利要求1-8任意一項所述的問答對的生成方法。
11.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-8任意一項所述的問答對的生成方法。