两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

推理系統(tǒng)的內(nèi)存管理方法和裝置與流程

文檔序號(hào):40613645發(fā)布日期:2025-01-07 21:00閱讀:9來(lái)源:國(guó)知局
推理系統(tǒng)的內(nèi)存管理方法和裝置與流程

本申請(qǐng)一個(gè)或多個(gè)實(shí)施例涉及人工智能,尤其涉及一種推理系統(tǒng)的內(nèi)存管理方法和裝置。


背景技術(shù):

1、推理系統(tǒng)(inference?system)是一種計(jì)算機(jī)程序,它使用邏輯規(guī)則和已知的事實(shí)來(lái)得出新的結(jié)論或決策。推理系統(tǒng)是人工智能領(lǐng)域的一個(gè)重要組成部分,主要用于模擬人類的決策過(guò)程。它基于一組已定義的知識(shí)庫(kù)和推理引擎來(lái)推導(dǎo)出結(jié)論。推理系統(tǒng)可以執(zhí)行其獲取到的推理請(qǐng)求(inference?request),并輸出對(duì)應(yīng)的推理結(jié)果。

2、一個(gè)典型的推理系統(tǒng)通常由以下幾個(gè)部分組成:知識(shí)庫(kù)(knowledge?base)、推理引擎(inference?engine)、用戶界面(user?interface)、解釋機(jī)制(explanationfacility)。其中,知識(shí)庫(kù)包括存儲(chǔ)系統(tǒng)所知道的所有事實(shí)和規(guī)則,這些事實(shí)可以是關(guān)于世界的狀態(tài)、對(duì)象屬性等,而規(guī)則則是描述如何從已知事實(shí)中得出新結(jié)論的邏輯表達(dá)式。推理引擎是推理系統(tǒng)的核心組件,它負(fù)責(zé)執(zhí)行推理過(guò)程中的邏輯運(yùn)算,即從給定的知識(shí)庫(kù)中得出新的結(jié)論或決策;推理引擎使用一系列規(guī)則和已知事實(shí)來(lái)推導(dǎo)出新的知識(shí),從而幫助系統(tǒng)解決問(wèn)題或做出決定。用戶界面允許用戶與系統(tǒng)交互,輸入查詢或觀察推理過(guò)程的結(jié)果。解釋機(jī)制用來(lái)解釋系統(tǒng)是如何得出特定結(jié)論的,這對(duì)于透明度和信任度非常重要。

3、推理引擎通常使用計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源等(例如:gpu、gpu內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)接口等)資源來(lái)執(zhí)行推理任務(wù),這些資源的高效利用直接影響推理引擎的性能。因此,期望能夠更好、更靈活地對(duì)推理引擎使用的資源進(jìn)行管理。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)一個(gè)或多個(gè)實(shí)施例提供技術(shù)方案如下:

2、本申請(qǐng)?zhí)峁┮环N推理系統(tǒng)的內(nèi)存管理方法,應(yīng)用于推理系統(tǒng)中的推理引擎;所述推理引擎的計(jì)算資源包括用于部署所述推理引擎的計(jì)算設(shè)備上搭載的gpu;所述推理引擎維護(hù)了用于調(diào)度處于prefill階段的推理請(qǐng)求集合的prefill調(diào)度隊(duì)列,以及用于調(diào)度處于decode階段的推理請(qǐng)求集合的decode調(diào)度隊(duì)列;所述方法包括:

3、根據(jù)與所述prefill調(diào)度隊(duì)列中正在執(zhí)行的prefill推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定prefill內(nèi)存管理時(shí)間窗口,并計(jì)算所述prefill內(nèi)存管理時(shí)間窗口內(nèi)與所述prefill推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,以及根據(jù)所述gpu內(nèi)存需求量,為所述prefill推理請(qǐng)求集合分配gpu內(nèi)存;

4、在所述prefill內(nèi)存管理時(shí)間窗口結(jié)束時(shí),重新根據(jù)與所述prefill調(diào)度隊(duì)列中正在執(zhí)行的prefill推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與所述prefill內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的后一個(gè)prefill內(nèi)存管理時(shí)間窗口;

5、根據(jù)與所述decode調(diào)度隊(duì)列中正在執(zhí)行的decode推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定decode內(nèi)存管理時(shí)間窗口,并計(jì)算所述decode內(nèi)存管理時(shí)間窗口內(nèi)與所述decode推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,以及根據(jù)所述gpu內(nèi)存需求量,為所述decode推理請(qǐng)求集合分配gpu內(nèi)存;

6、在所述decode內(nèi)存管理時(shí)間窗口結(jié)束時(shí),重新根據(jù)與所述decode調(diào)度隊(duì)列中正在執(zhí)行的decode推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與所述decode內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的后一個(gè)decode內(nèi)存管理時(shí)間窗口。

7、本申請(qǐng)還提供一種推理系統(tǒng)的內(nèi)存管理裝置,應(yīng)用于推理系統(tǒng)中的推理引擎;所述推理引擎的計(jì)算資源包括用于部署所述推理引擎的計(jì)算設(shè)備上搭載的gpu;所述推理引擎維護(hù)了用于調(diào)度處于prefill階段的推理請(qǐng)求集合的prefill調(diào)度隊(duì)列,以及用于調(diào)度處于decode階段的推理請(qǐng)求集合的decode調(diào)度隊(duì)列;所述裝置包括:

8、第一內(nèi)存管理模塊,根據(jù)與所述prefill調(diào)度隊(duì)列中正在執(zhí)行的prefill推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定prefill內(nèi)存管理時(shí)間窗口,并計(jì)算所述prefill內(nèi)存管理時(shí)間窗口內(nèi)與所述prefill推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,以及根據(jù)所述gpu內(nèi)存需求量,為所述prefill推理請(qǐng)求集合分配gpu內(nèi)存;在所述prefill內(nèi)存管理時(shí)間窗口結(jié)束時(shí),重新根據(jù)與所述prefill調(diào)度隊(duì)列中正在執(zhí)行的prefill推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與所述prefill內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的后一個(gè)prefill內(nèi)存管理時(shí)間窗口;

9、第二內(nèi)存管理模塊,根據(jù)與所述decode調(diào)度隊(duì)列中正在執(zhí)行的decode推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定decode內(nèi)存管理時(shí)間窗口,并計(jì)算所述decode內(nèi)存管理時(shí)間窗口內(nèi)與所述decode推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,以及根據(jù)所述gpu內(nèi)存需求量,為所述decode推理請(qǐng)求集合分配gpu內(nèi)存;在所述decode內(nèi)存管理時(shí)間窗口結(jié)束時(shí),重新根據(jù)與所述decode調(diào)度隊(duì)列中正在執(zhí)行的decode推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與所述decode內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的后一個(gè)decode內(nèi)存管理時(shí)間窗口。

10、本申請(qǐng)還提供一種電子設(shè)備,包括:

11、處理器;

12、用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;

13、其中,所述處理器通過(guò)運(yùn)行所述可執(zhí)行指令以實(shí)現(xiàn)如上述任一項(xiàng)所述方法的步驟。

14、本申請(qǐng)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一項(xiàng)所述方法的步驟。

15、在上述技術(shù)方案中,推理系統(tǒng)中的推理引擎可以使用其所在的計(jì)算設(shè)備上搭載的gpu作為計(jì)算資源來(lái)執(zhí)行推理請(qǐng)求,并對(duì)gpu內(nèi)存進(jìn)行管理。具體地,該推理引擎可以維護(hù)用于調(diào)度推理請(qǐng)求集合的調(diào)度隊(duì)列,并根據(jù)與該調(diào)度隊(duì)列中正在執(zhí)行的推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定內(nèi)存管理時(shí)間窗口,后續(xù)可以計(jì)算該內(nèi)存管理時(shí)間窗口內(nèi)與該推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,并根據(jù)該gpu內(nèi)存需求量,為該推理請(qǐng)求集合分配gpu內(nèi)存,而在該內(nèi)存管理時(shí)間窗口結(jié)束后,可以重新根據(jù)與該調(diào)度隊(duì)列中正在執(zhí)行的推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與該內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的下一個(gè)內(nèi)存管理時(shí)間窗口,以在下一個(gè)內(nèi)存管理時(shí)間窗口內(nèi)再進(jìn)行g(shù)pu內(nèi)存管理。

16、采用上述方式,一方面,無(wú)需在推理引擎啟動(dòng)時(shí)為其預(yù)留大量gpu內(nèi)存,而是可以在推理引擎批量執(zhí)行推理請(qǐng)求的過(guò)程中,不斷地設(shè)置內(nèi)存管理時(shí)間窗口,并預(yù)測(cè)在該內(nèi)存管理時(shí)間窗口內(nèi)與正在執(zhí)行的推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,以根據(jù)該gpu內(nèi)存需求量為該推理請(qǐng)求集合分配gpu內(nèi)存,這樣不僅可以保證推理引擎在批量執(zhí)行推理請(qǐng)求的過(guò)程中有足夠的gpu內(nèi)存可以使用,還可以避免gpu內(nèi)存的浪費(fèi);另一方面,可以根據(jù)推理過(guò)程中的不同階段來(lái)設(shè)置內(nèi)存管理時(shí)間窗口,以及預(yù)測(cè)在所設(shè)置的內(nèi)存管理時(shí)間窗口內(nèi)的gpu需求量,實(shí)現(xiàn)推理過(guò)程中的分階段的gpu內(nèi)存管理,從而可以提高gpu內(nèi)存管理的準(zhǔn)確性和適應(yīng)性。



技術(shù)特征:

1.一種推理系統(tǒng)的內(nèi)存管理方法,應(yīng)用于推理系統(tǒng)中的推理引擎;所述推理引擎的計(jì)算資源包括用于部署所述推理引擎的計(jì)算設(shè)備上搭載的gpu;所述推理引擎維護(hù)了用于調(diào)度處于prefill階段的推理請(qǐng)求集合的prefill調(diào)度隊(duì)列,以及用于調(diào)度處于decode階段的推理請(qǐng)求集合的decode調(diào)度隊(duì)列;所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)與所述prefill調(diào)度隊(duì)列中正在執(zhí)行的prefill推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定prefill內(nèi)存管理時(shí)間窗口,包括:

3.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)與所述decode調(diào)度隊(duì)列中正在執(zhí)行的decode推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定decode內(nèi)存管理時(shí)間窗口,包括:

4.根據(jù)權(quán)利要求1所述的方法,計(jì)算內(nèi)存管理時(shí)間窗口內(nèi)與推理請(qǐng)求集合對(duì)應(yīng)的gpu內(nèi)存需求量,包括:

5.根據(jù)權(quán)利要求4所述的方法,所述計(jì)算內(nèi)存管理時(shí)間窗口內(nèi)與推理請(qǐng)求集合對(duì)應(yīng)的靜態(tài)gpu內(nèi)存使用量,包括:

6.根據(jù)權(quán)利要求4所述的方法,所述計(jì)算內(nèi)存管理時(shí)間窗口內(nèi)與推理請(qǐng)求集合對(duì)應(yīng)的靜態(tài)gpu內(nèi)存使用量,包括:

7.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)所述gpu內(nèi)存需求量,為所述decode推理請(qǐng)求集合分配gpu內(nèi)存,包括:

8.根據(jù)權(quán)利要求7所述的方法,所述gpu內(nèi)存分配條件,包括:

9.根據(jù)權(quán)利要求7所述的方法,所述釋放用于執(zhí)行所述decode推理請(qǐng)求集合的gpu內(nèi)存,包括:

10.一種推理系統(tǒng)的內(nèi)存管理裝置,應(yīng)用于推理系統(tǒng)中的推理引擎;所述推理引擎的計(jì)算資源包括用于部署所述推理引擎的計(jì)算設(shè)備上搭載的gpu;所述推理引擎維護(hù)了用于調(diào)度處于prefill階段的推理請(qǐng)求集合的prefill調(diào)度隊(duì)列,以及用于調(diào)度處于decode階段的推理請(qǐng)求集合的decode調(diào)度隊(duì)列;所述裝置包括:

11.一種電子設(shè)備,包括:

12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至9中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請(qǐng)一個(gè)或多個(gè)實(shí)施例提供一種推理系統(tǒng)的內(nèi)存管理方法和裝置,所述方法應(yīng)用于推理系統(tǒng)中的推理引擎;所述推理引擎的計(jì)算資源包括用于部署所述推理引擎的計(jì)算設(shè)備上搭載的GPU;所述推理引擎維護(hù)了用于調(diào)度推理請(qǐng)求集合的調(diào)度隊(duì)列;所述方法包括:根據(jù)與所述調(diào)度隊(duì)列中正在執(zhí)行的推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定內(nèi)存管理時(shí)間窗口;計(jì)算所述內(nèi)存管理時(shí)間窗口內(nèi)與所述推理請(qǐng)求集合對(duì)應(yīng)的GPU內(nèi)存需求量,并根據(jù)所述GPU內(nèi)存需求量,為所述推理請(qǐng)求集合分配GPU內(nèi)存;在所述內(nèi)存管理時(shí)間窗口結(jié)束時(shí),重新根據(jù)與所述調(diào)度隊(duì)列中正在執(zhí)行的推理請(qǐng)求集合相關(guān)聯(lián)的數(shù)據(jù)處理時(shí)長(zhǎng),確定與所述內(nèi)存管理時(shí)間窗口對(duì)應(yīng)的后一個(gè)內(nèi)存管理時(shí)間窗口。

技術(shù)研發(fā)人員:丁治強(qiáng),楊統(tǒng)凱
受保護(hù)的技術(shù)使用者:支付寶(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
轮台县| 监利县| 拉孜县| 修武县| 商水县| 登封市| 财经| 景谷| 鄂伦春自治旗| 衡阳市| 钟山县| 西平县| 潍坊市| 闽侯县| 石台县| 桃江县| 射洪县| 隆林| 香格里拉县| 望奎县| 商城县| 丰镇市| 葫芦岛市| 九龙城区| 吉木萨尔县| 司法| 淮阳县| 台南县| 天气| 怀安县| 永昌县| 自贡市| 宜良县| 江津市| 洛川县| 板桥市| 甘德县| 尤溪县| 凭祥市| 通河县| 沁阳市|