運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法及設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體涉及模式識(shí)別,具體涉及運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法及設(shè)備。
【背景技術(shù)】
[0002]自動(dòng)檢測運(yùn)動(dòng)員的標(biāo)識(shí)文字以識(shí)別運(yùn)動(dòng)員的身份對于基于內(nèi)容的體育運(yùn)動(dòng)視頻分析特別有用,并且在當(dāng)今這個(gè)信息爆炸的時(shí)代,對于視頻索引和檢索也將是非常有價(jià)值的。
[0003]運(yùn)動(dòng)衫文字(包括字符和數(shù)字)是一種常見的代表性的運(yùn)動(dòng)員標(biāo)識(shí)文字,由于其大小、字體、方向、姿態(tài)、亮度等有多種形式并且隨場景而變化,因此運(yùn)動(dòng)衫文字的識(shí)別是非常有難度的。
[0004]目前常用的運(yùn)動(dòng)衫文字識(shí)別方式是:在要進(jìn)行文字識(shí)別的視頻幀的中央?yún)^(qū)域或者其他根據(jù)經(jīng)驗(yàn)預(yù)測可能包含運(yùn)動(dòng)衫文字的區(qū)域中通過邊角特征來檢測文字,隨后提取出檢測到的文字并進(jìn)行文字分割,最后采用例如0CR(光學(xué)字符識(shí)別)等現(xiàn)有的文字識(shí)別算法對分割后的各個(gè)文字進(jìn)行識(shí)別。然而,由于視頻幀中復(fù)雜的背景和弱監(jiān)控特征,根據(jù)經(jīng)驗(yàn)預(yù)測的包含運(yùn)動(dòng)衫文字的區(qū)域很可能不準(zhǔn)確,例如可能未包含運(yùn)動(dòng)衫文字,或者雖然包含了運(yùn)動(dòng)衫文字但是還包括了許多其他不相關(guān)的文字從而導(dǎo)致背景噪聲較高難以從中檢測出運(yùn)動(dòng)衫文字,最終導(dǎo)致運(yùn)動(dòng)衫文字的識(shí)別率較低。
【發(fā)明內(nèi)容】
[0005]至少針對以上問題提出本發(fā)明。根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法,包括:在包含有運(yùn)動(dòng)參與者的圖像幀中檢測運(yùn)動(dòng)參與者的臉部;在檢測到的臉部周圍的預(yù)定區(qū)域中檢測所述標(biāo)識(shí)文字;識(shí)別所述標(biāo)識(shí)文字。
[0006]根據(jù)本發(fā)明的另一實(shí)施例,提供了一種運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別設(shè)備,包括:臉部檢測單元,配置為在包含有運(yùn)動(dòng)參與者的圖像幀中檢測運(yùn)動(dòng)參與者的臉部;文字檢測單元,配置為在檢測到的臉部周圍的預(yù)定區(qū)域中檢測所述標(biāo)識(shí)文字;識(shí)別單元,配置為識(shí)別所述標(biāo)識(shí)文字。
[0007]根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別技術(shù)通過識(shí)別運(yùn)動(dòng)參與者的臉部準(zhǔn)確地定位包含有標(biāo)識(shí)文字的區(qū)域,避免了漏掉運(yùn)動(dòng)參與者的標(biāo)識(shí)文字或者進(jìn)行識(shí)別的區(qū)域中噪聲較高的問題,從而提高了標(biāo)識(shí)文字的識(shí)別率。
【附圖說明】
[0008]通過結(jié)合附圖對本公開示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實(shí)施方式中,相同的參考標(biāo)號(hào)通常代表相同部件。
[0009]圖1示意性地示出了根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法的流程圖。
[0010]圖2示意性地示出了運(yùn)動(dòng)參與者的身體比例關(guān)系及運(yùn)動(dòng)參與者的臉部與運(yùn)動(dòng)衫文字區(qū)域的位置關(guān)系。
[0011]圖3(a)和3(b)分別例示了應(yīng)用模式分類器之前和之后確定的運(yùn)動(dòng)衫文字區(qū)域。
[0012]圖4示出了根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別設(shè)備的示意性結(jié)構(gòu)框圖。
[0013]圖5示出了根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別系統(tǒng)的示意性總體硬件框圖。
【具體實(shí)施方式】
[0014]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0015]參看圖1,其示意性地示出了根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法的流程圖。
[0016]運(yùn)動(dòng)員是最具代表性的運(yùn)動(dòng)參與者,并且運(yùn)動(dòng)員身穿的運(yùn)動(dòng)衫上的運(yùn)動(dòng)衫文字(包括字符和數(shù)字)是常見的代表性的運(yùn)動(dòng)參與者標(biāo)識(shí)文字。下文中,為了便于說明,以運(yùn)動(dòng)員及運(yùn)動(dòng)衫文字為例,對運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法進(jìn)行說明。
[0017]如圖1所示,在步驟S101,在包含有運(yùn)動(dòng)參與者的圖像幀中檢測運(yùn)動(dòng)參與者的臉部。
[0018]包含有運(yùn)動(dòng)參與者的圖像幀即要進(jìn)行文字識(shí)別的圖像幀,其可以是任意感興趣的幀。例如,該圖像幀可以是體育運(yùn)動(dòng)視頻中存在運(yùn)動(dòng)員的臉部特寫的關(guān)鍵幀。
[0019]在圖像幀中檢測人臉的方法是本領(lǐng)域中公知的。例如,可選的,可以提取諸如兩眼的連線、鼻子和嘴之間的區(qū)域等圖像特征,采用基于haar特征的級(jí)聯(lián)分類器來檢測圖像幀中的各個(gè)人臉作為運(yùn)動(dòng)員的臉部。此處檢測到的人臉可以是正臉也可以是側(cè)臉。
[0020]然而,在例如籃球比賽等背景較為嘈雜的情形中,如上所述檢測到的人臉中可能包含有除運(yùn)動(dòng)員之外的其他人員(例如,觀眾)的臉部??紤]到運(yùn)動(dòng)員在要進(jìn)行文字識(shí)別的圖像幀中所占的面積相對其他人員要大,可選的,可以將圖像幀中檢測到的臉部中面積大于預(yù)定閾值的臉部作為運(yùn)動(dòng)員的臉部,例如可以將檢測到的臉部中面積大于圖像幀的1%的臉部作為運(yùn)動(dòng)員的臉部。
[0021]在步驟S102,在檢測到的臉部周圍的預(yù)定區(qū)域中檢測所述標(biāo)識(shí)文字。
[0022]在待識(shí)別的標(biāo)識(shí)文字是例如上述的運(yùn)動(dòng)衫文字的情況下,所述臉部周圍的預(yù)定區(qū)域即運(yùn)動(dòng)衫文字區(qū)域。
[0023]本發(fā)明人認(rèn)識(shí)到,在運(yùn)動(dòng)員的臉部和運(yùn)動(dòng)員的運(yùn)動(dòng)衫文字之間存在有固定的相對位置關(guān)系。更明確的說,只要檢測到運(yùn)動(dòng)員的臉部,按照運(yùn)動(dòng)員的身體比例就可以確定運(yùn)動(dòng)衫文字區(qū)域的位置。例如,如圖2所示,在運(yùn)動(dòng)員臉部為正臉并且運(yùn)動(dòng)衫文字在運(yùn)動(dòng)員胸前的情況下,所述運(yùn)動(dòng)衫文字區(qū)域位于運(yùn)動(dòng)員臉部的下方并且與運(yùn)動(dòng)員臉部的距離為例如該運(yùn)動(dòng)員臉部的長度。另外,可選的,可以設(shè)定運(yùn)動(dòng)衫文字區(qū)域?yàn)榫匦螀^(qū)域,其長和寬分別為運(yùn)動(dòng)員臉部長度的2倍和1.5倍。能夠理解,上述運(yùn)動(dòng)衫文字區(qū)域的位置、形狀和大小僅僅是一種示例,而并非是對本發(fā)明的限制,本領(lǐng)域技術(shù)人員可以根據(jù)運(yùn)動(dòng)衫文字的位置、大小、運(yùn)動(dòng)員的身體比例等具體情況進(jìn)行設(shè)定。
[0024]在該步驟中,可以在每一個(gè)臉部周圍的運(yùn)動(dòng)衫文字區(qū)域中檢測其包含的文字,這一檢測可以采用本領(lǐng)域公知的任何適當(dāng)?shù)姆椒▉磉M(jìn)行。例如,可以采用諸如Canny邊檢測器和Sobel算子進(jìn)行邊角檢測以檢測出運(yùn)動(dòng)衫文字區(qū)域中的文字;然后通過例如二值化處理和連通分量分析對檢測出的文字進(jìn)行文字分割,從而得到各個(gè)獨(dú)立的文字以進(jìn)行后續(xù)的文字識(shí)別。
[0025]可選的,對于檢測得到的各個(gè)獨(dú)立的文字,可以采用公知的去噪方法來濾除由于例如運(yùn)動(dòng)衫領(lǐng)子和護(hù)腕等導(dǎo)致的噪聲。
[0026]例如,可選的,可以僅將檢測得到的各個(gè)獨(dú)立文字中具有預(yù)定外形特征的文字作為標(biāo)識(shí)文字進(jìn)行后續(xù)的文字識(shí)別。所述外形特征包括文字的輪廓的面積、文字的外接矩形的面積、文字的長寬比中的一種或多種。例如,可以將輪廓面積大于運(yùn)動(dòng)衫文字區(qū)域的0.3%并且/或者外接矩形的面積大于運(yùn)動(dòng)衫文字區(qū)域的1.5%的文字作為標(biāo)識(shí)文字,從而消除小輪廓噪聲。再比如,運(yùn)動(dòng)衫文字通常具有一定的特征高寬比,例如,字符的高和寬基本相同,數(shù)字的高比寬要大,因此可以考慮選擇高/寬比在0.5-3.0的范圍內(nèi)的文字作為標(biāo)識(shí)文字。
[0027]另外,在上文的描述中,對于每一個(gè)根據(jù)檢測到的臉部所確定的運(yùn)動(dòng)衫文字區(qū)域,均在其中檢測包含的文字??蛇x的,為了提高識(shí)別效率,可以利用模式識(shí)別分類器來判斷所確定的各個(gè)運(yùn)動(dòng)衫文字區(qū)域是否包含標(biāo)識(shí)文字,并且僅在包含有標(biāo)識(shí)文字的運(yùn)動(dòng)衫區(qū)域中檢測文字。例如,可以采用CEDD(顏色和邊緣的方向性描述符)特征,用KNN分類器來判斷所確定的各個(gè)運(yùn)動(dòng)衫文字區(qū)域是否包含標(biāo)識(shí)文字,即是否是真正的運(yùn)動(dòng)衫文字區(qū)域。當(dāng)然,采用CEDD特征和分類器僅僅是一種示例,并非是對本發(fā)明的限定,本領(lǐng)域技術(shù)人員可以采用其他適當(dāng)?shù)奶卣骱头诸惼鬟M(jìn)行這一判斷。圖3(a)和3(b)示出了如上所述應(yīng)用模式分類器之前和之后確定的運(yùn)動(dòng)衫文字區(qū)域的一種示例情形。如圖3(a)所示,假設(shè)在步驟SlOl中檢測到4個(gè)運(yùn)動(dòng)員臉部,并且由此確定了 4個(gè)對應(yīng)的運(yùn)動(dòng)衫文字區(qū)域。可以看出,其中檢測出的臉部a實(shí)際是觀眾的臉部,檢測出的臉部b實(shí)際是圖像幀中的文字,其均不是運(yùn)動(dòng)員臉部,相應(yīng)地,基于臉部a和臉部b確定的對應(yīng)的運(yùn)動(dòng)衫文字區(qū)域a和b也均不是真正的運(yùn)動(dòng)衫文字區(qū)域。圖3(b)示出了對圖3(a)所示的運(yùn)動(dòng)衫文字區(qū)域應(yīng)用模式分類器的結(jié)果。從圖3 (b)可以看出,運(yùn)動(dòng)衫文字區(qū)域a和b均被濾除了,從而在后續(xù)處理中僅需對其余兩個(gè)運(yùn)動(dòng)衫文字區(qū)域進(jìn)行文字識(shí)別,提高了識(shí)別效率。
[0028]回到圖1,在步驟S103,識(shí)別所述標(biāo)識(shí)文字。
[0029]在該步驟中,可以采用諸如基于模板匹配的算法、基于人工神經(jīng)網(wǎng)絡(luò)的算法等本領(lǐng)域中任何公知的文字識(shí)別算法來識(shí)別在步驟S102中檢測出的標(biāo)識(shí)文字。例如,作為一種示例,可以采用霍夫線檢測來校正檢測出的每個(gè)單獨(dú)的文字的傾斜以及扭曲,隨后使用矩陣匹配方法將校正后的文字與預(yù)先創(chuàng)建的訓(xùn)練樣本進(jìn)行比較來識(shí)別文字。可選的,可以從運(yùn)動(dòng)字庫中選擇各種常用運(yùn)動(dòng)衫字體、并且對于每種常用運(yùn)動(dòng)衫字體從運(yùn)動(dòng)視頻幀中提取各種實(shí)際字體來創(chuàng)建所述訓(xùn)練樣本。
[0030]以上詳細(xì)描述了根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法。在該實(shí)施例中,通過識(shí)別運(yùn)動(dòng)參與者的臉部來準(zhǔn)確地定位包含有標(biāo)識(shí)文字的區(qū)域,從而提高了標(biāo)識(shí)文字的識(shí)別率。
[0031]能夠理解,在以上根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法的描述中,以體育運(yùn)動(dòng)員為例進(jìn)行了說明,但是,該識(shí)別方法不僅適用于運(yùn)動(dòng)員,也可以適用于其他運(yùn)動(dòng)參與者,例如裁判員、拉拉隊(duì)員等。
[0032]另外,在以上根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法的描述中,以運(yùn)動(dòng)衫文字作為標(biāo)識(shí)文字的例子進(jìn)行了說明,但是該識(shí)別方法不僅適用于運(yùn)動(dòng)衫文字,也可以適用于其他能夠標(biāo)識(shí)運(yùn)動(dòng)參與者的標(biāo)識(shí)文字,例如運(yùn)動(dòng)參與者佩戴的帽子上的標(biāo)識(shí)文字等。
[0033]另外,根據(jù)本發(fā)明實(shí)施例的運(yùn)動(dòng)參與者的標(biāo)識(shí)文字的識(shí)別方法不