] 圖7展示了測試數(shù)據(jù)庫中距5類風(fēng)格中心概率值最大的前12個(gè)書法字。
[0086] 圖8和圖9為實(shí)施例中待識別書法字屬于五類風(fēng)格的概率。
【具體實(shí)施方式】
[0087] 以下根據(jù)圖1~圖9,具體說明本發(fā)明的較佳實(shí)施例。
[0088] 如圖1所示,本發(fā)明提供一種書法字風(fēng)格的識別方法,包含以下步驟:
[0089] 步驟S1、構(gòu)造書法字訓(xùn)練樣本,對訓(xùn)練樣本進(jìn)行風(fēng)格標(biāo)注,計(jì)算每種風(fēng)格字體的風(fēng) 格特征值;
[0090] 步驟S2、計(jì)算待識別書法字的風(fēng)格特征值;
[0091] 步驟S3、計(jì)算待識別書法字屬于書法字訓(xùn)練樣本中每一種風(fēng)格的條件概率,根據(jù) 條件概率的大小判斷待識別書法字的風(fēng)格。
[0092] 所述的步驟Sl包含以下步驟:
[0093] 步驟SI. 1、得到書法作品的單個(gè)書法字的圖像集合;
[0094] 如圖2所示,對掃描得到的書法作品頁面圖像進(jìn)行全局二值化,接著根據(jù)作品列 間距,利用投影直方圖將頁面切分成多列,然后利用字間距把每一列切成單個(gè)書法字,得到 單個(gè)書法字的圖像集合;
[0095] 如果有重疊的書法字,則通過手工調(diào)整最小包圍盒的邊框進(jìn)行手工分割;
[0096] 步驟SI. 2、對書法字圖像進(jìn)行風(fēng)格標(biāo)注;
[0097] 分為五類書法風(fēng)格:篆書、隸書、楷書、行書和草書;
[0098] 采用交互式界面進(jìn)行風(fēng)格標(biāo)注,將書法風(fēng)格信息保存到數(shù)據(jù)庫;
[0099] 步驟SL 3、計(jì)算書法字的風(fēng)格特征值;
[0100] 步驟SI. 4、分別計(jì)算書法字訓(xùn)練樣本中各類風(fēng)格書法字的風(fēng)格特征值的平均值和 協(xié)方差。
[0101] 所述的步驟SI. 3包含以下步驟:
[0102] 步驟SI. 3. 1、對書法字圖像進(jìn)行二值化,提取骨架信息;
[0103] 步驟SI. 3. 2、提取書法字圖像的風(fēng)格特征值;
[0104] 所述的風(fēng)格特征值包含筆畫級風(fēng)格特征和字級風(fēng)格特征;
[0105] 所述的筆畫級風(fēng)格特征包含橫筆特征和豎筆特征;
[0106] 所述的橫筆特征包含橫筆個(gè)數(shù)、斜率、橫向碼比值、左斜碼比值、右斜碼比值、起筆 處斜率、收筆處斜率;
[0107] 所述的豎筆特征包含豎筆個(gè)數(shù)、斜率、豎向碼比值、左斜碼比值、右斜碼比值;
[0108] 所述的字級風(fēng)格特征包含平均筆寬、筆寬變化率、最大筆寬值、最細(xì)筆寬值、黑白 二值比、高寬比、重心位置、左右墨點(diǎn)比、傾斜率;
[0109] 將提取到的風(fēng)格特征值存入數(shù)據(jù)庫中。
[0110] 所述的步驟SI. 3. 1包含以下步驟:
[0111] 步驟SI. 3. 1. 1、將書法字圖像轉(zhuǎn)為二值化圖像;
[0112] 利用已有的大津二值化算法將書法字圖像像素點(diǎn)的灰度值變成1或者〇 ;
[0113] 步驟SI. 3. 1. 2、如圖3所示,利用中軸轉(zhuǎn)換算法獲取書法字的骨架,然后再把有兩 個(gè)像素點(diǎn)寬的骨架點(diǎn)變成一個(gè)像素點(diǎn)寬的骨架點(diǎn);
[0114] 所述的中軸轉(zhuǎn)換算法可米用 IEEE Transactions on Pattern Analysis and Machine Intelligence,2002年第24卷第I刊,59-74頁:論文名字:用主曲線分段細(xì)化法 (Piecewise linear skeletonization using principal curves)中提到的算法;
[0115] 所述的把兩個(gè)像素點(diǎn)寬的骨架點(diǎn)變成一個(gè)像素點(diǎn)具體做法是:一個(gè)骨架點(diǎn)的8鄰 域內(nèi),若橫向或縱向有兩個(gè)連續(xù)的骨架像素點(diǎn),則刪除其中一個(gè)點(diǎn);
[0116] 步驟SI. 3. 1. 3、如圖4和圖5所示,從骨架的一個(gè)端點(diǎn)出發(fā),跟蹤一個(gè)像素點(diǎn)寬的 骨架走勢,利用八鏈碼(用數(shù)字〇到7表達(dá)下一個(gè)骨架點(diǎn)與當(dāng)前骨架點(diǎn)的方向關(guān)系)序列 表達(dá)書法字的橫筆和豎筆信息,將這些信息存入數(shù)據(jù)庫中。
[0117] 所述的步驟SI. 3. 2中,所述的橫筆特征具體如下:
[0118] 檢測到的橫筆個(gè)數(shù)fh__nt;
[0119] 橫筆筆畫的平均斜率fh sl_,即所有橫筆筆畫斜率的平均值;
[0120] 橫筆筆畫的橫向碼比值fh Mtlcl,即計(jì)算橫筆筆畫八鏈碼中0和4的比例;
[0121] 橫筆筆畫的左斜碼比值fh2,即計(jì)算橫筆筆畫八鏈碼中1和5所占的比例;
[0122] 橫筆筆畫的右斜碼比值fh3,即計(jì)算橫筆筆畫八鏈碼中3和7所占的比例;
[0123] 橫筆的起筆處斜率fh head;
[0124] 橫筆的收筆處斜率fh OTd;
[0125] 所述的豎筆特征具體如下:
[0126] 檢測到的豎筆個(gè)數(shù)fv raunt;
[0127] 豎筆筆畫的平均斜率fv sl_,即所有豎筆筆畫斜率的平均值;
[0128] 豎筆筆畫的豎向碼比值fV Mtl。,即計(jì)算豎筆筆畫八鏈碼中6所占的比例;
[0129] 豎筆筆畫的左斜碼比值fv2,即計(jì)算豎筆筆畫八鏈碼中1和5所占的比例;
[0130] 豎筆筆畫的右斜碼比值fv3,即計(jì)算豎筆筆畫八鏈碼中3和7所占的比例;
[0131] 所述的字級風(fēng)格特征具體如下:
[0132] 對于每個(gè)字,以每個(gè)骨架點(diǎn)i為中心,圓內(nèi)像素點(diǎn)95%以上的點(diǎn)為二值前景色(字 的顏色)的最大半徑Cl1,如圖6所示,假設(shè)骨架信息圖上一共有η個(gè)像素的骨架點(diǎn),則前4 項(xiàng)字級風(fēng)格特征為:
[0133] 平均筆寬
[0134] 筆寬變化率
[0135] 最大筆寬值,即前五分之一寬的平均寬度f__wldth;
[0136] 最細(xì)筆寬值,即后五分之一寬的平均寬度f__wldth;
[0137] 根據(jù)二值化圖像為M*N像素點(diǎn),(X,y)為坐標(biāo),P (X,y)表示二值圖像:
[0138] CN 105117741 A 說明書 7/9 頁
[0139] 則另外8項(xiàng)字級風(fēng)格特征值為:
[0141] 高寬比 fas_-ratl。= N/M;
[0142] 重心位置:
[0143] 字在橫線(X軸)的重心
[0144] 字在縱向(Y軸)的重心
[0145] 左右墨點(diǎn)比:
[0146] 字在X軸壓力變化
[0153] 字在Y軸傾斜平衡 fslant_y
[0154] CN 105117741 A 說明書 8/9 頁
[0155] 所述的步驟SI. 4中,五種書法風(fēng)格分別是篆書、隸書、楷書、行書和草書,用〇^表 示,其中k = 1,2. .. 5,每種風(fēng)格各有1個(gè)樣本,S jik代表數(shù)據(jù)庫存儲的一個(gè)書法字樣本(其 中j = 1,2,…,Mk),則書法字Sjik的24個(gè)特征變量為f li jik,其中1 = 1,2, ..,24,每一個(gè) 書法字樣本的24個(gè)特征值匕jik組成的特征值向量F jik= [f u jik,f2, jik,. . .,f24, jik]。
[0156] 計(jì)算每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的平均值向量:
[0158] 計(jì)算每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的協(xié)方差矩陣:
[0160] 如圖7所示,按標(biāo)注的5類風(fēng)格,分別計(jì)算訓(xùn)練樣本24項(xiàng)特征值均值和方差,展示 5類中離聚類中心最接近的前12個(gè)書法字,第一行為第1類風(fēng)格(篆書)、第二行為第2類 風(fēng)格(隸書)、第三行為第3類風(fēng)格(楷書)、第四行為第4類風(fēng)格(行書)、第五行為第5 類風(fēng)格(草書)。
[0161] 所述的步驟S2中,采用與步驟SI. 3中計(jì)算書法字的風(fēng)格特征值相同的方法來計(jì) 算待識別書法字的風(fēng)格特征值。
[0162] 所述的步驟S3中,根據(jù)基于高斯特征模型的線性分類器,計(jì)算待識別書法字屬于 每一種風(fēng)格的條件概率Pk;
[0164] 其中,:以=Qk,是每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的協(xié)方差矩陣 的逆矩陣,μ k是每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的平均值向量,Q是待識別書法字, F是待識別書法字的風(fēng)格特征值,<^是書法風(fēng)格分類標(biāo)簽;
[0165] 計(jì)算出5個(gè)條件概率值,根據(jù)條件概率的值判斷書法字的風(fēng)格,條件概率值最高 的那個(gè)風(fēng)格即是這個(gè)待識別書法字的風(fēng)格。
[0166] 實(shí)施例:下面結(jié)合本發(fā)明的方法詳細(xì)說明該實(shí)例實(shí)施的具體步驟,如下:
[0167] 1、使用由CADAL(http://www. cadal. zju. edu. cn)掃描中心掃描得到的《中國書 法全集》、《中國歷代楷書真跡》、《中國歷代帝王御藏名帖》、《漢曹全碑》、《柳公權(quán)玄秘塔碑》 等54卷書法書籍的頁面圖像。對這些書法作品頁面圖像進(jìn)行全局二值化。接著根據(jù)作品 列間距,利用投影直方圖將頁面切分成多列,然后利用字間距把每一列被切成單個(gè)書法字。 如果有重疊的書法字,則通過手工調(diào)整最小包圍盒的線進(jìn)行手工分割。得到單個(gè)書法字的 圖像集合。一共得到8279個(gè)書法字圖像。
[0168] 2、對8279個(gè)書法字圖像進(jìn)行風(fēng)格標(biāo)注,構(gòu)造訓(xùn)練