專利名稱::用于pdf文件的屬性處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及印刷領(lǐng)域,具體而言,涉及用于PDF(PortableDocumentR)rmat,可攜帶文檔格式)文件的屬性處理方法及裝置。
背景技術(shù):
:在針對(duì)印刷行業(yè)軟件的測(cè)試過(guò)程中,經(jīng)常需要從已有的大量PDF格式的樣例文件中選擇出具備某種特定屬性(key)或某些特定屬性集的PDF文件進(jìn)行針對(duì)性的測(cè)試活動(dòng)。目前,篩選出特定屬性的PDF文件的方法有兩種一是通過(guò)在制作PDF文件后通過(guò)文件名直接表示出該文件具備哪些重要的屬性,日后通過(guò)文件名去進(jìn)行篩選。但此種方法由于系統(tǒng)的文件名長(zhǎng)度和所用字符都有較嚴(yán)格的限制,因此不能列出太多的屬性,且查詢起來(lái)對(duì)于組合屬性的篩選不好實(shí)現(xiàn)。另外一種方法是每次進(jìn)行測(cè)試時(shí),均人工地打開(kāi)每一個(gè)PDF文件,逐一查看其屬性,這個(gè)過(guò)程相當(dāng)費(fèi)時(shí),效率很低。由于這類(lèi)的測(cè)試活動(dòng)比較頻繁,而且時(shí)間周期上有嚴(yán)格的要求,因此現(xiàn)有技術(shù)的兩種方法都不可行。
發(fā)明內(nèi)容本發(fā)明旨在提供一種用于PDF文件的屬性處理方法和裝置,以解決現(xiàn)有的PDF文件屬性篩選方法效率很低的問(wèn)題。在本發(fā)明的實(shí)施例中,提供了一種用于PDF文件的屬性處理方法,包括以下步驟獲取PDF文件的屬性;將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。在本發(fā)明的實(shí)施例中,還提供了一種用于PDF文件的屬性處理裝置,包括獲取模塊,用于獲取PDF文件的屬性;記錄模塊,用于將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。上述實(shí)施例的用于PDF文件的屬性處理方法和裝置因?yàn)椴捎脭?shù)據(jù)庫(kù)記錄PDF文件屬性,便于日后的查詢,所以克服了現(xiàn)有的PDF文件屬性篩選方法效率很低的問(wèn)題,因此節(jié)約了人工成本,提高了效率。此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于PDF文件的屬性處理方法的流程圖;圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于PDF文件的屬性處理方法的流程圖;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于PDF文件的屬性處理裝置的示意圖;圖4示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于PDF文件的屬性處理裝置的示意圖。具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來(lái)詳細(xì)說(shuō)明本發(fā)明。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于PDF文件的屬性處理方法的流程圖,包括以下步驟步驟S10,獲取PDF文件的屬性;步驟S20,將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。現(xiàn)有技術(shù)中,每次進(jìn)行測(cè)試時(shí),均人工地打開(kāi)每一個(gè)PDF文件,逐一查看其屬性,這個(gè)過(guò)程相當(dāng)費(fèi)時(shí),效率很低。而該屬性處理方法因?yàn)椴捎脭?shù)據(jù)庫(kù)記錄PDF文件屬性,便于日后的查詢,所以無(wú)需每次進(jìn)行測(cè)試時(shí)再人工地打開(kāi)每一個(gè)PDF文件,克服了現(xiàn)有的PDF文件屬性篩選方法效率很低的問(wèn)題,因此節(jié)約了人工成本,提高了效率。優(yōu)選地,步驟SlO包括解析PDF文件得到頭文件、內(nèi)容流(contents)和文件字典;從頭文件、內(nèi)容流和文件字典中獲取PDF文件的屬性。上述解析過(guò)程因?yàn)榭梢酝ㄟ^(guò)執(zhí)行計(jì)算機(jī)軟件來(lái)實(shí)現(xiàn),從而徹底地取消了人工分析PDF文件的過(guò)程,大大地減輕了人工成本,顯著地提高了效率。當(dāng)然,作為本發(fā)明的基本實(shí)施例,也可以通過(guò)人工分析的方式來(lái)獲取PDF文件的屬性。優(yōu)選地,從頭文件、內(nèi)容流和文件字典中獲取PDF文件的屬性包括遍歷頭文件、內(nèi)容流和文件字典中的所有字典對(duì)象,在遍歷過(guò)程中判斷遍歷的字典對(duì)象是否具有預(yù)先設(shè)置的屬性字典中的屬性。本優(yōu)選實(shí)施例中,采用屬性字典來(lái)預(yù)設(shè)需要搜索的屬性,從而提高了程序查找PDF屬性的速度。優(yōu)選地,用于PDF文件的屬性處理方法還包括預(yù)先設(shè)置屬性字典,其中將期望測(cè)試PDF文件的特定屬性作為用于搜索的屬性加入到屬性字典中。在該優(yōu)選實(shí)施例中,因?yàn)楦鶕?jù)測(cè)試PDF文件的目的來(lái)預(yù)先設(shè)置屬性字典,從而可以確保進(jìn)行PDF屬性分析處理的結(jié)果能夠用于PDF文件的測(cè)試。另外,因?yàn)榭梢匀藶榈卦O(shè)置屬性字典,即可調(diào)整PDF屬性分析處理的過(guò)程,所以當(dāng)測(cè)試目的發(fā)生變化時(shí),無(wú)需對(duì)PDF屬性分析處理的過(guò)程進(jìn)行調(diào)整,只需簡(jiǎn)單地更新屬性字典即可。因?yàn)閷傩宰值涫歉鶕?jù)需要定制的,因此擴(kuò)展性也比較強(qiáng),如果有了新增的屬性要求只需要修改字典重新利用本系統(tǒng)進(jìn)行PDF文件解析入庫(kù)即可。優(yōu)選地,在遍歷過(guò)程中判斷遍歷的字典對(duì)象是否具有預(yù)先設(shè)置的屬性字典中的屬性包括對(duì)于當(dāng)前遍歷到的字典對(duì)象,判斷其是否具有屬性字典的屬性中尚未確定PDF文件已經(jīng)具有的屬性,而屬性字典的屬性中確定PDF文件已經(jīng)具有的屬性則不再進(jìn)行判斷。根據(jù)本優(yōu)選實(shí)施例,當(dāng)屬性字典包括多個(gè)屬性時(shí),如果已經(jīng)在遍歷PDF文件的字典對(duì)象過(guò)程中,確定某個(gè)字典對(duì)象具有屬性字典的某個(gè)屬性時(shí),那么在接下來(lái)的字典對(duì)象遍歷過(guò)程中,就無(wú)需在判斷該已經(jīng)被確定了屬性,而只需判斷PDF文件是否具有屬性字典的其他屬性。這樣做顯然提高了程序執(zhí)行效率,當(dāng)PDF文件數(shù)量特別多時(shí),能夠顯著地加快屬性處理速度。優(yōu)選地,步驟SlO包括從輸入的字符串中獲取路徑;遍歷路徑中的所有PDF文件,以獲取遍歷的每個(gè)PDF文件的屬性。根據(jù)該優(yōu)選實(shí)施例,用戶只需輸入一個(gè)路徑,就能自動(dòng)地對(duì)路徑中所有的PDF文件進(jìn)行屬性處理,減輕了用戶手工操作的負(fù)擔(dān),提高了工作效率。優(yōu)選地,屬性包括以下至少之一文檔類(lèi)型、PDF版本、是否預(yù)分色文件、總頁(yè)數(shù)、是否存在Outputhtent、是否按流方式提交、是否處理OptionalContent、是否解析AnnotationProcessed、文件是否加密、是否為飛騰加密、PDFXVersion、交叉引用表是否為流對(duì)象、是否多個(gè)交叉引用、存在流對(duì)象的Content、存在數(shù)組對(duì)象的Content、存在空對(duì)象的Content、注釋內(nèi)容屬性注釋類(lèi)型(WidgetType、Link、FreeText、CirCle、Polygon、Ployline、Highlight、Underline、Squiggly、StrikeOut、Stamp、Caret、Ink、FileAttachment、sound、Movie、PrinterMark、TrapNet,WaterMark,ThreeD)、Widge是否可以輸出、AP字典內(nèi)N對(duì)象類(lèi)型(流對(duì)象、詞典對(duì)象、其它對(duì)象)、可選內(nèi)容屬性可選對(duì)象類(lèi)型(oCG、OCMenberShip)、是否有MemberSiip決定oC狀態(tài)、OC狀態(tài)(ON、OFF、UnDenfined)、Membership計(jì)算規(guī)則(VE、ΑΝΥ0Ν、ANYOFF,ALL0N、ALL0FF)、圖像對(duì)象屬性圖像類(lèi)型(Normal、Inlinelmage、Mask、explictMask、ColorkeyMasKSmask)、位深(1、2、4、6、8、16)、是否存在線高為1的圖像、是否存在線寬為1的圖像、X方向分辨率、Y方向分辨率、是否存在缺省的Decode、呈色意向、疊印模式、是否疊印、是否前端組裝、圖像處理類(lèi)型、是否前端變倍、圖像變倍算法、是否從左向右掃描、是否從上向下掃描、trasfer類(lèi)型、是否裁切、色面數(shù)量、是否變形、是否含有UCR、是否含有BG、掛網(wǎng)類(lèi)型、掛網(wǎng)中是否存在Transfer、掛網(wǎng)Spot函數(shù)類(lèi)型、bHasTwoSquaresThreshold)、漸變屬性漸變類(lèi)型、是否定義了背景顏色、疊印模式、是否定義了BBox、是否含有UCR、是否為類(lèi)型2的I^ttern、Transfer類(lèi)型、是否多輸出函數(shù)、是否疊印、是否含有BG、函數(shù)類(lèi)型、是否多輸出、是否多輸入、是否存在Range項(xiàng)、路徑屬性路徑類(lèi)型、是否存在閉合SubPath、是否存在曲線、是否存在零向量、是否存在定點(diǎn)數(shù)越界、繪制操作符、Trasfer類(lèi)型、是否疊印、是否含有UCR、是否存在多個(gè)SubPath、是否存在不閉合SubPath、是否被緩沖、Flatness是否比默認(rèn)值小、存在接近垂直/水平直線、疊印模式、Flatness且是否為曲線、是否含有BG、字體屬性字體類(lèi)型(TypeO、TypeUType3、TrueType)、字體名稱、基礎(chǔ)字體名稱、字體編碼類(lèi)型、寬度表類(lèi)型、字體文件是否內(nèi)嵌、字體I^aintType、是否合成粗體效果、是否合成斜體效果、是否OpenType字體、是否非間接引用對(duì)象、是否Symbolic類(lèi)型的字體)、隱藏圖元屬性(具有OC屬性的圖元類(lèi)型、被隱藏圖元類(lèi)型(StrokeElement,FillElement、TextElement、ShadingElement、XobjectElement)、是否在MarkedContent中嵌套多層)、字體內(nèi)容屬性TextRenderMode、TextKnockOut、是否存在要進(jìn)cache的Type3字符、是否存在不進(jìn)cache的Type3字符、是否存在包含Image的Type3字符、是否存在包含i^orm的Type3字符、是否存在包含Rmt的Type3字符、是否存在包含seac指令的Typel字符、是否存在包含MemHint的Typel字符、是否存在包含CounterHint的Typel字符、字典中的寬度表信息是否與字體文件中的度量信息不一致、TransferType、是否存在包含Instruction的TrueType字符、是否含有UCR、疊印模式、是否含有UCR、是否含有BG、是否疊印、字體類(lèi)型色彩空間類(lèi)型CS_DeviceGray、CS_DeviceRGB、CS_DeviceCMYK、CS_CalGray>CS_CalRGB、CS_ICCBased、CS_Separation、CS_DeviceN>CS_Indexed、CS_Lab、CS_Pattern、函數(shù)屬性函數(shù)類(lèi)型(SampleFunc、ExpFunc,StitchFunc、PSFunc)、是否多輸出、是否多輸入、是否存在Range項(xiàng)、透明屬性透明組內(nèi)圖元、圖元含有專色、含有softlmageMask、父透明屬性、透明組自身屬性(Isolated、Konckout,PageGroup)、透明圖像狀態(tài)屬性(BlendMode、AIS、0P、0PM、SoftMask類(lèi)型、背景色)、FilterTypeASCIIHEX、6ASCII85、RLE、LZW、FLATE,FAX、DCT,JBIG2、CRYPT、SUBFILE、RESTREAM、SPECIAL、JPX。本發(fā)明優(yōu)選實(shí)施例包括但不限定于上述屬性。圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于PDF文件的屬性處理方法的流程圖,該優(yōu)選實(shí)施例綜合了上述各個(gè)實(shí)施例的方案。對(duì)于一個(gè)用戶輸入的字符串,為了將其所包含的所有路徑中的全部PDF文件進(jìn)行自動(dòng)地屬性解析對(duì)比,生成數(shù)據(jù)庫(kù)記錄進(jìn)行統(tǒng)一管理,如圖2所示的步驟完成如下處理步驟Sl根據(jù)輸入的字符串,拆分獲取有效的路徑。步驟S2遍歷路徑中的所有PDF文件。步驟S3將遍歷的每一個(gè)文件逐一進(jìn)行解析處理。步驟S4對(duì)解析的當(dāng)前PDF文件執(zhí)行以下操作步驟S41分析PDF文件字典對(duì)象執(zhí)行以下操作步驟S411獲取PDF文件的字典對(duì)象。步驟S412在PDF字典對(duì)象中查找是否包含指定的屬性。步驟S413記錄搜索結(jié)果。步驟S42分析PDF文件中的每個(gè)頁(yè)面字典的內(nèi)容流執(zhí)行以下操作步驟S421獲取PDF文件頁(yè)面字典對(duì)象中的內(nèi)容流。步驟S422在頁(yè)面內(nèi)容流查找是否包含指定屬性。步驟S423記錄搜索結(jié)果。步驟S5判斷PDF文件的所有頁(yè)面是否已經(jīng)分析完畢,如果沒(méi)有分析完,則繼續(xù)執(zhí)行步驟S3。步驟S6如果PDF文件的所有頁(yè)面已經(jīng)分析完,則在指定的數(shù)據(jù)庫(kù)表中生成一條數(shù)據(jù)記錄,將PDF文件的屬性記錄的內(nèi)容按格式填充該數(shù)據(jù)記錄。步驟S7判斷指定路徑中的所有PDF文件是否已經(jīng)分析完,如果沒(méi)有分析完,則繼續(xù)執(zhí)行上述的步驟S2-S6。如果分析完,則結(jié)束本過(guò)程。圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于PDF文件的屬性處理裝置的示意圖,包括獲取模塊10,用于獲取PDF文件的屬性;記錄模塊20,用于將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中?,F(xiàn)有技術(shù)中,每次進(jìn)行測(cè)試時(shí),均人工地打開(kāi)每一個(gè)PDF文件,逐一查看其屬性,這個(gè)過(guò)程相當(dāng)費(fèi)時(shí),效率很低。而該屬性處理裝置因?yàn)椴捎脭?shù)據(jù)庫(kù)記錄PDF文件屬性,便于日后的查詢,所以無(wú)需每次進(jìn)行測(cè)試時(shí)再人工地打開(kāi)每一個(gè)PDF文件,克服了現(xiàn)有的PDF文件屬性篩選方法效率很低的問(wèn)題,因此節(jié)約了人工成本,提高了效率。優(yōu)選地,獲取模塊10包括PDF文件解析模塊,用于解析PDF文件得到頭文件、內(nèi)容流和文件字典;PDF文件字典解析模塊,用于從頭文件、內(nèi)容流和文件字典中獲取PDF文件的屬性。上述解析過(guò)程因?yàn)榭梢酝ㄟ^(guò)執(zhí)行計(jì)算機(jī)軟件來(lái)實(shí)現(xiàn),從而徹底地取消了人工分析PDF文件的過(guò)程,大大地減輕了人工成本,顯著地提高了效率。當(dāng)然,作為本發(fā)明的基本實(shí)施例,也可以通過(guò)人工分析的方式來(lái)獲取PDF文件的屬性。優(yōu)選地,獲取模塊10包括文件路徑獲取模塊,用于從輸入的字符串中獲取路徑;路徑遍歷提取PDF文件模塊,用于遍歷路徑中的所有PDF文件,以獲取遍歷的每個(gè)PDF文件的屬性。根據(jù)該優(yōu)選實(shí)施例,用戶只需輸入一個(gè)路徑,就能自動(dòng)地對(duì)路徑中所有的PDF文件進(jìn)行屬性處理,減輕了用戶手工操作的負(fù)擔(dān),提高了工作效率。圖4示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于PDF文件的屬性處理裝置的示意圖。該優(yōu)選實(shí)施例綜合了上述各個(gè)實(shí)施例的方案。該屬性處理裝置包括文件路徑獲取模塊12、路徑遍歷提取PDF文件模塊14、PDF文件解析模塊22、PDF文件字典解析模塊24、頁(yè)面內(nèi)容流解析模塊沈、屬性搜索模塊^、PDF屬性記錄模塊32、數(shù)據(jù)庫(kù)記錄生成模塊34,其中文件路徑獲取模塊12,用于從輸入的字符串中獲取每個(gè)有效的文件路徑,例如,文件路徑獲取模塊12從輸入的字符串中通過(guò)查找特殊分割符“I,,的方法拆分出多個(gè)有效路徑,然后將每個(gè)有效路徑逐一的傳遞給后續(xù)的模塊進(jìn)行處理。;路徑遍歷提取PDF文件模塊14,用于遍歷指定路徑中的每一個(gè)PDF文件,例如,路徑遍歷提取PDF文件模塊14對(duì)傳入的一個(gè)有效路徑,遍歷其中的每一個(gè)文件,并通過(guò)文件后綴進(jìn)行篩選,將每個(gè)”.Pdf”后綴的文件逐一專遞給后續(xù)模塊處理;PDF文件解析模塊22,用于解析PDF文件中是否包含已定義的指定屬性。其中包括了PDF文件字典解析模塊和頁(yè)面內(nèi)容流解析模塊。PDF文件字典解析模塊M,用于獲取PDF文件的字典,并搜索是否包含已定義的屬性,例如,PDF文件字典解析模塊M獲取傳入的PDF文件的字典對(duì)象,并調(diào)用屬性搜索模塊搜索該屬性字典中是否包含已定義的屬性,并記錄文件基本信息和搜索結(jié)果。頁(yè)面內(nèi)容流解析模塊沈,用于拆分出每頁(yè)字典中的內(nèi)容流,并逐一將獲取的頁(yè)面內(nèi)容流進(jìn)行處理,搜索其中是否包含已定義的屬性,例如,頁(yè)面內(nèi)容流解析模塊26拆分出PDF文件的每個(gè)頁(yè)的字典對(duì)象中的內(nèi)容流,并將獲取的各頁(yè)面的內(nèi)容流逐一進(jìn)行后續(xù)處理,調(diào)用屬性搜索模塊搜索該頁(yè)面內(nèi)容流中是否包含已定義的屬性,并記錄搜索結(jié)果。屬性搜索模塊觀,用于搜索指定的屬性在特定的字典對(duì)象中是否存在。上述的文件路徑獲取模塊12、路徑遍歷提取PDF文件模塊14、PDF文件解析模塊22、PDF文件字典解析模塊24、頁(yè)面內(nèi)容流解析模塊沈、屬性搜索模塊觀實(shí)現(xiàn)了圖3中的獲取模塊10PDF屬性記錄模塊32,用于保存PDF文件的基本信息和搜索出來(lái)的文件所包含的特定屬性。數(shù)據(jù)庫(kù)記錄生成模塊34,用于將保存的PDF屬性記錄以數(shù)據(jù)庫(kù)記錄的形式記錄到指定的數(shù)據(jù)庫(kù)表中,例如,數(shù)據(jù)庫(kù)記錄生成模塊在指定的數(shù)據(jù)庫(kù)中添加一條新的數(shù)據(jù)庫(kù)記錄,將前面過(guò)程記錄的PDF文件屬性搜索結(jié)果進(jìn)行整理合并,按照指定格式填充該數(shù)據(jù)庫(kù)記錄。上述的PDF屬性記錄模塊32、數(shù)據(jù)庫(kù)記錄生成模塊34實(shí)現(xiàn)了圖3中的記錄模塊20。該優(yōu)選實(shí)施例因?yàn)檎麄€(gè)過(guò)程可以批量地進(jìn)行處理,并且不需要人為干預(yù),自動(dòng)完成從提取文件到解析入庫(kù)的全部過(guò)程,因此大量地節(jié)約了人工成本,提高了效率。并且一次入庫(kù)后,隨時(shí)可以針對(duì)已入庫(kù)內(nèi)容進(jìn)行快速簡(jiǎn)潔地篩選,并可以實(shí)現(xiàn)各種屬性組合篩選的強(qiáng)大功能,便于管理和使用,也使得更細(xì)化的篩選變得可能。從以上的描述中,可以看出,本發(fā)明上述的實(shí)施例克服了現(xiàn)有的PDF文件屬性篩選方法效率很低的問(wèn)題,因此節(jié)約了人工成本,提高了效率。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來(lái)實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來(lái)實(shí)現(xiàn),從而可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來(lái)執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來(lái)實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1.一種用于PDF文件的屬性處理方法,其特征在于,包括以下步驟獲取PDF文件的屬性;將獲取的每個(gè)所述PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取PDF文件的屬性包括解析所述PDF文件得到頭文件、內(nèi)容流和文件字典;從所述頭文件、所述內(nèi)容流和所述文件字典中獲取所述PDF文件的屬性。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述頭文件、所述內(nèi)容流和所述文件字典中獲取所述PDF文件的屬性包括遍歷所述頭文件、所述內(nèi)容流和所述文件字典中的所有字典對(duì)象,在遍歷過(guò)程中判斷所述遍歷的字典對(duì)象是否具有預(yù)先設(shè)置的屬性字典中的屬性。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括預(yù)先設(shè)置所述屬性字典,其中將期望測(cè)試所述PDF文件的特定屬性作為用于搜索的屬性加入到所述屬性字典中。5.根據(jù)權(quán)利要求3所述的方法,其特征在于,在遍歷過(guò)程中判斷所述遍歷的字典對(duì)象是否具有預(yù)先設(shè)置的屬性字典中的屬性包括對(duì)于當(dāng)前遍歷到的所述字典對(duì)象,判斷其是否具有所述屬性字典的屬性中尚未確定所述PDF文件已經(jīng)具有的屬性,而所述屬性字典的屬性中確定所述PDF文件已經(jīng)具有的屬性則不再進(jìn)行判斷。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取PDF文件的屬性包括從輸入的字符串中獲取路徑;遍歷所述路徑中的所有PDF文件,以獲取所述遍歷的每個(gè)PDF文件的屬性。7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述屬性包括以下至少之一文檔類(lèi)型、PDF版本、是否預(yù)分色文件、總頁(yè)數(shù)、是否存在Outputhtent、是否按流方式提交、是否處理OptionalContent、是否解析AnnotationProcessed、文件是否加密、是否為飛騰加密、PDFXVersion、交叉引用表是否為流對(duì)象、是否多個(gè)交叉引用、存在流對(duì)象的Content、存在數(shù)組對(duì)象的Content、存在空對(duì)象的Content、注釋內(nèi)容屬性注釋類(lèi)型(WidgetType、Link、FreeText、CirCle、Polygon、Ployline、Highlight、Underline、Squiggly、StrikeOut、Stamp、Caret、Ink、FileAttachment、sound、Movie、PrinterMark、TrapNet,WaterMark,ThreeD)、Widge是否可以輸出、AP字典內(nèi)N對(duì)象類(lèi)型(流對(duì)象、詞典對(duì)象、其它對(duì)象)、可選內(nèi)容屬性可選對(duì)象類(lèi)型(OCG、OCMenberShip)、是否有MemberSiip決定OC狀態(tài)、OC狀態(tài)(ON、OFF、UnDenfined)、Membership計(jì)算規(guī)則(VE、ΑΝΥ0Ν、ANYOFF,ALL0N、ALL0FF)、圖像對(duì)象屬性圖像類(lèi)型(Normal、Inlinelmage、Mask、explictMask、ColorkeyMasKSmask)、位深(1、2、4、6、8、16)、是否存在線高為1的圖像、是否存在線寬為1的圖像、χ方向分辨率、Y方向分辨率、是否存在缺省的Decode、呈色意向、疊印模式、是否疊印、是否前端組裝、圖像處理類(lèi)型、是否前端變倍、圖像變倍算法、是否從左向右掃描、是否從上向下掃描、trasfer類(lèi)型、是否裁切、色面數(shù)量、是否變形、是否含有UCR、是否含有BG、掛網(wǎng)類(lèi)型、掛網(wǎng)中是否存在Transfer、掛網(wǎng)Spot函數(shù)類(lèi)型、bHasTwoSquaresThreshold)、漸變屬性漸變類(lèi)型、是否定義了背景顏色、疊印模式、是否定義了BBox、是否含有UCR、是否為類(lèi)型2的I^ttern、Transfer類(lèi)型、是否多輸出函數(shù)、是否疊印、是否含有BG、函數(shù)類(lèi)型、是否多輸出、是否多輸入、是否存在Range項(xiàng)、路徑屬性路徑類(lèi)型、是否存在閉合SubPath、是否存在曲線、是否存在零向量、是否存在定點(diǎn)數(shù)越界、繪制操作符、Trasfer類(lèi)型、是否疊印、是否含有UCR、是否存在多個(gè)SubPath、是否存在不閉合SubPath、是否被緩沖、Flatness是否比默認(rèn)值小、存在接近垂直/水平直線、疊印模式、Flatness且是否為曲線、是否含有BG、字體屬性字體類(lèi)型(TypeO、TypeUType3、TrueType)、字體名稱、基礎(chǔ)字體名稱、字體編碼類(lèi)型、寬度表類(lèi)型、字體文件是否內(nèi)嵌、字體I^aintType、是否合成粗體效果、是否合成斜體效果、是否OpenType字體、是否非間接引用對(duì)象、是否Symbolic類(lèi)型的字體)、隱藏圖元屬性(具有OC屬性的圖元類(lèi)型、被隱藏圖元類(lèi)型(StrokeElement,FillElement、TextElement、ShadingElement、XobiectElement)、是否在MarkedContent中嵌套多層)、字體內(nèi)容屬性TextRenderMode、TextKnockOut、是否存在要進(jìn)cache的Type3字符、是否存在不進(jìn)cache的Type3字符、是否存在包含Image的Type3字符、是否存在包含i^orm的Type3字符、是否存在包含Rmt的Type3字符、是否存在包含seac指令的Typel字符、是否存在包含MemHint的Typel字符、是否存在包含CounterHint的Typel字符、字典中的寬度表信息是否與字體文件中的度量信息不一致、TransferType、是否存在包含Instruction的TrueType字符、是否含有UCR、疊印模式、是否含有UCR、是否含有BG、是否疊印、字體類(lèi)型色彩空間類(lèi)型CS_DeviceGray、CS_DeviceRGB、CS_DeviceCMYK、CS_CalGray>CS_CalRGB、CS_ICCBased、CS_Separation、CS_DeviceN>CS_Indexed、CS_Lab、CS_Pattern、函數(shù)屬性函數(shù)類(lèi)型(SampleFunc、ExpFunc,StitchFunc、PSFunc)、是否多輸出、是否多輸入、是否存在Range項(xiàng)、透明屬性透明組內(nèi)圖元、圖元含有專色、含有softlmageMask、父透明屬性、透明組自身屬性(Isolated、Konckout,PageGroup)、透明圖像狀態(tài)屬性(BlendMode、AIS、0P、0PM、SoftMask類(lèi)型、背景色)、FilterTypeASCIIHEX、ASCII85、RLE、LZff,FLATE,FAX、DCT,JBIG2、CRYPT、SUBFILE、RESTREAM、SPECIAL、JPX。8.一種用于PDF文件的屬性處理裝置,其特征在于,包括獲取模塊,用于獲取PDF文件的屬性;記錄模塊,用于將獲取的每個(gè)所述PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊包括PDF文件解析模塊,用于解析所述PDF文件得到頭文件、內(nèi)容流和文件字典;PDF文件字典解析模塊,用于從所述頭文件、所述內(nèi)容流和所述文件字典中獲取所述PDF文件的屬性。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊包括文件路徑獲取模塊,用于從輸入的字符串中獲取路徑;路徑遍歷提取PDF文件模塊,用于遍歷所述路徑中的所有PDF文件,以獲取所述遍歷的每個(gè)PDF文件的屬性。全文摘要本發(fā)明提供了一種用于PDF文件的屬性處理方法,包括以下步驟獲取PDF文件的屬性;將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。本發(fā)明還提供了一種用于PDF文件的屬性處理裝置,包括獲取模塊,用于獲取PDF文件的屬性;記錄模塊,用于將獲取的每個(gè)PDF文件的屬性及其文件名作為一條記錄加入到數(shù)據(jù)庫(kù)中。本發(fā)明節(jié)約了人工成本,提高了效率。文檔編號(hào)G06F17/30GK102541905SQ201010605620公開(kāi)日2012年7月4日申請(qǐng)日期2010年12月15日優(yōu)先權(quán)日2010年12月15日發(fā)明者盧秀琴,張立業(yè)申請(qǐng)人:北京北大方正電子有限公司,北大方正集團(tuán)有限公司