WO2012002357A1 - 文書処理装置及びプログラム - Google Patents

文書処理装置及びプログラム Download PDF

Info

Publication number
WO2012002357A1
WO2012002357A1 PCT/JP2011/064749 JP2011064749W WO2012002357A1 WO 2012002357 A1 WO2012002357 A1 WO 2012002357A1 JP 2011064749 W JP2011064749 W JP 2011064749W WO 2012002357 A1 WO2012002357 A1 WO 2012002357A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
character string
word
information
document
Prior art date
Application number
PCT/JP2011/064749
Other languages
English (en)
French (fr)
Inventor
松本俊子
Original Assignee
株式会社日立ソリューションズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ソリューションズ filed Critical 株式会社日立ソリューションズ
Priority to US13/696,881 priority Critical patent/US8959049B2/en
Priority to EP11800821.8A priority patent/EP2565798A4/en
Publication of WO2012002357A1 publication Critical patent/WO2012002357A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a document processing apparatus and a program, for example, a technique for efficiently managing file data of a large amount of business documents.
  • a search can be performed using a business ID such as a document name, a customer name, a creation date, an order number, etc.
  • a document necessary for an internal control audit if a search can be performed using a business ID such as a document name, a customer name, a creation date, an order number, etc., it is possible to quickly find a document necessary for an internal control audit.
  • the design document can be searched by the document name, the creation source department, the creation date, the product code, etc.
  • the technical information is effectively used.
  • it is a record document of complaints / defect information
  • it is possible to search by date of occurrence, date of countermeasures, product name, damage amount, part name, etc. it is effective for quick response when similar defects occur .
  • a document such as business rules and notifications can be searched by document type, creation date, execution period, etc., it is effective for efficient business execution in accordance with the rules.
  • the present invention has been made in view of such a situation, and in a document created in a language in which a blank character exists in the word breaks constituting a sentence, each word break is reliably detected, and a blank character is detected.
  • the present invention provides a technique that can be reliably reinserted into a break.
  • the present invention provides a document processing apparatus that executes a predetermined process on a document including a sentence created in a language in which a blank character exists at a word break and manages a processing result.
  • the document processing apparatus determines whether two adjacent characters included in a sentence are included in the same word based on a notation rule between characters or words and symbols in the language (word break determination processing). . Then, the processing result by the word break determination processing is displayed on the display device, and the processing result by the word break determination processing unit is registered in the registration database in response to the input instruction.
  • the word break determination process metadata is ignored by ignoring white space characters from the text in the document database that stores the original document information obtained by reading the original document including the words that make up the text and the presence or absence of white space characters.
  • the process which extracts is performed. Then, in the word break determination process, using the determination result as to whether two adjacent characters are included in the same word, the blank character is reinserted into the extracted metadata, and the blank character is reinserted.
  • the registered metadata is registered in the registration database as a result of the word break determination process.
  • word break determination processing when it cannot be determined that two adjacent characters are included in the same word by the determination processing based on the notation rule, a blank character is inserted between the two adjacent characters with reference to the original document information. It is determined whether or not it is sandwiched, and based on the confirmation result, it is determined whether two adjacent characters in the sentence are included in the same word.
  • a document processing apparatus stores, in a memory, character string object information including a character string identifier and character string object characteristics, and character information indicating which character string includes each character of the character string. is doing.
  • the word break determination processing unit refers to the character string object information and the character information, and It is confirmed whether two characters are included in the same character string object, and based on the confirmation result, it is determined whether two adjacent characters in the sentence are included in the same word.
  • the character string object information further includes position information of each character string.
  • the word break determination processing unit refers to the position information of each character string when it cannot be determined that two adjacent characters are included in the same word with reference to the character string object information and character information. It is confirmed whether the character string object is spaced or close, and based on the confirmation result, it is determined whether two adjacent characters in the sentence are included in the same word.
  • FIG. 4 is a diagram illustrating an example of a document in which “word break” cannot be accurately examined by the intuitive method illustrated in FIG. 3.
  • FIG. 3 It is a functional block diagram which shows schematic structure of the business document processing apparatus by embodiment of this invention. It is a figure which shows the example of a data structure of document information, character information, and character string object information. It is a figure which shows the example of a data structure of line drawing information, image information, and metadata information.
  • Intuitive method 2 for examining “word breaks” from the original document In the office document creation software storage format, browsing software storage format, print data file, etc., the document description is held in the form of a character string object (the character string object includes one or more characters). . Therefore, referring to the data structure of the original document, as shown in FIG. 3B, the time point when the object holding the character is switched is defined as “word break”.
  • the above method 2 may not be correctly checked.
  • the notation rule is a rule that defines a normative style for creating a sentence, such as the Oxford rule or the Chicago manual.
  • the inventor cannot determine whether the same word is included from the English notation rules, and if there is no space character between them, the character included in the same string object We paid attention to the fact that they can be judged to be included in the same word.
  • the inventor cannot determine whether or not the same word is included from the English notation rules, and when it is included in a different character string object without a blank character in between. It was noted that if the character string objects are spaced apart, they are included in different words, and if they are close, they can be determined to be included in the same word.
  • a business document processing apparatus according to an embodiment of the present invention that executes processing according to the above noted points will be described.
  • FIG. 5 is a functional block diagram showing a schematic configuration of a business document processing apparatus (document processing apparatus) according to the present embodiment.
  • the business document processing apparatus 50 includes a display apparatus 500 for displaying data, a document DB 501, a keyboard 502 for performing operations such as selecting a menu for the displayed data, and a pointing device 503 such as a mouse. And a central processing unit 504 for performing necessary arithmetic processing and control processing, a program memory 505 for storing a program necessary for processing in the central processing unit 504, and data necessary for processing in the central processing unit 504 are stored. And a metadata DB 530 that stores metadata that is a result of processing the character string object.
  • the central processing unit 504 ignores the blank characters and extracts the metadata from the document.
  • the blank character ignore metadata extraction processing unit 507 inserts the blank characters again into the extracted metadata.
  • a blank character reinsertion processing unit 508 that performs the processing to perform the above-described processing, and a result display processing unit 509 that displays the metadata subjected to the blank insertion processing.
  • each processing unit is realized by at least a part of a computer configuration. That is, the blank character ignoring metadata extraction processing unit 507, the blank character reinsertion processing unit 508, and the result display processing unit 509 are all realized as part of the functions of the program executed on the computer. Therefore, each processing unit can be read as each processing program. These programs are stored in the program memory 505.
  • Each processing unit may be realized by modularization.
  • the blank character reinsertion processing unit 508 has a word break determination processing unit 510.
  • the word break determination processing unit 510 refers to an English notation rule confirmation processing unit 511 that executes processing for confirming whether a blank character exists in the character string while referring to the notation rules in Table 1, document information 515, and character information 516.
  • a character string presence / absence confirmation processing unit 512 that executes processing for confirming whether or not a blank character string exists while referring to the character string object information 517, and the same object is included with reference to the character string object information 517.
  • a character string object identity confirmation processing unit 513 that performs processing for confirming whether or not
  • a character string object interval confirmation processing unit that performs processing for confirming the interval (number of pixels) between two character string objects from the coordinate information of the character string object 514.
  • the data memory 506 stores document information 515, character information 516, character string object information 517, line drawing information 518, image information 519, and metadata information 520.
  • FIG. 6 is a diagram showing the data structure of document information 515, character information 516, and character string object information 517 included in the data memory 506.
  • the document information 515 includes a document ID 600, character data 601, character string object data 602, line drawing data 603, and image data 604 as configuration items.
  • the character data 601 is character information described in the document, and is held in the form of an array of character information structures.
  • the character string object data 602 is information on a character string object including characters described in a document, and is held in the form of an array of character string object information structures.
  • the line drawing data 603 is line drawing (line segment) information described in the page, and is held in the form of an array of line drawing information structures.
  • Image data 604 is information of an image described in a page, and is held in the form of an array of image information structures.
  • the character information 516 includes, as configuration items, a character ID 605, a character code 606, a character string object ID 607, a lower left coordinate 608, an upper right coordinate 609, a font size 610, and a font type 611.
  • the character ID 605 is an ID uniquely assigned to each character.
  • a character code 606 indicates the content of the character.
  • the character string object ID 607 is the ID 612 of the character string object that includes the character.
  • the lower left coordinate 608 is a coordinate indicating where the lower left vertex of the circumscribed rectangle of the character is located on the page.
  • the upper right coordinate 609 is a coordinate indicating where the upper right vertex of the circumscribed rectangle of the character is located on the page.
  • the font size 610 is the size of the character.
  • the font type 611 is the font type of the character.
  • the character string object information 517 includes a character string ID 612, a lower left coordinate 613, and an upper right coordinate 614 as configuration items.
  • the character string ID 612 is an ID uniquely assigned to each character string object.
  • the lower left coordinate 613 is a coordinate indicating where the lower left vertex of the circumscribed rectangle of the character string is located on the page.
  • the upper right coordinate 614 is a coordinate indicating where the upper right vertex of the circumscribed rectangle of the character is located on the page.
  • FIG. 7 is a diagram showing a data structure of the line drawing information 158, the image information 519, and the metadata information 520 included in the data memory 506.
  • the line drawing information 518 is information relating to ruled lines, for example, and includes line drawing ID 700, start point coordinates 701, and end point coordinates 702 as configuration items.
  • the line drawing ID 700 is an ID uniquely assigned to each line drawing.
  • the starting point coordinates 701 are coordinates indicating where one end of the straight line is located on the page.
  • the end point coordinate 702 is a coordinate indicating where the other end of the straight line is located on the page.
  • the image information 519 is information relating to, for example, a seal face image or an illustration of a seal, and includes an image ID 703, a lower left coordinate 704, an upper right coordinate 705, and pixel data 706 as configuration items.
  • the image ID 703 is an ID uniquely assigned to each image.
  • the lower left coordinate 704 is a coordinate indicating where the lower left vertex of the circumscribed rectangle of the image is located on the page.
  • the upper right coordinate 705 is a coordinate indicating where the upper right vertex of the circumscribed rectangle of the image is located on the page.
  • the pixel data 706 holds an image image in an image format.
  • the metadata information 520 is a data structure for holding document metadata, and includes a metadata ID 707, a metadata type 708, character data 709, and a blank character reinsertion flag 710 as configuration items.
  • the metadata ID 707 is an ID uniquely assigned to each metadata.
  • the metadata type 708 holds which type of metadata.
  • the character data 709 holds a character ID 605 for each character included in the metadata in the form of an array.
  • the blank character reinsertion flag 710 holds, in the form of an array, whether or not a blank character should be reinserted between the character data 709 corresponding to the result of the reinsertion process.
  • FIG. 8 is a flowchart for explaining an outline of metadata extraction / registration processing performed in the business document processing apparatus.
  • step 800 document information reading processing is performed using OCR or the like.
  • the read result is held in the document information 515.
  • the metadata has not been extracted yet, so there is no element of the metadata information 520.
  • the blank character ignoring metadata extraction processing unit 507 performs metadata extraction ignoring the blank characters (step 801). This processing is performed using the blank character ignoring metadata extraction processing unit 507, and is described in Non-Patent Document 1, Non-Patent Document 2, Patent Document 1, Patent Document 2, Patent Document 3, and the like. Can be done with existing technology. Therefore, detailed explanation is omitted.
  • the result of the processing is stored in the metadata information 520. Since the blank character reinsertion processing is not performed at this time, the blank character reinsertion processing unit 508 initializes all array elements of the blank character reinsertion flag 710 (see FIG. 7) with false.
  • the blank character reinsertion processing unit 508 performs a process of reinserting the blank character into the metadata (step 802). Details of this processing will be described in detail with reference to FIG.
  • the result display unit 509 displays the processing result on the display device 500 (step 803).
  • An example of the screen displayed here will be described in detail with reference to FIGS.
  • a metadata registration processing unit (not shown) registers the metadata with the blank character inserted again in the metadata DB 530 as a processing result in response to a user instruction.
  • FIG. 9 is a flowchart for explaining the details of the process (step 802) for re-inserting the blank character of FIG. 8 into the metadata.
  • the blank character reinsertion processing unit 508 initializes the metadata index m_idx with 1 (step 900), and checks whether the number of metadata information is greater than or equal to m_idx (step 901). If it is less than m_idx, the process is terminated. On the other hand, if it is greater than or equal to m_idx, the blank character reinsertion processing unit 508 initializes the character index c_idx with 1 (step 902), and the m_idxth metadata information is character data 709 with characters greater than or equal to c_idx + 1. It is checked whether it is held (step 903). If it is less than c_idx, the blank character reinsertion processing unit 508 has finished processing for all adjacent characters included in the metadata, so m_idx is incremented by 1 (step 904), and step The processing is returned to 901.
  • the blank character reinsertion processing unit 508 checks whether the c_idxth and c_idx + 1th characters are included in the same word (step 905). This process is performed by the word break determination processing unit 510 and will be described in detail with reference to FIG.
  • step 905 If it is determined in step 905 that the word is a different word, the blank character reinsertion processing unit 508 sets true to the c_idx-th element of the blank character reinsertion flag 710 in the metadata information (step 906). . Thereafter, the blank character reinsertion processing unit 508 increments c_idx by 1 (step 907), and returns the process to step 903.
  • FIG. 10 is a flowchart for explaining the details of the process (step 905) for determining whether or not the two characters of FIG. 9 are included in the same word.
  • the blank character reinsertion processing unit 508 uses the English notation rule confirmation processing unit 511 to determine whether two characters are included in the same word from the English notation rule (step 1000). More specifically, it is assumed that the English notation rule confirmation processing unit 511 determines that there is an applicable item (rule) in Table 1 as a relationship between two characters, and cannot determine if there is no applicable item. .
  • the blank character reinsertion processing unit 508 uses the blank character presence / absence confirmation processing unit 512 to determine whether there is a blank (step 1002). More specifically, the blank character presence / absence confirmation processing unit 512 checks whether or not each character data 601 included in the document information is a blank character from the character code 606, and between the two characters from the lower left coordinate 608 and the upper right coordinate 609. Check if it is pinched. If a space character is found between the two characters, it is determined that the two characters are included in different character strings, and it cannot be determined without such a character.
  • the blank character reinsertion processing unit 508 uses the character string object identity confirmation processing unit 513 to determine from the identity of the character string object (step 1004). Specifically, the character string object identity confirmation processing unit 513 checks whether the character string object IDs 607 of the two characters are the same. If they are the same, it is determined that two characters are included in the same character string, and if they are different, it cannot be determined.
  • the blank character reinsertion processing unit 508 uses the character string object interval confirmation processing unit 514 to make a determination based on the character string object interval (step 1006). Specifically, the character string object interval confirmation processing unit 514 searches for character string object information having a character string ID 612 having the same value as the character string object ID 607 of two characters, and the interval is determined from the lower left coordinates 613 and the upper right coordinates 614. Check out. For example, different character strings may be determined if the interval is more than a predetermined value, and the same character strings may be determined if they are close (less than a predetermined value).
  • the blank character presence check process, the character string object identity check process, and the character string object interval check process are sequentially performed. .
  • the reason why the judgment based on the notation rule is executed first is that it is possible to accurately judge the break of English words from various documents. For example, in the case of the description content of the document as shown in FIG. 4B, first, it is determined whether “adjacent characters are included in the same character string object” (using the character string object identity confirmation process). Then, since the last “s” of the word “Characters” and the first “a” of the word “are” are included in the same character string object, they are erroneously determined to be included in the same word.
  • Example of result display screen> 11 and 12 are diagrams showing examples of screens on which results are displayed in the result display processing (step 803) of FIG.
  • the contents held in the metadata information 520 are displayed side by side (1100).
  • the contents of the character data 709 are brought close to each other or a blank character is sandwiched, and the words are displayed side by side in a form separated by a blank character.
  • the screen shown in FIG. 12 is displayed.
  • the metadata character string is displayed, and the adjacent characters of interest are highlighted by underlining (1200). Further, only the adjacent characters of interest are extracted and displayed (1201). The result determined by the processing of the flowchart of FIG. 10 for these characters is shown (1202). If the determination in the process of FIG. 10 is successful, the subsequent process is not performed, so that the part that has not been performed is displayed to that effect (“---” in the figure) (1203). In addition, a final determination result in the process of FIG. 10 is shown (1204). A user operation requesting a change of the adjacent character of interest is accepted (1205), and the displays 1200 to 1204 are updated. Note that when the close button 1206 is pressed, the screen of FIG. 12 is switched to the screen of FIG.
  • the character information in addition to those shown in FIG. 6, the color of the outer periphery of the character (RGB component), the color of the character fill (RGB component), whether italic, bold, It is conceivable to have various format designation information such as background colors (RGB components). Also in this case, the metadata extraction process ignoring the blank character can be performed with the existing technologies described in Non-Patent Document 1, Non-Patent Document 2, Patent Document 1, Patent Document 2, and Patent Document 3. It may be handled in the same manner as described in this specification.
  • highlighting by underline display is performed in FIG. 12
  • the form of highlighting is not limited to this. It is also possible to highlight in bold and text color.
  • the embodiment of the present invention is characterized by determining whether two adjacent characters in an English document are included in the same word using an English notation rule.
  • the notation rule is a rule that defines a normative style for creating a sentence, such as the Oxford rule or the Chicago manual. By doing so, it becomes possible to determine the presence or absence of a blank according to a notation method peculiar to English.
  • English has been described as an example.
  • the present invention can be applied to any language that has a special notation method and includes a space character between words. Is possible.
  • the adjacent document in the English document is determined based on the information on the string object whether it is included in the same string object. It is determined whether or not two characters to be included in the same word.
  • the present invention can also be realized by a program code of software that realizes the functions of the embodiment.
  • a storage medium in which the program code is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus reads the program code stored in the storage medium.
  • the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention.
  • a storage medium for supplying such program code for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, optical disk, magneto-optical disk, CD-R, magnetic tape, nonvolatile memory card, ROM Etc. are used.
  • an OS operating system
  • the computer CPU or the like performs part or all of the actual processing based on the instruction of the program code.
  • the program code is stored in a storage means such as a hard disk or memory of a system or apparatus, or a storage medium such as a CD-RW or CD-R
  • the computer (or CPU or MPU) of the system or apparatus may read and execute the program code stored in the storage means or the storage medium when used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

 文書を構成する単語の区切りに空白文字が存在する外国語文書において、各単語の区切りを確実に検出し、空白文字を区切りに確実に再挿入することができる技術を提供する 英語表記ルールによる判断、元文書データに含まれる空白文字の有無の情報による判断、隣接する文字同士が含まれる文字列オブジェクトの同一性による判断、隣接する文字同士が含まれる文字列オブジェクトの間隔による判断を用いて隣接する文字が同じ単語に含まれるかどうか(空白の有無)について判断する。なお、これらの処理をこの記述の順番で判断するのが好ましい。

Description

文書処理装置及びプログラム
 本発明は、文書処理装置及びプログラムに関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
 近年、組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また例えば、企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大しており、情報爆発と呼ばれる現象が起きている。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば営業文書であれば、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また、設計文書であれば、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。さらに、クレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また、業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
 定型でない文書を解析してメタデータを自動的に取得する技術は多く提案されている(下記特許文献及び非特許文献参照)。これらの技術では、文書中に記載されている内容を読み込む際、空白文字を無視した処理を行うことが効果的である。なぜなら、文字の配置を整えるための空白文字の影響を受けずにメタデータを抽出できるためである。例えば図1Aに示すように、センタリングを実現するために空白文字を挿入したり、図1Bに示すように、空白文字やタブ文字を挿入することで配置を整えたりといったことが行われる。図1Aおよび図1Bにおいて、100に示すような「□(四角)」は全角空白文字を、101に示すような「・(ドット)」は半角空白文字を、102に示すような「→(矢印)」はタブ文字を示す。このような空白文字の影響を受けずにメタデータを抽出するためには、文字データの読み込みの時点で空白文字を読み飛ばすことが有効である。
特開平11-184894号公報 特許第3425834号公報 特許第3425408号公報
勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09) Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
 既存技術を用いて、英語等の言語による文書であって、各単語の区切りに空白文字が存在する文書からメタデータを抽出する場合、単語ごとに空白文字が挿入された形での出力を行う必要がある。
 しかしながら、上述したように、文字データの読み込みの時点では空白文字を読み飛ばしているため、図2に示すように、全ての単語がつながった形での出力となってしまう。日本語の場合と異なり、英語等の場合では、全ての単語がつながった形での出力は著しく可読性を欠く。このことの解決策としては、まず、メタデータの単語がつながった状態での抽出を行い、その後で、メタデータ抽出元の文書(以下、「元文書」と呼ぶことがある)を参照して「単語の区切り」を調べ、抽出されたメタデータに空白文字を再挿入することが考えられる。
 ところが、英語等の文書の場合に、各単語の区切りを確実に検出し、空白文字を確実に再挿入することは困難である。
 本発明はこのような状況に鑑みてなされたものであり、文章を構成する単語の区切りに空白文字が存在する言語によって作成された文書において、各単語の区切りを確実に検出し、空白文字を区切りに確実に再挿入することができる技術を提供するものである。
 上記課題を解決するために、本発明は、単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置を提供する。当該文書処理装置では、言語における文字或いは単語と記号との間の表記ルールに基づいて、文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定(単語区切り判定処理)する。そして、単語区切り判定処理による処理結果を表示装置に表示すると共に、入力指示に応答して、単語区切り判定処理部による処理結果を登録用データベースに登録する。
 さらに、単語区切り判定処理の前に、文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースの文章から空白文字を無視してメタデータを抽出する処理を行う。そして、単語区切り判定処理では、隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、抽出したメタデータに前記空白文字を再挿入し、空白文字が再挿入されたメタデータを、単語区切り判定処理の結果として登録用データベースに登録する。
 単語区切り判定処理では、表記ルールに基づいた判定処理によって隣接する二つの文字が同一の単語に含まれると断定できないときに、元文書情報を参照して、隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
 本発明による文書処理装置は、メモリに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納している。そして、単語区切り判定処理部では、元文書情報を参照しても隣接する二つの文字が同一の単語に含まれると断定できないときに、文字列オブジェクト情報及び文字情報を参照して、隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
 文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含んでいる。そして、単語区切り判定処理部では、文字列オブジェクト情報及び文字情報を参照しも隣接する二つの文字が同一の単語に含まれると断定できないときに、それぞれの文字列の位置情報を参照して、文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。
 さらなる本発明の特徴は、以下本発明を実施するための形態および添付図面によって明らかになるものである。
 本発明によれば、定型でない言語(英語等)の文書からメタデータを抽出する際、単語ごとに空白文字で区切られた形で出力することができるようになる。
空白文字を無視した読み込み処理が適切である文書の例を示す図である。 英語の文書からメタデータを抽出する際、全ての単語がつながった形での出力となってしまう例を示す図である。 「単語の区切り」を調べるための直感的な方法を示す図である。 図3に示す直感的な方法では「単語の区切り」を正確に調べられない文書の例を示す図である。 本発明の実施形態による業務文書処理装置の概略構成を示す機能ブロック図である。 文書情報、文字情報および文字列オブジェクト情報のデータ構造例を示す図である。 線画情報、画像情報およびメタデータ情報のデータ構造例を示す図である。 業務文書処理装置において実行される処理の全体を説明するためのフローチャートである。 空白文字再挿入処理部において実行される詳細動作を説明するためのフローチャートである。 単語区切り判定処理部において実行される詳細動作を説明するためのフローチャートである。 結果表示処理部で表示される確認画面例を示す図である。 結果表示処理部で表示される確認画面例を示す図である。
 以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。なお、以下では、英語で作成された文書を例にして本発明の実施形態を説明するが、英語以外の、文書を構成する単語の区切りに空白文字が存在する言語(例えば、日本語、中国語、韓国語等以外の言語であって、フランス語、ドイツ語、イタリア語、ロシア語等の言語が含まれる)で作成された文書にも適用可能である。
 <序論>
(1)抽出されたメタデータに空白文字を再挿入する際に、直感的には、下記の方法により元文書から「単語の区切り」を調べられるように思われる。
 i)元文書から「単語の区切り」を調べるための直感的な方法1
 プレーンテキストやワード等の編集用アプリケーションで作成した元文書には空白文字があるため、空白文字の箇所をデータとして保持しておき、図3Aに示すように、元文書で空白文字があった場所を「単語の区切り」とする。
 ii)元文書から「単語の区切り」を調べるための直感的な方法2
 オフィス文書作成ソフトウェアの保存形式、閲覧ソフトウェアの保存形式、印刷用データファイルなどでは、文字列オブジェクトの形で文書記載内容を保持している(文字列オブジェクトは、一つまたは複数の文字を含む)。そこで、元文書のデータ構造を参照し、図3Bに示すように、文字が保持されるオブジェクトが切り替わる時点を「単語の区切り」とする。
 iii)元文書から「単語の区切り」を調べるための直感的な方法3
 図3Cに示すように、文字の位置が離れている場所を「単語の区切り」とする。
 iv)元文書から「単語の区切り」を調べるための直感的な方法4
 図3D及びEに示すように、単語辞書を用意して文字列とのマッチングを行い、辞書登録語の境界を「単語の区切り」とする。
 しかし、実際には、上記いずれの方法によっても、単語の区切りを正しく調べることができない。
 例えば、閲覧・保存の目的に特化したソフトウェアの保存形式、PDFの変換後のデータや、印刷用データファイルのようなファイルフォーマットでは、文書の外観のみ再現できれば十分である。このため、英単語の区切りを表現することは、文字の位置を離して描画するだけでも可能であり、必ずしも空白文字をデータとして保持する必要はない。図4Aに示すように単語の区切りでも文書ファイル上は空白文字が保持されていないことがあるため、上記の方法1では正しく調べられない場合がある。
 また、図4Bに示すようにオブジェクトが単語単位ではないことがあるため、上記の方法2では正しく調べられない場合がある。
 さらに、図4Cに示すようにプロポーショナルフォントが利用されて文字が等間隔で並んでいなかったり、図4Dに示すようにカーニングが行われて文字間隔が変動したりすることがあるため、上記の方法3では正しく調べられない場合がある。
 また、図4Eに示すように辞書に登録されていない単語があったり、図4F及びGに示すように複数のマッチング可能性があったりすることがあるため、上記の方法4では正しく調べられない場合がある。
(2)そこで、発明者は、英語の表記ルール上、表1に示すような隣接する文字同士については、同じ単語に含まれるかどうか判断できることに着目した。この表記ルールに従って同じ単語に含まれるかどうか判断する処理を最初に実行することが重要である。そして、表記ルールに従って処理しても同じ単語に含まれるものか判断できない場合に、後述のように、元文書データに空白文字を挟んでいるか、同じ文字列オブジェクトに含まれるか、文字列オブジェクトの間隔が空いているかについて判断する。ここで、表記ルールとは、オックスフォードルールやシカゴマニュアル等、文章を作成する上で規範的なスタイルを規定したルールをいうものである。
Figure JPOXMLDOC01-appb-T000001
 また、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できない場合には、間に空白文字を挟んでいるような文字同士については、異なる単語に含まれていると判断できることに着目した。
 さらに、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できず、間に空白文字を挟んでいない場合には、同じ文字列オブジェクトに含まれる文字同士については、同じ単語に含まれていると判断できることに着目した。
 また、発明者は、サンプルファイルを調査した結果、英語の表記ルールからは同じ単語に含まれるかどうか判断できず、間に空白文字を挟んでおらず、異なる文字列オブジェクトに含まれる場合には、文字列オブジェクトの間隔が空いているならば異なる単語に含まれており、近接しているならば同じ単語に含まれていると判断できることに着目した。
 以上の着目点に従った処理を実行する、本発明の実施形態による業務文書処理装置について説明する。
 <装置構成>
 図5は、本実施形態による業務文書処理装置(文書処理装置)の概略的構成を示す機能ブロック図である。業務文書処理装置50は、データを表示するための表示装置500と、文書DB501と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード502と、マウスなどのポインティングデバイス503と、必要な演算処理及び制御処理などを行う中央処理装置504と、中央処理装置504での処理に必要なプログラムを格納するプログラムメモリ505と、中央処理装置504での処理に必要なデータを格納するデータメモリ506と、文字列オブジェクトを処理した結果であるメタデータを格納するメタデータDB530と、を有している。
 中央処理装置504は、空白文字を無視してメタデータを文書から抽出する処理を行う空白文字無視メタデータ抽出処理部507と、空白文字が無視されて抽出されたメタデータに空白文字を再度挿入する処理を行う空白文字再挿入処理部508と、空白挿入処理されたメタデータを表示する結果表示処理部509と、を含んでいる。本実施形態では、各処理部はコンピュータ構成の少なくとも一部によって実現される。つまり、空白文字無視メタデータ抽出処理部507と、空白文字再挿入処理部508と、結果表示処理部509は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。従って、各処理部は各処理プログラムと読み替えることが可能である。これらのプログラムは、プログラムメモリ505に格納されている。なお、各処理部は、モジュール化することにより実現しても良い。
 空白文字再挿入処理部508は、単語区切り判定処理部510を有している。また、単語区切り判定処理部510は、表1の表記ルールを参照しながら文字列に空白文字が存在するか確認する処理を実行する英語表記ルール確認処理部511と、文書情報515、文字情報516、及び文字列オブジェクト情報517を参照しながら空白文字列が存在するか確認する処理を実行する空白文字有無確認処理部512と、文字列オブジェクト情報517を参照してオブジェクトとして同一のものが含まれているか確認する処理を行う文字列オブジェクト同一性確認処理部513と、文字列オブジェクトの座標情報から2つの文字列オブジェクトの間隔(ピクセル数)を確認する処理を実行する文字列オブジェクト間隔確認処理部514と、を含んでいる。
 データメモリ506は、文書情報515と、文字情報516と、文字列オブジェクト情報517と、線画情報518と、画像情報519と、メタデータ情報520と、を格納している。
 <データメモリ内の情報のデータ構造例>
 図6は、データメモリ506に含まれる文書情報515、文字情報516、及び文字列オブジェクト情報517のデータ構造を示す図である。
 文書情報515は、構成項目として、文書ID600、文字データ601、文字列オブジェクトデータ602、線画データ603、及び画像データ604を含んでいる。ここで、文字データ601は、文書内に記載された文字の情報であり、文字情報構造体の配列の形で保持される。文字列オブジェクトデータ602は、文書内に記載された文字が含まれる文字列オブジェクトの情報であり、文字列オブジェクト情報構造体の配列の形で保持される。線画データ603は、ページ内に記載された線画(線分)の情報であり、線画情報構造体の配列の形で保持される。画像データ604は、ページ内に記載された画像の情報であり、画像情報構造体の配列の形で保持される。
 文字情報516は、構成項目として、文字ID605、文字コード606、文字列オブジェクトID607、左下座標608、右上座標609、フォントサイズ610、フォント種類611を含んでいる。ここで、文字ID605は、各文字に一意に割り当てられたIDである。文字コード606は、その文字の内容を示す。文字列オブジェクトID607は、その文字が含まれる文字列オブジェクトのID612である。左下座標608は、文字の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標609は、文字の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。フォントサイズ610は、その文字の大きさである。フォント種類611はその文字のフォントの種類である。
 文字列オブジェクト情報517は、構成項目として、文字列ID612、左下座標613、右上座標614を含んでいる。ここで、文字列ID612は、各文字列オブジェクトに一意に割り当てられたIDである。左下座標613は、文字列の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標614は、文字の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。
 図7は、データメモリ506に含まれる線画情報158、画像情報519、及びメタデータ情報520のデータ構造を示す図である。
 線画情報518は、例えば罫線等に関する情報であり、構成項目として、線画ID700、始点座標701、終点座標702を含んでいる。ここで、線画ID700は、各線画に一意に割り当てられたIDである。始点座標701は、直線の一方の端がページのどこに位置するかを示す座標である。終点座標702は、直線のもう一方の端がページのどこに位置するかを示す座標である。
 画像情報519は、例えば印鑑の印面画像や挿絵等に関する情報であり、構成項目として、画像ID703、左下座標704、右上座標705、ピクセルデータ706を含んでいる。ここで、画像ID703は、各画像に一意に割り当てられたIDである。左下座標704は、画像の外接矩形の左下の頂点がページのどこに位置するかを示す座標である。右上座標705は、画像の外接矩形の右上の頂点がページのどこに位置するかを示す座標である。ピクセルデータ706は、画像のイメージを画像形式で保持する。
 メタデータ情報520は、文書のメタデータを保持するためのデータ構造であり、構成項目として、メタデータID707、メタデータ種別708、文字データ709、空白文字再挿入フラグ710を含んでいる。ここで、メタデータID707は、各メタデータに一意に割り当てられたIDである。メタデータ種類708は、どの種類のメタデータであるかを保持する。文字データ709は、そのメタデータに含まれる文字それぞれについての文字ID605を配列の形で保持する。空白文字再挿入フラグ710は、再挿入処理の結果に対応して、文字データ709の間に空白文字が再挿入されるべきかどうかを配列の形で保持する。
 <メタデータ抽出処理の概要>
 続いて、以上のように構成された本実施形態の業務文書処理装置において行われる処理について説明する。図8は、業務文書処理装置において行われるメタデータ抽出・登録処理の概要を説明するためのフローチャートである。
 図8において、まず、OCR等を用いて、文書情報の読み込み処理が行われる(ステップ800)。読み込んだ結果は文書情報515に保持される。この段階ではまだメタデータは抽出されておらず、従ってメタデータ情報520は1要素も存在しない。
 次に、空白文字無視メタデータ抽出処理部507は、空白文字を無視したメタデータ抽出を行う(ステップ801)。ここでの処理については、空白文字無視メタデータ抽出処理部507を用いて行われるものであり、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3等に記載されている既存技術で行うことができる。よって、詳しい説明は割愛する。当該処理の結果は、メタデータ情報520に格納される。この時点では空白文字の再挿入処理は行われていないため、空白文字再挿入処理部508は、空白文字再挿入フラグ710(図7参照)の全ての配列要素についてfalseで初期化する。
 続いて、空白文字再挿入処理部508は、空白文字をメタデータへ再挿入する処理を行う(ステップ802)。この処理の詳細については、図9を用いて詳細に説明する。
 その後、結果表示部509は、処理結果を表示装置500に表示する(ステップ803)。ここで表示される画面例については、図11及び12を用いて詳細に説明する。
 そして、最後に、メタデータ登録処理部(図示せず)が、利用者の指示に応答して、空白文字が再挿入されたメタデータを処理結果としてメタデータDB530に登録する。
 <空白文字の再挿入処理の詳細>
 図9は、図8の空白文字をメタデータへ再挿入する処理(ステップ802)の詳細について説明するためのフローチャートである。
 まず、空白文字再挿入処理部508は、メタデータのインデックスm_idxを1で初期化し(ステップ900)、メタデータ情報の数がm_idx以上であるか調べる(ステップ901)。m_idx未満である場合は処理を終了させる。一方、m_idx以上である場合は、空白文字再挿入処理部508は、文字のインデックスc_idxを1で初期化し(ステップ902)、m_idx番目のメタデータ情報は文字データ709としてc_idx+1以上の文字を持つか調べる(ステップ903)。c_idx未満である場合は、空白文字再挿入処理部508は、そのメタデータに含まれる全ての隣接する文字同士についての処理を終えているため、m_idxを1だけインクリメントして(ステップ904)、ステップ901に処理を戻す。
 ステップ903でc_idx+1以上である場合は、空白文字再挿入処理部508は、c_idx番目とc_idx+1番目の文字は同じ単語に含まれるかどうか調べる(ステップ905)。この処理は、単語区切り判定処理部510で行われるものであり、図10において詳細に説明する。
 ステップ905の結果、違う単語であると判定された場合には、空白文字再挿入処理部508は、メタデータ情報の空白文字再挿入フラグ710のc_idx番目の要素にtrueを設定する(ステップ906)。その後、空白文字再挿入処理部508は、c_idxを1だけインクリメントして(ステップ907)、処理をステップ903に戻す。
 <同一単語に含まれるか否かについての判定処理>
 図10は、図9の二つの文字が同じ単語に含まれるかどうか判定する処理(ステップ905)の詳細について説明するためのフローチャートである。
 まず、空白文字再挿入処理部508は、英語表記ルール確認処理部511を用いて、英語表記ルールから二つの文字が同一単語に含まれるか判断を行う(ステップ1000)。より具体的には、英語表記ルール確認処理部511が、二つの文字の関係として表1の中に該当する項目(ルール)があればそれに従って判断し、該当する項目がなければ断定できないとする。
 断定できないと判断された場合(ステップ1001)、空白文字再挿入処理部508は、空白文字有無確認処理部512を用いて、空白の有無からの判断を行う(ステップ1002)。具体的には、空白文字有無確認処理部512が、文書情報に含まれる文字データ601それぞれについて、文字コード606から空白文字かどうかを調べ、左下座標608と右上座標609から二つの文字の間に挟まれているかどうかを調べる。空白文字で間に挟まれているものが見付かったら、二つの文字は異なる文字列に含まれると判断し、そのような文字がなければ断定できないとする。
 断定できないと判断された場合(ステップ1003)、空白文字再挿入処理部508は、文字列オブジェクト同一性確認処理部513を用いて、文字列オブジェクトの同一性からの判断を行う(ステップ1004)。具体的には、文字列オブジェクト同一性確認処理部513が、二つの文字の文字列オブジェクトID607が同一であるかどうかを調べる。同一であれば二つの文字は同じ文字列に含まれると判断し、異なれば断定できないとする。
 断定できないと判断された場合(ステップ1005)、空白文字再挿入処理部508は、文字列オブジェクト間隔確認処理部514を用いて、文字列オブジェクトの間隔からの判断を行う(ステップ1006)。具体的には、文字列オブジェクト間隔確認処理部514が、二つの文字の文字列オブジェクトID607と同じ値の文字列ID612を持つ文字列オブジェクト情報を探し、それらの左下座標613と右上座標614から間隔を調べる。例えば、間隔が所定値以上空いていれば異なる文字列、近接していれば(所定値未満であれば)同じ文字列と判断するようにすれば良い。
 以上のように、表記ルールに従った処理を最初に実行し、それでも判断できない場合に、空白文字有無確認処理、文字列オブジェクト同一性確認処理、文字列オブジェクト間隔確認処理を順番に行うようにする。表記ルールによる判断を最初に実行するのは、様々な文書から英単語の区切りを正確に判断することができるからである。例えば、図4Bに示したような文書の記載内容の場合、最初に「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」(文字列オブジェクト同一性確認処理を用いて)判断してしまうと、単語「Characters」の最後の「s」と単語「are」の最初の「a」は同じ文字列オブジェクトに含まれることから、同じ単語に含まれると誤判断してしまう。また、先に「間に空白文字を挟むかどうか」(空白文字有無確認処理を用いて)判断を行い、間に空白文字を挟まない場合についてのみ「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」(文字列オブジェクト同一性確認処理を用いて)判断を行うという順番にすることで、このような誤判断を防いで正確に判断することができる。
 <結果表示画面例>
 図11及び12は、図8の結果の表示処理(ステップ803)において結果が表示される画面例を示す図である。
 図11では、メタデータ情報520に保持している内容について並べて表示が行われる(1100)。ここでは、空白文字再挿入フラグ710の結果に基づき、文字データ709の内容を近接させたり空白文字を挟んだりして、単語ごとに空白文字で区切られた形で並べて表示する。このうち、選択したメタデータ(1101)について、単語区切りについての詳細な情報の表示を要求するユーザ操作(ボタン1102押下)されると、図12に示す画面が表示される。
 図12では、メタデータ文字列が表示されると共に、着目している隣接する文字同士について下線による強調表示が行われる(1200)。また、着目している隣接する文字同士のみを取り出して表示される(1201)。この文字同士について、図10のフローチャートの処理で判断した結果が示される(1202)。図10の処理では判断に成功したらその後の処理は行われないため、行われなかった部分についてはその旨(図中では、「---」)表示される(1203)。また、図10の処理での最終的な判断結果が示される(1204)。着目している隣接する文字の変更を要求するユーザ操作を受付け(1205)、表示1200~1204が更新される。なお、閉じるボタン1206が押下されると、図12の画面は図11の画面に切り替わる。
 <変形例>
 なお、本明細書では、文書のメタデータを単語ごとに空白文字で区切られた形で出力するための場合について述べた。英語の文書から全文データを単語ごとに空白で区切られた形で出力するための処理についても同様である。
 また、文字情報については、図6で挙げた他にも、文字の外周の色(RGB成分)、文字の塗りつぶしの色(RGB成分)、斜体であるかどうか、太字であるかどうか、文字の背景色(RGB成分)など様々な書式指定情報を持つことが考えられる。この場合も、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3に記載されている既存技術で、空白文字を無視したメタデータ抽出処理を行うことができるので、本明細書で述べた場合と同様に取扱えば良い。
 また、線画について本明細書では線分の場合について述べたが、矩形・多角形・ベジエ曲線・円弧などやその組み合わせが文書に含まれていることが考えられる。さらに、線の色、太さ、パターン(実線や点線など)、塗りつぶしの色など様々な書式指定情報を持つことが考えられる。この場合も、非特許文献1、非特許文献2、特許文献1、特許文献2、特許文献3に記載されている既存技術で、空白文字を無視したメタデータ抽出処理を行うことができるので、本明細書で述べた場合と同様に取扱えば良い。
 また、本明細書では図12で下線表示による強調表示を行う例について述べたが、強調表示の形態はこれに限らない。太字、文字色による強調表示なども可能である。
 <まとめ>
 本発明の実施形態では、英語の表記ルールを用いて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする。ここで、表記ルールとは、オックスフォードルールやシカゴマニュアル等、文章を作成する上で規範的なスタイルを規定したルールをいうものである。このようにすることにより、英語特有の表記方法に則った空白の有無を判断することができるようになる。なお、実施形態では、英語を例にして説明しているが、表記方法が特殊で、単語と単語の間に空白文字が存在する言語であればどのような言語にも本発明は適用することが可能である。
 そして、表記ルールに従って判断しても空白の有無について断定できない場合に、二つの文字の間に空白文字を挟むかどうかという元文書の情報(読み込む文書データに含まれる空白文字についての情報)に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。また、元文書も情報に基づいて判断しても空白の有無について断定的な判断ができない場合に、同じ文字列オブジェクトに含まれるかどうかという文字列オブジェクトの情報に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。さらに、文字列オブジェクトの情報に基づいて判断しても空白の有無について断定的な判断が出来ない場合に、文字列オブジェクトの間隔が空いているか近接しているかの情報(各文字情報が有する座標情報から文字間の距離がどの位離れているかの情報)に基づいて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定する。このように、表記ルールを用いても空白の有無について断定できない場合に初めて、他の方法によって空白文字の有無について判断することにより、また、このような順番で空白の判断することにより、より正確に空白の有無を判断することが可能となる。つまり、上述したように、最初に「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」を用いて判断してしまうと、例えば、単語「Characters」の最後の「s」と単語「are」の最初の「a」は同じ文字列オブジェクトに含まれることから、同じ単語に含まれると誤判断してしまう。よって、先に「間に空白文字を挟むかどうか」を用いて判断を行い、間に空白文字を挟まない場合についてのみ「隣接する文字同士が同じ文字列オブジェクトに含まれるかどうか」を用いて判断を行うという順番にすることで、このような誤判断を防いで正確に判断することができるようになる。
 なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
 また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
 また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
500・・・表示装置
501・・・文書DB
502・・・キーボード
503・・・ポインティングデバイス
504・・・中央処理装置
505・・・プログラムメモリ
506・・・データメモリ
530・・・メタデータDB

Claims (10)

  1.  単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置であって、
     前記処理結果を登録するための登録用データベースと、
     前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理部と、
     前記単語区切り判定処理部による処理結果を表示装置に表示する表示処理部と、
     入力指示に応答して、前記単語区切り判定処理部による処理結果を前記登録用データベースに登録する登録処理部と、
    を有することを特徴とする文書処理装置。
  2.  請求項1において、
     さらに、前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースと、
     前記文章から前記空白文字を無視してメタデータを抽出する処理を行うメタデータ抽出処理部と、を有し、
     前記単語区切り判定処理部は、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入し、
     前記登録処理部は、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録することを特徴とする文書処理装置。
  3.  請求項2において、
     前記単語区切り判定処理部は、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  4.  請求項3において、
     さらに、文字列の識別子と前記文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
     前記単語区切り判定処理部は、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  5.  請求項4において、
     前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
     前記単語区切り判定処理部は、前記文字列オブジェクト情報及び前記文字情報を参照しも前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。
  6.  コンピュータを、単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置として機能させるためのプログラムであって、
     前記コンピュータに、前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理を実行させるためのプログラムコードと、
     前記単語区切り判定処理の結果を表示装置に表示させるためのプログラムコードと、
     前記コンピュータに、入力指示に応答して、前記単語区切り判定処理の結果を登録用データベースに登録させるためのプログラムコードと、
    を有することを特徴とするプログラム。
  7.  請求項6において、
     前記コンピュータには、前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースが接続されており、
     前記プログラムは、さらに、前記コンピュータに、前記文章から前記空白文字を無視してメタデータを抽出するメタデータ抽出処理を実行させるプログラムコードを有し、
     前記単語区切り判定処理を実行するためのプログラムコードは、前記コンピュータに、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入する処理を実行させるためのプログラムコードを含み、
     前記登録用データベースに登録させるためのプログラムコードは、前記コンピュータに、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録させるためのプログラムコードを含むことを特徴とするプログラム。
  8.  請求項7において、
     前記単語区切り判定処理を実行するためのプログラムコードは、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。
  9.  請求項8において、
     前記コンピュータは、さらに、文字列の識別子と前記文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
     前記単語区切り判定処理を実行するためのプログラムコードは、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。
  10.  請求項9において、
     前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
     前記単語区切り判定処理を実行するためのプログラムコードは、前記文字列オブジェクト情報及び前記文字情報を参照しも前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させることを特徴とするプログラム。
PCT/JP2011/064749 2010-06-28 2011-06-28 文書処理装置及びプログラム WO2012002357A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/696,881 US8959049B2 (en) 2010-06-28 2011-06-28 Document processing device and program
EP11800821.8A EP2565798A4 (en) 2010-06-28 2011-06-28 Document processing device and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010146739A JP5508953B2 (ja) 2010-06-28 2010-06-28 文書処理装置及びプログラム
JP2010-146739 2010-06-28

Publications (1)

Publication Number Publication Date
WO2012002357A1 true WO2012002357A1 (ja) 2012-01-05

Family

ID=45402064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/064749 WO2012002357A1 (ja) 2010-06-28 2011-06-28 文書処理装置及びプログラム

Country Status (4)

Country Link
US (1) US8959049B2 (ja)
EP (1) EP2565798A4 (ja)
JP (1) JP5508953B2 (ja)
WO (1) WO2012002357A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11791512B2 (en) 2009-06-18 2023-10-17 Varta Microbattery Gmbh Button cell having winding electrode and method for the production thereof

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD705790S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD715818S1 (en) * 2011-12-28 2014-10-21 Target Brands, Inc. Display screen with graphical user interface
USD705792S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
JP2015207134A (ja) * 2014-04-21 2015-11-19 村田機械株式会社 工作機械、プログラム編集方法、及び制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03209564A (ja) * 1990-01-12 1991-09-12 Hitachi Ltd 文献データ登録方法
JPH06348911A (ja) * 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
JPH09237320A (ja) * 1996-03-04 1997-09-09 Fuji Electric Co Ltd 文書フォーマットの復元方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
JPS6274181A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4991094A (en) * 1989-04-26 1991-02-05 International Business Machines Corporation Method for language-independent text tokenization using a character categorization
JP3425834B2 (ja) 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
JP3636941B2 (ja) * 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置
JP3425408B2 (ja) 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
JP5248845B2 (ja) * 2006-12-13 2013-07-31 キヤノン株式会社 文書処理装置、文書処理方法、プログラムおよび記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03209564A (ja) * 1990-01-12 1991-09-12 Hitachi Ltd 文献データ登録方法
JPH06348911A (ja) * 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
JPH09237320A (ja) * 1996-03-04 1997-09-09 Fuji Electric Co Ltd 文書フォーマットの復元方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2565798A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11791512B2 (en) 2009-06-18 2023-10-17 Varta Microbattery Gmbh Button cell having winding electrode and method for the production thereof

Also Published As

Publication number Publication date
JP5508953B2 (ja) 2014-06-04
EP2565798A4 (en) 2018-01-03
US20130091091A1 (en) 2013-04-11
US8959049B2 (en) 2015-02-17
JP2012008965A (ja) 2012-01-12
EP2565798A1 (en) 2013-03-06

Similar Documents

Publication Publication Date Title
JP2987099B2 (ja) 文書作成支援システム及び用語辞書
US7705848B2 (en) Method of identifying semantic units in an electronic document
US9256798B2 (en) Document alteration based on native text analysis and OCR
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP5508953B2 (ja) 文書処理装置及びプログラム
US20060190684A1 (en) Reverse value attribute extraction
JP2007058605A (ja) 文書管理システム
Boillet et al. HORAE: an annotated dataset of books of hours
JP2008022159A (ja) 文書処理装置及び文書処理方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
US7844080B2 (en) Image processing system and image processing method, and computer program
US9049400B2 (en) Image processing apparatus, and image processing method and program
Bland et al. Story beyond the eye: glyph positions break PDF text redaction
US8495061B1 (en) Automatic metadata identification
US8116567B2 (en) Digitizing documents
CN116127916B (zh) 一种动态添加水印的方法和装置
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
CN101464875B (zh) 使用xml表示电子字典数据的方法
CN112287742B (zh) 文件中的流程图解析方法及装置、计算设备、存储介质
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
CN114579796A (zh) 机器阅读理解方法及装置
KR20100115048A (ko) 복사 문서 판별 시스템 및 그 방법
US8923625B2 (en) Original image searching device, original image searching method, and computer readable medium
Arnold et al. Transforming Data Silos into Knowledge: Early Chinese Periodicals Online (ECPO)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11800821

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13696881

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011800821

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE