WO2022029863A1 - 文書処理プログラム、情報処理装置及び文書処理方法 - Google Patents
文書処理プログラム、情報処理装置及び文書処理方法 Download PDFInfo
- Publication number
- WO2022029863A1 WO2022029863A1 PCT/JP2020/029747 JP2020029747W WO2022029863A1 WO 2022029863 A1 WO2022029863 A1 WO 2022029863A1 JP 2020029747 W JP2020029747 W JP 2020029747W WO 2022029863 A1 WO2022029863 A1 WO 2022029863A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- document
- extraction
- normalized
- character string
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Definitions
- This disclosure relates to a document processing program, an information processing device, and a document processing method.
- Patent Document 1 An information processing device that detects a keyword from a contract and informs the contractor of the risk in advance has been proposed (see, for example, Patent Document 1).
- Patent Document 1 detects a predetermined keyword in the document of the contract, recognizes the important part for the contracting user from the detected keyword, and makes the important part together with the risk. Let the user decide whether or not to present and conclude. Further, when the information processing apparatus detects the contract renewal deadline or the like in the contract document, it presents the renewal setting screen and makes the user decide whether or not to notify the renewal.
- An object of the present disclosure is to provide a more user-friendly document processing program, information processing device, and document processing method based on the above-mentioned prior art.
- One aspect of the invention according to the present disclosure provides the following document processing program, information processing apparatus, and document processing method in order to achieve the above object.
- [1] Computer An extraction means that extracts a character string indicating the content of a document from the document information together with the position information in the document information.
- a normalization means for normalizing the character string extracted by the extraction means to obtain normalized extraction information, and a normalization means.
- a document processing program for making the contents of the normalized extraction information function as display control means for indicating and displaying the corresponding position of the document information based on the position information.
- the extraction means registers a designated character string in the document information as extraction information.
- the display control means displays the normalized extraction information, the unit information, and the document information in association with each other.
- the computer is connected to one or a plurality of terminals so as to be communicable through a network.
- a memory configured to store document information and Based on the instruction and instruction stored in the memory A character string indicating the content of the document is extracted from the document information together with the position information in the document information.
- the extracted character string is normalized to be normalized extraction information.
- the content of the normalized extraction information is displayed by indicating the corresponding position of the document information based on the position information.
- a processor configured to perform processing for Information processing equipment including.
- a normalization step that normalizes the extracted character string into normalization extraction information
- a document processing method including a display control step for displaying the contents of the normalized extraction information by indicating the corresponding position of the document information based on the position information.
- FIG. 1 is a schematic diagram showing an example of the configuration of a document processing system according to an embodiment.
- FIG. 2 is a block diagram showing a configuration example of the document processing server device according to the embodiment.
- FIG. 3 is a schematic diagram showing a configuration example of document information.
- FIG. 4 is a schematic diagram showing a configuration example of the extracted information.
- FIG. 5 is a schematic diagram showing a configuration example of normalized extraction information.
- FIG. 6 is a schematic diagram for explaining an example of the processing of the information extraction operation.
- FIG. 7 is a schematic diagram for explaining an operation example of the normalization means.
- FIG. 8 is a schematic view showing a display example of the display control means.
- FIG. 9 is a schematic view showing a display example of a screen displayed when the extraction information is registered according to the operation.
- FIG. 10 is a flowchart showing an information extraction operation of the document processing server device.
- FIG. 11 is a flowchart for explaining the display processing operation.
- FIG. 1 is a schematic diagram showing an example of the configuration of a document processing system according to an embodiment.
- the document processing system 5 is configured by connecting a document processing server device 1, a terminal 2, and a terminal 3 so as to be able to communicate with each other by a network 4.
- the terminal 2 is operated by, for example, a user who desires document management, document creation, document content confirmation and / or document review, and the terminal 3 is operated by another user, but is not limited thereto.
- the user of the terminal 2 and the user of the terminal 3 handle, for example, a contract as document information, and mainly manage the document information created by one or both users and after the conclusion.
- the document processing system 5 is used to manage the document information and to confirm and grasp the contents of the document information.
- the document processing server device 1 is a server-type information processing device that operates in response to requests from terminals 2 and 3, and is a CPU (Central Processing Unit) having a function for processing information in the main body. ), HDD (Hard Disk Drive), flash memory, and other electronic components.
- the document processing server device 1 does not necessarily have to be composed of a single information processing device, and a plurality of information processing devices may operate in cooperation with each other, or may be operated by an arbitrary cloud service. It may be a thing. Further, the function of the document processing server device 1 may be realized in the terminal 2 and / or the terminal 3.
- the terminal 2 and the terminal 3 are information processing devices such as a PC (Personal Computer) and a tablet terminal, and include electronic parts such as a CPU and a flash memory having a function for processing information in the main body.
- PC Personal Computer
- a tablet terminal and include electronic parts such as a CPU and a flash memory having a function for processing information in the main body.
- the network 4 is a communication network capable of high-speed communication, and is, for example, a wired or wireless communication network such as the Internet, an intranet, or a LAN (Local Area Network).
- a wired or wireless communication network such as the Internet, an intranet, or a LAN (Local Area Network).
- the document processed by the document processing server device 1 is a document in the legal field such as a contract, and one or both of the users are not legal experts but need to create a contract.
- one or both users are employees of the internal sales department or employees of the internal legal department.
- the document processing server device 1 manages the document information and accesses the document processing server device 1 from the terminal 2 or the terminal 3. By doing so, the content of the document information is confirmed, and at that time, in order to reduce the burden of confirmation work of the user or to support the creation of the contract of the user, the document processing server device 1 uses the information from the document information. And display the extracted information in a format that helps you understand the content. A specific example of the display method will be described later.
- the document processing server device 1 mainly extracts information indicating the contract status in the document information, and presents the extracted information to one or both users.
- the clause may be referred to as "article”. Embodiments will be described below.
- terminal 2 and the terminal 3 each show a singular number, a plurality of terminals may be connected to the network 4, and a plurality of users may operate them in the same manner.
- FIG. 2 is a block diagram showing a configuration example of the document processing server device 1 according to the embodiment.
- the document processing server device 1 is composed of a CPU and the like, a control unit 10 that controls each unit and executes various programs, a storage unit 11 that is composed of a storage medium such as a flash memory and stores information, and a network 4. It is provided with a communication unit 12 that functions as a communication interface for communicating with the outside via the above.
- the control unit 10 is composed of a processor such as a CPU, and is electrically connected to a storage unit 11 composed of a memory and a communication unit 12 functioning as a communication interface.
- the control unit 10 functions as a contract receiving means 100, a contract dividing means 101, an information extracting means 102, a normalization means 103, a display controlling means 104, and the like.
- the contract receiving means 100 receives the contract as document information 111 from the terminal 2 or the terminal 3 and stores it in the storage unit 11.
- the document information 111 may be image information such as a PDF in which sentences are laid out, or information such as a text file or a word file containing text data.
- the contract dividing means 101 When the document information 111 is information other than text, the contract dividing means 101 performs OCR (Optical Character Recognition) or the like to convert the document information 111 into text, and then converts the document information 111 into a component of the contract such as a title, a preface, and a text unit. It is divided into each and stored in the storage unit 11 as unit information 112.
- the unit of the article is not limited to the article, and may be a section or an issue, or may be a group of a plurality of articles, sections or issues having a cohesive meaning. In addition, it may be a section or issue having a cohesive meaning across different articles or sections.
- the information extracting means 102 extracts information representing the contract content from the unit information 112 and stores it in the storage unit 11 as the extracted information 113.
- the normalization means 103 performs unification of keywords, unification of description formats, supplementation by reference to other information, inference based on other information, name identification processing, etc., for the contents of the extraction information 113 extracted by the information extraction means 102, respectively. Therefore, it is normalized and stored in the storage unit 11 as the normalized extraction information 114.
- the contract end date is calculated from the contract start date and expiration date.
- the corporate number is estimated based on the company name, date, address, and the like.
- the name identification process is performed by comparing the keywords in the dictionary (keyword list) using the Levenshtein distance and the keyword similarity, and using the closest one as a normalized character string.
- the display control means 104 displays the document information 111, the unit information 112, the extraction information 113, the normalized extraction information 114, and the output results of the respective means 100-103 of the storage unit 11 in the terminal 2 and the terminal 3 by a predetermined method. Display control. The details of the display method will be described later.
- the storage unit 11 is composed of a memory such as a flash memory, and is electrically connected to a control unit 10 composed of a processor and the like and a communication unit 12 that functions as a communication interface.
- the storage unit 11 stores the document processing program 110, the document information 111, the unit information 112, the extraction information 113, the normalized extraction information 114, and the like for operating the control unit 10 as the above-mentioned means 100-104.
- FIG. 3 is a schematic diagram showing a configuration example of the document information 111.
- the document information 111a is, for example, a contract, and as the unit information 112 divided by the contract dividing means 101, the title 112a 1 of the contract, the preface 112a 2 , and a plurality of articles (article units) following them. It has 112a 3 , 112a 4 , 112a 5 , .... Further, the article (article unit) 112a 4 shall include a plurality of terms (article unit) 112a 41 and 112a 42 .
- FIG. 4 is a schematic diagram showing a configuration example of the extraction information 113.
- the extraction information 113 is information extracted by the information extraction means 102, and is an extraction ID for identifying the extraction information, the extraction information extracted from the unit information 112, and an extraction item to which the extracted information belongs. And the reference destination position which is the position information in the unit information 112.
- FIG. 5 is a schematic diagram showing a configuration example of the normalized extraction information 114.
- the normalized extraction information 114 is information obtained by normalizing the extraction information 113 by the normalization means 103, and has an extraction ID, extraction information, and normalized extraction information obtained by normalizing the extraction information.
- the user operates the terminal 2 to log in to the service provided by the document processing server device 1.
- the terminal 2 receives input of information such as a user ID and a password from the user, the terminal 2 transmits an authentication request to the document processing server device 1 together with the information.
- the document processing server device 1 When the document processing server device 1 receives an authentication request from the terminal 2 together with information such as a user ID and password, the document processing server device 1 refers to user information (not shown) including a user ID and password registered in advance, and serves as a user. Authenticate the requester.
- the user operates the terminal 2 to upload the document information of the contract to the document processing server device 1.
- the terminal 2 uploads the document information to the document processing server device 1.
- FIG. 10 is a flowchart showing an information extraction operation of the document processing server device 1.
- FIG. 6 is a schematic diagram for explaining an example of the processing of the information extraction operation.
- the contract receiving means 100 of the document processing server device 1 receives the document information 111 from the terminal 2 operated by the requester and stores it in the storage unit 11 (S1).
- the contract dividing means 101 of the document processing server device 1 divides the document information 111a into unit information 112a for each component of the contract as shown in FIG. 3 and structures the document information 111a (S2).
- the document information 111a is a scan of the original contract and is image information such as a PDF (Portable Document Form) file.
- the contract dividing means 101 first converts the document information 111a into OCR (Optical Character Reader). ) Etc. to convert to text.
- the contract dividing means 101 divides the textualized information into titles 112a 1 , preface 112a 2 , article units 112a 3 to 112a 7 ..., Item units 112a 41 , 112a 42 ....
- the contract dividing means 101 may further divide the target document information 111a into units of the number, and the unit information 112a is obtained by using a unit suitable for the structure of the document information 111a.
- the above division is performed using techniques such as machine learning and regular expressions. Further, the division is not an essential operation item, and may be one in which the subsequent operations are performed without performing the division.
- the information extraction means 102 uses the information representing the contract contents from the unit information 112a, which is a structured document, as the extraction information 113a 1 to 113a 5 ... (Extraction information 113a) together with the position information of the reference destination of the unit information 112a. It is extracted and stored in the storage unit 11 (S3).
- the above information is extracted by using a technique such as named entity recognition by a conditional random field.
- the normalization means 103 performs processing such as unification of keywords, supplementation by reference to other information, and processing as shown in FIG. 7 below for the contents of the extraction information 113a extracted by the information extraction means 102, respectively. It is normalized and stored in the storage unit 11 as the normalized extraction information 114a 1 to 114a 5 ... (Normalized extraction information 114a) (S4).
- the normalized extraction information 114a is managed by items such as title, party 1, party 2, conclusion date, start date, end date, and full text.
- the above information can be normalized by comparing keywords in a dictionary (keyword list) using techniques such as Levenshtein distance and keyword similarity.
- FIG. 7 is a schematic diagram for explaining an operation example of the normalization means 103.
- the normalization extraction information 114 is "July 2017”. Normalize to the date written in the Christian era, such as "1st”. Even if the extraction information 113 is described in the Christian era, it is similarly normalized even if the description order is different such as "2017/7/1”, “7/1/2017", and "July 1,2017”. ..
- the normalization extraction information 114 is "2018”. Normalize to the date corresponding to the end date, such as "June 30".
- the normalization means 103 receives a specific description as the extraction information 113 in the extraction item related to renewal, such as "... this contract shall be renewed under the same conditions, and the same shall apply hereinafter.” Normalization As the extraction information 114, it is normalized to the description of simple contents such as "automatic update ant”.
- the normalization means 103 accepts the party position and the party name as the extraction information 113 in the extraction item relating to the party, such as "A (borrower) LegalForce, Inc.”
- the normalization extraction information 114 is "LegalForce, Inc.” Normalize to the parties like.
- the normalization means 103 uses the extraction information 113 as the description position and the name of the party described in the description position such as "Person described at the end of this contract (omitted) LegalForce, Inc.” in the extraction item relating to the party. Is accepted, it is normalized to the party name such as "LegalForce, Inc.” as the normalized extraction information 114.
- the normalization means 103 is the extraction information 113, and in the extraction items related to the parties, "LegalForce Co., Ltd. (hereinafter referred to as” A ") and the lawyer Nozomi Tsunoda (hereinafter referred to as” B ") are advisors as follows. Conclude a contract (hereinafter referred to as “this contract”). When a pair of parties is accepted as in "RegalForce Co., Ltd./Nozomi Tsunoda" as the normalized extraction information 114, it is normalized to the pair of parties.
- the normalization means 103 uses the extraction information 113 as the extraction item regarding the period, such as "The expiration date of this contract is one year from the conclusion date of this contract .... Conclusion date: January 1, 2020".
- the normalization extraction information 114 is normalized to the conclusion start date such as "January 1, 2020”.
- the information extraction means 102 and the normalization means 103 automatically perform extraction and normalization as described above, but as shown in FIG. 9 below, in addition to the proper noun, the date, period, etc. of the user Extraction and normalization may be performed according to the operation.
- FIG. 9 is a schematic diagram showing a display example of a screen displayed when the extraction information is registered according to the operation.
- the screen 103b has an input field 103b 1 for inputting a character string desired by the user, a check field 103b 2 for registering all search results, and a check for registering each search result. It has columns 103b 24 , 103b 25 , 103b 26 ..., a registration button 103b 3 for registering the search results checked in the check column, and search results 103b 4 , 103b 5 , 103b 6 .... Since each of the search results 103b 4 , 103b 5 , 103b 6 ... Has the same configuration, the configuration of the search result 103b 4 will be described as a representative.
- the search result 103b 4 has a button 103b 41 for registering the search result as the title of the contract, a button 103b 42 for registering the search result as the party name, and a button 103b for registering the search result as the start date. It has 43 , a button 103b 44 for registering a search result as an end date, and a display field 103b 45 for displaying a character string of the search result.
- the user inputs the character string desired to be searched on the screen 103b in the input field 103b 1 , confirms the contents of the searched search results 103b 4 , 103b 5 , 103b 6 ..., And checks the inspection results desired to be registered. Check the columns 103b 2 , 103b 24 , 103b 25 , 103b 26 ..., select the buttons 103b 41 to 103b 44 as appropriate, and press the registration button 103b 3 to perform the registration operation.
- the information extraction means 102 and the normalization means 103 register the checked character strings in the extraction information 113 and the normalization extraction information 114.
- the user operates the terminal 2 to select a contract in order to request the document processing server device 1 to refer to the contents of the desired contract.
- the terminal 2 requests the document processing server device 1 to select a contract and refer to the contents of the selected contract.
- the display control means 104 of the document processing server device 1 Upon receiving the request for selecting the contract and referencing the contents of the contract, the display control means 104 of the document processing server device 1 displays the normalized extraction information 114a together with the document information 111a and the unit information 112a.
- FIG. 8 is a schematic diagram showing a display example of the display control means 104.
- the screen 104a is a screen displayed by the display control means 104, and is structured to display the document information display field 104a 1 for displaying the document information 111a which is the original contract and the unit information 112a which is a structured document. It has a document display column 104a 2 and a normalized extraction information display column 104a 3 that displays normalized extraction information 114a, which is normalized extraction information, for each item.
- the user operates the terminal 2 to select a desired item from the normalized extraction information display fields 104a 3 .
- the terminal 2 requests the document processing server device 1 to select the item of the normalized extraction information 114a.
- FIG. 11 is a flowchart for explaining the display processing operation.
- the display control means 104 When the display control means 104 receives the item selection of the normalized extraction information 114a (S10), the display control means 104 sets the selected item, the normalized extraction information 104a 32 , in the selected state, and refers to the reference destination position of the extraction information 113a. Information is acquired (S11), and the character string 104b 2 at the corresponding position in the unit information 104a 22 of the structured document display field 104a 2 which is a structured document is instructed and displayed (S12).
- the user confirms the character string 104b 2 at the corresponding position, confirms the position in the unit information 112a of the corresponding position, the position in the document information 111a, and the like.
- the document information 111 is converted into text and structured, and a character string indicating the content of the document is extracted from the structured unit information 112 to obtain the extracted information 113, and then each character of the extracted information 113. Since the column is normalized to be the normalized extraction information 114 and the content of the normalized extraction information 114 is displayed together with the corresponding position of the unit information 112, the extracted character string may have a notational fluctuation. Even if there is, the relevant part can be centrally managed.
- the display control is performed by associating the document information 111, the unit information 112, and the normalized extraction information 114, the position information in the unit information 112 of the extracted character string can be confirmed and the original document. It is possible to confirm that the information 111 is surely described.
- the document information 111 is not limited to a contract, and may be a document in a field other than the law such as a document of the law itself or an instruction manual as long as the information can be extracted, and the present invention can be similarly applied.
- the component is not limited to a text, a section, and an issue, but may be a word, a character, or a symbol, or may be a paragraph or a sentence.
- the language of the document information 111 is not limited to Japanese and English, and can be applied to other languages as long as it is a language capable of constructing a sentence from which information can be extracted.
- each means 100-104 of the control unit 10 are realized by a program, but all or a part of each means may be realized by hardware such as ASIC.
- the program used in the above embodiment can be stored in a recording medium such as a CD-ROM and provided. Further, the replacement, deletion, addition, etc. of the above steps described in the above embodiment can be performed without changing the gist of the present invention.
- a character string indicating the content of a document is extracted from the document information, and even if the extracted character string has a notational fluctuation, a document processing program, an information processing device, and a document that centrally manage the relevant part are managed. Provides a processing method.
- Document processing server device 2 Document processing server device 2
- Terminal 4 Network 5: Document processing system 10:
- Control unit 11 Storage unit 12: Communication unit 100: Contract acceptance means 101: Contract division means 102:
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】文書情報から文書の内容を示す文字列が抽出され、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理する文書処理プログラム、情報処理装置及び文書処理方法を提供する。 【解決手段】文書処理サーバ装置1は、文書の内容を示す文字列を文書情報111から当該文書情報111中の位置情報とともに抽出して抽出情報113とする情報抽出手段102と、抽出情報113の各項目の内容を正規化して正規化抽出情報114とする正規化手段103と、正規化抽出情報114の内容を、前記抽出情報113の位置情報に基づいて文書情報111の該当位置を示して表示する表示制御手段104とを有する。
Description
本開示は、文書処理プログラム、情報処理装置及び文書処理方法に関する。
従来の技術として、契約書からキーワードを検出して契約者にリスクを事前に知らせる情報処理装置が提案されている(例えば、特許文献1参照)。
特許文献1に開示された情報処理装置は、契約書の文書中から所定のキーワードを検出し、検出されたキーワードの中から契約する利用者にとっての重要箇所を認識して、重要箇所をリスクとともに提示して締結するか否かを利用者に判断させる。また、情報処理装置は、契約書の文書中から契約の更新期限等を検出すると、更新の設定画面を提示し、更新を通知するか否かを利用者に判断させる。
しかし、上記した特許文献1に開示された情報処理装置によると、契約書からキーワードを検出して契約者にリスクを事前に知らせるとともに、契約書の更新通知の要否を判断させるものの、検出されるキーワードに表記上のゆれがある場合には対応できない、という問題があった。また、検出されたキーワードから対応する契約書内の記載が知りたい場合に、検出されたキーワードに表記上のゆれがある場合、すべての該当箇所を一元して管理することができない、という問題があった。
本開示の目的は、上記従来技術を踏まえ、より使い勝手のよい文書処理プログラム、情報処理装置及び文書処理方法を提供することにある。
本開示に係る発明の一態様は、上記目的を達成するため、以下の文書処理プログラム、情報処理装置及び文書処理方法を提供する。
[1]コンピュータを、
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段として機能させるための文書処理プログラム。
[2]文書情報を予め定めた単位で分割して単位情報とする分割手段としてさらに機能させ、
前記抽出手段は、前記文書の内容を示す文字列を前記単位情報の位置情報とともに抽出し、
前記表示制御手段は、前記正規化抽出情報の内容を、前記単位情報の位置情報に基づいて前記単位情報の該当位置を示して表示する前記[1]に記載の文書処理プログラム。
[3]前記抽出手段は、前記文書情報中の指定された文字列を抽出情報として登録する請求項1又は2に記載の文書処理プログラム。
[4]前記表示制御手段は、前記正規化抽出情報と、前記単位情報と、前記文書情報とを関連付けて表示する前記[1]から[3]のいずれかに記載の文書処理プログラム。
[5]前記コンピュータは、ネットワークを通じて通信可能に1又は複数の端末と接続される、前記[1]から[4]のいずれかに記載の文書処理プログラム。
[6]前記コンピュータは、無線通信ネットワークを通じて1又は複数の端末と接続される、前記[1]から[5]のいずれかに記載の文書処理プログラム。
[7]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段とを有する情報処理装置。
[8]所定の指示命令に加えて、文書情報を記憶するように構成されたメモリと、
前記メモリに記憶された指示命令に基づいて、
前記文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出し、
抽出された前記文字列を正規化して正規化抽出情報とし、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する、
ための処理を実行するように構成されたプロセッサと、
を含む情報処理装置。
[9]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出ステップと、
抽出された前記文字列を正規化して正規化抽出情報とする正規化ステップと、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御ステップとを有する文書処理方法。
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段として機能させるための文書処理プログラム。
[2]文書情報を予め定めた単位で分割して単位情報とする分割手段としてさらに機能させ、
前記抽出手段は、前記文書の内容を示す文字列を前記単位情報の位置情報とともに抽出し、
前記表示制御手段は、前記正規化抽出情報の内容を、前記単位情報の位置情報に基づいて前記単位情報の該当位置を示して表示する前記[1]に記載の文書処理プログラム。
[3]前記抽出手段は、前記文書情報中の指定された文字列を抽出情報として登録する請求項1又は2に記載の文書処理プログラム。
[4]前記表示制御手段は、前記正規化抽出情報と、前記単位情報と、前記文書情報とを関連付けて表示する前記[1]から[3]のいずれかに記載の文書処理プログラム。
[5]前記コンピュータは、ネットワークを通じて通信可能に1又は複数の端末と接続される、前記[1]から[4]のいずれかに記載の文書処理プログラム。
[6]前記コンピュータは、無線通信ネットワークを通じて1又は複数の端末と接続される、前記[1]から[5]のいずれかに記載の文書処理プログラム。
[7]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段とを有する情報処理装置。
[8]所定の指示命令に加えて、文書情報を記憶するように構成されたメモリと、
前記メモリに記憶された指示命令に基づいて、
前記文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出し、
抽出された前記文字列を正規化して正規化抽出情報とし、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する、
ための処理を実行するように構成されたプロセッサと、
を含む情報処理装置。
[9]文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出ステップと、
抽出された前記文字列を正規化して正規化抽出情報とする正規化ステップと、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御ステップとを有する文書処理方法。
本開示の様々な実施形態によれば、より使い勝手のよい文書処理プログラム、情報処理装置及び文書処理方法を提供することが可能となる。
[実施の形態]
(文書処理システムの構成)
図1は、実施の形態に係る文書処理システムの構成の一例を示す概略図である。
(文書処理システムの構成)
図1は、実施の形態に係る文書処理システムの構成の一例を示す概略図である。
この文書処理システム5は、文書処理サーバ装置1と、端末2と、端末3とをネットワーク4によって互いに通信可能に接続することで構成される。端末2は、例えば、文書管理、文書作成、文書内容確認及び/又は文書レビューを希望する利用者によって操作され、端末3は他の利用者によって操作されるが、これに限られるものではない。端末2の利用者と、端末3の利用者とは文書情報として、例えば、契約書を扱うものであり、主に、一方又は双方の利用者の作成した文書情報を管理するとともに、締結後の文書情報を管理し、当該文書情報の内容を確認、把握するために文書処理システム5を利用する。
文書処理サーバ装置1は、サーバ型の情報処理装置であり、端末2及び端末3の要求に応じて動作するものであって、本体内に情報を処理するための機能を有するCPU(Central Processing Unit)やHDD(Hard Disk Drive)、フラッシュメモリ等の電子部品を備える。なお、文書処理サーバ装置1は、必ずしも単体の情報処理装置で構成される必要はなく、複数の情報処理装置が協働して動作するものであってもよいし、任意のクラウドサービスによって動作するものであってもよい。また、文書処理サーバ装置1の機能を端末2及び/又は端末3内で実現するものであってもよい
端末2及び端末3は、PC(Personal Computer)やタブレット端末等の情報処理装置であって、本体内に情報を処理するための機能を有するCPUやフラッシュメモリ等の電子部品を備える。
ネットワーク4は、高速通信が可能な通信ネットワークであり、例えば、インターネット、イントラネットやLAN(Local Area Network)等の有線又は無線の通信網である。
上記構成において、一例として、文書処理サーバ装置1が処理する文書は契約書等の法律分野の文書であり、利用者の一方又は双方は法律の専門家ではないが契約書の作成を必要とする人物、又は弁護士等の法律の専門家であって契約書の作成の知識を有する人物である。また、例えば、一方又は双方の利用者は社内の営業部の社員、又は社内法務部の社員である。
基本動作としては、端末2又は端末3から文書情報を文書処理サーバ装置1にアップロードした後、文書処理サーバ装置1において文書情報を管理し、端末2又は端末3から文書処理サーバ装置1にアクセスすることで文書情報の内容の確認等を行うが、その際に利用者の確認作業負担を減らすべく、又は利用者の契約書の作成を支援するべく、文書処理サーバ装置1は、文書情報から情報を抽出し、抽出した情報を内容の把握を助ける形式で表示する。表示方法の具体例については後述する。
本実施の形態では主に、文書処理サーバ装置1は、文書情報中の契約状況を示す情報を抽出し、抽出した情報を一方又は双方の利用者に提示する。なお、以下において、条項のことを「条文」と言うことがある。実施の形態を以下で説明する。
また、端末2及び端末3はそれぞれ単数を図示しているが、複数台がネットワーク4に接続されるものであってもよく、同様にこれらを操作する利用者は複数人であってもよい。
(文書処理サーバ装置の構成)
図2は、実施の形態に係る文書処理サーバ装置1の構成例を示すブロック図である。
図2は、実施の形態に係る文書処理サーバ装置1の構成例を示すブロック図である。
文書処理サーバ装置1は、CPU等から構成され、各部を制御するとともに、各種のプログラムを実行する制御部10と、フラッシュメモリ等の記憶媒体から構成され情報を記憶する記憶部11と、ネットワーク4を介して外部と通信するための通信インターフェイスとして機能する通信部12とを備える。
制御部10は、CPU等のプロセッサから構成され、メモリから構成される記憶部11及び通信インターフェイスとして機能する通信部12に電気的に接続される。当該制御部10は、後述する文書処理プログラム110を実行することで、契約書受付手段100、契約書分割手段101、情報抽出手段102、正規化手段103及び表示制御手段104等として機能する。
契約書受付手段100は、端末2又は端末3から契約書を文書情報111として受け付けて記憶部11に格納する。文書情報111は、文章がレイアウトされたPDF等の画像情報であってもよいし、テキストデータを含むテキストファイル、ワードファイル等の情報であってもよい。
契約書分割手段101は、文書情報111がテキスト以外の情報の場合はOCR(Optical Character Recognition)等を行ってテキスト化した後、文書情報111をタイトル、序文、条文単位等の契約書の構成要素毎に分割し、単位情報112として記憶部11に格納する。なお、条文単位は、分割の単位が条文に限定されるものではなく、項、号であってもよいし、意味のまとまりのある複数の条、項、号のまとまりであってもよい。また、異なる条、項に渡って意味のまとまりのある項、号であってもよい。
情報抽出手段102は、単位情報112から契約内容を表す情報を抽出して抽出情報113として記憶部11に格納する。
正規化手段103は、情報抽出手段102が抽出した抽出情報113の内容を、それぞれキーワードの統一、記載形式の統一、他の情報の参照による補足、他の情報に基づく推論、名寄せ処理等を行うことで正規化して正規化抽出情報114として記憶部11に格納する。なお、他の情報の参照による補足については、契約開始日と有効期限から契約終了日を算出する。また、他の情報に基づく推論については、例えば、社名、日付、住所等に基づき法人番号を推定する。また、名寄せ処理は、レーベンシュタイン距離やキーワード類似度を用いて辞書(キーワードリスト)のキーワードを比較し、近いものを正規化文字列とすることで行う。
表示制御手段104は、記憶部11の文書情報111、単位情報112、抽出情報113及び正規化抽出情報114並びに各手段100‐103の出力結果を予め定めた方法で端末2及び端末3の表示部に表示制御する。なお、表示方法の詳細は後述する。
記憶部11は、フラッシュメモリ等のメモリから構成され、プロセッサ等から構成される制御部10及通信インターフェイスとして機能する通信部12に電気的に接続される。当該記憶部11は、制御部10を上述した各手段100‐104として動作させる文書処理プログラム110、文書情報111、単位情報112、抽出情報113及び正規化抽出情報114等を記憶する。
図3は、文書情報111の構成例を示す概略図である。
文書情報111aは、一例として、契約書であり、契約書分割手段101によって分割される単位情報112として、契約書のタイトル112a1と、序文112a2と、これらに続く複数の条文(条文単位)112a3、112a4、112a5…とを有する。また、条文(条文単位)112a4は、複数の項(条文単位)112a41、112a42を含むものとする。
図4は、抽出情報113の構成例を示す概略図である。
抽出情報113は、情報抽出手段102により抽出された情報であり、抽出情報を識別するための抽出IDと、単位情報112から抽出された抽出情報と、抽出された情報の属する項目である抽出項目と、単位情報112中の位置情報である参照先位置とを有する。
図5は、正規化抽出情報114の構成例を示す概略図である。
正規化抽出情報114は、正規化手段103により抽出情報113を正規化した情報であり、抽出IDと、抽出情報と、当該抽出情報を正規化した正規化抽出情報とを有する。
(文書処理システムの動作)
次に、第1の実施の形態の作用を、(1)基本動作、(2)情報抽出動作、(3)抽出情報表示動作に分けて説明する。以降、端末2を操作対象として動作を説明するが、端末3に置き換えた場合も同様の動作となる場合は説明を省略する。
次に、第1の実施の形態の作用を、(1)基本動作、(2)情報抽出動作、(3)抽出情報表示動作に分けて説明する。以降、端末2を操作対象として動作を説明するが、端末3に置き換えた場合も同様の動作となる場合は説明を省略する。
(1)基本動作
まず、利用者は、文書処理サーバ装置1の提供するサービスへログインを行うため端末2を操作する。端末2は、利用者から利用者ID及びパスワード等の情報の入力を受け付けると、当該情報とともに認証要求を文書処理サーバ装置1に送信する。
まず、利用者は、文書処理サーバ装置1の提供するサービスへログインを行うため端末2を操作する。端末2は、利用者から利用者ID及びパスワード等の情報の入力を受け付けると、当該情報とともに認証要求を文書処理サーバ装置1に送信する。
文書処理サーバ装置1は、端末2から利用者ID及びパスワード等の情報とともに認証要求を受信すると、予め登録された利用者ID及びパスワード等を含む図示しない利用者情報を参照し、利用者としての依頼者の認証を行う。
次に、利用者は、サービスへのログインが完了すると、契約書の文書情報を文書処理サーバ装置1へアップロードするため端末2を操作する。端末2は、当該文書情報を文書処理サーバ装置1へアップロードする。
(2)情報抽出動作
図10は、文書処理サーバ装置1の情報抽出動作を示すフローチャートである。図6は、情報抽出動作の処理の一例を説明するための概略図である。
図10は、文書処理サーバ装置1の情報抽出動作を示すフローチャートである。図6は、情報抽出動作の処理の一例を説明するための概略図である。
文書処理サーバ装置1の契約書受付手段100は、依頼者の操作する端末2から文書情報111を受け付けて記憶部11に格納する(S1)。
次に、文書処理サーバ装置1の契約書分割手段101は、図3に示すように文書情報111aを、契約書の構成要素毎に分割して単位情報112aとし、構造化する(S2)。一例として、文書情報111aは、契約書原本をスキャンしたものであってPDF(Portable Document Format)ファイル等の画像情報であり、契約書分割手段101は、まず、文書情報111aをOCR(Optical Character Reader)等の方法を用いてテキスト化する。契約書分割手段101は、テキスト化された情報を、タイトル112a1、序文112a2、条文単位112a3~112a7…、項単位112a41、112a42…のように分割する。なお、契約書分割手段101は、対象とする文書情報111aをさらに号の単位で分割するものであってもよく、文書情報111aの構造に適した単位を用いて単位情報112aとする。なお、上記の分割は機械学習、正規表現等の技術を用いて行う。また、分割は、必須の動作項目ではなく、分割を行わずに以降の動作を行うものであってもよい。
次に、情報抽出手段102は、構造化された文書である単位情報112aから契約内容を表す情報を単位情報112aの参照先の位置情報とともに抽出情報113a1~113a5…(抽出情報113a)として抽出して記憶部11に格納する(S3)。なお、上記の情報の抽出は条件付き確率場(Conditional Random Field)による固有表現認識(Named Entity Recognition)等の技術を用いて行う。
次に、正規化手段103は、情報抽出手段102が抽出した抽出情報113aの内容を、それぞれキーワードの統一、他の情報の参照による補足等及び以下の図7に示すような処理を行うことで正規化して正規化抽出情報114a1~114a5…(正規化抽出情報114a)として記憶部11に格納する(S4)。なお、正規化抽出情報114aは、タイトル、当事者1、当事者2、締結日、開始日、終了日、全文等の項目で管理される。また、上記の情報の正規化はレーベンシュタイン距離やキーワード類似度等の技術を用いて辞書(キーワードリスト)のキーワードを比較することで行う。
図7は、正規化手段103の動作例を説明するための概略図である。
正規化手段103は、抽出情報113として日付に関する抽出項目において「平成29年7月1日」のように和暦で記載された日付を受け付けた場合、正規化抽出情報114として「2017年7月1日」のように西暦で記載された日付に正規化する。なお、抽出情報113が西暦で記載されていても「2017/7/1」や「7/1/2017」、「July 1,2017」のように記載順が異なる場合にも同様に正規化する。
また、正規化手段103は、抽出情報113として日付に関する抽出項目において「平成29年7月1日から1年間」のように期間を伴う記載を受け付けた場合、正規化抽出情報114として「2018年6月30日」のように終了日に該当する日付に正規化する。
また、正規化手段103は、抽出情報113として更新に関する抽出項目において「…本契約は同条件で更新されるものとし、以降も同様とする。」のように具体的な記載を受け付けた場合、正規化抽出情報114として「自動更新アリ」のように端的な内容の記載に正規化する。
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「甲(借主)株式会社LegalForce」のように当事者立場と当事者名を受け付けた場合、正規化抽出情報114として「株式会社LegalForce」のように当事者に正規化する。
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「本契約書の末尾に記載される者(中略)株式会社LegalForce」のように記載位置とその記載位置に記載された当事者名を受け付けた場合、正規化抽出情報114として「株式会社LegalForce」のように当事者名に正規化する。
また、正規化手段103は、抽出情報113として当事者に関する抽出項目において「株式会社LegalForce(以下、「甲」という。)と弁護士 角田望(以下、「乙」という。)は、以下のとおり、顧問契約(以下、「本契約」という。)を締結する。」のように当事者の対を受け付けた場合、正規化抽出情報114として「株式会社LegalForce/角田望」のように当事者の対に正規化する。
また、正規化手段103は、抽出情報113として期間に関する抽出項目において「本契約の有効期限は、本契約の締結日より1年間とする。…締結日:2020年1月1日」のように有効期限の開始日と期間を受け付けた場合、正規化抽出情報114として「2020年1月1日」のように締結開始日に正規化する。
また、情報抽出手段102及び正規化手段103は、上記したように自動で抽出と正規化を行うが、下記の図9に示すように、固有名詞の他、日付、期間等については利用者の操作に応じて抽出と正規化を行うものであってもよい。
図9は、操作に応じて抽出情報を登録する場合に表示される画面の表示例を示す概略図である。
画面103bは、利用者が検索を所望する文字列を入力する入力欄103b1と、すべての検索結果を登録対象とするためのチェック欄103b2と、検索結果毎に登録対象とするためのチェック欄103b24、103b25、103b26…と、チェック欄でチェックした検索結果を登録するための登録ボタン103b3と、検索結果103b4、103b5、103b6…とを有する。各検索結果103b4、103b5、103b6…は同様の構成を有するため検索結果103b4の構成について代表して説明する。検索結果103b4は、契約書のタイトルとして検索結果を登録するためのボタン103b41と、当事者名として検索結果を登録するためのボタン103b42と、開始日として検索結果を登録するためのボタン103b43と、終了日として検索結果を登録するためのボタン103b44と、検索結果の文字列を表示する表示欄103b45とを有する。
利用者は、画面103bにおいて検索を所望する文字列を入力欄103b1に入力して検索された検索結果103b4、103b5、103b6…の内容を確認し、登録を所望する検査結果についてチェック欄103b2、103b24、103b25、103b26…にチェックして、ボタン103b41~103b44を適宜選択状態とし、登録ボタン103b3を押下操作することで登録操作を行う。
情報抽出手段102及び正規化手段103は、チェックされた文字列を抽出情報113及び正規化抽出情報114に登録する。
(3)抽出情報表示動作
次に、利用者は、所望の契約書の内容参照を文書処理サーバ装置1へ要求するため端末2を操作して契約書を選択する。端末2は、契約書の選択及び選択した契約書の内容参照を文書処理サーバ装置1へ要求する。
次に、利用者は、所望の契約書の内容参照を文書処理サーバ装置1へ要求するため端末2を操作して契約書を選択する。端末2は、契約書の選択及び選択した契約書の内容参照を文書処理サーバ装置1へ要求する。
文書処理サーバ装置1の表示制御手段104は、契約書の選択及び契約書の内容参照の要求を受け付けると、正規化抽出情報114aを文書情報111a及び単位情報112aとともに表示処理する。
図8は、表示制御手段104の表示例を示す概略図である。
画面104aは、表示制御手段104により表示される画面であり、契約書原本である文書情報111aを表示する文書情報表示欄104a1と、構造化された文書である単位情報112aを表示する構造化文書表示欄104a2と、正規化された抽出情報である正規化抽出情報114aを項目毎に表示する正規化抽出情報表示欄104a3とを有する。
次に、利用者は、正規化抽出情報表示欄104a3のうち所望の項目を選択するため端末2を操作する。端末2は、正規化抽出情報114aの項目の選択を文書処理サーバ装置1へ要求する。
図11は、表示処理動作を説明するためのフローチャートである。
表示制御手段104は、正規化抽出情報114aの項目選択を受け付けると(S10)、選択された項目である正規化抽出情報104a32を選択状態とし、抽出情報113aの参照先位置を参照して位置情報を取得し(S11)、構造化された文書である構造化文書表示欄104a2の単位情報104a22のうち該当位置の文字列104b2を指示して表示する(S12)。
利用者は、該当位置の文字列104b2を確認し、該当位置の単位情報112a中の位置、文書情報111aにおける位置等を確認する。
(実施の形態の効果)
上記した実施の形態によれば、文書情報111をテキスト化して構造化し、構造化した単位情報112から文書の内容を示す文字列を抽出して抽出情報113とした後、抽出情報113の各文字列を正規化して正規化抽出情報114とするとともに、正規化抽出情報114の内容を単位情報112の該当位置とともに表示するようにしたため、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理することができる。
上記した実施の形態によれば、文書情報111をテキスト化して構造化し、構造化した単位情報112から文書の内容を示す文字列を抽出して抽出情報113とした後、抽出情報113の各文字列を正規化して正規化抽出情報114とするとともに、正規化抽出情報114の内容を単位情報112の該当位置とともに表示するようにしたため、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理することができる。
また、文書情報111、単位情報112、正規化抽出情報114を関連付けて表示制御するようにしたため、抽出された文字列の単位情報112中の位置情報を確認させることができるとともに、原本である文書情報111で確実に記載されていることを確認させることができる。
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
例えば、文書情報111は契約書に限らず、情報が抽出できるものであれば、法律そのものの文書や取り扱い説明書等の法律以外の分野の文書であってよいし、同様に本発明を適用可能である。また、構成要素は、条文、項、号に限らず、単語や文字・記号であってもよいし、段落、文章であってもよい。また、文書情報111の言語は日本語、英語に限らず、情報を抽出可能な文を構成できる言語であれば他の言語にも適用可能である。
上記実施の形態では制御部10の各手段100‐104の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD‐ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
文書情報から文書の内容を示す文字列が抽出され、当該抽出された文字列に表記上のゆれがある場合であっても、該当箇所を一元して管理する文書処理プログラム、情報処理装置及び文書処理方法を提供する。
1 :文書処理サーバ装置
2、3 :端末
4 :ネットワーク
5 :文書処理システム
10 :制御部
11 :記憶部
12 :通信部
100 :契約書受付手段
101 :契約書分割手段
102 :情報抽出手段
103 :正規化手段
104 :表示制御手段
110 :文書処理プログラム
111 :文書情報
112 :単位情報
113 :抽出情報
114 :正規化抽出情報
2、3 :端末
4 :ネットワーク
5 :文書処理システム
10 :制御部
11 :記憶部
12 :通信部
100 :契約書受付手段
101 :契約書分割手段
102 :情報抽出手段
103 :正規化手段
104 :表示制御手段
110 :文書処理プログラム
111 :文書情報
112 :単位情報
113 :抽出情報
114 :正規化抽出情報
Claims (9)
- コンピュータを、
文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段として機能させるための文書処理プログラム。 - 文書情報を予め定めた単位で分割して単位情報とする分割手段としてさらに機能させ、
前記抽出手段は、前記文書の内容を示す文字列を前記単位情報の位置情報とともに抽出し、
前記表示制御手段は、前記正規化抽出情報の内容を、前記単位情報の位置情報に基づいて前記単位情報の該当位置を示して表示する請求項1に記載の文書処理プログラム。 - 前記抽出手段は、前記文書情報中の指定された文字列を抽出情報として登録する請求項1又は2に記載の文書処理プログラム。
- 前記表示制御手段は、前記正規化抽出情報と、前記単位情報と、前記文書情報とを関連付けて表示する請求項1から3のいずれか1項に記載の文書処理プログラム。
- 前記コンピュータは、ネットワークを通じて通信可能に1又は複数の端末と接続される、請求項1から4のいずれか1項に記載の文書処理プログラム。
- 前記コンピュータは、無線通信ネットワークを通じて1又は複数の端末と接続される、請求項1から5のいずれか1項に記載の文書処理プログラム。
- 文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出手段と、
前記抽出手段によって抽出された前記文字列を正規化して正規化抽出情報とする正規化手段と、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御手段とを有する情報処理装置。 - 所定の指示命令に加えて、文書情報を記憶するように構成されたメモリと、
前記メモリに記憶された指示命令に基づいて、
前記文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出し、
抽出された前記文字列を正規化して正規化抽出情報とし、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する、
ための処理を実行するように構成されたプロセッサと、
を含む情報処理装置。 - 文書情報から文書の内容を示す文字列を当該文書情報中の位置情報とともに抽出する抽出ステップと、
抽出された前記抽文字列を正規化して正規化抽出情報とする正規化ステップと、
前記正規化抽出情報の内容を、前記位置情報に基づいて前記文書情報の該当位置を示して表示する表示制御ステップとを有する文書処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022541356A JPWO2022029863A1 (ja) | 2020-08-04 | 2020-08-04 | |
PCT/JP2020/029747 WO2022029863A1 (ja) | 2020-08-04 | 2020-08-04 | 文書処理プログラム、情報処理装置及び文書処理方法 |
US18/104,867 US20230177859A1 (en) | 2020-08-04 | 2023-02-02 | Document Processing Method, and Information Processing Device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/029747 WO2022029863A1 (ja) | 2020-08-04 | 2020-08-04 | 文書処理プログラム、情報処理装置及び文書処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US18/104,867 Continuation US20230177859A1 (en) | 2020-08-04 | 2023-02-02 | Document Processing Method, and Information Processing Device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022029863A1 true WO2022029863A1 (ja) | 2022-02-10 |
Family
ID=80117881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/029747 WO2022029863A1 (ja) | 2020-08-04 | 2020-08-04 | 文書処理プログラム、情報処理装置及び文書処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230177859A1 (ja) |
JP (1) | JPWO2022029863A1 (ja) |
WO (1) | WO2022029863A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236262A (ja) * | 2005-02-28 | 2006-09-07 | Fujitsu Ltd | 情報抽出プロブラム及び方法 |
WO2018042548A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 契約書管理システム、契約書管理方法、および契約書管理プログラム |
JP2019045953A (ja) * | 2017-08-30 | 2019-03-22 | 日本特許翻訳株式会社 | 類語処理装置、及びプログラム |
-
2020
- 2020-08-04 WO PCT/JP2020/029747 patent/WO2022029863A1/ja active Application Filing
- 2020-08-04 JP JP2022541356A patent/JPWO2022029863A1/ja active Pending
-
2023
- 2023-02-02 US US18/104,867 patent/US20230177859A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236262A (ja) * | 2005-02-28 | 2006-09-07 | Fujitsu Ltd | 情報抽出プロブラム及び方法 |
WO2018042548A1 (ja) * | 2016-08-31 | 2018-03-08 | 株式会社オプティム | 契約書管理システム、契約書管理方法、および契約書管理プログラム |
JP2019045953A (ja) * | 2017-08-30 | 2019-03-22 | 日本特許翻訳株式会社 | 類語処理装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20230177859A1 (en) | 2023-06-08 |
JPWO2022029863A1 (ja) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6664784B2 (ja) | 表示装置 | |
JP6947155B2 (ja) | 情報検索システム | |
JPH11250105A (ja) | 多言語情報検索方法およびシステム | |
WO2023029513A1 (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
WO2015139497A1 (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
JP6424315B2 (ja) | 学習支援装置、学習支援プログラム、及び学習支援方法 | |
WO2018221119A1 (ja) | 検索用資料情報記憶装置 | |
US20190027149A1 (en) | Documentation tag processing system | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP2007094570A (ja) | データベース利用システム | |
US20230196002A1 (en) | Document processing method, and information processing device | |
US20220229863A1 (en) | Assigning documents to entities of a database | |
WO2022029863A1 (ja) | 文書処理プログラム、情報処理装置及び文書処理方法 | |
US20230089998A1 (en) | Multi-clause document negotiation platform | |
JPWO2012053509A1 (ja) | 入力支援プログラム、入力支援装置、及び入力支援方法 | |
WO2022034637A1 (ja) | 文書処理プログラム、情報処理装置及び文書処理方法 | |
JPH1139338A (ja) | 文書検索装置、文書検索方法及び文書検索のためのプログラムを記録した媒体 | |
US20200097552A1 (en) | Synonym determination device and synonym determination method | |
JP2021149600A (ja) | 情報処理装置及びプログラム | |
WO2022163067A1 (ja) | 文書処理プログラム、情報処理装置及び文書処理方法 | |
US20230335001A1 (en) | Document Processing Method, Information Processing Device, And Computer Program Product | |
JP7314089B2 (ja) | 検索支援システム、及び検索支援方法 | |
WO2022137338A1 (ja) | 文書処理プログラム、情報処理装置及び文書処理方法 | |
JP7092695B2 (ja) | 物件検索支援システムおよび物件検索支援方法 | |
KR102183815B1 (ko) | 데이터 관리 시스템 및 데이터 관리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20948594 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022541356 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20948594 Country of ref document: EP Kind code of ref document: A1 |