WO2023074008A1 - 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体 - Google Patents

文書マスキング装置、文書マスキング方法およびプログラム記憶媒体 Download PDF

Info

Publication number
WO2023074008A1
WO2023074008A1 PCT/JP2022/000317 JP2022000317W WO2023074008A1 WO 2023074008 A1 WO2023074008 A1 WO 2023074008A1 JP 2022000317 W JP2022000317 W JP 2022000317W WO 2023074008 A1 WO2023074008 A1 WO 2023074008A1
Authority
WO
WIPO (PCT)
Prior art keywords
masking
document
masked
words
word
Prior art date
Application number
PCT/JP2022/000317
Other languages
English (en)
French (fr)
Inventor
靖夫 飯村
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2023074008A1 publication Critical patent/WO2023074008A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Definitions

  • the present invention relates to a technique for generating a document in which parts to be concealed are masked.
  • masking processing may be performed to hide words that can identify an individual by blacking them out.
  • masking processing such as blacking-out may be performed on the portion related to the content that is to be kept private.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2007-122153 discloses a technique of masking a character string selected by a user's drag operation and displaying a document containing the masked character string.
  • Patent Document 2 Japanese Patent Application Laid-Open No. 2008-098948 discloses a technique for embedding control information in a character area specified by a user. processing is described.
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2008-017184
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2008-017184 relates to an electronic blackboard system, and discloses a technique of identifying a character object written on an electronic blackboard as an object to be hidden and performing a concealment process on the character object.
  • the document is digitized, and from the text data of the digitized document, the words to be masked are extracted using the search function of the computer, and the extracted words are masked.
  • the words to be masked change depending on the content of the document and the disclosure party (disclosure requester) to whom the document is disclosed. For this reason, it is necessary to change the words to be masked extracted from the text data by the search function of the computer according to the contents of the document and the person to whom the document is to be disclosed.
  • the main object of the present invention is to provide a technique that can flexibly respond to changes in words to be masked, and that improves the efficiency of masking processing performed on documents while suppressing an increase in the load on the apparatus. to do.
  • the document masking device has, as one aspect thereof, an extraction unit that extracts, from the text data of a document, words belonging to a confidentiality target attribute representing the type of words to be masked, using natural language processing technology; a presentation unit that presents the extracted word as a masking candidate; an output unit configured to output the document in which a masking target word specified as a masking target from the masking candidates is subjected to masking processing.
  • the document masking method by computer, From the text data of the document, words belonging to the confidentiality target attribute representing the type of word to be masked are extracted using natural language processing technology, presenting the extracted words as masking candidates; and outputting the document in which a masking target word specified as a masking target from the masking candidates is subjected to masking processing.
  • a computer program for causing a computer to execute a process of outputting the page image obtained by masking a masking target word specified as a masking target from the masking candidates is stored.
  • the present invention it is possible to flexibly respond to changes in words to be masked, and to improve the efficiency of masking processing performed on documents while suppressing an increase in the load on the device.
  • FIG. 1 is a block diagram illustrating an embodiment of a document masking device according to the present invention
  • FIG. FIG. 10 is a diagram showing a display example of displaying masking candidates on a display device
  • FIG. 11 is a diagram showing another display example of displaying masking candidates on the display device
  • FIG. 10 is a diagram showing an example of a masked page image
  • It is a figure explaining the modification of the function of a presentation part and an output part.
  • 4 is a flow chart showing an example of operations related to masking processing in the document masking apparatus of the first embodiment; Manually specify masking regions.
  • FIG. 11 is a block diagram showing a modification of the document masking device of the third embodiment
  • FIG. 11 is a block diagram illustrating another embodiment of the document masking device according to the present invention
  • FIG. 4 is a flow chart representing another example of operations related to masking processing in a document masking device;
  • FIG. 10 is a diagram showing a display example of displaying masking candidates on a display
  • FIG. 1 is a diagram for explaining the configuration of a document masking apparatus according to the first embodiment of the invention.
  • the document masking apparatus 1 of the first embodiment obtains an image of a sheet 8 converted into image data by a scanner 6, and performs masking processing on words to be masked in a document represented by the obtained image of the sheet 8. It is equipped with a function to output an image of the paper after masking processing.
  • the image on the sheet 8 that has been converted into image data is also referred to as a sheet image.
  • the paper image data may be transmitted to the document masking apparatus 1 directly from the scanner 6 or via an information communication network, or may be transmitted from the scanner 6 to the document masking apparatus by a portable storage medium. 1 may be supplied.
  • the words to be masked are determined by the user and are not limited here. words that describe what is to be done (e.g., method of murder).
  • the document masking device 1 of the first embodiment is a computer device and is connected to an input device 3 and a display device 4.
  • the input device 3 is a device for inputting information to the document masking device 1, and includes a keyboard and a mouse.
  • the display device 4 is a device that displays information on a screen.
  • the document masking device 1 comprises a control device 10 and a storage device 20.
  • the storage device 20 includes storage media for storing data and computer programs (hereinafter also referred to as programs) 21 .
  • programs data and computer programs
  • There are multiple types of storage devices such as magnetic disk devices and semiconductor memory devices, and there are multiple types of semiconductor memory devices such as RAM (Random Access Memory) and ROM (Read Only Memory).
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the type of storage device 20 included in the document masking device 1 is not limited to one.
  • Computer devices are often equipped with multiple types of storage devices.
  • the type and number of storage devices 20 provided in the document masking apparatus 1 are not limited, and the description thereof is omitted.
  • the document masking apparatus 1 is provided with a plurality of types of storage devices, they are collectively referred to as a storage device 20 .
  • the control device 10 is composed of a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the control device 10 can have various functions based on the program 21 by reading and executing the program 21 stored in the storage device 20 .
  • the control device 10 includes an acquisition unit 11, a character recognition unit 12, an arrangement analysis unit 13, and an extraction unit 14 as functional units based on a program for executing a masking process for concealing words to be masked in a document. , an output unit 15 , and a presentation unit 16 .
  • the acquisition unit 11 acquires the data of the image of the paper 8 (paper image) converted into image data by the scanner 6 .
  • the data of the acquired page image is stored in the storage device 20 in association with identification information for identifying the data, information on the date and time of acquisition, and the like.
  • the data of the page image acquired by the acquisition unit 11 may be associated with text data representing the document written on the page 8 .
  • the scanner 6 may have an OCR function using OCR (Optical Character Recognition) technology.
  • OCR function is a function of recognizing characters from an image by OCR technology and generating text data including character codes representing the recognized characters.
  • Text data including character codes of characters recognized from the paper image by the OCR function of the scanner 6 (hereinafter also referred to as paper text data) is obtained by the obtaining unit 11 in a state associated with the data of the paper image.
  • a character can be given a standardized character code such as Unicode, and includes not only characters such as kana, kanji, and alphanumeric characters, but also mathematical symbols and the like.
  • the acquisition unit 11 may acquire data of a page image that is not associated with page text data.
  • the character recognition unit 12 uses OCR technology to recognize the characters of the document written on the sheet 8 from the sheet image acquired by the acquisition unit 11, and includes the character code of the recognized character.
  • Generate text data page text data. This page space text data is stored in the storage device 20 in association with the data of the page space image in which characters are recognized.
  • the extraction unit 14 By analyzing the paper text data associated with the paper image data, the extraction unit 14 extracts words belonging to the following anonymization target attributes from the paper text data as masking candidates.
  • the anonymization target attribute is an attribute representing the type of masking target word for which masking processing is performed.
  • the extraction unit 14 extracts words belonging to the anonymization target attribute from the page text data as masking candidates.
  • the anonymization target attribute is determined according to the word to be masked (in other words, the content of the document to be masked), and is not limited. includes personal names, place names, dates, company names, occupations, genders, job titles, telephone numbers, and the like.
  • the extraction unit 14 uses so-called AI (Artificial Intelligence) technology to extract words belonging to the anonymization target attribute from the page text data.
  • AI Artificial Intelligence
  • the storage device 20 stores in advance an AI technology model (hereinafter also referred to as an extraction model).
  • the extraction model is a model that receives paper text data as an input and outputs words with anonymization target attributes extracted from the paper space text data, and is generated by machine-learning words belonging to the anonymization target attributes.
  • BERT Bidirectional Encoder Representations from Transformers
  • the extracting unit 14 instead of extracting a specific word to be masked, extracts a word belonging to an attribute to be concealed as a masking candidate, thereby suppressing the problem of missing masking caused by an OCR recognition error.
  • the characters of the person's name "Aoyama” are recognized as “Otoyama” due to an OCR recognition error (characters recognized by the OCR function are erroneous).
  • "Aoyama” is extracted from the page text data as a word to be masked, and the extracted word is masked.
  • "Aoyama” recognized as "Otoyama” due to an OCR recognition error is not extracted from the page text data and is not masked. In other words, missing masking occurs due to OCR recognition errors.
  • not only "Aoyama” but also "Otoyama” resulting from an OCR recognition error is determined by the extraction unit 14 to be anonymized by using natural language processing technology, for example, based on the context. It is extracted as a word (masking candidate) belonging to a person's name. Then, if masking processing is applied to both "Aoyama” and "Otoyama", omission of masking due to OCR recognition errors can be prevented.
  • the layout analysis unit 13 detects the layout positions indicating where the characters recognized by the OCR function of the scanner 6 or the character recognition unit 12 are positioned on the paper surface image and the size of the occupied area. Then, the layout analysis unit 13 generates character position data representing the layout position and the size of the occupied area of each detected character in the page image. That is, in the first embodiment, since the extracting unit 14 analyzes the paper space text data in a state in which it is separated from the paper space image, the words extracted by the extraction unit 14 from the paper space text data include the arrangement of the word in the paper space image. There is no associated information about the position and the amount of space occupied by the word.
  • the layout analysis unit 13 generates character position data representing the layout position of each character in the page image and the size of the area occupied by each character.
  • the form of the character position data is not limited as long as it can represent the position of the character and the size of the occupied area in the paper image.
  • a mode representing the position of and the size of its occupied area can be cited.
  • the presentation unit 16 causes the display device 4 to display the masking candidate words extracted by the extraction unit 14 .
  • the presentation unit 16 causes the display device 4 to display a message for the user to specify (select) a masking target word to be masked from among the masking candidates displayed on the display device 4 .
  • the presenting unit 16 may issue a message for the user to designate a word to be masked by voice from a speaker provided in a computer device that constitutes the document masking device 1 .
  • FIG. 2 shows a display example of masking candidates displayed on the display device 4 by the presentation unit 16 .
  • the masking candidate words are displayed for each anonymization target attribute. That is, a display attribute selection field 41 is displayed on the display screen of the display device 4 .
  • the display attribute selection column 41 is a column for displaying, as options, names representing attributes to be anonymized so as to select an attribute to be anonymized for displaying a masking candidate word.
  • a masking candidate display field 42 is displayed on the display screen of the display device 4 .
  • the masking candidate display column 42 is a column for displaying masking candidate words belonging to the anonymization target attribute selected in the display attribute selection column 41 .
  • the masking candidate words displayed in the masking candidate display field 42 are options for the user to select a word to be masked by operating the input device 3, and a check mark indicates that the masking candidate word has been selected. Marks, etc. can be displayed.
  • the display control of the display attribute selection column 41 and the masking candidate display column 42 as described above uses display format information given in advance by the presentation unit 16 and information input by the user's operation of the input device 3. is executed. Note that when a plurality of anonymization target attributes are selected in the display attribute selection field 41, the presentation unit 16 performs masking corresponding to each of the selected plurality of anonymization target attributes, as shown in FIG.
  • the candidate display field 42 is displayed on the same screen. Alternatively, the presentation unit 16 causes the display device 4 to display the masking candidate display fields 42 corresponding to each of the plurality of selected anonymization target attributes one by one in response to a display request from the user by operating the input device 3. may
  • the output unit 15 uses the information representing the word selected as the masking target and the character position data generated by the layout analysis unit 13 to determine the position of the masking target word in the page image and the occupied area occupied by the word. Determine the extent of In other words, the output unit 15 identifies the masking area in the page image. Then, the output unit 15 performs masking processing for masking the characters in the masking area in the paper image, and outputs the masked paper image to the display device 4 . As a result, the output unit 15 causes the display device 4 to display the masked paper image in which the characters in the masking area 45 of the paper image 44 are masked, as shown in FIG. 4 .
  • the output unit 15 may output the masked paper image to the printer 7 to cause the printer 7 to print out the masked paper image.
  • the method of masking the characters in the masking area it is sufficient if the characters can be concealed, and the characters in the masking area may be masked by painting the masking area black. characters may be masked.
  • FIG. 5 is a diagram explaining a modification of the presentation unit 16 and the output unit 15.
  • the user can confirm the word selected as the masking target in the masking candidate display column 42 and the paper space image 44 in which the selected masking target word is masked on the same screen.
  • the output unit 15 highlights the words in the masking region by highlighting them or using a conspicuous background color to indicate that they are words to be masked. is notified to the user.
  • the user After confirming the masking target character, the user uses the input device 3 to input, for example, using the icon 46 to confirm the masking target character. to mask.
  • the word to be masked in the page image may be masked by the presentation unit 16 and the output unit 15 of such a modified example.
  • FIG. 6 is a flow chart showing an example of masking processing operations in the document masking apparatus 1. As shown in FIG.
  • the acquisition unit 11 when the acquisition unit 11 first acquires the data of the paper image from the scanner 6 (step 101 in FIG. 6), the following determination operation is performed. That is, it is determined whether or not the obtained page image is associated with the text data (page text data) of the document represented on the page image (step 102).
  • the character recognition unit 12 recognizes characters from the paper space image (step 103) and generates paper space text data including character codes of the recognized characters.
  • the layout analysis unit 13 detects the layout of characters in the page image (step 104) and generates character position data.
  • the extraction unit 14 uses the extraction model to extract words belonging to the anonymization target attribute from the page text data (step 105). Then, the presentation unit 16 presents the words extracted by the extraction unit 14 to the user by displaying them on the display device 4 as masking candidate words (step 106).
  • the output unit 15 receives information on the masking target word selected by the user viewing this display (step 107). As a result, the output unit 15 uses the information of the word to be masked and the character position data generated by the layout analysis unit 13 to determine the position of the word to be masked in the page image and the area occupied by the word. Detect the width (masking area). Then, the output unit 15 performs masking processing for masking the characters in the masking area of the paper image, and outputs the masked paper image to the display device 4 or the printer 7 (step 108).
  • the document masking apparatus 1 of the first embodiment does not extract only the words to be masked from the text data of the paper, but first uses natural language processing technology to extract words with anonymization target attributes including the words to be masked. , are extracted as masking candidates. As a result, even if an OCR recognition error occurs in a word to be masked, it is extracted from the page text data as a word with the attribute to be concealed. For this reason, the document masking apparatus 1 can suppress the problem that the word to be masked is not extracted from the paper text data due to the OCR recognition error.
  • the words with the anonymization target attribute extracted from the paper text data may include words that are not the target of masking.
  • the document masking apparatus 1 of the first embodiment extracts words of the anonymization target attribute from the page text data as masking candidates, presents the masking candidate words to the user, and selects the masking target words from the masking candidate words. Let the user choose a word.
  • the document masking apparatus 1 can perform processing such that the masking process is not performed on words that do not require masking, even if the words have the confidentiality target attribute.
  • the document masking apparatus 1 of the first embodiment extracts words with the attribute of the anonymization target as masking candidates, presents the masking candidate words to the user, and selects the masking target word from the masking candidate words for the user. Let Therefore, in the document masking apparatus 1, since the user selects a word to be masked and inputs the information, it is not necessary to have the information of the word itself to be masked. As a result, the document masking apparatus 1 can flexibly cope with the change even if the words to be masked are changed depending on the contents of the document to be masked, and the efficiency of the masking process to be performed on the document is improved. can be achieved while suppressing an increase in load.
  • the document masking apparatus 1 analyzes the paper space text data and extracts the words of the confidentiality target attribute from the paper space text data, the information of the arrangement position in the paper space image and the size of the occupied area is included in the extracted words. Not associated. For this reason, the document masking apparatus 1 has a function of associating a word extracted from the page text data with information on the arrangement position of the word in the page image and the size of the area occupied by the word. In other words, the document masking apparatus 1 has a function of generating character position data representing the character arrangement position and the size of the occupied area in the page image by the arrangement analysis unit 13 .
  • the document masking apparatus 1 has a function of referring to the character position data by the output unit 15 and detecting the arrangement position of the word extracted by the extraction unit 14 in the page image and the size of the area occupied by the word. I have. With such a function, the document masking apparatus 1 can perform masking processing on words to be masked in a page image.
  • the document masking apparatus 1 can suppress omission of extracted words to be masked due to OCR recognition errors. Therefore, the document masking apparatus 1 can reduce the burden of confirming whether or not the masking process on the paper image is correctly executed by the operator, and can improve the efficiency of the masking process.
  • the document masking device 1 of the first embodiment may have a function of executing a manual mode of masking processing in addition to the functions described above. For example, when a command to execute the manual mode of the masking process is input by the user through the operation of the input device 3 using the icon 47 shown in FIG. to start working.
  • the manual mode when a user operates the input device 3 to specify a region to be masked in the paper image with, for example, a cursor 48 as shown in FIG. 7, the specified region is masked.
  • the document masking apparatus 1 masks not only characters but also areas that do not contain characters (text data), such as drawings and photographs, in a paper image. becomes possible. As a result, the document masking apparatus 1 can more flexibly respond to user requests.
  • the document masking apparatus 1 of the second embodiment is connected to an information source 50 represented by a dashed line in FIG. 1 via, for example, an information communication network. get.
  • the reference information includes at least information representing words to be masked. This reference information is used by the presentation unit 16 . That is, in the second embodiment, the presentation unit 16 extracts information representing the word to be masked from the reference information.
  • the presentation unit 16 sets the masking candidate word corresponding to the masking target word extracted from the reference information to information indicating that it is the masking target word. Display masking candidate words with associated . For example, in the display example of the masking candidate display column 42 shown in FIG.
  • check boxes 49 corresponding to masking candidate words on a one-to-one basis are displayed.
  • the presentation unit 16 displays in advance a check indicating that the word is a masking target word in the check column 49 of the masking candidate word corresponding to the masking target word acquired from the reference information.
  • the check displayed by the presentation unit 16 can be canceled by the user operating the input device 3 .
  • the configuration of the document masking device 1 of the second embodiment other than the above is the same as the configuration of the document masking device 1 of the first embodiment.
  • the masking candidate words corresponding to the masking target words obtained from the reference information acquired from the information source 50 include: Let information indicating that it is a masking target be in an associated state.
  • the document masking device 1 of the third embodiment performs masking processing on a document generated by an application having a function of inputting characters in addition to the functions of the document masking device of the first or second embodiment. It has the function to It should be noted that here, an application having a function that allows character input is not limited to an application that is mainly used for creating documents, and includes, for example, an application that is mainly used for spreadsheets and also has a function for inputting characters. and
  • the acquiring unit 11 acquires not only the data of the page image, but also the data of the document generated by an application having a function of inputting characters (hereinafter also referred to as document data). can also be obtained.
  • Acquired document data is stored in the storage device 20 in a state associated with identification information for identifying the data, information on the date and time of acquisition, and the like.
  • the extraction unit 14 extracts text data contained in the document data, and extracts words belonging to the anonymization target attribute from the extracted text data as masking candidates, as in the first and second embodiments.
  • the presentation unit 16 causes the display device 4 to display the masking candidate words extracted by the extraction unit 14, as in the first and second embodiments.
  • the output unit 15 uses the information representing the word selected as the masking target to identify the masking target word in the text data included in the document data. Then, the output unit 15 performs masking processing for masking words to be masked in the document data, and outputs the masked document to the display device 4 or the printer 7 .
  • the masking process here is not limited as long as the words to be masked in the text data of the document can be concealed. For example, the characters representing the words to be masked may be replaced with symbols.
  • the configuration of the document masking device 1 of the third embodiment other than the above is the same as that of the first or second embodiment.
  • the document masking apparatus 1 of the third embodiment has the same configuration (function) as those of the first and second embodiments, it can produce the same effects as those of the first and second embodiments. . Furthermore, the document masking apparatus 1 of the third embodiment can perform masking processing not only on a page image but also on a document generated by an application having a function of inputting characters, and output the masked document.
  • the document masking device 1 of the third embodiment has, in addition to the functions of the document masking device of the first or second embodiment, the function of masking documents generated by applications.
  • the document masking apparatus 1 may be a device that performs masking processing only on documents generated by an application having a function of inputting characters without considering the masking processing on the paper image. .
  • the document masking apparatus 1 can omit the functions of the character recognition section 12 and the layout analysis section 13 described in the first and second embodiments.
  • the present invention is not limited to the first to third embodiments, and can adopt various modes of implementation.
  • the paper surface image acquired by the acquisition unit 11 of the document masking apparatus 1 is an image representing the paper surface 8 converted into image data by the scanner 6.
  • the image data may be a document created by an application that uses the image data.
  • the document masking apparatus 1 is connected to the information source 50 via the information communication network, and reference information including information representing words to be masked is sent from the information source 50 to the document masking apparatus 1. It is provided through an information communication network.
  • reference information containing information representing the words to be masked may be entered into the document masking device 1 by the user.
  • the presentation unit 16 uses the reference information input by the user to indicate that the masking candidate word corresponding to the masking target word extracted from the reference information is the masking target word. Display masking candidate words with associated information.
  • FIG. 9 is a block diagram illustrating the configuration of a document masking device according to another embodiment of the invention.
  • the document masking device 60 shown in FIG. 9 is, for example, a computer device, and includes an extraction section 61, a presentation section 62, and an output section 63, which are functional sections based on a computer program.
  • the extraction unit 61 extracts, from the text data of the document, words belonging to the anonymization target attribute representing the types of words to be masked using natural language processing technology.
  • the presentation unit 62 presents the extracted words as masking candidates.
  • the output unit 63 outputs a document in which a masking target word specified as a masking target from the masking candidates is masked.
  • the extraction unit 61 extracts, from the text data of the document, words belonging to the anonymization target attribute representing the type of words to be masked using natural language processing technology (step 201 in FIG. 10). Then, the presenting unit 62 presents the extracted word as a masking candidate by displaying it on, for example, a display device (step 202).
  • the output unit 63 performs masking processing on the masking target word specified as the masking target from the masking candidates, and outputs the masked document (step 203).
  • the document masking device 60 that performs the functions and operations described above extracts masking candidate words from the text data of the document using natural language processing technology. Processing can be made more efficient.
  • the document masking device 60 extracts words of the anonymization target attribute as masking candidates, presents the masking candidate words to the user, and allows the user to select a masking target word from the masking candidate words. Therefore, in the document masking apparatus 60, since the user selects the word to be masked and inputs the information, it is not necessary to have the information of the word to be masked.
  • the document masking device 60 can flexibly cope with the change even if the words to be masked are changed depending on the contents of the document to be masked, and the efficiency of the masking process to be performed on the document can be improved. can be achieved while suppressing an increase in load.
  • Reference Signs List 1 60 document masking device 12 character recognition unit 13 layout analysis unit 14, 61 extraction unit 15, 63 output unit 16, 62 presentation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図るべく、文書マスキング装置は、抽出部と提示部と出力部を備える。抽出部は、文書のテキストデータから、自然言語処理技術を用いて、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を抽出する。提示部は、抽出された単語をマスキング候補として提示する。出力部は、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った文書を出力する。

Description

文書マスキング装置、文書マスキング方法およびプログラム記憶媒体
 本発明は、秘匿対象の部分がマスキングされた文書を生成する技術に関する。
 個人情報を含む文書において、個人の特定につながる単語などを黒塗りなどによって秘匿するマスキング処理が行われることがある。また、個人情報以外の非公開が望ましいとされた内容を含む文書においても、その非公開とされた内容に関わる部分を黒塗りなどによるマスキング処理が行われることがある。
 特許文献1(特開2007-122153号公報)には、ユーザによるドラック操作によって選択された文字列をマスキングし、当該マスキングされた文字列を含む文書を表示する技術が開示されている。特許文献2(特開2008-098948号公報)には、ユーザにより指定された文字領域に制御情報を埋め込む技術が開示され、その制御情報の一例として、ユーザが指定した文字や画像を黒塗りする処理が記載されている。特許文献3(特開2008-017184号公報)には、電子黒板システムに関し、電子黒板に書かれた文字オブジェクトを隠蔽対象として識別し、当該文字オブジェクトに隠蔽処理を施す技術が開示されている。
特開2007-122153号公報 特開2008-098948号公報 特開2008-017184号公報
 ここで、紙面に記載された文書の公開に際し、文書に含まれている個人情報を黒塗りなどによって秘匿するマスキング処理が必要であるとする。この場合、例えば、作業者が目視により文書に記載されている単語などを確認しながら、手作業により紙面の個人情報を黒塗り(マスキング)していくことが考えられる。しかしながら、文書が長い場合には、マスキング処理に多くの時間を要してしまう上に、目視のためにマスキング抜けの事態、つまり、マスキングしなければならない部分であるのにも拘わらずマスキングされていないという事態が発生する虞がある。このため、マスキング抜けをチェックする作業を行う必要がある。このようなことから、文書が長い場合におけるマスキング処理は効率が悪く、また、作業者に大きな負担を与えてしまうという課題がある。
 そこで、マスキング処理の効率化を図るために、文書を電子化し当該電子化による文書のテキストデータから、コンピュータの検索機能を利用してマスキング対象の単語を抽出し、抽出した単語をマスキングするという手法が考えられる。しかしながら、文書の内容や文書を開示する開示相手(開示請求者)によって、マスキングする対象の単語が変わるという事情がある。このために、文書の内容や開示相手に応じてコンピュータの検索機能によってテキストデータから抽出するマスキング対象の単語を変更する必要がある。このようなマスキング対象の単語の変更にも対応可能なマスキング処理を実行するコンピュータ装置を実現しようとすると、文書の内容や開示相手に応じた非常に多くのマスキング処理に関わる情報を持たねばならない。しかし、実際には、様々な文書や開示相手に応じたマスキング処理を満足に実行できるような非常に多くのマスキング処理に関わる情報を用意することは難しい。また、上記のような文書や開示相手の変更に対応可能で、しかも効率良く、装置の負荷増加を抑制しつつマスキング処理を実行できるコンピュータ装置を実現することも難しいと考えられる。
 本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図る技術を提供することにある。
 上記目的を達成するために、本発明に係る文書マスキング装置は、その一態様として、
 文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する抽出部と、
 抽出された前記単語をマスキング候補として提示する提示部と、
 前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する出力部と
を備える。
 また、本発明に係る文書マスキング方法は、その一態様として、
 コンピュータによって、
 文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出し、
 抽出された前記単語をマスキング候補として提示し、
 前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する。
 さらに、本発明に係るプログラム記憶媒体は、その一態様として、
 文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する処理と、
 抽出された前記単語をマスキング候補として提示する処理と、
 前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記紙面画像を出力する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。
 本発明によれば、マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図ることができる。
本発明に係る文書マスキング装置の実施形態を説明するブロック図である。 マスキング候補を表示装置に表示する表示例を表す図である。 マスキング候補を表示装置に表示する別の表示例を表す図である。 マスキング処理済みの紙面画像の一例を表す図である。 提示部と出力部の機能の変形例を説明する図である。 第1実施形態の文書マスキング装置におけるマスキング処理に関係する動作の一例を表すフローチャートである。 手動でマスキング領域を指定する。 第3実施形態の文書マスキング装置の変形例を表すブロック図である。 本発明に係る文書マスキング装置のその他の実施形態を説明するブロック図である。 文書マスキング装置におけるマスキング処理に関係する別の動作の一例を表すフローチャートである。
 以下に、本発明に係る実施形態を、図面を参照しながら説明する。
 <第1実施形態>
 図1は、本発明に係る第1実施形態の文書マスキング装置の構成を説明する図である。第1実施形態の文書マスキング装置1は、スキャナ6により画像データに変換された紙面8の画像を取得し、取得した紙面8の画像に表されている文書中のマスキング対象の単語にマスキング処理を施し、マスキング処理済みの紙面の画像を出力する機能を備えている。ここでは、画像データに変換された紙面8の画像を紙面画像とも称する。図1の例では、紙面画像のデータは、スキャナ6から直接的に又は情報通信網を介して文書マスキング装置1に送信されてもよいし、スキャナ6から、可搬型記憶媒体によって、文書マスキング装置1に供給されてもよい。また、マスキング対象の単語は、ユーザにより定められるものであり、ここでは限定されないが、具体例としては、個人の特定につながる個人情報や、個人情報以外の、公開することが不適切であるとされる内容(例えば、殺人方法)を表す単語が挙げられる。
 第1実施形態の文書マスキング装置1は、コンピュータ装置であり、入力装置3と、表示装置4とに接続されている。入力装置3は、情報を文書マスキング装置1に入力する装置であり、キーボードやマウスなどがある。表示装置4は、情報を画面表示する装置である。
 文書マスキング装置1は、制御装置10と、記憶装置20とを備えている。記憶装置20は、データや、コンピュータプログラム(以下、プログラムとも記す)21を記憶する記憶媒体を備えている。記憶装置には、磁気ディスク装置や、半導体メモリ素子などの複数の種類があり、さらに、半導体メモリ素子には、RAM(Random Access Memory)やROM(Read Only Memory)などの複数の種類があるというように、多数の種類がある。文書マスキング装置1が備える記憶装置20の種類は1つに限定されるものではない。コンピュータ装置には複数種の記憶装置が備えられることが多い。ここでは、文書マスキング装置1に備えられる記憶装置20の種類や数は限定されず、その説明は省略される。また、文書マスキング装置1に複数種の記憶装置が備えられる場合には、それらをまとめて記憶装置20と記すこととする。
 制御装置10は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサにより構成される。制御装置10は、記憶装置20に記憶されているプログラム21を読み出して実行することにより、当該プログラム21に基づいた様々な機能を持つことができる。ここでは、制御装置10は、文書におけるマスキング対象の単語を秘匿するマスキング処理を実行させるプログラムに基づいた機能部として、取得部11と、文字認識部12と、配置解析部13と、抽出部14と、出力部15と、提示部16とを備えている。
 取得部11は、スキャナ6によって画像データに変換された紙面8の画像(紙面画像)のデータを取得する。取得された紙面画像のデータは当該データを識別する識別情報や取得された日時の情報などが関連付けられた状態で記憶装置20に格納される。
 ところで、取得部11により取得される紙面画像のデータには、紙面8に記載されている文書を表すテキストデータが関連付けられている場合がある。すなわち、スキャナ6はOCR(Optical Character Recognition(光学文字認識))技術を用いるOCR機能を備えている場合がある。OCR機能とは、OCR技術によって画像から文字を認識し当該認識した文字を表す文字コードを含むテキストデータを生成する機能である。このようなスキャナ6のOCR機能によって紙面画像から認識された文字の文字コードを含むテキストデータ(以下、紙面テキストデータとも称する)が紙面画像のデータに関連付けられた状態で取得部11により取得される場合がある。なお、ここでは、文字とは、Unicodeなどの規格化された文字コードを付与することができるものとし、仮名や漢字や英数文字などの文字だけでなく数学記号なども含まれる。
 一方、紙面テキストデータが関連付けられていない紙面画像のデータが、取得部11により取得される場合もある。このような場合には、文字認識部12が、OCR技術によって、取得部11により取得された紙面画像から、紙面8に記載されている文書の文字を認識し、認識した文字の文字コードを含むテキストデータ(紙面テキストデータ)を生成する。この紙面テキストデータは、文字を認識した紙面画像のデータに関連付けられて記憶装置20に格納される。
 抽出部14は、紙面画像のデータに関連付けられている紙面テキストデータを分析することにより、次のような秘匿対象属性に属する単語を紙面テキストデータからマスキング候補として抽出する。秘匿対象属性とは、マスキング処理を行うマスキング対象の単語の種類を表す属性である。
 ここでは、マスキング対象の単語が特定される前に、抽出部14によって、秘匿対象属性に属する単語が紙面テキストデータからマスキング候補として抽出される。秘匿対象属性は、マスキング処理を行う単語(換言すれば、マスキング処理を行う文書の内容)に応じて定められ、限定されるものではないが、具体例を挙げると、個人情報をマスキングする場合には、人名、地名、日付、企業名、職業、性別、肩書、電話番号などがある。
 第1実施形態では、抽出部14は、いわゆるAI(Artificial Intelligence)技術を用いて、紙面テキストデータから秘匿対象属性に属する単語を抽出する。この場合、記憶装置20には、AI技術のモデル(以下、抽出用モデルとも称する)が予め格納される。抽出用モデルは、紙面テキストデータを入力とし、紙面テキストデータから抽出した秘匿対象属性の単語を出力とするモデルであり、秘匿対象属性に属する単語を機械学習することにより生成される。このような抽出用モデルには、例えば、自然言語処理技術であるBERT(Bidirectional Encoder Representations from Transformers)の技術が用いられる。
 このように、特定のマスキング対象の単語を抽出するのではなく、抽出部14によって、秘匿対象属性に属する単語をマスキング候補として抽出することによって、OCR認識誤りに起因したマスキング抜け問題を抑制することができる。すなわち、人名「青山」の文字がOCR認識誤り(OCR機能により認識された文字が誤っている事態)によって「音山」と認識されたとする。このような場合に、マスキング対象の単語として「青山」を紙面テキストデータから抽出し当該抽出した単語をマスキングするとする。この場合には、OCR認識誤りにより「音山」と認識された「青山」は紙面テキストデータから抽出されずマスキングされない。つまり、OCR認識誤りに起因したマスキング抜けが発生してしまう。
 これに対し、第1実施形態では、抽出部14によって、「青山」だけでなくOCR認識誤りによる「音山」も、自然言語処理技術を用いて、例えば文脈からの判断により秘匿対象属性である人名に属する単語(マスキング候補)として抽出される。そして、「青山」にも「音山」にもマスキング処理が施されるようにすれば、OCR認識誤りに起因したマスキング抜けが防止される。
 配置解析部13は、スキャナ6のOCR機能あるいは文字認識部12によって認識された文字が、紙面画像の何れの場所に位置しているかを表す配置位置とその占める占有領域の広さを検知する。そして、配置解析部13は、検知した文字それぞれの、紙面画像における配置位置とその占有領域の広さを表す文字位置データを生成する。すなわち、第1実施形態では、抽出部14は紙面テキストデータを紙面画像から分離した状態で分析するために、紙面テキストデータから抽出部14により抽出された単語には、紙面画像における当該単語の配置位置およびその単語が占める領域の広さの情報は関連付けられていない。このため、抽出部14により抽出された単語を紙面画像においてマスキング処理するためには、紙面画像における単語の位置およびその占有領域の広さの情報を取得する必要がある。このことを考慮し、配置解析部13は、紙面画像における文字それぞれの配置位置およびその占有領域の広さを表す文字位置データを生成する。この文字位置データの態様は、紙面画像における文字の位置と占有領域の広さを表すことができればよく、限定されないが、紙面画像に設定された二次元直交座標系の座標を利用して、文字の位置とその占有領域の広さを表す態様が例として挙げられる。
 提示部16は、抽出部14により抽出されたマスキング候補の単語を表示装置4に表示させる。また、提示部16は、表示装置4に表示させたマスキング候補の中から、マスキングするマスキング対象の単語をユーザに指定(選択)してもらうためのメッセージを表示装置4に表示させる。さらに、提示部16は、文書マスキング装置1を構成するコンピュータ装置に備えられているスピーカーから音声によって、マスキング対象の単語をユーザに指定してもらうためのメッセージを報知させてもよい。
 図2には、提示部16によって表示装置4に表示されたマスキング候補の一表示例が表されている。抽出部14により抽出されたマスキング候補の単語の全てを一覧表示してもよいが、図2の例では、秘匿対象属性ごとにマスキング候補の単語が表示される。つまり、表示装置4の表示画面には表示属性選択欄41が表示されている。表示属性選択欄41は、マスキング候補の単語を表示する秘匿対象属性を選択させるべく、秘匿対象属性を表す名称などを選択肢として表示する欄である。また、表示装置4の表示画面にはマスキング候補表示欄42が表示されている。マスキング候補表示欄42は、表示属性選択欄41にて選択された秘匿対象属性に属するマスキング候補の単語を表示する欄である。このマスキング候補表示欄42に表示されたマスキング候補の単語は、マスキング対象の単語を、入力装置3の操作によってユーザにより選択してもらう選択肢であり、マスキング対象の単語として選択されたことを表すチェックマークなどが表示可能となっている。上記のような表示属性選択欄41やマスキング候補表示欄42の表示制御は、提示部16により、予め与えられている表示フォーマットの情報や、ユーザによる入力装置3の操作により入力される情報を用いて実行される。なお、表示属性選択欄41において、複数の秘匿対象属性が選択された場合には、提示部16は、図3に表されるように、選択された複数の秘匿対象属性のそれぞれに対応するマスキング候補表示欄42を同じ画面に表示する。あるいは、提示部16は、選択された複数の秘匿対象属性のそれぞれに対応するマスキング候補表示欄42を1つずつ、入力装置3の操作によるユーザからの表示要求に応じて表示装置4に表示させてもよい。
 出力部15は、マスキング対象として選択された単語を表す情報と、配置解析部13により生成された文字位置データとを利用して、紙面画像におけるマスキング対象の単語の位置およびその単語が占める占有領域の広さを特定する。つまり、出力部15は、紙面画像におけるマスキング領域を特定する。そして、出力部15は、紙面画像におけるマスキング領域の文字をマスキングするマスキング処理を、紙面画像に実行し、マスキング処理済みの紙面画像を表示装置4に出力する。これにより、出力部15は、図4に表されるように、紙面画像44におけるマスキング領域45の文字がマスキングされたマスキング処理済みの紙面画像を表示装置4に表示させる。また、出力部15は、マスキング処理済みの紙面画像をプリンタ7に出力することにより、当該マスキング処理済みの紙面画像をプリンタ7にプリントアウトさせてもよい。なお、マスキング領域の文字をマスキングする手法は、文字を秘匿することができればよく、マスキング領域を黒塗りすることによってマスキング領域の文字をマスキングしてもよいし、例えば細かい目のメッシュ模様によりマスキング領域の文字をマスキングしてもよい。
 図5は、提示部16と出力部15の変形例を説明する図である。すなわち、図5の例では、提示部16による表示属性選択欄41およびマスキング候補表示欄42と、出力部15による紙面画像44とが同じ画面に並べて表示装置4に表示されている。これにより、マスキング候補表示欄42にてマスキング対象として選択された単語と、当該選択されたマスキング対象の単語がマスキングされた紙面画像44とを同じ画面でユーザが確認できる構成となっている。このような場合には、まず、出力部15は、マスキング領域の単語をマスキングする前に、そのマスキング領域の単語を、強調表示や目立つ背景色によって明示させることにより、マスキング対象の単語であることをユーザに報知する。
 そして、ユーザがマスキング対象の文字を確認した後に、入力装置3を利用して、マスキング対象の文字を確定することを例えばアイコン46を利用して入力すると、出力部15は、マスキング対象の単語をマスキングする。このような変形例の提示部16と出力部15によって、紙面画像におけるマスキング対象の単語がマスキングされてもよい。
 次に、文書マスキング装置1におけるマスキング処理に係る動作の一例を、図6を参照しながら説明する。なお、図6は、文書マスキング装置1におけるマスキング処理に係る動作の一例を表すフローチャートである。
 文書マスキング装置1において、まず、スキャナ6から、紙面画像のデータを取得部11が取得すると(図6におけるステップ101)、次のような判断動作が実行される。つまり、取得した紙面画像に、当該紙面画像に表されている文書のテキストデータ(紙面テキストデータ)が関連付けられているか否かが判断される(ステップ102)。そして、紙面テキストデータが紙面画像に関連付けられていない場合には、文字認識部12が紙面画像から文字を認識し(ステップ103)、認識した文字の文字コードを含む紙面テキストデータを生成する。
 然る後に、配置解析部13が、紙面画像における文字の配置を検知し(ステップ104)、文字位置データを生成する。
 一方、抽出部14が、抽出用モデルを用いて、紙面テキストデータから秘匿対象属性に属する単語を抽出する(ステップ105)。そして、提示部16が、抽出部14により抽出された単語をマスキング候補の単語として表示装置4に表示させることにより、ユーザに提示する(ステップ106)。
 この表示を見たユーザにより選択されたマスキング対象の単語の情報を出力部15が受信する(ステップ107)。これにより、出力部15は、そのマスキング対象の単語の情報と、配置解析部13により生成された文字位置データとを利用して、紙面画像におけるマスキング対象の単語の位置およびその単語が占める領域の広さ(マスキング領域)を検知する。そして、出力部15は、紙面画像におけるマスキング領域の文字をマスキングするマスキング処理を、紙面画像に実行し、マスキング処理済みの紙面画像を表示装置4やプリンタ7に出力する(ステップ108)。
 第1実施形態の文書マスキング装置1は、紙面テキストデータから、マスキング対象の単語だけを抽出するのではなく、まず、自然言語処理技術を用いて、マスキング対象の単語を含む秘匿対象属性の単語を、マスキング候補として抽出する。これにより、マスキング対象の単語にOCR認識誤りが生じていても、秘匿対象属性の単語として紙面テキストデータから抽出される。このために、文書マスキング装置1は、OCR認識誤りに起因してマスキング対象の単語が紙面テキストデータから抽出されないという問題を抑制できる。
 また、紙面テキストデータから抽出される秘匿対象属性の単語には、マスキング対象ではない単語が含まれる場合がある。これに関し、第1実施形態の文書マスキング装置1は、紙面テキストデータから秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。これにより、文書マスキング装置1は、秘匿対象属性の単語であってもマスキングが不要な単語にはマスキング処理が実行されないように処理することができる。
 さらに、第1実施形態の文書マスキング装置1は、秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。このため、文書マスキング装置1においては、マスキング対象の単語はユーザが選択して当該情報を入力するから、マスキング対象の単語そのものの情報を持たなくともよい。これにより、文書マスキング装置1は、マスキング処理を行う文書の内容などによってマスキング対象の単語が変更になっても、当該変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、負荷増加を抑制しつつ図ることができる。
 また、文書マスキング装置1は、紙面テキストデータを分析して秘匿対象属性の単語を紙面テキストデータから抽出するために、抽出した単語には紙面画像における配置位置とその占有領域の広さの情報は関連付けられていない。このため、文書マスキング装置1は、紙面テキストデータから抽出した単語と、紙面画像におけるその単語の配置位置およびその占有領域の広さの情報とを関連付ける機能を備えている。つまり、文書マスキング装置1は、配置解析部13によって、紙面画像における文字の配置位置および占有領域の広さを表す文字位置データを生成する機能を備える。さらに、文書マスキング装置1は、出力部15によって、文字位置データを参照して、抽出部14により抽出された単語の紙面画像における配置位置およびその単語が占める占有領域の広さを検知する機能を備えている。このような機能によって、文書マスキング装置1は、紙面画像におけるマスキング対象の単語にマスキング処理を実行することができる。
 さらに、上記の如く、マスキング対象の単語にOCR認識誤りが生じていても、当該マスキング対象の単語は、秘匿対象属性の単語として紙面テキストデータから抽出される可能性が高い。このことから、文書マスキング装置1は、OCR認識誤りに起因したマスキング対象の単語の抽出抜けを抑制することができる。このため、文書マスキング装置1は、作業者が紙面画像におけるマスキング処理が正しく実行されているか否かの確認の負担軽減を図ることができ、また、マスキング処理の効率化を図ることができる。
 なお、第1実施形態の文書マスキング装置1は、上述した機能に加えて、マスキング処理の手動モードを実行する機能を備えていてもよい。例えば、マスキング処理の手動モードを実行する指令が、図7に表されるようなアイコン47を利用して、ユーザによる入力装置3の操作により入力された場合に、文書マスキング装置1は、手動モードでの動作を開始する。手動モードでは、ユーザによる入力装置3の操作によって、紙面画像においてマスキング対象の領域が、例えば図7に表されるようなカーソル48などにより指定された場合に、指定された領域がマスキングされる。このような手動モードでの動作が可能であることにより、文書マスキング装置1は、紙面画像において、文字だけでなく、図面や写真などの、文字(テキストデータ)が含まれていない領域もマスキングすることが可能となる。これにより、文書マスキング装置1は、ユーザの要望に、より柔軟に対応可能となる。
 <第2実施形態>
 以下に、本発明に係る第2実施形態を説明する。なお、第2実施形態の説明において、第1実施形態の文書マスキング装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
 第2実施形態の文書マスキング装置1は、図1の鎖線に表されるような情報源50に例えば情報通信網を介して接続されており、当該情報源50から、マスキング処理に関わる参考情報を取得する。参考情報は、少なくとも、マスキング対象の単語を表す情報を含んでいる。この参考情報は、提示部16が利用する。すなわち、第2実施形態では、提示部16は、参考情報からマスキング対象の単語を表す情報を抽出する。また、提示部16は、マスキング候補の単語を表示装置4に表示する場合に、参考情報から抽出されたマスキング対象の単語に対応するマスキング候補の単語にはマスキング対象の単語である旨を表す情報が関連付けられた状態でマスキング候補の単語を表示する。例えば、図2などに表されているマスキング候補表示欄42の表示例においては、マスキング候補の単語に一対一に対応するチェック欄49が表示されている。提示部16は、参考情報から取得したマスキング対象の単語に該当するマスキング候補の単語のチェック欄49には、マスキング対象の単語であることを表すチェックを予め表示する。なお、もちろん、提示部16により表示されたチェックは、ユーザによる入力装置3の操作により取り消すことが変更可能となっている。
 第2実施形態における文書マスキング装置1における上記以外の構成は、第1実施形態の文書マスキング装置1の構成と同様である。
 第2実施形態の文書マスキング装置1は、提示部16によってマスキング候補の単語を提示する場合に、情報源50から取得した参考情報により得られるマスキング対象の単語に対応するマスキング候補の単語には、マスキング対象であることを表す情報を関連付けられた状態とする。これにより、第2実施形態の文書マスキング装置1は、マスキング対象の単語をユーザが選択する際の負担軽減と効率化を図ることができる。
 <第3実施形態>
 以下に、本発明に係る第3実施形態を説明する。なお、第3実施形態の説明において、第1や第2の実施形態の文書マスキング装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
 第3実施形態の文書マスキング装置1は、第1実施形態又は第2実施形態の文書マスキング装置の機能に加えて、文字入力が可能な機能を備えたアプリケーションで生成された文書にマスキング処理を実行する機能を備えている。なお、ここでは、文字入力が可能な機能を備えたアプリケーションとは、文書作成を主とするアプリケーションに限定されず、例えば、表計算を主とし、さらに文字入力の機能も備えたアプリケーションも含まれるとする。
 第3実施形態の文書マスキング装置1においては、取得部11は、紙面画像のデータだけでなく、文字入力が可能な機能を備えたアプリケーションで生成された文書のデータ(以下、文書データとも称する)をも取得可能である。取得された文書データは当該データを識別する識別情報や取得された日時の情報などが関連付けられた状態で記憶装置20に格納される。
 抽出部14は、文書データに含まれているテキストデータを抽出し、抽出したテキストデータから、第1や第2の実施形態と同様に、秘匿対象属性に属する単語をマスキング候補として抽出する。
 提示部16は、抽出部14により抽出されたマスキング候補の単語を、第1や第2の実施形態と同様に、表示装置4に表示させる。
 出力部15は、マスキング対象として選択された単語を表す情報を利用して、文書データに含まれているテキストデータにおけるマスキング対象の単語を特定する。そして、出力部15は、文書データにおけるマスキング対象の単語をマスキングするマスキング処理を実行し、マスキング処理済みの文書を表示装置4やプリンタ7に出力する。ここでのマスキング処理は、文書のテキストデータにおけるマスキング対象の単語を秘匿することができればよく、限定されるものではなく、例えば、マスキング対象の単語を表す文字を、記号に置き換えてもよい。
 第3実施形態の文書マスキング装置1における上記以外の構成は第1又は第2の実施形態と同様である。
 第3実施形態の文書マスキング装置1は、第1や第2の実施形態と同様の構成(機能)を備えていることから、第1や第2の実施形態と同様の効果を奏することができる。さらに、第3実施形態の文書マスキング装置1は、紙面画像だけでなく、文字入力が可能な機能を備えたアプリケーションで生成された文書にもマスキング処理を行って出力することができる。
 なお、第3実施形態の文書マスキング装置1は、第1実施形態又は第2実施形態の文書マスキング装置の機能に加えて、アプリケーションで生成された文書にもマスキング処理を行う機能を備えている。これに代えて、文書マスキング装置1は、紙面画像におけるマスキング処理は考慮せず、文字入力が可能な機能を備えたアプリケーションで生成された文書に限定してマスキング処理を行う装置であってもよい。この場合には、文書マスキング装置1は、図8に表されるように、第1や第2の実施形態で説明した文字認識部12と配置解析部13の機能が省略可能である。
 <その他の実施形態>
 本発明は第1~第3の実施形態に限定されず、様々な実施の態様を採り得る。例えば、第1と第2の実施形態では、文書マスキング装置1の取得部11が取得する紙面画像は、スキャナ6により画像データに変換された紙面8を表す画像であるが、例えば、文書を作成するアプリケーションにより作成された文書を画像データに変換したものであってもよい。
 また、第2実施形態では、文書マスキング装置1は、情報源50に情報通信網を介して接続されており、マスキング対象の単語を表す情報を含む参考情報が情報源50から文書マスキング装置1に情報通信網を介して提供される。これに代えて、マスキング対象の単語を表す情報を含む参考情報が、ユーザによって文書マスキング装置1に入力されてもよい。この場合には、提示部16は、そのユーザによって入力された参考情報を利用して、参考情報から抽出されたマスキング対象の単語に対応するマスキング候補の単語にはマスキング対象の単語である旨を表す情報が関連付けられた状態でマスキング候補の単語を表示する。
 図9は、本発明に係るその他の実施形態の文書マスキング装置の構成を説明するブロック図である。図9に表されている文書マスキング装置60は、例えばコンピュータ装置であり、コンピュータプログラムに基づいた機能部である抽出部61と提示部62と出力部63とを備えている。抽出部61は、文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する。提示部62は、抽出された単語をマスキング候補として提示する。出力部63は、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った文書を出力する。
 次に、図9に表される文書マスキング装置におけるマスキング処理に関する動作の一例を、図10を参照しながら説明する。
 例えば、まず、抽出部61が、文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する(図10におけるステップ201)。そして、提示部62が、抽出された単語をマスキング候補として、例えば表示装置に表示することによって提示する(ステップ202)。
 然る後に、出力部63が、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行い、マスキング処理済みの文書を出力する(ステップ203)。
 上記のような機能および動作を実行する文書マスキング装置60は、文書のテキストデータから、自然言語処理技術を用いてマスキング候補の単語を抽出するから、目視により単語を抽出する場合に比べて、マスキング処理の効率化を図ることができる。また、文書マスキング装置60は、秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。このため、文書マスキング装置60においては、マスキング対象の単語はユーザが選択して当該情報を入力するから、マスキング対象の単語そのものの情報を持たなくともよい。これにより、文書マスキング装置60は、マスキング処理を行う文書の内容などによってマスキング対象の単語が変更になっても、当該変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、負荷増加を抑制しつつ図ることができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2021年10月28日に出願された日本出願特願2021-176073を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1,60 文書マスキング装置
 12 文字認識部
 13 配置解析部
 14,61 抽出部
 15,63 出力部
 16,62 提示部

Claims (7)

  1.  文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する抽出手段と、
     抽出された前記単語をマスキング候補として提示する提示手段と、
     前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する出力手段と
    を備える文書マスキング装置。
  2.  前記抽出手段は、前記秘匿対象属性に属する単語を機械学習することにより生成され、前記文書のテキストデータを入力とし当該テキストデータに含まれている前記秘匿対象属性に属する単語を出力するモデルを用いる
    請求項1に記載されている文書マスキング装置。
  3.  マスキング処理を行う単語を表す情報を含む参考情報を出力する情報源に接続されており、
     前記提示手段は、前記参考情報から、マスキング処理を行うマスキング対象の単語の情報を抽出し、抽出した情報に基づくマスキング対象の単語に対応する前記マスキング候補には、マスキング対象の単語であることを表す情報を関連付けた状態で提示する
    請求項1又は請求項2に記載の文書マスキング装置。
  4.  前記文書は、画像に変換された紙面を表す紙面画像に含まれている文書であり、
     前記テキストデータにより表される文字の、前記紙面画像における配置位置および前記紙面画像において占める占有領域の広さの情報を前記紙面画像から取得する配置解析手段をさらに備え、
     前記出力手段は、前記マスキング候補からマスキング対象として指定されたマスキング対象の単語をマスキングする前記紙面画像のマスキング領域を、前記紙面画像から取得した前記文字の配置位置および占有領域の広さの情報を用いて特定し、当該マスキング領域にマスキング処理を行った前記文書を含む前記紙面画像を出力する
    請求項1乃至請求項3の何れか一つに記載の文書マスキング装置。
  5.  前記紙面画像に含まれている文書のテキストデータを、光学文字認識の技術により前記紙面画像から抽出する文字認識手段がさらに備えられている
    請求項4に記載の文書マスキング装置。
  6.  コンピュータによって、
     文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出し、
     抽出された前記単語をマスキング候補として提示し、
     前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する
    文書マスキング方法。
  7.  文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する処理と、
     抽出された前記単語をマスキング候補として提示する処理と、
     前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する処理と
    をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。
PCT/JP2022/000317 2021-10-28 2022-01-07 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体 WO2023074008A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021176073 2021-10-28
JP2021-176073 2021-10-28

Publications (1)

Publication Number Publication Date
WO2023074008A1 true WO2023074008A1 (ja) 2023-05-04

Family

ID=86159694

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000317 WO2023074008A1 (ja) 2021-10-28 2022-01-07 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体

Country Status (1)

Country Link
WO (1) WO2023074008A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099717A (ja) * 2014-11-19 2016-05-30 日本電気株式会社 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム
JP2019144853A (ja) * 2018-02-21 2019-08-29 キヤノン株式会社 墨消し処理を行う情報処理装置、その制御方法及びプログラム
JP2020149628A (ja) * 2019-03-15 2020-09-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099717A (ja) * 2014-11-19 2016-05-30 日本電気株式会社 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム
JP2019144853A (ja) * 2018-02-21 2019-08-29 キヤノン株式会社 墨消し処理を行う情報処理装置、その制御方法及びプログラム
JP2020149628A (ja) * 2019-03-15 2020-09-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法およびプログラム

Similar Documents

Publication Publication Date Title
US8179556B2 (en) Masking of text in document reproduction
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US20070098263A1 (en) Data entry apparatus and program therefor
Heather Turnitoff: Identifying and fixing a hole in current plagiarism detection software
JPH07200786A (ja) ファイリング装置
US20130181995A1 (en) Handwritten character font library
JP2008145611A (ja) 情報処理装置、プログラム
US20190146646A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium
US20060017989A1 (en) Image processing device, image processing method, and recording medium in which image processing program is stored
CN114092936A (zh) 用于标记、检查和校正p&id的标记预测的技术
US9208381B1 (en) Processing digital images including character recognition using ontological rules
WO2023074008A1 (ja) 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体
JP2011123825A (ja) 文字認識方法、文字認識装置および文字認識プログラム
JP2008282094A (ja) 文字認識処理装置
JP2005328361A (ja) 帳票処理システム,帳票出力装置,帳票処理装置,および帳票
JP2006276912A (ja) 文書編集装置、文書編集方法およびプログラム
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
JP2017228092A (ja) 審査業務支援装置および審査業務支援方法
JP2010102734A (ja) 画像処理装置及びプログラム
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP4508264B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
JP2011022718A (ja) 情報処理システム、情報処理方法
JP2022181367A (ja) 情報処理装置及びプログラム
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22886345

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023556110

Country of ref document: JP

Kind code of ref document: A