WO2023074008A1

WO2023074008A1 - 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体

Info

Publication number: WO2023074008A1
Application number: PCT/JP2022/000317
Authority: WO
Inventors: 靖夫飯村
Original assignee: 日本電気株式会社
Priority date: 2021-10-28
Filing date: 2022-01-07
Publication date: 2023-05-04

Abstract

マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図るべく、文書マスキング装置は、抽出部と提示部と出力部を備える。抽出部は、文書のテキストデータから、自然言語処理技術を用いて、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を抽出する。提示部は、抽出された単語をマスキング候補として提示する。出力部は、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った文書を出力する。

Description

文書マスキング装置、文書マスキング方法およびプログラム記憶媒体

　本発明は、秘匿対象の部分がマスキングされた文書を生成する技術に関する。

　個人情報を含む文書において、個人の特定につながる単語などを黒塗りなどによって秘匿するマスキング処理が行われることがある。また、個人情報以外の非公開が望ましいとされた内容を含む文書においても、その非公開とされた内容に関わる部分を黒塗りなどによるマスキング処理が行われることがある。

　特許文献１（特開２００７－１２２１５３号公報）には、ユーザによるドラック操作によって選択された文字列をマスキングし、当該マスキングされた文字列を含む文書を表示する技術が開示されている。特許文献２（特開２００８－０９８９４８号公報）には、ユーザにより指定された文字領域に制御情報を埋め込む技術が開示され、その制御情報の一例として、ユーザが指定した文字や画像を黒塗りする処理が記載されている。特許文献３（特開２００８－０１７１８４号公報）には、電子黒板システムに関し、電子黒板に書かれた文字オブジェクトを隠蔽対象として識別し、当該文字オブジェクトに隠蔽処理を施す技術が開示されている。

特開２００７－１２２１５３号公報特開２００８－０９８９４８号公報特開２００８－０１７１８４号公報

　ここで、紙面に記載された文書の公開に際し、文書に含まれている個人情報を黒塗りなどによって秘匿するマスキング処理が必要であるとする。この場合、例えば、作業者が目視により文書に記載されている単語などを確認しながら、手作業により紙面の個人情報を黒塗り（マスキング）していくことが考えられる。しかしながら、文書が長い場合には、マスキング処理に多くの時間を要してしまう上に、目視のためにマスキング抜けの事態、つまり、マスキングしなければならない部分であるのにも拘わらずマスキングされていないという事態が発生する虞がある。このため、マスキング抜けをチェックする作業を行う必要がある。このようなことから、文書が長い場合におけるマスキング処理は効率が悪く、また、作業者に大きな負担を与えてしまうという課題がある。

　そこで、マスキング処理の効率化を図るために、文書を電子化し当該電子化による文書のテキストデータから、コンピュータの検索機能を利用してマスキング対象の単語を抽出し、抽出した単語をマスキングするという手法が考えられる。しかしながら、文書の内容や文書を開示する開示相手（開示請求者）によって、マスキングする対象の単語が変わるという事情がある。このために、文書の内容や開示相手に応じてコンピュータの検索機能によってテキストデータから抽出するマスキング対象の単語を変更する必要がある。このようなマスキング対象の単語の変更にも対応可能なマスキング処理を実行するコンピュータ装置を実現しようとすると、文書の内容や開示相手に応じた非常に多くのマスキング処理に関わる情報を持たねばならない。しかし、実際には、様々な文書や開示相手に応じたマスキング処理を満足に実行できるような非常に多くのマスキング処理に関わる情報を用意することは難しい。また、上記のような文書や開示相手の変更に対応可能で、しかも効率良く、装置の負荷増加を抑制しつつマスキング処理を実行できるコンピュータ装置を実現することも難しいと考えられる。

　本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図る技術を提供することにある。

　上記目的を達成するために、本発明に係る文書マスキング装置は、その一態様として、
　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する抽出部と、
　抽出された前記単語をマスキング候補として提示する提示部と、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する出力部と
を備える。

　また、本発明に係る文書マスキング方法は、その一態様として、
　コンピュータによって、
　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出し、
　抽出された前記単語をマスキング候補として提示し、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する。

　さらに、本発明に係るプログラム記憶媒体は、その一態様として、
　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する処理と、
　抽出された前記単語をマスキング候補として提示する処理と、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記紙面画像を出力する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。

　本発明によれば、マスキング処理を行う単語の変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、装置の負荷増加を抑制しつつ図ることができる。

本発明に係る文書マスキング装置の実施形態を説明するブロック図である。マスキング候補を表示装置に表示する表示例を表す図である。マスキング候補を表示装置に表示する別の表示例を表す図である。マスキング処理済みの紙面画像の一例を表す図である。提示部と出力部の機能の変形例を説明する図である。第１実施形態の文書マスキング装置におけるマスキング処理に関係する動作の一例を表すフローチャートである。手動でマスキング領域を指定する。第３実施形態の文書マスキング装置の変形例を表すブロック図である。本発明に係る文書マスキング装置のその他の実施形態を説明するブロック図である。文書マスキング装置におけるマスキング処理に関係する別の動作の一例を表すフローチャートである。

　以下に、本発明に係る実施形態を、図面を参照しながら説明する。

　＜第１実施形態＞
　図１は、本発明に係る第１実施形態の文書マスキング装置の構成を説明する図である。第１実施形態の文書マスキング装置１は、スキャナ６により画像データに変換された紙面８の画像を取得し、取得した紙面８の画像に表されている文書中のマスキング対象の単語にマスキング処理を施し、マスキング処理済みの紙面の画像を出力する機能を備えている。ここでは、画像データに変換された紙面８の画像を紙面画像とも称する。図１の例では、紙面画像のデータは、スキャナ６から直接的に又は情報通信網を介して文書マスキング装置１に送信されてもよいし、スキャナ６から、可搬型記憶媒体によって、文書マスキング装置１に供給されてもよい。また、マスキング対象の単語は、ユーザにより定められるものであり、ここでは限定されないが、具体例としては、個人の特定につながる個人情報や、個人情報以外の、公開することが不適切であるとされる内容（例えば、殺人方法）を表す単語が挙げられる。

　第１実施形態の文書マスキング装置１は、コンピュータ装置であり、入力装置３と、表示装置４とに接続されている。入力装置３は、情報を文書マスキング装置１に入力する装置であり、キーボードやマウスなどがある。表示装置４は、情報を画面表示する装置である。

　文書マスキング装置１は、制御装置１０と、記憶装置２０とを備えている。記憶装置２０は、データや、コンピュータプログラム（以下、プログラムとも記す）２１を記憶する記憶媒体を備えている。記憶装置には、磁気ディスク装置や、半導体メモリ素子などの複数の種類があり、さらに、半導体メモリ素子には、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などの複数の種類があるというように、多数の種類がある。文書マスキング装置１が備える記憶装置２０の種類は１つに限定されるものではない。コンピュータ装置には複数種の記憶装置が備えられることが多い。ここでは、文書マスキング装置１に備えられる記憶装置２０の種類や数は限定されず、その説明は省略される。また、文書マスキング装置１に複数種の記憶装置が備えられる場合には、それらをまとめて記憶装置２０と記すこととする。

　制御装置１０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサにより構成される。制御装置１０は、記憶装置２０に記憶されているプログラム２１を読み出して実行することにより、当該プログラム２１に基づいた様々な機能を持つことができる。ここでは、制御装置１０は、文書におけるマスキング対象の単語を秘匿するマスキング処理を実行させるプログラムに基づいた機能部として、取得部１１と、文字認識部１２と、配置解析部１３と、抽出部１４と、出力部１５と、提示部１６とを備えている。

　取得部１１は、スキャナ６によって画像データに変換された紙面８の画像（紙面画像）のデータを取得する。取得された紙面画像のデータは当該データを識別する識別情報や取得された日時の情報などが関連付けられた状態で記憶装置２０に格納される。

　ところで、取得部１１により取得される紙面画像のデータには、紙面８に記載されている文書を表すテキストデータが関連付けられている場合がある。すなわち、スキャナ６はＯＣＲ(Optical Character Recognition（光学文字認識）)技術を用いるＯＣＲ機能を備えている場合がある。ＯＣＲ機能とは、ＯＣＲ技術によって画像から文字を認識し当該認識した文字を表す文字コードを含むテキストデータを生成する機能である。このようなスキャナ６のＯＣＲ機能によって紙面画像から認識された文字の文字コードを含むテキストデータ（以下、紙面テキストデータとも称する）が紙面画像のデータに関連付けられた状態で取得部１１により取得される場合がある。なお、ここでは、文字とは、Unicodeなどの規格化された文字コードを付与することができるものとし、仮名や漢字や英数文字などの文字だけでなく数学記号なども含まれる。

　一方、紙面テキストデータが関連付けられていない紙面画像のデータが、取得部１１により取得される場合もある。このような場合には、文字認識部１２が、ＯＣＲ技術によって、取得部１１により取得された紙面画像から、紙面８に記載されている文書の文字を認識し、認識した文字の文字コードを含むテキストデータ（紙面テキストデータ）を生成する。この紙面テキストデータは、文字を認識した紙面画像のデータに関連付けられて記憶装置２０に格納される。

　抽出部１４は、紙面画像のデータに関連付けられている紙面テキストデータを分析することにより、次のような秘匿対象属性に属する単語を紙面テキストデータからマスキング候補として抽出する。秘匿対象属性とは、マスキング処理を行うマスキング対象の単語の種類を表す属性である。

　ここでは、マスキング対象の単語が特定される前に、抽出部１４によって、秘匿対象属性に属する単語が紙面テキストデータからマスキング候補として抽出される。秘匿対象属性は、マスキング処理を行う単語（換言すれば、マスキング処理を行う文書の内容）に応じて定められ、限定されるものではないが、具体例を挙げると、個人情報をマスキングする場合には、人名、地名、日付、企業名、職業、性別、肩書、電話番号などがある。

　第１実施形態では、抽出部１４は、いわゆるＡＩ（Artificial Intelligence）技術を用いて、紙面テキストデータから秘匿対象属性に属する単語を抽出する。この場合、記憶装置２０には、ＡＩ技術のモデル（以下、抽出用モデルとも称する）が予め格納される。抽出用モデルは、紙面テキストデータを入力とし、紙面テキストデータから抽出した秘匿対象属性の単語を出力とするモデルであり、秘匿対象属性に属する単語を機械学習することにより生成される。このような抽出用モデルには、例えば、自然言語処理技術であるＢＥＲＴ（Bidirectional Encoder Representations from Transformers）の技術が用いられる。

　このように、特定のマスキング対象の単語を抽出するのではなく、抽出部１４によって、秘匿対象属性に属する単語をマスキング候補として抽出することによって、ＯＣＲ認識誤りに起因したマスキング抜け問題を抑制することができる。すなわち、人名「青山」の文字がＯＣＲ認識誤り（ＯＣＲ機能により認識された文字が誤っている事態）によって「音山」と認識されたとする。このような場合に、マスキング対象の単語として「青山」を紙面テキストデータから抽出し当該抽出した単語をマスキングするとする。この場合には、ＯＣＲ認識誤りにより「音山」と認識された「青山」は紙面テキストデータから抽出されずマスキングされない。つまり、ＯＣＲ認識誤りに起因したマスキング抜けが発生してしまう。

　これに対し、第１実施形態では、抽出部１４によって、「青山」だけでなくＯＣＲ認識誤りによる「音山」も、自然言語処理技術を用いて、例えば文脈からの判断により秘匿対象属性である人名に属する単語（マスキング候補）として抽出される。そして、「青山」にも「音山」にもマスキング処理が施されるようにすれば、ＯＣＲ認識誤りに起因したマスキング抜けが防止される。

　配置解析部１３は、スキャナ６のＯＣＲ機能あるいは文字認識部１２によって認識された文字が、紙面画像の何れの場所に位置しているかを表す配置位置とその占める占有領域の広さを検知する。そして、配置解析部１３は、検知した文字それぞれの、紙面画像における配置位置とその占有領域の広さを表す文字位置データを生成する。すなわち、第１実施形態では、抽出部１４は紙面テキストデータを紙面画像から分離した状態で分析するために、紙面テキストデータから抽出部１４により抽出された単語には、紙面画像における当該単語の配置位置およびその単語が占める領域の広さの情報は関連付けられていない。このため、抽出部１４により抽出された単語を紙面画像においてマスキング処理するためには、紙面画像における単語の位置およびその占有領域の広さの情報を取得する必要がある。このことを考慮し、配置解析部１３は、紙面画像における文字それぞれの配置位置およびその占有領域の広さを表す文字位置データを生成する。この文字位置データの態様は、紙面画像における文字の位置と占有領域の広さを表すことができればよく、限定されないが、紙面画像に設定された二次元直交座標系の座標を利用して、文字の位置とその占有領域の広さを表す態様が例として挙げられる。

　提示部１６は、抽出部１４により抽出されたマスキング候補の単語を表示装置４に表示させる。また、提示部１６は、表示装置４に表示させたマスキング候補の中から、マスキングするマスキング対象の単語をユーザに指定（選択）してもらうためのメッセージを表示装置４に表示させる。さらに、提示部１６は、文書マスキング装置１を構成するコンピュータ装置に備えられているスピーカーから音声によって、マスキング対象の単語をユーザに指定してもらうためのメッセージを報知させてもよい。

　図２には、提示部１６によって表示装置４に表示されたマスキング候補の一表示例が表されている。抽出部１４により抽出されたマスキング候補の単語の全てを一覧表示してもよいが、図２の例では、秘匿対象属性ごとにマスキング候補の単語が表示される。つまり、表示装置４の表示画面には表示属性選択欄４１が表示されている。表示属性選択欄４１は、マスキング候補の単語を表示する秘匿対象属性を選択させるべく、秘匿対象属性を表す名称などを選択肢として表示する欄である。また、表示装置４の表示画面にはマスキング候補表示欄４２が表示されている。マスキング候補表示欄４２は、表示属性選択欄４１にて選択された秘匿対象属性に属するマスキング候補の単語を表示する欄である。このマスキング候補表示欄４２に表示されたマスキング候補の単語は、マスキング対象の単語を、入力装置３の操作によってユーザにより選択してもらう選択肢であり、マスキング対象の単語として選択されたことを表すチェックマークなどが表示可能となっている。上記のような表示属性選択欄４１やマスキング候補表示欄４２の表示制御は、提示部１６により、予め与えられている表示フォーマットの情報や、ユーザによる入力装置３の操作により入力される情報を用いて実行される。なお、表示属性選択欄４１において、複数の秘匿対象属性が選択された場合には、提示部１６は、図３に表されるように、選択された複数の秘匿対象属性のそれぞれに対応するマスキング候補表示欄４２を同じ画面に表示する。あるいは、提示部１６は、選択された複数の秘匿対象属性のそれぞれに対応するマスキング候補表示欄４２を１つずつ、入力装置３の操作によるユーザからの表示要求に応じて表示装置４に表示させてもよい。

　出力部１５は、マスキング対象として選択された単語を表す情報と、配置解析部１３により生成された文字位置データとを利用して、紙面画像におけるマスキング対象の単語の位置およびその単語が占める占有領域の広さを特定する。つまり、出力部１５は、紙面画像におけるマスキング領域を特定する。そして、出力部１５は、紙面画像におけるマスキング領域の文字をマスキングするマスキング処理を、紙面画像に実行し、マスキング処理済みの紙面画像を表示装置４に出力する。これにより、出力部１５は、図４に表されるように、紙面画像４４におけるマスキング領域４５の文字がマスキングされたマスキング処理済みの紙面画像を表示装置４に表示させる。また、出力部１５は、マスキング処理済みの紙面画像をプリンタ７に出力することにより、当該マスキング処理済みの紙面画像をプリンタ７にプリントアウトさせてもよい。なお、マスキング領域の文字をマスキングする手法は、文字を秘匿することができればよく、マスキング領域を黒塗りすることによってマスキング領域の文字をマスキングしてもよいし、例えば細かい目のメッシュ模様によりマスキング領域の文字をマスキングしてもよい。

　図５は、提示部１６と出力部１５の変形例を説明する図である。すなわち、図５の例では、提示部１６による表示属性選択欄４１およびマスキング候補表示欄４２と、出力部１５による紙面画像４４とが同じ画面に並べて表示装置４に表示されている。これにより、マスキング候補表示欄４２にてマスキング対象として選択された単語と、当該選択されたマスキング対象の単語がマスキングされた紙面画像４４とを同じ画面でユーザが確認できる構成となっている。このような場合には、まず、出力部１５は、マスキング領域の単語をマスキングする前に、そのマスキング領域の単語を、強調表示や目立つ背景色によって明示させることにより、マスキング対象の単語であることをユーザに報知する。

　そして、ユーザがマスキング対象の文字を確認した後に、入力装置３を利用して、マスキング対象の文字を確定することを例えばアイコン４６を利用して入力すると、出力部１５は、マスキング対象の単語をマスキングする。このような変形例の提示部１６と出力部１５によって、紙面画像におけるマスキング対象の単語がマスキングされてもよい。

　次に、文書マスキング装置１におけるマスキング処理に係る動作の一例を、図６を参照しながら説明する。なお、図６は、文書マスキング装置１におけるマスキング処理に係る動作の一例を表すフローチャートである。

　文書マスキング装置１において、まず、スキャナ６から、紙面画像のデータを取得部１１が取得すると（図６におけるステップ１０１）、次のような判断動作が実行される。つまり、取得した紙面画像に、当該紙面画像に表されている文書のテキストデータ（紙面テキストデータ）が関連付けられているか否かが判断される（ステップ１０２）。そして、紙面テキストデータが紙面画像に関連付けられていない場合には、文字認識部１２が紙面画像から文字を認識し（ステップ１０３）、認識した文字の文字コードを含む紙面テキストデータを生成する。

　然る後に、配置解析部１３が、紙面画像における文字の配置を検知し（ステップ１０４）、文字位置データを生成する。

　一方、抽出部１４が、抽出用モデルを用いて、紙面テキストデータから秘匿対象属性に属する単語を抽出する（ステップ１０５）。そして、提示部１６が、抽出部１４により抽出された単語をマスキング候補の単語として表示装置４に表示させることにより、ユーザに提示する（ステップ１０６）。

　この表示を見たユーザにより選択されたマスキング対象の単語の情報を出力部１５が受信する（ステップ１０７）。これにより、出力部１５は、そのマスキング対象の単語の情報と、配置解析部１３により生成された文字位置データとを利用して、紙面画像におけるマスキング対象の単語の位置およびその単語が占める領域の広さ（マスキング領域）を検知する。そして、出力部１５は、紙面画像におけるマスキング領域の文字をマスキングするマスキング処理を、紙面画像に実行し、マスキング処理済みの紙面画像を表示装置４やプリンタ７に出力する（ステップ１０８）。

　第１実施形態の文書マスキング装置１は、紙面テキストデータから、マスキング対象の単語だけを抽出するのではなく、まず、自然言語処理技術を用いて、マスキング対象の単語を含む秘匿対象属性の単語を、マスキング候補として抽出する。これにより、マスキング対象の単語にＯＣＲ認識誤りが生じていても、秘匿対象属性の単語として紙面テキストデータから抽出される。このために、文書マスキング装置１は、ＯＣＲ認識誤りに起因してマスキング対象の単語が紙面テキストデータから抽出されないという問題を抑制できる。

　また、紙面テキストデータから抽出される秘匿対象属性の単語には、マスキング対象ではない単語が含まれる場合がある。これに関し、第１実施形態の文書マスキング装置１は、紙面テキストデータから秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。これにより、文書マスキング装置１は、秘匿対象属性の単語であってもマスキングが不要な単語にはマスキング処理が実行されないように処理することができる。

　さらに、第１実施形態の文書マスキング装置１は、秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。このため、文書マスキング装置１においては、マスキング対象の単語はユーザが選択して当該情報を入力するから、マスキング対象の単語そのものの情報を持たなくともよい。これにより、文書マスキング装置１は、マスキング処理を行う文書の内容などによってマスキング対象の単語が変更になっても、当該変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、負荷増加を抑制しつつ図ることができる。

　また、文書マスキング装置１は、紙面テキストデータを分析して秘匿対象属性の単語を紙面テキストデータから抽出するために、抽出した単語には紙面画像における配置位置とその占有領域の広さの情報は関連付けられていない。このため、文書マスキング装置１は、紙面テキストデータから抽出した単語と、紙面画像におけるその単語の配置位置およびその占有領域の広さの情報とを関連付ける機能を備えている。つまり、文書マスキング装置１は、配置解析部１３によって、紙面画像における文字の配置位置および占有領域の広さを表す文字位置データを生成する機能を備える。さらに、文書マスキング装置１は、出力部１５によって、文字位置データを参照して、抽出部１４により抽出された単語の紙面画像における配置位置およびその単語が占める占有領域の広さを検知する機能を備えている。このような機能によって、文書マスキング装置１は、紙面画像におけるマスキング対象の単語にマスキング処理を実行することができる。

　さらに、上記の如く、マスキング対象の単語にＯＣＲ認識誤りが生じていても、当該マスキング対象の単語は、秘匿対象属性の単語として紙面テキストデータから抽出される可能性が高い。このことから、文書マスキング装置１は、ＯＣＲ認識誤りに起因したマスキング対象の単語の抽出抜けを抑制することができる。このため、文書マスキング装置１は、作業者が紙面画像におけるマスキング処理が正しく実行されているか否かの確認の負担軽減を図ることができ、また、マスキング処理の効率化を図ることができる。

　なお、第１実施形態の文書マスキング装置１は、上述した機能に加えて、マスキング処理の手動モードを実行する機能を備えていてもよい。例えば、マスキング処理の手動モードを実行する指令が、図７に表されるようなアイコン４７を利用して、ユーザによる入力装置３の操作により入力された場合に、文書マスキング装置１は、手動モードでの動作を開始する。手動モードでは、ユーザによる入力装置３の操作によって、紙面画像においてマスキング対象の領域が、例えば図７に表されるようなカーソル４８などにより指定された場合に、指定された領域がマスキングされる。このような手動モードでの動作が可能であることにより、文書マスキング装置１は、紙面画像において、文字だけでなく、図面や写真などの、文字（テキストデータ）が含まれていない領域もマスキングすることが可能となる。これにより、文書マスキング装置１は、ユーザの要望に、より柔軟に対応可能となる。

　＜第２実施形態＞
　以下に、本発明に係る第２実施形態を説明する。なお、第２実施形態の説明において、第１実施形態の文書マスキング装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。

　第２実施形態の文書マスキング装置１は、図１の鎖線に表されるような情報源５０に例えば情報通信網を介して接続されており、当該情報源５０から、マスキング処理に関わる参考情報を取得する。参考情報は、少なくとも、マスキング対象の単語を表す情報を含んでいる。この参考情報は、提示部１６が利用する。すなわち、第２実施形態では、提示部１６は、参考情報からマスキング対象の単語を表す情報を抽出する。また、提示部１６は、マスキング候補の単語を表示装置４に表示する場合に、参考情報から抽出されたマスキング対象の単語に対応するマスキング候補の単語にはマスキング対象の単語である旨を表す情報が関連付けられた状態でマスキング候補の単語を表示する。例えば、図２などに表されているマスキング候補表示欄４２の表示例においては、マスキング候補の単語に一対一に対応するチェック欄４９が表示されている。提示部１６は、参考情報から取得したマスキング対象の単語に該当するマスキング候補の単語のチェック欄４９には、マスキング対象の単語であることを表すチェックを予め表示する。なお、もちろん、提示部１６により表示されたチェックは、ユーザによる入力装置３の操作により取り消すことが変更可能となっている。

　第２実施形態における文書マスキング装置１における上記以外の構成は、第１実施形態の文書マスキング装置１の構成と同様である。

　第２実施形態の文書マスキング装置１は、提示部１６によってマスキング候補の単語を提示する場合に、情報源５０から取得した参考情報により得られるマスキング対象の単語に対応するマスキング候補の単語には、マスキング対象であることを表す情報を関連付けられた状態とする。これにより、第２実施形態の文書マスキング装置１は、マスキング対象の単語をユーザが選択する際の負担軽減と効率化を図ることができる。

　＜第３実施形態＞
　以下に、本発明に係る第３実施形態を説明する。なお、第３実施形態の説明において、第１や第２の実施形態の文書マスキング装置を構成する構成部分と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。

　第３実施形態の文書マスキング装置１は、第１実施形態又は第２実施形態の文書マスキング装置の機能に加えて、文字入力が可能な機能を備えたアプリケーションで生成された文書にマスキング処理を実行する機能を備えている。なお、ここでは、文字入力が可能な機能を備えたアプリケーションとは、文書作成を主とするアプリケーションに限定されず、例えば、表計算を主とし、さらに文字入力の機能も備えたアプリケーションも含まれるとする。

　第３実施形態の文書マスキング装置１においては、取得部１１は、紙面画像のデータだけでなく、文字入力が可能な機能を備えたアプリケーションで生成された文書のデータ（以下、文書データとも称する）をも取得可能である。取得された文書データは当該データを識別する識別情報や取得された日時の情報などが関連付けられた状態で記憶装置２０に格納される。

　抽出部１４は、文書データに含まれているテキストデータを抽出し、抽出したテキストデータから、第１や第２の実施形態と同様に、秘匿対象属性に属する単語をマスキング候補として抽出する。

　提示部１６は、抽出部１４により抽出されたマスキング候補の単語を、第１や第２の実施形態と同様に、表示装置４に表示させる。

　出力部１５は、マスキング対象として選択された単語を表す情報を利用して、文書データに含まれているテキストデータにおけるマスキング対象の単語を特定する。そして、出力部１５は、文書データにおけるマスキング対象の単語をマスキングするマスキング処理を実行し、マスキング処理済みの文書を表示装置４やプリンタ７に出力する。ここでのマスキング処理は、文書のテキストデータにおけるマスキング対象の単語を秘匿することができればよく、限定されるものではなく、例えば、マスキング対象の単語を表す文字を、記号に置き換えてもよい。

　第３実施形態の文書マスキング装置１における上記以外の構成は第１又は第２の実施形態と同様である。

　第３実施形態の文書マスキング装置１は、第１や第２の実施形態と同様の構成（機能）を備えていることから、第１や第２の実施形態と同様の効果を奏することができる。さらに、第３実施形態の文書マスキング装置１は、紙面画像だけでなく、文字入力が可能な機能を備えたアプリケーションで生成された文書にもマスキング処理を行って出力することができる。

　なお、第３実施形態の文書マスキング装置１は、第１実施形態又は第２実施形態の文書マスキング装置の機能に加えて、アプリケーションで生成された文書にもマスキング処理を行う機能を備えている。これに代えて、文書マスキング装置１は、紙面画像におけるマスキング処理は考慮せず、文字入力が可能な機能を備えたアプリケーションで生成された文書に限定してマスキング処理を行う装置であってもよい。この場合には、文書マスキング装置１は、図８に表されるように、第１や第２の実施形態で説明した文字認識部１２と配置解析部１３の機能が省略可能である。

　＜その他の実施形態＞
　本発明は第１～第３の実施形態に限定されず、様々な実施の態様を採り得る。例えば、第１と第２の実施形態では、文書マスキング装置１の取得部１１が取得する紙面画像は、スキャナ６により画像データに変換された紙面８を表す画像であるが、例えば、文書を作成するアプリケーションにより作成された文書を画像データに変換したものであってもよい。

　また、第２実施形態では、文書マスキング装置１は、情報源５０に情報通信網を介して接続されており、マスキング対象の単語を表す情報を含む参考情報が情報源５０から文書マスキング装置１に情報通信網を介して提供される。これに代えて、マスキング対象の単語を表す情報を含む参考情報が、ユーザによって文書マスキング装置１に入力されてもよい。この場合には、提示部１６は、そのユーザによって入力された参考情報を利用して、参考情報から抽出されたマスキング対象の単語に対応するマスキング候補の単語にはマスキング対象の単語である旨を表す情報が関連付けられた状態でマスキング候補の単語を表示する。

　図９は、本発明に係るその他の実施形態の文書マスキング装置の構成を説明するブロック図である。図９に表されている文書マスキング装置６０は、例えばコンピュータ装置であり、コンピュータプログラムに基づいた機能部である抽出部６１と提示部６２と出力部６３とを備えている。抽出部６１は、文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する。提示部６２は、抽出された単語をマスキング候補として提示する。出力部６３は、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った文書を出力する。

　次に、図９に表される文書マスキング装置におけるマスキング処理に関する動作の一例を、図１０を参照しながら説明する。

　例えば、まず、抽出部６１が、文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する（図１０におけるステップ２０１）。そして、提示部６２が、抽出された単語をマスキング候補として、例えば表示装置に表示することによって提示する（ステップ２０２）。

　然る後に、出力部６３が、マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行い、マスキング処理済みの文書を出力する（ステップ２０３）。

　上記のような機能および動作を実行する文書マスキング装置６０は、文書のテキストデータから、自然言語処理技術を用いてマスキング候補の単語を抽出するから、目視により単語を抽出する場合に比べて、マスキング処理の効率化を図ることができる。また、文書マスキング装置６０は、秘匿対象属性の単語をマスキング候補として抽出し、マスキング候補の単語をユーザに提示し、マスキング候補の単語の中からマスキング対象の単語をユーザに選択させる。このため、文書マスキング装置６０においては、マスキング対象の単語はユーザが選択して当該情報を入力するから、マスキング対象の単語そのものの情報を持たなくともよい。これにより、文書マスキング装置６０は、マスキング処理を行う文書の内容などによってマスキング対象の単語が変更になっても、当該変更に柔軟に対応することができ、しかも、文書に行うマスキング処理の効率化を、負荷増加を抑制しつつ図ることができる。

　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　この出願は、２０２１年１０月２８日に出願された日本出願特願２０２１－１７６０７３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１，６０　文書マスキング装置
　１２　文字認識部
　１３　配置解析部
　１４，６１　抽出部
　１５，６３　出力部
　１６，６２　提示部

Claims

　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する抽出手段と、
　抽出された前記単語をマスキング候補として提示する提示手段と、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する出力手段と
を備える文書マスキング装置。
　前記抽出手段は、前記秘匿対象属性に属する単語を機械学習することにより生成され、前記文書のテキストデータを入力とし当該テキストデータに含まれている前記秘匿対象属性に属する単語を出力するモデルを用いる
請求項１に記載されている文書マスキング装置。
　マスキング処理を行う単語を表す情報を含む参考情報を出力する情報源に接続されており、
　前記提示手段は、前記参考情報から、マスキング処理を行うマスキング対象の単語の情報を抽出し、抽出した情報に基づくマスキング対象の単語に対応する前記マスキング候補には、マスキング対象の単語であることを表す情報を関連付けた状態で提示する
請求項１又は請求項２に記載の文書マスキング装置。
　前記文書は、画像に変換された紙面を表す紙面画像に含まれている文書であり、
　前記テキストデータにより表される文字の、前記紙面画像における配置位置および前記紙面画像において占める占有領域の広さの情報を前記紙面画像から取得する配置解析手段をさらに備え、
　前記出力手段は、前記マスキング候補からマスキング対象として指定されたマスキング対象の単語をマスキングする前記紙面画像のマスキング領域を、前記紙面画像から取得した前記文字の配置位置および占有領域の広さの情報を用いて特定し、当該マスキング領域にマスキング処理を行った前記文書を含む前記紙面画像を出力する
請求項１乃至請求項３の何れか一つに記載の文書マスキング装置。
　前記紙面画像に含まれている文書のテキストデータを、光学文字認識の技術により前記紙面画像から抽出する文字認識手段がさらに備えられている
請求項４に記載の文書マスキング装置。
　コンピュータによって、
　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出し、
　抽出された前記単語をマスキング候補として提示し、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する
文書マスキング方法。
　文書のテキストデータから、マスキング処理を行う単語の種類を表す秘匿対象属性に属する単語を、自然言語処理技術を用いて抽出する処理と、
　抽出された前記単語をマスキング候補として提示する処理と、
　前記マスキング候補からマスキング対象として指定されたマスキング対象の単語にマスキング処理を行った前記文書を出力する処理と
をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。