WO2019150416A1

WO2019150416A1 - 電子データの変換システム、方法及びプログラム

Info

Publication number: WO2019150416A1
Application number: PCT/JP2018/002851
Authority: WO
Inventors: 中村　健太郎
Original assignee: 株式会社オプティム
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2019-08-08

Abstract

【課題】文章ファイルや電子書籍に掲載されている写真やイラストから文字を抽出し、文章と関連付けて保存するための電子データの変換システム及び変換方法を提供する。【解決手段】本発明の電子データの変換システム１は、写真やイラスト等でテキスト文字への変換ができない画像と、文章と、が書かれた電子データに対して、前記画像と、前記文章とを抽出する画像文章抽出手段と、抽出された前記画像の画像認識を行い、認識結果から、当該画像に関係した所定のテキスト文字を抽出するテキスト抽出手段と、抽出された前記画像と、この画像に対応する文章と推測される前記文章との対応付けを行う画像文章対応付手段と、抽出した前記テキスト文字と、対応付けられた前記文章とを関連付けて記憶する関連付記憶手段と、を備える

Description

電子データの変換システム、方法及びプログラム

　本発明は、電子データの変換システム、方法及びプログラムに関する。

　文章ファイルや電子書籍をテキスト文字で検索する際に、基本的には、テキスト化されている文字でないと検索対象とならない。したがって、従来の検索文字列を使用した検索手法では、テキスト化された文字ではない写真やイラストについては検索することができない。

　ところで、文字認識システムを使用し、イメージデータから文字を抽出することで検索可能なデジタルデータを作成する技術がある（特許文献１）。

特開２００５－１２２６６８号公報

　特許文献１に記載の方法では、書籍や雑誌、新聞などの紙媒体をスキャナーでイメージデータ化し、ＯＣＲ（文字認識システム）で文字認識させ、デジタルデータ化したものをデータベースに登録する。この方法によると、文字認識させたデータを使用して検索可能なデータベースを構築することができる。しかしながら、イラストや絵自体はテキスト化することができず、検索対象とすることができない。

　本発明は、このような要望に鑑みてなされたものであり、文章ファイルや電子書籍に掲載されている写真やイラストから文字を抽出し、文章と関連付けて保存するための電子データの変換システム及び変換方法を提供することを目的とする。

　本発明では、以下のような解決手段を提供する。

　第１の特徴に係る発明は、電子データの変換システムであって、写真やイラスト等でテキスト文字への変換ができない画像と、文章と、が書かれた電子データに対して、前記画像と、前記文章とを抽出する画像文章抽出手段と、抽出された前記画像の画像認識を行い、認識結果から、当該画像に関係した所定のテキスト文字を抽出するテキスト抽出手段と、抽出された前記画像と、この画像に対応する文章と推測される前記文章との対応付けを行う画像文章対応付け手段と、抽出した前記テキスト文字と、対応付けられた前記文章とを関連付けて記憶する関連付け記憶手段と、を備える電子データの変換システムを提供する。

　第１の特徴に係る発明によれば、写真やイラストが含まれた本や雑誌に対して、その掲載された写真に関連した文字を抽出し、抽出した写真に関連した文字と、その写真を説明する文章とを関連付けて記憶するため、写真と文章とを関連付けて検索できるようになったり、あたかもコンピュータが写真と文章を理解しているように、人がコンピュータに対して、雑誌の内容（このような記載があったか、どのページにあるか等）を問い合わせることが可能な電子データの変換システムを提供できる。

　第２の特徴に係る発明は、第１の特徴に係る発明であって、前記画像文章対応付手段は、お互いが最も近接した画像と文章とを対応付けるよう制御する、電子データの変換システムを提供する。

　第２の特徴に係る発明によれば、文章を解析するための負荷をかけずに確実な対応付けを行うことが可能な電子データの変換システムを提供できる。

　第３の特徴に係る発明は、第１の特徴に係る発明であって、前記画像文章対応付手段は、画像から抽出したテキストと文章との類似判断により対応付けるよう制御する、電子データの変換システムを提供する。

　第３の特徴に係る発明によれば、画像と文章とが入り組んで配置されている場合であっても、確実な対応付けを行うことが可能な電子データの変換システムを提供できる。

　第４の特徴に係る発明は、第１の特徴に係る発明であって、前記画像文章対応付手段は、画像から抽出したテキストと文章との類似度合、及び、画像と文章との近接度合の総合判断により対応付けるよう制御する、電子データの変換システムを提供する。

　第４の特徴に係る発明によれば、画像と文章とが入り組んで配置されるデザインや、類似するテキストが複数存在する場合であっても、より確実に対応付けを行うことが可能な電子データの変換システムを提供できる。

　本発明によれば、雑誌や電子書籍上の画像を文章と関連付けて検索することが可能な、電子データの変換システム及び変換方法を提供できる。

図１は、本実施形態における電子データの変換システム１のハードウェア構成とソフトウェア機能を示すブロック図である。図２は、本実施形態における電子データの変換方法を示すフローチャートである。図３は、本実施形態における画像と文章との関連付けを示す模式図である。図４は、本実施形態における画像データベースの一例である。図５は、本実施形態における辞書データベースの一例である。

　以下、本発明を実施するための形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［電子データの変換システム１の構成］
　図１は、本実施形態における電子データの変換システム１のハードウェア構成とソフトウェア機能を説明するためのブロック図である。

　電子データの変換システム１は、データを制御する制御部１０と、他の機器と通信を行う通信部２０と、データを記憶する記憶部３０と、ユーザの操作を受け付ける入力部４０と、制御部１０で制御したデータや画像を出力表示する表示部５０とを備える。

　制御部１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等を備える。

　通信部２０は、他の機器と通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉ－Ｆｉ（Ｗｉｒｅｌｅｓｓ　Ｆｉｄｅｌｉｔｙ）対応デバイスを備える。

　制御部１０は、所定のプログラムを読み込み、必要に応じて通信部２０と協働することで、画像文章抽出モジュール１１と、テキスト抽出モジュール１２と、対応付けモジュール１３と、関連付けモジュール１４とを実現する。

　記憶部３０は、データやファイルを記憶する装置であって、ハードディスクや半導体メモリ、記録媒体、メモリカード等による、データのストレージ部を備える。また、記憶部３０は、画像からテキストを抽出する際に参照される画像データベース３１、及び、文章からテキストを抽出する際に参照される辞書データベース３２を備える。

　入力部４０の種類は、特に限定されない。入力部４０として、例えば、キーボード、マウス、タッチパネル等が挙げられる。

　表示部５０の種類は、特に限定されない。表示部５０として、例えば、モニタ、タッチパネル等が挙げられる。

［電子データの変換システム１を用いた電子データの変換方法を示すフローチャート］
　図２は、電子データの変換システム１を用いた電子データの変換方法を示すフローチャートである。また、図３は、電子データの変換システム１を用いた電子データの変換方法を示す模式図である。図４及び図５は、それぞれ、画像データベース３１の一例、及び、辞書データベース３２の一例を示す図である。図２～図５を用いて、上述した各ハードウェアと、ソフトウェアモジュールが実行する処理について説明する。

〔ステップＳ１０：画像の領域と文章の領域の抽出〕
　最初に、電子データの変換システム１の制御部１０は、画像文章抽出モジュール１１を実行し、雑誌などの電子書籍の１ページを電子データとして、画像の領域と文章の領域を抽出する（ステップＳ１０）。得られた電子データは図３のようになる。

〔ステップＳ２０：テキストデータの抽出〕
　続いて、制御部１０は、テキスト抽出モジュール１２を実行し、電子データの中から抽出した画像の画像認識を行い、認識した画像と画像データベース３１とに基づいてテキストデータを抽出する（ステップＳ２０）。例えば、ブルーのワイシャツとグレーのパンツを身に着け、ビジネスバッグを持っている男性の画像を認識した場合、図３に示すように「服」「ワイシャツ」「ブルー」「パンツ」「グレー」「ビジネスバッグ」といったテキストを抽出する。テキストの抽出は、記憶部３０が備える画像データベース３１を参照して行われる。画像データベース３１には、図４に示すように、画像のサンプルと、当該画像のサンプルに紐づいたテキストとが、対になって記憶されている。図４に示す例では、ワイシャツのサンプル画像が複数記憶されており、画像データベース３１に記憶されている画像と雑誌等から認識された画像との類似度合が判定され、類似していると判断されると、認識された画像に「ワイシャツ」が含まれると判断される。このような画像同士の類似判断は、公知の手法によって行われてよい。また、色彩や柄についても同様に、同一のテキストに対し、複数のサンプル画像が記憶されており、認識された画像とサンプル画像との類似判断により、色彩や柄についてのテキストが抽出される。このようにして、認識した画像の中からテキストデータを抽出する。

〔ステップＳ３０：画像と文章の対応付け〕
　続いて、制御部１０は、対応付けモジュール１３を実行し、抽出された画像と、この画像に対応する文章であると推測される文章との対応付けを行う（ステップＳ３０）。画像と文章との対応付けは、最も近接した位置にある画像と文章とを対応付けるように制御される。多くの場合、画像に最も近接した位置にある文章が、その画像を説明する文章であることが多いため、対象となる画像と最も近接した位置にある文章を対応付ける構成とすることにより、文章を解析するための負荷をかけずに確実な対応付けを行うことが可能となる。

　対応付けの別の例として、ステップＳ２０で抽出されたテキストデータと文章とを比較して、その類似具合により対応付ける構成としてもよい。例えば、「グレー」「パンツ」というテキストが抽出された画像と、「グレー」「パンツ」という単語が把握される文章があれば、両テキストが類似していると判断して対応付けを行うことが可能となる。このような構成とすることにより、画像と文章とが入り組んで配置されている場合であっても、確実な対応付けを行うことが可能となる。すなわち、雑誌における文章や画像の配置は、そのデザインによっては、近接度合の判断が難しい場合がある。そこで、画像から抽出されるテキストと、文章に含まれるテキストとの類似度合から判断することにより、近接度合からの判断が難しいデザインのページであっても、確実に対応付けを行うことが可能となる。

　さらに、対応付けの判断として、画像と文章との近接度合、及び、テキストの類似度合を総合的に判断して対応付けを行うよう構成してもよい。すなわち、上記のようなテキストによる類似判断によると、類似するテキストが含まれる文章が複数存在する場合など、テキスト情報のみでは判断できないことがあり、そのような場合、近接していない画像と文章とを誤って対応付けてしまう可能性がある。そこで、画像と文章との近接度合、及び、画像と文章に含まれるテキストの類似度合の双方を、総合的に判断して対応付ける構成とすることにより、入り組んだ配置のデザインや、類似するテキストが複数存在する場合であっても、より確実に対応付けを行うことが可能となる。

〔ステップＳ４０：テキストデータと文章の関連付け〕
　続いて、制御部１０は、関連付けモジュール１４を実行し、ステップＳ２０で画像から抽出されたテキストデータと、ステップＳ３０でこの画像に対応付けられた文章との関連付けを行う（ステップＳ４０）。その際、抽出され対応付けられた文章について、記憶部３０に備えられる辞書データベース３２を参照して、文字の認識と内容の把握が行われる。辞書データベース３２には、図５に示すように、様々な単語や言い回しが記憶されている。ステップＳ４０では、ステップＳ３０で対応付けられた文章に関して分析を行い、辞書データベース３２を参照して、文章に含まれる単語を抽出する。そして、対応付けられた文章から「清潔感」「ブルーシャツ」「オーガニックコットン」という単語が抽出されたとすると、これらの単語と、ステップＳ２０でテキストデータとして抽出された「服」「ワイシャツ」「ブルー」「パンツ」「グレー」「ビジネスバッグ」が関連付けられ、一つの電子データとして記憶部３０に記憶される。

　上記のような処理を行うことにより、雑誌などの電子データに、文章と画像と双方に関係づいたタグ付けをすることが可能となり、人が行うのと同じような感覚で、情報を検索することが可能となる。

　なお、ステップＳ４０において、テキストデータと文章を関連付けて記憶する処理を行っているが、テキストデータと文章に加え、テキストの抽出元である画像も併せて記憶する構成としてもよい。この場合、画像、画像から抽出したテキスト、及び、画像に対応付けられたテキストが一つの電子データとして記憶されることとなり、検索の際に視覚的に認識することが容易となるため、より使い勝手のよいシステムを構築することが可能となる。

　以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

　１　　電子データの変換システム
　１０　制御部
　１１　画像文章抽出モジュール
　１２　テキスト抽出モジュール
　１３　対応付けモジュール
　１４　関連付けモジュール
　２０　通信部
　３０　記憶部
　３１　画像データベース
　３２　辞書データベース
　４０　入力部
　５０　表示部

Claims

　電子データの変換システムであって、
　写真やイラスト等でテキスト文字への変換ができない画像と、文章と、が書かれた電子データに対して、前記画像と、前記文章とを抽出する画像文章抽出手段と、
　抽出された前記画像の画像認識を行い、認識結果から、当該画像に関係した所定のテキスト文字を抽出するテキスト抽出手段と、
　抽出された前記画像と、この画像に対応する文章と推測される前記文章との対応付けを行う画像文章対応付手段と、
　抽出した前記テキスト文字と、対応付けられた前記文章とを関連付けて記憶する関連付記憶手段と、を備える電子データの変換システム。
　前記画像文章対応付手段は、お互いが最も近接した画像と文章とを対応付けるよう制御する、請求項１に記載の電子データの変換システム。
　前記画像文章対応付手段は、画像から抽出したテキストと文章との類似判断により対応付けるよう制御する、請求項１に記載の電子データの変換システム。
　前記画像文章対応付手段は、画像から抽出したテキストと文章との類似度合、及び、画像と文章との近接度合の総合判断により対応付けるよう制御する、請求項１に記載の電子データの変換システム。
　電子データの変換方法であって、
　写真やイラスト等でテキスト文字への変換ができない画像と、文章と、が書かれた電子データに対して、前記画像と、前記文章とを抽出するステップと、
　抽出された前記画像の画像認識を行い、認識結果から、当該画像に関係した所定のテキスト文字を抽出するステップと、
　抽出された前記画像と、この画像に対応する文章と推測される前記文章との対応付けを行うステップと、
　抽出した前記テキスト文字と、対応付けられた前記文章とを関連付けて記憶するステップと、を備える電子データの変換方法。
　電子データの変換システムに、
　写真やイラスト等でテキスト文字への変換ができない画像と、文章と、が書かれた電子データに対して、前記画像と、前記文章とを抽出するステップと、
　抽出された前記画像の画像認識を行い、認識結果から、当該画像に関係した所定のテキスト文字を抽出するステップと、
　抽出された前記画像と、この画像に対応する文章と推測される前記文章との対応付けを行うステップと、
　抽出した前記テキスト文字と、対応付けられた前記文章とを関連付けて記憶するステップと、を実行させるためのプログラム。