JPWO2017072865A1 - 検査装置、検査方法、記録媒体、及び、プログラム - Google Patents

検査装置、検査方法、記録媒体、及び、プログラム Download PDF

Info

Publication number
JPWO2017072865A1
JPWO2017072865A1 JP2017547240A JP2017547240A JPWO2017072865A1 JP WO2017072865 A1 JPWO2017072865 A1 JP WO2017072865A1 JP 2017547240 A JP2017547240 A JP 2017547240A JP 2017547240 A JP2017547240 A JP 2017547240A JP WO2017072865 A1 JPWO2017072865 A1 JP WO2017072865A1
Authority
JP
Japan
Prior art keywords
document
browser
text
inspection
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017547240A
Other languages
English (en)
Other versions
JP6356924B2 (ja
Inventor
桂太 平中
桂太 平中
彩美 木下
彩美 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6356924B2 publication Critical patent/JP6356924B2/ja
Publication of JPWO2017072865A1 publication Critical patent/JPWO2017072865A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/28Error detection; Error correction; Monitoring by checking the correct order of processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

取得部(24)は、HTMLで記述された文書を検査用ブラウザに与えて、文書を画面に表示させることにより、文書が描画された画像を取得する。認識部(26)は、取得された画像を文字認識することにより、認識済テキストを取得する。抽出部(27)は、文書からタグを除去することにより、描画されるべき本文テキストを抽出する。判定部(28)は、認識済テキストと本文テキストとを対比することにより、文書が検査用ブラウザに正しく描画されたか否かを判定する。

Description

本発明は、テキストを含む文書がブラウザにより正しく描画されるか否かを適切に検査する検査装置、検査方法、記録媒体、及び、プログラムに関する。
HTML(Hypertext Markup Language)等の所定のマークアップ言語で記述された文書(以下、単に文書と言う。)がウェブブラウザ(以下、単にブラウザと言う。)に与えられると、ブラウザが文書内のタグを解釈し、テキストや画像を画面に表示する。しかしながら、異なるブラウザ間ではタグの解釈が違うので、あるブラウザによるとテキストや画像が整然と表示されるにも関わらず、他のブラウザによればレイアウトが崩れてしまうことがある。また、同様の課題は、同一のブラウザの異なるバージョン間や異なる端末間においても生じ得る。そこで、テキストや画像のレイアウトが崩れていないかどうかを検査する方法が種々提案されている。
例えば、特許文献1には、HTMLで記述されたウェブページを仕様が異なる2つのウェブブラウザに与え、描画された画像対のビジュアルを比較し、各画像中の要素の位置、大きさ、スタイル等に違いがあれば、それをエラーとして検出する方法が開示されている。
特開2013−77301号公報
しかしながら、特許文献1等に開示された検査方法は、一部のタブが隠されたり画像が画面の表示領域からはみ出たりすることよるレイアウトの崩れを検出できるものの、文字同士が重なって表示されていたり文字が欠落していたりする場合にその欠陥を検出することができない。そのため、テキストを含む文書については、文書がブラウザにより正しく描画されたか否かを適切に検査することができなかった。
本発明は、上記の課題を解決するためのものであり、テキストを含む文書がブラウザにより正しく描画されるか否かを適切に検査する検査装置、検査方法、記録媒体、及び、プログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る検査装置は、
文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得し、
前記取得された画像を文字認識することにより、認識済テキストを取得し、
前記文書から描画されるべき本文テキストを抽出し、
前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する。
本発明によれば、テキストを含む文書がブラウザにより正しく描画されるか否かを適切に検査することができる。
本発明の実施形態に係る検査装置のハードウェア構成を示す図である。 本発明の実施形態に係る検査装置の機能構成を示す図である。 本発明の実施形態に係る文書記憶部が記憶する文書の一例を示す図である。 文書が検査用ブラウザにより描画された画像を示す図である。 (a)本発明の実施形態に係る認識済テキスト、(b)本発明の実施形態に係る本文テキストを示す図である。 文書が検査用ブラウザにより正しく描画されていない旨を表示する画面を示す図である。 文書が正しく描画されていない旨の警告を表示する画面を示す図である。 本発明の実施形態に係る検査装置により実行される処理の流れを表すフローチャートである。 文書が第2ブラウザにより描画された第2画像を示す図である。 本発明の変形例に係る検査装置により実行される処理の流れを表すフローチャートである。
以下に本発明の実施形態を説明する。なお、本実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。従って、当業者であればこれらの各要素若しくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。また、本願発明の実施形態を図面を参照して説明するにあたり、図中同一又は相当する部分には同一符号を付す。
図1は、本発明の実施形態に係る検査装置1のハードウェア構成を示す。以下、本図を参照して説明する。検査装置1は、同図に示すように、記憶装置11と、受付装置12と、表示装置13と、制御部14と、を備える。
記憶装置11は、ハードディスク等の記録媒体を備え、各種ブラウザ、文書の描画の是非を検査するための検査用ソフトウェア等の様々なソフトウェアを記憶する。また、記憶装置11は、HTMLで記述された複数の文書を記憶する。なお、上記文書は、HTMLで記述されたものに限定されず、XHTML(Extensible Hypertext Markup Language)、XML(Extensible Markup Language)等の他のマークアップ言語で記述されていて良い。また、記憶装置11は、ハードディスク以外の不揮発な非一時的な記録媒体、例えば、フラッシュメモリ、光ディスク、光磁気ディスクから構成されていても良い。
受付装置12は、キーボード、マウス、トラックパッド等を備える。受付装置12は、ユーザの操作を介してユーザの指示を受け付け、受け付けたユーザの指示を示す入力信号を生成する。そして、生成した入力信号を制御部14に供給する。
表示装置13は、液晶ディスプレイ等の画面を備え、制御部14から供給されたテキストデータ、画像、動画等の各種データを表示する。
制御部14は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備え、ROM等の非一時的な記録媒体に記憶されたプログラムを一時的な記録媒体であるRAMに読み出し、読み出したプログラムに含まれる指令をCPUにより実行する。また、制御部14は、受付装置12から供給された入力信号を受け付け、受け付けた入力信号が示すユーザの指示をCPUにより実行する。
図2は、検査装置1の機能構成を示す。制御部14は、ROM等が記憶するプログラムをRAMに読み出して、そのプログラムを実行制御することにより、検査装置1を、ソフトウェア記憶部21、文書記憶部22、受付部23、取得部24、表示部25、認識部26、抽出部27、判定部28として機能させる。
なお、ソフトウェア記憶部21及び文書記憶部22は、記憶装置11に構築される。また、受付部23は、受付装置12と制御部14とが協働することにより実現される。また、取得部24、認識部26、抽出部27、判定部28は、制御部14により実現される。表示部25は、表示装置13と制御部14とが協働することにより実現される。
ソフトウェア記憶部21は、各種ブラウザ、文書の描画の是非を検査するための検査用ソフトウェア等の様々なソフトウェアを記憶する。各種ブラウザは、インターネットエクスプローラ[Internet Explorer(登録商標)]、モジラファイアフォックス[Mozilla Firefox(登録商標)]、グーグルクローム[Google Chrome(登録商標)]、オペラ[Opera(登録商標)]等の著名なブラウザを含む。ただし、各種ブラウザは、上述した著名なブラウザ以外の様々なブラウザを含んでいて良い。
文書記憶部22は、HTMLで記述された複数の文書を記憶する。なお、上述したように、複数の文書は、HTML以外のマークアップ言語で記述されていて良いことに留意すべきである。
受付部23は、ユーザによる受付装置12の操作を介して、ユーザから各種要求及び指示を受け付ける。例えば、文書が正しく描画されるか否かを検査する旨の要求(以下、検査要求と言う。)を受け付ける。また、ユーザが検査対象として選択した文書を示す指示を受け付ける。また、ユーザが検査用ブラウザとして選択したブラウザを示す指示を受け付ける。そして、受け付けた要求及び指示を取得部24に供給する。なお、文書は文書記憶部22が記憶する複数の文書のうちから選択される。また、ブラウザはソフトウェア記憶部21が記憶する複数のブラウザのうちから選択される。
取得部24は、受付部23から検査要求を受け付けると、検査用ソフトウェアをソフトウェア記憶部21から取得する。そして、検査用ソフトウェアを起動し、初期化処理を行う。初期化処理は、例えば、特定のブラウザが検査用ブラウザとして指定されている場合にその指定を解除する処理、特定の文書が検査対象として指定されている場合にその指定を解除する処理を含む。
また、取得部24は、受付部23からユーザが検査対象として選択した文書を示す指示を受け付けると、指示に基づいて、選択された文書を検査対象として文書記憶部22から取得する。
また、取得部24は、受付部23からユーザが検査用ブラウザとして選択したブラウザを示す指示を受け付けると、選択されたブラウザを検査用ブラウザとしてソフトウェア記憶部21から取得し、検査用ブラウザを起動する。
また、取得部24は、検査対象として取得した文書を検査用ブラウザに与え、表示装置13の画面に表示させることにより、検査対象の文書が描画された画像を取得する。
図3は、文書記憶部22が記憶する文書の一例を示す。同図に示すように、文書記憶部22が記憶する文書はHTMLで記述されている。取得部24は、同図に示す文書を検査用ブラウザに与え、表示装置13の画面に表示させることにより、同図に示す文書が描画された画像を取得する。
図4は、図3に示す文書が検査用ブラウザにより描画された画像110を示す。画像110において、図3に示す文書に含まれるテキストは、タグが指定する位置に描画されている。なお、本明細書において、文書が描画された画像とは、HTMLで記述されたソースコードが描画された画像ではないことに留意されたい。
また、図4に示す画像110について注目すべきことが2つ有る。1つは、画像110の左側のフレーム110aにおいて「健康食品・サプリメント」という文字列が表示されるべきところ、文字列の一部がフレーム110aからはみ出たことにより、文字「ン」、「ト」がバナー広告に隠れてしまっていることである。もう1つは、画像110の右下のフレーム110bにおいて「まとめ買いに最適・・・大活躍!」という文字列の一部と、「また、職場・学校・お店・レジャー等・・・使えますよ。」という文字列の一部と、が重なっていることである。
表示部25は、取得部24の制御に基づいて、検査用ブラウザに与えられた文書を、表示装置13の画面に表示する。また、判定部28の制御に基づいて、文書が検査用ブラウザにより正しく描画されたか否かを示す判定結果を表示装置13の画面に表示する。
認識部26は、取得部24により取得された画像を文字認識することにより、画像に描画されたテキストを認識済テキストとして取得する。なお、認識部26は、例えば、形態素解析を用いて、取得部24により取得された画像を、各文字を表す画像に分割し、分割された画像から文字認識に用いる特徴量(特徴量を示すベクトル)を抽出する。そして、抽出された特徴量と記憶装置11に予め記憶されている文字の特徴量とを対比することによって文字認識を行う。文字認識に用いる特徴量としては、文字の輪郭を利用した方向線素特徴等が有る。また、認識部26は、文字認識の結果得られた各文字が画像内におけるどの位置から認識されたものか示す位置情報を取得する。この位置情報は、文字の描画に欠陥が発見された場合に、表示装置13の画面内における欠陥が有る位置又はその周辺に文字の描画に欠陥が有る旨の警告を表示するために使用される。
抽出部27は、取得部24により取得された文書からタグを除去することにより、文書に含まれるテキストを本文テキストとして抽出する。本文テキストは、文書から描画されるべきテキストであり、文書が検査用ブラウザにより正しく描画されたときに文字認識により取得される認識済テキストと合致する。
図5(a)は、図4に示す画像110を文字認識することにより取得された認識済テキストを示し、図5(b)は、図3に示す文書100から抽出された本文テキストを示す。ここで、認識済テキストにおける破線の囲み120aに注目すると、「健康食品・サプリメント」という文字列の一部、即ち、文字「ン」、「ト」が欠落していることが分かる。この文字の欠落は、図4に示す画像110において「健康食品・サプリメント」という文字列の一部がバナー広告に隠れてしまったため、認識部26が文字「ン」、「ト」を文字認識できなかったことにより生じる。つまり、検査用ブラウザにおいて文字が欠落していると、その欠陥は認識済テキストに反映される。
また、破線の囲み120b内の「○×△☆♯♭●□▲★※」という記号列は、画像110において重なって表示されている文字列が文字認識により別の文字列として誤って認識されたことを示す。重なって表示された各文字は、マッチングする文字が存在しないので、形状が似た別の文字若しくは記号として認識される。従って、重なって表示された文字列は、別の文字列に変換されて認識済テキストに出現する。このように、文字同士が重なって表示されるという欠陥も、認識済テキストに反映される。
一方、図5(b)に示す本文テキストは、文書からタグを除去して抽出されたテキストであるため、文字の欠落等の欠陥を含まない。従って、認識済テキストと本文テキストとの対比により、両テキストに差異が無ければ文書が正しく描画されており、両テキストに差異が有れば文書が正しく描画されていないと分かる。
判定部28は、認識部26が取得した認識済テキストと、抽出部27が抽出した本文テキストと、を対比し、文書が検査用ブラウザにより正しく描画されたか否かを判定する。そして、認識済テキストに出現する文字のうちに、本文テキストに出現しない文字が有る場合には、文書が検査用ブラウザにより正しく描画されていないと判定する。また、本文テキストに出現する文字のうちに、認識済テキストに出現しない文字が有る場合も、文書が検査用ブラウザにより正しく描画されていないと判定する。一方、認識済テキストと本文テキストとが合致する場合には、文書が検査用ブラウザにより正しく描画されたと判定する。
なお、判定部28は、認識済テキストと本文テキストとを文字単位で対比しても良いし、単語(空白文字や記号で区切られた文字列)単位で対比しても良い。また、判定部28は、文書がどのような言語で記述されているかに応じて、文字単位での対比か単語単位での対比かを切り替えても良い。例えば、判定部28は、文書が英語で記述されている場合には、認識済テキストと本文テキストとを単語単位で対比し、文書が日本語で記述されている場合には、認識済テキストと本文テキストとを文字単位で対比しても良い。なお、判定部28は、例えば、言語指定用langタグの値を参照したり、bodyタグ内に多数出現する文字の言語を特定したりすることにより、文書がいずれの言語で記述されているかを特定することができる。
また、判定部28は、判定結果を、表示部25を制御して、表示装置13の画面に表示させる。
図6は、文書が検査用ブラウザにより正しく描画されていない旨を表示する画面を示す。判定部28により文書が正しく描画されていないと判定された場合には、同図に示すように、「文書は検査用ブラウザにより正しく表示されませんでした。」という文字列が画面に判定結果として表示される。
また、判定部28は、表示部25を制御して、文書が正しく描画されていない旨の警告を、文書が検査用ブラウザにより描画された画面における正しい描画が為されていない部分に表示する。さらに、判定部28は、ユーザが正しく描画されていない部分がどこか一目で分かるように、表示部25を制御して、正しく描画されていない部分又はその前後の部分を黒で塗り潰す。以下、図7を参照して具体的に説明する。
図7は、図3に示す文書が正しく描画されていない旨の警告を表示する表示装置13の画面を示す。同画面において、バナー広告に部分的に隠された「健康食品・サプリメント」という文字列の周辺にエクスクラメーションマーク130aが表示されている。また、フレーム110b内にエクスクラメーションマーク130bが表示されている。ユーザは、エクスクラメーションマーク130a、130bにより、正しく描画されていない部分のおおよその位置を知ることができる。また、図7では、文字列「リメ」と文字列「ヘル」の色が反転して表示されると共に、これらの文字列の背景が黒で塗り潰されている。これは、文字「ン」、「ト」の前後2文字の背景を黒で塗り潰すことにより、黒で塗り潰された部分の間の文字が欠落していることを表している。そのため、ユーザはこの塗り潰しを見ればどの位置の文字が欠落しているかを簡単に発見することができる。また、同図では、フレーム110b内の重なった文字列の色が反転して表示されると共に、文字同士が重なっている部分が黒で塗り潰されている。これにより、ユーザは文字同士が重なっている部分の位置を容易に特定することができる。
なお、エクスクラメーションマークに隠れた文字をユーザが判別できるように、半透明のエクスクラメーションマークを画面に表示しても良い。また、描画の欠陥部分を発見し易くするための塗り潰しの色は、目立つ色であれば黒以外の色であって良く、例えば、赤、青、黄であって良い。また、判定部28は、文字認識の結果得られた各文字が画像110内におけるどの位置から認識されたかを示す位置情報を使用することによって、文字が抜けている位置や、文字が重なっている位置を推定することができる。この推定により、判定部28は、表示装置13の画面内における正しく描画されていない文字の周辺に警告を表示させたり、正しく表示されていない部分に色付けさせたりすることができる。また、図7に示すように、文字がフレームからはみ出てしまうと、文字とフレームの枠線が重なってしまうことがある。この場合、フレームの枠線と重なる文字については、正しい文字が認識されない。この特徴を利用すれば、レイアウト上の問題が生じていることを警告することも可能となる。従って、文字の欠落や文字同士の重なりの他に、各種の枠線から文字の一部がはみ出て重なった場合にも、本願発明により警告を出すことができる。また、上記説明では、欠落した文字の前後2文字を黒で塗り潰すことにより、文字の欠落が生じていることを表現したが、前後2文字に限らず、所定の文字数で欠落した文字の前後の文字を黒で塗り潰しても良い。例えば、前後1文字であっても良いし、前後3文字であっても良い。また、欠落した文字の直前の文字だけ黒で塗り潰す又は直後の文字だけ黒で塗り潰すことにより、文字の欠落が生じていることを表現しても良い。
図8は、本発明の実施形態に係る検査装置1により実行される処理の流れを表すフローチャートである。以下、同図を参照して説明する。本処理は、検査装置1のハードウェア上でプログラムを実行することにより開始され、この処理によって検査装置1が実現される。
本処理が開始されると、取得部24は、文書が正しく描画されるか否かを検査する旨の要求(検査要求)の有無を判定する(ステップS1)。そして、取得部24は、受付部23から検査要求を受け付けた場合には、検査要求が有ると判定し(ステップS1;YES)、検査用ソフトウェアをソフトウェア記憶部21から取得する(ステップS2)。なお、取得部24は、受付部23から検査要求が供給されない場合には、検査要求が無いと判定し(ステップS1;NO)、受付部23から検査要求を受け付けるまで検査要求の有無の判定を繰り返す。
取得部24は、検査用ソフトウェアを取得すると、検査用ソフトウェアを起動し、初期化処理を行う(ステップS3)。初期化処理は、上述したように、特定のブラウザが検査用ブラウザとして指定されている場合にその指定を解除する処理、特定の文書が検査対象として指定されている場合にその指定を解除する処理を含む。
次に、取得部24は、ユーザが検査対象として選択した文書を示す指示の有無を判定する(ステップS4)。取得部24は、受付部23からユーザが検査対象として選択した文書を示す指示を受け付けた場合には、指示が有ると判定する(ステップS4;YES)。そして、受け付けた指示に基づいて、ユーザが選択した文書を文書記憶部22から検査対象として取得する(ステップS5)。なお、取得部24は、受付部23から指示が供給されない場合には、指示が無いと判定し(ステップS4;NO)、受付部23から指示を受け付けるまで指示の有無の判定を繰り返す。
次に、取得部24は、ユーザが検査用ブラウザとして選択したブラウザを示す指示の有無を判定する(ステップS6)。取得部24は、受付部23からユーザが検査用ブラウザとして選択したブラウザを示す指示を受け付けた場合には、指示が有ると判定し(ステップS6;YES)、選択されたブラウザをソフトウェア記憶部21から検査用ブラウザとして取得する(ステップS7)。なお、取得部24は、受付部23から指示が供給されない場合には、指示が無いと判定し(ステップS6;NO)、受付部23から指示を受け付けるまで指示の有無の判定を繰り返す。
取得部24は、検査用ブラウザを取得すると、検査用ブラウザを起動する。そして、検査対象として取得した文書を検査用ブラウザに与え(ステップS8)、表示装置13の画面に表示させることにより(ステップS9)、検査対象の文書が描画された画像を取得する(ステップS10)。
認識部26は、取得部24により取得された画像を文字認識することにより(ステップS11)、認識済テキストを取得する(ステップS12)。一方、抽出部27は、取得部24により取得された文書からタグを除去することにより、本文テキストを抽出する(ステップS13)。
そして、判定部28は、認識部26が取得した認識済テキストと、抽出部27が抽出した本文テキストと、を対比し(ステップS14)、文書が検査用ブラウザにより正しく描画されたか否かを判定する(ステップS15)。判定部28は、認識済テキストに出現する文字のうちに、本文テキストに出現しない文字が有る場合には、文書が検査用ブラウザにより正しく描画されていないと判定する(ステップS15;NO)。また、本文テキストに出現する文字のうちに、認識済テキストに出現しない文字が有る場合も、文書が検査用ブラウザにより正しく描画されていないと判定する(ステップS15;NO)。
判定部28は、文書が検査用ブラウザにより正しく描画されていないと判定した場合には、表示部25を制御して、その旨を表示装置13の画面に表示させる(ステップS16)。具体例については、図6を参照されたい。また、判定部28は、文書が正しく描画されていない旨の警告を、文書が検査用ブラウザにより画面における正しい描画が為されていない部分に表示させる(ステップS17)。具体例については、図7を参照されたい。
なお、ステップS15において、判定部28は、認識済テキストと本文テキストとが合致する場合には、文書が検査用ブラウザにより正しく描画されたと判定し(ステップS15;YES)、表示部25を制御して、その旨を表示装置13の画面に表示させる(ステップS18)。
また、判定部28は、ステップS17又は18の処理を実行すると、ステップS3に戻り、初期化処理を再度実行する。これにより、検査用ブラウザと検査対象の文書に係る指定が解除され、新たな検査の開始準備が整えられる。
以上説明したように、本発明の実施形態に係る検査装置1は、文書を検査用ブラウザに与えて、画面に表示させることにより、文書が描画された画像を取得する。そして、取得した画像から文字認識により取得した認識済テキストと、文書からタグを除去して抽出した本文テキストと、を対比することにより、文書が検査用ブラウザにより正しく描画されたか否かを判定する。従って、本発明の実施形態に係る検査装置1によれば、テキストを含む文書がブラウザや端末に関わらず正しく描画されるか否かを適切に検査することができる。
また、ユーザが文書の描画の是非をチェックすると、チェック漏れが生じ易い。特に文字の欠落はユーザに見過ごされてしまいがちである。この点に関し、検査装置1がユーザの代わりに文書の描画の是非をチェックすることにより、チェック漏れは抑制される。
(変形例)
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。即ち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
上記実施形態では、本文テキストを抽出する方法の一例として、検査対象の文書から本文テキストを抽出する方法を説明したが、本発明はこれに限定されず、他の方法により本文テキストを抽出しても良い。
例えば、抽出部27は、取得部24に、ソフトウェア記憶部21が記憶する複数のブラウザのうちの検査用ブラウザ以外のブラウザ(以下、第2ブラウザと言う。)に検査対象の文書を与えて、画面に表示させることにより、文書が描画された画像(以下、第2画像と言う。)を取得させて良い。そして、抽出部27は、認識部26に、取得された第2画像を文字認識させることにより、本文テキストを抽出しても良い。また、判定部28は、文字認識により抽出された本文テキストと認識済テキストとを対比することにより、文書が検査用ブラウザにより正しく描画されたか否かを判定して良い。ただし、第2ブラウザは、文書が正しく描画されることを保証されているブラウザであるほうが望ましい。認識済テキストと本文テキストとが合致しない場合に、検査用ブラウザの描画に欠陥があると断定できるからである。以下、図9、10を参照して、正しい文書の描画が保証された第2ブラウザを用いた場合における、文書の描画の是非を判定する処理の流れを具体的に説明する。
図9は、図3に示す文書が第2ブラウザにより描画された第2画像を示す図である。取得部24は、図3に示す文書を第2ブラウザに与え、画面に表示させることにより、同図に示す文書が描画された第2画像を取得することができる。第2ブラウザは文書が正しく描画されることを保証されているため、図9に示すように、第2画像において文字がバナー広告に隠されたり文字同士が重なって表示されたりすることは起こりえない。このように第2画像には描画の欠陥が無いので、抽出部27は第2画像を文字認識することにより図5(b)に示す本文テキストと同様に欠陥が無い本文テキストを抽出することができる。そして、判定部28は、この本文テキストを用いて、文書が正しく描画されたか否かを判定することができる。
図10は、第2ブラウザを用いた本文テキスト抽出方法を採用した場合における、検査装置1により実行される処理の流れを表すフローチャートである。以下、同図を参照して、第2ブラウザを用いて本文テキストを抽出する場合の本処理の流れを説明する。ただし、図8を参照して既に説明した処理については説明を省略する。
ステップS12において、認識部26が認識済テキストを取得すると、抽出部27は、取得部24に、ソフトウェア記憶部21から第2ブラウザを取得させ(ステップS19)、第2ブラウザを起動させる。次に、抽出部27は、取得部24に、検査対象の文書を第2ブラウザに与え(ステップS20)、表示装置13の画面に表示させることにより(ステップS21)、検査対象の文書が描画された第2画像を取得させる(ステップS22)。
次に、抽出部27は、認識部26に、取得部24により取得された第2画像を文字認識させることにより(ステップS23)、本文テキストを抽出する(ステップS13)。ステップS14以降の処理については図8を参照して既に説明したので省略する。
上述したように、第2ブラウザは、文書が正しく描画されることを保証されたブラウザであることが望ましいが、このような保証が無くても第2ブラウザを用いて文書の描画の是非を検査することは有用である。なぜなら、検査用ブラウザと第2ブラウザで認識された文字が違うことが分かれば、検査用ブラウザの描画に欠陥があると断定できないものの、どちらか若しくは両方のブラウザの描画に欠陥があると分かるので、文書作成者は文書に何らかの修正を加える必要があると気付けるからである。
また、上記実施形態では、判定部28は、認識済テキストと本文テキストとが1文字でも違えば、文書が検査用ブラウザにより正しく描画されていないと判定したが、軽微な差異であれば文書が正しく描画されたと判定しても良い。例えば、判定部28は、許容できる差異の度合いを示す許容度を設定し、認識済テキストと本文テキストとの差異が許容度以下であれば、文書が正しく描画されたと判定しても良い。許容度は、例えば、5文字までの差異なら許容すると設定されても良いし、10文字までの差異なら許容すると設定されても良い。また、ユーザが予め許容度を設定しても良いし、判定部28が認識済テキストと本文テキストとを対比する前に許容度の設定をユーザに求めても良い。また、判定部28は、判定結果を表示装置13の画面に表示すると共に、本文テキストに対する認識済テキストの適合度を表示しても良い。例えば、本文テキストの文字数が100文字であり、本文テキストと認識済テキストとの差異が5文字である場合には、適合度=95%と表示する。また、判定部28は、ユーザが差異の内容を把握できるように詳細レポートを表示装置13の画面に表示しても良い。詳細レポートには、「文書に出現する全文字のうち画面に正しく表示されていない文字が3文字存在します。」というメッセージや、「文書に出現する50文字目の文字「あ」及び60文字目の文字「い」が、画面に表示されていません。」というメッセージが含まれていて良い。
また、ここまでは、ソフトウェア記憶部21が記憶する複数のブラウザのうちの1つを検査用ブラウザとして用いる例を説明したが、ソフトウェア記憶部21が記憶する全ブラウザを検査用ブラウザとして用いて文書の描画の是非を検査しても良い。この場合、取得部24は、検査対象の文書をソフトウェア記憶部21が記憶する全ブラウザに与え、ブラウザごとに検査対象の文書が描画された画像を取得する。続いて、認識部26は、取得された画像ごとに文字認識してテキストを取得する。そして、判定部28は、取得された全テキストを互いに対比し、いずれか2つのテキストの差異が許容度を超えていれば、文書が正しく描画されていないと判定し、2つのテキストの差異がいずれも許容度以下であれば、文書が正しく描画されたと判定する。これにより、文書作成者は、文書がブラウザや端末の種類に関わらずほぼ同じ内容で描画されているかを、ブラウザ又は端末ごとにいちいちチェックしなくても確認することができる。従って、文書の調整にかかる作業負担が軽減される。
また、上記実施形態では、取得部24は、文書を画面に表示させることにより、文書が描画された画像を取得した。この場合、画面に表示されたテキストしか描画の是非の判定対象にならないので、文書全体について描画の是非が判定されないことがある。そこで、文書が検査用ブラウザに提供されると、検査用ブラウザの仮想ビューを起動し、文書全体を仮想ビューに描画させる機能を検査用ソフトウェアに追加しても良い。この機能により、取得部24は文書全体が描画された画像を仮想ビューから取得することができる。従って、判定部28は、文書全体が画面に収まりきらない場合でも、文書全体について描画の是非を判定することができる。
また、文書全体が画面に収まりきらない場合には、画面に表示されているスクロールバーを自動的にスクロールさせることにより、文書全体を画面に表示させる機能を検査用ソフトウェアに追加しても良い。この機能により、取得部24は仮想ビューが無くても文書全体が描画された画像を取得することができる。
なお、検査装置1とネットワークを介して通信可能な外部装置に図2に示す機能構成の一部を実装しても構わない。例えば、検査装置1は、ソフトウェア記憶部21、文書記憶部22として機能する外部装置から、各種ソフトウェアや文書を取得しても良い。また、受付部23として機能する外部装置がユーザからの各種要求や指示を受け付けて、検査装置1は、外部装置にユーザからの各種要求や指示を供給させても良い。また、検査装置1は、文書を表示部25として機能する外部装置に提供し、外部装置の画面に表示させることにより、文書が描画された画像を取得しても良い。さらに、検査装置1は、検査結果を外部装置の画面に表示させても良い。
なお、本発明に係る機能を実現するための構成を予め備えた検査装置1として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る検査装置1として機能させることもできる。即ち、上記実施形態で例示した検査装置1による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するCPU等が実行できるように適用することで、本発明に係る検査装置1として機能させることができる。また、本発明に係る検査方法は、検査装置1を用いて実施できる。
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体[CD−ROM(Compact Disc Read-Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto Optical disc)等]に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。
なお、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。即ち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
(まとめ)
以下に本発明のまとめを記載する。
本発明の一形態に係る検査装置は、
文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
前記文書から描画されるべき本文テキストを抽出する抽出部、
前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
を備える。
前記抽出部は、前記文書からタグを除去することにより、前記本文テキストを抽出しても良い。
前記判定部は、前記認識済テキストに出現する文字のうちに、前記本文テキストに出現しない文字が有る場合には、前記文書が前記ブラウザに正しく描画されていないと判定しても良い。
前記判定部は、前記本文テキストに出現する文字のうちに、前記認識済テキストに出現しない文字が有る場合には、前記文書が前記ブラウザに正しく描画されていないと判定しても良い。
前記抽出部は、前記取得部に、前記文書を第2ブラウザに与えて、画面に表示させ若しくは前記第2ブラウザの仮想ビューに描画させることにより、当該文書が描画された第2画像を取得させ、前記認識部に、当該取得された第2画像を文字認識させることにより、前記本文テキストを抽出しても良い。
本発明の一形態に係る検査方法は、
検査装置が、文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得ステップ、
前記検査装置が、前記取得された画像を文字認識することにより、認識済テキストを取得する認識ステップ、
前記検査装置が、前記文書から描画されるべき本文テキストを抽出する抽出ステップ、
前記検査装置が、前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定ステップ、
を備える。
本発明の一形態に係るコンピュータ読み取り可能な記録媒体は、
コンピュータを、
文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
前記文書から描画されるべき本文テキストを抽出する抽出部、
前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
として機能させるプログラムを記録する。
本発明の一形態に係るプログラムは、
コンピュータを、
文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
前記文書から描画されるべき本文テキストを抽出する抽出部、
前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
として機能させる。
本発明によれば、テキストを含む文書がブラウザにより正しく描画されるか否かを適切に検査する検査装置、検査方法、記録媒体、及び、プログラムを提供することができる。
1 検査装置
11 記憶装置
12 受付装置
13 表示装置
14 制御部
21 ソフトウェア記憶部
22 文書記憶部
23 受付部
24 取得部
25 表示部
26 認識部
27 抽出部
28 判定部
100 文書
110 画像

Claims (8)

  1. 文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
    前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
    前記文書から描画されるべき本文テキストを抽出する抽出部、
    前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
    を備える検査装置。
  2. 前記抽出部は、前記文書からタグを除去することにより、前記本文テキストを抽出する請求項1に記載の検査装置。
  3. 前記判定部は、前記認識済テキストに出現する文字のうちに、前記本文テキストに出現しない文字が有る場合には、前記文書が前記ブラウザに正しく描画されていないと判定する請求項1に記載の検査装置。
  4. 前記判定部は、前記本文テキストに出現する文字のうちに、前記認識済テキストに出現しない文字が有る場合には、前記文書が前記ブラウザに正しく描画されていないと判定する請求項1に記載の検査装置。
  5. 前記抽出部は、前記取得部に、前記文書を第2ブラウザに与えて、画面に表示させ若しくは前記第2ブラウザの仮想ビューに描画させることにより、当該文書が描画された第2画像を取得させ、前記認識部に、当該取得された第2画像を文字認識させることにより、前記本文テキストを抽出する請求項1に記載の検査装置。
  6. 検査装置が、文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得ステップ、
    前記検査装置が、前記取得された画像を文字認識することにより、認識済テキストを取得する認識ステップ、
    前記検査装置が、前記文書から描画されるべき本文テキストを抽出する抽出ステップ、
    前記検査装置が、前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定ステップ、
    を備える検査方法。
  7. コンピュータを、
    文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
    前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
    前記文書から描画されるべき本文テキストを抽出する抽出部、
    前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
    として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  8. コンピュータを、
    文書をブラウザに与えて、画面に表示させ若しくはブラウザの仮想ビューに描画させることにより、当該文書が描画された画像を取得する取得部、
    前記取得された画像を文字認識することにより、認識済テキストを取得する認識部、
    前記文書から描画されるべき本文テキストを抽出する抽出部、
    前記認識済テキストと前記本文テキストとを対比することにより、前記文書が前記ブラウザにより正しく描画されたか否かを判定する判定部、
    として機能させるプログラム。
JP2017547240A 2015-10-27 2015-10-27 検査装置、検査方法、記録媒体、及び、プログラム Active JP6356924B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/080288 WO2017072865A1 (ja) 2015-10-27 2015-10-27 検査装置、検査方法、記録媒体、及び、プログラム

Publications (2)

Publication Number Publication Date
JP6356924B2 JP6356924B2 (ja) 2018-07-11
JPWO2017072865A1 true JPWO2017072865A1 (ja) 2018-07-19

Family

ID=58629960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547240A Active JP6356924B2 (ja) 2015-10-27 2015-10-27 検査装置、検査方法、記録媒体、及び、プログラム

Country Status (2)

Country Link
JP (1) JP6356924B2 (ja)
WO (1) WO2017072865A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7044546B2 (ja) * 2017-12-27 2022-03-30 Necソリューションイノベータ株式会社 検査装置、検査方法および検査プログラム
JP6993284B2 (ja) * 2018-04-16 2022-01-13 株式会社日立製作所 Webブラウザ間の動作差異情報生成装置及び動作差異情報生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282840A (ja) * 1998-03-26 1999-10-15 Hitachi Software Eng Co Ltd 文書作成編集支援システムおよび記録媒体
JP2006079571A (ja) * 2004-09-07 2006-03-23 Soar System Inc プリンタ印刷照合検査装置
JP2009134407A (ja) * 2007-11-29 2009-06-18 Nomura Research Institute Ltd コンピュータプログラムの実行結果を検証するためのテスト装置及び方法
JP2011008622A (ja) * 2009-06-26 2011-01-13 Fujitsu Ltd 表示テスト装置、表示テストプログラムおよび表示テスト方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282840A (ja) * 1998-03-26 1999-10-15 Hitachi Software Eng Co Ltd 文書作成編集支援システムおよび記録媒体
JP2006079571A (ja) * 2004-09-07 2006-03-23 Soar System Inc プリンタ印刷照合検査装置
JP2009134407A (ja) * 2007-11-29 2009-06-18 Nomura Research Institute Ltd コンピュータプログラムの実行結果を検証するためのテスト装置及び方法
JP2011008622A (ja) * 2009-06-26 2011-01-13 Fujitsu Ltd 表示テスト装置、表示テストプログラムおよび表示テスト方法

Also Published As

Publication number Publication date
JP6356924B2 (ja) 2018-07-11
WO2017072865A1 (ja) 2017-05-04

Similar Documents

Publication Publication Date Title
US20060217956A1 (en) Translation processing method, document translation device, and programs
US20070185837A1 (en) Detection of lists in vector graphics documents
US11379536B2 (en) Classification device, classification method, generation method, classification program, and generation program
JP5528420B2 (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
WO2014101504A1 (zh) 应用程序中的文字检测方法和装置
JP6356924B2 (ja) 検査装置、検査方法、記録媒体、及び、プログラム
US20170031879A1 (en) Detecting text truncation in a graphical user interface
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
US20220138088A1 (en) Internationalization of automated test scripts
US11227096B2 (en) Error detection in text string within displayed layout
Alahmadi VID2XML: Automatic Extraction of a Complete XML Data From Mobile Programming Screencasts
Darvishy et al. Comparison of the effectiveness of different accessibility plugins based on important accessibility criteria
JP2010157065A (ja) 機械翻訳システム及び機械翻訳方法
JP7345012B2 (ja) 情報処理システム、情報処理方法およびプログラム
CN116263784A (zh) 面向图片文本的粗粒度情感分析方法及装置
JP5483526B2 (ja) 機械翻訳システム及び機械翻訳方法
US20170249301A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP6390858B2 (ja) グラフィックエレメントおよびテキストエレメントを含む2つのデータの比較装置および比較方法
JP4448724B2 (ja) ウェブブラウザのアクセシビリティ検査プログラム
JP2019215936A (ja) 自動翻訳装置及び自動翻訳プログラム
US12019975B1 (en) Automatic webpage layout checker: 5D deep learning based on unique rules for coloring web component borders and non-space
JP2022069122A (ja) 書体設定装置、書体設定方法及びコンピュータプログラム
Ivanova et al. Usability strategy and guidelines for building an accessible web portal
US10203865B2 (en) Document content reordering for assistive technologies by connecting traced paths through the content
CN110851349A (zh) 页面异常显示的检测方法、终端设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180425

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180425

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180614

R150 Certificate of patent or registration of utility model

Ref document number: 6356924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250