JPWO2010044123A1 - 検索装置、検索用索引作成装置、および検索システム - Google Patents
検索装置、検索用索引作成装置、および検索システム Download PDFInfo
- Publication number
- JPWO2010044123A1 JPWO2010044123A1 JP2010533724A JP2010533724A JPWO2010044123A1 JP WO2010044123 A1 JPWO2010044123 A1 JP WO2010044123A1 JP 2010533724 A JP2010533724 A JP 2010533724A JP 2010533724 A JP2010533724 A JP 2010533724A JP WO2010044123 A1 JPWO2010044123 A1 JP WO2010044123A1
- Authority
- JP
- Japan
- Prior art keywords
- search
- character string
- partial character
- candidate
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
入力された検索用クエリから検索用部分文字列を取得する部分文字列抽出部22と、検索用部分文字列に基づいて候補名称テキストおよび候補名称テキスト中の部分文字列出現位置情報を取得する部分文字列検索部23と、候補名称テキストごとに部分文字列出現位置情報を考慮して候補名称テキストの部分文字列の出現位置が重複しないように整合して照合スコアを集計する候補集計部24と、照合スコアに基づいて提示候補を決める提示候補選択部25と、提示候補を提示する候補提示部26を備える。
Description
この発明は、入力された検索語に対する文字列の検索において、特にあいまい性を含む検索語を精度良く検索可能な検索装置、検索用索引作成装置、および検索システムに関するものである。
従来、予め検索対象となりうる名称のIDと名称中の部分文字列との対応関係を記述した部分文字列をキーとした索引を作成し、この索引を参照してあいまい語検索を高速に行う方法が知られている。特許文献1に開示されたあいまい名称検索技術では、検索文字列を長さ「2」の部分文字列に分解し、部分文字列が存在する名称に対してスコアを1点ずつ加算することにより、あいまい語の検索を行っている。さらに、表記および読みを展開して検索文字列を長さ「1」の部分文字列で検索することにより、表記と読みのあいまい性を考慮した検索方法が開示されている。例えば、名称「阿蘇山」に対して、読み「あそさん」の部分文字列である「あ」,「そ」,「さ」,「ん」,「あそ」,「そさ」,「さん」,「阿」,「蘇」,「山」を検索対象に含めることであいまい性を吸収している。
また、OCRや音声認識など、あいまい性のある入力を考慮した検索方法に対して高い再現率を得るために、誤認識を考慮して可能な候補を展開することが検討されている。このとき、索引に対して想定される誤認識を展開すると索引が非常に大きくなるため、特許文献2では、音声文書内の音声認識結果の単語が正しくはどの単語の誤りとして出力されるのかを統計的に求めることによって得られる正解単語候補を用いて文書ベクトルの作成を行うことにより、音声認識単語には存在しないユーザの検索質問との類似度を上昇させ、検索の再現率を改善している。
また、特許文献3では、予め文字を形態的類似性に従ってグループ化した類似文字群に区別しておき、文字コードを類似文字群を代表する文字に変換して類似文書を検索することにより、誤認識に対する類似判定の精度を向上させて検索の再現率を改善している。
さらに、特許文献4では、あいまい性のある箇所が1つ以上含まれているテキストに対して、あいまいな箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出し、この特徴情報を用いてあいまいな箇所の候補の組み合わせを選択している。
さらに、特許文献4では、あいまい性のある箇所が1つ以上含まれているテキストに対して、あいまいな箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出し、この特徴情報を用いてあいまいな箇所の候補の組み合わせを選択している。
従来のあいまい性を含む名称の検索は以上のように構成されているので、特許文献1では読みを展開した場合の排他性が考慮されない。例えば、「山さん」という入力に対して「阿蘇山」および「あそさん」を見出しに持つ名称の一致度が100%となる。この検索結果はユーザの違和感が大きく、これらの候補の追加によって、検索結果として提示する候補の妥当性が低下するという課題があった。展開した名称を別に追加すればこの課題は回避可能であるが、その場合登録名称数の増加に比例して索引のサイズが拡大するという課題がある。
特に、検索語の入力が音声認識結果である場合、長音化・濁音化・清音化など発音に基づく発声の揺らぎによって、読みを付与する場合にあいまい性が生じる。長音化は、二重母音(/ou/,/ei/)が特定の文脈において先行母音の連続(/oo/,/ee/)のように発音され易い性質である。例えば、「東京」は、読み「トウキョウ」よりも「トーキョー」に近く発声される。この長音化は、音素配列だけではなく言語的な文脈により生じないケースもある。例えば、「京都魚市場」の読み「キョウトウオイチバ」の場合、「キョウ」は「キョー」に長音化される場合がある一方で、「トウ」は「トー」のように長音化されない。
濁音化および清音化も同様に文脈に応じて濁音が濁らない清音になったり、清音が濁る濁音になる。例えば、「研究所」の読み「ケンキュウジョ」は「ケンキュウショ」のように発声されるケースがある。
これらの名称を複数に展開して索引を作成する場合、一般に索引サイズが展開して追加した変形の名称数に比例するため数倍以上のサイズとなってしまう。
これらの名称を複数に展開して索引を作成する場合、一般に索引サイズが展開して追加した変形の名称数に比例するため数倍以上のサイズとなってしまう。
また、特許文献2では、統計的に求められる正解単語候補を用いて文書ベクトルの作成を行うため、当該文書ベクトル作成の処理時間が必要になるという課題があった。特許文献3では、予め文字を形態的類似性に従ってグループ化することにより、例えば「トウ」と「トオ」を区別せずにまとめて扱うため、索引サイズは増加しないものの、前述したように文脈により区別可能な表現が集約されるため検索精度が低下するという課題があった。一方、特許文献4に示されるように、入力されたテキストに対してあいまいな箇所を複数通りの候補に展開する場合、入力テキストの個数に比例した処理時間が必要になるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、索引サイズの拡大および検索時の演算量を抑制すると共に、あいまい性を考慮した検索において検索精度を向上させることを目的とする。
この発明に係る検索装置は、検索用クエリを取得する入力部と、前記検索用クエリから検索用部分文字列を取得する部分文字列抽出部と、前記検索用部分文字列に基づいて候補名称テキストおよび前記候補名称テキスト中の部分文字列出現位置情報を取得する部分文字列検索部と、前記候補名称テキストごとに前記部分文字列出現位置情報を考慮して前記候補名称テキストの部分文字列の出現位置が重複しないように整合して照合スコアを集計する候補集計部と、前記照合スコアに基づいて提示候補を決める提示候補選択部と、前記提示候補を提示する候補提示部とを備えるものである。
この発明によれば、候補名称テキストごとに部分文字列出現位置情報を考慮して候補名称テキストの部分文字列の出現位置が重複しないように整合して照合スコアを集計する候補集計部と、照合スコアに基づいて提示候補を決める提示候補選択部と、提示候補を提示する候補提示部とを備えるように構成したので、検索語のあいまい性を考慮した検索において検索精度を向上させることができる。また、部分文字列索引のサイズの拡大および検索時の演算量を抑制することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る検索システムの構成を示すブロック図である。
検索システム100は、索引作成装置(検索用索引作成装置)10、検索装置20、名称データベース101、部分文字列索引記憶部102で構成されている。
索引作成装置10は、名称データベース101に記憶されている検索対象となりうる名称テキストに基づき事前に部分文字列索引を作成する。検索装置20は、入力される検索語に応じて部分文字列索引記憶部102に記憶されている部分文字索引を用いて検索結果候補を演算し、出力する。
実施の形態1.
図1は、この発明の実施の形態1に係る検索システムの構成を示すブロック図である。
検索システム100は、索引作成装置(検索用索引作成装置)10、検索装置20、名称データベース101、部分文字列索引記憶部102で構成されている。
索引作成装置10は、名称データベース101に記憶されている検索対象となりうる名称テキストに基づき事前に部分文字列索引を作成する。検索装置20は、入力される検索語に応じて部分文字列索引記憶部102に記憶されている部分文字索引を用いて検索結果候補を演算し、出力する。
名称データベース101は、検索対象となりうる名称テキストに関する情報が登録されている。登録情報は、それぞれの名称テキストに関する認識可能な名称IDおよび名称の文字列を表す見出しで構成されている。さらに、この見出しに対応する漢字、アルファベット、数字あるいは記号などを含む表記が含まれていてもよい。図2は、名称データベース101の登録情報の一例を示す図である。部分文字列索引記憶部102は、索引作成装置10が作成した部分文字列索引を記憶する。
図3は、この発明の実施の形態1に係る索引作成装置の構成を示すブロック図である。
索引作成装置10は、言語解析用辞書11、名称展開部12、部分文字列抽出部13および部分文字列ソート部14で構成されている。言語解析用辞書11は、言語解析を行い見出しの変形を抽出する際に用い、単語情報と単語を結合するための言語規則を有している。図4は言語解析用辞書に登録されている単語情報の一例示し、図5は言語規則の一例を示している。
索引作成装置10は、言語解析用辞書11、名称展開部12、部分文字列抽出部13および部分文字列ソート部14で構成されている。言語解析用辞書11は、言語解析を行い見出しの変形を抽出する際に用い、単語情報と単語を結合するための言語規則を有している。図4は言語解析用辞書に登録されている単語情報の一例示し、図5は言語規則の一例を示している。
図4に示すように単語情報として、名称データベース101から取得可能な見出し、この見出しに対応する表記、品詞などの言語情報、および表記ゆれを示す変形パタンが登録されている。単語とは、読みと表記の少なくとも一方が1文字以上含まれていればよく、言語学的な意味に制約されるものではない。また、変形パタンを構成する読みの長さは、元の見出しの読みの長さと同一とする。また、図5に示すように言語規則として、解析のために必要な情報である品詞や単語を結合するための知識(先行品詞および後続品詞などで示す接続可能性やペナルティ)が登録されている。
名称展開部12は、名称データベース101から名称テキストを1つ読み込み、言語解析用辞書11を参照して、読みの先頭位置と整列した場合の位置情報(出現位置情報)を表す各ノードと、この各ノードの接続関係を示すアークで構成される有向グラフで示される待ち受け表現(表現グラフ)を生成する。図6は、名称展開部が生成する有向グラフの一例を示している。図6の例では、図2で示した名称データベース101の名称ID:0002の見出し「キョウトウドン」に対して、変形パタン「キョオ」を適用し、長音を複数通りに展開した有向グラフを示している。有向グラフのノード構成単位は、1文字に相当する音節とする。また、ここでは長音は母音で表し、拗音「ァィゥェォャュョ」や促音「ッ」は単独で発音されないため、前の文字とまとめて1単位とする。
部分文字列抽出部13は、名称展開部12から入力される待ち受け表現の有向グラフから部分文字列を抽出すると共に、その部分文字列に対応する位置情報を付与した部分文字列情報を生成する。図7は、部分文字列抽出部が生成する部分文字列情報の一例を示している。図7の例では、部分文字列を2音節に固定して1音節ずつずらして取得した見出しと、その見出しに対応する名称IDおよび位置情報を対応付けている。部分文字列の取得音節単位は、検索装置に好適な条件で設定可能である。
部分文字列ソート部14は、部分文字列抽出部13から入力される部分文字列情報に基づき、名称IDおよび位置情報のリストをソートする。さらに、部分文字列の見出しと、その見出しに対応する名称IDおよび位置情報からなるリストを作成し、部分文字列索引として部分文字列索引記憶部102に出力する。図8は、部分文字列ソート部が作成する部分文字列索引の一例を示している。図8の例では、アイウエオ順にソートされた部分文字列の見出しと、この見出しに対応する名称ID・位置情報リストの組み合わせで構成される部分文字列索引を示している。
上述のようにして事前に作成した部分文字列索引を参照して検索を行うことにより、名称データベースそのものを走査する場合と比べてはるかに短時間で検索結果に合致する候補名称を取得することができる。
上述のようにして事前に作成した部分文字列索引を参照して検索を行うことにより、名称データベースそのものを走査する場合と比べてはるかに短時間で検索結果に合致する候補名称を取得することができる。
次に、索引作成装置10により作成された部分文字列索引を参照して検索語(検索クエリ)の検索を行う検索装置20について説明する。図9は、この発明の実施の形態1に係る検索装置の構成を示すブロック図である。検索装置20は、入力部21、部分文字列抽出部22、部分文字列検索部23、候補集計部24、提示候補選択部25および候補提示部26で構成されている。
入力部21は、ユーザからの検索クエリの入力を受け付ける。部分文字列抽出部22は、入力された検索クエリから検索用部分文字列を抽出する。部分文字列検索部23は、部分文字列索引記憶部102の部分文字列索引を参照し、部分文字列抽出部22において抽出された検索用部分文字列に対応する候補名称テキストの部分文字列に関する名称ID・位置情報リストを取得する。
候補集計部24は、名称ID毎の累積スコア(照合スコア)および参照した位置情報を格納する集計用メモリ24aを有している。部分文字列検索部23から入力される名称ID・位置情報リストから候補名称テキストの部分文字列の名称IDと位置情報を読み出し、該位置情報と検索用部分文字列の位置情報とに基づき部分文字列の出現位置が重複しないように整合して集計用メモリ24aの累積スコアを更新する。提示候補選択部25は、部分文字列の累積スコアと位置情報に基づき最終スコアを算出し、この最終スコアをソートして検索結果として提示する上位候補を決定する。さらに、この上位候補の名称IDに該当する名称テキストを名称データベース101から読み出し、検索結果名称テキストとして出力する。候補提示部26は、提示候補選択部25から入力される検索結果名称テキストをユーザに提示する。
次に、この発明の実施の形態1に係る検索装置の動作について説明する。図10は、実施の形態1に係る検索装置の検索処理動作を示すフローチャートである。
候補集計部24は、集計用メモリ24aを初期化する(ステップST1)。入力部21は、ユーザにより入力された検索クエリを読み込み、部分文字列抽出部22に出力する(ステップST2)。部分文字列抽出部22は、ステップST2において入力された検索クエリから検索用部分文字列s[i]を抽出し、部分文字列検索部23に出力する(ステップST3)。なお、ここではM個の検索用部分文字列s[1],s[2],・・・,s[M]を抽出するものとする。また、部分文字列の初期値は「1」として、部分文字列抽出開始時にi=1として初期化する。
候補集計部24は、集計用メモリ24aを初期化する(ステップST1)。入力部21は、ユーザにより入力された検索クエリを読み込み、部分文字列抽出部22に出力する(ステップST2)。部分文字列抽出部22は、ステップST2において入力された検索クエリから検索用部分文字列s[i]を抽出し、部分文字列検索部23に出力する(ステップST3)。なお、ここではM個の検索用部分文字列s[1],s[2],・・・,s[M]を抽出するものとする。また、部分文字列の初期値は「1」として、部分文字列抽出開始時にi=1として初期化する。
部分文字列検索部23は、部分文字列索引記憶部102の部分文字列索引を参照して、ステップST3において入力された検索用部分文字列s[i]に対応する候補名称テキストの部分文字列に関する名称ID・位置情報リスト(id[j],ofs[j])を取得し、候補集計部24に出力する(ステップST4)。なお、長さNの名称ID・位置情報リストは(id[1],ofs[1]),(id[2],ofs[2]),・・・,(id[N],ofs[N])と表し、id[j]はj番目の候補名称テキストの名称ID、ofs[j]はj番目の候補名称テキスト中の部分文字列の出現位置を表している。また、リスト長さの初期値は「1」として、部分文字列検索開始時にj=1として初期化する。
候補集計部24は、集計用メモリ24aを参照し、ステップST4において入力された候補名称テキストの部分文字列の名称IDおよび位置情報が累積スコアに加算済みであるか否か判定する(ステップST5)。ステップST5において、累積スコアに未加算であると判定された場合には、id[j]の累積スコアを「1」加算し、重複加算防止のために集計メモリのid[j]についてofs[j]が加算済であるフラグをセットする(ステップST6)。一方、ステップST5において、累積スコアに加算済であると判定された場合にはステップST7の処理に進む。
候補集計部24は、名称ID・位置情報リストの「j」に1を加算し(ステップST7)、jがN以下であるか否か判定する(ステップST8)。ステップST8において、jがN以下であると判定された場合にはステップST5に戻り、次の名称ID・位置情報リスト項目(j+1した項目)に対して上述の処理を繰り返す。一方、ステップST8において、jがN以下でないと判定され、全ての名称ID・位置情報リスト項目の処理が終了した場合には、部分文字列の「i」にも1加算し(ステップST9)、iがM以下であるか否か判定する(ステップST10)。ステップST10において、iがM以下であると判定された場合にはステップST4に戻り、次の部分文字列(i+1した項目)に対して上述の処理を繰り返す。
一方、ステップST10において、iがM以下出ないと判定され、全ての部分文字列の処理が終了した場合には、提示候補選択部25が名称ID毎に累積スコアをソートし、ユーザに提示する上位候補を抽出すると共に、名称データベース101を参照して抽出した上位候補の名称IDに該当する名称テキストを読み出して候補提示部26に出力する(ステップST11)。このとき、名称の長さ、入力の長さ、部分照合のパタンなどを考慮してスコアを正規化してもよい。候補提示部26は、ステップST11において入力された検索結果である名称テキストをユーザに提示する(ステップST12)。
図10のフローチャートに基づく検索処理を実行することにより、図7に示した部分文字列情報の例では「キョウトウドン」および「キョオトウドン」という2通りの表現を受理するものの、部分文字列索引記憶部102のサイズは5項目から7項目への2項目の増加に留まり、検索処理の高速化を可能にしている。
また、検索処理時に位置情報の重複判定に基づいて累積スコアを集計するので、索引作成処理時に複数通りの部分文字列へ展開した場合にもそれらを重複して集計することがなく、検索精度を向上させることができる。具体的には、図7で展開された見出しに対して入力「キョウキョオ」は、「キョウ」または「キョオ」の一方を加算した時点でofs[1]へフラグがセットされるので、2度の重複カウントを避けることができる。
また、検索処理時に位置情報の重複判定に基づいて累積スコアを集計するので、索引作成処理時に複数通りの部分文字列へ展開した場合にもそれらを重複して集計することがなく、検索精度を向上させることができる。具体的には、図7で展開された見出しに対して入力「キョウキョオ」は、「キョウ」または「キョオ」の一方を加算した時点でofs[1]へフラグがセットされるので、2度の重複カウントを避けることができる。
次に、対応付けのあいまい性に対する処理について説明を行う。図10のフローチャートにおける候補集計部24のステップST5の処理において、部分文字列索引記憶部102を構成する名称テキストの部分文字列と検索用部分文字列との対応付けにあいまい性が生じる場合がある。
具体的には、検索用部分文字列が名称テキストの部分文字列中の複数の位置と対応付け可能な場合(条件A)、複数の検索用部分文字列が名称テキスト中の部分文字列中の一つの位置のみと対応付け可能な場合(条件B)に対応付けにあいまい性が生じる。
具体的には、検索用部分文字列が名称テキストの部分文字列中の複数の位置と対応付け可能な場合(条件A)、複数の検索用部分文字列が名称テキスト中の部分文字列中の一つの位置のみと対応付け可能な場合(条件B)に対応付けにあいまい性が生じる。
まず、条件Aの検索用部分文字列と名称テキストの部分文字列の対応付けに関して説明する。検索用部分文字列の出現回数が、名称テキストの部分文字列中の出現回数と同一あるいは多い場合、名称テキストの部分文字列の全ての位置情報と対応付けを行う。
一方、検索用部分文字列の出現回数が、名称テキストの部分文字列の出現回数よりも少ない場合、対応付けのあいまい性が生じる。例えば、名称テキスト「ホオホオ」という文字列には長さが「2」の部分文字列「ホオ」が2回出現する。検索クエリが「ホオ」の場合、集計処理の過程ではどちらの部分文字列と対応付けすべきかあいまいとなる。
一方、検索用部分文字列の出現回数が、名称テキストの部分文字列の出現回数よりも少ない場合、対応付けのあいまい性が生じる。例えば、名称テキスト「ホオホオ」という文字列には長さが「2」の部分文字列「ホオ」が2回出現する。検索クエリが「ホオ」の場合、集計処理の過程ではどちらの部分文字列と対応付けすべきかあいまいとなる。
次に、条件Bの複数の検索用部分文字列が名称テキストの部分文字列中の一つの位置のみと対応付けされる場合、具体例としては長音化前後の表現が両方とも検索クエリに出現する場合、名称「ホウ」について長音化した「ホオ」が同一位置で索引に登録されており、検索クエリが「ホウホオ」の場合、対応付けがあいまいとなる。
上述した条件Aおよび条件Bのあいまい性が生じる場合、候補集計部24は規則により優先順位を決めて対応付けする(方法1)、可能性のある組み合わせについて照合候補を展開する(方法2)、照合履歴に基づいて対応付けを決める(方法3)の周知の方法を用いて対応付け可能である。また、これらの方法を組み合わせることも可能である。
まず、方法1では、あいまい性が生じた場合の適応順序を規則として予め決定しておく。例えば、条件Aにおいて同一名称内で複数回部分文字列が出現した場合、先頭から順に対応付けを行うように決定しておく。また、条件Bにおいて集計を行う部分文字列の順番を予め決定しておく。見出し部分文字列の展開内容が長音化の場合、長音から非長音への一方向の変換であるため、長音でない部分文字列を先に対応付けることにより対応数の集計誤りを防ぐことができる。
方法2では、条件Aのあいまい性が生じた場合、該当する名称IDの累積スコアおよび参照した位置情報が格納された集計用メモリ24aをコピーし、複数の対応付けそれぞれの累積スコアを算出する。最終的に各名称IDについて最大の累積スコアとなる対応付けを採用する。
方法3では、名称ID毎に直前に加算された位置情報を集計用メモリ24aに保持して条件Aのあいまい性を解消する。名称ID毎の位置情報は初期値を0とする。部分文字列索引記憶部102の部分文字列索引において当該名称IDについて複数の位置情報候補が含まれる場合「集計用メモリ24aに保持された位置情報+1」から最も近い位置を対応付け結果とする。これにより、連続性のある位置情報を優先する対応付けを行うことができる。
以上のように、この実施の形態1によれば、検索処理時に位置情報の重複判定を行い累積スコアを集計する候補集計部24を設けるように構成したので、複数通りの部分文字列に展開された索引を用いた場合にも、当該複数通りの部分文字列を重複して集計することがなく、検索精度を向上させることができる。
また、この実施の形態1によれば、検索語と索引の部分文字列の対応付けにあいまい性が生じる場合に、候補集計部24が規則により優先順位を決めて対応付けする(方法1)、可能性のある組み合わせについて照合候補を展開する(方法2)、照合履歴に基づいて対応付けを決める(方法3)などの方法を用いて照合関係を求めるように構成したので、より検索精度を向上させることができる。
また、この実施の形態1によれば、元の名称データベース101内に出現したオリジナル表現である検索語の名称読みに変形が想定される場合に、当該変形可能名称読みに同一の位置情報を付して複数の経路へ展開した有向グラフを作成する名称展開部12を設けるように構成したので、部分文字列索引のサイズの増加を抑制し、検索処理の高速化を実現することができる。
また、この実施の形態1によれば、変形可能な名称読みが想定される文字列を展開した部分文字列索引を参照して、検索語の検索を行うように構成したので、名称データベースそのものを走査する場合と比較して短時間で検索結果に合致する名称テキストを取得することができる。
なお、上記実施の形態1では、部分文字列を2音節として説明を行ったが、形態素を単位として処理してもよい。この場合、発音の揺れだけではなく、同義語表現の重複も吸収可能である。図11は、この形態素を単位とした場合の同義語の展開例を示す図である。「トウキョウ/カントリー/クラブ」、「トウキョウ/ゴルフ/クラブ」の2通りについて重複を考慮して索引作成および検索処理が可能になる。
実施の形態2.
図12は、この発明の実施の形態2に係る検索装置の構成を示すブロック図である。実施の形態2に係る検索装置は、実施の形態1の検索装置に入力方法識別部を追加して設けている。以下、実施の形態1と同一の構成には図9で使用した符号と同一の符号を付し、説明を省略または簡略化する。
図12は、この発明の実施の形態2に係る検索装置の構成を示すブロック図である。実施の形態2に係る検索装置は、実施の形態1の検索装置に入力方法識別部を追加して設けている。以下、実施の形態1と同一の構成には図9で使用した符号と同一の符号を付し、説明を省略または簡略化する。
入力方法識別部31は、入力部21への検索クエリの入力が音声であり部分文字列検索部23に音声認識結果が入力されるか、あるいは入力がキーボードなどであり部分文字列検索部23に検索クエリの読みがテキストのまま直接入力されるかを識別し、識別結果を部分文字列検索部23に出力する。
検索クエリが音声入力であるか、テキスト入力であるかを識別することにより、検索クエリに対する読みの長音化の展開処理が必要であるか、不要であるか判断することが可能となる。テキスト入力である場合には、検索クエリの読みがテキストとして直接入力されているため、読みの長音化の展開処理が不要となる。これに合わせて、部分文字列索引記憶部102の部分文字列索引において、認識入力のために追加した見出しを区別しておき、検索クエリの入力方式に応じて検索表現を切替可能に構成している。
検索クエリが音声入力であるか、テキスト入力であるかを識別することにより、検索クエリに対する読みの長音化の展開処理が必要であるか、不要であるか判断することが可能となる。テキスト入力である場合には、検索クエリの読みがテキストとして直接入力されているため、読みの長音化の展開処理が不要となる。これに合わせて、部分文字列索引記憶部102の部分文字列索引において、認識入力のために追加した見出しを区別しておき、検索クエリの入力方式に応じて検索表現を切替可能に構成している。
図13は、この発明の実施の形態2に係る名称展開部が生成する有向グラフの一例を示す図である。実施の形態2に係る名称展開部12は、名称「キョウトウドン」について、音節を単位とした名称の読みとその長音化を展開した有向グラフを生成する。長音化した部分については「オ*」と記載して展開して生成した結果であることを明記しておく。
図14は、図13の有向グラフに基づき部分文字列抽出部が生成する部分文字列情報の一例を示している。図13の展開結果を参照して名称「キョウトウドン」を文字列長さ「2」の部分文字列に分解した見出し、名称ID(図14においては0002とする)その見出しが出現する位置情報を示す。ただし、展開結果であることを示す記号「*」はそのまま付与しておく。これにより、部分文字列索引記憶部102の索引において、同一の読みであっても名称の読みによって生成された見出しと、名称の読みの長音化により生成された見出しとを区別することができる。
次に、この発明の実施の形態2に係る検索装置の動作について説明する。図15は、実施の形態2に係る検索装置の検索処理動作を示すフローチャートであり、以下このフローチャートに従って説明する。実施の形態1に係る検索装置と同一の処理を行うステップには図10で使用した符号と同一の符号を付し、説明を省略する。
ステップST1において集計用メモリが初期化されると、入力方法識別部31が検索クエリの入力が音声入力であるか、テキスト入力であるかを識別して識別結果を部分文字列検索部23に出力すると共に、入力部21がユーザにより入力された検索クエリを読み込み、部分文字列抽出部22に出力する(ステップST21)。
部分文字列抽出部22は、ステップST2において入力された検索クエリから検索用部分文字列s[i]を抽出し、部分文字列検索部23に出力する(ステップST3)。なお、ここではM個の検索用部分文字列s[1],s[2],・・・,s[M]を抽出するものとする。また、部分文字列の初期値は「1」として、部分文字列抽出開始時にi=1として初期化する。
部分文字列検索部23は、ステップST3において部分文字列抽出部22から入力された検索用部分文字列s[i]、およびステップST21において入力方法識別31から入力された識別結果である検索クリエの入力方法に対応する候補名称テキストの部分文字列に関する名称ID・位置情報リスト(id[j],ofs[j])を取得し、候補集計部24に出力する(ステップST22)。なお、ここで索引リストの長さは「N」とする。また、部分文字列検索開始時にj=1として初期化する。
ステップST22において、検索クエリが音声入力である場合、読みの展開結果である見出し(図14における「キョオ」→「キョオ*」)を追加して参照する。検索クエリがテキスト入力である場合、展開結果を反映せずに部分文字列通りの見出しのみを参照する。
ステップST22において、検索クエリが音声入力である場合、読みの展開結果である見出し(図14における「キョオ」→「キョオ*」)を追加して参照する。検索クエリがテキスト入力である場合、展開結果を反映せずに部分文字列通りの見出しのみを参照する。
候補集計部24は、集計用メモリ24aを参照し、ステップST22において入力された候補名称テキストの部分文字列の名称IDおよび位置情報が累積スコアに加算済であるか否か判定する(ステップST5)。その後、実施の形態1において説明したステップST6からステップST12までと同様の処理を行い、検索結果を出力する。
以上のように、この実施の形態2によれば、検索語の入力方法を識別する入力方法識別部31を設け、索引作成装置10が索引作成時に識別子を付して入力方法を区別可能な索引を作成し、部分文字列検索部23が入力方法識別部31において識別された入力方法に応じて参照する部分文字列の見出しを展開するように構成したので、展開による見出しの増加を除くと部分文字列索引の記載内容は見出しを展開して作成した場合と同等であり、入力方法に応じて2つの部分文字列索引を作成する場合と比べて部分文字列索引の総ファイルサイズを縮小することができる。
また、この実施の形態2によれば、元の名称データベース101内に出現したオリジナル表現である検索語の名称読みと、部分文字列索引作成時に付与した追加表現である展開結果を区別するように構成したので、検索時にまず検索語の名称読みの部分文字列索引と照合し、次に展開結果の部分文字列索引と照合することにより、オリジナル表現である検索語の名称読みとの対応付けを優先して照合することができる。
以上のように、この発明はあいまい性を有する検索語入力に対して精度の高い検索結果を表示する検索装置、検索の際に参照する索引のファイルサイズを縮小可能とする検索用索引作成装置およびこれらを有する検索システムに幅広く適用することができる。
Claims (7)
- 検索用クエリを取得する入力部と、
前記検索用クエリから検索用部分文字列を取得する部分文字列抽出部と、
前記検索用部分文字列に基づいて候補名称テキストおよび前記候補名称テキスト中の部分文字列出現位置情報を取得する部分文字列検索部と、
前記候補名称テキストごとに前記部分文字列出現位置情報を考慮して前記候補名称テキストの部分文字列の出現位置が重複しないように整合して照合スコアを集計する候補集計部と、
前記照合スコアに基づいて提示候補を決める提示候補選択部と、
前記提示候補を提示する候補提示部とを備えることを特徴とする検索装置。 - 検索用クエリの入力方法を識別する入力方法識別部を設け、
部分文字列検索部は、識別された入力方法および検索用部分文字列に基づいて候補名称テキストおよび前記候補名称テキスト中の部分文字列出現位置情報を取得することを特徴とする請求項1記載の検索装置。 - 候補集計部は、検索用クエリと候補名称テキストの部分文字列の位置対応付けにあいまい性が存在する場合に、事前に決めた照合順序で照合する、候補ごと別の照合候補を生成する、照合履歴に基づいて照合関係を求めることの少なくとも一つの方法を用いることを特徴とする請求項1記載の検索装置。
- 候補集計部は、検索用クエリと候補名称テキストの部分文字列の位置対応付けにあいまい性が存在する場合に、事前に決めた照合順序で照合する、候補ごと別の照合候補を生成する、照合履歴に基づいて照合関係を求めることの少なくとも一つの方法を用いることを特徴とする請求項2記載の検索装置。
- 名称テキストを解析し、入力の名称変形が想定される場合に同一位置情報を付した複数の経路へ展開した入力表現グラフを生成する名称展開部と、
展開した名称テキストから部分文字列と出現位置情報を取得する部分文字列抽出部と、
前記部分文字列、前記名称テキストおよび前記出現位置情報をソートして名称テキスト検索のための部分文字列索引を生成する部分文字列ソート部からなる検索用索引作成装置。 - 名称展開部は、入力の名称変形がある場合は名称変形であることを付した符号を付与することを特徴とする請求項5記載の検索用索引作成装置。
- 請求項1記載の検索装置および請求項5記載の検索用索引作成装置を備え、
名称テキストを蓄積する名称データベースおよび前記検索用索引作成装置において作成された部分文字列索引を蓄積する部分文字列索引記憶部を備えたことを特徴とする検索システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/002898 WO2010044123A1 (ja) | 2008-10-14 | 2008-10-14 | 検索装置、検索用索引作成装置、および検索システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2010044123A1 true JPWO2010044123A1 (ja) | 2012-03-08 |
Family
ID=42106301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010533724A Pending JPWO2010044123A1 (ja) | 2008-10-14 | 2008-10-14 | 検索装置、検索用索引作成装置、および検索システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20110106814A1 (ja) |
EP (1) | EP2315134A4 (ja) |
JP (1) | JPWO2010044123A1 (ja) |
WO (1) | WO2010044123A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901235B (zh) | 2009-05-27 | 2013-03-27 | 国际商业机器公司 | 文档处理方法和系统 |
US8903793B2 (en) | 2009-12-15 | 2014-12-02 | At&T Intellectual Property I, L.P. | System and method for speech-based incremental search |
JP5699743B2 (ja) * | 2011-03-30 | 2015-04-15 | カシオ計算機株式会社 | 検索方法、検索装置、ならびに、コンピュータプログラム |
US9262486B2 (en) * | 2011-12-08 | 2016-02-16 | Here Global B.V. | Fuzzy full text search |
US8996501B2 (en) | 2011-12-08 | 2015-03-31 | Here Global B.V. | Optimally ranked nearest neighbor fuzzy full text search |
WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
US9454621B2 (en) * | 2013-12-31 | 2016-09-27 | Google Inc. | Surfacing navigational search results |
US9805073B1 (en) | 2016-12-27 | 2017-10-31 | Palantir Technologies Inc. | Data normalization system |
CN108182289A (zh) * | 2018-01-30 | 2018-06-19 | 深圳市富途网络科技有限公司 | 一种用于快速搜索和插入股票的模块及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63103393A (ja) * | 1986-10-21 | 1988-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語認識装置 |
JPH02158873A (ja) * | 1988-12-12 | 1990-06-19 | Ricoh Co Ltd | キーワード・マッチング装置 |
JPH0395672A (ja) * | 1989-09-08 | 1991-04-22 | Hitachi Ltd | 文字列検索方法及び装置 |
JPH08137668A (ja) * | 1994-11-10 | 1996-05-31 | Fuji Xerox Co Ltd | 類似単語検索のための有限オートマトン作成方法 |
JPH09134369A (ja) * | 1995-11-10 | 1997-05-20 | Fujitsu Ltd | ラティスをキーとした検索を行う辞書検索装置および方法 |
JP2001175661A (ja) * | 1999-12-14 | 2001-06-29 | Mitsubishi Electric Corp | 全文検索装置及び全文検索方法 |
JP2001337989A (ja) * | 2000-05-25 | 2001-12-07 | Ricoh Co Ltd | 文書検索方法 |
JP2002063197A (ja) * | 2000-06-06 | 2002-02-28 | Matsushita Electric Ind Co Ltd | 検索装置、記録媒体およびプログラム |
JP2002312365A (ja) * | 2001-04-18 | 2002-10-25 | Fujitsu Ltd | 文書画像検索装置 |
JP2004206608A (ja) * | 2002-12-26 | 2004-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置並びにプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3134204B2 (ja) * | 1991-07-19 | 2001-02-13 | 株式会社日立製作所 | 情報検索用端末装置及び情報検索用端末装置における情報表示・入出力方法 |
JP2929963B2 (ja) * | 1995-03-15 | 1999-08-03 | 松下電器産業株式会社 | 文書検索装置および単語索引作成方法および文書検索方法 |
JP3665112B2 (ja) | 1995-09-26 | 2005-06-29 | 新日鉄ソリューションズ株式会社 | 文字列検索方法及び装置 |
US5778361A (en) * | 1995-09-29 | 1998-07-07 | Microsoft Corporation | Method and system for fast indexing and searching of text in compound-word languages |
JP3020851B2 (ja) * | 1995-10-23 | 2000-03-15 | シャープ株式会社 | 情報検索装置および情報検索制御方法 |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
JP3622503B2 (ja) * | 1998-05-29 | 2005-02-23 | 株式会社日立製作所 | 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体 |
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6701310B1 (en) * | 1999-11-22 | 2004-03-02 | Nec Corporation | Information search device and information search method using topic-centric query routing |
JP2004348552A (ja) | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声文書検索装置および方法およびプログラム |
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
JP4587165B2 (ja) * | 2004-08-27 | 2010-11-24 | キヤノン株式会社 | 情報処理装置及びその制御方法 |
JP2007048061A (ja) | 2005-08-10 | 2007-02-22 | Canon Inc | 文字処理装置、文字処理方法及び記録媒体 |
JP2007058415A (ja) | 2005-08-23 | 2007-03-08 | Nec Corp | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム |
US8156114B2 (en) * | 2005-08-26 | 2012-04-10 | At&T Intellectual Property Ii, L.P. | System and method for searching and analyzing media content |
CA2653022A1 (en) * | 2006-04-18 | 2007-10-25 | Treadfx Llc | Production of a tire with printable thermoplastic organic polymer |
JP4251652B2 (ja) * | 2006-06-09 | 2009-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索装置、検索プログラムおよび検索方法 |
US8090738B2 (en) * | 2008-05-14 | 2012-01-03 | Microsoft Corporation | Multi-modal search wildcards |
-
2008
- 2008-10-14 WO PCT/JP2008/002898 patent/WO2010044123A1/ja active Application Filing
- 2008-10-14 JP JP2010533724A patent/JPWO2010044123A1/ja active Pending
- 2008-10-14 US US13/003,733 patent/US20110106814A1/en not_active Abandoned
- 2008-10-14 EP EP08877383A patent/EP2315134A4/en not_active Withdrawn
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63103393A (ja) * | 1986-10-21 | 1988-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 単語認識装置 |
JPH02158873A (ja) * | 1988-12-12 | 1990-06-19 | Ricoh Co Ltd | キーワード・マッチング装置 |
JPH0395672A (ja) * | 1989-09-08 | 1991-04-22 | Hitachi Ltd | 文字列検索方法及び装置 |
JPH08137668A (ja) * | 1994-11-10 | 1996-05-31 | Fuji Xerox Co Ltd | 類似単語検索のための有限オートマトン作成方法 |
JPH09134369A (ja) * | 1995-11-10 | 1997-05-20 | Fujitsu Ltd | ラティスをキーとした検索を行う辞書検索装置および方法 |
JP2001175661A (ja) * | 1999-12-14 | 2001-06-29 | Mitsubishi Electric Corp | 全文検索装置及び全文検索方法 |
JP2001337989A (ja) * | 2000-05-25 | 2001-12-07 | Ricoh Co Ltd | 文書検索方法 |
JP2002063197A (ja) * | 2000-06-06 | 2002-02-28 | Matsushita Electric Ind Co Ltd | 検索装置、記録媒体およびプログラム |
JP2002312365A (ja) * | 2001-04-18 | 2002-10-25 | Fujitsu Ltd | 文書画像検索装置 |
JP2004206608A (ja) * | 2002-12-26 | 2004-07-22 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20110106814A1 (en) | 2011-05-05 |
EP2315134A1 (en) | 2011-04-27 |
WO2010044123A1 (ja) | 2010-04-22 |
EP2315134A4 (en) | 2012-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
JP5449521B2 (ja) | 検索装置及び検索プログラム | |
JP4568774B2 (ja) | 手書き文字認識で使用されるテンプレートを生成する方法 | |
TW448381B (en) | Automatic segmentation of a text | |
US9875254B2 (en) | Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
AU2002333063A1 (en) | Character string identification | |
CN113435186A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
US6757647B1 (en) | Method for encoding regular expressions in a lexigon | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP2009271117A (ja) | 音声検索装置および音声検索方法 | |
JP2003308094A (ja) | 音声認識における認識誤り箇所の訂正方法 | |
JP3825645B2 (ja) | 表現変換方法及び表現変換装置 | |
JP2001229162A (ja) | 中国語文書自動校正方法及び装置 | |
JP2002259912A (ja) | オンライン文字列認識装置及びオンライン文字列認識方法 | |
JP2004110524A (ja) | 文章曖昧度算出方法、応答対話文生成方法、応答対話方法、文章曖昧度算出装置、応答対話文作成装置、応答対話装置、文章曖昧度算出プログラム、応答対話文作成プログラム、応答対話プログラム、これらのプログラムを記録した記録媒体 | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP4140248B2 (ja) | データベース検索装置 | |
JPH0757059A (ja) | 文字認識装置 | |
JPS62247480A (ja) | 文字認識後処理方式 | |
JP3123181B2 (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130507 |