WO2023210643A1

WO2023210643A1 - 全文検索プロセッサ

Info

Publication number: WO2023210643A1
Application number: PCT/JP2023/016310
Authority: WO
Inventors: 克己井上
Original assignee: 克己井上
Priority date: 2022-04-26
Filing date: 2023-04-25
Publication date: 2023-11-02
Also published as: JP2024102073A

Abstract

【解決課題】　全文検索用ハードウェアアクセラレータプロセッサを提供する。【解決手段】　検索対象のテキストデータを１バイト毎に１番地からN番地に割り付けて一時記憶する文字記憶素子と、検索キーワードに含まれる符号化文字を１バイト毎の比較データとして受け取り、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を順次検出する文字検出回路と、前記検索キーワードに含まれる全ての符号化文字の配列とマッチする、上記文字記憶素子上での符号化文字の位置を順次検出する文字列検出回路と、前記文字列検出回路の検出結果を受け取って前記検索キーワードにマッチする文字列の先頭位置若しくは終了位置を出力する結果出力回路とを有する全文検索プロセッサが提供される。

Description

全文検索プロセッサ

　本発明は、半導体デバイス内でテキストデータに対するキーワードを用いた全文検索を実行する全文検索プロセッサに関するものである。

　一般に、大量の文書類（文章・文献・文などを含む）のデータの中から特定の文書類のデータを探し出す処理は全文検索やキーワード検索と呼ばれ、ＷＥＢ検索や特許情報検索、社内文書データベース、更にはＰＣやスマートフォンに至るまであらゆる分野で頻繁に利用されている。

　ここで、全文検索やキーワード検索は自然言語処理の基本となる情報処理である。

　全文検索の処理は、キーワード（「search」、「検索」、「情報」などのキーとなる文字や文字列）を検索条件として与え、これらの文字や文字列が文書類に含まれているかどうかを探索し、含まれている文書類のデータを特定するものである。

　従来型のプロセッサであるＣＰＵやＧＰＵは、一般的に、検索など情報を探し出す処理が得意でなく、見出し（インデックス）なしで全ての文書データを読み込み検索しようとすると大量の時間を要する。このため、通常、転置インデックスと呼ばれるインデックスを時前に作成しておき、この転置インデックスを利用して検索を高速化する方法がとられており、これが検索を高速化する唯一の方法である。

　ここで、転置インデックスは、辞書の用語を見出し（インデックス）とする方法や、Ｎ－ｇｒａｍと呼ばれる文字列を見出し（インデックス）とする手法が一般的である。

　辞書用語をインデックスとして用いる場合については、英文は単語（用語）毎にスペースをはさみ文章を作成する方式、いわゆる「分かち書き」方式であるので単語（用語）の検出は容易であるが、日本語や中国語の場合、この「分かち書き」のルールが適応出来ない。

　従って日本語の場合、形態素と呼ばれる解析方法で日本語の文法に照らし合わせて単語（用語）を切り出す複雑な方法を採っている。

　形態素方式インデックスはインデックスの数が少ないのが特徴であるが、前方一致は良いものの、中間一致や後方一致の全文検索が困難、流行語など新しい用語への対応が困難である。

　一方のＮ－ｇｒａｍ方式インデックスは、情報理論の創始者として名高いクロード・エルウッド・シャノン（Claude Elwood Shannon）が自然言語解析を目的に考案したものである。

　前方一致、中間一致、後方一致、新しい用語の全文検索いずれにも対応が出来るのが特徴であるが、インデックスの数が膨大になるのが欠点である。

　以上のような背景から、形態素方式インデックスとＮ－ｇｒａｍ方式インデックスの良いところをミックスして利用するなど様々な手法が開発されている。

　このようなインデックスを用いることにより、全文検索やキーワード検索を高速化することが出来るが、幾つかの大きな課題を抱えている。

　・文書類のテキストデータが用意されていても、転置インデックスが出来るまで検索が出来ない。従って、ストリーム情報（データ）の全文検索や全文検索そのもののリアルタイム処理が困難である。

　・インデックスのためにメモリエリアやストレージエリアが拡大される、インデックスがあるので増設がしにくい。

　以上様々な課題があるため、全文検索は専門家以外ハードルが高く、言語の違いから世界レベルでの標準化がしにくいという問題があった。

　全文検索を半導体化した先願技術について説明する。

　US 2010/0185647 A1は、文字データの検索を目的とした半導体デバイスであるが、ＡＳＫＩＩコードのように２５６種類の文字のみに対応させる場合には行デコーダーと特徴セルで構成されるＸＹマトリックスが２５６×２５６と少なくて済むが、ＵＴＦ－８コードの和文のような３バイトや４バイト構成の場合、ＸＹマトリックスが膨大になり実現困難である。

　またこの特許はマルウエアの検出などストリームデータの検索が目的であり、本願のように蓄積型データ並びにストリーム型データ双方に利用することは出来ない。

　本願発明者は、以上のような情報検出の様々な問題を解決するために、インメモリコンピューティング、ＰＩＭ（Process in Memory）、アーキテクチャによる様々な発明を行い、以下の特許文献２から５に示す通り、特許を取得してきた。

　しかしながら、以上の発明の中には全文検索に適したアルゴリズムはなかった。

US 2010/0185647 A1　DEVICES, SYSTEMS, AND METHODS FOR COMMUNICATING PATTERN MATCHING RESULTS OF A PARALLEL PATTERN SEARCH ENGINE 特許第４５８８１１４号　情報絞り込み検出機能を備えたメモリ、その使用方法、このメモリを含む装置。

特許第５９８１６６６号　情報検索機能を備えたメモリ、その利用方法、装置、情報処理方法。

特許第６０１４１２０号　集合演算機能を備えたメモリ及びこれを用いた集合演算処理方法特許第６３９３８５２号　データ比較演算プロセッサ及びそれを用いた演算方法。

　本願出願の目的は、転置インデックスのようなインデックスの作成が不要となり、しかもＮ－ｇｒａｍ方式の転置インデックスを利用したシステムと同等な全文検索性能の全文検索用ハードウェアアクセラレータプロセッサを提供し、全文検索技術が抱えた様々な課題を抜本的に解決し、自然言語処理技術の向上を図り、全文検索のグローバルな標準化を目指すことである。

　上記課題を解決するため、本発明の主要な観点によれば、以下の発明が提供される。

　（１）　全文キーワード検索を目的とした半導体デバイスからなる全文検索プロセッサであり、
　検索対象のテキストデータを受け取り、このテキストデータに含まれる符号化文字列を１バイト毎に１番地からN番地に割り付けて一時記憶する文字記憶素子と
　検索キーワードに含まれる１以上の符号化文字を１バイト毎に比較データとして順次受け取り、各比較データを上記文字記憶素子に記憶された符号化文字列とＮ並列に比較し、それを前記検索キーワードに含まれる全ての符号化文字分繰り返すことで、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を検出する文字検出回路と、
　前記検索キーワードに含まれる全ての符号化文字が、この検索キーワードに含まれる順番で連続する上記文字記憶素子上での位置を検出する文字列検出回路と
　前記文字列検出回路の検出結果を受け取って前記連続する文字列の先頭位置若しくは終了位置を出力する結果出力回路と
　を有することを特徴とする全文検索プロセッサ。

　（２）　前記（１）記載の全文検索プロセッサにおいて、
　前記文字検出回路は
　前記文字記憶素子の各番地に接続され、各番地に記憶されたテキストデータの１バイト／８ビットの符号と前記比較データを構成する１バイト／８ビットの符号とを比較し、１ビット毎の一致若しくは不一致を検出する８個の１ビット一致若しくは不一致演算回路のＮ組のセットと
　１ビット一致若しくは不一致演算回路の各セットからの８ビット分の結果出力を受け取り、各番地に記憶されたテキストデータの符号化文字と前記比較データを構成する符号化文字との一致若しくは不一致を検出するＮ個の論理演算（論理積（ＡＮＤ）、論理和（ＯＲ）論理否定）回路と
　を有するものである
　ことを特徴とする、全文検索プロセッサ。

　（３）前記（１）記載の全文検索プロセッサにおいて、
　前記文字列検出回路は
　前記文字検出回路で連続的に検出された文字記憶位置のＦＧ（フラグ）と検出された文字記憶位置のＦＧ（フラグ）の配列の妥当性を連続的に判定するための、ＦＧシフト回路とＦＧ勝ち抜き回路の２つの回路で構成され
ＦＧシフト回路とＦＧ勝ち抜き回路は前記検索キーワードに含まれる符号化文字の配列を参照し、前記１番地からＮ番地に割り付けて記憶された文字記憶素子上の文字列の中から隣接する文字コード同士の配列の妥当性を繰り返し判定することで、前記検索キーワードで指定された文字列にマッチする、前記文字記憶素子上の文字列の先頭位置（番地）若しくは末尾位置（番地）をN並列で検出する回路である
　ことを特徴とする全文検索プロセッサ。

　（４）　前記（１）記載の全文検索プロセッサにおいて、
　前記文字列検出回路は
　前記文字検出回路の演算結果をフラグとして記憶すると共に、当該記憶されたＦＧをＮ並列にシフトするＮ個のＦＧシフト回路と
　前記ＦＧシフト回路により前記記憶されたＦＧをＮ並列にシフトさせながらシフト前のＦＧとのＮ並列論理演算を行い、これを検索キーワードに含まれる全符号化文字分繰り返すことで前記ＦＧの勝ち抜き演算を行うＮ個のＦＧ勝ち抜き回路と
　を有することを特徴とする全文検索プロセッサ。

　（５）　前記（１）記載の全文検索プロセッサにおいて、
　前記検索キーワードがｎバイトの符号化文字で構成される場合、
　前記ＦＧシフト回路のシフト回数及びそれに伴うＦＧ勝ち抜き演算回路による勝ち抜き演算の回数はｎ－１回数である
　ことを特徴とする全文検索プロセッサ。

　（６）　前記（１）記載の全文検索プロセッサにおいて、
　前記ＦＧ勝ち抜き回路は、演算のマスク（無視）を可能にする機能を有し、検索キーワード中にワイルドカードを用いた場合の全文検索を可能にするものである
　ことを特徴とする全文検索プロセッサ。

　（７）　前記（１）記載の全文検索プロセッサにおいて、
　前記ＦＧ勝ち抜き回路は、２組のレジスタが組み込まれ、検索キーワード中に文字のギャップを含む全文検索を可能にするものである
　ことを特徴とする全文検索プロセッサ。

　（８）　前記（１）記載の全文検索プロセッサにおいて、
　前記結果出力回路により出力される前記Ｎ並列（全並列）の検出結果の論理和（ＯＲ）演算を行い、全文検出結果の有無を出力するものである
　ことを特徴とする全文検索プロセッサ。

　（９）　前記（１）記載の全文検索プロセッサにおいて、
　前記全文検索プロセッサの外部のメモリもしくはストレージのテキストデータを前記Ｎバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記Ｎ並列（全並列）による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。

　（１０）　前記（１）記載の全文検索プロセッサにおいて、
　前記全文検索プロセッサの内部のメモリもしくはストレージのテキストデータを前記Ｎバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記Ｎ並列（全並列）による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。

　（１１）　前記（１）記載の全文検索プロセッサにおいて、
　ＡＳＩＣ並びにＦＰＧＡに実装したことを特徴とする
　全文検索プロセッサ。

　（１２）　前記（１）記載の全文検索プロセッサにおいて、
　ＣＰＵを内蔵したことを特徴とする全文検索プロセッサ。

　（１３）　前記（１）記載の全文検索プロセッサにおいて、
　ＵＴＦ－８など世界標準の文字コードを適応することにより、世界の言語に共通な全文検索を可能にすることを特徴とする全文検索プロセッサの利用方法。

　（１４）　前記（１）記載の全文検索プロセッサにおいて、
　外部から与えられる検索キーワードの文字列に、事前に指定した文字コードが含まれていた場合には全文検索演算を実行、もしくは実行しないものであることを特徴とする全文検索プロセッサ。

　（１５）　前記（１）記載の全文検索プロセッサにおいて、
　作成中の文章の一部を、大量で最新情報が盛り込まれたテキストデータが蓄積された全文検索プロセッサに照合することにより、ヒットするテキストがなければ前例なしと判定することを特徴とする全文検索プロセッサ。

　（１６）　前記（１）記載の全文検索プロセッサにおいて、
　音声認識の複数の認識候補の中から最適な認識結果を選択するにあたり、大量で最新情報が盛り込まれたテキストデータが蓄積された全文検索プロセッサに照合し、ヒットするテキストの多い用語を選択することにより、音声認識の精度を高めることを特徴とする全文検索プロセッサ。

　ＷＥＢ検索、特許検索、企業内データ検索、ＰＣやスマートフォン内のデータ検索など、全文検索処理は我々の仕事や生活に密着し、無くてはならない情報処理である。

　しかしながら現在のコンピューティングによる全文検索処理は、転置インデックスなどのインデックスに頼らざるを得ない状況であるのでリアルタイム処理が困難、専門家以外システム構築が出来ない、言語の違いで世界的なレベルでの標準化が進まないなど様々な課題を抱えている。

　本願発明の全文検索プロセッサを利用すると、転置インデックスを使用する必要がなく、しかも転置インデックスを使った方式に遜色ない性能の全文検索が可能になる。

　従って自然言語処理（知識処理）技術の進化が加速し、各国の言語に共通に利用出来るので、全文検索技術をグロ－バルに標準化することが出来る。

本発明の一実施形態（第１の例）に係る全文検索プロセッサの基本構成を説明する図である。

同じく、全文検索プロセッサの文字記憶素子並びに文字検出回路の詳細構成を説明する図である。

同じく、全文検索プロセッサの文字列検出回路並びに結果出力回路の詳細構成を説明する図である。

同じく、コマンド生成回路による全文検索演算条件作成の具体例を説明する図である。

同じく、英文の標準的な全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明する図である。

同じく、英文の標準的な全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明する図である。

同じく、和文の標準的な全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明する図である。

同じく、和文の標準的な全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明する図である。

同じく、英文にワイルドカードを適応した全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明する図である。

同じく、英文にワイルドカードを適応した全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明する図である。

同じく、英文に文字のギャップを適応した全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明する図である。

同じく、英文に文字のギャップを適応した全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明する図である。

同じく、全文検索プロセッサの全体構成を説明する図である。

同じく、絞り込み検索を行う場合の全文検索プロセッサの構成を説明する図である。

同じく、外部メモリ方式全文検索プロセッサの概要を説明する図である。

同じく、外部メモリ方式全文検索プロセッサと外部メモリもしくはストレージとのデータ転送の概要を説明する図である。

同じく、外部メモリ方式全文検索プロセッサのバッチ処理のタイムチャートを説明する図である。

同じく、外部メモリ方式全文検索プロセッサの演算能力を取り纏めした図である。

同じく、内部メモリ方式全文検索プロセッサの概要を説明する図である。

同じく、内部メモリ方式全文検索プロセッサの演算能力を取り纏めした図である。

同じく、全文検索プロセッサを利用する場合のシステム構成例を説明する図である。

この発明の一実施形態の第２の例に係る全文検索プロセッサの基本構成を説明する図である。

同じく、第２の例における全文検索プロセッサの文字列検出回路並びに結果出力回路の詳細構成を説明する図である。

同じく、第２の例におけるコマンド生成回路による全文検索演算条件作成の具体例を説明する図である。

同じく、第２の例における英文の標準的な全文検索の各機能のデータ状態遷移－Ａを説明する図である。

同じく、第２の例における英文の標準的な全文検索の各機能のデータ状態遷移－Ｂを説明する図である。

同じく、第２の例における和文の標準的な全文検索の各機能のデータ状態遷移－Ａを説明する図である。

同じく、第２の例における和文の標準的な全文検索の各機能のデータ状態遷移－Ｂを説明する図である。

同じく、第２の例における英文のワイルドカードを適応した全文検索のデータ状態遷移－Ａを説明する図である。

同じく、第２の例における英文のワイルドカードを適応した全文検索のデータ状態遷移－Ｂを説明する図である。

同じく、第２の例における英文のギャップを適応した全文検索のデータ状態遷移－Ａを説明する図である。

同じく、第２の例における英文のギャップを適応した全文検索のデータ状態遷移－Ｂを説明する図である。

　以下、本発明の一実施形態を図面を参照しつつ説明する。

　本発明の実施形態である全文検索プロセッサ１０１は、どのような文字コードにも利用可能で、しかも高度で効率の良い全文検索が実現出来る構成を提供するものである。

　この実施形態の構成を説明する前に、本発明で実施される全文検索の概念について説明する。

　（本発明の全文検索の概念）
　まず、文書に含まれる文字テキストデータ１３２は、ＡＳＣＩＩ（American Standard Code for Information Interchange）、シフトＪＩＳ、ＵＴＦ－８（UCS Transformation Format 8）など様々な符号化文字つまり文字コードを使用して表現される。

　ＡＳＣＩＩは７ビットまたは１バイト構成、シフトＪＩＳは２バイト構成、国際標準のＵＴＦ－８は可変長である。

　ＵＴＦ－８の場合、日本語の多くの文字は３バイト構成となる。

　従って、一般的には、文書データに含まれる文字列を適切に読み出すには、文字コードを識別し、それに基づいて任意の文字列を読み取る必要がある。

　また、検索待ち時間の少ない高速な全文検索を実施するためには、文字テキストデータ１３２をもとに転置インデックスを作成し、この転置インデックスを利用して全文検索を行う必要がある。

　これに対して、この実施形態では、検索対象の文字テキストデータ１３２を、１バイト（８ビット）毎に記憶素子に記憶させ、与えられた検索キーワード１２５の文字列の「文字」と「文字の並び」の一致不一致を１バイト毎に並列に比較し、与えられた検索キーワード１２５の文字列の先頭もしくは末尾に該当する文字テキストデータ１３２の位置（番地）を全文検索結果として返すものである。

　これによれば、文字コードに関わらず、単純な回路構成で全文検索を実行可能とする共に、転置インデックスを作成しなくとも高速な全文検索が可能になる。

　以下、この実施形態の具体的構成について説明する。

　（基本回路構成（第１の例））
　図１は、全文検索プロセッサの基本構成を示すものである。

　この全文検索プロセッサ１０１は、ホストコンピュータ（以下、「ＨＯＳＴ」と称する）に接続されており、このＨＯＳＴから与えられた検索対象の文字テキストデータ１３２に対し、同様にＨＯＳＴから与えられた検索キーワード１２５を検索条件として並列全文検索演算を実行し、その結果検出された文字テキストデータ１３２の位置（番地）をＨＯＳＴに返すものである。

　この処理を実行するため、この全文検索プロセッサ１０１は、上記ＨＯＳＴと接続された入出力インターフェース１１５に、全文検索回路１０３とコマンド生成回路１２７とが接続されてなる構成を有する。

　全文検索回路１０３は、検索対象の文字テキストデータ１３２を記憶する文字記憶素子１０２と、上記文字記憶素子１０２に記憶された文字テキストデータ１３２の中から検索キーワード１２５に含まれる文字を検出するための文字検出回路１０５と、上記文字検出結果に基づいて検索キーワード１２５の文字列の先頭文字もしくは末尾文字に該当する上記文字テキストデータ１３２の文字の位置（番地）を特定するための文字列検出回路１０６と、上記文字列検出回路１０６の検出結果を所定の形式で出力するための結果出力回路１０７を有する。

　コマンド生成回路１２７は、図１に拡大して示すように、システムクロック１３１を生成するシステムクロック生成回路１３１と、前記検索キーワード１２５に基づいて前記文字検出回路１０５に与える比較データ１２３を生成する比較データ生成回路１２３と、文字検出後に前記文字列検出回路１０６に対して勝ち抜き演算条件１２９を与えるタイミングを決定するシフトクロック生成回路１３０と、前記文字列検出回路１０６に対して与える勝ち抜き演算条件１２９を生成する勝ち抜き演算条件生成回路１２９と、で構成される。

　（コマンド生成回路）
　以下、全文検索回路１０３とコマンド生成回路１２７の構成について詳しく説明するが、説明の便宜上、まず、コマンド生成回路１２７について説明する。

　コマンド生成回路１２７のシステムクロック生成回路１３１は、全文検索プロセッサ１０１を所定の演算タイミングで全文検索演算を実施する上で基本となるシステムクロック１３１、例えば１０ｎ秒や２０ｎ秒毎の連続したクロックを生成するものであり、このシステムクロック１３１を利用して（同期して）、比較データ生成回路１２３、シフトクロック生成回路１３０、勝ち抜き演算条件生成回路１２９が動作する。

　以上の比較データ生成回路１２３、シフトクロック生成回路１３０、勝ち抜き演算条件生成回路１２９はＨＯＳＴのキーワード設定機能１２８で設定される検索キーワード１２５に基づいて、前記文字検出回路１０５及び文字列検出回路１０６に与える、比較データ１２３、シフトクロック１３０、勝ち抜き演算条件１２９の３種類の演算条件からなる全文検索演算条件１１４を生成するものである。

　この実施形態の例では、前記検索キーワード１２５は、１文字１バイトで構成される英文キーワードや、１文字３バイトで構成される和文キーワード、その他の多国語を含む。

　図２に示す通り、例えば、検索キーワード１２５が英文の「search」である場合、このキーワードは、「s」、「e」、「a」、「r」、「c」、「h」という１文字１バイト、合計６バイトの文字コードで構成される。

　また、検索キーワード１２５が和文の「検索」の２文字である場合、各漢字データは３バイト、すなわち、「検」については「検：１/３」、「検：２/３」、「検：３/３」、「索」については「索：１/３」、「索：２/３」、「索：３/３」で構成されるので、全部で６バイトの文字コードとなる。

　（コマンド生成回路の比較データ生成回路）
　そして、前記コマンド生成回路１２７の前記比較データ生成回路１２３は、図２に示すように、上記の検索キーワード１２５を１バイト、すなわち８つのビットデータ（０若しくは１）に分解して、１バイト毎に比較データ１２３として生成して上記文字検出回路１０５に与えるように構成されている。

　具体的には、システムクロック生成回路１３１により生成されるシステムクロック１３１信号に同期して上記検索キーワード１２５の先頭もしくは末尾から１バイト文字コードを順番に取り出し比較データ１２３として、上記文字検出回路１０５に与えるものである。

　なお、後で説明するように、この比較データ生成回路１２３は、前記比較データ１２３を生成する際、上記検索キーワード１２５に含まれる特殊文字（ワイルドカード記号「？」、ギャップ（以下Ｇａｐとも表現する）演算子「*」等）に応じて、当該特殊文字を無視したり、所定の文字コードに置き換える等の処理を行う。

　詳しくは後の動作の説明にて詳述するが、例えば、検索キーワード１２５中に特定のワイルドカード（例えば「？」）が含まれている場合には、このワイルドカードに該当する文字をマスク（以降Ｍａｓｋや無視とも表現する）する処理を行う。このような特殊文字コードに応じた処理は、図示はしないが例えば特殊文字ルックアップテーブルを用いて、通常文字と特殊文字の選別を行うことが出来る。

　また、この比較データ生成回路１２３は、検索キーワード１２５を構成する文字列のバイト数をカウントし、その結果を前記勝ち抜き演算条件生成回路１２９に渡すように構成されている。

　（コマンド生成回路のシフトクロック生成回路）
　次に、シフトクロック生成回路１３０は、文字列検出回路１０６に、文字列検出のための特定の演算条件を与えるタイミングとなるシフトクロック１３０を生成するものである。具体的には、このシフトクロック生成回路１３０は、図３に示す文字列検出回路１０６のＦＧ（フラグ）シフト回路１１２に、前述のシステムクロック１３１に同期して所定のシフトタイミングを示すシフトクロック１３０信号を与える回路である。

　具体的には、検索キーワード１２５が６バイトの場合、上記ＦＧシフト回路１１２に与えられるシフト回数は、６バイトの場合、６－（マイナス）１の５回である。これは、検索キーワード１２５中にワイルドカード記号やギャップ演算子等の特殊文字が入っている場合も同様である。

　また、このシフトクロック生成回路１３０は、前記勝ち抜き演算条件生成回路１２９に演算条件を与えるタイミングも決定するように構成されている。

　（コマンド生成回路の勝ち抜き演算条件生成回路）
　勝ち抜き演算条件生成回路１２９は、前述のシフトクロック生成回路１３０と連動して文字列検出回路１０６に演算条件を与えるものである。

　具体的には、図３に示す文字列検出回路１０６のＦＧ勝ち抜き回路１１３に対して所定の勝ち抜き演算条件１２９を「直接入力」、「論理積」、「論理和」、「排他論理和」、「マスク（無視）」、「ギャップ演算」、「論理否定」等から選択して与えるものである。

　詳しくは後で詳述するが、例えば、検索キーワードが６バイトでワイルドカード等の特殊文字を含まない通常文字からなる場合には、文字検出時（最初のステップ（第１ステップ））では「直接入力」、文字列検索時（第５ステップ～第１１ステップ）では「論理積」の演算指令が選択されてＦＧ勝ち抜き回路１１３に与えるものである。

　この演算条件の選択は、例えば、ルックアップテーブルを参照することで決定することが出来る。

　（全文検索回路）
　次に全文検索回路１０３について説明する。

　（全文検索回路の文字記憶素子）
　まずこの全文検索回路１０３の文字記憶機素子１０２は、図２に示すように、入出力インターフェース１１５を通じてＨＯＳＴから与えられる文字テキストデータ１３２を、８ビットつまり１バイト単位で一時記憶するフリップフロップのようなレジスタやメモリであり、全体で１番地からＮ番地までＮ個の１バイトデータを記憶するように構成されたものである。

　ここで文字テキストデータ１３２とは、ＷＥＢテキストデータ、小説や雑誌、論文などのテキストデータ、特許文献テキストデータ、社内文書テキストデータ、更にはＰＣやスマートフォンのメールテキストデータやＷｏｒｄ、Ｅｘｃｅｌなどあらゆるテキストデータが対象になる。

　これらの文字テキストデータ１３２は１件あたり数バイトから数十万バイトもしくはそれ以上と様々なサイズがある。

　さらにこれらの文字テキストデータ１３２は数件から数百億件など多数の文書データ（テキストデータ）として構成されるものである。

　この実施形態では、以上のように大小様々な文字テキストデータ１３２の中から、その一部、例えば３２Ｋバイト分の文字テキストデータ１３２を、１番地からＮ番地まで文字記憶素子１０２に記憶させ、記憶された文字テキストデータ１３２を対象に全文検索を行うように構成されたものである。

　図２は、一例として「yesterday」の文字列の「y」以降の「est…」の文字列が文字記憶素子１０２に記憶されている場合を示すものである。この場合、番地１２６の１番地が「e」、２番地が「s」、３番地が「t」・・・Ｎ番地が「h」である場合、１番地は「01100101」、２番地は「01110011」、３番地は「01110100」、Ｎ番地は「01110100」としてＵＴＦ－８文字コードが文字記憶素子１０２に記憶される。

　（全文検索回路の文字検出回路）
　次に、この全文検索回路１０３の文字検出回路１０５は、図２に示すように、コマンド生成回路１２７の比較データ生成回路１２３に接続された１ビット一致検出回路１０９と、この１ビット一致検出回路１０９に接続された８入力論理積回路１１０とで構成されている。

　（文字検出回路の１ビット一致検出回路）
　前記１ビット一致検出回路１０９は、図２に示すように、上記文字記憶素子１０２を構成する１バイト／８個の各記憶素子セルに対応して設けられ、一方の入力がそれらの各記憶セルに接続されており、もう一方の入力が上記比較データ１２３として受け取った１バイト／８ビットの各ビットデータに接続されている。そして、両入力に対して１ビット毎の一致検出演算を行いその結果を８入力論理積回路１１０に出力するよう構成されている。

　従って、１ビット一致検出演算回路１０９は、Ｎ×８個の一致回路が並列に接続されてなり、Ｎバイトの文字テキストデータ１３２に対してＮ並列演算を実行するものである。

　（文字検出回路の８入力論理積回路）
　前記８入力論理積回路１１０は、１バイト毎に１つ設けられており、1バイトつまり８つの１ビット一致検出回路１０９からの出力を受け取り、これらに対して論理積演算を行ってその結果を出力するものである。

　従って、これら１ビット一致検出回路１０９と８入力論理積回路１１０とにより、コマンド生成回路１２７から与えられた１バイトの比較データ１２３とＮバイトの文字テキストデータ１３２との比較が、全バイトに亘って並列に実行されることになる。

　図２に示す例では、一致する全文検索回路の番地１２６の２番地に対応する上記８入力論理積回路１１０から８ビットのデータの一致を示すフラグ（ＦＧ）が「1」として出力され、一致しない番地に関しては「0」が出力されることを示している。なお、この実施形態では一致検出をもとに文字検出を行っているが、不一致検出回路（ＸＯＲ）と、８入力論理和（ＯＲ）回路１１１と論理否定（ＮＯＴ）回路や、その他の回路の組み合わせで実現出来る。

　（全文検索回路の文字列検出回路）
　次に、図３を参照して前記文字列検出回路１０６を説明する。

　文字列検出回路１０６は、ＦＧシフト回路１１２と、ＦＧ勝ち抜き回路１１３とで構成される。

　（文字列検出回路のＦＧシフト回路）
　まず、ＦＧシフト回路１１２は、前記８入力論理積回路１１０の個数に応じてＮ個のプリセット機能付きシフトレジスタで構成される。

　この例では、前記８入力論理積回路１１０の出力が、このＦＧシフト回路１１２のプリセット入力「P」に接続されている。そして、１番地目のシフトレジスタのデータ出力「Q」は２番地目のシフトレジスタのデータ入力「D」に接続され、２番地目のシフトレジスタのデータ出力「Ｄ」は３番地目のシフトレジスタのデータ入力「Q」に接続される。

　以降同様にＮ番地目のシフトレジスタまで接続されると共に、各シフトレジスタにはコマンド生成回路１２７から与えられるシフトクロック１３０が接続されている。

　このような構成により、上記文字検出回路１０５により文字テキストデータ１３２の中から検索キーワード１２５と一致する文字若しくは文字の部分（１バイトのコード）が一致フラグ（ＦＧ）として検出された後、検索キーワード１２５の文字列のバイト数ｎ－１回（前記シフトクロック数に対応）だけこのフラグの位置を順番にシフトさせていくことで、次に説明するＦＧ勝ち抜き回路１１３で検索キーワード１２５のバイト数分連続するフラグの位置、すなわち文字の並び１２２（文字列）を検出することが出来る。

　（文字列検出回路のＦＧ勝ち抜き回路）
　ＦＧ勝ち抜き回路１１３は、図３に示すように、前記ＦＧシフト回路１１２に対応してＮ回路設けられたものであり、論理否定、直接入力、論理積、論理和、排他論理和、マスク、ギャップ演算の演算を行える論理回路群（若しくは素子）と、演算条件を選択するためのセレクト回路と、演算結果を格納するための勝ち抜きレジスタとで構成される。

　このような構成により、あとで詳説するように、前記ＦＧシフト回路１１２に記憶された一致フラグのデータから、検索キーワード１２５のバイト数分ｎ連続するフラグの先頭フラグ位置を検出することが出来る。

　なお、上記選択回路の演算条件入力は前記コマンド生成回路１２７の勝ち抜き演算条件生成回路１２９に接続されており、論理否定、直接入力、論理積、論理和、排他論理和、マスク（無視）、ギャップ演算のどの演算条件を使用するかが、前記コマンド生成回路１２７の前記勝ち抜き演算条件生成回路１２９によって決定されるようになっている。

　すなわち、前記勝ち抜き演算条件１２９は、上述したように、検索キーワード１２５として指定される文字列および文字種別に基づいて、文字列検出回路１０６における演算条件を決定するものであり、これにより後で詳述するように、検索キーワード１２５に含まれる文字列に応じた勝ち抜き演算処理がなされ、前記勝ち抜き演算の都度、勝ち抜き演算結果がＦＧとして、勝ち抜きレジスタに格納されるものである。

　標準的には検索キーワード１２５の文字列のバイト数ｎ×２－１回の勝ち抜き演算で生き残った勝ち抜きレジスタは論理「1」、その他は「0」として最終勝ち抜きＦＧが勝ち抜きレジスタに格納されることになる。

　（全文検索回路の結果出力回路）
　結果出力回路１０７は、図３に示すように、上記Ｎ回路のＦＧ勝ち抜き回路１１３に対応してＮ回路設けられ、上記ＦＧ勝ち抜き回路１１３の勝ち抜きレジスタの「1」または「0」の演算結果を出力するよう構成された回路である。全ての番地の「1」と「0」を出力する構成以外、上記勝ち抜きレジスタが「1」となっている番地のみを出力する構成や、後述する通りＮ個の演算結果の中に１つでも「1」がある場合には「演算結果あり」、１つも「1」がない場合には「演算結果なし」つまり「有り／無し」の結果のみを出力する構成でも構わない。

　この結果出力回路１０７からの出力は、演算結果として、図１に示すように入出力インターフェース１１５を通じてＨＯＳＴに返すよう構成されている。

　（全文検索プロセッサの動作）
　以下、上記の構成を、この装置の動作を通してさらに詳しく説明する。

　（テキストデータ記憶動作）
　まず、検索の対象となる文字テキストデータ１３２が文字記憶素子１０２に記憶される。

　この際、文字テキストデータ１３２は入出力インターフェース１１５を通じてＨＯＳＴのＣＰＵから直接もしくはＤＭＡ（Direct Memory Access）方式で文字記憶素子１０２に対するデータ転送がなされ、Ｎバイトの文字コードが記憶される。

　ＡＳＣＩＩの英文の場合の多くは１バイトで文字コードの全部を表現出来るので、前記文字記憶素子１０２には、Ｎ文字が記憶されることになる。

　一方、シフトＪＩＳの和文の場合には２バイトで１文字を表すコードが表現出来るので、文字記憶素子１０２には、Ｎ／２文字が記憶されることになる。

　また、ＵＴＦ－８の和文の場合の多くの文字は３バイトで１文字を表すコードの全部が表現出来るので、文字記憶素子１０２には約Ｎ／３文字が記憶されることになる。

　なお、文字記憶素子１０２には、上記複数種類の文字コードを混在して記憶することも可能である。

　（文字検出動作）
　ついで、前記ＨＯＳＴから与えられる検索キーワード１２５に基づいて文字検出動作が実行され、次いで文字列の検出が実行される。

　文字検出動作においては、コマンド生成回路１２７から与えられる、比較データ１２３をもとに文字の検出が行われる。

　文字検出回路１０５は、文字記憶素子１０２の各メモリセルの出力に接続された、１バイトあたり８つの１ビット一致検出回路１０９と、この８つの１ビット一致検出回路１０９の出力に接続された１バイトあたり１つの８入力論理積（ＡＮＤ）回路１１０とで構成されているので、指定された比較データ１２３の文字コードと、文字記憶素子１０２の文字コードがマッチ（一致）する場合、対象となる全文検索回路の番地１２６の論理積回路１１０の出力は論理「1」になる。

　図２の例では、「s」：「01110011」としてコマンド生成回路１２７から与えられた比較データ１２３と全文検索回路の番地１２６の２番地は８つの１ビット一致検出回路１０９の全てがマッチし、論理積回路１１０のＡＮＤ条件が成立（８ビットマッチ）することを示している。

　この結果は、１バイト毎に文字検出結果として後述するＦＧシフト回路１１２に論理「1」のＦＧ（フラグ）として記憶され、その他の全文検索回路の番地１２６の番地はマッチしないので、文字の不一致としてＦＧシフト回路１１２に論理「0」として記憶される。

　（文字列検出動作）
　次に、上記文字検出の結果に基づいて文字列検出動作が実行される。

　この際、コマンド生成回路１２７から与えられる、シフトクロック１３０並びに勝ち抜き演算条件１２９のコマンドをもとに文字列の検出が行われる。

　上述したように、文字列検出回路１０６はＦＧシフト回路１１２並びにＦＧ勝ち抜き回路１１３で構成される。

　ＦＧシフト回路１１２は、以上の文字検出回路１０５による並列文字マッチ検出のマッチ結果、例えば前述の「s」、「e」、「a」、「r」、「c」、「h」や、「検：１/３」、「検：２/３」、「検：３/３」、「索：１/３」、「索：２/３」、「索：３/３」などの文字マッチ結果（ＦＧ）を記憶並びにデータシフトする機能を有する。

　ＦＧシフト回路１１２はコマンド生成回路１２７から与えられるシフト演算のためのシフトクロック１３０の度に、文字検出回路１０５の出力からプリセットされたＮ個のＦＧを全並列（Ｎ並列）に記憶並びにそのデータをシフトするものである。（このデータシフトの具体例は図５から図１２で後述する。）
　一方、ＦＧ勝ち抜き回路１１３は、検出された「s」、「e」、「a」、「r」、「c」、「h」もしくは「検：１/３」、「検：２/３」や、「検：３/３」、「索：１/３」、「索：２/３」、「索：３/３」などの文字コードの並びが、検索キーワード１２５として与えられる文字コードの文字の並び１２２（文字列）にマッチするか否か（文字の配列が妥当であるか否か）を判定し、検索キーワード１２５の文字列の先頭番地もしくは末尾番地に該当する全文検索回路の番地１２６を検出する機能である。

　このＦＧ勝ち抜き回路１１３は、高度な勝ち抜き演算を実施するための論理積や論理和、更には排他論理和や論理否定の論理素子と、以上論理素子の論理演算を選択するための選択回路、そして選択回路から出力された演算結果を格納する勝ち抜きレジスタで構成されている。

　選択回路には、コマンド生成回路１２７の勝ち抜き演算条件生成回路１２９から与えられる演算条件、論理否定、論理積、論理和、排他論理和、マスク（無視）、ギャップ演算の選択信号が入力される。

　本実施形態では、勝ち抜きレジスタは演算の利便性や性能を向上させる目的で、勝ち抜きメインレジスタと、勝ち抜き演算の途中結果を保持する勝ち抜きサブレジスタの２つのレジスタで構成されており、これらのレジスタの何れを使うかなど、コマンド生成回路１２７でコントロールする構成になっている。

　一例として通常の演算の場合は勝ち抜きメインレジスタを使用し、ギャップ演算のような特殊な演算の場合には、勝ち抜きメインレジスタ並びに勝ち抜きサブレジスタの双方を動作させることが可能な構成になっている。

　従って、単に勝ち抜きレジスタと表現する場合は勝ち抜きメインレジスタを意味するものであり、ギャップ演算の場合にはメイン並びにサブを区別して説明する。

　なお、この回路構成は勝ち抜き演算の考え方を示すものであるのでロジック回路やレジスタの構成など概念的な内容を示すものである、またこの構成に限定されるものではない。

　具体的な勝ち抜き演算については、図４以下を参照して後述するが、一般的な勝ち抜き演算の内容は以下のようになる。

　すなわち、文字列を検出する最初のステップとして勝ち抜き演算条件１２９で直接入力が選択されるとＦＧシフト回路１１２の出力から受け取った入力は直接ＦＧ勝ち抜き回路１１３の勝ち抜きレジスタに代入される。

　本例の場合以上の演算で、全文検索回路の番地１２６の２番地は論理「1」、その他の番地は論理「0」となる。

　以降のステップとしてコマンド生成回路１２７から与えられるシフト演算のための１シフトクロック１３０に同期して勝ち抜き演算条件１２９で論理積が選択されると、勝ち抜きレジスタの出力とＦＧシフト回路１１２から受け取った入力を論理積演算することで第１回目（初回）の勝ち抜き演算が実行される。

　所定回数のクロックシフト１３０と勝ち抜き演算の結果、勝ち抜いた全文検索回路の番地１２６のＦＧ勝ち抜き回路１１３の勝ち抜きレジスタ出力は論理「1」となりその他のレジスタ出力は論理「0」となる。
「search」が検索キーワード１２５の場合、勝ち抜いた全文検索回路の番地１２６は検索対象の検索キーワード１２５文字列の先頭番地「s」に該当する文字コードが記憶されている。

　「search」のキーワードを「hcraes」のように後方から検出した場合には末尾番地「h」を検出することになる。

　以上が一般的な文字の並び１２２（文字列）の検出の動作概要である。

　全文検索の具体例は図４並びに図５から図１２で詳細に説明する。

　（結果出力動作）
　結果出力回路１０７は、所定数の文字の並び１２２（文字列）があったＦＧ勝ち抜き回路１１３の出力を論理「1」、その他は論理「0」としてＨＯＳＴに出力する機能である。

　以上のＦＧ勝ち抜き回路１１３の論理状態は全文検索演算の結果出力回路１０７から入出力インターフェース１１５を通じてＨＯＳＴへ出力される。
結果出力の方法は、全ての番地の論理状態を出力する方法や、勝ち抜きした番地の番号（アドレス）を出力する方法など任意の方法で良い。
以上説明の通り、この全文検索プロセッサ１０１は文字記憶素子１０２並びに、文字検出回路１０５と文字列検出回路１０６で構成されるＮ個の全文検索回路１０３が並列度Ｎで全文検索演算を行い、高度で効率的で高速な全文検索を実現する。

　以上の構成は汎用ロジックのみで実装出来るので、ＡＳＩＣ（Application Specific Integrated Circuit）はもちろんＦＰＧＡ（Field Programmable Gate Array）でも容易に実現することが可能である。詳細は後述する。

　（コマンド生成動作）
　次に、図４を参照してコマンド生成回路１２７によるコマンド生成動作、すなわち、全文検索演算条件生成動作について説明する。

　コマンド生成回路１２７は、上述したように、ＨＯＳＴから与えられた検索キーワード１２５をもとに所定のコマンドを生成するものである。

　コマンド生成回路１２７は単に「search」などの検索キーワード１２５のみならず、ワイルドカードや、文字のギャップ（文字の位置の許容）を含む検索キーワード１２５など様々な検索条件をもとに全文検索のコマンドを生成する機能を有する。

　本例では代表例として（１）英文標準（の場合の全文検索）、（２）和文標準（の場合の全文検索）、（３）英文ワイルドカード（の場合の全文検索）、（４）英文文字のギャップ（の場合の全文検索）の４通りのコマンド（命令）を示すものとする。

　それぞれの表の１行目には全文検索演算の演算ステップ（順序）が示され、どのステップで全文検索回路１０３にどのようなコマンド（命令）を与えるかが示されている。ここで各ステップはシステムクロック１３１に同期して実行される。

　２行目の「比較データ」１２３には文字検出回路１０５に与えられる「s」、「e」、「a」、「r」、「c」、「h」や「検：１/３」、「検：２/３」、「検：３/３」、「索：１/３」、「索：２/３」、「索：３/３」などの比較データが示されている。

　３行目の「シフトクロック」１３０にはシフトクロック生成回路１３０から前記ＦＧシフト回路１１２に与えられるクロック送りが「〇」印で示されている。例えば、「（１）英文標準」の例では、最初の６ステップで比較データが与えられ、次のステップ７から１１でＦＧシフト回路１１２によるシフト動作が実行されることになる。

　４行目の「勝ち抜き演算条件」１２９にはＦＧ勝ち抜き回路１１３に与える「直接入力」、「論理積」、「マスク（Ｍａｓｋ、無視）」、「ギャップ（Ｇａｐ）演算」などの勝ち抜き演算条件が示されている。

　図４中、（１）の英文標準の場合の全文検索、（２）の和文標準の場合の全文検索は、標準的な全文検索の例を示すものである。この例では、英文は１バイト６文字「search」、和文の場合３バイト２文字「検索」の全文検索のコマンドの例（いずれも６バイト）を示している。

　一方、（３）の英文ワイルドカードは、「search」の「a」、「r」がワイルドカード「？」、「？」に指定されており、この場合の比較データ１２３、シフトクロック１３０、勝ち抜き演算条件１２９は、この図４に示すようになる。この場合には、「？」の特殊文字で示されるワイルドカードは、前述の特殊文字ルックアップテーブルの参照により、比較データ１２３としては無視され、その後、６バイト分のシフト動作が実行されるから、全体のステップ数は上記（１）と（２）の通常の検索のステップ数（この例では１１）よりもワイルドカードの文字数分（この例では２文字）少ないステップ数（この例では９）となる。

　（４）の英文文字のギャップの場合の全文検索は、「h」の文字が「s」、「e」、「a」以降３ポジションのいずれかにある場合、例えば「*h」３Gapなどの特殊文字とポジションの範囲を示す演算条件で、「seah」、「sea*h」、「sea**h」の何れでもマッチとする場合のコマンドの例である。

　前述した通り本例では、コマンド生成回路１２７は全文検索プロセッサ１０１の内部に置くことで説明を行ったが、ソフトウェア処理により、ＨＯＳＴのＣＰＵから、全文検索プロセッサ１０１に各ステップ毎に送ることも、一括して送ることも自由である。

　以下に、英文標準の場合の全文検索、和文標準の場合の全文検索、英文ワイルドカードの場合の全文検索、英文文字のギャップの場合の全文検索の全文検索演算の内容を示す。

　（英文の場合の標準的な全文検索動作）
　図５は、英文の標準的な全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明するものである。

　図６は、英文の標準的な全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明するものである。

　図４の（１）で紹介のコマンドをステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものとして説明する。

　本実施形態では、Ｎ個（Ｎ番地）の全文検索回路１０３の一部にあたる１６個（１６番地）の全文検索回路１０３の各構成におけるデータ状態遷移を示している。

　本実施形態では、ＵＴＦ－８文字コードによる１６文字の英文テキストデータ「full text search」が、文字記憶素子１０２の全文検索回路の相対番地１０４のｉ+１バイト目（以下単に相対１番地）からｉ+１６バイト目（以下単に相対１６番地）まで１６バイトで本全文検索プロセッサ１０１の文字記憶素子１０２に記憶されているものとする。

　この文字テキストデータ１３２に対し、「search」の６文字をバイト数ｎが６（６バイト長）の検索キーワード１２５として、全文検索を行う場合の実施形態である。

　図５から１２では省略されているが、ステップ０の初期状態では、全てのＦＧシフト回路１１２並びにＦＧ勝ち抜き回路１１３はクリアされ論理「0」の状態になっているものとする。

　ステップ１からステップ１1までの処理は、コマンド生成回路１２７から与えられるコマンド（比較データ１２３、シフトクロック１３０、勝ち抜き演算条件１２９）により全文検索回路１０３が制御を行うものである。

　図５で示すステップ１からステップ６は、図４の（１）のステップ１からステップ６に対応するもので、記憶された「full text search」の文字テキストデータ１３２の中から、「search」の文字を検出する処理ステップを示すものである。

　注目すべき部分は文字を白黒反転し示している。

　ステップ１では、１バイトで構成される「s」の文字を検出するもので、本実施形態では相対１１番地の文字検出回路１０５が「s」を検出する。

　検出されたＦＧは、ＦＧシフト回路１１２にプリセットされ相対１１番地のＦＧシフト回路１１２は論理「1」、その他は論理「0」となる。さらにこのＦＧは、初回勝ち抜きＦＧとして、ＦＧ勝ち抜き回路１１３への演算条件として「直接入力」が選択されることにより相対１１番地のＦＧ勝ち抜き回路１１３（のレジスタ）には論理値「1」がセットされる。

　ステップ２では、１バイトで構成される「e」の文字を検出するもので、本実施形態では相対７番地、並びに相対１２番地の文字検出回路１０５が「e」を検出する。

　検出されたＦＧは、ＦＧシフト回路１１２にセットされる。この際、図４（１）に示すようにＦＧ勝ち抜き回路１１３への演算条件は与えられず、対応する勝ち抜き回路には論理値「０」がセットされたままである。

　ステップ３からステップ５は、ステップ２と同様の演算の繰り返しであるので割愛する。

　最後のステップ６では、１バイトで構成される「h」の文字を検出するもので、本実施形態では相対１６番地の文字検出回路１０５が「h」を検出する。

　検出されたＦＧとして論理値「1」がＦＧシフト回路１１２にセットされる。

　この例では、与えられた比較データ１２３の文字列のバイト数ｎと同数の６つのステップで与えられた検索キーワード１２５「search」の文字すべてが相対１１番地から連続で検出されたことになる。

　注目すべきは、ステップ６でＦＧシフト回路１１２の相対１１番地から相対１６番地までの連続した６つのＦＧ「1111111」と、ステップ１でセットされたＦＧ勝ち抜き回路１１３の相対１１番地のＦＧが「1」となっていることである。

　図６は、ステップ６以降のデータ状態遷移－Ｂ（文字の並びの連続検出）を示したものである。

　図６のステップ６は先に説明の文字の検出の最終結果と同一である。

　ステップ７からステップ１１は、図４の（１）に対応するもので、以上ステップ１～６で検出された「search」の文字の並び１２２（文字列）を検出する「文字列検出」処理を示すものである。

　ステップ７では、ＦＧシフト回路１１２に前記シフトクロック生成回路１３０から１クロック信号が与えられることによりステップ６で示されるＦＧシフト回路１１２のＦＧを左に１バイト分シフトし、シフトしたＦＧと、ＦＧ勝ち抜き回路１１３の演算条件を「論理積」（図４（１）参照）とすることによりＦＧ勝ち抜き回路１１３のＦＧとの論理積（ＡＮＤ）演算を行う。

　このステップでは、ＦＧ勝ち抜き回路１１３並びにＦＧシフト回路１１２の相対１１番地のＦＧが存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対１１番地はステップ６のまま（勝ち残り）、すなわち論理値「1」のままとなる。

　ステップ８からステップ１０は同様な演算の繰り返しであるので割愛する。

　最後のステップ１１は、ステップ１０で示されるＦＧシフト回路１１２のＦＧをさらに左に１バイト分シフト（合計左に５シフト）し、シフトしたＦＧと、ＦＧ勝ち抜き回路１１３のＦＧとの論理積（ＡＮＤ）演算を行う。

　このステップでは、ＦＧ勝ち抜き回路１１３並びにＦＧシフト回路１１２の相対１１番地の双方のＦＧは存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対１１番地はステップ１０のまま（論理値「1」のまま）で、勝ち残りとなる。

　以上与えられた比較データ１２３の文字列のバイト数ｎ－１回＝６－１＝５回のシフト演算と論理積（ＡＮＤ）勝ち抜き演算を繰り返し、最後まで勝ち抜いた相対１１番地が最終勝ち抜きＦＧとなる。

　以上の処理で相対１１番地から相対１６番地までの文字の並び１２２（文字列）が、与えられた検索キーワード１２５条件の文字の並び１２２（文字列）と同じであることを連続で検出したことになる。

　以上の説明は図示した範囲の演算内容であるが、実際の処理では文字記憶素子１０２の１番地からＮ番地までの文字の並び１２２（文字列）の中に、与えられた検索キーワード１２５条件の文字の並び１２２（文字列）にマッチする（同一である）文字列を連続で検出したことになる。

　本方式は以上のように、検出された全ての文字が連続した場合のみが最終勝ち抜きＦＧとなるので、ステップ２で相対７番地と相対１１番地の２つの「e」の文字が検出されるが、相対７番地の「e」は文字の並び１２２（文字列）が成立しないのでノイズとして処理される。

　この演算結果を、ステップ１２で結果出力回路１０７からＨＯＳＴに結果出力することにより、ＨＯＳＴは対象となる文字テキストデータ１３２の１番地からＮ番地の中に「search」という文字列が存在するか否か及びに、どの位置に検索キーワード１２５の文字列の先頭番地が存在するかを知ることが可能になる。

　後述するが、与えられた比較データ１２３の文字列のバイト数ｎと同数のステップで連続的に文字を検出し、与えられた比較データ１２３の文字列のバイト数ｎ－１回のシフト演算と論理積（ＡＮＤ）勝ち抜き演算を連続して繰り返すことにより、文字の並び１２２（文字列）を検出出来ることが特に重要である。

　与えられた検索キーワード１２５の文字列の検出においては、必ずしも「search」のように検索キーワード１２５の文字列の前方から順に検出する必要はなく、「hcraes」のように後方からの検出でも構わない。

　その場合にはシフトレジスタのシフト動作を右シフトし、末尾番地「h」を検出すれば良い。

　このようなシフト動作はリバーシブル型シフトレジスタ（正転／逆転可能なシフトレジスタ）とすることで容易に実現することが出来る。

　（和文の場合の標準的な全文検索動作）
　図７は、和文の標準的な全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明するものである。

　図８は、和文の標準的な全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明するものである。

　図４の（２）に示したコマンド（比較データ１２３、シフトクロック１３０、勝ち抜き演算条件１２９）をステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものである。

　本実施形態では、Ｎ個の全文検索回路１０３の一部にあたる１５個の全文検索回路１０３の各構成におけるデータ状態遷移を示している。

　図７に示すように、本実施形態では、ＵＴＦ－８文字コードによる「全文検索は」の和文の５文字の文字コードが、文字記憶素子１０２の全文検索回路の相対番地１０４のｉ+１バイト目（以下単に相対１番地）からｉ+１５バイト目（以下単に相対１５番地）まで１５バイトで本全文検索プロセッサ１０１の文字記憶素子１０２に記憶されている。

　以上の文字コードの中から「検索」の２文字をバイト数ｎが６の検索キーワード１２５として、全文検索を行う場合の実施形態である。

　前述同様ステップ１からステップ１1までの処理は、コマンド生成回路１２７から与えられるコマンドにより全文検索回路１０３が全文検索演算を行うものである。

　ステップ１からステップ６は、記憶された「全文検索は」の文字テキストデータ１３２の中から「検」並びに「索」の文字を検出する処理を示すものである。

　注目すべき部分は文字を白黒反転し示している。

　ステップ１では、３バイトで構成される「検」の文字コードの最初の１バイト「検：１/３」を検出するもので、本実施形態では、相対７番地の文字検出回路１０５が「検：１/３」を検出する。

　検出されたＦＧは、前述の通りＦＧシフト回路１１２にプリセットされる。
さらにこのＦＧは、前述の通り初回勝ち抜きＦＧとしてＦＧ勝ち抜き回路１１３にセットされる。

　ステップ２からステップ５は同様な演算内容の繰り返しであるので割愛する。

　最後のステップ６では、３バイトで構成される「索」の文字コードの３番目の１バイト「索：３/３」を検出するもので、本実施形態では、相対１２番地の文字検出回路１０５が「索：３/３」を検出する。

　検出されたＦＧは、ＦＧシフト回路１１２にセットされる。

　以上与えられた比較データ１２３の文字列のバイト数ｎと同数の6つのステップで、与えられた検索キーワード１２５の「検索」の文字を連続で検出したことになる。
　注目すべきは、ステップ６でＦＧシフト回路１１２の相対７番地から相対１２番地までの連続した６つのＦＧ「1111111」と、ステップ１でセットされたＦＧ勝ち抜き回路１１３の相対７番地のＦＧが「1」となっていることである。
　図８は、和文の標準的な全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明するものである。

　ステップ６は先に説明の文字の検出の最終結果である。

　ステップ７からステップ１１は、以上検出された「検索」の文字の並び１２２（文字列）を検出する処理を示すものである。
ステップ７は、前述同様ステップ６で示されるＦＧシフト回路１１２のＦＧを左に１バイト分シフトし、シフトしたＦＧと、ＦＧ勝ち抜き回路１１３のＦＧとの論理積（ＡＮＤ）演算を行った結果が示されている。

　このステップでは、ＦＧ勝ち抜き回路１１３並びにＦＧシフト回路１１２の相対７番地並びに相対１６番地の双方のＦＧが存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対７番地はステップ６のまま（勝ち残り）である。

　ステップ８からステップ１０までは同様な演算の繰り返しであるので割愛する。

　最後のステップ１１は、ステップ１０で示されるＦＧシフト回路１１２のＦＧをさらに左に１バイト分シフト（合計左に５シフト）し、シフトしたＦＧと、ＦＧ勝ち抜き回路１１３のＦＧとの論理積（ＡＮＤ）演算を行うものである。

　このステップでは、前述同様ＦＧ勝ち抜き回路１１３並びにＦＧシフト回路１１２の相対７番地の双方のＦＧは存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対７番地はステップ１０のまま勝ち残りとなる。

　以上与えられた比較データ１２３の文字列のバイト数ｎと同数の６つのステップ－１回＝５回のシフト演算と論理積（ＡＮＤ）勝ち抜き演算を繰り返し、最後まで勝ち抜いた相対７番地が最終勝ち抜きＦＧとなる。

　以上の処理で相対７番地から相対１２番地までの文字の並び１２２（文字列）が、与えられた検索キーワード１２５の文字の並び１２２（文字列）と同じであることを連続で検出したことになる。

　以上の説明は図示した範囲の演算内容であるが、実際の処理では文字記憶素子１０２の１番地からＮ番地までの文字の並び１２２（文字列）の中に、与えられた検索キーワード１２５の文字の並び１２２（文字列）にマッチする（同一である）文字列があるか否かを連続で検出したことになる。

　この全文検索プロセッサ１０１の演算結果をＨＯＳＴに出力することにより、ＨＯＳＴは対象となる文字テキストデータ１３２の１番地からＮ番地の中に「検索」という文字列が存在するか否か及びに、どの位置（番地）に文字列の先頭番地が存在するかを知ることが可能になる。

　前述の英文の標準的な全文検索同様、与えられた比較データ１２３のバイト数ｎと同数のステップで連続的に文字を検出し、与えられた比較データ１２３のバイト数ｎ－１回のシフト演算と論理積（ＡＮＤ）勝ち抜き演算を連続して繰り返すことにより、文字の並び１２２（文字列）を検出出来ることが特に重要である。

　以上英文、和文２例に過ぎないが、ＵＴＦ－８などの標準文字コードを用いることにより全世界の言語共通に全文検索出来ることを示した。

　次に、高度な曖昧全文検索に不可欠なワイルドカード機能とギャップ機能を用いた応用例を示す。

　（ワイルドカードを適応した場合の全文検索動作）
　図９は、英文にワイルドカードを適応した全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明するものである。

　図１０は、英文にワイルドカードを適応した全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明するものである。

　図４の（３）に示したコマンド（比較データ１２３、シフトクロック１３０、勝ち抜き演算条件１２９）をステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものとして説明する。

　ワイルドカードはスペルが不確かな場合等に用いられるものである。

　本例では「search」文字列の３文字目、４文字目にワイルドカード「？」を適応した場合の例を示している。

　文字検出のステップ１、ステップ２はこれまでの説明通りである。

　３文字目、４文字目に特殊文字であるワイルドカード「？」を適応した場合、前記コマンド生成回路１２７は比較データ１２３を全文検索回路１０３に与えず、これら３文字目及び４文字目はスキップされ、文字検出工程は実行されない。

　従って、ステップ３で「c」、ステップ４で「ｈ」の文字を検出する。

　以上の４ステップで文字の検出は完了であり、必要な文字を連続で検出したことになる。

　ステップ４は先に説明の文字の検出の最終結果である。

　ステップ５からステップ９が文字列検出ステップとなる。この場合、上記ワイルドカードを含めて検索キーワード１２５は６バイトであるから、６－１の５ステップ（ステップ５～９）により文字検出工程が実行される。

　ただし、ワイルドカードに指定されたステップ６、７については、上記コマンド生成回路１２７の勝ち抜き演算条件生成回路１２９により生成されＦＧ勝ち抜き回路１１３に与えられる演算条件として「マスク（無視）」が選択される。このことで、ＦＧ勝ち抜き回路１１３の演算を無視させＦＧ勝ち抜き回路１１３の論理状態を変化させない。

　すなわち、ステップ５はワイルドカードの対象外であるので、ＦＧ勝ち抜き回路１１３の演算はこれまでの説明のＡＮＤ演算である。

　そして、ステップ６およびステップ７はワイルドカード対象のステップであるので、ＦＧ勝ち抜き回路１１３のＡＮＤ演算をマスク（無視）し、ステップ６およびステップ７のＦＧ勝ち抜き回路１１３を勝ち残りのままにしてステップ８に移る。

　ステップ８およびステップ９はワイルドカード対象外のステップであるので、通常のＡＮＤ演算を行い、最終ステップ１１で相対１１番地の「s」が勝ち残る。

　以上の処理で相対１１番地から相対１６番地までの文字の並び１２２（文字列）が、与えられた検索キーワード１２５の文字の並び１２２（文字列）にマッチする（同一である）ことを連続で検出したことになる。

　以上の説明は図示した範囲の演算内容であるが、実際の処理では文字記憶素子１０２の１番地からＮ番地までの文字の並び１２２（文字列）の中に、与えられたキーワード条件の文字の並び１２２（文字列）にマッチする（同一である）文字列を連続で検出したことになる。

　本例は文字列の中間にワイルドカードを指定した場合を示したが、文字列の中間のみならず、先頭や末尾など自由な位置にワイルドカードを利用することが可能である。

　本方式は以上のように外部から与えられる検索キーワード１２５の文字列にワイルドカードが含まれる場合、ワイルドカードの対象となる処理を省略することにより、ワイルドカード処理を可能にする。

　（文字のギャップを適応した全文検索）
　図１１は、英文に文字のギャップを適応した全文検索におけるデータ状態遷移－Ａ（文字検出工程）を説明するものである。

　図１２は、英文に文字のギャップを適応した全文検索におけるデータ状態遷移－Ｂ（文字列検出工程）を説明するものである。

　図４の（４）で紹介のコマンドをステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものとして説明する。

　文字の位置の許容（ギャップ）もスペルが不確かな場合等に用いられるものである。
前述した通り「*h」３Gapの特殊文字と文字のポジションは「h」文字の許容位置を示すもので、本例の場合「sea」が確かで、その後、ギャップが０から２つまでの３か所（ギャップ３）に「h」の文字があると想定される場合、つまり「seah」「sea*h」「sea**h」の何れでもマッチとする演算方法である。その具体例を以下に示す。

　ステップ１からステップ３までの「sea」の文字の検出はこれまでの説明通りである。

　ステップ４では、「*h」の特殊文字にギャップ３が指定されている。

　「h」が指定されているので、相対１６番地のＦＧシフト回路１１２が論理「1」にセットされる。

　以上で文字の検出は完了であり、必要な文字を連続で検出したことになる。

　図１２は同じく文字列検出工程におけるデータ状態遷移－Ｂを示すものである。

　ステップ４は先に説明の文字の検出の最終結果である。

　文字列の検出ステップ５は従来と同じである。

　ギャップ指定の場合、ステップ６で勝ち残りとなっているＦＧ勝ち抜き回路１１３はステップ７、８、９の各ステップの何れかで「h」を検出した場合にＦＧ勝ち抜き回路１１３を勝ち残りとするギャップ演算が実行される。

　ギャップ演算はＦＧ勝ち抜きレジスタの勝ち抜きメインレジスタと勝ち抜きサブレジスタを併用した演算が実行される。

　具体的には、ステップ６でこれまで勝ち抜いてきた相対番地の勝ち抜きサブレジスタを論理「1」にセットする。

　従って、本例では相対１１番地の勝ち抜きサブレジスタは論理「1」となる。

　ステップ７は「seah」の文字の並び１２２（文字列）を探すものである。

　勝ち抜きサブレジスタは論理「1」のままになっている。

　相対１１番地のＦＧシフト回路１１２の出力は論理「0」になり、勝ち抜きサブレジスタは論理「1」、双方の論理積（ＡＮＤ）条件は成立しないため、勝抜きメインレジスタは「1」に復活出来ない。

　ステップ８は「sea*h」の文字の並び１２２（文字列）を探すものである。

　勝ち抜きサブレジスタは論理「1」のままになっている。

　相対１１番地のＦＧシフト回路１１２の出力は論理「0」になり、勝ち抜きサブレジスタは論理「1」、双方の論理積（ＡＮＤ）条件は成立しないため、前記同様、勝ち抜きメインレジスタは「1」に復活出来ない。

　ステップ９は「sea**h」の文字の並び１２２（文字列）を探すものである。

　相対１１番地の勝ち抜きサブレジスタは論理「1」となっている。

　このステップで相対１１番地のＦＧシフト回路１１２は論理「1」になる。
双方の論理積（ＡＮＤ）条件が成立するので勝ち抜きメインレジスタは論理「1」に復活する。

　もし、ステップ７、８、９の何れでも、相対１１番地のＦＧシフト回路１１２は論理「1」と勝ち抜きサブレジスタの論理「1」論理積（ＡＮＤ）演算条件が成立しない場合は相対１１番地の勝ち抜きメインレジスタは勝ち残れない。

　このステップの直後のステップ１０で結果出力回路１０７により演算結果を出力する。

　以上の演算並びに出力により、「seah」「sea*h」「sea**h」のように文字間のギャップを含む文字列の全文検索が可能になる。

　説明は省略するが、後方からの文字列検出により、任意の位置にギャップ設定が可能である。

　以上のようなワイルドカード機能やギャップ機能で、全文検索操作の利便性を高めることが可能になる。

　本方式は以上の説明の通り、外部から与えられる検索キーワード１２５の文字列に文字のギャップ許容が含まれる場合、勝ち抜き回路に２組のレジスタを組み込むことにより、ギャップ許容処理が可能になる。

　ワイルドカード機能やギャップ機能も、標準的な全文検索と同様もしくはそれ以下のステップ数で処理出来ることが特に重要である。

　本実施形態ではワイルドカード機能やギャップ機能を指定する特殊文字を「？」や「*」で示したがこれに限るものではない。

　本方式の最大の特徴は並列度Ｎによる全文検索演算で、多様な全文検索（キーワード検索含む）のニーズに不可欠な前方一致、中間一致、後方一致はもとより、文字のワイルドカード機能やギャップ機能を適応した高度な全文検索が可能であることである。

　形態素方式インデックスではないので、流行語のような新しい用語にもリアルタイム対応が可能である。

　さらに本方式は、文字コードがバイト（８ビット）の整数倍単位で定義されるものであれば、どのような文字コードであっても全文検索が可能である。
従って本方式により、全文検索システムを世界の言語共通に標準化することが可能になる。

　（本実施形態のアルゴリズムの新規性と高速性）
　本実施形態のアルゴリズムの新規性と高速性について説明する。

　特許文献２で示した「特許第４５８８１１４号　情報絞り込み検出機能を備えたメモリ、その使用方法、このメモリを含む装置」において、シフトレジスタによるパターンマッチングの手法が示されている。

　この手法による画像のハードウェアパターンマッチングは、従来のＣＰＵによるソフトウェアパターンマッチングに比較して１万倍高速化出来ることが確認されている。

　然しながらこの先願発明のパターンマッチングは、画像のパターンマッチングが主目的であるので、画像処理に伴う様々なマッチング条件を満たす必要があり、多くのステップが必要な構成になっている。

　従って従来方式でｎバイト連続した文字列を検出する場合、ｎ回の文字検出演算と、１＋２＋３＋・・・（ｎ－１）回の文字列検出のためのシフト演算が必要になる。

　これに比較して本方式は図５から図１２で示した通りｎ回の文字検出演算＋（ｎ－１）回の文字列検出のためのシフト演算、合計ｎ×２－１回で全文検索のパターンマッチング処理が出来る。

　従って本方式は従来方式の演算回数に比較して例えば、日本語２文字６バイトの場合、従来方式は６（文字の検出）＋１５（５＋４＋３＋２＋１）（文字列の検出）＝２１回の演算に対し、本方式は６（文字の検出）＋５（文字列の検出）＝１１回の演算となるので、演算回数が２１／１１＝約１／２に削減される。

　日本語４文字１２バイトの場合、従来方式は１２（文字の検出）＋７８（１１＋１０・・・＋２＋１）（文字列の検出）＝９０回の演算に対し、本方式は１２（文字の検出）＋１１（文字列の検出）＝２３回の演算となるので、演算回数が９０／２３＝約１／４に削減される。

　日本語８文字２４バイトの場合、従来方式は２４（文字の検出）＋３００（２３＋２２・・・２＋１）（文字列の検出）＝３２４回の演算に対し、本方式は２４（文字の検出）＋２３（文字列の検出）＝４７回の演算となるので、演算回数が３２４／４７＝約１／７に削減される。

　以上のように本方式は、特に検索キーワード１２５の文字列が長い場合に有利であり、ワイルドカード機能やギャップ機能を含んだ演算もシンプルで効率的である。

　従って、このアルゴリズムを利用することにより全文検索の性能が大幅に向上し、インデックスがなくとも高速な全文検索システムが実現する。

　（全文検索プロセッサの全体構成）
　図１３は全文検索プロセッサの全体構成の一例を示す。

　この例では、ＨＯＳＴからの入力１で示す文字テキストデータ１３２は入出力インターフェース１１５を通じてＨＯＳＴのＣＰＵから直接もしくはＤＭＡ（Direct Memory Access）方式でデータ転送がなされ、文字記憶素子１０２には、Ｎバイトの文字コードが記憶されている。

　ＨＯＳＴからの入力２で示す全文検索の検索キーワード１２５は入出力インターフェース１１５を通じてＨＯＳＴから与えられる。

　この検索キーワード１２５はコマンド生成回路１２７で全文検索演算条件１１４に変換される。

　全文検索演算条件１１４の１つは比較データ生成回路１２３で作成される比較データ１２３であり、この比較データ１２３は文字検出回路１０５の入力に与えられる。

　全文検索演算条件１１４のもう１つはシフトクロック生成回路１３０で作成されるシフトクロック１３０並びに、勝ち抜き演算条件生成回路１２９で作成される勝ち抜き演算条件１２９であり、この２つの信号は文字列検出回路の入力に与えられる。

　本例では比較データ１２３の８ビットのデータ「s」：「01110011」が先に示した通りビット毎に比較演算され、その比較演算結果が１ビット一致検出回路１０９の演算結果として示されている。

　全文検索回路の番地１２６の２番地は１バイトの１ビット一致検出回路１０９の演算結果が「11111111」であるので、８入力論理積回路１１０の出力は論理「1」となる。

　この演算結果は、ＦＧシフト回路１１２のシフトレジスタに論理「1」としてセットされている状態を示している。

　さらに、全文検索回路の番地１２６の２番地のＦＧ勝ち抜き回路１１３のレジスタは勝ち残っていて論理「1」、２番地以外は論理「0」となっている状態を示している。

　以上のＦＧ勝ち抜き回路１１３の論理状態は全文検索演算の結果出力回路１０７から入出力インターフェース１１５を通じてＨＯＳＴへ出力される。
結果出力の方法は、前述の通りである。
効率的な結果出力方法について後述する。

　（絞り込み検索及び総合出力を行うプロセッサの構成例）
　図１４は、絞り込み検索を行う場合の全文検索プロセッサの構成を説明するものである。
　一例として、「検索」、「情報」、「検出」のように複数のキーワードで絞り込み検索を行う場合のブロックダイアグラムである。
　論理和（ＯＲ）回路１１１は、全ての結果出力回路１０７の出力を論理和（ＯＲ）するものであり、どこか一か所でも勝ち抜きがあれば、総合結果出力回路１０８をセットする。

　絞り込み検索演算は以下の通りである。

　初回「検索」のキーワード検索で勝ち抜きがあった場合、総合結果出力回路１０８はセットされる。

　次回「情報」のキーワード検索で勝ち抜きがあれば、総合結果出力回路１０８はセットされたままになる。

　次々回「検出」のキーワード検索で勝ち抜きがあれば、総合結果出力回路１０８はセットされたままになる。

　この総合結果出力をＨＯＳＴに送れば、ＨＯＳＴは文字記憶素子１０２の１番地からＮ番地までの中に、「検索」と「情報」と「検出」の３つの文字列が全て存在することを知ることが出来る。

　もし次回「情報」や次々回「検出」のキーワード検索で勝ち抜きが無ければ、総合結果出力回路１０８はクリアされる。

　この総合結果出力をＨＯＳＴに送れば、ＨＯＳＴは文字記憶素子１０２の１番地からＮ番地までの中に、「検索」と「情報」と「検出」の３つの文字列が全て一緒に存在しないことを知ることが出来る。

　以上説明の通り、複数の検索キーワード１２５で絞り込み検索を行い、検出した文字の並び１２２（文字列）の検出の結果をバイト毎にＮ並列に出力する機能の検出結果の論理和（ＯＲ）演算を行い、全文検出結果の有無を総合結果出力としてＨＯＳＴに出力する手法はＨＯＳＴ側の結果出力処理を大幅に軽減する。

　本実施形態では、結果出力１からＮ全体の論理和１１１を取り外部に出力する構成を示したが、１からＮを適切なサイズに分割して、分割した範囲毎に論理和回路１１１並びに総合結果出力回路１０８を外部に出力する構成にすることも可能である。

　以上のような構成とすることにより、分割した範囲より短い文字列の文字テキストデータ１３２が沢山ある場合には、分割された範囲それぞれに文字列を記憶し全文検索演算を実施することにより、範囲毎に記憶された文字列の全文検索結果を得ることが出来る。また限られたデータサイズであれば、ＨＯＳＴ側でどこに文字列があるのか探すことが容易になる。

　またＦＧ勝ち抜き回路１１３は、ＦＧシフト回路１１２との１ビット演算において、これまで説明の直接入力や論理積（ＡＮＤ）演算、論理和（ＯＲ）演算、マスク（無視）演算、ギャップ演算の他に、必要に応じて否定（ＮＯＴ）演算、排他（Ｅｘｃｌｕｓｉｖｅ）演算、カウンタ演算など、各種ブール演算を実現出来る構成にすることにより、より高度な全文検索が可能になる。

　否定（ＮＯＴ）演算の一例を挙げれば、検索キーワード１２５が「京都」の文字列の場合、「東京都」の文字列がノイズとして検索されるなどの問題を解決するにあたって、「京都」の前に「東」が含まれない文字列（「東」の論理否定）を探し出すのに有効な機能である。

　総合結果出力回路１０８も同様に、論理積（ＡＮＤ）演算、論理和（ＯＲ）演算、否定（ＮＯＴ）演算、勝ち抜きサブレジスタや、カウント演算などその他必要な演算を実現出来る構成にすることにより、後述するバッチ処理による複数のバッチ演算（長い文章の演算）の検出結果をまとめて最後に出力するなど、より利便性の高い全文検索が可能になる。

　（本実施形態の全文検索の特徴）
　この全文検索プロセッサ１０１の全文検索の特徴を記す。

　第１に、本方式は、Ｎ－ｇｒａｍ転置インデックスと等価な全文検索処理をハードウェアで行うものであり、任意の文字の長さの転置インデックスが可能である。

　Ｎ－ｇｒａｍ転置インデックスは全文検索機能のバリエーションが広く、検索洩れが少ないのが特徴である。

　然しながらＮ－ｇｒａｍ転置インデックスはインデックスの数が大きくなりインデックスのメモリ容量が大きくなる傾向があるが、本方式はインデックスを作成する必要がないのでインデックスのメモリ容量を考慮する必要がない。

　第２に、この全文検索プロセッサ１０１を利用すると、転置インデックスのような複雑なアルゴリズムが不要になるので、専門性が低減し専門家が不要になる。

　また、各国の言語の壁をなくして全文検索の標準化を可能にする。

　第３に、この全文検索プロセッサ１０１の全文検索アルゴリズムは超高速な全文検索を可能にすることである。

　しかも前方一致、中間一致、後方一致のみならず、ワイルドカード機能やギャップ機能などの高度な処理も最少の演算回数で処理可能である。
全文検索プロセッサ１０１を用いた全文検索の処理時間の実例については、図１８、２０で後述する。
全文検索プロセッサ１０１の様々な特徴を活用した構成例を以下に示す。

　（外部メモリ方式全文検索プロセッサの例）
　図１５は、外部メモリ方式全文検索プロセッサの概要を説明するものである。

　先に示した通り、本全文検索プロセッサ１０１は、Ｎ個の全文検索回路１０３が並列度Ｎ（全並列）で演算を行い、効率的で高速な文字列検索を実現するものであるが、Ｎ個の全文検索回路１０３の数を無制限に大きくすることは出来ない。

　従って、大きなサイズの文字テキストデータ１３２を本全文検索プロセッサ１０１に記憶することは出来ない。

　この問題を解決するのが、バッチ処理方式である。

　本全文検索プロセッサ１０１の上部にＨＯＳＴコンピュータが示されている。

　詳細は図２１で示すが、このＨＯＳＴコンピュータにはメモリもしくはストレージが配置されている。

　これらのメモリもしくはストレージに記憶されている文字テキストデータ１３２は、ＰＣＩeやＵＳＢなどの標準インターフェース１１６を通じ本全文検索プロセッサ１０１にデータ転送が可能な構成になっている。

　またＨＯＳＴからの検索キーワード１２５並びにＨＯＳＴへの結果出力も標準インターフェース１１６を通じて通信される構成になっている。

　以下、全文検索回路１０３のＮが３２Ｋ（３２×１,０２４）であり１バッチのデータ量が３２Ｋバイトの場合のバッチ処理について説明する。

　ちなみに３２Ｋは、特許文献３「特許第５９８１６６６号」の発明で、これまで研究を行ってきたＦＰＧＡによる並列処理の並列度を参考にしたものである。

　先ずはこのメモリがＤＲＡＭメモリである場合を説明する。

　ＤＲＡＭメモリは現在のコンピュータの主記憶装置であり、サーバーやＰＣからスマートフォンに至るまであらゆる種類のコンピュータに利用されている。
これらのＤＲＡＭメモリは単体で利用されることは少なく、ＪＥＤＥＣ（Solid State Technology Association）などの規格に準じたメモリモジュール（ＤＩＭＭ）として利用される。

　現在主流のＤＩＭＭ（Dual Inline Memory Module）はＤＤＲ４とよばれる規格のＤＲＡＭで、メモリ容量が８Ｇバイト程度であり、データ転送能力は１０Ｇバイト／秒から４０Ｇバイト／秒の性能を持つ。

　８ＧバイトをＵＴＦ－８漢字３バイトコードで使用する場合、８０億バイト／３バイトで２６億の和文文字を記憶することが出来る。

　（データの転送方法の例）
　図１６は、外部メモリ方式全文検索プロセッサ１０１と外部メモリもしくはストレージとのデータ転送の概要を説明するものである。

　本例では、ＤＩＭＭメモリやストレージのテキストデータを全文検索プロセッサ１０１の文字記憶素子１０２に書き込みを行う場合の概念を示す。

　この際、何処にどの文書類の文字テキストデータ１３２を記憶したか、もしくは記憶するかは、通常の情報処理と同様、ＨＯＳＴがＦＡＴ（File Allocation Table)にもとづき管理する。

　メモリからの読み出しも同様にＦＡＴを参照し、対象となる文章のテキストデータをＤＩＭＭメモリから読み出し、所定容量の文字テキストデータ１３２を全文検索プロセッサ１０１に書き込みすることになる。

　ＤＩＭＭメモリに書き込まれた文字テキストデータ１３２は、通常６４ビット（８バイト）単位で全文検索プロセッサ１０１の文字記憶素子１０２にバースト転送（書き込み）される。

　次に外部メモリから全文検索プロセッサ１０１にデータを転送する場合の考え方を説明する。

　メモリから、テキストデータを転送する場合３つのケースが存在する。

　対象となる文字テキストデータ１３２が３２Ｋバイトより大きい場合、文字テキストデータ１３２を分割して本全文検索プロセッサ１０１にデータを送りバッチ処理すれば良い。

　毎次のバッチデータ転送の際、前回転送した末尾の数十バイト程度（検索最大文字列数）を次回転送時に重複して転送することにより、検索洩れをなくすことが出来る。

　対象となる文字テキストデータ１３２が３２Ｋバイトより小さく３２Ｋバイトに近い場合、１バッチを１ファイルの文字テキストデータ１３２とすれば良い。

　対象となる文字テキストデータ１３２が３２Ｋバイトより大幅に小さい場合は、１バッチに複数ファイルの文字テキストデータ１３２を書き込みすれば良い。

　ＨＯＳＴは、どのような文字テキストデータ１３２のファイルをバッチ処理したか分かっているので、本全文検索プロセッサ１０１の演算結果と文字テキストデータ１３２を関連付けすることが可能である。

　（バッチ処理方法の例）
　図１７は、外部メモリ方式全文検索プロセッサのバッチ処理のタイムチャートを説明するものである。

　外部メモリと本全文検索プロセッサ１０１をバッチ処理する場合のタイムチャートを示すものであり、１バッチからＸバッチまでのバッチ処理と、１からＹまでのＹ回の連続検索を行い、Ｙ回目の検索結果をＨＯＳＴに出力する場合のタイムチャートが示されている。

　以下の説明は、これまで説明の汎用ＤＩＭＭメモリを利用し、バッチ回数Ｘを２５０，０００バッチとする場合の全文検索処理の概要を示す。
８Ｇバイトを２５０，０００バッチで処理する場合、１バッチは３２Ｋバイトとなる。

　先ずはデータ転送能力について考察する。

　８Ｇバイト全部のデータを３２Ｇバイト／秒で転送する場合には、２５０ｍ秒である。

　バッチ処理で分割してデータを転送する場合でも、データ転送時間の合計は２５０ｍ秒である。

　仮に１秒以下をリアルタイム検索時間と定義すると、残り最大７５０ｍ秒を検索演算に利用することが出来る。

　逆に１バッチ毎のデータ転送時間と検索演算時間の関係を説明する。

　先に示した全文検索回路１０３の並列度Ｎが３２Ｋで、１バッチのデータ量が３２Ｋバイトの場合、８Ｇバイトのバッチ数Ｘは２５０，０００となり、１秒以内で全文検索を行う場合、１バッチの処理時間は最大４μ秒となる。
３２Ｇバイト／秒のデータ転送能力の場合、１バッチ３２Ｋバイトのデータ転送時間は１μ秒となる。

　従って、残り３μ秒をこの全文検索プロセッサ１０１の検索時間に利用することが可能になる。

　先に述べたように、本全文検索プロセッサ１０１は、数十ステップ（クロック）で１回の検出処理を実行することが可能である。
詳細は図１８で説明するが、一般的な全文検索は３から４文字の２から３種類がキーワードであるので５０ステップあれば十分であり、システムクロック１３１を１０ｎ秒として１バッチ５０ステップの処理を２５０，０００（２５０Ｋ）回バッチ処理した場合（８Ｇバイト）の演算処理時間は１２５ｍ秒となる。
２５０ｍ秒（データ転送時間）＋１２５ｍ秒（演算処理時間）、双方合わせて３７５ｍ秒はインデックスを使った全文検索に遜色のない演算性能である。

　現在主流になっているＤＩＭＭメモリをそのまま活用出来るのも重要な特徴である。

　Ｎ－ｇｒａｍ方式の精度の良い検索能力と検索スピード性能を活かせば、曖昧検索や同義語検索が可能になる。

　ＨＯＳＴの処理はバッチ毎に出力される、検索結果あり／なしの結果を受け取るのみであるので、検索の負担が少なく、システム全体としての低消費電力化が可能になる。

　もちろん、図１３で示すように検索処理毎に検索のバイト位置を含め検索結果をＨＯＳＴに送ることも可能である。

　（外部メモリ方式応用例１（増設））
　以上の説明は８ＧバイトＤＤＲ４のＤＩＭＭメモリ１枚に対するものであった。

　もし容量を増やす場合には、必要数（必要容量）のＤＩＭＭと同数の本全文検索プロセッサ１０１を利用し、ＨＯＳＴからの制御を並列にすることにより容易に増設が可能になる。

　この場合、本全文検索プロセッサ１０１は独立して検索処理を行うので、メモリ容量が増えても全文検索時間は同じである。

　（外部メモリ方式応用例２（不揮発性メモリ））
　ＤＲＡＭは揮発性のメモリであるので、電源を切ると記憶されたデータは消去されてしまい再度記憶し直す必要がある。

　不揮発性のメモリ（ストレージ）を使用する場合について説明をする。

　近年のＳＳＤ（Solid State Drive）はデータ転送能力が改善されて、７Ｇバイト／秒のように高速なデータ転送能力を持つものも存在する。

　然しながら先ほど説明の３２Ｇバイト／秒の転送能力を持つＤＲＡＭ方式に比較すると、数分の１の転送能力しか持ち合わせしていない。

　このような場合、複数のＳＳＤをＲＡＩＤ（Redundant Arrays of Inexpensive Disks）－０接続して利用することにより、データ転送能力がＤＲＡＭと同様な性能を持ち、不揮発性のシステムを実現することが出来るようになる。
ＳＳＤの記憶容量は１モジュール１Ｔバイトなど、先に示した８ＧバイトのＤＲＡＭ方式のメモリより１００倍以上記憶容量が大きい。

　従って、１Ｔバイトのメモリ空間全てを文字テキストデータ１３２として利用する場合、バッチ処理回数が１００倍以上になり検索時間が大幅に遅くなる。

　１Ｔバイトのメモリ空間には文字テキストデータ１３２だけでなく、音声、ビデオ、ログファイル、位置情報、センサ情報等のさまざまなデータも利用すると良い。

　ＤＲＡＭは不揮発性データであることから、文字テキストデータ１３２は必ずどこかのストレージに保管しなくてはならない。

　本方式は、ＳＳＤに保管した文字テキストデータ１３２をそのままの状態で、しかも電源立ち上げ直後からリアルタイムで全文検索に利用出来るのが大きな特徴である。

　以上説明の外部メモリまたはストレージとのバッチ方式の全文検索プロセッサ１０１は、ＡＳＩＣのみならずＦＰＧＡで実現出来る。

　ＦＰＧＡは機能の追加や削除が柔軟に出来るので、システムに最適な全文検索プロセッサ１０１を実現することが可能になる。

　（外部メモリ方式全文検索プロセッサの演算能力について）
　図１８は、これまで説明の外部メモリ方式全文検索プロセッサの演算能力を取り纏めしたものである。

　本願発明の性能は、バッチデータの転送能力、全文検索回路１０３の並列度Ｎ、並びに演算機能のシステムクロック１３１速度、そしてバッチ回数Ｘで定まる。

　一例として「情報処理」と「全文検索」の和文４文字で２組の全文検索の場合を想定する。

　和文ＵＴＦ－８文字コードの場合、１文字ほぼ３バイト文字コードになるので、１組は１２バイト構成になる。

　従って４文字１組の文字列の検出は、１２×２－１＝２３ステップ、４文字２組の場合、結果出力やレジスタのクリアなどの処理を含め約５０ステップ程度となる。

　「full text search process」など合計２４文字、２４バイト構成の英文のキーワード検索は、文字の検出が２４ステップ、文字の並び１２２（文字列）の検出が２３ステップとなり、結果出力やレジスタのクリアなどの処理を含め約５０ステップ程度である。

　一般的な検索では以上のような検索条件となるので、５０ステップ（クロック）を標準的な全文検索のステップ数（クロック数）として、これまで説明の全文検索プロセッサ１０１の代表的な性能を取り纏めする。

　図表の上段に示す外部メモリ方式－Ａ（低速）は、図１５で説明の全文検索プロセッサ１０１によるもので、本例ではこれまでの説明の通り１バッチの処理数が３２Ｋバイト（並列度は３２Ｋ）で外部メモリとのデータ転送が３２Gバイト／秒（低速）、演算時間はシステムクロック１３１が１０ｎ秒（低速）で５０ステップとした場合のバッチ毎の演算時間を示したものである。

　図表には以上の条件をもとにしてバッチ処理数、その検索データ量、そしてこのデータを転送するための転送時間、検索演算時間、合計処理時間＝データ転送時間＋検索演算時間、以上が示されている。

　本方式は後述する内部メモリ方式に比較すると処理時間は遅いが、市場に出回っているＤＲＡＭやＳＳＤ並びにＦＰＧＡで直ぐにでも利用出来るのが特徴である。

　図表の「バッチ処理数２５０Ｋで、合計処理時間が３７５ｍ秒」の部分が先に図１７で示した演算能力である。

　図表の下段に示す外部メモリ方式－Ｂ（高速）は、ＡＳＩＣを開発しデータ転送能力の高いＨＢＭ（High Band Memory）を使用した場合のバッチ毎の演算時間を取り纏めしたものである。

　本例ではこれまでの説明の通り１バッチの処理数が３２Ｋバイト（並列度は３２Ｋ）で、外部メモリとのデータ転送が３２０Ｇバイト／秒（高速）、演算時間はシステムクロック１３１が５ｎ秒（高速）で５０ステップとした場合のバッチ毎の演算時間を示したものである。

　外部メモリ方式－Ａ（低速）に比較して４.３倍高速である。

　（内部メモリ方式全文検索プロセッサ）
　図１９は、内部メモリ方式全文検索プロセッサの概要を説明するものである。
これまで説明の外部メモリ方式の場合はメモリもしくはストレージと全文検索プロセッサ１０１が分離され、バスボトルネックの影響でデータ転送時間に時間がかかっていた。

　図は全文検索プロセッサ１０１のＡＳＩＣ化を行い、データの幅が文字記憶素子１０２と同数のＮで、アドレスが１からＭまでの内部メモリ１２０もしくは内部ストレージ１２１を本全文検索プロセッサ１０１の内部に組み込んだものである。

　図では、アドレス１からＭまで、データ幅が文字記憶素子１０２のデータ数と同数のデータ幅を持った内部メモリ１２０もしくは内部ストレージ１２１が本全文検索プロセッサ１０１内部に組み込みされており、任意のアドレスを選択することにより行方向のデータを全並列に文字記憶素子１０２に代入出来る構成としている。

　以上の構成にすることにより、外部から転送していた文字テキストデータ１３２のデータ転送に替わり、アドレスが１からＭの任意のアドレスを選択し文字記憶素子１０２に代入処理（アクセス）することでデータ転送が行われることになるので、これまで説明のバッチ処理より高速な全文検索処理を実現することが出来る。

　内部メモリ１２０はこれまで説明のＤＲＡＭやＳＲＡＭ、内部ストレージ１２１はＮＡＮＤ型やＮＯＲ型のＳＳＤのメモリのみならず、スピントロニクス型メモリや抵抗変化型メモリが対象になる。

　言うまでもなくアクセス時間が速い方が有利である。

　不揮発性ＦＬＵＳＨメモリの場合、ＮＡＮＤ型に比較してＮＯＲ型のＳＳＤは速いアクセス時間が期待出来る。

　また半導体製造技術では、ＳｏＣ（System-on-a-Chip）、ＳｉＰ（System in Package）、さらにはＷｏＷ（Wafer on Wafer）や３Ｄ実装など最新の半導体技術を駆使した全文検索プロセッサ１０１が期待出来る。

　ＦＰＧＡの内部に、これらの全文検索が可能な内部メモリ１２０や内部ストレージ１２１を組み込むことも可能である。

　バッチ処理や全文検索演算内容は、これまで説明の外部メモリ方式の全文検索プロセッサ１０１と同様である。
本方式のシステムの性能について以下に説明する。

　（内部メモリ方式全文検索プロセッサの演算能力）
　図２０は、これまで説明の内部メモリ方式全文検索プロセッサの演算能力を取り纏めしたものである。

　図表の上段に示す内部メモリ方式－Ａ（低速）は、図１９で説明の全文検索プロセッサ１０１によるもので、これまでと同様１バッチの処理数が３２Ｋバイト（並列度は３２Ｋ）で、ストレージ型のメモリを想定し内部メモリ１２０のデータ転送時間が１００ｎ秒（低速）で、演算時間はシステムクロック１３１が２ｎ秒（低速）で５０ステップとした場合のバッチ毎の演算時間を示したものである。

　本方式は外部メモリ方式－Ａ（低速）に比較すると処理時間が７.５倍高速である。

　外部メモリ方式－Ｂ（高速）に比較すると処理時間が１.７５倍程高速である。
図表の下段に示す内部メモリ方式－Ｂ（高速）は、これまでと同様１バッチの処理数が３２Ｋバイト（並列度は３２Ｋ）で、ＤＲＡＭメモリ等、高速な内部メモリ１２０を想定したものでデータ転送時間が１０ｎ秒（高速）で、演算時間はシステムクロック１３１が１ｎ秒（高速）で５０ステップとした場合のバッチ毎の演算時間を示したものである。

　本方式は内部メモリ方式－Ａ（低速）に比較すると処理時間が３.３倍高速である。

　本方式は外部メモリ方式－Ａ（低速）に比較すると処理時間が２５倍高速である。

　外部メモリ方式－Ｂ（高速）に比較すると処理時間が５.８倍高速である。

　内部メモリ方式－Ａ（低速）、内部メモリ方式－Ｂ（高速）、双方の検索データ量は全文検索プロセッサ１０１内部に集積するメモリの容量になるので、メモリの搭載技術が今後の研究テーマとなる。

　もし１秒以内の検索時間を期待するのであれば、外部メモリ方式－Ａ（低速）の場合には５００Kバッチ、１６Ｇバイトのデータ量の全文検索が可能になる。
外部メモリ方式－Ｂ（高速）の場合には２Ｍバッチ、６４Ｇバイトのデータ量の全文検索が可能になる。

　内部メモリ方式－Ａ（低速）の場合には４Ｍバッチ、１２８Ｇバイトのデータ量の全文検索が可能になる。

　内部メモリ方式－Ｂ（高速）の場合には１６Ｍバッチ、５１２Ｇバイトのデータ量の全文検索が可能になる。

　図表に示した性能は１つの全文検索プロセッサ１０１の性能であるので、全文検索プロセッサ１０１を複数並列接続して利用することにより、同一時間でデータ検索量を増やすことが可能になる。

　また図表に示した各諸元は現在の半導体技術レベルの推定値によるものであるので、今後の半導体技術の向上により高性能な全文検索プロセッサ１０１が期待出来る。

　内部メモリ方式の全文検索プロセッサ１０１を開発するにあたっては、高速・小容量／中速・中容量／低速・大容量など幾つかのタイプに分類し、発熱やチップサイズや経済性を考慮して最適な方式を選択すると良い。

　チップが開発されれば、利用者はどのような性能や機能を必要とするかにより最適なチップを選択すれば良い。

　本方式のメリットの一つは、以上のように全文検索時間を事前に予測出来ることである。

　前述した通り、全文検索プロセッサ１０１に利用されるメモリは、これまで説明のＤＲＡＭやＮＡＮＤ型やＮＯＲ型のストレージに限定されるものではなく、今後期待される新しいメモリを利用することも自由である。

　前述した通り、ＡＳＩＣのみならずＦＰＧＡに組み込むことも可能である。

　以上の図１８、２０に示す演算能力は、実現性を保証するものではない。
また理論値であるので、一定のオーバーヘッドを加味する必要がある。

　（全文検索プロセッサを利用する場合のシステム構成例）
　図２１は、全文検索プロセッサを利用する場合のシステム構成例を説明するものである。

　図１５で示した外部メモリ方式全文検索プロセッサ１０１並びに、図１９で示した内部メモリ方式全文検索プロセッサ１０１の利用方法は様々な方式があるが、代表的な２例を紹介する。

　システム構成例－Ａは、図１５で示した外部メモリ方式全文検索プロセッサ１０１のシステム構成例で、システムボード１２４の外部に全文検索プロセッサ１０１を接続し利用する場合の例である。

　システムボード１２４から、ＤＲＡＭメモリのデータもしくはストレージのデータをＰＣＩeやＵＳＢなどの標準インターフェース１１６に接続して利用する場合の例である。

　システムボード１２４には、ＤＲＡＭメモリが搭載されると共にストレージが外部接続されている。

　この場合、全文検索プロセッサ１０１には標準インターフェース１１６を通じて、ＤＲＡＭメモリもしくはストレージからの文字テキストデータ１３２の転送と、ＨＯＳＴからの検索キーワード１２５、並びにＨＯＳＴへの演算結果出力信号が授受される。

　ＵＳＢの場合の現時点での最大伝送帯域は最大５Ｇｂｐｓ（ＵＳＢ３．０）である。

　一方、ＰＣＩｅの場合、数十Ｇバイト／秒から数百Ｇバイト／秒まで様々な広帯域の伝送能力を持っているので、システムの性能に合わせたＰＣＩｅの規格を利用すると良い。

　システム構成例－Ｂは、図１９で示した内部メモリ方式全文検索プロセッサ１０１のシステム構成例で、システムボード１２４の内部にメモリやストレージを内蔵した全文検索プロセッサ１０１を組み込み利用する場合の例である。

　この例では、システムボード１２４内部に全文検索プロセッサ用インターフェース１１９を使用して全文検索を行う場合の例である。

　これまでの説明は、ＨＯＳＴが検索キーワード１２５を全文検索プロセッサ１０１に送り、コマンド生成回路１２７が図５から１２に示す各ステップのコマンド（コントロール）信号を全文検索回路１０３に送り、全文検索回路１０３は全文検索演算を行い、その演算結果出力をＨＯＳＴが受信することとして説明をしている。

　ＨＯＳＴは、全文検索プロセッサ１０１から送られてくるバッチ毎の検索結果を受信し、総合結果出力回路１０８の結果出力が「有り」のバッチが分かれば、当該バッチデータのどの部分に検索対象の文字列があるかＨＯＳＴで確認することが出来る。

　システムを構築するにあたっては、求められる演算性能や機能並びに全文検索プロセッサ１０１の並列数に応じて適切なＨＯＳＴやアプリケーションソフトウェアを準備することは言うまでもない。

　以下に全文検索プロセッサ１０１のシステム応用実施形態を示す。

　（ＷＥＢ検索システム－１）
　ＷＥＢ検索サイトの全文検索は極めて過酷である。

　ＷＥＢ検索サイトの場合、対象となる文字テキストデータ１３２のデータ容量が膨大であること、さらに極めて多くの人々が時間に関係なく利用するからである。

　仮に日本人５千万人が平均１日１０回日本語の検索サイトの検索を行う場合、５００Ｍ回（５０Ｍ人×１０回）／８６，４００秒＝１秒間に約５,７８７回の検索が行われることになる。

　逆算すれば一回当たりの処理時間は１／５,７８７＝１７３μ秒になる。

　従って、少なくともこの時間の半分以下の時間で検索処理を完了出来るようにする必要がある。

　以上の場合、先に示した内部メモリ方式－Ｂの１Ｋバッチ（３２Ｍバイト）の６０μ秒がこれに相当する。このタイプのプロセッサを利用することでも良いが、１Ｍバッチ（３２Ｇバイト）の６０ｍ秒の全文検索プロセッサ１０１の１,０００個に同一のデータを書き込み、分散処理することも可能である。

　半導体チップへの実装やプリント基板にその半導体チップを実装する場合、小さなチップを沢山利用するより大きなチップを利用する方が有利になる。
以上のようなマルチアクセスを考慮し、適切な性能の本全文検索プロセッサ１０１を利用すると良い。

　一般的なＷＥＢ検索サイトは、現在システムコスト削減の観点からＨＤＤ方式のストレージを利用したシステムとしているが、今後ＳＳＤタイプのストレージのコストが低減された場合には徐々にＳＳＤ方式のストレージに置き換わるものと思われる。

　その場合には、本方式の全文検索エンジンを利用するとインデックスの様々な制約から解放されるので、システムの運用コストを削減しリアルタイム性の高いＷＥＢ検索システムとすることが期待出来る。

　（ＷＥＢ検索システム－２）
　以上説明のようなＷＥＢ検索サイトを本方式に置き換えするには、導入コストや運用コストなど経済性の検討など相当の時間がかかると思われる。

　比較的容易に実現可能で、この技術の特徴を上手く利用することが出来る方法を紹介する。

　大手ＷＥＢ検索サイトの情報によると、日本語Ｎ－ｇｒａｍ方式の異なり数（インデックスの最大数）は以下のようにＮＥＴ情報で公開されている。
https://japan.googleblog.com/2007/11/n-gram.html
総単語数： 255,198,240,937 （2,550億)
総文数：20,036,793,177 (200億)
異なり 1－ｇｒａｍ数：2,565,424
異なり 2－ｇｒａｍ数：80,513,289
異なり 3－ｇｒａｍ数：394,482,216
異なり 4－ｇｒａｍ数：707,787,333
異なり 5－ｇｒａｍ数：776,378,943
異なり 6－ｇｒａｍ数：688,782,933
異なり 7－ｇｒａｍ数：570,204,252
異なりはインデックスの最大数に相当する。

　異なり１－ｇｒａｍ数は１文字を示すものであり、通常使用されている漢字や英文字のみならず全世界で利用される文字や記号さらには環境文字などが含まれ、２５６万種類もの文字が出現していることになる。

　出現頻度の少ないインデックスであっても無視すると検索洩れが発生する。

　総文数２００億の中に１回しか利用されていない特殊な文字や記号でもインデックスを持つ必要があるので、Ｎ－ｇｒａｍ方式でインデックスを作ると全体で３２億もの膨大なインデックスが必要になる。

　考慮すべきは、以上のように３２億ものインデックスのほとんどがめったに利用されないインデックスであっても、無視すると検索洩れが発生することである。

　従って、形態素方式インデックスなど別な方式のインデックスを併用するなど複雑なインデックス構成とせざるを得ない。

　永年のこのインデックスの難題を解決する方法を紹介する。

　一例として薔薇（ばら）、饂飩（うどん）、侃々諤々（かんかんがくがく）の「薔」、「薇」、「饂」、「飩」、「侃」、「諤」の文字や特殊記号などめったに使われない文字が１つでも含まれている場合に本全文検索プロセッサ１０１を使用し、含まれていない場合にはこれまでの通りインデックス方式による全文検索とすることにより、システムを大幅に効率化することが出来る。
めったに使われない文字を含んだ全文検索の頻度は極端に少なくなるので、全文検索プロセッサ１０１はその検索頻度に適した検索速度のものを選べば良い。

　めったに使われない文字を含んだインデックスを不要とすれば、インデックスの数は極端に少なくなる。

　また、本全文検索プロセッサ１０１には、めったに使われない文字を含んだＷＥＢサイトのテキストデータのみを記憶すれば良いので、本全文検索プロセッサ１０１の数も削減することが出来る。

　例えばインデックスを使用頻度の高い上位１０万と決めて、これらはインデックスを使用した全文検索とし、これ以外の使用頻度の少ないインデックスに関わる検索を本全文検索プロセッサ１０１に任せる方式とする、など様々な応用が可能である。

　これまで最大３２億以上も必要であったインデックスの数を１０万に削減することが出来てインデックスの追加が不要になれば、ＷＥＢ検索システムはこれまでの複雑性が一変する。

　以上のように、インデックス方式の利点と本全文検索方式の利点を組み合わせすることにより、検索性能を落とすことなくインデックスの数を極限まで削減し、ＷＥＢ検索システムをスリム化することが可能になる。

　以上説明のインデックスの数の問題は、WＥＢ検索システムに限らず全文検索共通の課題である。

　先ほどの例では、特殊記号やめったに使われない文字が１つでも含まれている場合に本全文検索プロセッサ１０１を利用するシステム構成を示したが、その反対に全文検索を行わない場合や、特殊記号やめったに使われない文字以外の特定の文字に対応させることも可能である。

　システムの特徴を分析して最適な利用方法を考えると良い。

　（ローカルＷＥＢ検索システム）
　論文や文献等に含まれる文字を検索する場合、通常のＷＥＢ検索サイトの検索手法では物足りない場合がある。

　このような場合、ＷＥＢから必要な情報を集め、本願発明の全文検索プロセッサ１０１を利用すると、ｇｒｅｐ（global regular expression print）などの高度な方法での全文検索が可能になる。

　（文字や用語のミス検出、誤訳検出）
　コーパス（corpus）は自然言語研究用に利用されるデータベースである。

　コーパスはインデックスを用いたデータベースであるので、辞書の編纂同様に定期的に改訂がなされるため、「コロナ禍」のような最新の言葉は含まれていない場合が多い。

　本願発明を用いることにより、コーパスを常に最新の用語や情報が含まれるテキストデータとすることが出来る。

　作成中の文章の一部を内部や外部のメモリに蓄積された大量で最新情報が盛り込まれたテキストデータと照合することにより、ヒットするテキストがなければ前例なし（ミス）と判定しアラートを出力するなどの利用の仕方もある。

　（大規模インフラ系システム　大規模社内検索システム）
　本願発明は、特許検索や大企業の社内検索システムなど大規模インフラ系や大規模組織の全文検索システムに最適であることは言うまでもない。

　以上説明のＷＥＢ検索サイトの内容を参考にしてシステムを構築すると良い。

　（未開拓実施分野）
　本願発明はインデックスを用いた全文検索で問題を抱えたシステムや、まだシステム化されていない分野に光明を照らすものと期待出来る。
新しい情報の中から価値を見つけだすようなストリーム型テキストデータの全文検索への応用が期待出来る。

　ストリームデータとして流れてくるテキストデータの中に使用される文字の頻度は、ＡＩ分析に欠かせないものである。

　現在の方式では対応困難な、自然言語処理や統計システム等のリアルタイム処理に焦点を当てて検討すると良い。

　例えば音声認識の認識候補や翻訳の際の翻訳候補を全文検索プロセッサ１０１に照合することにより、ヒットするテキストがなければ前例なし（ミス）と判定しアラートを出力することや、ヒットするテキストが最大のものを選択するなど、音声認識精度を高めるなどの知的情報処理（ＡI分野）に利用出来る。

　（個人利用）
　ＰＣを利用する多くの人々は頻繁にメールの検索、ワードやエクセル、パワーポイントなどのテキストデータなど様々な全文検索を日常茶飯事のように利用している。

　然しながらこれらの全文検索はＰＣに標準的に添付されたソフトウェアによるものであり、高度な検索条件を設定することは出来ない。

　本願発明による全文検索は、全く専門性が不要になり、様々な機能を備えたソフトウェアの標準化が進むことが期待される。

　これらのソフトウェアを利用すれば、全文検索の専門家やソフトウェアの専門家でなくとも個人個人思い思いの全文検索を利用することが可能になる。

　（ゲノム解析）
　これまでの説明では文字テキストデータ１３２の検索であったが、ゲノムの解析にも本全文検索プロセッサ１０１を利用することが出来る。

　人のゲノムは約６０億塩基対のＤＮＡを核内に持っている。

　従って、８Ｇバイトの容量があれば人ゲノム全てを記憶し、一括解析をすることが可能になる。

　ゲノムの「ＡＴＧＣ」の塩基配列ゲノム解析では、ワイルドカード機能やギャップ機能が必要不可欠であるので本方式は最適である。

　現在のゲノム解析の殆どはインデックスを利用し高速化を図っており、インデックスの作り方により検索洩れや検索結果のばらつきが生じ問題になっている。

　またインデックスを作成する時間は待ち時間となる。

　本全文検索プロセッサ１０１を利用すると、インデックス無し、つまりインデックス作成の待ち時間がなく、検索洩れや検索結果のばらつきがなく、しかも高速なゲノム解析が可能になる。

　（全文検索の標準化）
　本願発明による全文検索は、ＵＴＦ－８など世界標準の文字コードを利用することにより、全世界の文字に共通に利用することが出来る。

　ＳＱＬやＮｏｎＳＱＬのｇｒｅｐ等の正規化表現など文字パターンマッチングのルールを導入することで、全世界の全文検索技術を標準化することが可能になる。

　標準化により本全文検索プロセッサ１０１のＡＳＩＣチップは安価に供給可能になり、大きな需要が期待される。

　（本願発明のメリット）
　本願発明の全文検索プロセッサ１０１並びにこれを利用したシステムや商品のメリットを列記する。
転置インデックス不要
・リアルタイム処理、ストリーム処理が可能になる
・インデックスのチューニングが不要になる
・インデックスのメモリやストレージが不要になる
・インデックスの更新処理が不要になる
・システムの開発が容易になる
・システムの増設が容易になる
精度・速度機能
・Ｎ－ｇｒａｍと同様な検索精度と検索速度を持つ
・ワイルドカード・ギャップ・中間一致・後方一致可能
（ＳＱＬのＬｉｋｅ文やｇｒｅｐ（正規化表現）のような文字検索が可能）
汎用性
・ＡＳCＩＩ、ＪＩＳ、ＵＴＦなどの文字コードに対応可能である
・ゲノム解析などにも利用出来る
・ＵＴＦ-８文字コードで全文検索の世界標準化が出来る
・ＳＱＬやＮｏｎＳＱＬのデータベースに利用可能になる
実用性
・ＦＰＧＡで実用可能である
・インデックスを利用した全文検索システムに組み込み可能になる
・最新用語入りコーパスを創ることが出来る
情報処理への貢献
・全文検索技術の専門性が低減し専門家が不要になる
・音声認識や翻訳など自然言語処理技術の進化を加速する
・全文検索技術の世界標準化が出来る
以上の多くは全文検索や自然言語処理技術の顕在的もしくは潜在的ニーズである。

　（本願発明の着眼点）
　最後に本願発明の着眼点を示す。

　文字テキストデータ１３２の１バイト毎に全文検索回路１０３を利用することが理想であるが、この方式では全文検索半導体チップや全文検索システムのコストパフォーマンスが極めて悪くなる。

　本願発明は全文検索回路１０３に文字テキストデータ１３２を時分割で多数与えることにより、インデックス不要の全文検索の性能とシステムコストのバランスをとることを意図したものである。

　なお、本例では、コマンド生成回路１２７の全ての回路（機能）を全文検索プロセッサ１０１の内部に備えることで説明を行っているが、コマンド生成回路１２７の一部の回路（機能）や全ての回路（機能）をＨＯＳＴ側に備え、全文検索プロセッサ１０１はＨＯＳＴ側から与えられたステップ毎の演算条件に基づき演算を実行し、ステップ毎にアクノリッジ（ＡＣＫ）を都度ＨＯＳＴ側に通知する構成でも構わない。

　また、コマンド生成回路１２７を全文検索プロセッサ１０１の内部に置く場合には、ＣＰＵ並びにプログラムを格納するメモリを全文検索プロセッサ１０１内部に組み込み、ソフト処理で全文検索演算条件１１４を生成し全文検索回路１０３をコントロールすることも可能である。

　（基本回路構成（第２の例））
　次に、本願発明に係る全文検索プロセッサの第２の例について説明する。

　この第２の例は、上記第１の例と同様に、検索対象の文字テキストデータを１バイト（８ビット）毎に記憶素子に記憶させ、与えられた検索キーワードの文字列の「文字」と「文字の並び」の一致不一致を１バイト毎に並列に比較し、与えられた検索キーワード１２５の文字列の先頭もしくは末尾に該当する文字テキストデータの位置（番地）を全文検索結果として返すものである。

　ただし、上記第１の例では、前記文字検出回路１０５により文字検出が終了した後に、前記文字列検出回路１０６によるシフト動作を行っていたのに対し、この第２の例では、文字検出回路１０５による文字検出と、文字列検出回路１０６によるシフト動作を「交互」に実行するものである。

　すなわち、第１の例では、上記文字検出回路１０５に文字テキストデータ１３２の中から検索キーワード１２５に含まれる全文字と一致する文字若しくは文字の部分（１バイトのコード）を一致フラグ（ＦＧ）として最初に検出させた後、文字列検出回路１０６に検索キーワード１２５の文字列のバイト数ｎ－１回（前記シフトクロック数に対応）だけこのフラグの位置を順番にシフトさせることで検索キーワード１２５のバイト数分連続するフラグの位置、すなわち文字の並び１２２（文字列）を検出していた。

　これに対して、この第２の例では、上記文字検出回路１０５により検索キーワード１２５の文字と一致する文字若しくは文字の部分（１バイトのコード）が検出（一致フラグ（ＦＧ））されるたびにこのフラグの位置を１つシフトさせてＦＧ勝ち抜き回路１１３で当該フラグが直前に検出されたフラグの位置と連続するかを１文字コード毎に検出するものである。このような方法であっても文字の並び１２２（文字列）を検出することが出来る。以下、このような第２の方法による処理を「交互処理」という。

　図２２はこの第２の例を実行するための全文検索プロセッサの基本構成を示すものである。この第２の例においては、第２の例コマンド生成回路１２７（図１）に上記交互処理を実現するためのステップ条件１３３（本例ではステップ１の時は論理「0」、ステップ１以外の時は論理「1」となる信号（後述））を生成するステップ条件生成回路１３３が追加されている。

　また、図２３は第１の例の図３に対応するものであり、図３の文字列検出回路１０６に、前記ＦＧシフト回路１１２に接続されたステップ条件別論理積回路１３４が設けられている。

　このステップ条件生成回路１３３とステップ条件別論理積回路１３４で交互処理を可能にするものである。

　なお、ステップ条件別論理積回路１３４は、この構成に限定されるものではないが、図２３に示すように、２入力論理積（ＡＮＤ）回路、３入力論理積（ＡＮＤ）回路、及び論理否定（ＮＯＴ）回路から構成されている。

　以下、これらの回路により交互処理について詳細に説明する。

　（第２の例の交互処理動作：コマンド生成動作）
　図２４は図４に対応するもので、この第２の例におけるコマンド生成回路１２７により生成される全文検索演算条件コマンドの具体例（１）～（４）を示すものである。

　この第２の例では、第１の例（図４）とは異なり、前記コマンド生成回路１２７は、文字と文字列の検出演算が交互に実施されるようにステップ１～１１のコマンドを構成する。この交互処理を可能とするため、この第２の例が第１の例と異なるのは、１）前記ステップ条件生成回路１３３により与えられる第４のコマンド１２７であるステップ条件１３３（本例ではステップ１の時は論理「0」、ステップ１以外の時は論理「1」となる信号）が追加されている点、２）フラグのシフト方向が左ではなく右である点、３）与えられる勝ち抜き演算条件が全て「直接入力」である点、である。

　（第２の例における英文の全文検索動作について）
　次に、この第２の例における全文検索のデータ状態遷移を、図２５及び図２６について説明する。

　なお、検索対象は、前記第１の例（図５、図６）と同じであり、「full text search」の文字テキストデータ１３２の中から、「search」の検索文字を検索するものである。そして、処理のステップ数も、上記第１の例と同じく、１１ステップである。

　そして、各ステップ（１～１１）の処理は、コマンド生成回路１２７から与えられるコマンド（比較データ１２３、シフトクロック１３０、ステップ条件１３３、勝ち抜き演算条件１２９）により全文検索回路１０３が実行するものである。

　まず、ステップ１では、１バイトで構成される「s」の文字を検出するもので、前記第１の例のステップ１と同じく、相対１１番地の文字検出回路１０５が「s」を検出する。この検出結果はフラグ（ＦＧ）としてＦＧシフト回路１１２にプリセットされる。この図２５の例では、「full text search」中「s」は番地１１のみであるから、相対１１番地のＦＧシフト回路１１２のみが論理「1」にセットされ、他の番地のＦＧシフト回路１１２の論理は「0」となる。

　そして、さらにこのＦＧ値（演算結果）は、ステップ条件別論理積回路１３４で処理されてＦＧ勝ち抜き回路１１３に入力される。ステップ１の場合には、前記ステップ条件生成回路１３３により与えられる第４のコマンド１２７、ステップ条件１３３（本例ではステップ１の時は論理「0」、ステップ１以外の時は論理「１」となる信号）は「0」であるから、ステップ条件別論理積回路１３４の前記２入力論理積（ＡＮＤ）回路が有効になり、この演算結果が、前記論理和（ＯＲ）回路を通じて、ＦＧ勝ち抜き回路１１３に入力される。

　そして、図２４（１）に示すように、ステップ１におけるＦＧ勝ち抜き回路１１３への演算条件が「直接入力」に指定されているので、相対１１番地のＦＧ勝ち抜き回路１１３（のレジスタ）は論理「1」にセットされ、それ以外の番地は論理「０」にセットされる（図２５のステップ１参照）。

　つまり、ステップ１（初回ステップ）では、文字検出回路１０５の演算結果がそのままＦＧ勝ち抜き回路１１３にセットされる構成になっている。

　ステップ２では、シフトクロック１３０信号により、ＦＧシフト回路１１２にセットされた全てのＦＧが右方向に１番地だけ相対的にシフトされ、右隣りのＦＧシフト回路にそのＦＧがセットされる（図２５のステップ２）。この時、ＦＧ勝ち抜き回路１１３の論理状態は変化しない。

　これにより、ステップ１では文字検出、ステップ２では文字列検出のためのフラッグのシフトが実行される。以下、このように文字検出とシフトが交互に実行される。

　次に、ステップ３では、２文字目である「e」の文字の検出が実行される。この例では、図２５に示すように、相対７番地及び１２番地に「e」があるので、これらが検出される。

　７番地及び１２番地における検出結果は、ＦＧシフト回路１１２に入力される。この際、１２番地のＦＧシフト回路１１２には上記ステップ２にて１１番地からシフトされたフラグ（論理「1」）が既にセットされているので、以下の演算が実行される。

　すなわち、１２番地は、文字検出回路１０５から入力された論理値とＦＧシフト回路１１２にプリセットされた論理値の双方「1」であり、前記ステップ条件生成回路１３３により与えられる第４のコマンド１２７（ステップ１の時は論理「0」、ステップ１以外の時は論理「1」となる信号）が「1」であるので、前記ステップ条件別論理積回路１３４の３入力論理積（ＡＮＤ）回路が有効になり、その演算結果（論理「1」）が論理和（ＯＲ）回路を通じて、ＦＧ勝ち抜き回路１１３に入力される。そして、図２４の（１）に示すように、ＦＧ勝ち抜き回路１１３には「直接入力」のコマンドが与えられるので、本例の場合ＦＧ勝ち抜き回路１１３にセットされる相対１２番地の論理値「1」となる（図２５のステップ３の１２番地の値参照）。

　一方、７番地については、ＦＧシフト回路１１２にプリセットされた論理値は「0」であるので、上記と同様の演算の結果、ＦＧ勝ち抜き回路１１３にセットされる論理値は「0」となり、ノイズとして処理される。

　また、上記１１番地と７番地以外の他の番地については、文字検出回路１０５から入力された論理値とＦＧシフト回路１１２にプリセットされた論理値の双方「0」であるので、上記と同様の演算の結果、ＦＧ勝ち抜き回路１１３にセットされる論理値は「0」となる。

　すなわち、ステップ２まで論理「１」がセットされた相対１１番地のＦＧ勝ち抜き回路１１３は、文字検出回路１０５とＦＧシフト回路１１２の双方の論理積（ＡＮＤ）条件が成立しないので「0」にクリアされる。

　つまりステップ１（初回ステップ）以降のステップ、本例の場合ステップ３において、文字検出回路１０５の演算結果と、ＦＧシフト回路１１２の論理積（ＡＮＤ）条件が成立した番地のＦＧ勝ち抜き回路１１３に勝ち残りＦＧが更新される構成になっていることが従来方式との大きな違いである。

　ステップ４からステップ９については、上記と同様の演算が繰り返されるので、説明は省略する。

　ステップ１０は、ステップ９で示されるＦＧシフト回路１１２のＦＧをさらに右に１バイト分シフト（合計右に５シフト）した状態が示されている。このステップ１０では、図２６に示すようにＦＧシフト回路１１２の１１番地と１６番地の論理値が「1」にセットされ、ＦＧ勝ち抜き回路１１３は相対１５番地がこの時点での勝ち抜き番地となっている。

　ステップ１１では、相対番地１６番地の文字検出回路１０５並びにＦＧシフト回路１１２の双方のＦＧが存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対１６番地は「1」になり、相対１５番地は「0」に書き換えられる。

　従って相対１６番地が、最終勝ち残り番地となる。

　以上の処理で相対１１番地から相対１６番地までの文字の並び１２２（文字列）は、与えられた検索キーワード１２５条件の文字の並び１２２（文字列）と同じであることを検出したもので、与えられた検索キーワード１２５の末尾の文字コードにマッチする番地を検出したことになる。

　この第２の例では、第１の例と異なり、検出した文字コード、１文字コード毎に配列の妥当性を判定することが出来る。一方で実行する演算ステップ数は、与えられた比較データ１２３の文字列のバイト数ｎ×２－１回、本例の場合１１ステップで、第１の例と同じである。すなわち、第１の例と比較すると、同数のステップ数でより精度の高い演算が行えることになる。すなわち、この第２の例は、新たに文字を検出する度に勝ち残りＦＧを更新する方法であるので検索された全文字列の配列の妥当性を保証出来き、検索精度が高く検索速度が速いことが特徴である。

　なお、ステップ１２で以上の演算結果が結果出力回路１０７から出力されるが、出力されるのは第１の例と異なり先頭番地ではなく最終番地である。

　ただし、与えられた検索キーワード１２５の文字列の検出においては、必ずしも「search」のように検索キーワード１２５の文字列の前方から順に検出する必要はなく、「hcraes」のように後方からの検出でも構わない。その場合にはシフトレジスタのシフト動作を左シフトし、先頭番地「s」を検出すれば良い。

　（第２の例における和文の標準的な全文検索動作）
　図２７、２８は、第１の例の図７、８に対応する第２の例による和文の標準的な全文検索の各機能のデータ状態遷移を説明するものである。

　この処理は、図２４の（２）に示したコマンド１２７（比較データ１２３、ステップ条件１３３、シフトクロック１３０、勝ち抜き演算条件１２９）をステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものである。

　上記コマンドに基づいた詳細な処理については説明を省略するが、和文の場合一つの文字が複数バイト（本例では３バイト）になるが動作内容は英文と同様である。

　ステップ１からステップ５は、記憶された「全文検索は」の文字テキストデータ１３２の中から「検：１/３」、「検：２/３」、「検：３/３」の文字コードを検出するもので、ステップ6では「索：１/３」の文字コードを検出するための前処理としてのシフト動作を示している。

　最後のステップ１１は、比較条件「索：３/３」を与えることにより、前述同様文字検出回路１０５と、ＦＧシフト回路１１２の相対１２番地の双方のＦＧは存在し論理積（ＡＮＤ）条件が成立するので、ＦＧ勝ち抜き回路１１３の相対１１番地は「1」となり、相対１１番地は最終の勝ち抜きアドレスとなっている。

　以上の処理で相対７番地から相対１２番地までの文字の並び１２２（文字列）が、与えられた検索キーワード１２５の文字の並び１２２（文字列）にマッチすることが検出され、与えられた検索キーワード１２５の末尾の文字コードにマッチする全文検索回路の番地１２６が検索結果として出力される。

　（第２の例におけるワイルドカードを適応した場合の全文検索動作）
　図２９、３０は第１の例の図９，１０に対応する第２の例による英文のワイルドカードを適応した全文検索のデータ状態遷移を説明するものである。

　この処理は、図２４の（３）に示したコマンド１２７（比較データ１２３、ステップ条件１３３、シフトクロック１３０、勝ち抜き演算条件１２９）をステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものである。

　上記コマンドに基づいた詳細な処理については説明を省略するが、本例では「search」文字列の3文字目、４文字目にワイルドカード「？」を含むものであるが、動作内容は、基本的に前の２つの例と同様である。

　すなわち、文字検出のステップ１からステップ4はこれまでの説明通りである。

　ステップ５および７がワイルドカードの場合、ＦＧ勝ち抜き回路１１３には図２４で示すようにＭａｓｋ（無視）演算条件を与え、何の文字であっても文字検出回路１０５が一致したと同様の処理を与えることにより、ＦＧ勝ち抜き回路１１３は、所定の勝ち抜き演算を実行することになる。

　以降の処理はこれまでの説明と同じであるので説明を省略するが、本例の場合も与えられた検索キーワード１２５の末尾の文字コードに該当する番地を検出したことになる。

　本方式は以上のように外部から与えられる検索キーワード１２５の文字列にワイルドカードが含まれる場合、ワイルドカードの対象となる処理を、文字に無関係に勝ち抜き条件が成立するように構成することより、ワイルドカード処理を可能にしたものである。

　（文字のＧａｐを適応した全文検索）
　図３１、３２は、第１の例の図１１、１２に対応する第２の例による英文のギャップを適応した全文検索のデータ状態遷移を説明するものである。

　この処理は、図２４の（４）に示したコマンド１２７（比較データ１２３、ステップ条件１３３、シフトクロック１３０、勝ち抜き演算条件１２９）をステップ毎に全文検索回路１０３に逐次与え、このコマンドをもとに全文検索回路１０３が全文検索処理を行うものである。

　上記コマンドに基づいた詳細な処理については説明を省略するが、本例の場合「sea」が確かで、その後、Ｇａｐが０から２つまでの３か所（Ｇａｐ３）に「h」の文字があると想定される場合、つまりＧａｐ０：「seah」、Ｇａｐ１：「sea*h」、Ｇａｐ２：「sea**h」の何れでもマッチとする場合で、それ以外の演算は前の３つの例と同様である。

　すなわち、ステップ１からステップ６までの「sea」の文字の検出はこれまでの説明通りである。

　ステップ７、９、１１では、「*h」の特殊文字として、Ｇａｐ０、１、２のＧａｐ３が指定されている。Ｇａｐ処理は、ステップ７、９、１１の何れかに「h」の文字があれば文字列が妥当、マッチであると判断するものである。
このような演算を行うため、この第2の例では、ＦＧ勝ち抜き回路１１３のサブレジスタを利用する。

　すなわち、図２４で示すようにステップ７で「h」が指定された場合、ＦＧ勝ち抜き回路１１３にはＧａｐ演算条件が与えられ、ワイルドカードと同じように、本例の場合相対１４番地の文字が何の文字であっても、勝ち抜き演算が成立するよう処理する。

　さらにサブレジスタを動作させ、勝ち残りになっている相対１４番地の２番地先の相対１６番地のサブレジスタに、相対１４番地は「h」ではなかったことを記憶する。従って相対１６番地のサブレジスタは「0」にセットされる。

　ステップ９で「h」が指定された場合も上記同様である。このステップでも相対１５番地は「h」ではないので、勝ち残りになった相対１５番地の１番地先の相対１６番地のサブレジスタは「0」が書き込まれ、論理「0」のままである。

　ステップ１１で「h」が指定された場合、相対１６番地の文字検出回路１０５の論理は「1」となり、ＦＧ勝ち抜き回路１１３の相対１６番地のメインレジスタは「1」になる。

　さらに相対１６番地のサブレジスタは「1」が書き込まれ論理が「1」になり、メインレジスタも「1」である。

　メイン／サブ双方のレジスタの論理が「1」であるので、Ｇａｐ指定３か所の内少なくとも１か所に「h」の文字が含まれると判定し相対番地１６番地は最終勝ち残り番地となる。

　これまでの説明同様、本例の場合も与えられた検索キーワード１２５の末尾の文字コードに該当する全文検索回路の番地１２６を検出したことになる。

　以上の説明はＧａｐ２の最終ステップでの条件成立であったが、Ｇａｐ０すなわちステップ７、Ｇａｐ１すなわちステップ９でサブレジスタが「1」にセットされていた場合も、勝ち残りとなるように演算可能であることは言うまでもない。

　以上の演算並びに出力により、「seah」「sea*h」「sea**h」のように文字間のＧａｐを含む文字列の全文検索が可能になる。

　説明は省略するが、後方からの文字列検出により、任意の位置にＧａｐ設定が可能である。

　以上のようなワイルドカード機能やＧａｐ機能で、全文検索操作の利便性を高めることが可能になる。

　ワイルドカード機能やＧａｐ機能などの高度な全文検索も、標準的な全文検索と同様のステップ数で処理出来ることが特に重要である。

　本発明は上記した２つの実施形態に限定されるものではなく、要旨を変更しない範囲で種々変形可能である。

１０１…全文検索プロセッサ
１０２…文字記憶素子
１０３…全文検索回路
１０４…全文検索回路の相対番地
１０５…文字検出回路
１０６…文字列検出回路
１０７…結果出力回路
１０８…総合結果出力回路
１０９…１ビット一致検出回路
１１０…論理積（ＡＮＤ）回路
１１１…論理和（ＯＲ）回路
１１２…ＦＧ（フラグ）シフト回路
１１３…ＦＧ（フラグ）勝ち抜き回路
１１４…全文検索演算条件
１１５…入出力インターフェース
１１６…標準インターフェース
１１７…ＤＲＡＭインターフェース
１１８…ストレージインターフェース
１１９…全文検索プロセッサ用インターフェース
１２０…内部メモリ
１２１…内部ストレージ（ＳＳＤ含む）
１２２…文字の並び
１２３…比較データ（生成回路）
１２４…システムボード
１２５…検索キーワード
１２６…全文検索回路の番地
１２７…コマンド生成回路
１２８…キーワード設定機能
１２９…勝ち抜き演算条件（生成回路）
１３０…シフトクロック（生成回路）
１３１…システムクロック（生成回路）
１３２…文字テキストデータ
１３３…ステップ条件（生成回路）
１３４…ステップ条件別論理積回路

Claims

　全文キーワード検索を目的とした半導体デバイスからなる全文検索プロセッサであり、
　検索対象のテキストデータを受け取り、このテキストデータに含まれる符号化文字列を１バイト毎に１番地からＮ番地に割り付けて一時記憶する文字記憶素子と
　検索キーワードに含まれる１以上の符号化文字を１バイト毎に比較データとして順次受け取り、各比較データを上記文字記憶素子に記憶された符号化文字列とＮ並列に比較し、それを前記検索キーワードに含まれる全ての符号化文字分繰り返すことで、この検索キーワードに含まれる全ての符号化文字の上記文字記憶素子上での記憶位置を検出する文字検出回路と、
　前記検索キーワードに含まれる全ての符号化文字が、この検索キーワードに含まれる順番で連続する上記文字記憶素子上での位置を検出する文字列検出回路と
　前記文字列検出回路の検出結果を受け取って前記連続する文字列の先頭位置若しくは終了位置を出力する結果出力回路と
　を有することを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記文字検出回路は
　前記文字記憶素子の各番地に接続され、各番地に記憶されたテキストデータの１バイト／８ビットの符号と前記比較データを構成する１バイト／８ビットの符号とを比較し、１ビット毎の一致若しくは不一致を検出する８個の１ビット一致若しくは不一致演算回路のＮ組のセットと
　１ビット一致若しくは不一致演算回路の各セットからの８ビット分の結果出力を受け取り、各番地に記憶されたテキストデータの符号化文字の文字コードと前記比較データを構成する符号化文字の文字コードとの一致若しくは不一致を検出するＮ個の論理演算（論理積（ＡＮＤ）、論理和（ＯＲ）、論理否定（ＮＯＴ））回路と
　を有するものである
　ことを特徴とする全文検索プロセッサ。
請求項１記載の全文検索プロセッサにおいて、
　前記文字列検出回路は
　前記文字検出回路で検出された文字記憶位置のＦＧ（フラグ）と検出された文字記憶位置のＦＧ（フラグ）の配列の妥当性を判定するための、ＦＧシフト回路とＦＧ勝ち抜き回路の２つの回路で構成され
ＦＧシフト回路とＦＧ勝ち抜き回路は前記検索キーワードに含まれる符号化文字の文字コードの配列を参照し、前記１番地からＮ番地に割り付けて記憶された文字記憶素子上の文字列の文字コードの中から隣接する文字コード同士の配列の妥当性を繰り返し判定することで、前記検索キーワードで指定された文字列にマッチする、前記文字記憶素子上の文字列の文字コードの先頭位置（番地）若しくは末尾位置（番地）をN並列で検出する回路である
　ことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記文字列検出回路は
　前記文字検出回路の演算結果をフラグとして記憶すると共に、当該記憶されたＦＧをＮ並列にシフトするＮ個のＦＧシフト回路と
　前記ＦＧシフト回路により前記記憶されたＦＧをＮ並列にシフトさせながらシフト前のＦＧとのＮ並列論理演算を行い、これを検索キーワードに含まれる全符号化文字分繰り返すことで前記ＦＧの勝ち抜き演算を行うＮ個のＦＧ勝ち抜き回路と
　を有することを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記検索キーワードがｎバイトの符号化文字で構成される場合、
　前記ＦＧシフト回路のシフト回数及びそれに伴うＦＧ勝ち抜き演算回路による勝ち抜き演算の回数はｎ×２－１回である
　ことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記ＦＧ勝ち抜き回路は、演算のマスク（無視）を可能にする機能を有し、検索キーワード中にワイルドカードを用いた場合の全文検索を可能にするものである
　ことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記ＦＧ勝ち抜き回路は、２組のレジスタが組み込まれ、検索キーワード中に文字のギャップを含む全文検索を可能にするものである
　ことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記結果出力回路により出力される前記N並列（全並列）の検出結果の論理和（ＯＲ）演算を行い、全文検出結果の有無を出力するものである
　ことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記全文検索プロセッサ外部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列（全並列）による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　前記全文検索プロセッサの内部のメモリもしくはストレージのテキストデータを前記Nバイトの文字テキストデータを一時記憶する文字記憶素子にバッチデータとして転送し、前記N並列（全並列）による全文検索演算を繰り返すことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　ＡＳＩＣ並びにＦＰＧＡに実装したことを特徴とする
　全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　ＣＰＵを内蔵したことを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　ＵＴＦ－８など世界標準の文字コードを適応することにより、世界の言語に共通な全文検索を可能にすることを特徴とする全文検索プロセッサの利用方法。
　請求項１記載の全文検索プロセッサにおいて、
　外部から与えられる検索キーワードの文字列に、事前に指定した文字コードが含まれていた場合には全文検索演算を実行、もしくは実行しないものであること、を特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　作成中の文章の一部を、大量で最新情報が盛り込まれたテキストデータが蓄積された全文検索プロセッサに照合することにより、ヒットするテキストがなければ前例なしと判定することを特徴とする全文検索プロセッサ。
　請求項１記載の全文検索プロセッサにおいて、
　音声認識の複数の認識候補の中から最適な認識結果選択するにあたり、大量で最新情報が盛り込まれたテキストデータが蓄積された全文検索プロセッサに照合し、ヒットするテキストの多い用語を選択することにより、音声認識の精度を高めることを特徴とする全文検索プロセッサ。