WO2019180546A1

WO2019180546A1 - 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体

Info

Publication number: WO2019180546A1
Application number: PCT/IB2019/052022
Authority: WO
Inventors: 東和樹; 桃純平
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2018-03-23
Filing date: 2019-03-13
Publication date: 2019-09-26
Also published as: US11789953B2; JP2023134810A; US20200409963A1; JP6916941B2; KR20200134265A; CN112136126A; JP7321143B2; JP2021007024A; JPWO2019180546A1; JP2021072102A; DE112019001497T5; US20210026861A1

Abstract

簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現する。処理部を有する文書検索システムである。処理部は、文章データに含まれるキーワードを抽出する機能と、複数の第１の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して重みを付与する機能と、複数の第２の参照用文章解析データのそれぞれに対して重みに基づいて点数を付与する機能と、点数に基づいて複数の第２の参照用文章解析データを順位づけすることでランキングデータを生成する機能と、ランキングデータを出力する機能と、を有する。

Description

文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体

本発明の一態様は、文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体に関する。本発明の一態様は、知的財産に係る文書検索システム及び文書検索方法に関する。

なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置（例えば、タッチセンサなど）、入出力装置（例えば、タッチパネルなど）、それらの駆動方法、またはそれらの製造方法を一例として挙げることができる。

出願前の発明に関し先行技術調査を行うことで、関連する知的財産権が存在するか否かを調査することができる。先行技術調査を行うことで得られた国内外の特許文献及び論文などは、発明の新規性及び進歩性の確認、並びに、特許を出願するか否かの判断に、利用することができる。また、特許文献の無効資料調査を行うことで、自身の所有する特許権が無効化する恐れが無いか、或いは、他者の所有する特許権を無効化できるか、調査することができる。

例えば、特許文献を検索するシステムに、使用者がキーワードを入力することで、そのキーワードを含む特許文献を出力することができる。

このようなシステムを用いて高い精度で先行技術調査を行うためには、適切なキーワードで検索すること、さらに、出力された多くの特許文献から必要な特許文献を抽出することなど、使用者に高い技量が求められる。

また、様々な用途において、人工知能の活用が検討されている。特に、人工ニューラルネットワークなどを利用することで、従来のノイマン型コンピュータよりも高性能なコンピュータが実現できると期待されており、近年、電子回路上で人工ニューラルネットワークを構築する種々の研究が進められている。

例えば、特許文献１には、チャネル形成領域に酸化物半導体を有するトランジスタを用いた記憶装置によって、人工ニューラルネットワークを用いた計算に必要な重みデータを保持する発明が開示されている。

米国特許公開第２０１６／０３４３４５２号公報

そこで、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、高い精度で文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現することを課題の一つとする。

なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。

本発明の一態様は、処理部を有する文書検索システムである。処理部は、文章データに含まれるキーワードを抽出する機能と、複数の第１の参照用文章解析データに含まれる単語の中から、キーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して、重みを付与する機能と、複数の第２の参照用文章解析データのそれぞれに対して、重みに基づいて点数を付与する機能と、点数に基づいて複数の第２の参照用文章解析データを順位づけすることで、ランキングデータを生成する機能と、ランキングデータを出力する機能と、を有する。

本発明の一態様は、文章データに含まれるキーワードを抽出し、複数の第１の参照用文章解析データに含まれる単語の中から、キーワードの関連語を抽出し、キーワード及び関連語のそれぞれに対して、重みを付与し、複数の第２の参照用文章解析データのそれぞれに対して、重みに基づいて点数を付与し、点数に基づいて複数の第２の参照用文章解析データを順位づけすることで、ランキングデータを生成し、ランキングデータを出力する、文書検索方法である。

本発明の一態様は、文章データに含まれるキーワードを抽出する第１のステップと、複数の第１の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する第２のステップと、キーワード及び関連語のそれぞれに対して重みを付与する第３のステップと、複数の第２の参照用文章解析データのそれぞれに対して、第２の参照用文章解析データに含まれる単語と一致したキーワードまたは関連語の重みに基づいて点数を付与する第４のステップと、点数に基づいて複数の第２の参照用文章解析データを順位づけすることでランキングデータを生成する第５のステップと、をプロセッサに実行させるプログラムである。また、本発明の一態様は、上記プログラムが記憶された非一時的コンピュータ可読記憶媒体である。

キーワードの重みは、キーワードの、複数の第１の参照用文章解析データまたは複数の第２の参照用文章解析データにおける逆文書頻度に基づいた値であることが好ましい。関連語の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値と、キーワードの重みと、の積であることが好ましい。

キーワードまたは関連語と一致する単語を有する第２の参照用文章解析データに対して、点数を付与することが好ましい。

複数の第１の参照用文章解析データは、複数の第２の参照用文章解析データと同一であってもよい。

関連語は、複数の第１の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出することが好ましい。

関連語は、複数の第１の参照用文章解析データに含まれる単語の中から、単語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出することが好ましい。単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルであることが好ましい。

文章データに含まれるキーワードを抽出する機能として、文章データの形態素解析を行うことで解析データを生成する機能と、解析データからキーワードを抽出する機能と、を有することが好ましい。キーワードは、解析データに含まれる単語の中から、複数の第１の参照用文章解析データまたは複数の第２の参照用文章解析データにおける逆文書頻度の高さに基づいて抽出することが好ましい。

重みは、ユーザが変更できると好ましい。

第１の参照用文章解析データは、第１の参照用文章データの形態素解析を行うことで生成されたデータであり、第２の参照用文章解析データは、第２の参照用文章データの形態素解析を行うことで生成されたデータであることが好ましい。

本発明の一態様の文書検索システムは、電子機器と、サーバと、を有することが好ましい。電子機器は、第１の通信部を有する。サーバは、上記処理部と、第２の通信部と、を有する。第１の通信部は、有線通信及び無線通信のうち一方または双方により、サーバに文章データを供給する機能を有する。処理部は、ランキングデータを第２の通信部に供給する機能を有する。第２の通信部は、有線通信及び無線通信のうち一方または双方により、電子機器にランキングデータを供給する機能を有する。

処理部は、チャネル形成領域に金属酸化物を有するトランジスタを有していてもよく、チャネル形成領域にシリコンを有するトランジスタを有していてもよい。

本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供できる。または、本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供できる。または、本発明の一態様により、簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。

なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。

文書検索システムの一例を示すブロック図。検索用データの生成方法の一例を示すフロー図。（Ａ）~（Ｃ）検索用データの生成方法の一例を示す図。文書検索方法の一例を示すフロー図。文書検索方法の一例を示すフロー図。（Ａ）~（Ｃ）文書検索方法の一例を示す図。（Ａ）、（Ｂ）文書検索方法の一例を示す図。文書検索方法の一例を示すフロー図。文書検索方法の一例を示すフロー図。（Ａ）、（Ｂ）文書検索方法の一例を示す図。文書検索システムの一例を示すブロック図。（Ａ）、（Ｂ）ニューラルネットワークの構成例を示す図。半導体装置の構成例を示す図。メモリセルの構成例を示す図。オフセット回路の構成例を示す図。タイミングチャート。

実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。

また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。

なお、「膜」という言葉と、「層」という言葉とは、場合によっては、または、状況に応じて、互いに入れ替えることが可能である。例えば、「導電層」という用語を、「導電膜」という用語に変更することが可能である。または、例えば、「絶縁膜」という用語を、「絶縁層」という用語に変更することが可能である。

（実施の形態１）
本実施の形態では、本発明の一態様の文書検索システム及び文書検索方法について図１~図１１を用いて説明する。

本発明の一態様は、処理部を有する文書検索システムである。当該処理部は、文章データに含まれるキーワードを抽出する機能と、複数の第１の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して重みを付与する機能と、複数の第２の参照用文章解析データのそれぞれに対して重みに基づいて点数を付与する機能と、点数に基づいて複数の第２の参照用文章解析データを順位づけすることでランキングデータを生成する機能と、ランキングデータを出力する機能と、を有する。

本発明の一態様の文書検索システムでは、第１の参照用文章解析データを用いてキーワードの関連語を抽出し、第２の参照用文章解析データを検索対象として、文章データに関連または類似するデータを検索することができる。

第１の参照用文章解析データと第２の参照用文章解析データは同一であってもよい。このとき、本発明の一態様の文書検索システムでは、検索対象である参照用文章解析データを用いてキーワードの関連語を抽出することができる。また、第１の参照用文章解析データは、第２の参照用文章解析データの一部または全部を含んでいてもよい。

つまり、本発明の一態様の文書検索システムが有する処理部は、文章データに含まれるキーワードを抽出する機能と、複数の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する機能と、キーワード及び関連語のそれぞれに対して重みを付与する機能と、複数の参照用文章解析データのそれぞれに対して重みに基づいて点数を付与する機能と、点数に基づいて複数の参照用文章解析データを順位づけすることでランキングデータを生成する機能と、ランキングデータを出力する機能と、を有していてもよい。

文書検索システムにおいて、検索に用いるキーワードを使用者が選定する場合、使用者は、キーワード単体だけでなく、当該キーワードの同義語、類義語、及び表記の揺らぎなども考慮して、検索に用いるキーワードを選定することが求められる。そのため、キーワード選定は使用者にとって負担となり、また、技量による差が生じやすい。また、使用者にとって、文書検索システムにより出力された多くの文書から必要な文書を探し出すことも負担となる。

ここで、本発明の一態様の文書検索システムは、文章データに含まれるキーワードと、当該キーワードの関連語と、を抽出する機能を有する。そのため、本発明の一態様の文書検索システムの使用者は、検索に用いるキーワードを自ら選定しなくてもよい。使用者は、キーワードよりも分量の多い文章データ（テキストデータ）をそのまま文書検索システムに入力することができる。また、使用者自身がキーワード及び関連語を選定したい場合も、一から選定する必要はなく、文書検索システムが抽出したキーワード及び関連語を参照して、キーワード及び関連語の追加、修正、削除などを行えばよい。したがって、文書検索における使用者の負担を軽減し、また、使用者の技量による検索結果の差を生じにくくできる。

特に、本発明の一態様の文書検索システムは、複数の参照用文章解析データに含まれる単語の中からキーワードの関連語を抽出する機能を有する。既存の概念辞書に含まれる単語の中からキーワードの関連語を抽出する場合、検索対象であるデータに含まれる独特な表記を関連語として抽出することが困難なことがある。一方、本発明の一態様では、キーワードの関連語を抽出するために用意されたデータ（第１の参照用文章解析データ）、または、検索対象であるデータ（第２の参照用文章解析データ）に含まれる単語の中からキーワードの関連語を抽出する。これにより、当該独特な表記も関連語として抽出することが容易となり、検索漏れを低減でき、好ましい。

さらに、本発明の一態様の文書検索システムは、抽出したキーワード及び関連語のそれぞれに重みを付与する機能を有する。キーワード及び関連語のそれぞれが重みを有することで、キーワードまたは関連語がヒットした参照用文章解析データに、重みに基づいた点数を付与することができる。そして、本発明の一態様の文書検索システムは、当該点数に基づいて検索対象である参照用文章解析データを順位づけすることでランキングデータを生成し、出力する機能を有する。関連性または類似性の高さで順位づけされて検索結果が出力されるため、使用者は、検索結果から必要な文書を探しやすく作業効率が高まり、また見落としが生じにくくなる。このように、本発明の一態様の文書検索システムは、簡便かつ高精度に文書を検索することができる。

キーワードの重みは、キーワードの、複数の第１または第２の参照用文章解析データにおける逆文書頻度（Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ、以下ＩＤＦと記す）に基づいた値であることが好ましい。ＩＤＦは、ある単語の文書への現れにくさを表す。多くの文書に出現する単語のＩＤＦは小さく、一部の文書にのみ出現する単語のＩＤＦは高くなる。したがって、ＩＤＦが高い単語は、第１または第２の参照用文章解析データにおいて特徴的な単語であるといえる。

文章データからのキーワードの抽出自体も、文章データに含まれる単語の、複数の第１のまたは第２の参照用文章解析データにおけるＩＤＦに基づいて行うことができる。例えば、ＩＤＦがある数値以上の単語をキーワードとして抽出してもよく、ＩＤＦが高い順に任意の個数の単語をキーワードとして抽出してもよい。

キーワードは、第１の参照用文章解析データ及び第２の参照用文章解析データのどちらのＩＤＦに基づいて抽出してもよい。検索対象である第２の参照用文章解析データにおけるＩＤＦに基づいて、文章データからキーワードを抽出するほうが、検索対象の文書における特徴的な単語を抽出しやすいため、好ましい。ただし、検索対象となる文書が少ない場合など、第１の参照用文章解析データにおけるＩＤＦに基づいて、文章データからキーワードを抽出するほうが、文章データにおけるキーワードを抽出しやすいこともある。

または、使用者が入力した文章データを形態素解析することで得られた単語の品詞情報などに基づき、キーワードを抽出してもよい。例えば、日本語の文章を形態素解析する場合、名詞を抽出することが好ましい。また、英語の文章を形態素解析する場合、形容詞、名詞、及び動詞を抽出することが好ましい。

関連語としては、同義語、類義語、対義語、上位語、下位語などが挙げられる。関連語は、複数の参照用文章解析データに含まれる単語の中から、当該単語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出することが好ましい。使用者が入力した文章データに含まれるキーワードについて、参照用文章解析データに含まれる同義語、類義語などを関連語として抽出することができる。これにより、検索精度を高めることができる。

関連語の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値と、キーワードの重みと、の積であることが好ましい。関連語の重みが、関連語とキーワードの関連度と、キーワード自体の重みと、の双方に基づいて設定されることで、ランキングの精度をより高めることができる。

文書検索システムは、少なくとも一部の処理に人工知能（ＡＩ：Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）を用いることが好ましい。

文書検索システムは、特に、人工ニューラルネットワーク（ＡＮＮ：Ａｒｔｉｆｉｃｉａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ、以下、単にニューラルネットワークとも記す）を用いることが好ましい。ニューラルネットワークは、回路（ハードウェア）またはプログラム（ソフトウェア）により実現される。

例えば、単語の分散表現ベクトルを生成する際に、機械学習を用いることが好ましく、ニューラルネットワークを用いることがさらに好ましい。具体的には、関連語は、複数の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出することが好ましい。これにより、関連語の抽出及び関連語の重みの精度を高めることができる。

本明細書等において、ニューラルネットワークとは、生物の神経回路網を模し、学習によってニューロンどうしの結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークは、入力層、中間層（隠れ層）、及び出力層を有する。

本明細書等において、ニューラルネットワークについて述べる際に、既にある情報からニューロンとニューロンの結合強度（重み係数ともいう）を決定することを「学習」と呼ぶ場合がある。

本明細書等において、学習によって得られた結合強度を用いてニューラルネットワークを構成し、そこから新たな結論を導くことを「推論」と呼ぶ場合がある。

＜１．文書検索システムの構成例１＞
本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができる文書検索システムについて説明する。なお、本発明の一態様の文書検索システムは、知的財産の検索用途に限られず、知的財産以外の検索に使用することもできる。

図１に、文書検索システム１００のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部１０３で行われる２つの処理は、互いに異なるサーバによって実行されることがある。

文書検索システム１００は、少なくとも、処理部１０３を有する。図１に示す文書検索システム１００は、さらに、入力部１０１、伝送路１０２、記憶部１０５、データベース１０７、及び出力部１０９を有する。

［入力部１０１］
入力部１０１には、文書検索システム１００の外部からデータが供給される。入力部１０１に供給されたデータは、伝送路１０２を介して、処理部１０３、記憶部１０５、またはデータベース１０７に供給される。

［伝送路１０２］
伝送路１０２は、データを伝達する機能を有する。入力部１０１、処理部１０３、記憶部１０５、データベース１０７、及び出力部１０９の間のデータの送受信は、伝送路１０２を介して行うことができる。

［処理部１０３］
処理部１０３は、入力部１０１、記憶部１０５、データベース１０７などから供給されたデータを用いて、演算、推論などを行う機能を有する。処理部１０３は、演算結果、推論結果などを、記憶部１０５、データベース１０７、出力部１０９などに供給することができる。

処理部１０３には、チャネル形成領域に金属酸化物を有するトランジスタを用いることが好ましい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部１０３が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部１０３を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部１０３をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。

なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをＯｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ、あるいはＯＳトランジスタと呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

本明細書等において、金属酸化物（ｍｅｔａｌ　ｏｘｉｄｅ）とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体（透明酸化物導電体を含む）、酸化物半導体（Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒまたは単にＯＳともいう）などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも１つを有する場合、当該金属酸化物を、金属酸化物半導体（ｍｅｔａｌ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ）、略してＯＳと呼ぶことができる。

チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含む酸化物半導体であると好ましい。元素Ｍは、好ましくは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）またはスズ（Ｓｎ）などとする。そのほかの元素Ｍに適用可能な元素としては、ホウ素（Ｂ）、シリコン（Ｓｉ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、タングステン（Ｗ）などがある。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

また、処理部１０３には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。

また、処理部１０３には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いることが好ましい。

処理部１０３は、例えば、演算回路または中央演算装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等を有する。

処理部１０３は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＦＰＡＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ａｎａｌｏｇ　Ａｒｒａｙ）等のＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）によって実現された構成であってもよい。処理部１０３は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部１０５のうち少なくとも一方に格納される。

処理部１０３はメインメモリを有していてもよい。メインメモリは、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性メモリ、及びＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の不揮発性メモリのうち少なくとも一方を有する。

ＲＡＭとしては、例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等が用いられ、処理部１０３の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部１０５に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部１０３に直接アクセスされ、操作される。

ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（Ｏｎｅ　Ｔｉｍｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ−ＥＰＲＯＭ（Ｕｌｔｒａ−Ｖｉｏｌｅｔ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

［記憶部１０５］
記憶部１０５は、処理部１０３が実行するプログラムを記憶する機能を有する。また、記憶部１０５は、処理部１０３が生成した演算結果及び推論結果、並びに、入力部１０１に入力されたデータなどを記憶する機能を有していてもよい。

記憶部１０５は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部１０５は、例えば、ＤＲＡＭ、ＳＲＡＭなどの揮発性メモリを有していてもよい。記憶部１０５は、例えば、ＲｅＲＡＭ（Ｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（Ｐｈａｓｅ　ｃｈａｎｇｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、磁気抵抗型メモリともいう）、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部１０５は、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等の記録メディアドライブを有していてもよい。

［データベース１０７］
データベース１０７は、少なくとも、検索対象となる参照用文章解析データ、ＩＤＦデータ、及びベクトルデータを記憶する機能を有する。また、データベース１０７は、処理部１０３が生成した演算結果及び推論結果、並びに、入力部１０１に入力されたデータなどを記憶する機能を有していてもよい。なお、記憶部１０５及びデータベース１０７は互いに分離されていなくてもよい。例えば、文書検索システムは、記憶部１０５及びデータベース１０７の双方の機能を有する記憶ユニットを有していてもよい。

［出力部１０９］
出力部１０９は、文書検索システム１００の外部にデータを供給する機能を有する。例えば、処理部１０３における演算結果または推論結果などを外部に供給することができる。

＜２．文書検索方法＞
まず、図２及び図３を用いて、文書検索システム１００を用いて検索を行うために事前に行う処理について説明する。図２にフローチャートを示し、図３に、図２に示す各ステップの模式図を示す。なお、図３に示す各データの図示は一例であり、これに限定されない。

また、以下では、キーワードの関連語を抽出するために用いる参照用文章データと、検索対象となる参照用文章用データが同一である（参照用文章データＴＤ_ｒｅｆと記す）場合を例に挙げて説明する。前述の通り、これら２つの参照用文章用データが異なっていてもよい。例えば、第１の参照用文章データを用いてベクトルデータＶＤ（後述する）を生成し、第２の参照用文章データを検索対象としてもよい。このとき、後述するＩＤＦデータＩＤは、第１の参照用文章データを用いて生成してもよく、第２の参照用文章データを用いて生成してもよい。

［ステップＳ１］
まず、入力部１０１に、参照用文章データＴＤ_ｒｅｆを複数入力する（図２及び図３（Ａ））。

本実施の形態の文書検索方法では、事前に準備された複数の文書を検索の対象として、入力された文書に関連または類似する文書を検索することができる。参照用文章データＴＤ_ｒｅｆは、文書検索システム１００において検索の対象となる文書の文章データである。参照用文章データＴＤ_ｒｅｆとして用いるデータは、文書検索システム１００の用途に応じて適宜選択できる。

参照用文章データＴＤ_ｒｅｆは、文書検索システム１００の外部から入力部１０１に入力される。そして、参照用文章データＴＤ_ｒｅｆは、入力部１０１から、伝送路１０２を介して、処理部１０３に供給される。または、参照用文章データＴＤ_ｒｅｆは、入力部１０１から、伝送路１０２を介して、記憶部１０５またはデータベース１０７に保存され、記憶部１０５またはデータベース１０７から、伝送路１０２を介して、処理部１０３に供給されてもよい。

図３（Ａ）では、ｎ個（ｎは、２以上の整数）の参照用文章データＴＤ_ｒｅｆを図示し、それぞれ、データＴＤ_ｒｅｆ（ｘ）（ｘは、１以上ｎ以下の整数）と記す。

本実施の形態では、検索の対象が知的財産に係る文書である例を示す。参照用文章データＴＤ_ｒｅｆは、知的財産に係る文書の文章データである。

なお、上述の通り、ステップＳ１で入力する参照用文章データが検索の対象となるデータと異なる場合もある。ステップＳ１で入力する参照用文章データは、知的財産に係る文書の文章データであることが好ましいが、これに限られない。また、ステップＳ１で入力する参照用文章データの一部が、検索の対象となるデータである場合もある。例えば、ステップＳ１で入力する参照用文章データが特許文献及び論文の文章データであり、検索の対象は、特許文献の文章データのみであってもよい。

ここで、知的財産に係る文書としては、具体的には、特許文献（公開特許公報、特許公報など）、実用新案公報、意匠公報、及び論文などの刊行物が挙げられる。国内で発行された刊行物に限られず、世界各国で発行された刊行物を、知的財産に係る文書として用いることができる。

特許文献に含まれる明細書、特許請求の範囲、及び要約書は、それぞれ、一部または全部を参照用文章データＴＤ_ｒｅｆとして用いることができる。例えば、特定の発明を実施するための形態、実施例、または請求項を、参照用文章データＴＤ_ｒｅｆとして用いてもよい。同様に、論文など他の刊行物に含まれる文章についても、一部または全部を参照用文章データＴＤ_ｒｅｆとして用いることができる。

知的財産に係る文書は、刊行物に限られない。例えば、文書検索システムの使用者または使用団体が独自に有する文書ファイルも参照用文章データＴＤ_ｒｅｆとして用いることができる。

さらに、知的財産に係る文書としては、発明、考案、もしくは意匠、または工業製品を説明する文章などが挙げられる。

参照用文章データＴＤ_ｒｅｆは、例えば、特定の出願人の特許文献、または特定の技術分野の特許文献を有することができる。

参照用文章データＴＤ_ｒｅｆは、知的財産自体の説明（例えば、明細書など）だけでなく、当該知的財産に関係する様々な情報（例えば、書誌情報など）を有することができる。当該情報としては、例えば、特許の出願人、技術分野、出願番号、公開番号、ステータス（係属中、登録済、取り下げ済など）などが挙げられる。

参照用文章データＴＤ_ｒｅｆは、知的財産に係る日付情報を有することが好ましい。日付情報としては、例えば、知的財産が特許文献であれば、出願日、公開日、登録日などが挙げられ、知的財産が工業製品の技術情報であれば、発売日などが挙げられる。

このように、参照用文章データＴＤ_ｒｅｆが知的財産に関係する様々な情報を有することで、文書検索システムを用いて、様々な検索範囲を選択することができる。

例えば、本実施の形態の文書検索システムを用いて、出願前の発明と関連または類似する特許文献、論文、または工業製品を検索することができる。これにより、出願前の発明に係る先行技術調査をすることができる。関連する先行技術を把握し再検討することで、発明を強化し、他社が回避困難な強い特許になる発明とすることができる。

また、例えば、本実施の形態の文書検索システムを用いて、発売前の工業製品と関連または類似する特許文献、論文、または工業製品を検索することができる。参照用文章データＴＤ_ｒｅｆが自社の特許文献を有する場合、発売前の工業製品に係る技術が社内で十分に特許出願できているかを確認することができる。または、参照用文章データＴＤ_ｒｅｆが他社の知的財産の情報を有する場合、発売前の工業製品が他社の知的財産権を侵害していないかを確認することができる。関連する先行技術を把握し、発売前の工業製品に係る技術を再検討することで、新たな発明を発掘し、自社の事業に貢献する強い特許になる発明とすることができる。なお、発売前の工業製品に限らず、発売後の工業製品について、検索してもよい。

また、例えば、本実施の形態の文書検索システムを用いて、特定の特許と関連または類似する特許文献、論文、または工業製品を検索することができる。特に、当該特許の出願日を基準に調べることで、当該特許が無効理由を含まないか、簡便かつ高い精度で調査することができる。

［ステップＳ２］
次に、複数の参照用文章データＴＤ_ｒｅｆそれぞれの形態素解析を行い、参照用文章解析データＡＤ_ｒｅｆを複数生成する（図２及び図３（Ａ））。

処理部１０３は、ｎ個の参照用文章データＴＤ_ｒｅｆそれぞれの形態素解析を行い、ｎ個の参照用文章解析データＡＤ_ｒｅｆ（それぞれ、参照用文章解析データＡＤ_ｒｅｆ（ｘ）（ｘは、１以上ｎ以下の整数）と記す）を生成する。例えば、参照用文章データＴＤ_ｒｅｆ（ｎ）の形態素解析を行うことで、参照用文章解析データＡＤ_ｒｅｆ（ｎ）を生成する。

形態素解析では、自然言語で書かれた文章を、形態素（言語として意味を持つ最小単位）に分割し、形態素の品詞などを判別することができる。これにより、例えば、参照用文章データＴＤ_ｒｅｆから名詞のみを抽出することができる。

図３（Ａ）では、入力する参照用文章データＴＤ_ｒｅｆ（１）は長い文を含み、出力された参照用文章解析データＡＤ_ｒｅｆ（１）では、当該文が複数の単語に分けられている。

図３（Ａ）では、生成した参照用文章解析データＡＤ_ｒｅｆを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、データベース１０７に複数の参照用文章解析データＡＤ_ｒｅｆを供給することができる。なお、処理部１０３は、複数の参照用文章解析データＡＤ_ｒｅｆを１つのデータにまとめたコーパスを生成し、出力してもよい。

なお、日本語の文章だけでなく、様々な言語（例えば、英語、中国語、韓国語など）の文章の解析を行うことができる。文章の解析方法は、言語に応じて様々な方法を適用できる。

［ステップＳ３］
ステップＳ２の後、複数の参照用文章解析データＡＤ_ｒｅｆに含まれる単語のＩＤＦを計算し、ＩＤＦデータＩＤを生成する（図２及び図３（Ｂ））。ここで、ＩＤＦは、規格化することが好ましい。

参照用文章解析データＡＤ_ｒｅｆは、データベース１０７から、伝送路１０２を介して、処理部１０３に供給される。

処理部１０３は、ｎ個の参照用文章解析データＡＤ_ｒｅｆに含まれる単語のＩＤＦを計算し規格化することで、ＩＤＦデータＩＤを生成する。

図３（Ｂ）に示すように、ＩＤＦデータＩＤは、単語（Ｗｏｒｄ）と規格化されたＩＤＦを含む。

ある単語ｔのＩＤＦ（ｔ）は、式（１）のｉｄｆ（ｔ）を規格化することで求められる。規格化の方法は特に限定されず、例えば、式（２）により、ｉｄｆ（ｔ）を規格化できる。式（１）において、Ｎは全文書数（参照用文章解析データＡＤ_ｒｅｆの数、上記ｎと等しい）であり、ｄｆ（ｔ）はある単語ｔが出現する文書数（参照用文章解析データＡＤ_ｒｅｆの数）である。式（２）において、ｉｄｆ_ＭＡＸは、参照用文章解析データＡＤ_ｒｅｆに含まれる単語のｉｄｆ（ｔ）の最大値であり、ｉｄｆ_ＭＩＮは、参照用文章解析データＡＤ_ｒｅｆに含まれる単語のｉｄｆ（ｔ）の最小値である。

例えば、Ｗｏｒｄ　Ａの規格化されたＩＤＦは０．８６８であり、Ｗｏｒｄ　Ｂの規格化されたＩＤＦは０．１１５であり、Ｗｏｒｄ　Ｃの規格化されたＩＤＦは０．６４２であることから、Ｗｏｒｄ　Ａは、Ｗｏｒｄ　Ｂ及びＷｏｒｄ　Ｃに比べて、ＩＤＦが高く、参照用文章解析データＡＤ_ｒｅｆに現れにくい特徴的な単語であるといえる。なお、図３（Ｂ）では、名前順に単語を並べる例を示すが、これに限られず、ＩＤＦの高い順などに単語を並べてもよい。

図３（Ｂ）では、生成したＩＤＦデータＩＤを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、伝送路１０２を介して、データベース１０７にＩＤＦデータＩＤを供給することができる。

［ステップＳ４］
ステップＳ２の後、複数の参照用文章解析データＡＤ_ｒｅｆに含まれる単語の分散表現ベクトルを生成し、ベクトルデータＶＤを生成する（図２及び図３（Ｃ））。

なお、ステップＳ３とステップＳ４はどちらを先に行ってもよく、並行して行ってもよい。

処理部１０３は、ｎ個の参照用文章解析データＡＤ_ｒｅｆに含まれる単語の分散表現ベクトルを生成し、ベクトルデータＶＤを生成する。

単語の分散表現は、単語埋め込みともいわれ、単語の分散表現ベクトルは、単語を、各特徴要素（次元）に対して、定量化した連続値で表現したベクトルである。意味の近い単語どうしは、ベクトルも近くなる。

図３（Ｃ）に示すように、処理部１０３は、ニューラルネットワークＮＮを用いて、単語の分散表現ベクトルを生成することが好ましい。

ここで、ニューラルネットワークＮＮを用いて、単語の分散表現ベクトルを生成する方法の一例を説明する。ニューラルネットワークＮＮの学習は教師あり学習で行う。具体的には、ある単語を入力層に与え、当該単語の周辺語を出力層に与えて、ニューラルネットワークＮＮに、ある単語に対するその周辺語の確率を学習させる。中間層（隠れ層）は１０次元以上１０００次元以下の比較的低次元のベクトルを有することが好ましい。学習後の当該ベクトルが、単語の分散表現ベクトルである。

単語の分散表現は、例えば、オープンソース化されているアルゴリズムのＷｏｒｄ２ｖｅｃを用いて行うことができる。Ｗｏｒｄ２ｖｅｃは、同じ文脈で利用される単語は、同じ意味を持つという仮説に基づき、単語の特徴及び意味構造を含めて単語をベクトル化する。

単語のベクトル化において、単語の分散表現ベクトルを生成することで、ベクトル間の演算で単語間の類似度や距離などを計算することができる。２つのベクトルの類似度が高いとき、当該２つのベクトルは関係性が高いといえる。また、２つのベクトルの距離が近いとき、当該２つのベクトルは関係性が高いといえる。

また、ｏｎｅ−ｈｏｔ表現が１単語に１次元を割り当てるのに対し、分散表現では単語を低次元の実数値ベクトルで表すことができるため、語彙数が増えても少ない次元数で表現することができる。したがって、コーパスに含まれる単語数が多くても計算量が増加しにくく、膨大なデータを短時間で処理することができる。

図３（Ｃ）に示すように、ベクトルデータＶＤは、単語（Ｗｏｒｄ）とベクトル（Ｖｅｃｔｏｒ）を含む。例えば、Ｗｏｒｄ　ＡのＶｅｃｔｏｒは（０．１２，０．９０，０．３２，・・・）であり、Ｗｏｒｄ　ＢのＶｅｃｔｏｒは（０．８８，０．１０，０．２９，・・・）であり、Ｗｏｒｄ　ＣのＶｅｃｔｏｒは（０．２３，０．５６，０．４７，・・・）である。

図３（Ｃ）では、生成したベクトルデータＶＤを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、データベース１０７にベクトルデータＶＤを供給することができる。

以上のステップを事前に行い、参照用文章解析データＡＤ_ｒｅｆ、ＩＤＦデータＩＤ、及びベクトルデータＶＤを生成しておくことで、文書検索システム１００を用いて、文書を検索することができる。

なお、本実施の形態では、文書検索システム１００を用いて、参照用文章解析データＡＤ_ｒｅｆ、ＩＤＦデータＩＤ、及びベクトルデータＶＤを生成する例を示したが、文書検索システム１００の外部で、参照用文章解析データＡＤ_ｒｅｆ、ＩＤＦデータＩＤ、及びベクトルデータＶＤのうち少なくとも１つを生成してもよい。この場合、外部で生成したデータを、文書検索システム１００の入力部１０１に入力し、データベース１０７に保存することで、文書検索システム１００を用いた検索が可能となる。

次に、文書検索システム１００を用いた検索方法について説明する。図４、図５、図８、及び図９にフローチャートを示し、図６、図７（Ａ）、及び図１０に、フローチャートに示す各ステップの模式図を示す。なお、図６、図７（Ａ）、及び図１０に示す各データの図示は一例であり、これに限定されない。

［ステップＳ１１］
まず、入力部１０１に、文章データＴＤを入力する（図４、図５、及び図６（Ａ））。

本実施の形態の文書検索方法では、参照用文章データＴＤ_ｒｅｆの中から、文章データＴＤに関連または類似する文章データを検索することができる。

文章データＴＤは、文書検索システム１００の外部から入力部１０１に入力される。そして、文章データＴＤは、入力部１０１から、伝送路１０２を介して、処理部１０３に供給される。または、文章データＴＤは、伝送路１０２を介して、記憶部１０５またはデータベース１０７に保存され、記憶部１０５またはデータベース１０７から、伝送路１０２を介して、処理部１０３に供給されてもよい。

本実施の形態では、検索の対象が知的財産に係る文書である例を示す。文章データＴＤは、知的財産に係る文書のデータである。知的財産に係る文書の例は上述の通りである。

文章データＴＤは、例えば、出願前の発明、考案もしくは意匠、発売前の工業製品、技術情報、または技術的思想を説明する文章などを有することができる。

特に、文章データＴＤとして、特許請求の範囲、要約書、または発明の概要を説明する文章などを好適に用いることができる。このような文章量が比較的少ない（明細書全文に比べて文章量が少ない）文章データＴＤは、文章データＴＤに含まれる特徴的なキーワードを抽出しやすいため好ましい。本実施の形態の文書検索システムは、特徴的なキーワードの関連語を抽出することができるため、文章データＴＤの語彙数が少なくても、高精度の検索を行うことができる。

［ステップＳ１２］
次に、文章データＴＤの形態素解析を行い、文章解析データＡＤを生成する（図４、図５、及び図６（Ａ））。

処理部１０３は、文章データＴＤの形態素解析を行い、文章解析データＡＤを生成する。

図６（Ａ）では、入力する文章データＴＤは長い文を含み、出力された文章解析データＡＤでは、当該文が複数の単語に分けられている。

図６（Ａ）では、生成した文章解析データＡＤを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、記憶部１０５またはデータベース１０７に、文章解析データＡＤを供給することができる。

［ステップＳ１３、Ｓ３３］
次に、文章解析データＡＤをＩＤＦデータＩＤと照合することで、キーワードデータＫＤを生成する（図４、図５、及び図６（Ｂ））。

文章解析データＡＤは、記憶部１０５またはデータベース１０７から、伝送路１０２を介して、処理部１０３に供給される。ＩＤＦデータＩＤは、データベース１０７から、伝送路１０２を介して、処理部１０３に供給される。

処理部１０３は、文章解析データＡＤとＩＤＦデータＩＤとを照合し、文章解析データＡＤに含まれる単語をＩＤＦの高い順に並べることで、キーワードデータＫＤを生成する。

キーワードデータＫＤは、キーワードＫＷとそのＩＤＦとを含む。ここでは、規格化されたＩＤＦを用いる例を示す。

キーワードＫＷは、文章解析データＡＤに含まれる特徴的な単語であるといえる。キーワードＫＷは、例えば、文章解析データＡＤ及びＩＤＦデータＩＤの双方に含まれている単語全てであってもよく、ＩＤＦが所定の値以上の単語であってもよく、ＩＤＦが高い上位の所定の個数の単語であってもよい。文章データＴＤの文章量に応じて、キーワードＫＷの抽出基準を設定することが好ましい。例えば、キーワードＫＷの数は、２個以上１００個以下が好ましく、５個以上３０個以下がより好ましい。

ここで、キーワードＫＷの規格化されたＩＤＦは、後に参照用文章解析データＡＤ_ｒｅｆに点数を付与する際に用いる、キーワードＫＷの重みに相当する。

図６（Ｂ）では、Ｗｏｒｄ　Ｄの重みが０．８７３、Ｗｏｒｄ　Ａの重みが０．８６８、Ｗｏｒｄ　Ｅの重みが０．８６７である例を示している。

図６（Ｂ）では、キーワードデータＫＤを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、伝送路１０２を介して、記憶部１０５またはデータベース１０７に、キーワードデータＫＤを供給することができる。

［ステップＳ１４、Ｓ３４］
次に、文章解析データＡＤまたはキーワードデータＫＤと、ベクトルデータＶＤと、を用いて、関連語データＲＤを生成する（図４、図５、及び図６（Ｃ））。

文章解析データＡＤまたはキーワードデータＫＤは、記憶部１０５またはデータベース１０７から、伝送路１０２を介して、処理部１０３に供給される。ベクトルデータＶＤは、データベース１０７から、伝送路１０２を介して、処理部１０３に供給される。

ステップＳ１４の場合、処理部１０３は、キーワードＫＷの分散表現ベクトルと、参照用文章解析データＡＤ_ｒｅｆに含まれる単語の分散表現ベクトルと、の類似度の高さまたは距離の近さに基づいて、キーワードＫＷの関連語ＲＷを抽出する。そして、関連語ＲＷを類似度の高い順または距離の近い順に並べることで、関連語データＲＤを生成する。具体的には、１つのキーワードＫＷに対して、関連語ＲＷを１個以上１０個以下抽出することが好ましく、２個以上５個以下抽出することがより好ましい。関連語ＲＷは、例えば、類似度が所定の値以上の単語であってもよく、距離が所定の値以下の単語であってもよく、類似度が高い上位の所定の個数の単語であってもよく、距離が近い上位の所定の個数の単語であってもよい。キーワードＫＷによって、同義語、類義語、対義語、上位語、下位語などの数は異なるため、キーワードＫＷによって、関連語ＲＷの数は異なっていてもよい。参照用文章解析データＡＤ_ｒｅｆに含まれる単語の中からキーワードＫＷの関連語ＲＷを抽出することで、参照用文章解析データＡＤ_ｒｅｆが独特の表記でキーワードＫＷを表現している場合であっても、当該表記を関連語ＲＷとして抽出することができる。したがって、表記の揺らぎによる検索漏れが低減でき、好ましい。

ステップＳ３４の場合、処理部１０３は、文章解析データＡＤに含まれる単語の分散表現ベクトルと、参照用文章解析データＡＤ_ｒｅｆに含まれる単語の分散表現ベクトルと、の類似度の高さまたは距離の近さに基づいて、関連語ＲＷを抽出する。それ以外は、ステップＳ１４と同様である。

２つのベクトルの類似度は、コサイン類似度、共分散、不偏共分散、ピアソンの積率相関係数などを用いて求めることができる。特に、コサイン類似度を用いることが好ましい。

２つのベクトルの距離は、ユークリッド距離、標準（標準化、平均）ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離などを用いて求めることができる。

関連語データＲＤは、関連語ＲＷとその関連度ＲＳとを含む。

関連語ＲＷは、文章解析データＡＤに含まれる単語またはキーワードＫＷと関連する単語であるといえる。

関連度ＲＳは、上記類似度の高さもしくは距離の近さを示す値、またはこれらを規格化した値である。関連度ＲＳは、後に参照用文章解析データＡＤ_ｒｅｆに点数を付与する際に用いる、関連語の重みの算出に利用する。具体的には、キーワードＫＷの規格化されたＩＤＦと関連語ＲＷの関連度ＲＳとの積が、関連語の重みに相当する。

図６（Ｃ）では、Ｗｏｒｄ　Ｄの関連語ＲＷとして、関連度ＲＳが高い順にＷｏｒｄ　Ｘ（関連度ＲＳが０．９９９）、Ｗｏｒｄ　Ｙ（関連度ＲＳが０．９０１）、Ｗｏｒｄ　Ｚ（関連度ＲＳが０．７１２）が抽出された例を示す。

図６（Ｃ）では、関連語データＲＤを処理部１０３の外部に出力する例を示す。例えば、処理部１０３は、伝送路１０２を介して、記憶部１０５またはデータベース１０７に、関連語データＲＤを供給することができる。

なお、キーワードデータＫＤを用いて関連語を抽出する場合、図４に示すように、ステップＳ１３の後に、ステップＳ１４を行う。一方、文章解析データＡＤを用いて関連語を抽出する場合、図５に示すように、ステップＳ３３とステップＳ３４はどちらを先に行ってもよく、並行して行ってもよい。

さらに、関連語ＲＷが、概念辞書に含まれている単語か否かを判断し、当該関連語ＲＷの重みを決定するステップを有していてもよい。関連語ＲＷが概念辞書に含まれている場合、当該関連語ＲＷはキーワードＫＷとの関連度が高いといえる。そのため、概念辞書に含まれる場合は、含まれない場合に比べて、関連語ＲＷの重みが大きくなるように設定してもよい。例えば、判断結果に応じて、類似度の高さまたは距離の近さを示す値に、所定の値を加えた値または減らした値を、関連語ＲＷの重みとして用いてもよい。または、関連語ＲＷが概念辞書に含まれる場合または含まれない場合の一方において、類似度の高さまたは距離の近さに関わらず、所定の値を関連語ＲＷの重みとして用いてもよい。例えば、関連語ＲＷが概念辞書に含まれる場合、関連語ＲＷの重みを、キーワードＫＷと同じ重みにしてもよい。

［ステップＳ１５］
次に、参照用文章解析データＡＤ_ｒｅｆに含まれる単語と一致したキーワードＫＷまたは関連語ＲＷの重みに基づいて、参照用文章解析データＡＤ_ｒｅｆに点数を付与する（図４、図５、及び図７（Ａ））。

参照用文章解析データＡＤ_ｒｅｆは、データベース１０７から、伝送路１０２を介して、処理部１０３に供給される。キーワードデータＫＤ及び関連語データＲＤは、記憶部１０５またはデータベース１０７から、伝送路１０２を介して、処理部１０３に供給される。処理部１０３は、点数づけ（スコアリングともいう）の結果を、伝送路１０２を介して、記憶部１０５またはデータベース１０７に供給することができる。

まず、図７（Ｂ）を用いて、点数づけの具体例を説明する。図７（Ｂ）では、３種類のキーワードＫＷと、キーワードＫＷ１つに対して４種類の関連語ＲＷと、を用いる例を示す。

スコアの分母はキーワードＫＷの重みの総和であり、図７（Ｂ）の場合、０．９＋０．９＋０．８＝２．６である。

スコアの分子は参照用文章解析データＡＤ_ｒｅｆに含まれる単語と一致したキーワードＫＷまたは関連語ＲＷの重みの総和であり、図７（Ｂ）の場合、Ｗｏｒｄ　Ｄ、Ｗｏｒｄ　ｅ、及びＷｏｒｄ　ｆの重みの和である１．９５である。

このことから、スコアは、１．９５／２．６＝０．７５（７５％）と求めることができる。

図８を用いてステップＳ１５を詳細に説明する。図８に示すように、ステップＳ１５は、ステップＳ２１からステップＳ２７を有する。なお、キーワードＫＷの数がｐ個、各キーワードＫＷの関連語ＲＷの数がｑ個である場合、ｘは１以上ｐ以下の整数を表し、ｙは１以上ｑ以下の整数を表す。

［ステップＳ２１］
まず、点数づけしていない参照用文章解析データＡＤ_ｒｅｆを１件選択する。

［ステップＳ２２］
次に、参照用文章解析データＡＤ_ｒｅｆにおいて、キーワードＫＷ_ｘがヒットするか判断する。ヒットする場合、ステップＳ２５に進む。ヒットしない場合、ステップＳ２３に進む。

［ステップＳ２３］
次に、参照用文章解析データＡＤ_ｒｅｆにおいて、キーワードＫＷ_ｘの関連語ＲＷ_ｘｙがヒットするか判断する。ヒットする場合、ステップＳ２５に進む。ヒットしない場合、ステップＳ２４に進む。

［ステップＳ２４］
次に、キーワードＫＷｘの全ての関連語ＲＷで検索したか判断する。検索した場合、ステップＳ２６に進む。検索していない場合、ステップＳ２３に進む。例えば、キーワードＫＷ_ｘの関連語ＲＷが２つあり、先のステップＳ２３で関連語ＲＷ_ｘ１がヒットするか判断していた場合、ステップＳ２３に戻って関連語ＲＷ_ｘ２がヒットするか判断する。

［ステップＳ２５］
ステップＳ２５では、ヒットした単語に対応する重みをスコアに加算する。ステップＳ２２でヒットした場合、キーワードＫＷ_ｘのＩＤＦをスコアに加算する。ステップＳ２３でヒットした場合、キーワードＫＷ_ｘのＩＤＦと、関連語ＲＷ_ｘｙの関連度ＲＳと、の積をスコアに加算する。なお、上述の点数づけの例では、スコアの分子に加算する。

［ステップＳ２６］
次に、全てのキーワードＫＷで検索したか判断する。検索した場合、ステップＳ２７に進む。検索していない場合、ステップＳ２２に進む。例えば、キーワードＫＷ_ｘが２つあり、先のステップＳ２２でキーワードＫＷ_１がヒットするか判断していた場合、ステップＳ２２に戻ってキーワードＫＷ_２がヒットするか判断する。

［ステップＳ２７］
次に、全ての参照用文章解析データＡＤ_ｒｅｆの点数づけをしたか判断する。全ての点数づけが終わった場合、ステップＳ１６に進む。終わっていない場合、ステップＳ２１に進む。

［ステップＳ１６］
そして、参照用文章解析データＡＤ_ｒｅｆを順位づけし、ランキングデータＬＤを生成し、出力する（図４、５、及び図７（Ａ））。

処理部１０３は、ランキングデータＬＤを、伝送路１０２を介して、記憶部１０５またはデータベース１０７に供給することができる。また、処理部１０３は、ランキングデータＬＤを、伝送路１０２を介して、出力部１０９に供給することができる。これにより、出力部１０９は、文書検索システム１００の外部にランキングデータＬＤを供給することができる。

ランキングデータＬＤは、順位（Ｌａｎｋ）、参照用文章データＴＤ_ｒｅｆの情報（名称や識別番号など）（Ｄｏｃ）、スコア（Ｓｃｏｒｅ）などを含むことができる。なお、データベース１０７などに参照用文章データＴＤ_ｒｅｆが保存されている場合、ランキングデータＬＤは、参照用文章データＴＤ_ｒｅｆへのファイルパスを含むことが好ましい。これにより、使用者は、ランキングデータＬＤから、目的の文書に容易にアクセスすることができる。

参照用文章解析データＡＤ_ｒｅｆのスコアが高いほど、当該参照用文章解析データＡＤ_ｒｅｆに対応する参照用文章データＴＤ_ｒｅｆは、文章データＴＤと関連または類似しているといえる。

図７（Ａ）に示す例では、ランキングデータＬＤから、ｎ個の参照用文章データＴＤ_ｒｅｆのうち、文章データＴＤと最も関連または類似しているデータは、参照用文章データＴＤ_ｒｅｆ（７）であり、二番目に関連または類似しているデータは、参照用文章データＴＤ_ｒｅｆ（４）であり、三番目に関連または類似しているデータは、参照用文章データＴＤ_ｒｅｆ（１３）であるとわかる。

以上により、文書検索システム１００を用いて、検索を行うことができる。

なお、ステップＳ１４で出力したキーワードＫＷ、キーワードＫＷの重み（ＩＤＦ）、関連語ＲＷ、及び関連語ＲＷの重み（ＩＤＦ×ＲＳ）を、手作業で編集してから、ステップＳ１５に進んでもよい。

図９に編集のステップを含むフローチャートを示し、図１０に図９に示すステップの模式図を示す。なお、図１０に示すデータの図示は一例であり、これに限定されない。

［ステップＳ４１］
ステップ１４の後、ステップＳ１５で使用予定のキーワードデータＫＤ及び関連語データＲＤの一覧を出力する（図９及び図１０（Ａ））。

図１０（Ａ）から、キーワードＫＷとして、Ｗｏｒｄ　Ｄ、Ｗｏｒｄ　Ａ、Ｗｏｒｄ　Ｅが挙げられており、それぞれの重み（ＩＤＦ）が０．９、０．９、０．８であることがわかる。

Ｗｏｒｄ　Ｄの関連語ＲＷとしては、Ｗｏｒｄ　Ｘ、Ｗｏｒｄ　Ｙ、Ｗｏｒｄ　Ｚ、及びＷｏｒｄ　ａが挙げられており、それぞれの重み（ＩＤＦ×ＲＳ）は０．９、０．８、０．６、０．５であることがわかる。

Ｗｏｒｄ　Ａの関連語ＲＷとしては、Ｗｏｒｄ　ｂ、Ｗｏｒｄ　ｃ、Ｗｏｒｄ　ｄ、及びＷｏｒｄ　ｅが挙げられており、それぞれの重み（ＩＤＦ×ＲＳ）は０．５、０．５、０．４５、０．３であることがわかる。

Ｗｏｒｄ　Ｅの関連語ＲＷとしては、Ｗｏｒｄ　ｆ、Ｗｏｒｄ　ｇ、Ｗｏｒｄ　ｈ、及びＷｏｒｄ　ｉが挙げられており、それぞれの重み（ＩＤＦ×ＲＳ）は０．７５、０．７５、０．７５、０．７５であることがわかる。

［ステップＳ４２］
次に、キーワードデータＫＤ及び関連語データＲＤを編集する（図９及び図１０（Ｂ））。

図１０（Ｂ）では、３か所の編集を行った例を示す。具体的には、Ｗｏｒｄ　Ａ及びその関連語ＲＷの削除と、Ｗｏｒｄ　ａ（重み０．５）からＷｏｒｄ　ｘ（重み０．８）への変更と、Ｗｏｒｄ　ｆの重みの変更（０．７５から０．８へ）である。

このように、使用者が単語及び重みの少なくとも一方を編集することで、検索精度の向上を図ってもよい。

その後、ステップＳ１５では、編集済みのキーワードデータＫＤ及び関連語データＲＤを用いて参照用文章解析データＡＤ_ｒｅｆに点数を付与し、ステップＳ１６でランキングデータＬＤを生成し、出力する。

［ステップＳ４３］
次に、ランキングデータＬＤが期待した結果であるか確認する（図９）。期待した結果であれば、検索を終了する。期待した結果が得られなかった場合、ステップＳ４１に戻って、編集済みのキーワードデータＫＤ及び関連語データＲＤの一覧を出力し、ステップＳ４２にて、再度編集してもよい。

なお、単語及び重みの編集は、手作業に限らず、辞書データ、自然言語処理により生成した解析データ等を用いて、自動で行われてもよい。編集により、検索精度の向上を図ることができる。

＜３．文書検索システムの構成例２＞
次に、図１１に示す文書検索システム１５０について説明する。

図１１に、文書検索システム１５０のブロック図を示す。文書検索システム１５０は、サーバ１５１と、端末１５２（パーソナルコンピュータなど）とを有する。

サーバ１５１は、通信部１６１ａ、伝送路１６２、処理部１６３ａ、及びデータベース１６７を有する。図１１では図示しないが、さらに、サーバ１５１は、記憶部、入出力部などを有していてもよい。

端末１５２は、通信部１６１ｂ、伝送路１６８、処理部１６３ｂ、記憶部１６５、及び入出力部１６９を有する。図１１では図示しないが、端末１５２は、さらに、データベースなどを有していてもよい。

文書検索システム１５０の使用者は、端末１５２から、文章データＴＤを、サーバ１５１に入力する。文章データＴＤは、通信部１６１ｂから通信部１６１ａに送信される。

通信部１６１ａが受信した文章データＴＤは、伝送路１６２を介して、データベース１６７または記憶部（図示しない）に保存される。または、文章データＴＤは、通信部１６１ａから、直接、処理部１６３ａに供給されてもよい。

上記＜２．文書検索方法＞で説明した各種処理は、処理部１６３ａにて行われる。これらの処理は、高い処理能力が求められるため、サーバ１５１が有する処理部１６３ａで行うことが好ましい。

そして、処理部１６３ａによりランキングデータＬＤが生成される。ランキングデータＬＤは、伝送路１６２を介して、データベース１６７または記憶部（図示しない）に保存される。または、ランキングデータＬＤは、処理部１６３ａから、直接、通信部１６１ａに供給されてもよい。その後、サーバ１５１から、ランキングデータＬＤが、端末１５２に出力される。ランキングデータＬＤは、通信部１６１ａから通信部１６１ｂに送信される。

［入出力部１６９］
入出力部１６９には、文書検索システム１５０の外部からデータが供給される。入出力部１６９は、文書検索システム１５０の外部にデータを供給する機能を有する。なお、文書検索システム１００のように、入力部と出力部が分かれていてもよい。

［伝送路１６２及び伝送路１６８］
伝送路１６２及び伝送路１６８は、データを伝達する機能を有する。通信部１６１ａ、処理部１６３ａ、及びデータベース１６７の間のデータの送受信は、伝送路１６２を介して行うことができる。通信部１６１ｂ、処理部１６３ｂ、記憶部１６５、及び入出力部１６９の間のデータの送受信は、伝送路１６８を介して行うことができる。

［処理部１６３ａ及び処理部１６３ｂ］
処理部１６３ａは、通信部１６１ａ及びデータベース１６７などから供給されたデータを用いて、演算、推論などを行う機能を有する。処理部１６３ｂは、通信部１６１ｂ、記憶部１６５、及び入出力部１６９などから供給されたデータを用いて、演算などを行う機能を有する。処理部１６３ａ及び処理部１６３ｂは、処理部１０３の説明を参照できる。特に、処理部１６３ａは、上記＜２．文書検索方法＞で説明した各種処理を行うことができる。そのため、処理部１６３ａは、処理部１６３ｂに比べて処理能力が高いことが好ましい。

［記憶部１６５］
記憶部１６５は、処理部１６３ｂが実行するプログラムを記憶する機能を有する。また、記憶部１６５は、処理部１６３ｂが生成した演算結果、通信部１６１ｂに入力されたデータ、及び入出力部１６９に入力されたデータなどを記憶する機能を有する。

［データベース１６７］
データベース１６７は、参照用文章解析データＡＤ_ｒｅｆ、ＩＤＦデータＩＤ、及びベクトルデータＶＤを記憶する機能を有する。また、データベース１６７は、処理部１６３ａが生成した演算結果、及び通信部１６１ａに入力されたデータなどを記憶する機能を有していてもよい。または、サーバ１５１は、データベース１６７とは別に記憶部を有し、当該記憶部が、処理部１６３ａが生成した演算結果、及び通信部１６１ａに入力されたデータなどを記憶する機能を有していてもよい。

［通信部１６１ａ及び通信部１６１ｂ］
通信部１６１ａ及び通信部１６１ｂを用いて、サーバ１５１と端末１５２との間で、データの送受信を行うことができる。通信部１６１ａ及び通信部１６１ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

以上のように、本実施の形態の文書検索システムでは、事前に準備された文書を検索の対象として、入力された文書に関連または類似する文書を検索することができる。検索に用いるキーワードを使用者が選択する必要がなく、キーワードよりも分量の多い文章データを用いて検索することができるため、検索精度の個人差を低減することができ、簡便かつ高精度に、文書を検索できる。また、本実施の形態の文書検索システムは、キーワードの関連語を、事前に準備された文書の中から抽出するため、当該文書に含まれる独特な表記も関連語として抽出することができ、検索漏れを低減できる。また、本実施の形態の文書検索システムは、関連性または類似性の高さで順位づけして検索結果を出力することができるため、使用者にとっては、検索結果から必要な文書を探しやすく、かつ、見落としにくくなる。

本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、１つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

（実施の形態２）
本実施の形態では、ニューラルネットワークに用いることが可能な半導体装置の構成例について説明する。

本実施の形態の半導体装置は、例えば、本発明の一態様の文書検索システムの処理部に用いることができる。

図１２（Ａ）に示すように、ニューラルネットワークＮＮは入力層ＩＬ、出力層ＯＬ、中間層（隠れ層）ＨＬによって構成することができる。入力層ＩＬ、出力層ＯＬ、中間層ＨＬはそれぞれ、１または複数のニューロン（ユニット）を有する。なお、中間層ＨＬは１層であってもよいし２層以上であってもよい。２層以上の中間層ＨＬを有するニューラルネットワークはＤＮＮ（ディープニューラルネットワーク）と呼ぶこともでき、ディープニューラルネットワークを用いた学習は深層学習と呼ぶこともできる。

入力層ＩＬの各ニューロンには入力データが入力され、中間層ＨＬの各ニューロンには前層または後層のニューロンの出力信号が入力され、出力層ＯＬの各ニューロンには前層のニューロンの出力信号が入力される。なお、各ニューロンは、前後の層の全てのニューロンと結合されていてもよいし（全結合）、一部のニューロンと結合されていてもよい。

図１２（Ｂ）に、ニューロンによる演算の例を示す。ここでは、ニューロンＮと、ニューロンＮに信号を出力する前層の２つのニューロンを示している。ニューロンＮには、前層のニューロンの出力ｘ_１と、前層のニューロンの出力ｘ_２が入力される。そして、ニューロンＮにおいて、出力ｘ_１と重みｗ_１の乗算結果（ｘ_１ｗ_１）と出力ｘ_２と重みｗ_２の乗算結果（ｘ_２ｗ_２）の総和ｘ_１ｗ_１＋ｘ_２ｗ_２が計算された後、必要に応じてバイアスｂが加算され、値ａ＝ｘ_１ｗ_１＋ｘ_２ｗ_２＋ｂが得られる。そして、値ａは活性化関数ｈによって変換され、ニューロンＮから出力信号ｙ＝ｈ（ａ）が出力される。

このように、ニューロンによる演算には、前層のニューロンの出力と重みの積を足し合わせる演算、すなわち積和演算が含まれる（上記のｘ_１ｗ_１＋ｘ_２ｗ_２）。この積和演算は、プログラムを用いてソフトウェア上で行ってもよいし、ハードウェアによって行われてもよい。積和演算をハードウェアによって行う場合は、積和演算回路を用いることができる。この積和演算回路としては、デジタル回路を用いてもよいし、アナログ回路を用いてもよい。積和演算回路にアナログ回路を用いる場合、積和演算回路の回路規模の縮小、または、メモリへのアクセス回数の減少による処理速度の向上及び消費電力の低減を図ることができる。

積和演算回路は、チャネル形成領域にシリコン（単結晶シリコンなど）を含むトランジスタ（「Ｓｉトランジスタ」ともいう）によって構成してもよいし、チャネル形成領域に金属酸化物の一種である酸化物半導体を含むトランジスタ（「ＯＳトランジスタ」ともいう）によって構成してもよい。特に、ＯＳトランジスタはオフ電流が極めて小さいため、積和演算回路のメモリを構成するトランジスタとして好適である。なお、ＳｉトランジスタとＯＳトランジスタの両方を用いて積和演算回路を構成してもよい。以下、積和演算回路の機能を備えた半導体装置の構成例について説明する。

＜半導体装置の構成例＞
図１３に、ニューラルネットワークの演算を行う機能を有する半導体装置ＭＡＣの構成例を示す。半導体装置ＭＡＣは、ニューロン間の結合強度（重み）に対応する第１のデータと、入力データに対応する第２のデータの積和演算を行う機能を有する。なお、第１のデータ及び第２のデータはそれぞれ、アナログデータまたは多値のデジタルデータ（離散的なデータ）とすることができる。また、半導体装置ＭＡＣは、積和演算によって得られたデータを活性化関数によって変換する機能を有する。

半導体装置ＭＡＣは、セルアレイＣＡ、電流源回路ＣＳ、カレントミラー回路ＣＭ、回路ＷＤＤ、回路ＷＬＤ、回路ＣＬＤ、オフセット回路ＯＦＳＴ、及び活性化関数回路ＡＣＴＶを有する。

セルアレイＣＡは、複数のメモリセルＭＣ及び複数のメモリセルＭＣｒｅｆを有する。図１３には、セルアレイＣＡがｍ行ｎ列（ｍ，ｎは１以上の整数）のメモリセルＭＣ（ＭＣ［１，１］乃至ＭＣ［ｍ，ｎ］）と、ｍ個のメモリセルＭＣｒｅｆ（ＭＣｒｅｆ［１］乃至ＭＣｒｅｆ［ｍ］）を有する構成例を示している。メモリセルＭＣは、第１のデータを格納する機能を有する。また、メモリセルＭＣｒｅｆは、積和演算に用いられる参照データを格納する機能を有する。なお、参照データはアナログデータまたは多値のデジタルデータとすることができる。

メモリセルＭＣ［ｉ，ｊ］（ｉは１以上ｍ以下の整数、ｊは１以上ｎ以下の整数）は、配線ＷＬ［ｉ］、配線ＲＷ［ｉ］、配線ＷＤ［ｊ］、及び配線ＢＬ［ｊ］と接続されている。また、メモリセルＭＣｒｅｆ［ｉ］は、配線ＷＬ［ｉ］、配線ＲＷ［ｉ］、配線ＷＤｒｅｆ、配線ＢＬｒｅｆと接続されている。ここで、メモリセルＭＣ［ｉ，ｊ］と配線ＢＬ［ｊ］間を流れる電流をＩ_{ＭＣ［ｉ，ｊ］}と表記し、メモリセルＭＣｒｅｆ［ｉ］と配線ＢＬｒｅｆ間を流れる電流をＩ_{ＭＣｒｅｆ［ｉ］}と表記する。

メモリセルＭＣ及びメモリセルＭＣｒｅｆの具体的な構成例を、図１４に示す。図１４には代表例としてメモリセルＭＣ［１，１］、ＭＣ［２，１］及びメモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］を示しているが、他のメモリセルＭＣ及びメモリセルＭＣｒｅｆにも同様の構成を用いることができる。メモリセルＭＣ及びメモリセルＭＣｒｅｆはそれぞれ、トランジスタＴｒ１１、トランジスタＴｒ１２、容量素子Ｃ１１を有する。ここでは、トランジスタＴｒ１１及びトランジスタＴｒ１２がｎチャネル型のトランジスタである場合について説明する。

メモリセルＭＣにおいて、トランジスタＴｒ１１のゲートは配線ＷＬと接続され、ソースまたはドレインの一方はトランジスタＴｒ１２のゲート、及び容量素子Ｃ１１の第１の電極と接続され、ソースまたはドレインの他方は配線ＷＤと接続されている。トランジスタＴｒ１２のソースまたはドレインの一方は配線ＢＬと接続され、ソースまたはドレインの他方は配線ＶＲと接続されている。容量素子Ｃ１１の第２の電極は、配線ＲＷと接続されている。配線ＶＲは、所定の電位を供給する機能を有する配線である。ここでは一例として、配線ＶＲから低電源電位（接地電位など）が供給される場合について説明する。

トランジスタＴｒ１１のソースまたはドレインの一方、トランジスタＴｒ１２のゲート、及び容量素子Ｃ１１の第１の電極と接続されたノードを、ノードＮＭとする。また、メモリセルＭＣ［１，１］、ＭＣ［２，１］のノードＮＭを、それぞれノードＮＭ［１，１］、ＮＭ［２，１］と表記する。

メモリセルＭＣｒｅｆも、メモリセルＭＣと同様の構成を有する。ただし、メモリセルＭＣｒｅｆは配線ＷＤの代わりに配線ＷＤｒｅｆと接続され、配線ＢＬの代わりに配線ＢＬｒｅｆと接続されている。また、メモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］において、トランジスタＴｒ１１のソースまたはドレインの一方、トランジスタＴｒ１２のゲート、及び容量素子Ｃ１１の第１の電極と接続されたノードを、それぞれノードＮＭｒｅｆ［１］、ＮＭｒｅｆ［２］と表記する。

ノードＮＭとノードＮＭｒｅｆはそれぞれ、メモリセルＭＣとメモリセルＭＣｒｅｆの保持ノードとして機能する。ノードＮＭには第１のデータが保持され、ノードＮＭｒｅｆには参照データが保持される。また、配線ＢＬ［１］からメモリセルＭＣ［１，１］、ＭＣ［２，１］のトランジスタＴｒ１２には、それぞれ電流Ｉ_{ＭＣ［１，１］}、Ｉ_{ＭＣ［２，１］}が流れる。また、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］のトランジスタＴｒ１２には、それぞれ電流Ｉ_{ＭＣｒｅｆ［１］}、Ｉ_{ＭＣｒｅｆ［２］}が流れる。

トランジスタＴｒ１１は、ノードＮＭまたはノードＮＭｒｅｆの電位を保持する機能を有するため、トランジスタＴｒ１１のオフ電流は小さいことが好ましい。そのため、トランジスタＴｒ１１としてオフ電流が極めて小さいＯＳトランジスタを用いることが好ましい。これにより、ノードＮＭまたはノードＮＭｒｅｆの電位の変動を抑えることができ、演算精度の向上を図ることができる。また、ノードＮＭまたはノードＮＭｒｅｆの電位をリフレッシュする動作の頻度を低く抑えることが可能となり、消費電力を削減することができる。

トランジスタＴｒ１２は特に限定されず、例えばＳｉトランジスタまたはＯＳトランジスタなどを用いることができる。トランジスタＴｒ１２にＯＳトランジスタを用いる場合、トランジスタＴｒ１１と同じ製造装置を用いて、トランジスタＴｒ１２を作製することが可能となり、製造コストを抑制することができる。なお、トランジスタＴｒ１２はｎチャネル型であってもｐチャネル型であってもよい。

電流源回路ＣＳは、配線ＢＬ［１］乃至ＢＬ［ｎ］及び配線ＢＬｒｅｆと接続されている。電流源回路ＣＳは、配線ＢＬ［１］乃至ＢＬ［ｎ］及び配線ＢＬｒｅｆに電流を供給する機能を有する。なお、配線ＢＬ［１］乃至ＢＬ［ｎ］に供給される電流値と配線ＢＬｒｅｆに供給される電流値は異なっていてもよい。ここでは、電流源回路ＣＳから配線ＢＬ［１］乃至ＢＬ［ｎ］に供給される電流をＩ_Ｃ、電流源回路ＣＳから配線ＢＬｒｅｆに供給される電流をＩ_Ｃｒｅｆと表記する。

カレントミラー回路ＣＭは、配線ＩＬ［１］乃至ＩＬ［ｎ］及び配線ＩＬｒｅｆを有する。配線ＩＬ［１］乃至ＩＬ［ｎ］はそれぞれ配線ＢＬ［１］乃至ＢＬ［ｎ］と接続され、配線ＩＬｒｅｆは、配線ＢＬｒｅｆと接続されている。ここでは、配線ＩＬ［１］乃至ＩＬ［ｎ］と配線ＢＬ［１］乃至ＢＬ［ｎ］の接続箇所をノードＮＰ［１］乃至ＮＰ［ｎ］と表記する。また、配線ＩＬｒｅｆと配線ＢＬｒｅｆの接続箇所をノードＮＰｒｅｆと表記する。

カレントミラー回路ＣＭは、ノードＮＰｒｅｆの電位に応じた電流Ｉ_ＣＭを配線ＩＬｒｅｆに流す機能と、この電流Ｉ_ＣＭを配線ＩＬ［１］乃至ＩＬ［ｎ］にも流す機能を有する。図１３には、配線ＢＬｒｅｆから配線ＩＬｒｅｆに電流Ｉ_ＣＭが排出され、配線ＢＬ［１］乃至ＢＬ［ｎ］から配線ＩＬ［１］乃至ＩＬ［ｎ］に電流Ｉ_ＣＭが排出される例を示している。また、カレントミラー回路ＣＭから配線ＢＬ［１］乃至ＢＬ［ｎ］を介してセルアレイＣＡに流れる電流を、Ｉ_Ｂ［１］乃至Ｉ_Ｂ［ｎ］と表記する。また、カレントミラー回路ＣＭから配線ＢＬｒｅｆを介してセルアレイＣＡに流れる電流を、Ｉ_Ｂｒｅｆと表記する。

回路ＷＤＤは、配線ＷＤ［１］乃至ＷＤ［ｎ］及び配線ＷＤｒｅｆと接続されている。回路ＷＤＤは、メモリセルＭＣに格納される第１のデータに対応する電位を、配線ＷＤ［１］乃至ＷＤ［ｎ］に供給する機能を有する。また、回路ＷＤＤは、メモリセルＭＣｒｅｆに格納される参照データに対応する電位を、配線ＷＤｒｅｆに供給する機能を有する。回路ＷＬＤは、配線ＷＬ［１］乃至ＷＬ［ｍ］と接続されている。回路ＷＬＤは、データの書き込みを行うメモリセルＭＣまたはメモリセルＭＣｒｅｆを選択するための信号を、配線ＷＬ［１］乃至ＷＬ［ｍ］に供給する機能を有する。回路ＣＬＤは、配線ＲＷ［１］乃至ＲＷ［ｍ］と接続されている。回路ＣＬＤは、第２のデータに対応する電位を、配線ＲＷ［１］乃至ＲＷ［ｍ］に供給する機能を有する。

オフセット回路ＯＦＳＴは、配線ＢＬ［１］乃至ＢＬ［ｎ］及び配線ＯＬ［１］乃至ＯＬ［ｎ］と接続されている。オフセット回路ＯＦＳＴは、配線ＢＬ［１］乃至ＢＬ［ｎ］からオフセット回路ＯＦＳＴに流れる電流量、及び／または、配線ＢＬ［１］乃至ＢＬ［ｎ］からオフセット回路ＯＦＳＴに流れる電流の変化量を検出する機能を有する。また、オフセット回路ＯＦＳＴは、検出結果を配線ＯＬ［１］乃至ＯＬ［ｎ］に出力する機能を有する。なお、オフセット回路ＯＦＳＴは、検出結果に対応する電流を配線ＯＬに出力してもよいし、検出結果に対応する電流を電圧に変換して配線ＯＬに出力してもよい。セルアレイＣＡとオフセット回路ＯＦＳＴの間を流れる電流を、Ｉ_α［１］乃至Ｉ_α［ｎ］と表記する。

オフセット回路ＯＦＳＴの構成例を図１５に示す。図１５に示すオフセット回路ＯＦＳＴは、回路ＯＣ［１］乃至ＯＣ［ｎ］を有する。また、回路ＯＣ［１］乃至ＯＣ［ｎ］はそれぞれ、トランジスタＴｒ２１、トランジスタＴｒ２２、トランジスタＴｒ２３、容量素子Ｃ２１、及び抵抗素子Ｒ１を有する。各素子の接続関係は図１５に示す通りである。なお、容量素子Ｃ２１の第１の電極及び抵抗素子Ｒ１の第１の端子と接続されたノードを、ノードＮａとする。また、容量素子Ｃ２１の第２の電極、トランジスタＴｒ２１のソースまたはドレインの一方、及びトランジスタＴｒ２２のゲートと接続されたノードを、ノードＮｂとする。

配線ＶｒｅｆＬは電位Ｖｒｅｆを供給する機能を有し、配線ＶａＬは電位Ｖａを供給する機能を有し、配線ＶｂＬは電位Ｖｂを供給する機能を有する。また、配線ＶＤＤＬは電位ＶＤＤを供給する機能を有し、配線ＶＳＳＬは電位ＶＳＳを供給する機能を有する。ここでは、電位ＶＤＤが高電源電位であり、電位ＶＳＳが低電源電位である場合について説明する。また、配線ＲＳＴは、トランジスタＴｒ２１の導通状態を制御するための電位を供給する機能を有する。トランジスタＴｒ２２、トランジスタＴｒ２３、配線ＶＤＤＬ、配線ＶＳＳＬ、及び配線ＶｂＬによって、ソースフォロワ回路が構成される。

次に、回路ＯＣ［１］乃至ＯＣ［ｎ］の動作例を説明する。なお、ここでは代表例として回路ＯＣ［１］の動作例を説明するが、回路ＯＣ［２］乃至ＯＣ［ｎ］も同様に動作させることができる。まず、配線ＢＬ［１］に第１の電流が流れると、ノードＮａの電位は、第１の電流と抵抗素子Ｒ１の抵抗値に応じた電位となる。また、このときトランジスタＴｒ２１はオン状態であり、ノードＮｂに電位Ｖａが供給される。その後、トランジスタＴｒ２１はオフ状態となる。

次に、配線ＢＬ［１］に第２の電流が流れると、ノードＮａの電位は、第２の電流と抵抗素子Ｒ１の抵抗値に応じた電位に変化する。このときトランジスタＴｒ２１はオフ状態であり、ノードＮｂはフローティング状態となっているため、ノードＮａの電位の変化に伴い、ノードＮｂの電位は容量結合により変化する。ここで、ノードＮａの電位の変化をΔＶ_Ｎａとし、容量結合係数を１とすると、ノードＮｂの電位はＶａ＋ΔＶ_Ｎａとなる。そして、トランジスタＴｒ２２のしきい値電圧をＶ_ｔｈとすると、配線ＯＬ［１］から電位Ｖａ＋ΔＶ_Ｎａ−Ｖ_ｔｈが出力される。ここで、Ｖａ＝Ｖ_ｔｈとすることにより、配線ＯＬ［１］から電位ΔＶ_Ｎａを出力することができる。

電位ΔＶ_Ｎａは、第１の電流から第２の電流への変化量、抵抗素子Ｒ１の抵抗値、及び電位Ｖｒｅｆに応じて定まる。ここで、抵抗素子Ｒ１の抵抗値と電位Ｖｒｅｆは既知であるため、電位ΔＶ_Ｎａから配線ＢＬに流れる電流の変化量を求めることができる。

上記のようにオフセット回路ＯＦＳＴによって検出された電流量、及び／または電流の変化量に対応する信号は、配線ＯＬ［１］乃至ＯＬ［ｎ］を介して活性化関数回路ＡＣＴＶに入力される。

活性化関数回路ＡＣＴＶは、配線ＯＬ［１］乃至ＯＬ［ｎ］、及び、配線ＮＩＬ［１］乃至ＮＩＬ［ｎ］と接続されている。活性化関数回路ＡＣＴＶは、オフセット回路ＯＦＳＴから入力された信号を、あらかじめ定義された活性化関数に従って変換するための演算を行う機能を有する。活性化関数としては、例えば、シグモイド関数、ｔａｎｈ関数、ｓｏｆｔｍａｘ関数、ＲｅＬＵ関数、しきい値関数などを用いることができる。活性化関数回路ＡＣＴＶによって変換された信号は、出力データとして配線ＮＩＬ［１］乃至ＮＩＬ［ｎ］に出力される。

＜半導体装置の動作例＞
上記の半導体装置ＭＡＣを用いて、第１のデータと第２のデータの積和演算を行うことができる。以下、積和演算を行う際の半導体装置ＭＡＣの動作例を説明する。

図１６に半導体装置ＭＡＣの動作例のタイミングチャートを示す。図１６には、図１４における配線ＷＬ［１］、配線ＷＬ［２］、配線ＷＤ［１］、配線ＷＤｒｅｆ、ノードＮＭ［１，１］、ノードＮＭ［２，１］、ノードＮＭｒｅｆ［１］、ノードＮＭｒｅｆ［２］、配線ＲＷ［１］、及び配線ＲＷ［２］の電位の推移と、電流Ｉ_Ｂ［１］−Ｉ_α［１］、及び電流Ｉ_Ｂｒｅｆの値の推移を示している。電流Ｉ_Ｂ［１］−Ｉ_α［１］は、配線ＢＬ［１］からメモリセルＭＣ［１，１］、ＭＣ［２，１］に流れる電流の総和に相当する。

なお、ここでは代表例として図１４に示すメモリセルＭＣ［１，１］、ＭＣ［２，１］及びメモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］に着目して動作を説明するが、他のメモリセルＭＣ及びメモリセルＭＣｒｅｆも同様に動作させることができる。

［第１のデータの格納］
まず、時刻Ｔ０１−時刻Ｔ０２の期間において、配線ＷＬ［１］の電位がハイレベル（Ｈｉｇｈ）となり、配線ＷＤ［１］の電位が接地電位（ＧＮＤ）よりもＶ_ＰＲ−Ｖ_{Ｗ［１，１］}大きい電位となり、配線ＷＤｒｅｆの電位が接地電位よりもＶ_ＰＲ大きい電位となる。また、配線ＲＷ［１］、及び配線ＲＷ［２］の電位が基準電位（ＲＥＦＰ）となる。なお、電位Ｖ_{Ｗ［１，１］}はメモリセルＭＣ［１，１］に格納される第１のデータに対応する電位である。また、電位Ｖ_ＰＲは参照データに対応する電位である。これにより、メモリセルＭＣ［１，１］及びメモリセルＭＣｒｅｆ［１］が有するトランジスタＴｒ１１がオン状態となり、ノードＮＭ［１，１］の電位がＶ_ＰＲ−Ｖ_{Ｗ［１，１］}、ノードＮＭｒｅｆ［１］の電位がＶ_ＰＲとなる。

このとき、配線ＢＬ［１］からメモリセルＭＣ［１，１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣ［１，１］，０}は、次の式で表すことができる。ここで、ｋはトランジスタＴｒ１２のチャネル長、チャネル幅、移動度、及びゲート絶縁膜の容量などで決まる定数である。また、Ｖ_ｔｈはトランジスタＴｒ１２のしきい値電圧である。

また、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣｒｅｆ［１］，０}は、次の式で表すことができる。

次に、時刻Ｔ０２−時刻Ｔ０３の期間において、配線ＷＬ［１］の電位がローレベル（Ｌｏｗ）となる。これにより、メモリセルＭＣ［１，１］及びメモリセルＭＣｒｅｆ［１］が有するトランジスタＴｒ１１がオフ状態となり、ノードＮＭ［１，１］及びノードＮＭｒｅｆ［１］の電位が保持される。

なお、前述の通り、トランジスタＴｒ１１としてＯＳトランジスタを用いることが好ましい。これにより、トランジスタＴｒ１１のリーク電流を抑えることができ、ノードＮＭ［１，１］及びノードＮＭｒｅｆ［１］の電位を正確に保持することができる。

次に、時刻Ｔ０３−時刻Ｔ０４の期間において、配線ＷＬ［２］の電位がハイレベルとなり、配線ＷＤ［１］の電位が接地電位よりもＶ_ＰＲ−Ｖ_{Ｗ［２，１］}大きい電位となり、配線ＷＤｒｅｆの電位が接地電位よりもＶ_ＰＲ大きい電位となる。なお、電位Ｖ_{Ｗ［２，１］}はメモリセルＭＣ［２，１］に格納される第１のデータに対応する電位である。これにより、メモリセルＭＣ［２，１］及びメモリセルＭＣｒｅｆ［２］が有するトランジスタＴｒ１１がオン状態となり、ノードＮＭ［２，１］の電位がＶ_ＰＲ−Ｖ_{Ｗ［２，１］}、ノードＮＭｒｅｆ［２］の電位がＶ_ＰＲとなる。

このとき、配線ＢＬ［１］からメモリセルＭＣ［２，１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣ［２，１］，０}は、次の式で表すことができる。

また、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［２］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣｒｅｆ［２］，０}は、次の式で表すことができる。

次に、時刻Ｔ０４−時刻Ｔ０５の期間において、配線ＷＬ［２］の電位がローレベルとなる。これにより、メモリセルＭＣ［２，１］及びメモリセルＭＣｒｅｆ［２］が有するトランジスタＴｒ１１がオフ状態となり、ノードＮＭ［２，１］及びノードＮＭｒｅｆ［２］の電位が保持される。

以上の動作により、メモリセルＭＣ［１，１］、ＭＣ［２，１］に第１のデータが格納され、メモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］に参照データが格納される。

ここで、時刻Ｔ０４−時刻Ｔ０５の期間において、配線ＢＬ［１］及び配線ＢＬｒｅｆに流れる電流を考える。配線ＢＬｒｅｆには、電流源回路ＣＳから電流が供給される。また、配線ＢＬｒｅｆを流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］へ排出される。電流源回路ＣＳから配線ＢＬｒｅｆに供給される電流をＩ_Ｃｒｅｆ、配線ＢＬｒｅｆからカレントミラー回路ＣＭへ排出される電流をＩ_ＣＭ，０とすると、次の式が成り立つ。

配線ＢＬ［１］には、電流源回路ＣＳからの電流が供給される。また、配線ＢＬ［１］を流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣ［１，１］、ＭＣ［２，１］へ排出される。また、配線ＢＬ［１］からオフセット回路ＯＦＳＴに電流が流れる。電流源回路ＣＳから配線ＢＬ［１］に供給される電流をＩ_Ｃ，０、配線ＢＬ［１］からオフセット回路ＯＦＳＴに流れる電流をＩ_α，０とすると、次の式が成り立つ。

［第１のデータと第２のデータの積和演算］
次に、時刻Ｔ０５−時刻Ｔ０６の期間において、配線ＲＷ［１］の電位が基準電位よりもＶ_Ｘ［１］大きい電位となる。このとき、メモリセルＭＣ［１，１］、及びメモリセルＭＣｒｅｆ［１］のそれぞれの容量素子Ｃ１１には電位Ｖ_Ｘ［１］が供給され、容量結合によりトランジスタＴｒ１２のゲートの電位が上昇する。なお、電位Ｖ_Ｘ［１］はメモリセルＭＣ［１，１］及びメモリセルＭＣｒｅｆ［１］に供給される第２のデータに対応する電位である。

トランジスタＴｒ１２のゲートの電位の変化量は、配線ＲＷの電位の変化量に、メモリセルの構成によって決まる容量結合係数を乗じて得た値となる。容量結合係数は、容量素子Ｃ１１の容量、トランジスタＴｒ１２のゲート容量、及び寄生容量などによって算出される。以下では便宜上、配線ＲＷの電位の変化量とトランジスタＴｒ１２のゲートの電位の変化量が同じ、すなわち容量結合係数が１であるとして説明する。実際には、容量結合係数を考慮して電位Ｖ_Ｘを決定すればよい。

メモリセルＭＣ［１，１］及びメモリセルＭＣｒｅｆ［１］の容量素子Ｃ１１に電位Ｖ_Ｘ［１］が供給されると、ノードＮＭ［１，１］及びノードＮＭｒｅｆ［１］の電位がそれぞれＶ_Ｘ［１］上昇する。

ここで、時刻Ｔ０５−時刻Ｔ０６の期間において、配線ＢＬ［１］からメモリセルＭＣ［１，１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣ［１，１］，１}は、次の式で表すことができる。

すなわち、配線ＲＷ［１］に電位Ｖ_Ｘ［１］を供給することにより、配線ＢＬ［１］からメモリセルＭＣ［１，１］のトランジスタＴｒ１２に流れる電流は、ΔＩ_{ＭＣ［１，１］}＝Ｉ_{ＭＣ［１，１］，１}−Ｉ_{ＭＣ［１，１］，０}増加する。

また、時刻Ｔ０５−時刻Ｔ０６の期間において、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣｒｅｆ［１］，１}は、次の式で表すことができる。

すなわち、配線ＲＷ［１］に電位Ｖ_Ｘ［１］を供給することにより、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［１］のトランジスタＴｒ１２に流れる電流は、ΔＩ_{ＭＣｒｅｆ［１］}＝Ｉ_{ＭＣｒｅｆ［１］，１}−Ｉ_{ＭＣｒｅｆ［１］，０}増加する。

また、配線ＢＬ［１］及び配線ＢＬｒｅｆに流れる電流について考える。配線ＢＬｒｅｆには、電流源回路ＣＳから電流Ｉ_Ｃｒｅｆが供給される。また、配線ＢＬｒｅｆを流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］へ排出される。配線ＢＬｒｅｆからカレントミラー回路ＣＭへ排出される電流をＩ_ＣＭ，１とすると、次の式が成り立つ。

配線ＢＬ［１］には、電流源回路ＣＳから電流Ｉ_Ｃが供給される。また、配線ＢＬ［１］を流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣ［１，１］、ＭＣ［２，１］へ排出される。さらに、配線ＢＬ［１］からオフセット回路ＯＦＳＴにも電流が流れる。配線ＢＬ［１］からオフセット回路ＯＦＳＴに流れる電流をＩ_α，１とすると、次の式が成り立つ。

そして、式（Ｅ１）乃至式（Ｅ１０）から、電流Ｉ_α，０と電流Ｉ_α，１の差（差分電流ΔＩ_α）は次の式で表すことができる。

このように、差分電流ΔＩ_αは、電位Ｖ_{Ｗ［１，１］}とＶ_Ｘ［１］の積に応じた値となる。

その後、時刻Ｔ０６−時刻Ｔ０７の期間において、配線ＲＷ［１］の電位は基準電位となり、ノードＮＭ［１，１］及びノードＮＭｒｅｆ［１］の電位は時刻Ｔ０４−時刻Ｔ０５の期間と同様になる。

次に、時刻Ｔ０７−時刻Ｔ０８の期間において、配線ＲＷ［１］の電位が基準電位よりもＶ_Ｘ［１］大きい電位となり、配線ＲＷ［２］の電位が基準電位よりもＶ_Ｘ［２］大きい電位となる。これにより、メモリセルＭＣ［１，１］、及びメモリセルＭＣｒｅｆ［１］のそれぞれの容量素子Ｃ１１に電位Ｖ_Ｘ［１］が供給され、容量結合によりノードＮＭ［１，１］及びノードＮＭｒｅｆ［１］の電位がそれぞれＶ_Ｘ［１］上昇する。また、メモリセルＭＣ［２，１］、及びメモリセルＭＣｒｅｆ［２］のそれぞれの容量素子Ｃ１１に電位Ｖ_Ｘ［２］が供給され、容量結合によりノードＮＭ［２，１］及びノードＮＭｒｅｆ［２］の電位がそれぞれＶ_Ｘ［２］上昇する。

ここで、時刻Ｔ０７−時刻Ｔ０８の期間において、配線ＢＬ［１］からメモリセルＭＣ［２，１］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣ［２，１］，１}は、次の式で表すことができる。

すなわち、配線ＲＷ［２］に電位Ｖ_Ｘ［２］を供給することにより、配線ＢＬ［１］からメモリセルＭＣ［２，１］のトランジスタＴｒ１２に流れる電流は、ΔＩ_{ＭＣ［２，１］}＝Ｉ_{ＭＣ［２，１］，１}−Ｉ_{ＭＣ［２，１］，０}増加する。

また、時刻Ｔ０７−時刻Ｔ０８の期間において、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［２］のトランジスタＴｒ１２に流れる電流Ｉ_{ＭＣｒｅｆ［２］，１}は、次の式で表すことができる。

すなわち、配線ＲＷ［２］に電位Ｖ_Ｘ［２］を供給することにより、配線ＢＬｒｅｆからメモリセルＭＣｒｅｆ［２］のトランジスタＴｒ１２に流れる電流は、ΔＩ_{ＭＣｒｅｆ［２］}＝Ｉ_{ＭＣｒｅｆ［２］，１}−Ｉ_{ＭＣｒｅｆ［２］，０}増加する。

また、配線ＢＬ［１］及び配線ＢＬｒｅｆに流れる電流について考える。配線ＢＬｒｅｆには、電流源回路ＣＳから電流Ｉ_Ｃｒｅｆが供給される。また、配線ＢＬｒｅｆを流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］へ排出される。配線ＢＬｒｅｆからカレントミラー回路ＣＭへ排出される電流をＩ_ＣＭ，２とすると、次の式が成り立つ。

配線ＢＬ［１］には、電流源回路ＣＳから電流Ｉ_Ｃが供給される。また、配線ＢＬ［１］を流れる電流は、カレントミラー回路ＣＭ、メモリセルＭＣ［１，１］、ＭＣ［２，１］へ排出される。さらに、配線ＢＬ［１］からオフセット回路ＯＦＳＴにも電流が流れる。配線ＢＬ［１］からオフセット回路ＯＦＳＴに流れる電流をＩ_α，２とすると、次の式が成り立つ。

そして、式（Ｅ１）乃至式（Ｅ８）、及び、式（Ｅ１２）乃至式（Ｅ１５）から、電流Ｉ_α，０と電流Ｉ_α，２の差（差分電流ΔＩ_α）は次の式で表すことができる。

このように、差分電流ΔＩ_αは、電位Ｖ_{Ｗ［１，１］}と電位Ｖ_Ｘ［１］の積と、電位Ｖ_{Ｗ［２，１］}と電位Ｖ_Ｘ［２］の積と、を足し合わせた結果に応じた値となる。

その後、時刻Ｔ０８−時刻Ｔ０９の期間において、配線ＲＷ［１］、［２］の電位は基準電位となり、ノードＮＭ［１，１］、ＮＭ［２，１］及びノードＮＭｒｅｆ［１］、ＮＭｒｅｆ［２］の電位は時刻Ｔ０４−時刻Ｔ０５の期間と同様になる。

式（Ｅ１１）及び式（Ｅ１６）に示されるように、オフセット回路ＯＦＳＴに入力される差分電流ΔＩ_αは、第１のデータ（重み）に対応する電位Ｖ_Ｗと、第２のデータ（入力データ）に対応する電位Ｖ_Ｘの積の項を有する式から算出することができる。すなわち、差分電流ΔＩ_αをオフセット回路ＯＦＳＴで計測することにより、第１のデータと第２のデータの積和演算の結果を得ることができる。

なお、上記では特にメモリセルＭＣ［１，１］、ＭＣ［２，１］及びメモリセルＭＣｒｅｆ［１］、ＭＣｒｅｆ［２］に着目したが、メモリセルＭＣ及びメモリセルＭＣｒｅｆの数は任意に設定することができる。メモリセルＭＣ及びメモリセルＭＣｒｅｆの行数ｍを任意の数ｉとした場合の差分電流ΔＩαは、次の式で表すことができる。

また、メモリセルＭＣ及びメモリセルＭＣｒｅｆの列数ｎを増やすことにより、並列して実行される積和演算の数を増やすことができる。

以上のように、半導体装置ＭＡＣを用いることにより、第１のデータと第２のデータの積和演算を行うことができる。なお、メモリセルＭＣ及びメモリセルＭＣｒｅｆとして図１４に示す構成を用いることにより、少ないトランジスタ数で積和演算回路を構成することができる。そのため、半導体装置ＭＡＣの回路規模の縮小を図ることができる。

半導体装置ＭＡＣをニューラルネットワークにおける演算に用いる場合、メモリセルＭＣの行数ｍは一のニューロンに供給される入力データの数に対応させ、メモリセルＭＣの列数ｎはニューロンの数に対応させることができる。例えば、図１２（Ａ）に示す中間層ＨＬにおいて半導体装置ＭＡＣを用いた積和演算を行う場合を考える。このとき、メモリセルＭＣの行数ｍは、入力層ＩＬから供給される入力データの数（入力層ＩＬのニューロンの数）に設定し、メモリセルＭＣの列数ｎは、中間層ＨＬのニューロンの数に設定することができる。

なお、半導体装置ＭＡＣを適用するニューラルネットワークの構造は特に限定されない。例えば半導体装置ＭＡＣは、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、オートエンコーダ、ボルツマンマシン（制限ボルツマンマシンを含む）などに用いることもできる。

以上のように、半導体装置ＭＡＣを用いることにより、ニューラルネットワークの積和演算を行うことができる。さらに、セルアレイＣＡに図１４に示すメモリセルＭＣ及びメモリセルＭＣｒｅｆを用いることにより、演算精度の向上、消費電力の削減、または回路規模の縮小を図ることが可能な集積回路を提供することができる。

本実施の形態は、他の実施の形態と適宜組み合わせることができる。

ＡＤ：文章解析データ、ＡＤ_ｒｅｆ：参照用文章解析データ、Ｃ１１：容量素子、Ｃ２１：容量素子、ＩＤ：ＩＤＦデータ、ＫＤ：キーワードデータ、ＫＷ：キーワード、ＫＷ_１：キーワード、ＫＷ_２：キーワード、ＫＷ_ｘ：キーワード、ＬＤ：ランキングデータ、ＮＮ：ニューラルネットワーク、Ｒ１：抵抗素子、ＲＤ：関連語データ、ＲＳ：関連度、ＲＷ：関連語、ＲＷ_ｘ１：関連語、ＲＷ_ｘ２：関連語、ＲＷ_ｘｙ：関連語、ＴＤ：文章データ、ＴＤ_ｒｅｆ：参照用文章データ、Ｔｒ１１：トランジスタ、Ｔｒ１２：トランジスタ、Ｔｒ２１：トランジスタ、Ｔｒ２２：トランジスタ、Ｔｒ２３：トランジスタ、ＶＤ：ベクトルデータ、１００：文書検索システム、１０１：入力部、１０２：伝送路、１０３：処理部、１０５：記憶部、１０７：データベース、１０９：出力部、１５０：文書検索システム、１５１：サーバ、１５２：端末、１６１ａ：通信部、１６１ｂ：通信部、１６２：伝送路、１６３ａ：処理部、１６３ｂ：処理部、１６５：記憶部、１６７：データベース、１６８：伝送路、１６９：入出力部

Claims

　処理部を有し、
　前記処理部は、
　文章データに含まれるキーワードを抽出する機能と、
　複数の第１の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出する機能と、
　前記キーワード及び前記関連語のそれぞれに対して、重みを付与する機能と、
　複数の第２の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与する機能と、
　前記点数に基づいて前記複数の第２の参照用文章解析データを順位づけすることで、ランキングデータを生成する機能と、
　前記ランキングデータを出力する機能と、を有する、文書検索システム。
　処理部を有し、
　前記処理部は、
　文章データに含まれるキーワードを抽出する機能と、
　複数の第１の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出する機能と、
　前記キーワード及び前記関連語のそれぞれに対して、重みを付与する機能と、
　複数の第２の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与する機能と、
　前記点数に基づいて前記複数の第２の参照用文章解析データを順位づけすることで、ランキングデータを生成する機能と、
　前記ランキングデータを出力する機能と、を有し、
　前記キーワードの前記重みは、前記キーワードの、前記複数の第１の参照用文章解析データまたは前記複数の第２の参照用文章解析データにおける逆文書頻度に基づいた値であり、
　前記関連語の前記重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記重みと、の積である、文書検索システム。
　請求項１または２において、
　前記キーワードまたは前記関連語と一致する単語を有する前記第２の参照用文章解析データに対して、前記点数を付与する、文書検索システム。
　請求項１乃至３のいずれか一において、
　前記複数の第１の参照用文章解析データは、前記複数の第２の参照用文章解析データと同一である、文書検索システム。
　請求項１乃至４のいずれか一において、
　前記関連語は、前記複数の第１の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出する、文書検索システム。
　請求項１乃至５のいずれか一において、
　前記関連語は、前記複数の第１の参照用文章解析データに含まれる単語の中から、前記単語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出する、文書検索システム。
　請求項６において、
　前記単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索システム。
　請求項１乃至７のいずれか一において、
　前記文章データに含まれるキーワードを抽出する機能として、前記文章データの形態素解析を行うことで解析データを生成する機能と、前記解析データから前記キーワードを抽出する機能と、を有し、
　前記キーワードは、前記解析データに含まれる単語の中から、前記複数の第１の参照用文章解析データまたは前記複数の第２の参照用文章解析データにおける逆文書頻度の高さに基づいて抽出する、文書検索システム。
　請求項１乃至８のいずれか一において、
　前記重みは、ユーザが変更することが可能である、文書検索システム。
　請求項１乃至９のいずれか一において、
　前記第１の参照用文章解析データは、第１の参照用文章データの形態素解析を行うことで生成されたデータであり、
　前記第２の参照用文章解析データは、第２の参照用文章データの形態素解析を行うことで生成されたデータである、文書検索システム。
　請求項１乃至１０のいずれか一において、
　電子機器と、サーバと、を有し、
　前記電子機器は、第１の通信部を有し、
　前記サーバは、前記処理部と、第２の通信部と、を有し、
　前記第１の通信部は、有線通信及び無線通信のうち一方または双方により、前記サーバに前記文章データを供給する機能を有し、
　前記処理部は、前記ランキングデータを前記第２の通信部に供給する機能を有し、
　前記第２の通信部は、有線通信及び無線通信のうち一方または双方により、前記電子機器に前記ランキングデータを供給する機能を有する、文書検索システム。
　請求項１乃至１１のいずれか一において、
　前記処理部は、トランジスタを有し、
　前記トランジスタは、チャネル形成領域に金属酸化物を有する、文書検索システム。
　請求項１乃至１１のいずれか一において、
　前記処理部は、トランジスタを有し、
　前記トランジスタは、チャネル形成領域にシリコンを有する、文書検索システム。
　文章データに含まれるキーワードを抽出し、
　複数の第１の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出し、
　前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
　複数の第２の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
　前記点数に基づいて前記複数の第２の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
　前記ランキングデータを出力する、文書検索方法。
　請求項１４において、
　前記キーワードまたは前記関連語と一致する単語を有する前記第２の参照用文章解析データに対して、前記点数を付与する、文書検索方法。
　請求項１４または１５において、
　前記キーワードの前記重みは、前記キーワードの、前記複数の第１の参照用文章解析データまたは前記複数の第２の参照用文章解析データにおける逆文書頻度に基づいた値であり、
　前記関連語の前記重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記重みと、の積である、文書検索方法。
　請求項１４乃至１６のいずれか一において、
　前記複数の第１の参照用文章解析データは、前記複数の第２の参照用文章解析データと同一である、文書検索方法。
　請求項１４乃至１７のいずれか一において、
　前記関連語は、前記複数の第１の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出する、文書検索方法。
　請求項１４乃至１８のいずれか一において、
　前記関連語は、前記複数の第１の参照用文章解析データに含まれる単語の中から、前記単語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出する、文書検索方法。
　請求項１９において、
　前記単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索方法。
　請求項１４乃至２０のいずれか一において、
　前記文章データの形態素解析を行うことで解析データを生成し、前記解析データに含まれる単語の中から、前記複数の第１の参照用文章解析データまたは前記複数の第２の参照用文章解析データにおける逆文書頻度の高さに基づいて前記キーワードを抽出することで、前記文章データに含まれる前記キーワードを抽出する、文書検索方法。
　請求項１４乃至２１のいずれか一において、
　前記第１の参照用文章解析データは、第１の参照用文章データの形態素解析を行うことで生成されたデータであり、
　前記第２の参照用文章解析データは、第２の参照用文章データの形態素解析を行うことで生成されたデータである、文書検索方法。
　文章データに含まれるキーワードを抽出する第１のステップと、
　複数の第１の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出する第２のステップと、
　前記キーワード及び前記関連語のそれぞれに対して重みを付与する第３のステップと、
　複数の第２の参照用文章解析データのそれぞれに対して、前記第２の参照用文章解析データに含まれる単語と一致した前記キーワードまたは前記関連語の前記重みに基づいて点数を付与する第４のステップと、
　前記点数に基づいて前記複数の第２の参照用文章解析データを順位づけすることでランキングデータを生成する第５のステップと、をプロセッサに実行させるプログラム。
　請求項２３に記載のプログラムが記憶された非一時的コンピュータ可読記憶媒体。