JPWO2019082362A1 - 単語意味関係推定装置および単語意味関係推定方法 - Google Patents

単語意味関係推定装置および単語意味関係推定方法 Download PDF

Info

Publication number
JPWO2019082362A1
JPWO2019082362A1 JP2019549790A JP2019549790A JPWO2019082362A1 JP WO2019082362 A1 JPWO2019082362 A1 JP WO2019082362A1 JP 2019549790 A JP2019549790 A JP 2019549790A JP 2019549790 A JP2019549790 A JP 2019549790A JP WO2019082362 A1 JPWO2019082362 A1 JP WO2019082362A1
Authority
JP
Japan
Prior art keywords
word
unit
vector
character
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019549790A
Other languages
English (en)
Other versions
JP6678834B2 (ja
Inventor
隼人 内出
隼人 内出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2019082362A1 publication Critical patent/JPWO2019082362A1/ja
Application granted granted Critical
Publication of JP6678834B2 publication Critical patent/JP6678834B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

入力された単語ペアを構成する各単語を、データベースから検索する単語検索部(101)と、検索された各単語に対応する単語ベクトルを、単語ベクトルデータベース(103)から抽出する単語ベクトル抽出部(102)と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部(104)と、抽出された各単語の単語ベクトルと、変換された文字ベクトルとを結合して特徴量を取得する特徴量取得部(105)と、取得された特徴量から各単語間の意味関係を推定する推定部(106)とを備える

Description

この発明は、単語間の意味的な関係を推定する技術に関するものである。
近年、パソコンおよびインターネットの普及により、ユーザがアクセス可能な電子化文書の量が増大している。大規模な文書情報の中から、ユーザの所望する文書を効率的に発見するための技術が求められている。文書検索技術に代表される、自然言語を扱う技術では、言語の曖昧性、すなわち多義性または同義性を適切に扱うことが求められる。多義性は、同一の単語に対して複数の意味が存在することであり、ノイズの原因となる。一方、同義性は、同一の意味を持つ単語が複数存在することであり、漏れの原因、すなわち情報の見落としの原因となる。
上位下位関係等を考慮して単語を分類したシソーラスは、文書における言語表現の揺れを吸収し、多義性または同義性の問題を解決するための言語資源であり、各種の言語処理アプリケーションで使用される。一方、シソーラスを人手によって作成するためにはコストがかかることから、従来より、テキストデータから自動でシソーラスを作成することが試みられている。非特許文献1では、既存のシソーラスを正解として用いて、単語間の意味関係を推定する統計モデルの学習方式が提案されている。
また、非特許文献1では、2つの単語(以下、単語ペアと記載する)間の上位下位同位関係のような意味関係を推定する統計モデルの学習に用いる特徴量として、単語を多次元の数値ベクトルに変換した単語ベクトルを利用することが開示されている。ここで、単語ベクトルに変換する技術は、例えば非特許文献2に開示された、文脈を考慮して文中の単語の位置関係を利用することにより、単語の意味を表す密な多次元の数値ベクトルに変換する方式が適用されている。単語ベクトルに変換する技術として、非特許文献2に開示された方式を適用した場合、対義語のように、類似した文脈で出現する意味の異なる単語が、類似する単語ベクトルに変換され、対義語となり得る単語を含む単語ペアについて、正しい意味関係が推定されない場合があるという問題があった。
この問題を解消するための技術として、特許文献1には、テキスト中の任意の単語ペアについて、文脈ベース類似度、表記ベース類似度およびパターンベース類似度を計算し、計算した複数種類の類似度を要素する素性ベクトルを生成して単語間の意味関係を識別する単語意味関係抽出装置が開示されている。
WO2014/033799
Julie Weeds et al., "Learning to Distinguish Hypernyms and Co-Hyponyms", COLING, 2014. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, "Efficient Estimation of Word Representations in Vector Space", ICLR 2013.
しかし、上述した特許文献1に開示された技術では、類似度を算出する方法がスパースであり、当該類似度を要素とする素性ベクトルが有効な特徴量となり得ない場合があるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、単語間の意味関係を識別する有効な特徴量を取得し、対義語となり得る2つの単語間の意味関係を推定する精度を向上させることを目的とする。
この発明に係る単語意味関係推定装置は、入力された単語ペアを構成する各単語を、データベースから検索する単語検索部と、単語検索部が検索した各単語に対応する単語ベクトルを、データベースから抽出する単語ベクトル抽出部と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部と、単語ベクトル抽出部が抽出した各単語の単語ベクトルと、文字ベクトル変換部が変換した文字ベクトルとを結合して特徴量を取得する特徴量取得部と、特徴量取得部が取得した特徴量から各単語間の意味関係を推定する推定部とを備えるものである。
この発明によれば、単語間の意味関係を識別する有効な特徴量を取得することができる。これにより、対義語となり得る2つの単語間の意味関係を推定する精度を向上させることができる。
実施の形態1に係る単語意味関係推定装置の構成を示すブロック図である。 図2A、図2Bは、実施の形態1に係る単語意味関係推定装置のハードウェア構成例を示す図である。 実施の形態1に係る単語意味関係推定装置の動作を示すフローチャートである。 実施の形態2に係る単語意味関係推定装置の構成を示すブロック図である。 実施の形態2に係る単語意味関係推定装置の動作を示すフローチャートである。 実施の形態3に係る単語意味関係推定装置の構成を示すブロック図である。 実施の形態3に係る単語意味関係推定装置の動作を示すフローチャートである。 シソーラスに登録された単語の上位下位関係を示した図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る単語意味関係推定装置100の構成を示すブロック図である。
単語意味関係推定装置100は、単語検索部101、単語ベクトル抽出部102、単語ベクトルデータベース(データベース)103、文字ベクトル変換部104、特徴量取得部105および推定部106を備える。
また、単語意味関係推定装置100には、入力装置200および表示装置300が接続されている。入力装置200は、例えばマウスまたはキーボートで構成される。表示装置300は、例えばディスプレイで構成される。
単語検索部101は、入力装置200から入力された対義語となり得る2つの単語(以下、単語ペアと記載する)を構成する各単語を、単語ベクトルデータベース103から検索する。単語検索部101は、検索結果を単語ベクトル抽出部102に出力する。単語ベクトル抽出部102は、単語ベクトルデータベース103から、単語検索部101が検索した各単語に対応する単語ベクトルを抽出する。単語ベクトル抽出部102は、抽出した単語ベクトルを特徴量取得部105に出力する。単語ベクトルデータベース103は、WEB上のテキストデータ等を用いて作成されるデータベースである。単語ベクトルデータベース103の作成には、上述した非特許文献2で開示されている公知の技術を利用することができる。単語ベクトルデータベース103は、種々の単語と、当該単語に対応する単語ベクトルとを対応付けて構成している。単語ベクトルデータベース103は、外部装置が備えて構成してもよい。
文字ベクトル変換部104は、入力装置200から入力された単語ペアを構成する文字について、多次元のベクトルに変換して文字ベクトルを取得する。文字ベクトル変換部104は、取得した文字ベクトルを特徴量取得部105に出力する。文字ベクトルの生成方法には、非特許文献2で開示されている公知の技術を利用することができる。文字ベクトル変換部104は、文字と文字ベクトルとを対応付けて記憶した文字ベクトルデータベース(図示しない)を参照してもよいし、後述する機械学習アルゴリズムを用いて構築する推定器の学習時に文字ベクトルを学習してもよい。
特徴量取得部105は、単語ベクトル抽出部102が抽出した2つの単語の単語ベクトルと、文字ベクトル変換部104が変換した文字ベクトルとを結合する。例えば、特徴量取得部105は、単語ベクトル(100次元)と、文字ベクトル(50次元)とを結合すると、150次元のベクトルが作成される。特徴量取得部105は、単語ベクトルと文字ベクトルとを結合することにより、単語ベクトルに文字の意味を表す文字ベクトルを追加した特徴量を作成する。特徴量取得部105が単語ベクトルに文字ベクトルを追加した特徴量を作成することにより、単語ベクトルのみでは違いを判別し難い対義語となり得る単語を含む単語ペアについて文字ベクトルから意味の違いが判別可能となる。
例えば、「安定」と「不安定」との単語は、類似する文脈で用いられる単語である。そのため、例えば非特許文献2で開示された方式を適用して、「安定」および「不安定」との単語を単語ベクトルに変換すると、当該2つの単語は類似した単語ベクトルに変換され、単語ベクトルから2つの単語の意味の違いを判別することが難しい。
一方、この実施の形態1では、特徴量取得部105が2つの単語の単語ベクトルと、文字ベクトルとを結合することにより、2つの単語間の「不」の文字ベクトルが差異として確認され、文字ベクトルから2つの単語の意味の違いを判別することができる。特徴量取得部105は、結合によって得られた特徴量を推定部106に出力する。
推定部106は、特徴量取得部105から入力された特徴量を推定器に入力し、単語ペアの意味関係を推定する。ここで、推定器は、WordNet等の単語間の意味関係を明示したシソーラスを教師データとして教師あり学習により構築する。具体的には、推定部106は入力された単語ペアについて上位下位同位関係ラベルを「1」と推定し、それ以外を「0」と推定する2値分類器を構築する。このとき、上位関係ラベル、下位関係ラベル、同位関係ラベルのように、多クラス分類器としてもよい。推定器の学習方法は、任意の方法を適用することができる。例えば、以下に示す参考文献1に開示されている、One versus Rest(One-against-the-Rest)法を適用することができる。
・参考文献1
J. Weston and C. Watkins, "Multi-class support vector machines", Royal Holloway Technical Report CSD-TR-98-04, 1998.
なお、図1では、単語意味関係推定装置100が単語ベクトルデータベース103を備える構成を示したが、当該構成に限定されるものではない。単語意味関係推定装置100は、単語ベクトルデータベース103に替えて、クラウド上に存在する記憶装置(図示しない)に、通信インタフェース(図示しない)を介して単語検索部101または単語ベクトル抽出部102がアクセスするように構成してもよい。
次に、単語意味関係推定装置100のハードウェア構成例を説明する。
図2Aおよび図2Bは、実施に形態1に係る単語意味関係推定装置100のハードウェア構成例を示す図である。
単語意味関係推定装置100における単語ベクトルデータベース103は、ストレージ100aにより実現される。単語意味関係推定装置100における単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能は、処理回路により実現される。即ち、単語意味関係推定装置100は、上記各機能を実現するための処理回路を備える。当該処理回路は、図2Aに示すように専用のハードウェアである処理回路100bであってもよいし、図2Bに示すようにメモリ100dに格納されているプログラムを実行するプロセッサ100cであってもよい。
図2Aに示すように、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106が専用のハードウェアである場合、処理回路100bは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-programmable Gate Array)、またはこれらを組み合わせたものが該当する。単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各部の機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて1つの処理回路で実現してもよい。
図2Bに示すように、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106がプロセッサ100cである場合、各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ100dに格納される。プロセッサ100cは、メモリ100dに記憶されたプログラムを読み出して実行することにより、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能を実現する。即ち、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106は、プロセッサ100cにより実行されるときに、後述する図3に示す各ステップが結果的に実行されることになるプログラムを格納するためのメモリ100dを備える。また、これらのプログラムは、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の手順または方法をコンピュータに実行させるものであるともいえる。
ここで、プロセッサ100cとは、例えば、CPU(Central Processing Unit)、処理装置、演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ、またはDSP(Digital Signal Processor)などのことである。
メモリ100dは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスクであってもよい。
なお、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、単語意味関係推定装置100における処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
次に、単語意味関係推定装置100の動作について説明する。
図3は、実施の形態1に係る単語意味関係推定装置100の動作を示すフローチャートである。
入力装置200から単語ペアが入力されると(ステップST1)、単語検索部101は、入力された単語ペアを構成する各単語を、単語ベクトルデータベース103から検索する(ステップST2)。単語検索部101は、各単語について、ステップST2の検索結果が一件以上存在するか否か判定を行う(ステップST3)。ステップST3の判定処理は、例えば単語ペアが第1の単語と第2の単語とで構成されていた場合に、第1の単語について検索結果が一件以上存在し、且つ第2の単語について検索結果が一件以上存在したか否かの判定を行うものである。検索結果が一件以上存在しない場合(ステップST3;NO)、単語検索部101は処理を終了する。
一方、検索結果が一件以上存在する場合(ステップST3;YES)、単語検索部101は検索結果を単語ベクトル抽出部102に出力する(ステップST4)。ステップST4の処理は、例えば、第1の単語について検索結果が一件以上存在し、且つ第2の単語について検索結果が一件以上存在した場合に、第1の単語の検索結果と、第2の単語の検索結果とを、単語ベクトル抽出部102に出力する。単語ベクトル抽出部102は、ステップST4で入力された検索結果の単語に対応する単語ベクトルを、単語ベクトルデータベース103から抽出する(ステップST5)。単語ベクトル抽出部102は、ステップST5で抽出した単語ベクトルを、特徴量取得部105に出力する。
文字ベクトル変換部104は、ステップST1で入力された単語ペアを構成する単語を文字単位に分割し、文字ベクトルに変換する(ステップST6)。文字ベクトル変換部104は、変換した文字ベクトルを特徴量取得部105に出力する。
特徴量取得部105は、ステップST5で抽出された単語ベクトルと、ステップST6で変換された文字ベクトルとを結合して特徴量を取得する(ステップST7)。特徴量取得部105は、ステップST7で取得した特徴量を推定部106に出力する。推定部106は、予め構築した単語意味推定器を用いて、特徴量取得部105から入力された特徴量から単語間の意味関係を推定する(ステップST8)。推定部106は、ステップST8で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
以上のように、この実施の形態1によれば、入力された単語ペアを構成する各単語を、単語ベクトルデータベース103から検索する単語検索部101と、検索された各単語に対応する単語ベクトルを、単語ベクトルデータベース103から抽出する単語ベクトル抽出部102と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部104と、抽出された各単語の単語ベクトルと、変換された文字ベクトルとを結合して特徴量を取得する特徴量取得部105と、取得された特徴量から各単語間の意味関係を推定する推定部106とを備えるように構成したので、単語の意味を表す単語ベクトルに加え、文字の意味を表す文字ベクトルを特徴量とし、単語間の意味関係を推定することができる。これにより、意味関係の推定が単語ベクトルのみでは困難な対義語となる得る2つの単語間の意味関係を精度よく推定することができる。
実施の形態2.
この実施の形態2では、未知語を含む単語ペアから、単語間の意味関係を推定する構成を示す。
図4は、実施の形態2に係る単語意味関係推定装置100Aの構成を示すブロック図である。
単語意味関係推定装置100Aは、図1で示した実施の形態1の単語意味関係推定装置100に、推定器切替部107を追加して構成している。また、図1で示した実施の形態1の単語意味関係推定装置100の特徴量取得部105および推定部106に替えて、特徴量取得部105aおよび推定部106aを設けて構成している。
以下では、実施の形態1に係る単語意味関係推定装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
入力装置200に入力された単語ペアには、単語ベクトルデータベース103に存在しない単語、すなわち未知語が含まれる場合がある。実施の形態1で示した単語意味関係推定装置100は、単語ペアに未知語が含まれる場合、当該未知語の単語ベクトルが抽出されないため、単語間の意味関係を推定することができない。そこで、この実施の形態2の単語意味関係推定装置100Aは、単語ペアに未知語が含まれる場合に、推定器切替部107が推定部106aにおいて推定に用いられる推定器の切り替えを行う。
まず、単語検索部101は、実施の形態1と同様に単語ペアを構成する各単語を単語ベクトルデータベース103から検索する。単語検索部101は、各単語について検索結果が一件以上存在するか否か判定を行う。単語検索部101は、判定結果を推定器切替部107に出力する。また、単語検索部101は、各単語について検索結果が一件以上存在したと判定した場合には、単語ベクトル抽出部102に検索結果を出力する。
推定器切替部107は、単語検索部101の判定結果に応じて、単語ベクトルおよび文字ベクトルを特徴量とする第1の推定器と、文字ベクトルのみを特徴量とする第2の推定器とのいずれを、推定部106aに適用するか決定する。すなわち、推定器切替部107は、単語検索部101から検索結果が一件以上存在したとの判定結果が入力された場合には、第1の推定器を適用すると決定し、検索結果が一件以上存在しなかったとの判定結果が入力された場合には、第2の推定器を適用すると決定する。推定器切替部107は、決定した推定器の適用を、推定部106aに指示する。
特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力された場合には、当該単語ベクトルと、文字ベクトル変換部104で変換された文字ベクトルとを結合して特徴量を取得する。一方、特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力されない場合には、文字ベクトル変換部104で変換された文字ベクトルを特徴量として取得する。
推定部106aは、推定器切替部107から入力された推定器の切り替え指示に基づいて、第1の推定器と第2の推定器との切り替えを行う。推定部106aは、第1の推定器に切り替えた場合、当該第1の推定器を用いて、特徴量取得部105から入力された単語ベクトルと文字ベクトルとを結合して得られた特徴量から単語間の意味関係を推定する。また、推定部106aは、第2の推定器に切り替えた場合、当該第2の推定器を用いて、特徴量取得部105から入力された文字ベクトルの特徴量から単語間の意味関係を推定する。
次に、単語意味関係推定装置100Aのハードウェア構成例を説明する。なお、実施の形態1と同一の構成の説明は省略する。
単語意味関係推定装置100Aにおける推定器切替部107、特徴量取得部105aおよび推定部106aは、図2Aで示した処理回路100b、または図2Bで示したメモリ100dに格納されるプログラムを実行するプロセッサ100cである。
次に、単語意味関係推定装置100Aの動作について、図5のフローチャートを参照しながら説明する。
図5は、実施の形態2に係る発明の単語意味関係推定装置100Aの動作を示すフローチャートである。
以下では、実施の形態1に係る発明の単語意味関係推定装置100と同一のステップには、図3で示した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST3において、単語検索部101が、検索結果が一件以上存在すると判定した場合(ステップST3;YES)、推定器切替部107は当該判定結果に基づいて、推定部106aに第1の推定器の適用を決定する(ステップST11)。推定器切替部107は、第1の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107からの指示に基づいて、推定部106aの切り替えを行う(ステップST12)。その後、単語意味関係推定装置100Aは、ステップST4からステップST7の処理を行う。
一方、ステップST3において、単語検索部101が、検索結果が一件以上存在しないと判定した場合(ステップST3;NO)、推定器切替部107は当該判定結果に基づいて、推定部106aに第2の推定器の適用を決定する(ステップST13)。推定器切替部107は、第2の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107からの指示に基づいて、推定部106aの切り替えを行う(ステップST14)。
文字ベクトル変換部104は、ステップST1で入力された単語ペアを構成する各単語を文字単位に分割し、文字ベクトルに変換する(ステップST15)。文字ベクトル変換部104は、変換した文字ベクトルを特徴量取得部105に出力する。特徴量取得部105は、ステップST15で変換された文字ベクトルを特徴量として取得する(ステップST16)。特徴量取得部105は、取得した特徴量を推定部106aに出力する。
推定部106aは、ステップST12またはステップST14で切り替えた推定器を用いて、ステップST7またはステップST16において取得された特徴量から単語間の意味関係を推定する(ステップST17)。推定部106aは、ステップST17で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
以上のように、この実施の形態2によれば、単語検索部101が各単語を単語ベクトルデータベース103から検索したか否かに基づいて、単語ベクトルと文字ベクトルとを特徴量として各単語間の意味関係を推定する第1の推定器と、文字ベクトルのみを特徴量として各単語間の意味関係を推定する第2の推定器とを切り替える推定器切替部107を備え、特徴量取得部105aは、単語検索部101が各単語を単語ベクトルデータベース103から検索した場合に、単語ベクトルと文字ベクトルとを結合した特徴量を取得し、各単語を単語ベクトルデータベースから検索できなかった場合に、文字ベクトルを特徴量として取得し、推定部106aは、推定器切替部107の切り替えに応じて第1の推定器または第2の推定器を適用し、特徴量取得部105aが取得した特徴量から各単語間の意味関係を推定するように構成したので、入力された単語ペアに未知語が含まれていた場合にも、推定器の切り替えにより単語間の意味関係を推定することができる。
実施の形態3.
この実施の形態3では、入力された単語ペアに未知語が含まれていた場合に、当該未知語を構成する文字列に部分一致する単語を検索し、単語間の意味関係を推定する構成を示す。
図6は、実施の形態3に係る単語意味関係推定装置100Bの構成を示すブロック図である。
単語意味関係推定装置100Bは、図4で示した実施の形態2の単語意味関係推定装置100Aに、追加検索部108を追加して構成している。また、図4で示した実施の形態2の単語意味関係推定装置100Aの推定器切替部107に替えて、推定器切替部107aを設けて構成している。
以下では、実施の形態2に係る単語意味関係推定装置100Aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
入力装置200に入力された単語ペアには、単語ベクトルデータベース103に存在しない単語、すなわち未知語が含まれる場合がある。実施の形態2で示した単語意味関係推定装置100Aは、単語ペアに未知語が含まれる場合、推定部106aの推定器の切り替えを行い、文字ベクトルを特徴量として単語間の意味関係を推定した。一方、この実施の形態3の単語意味関係推定装置100Bは、単語ペアに未知語が含まれる場合に、さらに追加検索部108が未知語を構成する文字列に部分一致する単語を、単語ベクトルデータベース103から検索する。
まず、単語検索部101は、実施の形態1と同様に単語ペアを構成する各単語を単語ベクトルデータベース103から検索する。単語検索部101は、検索結果が一件以上存在すると判定した場合に、その旨を推定器切替部107aに通知し、単語ベクトル抽出部102に検索結果を出力する。一方、単語検索部101は、検索結果が一件以上存在しないと判定した場合に、追加検索部108に単語ペアを構成する各単語を出力する。
追加検索部108は、単語検索部101から入力された各単語から部分単語を取得する。追加検索部108は、取得した部分単語を単語ベクトルデータベース103から検索する。追加検索部108は、検索結果が一件以上存在するか否かの判定結果を推定器切替部107aに出力する。また、追加検索部108は、検索結果が一件以上存在したと判定した場合には、単語ベクトル抽出部102に検索結果を出力する。
推定器切替部107aは、単語検索部101から入力された検索結果および追加検索部108から入力された検索結果に応じて、単語ベクトルおよび文字ベクトルを特徴量とする第1の推定器と、文字ベクトルのみを特徴量とする第2の推定器とのいずれを推定部106aに適用するか決定する。すなわち、推定器切替部107aは、単語検索部101から入力された検索結果を参照し、検索結果が一件以上存在した場合、および追加検索部108から入力された検索結果を参照し、検索結果が一件以上存在した場合、第1の推定器を適用すると決定する、一方、推定器切替部107aは、単語検索部101から入力された検索結果を参照し、検索結果が一件以上存在しない、且つ追加検索部108から入力された検索結果を参照し、検索結果が一件以上存在しない場合、第2の推定器を適用すると決定する。推定器切替部107aは、決定した推定器の適用を、推定部106aに指示する。
単語ベクトル抽出部102は、単語ベクトルデータベース103から、単語検索部101において検索された単語、または追加検索部108において検索された部分単語に対応する単語ベクトルを抽出する。単語ベクトル抽出部102は、抽出した単語ベクトルを特徴量取得部105aに出力する。
特徴量取得部105aは、実施の形態2と同様に、単語ベクトル抽出部102から単語ベクトルが入力された場合には、当該単語ベクトルと、文字ベクトル変換部104で変換された文字ベクトルとを結合して特徴量を取得する。一方、特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力されない場合には、文字ベクトル変換部104で変換された文字ベクトルを特徴量として取得する。
推定部106aは、実施の形態2と同様に、推定器切替部107aから入力された推定器の切り替え指示に基づいて、第1の推定器と第2の推定器との切り替えを行う。推定部106aは、第1の推定器に切り替えた場合、当該第1の推定器を用いて、特徴量取得部105から入力された単語ベクトルと文字ベクトルとを結合して得られた特徴量から単語間の意味関係を推定する。また、推定部106aは、第2の推定器に切り替えた場合、当該第2の推定器を用いて、特徴量取得部105から入力された文字ベクトルの特徴量から単語間の意味関係を推定する。
次に、単語意味関係推定装置100Bのハードウェア構成例を説明する。なお、実施の形態1と同一の構成の説明は省略する。
単語意味関係推定装置100Bにおける推定器切替部107a、特徴量取得部105a、推定部106aおよび追加検索部108は、図2Aで示した処理回路100b、または図2Bで示したメモリ100dに格納されるプログラムを実行するプロセッサ100cである。
次に、追加検索部108の処理を、具体例を挙げて説明する。
追加検索部108が、単語ベクトルデータベース103に登録されていない「瞬冷凍」という単語について、単語ベクトルデータベース103を検索する場合を例に説明する。追加検索部108は、「瞬冷凍」について、例えば2文字単位の部分単語を取得する。追加検索部108は、「瞬冷凍」を構成する文字列「瞬冷」および「冷凍」を部分単語として取得する。追加検索部108は、「瞬冷」および「冷凍」との部分単語を、単語ベクトルデータベース103から検索する。ここでは、単語ベクトルデータベース103に「冷凍」が登録されているものとする。追加検索部108は、単語ベクトルデータベース103を参照し、「冷凍」の部分単語を検索結果として取得する。追加検索部108は、検索結果が一件以上存在すると判定する。
このように、追加検索部108は、「瞬冷凍」という単語に替えて、「冷凍」の単語ベクトルを抽出する。追加検索部108は、未知語を構成する文字を手掛かりに、未知語に意味が近い別の単語を検索し、単語ベクトル抽出部102は未知語に意味が近い別の単語を単語ベクトルに変換する。
なお、追加検索部108は、上述した例では2文字単位の部分単語を取得する例を示したが、3文字単位の部分単語等、文字数を変化させて部分単語を取得してもよい。その結果、追加検索部108が、各文字数で複数の部分単語を検索結果として取得した場合、単語ベクトル抽出部102が部分単語の単語ベクトルの平均ベクトルを単語ベクトルとして抽出してもよい。また、平均ベクトルを用いる場合、単語ベクトル抽出部102は、文字数が多く一致した単語がより未知語の意味に近いとし、一致した部分単語の文字数に応じた重みを付して、平均ベクトルを算出してもよい。
次に、単語意味関係推定装置100Bの動作について説明する。
図7は、実施の形態3に係る発明の単語意味関係推定装置100Bの動作を示すフローチャートである。
以下では、実施の形態2に係る発明の単語意味関係推定装置100Aと同一のステップには、図5で示した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST3において、単語検索部101が、検索結果が一件以上存在すると判定した場合(ステップST3;YES)、実施の形態2と同様にステップST11,ステップST12およびステップST4からステップST7の処理を行う。一方、ステップST3において、単語検索部101が、検索結果が一件以上存在しないと判定した場合(ステップST3;NO)、単語検索部101は単語ペアを構成する各単語を追加検索部108に出力する。追加検索部108は、単語検索部101から入力された単語から部分単語を取得する(ステップST21)。追加検索部108は、ステップST21で取得した部分単語を単語ベクトルデータベース103から検索する(ステップST22)。追加検索部108は、検索結果が一件以上存在するか否か判定を行う(ステップST23)。
検索結果が一件以上存在すると判定した場合(ステップST23;YES)、推定器切替部107aは当該判定結果に基づいて、推定部106aに第1の推定器の適用を決定する(ステップST24)。推定器切替部107aは、第1の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107aからの指示に基づいて、推定部106aの切り替えを行う(ステップST25)。追加検索部108は検索結果を単語ベクトル抽出部102に出力する(ステップST26)。その後、単語意味関係推定装置100Bは、ステップST5からステップST7の処理を行う。
一方、検索結果が一件以上存在しないと判定した場合(ステップST23;NO)、ステップST13からステップST16の処理を行う。推定部106aは、ステップST12、ステップST25またはステップST14で切り替えた推定器を用いて、ステップST7またはステップST16において取得された特徴量から単語間の意味関係を推定する(ステップST27)。推定部106aは、ステップST27で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
以上のように、この実施の形態3によれば、単語検索部101が、各単語を単語ベクトルデータベース103から検索できなかった場合に、単語ペアに含まれる未知語を構成する文字に部分一致する単語を、単語ベクトルデータベース103から検索する追加検索部108を備え、推定器切替部107aは、追加検索部108が未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索したか否かに基づいて、第1の推定器と第2の推定器とを切り替え、特徴量取得部105aは、追加検索部108が未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索した場合に、単語ベクトルと文字ベクトルとを結合した特徴量を取得し、未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索できなかった場合に、文字ベクトルを特徴量として取得するように構成したので、未知語を構成する文字を手掛かりとして、未知語に意味の近い別の単語の単語ベクトルを用いて単語間の意味関係を推定することができる。
なお、上述した実施の形態3では、実施の形態2で示した単語意味関係推定装置100Aに追加検索部108を追加して構成する場合を示したが、実施の形態1で示した単語意味関係推定装置100に追加検索部108を追加して構成してもよい。
この場合、単語検索部101が、各単語を単語ベクトルデータベース103から検索できなかった場合に、単語ペアに含まれる未知語を構成する文字に部分一致する単語を、単語ベクトルデータベース103から検索する追加検索部108を備え、単語ベクトル抽出部102は、追加検索部108が検索した未知語を構成する文字に部分一致する単語に対応する単語ベクトルを、単語ベクトルデータベース103から検索するように構成する。当該構成により、未知語を構成する文字を手掛かりとして、未知語に意味の近い別の単語の単語ベクトルを用いて単語間の意味関係を推定することができる。
実施の形態4.
上述した実施の形態1から実施の形態3では、シソーラスを教師データとした推定器を備える推定部106,106aが単語間の意味関係を推定する構成を示した。この実施の形態4では、当該シソーラスの構造情報に基づいて、推定部106,106aが入力された単語ペアの意味関係を推定する際に、単語ペアの上位下位関係の距離、すなわち抽出度合いを推定する構成を示す。これにより、例えば、入力された文章を言い換えた文を作成する場合に、置き換える単語の抽出度合いを調節することができる。
推定部106,106aは、実施の形態1から実施の形態3で示した、特徴量取得部105,105aで取得された特徴量を推定器に入力して単語ペアの意味関係を推定する処理に加えて、推定した単語ペアの意味関係の抽出度合いを推定する。ここで、単語ペアの意味関係の抽出度合いとは、単語ペアの上位下位関係の距離である。推定部106,106aは、単語ペアの意味関係の抽出度合いを、シソーラス上の構造情報から求める。
図8は、シソーラスに登録された単語の上位下位関係を示した図である。
図8の例では、単語「魚」の直下に定義されている単語「アジ」に着目すると、単語「魚」と単語「アジ」との抽出度合いは「1」となる。単語「魚」の上位に定義された「食べ物」と単語「アジ」との抽出度合いは「2」となる。推定部106,106aは、例えば、図8で示した定義に基づいて、単語ペアの意味関係の抽出度合いを求める。
単語意味関係推定装置100,100A,100Bの推定結果を用いて、言い換え文を作成する場合に、抽出度合いが高い上位の単語で置き換えると、質問応答の際に必要な情報が抜け落ちる場合がある。例えば、「マグロをおいしく冷凍保存するにはどうすればいい?」との文を、「食べ物をおいしく冷凍保存するにはどうすればいい?」と言い換えた文を作成する場合を考える。上記の言い換えでは、「マグロ」を「食べ物」に置き換えている。図8で示した定義を参照すると、単語「マグロ」と単語「食べ物」との抽出度合いは「2」である。この例のように抽出度合いが高い関係の単語を用いて言い替えを行うと、言い換える前の文が「魚に関する質問文」であるのに対して、言い換え後の文では「魚」の情報が欠落する。
推定部106,106aが、単語の抽出度合いを求めて推定結果として出力する。これにより、置き換える単語を選択する指標として当該抽出度合いを利用し、置き換える単語を選別することができる。
上述した「マグロをおいしく冷凍保存するにはどうすればいい?」との文の言い換え結果を、抽出度合いと共に示す。
(1)抽出度合い「2」の場合(抽出度合い高)の言い換え例
言い換え前:マグロをおいしく冷凍保存するにはどうすればいい?
言い換え後:食べ物をおいしく冷凍保存するにはどうすればいい?
(2)抽出度合い「1」の場合(抽出度合い普通)の言い換え例
言い換え前:マグロをおいしく冷凍保存するにはどうすればいい?
言い換え後:魚をおいしく冷凍保存するにはどうすればいい?
以上のように、この実施の形態4によれば、推定部106,106aは、各単語間の意味関係を推定する推定器の教師データの構造情報に基づいて、意味関係を推定した各単語間の上位下位関係の距離を示す抽出度合いを推定するように構成したので、シソーラスの構造情報を反映させた単語の置き換えを行うことができる。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
この発明に係る単語意味関係推定装置は、例えば、文書検索技術等の自然言語を扱う技術において、対義語を適切に扱うことが求められる情報検索システムに用いられるのに適している。
100,100A,100B 単語意味関係推定装置、101 単語検索部、102 単語ベクトル抽出部、103 単語ベクトルデータベース、104 文字ベクトル変換部、105,105a 特徴量取得部、106,106a 推定部、107,107a 推定器切替部、108 追加検索部。

Claims (6)

  1. 入力された単語ペアを構成する各単語を、データベースから検索する単語検索部と、
    前記単語検索部が検索した前記各単語に対応する単語ベクトルを、前記データベースから抽出する単語ベクトル抽出部と、
    前記単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部と、
    前記単語ベクトル抽出部が抽出した前記各単語の単語ベクトルと、前記文字ベクトル変換部が変換した前記文字ベクトルとを結合して特徴量を取得する特徴量取得部と、
    前記特徴量取得部が取得した前記特徴量から前記各単語間の意味関係を推定する推定部とを備えた単語意味関係推定装置。
  2. 前記単語検索部が前記各単語を前記データベースから検索したか否かに基づいて、前記単語ベクトルと前記文字ベクトルとを特徴量として前記各単語間の意味関係を推定する第1の推定器と、前記文字ベクトルのみを特徴量として前記各単語間の意味関係を推定する第2の推定器とを切り替える推定器切替部を備え、
    前記特徴量取得部は、前記単語検索部が前記各単語を前記データベースから検索した場合に、前記単語ベクトルと前記文字ベクトルとを結合した特徴量を取得し、各単語を前記データベースから検索できなかった場合に、前記文字ベクトルを特徴量として取得し、
    前記推定部は、前記推定器切替部の切り替えに応じて前記第1の推定器または前記第2の推定器を適用し、前記特徴量取得部が取得した特徴量から前記各単語間の意味関係を推定することを特徴とする請求項1記載の単語意味関係推定装置。
  3. 前記単語検索部が、前記各単語を前記データベースから検索できなかった場合に、前記単語ペアに含まれる未知語を構成する文字に部分一致する単語を、前記データベースから検索する追加検索部を備え、
    前記単語ベクトル抽出部は、前記追加検索部が検索した前記未知語を構成する文字に部分一致する単語に対応する単語ベクトルを、前記データベースから検索することを特徴とする請求項1記載の単語意味関係推定装置。
  4. 前記単語検索部が、前記各単語を前記データベースから検索できなかった場合に、前記単語ペアに含まれる未知語を構成する文字に部分一致する単語を、前記データベースから検索する追加検索部を備え、
    前記推定器切替部は、前記追加検索部が前記未知語を構成する文字に部分一致する単語を前記データベースから検索したか否かに基づいて、前記第1の推定器と前記第2の推定器とを切り替え、
    前記特徴量取得部は、前記追加検索部が前記未知語を構成する文字に部分一致する単語を前記データベースから検索した場合に、前記単語ベクトルと前記文字ベクトルとを結合した特徴量を取得し、前記未知語を構成する文字に部分一致する単語を前記データベースから検索できなかった場合に、前記文字ベクトルを特徴量として取得することを特徴とする請求項2記載の単語意味関係推定装置。
  5. 前記推定部は、前記各単語間の意味関係を推定する推定器の教師データの構造情報に基づいて、前記意味関係を推定した前記各単語間の上位下位関係の距離を示す抽出度合いを推定することを特徴とする請求項1記載の単語意味関係推定装置。
  6. 単語検索部が、入力された単語ペアを構成する各単語を、データベースから検索するステップと、
    単語ベクトル抽出部が、前記検索された前記各単語に対応する単語ベクトルを、前記データベースから抽出するステップと、
    文字ベクトル変換部が、前記単語ペアを構成する文字を文字ベクトルに変換するステップと、
    特徴量取得部が、前記抽出された前記各単語の単語ベクトルと、前記変換された前記文字ベクトルとを結合して特徴量を取得するステップと、
    推定部が、前記取得された前記特徴量から前記各単語間の意味関係を推定するステップとを備えた単語意味関係推定方法。
JP2019549790A 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法 Active JP6678834B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/038791 WO2019082362A1 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法

Publications (2)

Publication Number Publication Date
JPWO2019082362A1 true JPWO2019082362A1 (ja) 2020-02-27
JP6678834B2 JP6678834B2 (ja) 2020-04-08

Family

ID=66246318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019549790A Active JP6678834B2 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法

Country Status (5)

Country Link
US (1) US11328006B2 (ja)
EP (1) EP3683694A4 (ja)
JP (1) JP6678834B2 (ja)
CN (1) CN111226223B (ja)
WO (1) WO2019082362A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754012A (zh) * 2018-12-29 2019-05-14 新华三大数据技术有限公司 实体语义关系分类方法、模型训练方法、装置及电子设备
US11217227B1 (en) 2019-11-08 2022-01-04 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain
US11538465B1 (en) * 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context
CN111259148B (zh) 2020-01-19 2024-03-26 北京小米松果电子有限公司 信息处理方法、装置及存储介质
JP7529048B2 (ja) 2020-12-28 2024-08-06 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
CN113343704A (zh) * 2021-04-15 2021-09-03 山东师范大学 一种基于词嵌入向量的文本检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014238726A (ja) * 2013-06-07 2014-12-18 日本電信電話株式会社 反義分類モデル学習装置、反義分類装置、方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US8571850B2 (en) * 2007-09-13 2013-10-29 Microsoft Corporation Dual cross-media relevance model for image annotation
JP5254888B2 (ja) * 2009-06-05 2013-08-07 日本電信電話株式会社 言語資源情報生成装置、方法、プログラム、および記録媒体
CN101763402B (zh) * 2009-12-30 2012-07-04 哈尔滨工业大学 多语言信息检索一体化检索方法
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN106776544B (zh) * 2016-11-24 2020-05-05 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
US20180203921A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Semantic search in document review on a tangible user interface
CN107247704B (zh) * 2017-06-09 2020-09-08 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014238726A (ja) * 2013-06-07 2014-12-18 日本電信電話株式会社 反義分類モデル学習装置、反義分類装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
笠原 要: "単語の対義性判別方式", 2001年度人工知能学会全国大会(第15回)論文集 [CD−ROM], JPN6020004560, 25 May 2001 (2001-05-25), ISSN: 0004209130 *
進藤 裕之: "畳み込みニューラルネットワークを用いた複単語表現の解析", 情報処理学会 研究報告 自然言語処理(NL) 2015−NL−223 [ONLINE], JPN6020004561, 9 October 2015 (2015-10-09), ISSN: 0004209131 *

Also Published As

Publication number Publication date
US20200234009A1 (en) 2020-07-23
EP3683694A1 (en) 2020-07-22
JP6678834B2 (ja) 2020-04-08
WO2019082362A1 (ja) 2019-05-02
EP3683694A4 (en) 2020-08-12
CN111226223B (zh) 2023-10-20
CN111226223A (zh) 2020-06-02
US11328006B2 (en) 2022-05-10

Similar Documents

Publication Publication Date Title
JP6678834B2 (ja) 単語意味関係推定装置および単語意味関係推定方法
Pilehvar et al. De-conflated semantic representations
CN106570141B (zh) 近似重复图像检测方法
JP5346279B2 (ja) 検索による注釈付与
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
JP5078173B2 (ja) 多義性解消方法とそのシステム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
KR102695381B1 (ko) 엔티티-속성 관계 식별
CN109558570B (zh) 句生成方法和设备
JP2016207141A (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
JP7116309B2 (ja) コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
US8204736B2 (en) Access to multilingual textual resources
Renjit et al. CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings.
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
Liu et al. Deep learning in knowledge graph
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP6555810B2 (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
Suneera et al. A bert-based question representation for improved question retrieval in community question answering systems
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
Castillo et al. Using sentence semantic similarity based on WordNet in recognizing textual entailment
US11244015B1 (en) Projecting queries into a content item embedding space
Toews et al. Determining Domain-Specific Differences of Polysemous Words Using Context Information.
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP6584361B2 (ja) キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191118

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191118

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200317

R150 Certificate of patent or registration of utility model

Ref document number: 6678834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250