JPWO2020157887A1 - 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム - Google Patents

文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム Download PDF

Info

Publication number
JPWO2020157887A1
JPWO2020157887A1 JP2019537313A JP2019537313A JPWO2020157887A1 JP WO2020157887 A1 JPWO2020157887 A1 JP WO2020157887A1 JP 2019537313 A JP2019537313 A JP 2019537313A JP 2019537313 A JP2019537313 A JP 2019537313A JP WO2020157887 A1 JPWO2020157887 A1 JP WO2020157887A1
Authority
JP
Japan
Prior art keywords
information
morpheme
sentence structure
dependency
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019537313A
Other languages
English (en)
Other versions
JP6689466B1 (ja
Inventor
伍井 啓恭
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6689466B1 publication Critical patent/JP6689466B1/ja
Publication of JPWO2020157887A1 publication Critical patent/JPWO2020157887A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

文構造ベクトル化装置(100)は、入力文を形態素解析することで、複数の形態素を作成する形態素解析部(110)と、複数の形態素を係り受け解析することで、複数の形態素に関する依存構造グラフを作成する係り受け解析部(120)と、依存構造グラフから複数の部分構造情報を抽出し、複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部(130)とを備えている。

Description

本発明は、文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラムに関する。
World Wide Webの普及拡大により、自然言語で記述された大量の電子化テキスト(以下「テキスト」とも言う。)が蓄積されている。このため、蓄積されたテキストから希望するテキストを探し出す全文検索技術、蓄積されたテキストを記述内容に即して分類する文書分類技術、などの重要性が高まっている。例えば、全文検索技術では、入力されたクエリテキスト(すなわち、質問文テキスト)と検索対象のテキストとの間の内容の類似度に基づいて、検索対象のテキストのランキング(すなわち、順位)が決定される。また、文書分類技術では、テキスト間の内容の類似度に基づいて、各テキストが複数のクラスのいずれかに分類される。
テキスト間の内容の類似度、すなわち、テキストに含まれる文の間の意味の類似度を求めるために、テキストから概念ベクトルと称される特徴量を抽出する技術が知られている。例えば、特許文献1は、テキストを形態素解析し、内容語(すなわち、ターム)を抽出するとともにタームによる索引を作成し、各タームをテキスト内における重要度に応じて重み付けされたタームベクトルとして取り扱い、各テキストの特徴量を、タームベクトルを合成して得られたベクトルによって表現するシステムを提案している。検索に際しては、重み付けされたタームベクトルを合成して得られた検索クエリベクトルを用い、クエリテキストと検索対象のテキストとの類似度が計算される。類似度は、例えば、2つのベクトルがなす角の余弦、すなわち、cosine類似度である。しかし、この方法では、形態素解析によって得られた個々のタームを用いてベクトルを構成するため、たとえ互いの意味が異なるテキストであっても、内容語群(Bag−of−Words:BoW)が同一のテキストについては、類似度が高いと判定されるという問題がある。
この問題を解決するため、特許文献2は、テキストの構造を係り受け解析することで、テキストの構造をラベル付き順序木(すなわち、依存構造木)に変換し、この依存構造木の部分構造を特徴量としてベクトル化する方法を提案している。しかし、近年、並列構造などの文の意味構造は、依存構造木によって充分に表現できないことが知られている。
この問題を解決するため、非特許文献1は、係り受けのグラフ構造(dependency graph)を用いて文の意味構造を表現する方法を提案している。
特開2002−14970号公報 特開2003−271599号公報
Schuster, Sebastian、外1名、 "Enhanced English Universal Dependencies: An Improved Representation for Natural Language Understanding Tasks"、 LREC Stanford University、 ID 779、 2016年 Marie−Catherine de Marneffe、外1名、 "Stanford typed dependencies manual"、 Revised for the Stanford Parser v.3.7.0、 2016年9月
しかしながら、係り受けのグラフ構造からその部分構造である部分グラフを抽出する場合、抽出される部分グラフの数は、係り受けのグラフ構造のサイズに応じて指数関数的に増加するため、テキストの構造のベクトル化のための計算量が増大するという問題がある。
本発明は、上記課題を解決するためになされたものであり、少ない計算量で文構造を適切にベクトル化することを可能にする文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラムを提供することにある。
本発明の一態様に係る文構造ベクトル化装置は、入力文を形態素解析することで、複数の形態素を作成する形態素解析部と、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する係り受け解析部と、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部とを備えたことを特徴とする。
本発明の他の態様に係る文構造ベクトル化方法は、入力文を形態素解析することで、複数の形態素を作成するステップと、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成するステップと、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成するステップとを有することを特徴とする。
本発明によれば、少ない計算量で文構造を適切にベクトル化することができる。
本発明の実施の形態1に係る文構造ベクトル化装置のハードウェア構成の例を示す図である。 実施の形態1に係る文構造ベクトル化装置のハードウェア構成の他の例を示す図である。 実施の形態1に係る文構造ベクトル化装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る文構造ベクトル化装置の動作を示すフローチャートである。 実施の形態1に係る文構造ベクトル化装置に入力される入力文の例を示す図である。 実施の形態1に係る文構造ベクトル化装置の形態素解析部によって実行される形態素解析の結果の例を示す図である。 実施の形態1に係る文構造ベクトル化装置の係り受け解析部によって実行される係り受け解析の結果の例を示す図である。 図7に示される係り受け解析の結果をグラフ構造で示す図である。 メモリに記憶されたNグラム番号1〜4の形態素情報を示す図である。 (a)から(d)は、抽出された2個の形態素に関する情報に、リナンバー形態素番号とリナンバー係り受け番号とを付与することで作成された情報を示す図である。 メモリに記憶されたNグラム番号1〜7の形態素情報を示す図である。 部分グラフが2個の形態素から構成されるときの処理に用いられる2形態素構造番号とリナンバー係り受け番号との対応関係を示す図である。 (a)から(e)は、図10(a)から(d)に示される情報から抽出された情報をマージすることで作成された情報を示す図である。 メモリに記憶されたNグラム番号1〜10の形態素情報を示す図である。 部分グラフが3個の形態素から構成されるときの処理に用いられる3形態素構造番号とリナンバー係り受け番号との対応関係を示す図である。 図9から図15の情報から抽出された文構造ベクトル化に関する情報の例を示す図である。 本発明の実施の形態2に係る文構造ベクトル化装置の構成を概略的に示す機能ブロック図である。
以下に、本発明の実施の形態に係る文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラムを、図面を参照しながら説明する。各図において、同じ構成要素には、同じ符号が付される。また、以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。例えば、各実施の形態の構成を、適宜組み合わせることが可能である。また、本出願では、非特許文献1及び2に示される用語を用いる。
実施の形態1.
先ず、本発明の実施の形態1に係る文構造ベクトル化装置100の構成を説明する。図1は、実施の形態1に係る文構造ベクトル化装置100のハードウェア構成の例を示す図である。図1に示される例では、文構造ベクトル化装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、文構造ベクトル化プログラムを格納するメモリ20と、メモリ20に格納されたプログラムを実行する演算処理部としてのプロセッサ10とを備えている。プロセッサ10は、CPU(Central Processing Unit)などの情報処理回路である。メモリ20は、例えば、RAM(Random Access Memory)などの揮発性の記憶装置である。文構造ベクトル化装置100は、例えば、コンピュータである。
実施の形態1に係る文構造ベクトル化プログラムは、情報を記録する記録媒体から媒体情報読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ20に格納される。実施の形態1に係る文構造ベクトル化プログラムは、プロセッサ10によって実行されることができる。また、実施の形態1に係る文構造ベクトル化方法は、メモリ20に格納される文構造ベクトル化プログラムを実行するプロセッサ10によって実現されることができる。
文構造ベクトル化装置100は、マウス、キーボード、タッチパネル、などのユーザ操作部である入力装置が接続される入力インタフェース30を備えてもよい。また、文構造ベクトル化装置100は、画像を表示する表示装置が接続される出力インタフェース40を備えてもよい。また、文構造ベクトル化装置100は、各種情報を記憶するHDD(Hard Disk Drive)、SSD(Solid State Drive)、などの記憶装置50を備えてもよい。記憶装置50は、文構造ベクトル化装置100の外部の記憶装置であってもよい。文構造ベクトル化装置100が外部の装置と通信するための通信インタフェース(図示せず)を備える場合には、記憶装置50は、通信インタフェースを介して接続可能なクラウド上に存在する記憶装置であってもよい。
図2は、実施の形態1に係る文構造ベクトル化装置100のハードウェア構成の他の例を示す図である。図2に示される例では、文構造ベクトル化装置100は、処理回路60と、入力インタフェースを持つ入力回路70と、出力インタフェースを持つ出力回路80と、記憶装置50とを備えている。処理回路60は、例えば、専用のハードウェアである。処理回路60は、メモリに記憶されたプログラムを読み出して実行することにより、各部の機能を実現するプロセッサを含んでもよい。また、処理回路60の一部を専用のハードウェアで実現し、処理回路60の他の一部をソフトウェア又はファームウェアを実行するプロセッサを含む回路で実現してもよい。
図3は、実施の形態1に係る文構造ベクトル化装置100の構成を概略的に示す機能ブロック図である。図3に示されるように、文構造ベクトル化装置100は、形態素解析部110と、係り受け解析部120と、文構造ベクトル化部130とを備えている。また、文構造ベクトル化装置100は、生成された文構造ベクトルを記憶する記憶部140を備えてもよい。記憶部140は、例えば、図1又は図2におけるメモリ20、記憶装置50、又はこれらの両方であってもよい。
形態素解析部110は、複数の入力文を含むテキストであるクエリテキストを受け取り、複数の入力文の各々を形態素解析によって分割する。この処理は、形態素分割とも呼ばれる。形態素解析部110は、形態素解析の結果として複数の形態素を出力する。「形態素」は、意味を持つ表現要素の最小単位である。形態素分割を行うための処理は、公知の技術を用いて実行されることができる。入力文の例は、後述される図5に示される。形態素の例は、後述される図6に示される。
係り受け解析部120は、形態素解析部110から出力された各入力文に関する複数の形態素における係り受け、すなわち、依存構造を解析する。係り受け解析部120は、依存構造の解析の結果として依存構造情報を出力する。「依存構造」は、文の構文構造を示しており、文内の形態素間の依存関係の集合によって、複数の形態素からなる形態素列の構造を表現している。形態素間の依存関係は、形態素間の係り受け関係とも言う。係り受け解析を行うための処理は、公知の技術を用いて実行されることができる。依存構造の例は、後述される図7に示されている。
文構造ベクトル化部130は、係り受け解析部120から出力された各入力文に関する依存構造情報を受け取り、依存構造に対応する文構造ベクトルを生成する。
次に、実施の形態1に係る文構造ベクトル化装置100の動作を説明する。図4は、実施の形態1に係る文構造ベクトル化装置100の動作を示すフローチャートである。また、図5は、文構造ベクトル化装置100が受け取る入力文の例を示す図である。この入力文の例“The boy who lived”は、非特許文献1の第4ページの左欄に示されている例から引用したものである。
《ステップS101:形態素解析》
ステップS101において、図5に示される入力文200が形態素解析部110に入力されると、形態素解析部110は、入力文200すなわちテキストを形態素解析して、形態素解析の結果を出力する。
図6は、形態素解析部110によって実行される形態素解析の結果の例を示す図である。図6には、4個の形態素が示されている。図6に示される形態素解析の結果210において、左から2列目には、形態素の例が示されており、左から1列目には、2列目に示されている形態素に付与された形態素番号が示されている。図6において、2列目は、見だし表層形(すなわち、小文字統一文字列)で示されている。
《ステップS102:係り受け解析》
次のステップS102において、図6に示される形態素解析の結果210が係り受け解析部120に入力されると、係り受け解析部120は、形態素解析の結果210に対する係り受け解析を行う。
図7は、係り受け解析部120によって実行される係り受け解析の結果の例を示す図である。図7における1列目及び2列目の情報は、図6における1列目及び2列目の情報と同じである。図7において、3列目は、係り受け番号を示し、4列目は、係り受け関係を示す。ここで、「係り受け番号」は、係り受けにおける主要語(head)の形態素番号を示している。また、「係り受け関係」は、ラベルである。係り受け番号及び係り受け関係は、例えば、非特許文献2で説明されている。
図7において、係り受け関係「det」は、限定詞(determiner)を示す。係り受け関係「nsubj」は、形式主語(nominal subject)を示す。係り受け関係「ref」は、指示対象(referent)を示す。「acl」は、名詞の節修飾語(clausal modifier of noun)を示す。「relcl」は、関係節(relative clause)を示す。係り受け関係「acl:relcl」は、名詞の関係節修飾語(relative clause modifier of noun)を示す。
図8は、図7に示される係り受け解析の結果をグラフ構造で示す図である。このグラフ構造は、「係り受け構造」又は「依存構造グラフ」とも言う。図8において、“lived”は“boy”を「nsubj」として修飾し、“boy”は“lived”を「acl:relcl」として修飾している。つまり、“boy”と“lived”は、互いに修飾し合っており、グラフ構造255内においてループ構造を形成している。したがって、図8に示される係り受け構造は、ループ構造を表現することができない従来の木構造によっては、適切に処理することができない。
《ステップS103:1グラム抽出》
図9は、図7に示される形態素と係り受け関係とのペアの情報である形態素情報1を、文字順にソートして得られた情報を示す図である。ここでは、文字順は、アルファベット順である。文構造ベクトル化部130は、形態素と係り受け関係のペアの情報である形態素情報1を、文字順にソートして、形態素情報1にNグラム番号を付与する。Nは正の整数である。Nグラム番号は、1オリジンで(すなわち、1から数え始めて)、図9に示されるように、昇順に付与される。図9には、N=1の場合、すなわち、1グラムの場合が示されている。1グラムは、ユニグラムを意味する。図9に示される情報は、メモリ(例えば、図1におけるメモリ20又は記憶装置50)に記憶される。例えば、形態素情報「boy.nsubj」は、形態素「boy」と係り受け関係「nsubj」のペアによって構成される形態素情報である。以上の処理によって、図9に示されるNグラム番号1〜4の情報300がメモリに記憶される。
《ステップS104:2形態素構造情報抽出》
図10(a)から(d)は、抽出された2個の形態素に関する情報に、リナンバー形態素番号とリナンバー係り受け番号とを付与することで作成された情報を示す図である。文構造ベクトル化部130は、入力文の各形態素から、係り受け関係にある2個の形態素の情報を抽出する処理を行う。この処理は、入力文のすべての形態素について行われる。ここでは、この処理が、図7に示される形態素番号1〜4の形態素について行われる場合を説明する。
図7において、形態素番号1の形態素“the”の係り受け番号は「2」である。したがって、文構造ベクトル化部130は、図10(a)に情報230として示されるように、係り受け関係にある形態素番号1の形態素“the”と形態素番号2の形態素“boy”に関する2つの情報を抽出して、それらに、1から始まる通し番号であるリナンバー形態素番号を付与する。
リナンバー形態素番号は、図10(a)の1列目に示される。文構造ベクトル化部130は、図10(a)に示されるように、形態素番号、形態素、係り受け番号、及び係り受け関係として、図7の情報220における形態素番号1の情報及び形態素番号2の情報と同じ情報をメモリに記憶させる。
リナンバー係り受け番号は、図10(a)の2列目に示される。文構造ベクトル化部130は、図7において形態素番号1の“the”についての係り受け番号が「2」であるので、形態素番号2の“boy”のリナンバー形態素番号を参照する。このリナンバー形態素番号は、「2」であるので、文構造ベクトル化部130は、同じ数値である「2」をリナンバー係り受け番号としてメモリに記憶させる。
また、文構造ベクトル化部130は、図7における形態素番号2の“boy”についての係り受け番号が「4」であるので、形態素番号4を探す。しかし、図10(a)に示される情報230には、形態素番号4は存在しないので、文構造ベクトル化部130は、形態素番号2の“boy”のリナンバー係り受け番号として、係り先の無いことを意味する記号である「*」をメモリに記憶させる。
文構造ベクトル化部130は、以上と同様の処理を、図7に示される形態素番号2〜4のそれぞれの形態素について行い、図10(b)から(d)に示される情報240,250,260を作成し、作成された情報240,250,260をメモリに記憶させる。
《ステップS105:2グラム抽出》
図11は、文構造ベクトル化部130によって、図10(a)から(d)に示される情報から作成された情報を示す図である。文構造ベクトル化部130は、図10(a)から(d)に示される情報230,240,250,260の各々から2個の形態素における、形態素と係り受け関係とのペアの情報である形態素情報を、文字順にソートして得られた情報を、Nグラム番号が1グラム番号であるときに記憶した情報に追加して、メモリに記憶させる。図11には、N=2の場合、すなわち、2グラムの場合が示されている。2グラムは、バイグラムを意味する。
実施の形態1では、図9に示されるように、Nグラム番号が1グラム番号であるときに、既にNグラム番号1〜4の情報がメモリに記憶されている。したがって、文構造ベクトル化部130は、Nグラム番号が2グラム番号であるときには、Nグラム番号5以降の情報をメモリに記憶させる。文構造ベクトル化部130は、Nグラム番号が1グラム番号であるときと同様により、リナンバー形態素番号1の形態素と係り受け関係の情報を形態素情報1の列に、リナンバー形態素番号2の形態素と係り受け関係の情報を形態素情報2の列に記憶させる。図11に示されるように、文構造ベクトル化部130は、Nグラム番号5、6、7の情報を、メモリに記憶させる。以上の処理によって、図11に示されるNグラム番号1〜7の情報310がメモリに記憶される。
《ステップS106:N形態構造情報抽出》
次に、文構造ベクトル化部130は、処理対象とする形態素の数をNとして処理を行う。例えば、Nを3以上の整数としたときに、複数の部分構造情報は、1個の形態素に関する1形態素構造情報からN個の形態素に関するN形態素構造情報までを含み、文構造ベクトル化部130は、N−1形態素構造情報と2形態素構造情報とをマージする処理によってN形態素構造情報を作成する。
実施の形態1では、簡単のため、N=3までの処理を行う場合を説明する。N個の形態素を処理するために、N−1個の形態素の形態素構造情報(すなわち、N−1形態素構造情報)と、2個の形態素の形態素構造情報(すなわち、2形態素構造情報)とを用いる。ここでは、3個の形態素構造情報を作成するので、N−1形態素構造情報(すなわち、2形態素構造情報)と、2形態素構造情報とを用いる。文構造ベクトル化部130は、図10(a)から(d)におけるすべてのN−1(=2)形態素構造情報について以下の処理を行なう。
図13(a)から(e)は、図10(a)から(d)に示される情報から抽出された情報をマージすることで作成された情報を示す図である。文構造ベクトル化部130は、図10(a)の情報230の形態素番号1及び形態素番号2に着目して処理を行う。文構造ベクトル化部130は、図10(a)の情報230の結合相手となり得る他の2形態素構造の情報が存在するかどうかの検索を行う。図10(a)の情報230と図10(b)の情報240では、異なる形態素番号として形態素番号1と3が存在し、共通の形態素番号として形態素番号2が存在し、かつ、形態素番号2のリナンバー係り受け番号が「*」である。このため、これらの情報230と240は、結合可能、すなわち、マージ可能である。このため、文構造ベクトル化部130は、リナンバー形態素番号2の行をマージして、図13(a)の情報270を作成し、メモリに3個の形態素に関する形態素構造情報(すなわち、3形態素構造情報)を記憶させる。ここで、「マージ」は、複数の情報を、決められたルールに従って1つに統合することを意味する。
同様に、図10(a)に示される情報230と図10(c)に示される情報250では、異なる形態素番号として形態素番号1と4が存在し、共通の形態素番号として形態素番号2が存在する。しかし、図10(a)に示される形態素番号2のリナンバー係り受け番号は「*」であるのに対して、図10(c)に示される形態素番号2のリナンバー係り受け番号は「2」である。このため、文構造ベクトル化部130は、形態素番号2の行をマージする。この際に、図10(c)に示されるように、結合させるためのリナンバー係り受け番号2の係り受け番号が「4」であるので、文構造ベクトル化部130は、図10(c)の情報250のマージ後のリナンバー形態素番号である「3」をリナンバー係り受け番号として採用してマージすることによって、図13(b)に示される情報280を作成する。この情報280は、3形態素構造情報としてメモリに追加記憶される。同様の処理を繰り返すことによって、図13(c)から(e)に示される3形態素構造情報が作成される。
《ステップS107:Nグラム抽出》
図14は、文構造ベクトル化部130によって、N個のペアの情報から作成された情報を示す図である。図14には、N=3の場合、すなわち、3グラムの場合が示されている。3グラムは、トライグラムを意味する。図14では、N個のペアの情報は、形態素情報1〜3である。文構造ベクトル化部130は、文字順にソートすることによってNグラム番号としてN−1グラムで記憶したメモリに追加して記憶させる。次に、文構造ベクトル化部130は、図13(a)から(e)に示される形態素と係り受け関係とのN個のペアの情報を文字順にソートすることによって得られた情報に、Nグラム番号を付与して得られた情報を、図11に示される情報に追加して、メモリに記憶させる。
実施の形態1では、図14に示されるように、Nグラム番号が2グラム番号であるときに、既にNグラム番号1〜7の情報がメモリに記憶されている。したがって、文構造ベクトル化部130は、Nグラム番号が「8」以降の情報をメモリに記憶させる。つまり、文構造ベクトル化部130は、図9に示されるNグラム番号が1グラム番号であるときに記憶されたNグラム番号1〜4の情報及び図11に示されるNグラム番号が2グラム番号であるときに記憶されたNグラム番号5〜7の情報に加えて、図14に示されるNグラム番号が3グラム番号であるときに記憶されたNグラム番号8〜10の情報をメモリに記憶させる。具体的には、文構造ベクトル化部130は、図13(a)から(e)におけるリナンバー形態素番号1の形態素と係り受け関係の情報を形態素情報1の列に記憶させ、リナンバー形態素番号2の形態素と係り受け関係の情報を形態素情報2の列に記憶させ、リナンバー形態素番号3の形態素と係り受け関係の情報を形態素情報3の列に記憶させる。以上の処理によって、図14に示されるNグラム番号1〜10の情報320がメモリに記憶される。
《ステップS108:終了判定》
次のステップS108において、文構造ベクトル化部130は、すべての文についての処理が終了したか否かを判定する。すべての文についての処理が完了していれば、判断はYESになり、処理は、ステップS109に進み、処理が完了していなければ、判断はNOになり、Nを1インクリメントして、処理は、ステップS106に戻る。
《ステップS109:文構造ベクトル出力》
図16は、図9から図15の情報から抽出された文構造ベクトル化に関する情報の例を示す図である。図16は、文構造ベクトル化部130によって抽出された、ベクトルの次元に対するベクトル値Vkを示している。文構造ベクトル化部130は、ベクトル値Vkからなる数値系列を文構造ベクトルとして出力する。
ステップS109において、文構造ベクトル化部130は、形態素構造情報から、文構造ベクトルを抽出する。
図16における次元1〜4には、依存構造グラフから抽出された部分構造である部分グラフが1個の形態素からなるときのベクトル値Vkが示される。Nグラム番号1〜4の形態素情報が形態素列を構成して、メモリに記憶される。このときの形態素構造番号(すなわち、1形態素構造番号)は、1個の形態素で且つ1種類の形態素に基づく、N−1=1−1=0の計算によって、図16に示されるように、すべて「0」になる。
続いて、図16における次元5〜8には、依存構造グラフから抽出された部分構造である部分グラフが2個の形態素からなるときのベクトル値Vkが示される。Nグラム番号5〜7の形態素情報が形態素列を構成して、メモリに記憶される。Nグラム番号5の形態素構造は、図10(c)における情報250と図10(d)における情報260の2個の情報であるため、形態素構造番号(ここでは、2形態素構造番号である。)を図12の情報285から求めて、それぞれの形態素番号である「0」と「1」を記録する。以下、次元6、7、8について、次元5の場合と同様の処理が行われる。ここで、図12は、部分グラフが2個の形態素から構成されるときの処理に用いられる2形態素構造番号とリナンバー係り受け番号との対応関係を示す図である。
続いて、図16における次元9〜13には、依存構造グラフから抽出された部分構造である部分グラフが3個の形態素からなるときのベクトル値Vkが示される。Nグラム番号8〜10の形態素情報が形態素列を構成して、メモリに記憶される。Nグラム番号8の形態素構造は、図13(d)における情報300と図13(e)における情報310の2個の情報であるため、形態素構造番号(ここでは、3形態素構造番号である。)を、図15の情報315から求めて、それぞれの形態素番号である「4」と「7」を記録する。以下、次元10,11,12,13について、次元9の場合と同様の処理が行われる。ここで、図15は、部分グラフが3個の形態素から構成されるときの処理に用いられる3形態素構造番号とリナンバー係り受け番号との対応関係を示す図である。
実施の形態1では、図16に示される各次元における形態素構造番号の出現の個数はすべて1であるので、ベクトル値Vkは、すべて1になる。ベクトル化部は130、この結果の次元数に対するVkの値を持つベクトルを文構造ベクトルとして出力する。出力された文構造ベクトルは、記憶部140に格納される。
以上に説明したように、実施の形態1に係る文構造ベクトル化装置100、文構造ベクトル化方法、又は文構造ベクトル化プログラムを用いれば、係り受け結果の依存構造グラフを、自然言語の言語制約に適した部分構造に展開することができる。例えば、現実に存在し得ない係り受けを除いて、依存構造グラフから部分構造として部分グラフを抽出し、このような部分グラフを用いて文構造ベクトルを作成することができる。したがって、文の意味に応じた適切な文構造ベクトルを作成することができる。
また、実施の形態1では、形態素構造を漸進的にマージする処理によって、処理すべき形態素構造の組み合わせの数を減らすことができる。さらに、ループしたグラフ構造の探索なしに部分構造を決定的に抽出することで、少ない計算量で文構造ベクトルを作成することができる。
なお、上記説明では、入力文に出現する部分構造が1個以上存在する場合を説明しており、部分構造が存在しない場合を示すベクトル値Vkである0を省略して、情報量を削減している。このため、メモリに要求される記憶容量を削減することができる。ただし、出力される文構造ベクトルは、部分構造が存在しない場合を示す0のベクトル値を含むものであってもよい。
また、上記説明では、文構造ベクトル化装置100への入力文が英語である場合を説明したが、入力文は日本語、韓国語などのような後方係り受け言語であってもよい。後方係り受け言語の場合には、文構造ベクトル化装置100は、現実に存在し得ない形態素構造番号を削除する処理を行うことによって、計算量、及びメモリに要求される記憶容量を削減してもよい。
実施の形態2.
上記実施の形態1では、入力文をベクトル化する文構造ベクトル化装置100を説明した。実施の形態2では、上記実施の形態1に係る文構造ベクトル化装置100によって作成された文構造ベクトルを用いて文書検索又は文書分類を行うことを可能にした文構造ベクトル化装置100aを説明する。文構造ベクトル化装置100aによれば、従来弁別できなかった高精度な文書検索又は文書分類を行うことができる。
図17は、本発明の実施の形態2に係る文構造ベクトル化装置100aの構成を概略的に示す機能ブロック図である。実施の形態2に係る文構造ベクトル化装置100a、文構造検索方法、及び文構造検索プログラムは、図1又は図2に示されるハードウェア構成と同様のハードウェア構成によって実現されることができる。実施の形態2に係る文構造ベクトル化装置100aは、実施の形態1に係る文構造ベクトル化装置100が実行するプログラムを変更することで実現可能である。
図17に示されるように、文構造ベクトル化装置100aは、ベクトル化部500と、尤度計算部520と、ランキング決定部530とを備えている。ベクトル化部500は、実施の形態1に係る文構造ベクトル化装置100である。文構造ベクトル化装置100aは、検索対象文書を記憶する検索対象文書記憶部510と、候補文書を記憶する候補文書記憶部540とを備えてもよい。また、文構造ベクトル化装置100aは、文の検索処理を行う検索処理部550、文の分類処理を行う分類処理部560、又はこれらの両方を備えてもよい。文構造ベクトル化装置100aが、検索処理部550を備える場合には、文構造ベクトル化装置100aは、文書検索装置である。文構造ベクトル化装置100aが、分類処理部560を備える場合には、文構造ベクトル化装置100aは、文書分類装置である。図17では、尤度計算部520、ランキング決定部530、検索処理部550、及び分類処理部560は、文構造ベクトルに基づく処理を行う処理部570を構成している。
ベクトル化部500は、入力文を含むテキストであるクエリテキストと検索対象文書記憶部510に記憶された検索対象文書のテキストとをベクトル空間モデルを用いてベクトル化する処理を行う。例えば、ベクトル化部500は、クエリテキストと検索対象文書のテキストの各々のテキスト内におけるtfidfなどの重要度に応じて、各テキストに含まれるタームついての、重み付けされたベクトルを生成する。ここで、「tfidf」は、Term Frequency−Inverse Document Frequency(出現頻度、逆文書頻度)の略語である。tfidfは、文書のテキスト中に含まれるタームの重要度を評価する公知の方法である。ベクトル化部500は、各テキストに含まれるタームについての、重み付けされたベクトルを合成することによって、各テキストのベクトルである文構造ベクトルを取得する。
次に、尤度計算部520は、取得された2つのベクトルがなす角の余弦、すなわち、cosine類似度によって、クエリテキストと検索対象文書のテキストとの尤度を計算する。
次に、ランキング決定部530は、尤度計算部520によって計算された尤度に基づいて、検索対象文書を、尤度の高い順にランキングした候補文書を候補文書記憶部540に出力する。
検索処理部550は、文構造ベクトルに基づいて得られた尤度を用いて、検索対象文書から希望する文書を検索することができる。
また、分類処理部560は、文構造ベクトルに基づいて得られた尤度を用いて、検索対象文書に含まれる文を複数のクラスに分類することができる。
以上に説明した文構造ベクトル化装置100aによれば、高精度な文書検索又は文書分類を実現することができる。
100,100a 文構造ベクトル化装置、 110 形態素解析部、 120 係り受け解析部、 130 文構造ベクトル化部、 140 記憶部、 500 ベクトル化部、 510 検索文書記憶部、 520 尤度計算部、 530 ランキング決定部、 540 候補文書記憶部、 550 検索処理部、 560 分類処理部、 570 処理部。
本発明の一態様に係る文構造ベクトル化装置は、入力文を形態素解析することで、複数の形態素を作成する形態素解析部と、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する係り受け解析部と、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を複数のベクトル値から構成される数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部とを備え、前記複数のベクトル値の各々は、前記複数の部分構造情報に対応する複数の次元の各々における形態素構造番号の出現の個数であり、前記形態素構造番号は、Nを1以上の整数としたときに、N個の形態素の係り受け関係と複数の形態素構造番号とを対応付けた形態素構造情報から得られる番号であることを特徴とする。
本発明の他の態様に係る文構造ベクトル化方法は、入力文を形態素解析することで、複数の形態素を作成するステップと、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成するステップと、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を複数のベクトル値から構成される数値系列に変換することによって文構造ベクトルを作成するステップとを有し、前記複数のベクトル値の各々は、前記複数の部分構造情報に対応する複数の次元の各々における形態素構造番号の出現の個数であり、前記形態素構造番号は、Nを1以上の整数としたときに、N個の形態素の係り受け関係と複数の形態素構造番号とを対応付けた形態素構造情報から得られる番号であることを特徴とする。
本発明の一態様に係る文構造ベクトル化装置は、入力文を形態素解析することで、複数の形態素を作成する形態素解析部と、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する係り受け解析部と、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を複数のベクトル値から構成される数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部とを備え、前記複数のベクトル値の各々は、前記複数の部分構造情報に対応する複数の次元の各々における形態素構造番号の出現の個数であり、前記形態素構造番号は、Nを1以上の整数としたときに、N個の形態素の係り受け関係と複数の形態素構造番号とを対応付けた形態素構造情報から得られる番号であり、前記出現の個数は、前記複数の次元の各々における前記形態素構造番号が前記形態素構造情報内に存在する場合は1であり、前記複数の次元の各々における前記形態素構造番号が前記形態素構造情報内に存在しない場合は0であるか又は前記出現の個数を示す情報が省略されることを特徴とする。
本発明の他の態様に係る文構造ベクトル化方法は、コンピュータがソフトウェアとしてのプログラムを実行することによって、実行される文構造ベクトル化方法であって、入力文を形態素解析することで、複数の形態素を作成するステップと、前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成するステップと、前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を複数のベクトル値から構成される数値系列に変換することによって文構造ベクトルを作成するステップとを有し、前記複数のベクトル値の各々は、前記複数の部分構造情報に対応する複数の次元の各々における形態素構造番号の出現の個数であり、前記形態素構造番号は、Nを1以上の整数としたときに、N個の形態素の係り受け関係と複数の形態素構造番号とを対応付けた形態素構造情報から得られる番号であり、前記出現の個数は、前記複数の次元の各々における前記形態素構造番号が前記形態素構造情報内に存在する場合は1であり、前記複数の次元の各々における前記形態素構造番号が前記形態素構造情報内に存在しない場合は0であるか又は前記出現の個数を示す情報が省略されることを特徴とする。

Claims (9)

  1. 入力文を形態素解析することで、複数の形態素を作成する形態素解析部と、
    前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する係り受け解析部と、
    前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部と
    を備えたことを特徴とする文構造ベクトル化装置。
  2. 前記文構造ベクトル化部は、
    前記複数の形態素の各々と係り受け解析によって得られた係り受け関係を示す情報とのペアを含む複数の形態素情報を作成し、
    前記複数の形態素情報から前記複数の部分構造情報を抽出する
    ことを特徴とする請求項1に記載の文構造ベクトル化装置。
  3. Nを3以上の整数としたときに、前記複数の部分構造情報は、1個の形態素に関する1形態素構造情報からN個の形態素に関するN形態素構造情報までを含み、
    前記文構造ベクトル化部は、N−1形態素構造情報と2形態素構造情報とをマージする処理によって前記N形態素構造情報を作成する
    ことを特徴とする請求項1又は2に記載の文構造ベクトル化装置。
  4. 前記文構造ベクトルを記憶する記憶部をさらに備えたことを特徴とする請求項1から3のいずれか1項に記載の文構造ベクトル化装置。
  5. 前記文構造ベクトルを用いた処理を行う処理部をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の文構造ベクトル化装置。
  6. 前記処理部は、前記文構造ベクトルを用いて、検索対象文書から文書を検索する検索処理部を有することを特徴とする請求項5に記載の文構造ベクトル化装置。
  7. 前記処理部は、前記文構造ベクトルを用いて、検索対象文書の分類を行う分類処理部を有することを特徴とする請求項5又は6に記載の文構造ベクトル化装置。
  8. 入力文を形態素解析することで、複数の形態素を作成するステップと、
    前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成するステップと、
    前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成するステップと
    を有することを特徴とする文構造ベクトル化方法。
  9. 入力文を形態素解析することで、複数の形態素を作成する処理と、
    前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する処理と、
    前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する処理と
    をコンピュータに実行させることを特徴とする文構造ベクトル化プログラム。
JP2019537313A 2019-01-31 2019-01-31 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム Active JP6689466B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/003302 WO2020157887A1 (ja) 2019-01-31 2019-01-31 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム

Publications (2)

Publication Number Publication Date
JP6689466B1 JP6689466B1 (ja) 2020-04-28
JPWO2020157887A1 true JPWO2020157887A1 (ja) 2021-02-18

Family

ID=70413771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019537313A Active JP6689466B1 (ja) 2019-01-31 2019-01-31 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム

Country Status (5)

Country Link
US (1) US11842152B2 (ja)
JP (1) JP6689466B1 (ja)
CN (1) CN113330430B (ja)
DE (1) DE112019006523T5 (ja)
WO (1) WO2020157887A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489518B (zh) * 2022-03-28 2022-09-09 山东大学 测序数据质量控制方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5005127A (en) * 1987-10-26 1991-04-02 Sharp Kabushiki Kaisha System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
JPH02122370A (ja) * 1988-10-31 1990-05-10 Ricoh Co Ltd 構文解析方式
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JP2002014970A (ja) 2000-06-29 2002-01-18 Patolis Corp 言語横断型概念検索システム
JP3873135B2 (ja) * 2002-03-08 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、これを用いた情報処理システム及びプログラム
JP5117590B2 (ja) * 2011-03-23 2013-01-16 株式会社東芝 文書処理装置およびプログラム
JP5834795B2 (ja) * 2011-11-14 2015-12-24 富士ゼロックス株式会社 情報処理装置及びプログラム
KR20130099327A (ko) * 2012-02-29 2013-09-06 한국전자통신연구원 오픈 도메인 정보 추출 장치 및 방법
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
JP6433937B2 (ja) * 2016-05-06 2018-12-05 日本電信電話株式会社 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP6773585B2 (ja) * 2017-02-22 2020-10-21 株式会社エヌ・ティ・ティ・データ 文書処理装置、文書処理方法及びプログラム

Also Published As

Publication number Publication date
WO2020157887A1 (ja) 2020-08-06
CN113330430A (zh) 2021-08-31
DE112019006523T5 (de) 2021-09-23
JP6689466B1 (ja) 2020-04-28
CN113330430B (zh) 2024-01-09
US11842152B2 (en) 2023-12-12
US20210342534A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
JP5788015B2 (ja) 複数の粒度でのテキスト分割
US9483460B2 (en) Automated formation of specialized dictionaries
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR101246101B1 (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Klang et al. Linking, searching, and visualizing entities in wikipedia
JP4401269B2 (ja) 対訳判断装置及びプログラム
Hnin et al. Aspect level opinion mining for hotel reviews in Myanmar language
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
KR20200057206A (ko) 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190709

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200407

R150 Certificate of patent or registration of utility model

Ref document number: 6689466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250