JPWO2020157887A1 - 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム - Google Patents
文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム Download PDFInfo
- Publication number
- JPWO2020157887A1 JPWO2020157887A1 JP2019537313A JP2019537313A JPWO2020157887A1 JP WO2020157887 A1 JPWO2020157887 A1 JP WO2020157887A1 JP 2019537313 A JP2019537313 A JP 2019537313A JP 2019537313 A JP2019537313 A JP 2019537313A JP WO2020157887 A1 JPWO2020157887 A1 JP WO2020157887A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- morpheme
- sentence structure
- dependency
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 36
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 57
- 230000000877 morphologic effect Effects 0.000 claims abstract description 51
- 238000010586 diagram Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
先ず、本発明の実施の形態1に係る文構造ベクトル化装置100の構成を説明する。図1は、実施の形態1に係る文構造ベクトル化装置100のハードウェア構成の例を示す図である。図1に示される例では、文構造ベクトル化装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、文構造ベクトル化プログラムを格納するメモリ20と、メモリ20に格納されたプログラムを実行する演算処理部としてのプロセッサ10とを備えている。プロセッサ10は、CPU(Central Processing Unit)などの情報処理回路である。メモリ20は、例えば、RAM(Random Access Memory)などの揮発性の記憶装置である。文構造ベクトル化装置100は、例えば、コンピュータである。
ステップS101において、図5に示される入力文200が形態素解析部110に入力されると、形態素解析部110は、入力文200すなわちテキストを形態素解析して、形態素解析の結果を出力する。
次のステップS102において、図6に示される形態素解析の結果210が係り受け解析部120に入力されると、係り受け解析部120は、形態素解析の結果210に対する係り受け解析を行う。
図9は、図7に示される形態素と係り受け関係とのペアの情報である形態素情報1を、文字順にソートして得られた情報を示す図である。ここでは、文字順は、アルファベット順である。文構造ベクトル化部130は、形態素と係り受け関係のペアの情報である形態素情報1を、文字順にソートして、形態素情報1にNグラム番号を付与する。Nは正の整数である。Nグラム番号は、1オリジンで(すなわち、1から数え始めて)、図9に示されるように、昇順に付与される。図9には、N=1の場合、すなわち、1グラムの場合が示されている。1グラムは、ユニグラムを意味する。図9に示される情報は、メモリ(例えば、図1におけるメモリ20又は記憶装置50)に記憶される。例えば、形態素情報「boy.nsubj」は、形態素「boy」と係り受け関係「nsubj」のペアによって構成される形態素情報である。以上の処理によって、図9に示されるNグラム番号1〜4の情報300がメモリに記憶される。
図10(a)から(d)は、抽出された2個の形態素に関する情報に、リナンバー形態素番号とリナンバー係り受け番号とを付与することで作成された情報を示す図である。文構造ベクトル化部130は、入力文の各形態素から、係り受け関係にある2個の形態素の情報を抽出する処理を行う。この処理は、入力文のすべての形態素について行われる。ここでは、この処理が、図7に示される形態素番号1〜4の形態素について行われる場合を説明する。
図11は、文構造ベクトル化部130によって、図10(a)から(d)に示される情報から作成された情報を示す図である。文構造ベクトル化部130は、図10(a)から(d)に示される情報230,240,250,260の各々から2個の形態素における、形態素と係り受け関係とのペアの情報である形態素情報を、文字順にソートして得られた情報を、Nグラム番号が1グラム番号であるときに記憶した情報に追加して、メモリに記憶させる。図11には、N=2の場合、すなわち、2グラムの場合が示されている。2グラムは、バイグラムを意味する。
次に、文構造ベクトル化部130は、処理対象とする形態素の数をNとして処理を行う。例えば、Nを3以上の整数としたときに、複数の部分構造情報は、1個の形態素に関する1形態素構造情報からN個の形態素に関するN形態素構造情報までを含み、文構造ベクトル化部130は、N−1形態素構造情報と2形態素構造情報とをマージする処理によってN形態素構造情報を作成する。
図14は、文構造ベクトル化部130によって、N個のペアの情報から作成された情報を示す図である。図14には、N=3の場合、すなわち、3グラムの場合が示されている。3グラムは、トライグラムを意味する。図14では、N個のペアの情報は、形態素情報1〜3である。文構造ベクトル化部130は、文字順にソートすることによってNグラム番号としてN−1グラムで記憶したメモリに追加して記憶させる。次に、文構造ベクトル化部130は、図13(a)から(e)に示される形態素と係り受け関係とのN個のペアの情報を文字順にソートすることによって得られた情報に、Nグラム番号を付与して得られた情報を、図11に示される情報に追加して、メモリに記憶させる。
次のステップS108において、文構造ベクトル化部130は、すべての文についての処理が終了したか否かを判定する。すべての文についての処理が完了していれば、判断はYESになり、処理は、ステップS109に進み、処理が完了していなければ、判断はNOになり、Nを1インクリメントして、処理は、ステップS106に戻る。
図16は、図9から図15の情報から抽出された文構造ベクトル化に関する情報の例を示す図である。図16は、文構造ベクトル化部130によって抽出された、ベクトルの次元に対するベクトル値Vkを示している。文構造ベクトル化部130は、ベクトル値Vkからなる数値系列を文構造ベクトルとして出力する。
上記実施の形態1では、入力文をベクトル化する文構造ベクトル化装置100を説明した。実施の形態2では、上記実施の形態1に係る文構造ベクトル化装置100によって作成された文構造ベクトルを用いて文書検索又は文書分類を行うことを可能にした文構造ベクトル化装置100aを説明する。文構造ベクトル化装置100aによれば、従来弁別できなかった高精度な文書検索又は文書分類を行うことができる。
Claims (9)
- 入力文を形態素解析することで、複数の形態素を作成する形態素解析部と、
前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する係り受け解析部と、
前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する文構造ベクトル化部と
を備えたことを特徴とする文構造ベクトル化装置。 - 前記文構造ベクトル化部は、
前記複数の形態素の各々と係り受け解析によって得られた係り受け関係を示す情報とのペアを含む複数の形態素情報を作成し、
前記複数の形態素情報から前記複数の部分構造情報を抽出する
ことを特徴とする請求項1に記載の文構造ベクトル化装置。 - Nを3以上の整数としたときに、前記複数の部分構造情報は、1個の形態素に関する1形態素構造情報からN個の形態素に関するN形態素構造情報までを含み、
前記文構造ベクトル化部は、N−1形態素構造情報と2形態素構造情報とをマージする処理によって前記N形態素構造情報を作成する
ことを特徴とする請求項1又は2に記載の文構造ベクトル化装置。 - 前記文構造ベクトルを記憶する記憶部をさらに備えたことを特徴とする請求項1から3のいずれか1項に記載の文構造ベクトル化装置。
- 前記文構造ベクトルを用いた処理を行う処理部をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の文構造ベクトル化装置。
- 前記処理部は、前記文構造ベクトルを用いて、検索対象文書から文書を検索する検索処理部を有することを特徴とする請求項5に記載の文構造ベクトル化装置。
- 前記処理部は、前記文構造ベクトルを用いて、検索対象文書の分類を行う分類処理部を有することを特徴とする請求項5又は6に記載の文構造ベクトル化装置。
- 入力文を形態素解析することで、複数の形態素を作成するステップと、
前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成するステップと、
前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成するステップと
を有することを特徴とする文構造ベクトル化方法。 - 入力文を形態素解析することで、複数の形態素を作成する処理と、
前記複数の形態素を係り受け解析することで、前記複数の形態素に関する依存構造グラフを作成する処理と、
前記依存構造グラフから複数の部分構造情報を抽出し、前記複数の部分構造情報に対応する形態素列を数値系列に変換することによって文構造ベクトルを作成する処理と
をコンピュータに実行させることを特徴とする文構造ベクトル化プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/003302 WO2020157887A1 (ja) | 2019-01-31 | 2019-01-31 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6689466B1 JP6689466B1 (ja) | 2020-04-28 |
JPWO2020157887A1 true JPWO2020157887A1 (ja) | 2021-02-18 |
Family
ID=70413771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019537313A Active JP6689466B1 (ja) | 2019-01-31 | 2019-01-31 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11842152B2 (ja) |
JP (1) | JP6689466B1 (ja) |
CN (1) | CN113330430B (ja) |
DE (1) | DE112019006523T5 (ja) |
WO (1) | WO2020157887A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489518B (zh) * | 2022-03-28 | 2022-09-09 | 山东大学 | 测序数据质量控制方法及系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5005127A (en) * | 1987-10-26 | 1991-04-02 | Sharp Kabushiki Kaisha | System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules |
JPH02122370A (ja) * | 1988-10-31 | 1990-05-10 | Ricoh Co Ltd | 構文解析方式 |
JP2855409B2 (ja) * | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JP2002014970A (ja) | 2000-06-29 | 2002-01-18 | Patolis Corp | 言語横断型概念検索システム |
JP3873135B2 (ja) * | 2002-03-08 | 2007-01-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ処理方法、これを用いた情報処理システム及びプログラム |
JP5117590B2 (ja) * | 2011-03-23 | 2013-01-16 | 株式会社東芝 | 文書処理装置およびプログラム |
JP5834795B2 (ja) * | 2011-11-14 | 2015-12-24 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
KR20130099327A (ko) * | 2012-02-29 | 2013-09-06 | 한국전자통신연구원 | 오픈 도메인 정보 추출 장치 및 방법 |
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
JP6433937B2 (ja) * | 2016-05-06 | 2018-12-05 | 日本電信電話株式会社 | キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム |
JP6773585B2 (ja) * | 2017-02-22 | 2020-10-21 | 株式会社エヌ・ティ・ティ・データ | 文書処理装置、文書処理方法及びプログラム |
-
2019
- 2019-01-31 CN CN201980086927.2A patent/CN113330430B/zh active Active
- 2019-01-31 DE DE112019006523.8T patent/DE112019006523T5/de active Pending
- 2019-01-31 WO PCT/JP2019/003302 patent/WO2020157887A1/ja active Application Filing
- 2019-01-31 JP JP2019537313A patent/JP6689466B1/ja active Active
-
2021
- 2021-07-16 US US17/378,543 patent/US11842152B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2020157887A1 (ja) | 2020-08-06 |
CN113330430A (zh) | 2021-08-31 |
DE112019006523T5 (de) | 2021-09-23 |
JP6689466B1 (ja) | 2020-04-28 |
CN113330430B (zh) | 2024-01-09 |
US11842152B2 (en) | 2023-12-12 |
US20210342534A1 (en) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6643555B2 (ja) | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
JP5788015B2 (ja) | 複数の粒度でのテキスト分割 | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP6077727B1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
KR101246101B1 (ko) | 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법 | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
Hnin et al. | Aspect level opinion mining for hotel reviews in Myanmar language | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
KR20200057206A (ko) | 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템 | |
JP5998779B2 (ja) | 検索装置、検索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190709 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190709 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190709 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200407 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6689466 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |