JPWO2012081386A1 - 自然言語処理装置、方法、及びプログラム - Google Patents
自然言語処理装置、方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2012081386A1 JPWO2012081386A1 JP2012530022A JP2012530022A JPWO2012081386A1 JP WO2012081386 A1 JPWO2012081386 A1 JP WO2012081386A1 JP 2012530022 A JP2012530022 A JP 2012530022A JP 2012530022 A JP2012530022 A JP 2012530022A JP WO2012081386 A1 JPWO2012081386 A1 JP WO2012081386A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- different
- pattern
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
・単語の表記をそのまま使って異なり部分を見ることは、ほぼすべての解析データを見ることに等しく効率的ではない。
・未知語があった場合には、異なる種類の形態素解析器においてそれぞれ特殊な品詞パターンができるものと考えられる。
・形態素解析器では、出現頻度が高い語は辞書に登録されているはずであり、未知語は低頻度のパターンに含まれることが多いと考えられるので、頻度を基準に考えることは理にかなっている。
(基準1)品詞の同定のみ誤っているもの
(基準2)形態素の過分割であると判断されるもの
(基準3)未知語が含まれていると判断できるもの
(基準4)未知語が含まれていないと判断できるもの
(基準5)出力された差異検出部分の周辺を含めて未知語と判断されるもの
(基準6)表記誤り・文区切り誤りなどの、入力に依存した結果であるもの
Claims (10)
- 共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
を備える自然言語処理装置。 - 前記複数種類の形態素解析器の間で、各形態素解析器に格納されている辞書の内容が異なる、
請求項1に記載の自然言語処理装置。 - 前記複数種類の形態素解析器の間で、前記辞書に収録されている単語の個数が異なる、請求項2に記載の自然言語処理装置。
- 前記複数種類の形態素解析器の間で、前記辞書に収録されている前記品詞の体系が異なる、
請求項2又は3に記載の自然言語処理装置。 - 前記複数種類の形態素解析器の間で、各形態素解析器に格納されている単語間の接続ルールが異なる、
請求項1〜4の何れか一項に記載の自然言語処理装置。 - 前記複数種類の形態素解析器の間で、前記単語間の接続に対して設定されるスコアが異なる、
請求項5に記載の自然言語処理装置。 - 前記複数種類の形態素解析器の間で、前記単語間の接続に関するスコア適用のルールが異なる、
請求項5又は6に記載の自然言語処理装置。 - 自然言語処理装置により実行される自然言語処理方法であって、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得ステップと、
前記結果取得ステップにおいて取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得ステップと、
前記パターン取得ステップにおいて取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶手段に記憶する記憶ステップと、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定ステップと
を含むことを特徴とする自然言語処理方法。 - コンピュータを、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
して機能させる自然言語処理プログラム。 - コンピュータを、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
して機能させる自然言語処理プログラムを記憶したコンピュータ読取可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201061424283P | 2010-12-17 | 2010-12-17 | |
US61/424,283 | 2010-12-17 | ||
PCT/JP2011/077418 WO2012081386A1 (ja) | 2010-12-17 | 2011-11-28 | 自然言語処理装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5314195B2 JP5314195B2 (ja) | 2013-10-16 |
JPWO2012081386A1 true JPWO2012081386A1 (ja) | 2014-05-22 |
Family
ID=46244497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012530022A Active JP5314195B2 (ja) | 2010-12-17 | 2011-11-28 | 自然言語処理装置、方法、及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US8880391B2 (ja) |
EP (1) | EP2653981A4 (ja) |
JP (1) | JP5314195B2 (ja) |
KR (1) | KR101364321B1 (ja) |
CN (1) | CN103038762B (ja) |
WO (1) | WO2012081386A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015129044A1 (ja) * | 2014-02-28 | 2015-09-03 | 楽天株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
JP6074820B2 (ja) * | 2015-01-23 | 2017-02-08 | 国立研究開発法人情報通信研究機構 | アノテーション補助装置及びそのためのコンピュータプログラム |
JP2016170750A (ja) | 2015-03-16 | 2016-09-23 | 富士通株式会社 | データ管理プログラム、情報処理装置およびデータ管理方法 |
JP2017004127A (ja) | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
WO2017163346A1 (ja) * | 2016-03-23 | 2017-09-28 | 株式会社野村総合研究所 | 文章解析システム及びプログラム |
US11507743B2 (en) * | 2017-02-28 | 2022-11-22 | Nice Ltd. | System and method for automatic key phrase extraction rule generation |
CN108388547A (zh) * | 2018-02-24 | 2018-08-10 | 平安科技(深圳)有限公司 | 字符串解析方法、装置、设备及计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
JPH09223143A (ja) * | 1996-02-16 | 1997-08-26 | Fujitsu Ltd | 文書情報処理装置 |
JP3777456B2 (ja) * | 1996-04-23 | 2006-05-24 | 日本電信電話株式会社 | 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置 |
JP2002297589A (ja) * | 2001-03-30 | 2002-10-11 | Ricoh Co Ltd | 未知語収集方法 |
CN101539907B (zh) * | 2008-03-19 | 2013-01-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
JP5286125B2 (ja) * | 2009-03-24 | 2013-09-11 | Kddi株式会社 | 単語境界決定装置および形態素解析装置 |
CN101706777B (zh) * | 2009-11-10 | 2011-07-06 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
-
2011
- 2011-11-28 EP EP11848486.4A patent/EP2653981A4/en not_active Ceased
- 2011-11-28 WO PCT/JP2011/077418 patent/WO2012081386A1/ja active Application Filing
- 2011-11-28 CN CN201180026465.9A patent/CN103038762B/zh active Active
- 2011-11-28 US US13/581,660 patent/US8880391B2/en active Active
- 2011-11-28 JP JP2012530022A patent/JP5314195B2/ja active Active
- 2011-11-28 KR KR1020127022742A patent/KR101364321B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CN103038762B (zh) | 2015-05-20 |
CN103038762A (zh) | 2013-04-10 |
EP2653981A4 (en) | 2018-01-17 |
KR20120123122A (ko) | 2012-11-07 |
JP5314195B2 (ja) | 2013-10-16 |
WO2012081386A1 (ja) | 2012-06-21 |
EP2653981A1 (en) | 2013-10-23 |
US8880391B2 (en) | 2014-11-04 |
KR101364321B1 (ko) | 2014-02-18 |
US20130262085A1 (en) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5314195B2 (ja) | 自然言語処理装置、方法、及びプログラム | |
CN109416705B (zh) | 利用语料库中可用的信息用于数据解析和预测 | |
US8170868B2 (en) | Extracting lexical features for classifying native and non-native language usage style | |
Elfardy et al. | Token level identification of linguistic code switching | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
US8639496B2 (en) | System and method for identifying phrases in text | |
Brooke et al. | Measuring Interlanguage: Native Language Identification with L1-influence Metrics. | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
Fetahu et al. | Multiconer v2: a large multilingual dataset for fine-grained and noisy named entity recognition | |
CN107148624A (zh) | 预处理文本的方法以及用于执行该方法的预处理系统 | |
Barrett et al. | Cross-lingual transfer of correlations between parts of speech and gaze features | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP2008299675A (ja) | かな混在表記抽出装置、方法及びプログラム | |
Boulaknadel et al. | Amazighe Named Entity Recognition using a A rule based approach | |
Bergsma et al. | Predicting the semantic compositionality of prefix verbs | |
CN113642739B (zh) | 敏感词屏蔽质量评估模型的训练方法及相应的评估方法 | |
TWI667579B (zh) | 處理文書之資訊處理裝置、資訊處理方法及用來處理文書的程式 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
Nguyen-Son et al. | Identifying adversarial sentences by analyzing text complexity | |
KR20080049764A (ko) | 주석화된 코퍼스의 분할화 오류를 탐지하는 방법 | |
Martynov et al. | Augmentation methods for spelling corruptions | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
Dash et al. | Decomposition of Inflected Verbs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5314195 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |