JPWO2013128684A1 - 辞書生成装置、方法、及びプログラム - Google Patents
辞書生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2013128684A1 JPWO2013128684A1 JP2013515598A JP2013515598A JPWO2013128684A1 JP WO2013128684 A1 JPWO2013128684 A1 JP WO2013128684A1 JP 2013515598 A JP2013515598 A JP 2013515598A JP 2013515598 A JP2013515598 A JP 2013515598A JP WO2013128684 A1 JPWO2013128684 A1 JP WO2013128684A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- text
- unit
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
Description
テキスト(文字列)x=x1x2…xn(x1,x2,…,xnは文字)には、単語境界タグb=b1b2…bnが割り当てられる。ここで、biは文字xiとxi+1との間(文字間位置)に単語境界が存在するか否かを表すタグであり、bi=1は分割を、bi=0は非分割を、それぞれ意味する。ここで、このタグbiで示される値は分割の強度であるとも言える。
日本語には、単語境界を一意に決めるのが難しい単語が存在し、適切な単語分割の態様が場面によって異なるという問題がある。一例として、「ボールペン(bo−rupen)」(英語では「ballpoint pen」)という単語を含んだテキスト集合に対してキーワード検索を行う場合を想定する。もし「ボールペン(bo−rupen)」を分割しない場合には、「ペン(pen)」(英語では「pen」)というキーワードで検索してもテキストが抽出されないことになる(再現率の低下)。一方、「ボールペン(bo−rupen)」を「ボール(bo−ru)」(英語では「ball」)と「ペン(pen)」とに分割した場合には、スポーツ用品である「ボール(bo−ru)」をキーワードとした検索により、「ボールペン(bo−rupen)」を含むテキストが抽出されてしまう(精度の低下)。
wo katta)というテキストは、上記の点推定による単語分割と3段階単語分割コーパスとを用いて例えば図3に示すように分割される。図3の例では、「分割」(bi=1)の単語境界タグは、テキストの先頭や、「ン(n)」と「を(wo)」の間などに付与されている。「半分割」(bi=0.5)の単語境界タグは「ル(ru)」と「ペ(pe)」の間に付与されている。図3では「非分割」(bi=0)の単語境界タグを省略しているが、文字間に境界が表されていない箇所(例えば「ペ(pe)」と「ン(n)」の間)には当該タグが付与される。
ここで、O1は単語wの表記の出現を示しており、下記の通りに定義される。
Prec=NCOR/NSYS
Rec=NCOR=NREF
F=2Prec・Rec/(Prec+Rec)
Claims (14)
- 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
前記選択部により選択された単語を前記辞書に登録する登録部と
を備える辞書生成装置。 - 前記選択部が、前記解析部により付与された前記境界情報から算出される各単語の出現頻度に基づいて、前記辞書に登録する単語を選択する、
請求項1に記載の辞書生成装置。 - 前記選択部が、前記出現頻度が所定の閾値以上である単語を選択する、
請求項2に記載の辞書生成装置。 - 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
前記登録部が、前記選択部により選択された単語を前記単語群が記録されている辞書に追加する、
請求項3に記載の辞書生成装置。 - 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
請求項3に記載の辞書生成装置。 - 前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
請求項3に記載の辞書生成装置。 - 前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度の高さに応じて該登録候補の単語をグループ化し、
前記登録部が、前記選択部により生成された複数のグループを、前記単語群が記録されている辞書とは別の複数の辞書に個別に登録する、
請求項3に記載の辞書生成装置。 - 前記収集されたテキストのそれぞれには、該テキストの分野を示す情報が関連付けられており、
前記登録部が、前記選択部により選択された単語を、該単語が含まれていたテキストの分野に基づいて、前記分野毎に用意された辞書に個別に登録する、
請求項3に記載の辞書生成装置。 - 前記境界情報が、文字間位置に前記境界が存在しないことを示す第1の情報と、文字間位置に前記境界が存在することを示す第2の情報と、文字間位置に前記境界が確率的に存在することを示す第3の情報とを含み、
各単語の出現頻度が前記第1、第2、及び第3の情報に基づいて算出される、
請求項2〜8のいずれか一項に記載の辞書生成装置。 - 前記解析部が、第1の二値分類器及び第2の二値分類器を備え、
前記第1の二値分類器が、各文字間位置について、前記第1の情報を割り当てるか前記第1の情報以外の情報を割り当てるかを判定し、
前記第2の二値分類器が、前記第1の二値分類器により前記第1の情報以外の情報を割り当てると判定された文字間位置について、前記第2の情報を割り当てるか前記第3の情報を割り当てるかを判定する、
請求項9に記載の辞書生成装置。 - 前記収集されたテキストの集合が複数のグループに分割され、
前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの一つに基づく処理を実行した後に、前記モデル生成部が前記コーパス、前記単語群、及び前記登録部により登録された単語を用いて前記単語分割モデルを生成し、続いて、前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの別の一つに基づく処理を実行する、請求項1〜10のいずれか一項に記載の辞書生成装置。 - 辞書生成装置により実行される辞書生成方法であって、
予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成ステップと、
収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析ステップと、
前記解析ステップにおいて前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、
前記選択ステップにおいて選択された単語を前記辞書に登録する登録ステップと
を含む辞書生成方法。 - 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
前記選択部により選択された単語を前記辞書に登録する登録部と
をコンピュータに実行させる辞書生成プログラム。 - 予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
前記選択部により選択された単語を前記辞書に登録する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261604266P | 2012-02-28 | 2012-02-28 | |
US61/604266 | 2012-02-28 | ||
PCT/JP2012/072350 WO2013128684A1 (ja) | 2012-02-28 | 2012-09-03 | 辞書生成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5373998B1 JP5373998B1 (ja) | 2013-12-18 |
JPWO2013128684A1 true JPWO2013128684A1 (ja) | 2015-07-30 |
Family
ID=49081915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013515598A Active JP5373998B1 (ja) | 2012-02-28 | 2012-09-03 | 辞書生成装置、方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP5373998B1 (ja) |
KR (1) | KR101379128B1 (ja) |
CN (1) | CN103608805B (ja) |
TW (1) | TWI452475B (ja) |
WO (1) | WO2013128684A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701133B (zh) * | 2014-11-28 | 2021-03-30 | 方正国际软件(北京)有限公司 | 一种地址输入的方法和设备 |
JP6813776B2 (ja) * | 2016-10-27 | 2021-01-13 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、その制御方法及びプログラム |
JP6707483B2 (ja) * | 2017-03-09 | 2020-06-10 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
EP3446241A4 (en) * | 2017-06-20 | 2019-11-06 | Accenture Global Solutions Limited | AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS |
JP2019049873A (ja) * | 2017-09-11 | 2019-03-28 | 株式会社Screenホールディングス | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 |
CN109033183B (zh) * | 2018-06-27 | 2021-06-25 | 清远墨墨教育科技有限公司 | 一种可编辑的云词库的解析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3777456B2 (ja) * | 1996-04-23 | 2006-05-24 | 日本電信電話株式会社 | 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置 |
CN1086821C (zh) * | 1998-08-13 | 2002-06-26 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
JP2002351870A (ja) * | 2001-05-29 | 2002-12-06 | Communication Research Laboratory | 形態素の解析方法 |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
JP5073349B2 (ja) | 2007-04-05 | 2012-11-14 | ヤフー株式会社 | 専門用語抽出装置、方法及びプログラム |
-
2012
- 2012-09-03 KR KR1020137030410A patent/KR101379128B1/ko active IP Right Grant
- 2012-09-03 CN CN201280030052.2A patent/CN103608805B/zh active Active
- 2012-09-03 JP JP2013515598A patent/JP5373998B1/ja active Active
- 2012-09-03 WO PCT/JP2012/072350 patent/WO2013128684A1/ja active Application Filing
- 2012-09-13 TW TW101133547A patent/TWI452475B/zh active
Also Published As
Publication number | Publication date |
---|---|
TWI452475B (zh) | 2014-09-11 |
WO2013128684A1 (ja) | 2013-09-06 |
KR20130137048A (ko) | 2013-12-13 |
TW201335776A (zh) | 2013-09-01 |
JP5373998B1 (ja) | 2013-12-18 |
CN103608805A (zh) | 2014-02-26 |
CN103608805B (zh) | 2016-09-07 |
KR101379128B1 (ko) | 2014-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
JP5373998B1 (ja) | 辞書生成装置、方法、及びプログラム | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
JP5834883B2 (ja) | 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム | |
US11514034B2 (en) | Conversion of natural language query | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
US20190347511A1 (en) | Genealogy item ranking and recommendation | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
JP6186198B2 (ja) | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
CN103218388A (zh) | 文档相似性评价系统、文档相似性评价方法以及计算机程序 | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
Di Castro et al. | Automated extractions for machine generated mail | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN111581162B (zh) | 一种基于本体的海量文献数据的聚类方法 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system | |
Winarti et al. | Improving stemming algorithm using morphological rules | |
Abu Hawas et al. | Rule-based approach for Arabic root extraction: new rules to directly extract roots of Arabic words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5373998 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |