KR100749289B1 - 텍스트의 자동 세그멘테이션 방법 및 시스템 - Google Patents
텍스트의 자동 세그멘테이션 방법 및 시스템 Download PDFInfo
- Publication number
- KR100749289B1 KR100749289B1 KR1020007008357A KR20007008357A KR100749289B1 KR 100749289 B1 KR100749289 B1 KR 100749289B1 KR 1020007008357 A KR1020007008357 A KR 1020007008357A KR 20007008357 A KR20007008357 A KR 20007008357A KR 100749289 B1 KR100749289 B1 KR 100749289B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- words
- string
- sequence
- input string
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
Description
본 발명의 이러한 특징 및 다른 특징은 도면에 도시된 실시예를 참조하면 명백하게 알 수 있다.
Unknown_word_score=penalty + weight *[min_unigram*char_no*unigram_weight+Length_prob*length_weight]가 양호한데 여기서,
Claims (13)
- 연결된 텍스트를 단어들로 세그멘팅하는 방법으로서,- 상기 연결된 텍스트를 나타내는 입력 스트링을 판독하는 단계;- 상기 입력 스트링을 사전 내의 단어들과 비교함으로써 상기 입력 스트링 내의 분리된 단어들의 적어도 하나의 시퀀스를 식별하는 단계; 및- 상기 식별된 단어 시퀀스들 중 적어도 하나를 출력하는 단계를 포함하는 상기 세그멘팅 방법에 있어서,적어도 하나의 단어 시퀀스를 식별하는 상기 단계는,상기 입력 스트링을 워킹 스트링(working string)으로서 취함으로써 반복적인 방식으로 상기 입력 스트링 내에 단어 시퀀스(들)을 나타내는 트리 구조를 구성(build)하는 단계로서,사전의 각각의 단어에 대해;상기 단어를 상기 워킹 스트링의 선두(beginning)와 비교하고,상기 단어가 상기 워킹 스트링의 선두와 매칭하는 경우,상기 단어를 나타내는 트리 내의 노드를 형성하고,상기 단어의 끝 위치에 바로 인접한 위치에서 시작하는 상기 입력 스트링의 부분을 상기 노드와 관련시키고,상기 관련된 부분을 상기 워킹 스트링으로서 이용함으로써 상기 노드와 관련된 상기 입력 스트링의 부분 내에 단어 시퀀스(들)을 나타내는, 상기 노드에 링크된 서브 트리를 형성하는, 상기 트리 구조를 구성하는 단계;상기 트리 구조를 관통하는 적어도 하나의 경로가 상기 입력 스트링 전체와 매칭하는 단어 시퀀스를 나타내는지를 체크하는 단계; 및만약 그렇다면, 발견된 경로에 의해 나타내어지는 단어 시퀀스를 식별된 단어 시퀀스로서 사용하는 단계를 포함하는 것을 특징으로 하는, 세그멘팅 방법.
- 제 1 항에 있어서,상기 방법은, 새로운 단어가 상기 트리 구조에 추가되었는지 여부를 결정하는 미리 결정된 기준에 의존하여,새로운 단어들이 추가되는 경우,관련된 단어가 새로운 단어에 앞서는, 상기 트리 내에 적어도 하나의 노드를 선택하는 단계;복수의 새로운 단어를 형성하는 단계로서, 새로운 단어들 각각은 상기 선택된 노드에 관련된 상기 입력 스트링의 선두와 매칭하고, 상이한 수의 문자들로 구성되는, 상기 새로운 단어를 형성하는 단계; 및각각의 형성된 새로운 단어에 대해, 선택된 노드에 링크된 각각의 서브 트리를 형성하는 단계로서, 각각의 서브 트리는 상기 선택된 노드와 관련된 상기 입력 스트링 부분 내의 상기 각각의 새로운 단어로 시작하는 단어 시퀀스(들)을 나타내는, 상기 서브 트리를 형성하는 단계를 더 포함하는, 세그멘팅 방법.
- 제 2 항에 있어서,상기 방법은, 상기 트리 구조를 관통하는 적어도 하나의 경로가 상기 입력 스트링 전체와 매칭하는 단어 시퀀스를 나타내는지 여부를 체크하는 단계로서, 상기 단어 시퀀스는 상기 사전의 단어만을 포함하는, 상기 체크하는 단계; 및상기 결과가 부정인 경우 새로운 단어들을 추가하기 위해 상기 미리 결정된 기준을 이용하는 단계를 더 포함하는, 세그멘팅 방법.
- 제 3 항에 있어서,관련된 단어가 새로운 단어에 앞서는, 트리 내의 적어도 하나의 노드를 선택하는 상기 단계는 상기 입력 스트링 전체와 매칭하는 것은 아닌 단어 시퀀스를 나타내는 트리를 관통하는 적어도 하나의 경로를 식별하고, 상기 식별된 경로의 끝 노드를 선택된 노드로서 이용하는 단계를 포함하는, 세그멘팅 방법.
- 제 2 항에 있어서,상기 방법은, 각각의 워킹 스트링에 대해,상기 사전의 다수의 단어가 상기 워킹 스트링의 선두와 얼마나 매칭하는지를 결정하는 단계;상기 워킹 스트링의 선두와 매칭하는 상기 사전의 단어들의 수가 미리 결정된 임계값보다 낮은 새로운 단어를 추가하기 위해 상기 미리 결정된 기준을 이용하는 단계; 및관련된 단어가 새로운 단어에 앞서는 상기 트리내의 노드로서 상기 워킹 스트링과 관련된 노드를 선택하는 단계를 포함하는, 세그멘팅 방법.
- 제 5 항에 있어서,상기 임계값이 1 인, 세그멘팅 방법.
- 제 2 항에 있어서,상기 방법은, 트리 구조를 구성하는 중에 각각의 단어 시퀀스에 대해 상기 시퀀스내의 새로운 단어들의 수를 카운트하고, 새로운 단어의 상기 카운트된 수가 미리 결정된 임계값을 초과하는 경우 상기 단어 시퀀스를 나타내는 경로를 따라 상기 트리 구조를 확장하는 것을 종료하는 단계를 더 포함하는, 세그멘팅 방법.
- 제 2 항에 있어서,상기 방법은, 상기 트리 구조를 구성하는 중에 각각의 단어 시퀀스에 대한 가능성(likelihood)을 계산하고, 상기 대응하는 단어 시퀀스의 상기 가능성이 미리 결정된 임계값 보다 낮은 경우 상기 단어 시퀀스를 나타내는 경로를 따라 상기 트리 구조를 확장하는 것을 종료하는 단계를 더 포함하는, 세그멘팅 방법.
- 제 8 항에 있어서,상기 단어 시퀀스의 가능성은 상기 단어 시퀀스에서 새로운 단어의 수의 함수로서 감소시키는, 세그멘팅 방법.
- 제 2 항에 있어서,새로운 단어를 형성하는 상기 단계는 K 단어들(K>1)까지 형성하는 단계를 포함하며, 각각의 단어는 상기 워킹 스트링의 선두 문자로 각각 시작하고, 워킹 스트링의 상기 선두 문자들의 1 내지 K를 각각 포함하는 것을 특징으로 하는, 세그멘팅 방법.
- 제 1 항에 있어서,상기 트리에 의해 나타내어진 상기 단어 시퀀스 중 적어도 하나를 출력하는 상기 단계는, 상기 트리를 관통하는 상기 경로들 중 하나를 선택하는 단계를 포함하고, 경로들은 상기 경로의 끝 노드에 의해 나타내어진 단어가 상기 입력 스트링의 끝과 매칭하는지를 고려하는 것을 특징으로 하는, 세그멘팅 방법.
- 삭제
- 연결된 텍스트를 단어들로 세그멘팅하는 시스템으로서,- 상기 연결된 텍스트를 나타내는 입력 스트링을 판독하는 수단;- 상기 입력 스트링을 사전 내의 단어들과 비교함으로써 상기 입력 스트링 내의 분리된 단어들의 적어도 하나의 시퀀스를 식별하는 수단; 및- 상기 식별된 단어 시퀀스들 중 적어도 하나를 출력하는 수단을 포함하는, 상기 세그멘팅 시스템에 있어서,적어도 하나의 단어 시퀀스를 식별하는 상기 수단은,상기 입력 스트링을 워킹 스트링으로서 취함으로써 반복적인 방식으로 상기 입력 스트링 내에 단어 시퀀스(들)을 나타내는 트리 구조를 구성(build)하고, 사전의 각각의 단어에 대해;상기 단어를 상기 워킹 스트링의 선두와 비교하고,상기 단어가 상기 워킹 스트링의 선두와 매칭하는 경우,상기 단어를 나타내는 트리 내의 노드를 형성하고,상기 단어의 끝 위치에 바로 인접한 위치에서 시작하는 상기 입력 스트링의 부분을 상기 노드와 관련시키고,상기 관련된 부분을 상기 워킹 스트링으로서 이용함으로써 상기 노드와 관련된 상기 입력 스트링 부분 내에 단어 시퀀스를 나타내는, 상기 노드에 링크된 서브 트리를 형성하며;상기 트리 구조를 관통하는 적어도 하나의 경로가 상기 입력 스트링 전체와 매칭하는 단어 시퀀스를 나타내는지를 체크하고;만약 그렇다면, 발견된 경로에 의해 나타내어지는 단어 시퀀스를 식별된 단어 시퀀스로서 사용하도록 동작하는 것을 특징으로 하는, 세그멘팅 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP98204038.8 | 1998-11-30 | ||
EP98204038 | 1998-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010040499A KR20010040499A (ko) | 2001-05-15 |
KR100749289B1 true KR100749289B1 (ko) | 2007-08-14 |
Family
ID=8234407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020007008357A KR100749289B1 (ko) | 1998-11-30 | 1999-11-18 | 텍스트의 자동 세그멘테이션 방법 및 시스템 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6374210B1 (ko) |
JP (1) | JP4302326B2 (ko) |
KR (1) | KR100749289B1 (ko) |
CN (1) | CN1143232C (ko) |
BE (1) | BE1012417A3 (ko) |
TW (1) | TW448381B (ko) |
WO (1) | WO2000033211A2 (ko) |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694055B2 (en) | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US6904402B1 (en) * | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US7403888B1 (en) * | 1999-11-05 | 2008-07-22 | Microsoft Corporation | Language input user interface |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7165019B1 (en) | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6678409B1 (en) * | 2000-01-14 | 2004-01-13 | Microsoft Corporation | Parameterized word segmentation of unsegmented text |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
US7047493B1 (en) | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
JP2002032770A (ja) * | 2000-06-23 | 2002-01-31 | Internatl Business Mach Corp <Ibm> | 文書処理方法、文書処理システムおよび媒体 |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
US7092871B2 (en) * | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US7092870B1 (en) * | 2000-09-15 | 2006-08-15 | International Business Machines Corporation | System and method for managing a textual archive using semantic units |
US6934683B2 (en) * | 2001-01-31 | 2005-08-23 | Microsoft Corporation | Disambiguation language model |
DE10200704A1 (de) * | 2001-08-24 | 2003-03-20 | Jong Won Park | Elektronisches Wörterbuchsystem mit Baumstruktur und dessen Ausgabe |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
US7136803B2 (en) | 2001-09-25 | 2006-11-14 | Apple Computer, Inc. | Japanese virtual dictionary |
US7613601B2 (en) * | 2001-12-26 | 2009-11-03 | National Institute Of Information And Communications Technology | Method for predicting negative example, system for detecting incorrect wording using negative example prediction |
AU2002320280A1 (en) * | 2002-07-03 | 2004-01-23 | Iotapi., Com, Inc. | Text-machine code, system and method |
US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
US7024408B2 (en) | 2002-07-03 | 2006-04-04 | Word Data Corp. | Text-classification code, system and method |
US7181451B2 (en) * | 2002-07-03 | 2007-02-20 | Word Data Corp. | Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library |
US7016895B2 (en) | 2002-07-05 | 2006-03-21 | Word Data Corp. | Text-classification system and method |
US20040006547A1 (en) * | 2002-07-03 | 2004-01-08 | Dehlinger Peter J. | Text-processing database |
US7386442B2 (en) * | 2002-07-03 | 2008-06-10 | Word Data Corp. | Code, system and method for representing a natural-language text in a form suitable for text manipulation |
US20040006459A1 (en) * | 2002-07-05 | 2004-01-08 | Dehlinger Peter J. | Text-searching system and method |
US20040054520A1 (en) * | 2002-07-05 | 2004-03-18 | Dehlinger Peter J. | Text-searching code, system and method |
US7493253B1 (en) * | 2002-07-12 | 2009-02-17 | Language And Computing, Inc. | Conceptual world representation natural language understanding system and method |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
US6823493B2 (en) * | 2003-01-23 | 2004-11-23 | Aurilab, Llc | Word recognition consistency check and error correction system and method |
US7493251B2 (en) * | 2003-05-30 | 2009-02-17 | Microsoft Corporation | Using source-channel models for word segmentation |
US7890852B2 (en) | 2003-06-26 | 2011-02-15 | International Business Machines Corporation | Rich text handling for a web application |
US20050060150A1 (en) * | 2003-09-15 | 2005-03-17 | Microsoft Corporation | Unsupervised training for overlapping ambiguity resolution in word segmentation |
US20060101018A1 (en) * | 2004-11-08 | 2006-05-11 | Mazzagatti Jane C | Method for processing new sequences being recorded into an interlocking trees datastore |
US20070162272A1 (en) * | 2004-01-16 | 2007-07-12 | Nec Corporation | Text-processing method, program, program recording medium, and device thereof |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
JP4301102B2 (ja) * | 2004-07-22 | 2009-07-22 | ソニー株式会社 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
US20060047656A1 (en) * | 2004-09-01 | 2006-03-02 | Dehlinger Peter J | Code, system, and method for retrieving text material from a library of documents |
US7539611B1 (en) * | 2004-11-19 | 2009-05-26 | Wyckoff Richard O | Method of identifying and highlighting text |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US7584093B2 (en) * | 2005-04-25 | 2009-09-01 | Microsoft Corporation | Method and system for generating spelling suggestions |
US8170289B1 (en) * | 2005-09-21 | 2012-05-01 | Google Inc. | Hierarchical alignment of character sequences representing text of same source |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US20070078644A1 (en) * | 2005-09-30 | 2007-04-05 | Microsoft Corporation | Detecting segmentation errors in an annotated corpus |
US20070083357A1 (en) * | 2005-10-03 | 2007-04-12 | Moore Robert C | Weighted linear model |
US7957953B2 (en) | 2005-10-03 | 2011-06-07 | Microsoft Corporation | Weighted linear bilingual word alignment model |
US8321220B1 (en) * | 2005-11-30 | 2012-11-27 | At&T Intellectual Property Ii, L.P. | System and method of semi-supervised learning for spoken language understanding using semantic role labeling |
MX2008010554A (es) | 2006-02-17 | 2008-10-29 | Lumex As | Metodo y sistema para la verificacion de palabras reconocidas de manera incierta en un sistema ocr. |
US7831911B2 (en) | 2006-03-08 | 2010-11-09 | Microsoft Corporation | Spell checking system including a phonetic speller |
US9772981B2 (en) * | 2006-03-29 | 2017-09-26 | EMC IP Holding Company LLC | Combined content indexing and data reduction |
CN101075230B (zh) * | 2006-05-18 | 2011-11-16 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
US20080065370A1 (en) * | 2006-09-11 | 2008-03-13 | Takashi Kimoto | Support apparatus for object-oriented analysis and design |
US8428932B2 (en) * | 2006-12-13 | 2013-04-23 | Nathan S. Ross | Connected text data stream comprising coordinate logic to identify and validate segmented words in the connected text |
JP4446313B2 (ja) * | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
US8631005B2 (en) * | 2006-12-28 | 2014-01-14 | Ebay Inc. | Header-token driven automatic text segmentation |
KR20100029221A (ko) * | 2007-06-01 | 2010-03-16 | 구글 인코포레이티드 | 명칭 엔터티와 신규 단어를 검출하는 것 |
CN101114282B (zh) * | 2007-07-12 | 2010-05-26 | 华为技术有限公司 | 一种分词处理方法及设备 |
US8014604B2 (en) * | 2008-04-16 | 2011-09-06 | International Business Machines Corporation | OCR of books by word recognition |
US8666729B1 (en) * | 2010-02-10 | 2014-03-04 | West Corporation | Processing natural language grammar |
US8738360B2 (en) | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
US8311806B2 (en) * | 2008-06-06 | 2012-11-13 | Apple Inc. | Data detection in a sequence of tokens using decision tree reductions |
EP2144189A3 (en) | 2008-07-10 | 2014-03-05 | Samsung Electronics Co., Ltd. | Method for recognizing and translating characters in camera-based image |
KR101588890B1 (ko) * | 2008-07-10 | 2016-01-27 | 삼성전자주식회사 | 카메라 기반 영상의 문자 인식 및 번역 방법 |
US8301437B2 (en) | 2008-07-24 | 2012-10-30 | Yahoo! Inc. | Tokenization platform |
CN101676898B (zh) * | 2008-09-17 | 2011-12-07 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
US20140372119A1 (en) * | 2008-09-26 | 2014-12-18 | Google, Inc. | Compounded Text Segmentation |
US8296125B2 (en) * | 2008-10-17 | 2012-10-23 | International Business Machines Corporation | Translating source locale input string to target locale output string |
CN101430680B (zh) | 2008-12-31 | 2011-01-19 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
US8527270B2 (en) | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) * | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8977538B2 (en) | 2010-09-13 | 2015-03-10 | Richard Salisbury | Constructing and analyzing a word graph |
CN102819524B (zh) * | 2011-09-08 | 2015-06-03 | 金蝶软件(中国)有限公司 | 基于关键字的字符序列分割方法及装置 |
US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
US8819574B2 (en) * | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
CN103870442A (zh) * | 2012-12-17 | 2014-06-18 | 鸿富锦精密工业(深圳)有限公司 | 中文简繁体转换系统及方法 |
US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
CN104076940A (zh) * | 2013-03-27 | 2014-10-01 | 北京千橡网景科技发展有限公司 | 一种辅助输入方法和设备 |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
US10216783B2 (en) * | 2014-10-02 | 2019-02-26 | Microsoft Technology Licensing, Llc | Segmenting data with included separators |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
JP6631930B2 (ja) * | 2017-02-07 | 2020-01-15 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
CN107451127B (zh) * | 2017-07-04 | 2020-11-06 | 广东小天才科技有限公司 | 一种基于图像的单词翻译方法及系统、移动设备 |
US10866928B2 (en) * | 2018-09-10 | 2020-12-15 | Netapp, Inc. | Methods for optimized variable-size deduplication using two stage content-defined chunking and devices thereof |
CN110020422B (zh) * | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
US10943143B2 (en) * | 2018-12-28 | 2021-03-09 | Paypal, Inc. | Algorithm for scoring partial matches between words |
CN110069624B (zh) * | 2019-04-28 | 2021-05-04 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5268840A (en) * | 1992-04-30 | 1993-12-07 | Industrial Technology Research Institute | Method and system for morphologizing text |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5448474A (en) | 1993-03-03 | 1995-09-05 | International Business Machines Corporation | Method for isolation of Chinese words from connected Chinese text |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
JP2001505330A (ja) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | テキストストリーム中の単語の切れ目を与える方法及び装置 |
-
1999
- 1999-11-18 KR KR1020007008357A patent/KR100749289B1/ko not_active IP Right Cessation
- 1999-11-18 JP JP2000585784A patent/JP4302326B2/ja not_active Expired - Lifetime
- 1999-11-18 WO PCT/EP1999/008942 patent/WO2000033211A2/en active Application Filing
- 1999-11-18 CN CNB998044237A patent/CN1143232C/zh not_active Expired - Lifetime
- 1999-11-24 US US09/449,231 patent/US6374210B1/en not_active Expired - Fee Related
- 1999-11-30 BE BE9900773A patent/BE1012417A3/nl not_active Expired - Fee Related
- 1999-12-09 TW TW088121572A patent/TW448381B/zh not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5268840A (en) * | 1992-04-30 | 1993-12-07 | Industrial Technology Research Institute | Method and system for morphologizing text |
Also Published As
Publication number | Publication date |
---|---|
KR20010040499A (ko) | 2001-05-15 |
JP2002531892A (ja) | 2002-09-24 |
WO2000033211A3 (en) | 2000-09-08 |
BE1012417A3 (nl) | 2000-10-03 |
WO2000033211A2 (en) | 2000-06-08 |
CN1328672A (zh) | 2001-12-26 |
CN1143232C (zh) | 2004-03-24 |
US6374210B1 (en) | 2002-04-16 |
TW448381B (en) | 2001-08-01 |
JP4302326B2 (ja) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100749289B1 (ko) | 텍스트의 자동 세그멘테이션 방법 및 시스템 | |
US10552533B2 (en) | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces | |
Ward et al. | Recent improvements in the CMU spoken language understanding system | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
US6983239B1 (en) | Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser | |
EP0830668B1 (en) | Systems and methods for word recognition | |
US6823307B1 (en) | Language model based on the speech recognition history | |
EP0950240B1 (en) | Selection of superwords based on criteria relevant to both speech recognition and understanding | |
WO2007097176A1 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
Hakkinen et al. | N-gram and decision tree based language identification for written words | |
EP2315134A1 (en) | Search device, search index creating device, and search system | |
Bazzi et al. | Learning units for domain-independent out-of-vocabulary word modelling. | |
EP0425291A2 (en) | Word recognition process and apparatus | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
EP0469485B1 (en) | Language processing system using an expanded LR parser | |
KR100908444B1 (ko) | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 | |
US20060206301A1 (en) | Determining the reading of a kanji word | |
Jardino et al. | A first evaluation campaign for language models | |
JPH01114976A (ja) | 文書処理装置の辞書構造 | |
Hatazaki et al. | A linguistic processor for Japanese continuous speech recognition | |
Marek | Phonological changes between Old and Middle English (an algorithmic approach) | |
JPH0546612A (ja) | 文章誤り検出装置 | |
JPH11175522A (ja) | 自然言語処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120727 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130723 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140722 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150716 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160727 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170726 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |