KR101496885B1 - 문장 띄어쓰기 시스템 및 방법 - Google Patents
문장 띄어쓰기 시스템 및 방법 Download PDFInfo
- Publication number
- KR101496885B1 KR101496885B1 KR20080032348A KR20080032348A KR101496885B1 KR 101496885 B1 KR101496885 B1 KR 101496885B1 KR 20080032348 A KR20080032348 A KR 20080032348A KR 20080032348 A KR20080032348 A KR 20080032348A KR 101496885 B1 KR101496885 B1 KR 101496885B1
- Authority
- KR
- South Korea
- Prior art keywords
- probability value
- rule
- spacing
- value information
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
Claims (25)
- 정답 말뭉치와 상기 정답 말뭉치를 모두 붙여 쓴 오류 말뭉치를 획득하는 단계와, 상기 정답 말뭉치로부터 자질들을 추출하여 확률 값 정보를 생성하는 단계와, 상기 확률 값 정보를 상기 오류 말뭉치에 적용한 결과물로부터 오류 보정 규칙을 생성하는 단계로 구성되는 학습 과정과,사용자가 입력한 문장(이하 사용자 입력 문장)에 상기 확률 값 정보와 상기 오류 보정 규칙 집합을 순차적으로 적용하여 띄어쓰기가 보정된 사용자 입력 문장을 출력하는 적용 과정을 포함하며,상기 오류 보정 규칙을 생성하는 단계는,상기 오류 말뭉치에 상기 확률 값 정보와 확률 모델을 적용하여 1차 띄어쓰기 말뭉치를 생성하는 1차 띄어쓰기 단계와,상기 1차 띄어쓰기 말뭉치로부터 보정이 필요한 지점을 추출하여 후보 규칙들을 생성하는 후보 규칙 생성 단계와,각각의 상기 후보 규칙에 대한 신뢰 점수를 산출하고, 산출된 상기 신뢰 점수를 기반으로 하여 상기 후보 규칙들 중 상기 오류 보정 규칙을 선택하는 규칙 선택 단계를 포함하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 1 항에 있어서, 상기 확률 값 정보를 생성하는 단계는상기 추출한 자질들을 저장하는 단계와,상기 오류 말뭉치에 상기 추출된 자질들과 확률 모델을 적용하여 상기 확률 값 정보를 생성하는 확률 값 정보 생성 단계를 포함하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 2 항에 있어서, 상기 자질 추출 단계는,상기 정답 말뭉치에서 1-gram(uni-gram)으로 자질을 추출하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 3 항에 있어서, 상기 자질 추출 단계는,띄어쓰기 지점에서 앞 3음절과 뒤 2음절로 이루어지는 5음절로 자질을 추출 하는 단계인 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 3 항에 있어서, 상기 자질 추출 단계는,숫자, 특수 기호, 외래 문자를 포함하는 특수 문자는 일반화된 문자로 정의하며 추출하는 단계인 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 3 항에 있어서, 상기 확률 값 정보 생성부는,CRFs(Conditional Random Fields) 확률 모델을 이용하여 상기 확률 값 정보를 생성하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 6 항에 있어서, 상기 확률 값 정보 생성 단계는 수학식 1을 상기 확률 모델로 이용하는 것을 특징으로 하는 문장 띄어쓰기 방법.수학식 1S 1 ,m : m+1개의 음절로 구성된 문장의 띄어쓰기 정보(대상 지점에서 띄어야 하면 1, 그렇지 않으면 0).F 1,m : S l,m을 결정하기 위한 대상 지점에서의 uni-gram 자질.f k (S i-1, S i k, F i ,t) : 자동 띄어쓰기를 위한 자질 함수(해당 자질이 나타나면 1, 그렇지 않으면 0).Z(F) : 정규화 요소.λ k : 각 자질 함수에 부여된 가중치.
- 삭제
- 제 1 항에 있어서, 상기 후보 규칙 생성 단계는,2-gram 이상으로 상기 후보 규칙들을 생성하는 단계인 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 1 항에 있어서, 상기 규칙 선택 단계는,상기 후보 규칙들과, 상기 정답 말뭉치를 비교하여 각각의 상기 후보 규칙에 대한 상기 신뢰 점수를 산출하는 단계를 포함하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 11 항에 있어서, 상기 규칙 선택 단계는,상기 신뢰 점수가 1.0 이상이고, 상기 Positive(Rule)이 상기 Negative(Rule)의 2배 이상인 후보 규칙들만을 선택하는 단계인 것을 특징으로 하 는 문장 띄어쓰기 방법.
- 제 1 항에 있어서, 상기 적용 과정은,상기 사용자 입력 문장을 입력 받는 단계와,상기 사용자 입력 문장에 상기 확률 값 정보의 확률 값을 적용하며 1차 띄어쓰기 문장을 생성하는 단계와,상기 1차 띄어쓰기 문장에 상기 오류 보정 규칙을 적용하여 2차 띄어쓰기 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 13 항에 있어서, 상기 1차 띄어쓰기 문장을 생성하는 단계는,상기 사용자 입력 문장으로부터 uni-gram으로 자질을 추출하는 단계와,상기 추출된 자질에 대응하는 상기 확률 값을 기반으로 하여 띄어쓰기 여부를 판단하고, 판단 결과에 따라 띄어쓰기를 수행하는 단계를 포함하는 것을 특징으로 하는 문장 띄어쓰기 방법.
- 제 13 항에 있어서, 상기 2차 띄어쓰기 문장을 생성하는 단계는,보정이 필요한 지점에 대해, 대응하는 상기 오류 보정 규칙들 중 상기 신뢰 점수가 가장 큰 오류 보정 규칙만을 적용하는 단계인 것을 특징으로 하는 문장 띄어쓰기 방법.
- 정답 말뭉치와 상기 정답 말뭉치를 모두 붙여 쓴 오류 말뭉치를 획득하고, 상기 정답 말뭉치로부터 자질들을 추출하여 확률 값 정보를 생성하는 상기 확률 값 정보 생성부와, 상기 확률 값 정보를 상기 오류 말뭉치에 적용한 결과물로부터 오류 보정 규칙을 생성하는 보정 규칙 생성부를 포함하는 학습부; 및사용자가 입력한 문장(이하 사용자 입력 문장)에 상기 확률 값 정보와 상기 오류 보정 규칙 집합을 순차적으로 적용하여 띄어쓰기가 보정된 상기 사용자 입력 문장을 출력하는 적용부;를 포함하며,상기 보정 규칙 생성부는, 오류 말뭉치에 상기 확률 값 정보와 확률 모델을 적용하여 1차 띄어쓰기 말뭉치를 생성하고, 상기 1차 띄어쓰기 말뭉치로부터 보정이 필요한 지점을 추출하여 후보 규칙들을 생성하고, 각각의 상기 후보 규칙에 대한 신뢰 점수를 산출하여 산출된 상기 신뢰 점수를 기반으로 하여 상기 후보 규칙들 중 상기 오류 보정 규칙을 생성 및 저장하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 16 항에 있어서, 상기 확률 값 정보 생성부는,상기 정답 말뭉치로부터 추출한 자질들을 저장하고, 상기 오류 말뭉치에 상기 추출된 자질들과 확률 모델을 적용하여 상기 확률 값 정보를 생성 및 저장하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 16 항에 있어서, 상기 확률 값 정보 생성부는,상기 정답 말뭉치에서 1-gram(uni-gram)으로 자질을 추출하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 17 항에 있어서, 상기 확률 값 정보 생성부는,CRFs(Conditional Random Fields) 확률 모델을 이용하여 상기 확률 값 정보를 생성하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 삭제
- 제 16 항에 있어서, 상기 보정 규칙 생성부는,상기 후보 규칙들과, 상기 정답 말뭉치를 비교하여 각각의 상기 후보 규칙에 대한 상기 신뢰 점수를 산출하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 16 항에 있어서, 상기 적용부는,상기 확률 값 정보를 상기 사용자 입력 문장에 적용하여 1차 띄어쓰기 문장을 생성하는 1차 적용부;상기 1차 띄어쓰기 문장에 상기 오류 보정 규칙을 적용하여 보정된 사용자 입력 문장을 생성하는 2차 적용부;를 포함하여 구성되는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 22 항에 있어서, 상기 1차 적용부는,상기 사용자 입력 문장으로부터 uni-gram으로 자질을 추출하고, 상기 추출된 자질에 대응하는 상기 확률 값 정보를 기반으로 하여 띄어쓰기 여부를 판단하며, 판단 결과에 따라 띄어쓰기를 수행하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 22 항에 있어서, 상기 2차 적용부는,상기 1차 띄어쓰기 문장 중 보정이 필요한 지점에 대해, 대응하는 상기 오류 보정 규칙들 중 상기 신뢰 점수가 가장 큰 오류 보정 규칙만을 적용하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
- 제 22 항에 있어서,상기 확률 값 정보 및 상기 오류 보정 규칙들이 저장되는 저장부를 더 포함하는 것을 특징으로 하는 문장 띄어쓰기 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080032348A KR101496885B1 (ko) | 2008-04-07 | 2008-04-07 | 문장 띄어쓰기 시스템 및 방법 |
US12/419,594 US8234232B2 (en) | 2008-04-07 | 2009-04-07 | Word-spacing correction system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080032348A KR101496885B1 (ko) | 2008-04-07 | 2008-04-07 | 문장 띄어쓰기 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090106936A KR20090106936A (ko) | 2009-10-12 |
KR101496885B1 true KR101496885B1 (ko) | 2015-02-27 |
Family
ID=41134168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20080032348A Expired - Fee Related KR101496885B1 (ko) | 2008-04-07 | 2008-04-07 | 문장 띄어쓰기 시스템 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8234232B2 (ko) |
KR (1) | KR101496885B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190080833A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 음성 정보 기반 언어 모델링 시스템 및 방법 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8640026B2 (en) | 2011-07-11 | 2014-01-28 | International Business Machines Corporation | Word correction in a multi-touch environment |
GB201216640D0 (en) | 2012-09-18 | 2012-10-31 | Touchtype Ltd | Formatting module, system and method for formatting an electronic character sequence |
US8601359B1 (en) * | 2012-09-21 | 2013-12-03 | Google Inc. | Preventing autocorrect from modifying URLs |
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
CN103605642B (zh) * | 2013-11-12 | 2016-06-15 | 清华大学 | 一种面向文本输入的自动纠错方法与系统 |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
CN109190124B (zh) * | 2018-09-14 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
US12153890B2 (en) * | 2018-11-21 | 2024-11-26 | Intuit Inc. | Generating anomaly-detection rules for communication protocols |
KR102117895B1 (ko) * | 2018-11-28 | 2020-06-02 | 주식회사 이르테크 | Stand-off 주석을 이용한 언어학습용 작문오류 교정장치 및 방법 |
KR102217621B1 (ko) * | 2019-01-02 | 2021-02-19 | 주식회사 카카오 | 사용자 발화의 오류를 교정하는 방법 및 장치 |
US20210373509A1 (en) * | 2020-05-28 | 2021-12-02 | Johnson Controls Technology Company | Building system with string mapping based on a statistical model |
US11693374B2 (en) | 2020-05-28 | 2023-07-04 | Johnson Controls Tyco IP Holdings LLP | Building system with string mapping based on a sequence to sequence neural network |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040089774A (ko) * | 2003-04-15 | 2004-10-22 | 한국전자통신연구원 | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 |
KR20070060862A (ko) * | 2005-12-09 | 2007-06-13 | 한국전자통신연구원 | 학습 데이터 구축 장치 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060150A1 (en) * | 2003-09-15 | 2005-03-17 | Microsoft Corporation | Unsupervised training for overlapping ambiguity resolution in word segmentation |
-
2008
- 2008-04-07 KR KR20080032348A patent/KR101496885B1/ko not_active Expired - Fee Related
-
2009
- 2009-04-07 US US12/419,594 patent/US8234232B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040089774A (ko) * | 2003-04-15 | 2004-10-22 | 한국전자통신연구원 | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 |
KR20070060862A (ko) * | 2005-12-09 | 2007-06-13 | 한국전자통신연구원 | 학습 데이터 구축 장치 및 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190080833A (ko) | 2019-06-18 | 2019-07-08 | 엘지전자 주식회사 | 음성 정보 기반 언어 모델링 시스템 및 방법 |
US11056100B2 (en) | 2019-06-18 | 2021-07-06 | Lg Electronics Inc. | Acoustic information based language modeling system and method |
Also Published As
Publication number | Publication date |
---|---|
US8234232B2 (en) | 2012-07-31 |
KR20090106936A (ko) | 2009-10-12 |
US20090254501A1 (en) | 2009-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101496885B1 (ko) | 문장 띄어쓰기 시스템 및 방법 | |
KR101491581B1 (ko) | 철자 오류 보정 시스템 및 방법 | |
US8275618B2 (en) | Mobile dictation correction user interface | |
US6343270B1 (en) | Method for increasing dialect precision and usability in speech recognition and text-to-speech systems | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
US20230326446A1 (en) | Method, apparatus, storage medium, and electronic device for speech synthesis | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
KR20210154705A (ko) | 시맨틱 매칭 방법, 장치, 기기 및 저장 매체 | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
CN103140889B (zh) | 语音转换装置、便携电话终端、语音转换方法 | |
WO2006030302A1 (en) | Optimization of text-based training set selection for language processing modules | |
WO2013014877A1 (ja) | 信頼度算出装置、翻訳信頼度算出利用方法および翻訳エンジン用プログラム | |
EP4073789B1 (en) | Alphanumeric sequence biasing for automatic speech recognition | |
JP2006031228A (ja) | 形態素解析装置、方法及びプログラム | |
US20180130465A1 (en) | Apparatus and method for correcting pronunciation by contextual recognition | |
KR101627428B1 (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN104538032B (zh) | 一种融合用户反馈的汉语语音识别方法及系统 | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
CN114822519A (zh) | 中文语音识别纠错方法、装置及电子设备 | |
CN111209746B (zh) | 自然语言处理方法、装置、存储介质及电子设备 | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
US7831549B2 (en) | Optimization of text-based training set selection for language processing modules | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN112149417A (zh) | 词性标注方法和装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20080407 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20130403 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20080407 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20140623 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20150205 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20150223 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20150224 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20180130 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20180130 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200217 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20200217 Start annual number: 6 End annual number: 6 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20211206 |