KR101080880B1 - 외래어의 자동 음차 표기 방법 및 장치 - Google Patents
외래어의 자동 음차 표기 방법 및 장치 Download PDFInfo
- Publication number
- KR101080880B1 KR101080880B1 KR1020100011061A KR20100011061A KR101080880B1 KR 101080880 B1 KR101080880 B1 KR 101080880B1 KR 1020100011061 A KR1020100011061 A KR 1020100011061A KR 20100011061 A KR20100011061 A KR 20100011061A KR 101080880 B1 KR101080880 B1 KR 101080880B1
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- information
- notation
- target
- tuning fork
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims description 15
- 230000007935 neutral effect Effects 0.000 claims description 9
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2 내지 도 9는 본 발명에 따른 외래어의 자동 음차 표기 장치에 적용된 음소 단위 음차 표기 규칙과 음차 표기 정보의 예를 도시한 도면이고,
도 10은 본 발명에 따른 외래어의 자동 음차 표기 방법을 설명하기 위한 도면이다.
12 : 표기 규칙 추출부 13 : 표기 정보 생성부
14 : 음차 표기 생성부 15 : 음차 표기 출력부
16 : 표기 규칙 데이터베이스 17 : 표기 정보 데이터베이스
Claims (14)
- 외래어의 자동 음차 표기 방법에 있어서,
(a) 외래어를 구성하는 각 음소에 대한 타겟 음소 정보와, 상기 각 음소의 주변 음소에 대한 주변 음소 정보에 기초하여, 각 음소별로 복수의 음소 단위 음차 표기 규칙을 생성하는 단계와,
(b) 변환 대상 단어를 음소 단위로 분할하는 단계와,
(c) 상기 복수의 음소 단위 음차 표기 규칙으로부터 상기 분할된 각 음소에 해당하는 음소 단위 음차 표기 규칙을 추출하는 단계와,
(d) 상기 추출된 음소 단위 음차 표기 규칙에 따라 상기 분할된 각 음소에 대한 음차 표기 정보를 생성하는 단계와,
(e) 상기 생성된 음차 표기 정보에 기초하여 상기 변환 대상 단어에 대한 음차 표기를 생성하는 단계를 포함하며;
상기 타겟 음소 정보는,
상기 타겟 음소 정보의 대상이 되는 타겟 음소와,
상기 타겟 음소가 자음인지 모음인지에 대한 타겟 자모 정보와,
단어 내의 모음의 개수에 대한 모음 개수 정보와,
상기 타겟 음소가 단어 내에서 몇 번째 모음인지에 대한 모음 위치 정보를 포함하며;
상기 주변 음소 정보는,
상기 주변 음소 정보에 적용될 대상이 되는 타겟 주변 음소와, 상기 타겟 음소와 상기 타겟 주변 음소 간의 거리에 대한 주변 음소 거리 정보를 갖는 콘텍스트 정보와,
상기 타겟 주변 음소가 자음인지 모음인지에 대한 주변 자모 정보와,
상기 타겟 음소가 단어의 마지막 음소인지 여부에 대한 단어 말단 정보를 포함하는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 삭제
- 제1항에 있어서,
음소별로 생성되는 상기 복수의 음소 단위 음차 표기 규칙은 음소별로 기 설정된 우선 순위를 가지며;
상기 (c) 단계는,
(c1) 상기 추출된 음소가 상기 복수의 음소 단위 음차 표기 규칙 중 어느 하나에 부합하는지 여부를 상기 우선 순위에 따라 순차적으로 체크하는 단계와,
(c2) 상기 (c1) 단계의 수행 과정 중 상기 추출된 음소가 부합되는 최우선 순위의 어느 하나를 상기 분할된 음소에 해당하는 상기 음소 단위 음차 표기 규칙으로 추출하는 단계를 포함하는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 제3항에 있어서,
상기 타겟 주변 음소는 외래어 표기시 상기 타겟 음소의 주변에 표기되어 상기 타겟 음소의 발음을 가변시키는 음소로 설정되는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 제3항에 있어서,
상기 각 음소 단위 음차 표기 규칙은 음차 표기에 적용되는 고려 대상 정보와 음차 표기에 적용되지 않는 비고려 대상 정보에 기초하여 생성되며;
상기 모음 개수 정보, 상기 모음 위치 정보, 상기 콘텍스트 정보, 상기 주변 자모 정보 및 상기 단어 말단 정보는 음소별 및 음소 단위 음차 표기 규칙별로 상기 고려 대상 정보 또는 상기 비고려 대상 정보에 선택적으로 적용되는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 제5항에 있어서,
상기 모음 개수 정보는 단어 내에서 모음의 개수가 하나 또는 둘 이상인지 여부에 따라 이진 분류되는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 제3항에 있어서,
상기 (d) 단계에서 생성되는 상기 음차 표기 정보는,
상기 분할된 음소에 대해 표기될 음차 표기에 대한 적어도 하나의 단위 표기 정보와;
상기 각 단위 표기 정보가 초성, 중성 및 종성 중 어디에 속하는지 여부에 대한 삼성 정보와;
현재 생성되는 음차 표기 정보의 대상이 되는 음소 이후의 음소 중 상기 (c) 단계의 수행을 스킵(skip)할 적어도 하나의 음소에 대한 스킵 음소 정보를 포함하는 것을 특징으로 하는 외래어의 자동 음차 표기 방법. - 외래어의 자동 음차 표기 장치에 있어서,
외래어를 구성하는 각 음소에 대한 타겟 음소 정보와, 상기 각 음소의 주변 음소에 대한 주변 음소 정보에 기초하여 생성되되 각 음소별로 복수개로 마련되는 음소 단위 음차 표기 규칙이 저장된 표기 규칙 데이터베이스와,
상기 각 음소 단위 음차 표기 규칙에 대응하도록 마련된 음차 표기 정보가 저장된 표기 정보 데이터베이스와,
변환 대상 단어를 음소 단위로 분할하는 음소 분할부와,
상기 표기 규칙 데이터베이스로부터 상기 음소 분할부에 의해 분할된 각 음소에 대응하는 음소 단위 음차 표기 규칙을 추출하는 표기 규칙 추출부와,
상기 표기 규칙 추출부에 의해 추출된 상기 음소 단위 음차 표기 규칙에 대응하는 음차 표기 정보를 상기 표기 정보 데이터베이스로부터 추출하여 상기 각 음소에 대한 음차 표기 정보를 생성하는 표기 정보 생성부와,
상기 표기 정보 생성부에 의해 생성된 상기 음차 표기 정보에 기초하여 상기 변환 대상 단어에 대한 음차 표기를 생성하는 음차 표기 생성부를 포함하며;
상기 타겟 음소 정보는,
상기 타겟 음소 정보의 대상이 되는 타겟 음소와,
상기 타겟 음소가 자음인지 모음인지에 대한 타겟 자모 정보와,
단어 내의 모음의 개수에 대한 모음 개수 정보와,
상기 타겟 음소가 단어 내에서 몇 번째 모음인지에 대한 모음 위치 정보를 포함하며;
상기 주변 음소 정보는,
상기 주변 음소 정보에 적용될 대상이 되는 타겟 주변 음소와, 상기 타겟 음소와 상기 타겟 주변 음소 간의 거리에 대한 주변 음소 거리 정보를 갖는 콘텍스트 정보와,
상기 타겟 주변 음소가 자음인지 모음인지에 대한 주변 자모 정보와,
상기 타겟 음소가 단어의 마지막 음소인지 여부에 대한 단어 말단 정보를 포함하는 것을 특징으로 하는 외래어의 자동 음차 표기 장치. - 삭제
- 제8항에 있어서,
상기 표기 규칙 추출부는,
상기 추출된 음소가 상기 복수의 음소 단위 음차 표기 규칙 중 어느 하나에 부합되는지 여부를 각 음소별로 상기 복수의 음소 단위 음차 표기 규칙에 대해 기 설정된 우선 순위에 따라 순차적으로 체크하고;
상기 복수의 음소 단위 음차 표기 규칙 중 상기 추출된 음소가 부합되는 최우선 순위의 어느 하나를 상기 분할된 음소에 해당하는 상기 음소 단위 음차 표기 규칙으로 추출하는 것을 특징으로 하는 외래어의 자동 음차 표기 장치. - 제10항에 있어서,
상기 타겟 주변 음소는 외래어 표기시 상기 타겟 음소의 주변에 표기되어 상기 타겟 음소의 발음을 가변시키는 음소로 설정되는 것을 특징으로 하는 외래어의 자동 음차 표기 장치. - 제10항에 있어서,
상기 각 음소 단위 음차 표기 규칙은 음차 표기에 적용되는 고려 대상 정보와 음차 표기에 적용되지 않는 비고려 대상 정보에 기초하여 생성되며;
상기 모음 개수 정보, 상기 모음 위치 정보, 상기 콘텍스트 정보, 상기 주변 자모 정보 및 상기 단어 말단 정보는 음소별 및 음소 단위 음차 표기 규칙별로 상기 고려 대상 정보 또는 상기 비고려 대상 정보에 선택적으로 적용되는 것을 특징으로 하는 외래어의 자동 음차 표기 장치. - 제12항에 있어서,
상기 모음 개수 정보는 단어 내에서 모음의 개수가 하나 및 둘 이상인지 여부에 따라 이진 분류되는 것을 특징으로 하는 외래어의 자동 음차 표기 장치. - 제10항에 있어서,
상기 음차 표기 정보는,
상기 분할된 음소의 음차 표기 방식에 대한 적어도 하나의 단위 표기 정보와;
상기 각 단위 표기 정보가 초성, 중성 및 종성 중 어디에 속하는지 여부에 대한 삼성 정보와;
현재 생성되는 음차 표기 정보의 대상이 되는 음소 이후의 음소 중 상기 표기 규칙 추출부가 상기 음소 단위 음차 표기 규칙의 추출을 스킵(skip)할 적어도 하나의 음소에 대한 스킵 음소 정보를 포함하는 것을 특징으로 하는 외래어의 자동 음차 표기 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100011061A KR101080880B1 (ko) | 2010-02-05 | 2010-02-05 | 외래어의 자동 음차 표기 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100011061A KR101080880B1 (ko) | 2010-02-05 | 2010-02-05 | 외래어의 자동 음차 표기 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110091294A KR20110091294A (ko) | 2011-08-11 |
KR101080880B1 true KR101080880B1 (ko) | 2011-11-07 |
Family
ID=44928759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100011061A Expired - Fee Related KR101080880B1 (ko) | 2010-02-05 | 2010-02-05 | 외래어의 자동 음차 표기 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101080880B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102622609B1 (ko) * | 2022-06-10 | 2024-01-09 | 주식회사 딥브레인에이아이 | 문자소-음소 변환 장치 및 방법 |
-
2010
- 2010-02-05 KR KR1020100011061A patent/KR101080880B1/ko not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
"한국어 정보검색에서 외래어와 영어로 인한 단어불일치문제의 해결", 강병주, 한국과학기술원 박사학위논문, 2001년 5월 28일* |
Also Published As
Publication number | Publication date |
---|---|
KR20110091294A (ko) | 2011-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102199835B1 (ko) | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 | |
Slimane et al. | A new arabic printed text image database and evaluation protocols | |
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
Karim et al. | Technical challenges and design issues in bangla language processing | |
Younes et al. | Constructing linguistic resources for the Tunisian dialect using textual user-generated contents on the social web | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN110705262A (zh) | 一种改进的应用于医技检查报告的智能纠错方法 | |
Kirov et al. | Context-aware transliteration of romanized South Asian languages | |
CN116306597A (zh) | 一种中文拼写纠错方法 | |
KR100629862B1 (ko) | 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법 | |
KR101080880B1 (ko) | 외래어의 자동 음차 표기 방법 및 장치 | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
Masmoudi et al. | Automatic diacritization of tunisian dialect text using smt model | |
KR102182248B1 (ko) | 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램 | |
Dhindsa et al. | English to Hindi transliteration system using combination-based approach | |
JP2005250525A (ja) | 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
Dasgupta et al. | A joint source channel model for the English to Bengali back transliteration | |
Oladiipo et al. | Spelling error patterns in typed yorubá text documents | |
Buckley et al. | Using character n-grams to explorediachronic change in medieval english | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
JP3803253B2 (ja) | 漢字入力のための方法および装置 | |
Lu et al. | Language model for Mongolian polyphone proofreading | |
Brinckmann | Transcription bottleneck of speech corpus exploitation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20100205 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20110523 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20111026 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20111101 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20111101 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20151030 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20151030 Start annual number: 5 End annual number: 5 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20170811 |