KR100318763B1 - 외래어 음차표기 유사도 비교 방법 - Google Patents

외래어 음차표기 유사도 비교 방법 Download PDF

Info

Publication number
KR100318763B1
KR100318763B1 KR1019990036905A KR19990036905A KR100318763B1 KR 100318763 B1 KR100318763 B1 KR 100318763B1 KR 1019990036905 A KR1019990036905 A KR 1019990036905A KR 19990036905 A KR19990036905 A KR 19990036905A KR 100318763 B1 KR100318763 B1 KR 100318763B1
Authority
KR
South Korea
Prior art keywords
consonants
consonant
code
notation
similarity
Prior art date
Application number
KR1019990036905A
Other languages
English (en)
Other versions
KR20010025857A (ko
Inventor
최기선
강병주
이재성
Original Assignee
윤덕용
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤덕용, 한국과학기술원 filed Critical 윤덕용
Priority to KR1019990036905A priority Critical patent/KR100318763B1/ko
Priority to US09/578,371 priority patent/US7010487B1/en
Publication of KR20010025857A publication Critical patent/KR20010025857A/ko
Application granted granted Critical
Publication of KR100318763B1 publication Critical patent/KR100318763B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 외래어에 대한 음차표기 유사도를 비교 판단하는 방법에 관한 것으로 특히, 입력되는 문자의 표기데이터를 자음과 모음을 분리하여 자소 단위로 분리한 후 첫글자 초성 'ㅇ'을 제외한 모든 초성 'ㅇ'을 제거하는 제 1과정과, 제 1과정을 통해 초성 'ㅇ'이 제거된 자소의 나열순서에서 동일자음이 연속되는 경우 나열 순서에서 빠른 순서에 위치하는 해당 자음을 제거하는 제 2과정과, 제 2과정을 통해 중복되는 자음을 제거한 후 첫 글자 초성을 기설정된 대표 자음으로 변환하는 제 3과정과, 제 3과정을 통해 대표자음으로 첫 글자 초성을 변화시킨 후 나머지 자음에 대하여 기설정된 자음 코드로 치환하는 제 4과정과, 제 4과정을 통해 코드화 된 자음 코드중 종성-초성 관계에 있는 중복코드에서 종성에 해당하는 코드를 제거하는 제 5과정, 및 제 5과정을 통해 중복코드가 제거되어진 후 기 설정되어 있는 표준 외래어 음차표기에 대한 코드화 데이터와 비교하여 동일한 경우 동일 음차표기인 것으로 판단하는 제 6과정을 포함하는 것을 특징으로 하는 외래어 음차표기 유사도 비교 방법를 제공하여 외래어 음차표기가 혼재되어 있는 각 자료 혹은 색인어를 혼동없이 빠르게 검색할 수 있으며 한국어에 적합한 유사표기를 검색할 수 있는 기준을 제공한다.

Description

외래어 음차표기 유사도 비교 방법{The similarity comparitive method of foreign language a tunning fork transcription }
본 발명은 외래어에 대한 음차표기 유사도를 비교 판단하는 방법에 관한 것으로 특히, 영어권에서 보편적으로 사용되고 있는 영어 발음 유사도 비교 알고리즘을 기초로 다양하게 표현되는 외래어의 음차표기 유사도 비교 방법에 관한 것이다.
최근 외국과의 교류가 증대함에 따라서 한국어 문서에 많은 외국어의 음차표기가 사용되고 있다. 대부분의 음차표기는 주로 영어에서 온 고유명사나 전문용어이다. 특히 과학 기술 분야의 경우는 영어 전문용어 대한 한국어 번역이 없어 음차표기를 사용할 수밖에 없는 경우가 허다하다.
하지만, 외국어에 대한 음차 표기에 개인차가 심하여 이들 텍스트에 대한 문서검색에 어려움을 주고 있다. 예를 들어 영어 'digital'에 대해 '디지털', '디지탈', '디지틀' 등의 세 가지 음차표기가 혼용되어 사용되고 있다. '디지털'이 표준표기이지만 실제로는 '디지탈'이 더욱 빈번히 사용되고 있고 '디지틀'도 간혹 사용되고 있다.
상술한 바와 같은 음차 표기 혼용에 따른 문제는 다양한 음차 표기를 포함하는 문서들에 대한 문서검색에서 이를 고려하지 않을 경우 실제로 검색되어야 하는 문서가 검색되지 못하는 경우가 많이 발생하게 된다는 것으로. 이를 해결하는 한 가지 방법은 색인 시에 동일한 대상 언어의 단어를 표시하는 다양한 한국어 음차표기를 같은 등가부류 (equivalence class)로 묶어서 색인하여 놓았다가 질의 시에 이를 자동으로 확장해 주는 것이다[참조문헌: Jeong, K. S., Kwon, Y. H., and Myaeng, S. H., 'The Effect of a Proper Handling of Foreign and English Words in Retrieving Korean Text', InProceedings of the 2nd International Workshop on Information Retrieval with Asian Languages(IRAL’97), 1997.].
이러한 등가부류를 만들기 위해서는 어떠한 두 음차표기가 같은 외국어에서 온 것인지 알아내는 방법, 즉 음차표기 사이의 유사도 비교 방법이 필요하다.
또한, 음차표기 유사도 비교방법은 음차표기(외래어) 데이터 베이스에서 근사 검색 (approximate search)을 하는데도 반드시 필요한 기술이다. 예를 들어 외래어로 된 상호명 또는 상품명 검색에 유용하게 사용될 수 있을 것이다.
그러나, 한국어가 표음문자이기 때문에 발음과 표기가 일치하여 같은 발음에 대해 표기의 애매성이 그다지 심각하지 않기 때문에 한국어 음차표기 유사도 비교 방법은 지금까지 개발된 적이 없고, 따라서, 외국어의 음차표기의 경우의 검색 및 자료관리를 위한 사용자는 매우 큰 불편을 감수하여야 하는 문제점이 발생되었다.
상기와 같은 문제점을 해소하기 위한 본 발명의 목적은 영어권에서 보편적으로 사용되고 있는 영어 발음 유사도 비교 알고리즘을 기초로 다양하게 표현되는 외래어의 음차표기 유사도 비교 방법을 제공하는 데 있다.
도 1은 본 발명에 따른 외래어 음차표기 유사도 비교 동작 순서도
상기 목적을 달성하기 위한 본 발명의 특징은, 입력되는 문자의 표기데이터를 자음과 모음을 분리하여 자소 단위로 분리한 후 첫글자 초성 'ㅇ'을 제외한 모든 초성 'ㅇ'을 제거하는 제 1과정과, 상기 제 1과정을 통해 초성 'ㅇ'이 제거된 자소의 나열순서에서 동일자음이 연속되는 경우 나열 순서에서 빠른 순서에 위치하는 해당 자음을 제거하는 제 2과정과, 상기 제 2과정을 통해 중복되는 자음을 제거한 후 첫 글자 초성을 기설정된 대표 자음으로 변환하는 제 3과정과, 상기 제 3과정을 통해 대표자음으로 첫 글자 초성을 변화시킨 후 나머지 자음에 대하여 기설정된 자음 코드로 치환하는 제 4과정과, 상기 제 4과정을 통해 코드화 된 자음 코드중 종성-초성 관계에 있는 중복코드에서 종성에 해당하는 코드를 제거하는 제 5과정, 및 상기 제 5과정을 통해 중복코드가 제거되어진 후 기 설정되어 있는 표준 외래어 음차표기에 대한 코드화 데이터와 비교하여 동일한 경우 동일 음차표기인 것으로 판단하는 제 6과정을 포함하는 데 있다.
본 발명의 상술한 목적과 여러 가지 장점은 이 기술 분야에 숙련된 사람들에 의해 첨부된 도면을 참조하여 후술되는 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.
우선, 본 발명에서 적용되는 기술적 사상을 간략히 살펴보면, 본 발명에 따른 외래어 음차표기 유사도 비교 방법은 영어의 Soundex 알고리즘에서 기본적인 방법론을 차용하였다.
Soundex 알고리즘[참조문헌: Hall, P. and Dowling, G., 'Approximate string matching',Computing Surveys, Vol. 12, No. 4, pp. 381-402, 1980.]은 영어권에서 보편적으로 사용되고 있는 영어 발음 유사도 비교 알고리즘으로써, 주로 이름(인명, 지명 등) 데이터베이스에서 찾고자하는 이름의 철자를 정확히 모를 경우 발음으로 근사 검색을 하는데 효과적으로 사용되고 있다.
상기 Soundex 알고리즘은 영어 단어의 음성적 유사도를 비교하기 위하여 모음을 제거하고 나머지 자음들에 대해서 비슷한 발음을 내는 자음에 동일한 코드를 부여하여 이 Soundex 코드 스트링이 같으면 유사한 발음이라고 판단하는 방법이다.
구체적인 Soundex 코드 스트링 생성 방법은 다음과 같다.
(1) 모든 모음을 제거한다.
(2) 자음 중에 'H', 'W', 'Y'와 모든 연속되는 중복 자음을 제거한다.
(3) 첫 글자를 제외한 다음 3글자를 아래의 표 1의 Soundex 코드로 치환한다.
자음 코드
B F P V 1
C G J K Q S X Z 2
D T 3
L 4
M N 5
R 6
상기 표 1에 대응하여 생성된 두 단어의 Soundex 코드(최대 4글자)가 일치하면 두 단어는 유사한 발음을 가지는 것으로 판단된다.
상술한 기존의 Soundex 알고리즘을 한글에 적용시키는데는 영어와 한국어의 음운체계 및 규칙의 차이에 의해 단순 준용시킬수 없으나, 본 발명에서는 기존의 Soundex 알고리즘을 적용시키는데 있어 한국어의 음운적 특성을 고려하여 한국어 실정에 적합하도록 변형한 것이다.
본 발명에 따른 외래어 음차표기 유사도 비교 방법은 주로 영어에서 온 음차표기 사이의 유사도를 비교하는 방법이다. 따라서, 상기 외래어 음차표기 유사도 비교 방법은 기본적으로 모음을 고려하지 않고 자음들만의 발음 유사도를 비교한다. 대략적인 방법은 발음이 혼돈되는 자음들에 동일한 코드를 부여하여 이 코드 스트링이 일치하면 동일한 영어에서 온 음차표기라고 판단한다.
구체적인 외래어 음차표기 유사도 비교 방법은 도 1에 도시되어 있는 바와 같다.
스텝 S101에서는 입력되는 문자를 각 음절마다 자음과 모음 즉, 자소 단위로 풀어쓴 후 첫글자 초성 'ㅇ'(이응)을 제외한 모든 초성 'ㅇ'을 제거한다.
상기 스텝 S101을 통해 초성 'ㅇ'이 제거된 이후, 스텝 S102에서는 자소의 나열순서에서 동일자음이 연속되는 경우 나열 순서에서 빠른 순서에 위치하는 해당 자음을 제거하고, 상기 스텝 S102의 과정을 통해 중복되는 자음을 제거한 후 스텝 S103에서는 첫 글자 초성을 기설정된 대표 자음(표 3참조)으로 변환하게 된다.
상기 스텝 S103의 과정을 통해 대표자음으로 첫 글자 초성이 변화되어지면 스텝 S104에서는 나머지 자음에 대하여 기설정된 자음 코드(표 2참조)로 치환하게된다.
자음 코드
ㄱ ㄱ* ㄲ ㅋ 1
ㄴ ㄴ* ㅇ ㅇ* 2
ㄷ ㄸ ㅌ ㅅ* ㅊ 3
ㄹ ㄹ* 4
ㅁ ㅁ* 5
ㅂ ㅂ* ㅃ ㅍ ㅎ 6
ㅅ ㅆ ㅈ ㅉ 7
자음 대표 자음
상기 표 3은 첫 글자 초성 대표 자음을 나타내며, 표 2는 본 발명에 따른 외래어 음차 표기 유사도 비교 방법을 적용시키기 위한 모든 사용 자음의 군과 각 군의 코드값을 나타내고 있다.
상기 표 2에서 '*'가 오른편에 붙여진 자음은 종성을 의미한다. Kodex 알고리즘에서는 표준외래어표기법[참조문헌: 문화체육부 고시 제1995-8호 '외래어 표기법' 1995년 3월 16일]에 근거하여 'ㄱ', 'ㄴ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅅ', 'ㅇ' 등의 7개의 종성 자음만을 허용한다. 또한 Kodex 알고리즘에서 사용되는 자음들은 한국어 표준 발음법[참조문헌: 문화교육부 고시 제88-2호 '표준 발음법' 1998년 1월 19일.]에 정의된 19개의 자음들을 사용하였다. 따라서 본 발명에서 사용되는 자음들은 아래의 표 4의 총 26개의 자음들이다.
ㄱ ㄱ* ㄲ ㄴ ㄴ* ㄷ ㄸ ㄹ ㄹ* ㅁ ㅁ*ㅂ ㅂ* ㅃ ㅅ ㅅ* ㅆ ㅇ ㅇ* ㅈ ㅉ ㅊㅋ ㅌ ㅍ ㅎ
이후, 상기 스텝 S104에 따른 과정을 통해 코드화 된 자음 코드는 스텝 S105의 과정을 통해 연속적으로 중복되는 코드를 제거하게되는데, 상기 스텝 S105에서 중복코드가 제거되어지면 이는 스텝 S106의 과정을 통해 기 설정되어 있는 표준 외래어 음차 표기에 대한 코드화 데이터와 비교하게 된다.
그에 따라, 상기 스텝 S106에서 비교데이터가 동일하다고 판단되면 스텝 S107로 진행하고, 동일하지 않다고 판단되면 스텝 S108로 진행하게 된다.
표 5 내지 표 7은 실제적으로 본 발명에 따른 외래어 음차표기 유사도 비교 방법하는 경우의 실 예이다.
packet 풀어 쓰기 1단계 2단계 3단계 4단계 5단계 Kodex
패킷 ㅍㅐㅋㅣㅅ* ㅍ13 ㅍ13 ㅍ13
패키트 ㅍㅐㅋㅣㅌㅡ ㅍ13 ㅍ13 ㅍ13
팩킷 ㅍㅐㄱ*ㅋㅣㅅ* ㅍ113 ㅍ13 ㅍ13
상기 표 5에서 '패킷', '팩킷', '팩키트'는 모두 본 발명에 따른 외래어 음차표기 유사도 비교 방법을 적용하는 경우에 코드 스트링 'ㅍ13'으로 변환되어 일치하므로 같은 영어 단어에서 온 유사한 음차표기라고 판단하는 것이다.
Windows 풀어 쓰기 1단계 2 3 4단계 5 Kodex
윈도우즈 ㅇㅜㅣㄴ*ㄷㅗㅇㅜㅈㅡ ㅇㅜㅣㄴㄷㅗㅜㅈㅡ ㅇ237 ㅇ237
윈도우스 ㅇㅜㅣㄴㄷㅗㅇㅜㅅㅡ ㅇㅜㅣㄴㄷㅗㅜㅅㅡ ㅇ237 ㅇ237
윈도즈 ㅇㅜㅣㄴㄷㅗㅈㅡ ㅇㅜㅣㄴㄷㅗㅈㅡ ㅇ237 ㅇ237
또한, 상기 표 6에서 '윈도우즈', '윈도우스' 및 '윈도즈'는 모두 본 발명에 따른 외래어 음차표기 유사도 비교 방법을 적용하는 경우에, 코드 스트링 'ㅇ237'로 변환되어 일치하므로 같은 영어 단어에서 온 유사한 음차 표기라고 판단된다.
sound 풀어 쓰기 1단계 2 3단계 4단계 5 Kodex
싸운드 ㅆㅏㅇㅜㄴ*ㄷㅡ ㅆㅏㅜㄴㄷㅡ ㅅ ㅜㄴ*ㄷㅡ ㅅ23 ㅅ23
사운드 ㅅㅏㅇㅜㄴ*ㄷㅡ ㅅㅏㅜㄴ*ㄷㅡ ㅅ ㅜㄴ*ㄷㅡ ㅅ23 ㅅ23
또한, 상기 표 7에서 '싸운드' 및 '사운드'는 모두 본 발명에 따른 외래어 음차표기 유사도 비교 방법을 적용하는 경우에, 코드 스트링 'ㅅ23'으로 변환되어 일치하므로 같은 영어 단어에서 온 유사한 음차 표기라고 판단된다.
이상의 설명에서 본 발명은 특정의 실시예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능하다는 것을 당업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.
상기와 같이 동작하는 본 발명에 따른 외래어 음차표기 유사도 비교 방법을 제공하여 외래어 음차표기가 혼재되어 있는 각 자료 혹은 색인어를 혼동없이 빠르게 검색할 수 있으며 한국어에 적합한 유사표기를 검색할 수 있는 기준을 제공한다.

Claims (4)

  1. 입력되는 문자의 표기데이터를 자음과 모음을 분리하여 자소 단위로 분리한 후 첫글자 초성 'ㅇ'을 제외한 모든 초성 'ㅇ'을 제거하는 제 1과정과;
    상기 제 1과정을 통해 초성 'ㅇ'이 제거된 자소의 나열순서에서 동일자음이 연속되는 경우 나열 순서에서 빠른 순서에 위치하는 해당 자음을 제거하는 제 2과정과;
    상기 제 2과정을 통해 중복되는 자음을 제거한 후 첫 글자 초성을 기설정된 'ㄱ','ㄷ','ㅂ','ㅅ','ㅈ','ㅍ'으로 이루어진 대표 자음으로 변환하는 제 3과정과;
    상기 제 3과정을 통해 대표자음으로 첫 글자 초성을 변화시킨 후 나머지 자음중 'ㄱ, ㄱ*, ㄲ, ㅋ'에 대하여 자음코드 '1'을 부여하며, 'ㄴ, ㄴ*, ㅇ, ㅇ*'에 대하여 자음코드 '2'를 부여하고, 'ㄷ, ㄸ, ㅌ, ㅅ*, ㅊ'에 대하여 자음코드 '3'을 부여하며, 'ㄹ, ㄹ*'에 대하여 자음코드 '4'를 부여하고, 'ㅁ, ㅁ*'에 대하여 자음코드 '5'를 부여하며, 'ㅂ, ㅂ*, ㅃ, ㅍ, ㅎ'에 대하여 자음코드 '6'을 부여하고, 'ㅅ, ㅆ, ㅈ, ㅉ'에 대하여 자음코드 '7'을 부여하는 제 4과정과;
    상기 제 4과정을 통해 코드화 된 자음 코드중 종성-초성 관계에 있는 중복코드에서 종성에 해당하는 코드를 제거하는 제 5과정; 및
    상기 제 5과정을 통해 중복코드가 제거되어진 후 기 설정되어 있는 표준 외래어 음차표기에 대한 코드화 데이터와 비교하여 동일한 경우 동일 음차표기인 것으로 판단하는 제 6과정을 포함하는 것을 특징으로 하는 외래어 음차표기 유사도 비교 방법.
  2. 청구항2는 삭제 되었습니다.
  3. 청구항3는 삭제 되었습니다.
  4. 제 1항에 있어서,
    자음의 분류중 '*'는 종성에 해당하는 것을 특징으로 하는 외래어 음차표기 유사도 비교 방법.
KR1019990036905A 1999-09-01 1999-09-01 외래어 음차표기 유사도 비교 방법 KR100318763B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019990036905A KR100318763B1 (ko) 1999-09-01 1999-09-01 외래어 음차표기 유사도 비교 방법
US09/578,371 US7010487B1 (en) 1999-09-01 2000-05-25 Method for comparing similarity between phonetic transcriptions of foreign word

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990036905A KR100318763B1 (ko) 1999-09-01 1999-09-01 외래어 음차표기 유사도 비교 방법

Publications (2)

Publication Number Publication Date
KR20010025857A KR20010025857A (ko) 2001-04-06
KR100318763B1 true KR100318763B1 (ko) 2002-01-05

Family

ID=19609675

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990036905A KR100318763B1 (ko) 1999-09-01 1999-09-01 외래어 음차표기 유사도 비교 방법

Country Status (2)

Country Link
US (1) US7010487B1 (ko)
KR (1) KR100318763B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100424114B1 (ko) * 2001-05-24 2004-03-24 (주)줌테크놀로지코리아 브랜드 워치 방법 및 장치
US8423563B2 (en) * 2003-10-16 2013-04-16 Sybase, Inc. System and methodology for name searches
KR100793378B1 (ko) * 2006-06-28 2008-01-11 엔에이치엔(주) 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템
US8583415B2 (en) * 2007-06-29 2013-11-12 Microsoft Corporation Phonetic search using normalized string
KR100910275B1 (ko) * 2007-10-25 2009-08-03 방정민 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
US9594742B2 (en) * 2013-09-05 2017-03-14 Acxiom Corporation Method and apparatus for matching misspellings caused by phonetic variations
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
KR101694179B1 (ko) * 2016-09-13 2017-01-23 한국과학기술정보연구원 모음 제거 기반 인덱스 생성 방법 및 장치
CN106778756B (zh) * 2016-12-07 2020-04-21 杭州佛学院 梵文天城体印刷字符拉丁转写图像识别方法
US11062621B2 (en) 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845238A (en) * 1996-06-18 1998-12-01 Apple Computer, Inc. System and method for using a correspondence table to compress a pronunciation guide
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6377927B1 (en) * 1998-10-07 2002-04-23 Masoud Loghmani Voice-optimized database system and method of using same

Also Published As

Publication number Publication date
KR20010025857A (ko) 2001-04-06
US7010487B1 (en) 2006-03-07

Similar Documents

Publication Publication Date Title
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
US6108627A (en) Automatic transcription tool
US7092567B2 (en) Post-processing system and method for correcting machine recognized text
Oh et al. An English-Korean transliteration model using pronunciation and contextual rules
KR101255557B1 (ko) 음절 분리에 기반한 문자열 검색 시스템 및 그 방법
Vitale An algorithm for high accuracy name pronunciation by parametric speech synthesizer
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
CN100429648C (zh) 一种文本自动分块的方法、分块器和文本到语言合成系统
KR100318763B1 (ko) 외래어 음차표기 유사도 비교 방법
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
EP0271664B1 (en) A morphological/phonetic method for ranking word similarities
Zahoranský et al. Text search of surnames in some slavic and other morphologically rich languages using rule based phonetic algorithms
Kienappel et al. Designing very compact decision trees for grapheme-to-phoneme transcription.
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
US7076423B2 (en) Coding and storage of phonetical characteristics of strings
Shah et al. Analysis and comparative study on phonetic matching techniques
JP3531222B2 (ja) 類似文字列検索装置
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Awajan et al. Hybrid technique for Arabic text compression
Kulick et al. Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing Results and Analysis
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
O’Rourke et al. Word variant identification in old french

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081201

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee