KR20000039018A - 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 - Google Patents

한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 Download PDF

Info

Publication number
KR20000039018A
KR20000039018A KR1019980054212A KR19980054212A KR20000039018A KR 20000039018 A KR20000039018 A KR 20000039018A KR 1019980054212 A KR1019980054212 A KR 1019980054212A KR 19980054212 A KR19980054212 A KR 19980054212A KR 20000039018 A KR20000039018 A KR 20000039018A
Authority
KR
South Korea
Prior art keywords
korean
foreign language
written
string
foreign
Prior art date
Application number
KR1019980054212A
Other languages
English (en)
Other versions
KR100288144B1 (ko
Inventor
유광일
이준성
김명호
김종수
신봉근
정희정
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019980054212A priority Critical patent/KR100288144B1/ko
Publication of KR20000039018A publication Critical patent/KR20000039018A/ko
Application granted granted Critical
Publication of KR100288144B1 publication Critical patent/KR100288144B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 외래어 코드화 방법 및 그를 이용한 검색 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 정보 검색시스템 등에서 한글로 다양하게 표기될 수 있는 외국어 및 외래어를 초, 중, 종성으로 분리하여 각각을 발음 및 음운 법칙에 따라 코드화하므로써, 서로 다른 형태로 표기되었으나 동일한 외래어를 의미하는 여러 자료들을 정보 검색시 일치시키기 위한 코드화 방법 및 그를 이용한 검색 방법을 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 제 1 단계; 기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 제 2 단계; 및 상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 초성, 중성, 종성으로 분리한 후에, 각 음소별로 발음 및 음운법칙에 따라 코드값을 부여하는 제 3 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 정보 검색시스템 등에 이용됨.

Description

한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
본 발명은 정보 검색시스템 등에서 한글로 다양하게 표기될 수 있는 외국어 및 외래어를 코드화하므로써, 서로 다른 형태로 표기되었으나 동일한 외국어(또는 외래어)를 의미하는 여러 자료들을 정보 검색시 일치시키는 외래어 코드화 방법 및 그를 이용한 검색 방법과, 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 업체의 상호명과 같은 고유 명칭에 대한 검색시스템의 자료중 상당수는 외래어(차용어)로 구성되어 있다.
그런데, 이러한 외래어 상호명은 통일된 표기법을 정하기 힘들고, 검색시스템 사용자에 의한 다양한 표기가 가능한 특성을 갖는다. 즉, 동일한 외래어 단어에 대한 다양한 표기가 가능하다.
정보 검색시스템은 방대한 자료들에 대한 다양한 형태의 검색 방법을 제공하는 시스템이다.
최근들어, 웹 환경의 발달 등에 힘입어, 정보 검색시스템은 사용자가 직접 검색어를 입력하고, 이와 일치되는 자료들을 찾는 방식으로 서비스되고 있다. 이러한 형태의 검색 시스템에서 일반적인 영문 자료와 한국어 자료에 대한 검색 기법은 많은 연구가 되어 왔으며, 효과적인 검색 기법이 제안되어왔다.
그러나, 한글로 표기된 자료중 외국어 또는 외래어의 검색은 그 특성상 특별한 검색 기법이 필요하다. 즉, 외국어 및 외래어는 그 발음에 따라 한글로 표기하게 되므로 완전하게 표준화된 표기 방법을 정하기가 힘들다. 또한, 사용자가 직접 검색어를 입력하는 경우에, 사용자가 입력 가능한 다양한 표기 방법을 실제로 저장된 자료의 표기 방법과 일치시켜야 하는 문제점이 존재한다.
이와 같이, 다양하게 표기될 수 있는 한글로 표기된 외국어(또는 외래어) 검색과 관련된 기술로는, 영문 알파벳으로 된 문자열을 알파벳 문자열 대신 특정 코드로 저장하는 "SOUNDEX 코드"를 들 수 있다. 이러한 "SOUNDEX 코드"는 영문에서 사람의 성(Surname)을 표기한 단어에 대하여, 각 알파벳을 그 발음에 따라 특정 코드로 변환하므로써, 서로 다르게 표기되었으나 유사하게 발음되는 단어를 일치시키는 방법이다.
그러나, 이러한 기법은 영문 알파벳 문자열을 기반으로 제안되었으므로, 한글로 표기된 외국어 (또는 외래어) 검색 문제에는 적용할 수 없으며, 코드화 방법 또한 문자간의 전후 관계 등을 고려치 않은 단순 변환이다. 또한, 한글로 표기된 외국어 및 외래어 검색 기법에 대한 국내외의 기존 연구는 아직까지 조사된 바 없다.
도 1 은 일반적인 사용자 입력 검색어 기반의 검색시스템의 구성도로서, 도면에서 "10"은 검색 인터페이싱부, "11"은 검색어 데이터베이스 검색부, 및 "12"는 검색어 데이터베이스를 각각 나타낸다.
도 1을 참조하면, 일반적인 사용자 입력 검색어 기반의 검색시스템은 검색어 데이터베이스 검색부(11)에서 사용자가 입력한 검색어를 사용하여 시스템에서 관리하는 검색어 데이터베이스(12)를 검색한 후에, 일치하는 자료가 존재하는 경우에 이를 사용자에게 반환한다.
그러나, 사용자가 입력한 검색어와 검색어 데이터베이스(12)의 자료가 한글로 표기된 외국어(또는 외래어)인 경우에는 검색의 문제점이 존재한다.
그런데, 이러한 외국어 및 외래어는 그 발음에 따라 한글로 표기되므로, 이를 표기하는 사람에 따라 다양한 표기 방법이 존재한다. 비록, 외국어 및 외래어의 표준화된 표기를 위한 규칙 등이 제정되기는 하였지만, 사용자가 직접 검색어를 입력하는 경우에, 사용자가 완벽히 표준화된 표기 방법으로 검색어를 작성한다는 보장을 할 수 없다.
예를들면, "Clover Hotel"이 한글로 표기되어 검색어 데이터베이스(12)에 저장되어 있다고 가정하자.
이에 대한 한글 표기는 "클로버 호텔", "크로버 호탤", "클로바 호텔" 등 매우 다양하게 존재할 수 있다. 즉, 이러한 다양한 표기방법중 어느 한 가지만을 검색어 데이터베이스(12)에 저장한다면, 가능한 표기법중 사용자가 오직 시스템에 저장된 값과 완전히 일치되는 표기법의 검색어를 입력한 경우에만 검색에 성공한다. 또한, 이를 해결하기 위해 가능한 모든 표기법을 저장하는 것은 기억장치 용량의 엄청난 낭비를 초래한다.
이처럼, 종래에는 다양한 표기가 가능한 한글로 표기된 외국어(또는 외래어)에 대해 정확한 검색을 수행할 수 없는 문제점이 있었다.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 정보 검색시스템 등에서 한글로 다양하게 표기될 수 있는 외국어 및 외래어를 초, 중, 종성으로 분리하여 각각을 발음 및 음운 법칙에 따라 코드화하므로써, 서로 다른 형태로 표기되었으나 동일한 외국어(또는 외래어)를 의미하는 여러 자료들을 정보 검색시 일치시키기 위한 외래어 코드화 방법 및 그를 이용한 검색 방법과, 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 일반적인 사용자 입력 검색어 기반의 검색시스템의 구성도.
도 2 는 본 발명에 따른 한글로 표기된 외국어(또는 외래어)의 코드화 과정을 이용한 검색 방법에 대한 일실시예 설명도.
도 3 은 본 발명에 따른 한글로 표기된 외국어(또는 외래어) 기본 코드화 규칙 테이블의 구조도.
도 4 는 본 발명에 따른 한글로 표기된 외국어(또는 외래어) 변환 코드화 규칙 테이블의 구조도.
도 5 는 본 발명에 따른 다양하게 한글로 표기된 외국어(또는 외래어)의 코드화 방법에 대한 일실시예 흐름도.
도 6 은 본 발명의 실시예에 따른 코드화 기법을 이용한 한글로 표기된 외국어(또는 외래어) 코드화 예시도.
*도면의 주요 부분에 대한 부호의 설명
20 : 검색 인터페이싱부 21 : 한글 검색어 코드화부
22 : 코드화된 검색어 데이터베이스 검색부 23 : 코드화된 검색어 데이터베이스
상기 목적을 달성하기 위한 본 발명은, 정보 검색시스템에 적용되는 한글로 표기된 외래어를 코드화하는 방법에 있어서, 완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 제 1 단계; 기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 제 2 단계; 및 상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 초성, 중성, 종성으로 분리한 후에, 각 음소별로 발음 및 음운법칙에 따라 코드값을 부여하는 제 3 단계를 포함한다.
그리고, 본 발명은, 정보 검색시스템에 적용되는 한글로 표기된 외래어를 검색하는 방법에 있어서, 한글로 표기된 외래어를 초성, 중성, 종성으로 분리하여 발음 및 음운 법칙에 따라 각 음소별로 코드값을 부여한 후에, 검색어 데이터베이스에 저장하는 제 1 단계; 및 정보 검색시에, 사용자가 입력한 코드화된 사용자 입력 한글 검색어를 상기 검색어 데이터베이스에 저장된 코드값과 비교하여 일치 여부를 검색하는 제 2 단계를 포함한다.
또한, 본 발명은, 프로세서를 구비한 한글로 표기된 외래어를 코드화하는 장치에, 완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 기능; 기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 기능; 및 상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 발음 및 음운법칙에 따라 초성, 중성, 종성으로 분리한 후에, 각 음소별로 코드값을 부여하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 프로세서를 구비한 한글로 표기된 외래어를 검색하는 장치에, 한글로 표기된 외래어를 초성, 중성, 종성으로 분리하여 발음 및 음운 법칙에 따라 각 음소별로 코드값을 부여한 후에, 검색어 데이터베이스에 저장하는 기능; 및 정보 검색시에, 사용자가 입력한 코드화된 사용자 입력 한글 검색어를 상기 검색어 데이터베이스에 저장된 코드값과 비교하여 일치 여부를 검색하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 2 는 본 발명에 따른 한글로 표기된 외국어(또는 외래어)의 코드화 과정을 이용한 검색 방법에 대한 일실시예 설명도이다.
본 발명에 따른 한글로 표기된 외국어(또는 외래어)를 코드화하는 과정을 이용한 검색 방법은, 다양한 한글 표기가 가능한 외국어(또는 외래어)들을 발음 및 음운 법칙에 기반하여 코드화하므로써, 효과적인 검색을 가능하게 한다.
도 2에 도시된 바와 같이, 본 발명에 따른 한글로 표기된 외국어(또는 외래어)를 코드화하는 과정을 이용한 검색 방법은, 시스템 자료들을 한글 검색어 코드화부(21)에서 고유의 코드로 변환하여 코드화된 입력 검색어를 코드화된 검색어 데이터베이스(23)에 저장한다.
그리고, 코드화된 검색어 데이터베이스 검색부(22)에서 정보 검색시 사용자가 입력한 사용자 입력 한글 검색어를 코드화 과정을 거쳐, 코드화된 검색어 데이터베이스(23)내에 저장된 코드값과 비교하여 일치 여부를 조사한다. 이때, 본 발명의 코드화 기법은 동일한 외국어(또는 외래어)에 대한 서로 다른 다양한 표기법에 대하여 동일한 코드화 결과값을 생성하며, 따라서 코드값 저장을 위한 공간만으로 한글로 표기된 외국어(또는 외래어) 검색을 효과적으로 처리한다.
이제, 한글로 표기된 외국어(또는 외래어)를 효과적으로 검색하기 위한 코드화 과정에 대해 보다 상세히 설명한다.
도 3 은 본 발명에 따른 한글로 표기된 외국어(또는 외래어) 기본 코드화 규칙 테이블의 구조도이다.
본 발명은 한글로 표기된 외국어(또는 외래어)에 대하여, 초성, 중성, 종성 각각에 특수한 문자를 할당하여 코드화를 수행하고, 음절간의 구분자로서 "$"를 사용한다.
도 3을 참조하면, 한글로 표기된 외국어(또는 외래어)가 입력되면, 본 발명의 코드화 기법은 기본적으로 한글 문자열을 초, 중, 종성으로 분리하여 기본 코드화 규칙표에 따라 코드화를 수행하며, 외국어 및 외래어의 다양한 표기에 대한 특정 조건이 만족되는 경우에, 후술되는 도 4에 제시된 변환 코드화 규칙표를 이용하여 코드화를 수행한다.
도 4 는 본 발명에 따른 한글로 표기된 외국어(또는 외래어) 변환 코드화 규칙 테이블의 구조도이다.
도 4에 도시된 바와 같이, 괄호안의 숫자는 해당 음소의 위치를 나타낸다. 즉,은 초성 위치의을,은 종성 위치의을 의미한다. 또한,은 종성이이고 다음 문자의 초성이인 경우를 의미한다.
도 4를 참조하면, 제1 유형의 변환 규칙은 유사한 발음이 가능한 음소들에 동일한 코드값을 부여하는 규칙이다. 예를 들면, 영문 단어에서 복수 및 소유격을 나타내는 "~ s", "~ 's" 등을 한글로 표기하였을 경우에, "~스" 및 "~즈" 표기가 모두 가능하다.
따라서, 초성의은 동일한 코드로 변환된다. 마찬가지로, 모음의 경우에도, "~ a" 등의 표기시 모두 나타날 수 있으므로, 동일한 코드로 변환된다.
그리고, 제2 유형은 발음이 종성과 다음 글자의 초성에 이어져 나타나는 경우이며, 이러한 경우에 종성을 삭제하므로써 통일된 코드값으로 변환한다. 예를 들면, "plus"의 경우에, "플러스" 및 "프러스"로 표기 가능하다.
또한, 제 3 유형은 단어의 마지막에 "~ t" 등의 격음이 나타나는 경우이며, 발음을 길게 늘여 쓰는 방식으로 통일한다.
마지막으로, 제4 유형 및 제5 유형은 모음의 표기에 관한 것으로, 모음 축약을 통해 통일된 코드값을 생성한다.
도 5 는 본 발명에 따른 다양하게 한글로 표기된 외국어(또는 외래어)의 코드화 방법에 대한 일실시예 흐름도로서, 도 3 및 도 4에서 제시된 코드화 규칙을 참조하여 입력된 한글 문자열에 대한 코드화를 수행하는 절차를 나타낸다.
도 5에 도시된 바와 같이, 다양하게 한글로 표기된 외국어(또는 외래어)의 코드화 방법은, 먼저 코드화 수행의 대상이 되는 입력 문자열에 대한 전처리 과정을 수행한다(501). 즉, 본 발명에서 제안한 코드화 기법은 한글의 초/중/종성별로 코드를 할당하게 되므로, 완성형 한글로 구성된 외래어 문자열을 입력으로 가정하여, 입력된 완성형 문자열을 초/중/종성 분리가 용이한 조합형 한글 문자열로 변환하는 전처리 과정이 필요하게 된다.
이후, 코드화 수행에 필요한 초기화 작업을 수행한다(502). 즉, 도 3 및 도 4에 제시된 기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 메모리에 적재한다.
다음으로, 원시 문자열에서 음절을 분리하여(503) 입력 문자열의 각 음절에 대하여 해당 음절의 초, 중, 종성에 해당하는 음소값을 얻어내고, 변환 규칙의 적용시 참조 할 수 있는 전/후 음절에 대한 정보를 얻어낸다(504). 예를 들면, 입력 문자열이 "클로바"이고 음절 "클"에 대하여 루프가 수행된다면, 초성이, 중성이, 종성이이라는 정보와, 다음 음절(즉, "로")의 초성이이라는 정보를 추출하게 된다.
이후에, 추출된 정보를 바탕으로 코드화 변환 규칙에 해당되는 요건이 존재하는지를 검사(즉, 즉, 현재의 초/중/종성 음소 정보와 전/후 음절에 대한 정보가 도 4에 제시된 규칙의 조건을 만족시키는지를 검사)하여(505), 현재의 음소가 코드화 변환 규칙의 조건을 만족하는지를 분석한다(506).
분석결과, 현재의 음소가 코드화 변환 규칙의 조건을 만족하면, 도 4의 변환 규칙을 이용하여 현재의 음소를 특정 코드로 변환한 후에(507), 문자열의 끝인지를 판단한다(509).
분석결과, 현재의 음소가 코드화 변환 규칙의 조건을 만족시키지 못하면, 도 3의 기본 코드화 규칙표에 따라 현재의 음소를 기본 코드로 변환한 후에(508), 문자열의 끝인지를 판단한다(509).
예를 들면, 음절 "클"에서 초성의은 코드화 변환 규칙의 조건에 해당되지 않으므로, 도 3의 기본 코드값 "h"로 변환되며, 종성의의 경우 다음 음절의 초성이이므로 도 4의 제2 유형 규칙에 해당되어, 기본 코드값 "9"가 아닌 변환된 코드값 "1"로 변환된다. 이러한 과정을 통하여 현재 변환되고자 하는 음절은 그 초/중/종성의 음소값에 대한 세 자리 코드로 변환된다.
판단결과, 문자열의 끝이 아니면, 조합형 문자열로 변환된 입력 문자열의 각 음절에 대하여 상기의 단계(503 내지 508)를 반복 수행한다.
도 6 은 본 발명의 실시예에 따른 코드화 기법을 이용한 한글로 표기된 외국어(또는 외래어) 코드화 예시도로서, 본 발명에서 제안된 코드화 방법을 이용하여 실제로 한글로 표기된 외국어(또는 외래어)에 대한 코드화를 수행하는 예이다.
도 6에 도시된 바와 같이, 서로 다르게 표기된 두 한글 문자열은 각각 초, 중, 종성으로 분리되어, 전술한 바와 같은 코드화 규칙을 사용하여 코드화된다. 그 결과, 서로 다른 두 문자열이 동일한 코드로 변환됨을 알 수 있다.
따라서, 코드화된 검색어 데이터베이스(23)내에 저장된 자료와 사용자가 입력한 검색어가 서로 다르게 표기된 경우에도, 이들간의 코드값 비교를 통하여 검색을 효과적으로 수행할 수 있다.
상기한 바와 같은 본 발명은, 기존에는 효과적으로 처리할 수 없었던, 서로 다르게 한글로 표기된 동일한 의미의 외국어 및 외래어에 대한 효과적인 검색을 가능하게 한다. 즉, 다양한 표기가 가능한 외국어(또는 외래어)의 특성을 바탕으로, 가능한 모든 표기 방법을 데이터베이스에 저장해 놓지 않고도, 저장된 자료와 입력된 검색어의 코드화 과정만으로 검색 성공을 유도할 수 있다. 따라서, 기존의 방법보다 저장 공간 효율성 면에서 매우 우수하다고 할 수 있다.
그러므로, 본 발명은 한글로 표기된 외국어(또는 외래어) 자료들이 존재하는 검색시스템, 예를 들어 전문 용어 검색 혹은 상호명 검색 시스템 등에서 사용될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기한 바와 같은 본 발명은, 외래어의 한글 표기를 코드화하므로써, 다양한 외래어 표기에 대한 동일한 코드 부여를 통해 외래어에 대한 검색 효과를 높일 수 있는 효과가 있다.

Claims (6)

  1. 정보 검색시스템에 적용되는 한글로 표기된 외래어를 코드화하는 방법에 있어서,
    완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 제 1 단계;
    기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 제 2 단계; 및
    상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 초성, 중성, 종성으로 분리한 후에, 각 음소별로 발음 및 음운법칙에 따라 코드값을 부여하는 제 3 단계
    를 포함하여 이루어진 한글로 표기된 외래어 코드화 방법.
  2. 제 1 항에 있어서,
    상기 제 3 단계는,
    조합형 문자열로 변환된 입력 문자열의 모든 음절에 대해, 원시 문자열에서 음절을 분리하여, 입력 문자열의 각 음절에 대하여 해당 음절의 초성, 중성, 종성에 해당하는 음소값을 얻어내고, 변환 규칙의 적용시 참조 할 수 있는 전/후 음절에 대한 정보를 추출하는 제 4 단계;
    상기 추출된 정보를 바탕으로 코드화 변환 규칙에 해당되는 요건이 존재하는지를 검사하여 현재의 음소가 코드화 변환 규칙의 조건을 만족하는지를 분석하는 제 5 단계;
    상기 제 5 단계의 분석결과, 현재의 음소가 코드화 변환 규칙의 조건을 만족하면, 상기 변환 코드화 규칙 테이블을 이용하여 현재의 음소를 특정 코드로 변환하는 제 6 단계; 및
    상기 제 5 단계의 분석결과, 현재의 음소가 코드화 변환 규칙의 조건을 만족시키지 못하면, 상기 기본 코드화 규칙 테이블에 따라 현재의 음소를 기본 코드로 변환하는 제 7 단계
    를 포함하여 이루어진 한글로 표기된 외래어 코드화 방법.
  3. 정보 검색시스템에 적용되는 한글로 표기된 외래어를 검색하는 방법에 있어서,
    한글로 표기된 외래어를 초성, 중성, 종성으로 분리하여 발음 및 음운 법칙에 따라 각 음소별로 코드값을 부여한 후에, 검색어 데이터베이스에 저장하는 제 1 단계; 및
    정보 검색시에, 사용자가 입력한 코드화된 사용자 입력 한글 검색어를 상기 검색어 데이터베이스에 저장된 코드값과 비교하여 일치 여부를 검색하는 제 2 단계
    를 포함하여 이루어진 한글로 표기된 외래어 검색 방법.
  4. 제 3 항에 있어서,
    상기 제 1 단계의 발음 및 음운 법칙에 따라 각 음소별로 코드값을 부여하는 과정은,
    완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 제 3 단계;
    기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 제 4 단계; 및
    상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 발음 및 음운법칙에 따라 초성, 중성, 종성으로 분리한 후에, 각 음소별로 코드값을 부여하는 제 5 단계
    를 포함하여 이루어진 한글로 표기된 외래어 검색 방법.
  5. 프로세서를 구비한 한글로 표기된 외래어를 코드화하는 장치에,
    완성형 한글로 구성된 외래어 문자열을 초성, 중성, 종성 분리가 용이한 조합형 한글 문자열로 변환하는 기능;
    기본 코드화 규칙 테이블 및 변환 코드화 규칙 테이블을 저장수단에 저장하는 기능; 및
    상기 기본 코드화 규칙 테이블 및 상기 변환 코드화 규칙 테이블을 이용하여 상기 조합형 한글 문자열로 변환된 외래어 문자열을 초성, 중성, 종성으로 분리한 후에, 각 음소별로 발음 및 음운법칙에 따라 코드값을 부여하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  6. 프로세서를 구비한 한글로 표기된 외래어를 검색하는 장치에,
    한글로 표기된 외래어를 초성, 중성, 종성으로 분리하여 발음 및 음운 법칙에 따라 각 음소별로 코드값을 부여한 후에, 검색어 데이터베이스에 저장하는 기능; 및
    정보 검색시에, 사용자가 입력한 코드화된 사용자 입력 한글 검색어를 상기 검색어 데이터베이스에 저장된 코드값과 비교하여 일치 여부를 검색하는 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019980054212A 1998-12-10 1998-12-10 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 KR100288144B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980054212A KR100288144B1 (ko) 1998-12-10 1998-12-10 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980054212A KR100288144B1 (ko) 1998-12-10 1998-12-10 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법

Publications (2)

Publication Number Publication Date
KR20000039018A true KR20000039018A (ko) 2000-07-05
KR100288144B1 KR100288144B1 (ko) 2001-05-02

Family

ID=19562234

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980054212A KR100288144B1 (ko) 1998-12-10 1998-12-10 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법

Country Status (1)

Country Link
KR (1) KR100288144B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010067734A (ko) * 2001-03-14 2001-07-13 금하연 인터넷상에서의 한자색인어를 병용한 한글검색장치 및그검색방법
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100401466B1 (ko) * 2000-09-22 2003-10-11 이효숙 자연어 검색 시스템을 위한 한글 스태머와 그 스태밍 방법
KR100424114B1 (ko) * 2001-05-24 2004-03-24 (주)줌테크놀로지코리아 브랜드 워치 방법 및 장치
KR100449717B1 (ko) * 2002-02-22 2004-09-22 삼성전자주식회사 문자 디스플레이 방법 및 장치
KR100867231B1 (ko) * 2006-11-10 2008-11-06 주식회사 마크프로 상표명 발음의 음소배열 방법 및 음소배열 데이터베이스 구조, 유사 상표명 발음의 모집단 데이터베이스 구조, 상표데이터의 배열방법 및 그를 저장한 저장매체, 그리고, 유사 상표명 발음의 검색 시스템 및 방법
KR100910275B1 (ko) * 2007-10-25 2009-08-03 방정민 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
KR101497322B1 (ko) * 2009-09-21 2015-03-03 네이버 주식회사 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법
KR20170016722A (ko) 2015-08-04 2017-02-14 곽태우 영문 성명 검색 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100795930B1 (ko) 2005-10-10 2008-01-21 엔에이치엔(주) 검색용 색인 기반 질의어 추천 방법 및 그 시스템

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100401466B1 (ko) * 2000-09-22 2003-10-11 이효숙 자연어 검색 시스템을 위한 한글 스태머와 그 스태밍 방법
KR20010067734A (ko) * 2001-03-14 2001-07-13 금하연 인터넷상에서의 한자색인어를 병용한 한글검색장치 및그검색방법
KR100424114B1 (ko) * 2001-05-24 2004-03-24 (주)줌테크놀로지코리아 브랜드 워치 방법 및 장치
KR100449717B1 (ko) * 2002-02-22 2004-09-22 삼성전자주식회사 문자 디스플레이 방법 및 장치
KR100867231B1 (ko) * 2006-11-10 2008-11-06 주식회사 마크프로 상표명 발음의 음소배열 방법 및 음소배열 데이터베이스 구조, 유사 상표명 발음의 모집단 데이터베이스 구조, 상표데이터의 배열방법 및 그를 저장한 저장매체, 그리고, 유사 상표명 발음의 검색 시스템 및 방법
KR100910275B1 (ko) * 2007-10-25 2009-08-03 방정민 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
KR101497322B1 (ko) * 2009-09-21 2015-03-03 네이버 주식회사 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법
KR20170016722A (ko) 2015-08-04 2017-02-14 곽태우 영문 성명 검색 방법 및 장치

Also Published As

Publication number Publication date
KR100288144B1 (ko) 2001-05-02

Similar Documents

Publication Publication Date Title
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP4057681B2 (ja) 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
KR102476104B1 (ko) 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
JPH0227423A (ja) 日本語文字データの並び換え方法
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
JPH01114976A (ja) 文書処理装置の辞書構造
JPS58219670A (ja) 翻訳用辞書及びこれを用いた辞書検索方式
Prasad et al. Developing spell check and transliteration tools for Indian regional language–Kannada
JP2007140781A (ja) 名義解析装置、名義解析方法及び名義解析プログラム
JPH05216887A (ja) 中国語の発音表記/漢字変換装置および方法
Tun Sounds Alike Name Matching for Myanmar Language
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质
JPS62214468A (ja) かな漢字変換装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100129

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee