KR101497322B1 - 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법 - Google Patents

발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법 Download PDF

Info

Publication number
KR101497322B1
KR101497322B1 KR1020090089081A KR20090089081A KR101497322B1 KR 101497322 B1 KR101497322 B1 KR 101497322B1 KR 1020090089081 A KR1020090089081 A KR 1020090089081A KR 20090089081 A KR20090089081 A KR 20090089081A KR 101497322 B1 KR101497322 B1 KR 101497322B1
Authority
KR
South Korea
Prior art keywords
code
saturation
consonant
phonetic
vowel
Prior art date
Application number
KR1020090089081A
Other languages
English (en)
Other versions
KR20110031718A (ko
Inventor
이도길
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020090089081A priority Critical patent/KR101497322B1/ko
Publication of KR20110031718A publication Critical patent/KR20110031718A/ko
Application granted granted Critical
Publication of KR101497322B1 publication Critical patent/KR101497322B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법이 개시된다. 음차 표기 데이터 생성 시스템은 영어 발음 기호에 대응하는 포만 코드를 생성하는 포만 코드 생성부 및 상기 포만 코드를 한글 음차 표기 데이터로 변환하는 음차 표기 데이터 변환부를 포함할 수 있다. 본 발명에 따르면, 발음 기호에 기초하여 음차 표기 데이터를 생성함으로써 정확한 음차 표기가 가능하도록 한다.
음차 표기, 발음 기호, 포만 코드

Description

발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법{SYSTEM AND METHOD FOR CREATING TRANSLITERATION BASED PHONETIC SIGN}
본 발명은 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법에 관한 것으로, 보다 자세하게는, 발음 기호에 대해 포만 코드를 생성한 후, 포만 코드를 자소열로 변환하여 음차 표기 데이터를 생성하는 시스템 및 방법에 관한 것이다.
음차 표기(transliteration)는 한 언어로 쓰인 단어를 다른 언어로 표기하는 것이다. 예를 들어, 음차 표기는 “television”이라는 영어 단어를 “텔레비전”과 같이 한글로 표기하는 것을 의미하며, 그 반대의 과정은 음차 복원이라고 한다.
한글 문서에는 한글뿐만 아니라 영어, 한자 등과 같은 외국어 문자 표기와 이에 대한 한글 음차 표기가 혼용되고 있다. 이와 같은 언어 환경 에서, 동일한 단어를 나타내는 다양한 표현이 존재하기 때문에 단어 불일치(mismatch) 문제가 발생할 수 있다. 단어 불일치 문제로 인해 동일한 개념의 단어에 대한 다양한 표현이 존재함으로써, 사용자가 원하는 문서의 검색을 어렵게 만드는 하나의 원인이 된다. 단어 불일치 문제를 해소하기 위해서는 자동 음차 표기와 음차 복원에 대한 연구가 필요하다.
본 발명은 영어 단어에 대한 발음 기호를 이용하여 좀더 정확한 한글 음차 표기 데이터를 생성할 수 있는 음차 표기 데이터 생성 시스템 및 방법을 제공한다.
본 발명은 사전으로부터 추출한 정확한 영어 발음 기호를 이용함으로써 불완전한 영어 발음 추정으로 인한 정확도 저하를 방지할 수 있는 음차 표기 데이터 생성 시스템 및 방법을 제공한다.
본 발명은 영어 발음 기호에 대응하여 시스템적으로 처리할 수 있는 ASCII 코드 형태의 포만 코드를 생성하여 한글 음차 표기 데이터를 생성함으로써 자동으로 음차 표기 데이터를 생성할 수 있는 음차 표기 데이터 생성 시스템 및 방법을 제공한다.
본 발명은 영어 단어를 한글 음차 표기 데이터로 변환하면서 한글 고유의 특성으로 인해 발생하는 예외적인 사항을 처리할 수 있는 음차 표기 데이터 생성 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템은 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성하는 포만 코드 생성부 및 상기 포만 코드를 한글 음차 표기 데이터로 변환하는 음차 표기 데이터 변환부를 포함할 수 있다.
본 발명의 일실시예에 따른 상기 음차 표기 데이터 변환부는 상기 포만 코 드의 모음을 한글 자소로 변환하는 모음 처리부, 상기 포만 코드의 자음을 한글 자소로 변환하는 자음 처리부 및 상기 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환하는 자소열 변환부를 포함할 수 있다.
본 발명의 일실시예에 따른 음차 표기 데이터 생성 방법은 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성하는 단계 및 상기 포만 코드를 한글 음차 표기 데이터로 변환하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 한글 음차 표기 데이터로 변환하는 단계는 상기 포만 코드의 모음을 한글 자소로 변환하는 단계, 상기 포만 코드의 자음을 한글 자소로 변환하는 단계 및 상기 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환하는 단계를 포함할 수 있다.
본 발명에 의하면, 영어 단어에 대한 발음 기호를 이용하여 좀더 정확한 한글 음차 표기 데이터가 생성될 수 있다.
본 발명에 의하면, 사전으로부터 추출한 정확한 영어 발음 기호를 이용함으로써 불완전한 영어 발음 추정으로 인한 정확도 저하를 방지할 수 있다.
본 발명에 의하면, 영어 발음 기호에 대응하여 시스템적으로 처리할 수 있는 ASCII 코드 형태의 포만 코드를 생성하여 한글 음차 표기 데이터를 생성함으로써 자동으로 음차 표기 데이터가 생성될 수 있다.
본 발명에 의하면, 영어 단어를 한글 음차 표기 데이터로 변환하면서 한글 고유의 특성으로 인해 발생하는 예외적인 사항이 처리될 수 있다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 음차 표기 데이터 생성 방법은 음차 표기 데이터 생성 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템의 전체 동작을 설명하기 위한 도면이다.
본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템(100)은 영어 발음 기호를 이용하여 영-한 음차 표기 데이터를 생성할 수 있다. 일례로, 음차 표기 데이터 생성 시스템(100)은 영어 발음 기호 각각에 대해 포만 코드를 생성하고, 생성된 포만 코드를 이용하여 음차 표기 데이터를 생성할 수 있다.
이 때, 영어 발음 기호는 기구축된 사전으로부터 추출될 수 있다. 일례로, 기구축된 사전은 영한 사전 또는 CMU (Carnegie Mellon University) 발음 기호가 포함된 사전 중 어느 하나일 수 있다.
일례로, 음차 표기 데이터 생성 시스템(100)은 관용적으로 이미 통용되고 있는 표기에 대해서는 예외 처리하여 음차 표기 데이터로 저장할 수 있다. 예를 들어, 영어 단어 "Radio"에 대해서, 본 발명의 음차 표기 데이터 생성 방법에 따르면 "레이디오"로 변환될 수 있으나, 실제 사용자들은 "라디오"로 표현하고 있으며 관용 표기로 인정되고 있다. 또한, 영어 단어 "Camera"에 대해서 본 발명의 음차 표기 데이터 생성 방법에 따르면 "캐머러"로 변환될 수 있으나, 실제 사용자들은 "카메라"로 표현하고 있으며 관용 표기로 인정되고 있다. 즉, 모든 영어 단어에 대해 본 발명이 적용되는 경우, 실제 관용 표기로 사용되는 표기와 상이한 결과가 도출될 수 있다.
따라서, 음차 표기 데이터 생성 시스템(100)은 이미 사용자들에 의해 사용되고 있는 관용 표기를 본 발명에 따라 생성되는 음차 표기 데이터의 예외로 규정하여 저장할 수 있다. 관용 표기로 표현되는 영어 단어 이외의 영어 단어에 대해서, 음차 표기 데이터 생성 시스템(100)은 자동으로 영어 단어를 한글 음차 표기 데이터로 변환할 수 있다.
도 2는 본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템(100)은 포만 코드 생성부(201) 및 음차 표기 데이터 변환부(202)를 포함할 수 있다.
포만 코드 생성부(201)는 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성할 수 있다. 여기서, 포만 코드는 영어 발음 기호를 ASCII 코드의 인쇄 가능 영역의 한 글자로 표현할 수 있는 코드일 수 있다. 이 때, 영어 발음 기호는 기구축된 사전으로부터 추출될 수 있다. 예를 들어, 기구축된 사전은 영한 사전 또는 CMU 발음 기호가 포함된 사전을 포함할 수 있다. 영한 사전은 약 수만 개의 표제어가 수록된 어학용 영한 사전일 수 있다.
일례로, 포만 코드 생성부(201)는 사전에 수록된 각 표제어의 영어 발음 기호를 포만 코드로 생성할 수 있다. 포만 코드 생성부(201)는 다음과 같은 원칙에 따라 영어 발음 기호로부터 포만 코드를 생성할 수 있다.
-최대한 원어의 발음을 유지하도록 하며, [f]와 같이 한글에 없는 발음도 표현한다.
-묵음에 가까운 발음은 소문자로 표현한다.
-소리의 장단은 표시하되 소리의 고저(강세)는 표현하지 않는다.
일례로, 영어 발음 기호가 영한 사전으로부터 추출된 경우, 포만 코드 생성부(201)는 하기 표 1에 따라 영어 발음 기호에 대응하는 포만 코드를 생성할 수 있다.
Figure 112009057855812-pat00001
Figure 112009057855812-pat00002
Figure 112009057855812-pat00003
Figure 112009057855812-pat00004
다른 일례로, 영어 발음 기호가 CMU 발음 기호로부터 추출된 경우, 포만 코드 생성부(201)는 하기 표 2에 따라 영어 발음 기호에 대응하는 포만 코드를 생성할 수 있다.
Figure 112009057855812-pat00005
Figure 112009057855812-pat00006
음차 표기 데이터 변환부(202)는 포만 코드를 한글 음차 표기 데이터로 변환할 수 있다. 음차 표기 데이터 변환부(202)는 특정 영어 단어에 대한 포만 코드를 한글 음차 표기 데이터로 변환할 수 있다.
이 때, 음차 표기 데이터 변환부(202)는 영어 단어에 대한 적어도 하나의 영어 발음 기호 각각에 대응하는 포만 코드를 순서대로 처리할 수 있다. 여기서, 모음은 모음 처리부(301), 자음은 자음 처리부(302)에서 처리할 수 있다. 또한, 모음 처리부(301)와 자음 처리부(302)를 거쳐 생성된 한글 자소열이 불완전한 경우, 자소열 변환부(303)는 완전한 자소열로 변환할 수 있다. 음차 표기 데이터 변환부(202)에 대해서는 도 3에서 구체적으로 설명하기로 한다.
도 3은 본 발명의 일실시예에 따른 음차 표기 데이터 변환부의 상세 동작을 설명하기 위한 플로우차트이다.
일례로, 음차 표기 데이터 변환부(202)는 모음 처리부(301), 자음 처리부(302) 및 자소열 변환부(303)를 포함할 수 있다. 모음 처리부(301)는 포만 코드의 모음을 한글 자소로 변환할 수 있다. 자음 처리부(302)는 포만 코드의 자음을 한글 자소로 변환할 수 있다. 자소열 변환부(303)는 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환할 수 있다.
도 3을 참고하면, 음차 표기 데이터 변환부(202)는 영어 단어의 영어 발음 기호 각각에 대응하는 포만 코드의 각 문자에 대해 모음인지 여부를 판단할 수 있다.
만약, 모음인 경우, 모음 처리부(301)가 포만 코드의 모음을 한글 자소로 변환할 수 있다. 일례로, 모음 처리부(301)는 하기 표 3에 따라 포만 코드의 모음을 한글 자소로 변환할 수 있다. 이 때, 모음 처리부(301)는 포만 코드의 모음이 포만 코드의 시작이거나 종성 'ㅇ'이나 모음의 뒤에서는 초성 'ㅇ'을 삽입하고, 하기 표 3에 따라 포만 코드의 모음을 한글 자소로 변환할 수 있다.
Figure 112009057855812-pat00007
만약, 모음이 아닌 자음인 경우, 자음 처리부(302)가 포만 코드의 모음을 한글 자소로 변환할 수 있다. 일례로, 자음 처리부(302)는 하기 표 4에 따라 포만 코드의 자음을 한글 자소로 변환할 수 있다. 이 때, 자음 처리부(302)는 기본적으로 표 4에서 정의된 바와 같이 각 자음에 대응하는 한글 자소로 변환하고, 어말이나 자음 앞에서는 중성 모음 ‘ㅡ’를 추가할 수 있다.
Figure 112009057855812-pat00008
일례로, 자음 처리부(302)는 다음과 같은 예외 규칙에 따라 한글 자소로 변환할 수 있다.
(1) 자음 처리부(302)는 ‘#’에 대해, 어말에서는 ‘시’, 자음 앞에서는 ‘슈’, 모음 앞에서는 ‘!’, ‘^’, ‘E’, ‘A’, ‘U’, ‘O’, ‘@’과 결합하여 각각 ‘시’, ‘셔’, ‘세’, ‘샤’, ‘슈’, ‘쇼’, ‘섀’로 변환할 수 있다.
(2) 자음 처리부(302)는 ‘3’에 대해, 어말이나 자음 앞에서는 ‘지’로 변환할 수 있다.
(3) 자음 처리부(302)는 어말이나 자음 앞에서 ‘TS’는 ‘츠’로, ‘T#’은 ‘치’로 변환할 수 있다.
(4) 자음 처리부(302)는 어말이나 자음 앞에서 ‘D3’은 ‘지’로, ‘DZ’는 ‘즈’로 변환할 수 있다.
(5) 자음 처리부(302)는 비음 ‘M’과 ‘N’은 어말이나 자음 앞에서는 종성으로 변환할 수 있다.
(6) 자음 처리부(302)는 ‘L’에 대해 ㄱ) 어말이나 자음 앞에서는 종성으로, ㄴ) 어중의 ‘L’이 모음 앞에 오거나, 모음이 따르지 않는 비음 앞에 올 때는 “ㄹㄹ”로, ㄷ) 비음 뒤에서는 모음 앞에 오더라도 ‘ㄹ’로 변환할 수 있다.
(7) 자음 처리부(302)는 짧은 모음 다음의 어말 무성 파열음([p], [t], [k])은 각각 종성 ‘ㅂ’, 종성 ‘ㅅ’, 종성 ‘ㄱ’으로 변환할 수 있다. 자음 처리부(302)는 무성 파열음을 받침(종성)으로 적거나 다음 음절의 초성으로 적기 위해 무성 파열음 앞에 짧은 모음이 존재하는 지 여부를 판단 기준으로 정할 수 있다. 예를 들어, it[it]는 “잇”으로, beat[bi:t]는 “비트”와 같이 변환될 수 있다.
일례로, 음차 표기 데이터 변환부(202)는 포만 코드 중 소문자에 대해서는 포만 코드의 발음을 인정하거나 또는 무시(묵음 처리)할 수 있다. 이 때, 음차 표기 데이터 변환부(202)는 하기 표 5에 따라 소문자에 대응하는 포만 코드의 발음을 인정하거나 또는 무시할 수 있다.
Figure 112009057855812-pat00009
포만 코드에서 소문자로 표기된 발음은 묵음에 가까운 약한 소리를 의미할 수 있다. 이 때, 영한 사전은 포만코드로 변환할 때 ‘R’과 ‘r’을 구분하여 발음을 표기하고 있으므로, ‘R'은 초성 ‘ㄹ’로 변환하고 ‘r’은 표 5에 따라 무시하여 묵음 처리할 수 있으나, CMU 발음 기호에서는 ‘R’과 ‘r’을 구분하고 있지 않는다.
즉, CMU 발음 기호의 ‘R’을 모두 포만코드 ‘R’로 표기하기 때문에 묵음처럼(‘r’) 발음해야 하는 부분에서도 ‘르’를 표기하는 경우가 발생한다. 예를 들어, "Start"에서 r이 묵음 처리되어 "스타트"로 변환되어야 하나 "스타르트"로 변환되는 문제가 발생될 수 있다. 그리고, "Party"에서 "파티"로 변환되어야 하나, "파르티"로 변환되는 문제가 발생할 수 있다.
또한, 표 2에서 정의한 것과 같이 CMU 발음 기호에서 발음 기호 ‘ER’을 포만코드 ‘Cr’로 표기하기 때문에 ‘R’이 무시되는 경우가 발생한다. 예를 들어, "Arrival"의 경우 "어라이벌"로 변환되어야 하나 "어아이벌"로 변환되는 문제가 발생될 수 있다.
이에 대해, 음차 표기 데이터 변환부(202)는 포만 코드 중 'R'에 대해, 어말이나 자음 앞에서는 무시할 수 있다. "Start", "party"가 이에 해당한다. 또한, 음차 표기 데이터 변환부(202)는 포만 코드 중 'r'에 대해, 모음 앞에서는 초성 'ㄹ'로 변환하고, 반모음 'w' 앞에서는 무시할 수 있다. "Arrival", "Binary"가 이에 해당한다. 다만, 반모음 [w] 앞에서 'r'은 무시될 수 있다. 즉, "Overwash"의 경우 "오버뤄시"로 변환되지 않고 "오버워시"로 변환될 수 있다.
도 3을 참고하면, 포만 코드의 각 문자가 모두 자소열로 변환되면, 자소열 변환부(303)는 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인지 여부를 판단하여 완전한 자소열로 변환할 수 있다. 일례로, 자소열 변환부(303)는 초성, 중성, 종성의 순서가 어긋나는 불완전한 자소열이 발견되면 다음과 같이 처리할 수 있다.
(1) 중성 다음에 초성이 나타나면 종성 채움 코드를 삽입한다.
(2) 초성 다음에 초성이 나타나면 중성 ‘ㅡ’와 종성 채움 코드를 삽입한다.
(3) 종성 다음에 중성이 나타나면 초성 ‘ㅇ’을 삽입한다.
(4) 중성 다음에 중성이 나타나면 종성 채움 코드와 초성 ‘ㅇ’을 삽입한다.
(5) 초성 다음에 종성이 나타나면 중성 ‘ㅡ’를 삽입한다.
(6) 종성 다음에 종성이 나타나면 초성 ‘ㅇ’과 중성 ‘ㅡ’를 삽입한다.
이 후, 음차 표기 데이터 변환부(202)는 초성, 중성, 종성 순으로 이루어진 자소열을 조합형 코드로 변환한 뒤, 다시 완성형 코드로 변환함으로써 완전한 한글 음절열로 변환할 수 있다.
일례로, 음차 표기 데이터 변환부(202)를 통해 영어 단어가 변환된 한글 음차 표기 데이터는 하기 표 6과 같다. 이 때, 발음 표기가 둘 이상인 경우에는 하나의 영어 단어에 둘 이상의 한글 음차 표기가 대응될 수 있다.
Figure 112009057855812-pat00010
그리고, 앞에서 설명하였듯이, 음차 표기 데이터 생성 시스템(100)은 자동으로 자동으로 변환된 한글 음차 표기 데이터뿐만 아니라, 예외 처리되는 관용 표기("Camera", "Radio" 등)에 대한 한글 음차 표기 데이터도 함께 저장할 수 있다.
도 4는 본 발명의 일실시예에 따른 음차 표기 데이터 생성 방법을 도시한 플로우 차트이다.
단계(S401)에서, 음차 표기 데이터 생성 시스템(100)은 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성할 수 있다. 여기서, 포만 코드는 영어 발음 기호를 ASCII 코드의 인쇄 가능 영역의 한 글자로 표현할 수 있는 코드일 수 있다. 이 때, 영어 발음 기호는 기구축된 사전으로부터 추출될 수 있다. 예를 들어, 기구축된 사전은 영한 사전 또는 CMU 발음 기호가 포함된 사전을 포함할 수 있다.
음차 표기 데이터 생성 시스템(100)은 다음과 같은 원칙에 따라 영어 발음 기호로부터 포만 코드를 생성할 수 있다.
-최대한 원어의 발음을 유지하도록 하며, [f]와 같이 한글에 없는 발음도 표현한다.
-묵음에 가까운 발음은 소문자로 표현한다.
-소리의 장단은 표시하되 소리의 고저(강세)는 표현하지 않는다.
일례로, 영어 발음 기호가 영한 사전으로부터 추출된 경우, 음차 표기 데이터 생성 시스템(100)은 상기 표 1에 따라 영어 발음 기호에 대응하는 포만 코드를 생성할 수 있다.
다른 일례로, 영어 발음 기호가 CMU 발음 기호로부터 추출된 경우, 음차 표기 데이터 생성 시스템(100)은 상기 표 2에 따라 영어 발음 기호에 대응하는 포만 코드를 생성할 수 있다.
단계(S402)에서, 음차 표기 데이터 생성 시스템(100)은 포만 코드를 한글 음차 표기 데이터로 변환할 수 있다.
일례로, 음차 표기 데이터 생성 시스템(100)은 영어 단어에 대한 적어도 하나의 영어 발음 기호 각각에 대응하는 포만 코드를 순서대로 처리할 수 있다. 이 때, 음차 표기 데이터 생성 시스템(100)은 포만 코드의 모음과 자음을 각각 한글 자소로 변환할 수 있다.
일례로, 포만 코드의 모음에 대해서, 음차 표기 데이터 생성 시스템(100)은 상기 표 3에 따라 한글 자소로 변환할 수 있다.
다른 일례로, 포만 코드의 자음에 대해서, 음차 표기 데이터 생성 시스템(100)은 상기 표 4에 따라 한글 자소로 변환할 수 있다.
음차 표기 데이터 생성 시스템(100)은 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환할 수 있다.
음차 표기 데이터 생성 시스템(100)은 상기 표 5에 따라 포만 코드 중 소문자에 대해 대응하는 포만 코드의 발음을 인정하거나 무시할 수 있다.
도 4에서 설명되지 않은 부분은 도 1 내지 도 3의 설명을 참고할 수 있다.
또한 본 발명의 일실시예에 따른 음차 표기 데이터 생성 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템의 전체 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 음차 표기 데이터 생성 시스템의 세부 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 음차 표기 데이터 변환부의 상세 동작을 설명하기 위한 플로우차트이다.
도 4는 본 발명의 일실시예에 따른 음차 표기 데이터 생성 방법을 도시한 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음차 표기 데이터 생성 시스템
201: 포만 코드 생성부
202: 음차 표기 데이터 변환부

Claims (25)

  1. 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성하는 포만 코드 생성부; 및
    상기 포만 코드를 한글 음차 표기 데이터로 변환하는 음차 표기 데이터 변환부
    를 포함하는 음차 표기 데이터 생성 시스템.
  2. 제1항에 있어서,
    상기 포만 코드 생성부는,
    상기 영어 발음 기호의 원어 발음을 유지하고, 묵음에 가까운 발음 기호는 소문자로 표현하여 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
  3. 제1항에 있어서,
    상기 포만 코드는,
    상기 영어 발음 기호를 ASCII 코드의 인쇄 가능 영역의 한 글자로 표현할 수 있는 코드인 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
  4. 제1항에 있어서,
    상기 포만 코드 생성부는,
    상기 영어 발음 기호가 영한 사전으로부터 추출된 경우, 하기 표 7에 따라 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
    Figure 112009057855812-pat00011
    Figure 112009057855812-pat00012
  5. 제1항에 있어서,
    상기 포만 코드 생성부는,
    상기 영어 발음 기호가 CMU 발음 기호로부터 추출된 경우, 하기 표 8에 따라 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
    Figure 112009057855812-pat00013
  6. 제1항에 있어서,
    상기 음차 표기 데이터 변환부는,
    상기 포만 코드의 모음을 한글 자소로 변환하는 모음 처리부;
    상기 포만 코드의 자음을 한글 자소로 변환하는 자음 처리부; 및
    상기 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환하는 자소열 변환부
    를 포함하는 음차 표기 데이터 생성 시스템.
  7. 제6항에 있어서,
    상기 모음 처리부는,
    하기 표 9에 따라 상기 포만 코드의 모음을 한글 자소로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
    Figure 112009057855812-pat00014
  8. 제6항에 있어서,
    상기 자음 처리부는,
    하기 표 10에 따라 상기 포만 코드의 자음을 한글 자소로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
    Figure 112009057855812-pat00015
  9. 제8항에 있어서,
    상기 자음 처리부는,
    (1) 상기 포만 코드 중 '#'에 대해, 어말에서는 '시', 자음 앞에서는 '슈', 모음 앞에서는 '!', '^', 'E', 'A', 'U', 'O', '@'과 결합하여 각각 '시', '셔', '세', '샤', '슈', '쇼', '섀'로 변환하고,
    (2) 상기 포만 코드 중 '3'에 대해, 어말이나 자음 앞에서는 '지'로 변환하고,
    (3) 상기 포만 코드 중 'TS'는 어말이나 자음 앞에서 '츠'로, 'T#'은 '치'로 각각 변환하고,
    (4) 상기 포만 코드 중 'D3'은 어말이나 자음 앞에서 '지'로, 'DZ'는 '즈'로 각각 변환하고,
    (5) 상기 포만 코드 중 비음 'M'과 'N'에 대해 어말이나 자음 앞에서는 종성으로 변환하고,
    (6) 상기 포만 코드 중 'L'에 대해, 어말이나 자음 앞에서는 종성으로, 어중의 'L'이 모음 앞에 오거나, 모음이 따르지 않는 비음 앞에 올 때는 "ㄹㄹ"로, 비음 뒤에서는 모음 앞에 오더라도 'ㄹ'로 변환하고, 또는
    (7) 상기 포만 코드 중 짧은 모음 다음의 어말 무성 파열음인 p, t, k에 대해, 각각 종성 'ㅂ', 종성 'ㅅ', 종성 'ㄱ'으로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
  10. 제6항에 있어서,
    상기 음차 표기 데이터 변환부는,
    하기 표 11에 따라 상기 포만 코드 중 소문자에 대해 대응하는 포만 코드의 발음을 인정하거나 무시하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
    Figure 112009057855812-pat00016
  11. 제10항에 있어서,
    상기 음차 표기 데이터 변환부는,
    (1) 상기 포만 코드 중 'R'에 대해, 어말이나 자음 앞에서는 무시하고, 또는
    (2) 상기 포만 코드 중 'r'에 대해, 모음 앞에서는 초성 'ㄹ'로 변환하고, 반모음 'w' 앞에서는 무시하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
  12. 제6항에 있어서,
    상기 자소열 변환부는,
    (1) 중성 다음에 초성이 나타나면 종성 채움 코드를 삽입하고,
    (2) 초성 다음에 초성이 나타나면, 중성 다음에 초성이 나타나면 종성 채움 코드를 삽입하고,
    (3) 초성 다음에 초성이 나타나면 중성 'ㅡ'와 종성 채움 코드를 삽입하고,
    (4) 종성 다음에 중성이 나타나면 초성 'ㅇ'을 삽입하고,
    (5) 중성 다음에 중성이 나타나면 종성 채움 코드와 초성 'ㅇ'을 삽입하고,
    (6) 초성 다음에 종성이 나타나면 중성 'ㅡ'를 삽입하고, 또는
    (7) 종성 다음에 종성이 나타나면 초성 'ㅇ'과 중성 'ㅡ'를 삽입하여 완전한 자소열로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 시스템.
  13. 영어 발음 기호에 대응하는 포만 코드(Phoman Code)를 생성하는 단계; 및
    상기 포만 코드를 한글 음차 표기 데이터로 변환하는 단계
    를 포함하는 음차 표기 데이터 생성 방법.
  14. 제13항에 있어서,
    상기 포만 코드를 생성하는 단계는,
    상기 영어 발음 기호의 원어 발음을 유지하고, 묵음에 가까운 발음 기호는 소문자로 표현하여 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
  15. 제13항에 있어서,
    상기 포만 코드는,
    상기 영어 발음 기호를 ASCII 코드의 인쇄 가능 영역의 한 글자로 표현할 수 있는 코드인 것을 특징으로 하는 음차 표기 데이터 생성 방법.
  16. 제13항에 있어서,
    상기 포만 코드를 생성하는 단계는,
    상기 영어 발음 기호가 영한 사전으로부터 추출된 경우, 하기 표 12에 따라 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
    Figure 112009057855812-pat00017
    Figure 112009057855812-pat00018
  17. 제13항에 있어서,
    상기 포만 코드를 생성하는 단계는,
    상기 영어 발음 기호가 CMU 발음 기호로부터 추출된 경우, 하기 표 13에 따라 포만 코드를 생성하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
    Figure 112009057855812-pat00019
  18. 제13항에 있어서,
    상기 포만 코드를 한글 음차 표기 데이터로 변환하는 단계는,
    상기 포만 코드의 모음을 한글 자소로 변환하는 단계;
    상기 포만 코드의 자음을 한글 자소로 변환하는 단계; 및
    상기 한글 자소로 변환된 결과가 초성, 중성, 종성의 순서가 아닌 불완전 자소열인 경우, 완전한 자소열로 변환하는 단계
    를 포함하는 음차 표기 데이터 생성 방법.
  19. 제18항에 있어서,
    상기 포만 코드의 모음을 한글 자소로 변환하는 단계는,
    하기 표 14에 따라 상기 포만 코드의 모음을 한글 자소로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
    Figure 112009057855812-pat00020
  20. 제18항에 있어서,
    상기 포만 코드의 자음을 한글 자소로 변환하는 단계는,
    하기 표 15에 따라 상기 포만 코드의 자음을 한글 자소로 변환하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
    Figure 112009057855812-pat00021
  21. 제18항에 있어서,
    상기 포만 코드의 자음을 한글 자소로 변환하는 단계는,
    (1) 상기 포만 코드 중 '#'에 대해, 어말에서는 '시', 자음 앞에서는 '슈', 모음 앞에서는 '!', '^', 'E', 'A', 'U', 'O', '@'과 결합하여 각각 '시', '셔', '세', '샤', '슈', '쇼', '섀'로 변환하는 단계;
    (2) 상기 포만 코드 중 '3'에 대해, 어말이나 자음 앞에서는 '지'로 변환하는 단계;
    (3) 상기 포만 코드 중 'TS'는 어말이나 자음 앞에서 '츠'로, 'T#'은 '치'로 각각 변환하는 단계;
    (4) 상기 포만 코드 중 'D3'은 어말이나 자음 앞에서 '지'로, 'DZ'는 '즈'로 각각 변환하는 단계;
    (5) 상기 포만 코드 중 비음 'M'과 'N'에 대해 어말이나 자음 앞에서는 종성으로 변환하는 단계;
    (6) 상기 포만 코드 중 'L'에 대해, 어말이나 자음 앞에서는 종성으로, 어중의 'L'이 모음 앞에 오거나, 모음이 따르지 않는 비음 앞에 올 때는 "ㄹㄹ"로, 비음 뒤에서는 모음 앞에 오더라도 'ㄹ'로 변환하는 단계; 또는
    (7) 상기 포만 코드 중 짧은 모음 다음의 어말 무성 파열음인 p, t, k에 대해, 각각 종성 'ㅂ', 종성 'ㅅ', 종성 'ㄱ'으로 변환하는 단계
    를 포함하는 음차 표기 데이터 생성 방법.
  22. 제18항에 있어서,
    상기 포만 코드를 한글 음차 표기 데이터로 변환하는 단계는,
    하기 표 16에 따라 상기 포만 코드 중 소문자에 대해 대응하는 포만 코드의 발음을 인정하거나 무시하는 것을 특징으로 하는 음차 표기 데이터 생성 방법.
    Figure 112009057855812-pat00022
  23. 제22항에 있어서,
    상기 포만 코드를 한글 음차 표기 데이터로 변환하는 단계는,
    (1) 상기 포만 코드 중 'R'에 대해, 어말이나 자음 앞에서는 무시하는 단계; 또는
    (2) 상기 포만 코드 중 'r'에 대해, 모음 앞에서는 초성 'ㄹ'로 변환하고, 반모음 'w' 앞에서는 무시하는 단계
    를 포함하는 음차 표기 데이터 생성 방법.
  24. 제18항에 있어서,
    상기 완전한 자소열로 변환하는 단계는,
    (1) 중성 다음에 초성이 나타나면 종성 채움 코드를 삽입하는 단계;
    (2) 초성 다음에 초성이 나타나면, 중성 다음에 초성이 나타나면 종성 채움 코드를 삽입하는 단계;
    (3) 초성 다음에 초성이 나타나면 중성 'ㅡ'와 종성 채움 코드를 삽입하는 단계;
    (4) 종성 다음에 중성이 나타나면 초성 'ㅇ'을 삽입하는 단계;
    (5) 중성 다음에 중성이 나타나면 종성 채움 코드와 초성 'ㅇ'을 삽입하는 단계;
    (6) 초성 다음에 종성이 나타나면 중성 'ㅡ'를 삽입하는 단계; 또는
    (7) 종성 다음에 종성이 나타나면 초성 'ㅇ'과 중성 'ㅡ'를 삽입하는 단계
    를 포함하는 음차 표기 데이터 생성 방법.
  25. 제13항 내지 제24항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
KR1020090089081A 2009-09-21 2009-09-21 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법 KR101497322B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090089081A KR101497322B1 (ko) 2009-09-21 2009-09-21 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090089081A KR101497322B1 (ko) 2009-09-21 2009-09-21 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110031718A KR20110031718A (ko) 2011-03-29
KR101497322B1 true KR101497322B1 (ko) 2015-03-03

Family

ID=43936670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090089081A KR101497322B1 (ko) 2009-09-21 2009-09-21 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101497322B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039018A (ko) * 1998-12-10 2000-07-05 이계철 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
KR20010046695A (ko) * 1999-11-15 2001-06-15 구자홍 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법
KR20090095406A (ko) * 2008-03-05 2009-09-09 장길봉 국제음성기호한글식음성표기법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039018A (ko) * 1998-12-10 2000-07-05 이계철 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
KR20010046695A (ko) * 1999-11-15 2001-06-15 구자홍 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법
KR20090095406A (ko) * 2008-03-05 2009-09-09 장길봉 국제음성기호한글식음성표기법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문:한글 및 한국어 정보처리 학술대회 *
논문:한글 및 한국어 정보처리 학술대회*

Also Published As

Publication number Publication date
KR20110031718A (ko) 2011-03-29

Similar Documents

Publication Publication Date Title
KR102540774B1 (ko) 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
US8041559B2 (en) System and method for disambiguating non diacritized arabic words in a text
RU2441287C2 (ru) Универсальные орфографические мнемосхемы
US20070255567A1 (en) System and method for generating a pronunciation dictionary
JP5535238B2 (ja) 情報処理装置
Kaur et al. Review of machine transliteration techniques
Abbas et al. Punjabi to ISO 15919 and Roman transliteration with phonetic rectification
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
Singh et al. Text-to-Speech Synthesis system for Punjabi language
KR101497322B1 (ko) 발음 기호에 기초한 음차 표기 데이터 생성 시스템 및 방법
WO2019179884A1 (en) Processing speech-to-text transcriptions
JP2008009507A (ja) 外国語の発音のカタカナ表記方法
El-Hadi et al. Phonetisaurus-based letter-to-sound transcription for Standard Arabic
JP3589972B2 (ja) 音声合成装置
Réveil et al. Improving proper name recognition by means of automatically learned pronunciation variants
JP7124358B2 (ja) 出力プログラム、情報処理装置及び出力制御方法
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
JP2014085724A (ja) 文字列分割装置、モデルファイル学習装置および文字列分割システム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
US20230306963A1 (en) Intuitive dictation
Khusainov et al. Towards automatic speech recognition for the Tatar language
JP6300596B2 (ja) 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP5142920B2 (ja) 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム
Hernández-Mena et al. A Set of Phonetic and Phonological Rules for Mexican Spanish Revisited, Updated, Enhanced and Implemented

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 6