KR20150027465A - 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 - Google Patents

외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 Download PDF

Info

Publication number
KR20150027465A
KR20150027465A KR20130105820A KR20130105820A KR20150027465A KR 20150027465 A KR20150027465 A KR 20150027465A KR 20130105820 A KR20130105820 A KR 20130105820A KR 20130105820 A KR20130105820 A KR 20130105820A KR 20150027465 A KR20150027465 A KR 20150027465A
Authority
KR
South Korea
Prior art keywords
language
pronunciation
generating
string
proper noun
Prior art date
Application number
KR20130105820A
Other languages
English (en)
Inventor
이민규
김상훈
윤승
이철순
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR20130105820A priority Critical patent/KR20150027465A/ko
Priority to US14/244,044 priority patent/US20150066472A1/en
Publication of KR20150027465A publication Critical patent/KR20150027465A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명에 따른 외국어 고유명사에 대한 다중 발음열 생성 방법은, 제1언어로 표현된 제2언어 고유명사를 자동 번역기를 통하여 제2언어 단어로 변환하는 단계; 제2언어 G2P를 통하여 상기 제2언어 단어에 대응하는 제2언어 발음열을 생성하는 단계; 상기 제2언어 발음열을 제1언어 발음열로 변환하는 단계; 제1언어 G2P를 통하여 상기 제1언어로 표현된 제2언어 고유명사에 대응하는 제1언어 발음열을 생성하는 단계; 및 상기 제1언어 발음열로 변환하는 단계를 통하여 얻어진 제1언어 발음열과 상기 제1언어 발음열을 생성하는 단계를 통하여 얻어진 제1언어 발음열을 이용하여 복수의 발음열들을 생성하는 단계를 포함하는 것을 특징으로 한다.

Description

외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치{Method and apparatus for generating multiple phoneme string for foreign proper noun}
본 발명은 음성인식 기술에 관한 것으로, 보다 상세하게는 음성인식 또는 자동통역을 위한, 외국어 고유명사에 대한 다중 발음열을 생성하기 위한 방법 및 장치에 관한 것이다.
현재의 음성인식 시스템은 한 언어의 음성 인식뿐만 아니라 여러 언어의 음성도 인식할 수 있는 다국어 지원 음성인식 시스템으로 발전하고 있다. 다국어 지원 음성인식 시스템을 위하여 개별 언어의 음성 데이터 및 언어 데이터를 수집하여 생성된 음향 모델과 언어 모델이 요구된다. 그러나 외국어 고유명사의 경우 그 특성상 음성 데이터 및 언어 데이터가 충분하지 않다. 예를 들어 모국어가 영어이고 외국어가 한국어라 할 때, 영어 음성인식기에서 한국어 고유명사인 ‘Gangnam(강남)’을 발성하였을 때 제대로 인식되기가 쉽지 않다. 이처럼 외국어 고유명사를 제대로 인식하기 위해서는 해당 음성과 함께 정확한 발음열을 가지고 있어야 하고, 이를 위해 수작업을 거치는데 매우 많은 시간과 비용이 소요된다. 또한 외국어 고유명사의 특성상 로마나이제이션(Romanization) 규칙이 통일되지 않거나 변경됨으로 인해 외국어 고유명사의 표기조차 통일되지 않을 수 있다. 예컨대, 한국어 고유명사 ‘강남’의 영어 표기가 ‘Gangnam’, ‘Kangnam’ 등으로 통일되지 않을 수 있다.
음성인식기에서 음성을 인식하기 위해서는 단어에 대한 정확한 발음사전이 있어야 한다. 기존에 음성인식기, 혹은 자동통역기를 위한 발음사전을 생성하기 위하여, 해당 언어에서 발생하는 단어들에 대하여 G2P(Grapheme to Phoneme)를 통하여 발음열을 자동으로 생성하였다. 이와 같은 방법으로 단어들의 발음열 작성을 자동화하여 시간과 비용을 줄일 수 있었다.
그러나 모국어 G2P를 통하여 생성된 외국어 고유명사의 발음열이 음성인식기에서 사용되는 경우, 발음열이 부정확하여 음성인식 성능이 제대로 나오기가 어렵다. 외국어 고유명사의 경우 표기와 실제 발음이 매칭되지 않는 경우가 많기 때문이다. 예컨대 한국어 고유명사인 ‘강남’은 영어로 ‘Gangnam’으로 표현되기도 하고 ‘Kangnam’으로 표현되기도 하며, 영어 사용자의 경우 ‘갱남’, ‘강남’, ‘캉남’, ‘캥남’과 같이 여러 가지 발음으로 발성할 수 있다. 또한 그 발음열조차 영어 G2P를 통해 생성되기 때문에 실제 발음과 달라 음성인식 성능을 떨어트리는 요인이 된다. 게다가 하나의 외국어 고유명사에 대한 로마나이제이션 규칙이 통일되지 않음으로 인해 다양한 표기가 존재하는 경우 엔그램(n-gram)에서의 손해가 발생할 수 있다.
이러한 문제를 해결하기 위하여 외국어 고유명사들에 대해 전문가가 발음열을 수동으로 작성하고 하나의 표현으로 통일하는 방법이 있겠으나, 이는 많은 시간과 비용을 필요로 한다. 게다가 이러한 방법은 새로운 고유명사가 추가될 때마다 시간과 비용이 추가적으로 발생하며, 다양한 언어의 음성인식기를 개발하는 데 효율적으로 대처할 수 없는 문제가 있다.
본 발명이 이루고자 하는 기술적 과제는 음성인식기 또는 자동통역기의 성능을 향상시키기 위하여 외국어 고유명사의 발음열을 효과적으로 자동으로 생성하는 방법 및 장치를 제공하는 데 있다.
상기 기술적 과제를 해결하기 위한, 본 발명에 따른 외국어 고유명사에 대한 다중 발음열 생성 방법은, 제1언어로 표현된 제2언어 고유명사를 자동 번역기를 통하여 제2언어 단어로 변환하는 단계; 제2언어 G2P를 통하여 상기 제2언어 단어에 대응하는 제2언어 발음열을 생성하는 단계; 상기 제2언어 발음열을 제1언어 발음열로 변환하는 단계; 제1언어 G2P를 통하여 상기 제1언어로 표현된 제2언어 고유명사에 대응하는 제1언어 발음열을 생성하는 단계; 및 상기 제1언어 발음열로 변환하는 단계를 통하여 얻어진 제1언어 발음열과 상기 제1언어 발음열을 생성하는 단계를 통하여 얻어진 제1언어 발음열을 이용하여 복수의 발음열들을 생성하는 단계를 포함하는 것을 특징으로 한다.
상기 제2언어 단어로 변환하는 단계에서, 상기 제2언어 고유명사의 복수 개의 제1언어 표현들이 하나의 제2언어 단어로 변환될 수 있다.
상기 제1언어 발음열을 생성하는 단계에서, 상기 제2언어 고유명사의 복수 개의 제1언어 표현들 각각에 대응하는 제1언어 발음열들이 생성될 수 있다.
상기 복수의 발음열들을 생성하는 단계는, 상기 제1언어 발음열로 변환하는 단계를 통하여 얻어진 제1언어 발음열과 상기 제1언어 발음열을 생성하는 단계를 통하여 얻어진 제1언어 발음열의 차이나는 부분을 찾고, 상기 차이나는 부분을 조합하여 상기 복수의 발음열들을 생성할 수 있다.
상기 차이나는 부분을 찾는 것에는 다이나믹 프로그래밍이 이용될 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명에 따른 외국어 고유명사에 대한 다중 발음열 생성 장치는, 제1언어로 표현된 제2언어 고유명사를 제2언어 단어로 변환하는 자동 번역기; 상기 제2언어 단어에 대응하는 제2언어 발음열을 생성하는 제2언어 G2P; 상기 제2언어 발음열을 제1언어 발음열로 변환하는 발음열 변환부; 상기 제1언어로 표현된 제2언어 고유명사에 대응하는 제1언어 발음열을 생성하는 제1언어 G2P; 및 상기 발음열 변환부를 통하여 얻어진 제1언어 발음열과 상기 제1언어 G2P를 통하여 얻어진 제1언어 발음열을 이용하여 복수의 발음열들을 생성하는 발음열 생성부를 포함하는 것을 특징으로 한다.
상기 자동 번역기는 상기 제2언어 고유명사의 복수 개의 제1언어 표현들을 하나의 제2언어 단어로 변환할 수 있다.
상기 제1언어 G2P는 상기 제2언어 고유명사의 복수 개의 제1언어 표현들 각각에 대응하는 제1언어 발음열들을 생성할 수 있다.
상기 발음열 생성부는, 상기 발음열 변환부를 통하여 얻어진 제1언어 발음열과 상기 제1언어 G2P를 통하여 얻어진 제1언어 발음열의 차이나는 부분을 찾고, 상기 차이나는 부분을 조합하여 상기 복수의 발음열들을 생성할 수 있다.
상기된 본 발명에 의하면, 외국어 고유명사에 대한 보다 정확하고 다양한 발음열들을 효과적으로 자동으로 생성할 수 있고, 따라서 음성인식기 또는 자동통역기의 성능 향상에 기여할 수 있다.
또한, 기존에 외국어 고유명사의 발음열을 수동으로 작성하던 작업에 들어가는 시간과 비용을 절감할 수 있다.
또한, 외국어 고유명사의 다양한 표현을 단일화함으로써, 언어모델에서 해당 고유명사에 대한 엔그램(n-gram) 히트 율(hit ratio)를 증가시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른, 외국어 고유명사에 대한 다중 발음열 생성 장치의 구성을 나타낸다.
도 2는 자동 번역기(110)에 입력되는 한국어 고유명사들의 영어 표현들과 그것들이 자동 번역기(110)를 통하여 한국어 단어들로 변환된 결과의 예를 나타낸다.
도 3은 제2언어 G2P(120)를 통하여 한국어 단어들에 대응하는 한국어 발음열이 생성되는 예(301)와, 발음열 변환부(130)를 통하여 한국어 발음열이 영어 발음열로 변환되는 예(302)를 나타낸다.
도 4는 제1언어 G2P(140)를 통하여 한국어 고유명사의 영어 표현에 대응하는 영어 발음열이 생성되는 예를 나타낸다.
도 5는 발음열 생성부(150)의 동작의 예를 설명하는 도면이다.
도 6은 DTW(Dynamic Time Warping)를 이용하여 두 발음열들의 차이나는 부분을 찾는 과정을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른, 외국어 고유명사에 대한 다중 발음열 생성 방법의 흐름도를 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
이하, 본 발명의 실시예들에서는 제1언어와 제2언어가 등장하는데, 제1언어와 제2언어는 서로 다른 언어이며, 제1언어는 모국어에 해당하고 제2언어는 외국어에 해당할 수 있다. 제1언어와 제2언어는 물론 임의의 언어가 될 수 있으나, 설명의 편의상, 제1언어는 영어, 제2언어는 한국어를 예로 들어 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른, 외국어 고유명사에 대한 다중 발음열 생성 장치의 구성을 나타낸다. 본 실시예에 따른 다중 발음열 생성 장치는 도시된 바와 같이, 자동 번역기(110), 제2언어 G2P(120), 발음열 변환부(130), 제1언어 G2P(140) 및 발음열 생성부(150)를 포함하여 이루어진다.
본 실시예에 따른 다중 발음열 생성 장치는 제1언어로 표현된 제2언어 고유명사를 입력으로 하거나, 제1언어로 표현된 제2언어 고유명사가 다중 발음열 생성 장치에 미리 주어진다. 제1언어로 표현된 제2언어 고유명사는 예컨대, 영어로 표현된 한국어 고유명사이다. 실시예에 따라, 하나의 제2언어 고유명사에 대한 제1언어 표현은 둘 이상일 수 있다. 예컨대, 한국어 고유명사 ‘강남’에 대한 영어 표현은 ‘Gangnam’과 ‘Kangnam’의 둘이 있을 수 있다.
자동 번역기(110)는 제1언어로 표현된 제2언어 고유명사를 제2언어 단어로 변환한다. 예컨대 자동 번역기(110)는 영어로 표현된 한국어 고유명사를 한국어 단어로 변환한다. 실시예에 따라, 하나의 제2언어 고유명사에 대한 복수 개의 제1언어 표현들이 자동 번역기(110)에 입력되는 경우, 자동 번역기(110)는 복수 개의 제1언어 표현들을 하나의 제2언어 단어로 변환할 수 있다. 예컨대, 한국어 고유명사 ‘강남’에 대한 영어 표현으로서 ‘Gangnam’과 ‘Kangnam’이 주어지는 경우, 자동 번역기(110)는 ‘Gangnam’과 ‘Kangnam’을 번역하여 하나의 한국어 단어인 ‘강남’을 출력한다. 이러한 자동 번역기(110)의 동작은, 특정 외국어 고유명사에 대한 다양한 모국어 표현들을 하나의 외국어 단어로 단일화하는 역할을 한다.
도 2는 자동 번역기(110)에 입력되는 한국어 고유명사들의 영어 표현들과 그것들이 자동 번역기(110)를 통하여 한국어 단어들로 변환된 결과의 예를 나타낸다. 도 2를 참조하면, 한국어 고유명사들인 ‘강원’(201), ‘경부’(202), ‘강남’(203)은 각각 복수 개의 영어 표현들이 존재하며, 복수 개의 영어 표현들은 자동 번역기(110)를 통하여 하나의 한국어 단어로 변환된다.
도 2에 도시된 바와 같이 한국어 고유명사에 대한 영어 표현은 로마나이제이션(Romanization) 규칙에 따라 여러 가지가 존재할 수 있다. 하나의 한국어 고유명사에 대하여 다양한 영어 표현이 존재하는 경우 언어 모델링에 있어서 해당 단어들의 확률이 여러 단어로 나누어지기 때문에 부정확하게 모델링되어 인식 성능을 떨어트리는 요인이 된다. 따라서 본 발명의 실시예에서는 자동 번역기(110)를 통하여 한국어 고유명사의 다양한 영어 표현을 하나의 한국어 단어로 매핑시킴으로써 해당 단어에 대한 모델링이 정확하게 이루어지도록 할 수 있다.
다시 도 1을 참조하면, 제2언어 G2P(120)는 자동 번역기(110)에서 출력되는 제2 언어 단어에 대응하는 제2 언어 발음열을 생성한다. 즉, 제2언어 G2P(120)를 통하여 얻어지는 발음열은 제2 언어의 발음 셋(phoneme set)으로 구성된 발음열이다.
예컨대, 제2언어 G2P(120)는 한국어 G2P로서, 자동 번역기(110)에서 출력되는 한국어 단어에 대응하는 한국어 발음열을 생성한다. 예를 들어, 자동 번역기(110)에서 한국어 단어 ‘강남’이 출력되는 경우, 제2 언어 G2P(120)는 ‘강남’에 대응하는 한국어 발음열 ‘g a N n a m’을 생성한다.
발음열 변환부(130)는 제2언어 G2P(120)에서 출력되는 제2 언어 발음열을 제1 언어 발음열로 변환한다. 발음열 변환부(130)는 제2 언어의 발음 셋(phoneme set)과 제1 언어의 발음 셋(phoneme set)의 대응 관계를 이용하여, 제2 언어 발음열을 제1 언어 발음열로 변환할 수 있다.
예컨대 발음열 변환부(130)는, 제2언어 G2P(120)에서 출력되는 한국어 발음열을 영어 발음열로 변환한다. 예를 들어, 제2 언어 G2P(120)에서 한국어 발음열 ‘g a N n a m’이 출력되는 경우, 발음열 변환부(130)는 이를 영어 발음열 ‘G AA NG N AA M’으로 변환한다.
도 3은 제2언어 G2P(120)를 통하여 한국어 단어들에 대응하는 한국어 발음열이 생성되는 예(301)와, 발음열 변환부(130)를 통하여 한국어 발음열이 영어 발음열로 변환되는 예(302)를 나타낸다.
다시 도 1을 참조하면, 제1언어 G2P(140)는 제1언어로 표현된 제2언어 고유명사에 대응하는 제1 언어 발음열을 생성한다. 예컨대, 제1언어 G2P(140)는 영어 G2P로서, 영어로 표현된 한국어 고유명사에 대응하는 영어 발음열을 생성한다. 실시예에 따라, 하나의 제2언어 고유명사에 대한 복수 개의 제1언어 표현들이 제1언어 G2P(140)에 입력되는 경우, 제1언어 G2P(140)는 복수 개의 제1언어 표현들 각각에 대응하는 제1 언어 발음열들을 생성한다.
도 4는 제1언어 G2P(140)를 통하여 한국어 고유명사의 영어 표현에 대응하는 영어 발음열이 생성되는 예를 나타낸다. 예컨대, 한국어 고유명사 ‘강남’에 대한 영어 표현으로서 ‘Gangnam’과 ‘Kangnam’이 입력되는 경우, 제1언어 G2P(140)는 ‘Gangnam’ 및 ‘Kangnam’에 각각 대응하는 영어 발음열 ‘G AA NG N AA M’ 및 ‘K AA NG N AE M’을 생성한다.
발음열 생성부(150)는 발음열 변환부(130)를 통하여 얻어지는 제1언어 발음열과, 제1언어 G2P(140)를 통하여 얻어지는 제1언어 발음열을 이용하여 복수의 발음열들을 생성한다. 예컨대, 발음열 생성부(150)는 발음열 변환부(130)를 통하여 얻어지는 영어 발음열과, 영어 G2P(140)를 통하여 얻어지는 영어 발음열을 이용하여 복수의 발음열들을 생성한다.
영어 G2P(140)를 통하여 출력되는 영어 발음열은, 한국어 단어의 영어 표현으로부터 바로 영어 G2P를 통하여 얻은 발음열이다. 따라서 이렇게 얻어진 영어 발음열은 영어 사용자가 한국어 고유명사를 발화할 경우에 나타날 수 있는 다양한 발음들이 반영된 것이다.
한편, 발음열 변환부(130)를 통하여 출력되는 영어 발음열은, 한국어 단어의 영어 표현을 자동 번역을 통하여 한국어 단어로 변환하고, 이로부터 한국어 G2P를 통하여 한국어 발음열을 얻고, 한국어 발음열을 영어 발음열로 변환한 결과 얻어진 발음열이다. 여기서 한국어 G2P를 통하여 얻어진 한국어 발음열은 한국어 고유명사의 실제 발음과 가까운 한국어 발음열에 해당하고, 한국어 발음열을 영어 발음열로 변환한 결과 얻어진 발음열은 결국 한국어 고유명사의 실제 발음과 가까운 영어 발음열에 해당한다.
따라서 영어 G2P(140)를 통하여 출력되는 영어 발음열과 발음열 변환부(130)를 통하여 출력되는 영어 발음열은 경우에 따라 중복될 수도 있으나 일반적으로 상이하며, 이들을 모두 이용하여 복수의 발음열들을 생성한다면 한국어 고유명사에 대한 보다 다양하고 정확한 영어 발음열들을 생성할 수 있게 된다.
본 발명의 일 실시예에서, 발음열 생성부(150)는 발음열 변환부(130)를 통하여 얻어지는 제1언어 발음열과, 제1언어 G2P(140)를 통하여 얻어지는 제1언어 발음열의 차이나는 부분을 찾고, 차이나는 부분을 조합하여 복수의 발음열들을 생성할 수 있다. 도 5는 이러한 발음열 생성부(150)의 동작의 예를 설명하는 도면이다.
도 5를 참조하면, ‘G AA NG N AA M’은 발음열 변환부(130)를 통하여 얻어진 영어 발음열이고, ‘K AA NG N AE M’ 및 ‘G AA NG N AA M’은 제1언어 G2P(140)를 통하여 얻어진 영어 발음열이다. 따라서 이 영어 발음열들의 차이나는 부분은 첫 번째 음소(510)와 다섯 번째 음소(520)에 해당한다. 따라서 첫 번째 음소(510)와 다섯 번째 음소(520)를 조합하게 되면, 4개의 영어 발음열들, 즉 ‘G AA NG N AA M’, ‘K AA NG N AE M’, ‘K AA NG N AA M’ 및 ‘G AA NG N AE M’이 생성된다.
발음열 생성부(150)에서 둘 이상의 발음열들에서 차이나는 부분을 찾는 데에는 기존에 알려진 다양한 알고리즘이 사용될 수 있는데, 일 예로 DTW(Dynamic Time Warping)와 같은 다이나믹 프로그래밍 기법이 이용될 수 있다. 도 6은 DTW(Dynamic Time Warping)를 이용하여 두 발음열들 ‘G AA NG N AA M’과 ‘K AA NG N AE M’의 차이나는 부분을 찾는 과정을 나타내는 도면이다. 도 6을 참조하면, 두 발음열의 차이나는 부분으로 첫 번째 음소가 ‘K’와 ‘G’로, 다섯 번째 음소가 ‘AE’와 ‘AA’로 발견된다.
도 7은 본 발명의 일 실시예에 따른, 외국어 고유명사에 대한 다중 발음열 생성 방법의 흐름도를 나타낸다. 본 실시예에 따른 다중 발음열 생성 방법은 전술한 다중 발음열 생성 장치에서 처리되는 단계들로 이루어진다. 따라서 이하 생략된 내용이라 하더라도 다중 발음열 생성 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 다중 발음열 생성 방법에도 적용된다.
710단계에서, 다중 발음열 생성 장치는 제1 언어로 표현된 제2 언어 고유명사를 자동 번역기를 통하여 제2 언어 단어로 변환한다.
720단계에서, 다중 발음열 생성 장치는, 제2 언어 G2P를 통하여, 상기 710단계에서 얻어진 제2 언어 단어에 대응하는 제2 언어 발음열을 생성한다.
730단계에서, 다중 발음열 생성 장치는 상기 생성된 제2 언어 발음열을 제1 언어 발음열로 변환한다.
한편, 740단계에서, 다중 발음열 생성 장치는, 제1 언어 G2P를 통하여, 상기 제1 언어로 표현된 제2 언어 고유명사에 대응하는 제1 언어 발음열을 생성한다.
750단계에서, 다중 발음열 생성 장치는 상기 730단계를 통하여 얻어진 제1 언어 발음열과 상기 740단계를 통하여 얻어진 제1 언어 발음열을 이용하여 복수의 발음열들을 생성한다.
상기된 본 발명의 실시예에 의하면, 외국어 고유명사에 대하여, 발성될 수 있는 다양한 발음열들을 생성할 수 있는 효과가 있다. 또한, 외국어 고유명사에 대하여 모국어 G2P를 통하여 생성된 발음열과 외국어 G2P를 이용하여 생성된 발음열을 조합하여 다중 발음열을 생성하므로, 이러한 다중 발음열을 이용하게 되면 부정확한 발음으로 발화된 단어에 대한 인식 성능이 크게 향상될 수 있다. 나아가, 음성인식을 활용하는 자동통역 상황의 경우 외국어 고유명사에 대한 발성이 많으므로, 본 발명을 적용하게 되면 음성인식 성능이 크게 개선될 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (10)

  1. 제1언어로 표현된 제2언어 고유명사를 자동 번역기를 통하여 제2언어 단어로 변환하는 단계;
    제2언어 G2P를 통하여 상기 제2언어 단어에 대응하는 제2언어 발음열을 생성하는 단계;
    상기 제2언어 발음열을 제1언어 발음열로 변환하는 단계;
    제1언어 G2P를 통하여 상기 제1언어로 표현된 제2언어 고유명사에 대응하는 제1언어 발음열을 생성하는 단계; 및
    상기 제1언어 발음열로 변환하는 단계를 통하여 얻어진 제1언어 발음열과 상기 제1언어 발음열을 생성하는 단계를 통하여 얻어진 제1언어 발음열을 이용하여 복수의 발음열들을 생성하는 단계를 포함하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 방법.
  2. 제1항에 있어서,
    상기 제2언어 단어로 변환하는 단계는, 상기 제2언어 고유명사의 복수 개의 제1언어 표현들을 하나의 제2언어 단어로 변환하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 방법.
  3. 제2항에 있어서,
    상기 제1언어 발음열을 생성하는 단계는, 상기 제2언어 고유명사의 복수 개의 제1언어 표현들 각각에 대응하는 제1언어 발음열들을 생성하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 방법.
  4. 제1항에 있어서,
    상기 복수의 발음열들을 생성하는 단계는, 상기 제1언어 발음열로 변환하는 단계를 통하여 얻어진 제1언어 발음열과 상기 제1언어 발음열을 생성하는 단계를 통하여 얻어진 제1언어 발음열의 차이나는 부분을 찾고, 상기 차이나는 부분을 조합하여 상기 복수의 발음열들을 생성하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 방법.
  5. 제4항에 있어서,
    상기 차이나는 부분을 찾는 것은 다이나믹 프로그래밍을 이용하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 방법.
  6. 제1언어로 표현된 제2언어 고유명사를 제2언어 단어로 변환하는 자동 번역기;
    상기 제2언어 단어에 대응하는 제2언어 발음열을 생성하는 제2언어 G2P;
    상기 제2언어 발음열을 제1언어 발음열로 변환하는 발음열 변환부;
    상기 제1언어로 표현된 제2언어 고유명사에 대응하는 제1언어 발음열을 생성하는 제1언어 G2P;
    상기 발음열 변환부를 통하여 얻어진 제1언어 발음열과 상기 제1언어 G2P를 통하여 얻어진 제1언어 발음열을 이용하여 복수의 발음열들을 생성하는 발음열 생성부를 포함하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 장치.
  7. 제6항에 있어서,
    상기 자동 번역기는 상기 제2언어 고유명사의 복수 개의 제1언어 표현들을 하나의 제2언어 단어로 변환하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 장치.
  8. 제7항에 있어서,
    상기 제1언어 G2P는 상기 제2언어 고유명사의 복수 개의 제1언어 표현들 각각에 대응하는 제1언어 발음열들을 생성하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 장치.
  9. 제6항에 있어서,
    상기 발음열 생성부는, 상기 발음열 변환부를 통하여 얻어진 제1언어 발음열과 상기 제1언어 G2P를 통하여 얻어진 제1언어 발음열의 차이나는 부분을 찾고, 상기 차이나는 부분을 조합하여 상기 복수의 발음열들을 생성하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 장치.
  10. 제9항에 있어서,
    상기 차이나는 부분을 찾는 것은 다이나믹 프로그래밍을 이용하는 것을 특징으로 하는, 외국어 고유명사에 대한 다중 발음열 생성 장치.
KR20130105820A 2013-09-04 2013-09-04 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 KR20150027465A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR20130105820A KR20150027465A (ko) 2013-09-04 2013-09-04 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치
US14/244,044 US20150066472A1 (en) 2013-09-04 2014-04-03 Method and apparatus for generating multiple phoneme strings for foreign noun

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130105820A KR20150027465A (ko) 2013-09-04 2013-09-04 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150027465A true KR20150027465A (ko) 2015-03-12

Family

ID=52584423

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130105820A KR20150027465A (ko) 2013-09-04 2013-09-04 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치

Country Status (2)

Country Link
US (1) US20150066472A1 (ko)
KR (1) KR20150027465A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN111402862B (zh) * 2020-02-28 2023-06-20 出门问问创新科技有限公司 语音识别方法、装置、存储介质及设备
US11699430B2 (en) * 2021-04-30 2023-07-11 International Business Machines Corporation Using speech to text data in training text to speech models

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치

Also Published As

Publication number Publication date
US20150066472A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US7472061B1 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US20080046229A1 (en) Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
JP2013206253A (ja) 機械翻訳装置、方法、およびプログラム
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
US11295730B1 (en) Using phonetic variants in a local context to improve natural language understanding
Reddy et al. Integration of statistical models for dictation of document translations in a machine-aided human translation task
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
JP2015201215A (ja) 機械翻訳装置、方法、およびプログラム
JP2020527253A (ja) 音節に基づく自動音声認識
Diehl et al. Morphological decomposition in Arabic ASR systems
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
KR20130059476A (ko) 음성 인식용 탐색 공간 생성 방법 및 장치
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
KR20150027465A (ko) 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
JP6397641B2 (ja) 自動通訳装置及び方法
JP6475517B2 (ja) 発音系列拡張装置およびそのプログラム
JP2010175765A (ja) 音声認識装置および音声認識プログラム
Dureja et al. Speech-to-Speech Translation: A Review
Thu et al. Syllable pronunciation features for myanmar grapheme to phoneme conversion
Pandey et al. Development and suitability of indian languages speech database for building watson based asr system

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid