KR101246287B1 - 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법 - Google Patents

음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법 Download PDF

Info

Publication number
KR101246287B1
KR101246287B1 KR1020110027666A KR20110027666A KR101246287B1 KR 101246287 B1 KR101246287 B1 KR 101246287B1 KR 1020110027666 A KR1020110027666 A KR 1020110027666A KR 20110027666 A KR20110027666 A KR 20110027666A KR 101246287 B1 KR101246287 B1 KR 101246287B1
Authority
KR
South Korea
Prior art keywords
information
pronunciation
accent
sound
price
Prior art date
Application number
KR1020110027666A
Other languages
English (en)
Other versions
KR20120109879A (ko
Inventor
박봉래
Original Assignee
(주)클루소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)클루소프트 filed Critical (주)클루소프트
Priority to KR1020110027666A priority Critical patent/KR101246287B1/ko
Priority to US14/007,809 priority patent/US20140019123A1/en
Priority to PCT/KR2011/002610 priority patent/WO2012133972A1/ko
Publication of KR20120109879A publication Critical patent/KR20120109879A/ko
Application granted granted Critical
Publication of KR101246287B1 publication Critical patent/KR101246287B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

단어를 구성하는 음가들의 강세에 따라 변화되는 원어민의 발음형태를 반영하여 보다 정확하고 자연스러운 발음기관 애니메이션을 생성하도록 한 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법이 제시된다. 제시된 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는 음성정보로부터 문자정보에 포함된 각 음가들의 발성길이 및 강세정보를 검출하여 해당 음가에 할당하여 강세별 세부음가를 적용한 음가구성정보를 생성하고, 음가구성정보를 근거로 검출한 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성합니다.

Description

음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법{Apparatus and method for generating the vocal organs animation using the accent of phonetic value}
본 발명은 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법에 관한 것으로, 더욱 상세하게는 원어민의 발음형태를 반영하여 발음기관 애니메이션을 생성하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법에 관한 것이다.
세계화가 가속되면서 외국어 구사력에 대한 필요성이 높아지고 있다. 이러한 상황에서 빠르게 외국어를 익히기 위해서는 우선적으로 해당 언어의 발음에 대해 익숙해질 필요가 있다. 해당 언어의 발음에 충분히 익숙해져야 원어민의 발음을 이해할 수 있고, 원어민의 발음을 이해할 수 있는 상황에서만이 다양한 구나 문장들을 더욱 효과적이고 효율적으로 습득할 수 있기 때문이다. 또한, 정확한 발음으로 해당 언어를 구사해야만 원어민과의 대화가 가능해져 대화를 통한 언어학습이 가능해지기 때문이다.
아이가 언어를 배우는 과정은 태아 때부터 해당 언어의 음성적 특성, 특히 분절에 익숙해진 후, 태어난 후 의미와 문법을 익혀 나간다고 한다. 그리고 10세를 전후로 자국어 음성 패턴에 발음기관 요소들이 고착화되어 외국어 습득이 어려워지기 시작한다.
그런데 현행 외국어 교육은 외국어의 음성적 특성에 익숙하지 않아 분절이 어려운 상태에서 단어, 구, 문장 위주의 교육에 주력하여, 익숙해진 문장이라 해도 조금만 변형되면 청취 및 구사가 쉽지 않다. 특히 빠르게 발음된 문장 내에서 언어 구성 요소를 쉽게 분절하지 못하여 청취가 어렵고 발음 또한 매우 어색하다.
이에 교육기관 및 교육사업업체들에서 발음 교정을 위한 다양한 솔루션들을 개발해 왔는데, 본 발명과 관련된 대표적인 두 가지를 소개하면 다음과 같다.
하나는 개별 발음 발화시 발음기관 요소들의 발화시 변화과정을 제시해주는 솔루션이다. 미국의 Pronunciation Power라는 제품, 프랑스의 Tell me more 및 미국 IOWA대학에서 인터넷으로 서비스하고 있는 솔루션이 있다. 이들은 모두 영어의 기본 음소들이 발화되는 과정을 얼굴 정면에서의 입 모양과 얼굴 측단면에서의 입안 모양의 변화과정을 통해 제시해 줌으로써 해당 음가(음속)가 어떻게 발음되는지에 대한 이해를 도와준다.
다음은 발화된 음성을 음성파 이미지로 제시하고 유사성을 비교해주는 솔루션이다. 미국의 Pronunciation Power라는 제품, 프랑스의 Tell me more라는 제품 및 국내 (주)언어과학의 뿌리영어라는 제품이 있다. 이들은 문장 등에 대해 원어민이 발화한 음성파와 학습자의 음성파 및 둘의 유사성 정도를 보여주고 비교하여 학습자가 원어민과 유사한 발성을 하도록 유도하는 것을 특징으로 한다.
이상의 두 가지 솔루션은 발음의 원리를 이해하고 자신의 발음이 올바른지를 가늠할 수 있는 수단을 제공한다는 점에서 유용한 면이 있다. 하지만, 너무 단순하거나 이해하기 쉽지 않다는 점에서 개선의 여지가 많이 남아있다.
발음기관의 변화과정을 제시해주는 방식은 단지 기본 음소들(해당 언어의 자음과 모음)의 발음 과정을 2차원 이미지들의 애니메이션으로 미리 구축해 둔 후 개별적으로만 보여주어, 동일한 음소라 하여도 인접한 음소에 따라, 발화시 강세나 빠르기 등에 따라, 발음 과정이 다양하게 존재할 수 있음을 이해시키지 못할 뿐만 아니라, 발음을 숙지하는 과정을 실용 단어, 구 및 문장들을 학습하는 과정에서 분리함으로써 언어학습 전 과정에서 지속적 발음교정을 유도하지는 못한다.
또한, 음성파 비교 방식은 일반 학습자들에게는 음성파 자체가 이해되기 쉽지 않으며, 발음의 원리를 숙지하는 직감적인 방법을 제공하고 있지 못하다. 또한, 원어민의 음성파와 비교하는 방식은 학습자가 올바르게 발음하였다 하더라도 원어민의 것과 다를 수 있고 이에 따라 부정적 평가가 제시되어 신뢰성이 떨어질 수 있다.
상기한 문제점을 해결하기 위해서, 본 출원인이 기 출원하여 등록된 발음정보 표출장치 및 방법(한국등록특허 제10-1015261호, 이하, 등록특허)이 있다. 등록특허는 어학교육시 발음교정을 효과적으로 지원하기 위해 발음기관의 변화과정을 애니메이션으로 생성하여 표출하도록 한 것으로, 각 음가에 대응되는 조음기관 상태정보들을 구비하고 연속된 음가들이 주어지면 해당 조음기관 상태정보들에 근거하여 발음기관 애니메이션을 생성하고 화면에 표시함으로써, 외국어 학습자에게 원어민의 발음형태에 관한 정보를 제공한다. 아울러, 등록특허는 동일한 단어라 하더라도 발성의 빠르기나 축약, 단축, 생략 등과 같은 발음현상을 반영하여 원어민의 발음형태와 가까운 발음기관 애니메이션을 생성한다.
그런데 조음기관들은 연속되는 발음에서 특정 발음이 발성될 때 다음 발음을 미리 준비하는 경향이 있는데, 이를 언어학적으로 '발음의 경제성'이라 한다. 예를 들어, 영어에서 혀의 작용과 무관해 보이는 /b/, /p/, /m/, /f/, /v/와 같은 선행 발음에 이어서 /r/ 발음이 위치한 경우 혀는 선행 발음을 발성하는 과정 중에 미리 /r/ 발음을 준비하는 경향이 있다. 또한, 영어에서 혀의 직접적인 작용이 필요한 발음들이 이어지는 경우에도 뒤 발음이 보다 용이하게 발성될 수 있도록 현재 발음의 발성방식을 뒤 발음에 맞추어 표준 음가와는 달리 발성하는 경향이 있다.
이러한 발음의 경제성이 등록특허에서 효과적으로 반영되지 못하였음을 본 출원인은 발견하였다. 즉, 등록특허는 동일한 음가라 하더라도 인접된 음가에 따라 변화되는 원어민의 발음형태가 애니메이션에 제대로 반영되어 있지 않아, 실제 원어민이 구사하는 발음형태와 발음기관 애니메이션 간에 차이가 나타나는 문제가 있다.
상기한 문제점을 해결하기 위해서, 본 출원인이 기 출원한 발음기관 애니메이션 생성 장치 및 방법(한국특허출원 제10-2010-0051369호, 이하, 출원특허)이 있다. 출원특허는 인접된 발음에 따라 각 발음이 달리 발음되는 과정을 반영하여 발음기관 애니메이션을 생성한다.
본 발명의 목적은 단어를 구성하는 음가들의 강세에 따라 변화되는 원어민의 발음형태를 반영하여 보다 정확하고 자연스러운 발음기관 애니메이션을 생성하도록 한 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법을 제공하는 것이다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는, 문자정보와 함께 입력되는 음성정보로부터 문자정보에 포함된 단어들을 구성하는 각 음가들의 발성길이 및 강세정보를 검출하고, 문자정보에 포함된 단어들을 구성하는 각 음가들에 검출한 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부; 검출한 강세정보를 생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부; 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및 문자정보에 포함된 단어들을 구성하는 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는, 문자정보에 포함된 단어들을 구성하는 각 음가들에 문자정보와 함께 입력되는 음성정보로부터 검출한 각 음가별 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부; 음성정보로부터 문자정보에 포함된 단어들을 구성하는 각 음가들의 강세정보를 검출하고, 검출한 강세정보를 생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부; 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및 문자정보에 포함된 단어들을 구성하는 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 또 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는, 복수의 음가들에 대한 발성길이를 저장하는 음가정보 저장부; 복수의 음가들에 대한 강세정보를 저장하는 강세별음가정보 저장부; 입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들의 발성길이를 강세별음가정보 저장부로부터 검출하고, 검출한 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부; 문자정보에 포함된 단어들을 구성하는 각 음가들의 강세정보를 강세별음가정보 저장부로부터 검출하고, 검출한 강세정보를 생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부; 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및 문자정보에 포함된 단어들을 구성하는 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 또 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는, 입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 입력받는 입력부; 입력된 발성길이를 문자정보에 포함된 단어들을 구성하는 각 음가들에 할당하여 음가구성정보를 생성하는 음가구성정보 생성부;
입력된 강세정보를 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부;
강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및
문자정보에 포함된 단어들을 구성하는 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
복수의 음가들에 대한 복수의 발음형태정보들을 저장하되, 복수의 음가들 각각에 서로 다른 강세정보를 갖는 적어도 하나의 발음형태정보를 연계하여 저장하는 발음형태정보 저장부를 더 포함하고, 발음형태 검출부는, 음가에 연계된 적어도 하나의 발음형태정보 중에서 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 음가의 발음형태정보로 검출한다.
복수의 음가들 각각에 대해 강세정보를 갖는 발음형태정보를 연계하여 저장하는 발음형태정보 저장부를 더 포함하고, 발음형태 검출부는, 음가구성정보에 포함된 음가들의 강세정보 및 저장부에 저장된 발음형태정보들의 강세정보를 근거로 강세 차이를 검출하고, 강세 차이에 따라 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정한다.
음가구성정보에 포함된 인접한 두 음가별로 발성길이 일부를 두 음가간의 전이구간으로 배정하는 전이구간 배정부를 더 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법은, 입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 검출하는 단계; 검출한 각 음가들에 대한 발성길이를 해당 음가에 할당하여 음가구성정보를 생성하는 단계; 생성된 음가구성정보에 포함된 각 음가들에 대해 검출한 각 음가들에 대한 강세정보를 할당하여 음가구성정보에 강세별 세부음가를 적용하는 단계; 강세별 세부음가가 적용된 음가구성정보에 포함된 각 강세별 세부음가에 대응되는 발음형태정보를 검출하는 단계; 및 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 단계를 포함한다.
발성길이 및 강세정보를 검출하는 단계는, 문자정보와 함께 입력되는 음성정보로부터 발성길이 및 강세정보를 검출하는 단계; 및 기저장된 복수의 음가들 중에서 문자정보에 포함된 단어들을 구성하는 각 음가들에 해당하는 발성길이 및 강세정보를 검출하는 단계; 중에 어느 하나를 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법은, 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 입력받는 단계; 입력된 각 음가들에 대한 발성길이를 해당 음가에 할당하여 음가구성정보를 생성하는 단계; 입력된 음가구성정보에 포함된 각 음가들에 대해 검출한 각 음가들에 대한 강세정보를 할당하여 음가구성정보에 강세별 세부음가를 적용하는 단계; 강세별 세부음가가 적용된 음가구성정보에 포함된 각 강세별 세부음가에 대응되는 발음형태정보를 검출하는 단계; 및 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 단계를 포함한다.
발음형태정보를 검출하는 단계에서는, 음가에 연계된 적어도 하나의 발음형태정보 중에서 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 해당 음가의 발음형태정보로 검출하거나, 음가구성정보에 포함된 음가들의 강세정보와 기저장된 발음형태정보들의 강세정보의 강세 차이에 따라 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정한다.
발성길이가 할당된 음가구성정보 및 강세별 세부음가가 적용된 음가구성정보 중에 어느 하나에 포함된 음가들에 대해 인접한 두 음가별로 발성길이 일부를 두 음가 간의 전이구간으로 배정하는 단계를 더 포함한다.
본 발명에 의하면, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 단어를 구성하는 음가들의 강세에 따라 변화되는 원어민의 발음형태를 반영하여 발음기관 애니메이션을 생성함으로써, 원어민의 발음형태와 매우 근접된 발음기관 애니메이션을 생성할 수 있는 효과가 있다.
또한, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 발음기관의 변화과정을 애니메이션으로 생성하여 표출함으로써, 어학 학습자가 학습 대상 언어의 발음 원리 및 원어민과 학습자의 발음 차이를 직감적으로 이해할 수 있고, 기초 음가에서 문장에 이르기까지 다양하게 숙지하는 과정에서 자연스럽게 해당 언어의 모든 발음에 익숙해 질 수 있는 환경을 제공할 수 있는 효과가 있다.
또한, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 입술, 혀, 코, 목젖, 구개, 이, 잇몸 등의 조음기관별로 구분된 발음형태정보를 토대로 애니메이션을 생성하기 때문에, 보다 정확하고 자연스러운 발음기관 애니메이션을 구현할 수 있는 효과가 있다.
도 1 및 도 2는 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치를 설명하기 위한 도면.
도 3 및 도 4는 도 1 및 도 2의 음가구성정보 생성부를 설명하기 위한 도면.
도 5는 도 2의 전이구간 배정부를 설명하기 위한 도면.
도 6 및 도 7은 도 1 및 도 2의 강세별음가 적용부를 설명하기 위한 도면.
도 8 및 도 9는 도 1 및 도 2의 발음형태정보 저장부를 설명하기 위한 도면.
도 10은 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치의 변형 예를 설명하기 위한 도면.
도 11은 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 설명하기 위한 도면.
도 12는 본 발명의 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 설명하기 위한 도면.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
먼저, 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법의 상세한 설명에 사용하는 용어는 아래와 같이 정의한다.
음가(phonetic value)는 단어를 구성하는 각 음소의 소릿값을 의미한다. 즉, 음가는 단어를 구성하는 음소들 각각의 발음에 해당되는 것으로서 발음기관의 기초적 조건에 의한 단위적 작용에 의하여 생기는 성음 현상을 의미한다.
음가구성정보는 단어를 구성하는 음가들의 리스트를 의미한다.
세부음가는 인접 음가나 강세에 따라 각 음가가 실제로 발성되는 소리값 또는 변이음을 의미하는 것으로서, 각 음가별로 하나 이상의 세부음가를 갖는다.
전이구간은 복수의 음가가 연이어 발성될 때, 앞의 제1음가에서 뒤의 제2음가로 전이되는 과정의 시간영역을 의미한다.
발음기관정보는 세부음가 또는 조음부호가 발성될 때, 조음기관의 형태에 관한 정보이다. 즉, 발음기관정보는 음가를 발음하는 데 있어 각각의 발음기관의 변화상태에 관한 상태정보이다. 여기서, 발음기관(the vocal organs)은 음성을 내는 데 쓰는 신체의 각 부분, 입술, 혀, 코, 목젖, 구개, 이, 잇몸 등을 포함한다.
조음부호는 세부음가가 각 조음기관에 의해 발성될 때 각 조음기관의 형태를 식별가능한 부호로서 표현시킨 정보이다. 조음기관은 입술, 혀, 코, 목젖, 구개, 이 또는 잇몸 등과 같이 음성을 내는데 쓰이는 신체기관을 의미한다.
조음구성정보는 조음부호, 조음부호에 대한 발성길이 및 전이구간이 하나의 단위정보가 되어 리스트로 구성된 정보로서, 음가구성정보를 토대로 생성된다.
이하, 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1 및 도 2는 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치를 설명하기 위한 도면이다. 도 3 및 도 4는 도 1 및 도 2의 음가구성정보 생성부를 설명하기 위한 도면이고, 도 5는 도 2의 전이구간 배정부를 설명하기 위한 도면이고, 도 6 및 도 7은 도 1 및 도 2의 강세별음가 적용부를 설명하기 위한 도면이고, 도 8 및 도 9는 도 1 및 도 2의 발음형태정보 저장부를 설명하기 위한 도면이다. 도 10은 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 장치의 변형 예를 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는 입력부(110), 음가구성정보 생성부(120), 음가정보 저장부(125), 강세별음가 적용부(130), 강세별음가정보 저장부(135), 발음형태 검출부(140), 발음형태정보 저장부(145), 애니메이션 조율부(150), 애니메이션 생성부(160), 출력부(170)를 포함하여 구성된다. 이때, 도 2에 도시된 바와 같이, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치는 전이구간 배정부(180) 및 전이구간정보 저장부(185)를 더 포함할 수도 있다.
입력부(110)는 사용자로부터 문자정보 및 음성정보를 입력받는다. 즉, 입력부(110)는 음소(phoneme), 음절(syllable), 단어, 구(phrase) 또는 문장 등이 포함된 문자정보를 사용자로부터 입력받는다. 입력부(110)는 문자정보에 해당하는 음성정보를 입력받는다. 여기서, 입력부(110)는 문자정보를 사용자가 발성한 음성을 음성정보로 입력받는다. 물론, 입력부(110)는 특정 장치 또는 서버로부터 문자정보 및 음성정보를 입력받을 수도 있다.
입력부(110)는 사용자로부터 음가에 대한 발성길이 및 강세정보를 입력받을 수도 있다. 즉, 입력부(110)는 사용자로부터 문자정보만 입력되는 경우 음가구성정보의 생성을 위해 문자정보에 포함된 각 음가들에 대한 발성길이 및 강세정보를 사용자로부터 입력받는다.
음가구성정보 생성부(120)는 입력된 문자정보 및 음성정보를 근거로 음가별 발성길이를 포함하는 음가구성정보를 생성한다. 이를 위해, 음가구성정보 생성부(120)는 입력된 문자정보에 포함된 단어들을 구성하는 각 음가들의 발성길이를 검출한다. 이때, 음가구성정보 생성부(120)는 문자정보와 함께 입력되는 음성정보의 음성분석을 통해 각 음가들의 발성길이를 검출한다.
음가구성정보 생성부(120)는 각 음가들에 대한 발성길이를 음가정보 저장부(125)로부터 검출할 수도 있다. 즉, 음가구성정보 생성부(120)는 입력부(110)에서 문자정보가 입력되면 문자정보에 배열된 각 단어를 확인하고 각 단어에 포함된 음가들에 대해 발성길이를 음가정보 저장부(125)에서 검출한다. 예를 들면, 입력부(110)를 통해 단어 'bread'가 입력되면, 음가구성정보 생성부(120)는 단어 'bread'에 대한 음가정보로서 /bred/를 음가정보 저장부(125)에서 검출한다. 음가구성정보 생성부(120)는 검출한 음가정보에 포함된 음가 /b/, /r/, /e/, /d/ 각각의 발성길이를 음가정보 저장부(125)에서 검출한다.
음가구성정보 생성부(120)는 검출한 음가들의 발성길이를 문자정보에 포함된 각 음가들에 적용하여 음가구성정보를 생성한다. 음가구성정보 생성부(120)는 입력부(110)로 입력된 음가들의 발성길이를 문자정보에 포함된 각 음가들에 적용하여 음가구성정보를 생성할 수도 있다. 즉, 음가구성정보 생성부(120)는 문자정보와 대응되는 하나 이상의 음가와 각 음가에 대한 발성길이를 포함하는 음가구성정보를 생성한다. 예를 들면, 도 3에 도시된 바와 같이, 음가구성정보 생성부(120)는 각 음가의 발성길이를 포함하는 음가구성정보를 생성한다.
음가구성정보 생성부(120)는 입력된 문자정보에 포함된 단어들을 구성하는 각 음가들의 강세정보를 검출할 수도 있다. 즉, 음가구성정보 생성부(120)는 검출한 각 음가별 발성길이에 따라 음가별로 음성정보의 구간을 구분하고 해당 구간의 평균에너지 또는 피치값을 측정하여 각 음가별 강세정보를 추출한다. 예를 들면, 도 4에 도시된 바와 같이, 입력부(110)를 통해 'She was a queen'에 대한 문자정보 및 음성정보가 입력되면, 음가구성정보 생성부(120)는 음가별로 음성정보의 구간을 구분한다. 음가구성정보 생성부(120)는 단어 'was'의 음가 /aa/의 발성길이에 해당하는 구간에서 평균에너지 또는 피치값을 측정한다. 음가구성정보 생성부(120)는 측정한 평균에너지 또는 피치값을 음가 /aa/의 강세정보로 추출한다. 물론, 음가구성정보 생성부(120)는 각 음가들에 대한 강세정보를 음가정보 저장부(125)로부터 검출할 수도 있다.
음가정보 저장부(125)는 단어별 음가정보를 저장한다. 즉, 음가정보 저장부(125)는 단어에 포함된 각 음가들의 발음길이를 포함하는 단어별 음가정보를 저장한다. 예를 들어, 음가정보 저장부(125)는 'bread'라는 단어에 대한 음가정보로서 /bred/를 저장한다. 음가정보 저장부(125)는 음가정보에 포함된 각 음가들의 발성길이 정보를 저장한다. 음가정보 저장부(125)는 /bred/에 포함된 음가인 /b/, /r/, /e/, /d/와 각 음가의 발성길이 정보를 연계하여 저장한다. 여기서, 음가의 일반적 또는 대표적 발성길이는 대체로 모음은 대략 0.2초 정도이고, 자음은 대략 0.04초 정도인데, 모음의 경우, 장모음, 단모음, 이중모음에 따라 발성길이가 서로 다르며, 자음의 경우 유성음, 무성음, 마찰음, 파찰음, 류음 및 비음 등에 따라 발성길이가 서로 다르다. 음가정보 저장부(125)는 이러한 모음 또는 자음의 종류에 따라 서로 다른 발성길이 정보를 저장한다.
이때, 음가정보 저장부(125)는 각 음가들의 강세정보를 더 저장할 수도 있다. 이 경우, 음가정보 저장부(125)는 각 음가에 대해 서로 다른 강세를 갖는 하나 이상의 강세정보를 저장한다. 즉, 음가는 앞뒤에 위치하는 음가 또는 액센트 등에 의해 상이한 강세를 갖는 경우가 발생한다. 따라서, 음가정보 저장부(125)는 각 음가가 발음될 수 있는 모든 강세들을 포함하여 저장한다. 물론, 음가정보 저장부(125)는 각 음가들의 대표 강세에 해당하는 강세정보만을 저장할 수도 있다.
전이구간 배정부(180)는 전이구간정보 저장부(185)에 저장된 인접 음가별 전이구간 정보를 근거로 음가구성정보 생성부(120)에서 생성한 음가구성정보에 전이구간을 배정한다. 즉, 전이구간 배정부(180)는 전이구간정보 저장부(185)에 저장된 정보를 근거로 기생성된 음가구성정보에 포함된 음가들 사이에 전이구간을 배정한다. 이때, 전이구간 배정부(180)는 전이구간이 배정되는 인접 음가의 발성길이 일부를 전이구간의 발성길이로 배정한다. 예를 들어, 전이구간정보 저장부(185)에 하기의 표 1과 같이 제1발성 음가와 제2발성 음가에 따른 전이구간 정보를 저장되어 있다. 전이구간 배정부(180)는 음가구성정보 생성부(120)로부터 'bred'에 대한 음가구성정보를 수신한다. 전이구간 배정부(180)는 하기의 표 1을 근거로 음가 /b/와 /r/ 사이에 전이구간을 t1으로 설정하고, 음가 /r/과 /e/ 사이에 전이구간을 t2으로 설정하고, 음가 /e/와 /d/ 사이에 전이구간을 t3으로 설정한다. 이때, 도 5에 도시된 바와 같이, 전이구간 배정부(180)는 인접 음가의 발성길이 일부를 전이구간의 발성길이로 배정한다. 그에 따라, 음가 /b/, /r/, /e/, /d/는 발성길이가 감소된다.
Figure 112011022509936-pat00001
전이구간 배정부(180)는 입력부(110)에서 음성정보가 입력된 경우, 음성인식을 통해 추출된 음가들의 실제 발성길이가 음가정보 저장부(125)에 저장된 발성길이와 다를 수 있기 때문에, 전이구간 저장부에 추출한 전이구간정보를 전이구간 앞뒤로 인접한 두 음가들의 실제 발성길이에 적합하게 보정하여 적용한다. 즉, 전이구간 배정부(180)는 인접한 두 음가들의 실제 발성길이가 일반적 발성길이보다 긴 경우 두 음가 사이의 전이구간도 길게 배정하고, 실제 발성길이가 일반적 발성길이보다 짧을 경우 전이구간도 짧게 배정한다.
전이구간정보 저장부(185)는 각 음가에서 인접된 다음 음가로 발성이 전이되는 과정에서 소요되는 시간정보를 저장한다. 즉, 전이구간정보 저장부(185)는 복수의 음가가 연이어 발성될 때, 제1발성에서 제2발성으로 변해가는 발성전이구간에 대한 시간정보를 저장한다. 전이구간정보 저장부(185)는 동일한 음가라 하더라도 인접되는 음가에 따라 서로 다른 전이구간 시간정보를 저장한다.
강세별음가 적용부(130)는 검출한 강세정보를 생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용한다. 강세별음가 적용부(130)는 입력부(110)로 입력된 강세정보를 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용할 수도 있다. 이때, 강세별음가 적용부(130)는 음가구성정보 생성부(120)에서 검출된(또는 입력된) 각 음가들의 강세정보를 발성길이가 할당된 음가구성정보의 각 음가들에 적용하여 강세별 세부음가를 적용한 음가구성정보로 재구성한다. 예를 들면, 음가구성정보 생성부(120)에서 'bread'라는 단어에 포함된 음가인 /b/, /r/, /e/, /d/ 각각에 대해 강세정보로 0, 1, 2, 0을 검출한 것으로 가정한다. 이때, 음가구성정보에 전이구간이 적용되지 않은 경우 강세별음가 적용부(130)는 도 6에 도시된 바와 같이, 발성길이가 적용된 음가구성정보에 각 음가의 강세를 반영하여 강세별 세부음가를 적용한 음가구성정보로 재구성한다. 음가구성정보에 전이구간이 적용된 경우, 강세별음가 적용부(130)는 도 7에 도시된 바와 같이, 전이구간 및 발성길이가 적용된 음가구성정보에 각 음가의 강세를 반영하여 강세별 세부음가를 적용한 음가구성정보로 재구성한다.
강세별음가 적용부(130)는 입력되는 음성정보를 이용하여 각 음가의 강세를 검출하여 각 음가의 강세별 세부음가로 적용할 수도 있다. 강세별음가 적용부(130)는 입력부(110)를 통해 입력되는 문자정보 및 이에 대응되는 음성정보로부터 문자정보의 각 음가에 대한 강세를 검출하여 강세별 세부음가를 적용할 수도 있다. 이때, 강세별음가 적용부(130)는 음가구성정보 생성부(120)에서 검출한 각 음가별 발성길이에 따라 음가별로 음성정보의 구간을 구분하고 해당 구간의 평균에너지 또는 피치값을 측정하여 각 음가별 강세정보를 추출한다. 여기서, 강세별음가 적용부(130)는 각 음가들에 대한 강세정보를 강세별음가정보 저장부(135)로부터 검출할 수도 있다.
여기서, 강세별음가 적용부(130)는 모든 모음(예를 들면, ae, e, i, o 등)에 강세별 세부음가를 적용한다. 강세별음가 적용부(130)는 모음성 자음(예를 들면, r, l, y, w, sh 등)에도 강세별 세부음가를 적용한다. 강세별음가 적용부(130)는 인접된 다음 음가(즉, 뒤의 모음)의 강세에 따라 비모음성자음(b, k, t 등)에 적용되는 강세별 세부음가를 적용할 수도 있다. 예를 들어, 강세별음가 적용부(130)는 사용자로부터 입력되는 음성정보에 따라 전이구간이 배정된 음가구성정보 'bred'의 음가 /b/ 및 /d/에 강세 '0'을 적용하고, /r/에 '1'을 적용하고, /e/에 '2'를 적용한다. 이때, 음가 /r/은 모음성 자음으로 뒤에 오는 음가/e/의 영향으로 강세 '1'이 적용된다.
강세별음가정보 저장부(135)는 음가들의 상대적 강세를 저장한다. 강세별음가정보 저장부(135)는 복수의 단어들에 대해 각 단어에 포함된 음가들의 상대적 강세를 저장한다. 여기서, 상대적 강세는 사전적 의미의 강세를 의미하는 것으로, 단어에 포함된 음가들 중에서 가장 센 강세를 갖는 음가에 가장 높은 수치를 설정하고, 가장 약한 강세를 갖는 음가에 가장 낮은 수치를 설정한다. 다른 음가들에 대해서는 가장 센 강세 및 가장 약한 강세에 부여된 수치를 이용하여 상대적인 크기의 수치를 설정한다. 예를 들면, 강세별음가정보 저장부(135)는 단어 'intrest'에 포함된 음가인 /i/, /n/, /t/, /r/, /e/, /s/, /t/들의 상대적 강세를 저장한다. 이때, 강세별음가정보 저장부(135)는 사전적 강세인 /i/에 2의 수치를 부여하고, /n/, /t/, /r/, /e/, /s/, /t/에는 1의 수치를 부여한다. 이 경우, 강세별음가정보 저장부(135)에는 단어 'interest'에 대해 하기의 표 2와 같이 강세별음가정보가 저장된다.
Figure 112011022509936-pat00002
여기서, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치가 후술할 전이구간 배정부(180)를 포함하는 경우, 발음형태정보 저장부(145)는 각각의 전이구간에 대한 발음형태정보를 저장한다. 여기서, 전이구간의 발음형태정보는 제1세부음가와 제2세부음가가 연이여 발음될 때, 이 두 발음 사이에서 나타나는 조음기관의 변화형태에 관한 정보를 의미한다. 발음형태정보 저장부(145)는 특정전이구간에 대한 발음형태정보로서 2개 이상의 발음형태정보를 저장할 수도 있으며, 발음형태정보 자체를 저장하지 않을 수도 있다.
발음형태 검출부(140)는 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가에 대응되는 발음형태정보를 검출한다. 이때, 발음형태 검출부(140)는 발음형태정보 저장부(145)에 저장된 복수의 발음형태정보 중에서 음가구성정보에 포함된 각 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 해당 음가의 발음형태정보로 검출한다. 예를 들어, 발음형태정보 저장부(145)에 음가 /a/에 대해 강세정보 '1'과 '이미지1', 강세정보 '5'와 '이미지2'가 각각 연계되어 저장되어 있는 것으로 가정한다. 음가구성정보에 포함된 음가 /a/에 대한 강세정보가 2로 설정되어 있으면, 발음형태 검출부(140)는 발음형태정보 저장부(145)로부터 강세정보 '1'에 연계된 '이미지1'을 음가 /a/의 발음형태정보로 검출한다.
발음형태 검출부(140)는 음가구성정보에 포함된 음가들의 강세정보 및 저장부에 저장된 발음형태정보들의 강세정보를 근거로 강세 차이를 검출한다. 발음형태 검출부(140)는 발음형태정보들을 이용하여 기검출한 강세 차이에 따른 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정한다. 예를 들어, 발음형태정보 저장부(145)에 음가 /a/에 대해 강세정보 '1'과 위 입술과 아래 입술의 간격이 대략 1㎝ 정도로 설정된 '이미지1', 및 강세정보 '3'와 위 입술과 아래 입술의 간격이 대략 3㎝ 정도로 설정된 '이미지2'가 저장되어 있는 것으로 가정한다. 음가구성정보에 포함된 음가 /a/에 대한 강세정보가 2로 설정되어 있으면, 발음형태 검출부(140)는 위 입술과 아래 입술의 간격이 대략 2㎝ 정도로 설정된 이미지를 생성하여 해당 음가의 발음형태정보로 설정한다.
발음형태정보 저장부(145)는 복수의 음가들에 대한 복수의 발음형태정보들을 저장한다. 이때, 발음형태정보 저장부(145)는 복수의 음가들 각각에 서로 다른 강세정보를 갖는 적어도 하나의 발음형태정보를 연계하여 저장한다.
발음형태정보 저장부(145)는 음가에 대한 발음형태정보로 발음형태정보 저장부(145)는 음가에 대한 발음형태정보로 강세정보에 따라 적어도 하나의 발음형태정보를 연계하여 저장한다. 발음형태정보 저장부(145)는 발음형태정보로서, 조음기관의 대표 이미지를 저장하거나 대표 이미지를 생성할 때 근거가 되는 벡터값을 저장한다. 여기서, 발음형태정보란 음가가 발성될 때, 입, 혀, 턱, 입안, 연구개, 경구개, 코,목젖 등의 조음기관의 형태에 관한 정보이다.
발음형태정보 저장부(145)는 강세별 세부음가에 대응하는 발음형태정보를 저장한다. 즉, 발음형태정보 저장부(145)는 하나의 음가에 대해서 강세에 따라 서로 다른 발음형태정보를 저장할 수 있다. 예를 들어, 발음형태정보 저장부(145)는 하나의 음가에 대해 강세가 강한 경우 입의 형태가 넓은 발음형태정보(예를 들면, 도 8에 도시된 이미지)와 강세가 약한 경우 입의 형태가 좁은 발음형태정보(예를 들면, 도 9에 도시된 이미지)를 모두 저장한다.
애니메이션 조율부(150)는 입력된 문자정보의 소리값을 나타내는 음가 리스트, 음가별 발성길이, 음가 사이에 배정된 전이구간, 음가구성정보에 포함된 세부음가 리스트, 세부음가별 발성길이, 강세별음가정보, 세부음가 사이에 배정된 전이구간 또는 발음형태정보가 사용자에 의해 재설정될 수 있는 인터페이스를 제공한다. 즉, 애니메이션 조율부(150)는 발음기관 애니메이션을 조율할 수 있는 인터페이스를 사용자에게 제공하고, 음가 리스트에 포함된 개별 음가, 음가별 발성길이, 음가 사이에 배정된 전이구간, 세부음가, 세부음가별 발성길이, 세부음가 사이에 배정된 전이구간, 강세별음가정보, 발음형태정보 중에서 하나 이상의 재설정 정보를 입력부(110)를 통해 사용자로부터 입력받는다.
다시 말하면, 사용자는 음가 리스트에 포함된 개별 음가, 특정 음가에 대한 발성길이, 음가 사이에 배정된 전이구간, 음가구성정보에 포함되는 세부음가, 세부음가별 발성길이, 세부음가 사이에 배정된 전이구간, 강세별음가정보 또는 발음형태정보를 마우스, 키보드 등의 입력수단을 이용하여 재설정한다. 이때, 애니메이션 조율부(150)는 사용자에 의해 입력된 재설정 정보를 확인하고, 이 재설정 정보를 음가구성정보 생성부(120), 전이구간 배정부(180), 강세별음가 적용부(130), 또는 발음형태 검출부(140)로 선택적으로 전달한다.
애니메이션 조율부(150)는 문자정보의 소리값을 구성하는 개별 음가에 대한 재설정 정보 또는 음가의 발성길이에 대한 재설정 정보를 수신하면, 이 재설정된 정보를 음가구성정보 생성부(120)에 전달하고, 음가구성정보 생성부(120)는 재설정된 정보를 반영하여 음가구성정보를 재생성한다.
애니메이션 생성부(160)는 문자정보에 포함된 단어들을 구성하는 각 음가들에 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성한다. 즉, 애니메이션 생성부(160)는 음가구성정보에 포함된 각 음가(즉, 세부음가)의 발성길이와 전이구간 및 강세별 세부 음가에 근거하여 각각의 발음형태정보를 키프레임으로서 배정한다. 애니메이션 생성부(160)는 배정된 각 키프레임 사이를 애니메이션 보간기법을 통해 보간하여 문자정보와 대응하는 발음기관 애니메이션을 생성한다. 즉, 애니메이션 생성부(160)는 각 세부음가와 대응하는 발음형태정보를 해당 세부음가의 발성길이에 대응하는 발성시작시점과 발성종료시점의 키프레임으로 배정한다. 애니메이션 생성부(160)는 세부음가의 발성길이 시작시점과 종료시점에 근거하여 배정된 두 키프레임 사이를 보간하여 키프레임 사이에 비어있는 일반프레임을 생성한다.
애니메이션 생성부(160)는 전이구간별 발음형태정보를 해당 전이구간의 중간시점에 키프레임으로서 각각 배정한다. 애니메이션 생성부(160)는 배정한 전이구간의 키프레임(즉, 전이구간 발음형태정보)과 전이구간 키프레임 앞에 배정된 키프레임 사이를 보간한다. 애니메이션 생성부(160)는 전이구간의 키프레임과 전이구간 키프레임 뒤에 배정된 키프레임을 보간하여 해당 전이구간 내에 비어 있는 일반프레임을 생성한다.
애니메이션 생성부(160)는 특정 전이구간에 대한 발음형태정보가 2개 이상인 경우, 각각의 발음형태정보가 일정 시간간격으로 이격되도록 각각의 발음형태정보를 전이구간에 배정한다. 애니메이션 생성부(160)는 전이구간에 배정된 해당 키프레임과 인접된 키프레임 사이를 보간하여 해당 전이구간 내에 비어 있는 일반프레임을 생성한다. 이때, 애니메이션 생성부(160)는 특정 전이구간에 대한 발음형태정보가 발음형태 검출부(140)에 의해 검출되지 않은 경우, 해당 전이구간의 발음형태정보를 배정하지 않고, 전이구간과 인접한 두 세부음가의 발음형태정보 사이를 보간하여 전이구간에 배정되는 일반프레임을 생성한다.
출력부(170)는 입력된 문자정보의 소리값을 나타내는 음가 리스트, 음가별 발성길이, 음가 사이에 배정된 전이구간, 음가구성정보에 포함된 세부음가 리스트, 세부음가별 발성길이, 강세별음가정보, 세부음가 사이에 배정된 전이구간 중 하나 이상을 발음기관 애니메이션과 함께 액정표시수단 등의 디스플레이수단에 출력한다. 이때, 출력부(170)는 문자정보에 대응되는 원어민의 음성정보를 스피커를 통해 출력할 수도 있다.
여기서, 도 10에 도시된 바와 같이, 강세를 이용한 발음기관 애니메이션 생성 장치는 발음기관 배정부(190) 및 발음기관정보 저장부(195)를 더 포함할 수도 있다.
발음기관 배정부(190)는 음가구성정보의 각 세부음가와 대응되는 발음부호를 발음기관정보 저장부(195)에서 발음기관별로 구분하여 추출한다. 발음기관 배정부(190)는 음가구성정보에 포함된 세부음가별 발성길이 및 강세를 확인하고, 세부음가별 발성길이 및 강세에 대응되도록 조음부호별 발성길이를 할당한다. 발음기관정보 저장부(195)에 각각의 조음부호에 대한 발성관여 정도가 발성길이 형태로 저장되어 있으면, 발음기관 배정부(190)는 발음기관정보 저장부(195)에서 조음부호별 발성길이를 추출하여, 이를 토대로 해당 조음부호의 발성길이를 할당한다.
발음기관 배정부(190)는 각 조음부호와 조음부호별 발성길이 및 강세를 조합하여 해당 조음기관에 대한 조음구성정보를 생성하되, 음가구성정보에 포함된 전이구간과 대응하여 조음구성정보에서 전이구간을 할당한다. 한편, 발음기관 배정부(190)는 조음구성정보에 포함된 각 조음부호의 발성관여 정도를 토대로, 각 조음부호의 발성길이 또는 전이구간의 길이 및 강세를 재설정할 수 있다.
발음기관정보 저장부(195)는 세부음가와 대응하는 발음부호를 발음기관별 구분하여 저장한다. 발음부호는 세부음가가 발음기관에 의해 발성될 때, 각 발음기관의 상태를 식별가능한 부호로서 표현한 것으로서, 발음기관정보 저장부(195)는 각각의 음가에 대응한 발음부호를 발음기관별로 저장한다. 바람직하게, 발음기관정보 저장부(195)는 앞 또는 뒤 음가, 강세를 고려하여 발성관여 정도가 포함된 조음기관별 조음부호를 저장한다. 구체적인 예를 들어 설명하면, 음가 /b/와 /r/이 연이어 발성되는 경우에 발음기관 중 입술은 주로 음가 /b/의 발성에 관여하고 혀는 주로 음가 /r/의 발성에 관여한다. 따라서, 음가 /b/와 /r/이 연이어 발성되는 경우 발음기관 입술이 음가 /b/의 발성에 관여하고 있는 동안에도 발음기관 혀는 미리 음가 /r/의 발성에 관여하게 된다. 발음기관정보 저장부(195)는 이러한 앞 또는 뒤 음가를 고려하여 발성관여 정도가 포함된 발음부호를 저장한다.
발음기관정보 저장부(195)는 두 음가를 구별하는 데에 있어서 특정 발음기관의 역할이 두드러지게 중요하고 나머지 발음기관들의 역할은 미비하면서 유사하면, 두 음가가 연이어 발성될 때 발음의 경제성에 따라, 역할이 미비하면서 유사한 형태인 발음기관은 어느 한쪽의 형태로 일치시켜 발성하는 경향이 있음을 반영하여, 연속한 두 음가에서 역할이 미비하면서 유사한 형태인 발음기관에 대한 발음부호를 후자의 발음부호로 변경하여 저장한다. 예를 들어, 음가 /m/다음에 음가 /f/가 오는 경우, 음가 /m/과 /f/를 구별하는 결정적인 역할은 목젖(연구개)이 수행하고 입술부위는 상대적으로 미약한 역할만을 수행하면서 그 형태가 유사함으로 인하여, 음가 /m/ 발성시 입술부위를 음가 /f/ 발성시의 형태로 유지하는 경향이 있는데, 발음기관정보 저장부(195)는 이렇게 동일한 음가에 대해서도 앞 또는 뒤 음가에 따라 상이한 발음부호를 발음기관별로 구분하여 저장한다.
이하, 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 11은 본 발명의 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 설명하기 위한 도면이다.
먼저, 입력되는 문장정보에 포함된 음가들의 발성길이 및 강세정보를 검출한다(S110). 이때, 음가들의 발성길이 검출은 음가구성정보 생성부(120)에서 수행한다. 즉, 음가구성정보 생성부(120)는 문자정보와 함께 입력되는 음성정보를 음성분석 기술을 통해 각 음가들의 발성길이를 검출한다. 음가구성정보 생성부(120)는 문자정보만 입력되는 경우 음가정보 저장부(125)에 각 음가들의 발성길이를 검출할 수도 있다.
다음으로, 문자정보에 포함된 음가들에 검출한 발성길이를 할당하여 음가구성정보를 생성한다(S120). 즉, 음가구성정보 생성부(120)는 S110 단계에서 검출한 각 음가들의 발성길이를 문자정보의 각 음가들에 적용하여 음가구성정보를 생성한다. 여기서, 전이구간 배정부(180)가 음가구성정보에 전이구간을 배정할 수도 있다.
음가들의 강세정보 검출은 음가구성정보 생성부(120) 또는 강세별음가 적용부(130)에서 수행한다. 즉, 음가구성정보 생성부(120) 또는 강세별음가 적용부(130)는 기검출한 각 음가별 발성길이에 따라 음가별로 음성정보의 구간을 구분하고 해당 구간의 평균에너지 또는 피치값을 측정하여 각 음가별 강세정보를 추출한다.
다음으로, 문자정보에 포함된 음가들에 검출한 강세정보를 할당하여 음가구성정보를 생성한다(S130). 즉, 강세별음가 적용부(130)는 검출한 강세정보를 생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용한다. 이때, 강세별음가 적용부(130)는 상술한 S110 단계에서 검출한 강세정보를 이용하거나, 음성정보로부터 강세정보를 직접 검출하여 이용할 수도 있다. 즉, 강세별음가 적용부(130)는 입력부(110)를 통해 사용자로부터 입력되는 문자정보에 대응되는 음성정보를 분석하여 문자정보의 각 음가에 대한 강세를 검출하여 강세별 세부음가를 적용할 수도 있다. 이때, 강세별음가 적용부(130)는 음가구성정보 생성부(120)에서 검출한 각 음가별 발성길이에 따라 음가별로 음성정보의 구간을 구분하고 해당 구간의 평균에너지 또는 피치값을 측정하여 각 음가별 강세정보를 추출한다. 여기서, 강세별음가 적용부(130)는 각 음가들에 대한 강세정보를 강세별음가정보 저장부(135)로부터 검출할 수도 있다.
그에 따라, 음가구성정보는 각 음가들의 강세정보를 적용한 음가구성정보로 재구성된다.
다음으로, 강세별 세부 음가가 적용된 음가구성정보를 근거로 문자정보에 포함된 각 음가들에 대한 발음형태정보를 검출한다(S140). 이때, 발음형태 검출부(140)는 발음형태정보 저장부(145)에 저장된 복수의 발음형태정보 중에서 음가구성정보에 포함된 각 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 해당 음가의 발음형태정보로 검출한다.
물론, 발음형태 검출부(140)는 저장된 발음형태정보 및 음가들의 강세정보를 이용하여 발음형태정보를 생성할 수도 있다. 즉, 발음형태 검출부(140)는 음가구성정보에 포함된 음가들의 강세정보 및 저장부에 저장된 발음형태정보들의 강세정보를 근거로 강세 차이를 검출한다. 발음형태 검출부(140)는 발음형태정보들을 이용하여 기검출한 강세 차이에 따른 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정한다.
다음으로, 검출한 발음형태정보를 문자정보에 포함된 각 음가들에 배정하여 문자정보에 대한 발음기관 애니메이션을 생성한다(S150). 즉, 애니메이션 생성부(160)는 문자정보에 포함된 단어들을 구성하는 각 음가들에 S140 단계에서 검출된 발음형태정보를 배정하여 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성한다. 더욱 상세하게 설명하면, 애니메이션 생성부(160)는 상기 음가구성정보에 포함된 각 세부음가와 대응하는 발음형태정보를 해당 세부음가의 시작시점 및 종료시점 키프레임으로 배정하고, 더불어 각 전이구간과 대응하는 발음형태정보를 상기 전이구간의 키프레임으로 배정한다. 즉, 애니메이션 생성부(160)는 각 세부음가의 발음형태정보가 해당 발성길이만큼 재생되도록 키프레임을 배정하고, 전이구간의 발음형태정보는 해당 전이구간 내의 특정 시점에만 표출되도록 배정한다. 이어서, 애니메이션 생성부(160)는 애니메이션 보간기법을 통해 키프레임(즉, 발음형태정보) 사이의 비어있는 일반프레임을 생성하여 하나의 완성된 발음기관 애니메이션을 생성한다 이때, 애니메이션 생성부(160)는 특정 전이구간과 대응하는 발음형태정보가 존재하지 않은 경우, 상기 전이구간과 인접된 발음형태정보를 보간하여 상기 전이구간에 해당하는 일반프레임을 생성한다. 한편, 애니메이션 생성부(160)는 특정 전이구간에 대한 발음형태정보가 2개 이상인 경우, 각각의 발음형태정보가 일정 시간간격으로 이격되도록 각각의 발음형태정보를 상기 전이구간에 배정하고, 상기 전이구간에 배정된 해당 키프레임과 인접된 키프레임 사이를 보간하여 해당 전이구간 내에 비어 있는 일반프레임을 생성한다.
출력부(170)는 생성된 발음기관 애니메이션을 출력한다(S160). 즉, 출력부(170)는 발성길이, 강세정보, 전이구간 등을 포함하여 생성된 발음기관 애니메이션을 액정표시수단 등의 디스플레이수단에 출력한다. 이때, 출력부(170)는 발음기관 애니메이션과 함께 문자정보에 대응되는 원어민의 음성정보를 스피커를 통해 출력할 수도 있다.
이하, 본 발명의 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 12는 본 발명의 다른 실시예에 따른 음가의 강세를 이용한 발음기관 애니메이션 생성 방법을 설명하기 위한 도면이다. 앞서 설명한 실시예와 동일한 단계에 대해서는 상세한 설명을 생략하기로 한다.
먼저, 입력되는 문장정보에 포함된 음가들의 발성길이 및 강세정보를 입력받는다(S210). 즉, 사용자로부터 음성정보를 제외한 문자정보만 입력되는 경우, 입력부(110)는 음가구성정보의 생성을 위해 문자정보에 포함된 각 음가들에 대한 발성길이 및 강세정보를 사용자로부터 입력받는다.
다음으로, 문자정보에 포함된 음가들에 입력된 발성길이를 할당하여 음가구성정보를 생성한다(S220). 즉, 음가구성정보 생성부(120)는 S210 단계에서 입력된 각 음가들의 발성길이를 문자정보의 각 음가들에 적용하여 음가구성정보를 생성한다. 여기서, 전이구간 배정부(180)가 음가구성정보에 전이구간을 배정할 수도 있다.
다음으로, 문자정보에 포함된 음가들에 입력된 강세정보를 할당하여 음가구성정보를 생성한다(S230). 즉, 강세별음가 적용부(130)는 입력부(110)를 통해 입력된 각 음가들의 강세정보를 기생성된 음가구성정보에 할당하여 각 음가들에 대해 강세별 세부음가를 적용한다. 그에 따라, 음가구성정보는 각 음가들의 강세정보를 적용한 음가구성정보로 재구성된다.
다음으로, 강세별 세부 음가가 적용된 음가구성정보를 근거로 문자정보에 포함된 각 음가들에 대한 발음형태정보를 검출한다(S140).
다음으로, 검출한 발음형태정보를 문자정보에 포함된 각 음가들에 배정하여 문자정보에 대한 발음기관 애니메이션을 생성한다(S150).
출력부(170)는 생성된 발음기관 애니메이션을 출력한다(S160).
상술한 바와 같이, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 단어를 구성하는 음가들의 강세에 따라 변화되는 원어민의 발음형태를 반영하여 발음기관 애니메이션을 생성함으로써, 원어민의 발음형태와 매우 근접된 발음기관 애니메이션을 생성할 수 있는 효과가 있다.
또한, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 발음기관의 변화과정을 애니메이션으로 생성하여 표출함으로써, 어학 학습자가 학습 대상 언어의 발음 원리 및 원어민과 학습자의 발음 차이를 직감적으로 이해할 수 있고, 기초 음가에서 문장에 이르기까지 다양하게 숙지하는 과정에서 자연스럽게 해당 언어의 모든 발음에 익숙해 질 수 있는 환경을 제공할 수 있는 효과가 있다.
또한, 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법은 입술, 혀, 코, 목젖, 구개, 이, 잇몸 등의 조음기관별로 구분된 발음형태정보를 토대로 애니메이션을 생성하기 때문에, 보다 정확하고 자연스러운 발음기관 애니메이션을 구현할 수 있는 효과가 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
110: 입력부 120: 음가구성정보 생성부
125: 음가정보 저장부 130: 강세별음가 적용부
135: 강세별음가정보 저장부 140: 발음형태 검출부
145: 발음형태정보 저장부 150: 애니메이션 조율부
160: 애니메이션 생성부 170: 출력부
180: 전이구간 배정부 185: 전이구간정보 저장부
190: 발음기관 배정부 195: 발음기관정보 저장부

Claims (12)

  1. 복수의 음가들 각각에 대해 강세정보를 갖는 발음형태정보를 연계하여 저장하는 발음형태정보 저장부;
    문자정보와 함께 입력되는 음성정보로부터 상기 문자정보에 포함된 단어들을 구성하는 각 음가들의 발성길이 및 강세정보를 검출하고, 상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 검출한 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부;
    상기 검출한 강세정보를 상기 생성된 음가구성정보에 할당하여 상기 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가의 강세정보를 근거로 상기 발음형태정보 저장부로부터 상기 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및
    상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  2. 복수의 음가들 각각에 대해 강세정보를 갖는 발음형태정보를 연계하여 저장하는 발음형태정보 저장부;
    문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 문자정보와 함께 입력되는 음성정보로부터 검출한 각 음가별 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부;
    상기 음성정보로부터 상기 문자정보에 포함된 단어들을 구성하는 각 음가들의 강세정보를 검출하고, 상기 검출한 강세정보를 상기 생성된 음가구성정보에 할당하여 상기 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가의 강세정보를 근거로 상기 발음형태정보 저장부로부터 상기 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및
    상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  3. 복수의 음가들 각각에 대해 강세정보를 갖는 발음형태정보를 연계하여 저장하는 발음형태정보 저장부;
    복수의 음가들에 대한 발성길이를 저장하는 음가정보 저장부;
    복수의 음가들에 대한 강세정보를 저장하는 강세별음가정보 저장부;
    입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들의 발성길이를 음가정보 저장부로부터 검출하고, 상기 검출한 발성길이를 할당하여 음가구성정보를 생성하는 음가구성정보 생성부;
    상기 문자정보에 포함된 단어들을 구성하는 각 음가들의 강세정보를 상기 강세별음가정보 저장부로부터 검출하고, 상기 검출한 강세정보를 상기 생성된 음가구성정보에 할당하여 상기 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가의 강세정보를 근거로 상기 발음형태정보 저장부로부터 상기 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및
    상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  4. 복수의 음가들 각각에 대해 강세정보를 갖는 발음형태정보를 연계하여 저장하는 발음형태정보 저장부;
    입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 입력받는 입력부;
    상기 입력된 발성길이를 상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 할당하여 음가구성정보를 생성하는 음가구성정보 생성부;
    상기 입력된 강세정보를 상기 음가구성정보에 할당하여 상기 각 음가들에 대해 강세별 세부음가를 적용하는 강세별음가 적용부;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 세부음가의 강세정보를 근거로 상기 발음형태정보 저장부로부터 상기 세부음가에 대응되는 발음형태정보를 검출하는 발음형태 검출부; 및
    상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 애니메이션 생성부를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  5. 청구항 1 내지 청구항 4 중에 어느 한 항에 있어서,
    상기 발음형태정보 저장부는 상기 복수의 음가들 각각에 서로 다른 강세정보를 갖는 적어도 하나의 발음형태정보를 연계하여 저장하고,
    상기 발음형태 검출부는,
    음가에 연계된 적어도 하나의 발음형태정보 중에서 상기 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 상기 음가의 발음형태정보로 검출하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  6. 청구항 1 내지 청구항 4 중에 어느 한 항에 있어서,
    상기 발음형태 검출부는,
    상기 음가구성정보에 포함된 음가들의 강세정보 및 상기 저장부에 저장된 발음형태정보들의 강세정보를 근거로 강세 차이를 검출하고, 상기 강세 차이에 따라 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  7. 청구항 1 내지 청구항 4 중에 어느 한 항에 있어서,
    상기 음가구성정보에 포함된 인접한 두 음가별로 발성길이 일부를 두 음가간의 전이구간으로 배정하는 전이구간 배정부를 더 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 장치.
  8. 입력되는 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 검출하는 단계;
    상기 검출한 각 음가들에 대한 발성길이를 해당 음가에 할당하여 음가구성정보를 생성하는 단계;
    상기 생성된 음가구성정보에 포함된 각 음가들에 대해 상기 검출한 각 음가들에 대한 강세정보를 할당하여 상기 음가구성정보에 강세별 세부 음가를 적용하는 단계;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 각 세부음가의 강세정보를 근거로 복수의 음가들 각각에 대해 연계되어 저장된 강세정보를 갖는 발음형태정보 중에서 상기 세부음가에 대응되는 발음형태정보를 검출하는 단계; 및
    상기 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 단계를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 방법.
  9. 청구항 8에 있어서,
    상기 발성길이 및 강세정보를 검출하는 단계는,
    상기 문자정보와 함께 입력되는 음성정보로부터 상기 발성길이 및 강세정보를 검출하는 단계; 및
    기저장된 복수의 음가들 중에서 상기 문자정보에 포함된 단어들을 구성하는 각 음가들에 해당하는 발성길이 및 강세정보를 검출하는 단계;
    중에 어느 하나를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 방법.
  10. 문자정보에 포함된 단어들을 구성하는 각 음가들에 대한 발성길이 및 강세정보를 입력받는 단계;
    상기 입력된 각 음가들에 대한 발성길이를 해당 음가에 할당하여 음가구성정보를 생성하는 단계;
    상기 입력된 음가구성정보에 포함된 각 음가들에 대해 상기 검출한 각 음가들에 대한 강세정보를 할당하여 상기 음가구성정보에 강세별 세부음가를 적용하는 단계;
    상기 강세별 세부음가가 적용된 음가구성정보에 포함된 각 세부음가의 강세정보를 근거로 복수의 음가들 각각에 대해 연계되어 저장된 강세정보를 갖는 발음형태정보 중에서 상기 세부음가에 대응되는 발음형태정보를 검출하는 단계; 및
    상기 각 음가들에 상기 검출된 발음형태정보를 배정하여 상기 문자정보에 포함된 단어들에 대응하는 발음기관 애니메이션을 생성하는 단계를 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 방법.
  11. 청구항 8 내지 청구항 10 중에 어느 한 항에 있어서,
    상기 발음형태정보를 검출하는 단계에서는,
    음가에 연계된 적어도 하나의 발음형태정보 중에서 상기 음가의 강세정보와 강세의 차이가 가장 작은 강세정보를 갖는 발음형태정보를 해당 음가의 발음형태정보로 검출하거나,
    상기 음가구성정보에 포함된 음가들의 강세정보와 기저장된 발음형태정보들의 강세정보의 강세 차이에 따라 발음형태정보를 생성하여 해당 음가의 발음형태정보로 설정하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 방법.
  12. 청구항 8 내지 청구항 10 중에 어느 한 항에 있어서,
    발성길이가 할당된 음가구성정보 및 강세별 세부음가가 적용된 음가구성정보 중에 어느 하나에 포함된 음가들에 대해 인접한 두 음가별로 발성길이 일부를 두 음가 간의 전이구간으로 배정하는 단계를 더 포함하는 것을 특징으로 하는 음가의 강세를 이용한 발음기관 애니메이션 생성 방법.
KR1020110027666A 2011-03-28 2011-03-28 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법 KR101246287B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020110027666A KR101246287B1 (ko) 2011-03-28 2011-03-28 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
US14/007,809 US20140019123A1 (en) 2011-03-28 2011-04-13 Method and device for generating vocal organs animation using stress of phonetic value
PCT/KR2011/002610 WO2012133972A1 (ko) 2011-03-28 2011-04-13 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110027666A KR101246287B1 (ko) 2011-03-28 2011-03-28 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120109879A KR20120109879A (ko) 2012-10-09
KR101246287B1 true KR101246287B1 (ko) 2013-03-21

Family

ID=46931637

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110027666A KR101246287B1 (ko) 2011-03-28 2011-03-28 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법

Country Status (3)

Country Link
US (1) US20140019123A1 (ko)
KR (1) KR101246287B1 (ko)
WO (1) WO2012133972A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218841B (zh) * 2013-04-26 2016-01-27 中国科学技术大学 结合生理模型和数据驱动模型的三维发音器官动画方法
DK202070795A1 (en) * 2020-11-27 2022-06-03 Gn Audio As System with speaker representation, electronic device and related methods

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090053709A (ko) * 2007-11-22 2009-05-27 봉래 박 발음정보 표출장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
US20020086269A1 (en) * 2000-12-18 2002-07-04 Zeev Shpiro Spoken language teaching system based on language unit segmentation
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
KR100897149B1 (ko) * 2007-10-19 2009-05-14 에스케이 텔레콤주식회사 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
WO2009066963A2 (en) * 2007-11-22 2009-05-28 Intelab Co., Ltd. Apparatus and method for indicating a pronunciation information
KR101597286B1 (ko) * 2009-05-07 2016-02-25 삼성전자주식회사 아바타 영상 메시지를 생성하는 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090053709A (ko) * 2007-11-22 2009-05-27 봉래 박 발음정보 표출장치 및 방법

Also Published As

Publication number Publication date
KR20120109879A (ko) 2012-10-09
WO2012133972A1 (ko) 2012-10-04
US20140019123A1 (en) 2014-01-16

Similar Documents

Publication Publication Date Title
JP7500020B2 (ja) 多言語テキスト音声合成方法
DiCanio et al. Using automatic alignment to analyze endangered language data: Testing the viability of untrained alignment
KR101153736B1 (ko) 발음기관 애니메이션 생성 장치 및 방법
Turk et al. Robust processing techniques for voice conversion
JP2006106741A (ja) 対話型音声応答システムによる音声理解を防ぐための方法および装置
WO2021074721A2 (en) System for automatic assessment of fluency in spoken language and a method thereof
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Duchateau et al. Developing a reading tutor: Design and evaluation of dedicated speech recognition and synthesis modules
Baumann et al. Predicting the micro-timing of user input for an incremental spoken dialogue system that completes a user’s ongoing turn
CN113112575A (zh) 一种口型生成方法、装置、计算机设备及存储介质
Tepperman et al. Using articulatory representations to detect segmental errors in nonnative pronunciation
CN113628609A (zh) 自动音频内容生成
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
Erro et al. Emotion conversion based on prosodic unit selection
KR101246287B1 (ko) 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
Huilgol et al. A framework for labeling speech with acoustic cues to linguistic distinctive features
Dall Statistical parametric speech synthesis using conversational data and phenomena
Aaron et al. Conversational computers
JP2001249679A (ja) 外国語自律学習システム
Delmonte Exploring speech technologies for language learning
Sečujski et al. Learning prosodic stress from data in neural network based text-to-speech synthesis
Bruce et al. Modelling of Swedish text and discourse intonation in a speech synthesis framework
KR101015261B1 (ko) 발음정보 표출장치 및 방법
Phan et al. An improvement of prosodic characteristics in vietnamese text to speech system
Ai Perceptual feedback in computer assisted pronunciation training: A survey

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170303

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200302

Year of fee payment: 8