KR20160028868A - 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법 - Google Patents

안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법 Download PDF

Info

Publication number
KR20160028868A
KR20160028868A KR1020140117958A KR20140117958A KR20160028868A KR 20160028868 A KR20160028868 A KR 20160028868A KR 1020140117958 A KR1020140117958 A KR 1020140117958A KR 20140117958 A KR20140117958 A KR 20140117958A KR 20160028868 A KR20160028868 A KR 20160028868A
Authority
KR
South Korea
Prior art keywords
voice
vowel
facial image
user
facial
Prior art date
Application number
KR1020140117958A
Other languages
English (en)
Inventor
이규원
Original Assignee
이규원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이규원 filed Critical 이규원
Priority to KR1020140117958A priority Critical patent/KR20160028868A/ko
Publication of KR20160028868A publication Critical patent/KR20160028868A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 실시 예는 사용자의 음성을 기반으로 하여 음성소스를 형성 후 해당 사용자의 발성 시 안면 영상을 기준으로 음절 및 단어 등을 판별하여 이렇게 판별된 문자들을 저장된 해당 사용자의 음성을 기반으로 한 음성소스를 통해 합성 출력하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법에 관한 것으로서, 본 발명의 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템은, 사용자의 음성을 기반으로 형성되는 자음세트 및 모음세트가 저장되는 음성소스 저장부와, 상기 사용자의 발성 시 모음별 입의 모양을 포함한 안면 영상이 저장되는 발음 영상정보 저장부와, 상기 사용자의 발성 시 입 모양을 포함하는 안면 영상을 획득하는 안면 영상 획득장치와, 상기 안면 영상 획득 장치로부터 입력되는 영상을 상기 발음 영상정보 저장부에 저장된 안면 영상과 비교하여 해당 발성 시의 모음 종류를 판별하고, 판별된 모음 및 상기 사용자로부터 입력되는 자음을 상기 음성소스 저장부의 모음세트 및 자음세트로부터 각각 검출하여 검출된 자음과 모음을 합성하여 음성으로 출력하는 음성 출력장치를 포함할 수 있다.

Description

안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법{Voice synthetic methods and voice synthetic system using a facial image recognition, and external input devices}
본 발명의 실시 예는 음성 합성 시스템 및 음성 합성 방법에 관한 것으로서, 예컨대 사용자의 안면부에 대한 영상을 기준으로 모음을 인식하고 해당 사용자의 외부 입력 장비 조작을 통해 자음을 입력받아 음절 및 단어 등을 판별 후 판별된 문자들을 사용자의 목소리 기반으로 생성되어 저장된 음성소스를 이용해 합성 및 출력하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법에 관한 것이다.
발성이란 동물의 호흡기관을 움직여 내는 여러 가지 소리를 의미하며, 사람에게 있어서는 주로 의사소통의 목적으로 사용한다.
이러한 발성에 이상이 생기는 현상을 통상 발성장애라 말하는 것으로서, 즉, 발성장애는 음성을 만들어내는 성문부나 그 위의 구강, 치아, 설근 등으로 이루어진 공명강의 이상으로 인해 언어 표출에 장애가 생기는 경우를 말한다.
그리고 발성장애는 기질적 장애와 기능적 장애로 나뉘게 되는데, 대표적인 기질적 장애는 후두암이나 후두염으로 인해 성대가 변질되는 경우이며 기능적 장애에는 근긴장성 발성장애, 연축성 발성장애 등이 있다.
이 중 후두암 환자가 후두전절제술을 시행 받은 경우, 성대가 소실되어 발성이 불가능하게 되는데 이를 위해 소리를 내는 다양한 재활 방법이 제시되고 있다. 이러한 방법들에는 대표적으로 식도발성, 기관식도발성, 전기후두가 있으나 모두 정상적인 목소리를 내는 것은 불가능하며, 의사 전달에 어려움을 겪는 경우가 많다.
한편으로, 후천적 장애는 본인이 인식하지 못하는 사이에 발생하는 경우가 많은데, 상술한 후두전절제술 등의 불가피한 수술로 인한 발성 장애 또는 과도한 성대 사용으로 해당 성대에 이상이 생기는 현상에 기인한 발성 장애 등은 모두 후천적 장애의 예라 하겠다.
그리고 이와 같이 발성에 장애가 생기면 해당 환자의 목소리가 타인에게 잘 들리지 않거나 들리더라도 타인이 그 말을 이해하기 힘들며, 따라서 발성 장애 환자는 자신의 의사 표현에 어려움을 겪게 되고 이는 기본적인 생활의 영위조차도 힘들게 하여 많은 불편함을 초래하는 것이었다.
또한 발성 장애의 극복을 위해서는 환자 본인의 노력도 매우 중요하고 따라서 발성 장애의 극복을 위한 재활 프로그램들이 제공되는 상황이지만, 재활 프로그램만을 통해서 발성 장애를 극복하는 데는 현실적으로 어려움이 있다. 이러한 이유로 대부분의 발성 장애 환자들은 재활 프로그램을 통해 발성 장애가 일부 개선되는 정도에 만족하고 있으며, 결과적으로 재활 프로그램을 수행한 후에도 말이 어눌하여 의사 전달에 어려움을 겪는 경우가 많다.
따라서 발성 장애 환자들이 타인과의 의사소통 과정에서 불편함을 줄일 수 있고 그 사용 과정에서 재활 치료에도 도움을 받을 수 있게 하려는 보조기구 및 이러한 보조기구를 이용한 재활 치료의 연구가 다각도로 진행 중이다.
그러나 발성 장애 환자들을 위해 현재 제공되고 있는 보조기구들은 환자 본인의 목소리가 아닌 문자나 기계음을 통한 방식이므로, 환자 본인도 자신이 말하는 것처럼 느끼기에 무리가 있는 동시에 이를 듣는 상대방도 자연스럽지 못한 기계음으로 인해 길게 대화를 나누기에 부담감을 가지게 된다.
한국 등록특허 제10-0123845호(1998.10.01. 공고), "음성합성 및 인식시스템" 한국 등록특허 제10-1092489호(2011.12.13. 공고), "음성 인식 시스템 빛 방법"
본 발명의 실시 예는 사용자의 이전 및 현재 음성정보를 기반으로 해당 사용자의 정상적 발성 시의 자음 세트 및 모음 세트를 형성하여 음성 소스로 이용하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법을 제공한다.
본 발명의 실시 예는 사용자의 발성 시 안면 영상을 기준으로 모음에 대한 정보를 판별하고, 외부 입력 장치로부터 자음에 대한 정보를 받아들여 사전에 준비된 음성소스를 통해 합성하여 출력하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법을 제공한다.
본 발명의 실시 예는 사용자의 이전 및 현재 음성정보를 기반으로 해당 사용자의 정상적 발성 시의 자음 세트 및 모음 세트를 형성하고, 사용자 발성 시 안면 영상을 토대로 획득되는 모음정보 및 해당 사용자를 통해 입력되는 자음정보에 따라 해당 자음정보 및 모음정보의 자음과 모음을 자음세트 및 모음세트로부터 검출 후 검출된 자음과 모음을 합성하여 음성 출력하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법을 제공한다.
본 발명의 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템은, 사용자의 음성을 기반으로 형성되는 자음세트 및 모음세트가 저장되는 음성소스 저장부와, 상기 사용자의 발성 시 모음별 입의 모양을 포함한 안면 영상 및 기준 안면영상정보가 저장되는 발음 영상정보 저장부와, 상기 사용자의 발성 시 입 모양을 포함하는 안면 영상을 획득하는 안면 영상 획득장치와, 상기 안면 영상 획득 장치로부터 입력되는 영상을 상기 발음 영상정보 저장부에 저장된 기준 안면영상정보와 비교하여 해당 발성 시의 모음 종류를 판별하고, 판별된 모음 및 상기 사용자로부터 입력되는 자음을 상기 음성소스 저장부의 모음세트 및 자음세트로부터 각각 검출하여 검출된 자음과 모음을 합성하여 음성으로 출력하는 음성 출력장치를 포함할 수 있다.
또한 상기 음성 출력장치는, 상기 안면 영상 획득장치로부터 안면 영상을 수신하는 영상 수신부와, 상기 영상 수신부에서 수신되는 안면 영상을 상기 발음 영상정보 저장부에 저장된 기준 안면영상정보와 비교하여 수신된 안면 영상에 의한 발성 시의 모음 종류를 판별하는 모음 판별부와, 상기 사용자로부터 자음을 입력받는 자음 입력부와, 상기 모음 판별부를 통해 판별된 모음을 상기 음성소스 저장부의 모음세트로부터 검출하고, 상기 자음 입력부를 통해 입력된 자음을 상기 음성소스 저장부의 자음세트로부터 검출하는 음성소스 검출부와, 상기 음성소스 검출부에서 검출된 자음과 모음을 합성하는 음성 합성부와, 상기 음성합성부를 통해 합성된 음성을 외부에 출력하는 음성 송출부를 포함할 수 있다.
또한 상기 안면 영상 획득장치는 상기 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득하고, 상기 발음 영상정보 저장부에는 상기 모음세트의 각 모음에 대한 상기 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 안면 기준영상정보가 저장되며, 상기 모음 판별부는 상기 안면 영상 획득장치를 통해 획득된 영상정보와 상기 발음 영상정보 저장부에 저장된 안면 기준영상정보 간 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 좌표 분석을 통해 상기 안면 영상 획득장치를 통해 획득된 영상정보의 해당 발성 시 모음 종류를 판별하는 것일 수 있다.
또한 상기 음성 출력장치는 상기 음성 송출부를 통해 출력된 음성에 대해 상기 사용자가 검증신호를 입력하기 위한 검증신호 입력부를 더 포함하며, 상기 모음 판별부는 상기 음성 송출부의 출력 음성에 대해 상기 검증신호 입력부로부터 수정 요청 신호 입력 시 해당 출력 음성의 상기 안면 기준영상정보를 상기 검증신호 입력부에서 적용 요청되는 상기 안면 영상 획득장치의 현재 획득된 영상정보로 업데이트 하는 것일 수 있다.
또한 상기 자음 입력부는 초성 자음 및 종성 자음으로 구분되어 형성되는 키패드 또는 초성 자음 및 종성 자음으로 구분되어 형성되는 터치스크린상의 가상 키패드 또는 화면상에 필기되는 자음을 인식하는 필기인식 입력부 중 어느 하나인 것일 수 있다.
또한 상기 음성소스 저장부 및 발음 영상정보 저장부 그리고 음성 출력장치는 휴대형 전자장치의 형태인 것일 수 있다.
또한 상기 음성소스 저장부의 모음세트에 저장되는 각각의 모음은 해당 모음에 대한 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0로 하여 형성되는 것일 수 있다.
또한 상기 음성소스 저장부의 자음세트는 초성자음 ㄱ,ㄴ,ㄷ,ㄹ,ㅁ,ㅂ,ㅅ,ㅈ,ㅊ,ㅌ,ㅋ,ㅍ,ㅎ,ㄲ,ㄸ,ㅃ,ㅆ,ㅉ 및 종성 자음 ㄱ,ㄴ,ㅅ,ㄹ,ㅁ,ㅂ,ㅇ을 포함하고, 모음세트는 ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,l,ㅐ을 포함할 수 있다.
또한 상기 안면 영상 획득장치는 상기 사용자의 안면부 또는 머리에 착용되는 착용부와, 상기 착용부에 설치되어 상기 사용자의 입의 모양을 포함한 안면을 촬영하는 카메라와, 상기 카메라에서 촬영되는 안면 영상을 상기 음성 출력장치에 전송하기 위한 통신모듈을 포함할 수 있다.
또한 상기 안면 영상 획득장치는 상기 카메라의 기준 촬상 각도 설정 및 상기 카메라를 통한 상기 사용자의 안면 촬영 시 카메라가 상기 기준 촬상 각도로 정렬된 상태인지 판별 후 상기 기준 촬상 각도로 정렬시키는 카메라 정렬부를 더 포함할 수 있다.
그리고 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법은, 안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계와, 상기 음성 출력장치가 상기 안면 영상 획득장치로부터 전송되는 안면 영상을 발음 영상정보 저장부에 저장된 안면 기준영상정보와 비교하여 해당 안면 영상으로 발성 시 모음 종류를 판별하는 단계와, 상기 음성 출력장치가 자음 입력부를 통해 자음을 입력받는 단계와, 상기 음성 출력장치가 판별된 모음과 입력된 자음을 상기 사용자의 음성을 기반으로 형성되어 저장된 모음세트 및 자음세트로부터 각각 검출하는 단계와, 상기 음성 출력장치가 상기 자음세트에서 검출된 자음 및 상기 모음세트에서 검출된 모음을 합성하는 단계와, 상기 음성 출력장치가 합성된 음성을 출력하는 단계를 포함할 수 있다.
또한 안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계는, 상기 안면 영상 획득장치가 상기 사용자 발성 시의 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득하는 과정을 포함할 수 있다.
또한 상기 음성 출력장치가 상기 안면 영상 획득장치로부터 전송되는 안면 영상을 발음 영상정보 저장부에 저장된 안면 기준영상정보와 비교하여 해당 안면 영상으로 발성 시 모음 종류를 판별하는 단계는, 상기 음성 출력장치가 상기 모음세트의 각 모음에 대한 상기 사용자의 사전 저장된 발성 시 입모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 안면 기준영상정보와 상기 안면 영상 획득장치에서 획득된 안면 영상정보 간 좌표 분석을 통해 모음 종류를 판별하는 과정을 포함할 수 있다.
또한 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법은, 상기 음성 출력장치가 합성된 음성을 출력하는 단계를 통해 송출된 음성에 대해 검증신호 입력부의 사용자 조작을 통해 검증신호가 입력되는 단계와, 상기 음성 출력장치에 송출된 음성에 대한 검증결과 수정 요청 신호의 입력 시, 상기 음성 출력장치가 상기 안면 기준영상정보를 적용 요청되는 현재 획득된 영상정보로 업데이트 하는 단계를 더 포함할 수 있다.
또한 안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계 이전에, 상기 모음세트에 저장되기 위한 모음들이 각 모음별로 해당 모음에 대한 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0으로 하여 형성되는 단계가 선행될 수 있다.
본 발명의 실시 예에 따르면, 사용자의 음성을 기반으로 하여 음성소스를 형성 후 해당 사용자의 발성 시 안면 영상을 기준으로 음절 및 단어 등을 판별하여 이렇게 판별된 문자들을 저장된 해당 사용자의 음성을 기반으로 한 음성소스를 통해 합성 출력하는 것이므로, 사용자 본인의 목소리와 동일하거나 매우 유사한 음성으로 출력되는 대화용 보조기구를 제공할 수 있게 된다.
또한 발성 장애 환자 등 발성에 장애가 있으나 일시적으로 정상적인 발성을 할 수 없는 사용자가 자신의 목소리와 동일하거나 매우 유사한 음성으로 의사 표현을 하면서 상대방과 자연스러운 대화를 이어갈 수 있게 된다.
도 1은 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템을 보인 블록도
도 2는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템에서 음성 출력장치의 자음신호 입력을 위한 구성을 개략적으로 보인 도면
도 3는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템에서 안면 영상 획득장치의 일 예를 보인 사시도
도 4는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법을 보인 흐름도
도 5는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법에서 일부 추가 구성을 보인 흐름도
이하의 본 발명에 대한 상세한 설명들은 본 발명이 실시될 수 있는 실시 예이고 해당 실시 예에 대한 예시로써 도시된 첨부 도면을 참조한다. 이들 실시 예는 당업자가 본 발명을 실시하기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한 각각의 기재된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다.
따라서 후술되는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는 적절하게 설명된다면 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한 명세서에 기재된 “...부”, “...모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
도 1 내지 도 5 를 참조하여 본 발명의 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법에 대해 설명한다.
도 1은 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템을 보인 블록도이다.
도시된 바와 같이, 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템은, 음성소스 저장부(110), 발음 영상정보 저장부(120), 안면 영상 획득장치(200), 음성 출력장치(100)를 포함하여 구성된다.
음성소스 저장부(110)는 음성의 합성에 사용되기 위한 음성 소스들을 저장하고 있는 것으로서, 여기서 음성 소스들은 사용자의 음성을 기반으로 형성된다. 즉, 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템은 발성 장애를 겪고 있는 환자들이 사용 시 더 많은 효과를 제공받을 수 있으므로, 그 사용자의 현재 음성이 정상적이지 못할 경우가 많고, 따라서 사용자의 과거 정상적인 음성을 기반으로 음성 소스들을 형성한다.
또한 사용자의 과거 음성의 녹음 자료가 남아있지 않거나 변성이 일어난 후의 음성 녹음 자료만 남아있다면, 사용자의 과거 정상적인 음성에 최대한 근접한 음성 소스를 얻기 위해 다음과 같은 방법을 사용한다.
즉, 인체의 성대를 통한 발성 시, 자음의 경우에는 성대의 진동을 통해 생기는 소리 보다는 소음에 가까운 분포를 보이기 때문에 성대 병변에 따른 변성이 일어나더라도 별다른 영향을 받지 않는 것으로 확인되며, 따라서 사용자의 현재 발성을 통해 자음의 음성 소스를 형성해도 무방할 것이다. 모음의 경우에는 성대 병변에 따른 변성으로 f0(기본주파수)의 크고 경우에 따라서는 두 개의 f0가 형성되는 현상이 발생되기도 하며, 이러한 이유로 사용자의 변성이 일어난 후 녹음된 자료 또는 현재 발성되는 음성을 가공 없이 이용하여 모음의 음성 소스를 형성하기에는 무리가 따른다.
따라서 본 발명의 실시 예에서는 사용자의 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0로 하여 모음의 음성 소스를 형성한다.
그리고 음성소스 저장부(110)는 상술한 과정을 통해 형성된 자음세트(111)와 모음세트(112)를 저장하고 있으며, 여기서, 자음세트(111)에는 초성자음 ㄱ,ㄴ,ㄷ,ㄹ,ㅁ,ㅂ,ㅅ,ㅈ,ㅊ,ㅌ,ㅋ,ㅍ,ㅎ,ㄲ,ㄸ,ㅃ,ㅆ,ㅉ 및 종성 자음 ㄱ,ㄴ,ㅅ,ㄹ,ㅁ,ㅂ,ㅇ이 포함된다. 여기서, 초성자음의 경우 ㄱ 및 ㄲ, ㄷ 및 ㄸ 등을 각각 형성하는데 비해 종성자음의 경우 ㄲ 및 ㄸ 등을 형성하지 않은 것은 초성자음의 경우 ㄱ 및 ㄲ, ㄷ 및 ㄸ 등의 발성 시 소리가 명확히 구분되지만, 종성의 경우 ㄱ 및 ㄲ, ㄷ 및 ㄸ 등의 발성 시 소리가 명확히 구분되지 않는 것에 따른 것이다. 또한 그리고 모음세트(112)에는 ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,l,ㅐ이 포함된다.
발음 영상정보 저장부(120)는 사용자의 발성 시 모음별 입의 모양을 포함한 안면 영상이 저장된다.
안면 영상 획득장치(200)는 사용자의 발성 시 해당 사용자의 입 모양을 포함한 안면 영상을 획득한다. 본 실시 예를 기준으로 설명하면, 안면 영상 획득장치(200)는 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득한다. 이러한 안면 영상 획득장치(200)에 대해 도 3을 참조하여 설명한다.
도 3은 도 3는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템에서 안면 영상 획득장치의 일 예를 보인 사시도이다.
도시된 바와 같이, 안면 영상 획득장치(200)는 착용부(210), 카메라(220), 통신모듈(도 1 참조)을 포함하여 구성된다. 또한 안면 영상 획득장치(200)는 카메라 정렬부(도1 참조)를 더 포함하여 구성될 수 있다.
착용부(210)는 사용자의 안면부 또는 머리에 착용되는 것으로서, 즉, 착용부(210)는 안면 영상 획득장치(200)를 사용자의 안면부 또는 머리에 착용시키는 기능을 한다. 본 실시 예에서는 이러한 착용부(210)가 통상의 안경 형태인 것을 예로 하였으나, 본 발명이 이에 한정되는 것은 아니며, 착용부(210)는 사용자의 안면부, 머리, 또는 그 밖의 신체 일정 부분에 착용되어 해당 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득할 수 있는 조건을 만족하는 범위 내에서 다양하게 변형 실시될 수 있다.
카메라(220)는 착용부(210)에 설치되어 사용자의 입의 모양을 포함한 안면을 촬영한다. 다시 말해, 카메라(220)는 착용부(210)에 설치된 상태에서 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙을 촬영하여 해당 영상정보를 형성시킨다. 본 실시 예에서는 착용부(210)가 안경 형태임에 따라, 카메라(220)가 안경테의 접히는 영역에 설치되어 해당 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙을 촬영하는 형태를 예로 하였으나, 본 발명이 이에 한정되는 것은 아니다.
다시 도 1로 돌아가서, 안면 영상 획득장치(200)의 통신모듈(230)은 카메라(220)에서 촬영되는 안면 영상을 음성 출력장치(100)에 전송하는 기능을 하는 것으로서, 본 실시 예에서는 이러한 통신모듈(230)이 블루투스 등의 무선통신모듈인 것을 예로 하였으나, 본 발명이 이에 한정되는 것은 아니다. 다시 말해, 안면 영상 획득장치(200)의 통신모듈(230)과 음성 출력장치(100)의 영상수신부(130)는 유선으로 연결되어 안면 영상의 데이터를 포함한 각종 데이터 및 전기적 신호를 송수신하는 것일 수 있다.
카메라 정렬부(240)는 카메라(220)의 기준 촬상 각도가 설정되어 있으며, 이에 따라 카메라 정렬부(240)는 카메라(220)를 통한 사용자의 안면 촬영 시 해당 카메라(220)가 상기 기준 촬상 각도로 정렬된 상태인지 판별 후 상기 기준 촬상 각도로 정렬시키는 기능을 한다. 이는 사용자가 안면 영상 획득장치(200)를 착용 시 이러한 안면 영상 획득장치(200)에 부착된 카메라(220)의 위치나 각도가 항상 일정할 수는 없고, 이렇게 카메라(220)의 위치나 각도가 매번 달라지면 해당 사용자의 안면 영상을 촬영하는 조건이 계속 바뀌게 되는 것이므로, 안면 영상 획득장치(200)의 사용자에 대한 착용 시마다 카메라 정렬부(240)를 통해 카메라(220)의 촬상 각도를 사전 설정된 각도로 정렬시키게 되는 것이다.
음성 출력장치(100)는 안면 영상 획득장치(200)로부터 입력되는 영상을 발음 영상정보 저장부(120)에 저장된 안면 영상과 비교하고, 이러한 비교를 통해 입력된 영상의 해당 발성 시의 모음 종류를 판별한다. 그리고 음성 출력장치(100)는 이렇게 판별된 모음 및 사용자로부터 입력되는 자음을 음성소스 저장부(110)의 모음세트(111) 및 자음세트(111)로부터 각각 검출하여 검출된 자음과 모음을 합성 후 음성으로 출력하는 기능을 한다.
따라서 음성 출력장치(100)는 자음 입력을 위한 입력수단을 구비하며, 이러한 입력수단은 키패드나 터치스크린 상의 가상 키패드 또는 화면상에 필기되는 자음을 인식하는 필기인식 입력부 등의 구성일 수 있다.
본 실시 예에서는 음성소스 저장부(110) 및 발음 영상정보 저장부(120) 그리고 음성 출력장치(100)가 휴대형 전자장치의 형태로 이루어지고, 이러한 휴대형 전자장치가 터치스크린을 포함하는 형태로 이루어져, 자음 입력을 위한 입력부가 터치스크린 상의 가상 키패드의 구성인 것을 예로 하였다.
도 2는 이를 도시한 것으로서, 도시된 바와 같이, 스마트폰이나 테블릿 PC 등 스마트형 전자장치에 음성소스 저장부(110) 및 발음영상 저장부(120) 그리고 음성 출력장치(100)가 내장되고, 이에 따라 해당 스마트폰이나 테블릿 PC의 터치스크린에 자음 입력을 위한 가상의 키패드 구조가 제공된다. 그리고 스마트폰이나 테블릿 PC에는 음성 합성을 위한 전용 어플리케이션이 탑재되어 이러한 전용 어플리케이션의 실행 후 음성 합성 기능을 이용하는 것일 수 있다. 도 2에서 부호 111a는 자음세트의 초성 세트를 예시한 것이고, 부호 111b는 자음세트의 종성 세트를 예시한 것이다.
다시 도 1로 돌아가서, 음성 출력장치(100)는 영상 수신부(130), 모음 판별부(140), 자음 입력부(150), 음성소스 검출부(160), 음성 합성부(170), 음성 송출부(180)를 포함하여 구성될 수 있다. 또한 음성 출력장치(100)는 검증신호 입력부(190)를 더 포함하여 구성될 수 있다.
영상 수신부(130)는 안면 영상 획득장치(200)로부터 획득되는 안면 영상을 수신하는 기능을 한다. 그리고 이러한 영상 수신부(130)는 안면 영상 획득장치(200)의 설명에서도 언급한 바와 같이 블루투스 등의 무선통신모듈일 수 있고 이와 달리 유선을 이용하는 통신모듈일 수도 있다.
모음 판별부(140)는 영상 수신부(130)에서 수신되는 안면 영상을 발음 영상정보 저장부(120)에 저장된 기준 안면영상정보와 비교하여 수신된 안면 영상에 의한 발성 시의 모음 종류를 판별한다. 즉, 발음 영상정보 저장부(120)에는 음성소스 저장부(110)에 저장된 모음세트(112)의 각 모음에 대한 해당 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 기준 안면영상정보가 사전 저장되며, 이에 따라 모음 판별부(140)는 안면 영상 획득장치(200)를 통해 획득되어 입력된 영상정보와 상기 기준 안면영상정보 간의 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 좌표 분석을 통해 안면 영상 획득장치(200)를 통해 획득된 영상정보의 해당 발성 시 모음 종류를 판별하는 것일 수 있다.
자음 입력부(150)는 사용자로부터 자음을 입력받는 것으로서, 이에 대해서는 상술한 음성 출력장치(100)의 전반적인 설명에서 언급한바 있다.
음성소스 검출부(160)는 모음 판별부(140)를 통해 판별된 모음을 음성소스 저장부(110)의 모음세트(112)로부터 검출하고, 자음 입력부(150)를 통해 입력된 자음을 음성소스 저장부(110)의 자음세트(111)로부터 검출하는 기능을 한다.
음성 합성부(170)는 음성소스 검출부(160)를 통해 검출된 자음과 모음을 합성하는 기능을 한다.
음성 송출부(180)는 음성 합성부(170)를 통해 합성된 음성을 외부에 출력하는 기능을 하는 것으로서, 이러한 음성 송출부(180)는 통상의 스피커이면 될 것이다.
검증신호 입력부(190)는 음성 송출부(180)를 통해 출력된 음성에 대해 해당 사용자가 검증신호를 입력하는 기능을 한다. 이는 발성 장애를 겪고 있는 사용자 또는 발성 장애의 초기 증세가 있는 사용자 등 본 발명의 일 실시 예에 따른 사용자 음성을 기반으로 하는 음성 합성 시스템을 이용하는 모든 사용자가 나이가 들어가는데 따른 신체변화 또는 기타 다양한 요인으로 인해 발성 시 안면의 변화가 조금씩 변할 수 있는데 따른 것이다.
부연 설명하면, 한 명의 사용자를 기준으로 해당 사용자가 발성 시 그 입모양을 포함한 안면 변화가 나이가 들수록 조금씩 변할 수 있다. 이에 따라 발음 영상정보 저장부(120)에 저장된 안면 기준영상정보가 해당 사용자의 현재 발성 시 안면과 일치하지 않을 수 있고, 이는 해당 사용자의 발성 시 모음 판별부(140)가 해당 발성 시의 모음을 정확히 판별하지 못하게 되는 원인이 되므로, 음성 송출부(180)를 통해 송출되는 음성도 사용자가 말하려는 단어나 음절 등이 아닐 수 있다.
따라서, 이런 경우에는 발음 영상정보 저장부(120)에 저장된 안면 기준영상정보를 현재 발성 시의 안면 모양에 해당하는 정보로 수정해야 하며, 사용자는 검증신호 입력부(190)를 통해 이러한 안면 기준영상정보의 수정을 위한 신호를 발생시키는 동시에 해당 안면 기준영상정보를 현재 발성 시의 안면정보로 수정하는 것이다.
즉, 모음 판별부(140)는 음성 송출부(180)의 출력 음성에 대해 검증신호 입력부(190)로부터 수정 요청 신호가 입력되면, 해당 출력 음성의 안면 기준영상정보를 검증신호 입력부(190)로부터 적용 요청 신호가 입력되는 안면 영상정보로 업데이트 하게 된다.
다음은 도 4 내지 도 5를 참조하여 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법에 대해 설명한다.
도 4는 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법을 보인 흐름도이다.
설명에 앞서, 본 실시 예에서는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템이 도 1 내지 도 3의 참조하여 설명한 사용자 음성을 기반으로 하는 음성 합성 시스템인 것을 예로 한 것이며, 따라서 이하의 설명에서 해당 구성에 대한 부호는 도 1 내지 도 3의 참조하여 설명한 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템과 동일한 부호를 사용하였음을 밝혀 둔다.
도시된 바와 같이, 단계(S110)에서, 안면 영상 획득장치(200)가 사용자 발성 시의 안면 영상을 획득하며, 이렇게 안면 영상 획득장치(200)에서 획득된 영상이 음성 출력장치(100)에 전송된다. 여기서, 안면 영상 획득장치(200)가 사용자 발성 시의 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득하여 이렇게 획득된 영상정보를 음성 출력장치(100)에 전송하는 것일 수 있다.
단계(S120)에서, 음성 출력장치(100)가 안면 영상 획득장치(200)로부터 전송되는 안면 영상을 발음 영상정보 저장부(120)에 저장된 안면 기준영상정보와 비교하여 해당 안면 영상으로 발성 시 모음 종류를 판별한다. 여기서, 음성 출력장치(100)가 모음세트(112)의 각 모음에 대한 사용자의 사전 저장된 발성 시 입모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 안면 기준영상정보와 안면 영상 획득장치에서 획득된 안면 영상정보 간 좌표 분석을 통해 모음 종류를 판별하는 과정을 포함할 수 있다.
단계(S130)에서, 음성 출력장치(100)가 자음 입력부(150)를 통해 자음을 입력받는다.
단계(S140)에서, 음성 출력장치(100)가 판별된 모음과 입력된 자음을 사용자의 음성을 기반으로 형성되어 저장된 모음세트(112) 및 자음세트(111)로부터 각각 검출한다.
단계(S150)에서, 음성 출력장치(100)가 자음세트(111)에서 검출된 자음 및 모음세트(112)에서 검출된 모음을 합성한다.
단계(S160)에서, 음성 출력장치(100)가 단계(S150)을 통해 합성된 음성을 출력한다.
또한 도면에는 도시되지 않았지만, 본 발명의 일 실시 예에 따른 사용자 음성을 기반으로 하는 음성 합성 방법은 아래의 단계들을 더 포함할 수 있다.
즉, 본 발명의 일 실시 예에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법은, 음성 출력장치(100)가 합성된 음성을 출력하는 단계를 통해 송출된 음성에 대해 검증신호 입력부(190)의 사용자 조작을 통해 검증신호가 입력되는 단계 및 음성 출력장치(100)에 송출된 음성에 대한 검증결과 수정 요청 신호의 입력 시, 음성 출력장치(100)가 상기 안면 기준영상정보를 적용 요청되는 현재 획득된 영상정보로 업데이트 하는 단계를 더 포함할 수 있다.
또한 단계(S110) 이전에 사용자의 모음세트(112)를 형성하는 단계가 선행될 수 있으며, 도 5는 이를 도시한 것이다.
도 5에 도시된 바와 같이, 도 4의 단계(S110) 이전에 음성소스 저장부의 모음세트에 저장되기 위한 모음들이 각 모음별로 해당 모음에 대한 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0으로 하여 형성되는 단계(S210)가 선행될 수 있다.
상술한 도 1 내지 도 5의 실시 예를 통하여 알 수 있는 바와 같이, 본 발명에 따른 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법은, 사용자의 과거 음성을 기반으로 하여 음성소스를 형성 후 해당 사용자의 발성 시 안면 영상을 기준으로 음절 및 단어 등을 판별하여 이렇게 판별된 문자들을 저장된 해당 사용자의 음성을 기반으로 한 음성소스를 통해 합성 출력하는 것이므로, 사용자 본인의 목소리와 동일하거나 매우 유사한 음성으로 출력되는 대화용 보조기구를 제공한다.
또한 발성 장애 환자 등 발성에 장애가 있으나 일시적으로 정상적인 발성을 할 수 없는 사용자가 자신의 목소리와 동일하거나 매우 유사한 음성으로 의사 표현을 하면서 상대방과 자연스러운 대화를 이어갈 수 있게 한다.
이상과 같이 본 설명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 안되며, 후술되는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100 : 음성 출력장치 110 : 음성소스 저장부
111 : 자음세트 111a : 초성 세트
111b : 종성 세트 112 : 모음세트
120 : 발음 영상정보 저장부 130 : 영상 수신부
140 : 모음 판별부 150 : 자음 입력부
160 : 음성소스 검출부 170 : 음성 합성부
180 : 음성 송출부 190 : 검증신호 입력부
195 : 디스플레이부 200 : 안면영상 획득장치
210 : 착용부 220 : 카메라
230 : 통신모듈 240 : 카메라 정렬부

Claims (15)

  1. 사용자의 음성을 기반으로 형성되는 자음세트 및 모음세트가 저장되는 음성소스 저장부;
    상기 사용자의 발성 시 모음별 입의 모양을 포함한 안면 영상 및 기준 안면영상정보가 저장되는 발음 영상정보 저장부;
    상기 사용자의 발성 시 입 모양을 포함하는 안면 영상을 획득하는 안면 영상 획득장치;
    상기 안면 영상 획득 장치로부터 입력되는 영상을 상기 발음 영상정보 저장부에 저장된 기준 안면영상정보와 비교하여 해당 발성 시의 모음 종류를 판별하고, 판별된 모음 및 상기 사용자로부터 입력되는 자음을 상기 음성소스 저장부의 모음세트 및 자음세트로부터 각각 검출하여 검출된 자음과 모음을 합성하여 음성으로 출력하는 음성 출력장치를 포함하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  2. 제 1 항에 있어서, 상기 음성 출력장치는,
    상기 안면 영상 획득장치로부터 안면 영상을 수신하는 영상 수신부;
    상기 영상 수신부에서 수신되는 안면 영상을 상기 발음 영상정보 저장부에 저장된 기준 안면영상정보와 비교하여 수신된 안면 영상에 의한 발성 시의 모음 종류를 판별하는 모음 판별부;
    상기 사용자로부터 자음을 입력받는 자음 입력부;
    상기 모음 판별부를 통해 판별된 모음을 상기 음성소스 저장부의 모음세트로부터 검출하고, 상기 자음 입력부를 통해 입력된 자음을 상기 음성소스 저장부의 자음세트로부터 검출하는 음성소스 검출부;
    상기 음성소스 검출부에서 검출된 자음과 모음을 합성하는 음성 합성부;
    상기 음성합성부를 통해 합성된 음성을 외부에 출력하는 음성 송출부를 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  3. 제 2 항에 있어서,
    상기 안면 영상 획득장치는 상기 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득하고,
    상기 발음 영상정보 저장부에는 상기 모음세트의 각 모음에 대한 상기 사용자의 발성 시 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 안면 기준영상정보가 저장되며,
    상기 모음 판별부는 상기 안면 영상 획득장치를 통해 획득된 영상정보와 상기 발음 영상정보 저장부에 저장된 안면 기준영상정보 간 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 좌표 분석을 통해 상기 안면 영상 획득장치를 통해 획득된 영상정보의 해당 발성 시 모음 종류를 판별하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  4. 제 3 항에 있어서,
    상기 음성 출력장치는 상기 음성 송출부를 통해 출력된 음성에 대해 상기 사용자가 검증신호를 입력하기 위한 검증신호 입력부를 더 포함하며,
    상기 모음 판별부는 상기 음성 송출부의 출력 음성에 대해 상기 검증신호 입력부로부터 수정 요청 신호 입력 시 해당 출력 음성의 상기 안면 기준영상정보를 상기 검증신호 입력부에서 적용 요청되는 상기 안면 영상 획득장치의 현재 획득된 영상정보로 업데이트 하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  5. 제 2 항에 있어서,
    상기 자음 입력부는 초성 자음 및 종성 자음으로 구분되어 형성되는 키패드 또는 초성 자음 및 종성 자음으로 구분되어 형성되는 터치스크린상의 가상 키패드 또는 화면상에 필기되는 자음을 인식하는 필기인식 입력부 중 어느 하나인 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  6. 제 2 항에 있어서,
    상기 음성소스 저장부 및 발음 영상정보 저장부 그리고 음성 출력장치는 휴대형 전자장치의 형태인 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  7. 제 1 항에 있어서,
    상기 음성소스 저장부의 모음세트에 저장되는 각각의 모음은 해당 모음에 대한 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0로 하여 형성되는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  8. 제 1 항에 있어서,
    상기 음성소스 저장부의 자음세트는 초성자음 ㄱ,ㄴ,ㄷ,ㄹ,ㅁ,ㅂ,ㅅ,ㅈ,ㅊ,ㅌ,ㅋ,ㅍ,ㅎ,ㄲ,ㄸ,ㅃ,ㅆ,ㅉ 및 종성 자음 ㄱ,ㄴ,ㅅ,ㄹ,ㅁ,ㅂ,ㅇ을 포함하고, 모음세트는 ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,l,ㅐ을 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  9. 제 1 항에 있어서, 상기 안면 영상 획득장치는
    상기 사용자의 안면부 또는 머리에 착용되는 착용부;
    상기 착용부에 설치되어 상기 사용자의 입의 모양을 포함한 안면을 촬영하는 카메라;
    상기 카메라에서 촬영되는 안면 영상을 상기 음성 출력장치에 전송하기 위한 통신모듈을 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  10. 제 7 항에 있어서,
    상기 안면 영상 획득장치는 상기 카메라의 기준 촬상 각도 설정 및 상기 카메라를 통한 상기 사용자의 안면 촬영 시 카메라가 상기 기준 촬상 각도로 정렬된 상태인지 판별 후 상기 기준 촬상 각도로 정렬시키는 카메라 정렬부를 더 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템.
  11. 안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계;
    상기 음성 출력장치가 상기 안면 영상 획득장치로부터 전송되는 안면 영상을 발음 영상정보 저장부에 저장된 안면 기준영상정보와 비교하여 해당 안면 영상으로 발성 시 모음 종류를 판별하는 단계;
    상기 음성 출력장치가 자음 입력부를 통해 자음을 입력받는 단계;
    상기 음성 출력장치가 판별된 모음과 입력된 자음을 상기 사용자의 음성을 기반으로 형성되어 저장된 모음세트 및 자음세트로부터 각각 검출하는 단계;
    상기 음성 출력장치가 상기 자음세트에서 검출된 자음 및 상기 모음세트에서 검출된 모음을 합성하는 단계;
    상기 음성 출력장치가 합성된 음성을 출력하는 단계를 포함하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법.
  12. 제 11 항에 있어서,
    안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계는,
    상기 안면 영상 획득장치가 상기 사용자 발성 시의 입 모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙에 대한 영상정보를 획득하는 과정을 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법.
  13. 제 12 항에 있어서,
    상기 음성 출력장치가 상기 안면 영상 획득장치로부터 전송되는 안면 영상을 발음 영상정보 저장부에 저장된 안면 기준영상정보와 비교하여 해당 안면 영상으로 발성 시 모음 종류를 판별하는 단계는,
    상기 음성 출력장치가 상기 모음세트의 각 모음에 대한 상기 사용자의 사전 저장된 발성 시 입모양, 콧망울, 입꼬리, 인중, 아랫입술 중앙의 안면 기준영상정보와 상기 안면 영상 획득장치에서 획득된 안면 영상정보 간 좌표 분석을 통해 모음 종류를 판별하는 과정을 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법.
  14. 제 11 항에 있어서,
    상기 음성 출력장치가 합성된 음성을 출력하는 단계를 통해 송출된 음성에 대해 검증신호 입력부의 사용자 조작을 통해 검증신호가 입력되는 단계;
    상기 음성 출력장치에 송출된 음성에 대한 검증결과 수정 요청 신호의 입력 시, 상기 음성 출력장치가 상기 안면 기준영상정보를 적용 요청되는 현재 획득된 영상정보로 업데이트 하는 단계를 더 포함하는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법.
  15. 제 11 항에 있어서,
    안면 영상 획득장치가 사용자 발성 시의 안면 영상을 획득하여 음성 출력장치에 전송하는 단계 이전에,
    상기 모음세트에 저장되기 위한 모음들이 각 모음별로 해당 모음에 대한 3회 이상의 발성정보로부터 각각 획득되는 피치값 f1∼fn의 평균 피치값을 기본주파수 f0으로 하여 형성되는 단계가 선행되는 것을 특징으로 하는 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 방법.
KR1020140117958A 2014-09-04 2014-09-04 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법 KR20160028868A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140117958A KR20160028868A (ko) 2014-09-04 2014-09-04 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140117958A KR20160028868A (ko) 2014-09-04 2014-09-04 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법

Publications (1)

Publication Number Publication Date
KR20160028868A true KR20160028868A (ko) 2016-03-14

Family

ID=55541599

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140117958A KR20160028868A (ko) 2014-09-04 2014-09-04 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법

Country Status (1)

Country Link
KR (1) KR20160028868A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
KR20190059046A (ko) 2017-11-22 2019-05-30 (주)알앤디테크 음성 인식 시스템
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0123845B1 (ko) 1993-01-30 1998-10-01 조백제 음성합성 및 인식시스템
KR101092489B1 (ko) 2009-12-17 2011-12-13 한국생산기술연구원 음성 인식 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0123845B1 (ko) 1993-01-30 1998-10-01 조백제 음성합성 및 인식시스템
KR101092489B1 (ko) 2009-12-17 2011-12-13 한국생산기술연구원 음성 인식 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190059046A (ko) 2017-11-22 2019-05-30 (주)알앤디테크 음성 인식 시스템
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
CN109830236A (zh) * 2019-03-27 2019-05-31 广东工业大学 一种双视位口型合成方法

Similar Documents

Publication Publication Date Title
JP6484317B2 (ja) 発話認識システム、発話認識装置、および発話認識方法
US10621968B2 (en) Method and apparatus to synthesize voice based on facial structures
CN106992013B (zh) 语音情感修改
CN108133709B (zh) 语音识别装置和语音识别方法
Rosenblum et al. An audiovisual test of kinematic primitives for visual speech perception.
KR101475894B1 (ko) 장애 음성 개선 방법 및 장치
US11344225B2 (en) Determining apnea-hypopnia index AHI from speech
Freitas et al. An introduction to silent speech interfaces
JP2010256391A (ja) 音声情報処理装置
US20230154450A1 (en) Voice grafting using machine learning
KR20160028868A (ko) 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법
Rudzicz Production knowledge in the recognition of dysarthric speech
JP2015103183A (ja) 診療支援装置
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
Fecher The'Audio-Visual Face Cover Corpus': Investigations into audio-visual speech and speaker recognition when the speaker's face is occluded by facewear.
Hanzlíček et al. Voice conservation: towards creating a speech-aid system for total laryngectomees
CN117836823A (zh) 对检测到的无声语音的破译
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
Heracleous et al. A pilot study on augmented speech communication based on Electro-Magnetic Articulography
Kamiloğlu et al. Voice production and perception
Seong et al. A study on the voice security system using sensor technology
JP6730636B2 (ja) 情報処理装置,制御プログラムおよび制御方法
JP6894081B2 (ja) 語学学習装置
NO317598B1 (no) Fremgangsmate og apparat for frembringelse av visuell talesyntese
CN116705070B (zh) 一种唇腭裂术后说话发音及鼻音矫正方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment