KR101074817B1 - 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템 - Google Patents

스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템 Download PDF

Info

Publication number
KR101074817B1
KR101074817B1 KR1020100025470A KR20100025470A KR101074817B1 KR 101074817 B1 KR101074817 B1 KR 101074817B1 KR 1020100025470 A KR1020100025470 A KR 1020100025470A KR 20100025470 A KR20100025470 A KR 20100025470A KR 101074817 B1 KR101074817 B1 KR 101074817B1
Authority
KR
South Korea
Prior art keywords
image
recognition
subject
stereo
language
Prior art date
Application number
KR1020100025470A
Other languages
English (en)
Other versions
KR20110106197A (ko
Inventor
윤인찬
최귀원
서준교
추준욱
권익찬
김광명
최승호
김상윤
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020100025470A priority Critical patent/KR101074817B1/ko
Publication of KR20110106197A publication Critical patent/KR20110106197A/ko
Application granted granted Critical
Publication of KR101074817B1 publication Critical patent/KR101074817B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 스테레오 영상기술을 사용한 언어 인식 및 음성 생성 방법 및 이러한 방법을 사용하는 시스템에 관한 것이다.
본 발명에 따른 언어 인식 및 음성 생성 방법은, 피사체를 촬영한 일련의 좌 이미지 및 우 이미지를 제공하는 스테레오(stereo) 이미지(image) 제공 단계, 상기 스테레오 이미지 제공부로부터 제공받은 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고 출력하는 비전(vision) 처리(processing) 단계, 상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 언어를 언어 텍스트(text)로 구성하여 출력하는 언어 인식 단계 및 상기 언어 텍스트를 입력받아 상기 텍스트를 음성으로 변환하여 출력하는 음성 생성 단계를 포함하는 것을 특징으로 한다.

Description

스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템{METHOD FOR REAL-TIME LANGUAGE RECOGNITION AND SPEECH GENERATION BASED ON THREE-DIMENSIONAL VISION USING STEREO CAMERAS, AND SYSTEM USING THE SAME}
본 발명은 스테레오 영상기술을 사용한 언어 인식 및 음성 생성 방법 및 이러한 방법을 사용하는 시스템에 관한 것이다.
본 발명은 스테레오 카메라의 양안시차 영상(image; 이미지)을 이용하여, 피사체의 안면부 운동을 3차원으로 실시간 재구성하고, 이를 기반으로 상기 피사체가 의도하였던 음성을 인식하는 방법 및 상기 방법을 사용하는 시스템에 관한 것이다. 특히, 상기 발명은 상기 피사체가 노약자 또는 음성장애 환자인 경우, 상기 피사체의 의사소통을 보조하는 방법 또는 시스템으로서의 기능을 수행한다.
음성장애는 성대운동장애, 성대의 크기 및 무게의 변화, 공명기관의 구조적 문제 등 다양한 원인에 의해 발병하게 된다. 음성장애는 소리를 낼 수 없거나 쉰 소리가 나는 등의 형태로 발생할 수 있다. 현재 이러한 음성장애를 가진 환자와의 의사소통을 위해 전자식 인공후두가 임상적으로 가장 많이 활용되고 있다.
이러한 음성장애 환자들의 경우라도 상기 환자가 일반인과 동일한 방식으로 소리를 내고자 하는 경우, 상기 환자의 안면부 형태는 상기 환자가 발음하고자 하는 음소 및 음절에 따라 일반인과 동일하게 변화한다는 것이 공통적으로 확인될 수 있다. 따라서, 안면부 형태를 기반으로 언어를 인식하는 방법, 예컨데 안면부 근전도 또는 모노 카메라를 이용한 음성 인식 연구가 최근들어 진행되어오고 있다.
모노 카메라를 이용한 음성 인식의 경우, 모노 카메라의 영상으로부터 2차원적 구순(입술) 운동을 분석하고, 상기 분석에 기반하여 음성을 복원하는 과정을 수행한다.
스테레오 영상 기술에 있어서는, 주로 보안, 감정인식 및 3차원 애니메이션 분야에서 사용되기 위한 스테레오 비전 처리 기술이 활발히 연구되고 있다. 이러한 기술은 구체적으로는 안면부 인식 및 3차원 재구성(reconstruction)을 목적으로 한다.
인간의 시각 체계는 서로 다른 위치에서 획득된 두 영상을 적절히 정합(matching)함으로써 시야에 들어온 물체에 대한 거리정보를 얻는다고 알려져 있다. 스테레오 정합(stereo matching)은 이러한 인간 시각 체계의 거리 추출 능력을 자동화하기 위한 컴퓨터 비전 분야 중 하나이다. 상기 스테레오 정합 방법은 초음파와 레이저를 광원으로 사용하여 빛의 비행시간 및 속도의 함수로써 거리를 측정하는 방법에 비해 더 효과적이고, 실제 응용 환경의 제약을 더 적게 받는 장점이 있다. 따라서, 상기의 스테레오 정합 방법은 의료 영상, 공장 자동화 및 지도 제작 등의 분야에 널리 이용되고 있다.
일반적으로, 스테레오 정합 방법을 사용하여 대상 물체, 즉 피사체의 거리 또는 깊이를 얻기 위한 기본 단계는 영상 획득, 특징 추출, 스테레오 정합, 변위 추정 및 상기 변위로부터의 거리 계산으로 이루어진다. 이러한 각각의 단계에서, 음성 인식률의 향상 및 실시간 적용을 위한 구체적인 방법이 필요하다. 이를 위한 가장 중요한 인자로서, 정합 요소로 사용될 특징 추출 방법을 선택해야 하며, 상기 특징에 적절한 스테레오 정합 방법을 구해야 한다.
다음으로, 패턴 분류가 문제시된다. 상기의 패턴 분류는, 피사체의 거리 또는 깊이, 즉 음소를 발음하고자 하는 피사체의 안면부 3차원 좌표값이 구해졌을 때, 상기 3차원 좌표값으로부터 그에 해당되는 음소를 구분하는 과정이다. 상기 패턴 분류는 학습과 평가의 두 과정으로 구성될 수 있다.
상기 학습 과정에서는 입력 패턴과 상기 입력 패턴에 대응하기를 원하는 출력 클래스가 동시에 주어지며, 패턴 분류기가 상기 입력 및 상기 출력의 관계에 따라 파라미터(parameter)를 조정한다. 상기의 학습 과정을 통해 상기 파라미터가 충분히 조정된 후 평가 과정이 수행될 수 있다.
상기 평가 과정에서는 입력 패턴만이 주어지며, 상기 패턴 분류기가 전술한 학습 과정을 통해 학습된 파라미터에 기반하여 상기 입력 패턴이 속하는 클래스를 출력한다.
상기 패턴 분류에 있어서, 상기 입력 패턴 및 상기 출력 클래스의 단위를 어떻게 설정할 지가 문제시된다. 후술될 본 발명의 일 실시예는 의사를 표현하는 음성의 최소단위인 음소(phoneme)를 상기 입력 패턴으로 사용하고, 각 음소를 발음하는 미리 정의된 3차원 안면부 모델인 비즘(viseme)을 상기 출력 클래스로 사용한다.
음성 인식의 효율성을 높이기 위해서는, 상기 입력 패턴 및 상기 출력 클래스, 예컨데 상기 음소 및 상기 비즘이 적절히 구분되어 정의되어야 한다. 또한, 상기 패턴분류기는 효율성 외에도 높은 성공률과 일반화 능력을 갖도록 설계될 것이 요구된다.
마지막으로, 시계열 동적 패턴 인식이 문제시된다. 상기 시계열 동적 패턴 인식은 상기 패턴 분류기를 통한 상기 출력 클래스(예컨데, 비즘)들로부터 단어 또는 문장을 구성하는 것이다. 상기 패턴 인식의 대상이 되는 패턴은 크게 정적 패턴 및 동적 패턴으로 나뉜다.
일반적으로 고정된 영상, 예컨데 지문, 홍채, 정맥, 필기체 숫자, 문자 및 본 발명의 일 실시예에서 사용하는 것과 같은 안면부 3차원 격자 등이 상기 정적 패턴에 해당된다. 반면, 시간에 따라 변하는 패턴, 예컨데 음성, 주가의 흐름, 로봇의 움직임 궤적 등이 상기 동적 패턴에 해당된다.
말하자면, 상기 동적 패턴은 시간 변수가 추가됨으로 인해 상기 정적 패턴의 연속적인 궤적이 하나의 패턴을 이루게 되는 것으로 볼 수 있다. 후술할 본 발명의 일 실시예에서, 시간에 따라 연속되는 비즘 출력들은 의미를 가지는 단어 또는 문장을 구성한다. 따라서, 상기 비즘 출력들은 동적 패턴에 해당하는 것으로 볼 수 있으며, 동적 패턴의 시변성을 고려한 인식 방법이 요구된다.
또한, 상기 시계열 동적 패턴 인식에서도, 상기 패턴 분류와 같은 학습 과정이 요구된다. 상기 학습 과정에서도 마찬가지로, 예컨데 비즘 모델의 종류와 같은 입력 패턴 및 단어 또는 문장의 종류와 같은 출력 클래스가 적절히 정의될 필요가 있다.
모노 카메라 영상을 이용한 종래의 음성 인식은 대체적으로 인식률이 낮은 문제가 있다. 또한, 종래의 스테레오 비전 처리 기술은 정확한 안면부 3차원 모델을 얻기 위해서 긴 처리시간이 요구되는 복잡한 알고리즘을 사용한다. 따라서, 이러한 종래의 기술은 실시간 음성인식이 요구되는 응용에 있어서는 적합하지 못한 문제가 있다.
따라서, 본 발명의 일 목적은 기존의 모노 카메라 영상을 이용한 음성 인식의 한계점을 극복하는, 실시간으로 적용 가능한 스테레오 비전 처리 방법을 제공하는 것이다.
또한, 종래의 전자식 인공후두, 안면부 근전도 및 모노 카메라를 이용한 음성인식 방법의 경우, 상기의 방법은 비교적 인식률이 낮은 문제가 있으며, 상기 방법을 사용하기 위한 장치는 휴대하기에 불편한 문제가 있다. 더욱이, 전자식 인공후두나 안면부 근전도를 이용한 방법은 측정을 위한 기구가 환자와 접촉해야 하기 때문에 환자들에게 거부감을 일으키는 문제가 있다. 상기와 같은 문제로 인하여, 종래 기술의 음성인식 방법은 일상 생활에서 사용하기에 부적절하다.
따라서, 본 발명의 다른 목적은 인식률이 높고, 사용하기에 편리하며, 환자들에게 거부감을 일으키지 않는 음성인식 방법을 제공하는 것이다.
본 발명에 따른 언어 인식 및 음성 인식 시스템은, 피사체를 촬영한 일련의 좌 이미지 및 우 이미지를 제공하는 스테레오(stereo) 이미지(image) 제공부, 상기 스테레오 이미지 제공부로부터 제공받은 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고 출력하는 비전(vision) 처리(processing)부, 상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 언어를 언어 텍스트(text)로 구성하여 출력하는 언어 인식부 및 상기 언어 텍스트를 입력받아 상기 텍스트를 음성으로 변환하여 출력하는 음성 생성부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 스테레오 이미지 제공부는, 상기 피사체의 좌편 및 우편에서 이미지를 촬영하여 출력하는 스테레오 카메라들 및 상기 이미지를 입력받아, 상기 좌 이미지 및 상기 우 이미지로 변환하여 출력하는 이미지 취득부를 포함한다.
바람직하게, 상기 비전 처리부는, 상기 좌 이미지 및 상기 우 이미지에 대한 X, Y 및 Z 축(axis)들의 변화도를 산출하고, 상기 좌 이미지 및 상기 우 이미지에 대한 절대차의 총합(sum of absolute difference)를 산출하고, 상기 좌 이미지 및 상기 우 이미지에 대한 특징 추출을 수행하고, 상기 좌 이미지 및 상기 우 이미지에 대한 스테레오 정합(matching) 과정을 수행하고, 상기 스테레오 정합 과정에 기반하여 픽셀의 거리 또는 깊이 정보를 산출하는 스테레오 정합부를 포함하고, 상기 특징 추출은, 상기 좌 이미지 및 상기 우 이미지에 대해 모든 픽셀의 RGB 값의 차이(difference) 및 변화분(gradient)을 산출한다.
바람직하게, 상기 스테레오 정합은 상기 좌 이미지 및 상기 우 이미지의 각 픽셀에 대해 상기 차이 및 상기 변화분이 미리 정의된 특정 임계치 이하인 것을 동일 픽셀(corresponding pixel)로 정합하는 것이고, 상기 픽셀의 거리 또는 깊이 정보는 상기 동일 픽셀의 위치차이(disparity)에 기반하여 산출되는 것이다.
바람직하게, 상기 차이 및 상기 변화분의 산출은 하나의 이미지에 대해서 다른 이미지를 이동(shift) 연산하는 것에 기반하고, 상기 위치차이는 상기 이동연산의 차수(order)이다.
바람직하게, 상기 비전 처리부는, 상기 좌 이미지 및 상기 우 이미지 외의 피사체에 관련된 다른 정보에 기반하여 상기 3D 이미지를 필터링하는 필터링부를 더 포함하고, 상기 비전 처리부의 출력인 상기 3D 이미지는 상기 필터링부에 의해 필터링된 3D 이미지이다.
바람직하게, 상기 다른 정보는, 상기 피사체의 안면부 좌표값이다.
바람직하게, 상기 언어 인식부는, 상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 음소의 패턴을 분류하는 음소 패턴 분류부 및 상기 분류된 음소의 패턴에 기반하여 시계열 패턴 인식을 통해 인식된 언어 텍스트롤 출력하는 비즘 패턴 인식부를 포함한다.
바람직하게, 상기 3D 이미지는 상기 피사체의 구순 주위의 3차원 좌표값으로 구성된 입력벡터이고, 상기 음소 패턴 분류부는 상기 입력벡터를 입력받아 분류된 비즘(classified viseme)을 출력벡터로서 출력하고, 상기 비즘 패턴 인식부는 상기 음소 패턴 분류부로부터 분류된 비즘을 입력으로 받고, 상기 시계열 인식은 비즘 시계열 패턴 인식이다.
바람직하게, 상기 음소 패턴 분류부는, 가우시안 혼합 모델(Gaussian mixture model)에 기반한다.
바람직하게, 상기 비즘 패턴 인식부는. 은닉 마코프 모델에 기반한다.
본 발명에 따른 언어 인식 및 음성 생성 방법은, 피사체를 촬영한 일련의 좌 이미지 및 우 이미지를 제공하는 스테레오(stereo) 이미지(image) 제공 단계, 상기 스테레오 이미지 제공부로부터 제공받은 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고 출력하는 비전(vision) 처리(processing) 단계, 상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 언어를 언어 텍스트(text)로 구성하여 출력하는 언어 인식 단계 및 상기 언어 텍스트를 입력받아 상기 텍스트를 음성으로 변환하여 출력하는 음성 생성 단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 스테레오 이미지 제공 단계는, 상기 피사체의 좌편 및 우편에서 이미지를 촬영하여 출력하는 스테레오 촬영 단계 및 상기 이미지를 입력받아, 상기 좌 이미지 및 상기 우 이미지로 변환하여 출력하는 이미지 취득 단계를 포함한다.
바람직하게, 상기 비전 처리 단계는, 상기 좌 이미지 및 상기 우 이미지에 대한 X, Y 및 Z 축(axis)들의 변화도 산출 단계, 상기 좌 이미지 및 상기 우 이미지에 대한 절대차의 총합(sum of absolute difference) 산출 단계, 상기 좌 이미지 및 상기 우 이미지에 대한 특징 추출 단계, 상기 좌 이미지 및 상기 우 이미지에 대한 스테레오 정합(matching) 단계 및 상기 스테레오 정합에 기반한 픽셀의 거리 또는 깊이 정보 산출 단계를 포함하고, 상기 특징 추출은, 상기 좌 이미지 및 상기 우 이미지에 대해 모든 픽셀의 RGB 값의 차이(difference) 및 변화분(gradient)을 산출한다.
바람직하게, 상기 스테레오 정합은 상기 좌 이미지 및 상기 우 이미지의 각 픽셀에 대해 상기 차이 및 상기 변화분이 미리 정의된 특정 임계치 이하인 것을 동일 픽셀(corresponding pixel)로 정합하는 것이고, 상기 픽셀의 거리 또는 깊이 정보는 상기 동일 픽셀의 위치차이(disparity)에 기반하여 산출된다.
바람직하게, 상기 차이 및 상기 변화분의 산출은 하나의 이미지에 대해서 다른 이미지를 이동(shift) 연산하는 것에 기반하고, 상기 위치차이는 상기 이동연산의 차수(order)이다.
바람직하게, 상기 비전 처리 단계는, 상기 좌 이미지 및 상기 우 이미지 외의 상기 피사체와 관련된 다른 정보에 기반하여 상기 3D 이미지를 필터링하는 필터링 단계를 더 포함하고, 상기 비전 처리 단계의 출력인 상기 3D 이미지는 상기 필터링 단계에 의해 필터링된 3D 이미지이다.
바람직하게, 상기 다른 정보는, 상기 피사체의 안면부 좌표값이다.
바람직하게, 상기 언어 인식 단계는, 상기 3D 이미지에 기반하여 피사체가 의도하였던 음소의 패턴을 분류하는 음소 패턴 분류 단계 및 상기 분류된 음소의 패턴에 기반하여 시계열 패턴 인식을 통해 인식된 언어 텍스트를 출력하는 비즘 패턴 인식 단계를 포함한다.
바람직하게, 상기 3D 이미지는 상기 피사체의 구순 주위의 3차원 좌표값으로 구성된 입력벡터이고, 상기 음소 패턴 분류 단계는 상기 입력벡터를 입력받아 분류된 비즘(classified viseme)을 출력벡터로서 출력하고, 상기 비즘 패턴 인식 단계는 상기 음소 패턴 분류 단계로부터 분류된 비즘을 입력으로 받고, 상기 시계열 인식은 비즘 시계열 패턴 인식이다.
바람직하게, 상기 음소 패턴 분류 단계는, 가우시안 혼합 모델(Gaussian mixture model)에 기반한다.
바람직하게, 상기 비즘 패턴 인식 단계는. 은닉 마코프 모델에 기반한다.
본 발명은, 특히 음성장애 환자의 의사소통을 보조하기 위해, 스테레오 영상을 이용한 피사체의 3차원 안면부의 정량적 분석 및 상기 분석에 기반한 음성의 생성 방법과, 상기 방법을 사용하는 시스템을 제공하는 효과가 있다.
구체적으로, 본 발명은 실시간 언어 인식의 대상이 되는 피사체를 비접촉 방식으로 측정하는 영상 측정 방법 및 상기 방법을 사용하는 시스템을 제공한다. 따라서, 본 발명은 특히 상기 피사체가 음성장애 환자인 경우에 있어서, 상기 피사체의 이동성을 증가시키고, 상기 피사체의 거부감을 불러 일으키지 않는다는 장점이 있다.
또한, 본 발명은 스테레오 영상을 사용하는 영상 인식 및 음성 재생 방법 및 상기 방법을 사용하는 시스템을 제공한다. 본 발명은 스테레오 영상을 사용함에 의하여 모노 카메라를 이용하는 2차원 안면부 영상인식 기술에 비해 높은 인식률을 제공하는 효과가 있다.
또한, 본 발명은 고속의 영상 인식 및 음성 재생 방법과 상기 방법을 사용하는 시스템을 제공한다. 따라서 본 발명은 실시간 영상 인식 및 상기 인식에 따른 음성 재생을 제공하는 효과가 있다.
상기와 같은 이유로, 본 발명에 따른 방법 및 시스템은 높은 상업적, 의학적 가치를 가지며, 특히 음성장애 환자의 재활 및 일상 생활 복귀를 위해 활용되기에 적합하다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성도.
도 2는 본 발명의 일 실시예에 따른 스테레오 카메라들의 상세한 구성도.
도 3은 본 발명의 일 실시예에 따른 비전 처리부의 처리 절차 흐름도.
도 4는 상기 음소 패턴 분류부(의 예시적인 구성 및 입출력을 도시한 도.
도 5는 본 발명의 일 실시예에 따른 각각의 음소를 위한 필터링된 3D 이미지와 이에 대응하는 분류된 비즘의 일 예를 도시한 도.
도 6은 상기 비즘 패턴 인식부(의 예시적인 구성 및 입출력을 도시한 도.
도 7은 본 발명의 일 실시예에 따른 비즘 패턴 인식부의 분류된 비즘 입력 및 인식된 언어 출력의 예를 도시한 도.
본 발명은 스테레오 카메라를 이용한 이미지 인식 및 상기 이미지 인식에 기반한 음성 생성에 적용된다. 그러나 본 발명은 이에 한정되지 않고, 본 발명의 기술적 사상이 적용될 수 있는 모든 3D 이미지 인식, 음성 인식 등의 분야에 적용될 수 있다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.
하기에서, 본 발명의 일 실시예에 따른 음성 인식 시스템을 살펴보도록 한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 구성도이다.
도 1에서 도시된 것처럼, 본 발명에 따른 음성 인식 시스템은 스테레오 이미지(image) 제공부(110), 비전(vision) 처리부(120), 언어 인식부(130) 및 음성 생성부(140)를 포함한다.
상기 스테레오 이미지 제공부(110)는 상기 비전 처리부(120)로 일련의 좌 이미지(image) 및 우 이미지를 제공한다.
상기 스테레오 이미지 제공부는 2 대의 스테레오 카메라들(112a 및 112b) 및 스테레오 이미지 취득부(114)를 포함할 수 있다.
상기 스테레오 카메라들(112a 및 112b)은 촬영의 대상, 즉 피사체로부터 각각 이미지를 얻는다. 일반적으로 상기 스테레오 카메라들(112a 및 112b)은 물리적으로 분리된 2 대의 카메라이다. 그러나, 본 발명의 범위가 반드시 물리적으로 분리된 2 대의 카메라를 사용하는 경우로만 한정되는 것은 아니다. 상기 스테레오 카메라들(112a 및 112b)에 대한 더 자세한 구성이 하기의 도 2와 관련하여 후술된다.
상기 스테레오 카메라들(112a 및 112b)로부터 얻어진 이미지들은 상기 스테레오 이미지 취득부(114)로 전송된다. 상기 스테레오 이미지 취득부(114)는 상기 이미지들을 상기 좌 이미지 및 우 이미지로 변환하는 작업을 수행한다. 상기 스테레오 카메라들(112a 및 112b) 중 좌편에 위치한 것이 획득한 이미지가 상기 좌 이미지로 변환되고, 우편에 위치한 것이 획득한 이미지가 상기 우 이미지로 변환된다.
선택적으로, 상기 스테레오 이미지 제공부(110)는 일련의 좌 이미지 및 우 이미지를 제공할 수 있는 임의의 장치일 수 있다. 예컨데, 한 피사체를 두 방향에서 촬영한 동영상을 제공하는 서버, 상기와 같은 동영상을 제공하는 파일 시스템 또는 3D(3-dimension) 텔레비전(television)의 튜너와 영상처리장치 등이 상기 스테레오 이미지 제공부(110)에 포함될 수 있다.
선택적으로, 상기 좌 이미지 및 우 이미지는 각각 별개의 전송 매체를 통해서 상기 비전 처리부(120)로 전송될 수 있으며, 동일한 전송 매체를 통해 분리 가능한 신호로서 전송될 수 있으며, 또는 멀티플렉싱(multiplexing), 인코딩(encoding) 및 압축 등의 부가적인 처리를 거는 단일한 신호로서 전송될 수도 있다. 즉, 상기 도 1에서 좌 이미지 및 우 이미지가 분리되어 표시된 것은 두 이미지에 대한 정보가 상기 비전 처리부(120)로 전달되는 것을 의미할 뿐, 본 발명의 범위가 반드시 2 개의 전송 경로로 이미지가 전달되는 경우로만 한정된다는 것을 의미하는 것은 아니다.
상기 비전 처리부(120)는 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고, 상기 3D 이미지를 출력한다.
상기 비전 처리부(120)는 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하는 스테레오 정합(stereo matching) 작업을 수행한다. 상기 비전 처리부(120)는 본 발명의 일 목적인 음성 인식률 향상을 위해, 상기 스테레오 이미지 제공부(110)로부터 획득한 양안시차 영상(즉, 좌 이미지 및 우 이미지)에 기반하여 음소를 발음하고자 하는 피사체의 안면부를 정밀한 3차원 격자로 재구성할 수 있다.
선택적으로, 상기 3D 이미지는 출력되기에 앞서 상기 좌 이미지 및 상기 우 이미지 외의 피사체에 관련된 다른 정보에 기반하여 필터링 될 수 있다.
선택적으로, 상기 스테레오 정합 작업은 상기 비전 처리부(120)에 포함되는 스테레오 정합부(122)에서 이루어질 수 있으며, 상기 필터링 작업은 상기 비전 처리부에 포함되는 필터링부(124)에서 이루어질 수 있다.
상기 비전 처리부(120)에서 이루어지는 처리 절차에 대한 더 자세한 설명이 하기의 도 3과 관련하여 후술된다.
상기 언어 인식부(130)는 상기 3D 이미지, 또는 필터링된 3D 이미지에 기반하여, 음소인식 및 음소조합을 통해 피사체가 의도하였던 언어, 즉 단어 또는 문장을 인식한다. 상기 언어 인식부(130)는 상기 인식의 결과로서 언어 텍스트를 구성하여 출력한다.
상기 언어 인식부(130)는 본 발명의 일 목적인 실시간 응용을 위해, 음소 단위의 인식이 가능한 고속 알고리즘을 사용할 수 있다.
선택적으로, 상기 언어 텍스트는 각각 언어의 일 단위, 예컨데 음절 또는 문장으로, 순차적으로 전송될 수 있고, 또는 연속적인 스트림의 형태로 전송될 수 있다. 상기 언어 텍스트는 미리 정해진 분류된 비즘(classified viseme)에 기반한 정보일 수 있다.
상기 언어 인식부(130)는 음소 패턴 분류부(132) 및 비즘 패턴 인식부(134)를 포함할 수 있다.
상기 음소 패턴 분류부(132)는 입력받은 3D 이미지를 분석하여 피사체가 의도하였던 음소의 패턴을 분류하고, 상기 분류에 따라 분류된 비즘을 출력한다. 상기 음소 패턴 분류부(132)가 수행하는 음소 패턴 분류는 안면부 3차원 격자를 사용하는 정적 패턴 분류일 수 있다.
상기 비즘 패턴 인식부(134)는 상기 분류된 비즘을 입력받아, 비즘 시계열 패턴 인식을 통해 인식된 언어를 출력한다. 상기 비즘 패턴 인식부(134)가 수행하는 패턴 인식은 시간에 따라 연속된 비즘을 인식하는 동적 패턴 인식일 수 있다.
상기 언어 인식부(130)에서 이루어지는 처리 절차에 대한 더 자세한 설명이 하기의 도 4 내지 도 7과 관련하여 후술된다.
상기와 같이 비전 처리부(120) 및 언어 인식부(130)가 연속적으로 처리를 수행하고, 상기 처리의 결과를 조합함에 따라 의미를 갖는 단어 또는 문장이 상기 언어 텍스트로서 구성된다. 상기 음성 생성부(140)는 상기 언어 텍스트를 입력받아, 상기 인식된 언어에 기반하여 음성을 생성한다.
상기 음성 생성부(140)는 상기 언어 텍스트를 음성 출력에 필요한 신호로 변환하는 텍스트-음성(text-to-speech) 변환부(142) 및 상기 신호를 입력받아 실제 소리를 생성하는 스피커(speaker)(144)를 포함할 수 있다.
본 발명의 일 실시예에 따른 스테레오 카메라들(112a 및 112b)의 구성에 관하여 더 자세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 스테레오 카메라들(112a 및 112b)의 더 자세한 구성을 도시한 도이다.
상기 스테레오 카메라들은 비정규화 위치(non-canonical position)로 배치된 두 개의 웹 카메라들(210a 및 210b), 각각의 웹 카메라를 위한 광다이오드 조명들(220a 및 220b) 및 어깨 거치대(230)를 포함할 수 있다.
상기 웹 카메라는 스테레오 이미지를 획득하며, 특정 포맷(format)의 영상, 예컨데 초당 30 프레임(frame), 960x720 픽셀(pixels)의 양안시차 영상을 출력할 수 있다.
본 발명의 일 실시예에 따른 상기 비전 처리부(120)의 처리 절차에 관하여 자세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 비전 처리부(120)의 처리 절차 흐름도이다.
우선, 상기 비전 처리부(120)는 입력받은 상기 좌 이미지 및 상기 우 이미지에 대해, X, Y 및 Z 축(axis)들의 변화도(gradient)를 산출한다(S110).
다음으로, 상기 비전 처리부(120)는 상기 좌 이미지 및 상기 우 이미지에 대한 절대차의 총합(Sum of Absolute Difference; SAD)을 산출한다(S120).
다음, 상기 비전 처리부(120)는 특징추출 과정(S130)을 수행한다. 구체적으로, 상기 비전 처리부(120)는 상기 좌 이미지 및 상기 우 이미지에 대해 모든 픽셀의 RGB 값의 차이(difference) 및 변화분(gradient)을 산출한다(S130). 이때, 상기 산출은 하나의 이미지에 대하여 다른 이미지를 이동 연산(shifting operation)하는 것에 기반할 수 있다.
다음, 상기 비전 처리부(120)는 스테레오 정합 과정을 수행한다(S140). 구체적으로, 상기 비전 처리부(120)는 각 픽셀에 대해 상기 차이 및 변화분이 미리 정의된 특정 임계치 이하인 것을 동일 픽셀(corresponding pixel) 정합(matching) 한다(S140).
다음, 상기 비전 처리부(120)는 상기 동일 픽셀의 위치차이(disparity)를 산출하여, 거리 또는 깊이 정보를 얻는다(S150). 이때, 상기 이동연산의 차수(order)를 상기 픽셀의 위치차이로 삼을 수 있다.
상기와 같은 과정(S110 내지 S150)을 통해 피사체의 안면부에 대한 격자(mesh)형 3차원 좌표값을 구성할 수 있다.
상기의 구성은 상기 피사체가 발음하고자 하는 음소를 단위로 삼을 수 있다. 이는 의사를 표현하는 음성의 최소 단위인 음소들이 서로 다른 3차원적 안면부 운동을 보인다는 점에 착안한 것이다.
상기 과정 중 상기 특징추출 과정(S130) 및 상기 스테레오 정합 과정(S140)은 단일 이동 연산을 통해 수행될 수 있다. 상기 단일 이동 연산으로 인해, 상기 비전 처리부(120)는 빠른 처리 속도를 가질 수 있으며, 이와 동시에 모든 픽셀에 대하여 거리 또는 깊이 정보를 획득할 수 있다. 상기와 같은 본 발명의 특징은, 특징-기반 스테레오 정합(featured-based stereo matching) 방법이 갖는 불연속성 문제를 해결할 수 있으며, 영역-기반 스테레오 정합(area-based stereo matching) 방법과 같은 빠른 처리속도를 얻을 수 있다.
다음, 선택적으로, 상기 3D 이미지는 출력되기에 앞서 상기 좌 이미지 및 상기 우 이미지 외의 피사체에 관련된 다른 정보에 기반하여 필터링 될 수 있다(S160). 상기 필터링의 예로, 상기 비전 처리부(120)는 레이저 스캔을 통해 획득된 피사체의 안면부 좌표값을 이용하여 추정된 픽셀 깊이를 필터링 할 수 있다. 이러한 필터링은 조명에 의해 발생한 외란(disturbance)을 제거하는 효과를 발생시킨다.
상기 과정 중 일부(S110 내지 S150)는 중 상기 비전 처리부(120)에 포함되는 상기 스테레오 정합부(122)에서 처리될 수 있으며, 다른 일부(S160)는 상기 비전 처리부(120)에 포함되는 상기 필터링부(124)에서 처리될 수 있다.
본 발명의 일 실시예에 따른 상기 언어 인식부(130)의 처리 절차에 대하여 자세히 설명한다.
도 4는 상기 음소 패턴 분류부(132)의 예시적인 구성 및 입출력을 도시한 도이다.
상기 음소 패턴 분류부(132)는 음소 패턴분류를 수행한다. 상기 음소 패턴분류는 가우시안 혼합모델(Gaussian mixture model)에 기반하여 안면부 3차원 좌표값을 미리 정의된 비즘으로 구분하는 것일 수 있다.
상기 음소 패턴 분류부(132)의 입력은 상기 비전 처리부(120)가 출력하는 3D 이미지(또는 필터링된 3D 이미지)이다. 상기 3D 이미지는 피사체의 구순 주위의 3차원 좌표값으로 구성된 입력벡터일 수 있다.
상기 음소 패턴 분류부(132)는 상기 입력의 패턴을 인식하여, 출력벡터를 출력한다. 상기 출력벡터는 분류된 비즘(classified viseme)일 수 있다. 즉, 상기 음소 패턴 분류부(132)는 각각의 음소에 대한 (필터링된) 3D 이미지를, 그에 대응하는 비즘으로 분류할 수 있다.
도 5는 본 발명의 일 실시예에 따른 각각의 음소를 위한 필터링된 3D 이미지와 이에 대응하는 분류된 비즘의 일 예를 도시한 도이다.
도 5에서 도시된 것처럼, 상기 분류된 비즘은, 자음 관련 음소를 반영하는 3 개의 주요 비즘, 모음 관련 음소를 반영하는 5 개의 주요 비즘 및 침묵을 반영하는 1 개의 추가 주요 비즘을 포함할 수 있다. 일반적으로 영어에는 보통 약 40 내지 50 개의 음소가 존재하는데, 한 개의 비즘이 2 개 이상의 음소에 대응될 수 있기 때문에, 주요 비즘의 개수는 음소의 개수보다 훨씬 적어지게 된다.
도 6은 상기 비즘 패턴 인식부(134)의 예시적인 구성 및 입출력을 도시한 도이다.
상기 비즘 패턴 인식부(134)는 비즘 시계열 패턴인식을 수행한다. 상기 비즘 시계열 패턴인식은 은닉 마코프 모델(Hidden Markov model)에 기반하여 연속된 비즘 인식 결과를 단어 또는 문장으로 구성하는 것일 수 있다.
상기 비즘 패턴 인식부(134)는 상기 음소 패턴 분류부(132)로부터 시간의 흐름에 따라 변화하는 출력벡터, 예컨데 분류된 비즘을 입력받고, 비즘 시계열 패턴 인식을 통해 인식된 언어를 출력한다.
상기 은닉 마코프 모델을 위한 학습 과정이 상기 인식 이전에 선행될 수 있다. 상기의 학습 과정은, 예컨데, 20 개의 단음절 단어, 30 개의 이음절 단어, 모음(/a/ 10회, /e/ 1회, /i/ 8회, /o/ 7회, /u/ 9회) 및 자음(/p(b, m)/ 5회, /t(d, s, z, n, l)/ 16회, /k(g)/ 4회)으로 구성된 표준문장을 사용할 수 있다.
도 7은 본 발명의 일 실시예에 따른 상기 비즘 패턴 인식부(134)의 분류된 비즘 입력 및 인식된 언어 출력의 예를 도시한 도이다.
도 7에 도시된 것처럼, 상기 비즘 패턴 인식부(134)는 분류된 비즘 'p', 'a', 't' 및 'a'를 입력으로 받아, 상기 입력에 대한 비즘 시계열 패턴 인식을 통해 '바다'를 출력으로서 생성한다.
여기까지 설명된 본 발명에 따른 방법은 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 본 발명에 따른 방법은 저장 매체(예를 들어, 이동 단말기 내부 메모리, 플래쉬 메모리, 하드 디스크, 기타 등등)에 저장될 수 있고, 프로세서(예를 들어, 이동 단말기 내부 마이크로 프로세서)에 의해서 실행될 수 있는 소프트웨어 프로그램 내에 코드들 또는 명령어들로 구현될 수 있다.
이상에서는 본 발명의 바람직한 실시예를 예시적으로 설명하였으나, 본 발명의 범위는 이와 같은 특정 실시예에만 한정되는 것은 아니므로, 본 발명은 본 발명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.

Claims (22)

  1. 피사체를 촬영한 일련의 좌 이미지 및 우 이미지를 제공하는 스테레오(stereo) 이미지(image) 제공부;
    상기 스테레오 이미지 제공부로부터 제공받은 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고 출력하는 비전(vision) 처리(processing)부;
    상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 언어를 언어 텍스트(text)로 구성하여 출력하는 언어 인식부; 및
    상기 언어 텍스트를 입력받아 상기 텍스트를 음성으로 변환하여 출력하는 음성 생성부를 포함하고;
    상기 비전 처리부는,
    상기 좌 이미지 및 상기 우 이미지에 대한 X, Y 및 Z 축(axis)들의 변화도를 산출하고, 상기 좌 이미지 및 상기 우 이미지에 대한 절대차의 총합(sum of absolute difference)를 산출하고, 상기 좌 이미지 및 상기 우 이미지에 대한 특징 추출을 수행하고, 상기 좌 이미지 및 상기 우 이미지에 대한 스테레오 정합(matching) 과정을 수행하고, 상기 스테레오 정합 과정에 기반하여 픽셀의 거리 또는 깊이 정보를 산출하는 스테레오 정합부를 포함하고,
    상기 특징 추출은, 상기 좌 이미지 및 상기 우 이미지에 대해 모든 픽셀의 RGB 값의 차이(difference) 및 변화분(gradient)을 산출하고,
    상기 스테레오 정합은 상기 좌 이미지 및 상기 우 이미지의 각 픽셀에 대해 상기 차이 및 상기 변화분이 미리 정의된 특정 임계치 이하인 것을 동일 픽셀(corresponding pixel)로 정합하는 것이고,
    상기 픽셀의 거리 또는 깊이 정보는 상기 동일 픽셀의 위치차이(disparity)에 기반하여 산출되고,
    상기 차이 및 상기 변화분의 산출은 하나의 이미지에 대해서 다른 이미지를 이동(shift) 연산하는 것에 기반하고,
    상기 위치차이는 상기 이동연산의 차수(order)인 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  2. 제 1항에 있어서, 상기 스테레오 이미지 제공부는
    상기 피사체의 좌편 및 우편에서 이미지를 촬영하여 출력하는 스테레오 카메라들; 및
    상기 이미지를 입력받아, 상기 좌 이미지 및 상기 우 이미지로 변환하여 출력하는 이미지 취득부를 포함하는 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1항에 있어서, 상기 비전 처리부는,
    상기 좌 이미지 및 상기 우 이미지 외의 피사체에 관련된 다른 정보에 기반하여 상기 3D 이미지를 필터링하는 필터링부를 더 포함하고,
    상기 비전 처리부의 출력인 상기 3D 이미지는 상기 필터링부에 의해 필터링된 3D 이미지인 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  7. 제 6항에 있어서, 상기 다른 정보는,
    상기 피사체의 안면부 좌표값인 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  8. 제 1항에 있어서, 상기 언어 인식부는,
    상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 음소의 패턴을 분류하는 음소 패턴 분류부; 및
    상기 분류된 음소의 패턴에 기반하여 시계열 패턴 인식을 통해 인식된 언어 텍스트롤 출력하는 비즘 패턴 인식부를 포함하는 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  9. 제 8항에 있어서,
    상기 3D 이미지는 상기 피사체의 구순 주위의 3차원 좌표값으로 구성된 입력벡터이고,
    상기 음소 패턴 분류부는 상기 입력벡터를 입력받아 분류된 비즘(classified viseme)을 출력벡터로서 출력하고,
    상기 비즘 패턴 인식부는 상기 음소 패턴 분류부로부터 분류된 비즘을 입력으로 받고,
    상기 시계열 인식은 비즘 시계열 패턴 인식인 것을 특징으로 하는 언어 인식 및 음성 생성 시스템
  10. 제 8항에 있어서, 상기 음소 패턴 분류부는,
    가우시안 혼합 모델(Gaussian mixture model)에 기반한 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  11. 제 8항에 있어서, 상기 비즘 패턴 인식부는.
    은닉 마코프 모델에 기반한 것을 특징으로 하는 언어 인식 및 음성 생성 시스템.
  12. 피사체를 촬영한 일련의 좌 이미지 및 우 이미지를 제공하는 스테레오(stereo) 이미지(image) 제공 단계;
    상기 스테레오 이미지 제공 단계에서 제공받은 상기 좌 이미지 및 상기 우 이미지에 기반하여 3D 이미지를 생성하고 출력하는 비전(vision) 처리(processing) 단계;
    상기 3D 이미지에 기반하여 상기 피사체가 의도하였던 언어를 언어 텍스트(text)로 구성하여 출력하는 언어 인식 단계; 및
    상기 언어 텍스트를 입력받아 상기 텍스트를 음성으로 변환하여 출력하는 음성 생성 단계를 포함하고;
    상기 비전 처리 단계는,
    상기 좌 이미지 및 상기 우 이미지에 대한 X, Y 및 Z 축(axis)들의 변화도 산출 단계;
    상기 좌 이미지 및 상기 우 이미지에 대한 절대차의 총합(sum of absolute difference) 산출 단계;
    상기 좌 이미지 및 상기 우 이미지에 대한 특징 추출 단계;
    상기 좌 이미지 및 상기 우 이미지에 대한 스테레오 정합(matching) 단계; 및
    상기 스테레오 정합에 기반한 픽셀의 거리 또는 깊이 정보 산출 단계를 포함하고,
    상기 특징 추출은, 상기 좌 이미지 및 상기 우 이미지에 대해 모든 픽셀의 RGB 값의 차이(difference) 및 변화분(gradient)을 산출하고,
    상기 스테레오 정합은 상기 좌 이미지 및 상기 우 이미지의 각 픽셀에 대해 상기 차이 및 상기 변화분이 미리 정의된 특정 임계치 이하인 것을 동일 픽셀(corresponding pixel)로 정합하는 것이고,
    상기 픽셀의 거리 또는 깊이 정보는 상기 동일 픽셀의 위치차이(disparity)에 기반하여 산출되고,
    상기 차이 및 상기 변화분의 산출은 하나의 이미지에 대해서 다른 이미지를 이동(shift) 연산하는 것에 기반하고,
    상기 위치차이는 상기 이동연산의 차수(order)인 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  13. 제 12항에 있어서, 상기 스테레오 이미지 제공 단계는
    상기 피사체의 좌편 및 우편에서 이미지를 촬영하여 출력하는 스테레오 촬영 단계; 및
    상기 이미지를 입력받아, 상기 좌 이미지 및 상기 우 이미지로 변환하여 출력하는 이미지 취득 단계를 포함하는 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 제 12항에 있어서, 상기 비전 처리 단계는,
    상기 좌 이미지 및 상기 우 이미지 외의 상기 피사체와 관련된 다른 정보에 기반하여 상기 3D 이미지를 필터링하는 필터링 단계를 더 포함하고,
    상기 비전 처리 단계의 출력인 상기 3D 이미지는 상기 필터링 단계에 의해 필터링된 3D 이미지인 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  18. 제 17항에 있어서, 상기 다른 정보는,
    상기 피사체의 안면부 좌표값인 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  19. 제 12항에 있어서, 상기 언어 인식 단계는,
    상기 3D 이미지에 기반하여 피사체가 의도하였던 음소의 패턴을 분류하는 음소 패턴 분류 단계; 및
    상기 분류된 음소의 패턴에 기반하여 시계열 패턴 인식을 통해 인식된 언어 텍스트를 출력하는 비즘 패턴 인식 단계를 포함하는 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  20. 제 19항에 있어서,
    상기 3D 이미지는 상기 피사체의 구순 주위의 3차원 좌표값으로 구성된 입력벡터이고,
    상기 음소 패턴 분류 단계는 상기 입력벡터를 입력받아 분류된 비즘(classified viseme)을 출력벡터로서 출력하고,
    상기 비즘 패턴 인식 단계는 상기 음소 패턴 분류 단계로부터 분류된 비즘을 입력으로 받고,
    상기 시계열 인식은 비즘 시계열 패턴 인식인 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  21. 제 20항에 있어서, 상기 음소 패턴 분류 단계는,
    가우시안 혼합 모델(Gaussian mixture model)에 기반한 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
  22. 제 20항에 있어서, 상기 비즘 패턴 인식 단계는.
    은닉 마코프 모델에 기반한 것을 특징으로 하는 언어 인식 및 음성 생성 방법.
KR1020100025470A 2010-03-22 2010-03-22 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템 KR101074817B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100025470A KR101074817B1 (ko) 2010-03-22 2010-03-22 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100025470A KR101074817B1 (ko) 2010-03-22 2010-03-22 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템

Publications (2)

Publication Number Publication Date
KR20110106197A KR20110106197A (ko) 2011-09-28
KR101074817B1 true KR101074817B1 (ko) 2011-10-19

Family

ID=44956230

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100025470A KR101074817B1 (ko) 2010-03-22 2010-03-22 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템

Country Status (1)

Country Link
KR (1) KR101074817B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837674A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关系统和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김동수 외 4명, ‘3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구’, 한국해양정보통신학회 1998년도 추계종합학술대회, pp.181~185, 1998*

Also Published As

Publication number Publication date
KR20110106197A (ko) 2011-09-28

Similar Documents

Publication Publication Date Title
Olszewski et al. High-fidelity facial and speech animation for VR HMDs
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
Lewis et al. Lip feature extraction using red exclusion
KR20220097121A (ko) 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법
Yu et al. A video, text, and speech-driven realistic 3-D virtual head for human–machine interface
Kumar et al. Harnessing ai for speech reconstruction using multi-view silent video feed
Gibert et al. Analysis and synthesis of the three-dimensional movements of the head, face, and hand of a speaker using cued speech
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
Gururani et al. Space: Speech-driven portrait animation with controllable expression
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
CN115049016A (zh) 基于情绪识别的模型驱动方法及设备
Fan et al. Joint audio-text model for expressive speech-driven 3d facial animation
Kumar et al. Robust one shot audio to video generation
JP4922095B2 (ja) 感情表現抽出処理装置及びプログラム
Wen et al. 3D Face Processing: Modeling, Analysis and Synthesis
KR101480816B1 (ko) 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템
KR101074817B1 (ko) 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템
Kroos et al. Video-based face motion measurement
KR102373608B1 (ko) 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
Shaikh et al. Automatic visual speech segmentation and recognition using directional motion history images and Zernike moments
Zahedi et al. Robust sign language recognition system using ToF depth cameras
Stanciu et al. Emotional states recognition by interpreting facial features
Sahu et al. Result based analysis of various lip tracking systems
CN114494930A (zh) 语音与图像同步性衡量模型的训练方法及装置
CN114466178A (zh) 语音与图像同步性的衡量方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140930

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151002

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee