KR101430342B1 - 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치 - Google Patents

발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치 Download PDF

Info

Publication number
KR101430342B1
KR101430342B1 KR1020130008751A KR20130008751A KR101430342B1 KR 101430342 B1 KR101430342 B1 KR 101430342B1 KR 1020130008751 A KR1020130008751 A KR 1020130008751A KR 20130008751 A KR20130008751 A KR 20130008751A KR 101430342 B1 KR101430342 B1 KR 101430342B1
Authority
KR
South Korea
Prior art keywords
distance
speaker
speech recognition
image
speech
Prior art date
Application number
KR1020130008751A
Other languages
English (en)
Other versions
KR20140095853A (ko
Inventor
홍광석
오병훈
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020130008751A priority Critical patent/KR101430342B1/ko
Publication of KR20140095853A publication Critical patent/KR20140095853A/ko
Application granted granted Critical
Publication of KR101430342B1 publication Critical patent/KR101430342B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 발화자의 거리 추정을 이용한 음성인식방법은 음성인식장치가 카메라로 촬영한 발화자의 얼굴 영상을 이용하여 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 단계(510), 음성인식장치가 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절하는 단계(520) 및 음성인식장치가 조절된 음성을 이용하여 음성인식을 수행하는 단계(530)를 포함한다.

Description

발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치{SPEECH RECOGNITION METHOD USING ESTIMATION OF SPEAKER DISTANCE AND VOICE RECOGNITION APPARATUS USING THE SAME}
이하 설명하는 기술은 음성인식방법 및 음성인식장치에 관한 것이다.
최근 스마트폰과 태블릿 PC의 보급으로 실시간 음성인식 기술을 활용한 다양한 응용기술들이 개발되고 있다. 하지만 사용자가 음성 인식기를 사용하는 장소나 주변 환경, 음성신호의 정확한 끝점 검출 등에 따라 인식 성능은 달라지고, 발화자와 단말기 사이의 거리에 의해서도 성능의 차이를 보인다.
이에 모바일 디바이스의 모노 마이크를 이용하여 단말기와 화자 간의 거리를 추정하는 연구(E. Georganti, T. May, S van de Par, "Speaker Distance Detection using a Single Microphone", IEEE Trans, Audion Speech and Language Processing, 2010. 참조)와 음성의 프레임 에너지와 영교차율(Zero- Crossing Rate)의 조합을 바탕으로 하고 있는 끝점 검출 방법(L. R. Rabiner and M. R. Sambur, "An Algorithm for Determining the Endpoints of Isolated Utterances," Bell Syst. Tech. J., Vol. 54, No.2, February 1975.참조)에 대한 연구가 진행되어 왔다.
나아가 원거리에서 음성인식의 정확도를 높이기 위하여 원거리용 마이크를 이용하거나 복수의 마이크를 사용하는 마이크어레이 기술(한국등록특허 제10-0922963호 등 참조)에 대한 연구도 진행되고 있다.
그러나 마이크를 이용한 거리 추정 및 끝점 검출 방법은 주변 환경의 소음에 따라서 성능이 크게 감소하는 단점이 존재하고, 원거리 마이크는 근거리에서 사용하기 어렵고, 원거리 음성인식을 위한 마이크어레이 기술은 시스템이 복잡하고 정교하게 설치해야 하는 문제점이 있다.
이하 설명하는 기술은 발화자와 음성인식장치의 거리에 따라 음성인식에 사용되는 음성을 일정한 레벨로 조절한 후 음성인식을 수행하고자 한다.
이하 설명하는 기술은 모바일 기기 등에 있는 모노 카메라를 통해 입력되는 얼굴영상을 이용하여 발화자와 음성인식장치의 거리를 추정하고, 추정된 거리에 따라 마이크로 입력된 음성신호의 크기를 조절하는 음성인식방법 내지 장치를 제공하고자 한다.
이하 설명하는 기술의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위하여 발화자의 거리 추정을 이용한 음성인식방법을 제안한다. 발화자의 거리 추정을 이용한 음성인식방법은 음성인식장치가 카메라로 촬영한 발화자의 얼굴 영상을 이용하여 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 단계, 음성인식장치가 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절하는 단계 및 음성인식장치가 조절된 음성을 이용하여 음성인식을 수행하는 단계를 포함한다.
추정하는 단계는 카메라가 얼굴 영역을 포함하는 소스 영상을 획득하는 단계, 음성인식장치의 프로세서가 소스 영상을 전처리하는 단계, 음성인식장치의 프로세서가 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 단계 및 음성인식장치의 프로세서가 얼굴 영역을 이용하여 발화자 거리를 연산하는 단계를 포함한다.
전처리하는 단계는 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지를 생성하는 단계, 소스 영상을 YCbCr 컬러로 변환하고 노이즈를 제거하여 소스 영상에서 배경을 제거한 타겟 이미지를 생성하는 단계 및 모폴로지컬 그레디언트 이미지와 타겟 이미지를 결합하는 단계를 포함한다.
연산하는 단계는 아래의 식으로 발화자 거리(Person to Camera Distance)를 연산한다.
Figure 112013007533376-pat00001
여기서, face width는 발화자의 실제 얼굴 너비, preview width는 카메라로 입력되는 소스 영상의 너비 픽셀 값, pixel distance of face width는 얼굴 영역의 너비 픽셀 값, FOV는 카메라의 시야각이다.
조절하는 단계는 음성인식장치가 마이크를 사용하여 발화자의 음성을 입력받는 단계 및 음성인식장치가 발화자 거리와 기준거리의 차에 대한 음성인식장치와 발화자 사이의 최대 거리의 비율을 이용하여 음성의 레벨을 변경하는 단계를 포함한다.
변경하는 단계는 입력되는 음성에 아래의 수식을 이용하여 연산되는 가중치(N amp)를 곱하여 음성의 레벨을 변경한다.
Figure 112013007533376-pat00002
여기서, d'는 발화자 거리, d ref는 기준거리, d sec는 최대거리이다.
수행하는 단계는 조절된 음성에 대한 MFCC 파라미터를 추출하고, HMM 인식 알고리즘을 사용하여 음성인식을 수행한다.
발화자의 거리 추정을 이용한 음성인식장치는 발화자의 얼굴 영역을 포함하는 소스 영상을 입력받는 영상 입력부, 얼굴 영역을 이용하여 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 거리 추정부, 발화자의 음성을 입력받는 음성 입력부 및 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절하고, 조절된 음성을 이용하여 음성을 인식하는 음성 인식부를 포함한다.
거리 추정부는 소스 영상에 대한 모폴로지컬 그레디언트 이미지 및 소스 영상에 대한 YCbCr 컬러 이미지를 결합하여 소스 영상을 전처리하는 전처리부, 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 얼굴 영역 검출부 및 얼굴 영역을 이용하여 발화자 거리를 연산하는 거리 연산부를 포함한다.
전처리부는 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지를 생성하고, 소스 영상을 YCbCr 컬러로 변환하고 노이즈를 제거하여 소스 영상에서 배경을 제거한 타겟 이미지를 생성하고, 모폴로지컬 그레디언트 이미지와 타겟 이미지를 결합한다.
거리 연산부는 얼굴 영역의 너비 값을 이용하여 발화자 거리(Person to Camera Distance)를 연산한다.
음성 인식부는 발화자 거리와 기준거리의 차에 대한 음성인식장치와 발화자 사이의 최대 거리의 비율을 이용하여 음성에 대한 레벨을 조절한다.
음성 인식부는 음성 입력부를 통해 입력되는 음성에 가중치(N amp)를 곱하여 음성에 대한 레벨을 조절한다.
음성 인식부는 상기 조절된 음성에 대한 MFCC 파라미터를 추출하고, HMM 인식 알고리즘을 수행한다.
이하 설명하는 기술은 영상을 기반으로 음성인식장치와 발화자의 거리를 추정하기 때문에 주변 소음에 관계없이 거리를 추정한다. 그리고 추정된 거리를 기반으로 음성인식을 수행하기 때문에 발화자가 위치하는 거리에 관계없이 음성인식 성능을 유지할 수 있다.
이하 설명하는 기술의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 발화자의 거리 추정을 이용한 음성인식방법에 대한 순서도의 일 예이다.
도 2는 소스 영상을 전처리하는 과정을 예시한 순서도이다.
도 3(a)는 음성 발성 시 거리별로 음성의 진폭을 분석한 결과에 대한 예이고, 도 3(b)는 23개의 문장 발성 시 거리별로 음성의 진폭을 분석한 결과에 대한 예이다.
도 4(a)는 25cm 거리에서 숫자 "3"을 발성했을 때 나타나는 원본 파형의 예이고, 도 4(b)는 15cm에서 발성한 경우와 유사하도록 도4(a)값에 가중치를 부여한 파형의 예이다.
도 5는 발화자의 거리 추정을 이용한 음성인식장치에 대한 구성을 예시한 블록도이다.
도 6은 발화자의 거리 추정을 이용한 음성인식에 대한 성능을 실험한 결과 테이블이다.
도 7은 본 발명을 사용하지 않은 음성 인식 방법의 성능과 본 발명을 사용한 음성 인식 방법의 성능의 결과를 비교한 테이블이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다. 따라서, 본 명세서를 통해 설명되는 각 구성부들의 존재 여부는 기능적으로 해석되어야 할 것이며, 이러한 이유로 본 발명의 발화자의 거리 추정을 이용한 음성인식장치(100)에 따른 구성부들의 구성은 본 발명의 목적을 달성할 수 있는 한도 내에서 도 5와는 상이해질 수 있음을 명확히 밝혀둔다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하에서는 도면을 참조하면서 발화자의 거리 추정을 이용한 음성인식방법 및 발화자의 거리 추정을 이용한 음성인식장치(100)에 관하여 구체적으로 설명하겠다.
본 발명에 따른 음성인식방법은 영상을 촬영하는 카메라를 장착한 장치에 사용할 수 있다. 따라서 스마트폰, 태블릿 PC 등과 같은 이동단말기뿐만 아니라 최근 등장한 스마트 TV 등과 같은 기기에도 적용할 수 있다. 물론 음성인식을 수행하는 장치에 별도의 카메라를 보조장치로 장착한 후 본 발명을 적용할 수도 있을 것이다. 결국 본 발명은 카메라와 같은 영상입력장치를 이용하거나 포함하는 음성인식장치에 사용된다고 하겠다.
도 1은 발화자의 거리 추정을 이용한 음성인식방법에 대한 순서도의 일 예이다.
본 발명에 따른 발화자의 거리 추정을 이용한 음성인식방법은 음성인식장치가 카메라로 촬영한 발화자의 얼굴 영상을 이용하여 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 단계(510), 음성인식장치가 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절하는 단계(520) 및 음성인식장치가 조절된 음성을 이용하여 음성인식을 수행하는 단계(530)를 포함한다.
본 발명은 먼저 카메라로 발화자의 얼굴 영상을 획득하고, 이를 이용하여 발화자와 카메라의 거리 또는 발화자와 음성인식장치의 거리를 추정한다. 카메라가 음성인식장치와 일체형이거나 발화자로부터 동일한 거리에 위치한다면 발화자와 카메라의 거리를 추정하면 되고, 만약 카메라가 음성인식장치와 서로 다른 위치에 있다면 발화자와 음성인식장치의 거리로 변환하여 연산하면 된다. 결국 본 발명은 카메라를 이용하여 발화자와 음성인식장치 사이의 거리를 추정하는 것이다. 이하 발화자와 음성인식장치 사이의 거리를 발화자 거리라고 명명한다.
구체적으로 추정하는 단계(510)는 카메라가 얼굴 영역을 포함하는 소스 영상을 획득하는 단계(511), 음성인식장치의 프로세서가 소스 영상을 전처리하는 단계(512), 음성인식장치의 프로세서가 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 단계(513) 및 음성인식장치의 프로세서가 얼굴 영역을 이용하여 발화자 거리를 연산하는 단계(514)를 포함한다. 소스 영상은 카메라에서 획득하는 최초 영상을 의미한다.
도 2는 소스 영상(Input Image)을 전처리하는 단계(512)를 예시한 순서도이다. 소스 영상에서 얼굴 영역을 정확하게 검출하게 위하여, 소스 영상을 전처리하는 것이다.
전처리하는 단계(512)는 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지(Morphological Gradient Image)를 생성하는 단계, 소스 영상을 YCbCr 컬러로 변환하고 노이즈를 제거하여 소스 영상에서 배경을 제거한 타겟 이미지를 생성하는 단계 및 모폴로지컬 그레디언트 이미지와 타겟 이미지를 결합하는 단계를 포함한다. 타겟 이미지는 소스 영상을 YCbCr 컬러로 변경하고 배경을 제거한 대상(발화자)에 대한 이미지를 의미한다.
도 2에서 소스 영상(input image)에서 좌측으로 분기한 과정이 모폴로지컬 그레디언트 이미지를 생성하는 단계를 설명하고, 소스 영상에서 우측으로 분기한 과정이 타겟 이미지를 생성하는 단계를 의미한다. 최종적으로 모폴로지컬 그레디언트 이미지와 타겟 이미지를 결합연산(AND)하여 소스 영상에 대한 전처리가 완료된다.
모폴로지컬 그레디언트 이미지를 생성하는 단계는 얼굴 영역 검출에 필요한 그레디언트 성분을 강조하기 위해 일반 그레이(Gray) 영상에서 모폴로지컬 그레디언트가 아닌 R, G, B 각각의 3개 채널에서의 모폴로지컬 그레디언트의 최대값 픽셀만을 결합한다. 이를 MMGC (Maximum Morphological Gradient Combination) 이미지라고 하고 이에 대한 수식은 아래의 수학식 1과 같다.
Figure 112013007533376-pat00003
여기서, i 및 j는 픽셀 좌표를 의미하고, MGr는 R 채널에서 모폴로지컬 그레디언트가 최대인 픽셀, MGg는 G 채널에서 모폴로지컬 그레디언트가 최대인 픽셀, MGb는 B 채널에서 모폴로지컬 그레디언트가 최대인 픽셀을 의미한다.
소스 영상을 YCbCr 컬러로 변환하여 타겟 이미지를 생성하는 단계는 타겟 영상을 RGB 컬러 모델에서 YCbCr 컬러로 변환하는 단계, 소스 영상에 피부색의 임계치를 적용하는 단계 및 침식 및 팽창 연산을 이용하여 노이즈를 제거하는 단계를 포함한다.
배경과 얼굴 영역 이미지를 분리하기 위한 피부색(Skin Color)의 임계치를 아래의 수학식 2와 같이 설정할 수 있다.
Figure 112013007533376-pat00004
임계치는 피부색에 따라 달라질 수 있으며 이러한 임계치 설정은 해당분야의 통상의 지식을 가진 자라면 누구나 할 수 있는 것이다.
이를 통해 검출된 피부색 영역은 이진 영상으로 변환(Binary Image Conversion)되고, 이후 침식(Erosion) 및 팽창(Dilation) 연산을 이용한 닫힘 연산(Closing Operation)을 통해 노이즈를 제거하게 된다. 노이즈 제거 단계에서 피부색을 포함한 영역 중 크기가 큰 부분은 제거되지 않는 현상이 발생할 수 있는데 이 경우 얼굴 영역 이미지를 제외한 다른 부분을 제거하기 위해 각 영역을 라벨링 한 후 얼굴 영역 이미지만 검출하게 된다. 최종적으로 배경이 제거된 얼굴 이미지만 검출된다(Blob detection).
얼굴 영역을 검출하는 단계(513)는 아다부스트(AdaBoost(Adaptive Boosting)) 알고리즘을 사용한다. 아다부스트 학습 알고리즘의 기본 개념은 약한 분류기(weak classifier)를 선형적으로 결합하여 최종적으로 높은 검출 성능을 가진 강한 분류기(strong classifier)를 생성하는 것이다.
아다부스트 알고리즘은 클래스의 샘플을 이용하여 약한 분류기를 반복적인 계산에 의해서 학습을 수행하고, 생성된 약한 분류기의 결합에 의해서 강한 분류기를 생성한다. 초기에는 모든 샘플에 대하여 동일한 가중치를 주고 약한 분류기를 학습시킨 후, 단계가 진행될수록 기초 분류기에서 올바르게 분류된 데이터에 대해서는 낮은 에러 가중치가 부과되고 올바르지 않게 분류된 데이터에 대해서는 높은 에러 가중치를 부과함으로써 약한 분류기의 성능을 높여가는 기법이다.
아다부트스 알고리즘 자체는 해당 분야의 통상의 지식을 가진자가 널리 알고 있는 것이므로 자세한 설명은 생략하기로 한다.
발화자 거리를 연산하는 단계(514)는 아래의 수학식 3으로 발화자 거리(Person to Camera Distance)를 연산한다. 음성인식장치와 발화자의 거리는 발화자의 얼굴 면적을 이용하여 추정한다. 기준이 되는 거리에서의 면적과 현재 카메라를 통해 입력되는 얼굴 영역의 면적으로 비교하여 음성인식장치와 발화자의 거리를 추정할 수 있다. 수학식 3에서는 얼굴의 면적으로 연산하지 않았고, 얼굴의 너비 만을 변수로 설정하여 연산한다.
Figure 112013007533376-pat00005
여기서, face width는 발화자의 실제 얼굴 너비, preview width는 카메라로 입력되는 소스 영상의 너비 픽셀 값, pixel distance of face width는 얼굴 영역의 너비인 픽셀 값, FOV는 카메라의 시야각이다. face width, preview width 및 FOV는 환경에 따라 변경 변동이 가능한 변수이다.
발화자 거리를 추정하기 위하여 얼굴의 너비를 이용한 것인데, 얼굴 면적에 비례하는 다른 기준을 사용할 수도 있을 것이다. face width는 발화자의 실제 얼굴 너비(예컨대, 20.5cm)를 의미하고, preview width는 카메라의 너비 방향 픽셀 값(예컨대, 1024 × 640이라면 통상적으로 가로 방향인 1024가 이에 해당함)이고, pixel distance of face width는 검출된 소스 영상으로부터 검출된 얼굴 영역의 너비에 해당하는 픽셀값을 의미한다.
도 3(a)는 음성 발성 시 거리별로 음성의 진폭을 분석한 결과에 대한 예이고, 도 3(b)는 23개의 문장 발성 시 거리별로 음성의 진폭을 분석한 결과에 대한 예이다. 발화자와 음성인식장치 사이의 거리에 따라 음성의 에너지가 달라지는 것은 물리적인 현상이다. 도 3(a)에 도시한 바와 같이 거리가 멀어질수록 음성의 진폭은 작아진다. 도3(b)와 같이 여러 문장으로 구성된 음성에서도 문장마다 다소 차이는 있지만 거리가 멀어질수록 진폭이 작아지는 것을 알 수 있다.
본 발명에서 음성인식장치는 추정된 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절한다(520). 본 발명은 음성인식에 적합한 최적의 거리가 있다는 것을 이용한다. 이와 같은 최적의 거리를 기준거리라고 명명한 것이다.
본 발명에 대한 실험에서 스마트폰과 같은 이동단말기기를 손에 들고 있는 상황에서 최대 팔의 길이를 60cm라고 가정하고, 거리에 따른 인식률을 실험해보니 대략 15cm 거리에 있을 때 가장 음성 인식의 효과가 높았다. 따라서 이하 설명에서는 일단 기준거리를 15cm라고 가정하고자 한다. 물론 기준 거리는 발화자의 신체조건, 음성인식장치가 사용되는 환경, 음성인식장치의 종류 등에 따라 달라질 수 있다. 따라서 기준 거리는 사전에 몇 번의 테스트를 통하여 결정된다고 전제한다. 예컨대, 스마트폰을 사용하고 있는 사용자가 거리를 변경하면서 음성인식을 수행하고 그 결과에 따라 사용자가 기준거리를 설정하거나, 자동으로 설정되는 방식이 가능하다. 스마트 TV와 같이 음성명령을 인터페이스로 사용하는 기기에서도 일반적으로 TV를 시청하는 거리에 따라 실험적으로 사전에 설정된 값을 사용할 수 있고, 또는 시청자의 테스트에 따라 실험을 통해 기준거리를 설정할 수 있다.
발화자의 음성에 대한 레벨을 조절하는 단계(520)는 음성인식장치가 마이크를 사용하여 발화자의 음성을 입력받는 단계(521) 및 음성인식장치가 발화자 거리와 기준거리의 차에 대한 음성인식장치와 발화자 사이의 최대 거리의 비율을 이용하여 음성의 레벨을 변경하는 단계(522)를 포함한다.
음성의 레벨을 변경하는 단계(522)는 입력되는 음성에 아래의 수학식 4를 이용하여 연산되는 가중치(N amp)를 곱하여 음성의 레벨을 변경한다.
Figure 112013007533376-pat00006
여기서, d'는 발화자 거리, d ref는 기준거리, d sec는 최대거리이다.
도 4(a)는 25cm 거리에서 숫자 "3"을 발성했을 때 나타나는 원본 파형의 예이고, 도 4(b)는 15cm에서 발성한 경우와 유사하도록 도4(a)값에 가중치를 부여한 파형의 예이다. 즉 발화자가 음성인식장치와 25cm 떨어진 거리에서 음성을 발성하였고, 카메라를 통해 발화자 거리를 추정하였다면, 15cm 거리에서 발성한 경우와 같이 입력되는 음성의 레벨을 증가시킨다. 이를 통해 발화자가 어떠한 거리에 위치하더라도 효과적인 음성인식이 가능한 것이다.
음성인식장치는 다양한 알고리즘 내지 기법을 이용하여 음성인식을 수행(530)할 수 있다. 본 발명에 대한 실험에서는 기본적으로 HMM 음성인식 알고리즘을 사용하였다. 물론 해당 분야의 통상의 지식을 가진 자에게 널리 알려진 다른 기법을 사용해도 본 발명의 목적을 달성할 수 있음은 자명하다.
HMM (Hidden Markov Model 은닉 마르코브 모델) 인식 알고리즘은 인식시키려는 개별적인 음성 신호 특징 파라미터에 대한 은닉 마르코브 모델들을 학습에 의해 초기 생성한 후, 새로이 입력된 음성 특징 파라미터에 대해서도 HMM 모델을 만들어 기 생성된 각각의 HMM 모델들과 비교하여 가장 유사한 모델을 찾도록 하는 방식이다(Rabiner, L. R., Juamg, B. H., "An Introduction to Hidden Markov Models", IEEE ASSP Magazine, Jan., 1986 등 참조). 음성 신호 특징 파라미터는 일반적으로 MFCC(Mel-Frequency Cepstral Coefficients) 파라미터가 많이 사용된다.
이하 발화자의 거리 추정을 이용한 음성인식장치(100)에 대하여 설명하고자 한다. 다만, 전술한 발화자의 거리 추정을 이용한 음성인식방법에서 설명한 내용에 대해서는 간략하게 설명한다.
도 5는 발화자의 거리 추정을 이용한 음성인식장치(100)에 대한 구성을 예시한 블록도이다. 본 발명에 따른 발화자의 거리 추정을 이용한 음성인식장치(100)는 발화자의 얼굴 영역을 포함하는 소스 영상을 입력받는 영상 입력부(110), 얼굴 영역을 이용하여 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 거리 추정부(120), 발화자의 음성을 입력받는 음성 입력부(130) 및 발화자 거리와 기준거리의 차(差)를 기준으로 발화자의 음성에 대한 레벨을 조절하고, 조절된 음성을 이용하여 음성을 인식하는 음성 인식부(140)를 포함한다.
본 발명에서는 발화자의 거리 추정을 이용한 음성인식장치(100)에 대한 구성으로 영상 입력부(110), 거리 추정부(120), 음성 입력부(130) 및 음성 인식부(140)만을 설명하였으나, 이는 음성 인식과 관련된 주요 구성만을 설명한 것이다. 또한 음성인식장치에서 기능을 수행하는 구성을 기능적으로 설명한 것이다. 실제 음성인식장치에서는 거리 추정부(120) 및 음성 인식부(140)는 연산을 수행하는 프로세서 및 특정 데이터 및 알고리즘을 저장하고 있는 메모리 장치를 통해 구현될 수 있다.
도 5 좌측에는 발화자와 스마트폰과 같은 음성인식장치를 도시하였고, 스마트폰 상단의 카메라를 통해 소스 영상을 입력받고, 스마트폰 하단의 마이크를 통해 음성을 입력받는 경우를 도시하였다. 소스 영상 및 음성과 함께 화살표로 도시하였으나 소스 영상 및 음성이 각각 영상 입력부(110) 및 음성 입력부(130)에 전달된다는 의미는 아니며, 스마트폰의 카메라가 영상 입력부(110)에 해당하고, 마이크가 음성 입력부(130)에 해당한다는 의미이다. 소스 영상 및 음성은 각각 영상 입력부(110) 및 음성 입력부(130)에서 거리 추정부(120) 및 음성 인식부(140)로 전달된다.
영상 입력부(110)는 발화자의 얼굴 영역을 촬영하여 소스 영상을 생성하는 구성이다. 영상 입력부(110)는 스마트폰과 같은 이동 단말에 장착된 모노 카메라를 포함할 수 있다. 음성 입력부(130)는 발화자의 음성을 입력받는 장치이다. 음성 입력부(130)는 일반적으로 마이크 장치를 포함한다.
거리 추정부(120)는 소스 영상에 대한 모폴로지컬 그레디언트 이미지 및 소스 영상에 대한 YCbCr 컬러 이미지를 결합하여 소스 영상을 전처리하는 전처리부(121), 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 얼굴 영역 검출부(122) 및 얼굴 영역을 이용하여 발화자 거리를 연산하는 거리 연산부(123)를 포함한다.
전처리부(121)는 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지를 생성하고, 소스 영상을 YCbCr 컬러로 변환하고 노이즈를 제거하여 소스 영상에서 배경을 제거한 타겟 이미지를 생성하고, 모폴로지컬 그레디언트 이미지와 타겟 이미지를 결합한다.
거리 연산부(123)는 전술한 수학식 3을 이용하여 발화자 거리(Person to Camera Distance)를 연산한다.
음성 인식부(140)는 발화자 거리와 기준거리의 차에 대한 음성인식장치와 발화자 사이의 최대 거리의 비율을 이용하여 음성에 대한 레벨을 조절한 후 음성 인식을 수행한다. 따라서 음성 인식부(140)는 거리 추정부(120)에서 연산한 발화자 거리를 전달받아야 한다.
음성 인식부(140)는 음성 입력부(130)를 통해 입력된 음성의 레벨을 조절하는 음성 레벨 조절부(141), 레벨이 조절된 음성에서 음성 특징 파라미터를 추출하는 특징값 추출부(142), 입력된 음성에 대한 HMM을 생성하는 HMM 생성부(143) 및 사전에 학습에 의해 음성 특징 파라미터에 대한 HMM 저장하고 있는 HMM 모델 저장부(144)를 포함한다.
도 5에서는 거리 연산부(123)에서 추정된 발화자 거리가 음성 레벨 조절부(141)로 전달된다. 음성 레벨 조절부(141)는 전술한 수학식 4를 이용하여 음성의 레벨을 조절한다. 이후 특징값 추출부(142)가 레벨이 조절된 음성을 이용하여 특징값(MFCC)을 추출하고, 추출된 특징 값을 이용하여 HMM 생성부(143)에서 HMM 모델을 생성한다.
음성 인식부(140)는 사전에 음성의 학습 과정에서 마르코브 모델의 파라미터를 구하여 인식 후보 모델을 만들어 HMM 모델 저장부(144)에 저장한다. 이후 HMM 생성부(143)에서 생성된 모델과 HMM 모델 저장부(144)에 저장된 인식 후보 모델과 비교하여 유사도가 가장 높은 인식 후보 모델을 인식된 어휘로 결정한다.
도 6은 발화자의 거리 추정을 이용한 음성인식에 대한 성능을 실험한 결과 테이블이다.
본 발명에 대한 실험에서는 스마트폰과 같은 모바일 환경을 가정하였다. 거리 추정에 사용되는 face width는 20.5cm, preview width는 320 픽셀, FOV는 67˚를 사용하였고, HMM 모델 생성에서는 39차의 MFCC 특징 값을 사용하였고, HTK(HMM Tool Kit)를 이용하였다.
거리 추정 실험에서는 발화자 거리를 10cm ~ 150cm까지 10cm 단위로 증가시켰고, 각 거리 마다 100 장의 DB를 확보하여 성능을 평가하였다. 평가항목은 평균 검출 거리, 거리 검출 오차율, 얼굴 영역 검출 성공률, 평균 검출 시간을 포함한다. 평균 검출 거리는 카메라를 통해 검출된 발화자의 거리를 의미한다.
도 6의 결과를 살펴보면, 너무 가까운 거리에 있는 경우를 제외하고는 거리 검출 오차율이 낮은 편이고, 최종적인 검출 성공률도 90% 이상임을 확인할 수 있다. 전체적인 거리 추정 오차율은 평균하여 5.156%를 보였고, 검출 성공률은 평균하여 96%였다.
도 7은 본 발명을 사용하지 않은 음성 인식 방법의 성능과 본 발명을 사용한 음성 인식 방법의 성능의 결과를 비교한 테이블이다. 대조군이 본 발명을 사용하지 않은 음성 인식 방법이다.
성능 평가를 위하여 44.1 kHz sample rate에 16 bit resoulution을 갖고, mono channel로 된 숫자 음성을 10cm ~ 60cm까지 5cm 간격으로 입력받아 녹음하였다. 이 실험에서는 최대 거리를 60cm로 가정하였다. 본 발명을 적용하지 않은 음성 인식 성능 결과를 기반으로 15cm를 기준 거리로 삼았다.
도 7에 도시된 바와 같이, 본 발명은 사용한 음성 인식 성능은 본 발명을 사용하지 않은 음성 인식 방법에 비하여 평균적으로 13% 정도 향상되었다.
결과적으로 본 발명은 소음이 심한 환경에서도 발화자의 거리를 비교적 정확하게 추정하고, 추정된 거리를 이용하여 음성 인식의 정확도를 높인다는 것을 알 수 있다.
본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.
100 : 발화자의 거리 추정을 이용한 음성인식장치
110 : 영상 입력부 120 : 거리 추정부
121 : 전처리부 122 : 얼굴 영역 검출부
123 : 거리 연산부 130 : 음성 입력부
140 : 음성 인식부 141 : 음성 레벨 조절부
142 : 특징값 추출부 143 : HMM 생성부
144 : HMM 모델 저장부

Claims (14)

  1. 음성인식방법에 있어서,
    음성인식장치가 카메라로 촬영한 발화자의 얼굴 영상을 이용하여 상기 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 단계;
    상기 음성인식장치가 상기 발화자 거리와 기준거리의 차(差)를 기준으로 상기 발화자의 음성에 대한 레벨을 조절하는 단계; 및
    상기 음성인식장치가 상기 조절된 음성을 이용하여 음성인식을 수행하는 단계를 포함하되,
    상기 거리를 추정하는 단계에서 상기 발화자 거리(Person to Camera Distance)는 상기 얼굴 영상에서 얼굴 영역을 검출하여 아래의 식으로 연산되는 발화자의 거리 추정을 이용한 음성인식방법.
    Figure 112014037650303-pat00018

    (여기서, face width는 발화자의 실제 얼굴 너비, preview width는 카메라로 입력되는 소스 영상의 너비 픽셀 값, pixel distance of face width는 얼굴 영역의 너비 픽셀 값, FOV는 카메라의 시야각임)
  2. 제1항에 있어서,
    상기 추정하는 단계는
    상기 카메라가 얼굴 영역을 포함하는 소스 영상을 획득하는 단계;
    상기 음성인식장치의 프로세서가 상기 소스 영상을 전처리하는 단계;
    상기 음성인식장치의 프로세서가 상기 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 단계; 및
    상기 음성인식장치의 프로세서가 상기 얼굴 영역을 이용하여 상기 발화자 거리를 연산하는 단계를 포함하는 발화자의 거리 추정을 이용한 음성인식방법.
  3. 제2항에 있어서,
    상기 전처리하는 단계는
    상기 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지를 생성하는 단계;
    상기 소스 영상을 YCbCr 컬러로 변환하고 노이즈를 제거하여 상기 소스 영상에서 배경을 제거한 타겟 이미지를 생성하는 단계; 및
    상기 모폴로지컬 그레디언트 이미지와 상기 타겟 이미지를 결합하는 단계를 포함하는 발화자의 거리 추정을 이용한 음성인식방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 조절하는 단계는
    상기 음성인식장치가 마이크를 사용하여 상기 발화자의 음성을 입력받는 단계; 및
    상기 음성인식장치가 상기 발화자 거리와 기준거리의 차에 대한 상기 음성인식장치와 상기 발화자 사이의 최대 거리의 비율을 이용하여 상기 음성의 레벨을 변경하는 단계를 포함하는 발화자의 거리 추정을 이용한 음성인식방법.
  6. 제5항에 있어서,
    상기 변경하는 단계는 상기 입력되는 음성에 아래의 수식을 이용하여 연산되는 가중치(N amp)를 곱하여 상기 음성의 레벨을 변경하는 발화자의 거리 추정을 이용한 음성인식방법.
    Figure 112013007533376-pat00008

    (여기서, d'는 발화자 거리, d ref는 기준거리, d sec는 최대거리임)
  7. 제1항에 있어서,
    상기 수행하는 단계는
    상기 조절된 음성에 대한 MFCC 파라미터를 추출하고, HMM 인식 알고리즘을 사용하는 발화자의 거리 추정을 이용한 음성인식방법.
  8. 음성인식장치에 있어서,
    발화자의 얼굴 영역을 포함하는 소스 영상을 입력받는 영상 입력부;
    상기 얼굴 영역을 이용하여 상기 음성인식장치와 발화자 사이의 발화자 거리를 추정하는 거리 추정부;
    상기 발화자의 음성을 입력받는 음성 입력부; 및
    상기 발화자 거리와 기준거리의 차(差)를 기준으로 상기 발화자의 음성에 대한 레벨을 조절하고, 상기 조절된 음성을 이용하여 음성을 인식하는 음성 인식부를 포함하되,
    상기 거리 추정부는 아래의 식으로 상기 발화자 거리(Person to Camera Distance)를 연산하는 발화자의 거리 추정을 이용한 음성인식장치.
    Figure 112014037650303-pat00019

    (여기서, face width는 발화자의 실제 얼굴 너비, preview width는 카메라로 입력되는 소스 영상의 너비 픽셀 값, pixel distance of face width는 얼굴 영역의 너비 픽셀 값, FOV는 카메라의 시야각임)
  9. 제8항에 있어서,
    상기 거리 추정부는
    상기 소스 영상에 대한 모폴로지컬 그레디언트 이미지 및 상기 소스 영상에 대한 YCbCr 컬러 이미지를 결합하여 상기 소스 영상을 전처리하는 전처리부;
    상기 전처리한 소스 영상에서 아다부스트 알고리즘을 이용하여 얼굴 영역을 검출하는 얼굴 영역 검출부; 및
    상기 얼굴 영역을 이용하여 상기 발화자 거리를 연산하는 거리 연산부를 포함하는 발화자의 거리 추정을 이용한 음성인식장치.
  10. 제9항에 있어서,
    상기 전처리부는
    상기 소스 영상에서 R, G 및 B 각각의 채널에 모폴로지컬 그레디언트의 최대값 픽셀만을 결합하여 모폴로지컬 그레디언트 이미지를 생성하고, 상기 소스 영상을 YCβCρ 컬러로 변환하고 노이즈를 제거하여 상기 소스 영상에서 배경을 제거한 타겟 이미지를 생성하고, 상기 모폴로지컬 그레디언트 이미지와 상기 타겟 이미지를 결합하는 발화자의 거리 추정을 이용한 음성인식장치.
  11. 삭제
  12. 제8항에 있어서,
    상기 음성 인식부는
    상기 발화자 거리와 기준거리의 차에 대한 상기 음성인식장치와 상기 발화자 사이의 최대 거리의 비율을 이용하여 상기 음성에 대한 레벨을 조절하는 발화자의 거리 추정을 이용한 음성인식장치.
  13. 제12항에 있어서,
    상기 음성 인식부는
    상기 음성 입력부를 통해 입력되는 상기 음성에 아래의 수식을 이용하여 연산되는 가중치(N amp)를 곱하여 상기 음성에 대한 레벨을 조절하는 발화자의 거리 추정을 이용한 음성인식장치.
    Figure 112013007533376-pat00010

    (여기서, d'는 발화자 거리, d ref는 기준거리, d sec는 최대거리임)
  14. 제8항에 있어서,
    상기 음성 인식부는 상기 조절된 음성에 대한 MFCC 파라미터를 추출하고, HMM 인식 알고리즘을 수행하는 발화자의 거리 추정을 이용한 음성인식장치.
KR1020130008751A 2013-01-25 2013-01-25 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치 KR101430342B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130008751A KR101430342B1 (ko) 2013-01-25 2013-01-25 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130008751A KR101430342B1 (ko) 2013-01-25 2013-01-25 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치

Publications (2)

Publication Number Publication Date
KR20140095853A KR20140095853A (ko) 2014-08-04
KR101430342B1 true KR101430342B1 (ko) 2014-08-13

Family

ID=51744082

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130008751A KR101430342B1 (ko) 2013-01-25 2013-01-25 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치

Country Status (1)

Country Link
KR (1) KR101430342B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102269848B1 (ko) * 2014-10-27 2021-06-28 엘지전자 주식회사 영상표시기기 및 그의 원거리 음성 인식율 향상 방법
KR102215543B1 (ko) * 2019-02-26 2021-02-15 주식회사 큐버 Uhd 방송을 위한 어레이 스피커와 어레이 마이크 기반의 ai 음성비서 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070024158A (ko) * 2005-08-26 2007-03-02 현대자동차주식회사 차량용 음성인식 시스템 및 그 방법
JP2009229899A (ja) * 2008-03-24 2009-10-08 Toshiba Corp 音声認識装置および音声認識方法
KR20110056094A (ko) * 2009-11-20 2011-05-26 삼성전자주식회사 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체
KR20120059837A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 음성처리장치 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070024158A (ko) * 2005-08-26 2007-03-02 현대자동차주식회사 차량용 음성인식 시스템 및 그 방법
JP2009229899A (ja) * 2008-03-24 2009-10-08 Toshiba Corp 音声認識装置および音声認識方法
KR20110056094A (ko) * 2009-11-20 2011-05-26 삼성전자주식회사 디지털 촬영 장치, 그 제어 방법, 및 컴퓨터 판독가능 매체
KR20120059837A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 음성처리장치 및 그 방법

Also Published As

Publication number Publication date
KR20140095853A (ko) 2014-08-04

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US9899025B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
JP4795919B2 (ja) 音声区間検出方法
CN105161093B (zh) 一种判断说话人数目的方法及系统
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
US9240183B2 (en) Reference signal suppression in speech recognition
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2011191423A (ja) 発話認識装置、発話認識方法
US10748544B2 (en) Voice processing device, voice processing method, and program
Abdelaziz NTCD-TIMIT: A new database and baseline for noise-robust audio-visual speech recognition.
Potamianos et al. Joint audio-visual speech processing for recognition and enhancement
Khan et al. Speaker separation using visually-derived binary masks
Paleček et al. Audio-visual speech recognition in noisy audio environments
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
Sui et al. A 3D audio-visual corpus for speech recognition
JP6916130B2 (ja) 話者推定方法および話者推定装置
Yau et al. Visual speech recognition using motion features and hidden markov models
Ibrahim et al. A lip geometry approach for feature-fusion based audio-visual speech recognition
Upadhyaya et al. Block energy based visual features using histogram of oriented gradient for bimodal hindi speech recognition
JP2015022357A (ja) 情報処理システム、情報処理方法および情報処理装置
Koiwa et al. Coarse speech recognition by audio-visual integration based on missing feature theory
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170703

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180808

Year of fee payment: 5