KR101353936B1 - 음성 인식 장치 및 음성 인식 방법 - Google Patents

음성 인식 장치 및 음성 인식 방법 Download PDF

Info

Publication number
KR101353936B1
KR101353936B1 KR1020120030718A KR20120030718A KR101353936B1 KR 101353936 B1 KR101353936 B1 KR 101353936B1 KR 1020120030718 A KR1020120030718 A KR 1020120030718A KR 20120030718 A KR20120030718 A KR 20120030718A KR 101353936 B1 KR101353936 B1 KR 101353936B1
Authority
KR
South Korea
Prior art keywords
user
images
speech recognition
sound source
lip
Prior art date
Application number
KR1020120030718A
Other languages
English (en)
Other versions
KR20130108894A (ko
Inventor
이민호
박형민
장영민
김민욱
정성문
김범휘
Original Assignee
서강대학교산학협력단
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단, 경북대학교 산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020120030718A priority Critical patent/KR101353936B1/ko
Priority to US14/363,170 priority patent/US9355641B2/en
Priority to PCT/KR2012/010480 priority patent/WO2013085278A1/ko
Publication of KR20130108894A publication Critical patent/KR20130108894A/ko
Application granted granted Critical
Publication of KR101353936B1 publication Critical patent/KR101353936B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

음성 인식 장치가 개시된다. 본 음성 인식 장치는, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부, 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부, 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부, 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부. 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부, 및, 음성 인식의 결과를 출력하는 출력부를 포함한다.

Description

음성 인식 장치 및 음성 인식 방법{SPEECH RECOGNITION APPARATUS AND METHOD FOR SPEECH RECOGNITION}
본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 화자의 말하는 시점을 정확히 파악하여 음성 인식을 용이하게 수행할 수 있는 음성 인식 장치 및 음성 인식 방법에 관한 것이다.
최근에 기술이 발달함에 따라서 많은 기기에 음성 인식 기술이 적용되어 있다. 음성 인식은 인간의 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자(코드) 정보로 변환하는 기술이다.
그러나 기준의 실세계 환경에서는 잡음이 많이 존재하기 때문에 음성 신호만 이용해서는 어느 시점에 음성 인식을 수행해야 할지 결정하기가 어렵고, 화자가 아닌 잡음에 의해 음성 인식이 실행되는 경우가 빈번하게 발생하는 문제점이 있었다.
이러한 점에서, 높은 신뢰도로 화자의 음성을 인식할 수 있는 방법이 요청되었다.
따라서, 본 발명의 목적은 화자의 말하는 시점을 정확히 파악하여 음성 인식을 용이하게 수행할 수 있는 음성 인식 장치 및 음성 인식 방법을 제공하는 데 있다.
이상과 같은 목적을 달성하기 위한 본 발명에 의한 음성 인식 장치는, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부, 및, 상기 음성 인식의 결과를 출력하는 출력부를 포함한다.
이 경우, 상기 검출부는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부, 및, 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부를 포함할 수 있다.
이 경우, 상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것이 바람직하다.
이 경우, 상기 입술 검출부는, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다.
이 경우, 상기 돌출맵 생성부는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
한편, 상기 움직임 정보는, 사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것이 바람직하다.
한편, 상기 음성 인식부는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것이 바람직하다.
한편, 상기 입력부는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음성 인식 장치는, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부를 더 포함하고, 상기 음성 인식부는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것이 바람직하다.
한편, 본 실시 예에 따른, 음성 인식 방법은, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계, 및, 상기 음성 인식의 결과를 출력하는 단계를 포함한다.
이 경우, 상기 검출하는 단계는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계, 및, 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계를 포함한다.
이 경우, 상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출할 수 있다.
한편, 본 음성 인식 방법은, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계를 더 포함할 수 있다.
이 경우, 상기 동적 돌출맵을 생성하는 단계는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
한편, 상기 움직임 정보는, 사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것이 바람직하다.
한편, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것이 바람직하다.
한편, 상기 입력받는 단계는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음성 인식 방법은, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계를 더 포함하고, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블록도,
도 2는 도 1의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면,
도 3은 도 1의 입술 검출부의 구체적인 동작을 설명하기 위한 도면,
도 4는 도 1의 돌출맵 생성부의 동작을 설명하기 위한 도면,
도 5는 도 1의 위치 판단부의 동작을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 따른 음성 인식 장치의 동작을 설명하기 위한 도면, 그리고,
도 7은 본 발명의 일 실시 예에 따른 음성 인식 방법의 동작을 설명하기 위한 흐름도이다.
이하 첨부된 도면들을 참조하여 본 발명에 대하여 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블록도이다.
도 1을 참조하면, 본 실시 예에 따른 음성 인식 장치(100)는 입력부(110), 출력부(120), 저장부(130), 위치 판단부(140), 검출부(150), 돌출맵 생성부(160), 정보 취득부(170), 음성 인식부(180) 및 제어부(190)로 구성될 수 있다. 본 실시 예에서는 단순히 음성 인식만을 파악하는 장치로 이용되는 것으로 설명하지만, 본 실시 예에 따른 음성 인식 장치는 로봇 시스템, 보안 시스템 등의 일 구성으로 구현될 수도 있다.
입력부(110)는 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 외부 마이크를 통하여 음원을 입력받을 수 있다.
한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 음성 인식 장치(100)에 구비되는 형태로도 구현될 수 있다.
또한, 이상에서는 입력부(110)가 하나의 음원만을 입력받는 것으로 설명하였지만, 구현시에 입력부(110)는 서로 이격된 위치에서 청취된 복수의 음원을 입력받을 수 있으며, 이 경우, 입력된 복수의 음원은 후술한 위치 판단부(140)에 제공될 수 있다.
출력부(120)는 음성 인식의 결과를 출력할 수 있다. 구체적으로, 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 이 경우, 출력부(120)는 후술할 음성 인식부(180)에서 음식 인식의 결과를 표시할 수 있다. 또한, 출력부(120)는 음성 인식의 결과를 외부 장치에 전송할 수도 있다.
저장부(130)는 입력된 복수의 이미지 및 입력된 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 검출부(150)에서 검출된 영역 정보 및 추출 이미지를 임시 저장할 수 있으며, 후술할 돌출맵 생성부(160)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 정보 취득부(170)에 취득된 정보 및 후술할 음성 인식부(180)에서 음성 인식의 결과를 임시 저장할 수도 있다.
그리고 저장부(130)는 음성 인식 장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 음성 인식 장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.
위치 판단부(140)는 복수의 음원(예를 들어, 스테레오 음원)을 분석하여 음원의 위치를 판단한다. 구체적으로, 위치 판단부(140)는 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 이상에서는 두 개의 채널만을 이용하는 것에 대해서 도시하고 설명하였지만, 구현시에는 4개의 채널을 갖는 음원을 이용하는 것도 가능하다. 이에 대해서는 도 5를 참조하여 후술한다.
검출부(150)는 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다. 구체적으로, 검출부(150)는 얼굴 검출부(200) 및 입술 검출부(300)로 구성될 수 있다.
얼굴 검출부(200)는 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부(200)는 Adaboost 알고리즘을 이용하여 복수의 이미지 각각에서의 사용자 얼굴 영역을 검출할 수 있다. 얼굴 검출부(200)의 구체적인 동작에 대해서는 도 2를 참조하여 후술한다.
입술 검출부(300)는 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출한다. 구체적으로, 입술 검출부(300)는 기저장된 탬플릿을 이용하여 얼굴 검출부(200)에서 검출된 얼굴 영역 중 입술 영역을 검출할 수 있다. 그리고 입술 검출부(300)는 복수의 이미지 각각에서 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다. 입술 검출부(300)의 구체적인 동작에 대해서는 도 3을 참조하여 후술한다.
돌출맵 생성부(160)는 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다. 구체적으로, 돌출맵 생성부(160)는 입술 검출부(300)에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다. 돌출맵 생성부(160)의 구체적인 동작에 대해서는 도 4를 참조하여 후술한다.
정보 취득부(170)는 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다. 구체적으로, 정보 취득부(170)는 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다. 이와 관련하여서는 도 6을 참조하여 후술한다.
음성 인식부(180)는 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다. 구체적으로, 음성 인식부(180)는 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음성 인식을 수행할 수 있다. 또한, 음성 인식부(180)는 취득된 움직임 정보 및 위치 판단부(140)에서 판단된 음원 발생 위치를 기초로 음원에 대한 음성 인식을 수행할 수 있다. 음원을 이용하여 음성 인식을 수행하는 구체적인 기술은 종래 널리 알려진 방법을 이용할 수 있다.
제어부(190)는 음성 인식 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 음원이 입력부(110)를 통하여 입력되면, 제어부(190)는 입력된 복수의 이미지 각각의 입술 영역이 검출되도록 검출부(150)를 제어하고, 검출된 입술 영역에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(160)를 제어할 수 있다. 그리고 제어부(190)는 복수의 음원이 입력된 경우, 입력된 음원의 위치가 판단되도록 위치 판단부(140)를 제어할 수 있다. 그리고 제어부(190)는 생성된 동적 돌출맵에 기초하여 움직임 정보가 취득되도록 정보 취득부(170)를 제어하고, 취득된 움직임 정보 및 음원의 발생 위치에 기초하여 입력된 음원에 대한 음성 인식이 수행되도록 음성 인식부(180)를 제어할 수 있다.
따라서, 본 실시 예에 따른 음성 인식 장치(100)는 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음성 인식을 수행할 수 있다.
도 2는 도 1의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면이다.
도 2를 참고하면, 얼굴 검출부(200)는 생물학 기반의 선택적 주의집중 모듈을 이용하여 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부(200)는 이미지 정보 추출부(210), CSD 처리부(220) 및 ICA 처리부(230)로 구성될 수 있다.
이미지 정보 추출부(210)는 입력된 이미지에 대한 밝기(I), 에지(E), 및 보색(RG, BY)에 대한 이미지 정보를 추출한다. 구체적으로, 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출할 수 있다.
CSD 처리부(220)는 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵(
Figure 112012024127968-pat00001
), 에지 특징맵(
Figure 112012024127968-pat00002
), 컬러 특징맵(
Figure 112012024127968-pat00003
)을 생성할 수 있다.
그리고 ICA 처리부(230)는 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 모노 돌출맵(SM: Salient Map)을 생성한다.
그리고 ICA 처리부(230)는 생성된 모노 돌출맵에서 단위 면적당 에너지값이 높은 영역을 우선적으로 4개 영역을 선별하여 얼굴 후보 영역을 검출할 수 있다.
그리고 ICA 처리부(230)는 검출된 얼굴 후보 영역에 대하여 Adaboost 알고리즘을 이용하여 얼굴 영역을 검출할 수 있다. Adaboost 알고리즘은 '간단한', '약한' 분류기들의 선형 조합으로부터 '강한'분류기를 설계하기 위한 알고리즘으로, Adaboost 알고리즘을 이용하여 빠른 시간 내에 얼굴 영역을 검출할 수 있다.
도 3은 도 1의 입술 검출부의 구체적인 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 입술 검출부(300)는 얼굴 검출부(200)에서 검출된 얼굴 영역(310)에 대해서 입술 영역이라고 추정될 수 있는 영역(구체적으로, 붉은 색을 갖는 영역)을 한정하고, 한정된 영역과 기저장된 탬플릿(320)을 비교하여 correlation 값이 가장 높은 영역을 입술 영역으로 검출할 수 있다.
그리고 입술 검출부(300)는 검출된 입술 영역을 추출 및 확대하여, 이후의 작업에 사용될 추출 이미지를 생성할 수 있다.
도 4는 도 1의 돌출맵 생성부의 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 돌출맵 생성부(160)는 생물학 기반의 선택적 주의 집중 모델을 이용하여 동적 돌출맵을 생성할 수 있다.
구체적으로, 돌출맵 생성부(160)는 단위 시간에 입력된 복수의 이미지에 대한 추출 이미지(즉, 입술 영역의 이미지, 410) 각각에 대해서 모노 돌출맵을 생성한다. 모노 돌출맵을 생성하는 과정은 도 2에서의 설명하였는바, 중복 설명은 생략한다.
그리고 돌출맵 생성부(160)는 생성된 복수의 모노 돌출맵을 이용하여 복수의 추출 이미지 각각의 돌출 포인트를 추출할 수 있다.
그리고 돌출맵 생성부(160)는 생성된 복수의 모노 돌출맵 및 복수의 모노 돌출맵 각각의 돌출 포인트를 이용하여 동적 돌출맵을 생성할 수 있다.
도 5는 도 1의 위치 판단부의 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 입력부(110)에 복수의 음원(예를 들어, 스테레오 음원 또는 4채널 음원)이 입력되면, 위치 판단부(140)는 각각의 음원의 스펙트럼을 분석하고, 분석된 음원 각각의 스펙트럼을 통하여 음원이 발생한 방향 또는 위치를 탐지할 수 있다. 구체적으로, DUET 알고리즘을 이용하여 경계치 이상의 음원 세기의 발생 위치를 파악할 수 있다. 도 5에서는 4채널 마이크를 통하여 각도 방향으로 상/하 그리고 좌/우의 음원을 탐지한 결과가 도시하였다.
도 6은 본 발명의 일 실시 예에 따른 음성 인식 장치의 동작을 설명하기 위한 도면이다.
도 6을 참조하면, 먼저, 입력된 영상(610)에 대해서 얼굴 영역을 검출하고, 얼굴 영역이 검출된 이미지(620)에 대해서 입술 영역을 검출할 수 있다. 그리고 검출된 입술 영역에 대응되는 추출 이미지(640)를 생성할 수 있다.
그리고 생성된 추출 이미지(640)의 형상에 기초하여, 사용자가 말하는 시작 시점, 청킹 시점 및 끝나는 시점을 검출하고, 검출된 시점을 움직임 정보로 취득할 수 있다.
이때, 음성 인식 장치(100)는 위치 판단부(140)에서 음원의 발생 위치(또는 음원의 크기)를 고려하여, 움직임 정보를 수정할 수 있다. 예를 들어, 사용자가 말을 하지 않고 입 모양만이 변화된 경우에는 음성 인식을 수행할 필요가 없으나, 이러한 사용자의 입 모양의 변화에 대해서는 움직임 정보로 취득하지 않을 수 있다.
따라서, 본 실시 예에 따른 음성 인식 장치(100)는 화자의 입술이 움직이고,경계치 이상의 음원 에너지값이 발생하였을 때(즉, 동일한 위치에서 영상의 움직임과 음원이 발생하였을 때), 사용자가 말을 하고 있는 시점으로 판단할 수 있다.
도 7은 본 발명의 일 실시 예에 따른 음성 인식 방법의 동작을 설명하기 위한 흐름도이다.
도 7을 참조하면, 먼저, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다(S710). 구체적으로, 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 외부 마이크를 통하여 음원을 입력받을 수 있다. 한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 직접 복수의 이미지를 생성하거나, 음원을 생성할 수도 있다.
그리고 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다(S720). 구체적으로, 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하고, 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출할 수 있다. 이때, 검출된 입술 영역에 대한 추출 이미지가 생성될 수 있다.
그리고 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다(S730). 구체적으로, 앞선 단계에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
그리고 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다(S740).구체적으로, 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다.
그리고 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다(S750). 구체적으로, 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음성 인식을 수행할 수 있다.
그리고 음성 인식의 결과를 출력한다(S760).
따라서, 본 실시 예에 따른 음성 인식 방법은, 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음성 인식을 수행할 수 있다. 도 7과 같은 음성 인식 방법은, 도 1의 구성을 가지는 음성 인식 장치 상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 음성 인식 장치상에도 실행될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 다양한 변형 실시할 수 있는 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100: 음성 인식 장치 110: 입력부
120: 출력부 130: 저장부
140: 위치 판단부 150: 검출부
160: 돌출맵 생성부 170: 정보 취득부
180: 음성 인식부 190: 제어부

Claims (16)

  1. 음성 인식 장치에 있어서,
    사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부;
    상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부;
    상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부;
    상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부;
    상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 인식의 결과를 출력하는 출력부;를 포함하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 검출부는,
    상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부; 및
    상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부;를 포함하는 것을 특징으로 하는 음성 인식 장치.
  3. 제2항에 있어서,
    상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,
    상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 음성 인식 장치.
  4. 제2항에 있어서,
    상기 입술 검출부는,
    상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 것을 특징으로 하는 음성 인식 장치.
  5. 제4항에 있어서,
    상기 돌출맵 생성부는,
    상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 움직임 정보는,
    사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 음성 인식 장치.
  7. 제1항에 있어서,
    상기 음성 인식부는,
    상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 음성 인식 장치.
  8. 제1항에 있어서,
    상기 입력부는,
    상호 이격된 위치에서 청취된 복수의 음원을 입력받고,
    상기 음성 인식 장치는,
    상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부;를 더 포함하고,
    상기 음성 인식부는,
    상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 장치.
  9. 음성 인식 방법에 있어서,
    사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계;
    상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계;
    상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계;
    상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계;
    상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식의 결과를 출력하는 단계;를 포함하는 음성 인식 방법.
  10. 제9항에 있어서,
    상기 검출하는 단계는,
    상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계; 및
    상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계;를 포함하는 것을 특징으로 하는 음성 인식 방법.
  11. 제10항에 있어서,
    상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,
    상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 음성 인식 방법.
  12. 제10항에 있어서,
    상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 동적 돌출맵을 생성하는 단계는,
    상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 음성 인식 방법.
  14. 제9항에 있어서,
    상기 움직임 정보는,
    사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 음성 인식 방법.
  15. 제9항에 있어서,
    상기 음성 인식을 수행하는 단계는,
    상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 음성 인식 방법.
  16. 제9항에 있어서,
    상기 입력받는 단계는,
    상호 이격된 위치에서 청취된 복수의 음원을 입력받고,
    상기 음성 인식 방법은,
    상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계;를 더 포함하고,
    상기 음성 인식을 수행하는 단계는,
    상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법.
KR1020120030718A 2011-12-06 2012-03-26 음성 인식 장치 및 음성 인식 방법 KR101353936B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020120030718A KR101353936B1 (ko) 2012-03-26 2012-03-26 음성 인식 장치 및 음성 인식 방법
US14/363,170 US9355641B2 (en) 2011-12-06 2012-12-05 Monitoring device using selective attention model and method for monitoring same
PCT/KR2012/010480 WO2013085278A1 (ko) 2011-12-06 2012-12-05 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120030718A KR101353936B1 (ko) 2012-03-26 2012-03-26 음성 인식 장치 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20130108894A KR20130108894A (ko) 2013-10-07
KR101353936B1 true KR101353936B1 (ko) 2014-01-27

Family

ID=49631437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120030718A KR101353936B1 (ko) 2011-12-06 2012-03-26 음성 인식 장치 및 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101353936B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102351497B1 (ko) * 2015-03-19 2022-01-14 삼성전자주식회사 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
KR102208536B1 (ko) * 2019-05-07 2021-01-27 서강대학교산학협력단 음성인식 장치 및 음성인식 장치의 동작방법
CN110335607B (zh) * 2019-08-19 2021-07-27 北京安云世纪科技有限公司 一种语音指令的执行方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110109691A (ko) * 2010-03-31 2011-10-06 경북대학교 산학협력단 시선 경로 제공장치
KR20110129058A (ko) * 2010-05-25 2011-12-01 박태업 강관 가공장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110109691A (ko) * 2010-03-31 2011-10-06 경북대학교 산학협력단 시선 경로 제공장치
KR20110129058A (ko) * 2010-05-25 2011-12-01 박태업 강관 가공장치

Also Published As

Publication number Publication date
KR20130108894A (ko) 2013-10-07

Similar Documents

Publication Publication Date Title
KR102196686B1 (ko) 신원 인증 방법 및 장치
US9595259B2 (en) Sound source-separating device and sound source-separating method
US9355641B2 (en) Monitoring device using selective attention model and method for monitoring same
JP4642128B2 (ja) 画像処理方法、画像処理装置及びシステム
JP6705656B2 (ja) 視覚補助装置及びオブジェクトの分類の検出方法
US20150193649A1 (en) Enhanced face detection using depth information
EP2925005A1 (en) Display apparatus and user interaction method thereof
KR101653812B1 (ko) 감성 효과 생성을 위한 인물 영상 처리 장치 및 그 방법
JP5072655B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
US8965068B2 (en) Apparatus and method for discriminating disguised face
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
US10078785B2 (en) Video-based sound source separation
KR20160119932A (ko) 품질 측정 기반의 얼굴 인식 방법 및 장치
KR20070061207A (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
KR101353936B1 (ko) 음성 인식 장치 및 음성 인식 방법
CN110827823A (zh) 语音辅助识别方法、装置、存储介质及电子设备
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
KR20200076170A (ko) 스마트 안경을 이용한 시각 장애인 보조 시스템 및 방법
KR101070442B1 (ko) 다중 레벨 얼굴 인식을 이용한 얼굴 인증 시스템 및 인증 방법
KR100680278B1 (ko) 입술모양 추출방법 및 그 장치
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
JP2018087838A (ja) 音声認識装置
KR20140093459A (ko) 자동 통역 방법
KR20120132337A (ko) 음성 인식을 이용하는 사용자 인터페이스 제어 장치 및 방법
JP2015177490A (ja) 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161221

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 7