KR20070061207A - 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 - Google Patents

음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 Download PDF

Info

Publication number
KR20070061207A
KR20070061207A KR1020060064262A KR20060064262A KR20070061207A KR 20070061207 A KR20070061207 A KR 20070061207A KR 1020060064262 A KR1020060064262 A KR 1020060064262A KR 20060064262 A KR20060064262 A KR 20060064262A KR 20070061207 A KR20070061207 A KR 20070061207A
Authority
KR
South Korea
Prior art keywords
frame
voice
lip
image
detected
Prior art date
Application number
KR1020060064262A
Other languages
English (en)
Other versions
KR100820141B1 (ko
Inventor
이수종
김상훈
이영직
김응규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/633,270 priority Critical patent/US7860718B2/en
Priority to JP2006329871A priority patent/JP4795919B2/ja
Publication of KR20070061207A publication Critical patent/KR20070061207A/ko
Application granted granted Critical
Publication of KR100820141B1 publication Critical patent/KR100820141B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부를 포함하는 것으로서, 음성구간 검출과정에서 입술움직임 영상정보를 확인하기 때문에 dynamic 잡음이 음성으로 오인식 되는 것을 미리 방지할 수 있다.
음성구간, 음성인식, 입술움직임

Description

음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템{Apparatus and Method for detecting of speech block and system for speech recognition}
도 1은 종래의 음성 인식 시스템에서의 음성 인식 방법을 나타낸 흐름도.
도 2는 본 발명에 따른 음성 구간 검출을 위한 음성 인식 시스템의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명에 따른 음성 인식 시스템에서 음성 구간 검출 방법을 나타낸 흐름도.
도 4는 본 발명에 따른 음성 인식 시스템에서 입술 움직임 신호 검출 방법을 나타낸 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
200 : 음향 수신부 210 : 영상 수신부
220 : 입술 움직임 신호 검출부 230 : 음성 구간 검출부
240 : 특징 벡터 추출부 250 : 음성 인식부
260 : 데이터베이스
본 발명은 영상 신호와 음향 신호를 결합하여 음성 구간을 검출하는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템에 관한 것이다.
음성인식(speech recognition)은 사람이 하는 말의 음향적인 신호의 특징을 컴퓨터로 분석하여 문자로 바꿔주는 일련의 과정이다. 음성인식이 수행되는 주요 절차는 전처리(preprocess), 탐색(search), 후처리(post-process)로 크게 나눠볼 수 있다.
먼저 음성 입력 장치를 통하여 음향 신호를 받아들이게 되는데, 전처리 단계에서는 입력되는 음향 신호를 대상으로 음성의 시작점과 끝점 (음성구간, 또는 EPD: End Point Detection)을 검출한 후 음향적 특징을 추출한다.
다음에는 미리 준비된 음향모델과 발음사전을 탐색하여 전처리 단계에서 추출된 특징과 유사한 음소들을 찾아내어 단어나 문장으로 결합하는 탐색과정이 있다. 그리고 탐색결과의 오류를 줄이기 위해 언어모델을 적용하는 후처리 과정을 거친다.
상기에 설명된 음성 인식 과정을 도 1을 참조하여 상세히 설명하기로 한다.
도 1은 종래의 음성 인식 시스템에서의 음성 인식 방법을 나타낸 흐름도이다.
도 1을 참조하면, 음성 인식 시스템은 음향 신호가 수신되면(S100), 상기 수 신된 음향 신호를 프레임화한다(S102).
그런 다음 상기 음성 인식 시스템은 상기 음향 신호에 대하여 프레임별로 정적 잡음을 제거한다(S104). 즉, 상기 음성 인식 장치는 프레임별 저역 통과 필터링을 수행하여 고역 성분을 제거한다.
단계 104의 수행 후, 상기 음성 인식 시스템은 상기 정적 잡음이 제거된 각 프레임별로 절대 에너지가 크고 영교차율이 작은지를 판단한다(S106). 즉, 상기 음성 인식 시스템은 절대 에너지가 작거나 영교차율이 크면, 잡음이라고 판단하고, 절대 에너지가 크고, 영교차율이 작으면, 음성 프레임이라고 판단한다.
단계 106의 판단결과 해당 프레임에 대해 절대 에너지가 크고 영교차율이 작으면, 상기 음성 인식 시스템은 해당 프레임을 음성 프레임이라고 판단한다(S108).
그런 다음 상기 음성 인식 시스템은 음성 프레임이 일정 수 이상 지속되는지를 판단한다(S110).
단계 110의 판단결과 음성 프레임이 일정 수 이상 지속되면, 상기 음성 인식 시스템은 해당 프레임 구간을 음성 구간이라고 판단한다(S112).
그런 다음 상기 음성 인식 시스템은 상기 판단된 음성 구간에서 특징 벡터를 추출하고(S114), 상기 추출된 특징 벡터를 이용하여 음성 인식을 수행한다(S116).
즉, 상기 음성 인식 시스템은 음향 모델과 발음 사전을 탐색하여 상기 추출된 특징 벡터와 유사한 음소들을 찾아내어 단어나 문장으로 결합한다. 그런 다음 상기 음성 인식 시스템은 상기 결합된 단어나 문장의 오류를 줄이기 위해 언어 모델을 적용하여 음성 인식을 수행한다.
만약, 단계 106의 판단결과 해당 프레임에 대해 절대 에너지가 크지 않거나 영교차율이 작지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S118), 단계 104를 수행한다.
만약, 단계 110의 판단결과 음성 프레임이 일정 수 이상 지속되지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S118), 단계 104를 수행한다.
상기와 같은 과정을 통해 음성 인식을 수행할 수 있는 우리의 일상 환경은 주변 소음과 컴퓨터 내부의 채널잡음 및 통신망 잡음 등 다양한 잡음으로 둘러 쌓여있다.
따라서, 음성인식의 전체 과정에서 음성구간 검출은 반드시 선결되어야 하는 과제로서 인식률 성능에 직접적인 영향을 주게 된다.
그러나 상기와 같은 종래의 음성 구간 검출 방법은 기본적으로 입력신호의 음향에너지의 크기와 영교차율 및 연속성을 주요 파라미터로 활용하므로, 음성과 잡음을 구별해 내기는 쉽지 않은 단점이 있다.
또한, 음성구간 검출은 음향에너지의 유무가 음성구간 검출의 출발점이 되는데, 음성과 잡음은 모두 음향 에너지를 갖고 있으므로 음성과 잡음을 구별해 내기는 쉽지 않은 단점이 있다.
또한, 일정한 크기의 음향에너지와 고주파수를 특징으로 하는 stationary잡음 제거기술은 많이 활용되고 있으나, dynamic잡음을 음성과 식별해 내는 기술이 없는 단점이 있다.
또한, dynamic잡음이 제거되지 않고 음성구간으로 분류되어 음성인식 과정에 보내짐으로써 불필요한 자원이 실행될 뿐만이 아니라 음성인식 오류가 발생하는 문제점이 있다.
따라서, 본 발명의 목적은 다양한 잡음이 있는 실제 환경에서 음성인식 오류의 주요 원인으로 제기되고 있는 dynamic 잡음을 효과적으로 제거할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공하는데 있다.
본 발명의 다른 목적은 입술움직임이 없는 상태에서 입력되는 음향에너지를 잡음으로 간주하여 음성구간으로 검출되지 않도록 하여 음성 인식의 오류를 줄일 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영역의 특징을 적용한 후 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부를 포함하는 것을 특징으로 하는 음성 구간 검출 장치가 제공된다.
본 발명의 다른 측면에 따르면, 음향 수신부와 영상 수신부가 구비된 음성 인식 시스템에서 음성 구간을 검출하는 방법에 있어서, 상기 음향 수신부로부터 출력되는 음향 프레임을 대상으로 정적 잡음을 제거하고, 상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하고, 상기 판단결과 상기 음향 프레임이 음성 가능 프레임이면, 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하고, 상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장하고, 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단하고, 상기 판단결과 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 해당 음성 프레임들을 음성 구간으로 검출하는 것을 특징으로 하는 음성 구간 검출 방법이 제공된다.
상기 음성 가능 프레임이 검출되는 시점에, 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 것은 연속으로 수신되는 영상 프레임에서 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출하고, 상기 검출된 움직임 영역별로 그 크기, 폭, 길이, 위치 정보를 파악하고, 상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 생성하는 것을 포함한다.
여기서, 상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호 를 검출하는 것은 상기 파악된 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보를 비교하여 유사도를 구하고, 상기 구해진 유사도가 미리 정해진 일정 값 이상이면, 입술 움직임 영역으로 판단하여 입술 움직임 신호를 생성하는 것을 말한다.
본 발명의 또 다른 측면에 따르면, 사용자에 의해 입력된 음향 신호를 디지털 신호로 변환하여 프레임화하는 음향 수신부, 영상 촬영부를 통해 촬영된 영상 신호를 프레임화하는 영상 수신부, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부, 상기 음성 구간 검출부에서 검출된 음성 구간에 대하여 특징 벡터를 추출하는 특징 벡터 추출부, 상기 특징 벡터 추출부에서 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공된다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.
도 2는 본 발명에 따른 음성 구간 검출을 위한 음성 인식 시스템의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 음성 인식 시스템은 음향 수신부(200), 영상 수신부(210), 입술 움직임 신호 검출부(220), 음성 구간 검출부(230), 특징 벡터 추출부(240), 음성 인식부(250), 데이터베이스(260)를 포함한다.
상기 음향 수신부(200)는 마이크 등을 통해 사용자에 의해 입력된 음향 신호를 디지털 음향 신호로 변환한 후, 프레임화하여 상기 음성 구간 검출부(230)에 전송한다.
상기 영상 수신부(210)는 카메라 등의 영상 촬영장치를 통해 촬영된 영상 신호를 프레임화하여 상기 입술 움직임 신호 검출부(220)에 전송한다.
상기 입술 움직임 신호 검출부(220)는 상기 영상 수신부(210)로부터 프레임 단위로 입력되는 영상 정보를 프레임간에 서로 비교하여 움직임 영역을 검출하고, 미세한 영상 잡음을 제거한 후, 상기 잡음이 제거된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 실시간으로 생성한다. 여기서, 상기 입술 움직임 영상 특징 정보는 미리 저장된 정보로서, 입술에 대한 크기, 가로길이, 세로길이, 가로/세로 비율, 위치 등을 포함한다.
즉, 상기 입술 움직임 신호 검출부(220)는 이전 영상 프레임과 현재 영상 프레임을 픽셀 단위로 픽셀값을 비교하여 픽셀값이 차이가 나는 부분과 차이가 없는 부분으로 구분한다. 그런 다음 상기 입술 움직임 신호 검출부(220)는 픽셀값이 차이가 있는 부분을 대상으로 미세한 잡음영상을 제거하고, 임계값을 적용하여 움직임 영역을 검출한다. 여기서, 상기 차이가 있는 부분에는 미세한 잡음영상, 입술 이외의 움직임, 입술 움직임이 포함되어 있으므로, 상기 입술 움직임 신호 검출부(220)는 상기 차이가 있는 부분을 대상으로 미세한 잡음을 제거하고, 임계값을 적용하여 움직임 영역을 검출한다.
예를 들어, 픽셀값 차이가 10이상이면 흰색(픽셀값: 255), 10보다 작으면 검정(픽셀값: 0)으로 바꾸어 시각적으로도 쉽게 확인될 수 있도록 하는데, 흰색 영역은 움직임 영역이라고 판단한다. 따라서, 눈이 움직였으면 눈 위치 부분에 흰색, 입술이 움직였으면 입술 모양의 흰색, 턱이 움직였으면 턱 움직임 부분이 희게 나타난다.
그런 다음 상기 입술 움직임 신호 검출부(220)는 상기 흰색(움직임)영역에 대하여 크기, 가로길이, 세로 길이, 가로/세로 비율, 위치 등의 특징을 파악하고, 상기 파악된 특징을 미리 저장된 입술 움직임 영상 특징 정보와 비교한다.
상기 비교결과 유사도가 높으면 입술 움직임 영역으로 판단하고, 유사도가 높은 것이 없으면 입술 움직임 영역이 아닌 다른 움직임이거나 움직임이 없는 것으로 판단한다.
상기와 같이 구해진 유사도(예: 0.3, 0.4, ..0.9)는 공유 메모리 공간에 저장되어 음성여부의 판단 자료로 이용된다.
상기와 같이 상기 입술 움직임 신호 검출부(220)는 영상 프레임에서의 움직임 영역에 대해 그 모양 및 변화(즉, 입술 특징점의 폭, 넓이 및 이들의 시간적 변화 등)와 같은 입술 움직임 특징 정보와의 상관도를 비교하여 입술 움직임이 있는지를 판단한다.
그런 다음 상기 입술 움직임 신호 검출부(220)는 상기 판단결과에 따라 입술 움직임 신호를 생성하고, 상기 생성된 신호를 상기 음성 구간 검출부(230)에 전송 한다.
상기 음성 구간 검출부(230)는 상기 음향 수신부(200)를 통해 입력되는 음향 신호와 상기 입술 움직임 신호 검출부(220)에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출한다.
즉, 상기 음성 구간 검출부(230)는 상기 음향 수신부(200)에서 출력되는 음향 프레임에서 일정한 크기와 고주파수를 특징으로 하는 정적 잡음을 제거하고, 잔여 에너지를 대상으로 음향 프레임별 절대 에너지의 크기와 영교차율을 분석하여 해당 음향 프레임이 음성 가능 프레임 또는 잡음인지를 판단한다. 여기서, 상기 영교차율은 음성 신호가 영점(Zero) 기준을 교차하는 수로서 주파수의 의미로 간주되며 대부분 유성음에서 낮은 값을 무성음에서 높은 값을 가진다.
따라서, 상기 음성 구간 검출부(230)는 음향 프레임에 대해 절대 에너지가 작거나 영교차율이 크면, 잡음이라고 판단하고, 절대 에너지가 크고, 영교차율이 작으면, 음성 가능 프레임이라고 판단한다.
그런 다음 상기 음성 구간 검출부(230)는 음성 가능 프레임으로 판단된 음향 프레임에 대하여 상기 입술 움직임 신호 검출부(220)에서 검출된 입술 움직임 신호를 이용하여 해당 구간이 음성 구간인지를 판단한다.
즉, 상기 음성 구간 검출부(230)는 상기 음성 가능 프레임이 검출되는 시점에 상기 입술 움직임 신호 검출부(220)에서 영상 프레임에 대해 입술 움직임 신호가 검출되는지를 판단한다.
상기 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 없으면, 상기 음성 구간 검출부(230)는 상기 음성 가능 프레임을 동적(dynamic) 잡음으로 판단하고, 입술 움직임 신호가 존재하면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장한다.
그런 다음 상기 음성 구간 검출부(230)는 상기 저장된 음성 프레임의 개수가 미리 정해진 일정 수 이상이면, 해당 음성 프레임들을 처음 프레임부터 음성 구간 시작점으로 표시하고 이후 유입되는 음성 프레임들을 음성 인식 과정으로 계속 진행시킨다.
상기 과정에서 음성 프레임이 유입되지 않는 상태가 이어지면 상기 음성 구간 검출부(230)는 음성 구간의 끝점으로 표시하여 음성 구간을 검출하게 된다.
상기 특징 벡터 추출부(240)는 상기 음성 구간 검출부(230)에서 검출된 음성 구간에서 특징 벡터를 추출하여 상기 음성 인식부(250)에 전송한다.
상기 음성 인식부(250)는 상기 특징 벡터 추출부(240)에서 추출된 특징 벡터를 이용하여 상기 데이터베이스(260)에 등록된 단어들에 대하여 유사도와 가장 유사한 단어들을 선정하는 비터비 탐색을 수행한다. 이때, 은닉 마르코브 모델을 이용할 수 있는데, 이는 인식 대상 후보 단어들에 대하여 미리 훈련하여 구축한 HMM(Hidden Markov Model)과 현재 입력된 음성의 특징 데이터들과의 차이를 비교하여 가장 유사한 후보 단어를 결정하는 것을 말한다.
그런 다음 상기 음성 인식부(250)는 음향 모델(262)과 발음 사전(264)을 탐색하여 상기 추출된 음향적 특징과 유사한 음소들을 찾아내어 단어나 문장으로 결합한다.
그런 다음 상기 음성 인식부(250)는 상기 결합하여 생성된 단어나 문장의 오류를 줄이기 위하여 언어 모델(266)을 적용하여 음성 인식을 수행한다.
도 3은 본 발명에 따른 음성 인식 시스템에서 음성 구간 검출 방법을 나타낸 흐름도이다.
도 3을 참조하면, 음성 인식 시스템은 마이크를 통해 음향 신호가 수신되면(S300), 상기 음향 신호를 디지털 신호로 변환하여 프레임화한다(S302).
단계 302의 수행 후, 상기 음성 인식 시스템은 상기 프레임화된 음향 신호에 대하여 프레임별 정적 잡음을 제거하고(S304), 상기 잡음이 제거된 각 프레임에 대하여 절대 에너지가 크고 영교차율이 작은지를 판단한다(S306).
즉, 상기 음성 인식 장치는 상기 프레임화된 음향 신호에서 일정한 크기와 고주파수를 특징으로 하는 정적 잡음을 제거한 후, 잔여 에너지를 대상으로 음향 프레임별 절대 에너지의 크기와 영교차율을 분석하여 해당 음향 프레임이 음성 가능 프레임 또는 잡음인지를 판단한다.
상기 음성 인식 시스템은 절대 에너지가 기준치보다 작거나 영교차율이 기준치보다 크면, 해당 음향 프레임을 잡음으로 판단하고, 절대 에너지가 기준치보다 크고, 영교차율이 기준치보다 작으면, 해당 음향 프레임을 음성 가능 프레임으로 판단한다.
단계 306의 판단결과 상기 잡음이 제거된 음향 프레임에 대해 절대 에너지가 크고 영교차율이 작으면, 상기 음성 인식 시스템은 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단한다(S308).
음향 프레임과 영상 프레임은 서로 매칭되어 있어서, 상기 음성 인식 시스템은 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임을 추출할 수 있고, 상기 추출된 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단할 수 있다.
상기 음성 인식 시스템이 영상 프레임에서 입술 움직임 신호를 검출하는 방법에 대한 설명은 도 4를 참조하기로 한다.
단계 308의 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 인식 시스템은 해당 음향 프레임을 음성 프레임이라고 판단하고(S310), 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단한다(S312).
단계 312 판단결과 상기 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 상기 음성 인식 시스템은 해당 프레임의 처음 프레임을 음성구간 시작점으로 표시하여 음성 구간을 검출한다(S314).
즉, 상기 음성 인식 시스템은 음성 프레임의 개수가 일정 수준을 넘으면 해당 음성 프레임들은 처음 프레임부터 음성구간 시작점으로 표시되고, 이후 유입되는 음성 프레임들을 음성인식 과정으로 계속 진행한다. 음성 프레임이 유입되지 않은 상태가 이어지면, 상기 음성 인식 시스템은 음성 구간의 끝점으로 표시하여 음성 구간을 검출하게 된다.
단계 314의 수행 후, 상기 음성 인식 시스템은 상기 검출된 음성 구간에 대해 특징 벡터를 추출하여(S316), 음성 인식을 수행한다(S318).
만약, 단계 306의 판단결과 상기 잡음이 제거된 음향 프레임에 대하여 절대 에너지가 크지 않거나 영교차율이 작지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S320), 단계 304를 수행한다.
만약, 단계 308의 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되지 않으면, 상기 음성 인식 시스템은 해당 프레임을 동적 잡음으로 판단하여 동적 잡음을 제거한 후(S322), 단계 306을 수행한다.
만약, 단계 312의 판단결과 상기 음성 프레임의 개수가 미리 정해진 일정 개수 이상이 아니면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여 단계 304를 수행한다.
도 4는 본 발명에 따른 음성 인식 시스템에서 입술 움직임 신호 검출 방법을 나타낸 흐름도이다.
도 4를 참조하면, 음성 인식 시스템은 카메라를 통해 영상 신호가 수신되면(S400), 상기 영상 신호를 디지털 신호를 변환하여 프레임화한다(S402).
단계 402의 수행 후, 상기 음성 인식 시스템은 상기 프레임화된 영상 신호에서 영상 잡음을 제거하고(S404), 상기 영상 잡음이 제거된 영상 프레임에서 움직임 영역을 검출한다(S406).
즉, 상기 음성 인식 시스템은 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출한다.
단계 406의 수행 후, 상기 음성 인식 시스템은 상기 검출된 움직임 영역에 대해 크기, 가로길이, 세로 길이, 가로/세로 비율, 위치 등의 특징을 파악한 다(S408).
단계 408의 수행 후, 상기 음성 인식 시스템은 상기 파악된 움직임 영역의 특징을 미리 저장된 입술 움직임 영상 특징 정보와 비교하여(S410), 상기 움직임 영역이 입술 움직임 영역인지를 판단한다(S412).
즉, 상기 음성 인식 시스템은 상기 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보를 비교한 결과 유사도가 미리 정해진 일정 값 이상이면, 상기 움직임 영역을 입술 움직임 영역으로 판단하고, 유사도가 미리 정해진 일정 값 이상이 아니면, 상기 움직임 영역을 입술 움직임 영역이 아닌 다른 움직임이거나 움직임이 없는 것으로 판단한다. 여기서 상기 입술 움직임 영상 특징 정보는 입술의 모양 및 변화 즉, 입술 특징점의 폭, 넓이 및 이들의 시간적 변화 등을 포함한다.
단계 412의 판단결과 상기 움직임 영역이 입술 움직임 영역이면, 상기 음성 인식 시스템은 입술 움직임 신호를 생성한다(S414).
상기와 같이 생성된 입술 움직임 신호는 도 3에 설명된 바와 같이 음성 프레임을 판단하는데 이용된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
상술한 바와 같이 본 발명에 따르면, 음성구간 검출과정에서 입술움직임 영상정보를 확인하기 때문에 dynamic 잡음이 음성으로 오인식되는 것을 미리 방지할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.
또한, 본 발명에 따르면, 음성구간 검출 과정에서 dynamic 음향잡음이 제거되므로 음성인식률을 높일 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.
또한, 본 발명에 따르면, 잡음에 의한 불필요한 음성인식 실행을 방지하여 자원을 절약할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.

Claims (12)

  1. 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서,
    상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부;및
    상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부
    를 포함하는 것을 특징으로 하는 음성 구간 검출 장치.
  2. 제1항에 있어서,
    상기 입술 움직임 신호 검출부는 상기 영상 수신부로부터 출력되는 각 영상 프레임을 비교하여 움직임 영역을 검출하고, 상기 검출된 움직임 영역을 대상으로 크기, 폭, 길이, 위치 정보를 파악한 후, 상기 파악된 움직임 영역의 특징을 미리 저장된 입술 움직임 영상 특징 정보와 비교하여 입술 움직임 신호를 검출하는 것을 특징으로 하는 음성 구간 검출 장치.
  3. 제1항에 있어서,
    상기 음성 구간 검출부는 상기 음향 수신부로부터 입력되는 음향 프레임별로 절대 에너지와 영교차율을 이용하여 음성 가능 프레임을 판단하고, 상기 판단된 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하여 음성 구간을 검출하는 것을 특징으로 하는 음성 구간 검출 장치.
  4. 음향 수신부와 영상 수신부가 구비된 음성 인식 시스템에서 음성 구간을 검출하는 방법에 있어서,
    상기 음향 수신부로부터 출력되는 음향 프레임을 대상으로 정적 잡음을 제거하고, 상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하는 단계;
    상기 판단결과 상기 음향 프레임이 음성 가능 프레임이면, 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 단계;
    상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장하고, 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단하는 단계;및
    상기 판단결과 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 해당 음성 프레임들을 음성 구간으로 검출하는 단계
    를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  5. 제4항에 있어서,
    상기 음향 수신부로부터 출력되는 음향 프레임의 정적 잡음을 제거하는 것은 상기 음향 프레임에 대해 저역 통과 필터링을 수행하여 고역 성분을 제거하는 것을 특징으로 하는 음성 구간 검출 방법.
  6. 제4항에 있어서,
    상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하는 단계는,
    상기 잡음이 제거된 음향 프레임에 대해 절대 에너지 크기와 영교차율을 분석하여 음성 가능 프레임 또는 잡음 프레임인지를 판단하는 것을 특징으로 하는 음성 구간 검출 방법.
  7. 제4항에 있어서,
    상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 단계는,
    연속으로 수신되는 영상 프레임에서 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출하는 단계;
    상기 검출된 움직임 영역별로 그 크기, 폭, 길이, 위치 정보를 파악하는 단계;및
    상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  8. 제7항에 있어서,
    상기 입술 움직임 영상 특징 정보는 입술의 모양과 입술의 변화를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  9. 제7항에 있어서,
    상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 검출하는 단계는,
    상기 파악된 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보을 비교하여 유사도를 구하는 단계;
    상기 구해진 유사도가 미리 정해진 일정 값 이상이면, 입술 움직임 영역으로 판단하여 입술 움직임 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  10. 제4항에 있어서,
    상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되지 않으면, 해당 음성 가능 프레임을 동적 잡음으로 판단하는 단계를 더 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  11. 사용자에 의해 입력된 음향 신호를 디지털 신호로 변환하여 프레임화하는 음향 수신부;
    영상 촬영부를 통해 촬영된 영상 신호를 프레임화하는 영상 수신부;
    상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부;
    상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부;
    상기 음성 구간 검출부에서 검출된 음성 구간에 대하여 특징 벡터를 추출하는 특징 벡터 추출부;및
    상기 특징 벡터 추출부에서 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부
    를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  12. 제11항에 있어서,
    상기 영상 촬영부는 카메라인 것을 특징으로 하는 음성 인식 시스템.
KR1020060064262A 2005-12-08 2006-07-10 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 KR100820141B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/633,270 US7860718B2 (en) 2005-12-08 2006-12-04 Apparatus and method for speech segment detection and system for speech recognition
JP2006329871A JP4795919B2 (ja) 2005-12-08 2006-12-06 音声区間検出方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050120040 2005-12-08
KR20050120040 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061207A true KR20070061207A (ko) 2007-06-13
KR100820141B1 KR100820141B1 (ko) 2008-04-08

Family

ID=38357144

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060064262A KR100820141B1 (ko) 2005-12-08 2006-07-10 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Country Status (1)

Country Link
KR (1) KR100820141B1 (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849027B1 (ko) * 2008-01-04 2008-07-29 주식회사 이머시스 음성 신호에 대한 립싱크 동기화 방법 및 장치
KR100924795B1 (ko) * 2007-12-18 2009-11-03 한국전자통신연구원 입술움직임 영상 판별 방법 및 그 장치
KR20100119250A (ko) * 2009-04-30 2010-11-09 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US8606735B2 (en) 2009-04-30 2013-12-10 Samsung Electronics Co., Ltd. Apparatus and method for predicting user's intention based on multimodal information
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
KR101442211B1 (ko) * 2013-02-07 2014-10-16 서강대학교산학협력단 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
KR101523439B1 (ko) * 2013-11-01 2015-05-27 고려대학교 산학협력단 영상 기반의 음성 인식 방법
KR20170129676A (ko) * 2015-03-19 2017-11-27 삼성전자주식회사 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
KR20210054961A (ko) * 2019-11-06 2021-05-14 한국과학기술원 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11508106B2 (en) 2018-01-17 2022-11-22 Jvckenwood Corporation Display control device, communication device, display control method, and recording medium
WO2023080296A1 (ko) * 2021-11-08 2023-05-11 엘지전자 주식회사 Ar 디바이스 및 ar 디바이스 제어 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101971697B1 (ko) 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
KR102339578B1 (ko) * 2020-06-12 2021-12-16 주식회사 자동기 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301393A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
KR100924795B1 (ko) * 2007-12-18 2009-11-03 한국전자통신연구원 입술움직임 영상 판별 방법 및 그 장치
KR100849027B1 (ko) * 2008-01-04 2008-07-29 주식회사 이머시스 음성 신호에 대한 립싱크 동기화 방법 및 장치
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9443536B2 (en) 2009-04-30 2016-09-13 Samsung Electronics Co., Ltd. Apparatus and method for detecting voice based on motion information
US8606735B2 (en) 2009-04-30 2013-12-10 Samsung Electronics Co., Ltd. Apparatus and method for predicting user's intention based on multimodal information
KR20100119250A (ko) * 2009-04-30 2010-11-09 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
KR101442211B1 (ko) * 2013-02-07 2014-10-16 서강대학교산학협력단 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
KR101523439B1 (ko) * 2013-11-01 2015-05-27 고려대학교 산학협력단 영상 기반의 음성 인식 방법
KR20170129676A (ko) * 2015-03-19 2017-11-27 삼성전자주식회사 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US11189281B2 (en) 2017-03-17 2021-11-30 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11508106B2 (en) 2018-01-17 2022-11-22 Jvckenwood Corporation Display control device, communication device, display control method, and recording medium
KR20210054961A (ko) * 2019-11-06 2021-05-14 한국과학기술원 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
WO2023080296A1 (ko) * 2021-11-08 2023-05-11 엘지전자 주식회사 Ar 디바이스 및 ar 디바이스 제어 방법

Also Published As

Publication number Publication date
KR100820141B1 (ko) 2008-04-08

Similar Documents

Publication Publication Date Title
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP4795919B2 (ja) 音声区間検出方法
US7472063B2 (en) Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
US7454342B2 (en) Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US6633844B1 (en) Late integration in audio-visual continuous speech recognition
Scanlon et al. Feature analysis for automatic speechreading
KR20080050994A (ko) 제스처/음성 융합 인식 시스템 및 방법
JP5430382B2 (ja) 入力装置及び方法
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
JP2008152125A (ja) 発話検出装置及び発話検出方法
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN111326152A (zh) 语音控制方法及装置
CN113177531B (zh) 一种基于视频分析的说话识别方法、系统、设备及介质
CN113939871A (zh) 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序
Gurban et al. Multimodal speaker localization in a probabilistic framework
KR20140093459A (ko) 자동 통역 방법
CN114494930B (zh) 语音与图像同步性衡量模型的训练方法及装置
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
US20220262363A1 (en) Speech processing device, speech processing method, and recording medium
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
CN114466178A (zh) 语音与图像同步性的衡量方法及装置
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP4801251B2 (ja) 映像/音声ずれ補正方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170307

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190312

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20200310

Year of fee payment: 13