KR101523439B1 - 영상 기반의 음성 인식 방법 - Google Patents

영상 기반의 음성 인식 방법 Download PDF

Info

Publication number
KR101523439B1
KR101523439B1 KR1020130132027A KR20130132027A KR101523439B1 KR 101523439 B1 KR101523439 B1 KR 101523439B1 KR 1020130132027 A KR1020130132027 A KR 1020130132027A KR 20130132027 A KR20130132027 A KR 20130132027A KR 101523439 B1 KR101523439 B1 KR 101523439B1
Authority
KR
South Korea
Prior art keywords
speech
image
detecting
extracted
interval
Prior art date
Application number
KR1020130132027A
Other languages
English (en)
Other versions
KR20150050854A (ko
Inventor
고한석
송태엽
이경선
김승일
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020130132027A priority Critical patent/KR101523439B1/ko
Publication of KR20150050854A publication Critical patent/KR20150050854A/ko
Application granted granted Critical
Publication of KR101523439B1 publication Critical patent/KR101523439B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상을 이용하여 음성 구간을 검출하는 음성 인식 방법에 관한 것이다.
본 발명의 일실시예에 의한 영상 기반의 음성 인식 방법은 입술이 포함된 입력 동영상을 수신하는 단계; 상기 입력 동영상에서 연속된 적어도 2개 정지 영상을 추출하는 단계; 상기 추출된 적어도 2개의 정지 영상에서 입술 영역을 검출하는 단계; 카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출하는 단계-상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미함-; 및 상기 추출된 입술 영역의 특징값을 이용하여 음성 구간을 검출하는 단계를 포함할 수 있다.

Description

영상 기반의 음성 인식 방법{METHOD AND APPARATUS FOR RECOGNIZING SPEECH BASED ON IMAGE}
본 발명은 음성 인식 방법에 관한 것으로, 보다 상세하게는 영상을 이용하여 음성 구간을 검출하는 음성 인식 방법에 관한 것이다.
일반적으로 음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 처리하는 기술을 의미한다. 이러한 음성 인식 기술은 주변의 잡음이 적은 실험실, 가정, 또는 사무실 등에서 사용되면 성능이 우수하게 느껴지나, 주변의 잡음이 심한 도로, 복도, 전시장, 회의장 등에서 사용되는 경우에는 인식률이 현저히 떨어지게 된다. 이는 주변 잡음과 사람의 음성을 효과적으로 분리하지 못하기 때문이다.
한편, 음성 인식에서의 음성구간 검출은 음성인식 성능에 큰 영향을 미치는 요소이다. 음성구간 검출을 통해 음성 구간만의 신호를 취함으로써, 음성인식에 소요되는 시간을 단축시킬 수 있으며 비음성 구간에 존재하는 잡음이 음성인식 성능을 하락시킬 수 있는 가능성을 줄일 수 있다. 그러나 잡음이 심한 환경에서는 음향 정보만을 이용한 검출에는 한계가 있다. 특히, 차량 주행 중인 상황에서는 다양한 잡음이 존재하기 때문에 이를 보완할 방안이 필요하다.
대한민국 등록특허 제10-0883652호에는 동적 프로그래밍(Dynamic Programming)을 이용하여 돌발 잡음 등이 포함된 입력 음성에서 정확한 음성 구간을 검출함으로써 짧은 길이의 돌발 잡음을 음성으로 인식하지 않도록 하는 음성 구간 검출 장치 및 방법이 개시되어 있다.
하지만, 상기 등록특허 제10-0883652호에는 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간 검출을 위한 기술이 개시되어 있지 않다.
따라서 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간 검출을 위한 기술에 대한 연구가 필요한 실정이다.
본 발명의 목적은 조명 등이 존재하는 다양한 외부 환경에서 정확한 음성 구간을 검출할 수 있는 영상 기반의 음성 인식 방법을 제공하는 데 있다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 입술이 포함된 입력 동영상을 수신하는 단계; 상기 입력 동영상에서 연속된 적어도 2개 정지 영상을 추출하는 단계; 상기 추출된 적어도 2개의 정지 영상에서 입술 영역을 검출하는 단계; 카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출하는 단계-상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미함-; 및 상기 추출된 입술 영역의 특징값을 이용하여 음성 구간을 검출하는 단계를 포함하는 영상 기반의 음성 인식 방법이 제공된다.
본 발명의 일실시예에 의한 영상 기반의 음성 인식 방법은 조명 변화 등이 존재하는 다양한 환경에서도 음성 구간을 정확하게 검출할 수 있다.
도 1은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법의 흐름도이다.
도 3은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법에서 phase space plot 상에 카오스 패턴이 형성된 예를 나타낸다.
도 4는 본 발명의 일실시예와 관련된 유클리디안 차원과 프렉탈 차원을 비교하기 위한 도면이다.
도 5는 본 발명의 일실시예와 관련된 박스카운팅 차원의 예를 나타내는 도면이다.
도 6은 본 발명의 일실시예와 관련된 음성 구간 검출을 위한 상태 천이 모델을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예와 관련된 음성 인식 방법을 통해 얻어진 음성 구간 검출 결과와 기존의 방법으로 얻어진 음성 구간 검출 결과를 비교하기 위한 나타내는 그래프이다.
이하, 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법 및 장치에 대해 도면을 참조하여 설명하기로 하겠다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 장치의 블록도이다.
도시된 바와 같이, 영상 기반의 음성 인식 장치(100)는 수신부(100), 전처리부(120), 특징값 추출부(130), 음성 구간 검출부(140), 및 제어부(150)를 포함할 수 있다. 그러나, 도시된 구성요소 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소로 상기 음성 인식 장치(100)가 구성될 수도 있고, 그보다 적은 구성요소에 의해서도 음성 인식 장치(100)가 구성될 수 있다. 상기 음성 인식 장치(100)는 개인용 휴대 단말기, 음성 인식 TV, 대화형 로봇, 음성 기반의 자동차 인터페이스(예: 자동차 내비게이션), 컴퓨터 등 다양한 전자 제품에 적용될 수 있다.
수신부(110)는 입술이 포함된 입력 동영상을 수신할 수 있다. 상기 입력 동영상은 음성 구간이 포함된 오디오 신호를 포함할 수 있다.
전처리부(120)는 상기 입력 동영상에서 적어도 2개의 연속된 정지 영상을 추출할 수 있다. 상기 연속된 정지 영상은 시간의 흐름에 따라 연속된 정지 영상을 의미한다. 전처리부(120)는 상기 추출된 정지 영상에서 얼굴을 검출하고, 검출된 얼굴 영역에서 입술 영역을 검출할 수 있다.
특징값 추출부(130)는 입술 영역에 대한 움직임 정보에 근거하여 상기 입술 영역에 대한 특징값을 추출할 수 있다. 특징값 추출부(130)는 입술 영역에 대한 움직임 정보 검출을 위해 카오스 패턴을 이용활 수 있다. 상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미한다. 카오스 패턴을 이용하여 특징값을 검출하는 방법은 후술하기로 한다.
음성 구간 검출부(140)는 추출된 상기 얼굴 영역의 특징값을 이용하여 음성 구간을 검출할 수 있다. 즉, 음성 구간 검출부(140)는 입력 동영상에서 추출한 특징값을 이용하여 음성 구간과 비음성 구간을 판단할 수 있다. 음성과 비음성을 구분하기 위해 특정 문턱값(T)이 이용될 수 있다.
또한, 음성 구간 검출(140)는 입력 동영상에서 오디오 신호를 추출하고, 상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출할 수 있다.
제어부(150)는 상기 수신부(110), 상기 전처리부(120), 상기 특징값 추출부(130), 및 음성 구간 검출부(140)를 전반적으로 제어할 수 있다.
도 2는 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법의 흐름도이다.
수신부(110)는 입술이 포함된 입력 동영상을 수신할 수 있다(S210). 상기 입력 동영상은 음성 구간이 포함된 오디오 신호를 포함할 수 있다.
전처리부(120)는 상기 입력 동영상에서 시간의 흐름에 따라 연속된 적어도 2개의 정지 영상을 추출할 수 있다(S220).
그리고 전처리부(120)는 상기 추출된 정지 영상에서 얼굴 영역을 검출하고, 검출된 얼굴 영역에서 입술 영역을 검출할 수 있다(S230). 입술은 얼굴의 하단부에 위치한다는 기하학적 특징을 통해 검출된 얼굴 영역의 하단부에 대해서 입술 영역이 검출될 수 있다. YCbCr 색상 공간에서 입술은 Cr과 Cb 성분이 얼굴의 피부색보다 뚜렷하게 대비된다. 이러한 특징을 통해 Cr과 Cb 성분을 이용한 Mouth Map 영상기반의 입술 검출 방법이 이용될 수 있다.
특징값 추출부(130)는 카오스 패턴을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출할 수 있다(S240). 상기 특징값은 상기 입술 영역의 움직임 검출을 위해 사용될 수 있다.
본 명세서에서 영상에 대해 각각 가우시안 마스크 연산을 통해 흐림 효과를 준 후 화소값에 대해 결합 분포를 구한 결과를 phase space plot라고 정의할 수 있다.
만약 입력 동영상에서 추출한 시간에 연속한 두 영상이 고정된 배경을 가질 때, 두 영상에서 내에 움직이는 객체가 존재하면 phase space plot에 카오스적인 패턴이 형성된다. 이에 반해 두 영상간의 차이가 거의 없거나, 전체적인 밝기의 변화만 발생하는 경우 직선에 가까운 패턴이 형성된다.
도 3은 본 발명의 일실시예와 관련된 영상 기반의 음성 인식 방법에서 phase space plot 상에 카오스 패턴이 형성된 예를 나타낸다.
도 3(a)는 비음성 구간에서의 카오스 패턴이 형성된 예를 나타내고, 도 3(b)는 음성 구간에서의 카오스 패턴이 형성된 예를 나타낸다. 즉, 영상 내 입술의 움직임이 적은 두 영상에 대해서는 phase space plot에 비카오스적인 직선에 가까운 패턴이 나타나며, 음성 구간에서는 입술의 움직임으로 인해 phase space plot에 카오스적인 패턴이 나타나는 것을 알 수 있다.
한편, 본 발명의 일실시예에 의하면, 카오스 패턴의 프렉탈(fractal dimension)을 이용하여 상기 입술 영역에 대한 특징값을 추출할 수 있다. 음성 구간의 두 영상에서 계산한 phase space plot상의 카오스 패턴을 프렉탈 차원(fractal dimension)을 계산하여 정량화하고 입술의 움직임을 검출할 수 있다.
도 4는 본 발명의 일실시예와 관련된 유클리디안 차원과 프렉탈 차원을 비교하기 위한 도면이다. 도 4(a)는 유클리디안 차원을 나타내고, 도 4(b)는 프렉탈 차원을 나타낸다.
프렉탈은 작은 구조가 전체 구조와 비슷한 형태로 끝없이 되풀이 되는 구조를 나타내며, 프렉탈 차원은 프렉탈이 얼마나 완벽하게 공간을 채우고 있는지를 나타낸다. 유클리디안 차원의 정의가 좌표축의 개수(2차원은 x,y, 3차원은 x,y,z라는 접근방식)이라면, 프렉탈에서 말하는 차원은 자기 복제를 하는데 필요한 도형의 숫자로 정의된다. 예를 들어 정사각형의 경우 각 변의 길이를 3배로 만들 경우 면적이 9배가 되므로, 길이의 변화에 따른 면적의 변화는 길이 변화 배수의 제곱으로 나타난다. 따라서 프렉탈 차원은 2차원이 된다.
상기 프렉탈 차원을 이용하는 방법의 예로 박스카우팅 차원(ox-counting dimension)을 사용하여 phase space plot상의 카오스 패턴을 정량화하는 방법이 이용될 수 있다.
도 5는 본 발명의 일실시예와 관련된 박스카운팅 차원의 예를 나타내는 도면이다. 도 5(a)는 박스카운팅 차원이 1인 경우를 나타내고, 도 5(b)는 박스카운팅 차원이 2인 경우를 나타낸다.
영상에서 크기가 δ인 박스를 계속 분할하면 박스의 크기는 분할 횟수와 반비례하여 작아지게 되는데, 분할을 거듭하게 되면 분할 수와 데이터를 포함한 격자의 개수의 로그좌표 그래프(Richardson plot)가 직선에 근사하게 나타난다. 이 그래프의 기울기를 박스카운팅 차원으로 정의한다.
상기 박스카운팅 차원은 수학식 1로 표현될 수 있다.
Figure 112013099540443-pat00001
음성 구간의 phase space plot과 같은 카오스 패턴의 경우 높은 프렉탈 차원을 가지며, 비음성 구간과 같은 비카오스 패턴은 낮은 프렉탈 차원을 가진다. 본 발명의 일실시예에 의하면, 이러한 특성이 프렉탈 차원을 입술의 움직임에 따른 변화량 측정에 사용될 수 있다.
상기 음성 구간 검출부(140)는 입력 동영상에서 추출한 특징값을 이용하여 음성 구간과 비음성 구간을 판단할 수 있다(S250). 음성과 비음성을 구분하는 문턱값(T)은 입력 영상에서 처음 일정구간을 비음성 구간으로 가정하고 특징값의 분포를 이용하여 결정한다. 이 문턱값을 프레임간의 특징값과 비교하여 음성/비음성 구간을 판단하게 된다. 상기 판단 결과는 수학식 2로 표현될 수 있다.
Figure 112013099540443-pat00002
여기서 P는 phase space plot을 나타내며,
Figure 112013099540443-pat00003
는 시간 t에서의 영상 정보를 나타낸다. 판단 결과 1인 경우 음성 구간임을, 0인 경우는 비음성 구간임을 나타낸다.
상기 수학식 2의 판단 결과에서 어휘에 묵음 구간으로 인해 음성 구간에서 비음성 구간으로 잘못 검출되는 경우가 발생할 수 있다. 이러한 문제를 해결하기 위해 상태 천이 모델이 이용될 수 있다. 즉, 입력 동영상에 포함된 오디오 신호를 추출하고, 상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출할 수 있다.
도 6은 본 발명의 일실시예와 관련된 음성 구간 검출을 위한 상태 천이 모델을 설명하기 위한 도면이다.
도 6에서 Silence는 비음성 구간(음성 부재 구간)을 나타내고, In speech는 음성 구간을 나타낸다. Leaving speech는 음성 구간이지만 비음성 구간으로 변할 수 있는 구간을 의미한다. 하한값 TL(lower threshold), 상한값 TU (upper threshold), Gap은 끝나는 점을 결정하기 위한 허용치로써 실험적으로 정하는 상수이다. 단, 상한값은 하한값 보다 크다고 가정한다.
도 6에 도시된 상태 천이 모델을 이용하면, 음성 구간 검출부(140)는
Figure 112013099540443-pat00004
이 TU 보다 작으면 음성이 없는 비음성 구간(Silence)으로 판단하고,
Figure 112013099540443-pat00005
이 TU 보다 커지면 음성 구간이 시작된 것으로 판단할 수 있다. 그리고 음성 구간 검출부(140)는 그 부분을 음성 구간(In speech)의 시작점으로 검출할 수 있다.
한편, 음성 구간 검출부(140)는
Figure 112013099540443-pat00006
이 TL 보다 작아지면 아직 음성 구간이긴 하지만 비음성 구간으로 바뀔 가능성이 있는 구간(Leaving speech)으로 판단하고, Count를 0으로 간주한다. Count는
Figure 112013099540443-pat00007
이 TL과 TU 사이에 연속적으로 존재하는 회수를 의미한다. 음성 구간 검출부(140)는 Count가 Gap 보다 작으면 Leaving speech로 판단하고, Count가 Gap 보다 크면 Silence로 판단한다. Silence로 판단되는 해당 프레임이 음성 구간의 종료 지점이 된다. 또한, 음성 구간 검출부(140)는
Figure 112013099540443-pat00008
이 TL 보다 작아지면 Count를 0으로 잡고 해당 프레임을 Leaving speech 단계로 유지할 수 있다. 그리고
Figure 112013099540443-pat00009
이 TU 보다 커지면 다시 In speech 구간으로 간주할 수 있다.
도 6에 도시된 상태 천이 모델을 이용하면, 잡음의 크기에 따라 상한과 하한을 조절함으로써, 정밀한 음성 구간 검출이 가능하다.
이하는 영상 기반 음성구간 검출 알고리즘의 성능을 평가하기 위해 차량에서 촬영한 동영상을 이용하여 음성 구간 검출을 실험한 예이다. 실험에 사용된 동영상은 913프레임의 동영상으로 구성되어 있고, 197 프레임의 음성 구간을 가지고 있다.
성능 측정을 위해 검출률(PD)과 오검출률(FA)을 평가 지표로 사용하였다. 검출률은 전체 음성구간 프레임의 수와 올바르게 음성구간으로 검출된 프레임 수의 비율로 나타나며, 오검출률은 전체 비음성구간 프레임의 수와 비음성구간인데 음성 구간으로 잘못 검출된 프레임의 비율이다. 광류를 사용하는 기존 음성구간 검출 알고리즘과 성능 비교를 수행한 결과는 표 1과 같다.
방법 검출률 오검출률
실험 데이터 Conventional 95.98 12.84
Proposed 96.45 0.13
Conventional은 광류를 사용하는 기존 음성구간 검출 방법이고, Proposed는 카오스 패턴을 이용한 본 발명의 일실시예에 의한 방법이다.
도 7은 본 발명의 일실시예와 관련된 음성 인식 방법을 통해 얻어진 음성 구간 검출 결과와 기존의 방법으로 얻어진 음성 구간 검출 결과를 비교하기 위한 나타내는 그래프이다. 즉, 표 1에 대한 결과 그래프이다.
여기서 Motion Energy는 입술의 움직임을 광류를 통해 나타낸 것이고, Chaos Measure는 입술의 움직임을 카오스 패턴을 통해 나타낸 것이다. 또한, VVAD Result는 영상 기반의 음성 검출을 의미하고, Ground Truth는 실제 측정한 음성 구간을 의미한다.
상기 도 7을 통해 본 발명의 일실시예에 의한 음성 구간 검출이 기존 음성구간 검출 방법에 비해 오검출률이 훨씬 적다는 것을 확인할 수 있다.
전술한 바와 같이, 본 발명의 일실시예에 의한 영상 기반의 음성 인식 방법은 카오스 패턴을 이용함으로써, 조명 변화 등의 다양한 외부 환경에서 정확한 음성 구간을 검출할 수 있다.
상술한 영상 기반의 음성 인식 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기와 같이 설명된 영상 기반의 음성 인식 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 음성 인식 장치
110: 수신부
120: 전처리부
130: 특징값 추출부
140: 음성 구간 검출부
150: 제어부

Claims (5)

  1. 입술이 포함된 입력 동영상을 수신하는 단계;
    상기 입력 동영상에서 연속된 적어도 2개 정지 영상을 추출하는 단계;
    상기 추출된 적어도 2개의 정지 영상에서 입술 영역을 검출하는 단계;
    phase space plot 상에 형성되는 카오스 패턴의 프렉탈 차원을 이용하여 상기 검출된 입술 영역에 대한 특징값을 추출하는 단계-상기 카오스 패턴은 두 영상 간의 화소 변화에 의해 나타나는 어트랙터(attractor)의 패턴을 의미함-; 및
    상기 추출된 입술 영역의 특징값을 이용하여 음성 구간을 검출하는 단계를 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서, 상기 프렉탈 차원의 이용은
    박스카운팅 차원을 이용을 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
  5. 제 1 항에 있어서, 상기 음성 구간 검출 단계는
    상기 입력 동영상에 포함된 오디오 신호를 추출하는 단계;
    상기 추출된 오디오 신호에서 설정된 상한값 및 하한값을 이용하여 음성 구간의 시작 지점과 음성 구간의 종료 지점을 검출하는 단계를 포함하는 것을 특징으로 하는 영상 기반의 음성 인식 방법.
KR1020130132027A 2013-11-01 2013-11-01 영상 기반의 음성 인식 방법 KR101523439B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130132027A KR101523439B1 (ko) 2013-11-01 2013-11-01 영상 기반의 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130132027A KR101523439B1 (ko) 2013-11-01 2013-11-01 영상 기반의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20150050854A KR20150050854A (ko) 2015-05-11
KR101523439B1 true KR101523439B1 (ko) 2015-05-27

Family

ID=53388501

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130132027A KR101523439B1 (ko) 2013-11-01 2013-11-01 영상 기반의 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101523439B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452381B (zh) * 2016-05-30 2020-12-29 中国移动通信有限公司研究院 一种多媒体语音识别装置及方法
KR102244967B1 (ko) * 2019-06-11 2021-04-27 서강대학교산학협력단 음성인식 장치 및 음성인식 장치의 동작방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M.E. Farmer, ‘Illumination invariant intensity-based image registration using chaos theory’, in Proc. IEEE International Conference on Acoustic, Speech, and Signal Processing, pp.2094-2098, May 2013.*
M.E. Farmer, 'Illumination invariant intensity-based image registration using chaos theory', in Proc. IEEE International Conference on Acoustic, Speech, and Signal Processing, pp.2094-2098, May 2013. *

Also Published As

Publication number Publication date
KR20150050854A (ko) 2015-05-11

Similar Documents

Publication Publication Date Title
US11450146B2 (en) Gesture recognition method, apparatus, and device
Vennelakanti et al. Traffic sign detection and recognition using a CNN ensemble
Liong et al. Automatic apex frame spotting in micro-expression database
US9947077B2 (en) Video object tracking in traffic monitoring
EP2309454B1 (en) Apparatus and method for detecting motion
CN106648078B (zh) 应用于智能机器人的多模态交互方法及系统
KR101508310B1 (ko) 영상 감시 시스템에서 다중 이동 물체를 추적하는 방법 및 장치
KR101868103B1 (ko) 다중 이동 물체의 식별 및 추적을 위한 영상 감시 장치 및 방법
KR102474837B1 (ko) 전경 추출 방법 및 장치
Heo et al. Appearance and motion based deep learning architecture for moving object detection in moving camera
KR102195940B1 (ko) 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법
KR102351497B1 (ko) 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
JP2012073971A (ja) 動画オブジェクト検出装置、方法、及びプログラム
KR101523439B1 (ko) 영상 기반의 음성 인식 방법
US11587202B2 (en) Method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image
CN113544735A (zh) 人认证设备、控制方法和程序
KR100680278B1 (ko) 입술모양 추출방법 및 그 장치
Huang et al. Deep learning based moving object detection for video surveillance
Sujatha et al. Lip feature extraction for visual speech recognition using Hidden Markov Model
Joosten et al. Voice activity detection based on facial movement
US11830272B2 (en) Method and apparatus for identifying animal species
CN106951831B (zh) 一种基于深度摄像机的行人检测跟踪方法
JP6742837B2 (ja) 画像処理装置、画像処理方法およびプログラム
KR101342018B1 (ko) 대표 특징을 이용한 실시간 객체 인식 및 추적 방법과 그 장치
Rajavel et al. Static and dynamic features for improved HMM based visual speech recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 5