KR20100119250A

KR20100119250A - 모션 정보를 이용하는 음성 검출 장치 및 방법

Info

Publication number: KR20100119250A
Application number: KR1020090038267A
Authority: KR
Inventors: 조정미; 김정수; 방원철; 김남훈
Original assignee: 삼성전자주식회사
Priority date: 2009-04-30
Filing date: 2009-04-30
Publication date: 2010-11-09
Also published as: US9443536B2; KR101581883B1; US20100277579A1

Abstract

모션 정보를 이용하여 음성 검출 동작을 제어하는 음성 검출 장치 및 방법이 개시된다. 일 실시예에 따른 음성 검출 장치는 사용자의 모션 인식을 통해 음성을 입력 또는 종료하려는 사용자 의도를 예측한다. 그런 다음, 음성 검출 장치는 마이크나 카메라 등 다양한 센서를 통해 입력받은 정보들로부터 특징들을 추출하고, 추출된 특징들을 처리한 결과를 이용하여 사용자 음성 구간을 검출한다.

모션 정보, 특징 정보, VAD, 의도 예측, 특징 추출

Description

모션 정보를 이용하는 음성 검출 장치 및 방법{Appratus for detecting voice using motion information and method thereof}

하나 이상의 양상은 음성 검출 기술에 관한 것으로, 더욱 상세하게는 음성 검출을 효율적으로 수행할 수 있도록 지원하는 음성 검출 장치 및 방법에 관한 것이다.

VAD(voice activity detection) 또는 일반적으로 음원 검지는 신호 처리 실무에서 필수적인 문제이며 시스템의 전체적인 성능에 큰 영향을 미친다. 음성 부호화, 멀티미디어 통신, 노이즈가 많은 환경에서의 음질 개선(speech enhancement), 음성 인식과 같은 다양한 애플리케이션에서 VAD는 각 시스템의 성능을 향상시킬 수 있다. VAD는 음성신호의 존재여부를 매 분석구간마다 결정한다. 즉, 음성이 매 분석 구간마다 발성되고 있는지, 발성되고 있지 않은지를 나타낼 수 있다. 통상의 VAD 방법은 대부분 음성신호의 에너지, ZCR(Zero Crossing rate), LCR(Level Crossing Rate), SNR(Signal to Noise Ratio), 주파수 성분의 통계적 분포 등과 같이 입력 신호의 주파수 스펙트럼 크기와 관련있는 값을 이용한다.

모션 정보를 이용하여 사용자의 음성 입력에 관련된 스피치 의도를 예측할 수 있는 장치 및 방법을 제공한다.

일 양상에 따른 음성 검출 장치는 사용자의 모션 정보를 감지하고 분석하여 사용자의 스피치와 관련된 스피치 의도를 예측하고, 예측된 스피치 의도에 따라 음성 검출 동작을 수행한다. 음성 검출 장치는 모션 센서로부터 감지된 모션 정보를 이용하여 모션 센서가 부착되지 않는 사용자의 신체 부위의 동작 또는 위치를 계산하고, 계산 결과를 이용하여 스피치 의도를 예측할 수 있다. 스피치 의도는 사용자가 스피치를 입력하려는 스피치 입력 의도 및 스피치를 종료하려는 스피치 종료 의도로 분류될 수 있다.

음성 검출 장치는 현재 음성 입력이 진행중인지 여부에 대한 정보를 추가적으로 이용하여 모션 정보를 이용하여 예측된 스피치 의도를 2차적으로 예측 또는 검증할 수 있다. 일예로, 음성 검출 장치는 예측된 스피치 의도가 스피치 입력 의도이고 음성 입력이 진행중이 아닌 경우, 2차적으로 예측된 스피치 의도가 스피치 입력 의도임을 확인하고, 예측된 스피치 의도가 스피치 종료 의도이고 음성 입력이 진행중인 경우 2차적으로 예측된 스피치 의도가 스피치 종료 의도임을 확인할 수 있다. 음성 검출 장치는 그 외의 경우에는 이전에 예측된 스피치 의도는 음성 입력과 무관한 동작으로 결정하여 스피치 의도 예측 결과를 무시할 수 있다.

음성 검출 장치는 예측된 스피치 의도가 스피치 입력 의도인 경우, 입력된 음성을 분석하여 음성 구간을 검출하고, 검출된 음성 구간의 음성을 인식한다. 음성 인식 결과에 따라 동작하는 애플리케이션이 동작하여 동작 결과가 사용자에게 제공될 수 있다. 음성 검출 장치가 음성 구간을 검출할 때에는 음향 신호 뿐 아니라 사용자의 발화시 변화가 감지될 수 있는 멀티 모달 정보를 이용할 수 있다. 감지 정보는 영상 정보, 온도 정보 및 진동 정보 중 적어도 하나를 포함할 수 있다.

다른 양상에 따른 음성 검출 방법은 감지된 모션 정보를 이용하여 사용자의 스피치와 관련된 스피치 의도를 예측하고, 예측된 스피치 의도에 기초하여 음성 구간 검출 동작을 제어한다.

일 실시예에 따르면, 모션 정보를 이용하여 또는 모션 정보와 함께 음성 또는 영상 정보 등 멀티모달 정보를 융합하여 사용자의 음성 입력 시작 및 종료 의도를 예측할 수 있으므로 사용자는 특별한 음성 입력 방식을 학습하지 않고도 음성 검출 장치에 음성을 입력할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명의 다양한 실시예를 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 일 실시예에 따른 모션 정보를 이용하는 음성 검출 장치의 구성을 나타내는 도면이다.

음성 검출 장치(100)는 모션 센서(110), 스피치 의도 결정부(120), 음향 센서(130), 제어부(140) 및 멀티 모달 센서부(150)를 포함한다. 음성 검출 장치(100)는 개인용 컴퓨터, 서버 컴퓨터, 휴대용 단말, 셋탑 박스 등 어떤 형태의 장치 또는 시스템으로도 구현될 수 있다.

모션 센서(110)는 모션 정보를 감지하기 위하여 관성 센서, 방향을 감지하는 지자기 센서 및 움직임을 감지하는 가속도 센서 또는 자이로 센서 등을 포함할 수 있다. 일 실시예에 따르면 복수 개의 모션 센서가 사용자의 신체의 일부 부위에 부착되어 모션 정보를 감지할 수 있다.

스피치 의도 결정부(120)는 모션 정보를 이용하여 사용자의 모션을 예측하고, 예측된 모션을 이용하여 스피치와 관련된 스피치 의도를 예측할 수 있다. 스피치 의도 결정부(120)의 상세한 구성 및 동작에 대하여 도 2 및 도 3을 참조하여 후술한다.

제어부(140)는 음성 검출 장치(100)의 각 구성 요소의 동작을 제어하기 위한 애플리케이션, 데이터 및 오퍼레이팅 시스템을 포함할 수 있다. 또한, 제어부(140)는 예측된 스피치 의도를 이용하여 음성 구간 검출을 수행하는 음성 구간 검출부(142)를 포함할 수 있다.

제어부(140)는 음향 센서(130)로부터 수신되는 음향 신호를 디지털 신호로 변환하고, 변환된 디지털 음향 신호를 프레임화할 수 있다. 이러한 기능은 음향 센서(130)에 통합되어 구성될 수 있다. 프레임화의 단위는 샘플링 주파수, 어플리케이션의 종류 등에 의해 결정될 수 있다. 제어부(140)는 프레임화된 음향 신호로부터 알려진 다양한 특징 추출 알고리즘을 이용하여 특징들을 추출 및 분류하여 음성 구간을 검출할 수 있다. 제어부(140)는 음향 신호 뿐 아니라 멀티 모달 센서부(150)에 포함된 영상 센서(151) 및 생체 정보 센서(153)로부터 수신되는 영상 정보나 생체 정보를 함께 이용하여 음성 구간을 검출할 수 있다.

도 2는 도 1의 스피치 의도 결정부의 구성을 나타내는 도면이다.

스피치 의도 결정부(120)는 모션 정보 분석부(210) 및 스피치 의도 예측부(220)를 포함할 수 있다.

모션 정보 분석부(210)는 모션 정보를 분석하여 모션 센서가 부착된 사용자의 신체의 각 부위의 위치 정보 및 각도 정보를 예측할 수 있고, 예측된 위치 정보 및 각도 정보를 이용하여 모션 센서가 부착되지 않은 사용자의 신체의 각 부위의 위치 정보 및 각도 정보도 예측할 수 있다. 예를 들어, 모션 센서(100)가 양 손목 및 머리에 부착된 경우, 센서와 센서간 거리가 측정되고, 각 센서는 기준 좌표계에 대한 3차원 회전각 정보를 얻을 수 있다고 가정한다. 따라서, 모션 정보로부터 손목 부위와 머리 부위 사이의 거리 및 손목의 회전각 정보를 계산하여 손목과 얼굴의 입 부위 사이의 거리 및 손목의 회전각 정보를 계산할 수 있다. 사용자가 손에 음향 검출 장치(100)의 음향 센서(130)에 해당하는 마이크를 잡고 있는 경우를 가정하면, 마이크의 입 사이의 거리와 마이크의 방향이 계산될 수 있다.

또 다른 예를 들어, 모션 센서(110)가 사용자의 머리와 음향 센서에 해당하는 마이크에 장착된 경우, 모션 정보로부터 마이크와 머리 부위 사이의 거리가 측정되고, 마이크에 부착된 관성센서로부터 센서를 부착한 축의 3차원 각도 정보를 획득하여, 손목과 얼굴의 입 부위 사이의 거리 및 마이크의 회전각 정보를 계산할 수 있다.

스피치 의도 예측부(220)는 감지된 모션 정보를 이용하여 사용자의 스피치 의도가 스피치를 입력하려는 스피치 입력 의도인지 스피치를 종료하려는 스피치 종료 의도인지 여부를 예측할 수 있다. 스피치 의도 예측부(220)는 1차 스피치 의도 예측부(222) 및 2차 스피치 의도 예측부(224)를 포함할 수 있다. 1차 스피치 의도 예측부(222)는 감지된 모션 정보를 이용하여 사용자의 스피치 의도를 예측할 수 있으며, 2차 스피치 의도 예측부(224)는 제어부(140)로부터 음성 입력이 진행중이어서 음성이 검출되고 있는지 여부에 대한 정보를 추가적으로 수신하여 1차 스피치 의도 예측부(222)에서 예측된 스피치 의도를 2차적으로 검증할 수 있다.

도 3은 도 2의 스피치 의도 결정부의 예시적인 동작을 나타내는 도면이다.

모션 정보 분석부(210)는 사용자의 머리 및 손목에 장착된 모션 센서로부터 감지된 모션 정보를 이용하여 사용자의 입과 마이크를 잡은 손 사이의 거리를 계산한다(310). 모션 정보 분석부(210)는 손목의 회전 각도로부터 마이크의 방향을 계산한다(320). 1차 스피치 의도 예측부(222)는 거리 및 방향 정보를 이용하여 사용자 스피치 의도 예를 들어, 마이크를 입에 갖다 대는 모션인지 마이크를 입에서 떼는 모션인지를 예측하여 1차적으로 사용자가 스피치하려는 의도인지 여부를 예측한 다(330). 예를 들어, 1차 스피치 의도 예측부(222)는 사용자의 입과 마이크를 잡은 손의 위치가 입 주위 반경 20 cm 이내이고, 마이크 방향이 입을 향하고 있다고 결정되면, 스피치 의도를 스피치를 시작하려는 스피치 입력 의도로 결정할 수 있다.

2차 스피치 의도 예측부(224)는 제어부(140)의 음성 구간 검출부(142)의 동작으로 음향 센서(130)로부터 입력된 음향 신호에서 음성 구간이 검출중인지 여부를 나타내는 정보를 수신하여 음성 입력이 진행중인지 결정할 수 있다.

2차 스피치 의도 예측부(224)는 예측된 스피치 의도가 스피치 입력 의도이고, 음성 입력이 진행중이 아닌 경우(340), 2차적으로 예측된 스피치 의도가 스피치 입력 의도임을 확인한다. 음성 검출 장치(100)의 동작 초기에는 음성 검출이 이루어지지 않을 것이므로 별도의 음성 입력이 진행중인지 결정하기 위한 동작이 수행될 필요가 없을 것이다.

2차 스피치 의도 예측부(224)는 예측된 스피치 의도가 스피치 종료 의도이고 음성 입력이 진행중인 경우(350), 2차적으로 예측된 스피치 의도가 스피치 종료 의도임을 확인한다. 2차 스피치 의도 예측부(224)는 그 외의 경우에는(350), 예측된 스피치 의도는 음성 입력과 무관한 비연관 동작으로 결정하여 1차 스피치 의도 예측부(222)에서 예측된 스피치 모드를 무시할 수 있다.

도 4는 일 실시예에 따른 음성 검출 장치에서 결정된 스피치 의도에 따른 제어부(140)의 동작을 나타내는 도면이다.

제어부(140)는 스피치 의도 결정부(120)로부터 수신된 스피치 의도 정보가 스피치 입력 의도를 나타내면(410), 음향 센서(130)을 활성화하여 음향 신호를 입력받는다(420).

제어부(140)의 음성 검출부(142)는 입력받은 음향 신호로부터 특징들을 추출하고, 특징들을 분석하여 특징에 기반하여 음향 신호로부터 음성 구간을 추출하기 위하여 특징 분류 동작을 수행할 수 있다(430).

음향 특징으로서 마이크로부터 입력받은 음향 신호에서 시간 에너지(Time Energy), 주파수 에너지(Frequency Energy), 영교차율(Zero Crossing Rate), LPC(Linear Predictive Coding), 셉스트럴 계수(Cepstral coefficients), 피치(pitch) 등 시간 영역의 특징이나 주파수 스펙트럼과 같은 통계적 특징 등이 추출될 수 있다. 추출될 수 있는 특징은 이들에 한정되지 않고 다른 특징 알고리즘에 의해 추출될 수 있다. 추출된 특징은 결정 트리(Decision Tree), 지원 벡터 머신(Support Vector Machine), 베이에시안 네트워크(Bayesian Network), 신경망(Neural Network)와 같은 분류 및 학습 알고리즘 등을 사용하여 입력 특징 음성(speech) 활동 클래스인지, 비음성(non-speech) 활동 클래스인지를 분류될 수 있으나, 이에 한정되지 않는다.

따라서, 일 실시예에 따르면, 사용자의 모션 정보를 이용하여 스피치 의도를 예측하고, 예측 결과에 따라 음성 검출 동작의 수행을 제어할 수 있으므로 음성 인터페이스 사용시 사용자가 음성 입력 방법 예를 들어 사용자가 음성 입력을 위한 별도의 버튼이나 화면 터치 등의 동작 방법 등을 별도로 학습하지 않고도 직관적으로 음성을 입력할 수 있다.

또한, 예측된 스피치 의도가 스피치 입력 의도인 경우, 음성 검출부(142)는 영상 센서(151)로부터 입력되는 영상 정보와 생체 정보 센서(153)로부터 입력되는 사람이 음성을 발화할 때 변화되는 적어도 하나의 감지 정보 중 적어도 하나를 음향 신호로부터 추출된 특징 정보와 함께 이용하여 음성 구간을 검출하고, 검출된 음성 구간의 음성을 처리할 수 있다. 여기에서, 감지 정보는 사용자의 입 모양 변화 등 나타내는 영상 정보, 발화시 나오는 입김 등에 의해 변화하는 온도 정보 및 발화시 진동하는 목구멍 또는 턱뼈 등 신체 부위의 진동 정보, 발화시 얼굴이나 입에서 나오는 적외선 감지 정보 중 적어도 하나를 포함할 수 있다.

음성 구간 검출부(142)는 음성 구간이 검출되면(440), 검출된 음성 구간에 속한 음성 신호를 처리하여 음성 인식을 수행하고, 음성 인식 결과를 이용하여 응용 모듈을 전환시킨다(450). 예를 들어, 인식 결과에 따를 애플리케이션이 실행되어, 이름이 인식되면, 인식된 이름에 대한 전화번호가 검색되거나, 검색된 전화번호로 전화를 거는 동작 등 지능적인 음성 입력 시작 및 종료 전환이 가능해질 수 있다. 또한, 모바일 커뮤니케이션 디바이스는 멀티 모달 신호에 기반하여 음성 통화 시작 및 종료 의도를 파악하여 사용자가 통화 버튼을 누르는 등 별도의 동작을 하지 않더라도 자동으로 음성 통화 모드로 동작 모드가 전환될 수 있다.

음성 구간이 검출되지 않으면(440), 음향 센서(130) 및 멀티 모달 센서부(150) 등 음향 신호 입력 및 음성 구간 검출을 수행하는 모듈들을 비활성화할 수 있다(460).

제어부(140)는 스피치 의도 결정부(120)로부터 수신된 스피치 의도 정보가 스피치 종료 의도를 나타내면(410), 이미 활성화되어 있는 음향 센서(130)로부터 받은 음향 신호로부터 특징 기반으로 신호를 분류하고(430), 음성 구간이 검출되는지 여부를 확인한다(440). 이후 프로세스는 스피치 의도가 스피치 입력 의도인 경우와 같이 음성 구간이 검출되면 음성 인식 결과를 이용하여 응용 모듈을 전환시킬 수 있고(450), 음성 구간이 검출되지 않으면 센서 모듈들을 비활성화할 수 있다(460).

도 5는 도 1의 음성 구간 검출부(142)의 구성을 나타내는 도면이다.

음성 구간 검출부(142)는 음향 특징 추출부(510), 음향 특징 분석부(520), 영상 특징 추출부(530), 영상 특징 분석부(540) 및 통합 분석부(550)를 포함할 수 있다.

음향 특징 추출부(510)는 음향 신호로부터 음향 특징을 추출한다. 음향 특징 분석부(520)는 음향 특징들에 분류 및 학습 알고리즘을 적용하여 음성 구간을 추출한다. 영상 특징 추출부(530)는 일련의 영상 신호로부터 영상 특징을 추출한다. 영상 특징 분석부(540)는 추출된 영상 특징들에 분류 및 학습 알고리즘을 적용하여 음성 구간을 추출한다.

통합 분석부(550)는 음향 신호와 영상 신호에 의해 각각 분류된 결과를 융합하여 최종적으로 음성 구간을 검출한다. 이때, 음향 특징 및 영상 특징을 개별적으로 적용하거나 두 특징을 융합하여 적용할 수 있으며, 다른 신호 예를 들어, 진동, 온도 등을 나타내는 신호로부터 특징이 추출 및 분석되는 경우, 통합 분석부(550)에서 음향 신호 및 영상 신호로부터 추출된 검출 정보와 융합하여 음성 구 간이 검출될 수 있다.

일 실시예에 따르면, 음성 인터페이스 사용시 사용자가 음성 입력 방법을 별도로 학습하지 않고도 직관적으로 음성을 입력할 수 있다. 일 예로, 사용자가 음성 입력을 위한 별도의 버튼이나 화면 터치 등의 동작을 할 필요가 없다. 또한, 가정 잡음, 차량 잡음, 비화자 잡음 등 잡음의 종류나 정도 등에 관계없이 다양한 잡은 환경에서 정확한 사용자 음성 구간 검출을 할 수 있다. 또한, 영상 이외에도 다른 생체 정보를 이용하여 음성 검출을 할 수 있으므로 조명이 너무 밝거나 어두운 경우 또는 사용자 입이 가려지는 상황에서도 사용자의 음성 구간을 정확하게 검출할 수 있다.

도 6은 일 실시예에 따른 모션 정보를 이용하는 음성 검출 방법을 나타내는 도면이다.

음성 검출 장치(100)는 적어도 하나의 모션 센서로부터 모션 정보를 감지한다(610).

음성 검출 장치(100)는 감지된 모션 정보를 이용하여 스피치와 관련된 스피치 의도를 예측한다(620). 음성 검출 장치(100)는 스피치 의도를 예측하기 위해서는 감지된 모션 정보로부터 사람 모델의 위치 및 각도 정보를 예측하고, 예측된 위치 및 각도 정보를 이용하여 스피치 의도를 예측할 수 있다. 또한, 음성 검출 장치(100)는 음성 입력이 진행중인지 여부에 대한 정보를 추가적으로 수신하여 예측된 스피치 의도를 검증할 수 있다.

음성 검출 장치(100)는 예측된 스피치 의도에 기초하여 음성 구간 검출 동작 을 제어한다(630). 이때, 음성 검출 장치(100)는 예측된 스피치 의도가 스피치 입력 의도인 경우, 음향 신호로부터 추출된 특징 정보 처리 결과와 함께 생체 정보 감지 센서로부터 감지되는 사람이 음성을 발화할 때 변화되는 적어도 하나의 감지 정보를 이용하여 음성 구간을 검출하고, 음성 구간의 음성을 처리할 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

Claims

적어도 하나의 모션 센서로부터 감지된 모션 정보를 이용하여 사용자의 스피치와 관련된 스피치 의도를 예측하는 스피치 의도 결정부; 및

상기 예측된 스피치 의도에 기초하여 입력되는 음향 신호로부터 음성 구간을 검출하는 동작을 제어하는 제어부를 포함하는 음성 검출 장치.
제1항에 있어서,

상기 스피치 의도 결정부는 사용자의 머리 및 손목에 장착된 모션 센서들로부터 감지된 모션 정보를 이용하여 사용자의 입과 마이크를 잡은 손 사이의 거리를 예측하고, 손목에 장착된 모션 센서에서 감지된 회전 각도로부터 마이크의 방향을 계산하고, 상기 거리 및 방향을 이용하여 상기 스피치 의도를 예측하는 음성 검출 장치.
제1항에 있어서,

상기 스피치 의도 결정부는 상기 모션 정보를 이용하여 상기 사용자가 스피치를 입력하려는 스피치 입력 의도인지 스피치를 종료하려는 스피치 종료 의도인지를 예측하는 음성 검출 장치.
제3항에 있어서,

상기 스피치 의도 결정부는 상기 제어부로부터 음성 입력이 진행중인지 여부에 대한 정보를 수신하여 상기 예측된 스피치 의도를 검증하는 음성 검출 장치.
제4항에 있어서,

상기 스피치 의도 결정부는 상기 예측된 스피치 의도가 스피치 입력 의도이고 음성 입력이 진행중이 아닌 경우, 2차적으로 상기 예측된 스피치 의도가 스피치 입력 의도임을 확인하고, 상기 예측된 스피치 의도가 스피치 종료 의도이고 음성 입력이 진행중인 경우 2차적으로 상기 예측된 스피치 의도가 스피치 종료 의도임을 확인하고, 그 외의 경우에는 상기 예측된 스피치 의도는 음성 입력과 무관한 동작으로 결정하는 음성 검출 장치.
제3항에 있어서,

상기 제어부는 상기 예측된 스피치 의도가 스피치 입력 의도인 경우, 음향 센서를 활성화함으로써 입력되는 음향 신호를 분석하여 음성 구간을 검출하고, 검출된 음성 구간의 음성을 인식하는 음성 검출 장치.
제3항에 있어서,

상기 제어부는 상기 예측된 스피치 의도 정보가 스피치 종료 의도를 나타내면, 이미 활성화되어 있는 음향 센서로부터 입력된 음향 신호를 분석하여, 음성 구간이 검출되는지 확인하는 음성 검출 장치.
제1항에 있어서,

사람이 음성을 발화할 때 변화되는 적어도 하나의 감지 정보를 감지하는 멀티 모달 센서부를 더 포함하고,

상기 제어부는 상기 멀티 모달 센서부로부터 감지되는 적어도 하나의 감지 정보를 이용하여 입력되는 음향 신호로부터 음성 구간을 검출하는 음성 검출 장치.
제8항에 있어서,

상기 감지 정보는 영상 정보, 온도 정보 및 진동 정보 중 적어도 하나를 포함하는 음성 검출 장치.
적어도 하나의 모션 센서로부터 감지된 모션 정보를 이용하여 사용자의 스피치와 관련된 스피치 의도를 예측하는 단계; 및

상기 예측된 스피치 의도에 기초하여 음성 구간을 검출하는 동작을 제어하는 단계를 포함하는 음성 검출 방법.
제10항에 있어서,

상기 스피치 의도를 예측하는 단계는,

사용자의 머리 및 손목에 장착된 모션 센서들로부터 감지된 모션 정보를 이용하여 사용자의 입과 마이크를 잡은 손 사이의 거리를 예측하고, 손목에 장착된 모션 센서에서 감지된 회전 각도로부터 마이크의 방향을 계산하는 단계; 및

상기 거리 및 방향을 이용하여 상기 스피치 의도를 예측하는 단계를 포함하는 음성 검출 방법.
제10항에 있어서,

상기 스피치 의도를 예측하는 단계에서, 상기 감지된 모션 정보를 이용하여 상기 사용자가 스피치를 입력하려는 스피치 입력 의도인지 스피치를 종료하려는 스피치 종료 의도인지를 예측하는 음성 검출 방법.
제12항에 있어서,

상기 스피치 의도를 예측하는 단계에서, 음성 입력이 진행중인지 여부에 대한 정보를 추가적으로 이용하여 상기 예측된 스피치 의도를 검증하는 음성 검출 방법.
제13항에 있어서,

상기 스피치 의도를 검증하는 단계는,

상기 예측된 스피치 의도가 스피치 입력 의도이고 음성 입력이 진행중이 아닌 경우, 2차적으로 상기 예측된 스피치 의도가 스피치 입력 의도임을 확인하는 단계;

상기 예측된 스피치 의도가 스피치 종료 의도이고 음성 입력이 진행중인 경 우, 2차적으로 상기 예측된 스피치 의도가 스피치 종료 의도임을 확인하는 단계; 및

그 외의 경우에는 상기 예측된 스피치 의도는 음성 입력과 무관한 동작으로 결정하는 단계를 포함하는 음성 검출 방법.
제12항에 있어서,

상기 예측된 스피치 의도가 스피치 입력 의도인 경우, 입력되는 음향 신호로부터 검출된 음성 구간의 음성을 인식 결과를 이용하여 응용 모듈을 실행하는 단계를 더 포함하는 음성 검출 방법.
제12항에 있어서,

상기 예측된 스피치 의도 정보가 스피치 종료 의도를 나타내면, 이미 활성화되어 있는 음향 센서로부터 입력된 음향 신호를 분석하여, 음성 구간이 검출되는지 확인하는 음성 검출 방법.
제10항에 있어서,

상기 입력되는 음향 신호로부터 음향 특징 정보 및 사람이 음성을 발화할 때 변화되는 적어도 하나의 감지 정보를 이용하여 음성 구간을 검출하는 단계를 더 포함하는 음성 검출 방법.
제17항에 있어서,

상기 감지 정보는 영상 정보, 온도 정보 및 진동 정보 중 적어도 하나를 포함하는 음성 검출 방법.