KR20100003672A

KR20100003672A - 영상정보를 이용한 음성인식 장치 및 방법

Info

Publication number: KR20100003672A
Application number: KR1020080063669A
Authority: KR
Inventors: 고우현; 한재성; 이상무; 남경태; 심준홍; 차남주; 김순기; 신수정; 지상훈
Original assignee: (주)디유넷; 한국생산기술연구원
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2010-01-11

Abstract

본 발명은 영상정보를 이용한 음성인식 장치 및 방법에 관한 것으로서, 이 방법은, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고 설정된 음성인식 변수를 이용하여 화자로부터 입력 받은 음성정보를 인식하는 단계를 포함한다. 본 발명에 의하면 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 각각에 최적화된 음성인식 변수를 설정하므로 인식률을 향상시킬 수 있다.

음성, 영상, 인식, 파라미터, 변수

Description

영상정보를 이용한 음성인식 장치 및 방법{SPEECH RECOGNITION APPARATUS AND METHOD USING VISUAL INFORMATION}

본 발명은 영상정보를 이용한 음성인식 장치 및 방법에 관한 것으로, 보다 상세하게는 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 이에 대응되는 음성인식 변수를 설정하는 영상정보를 이용한 음성인식 장치 및 방법에 관한 것이다.

가전제품, 컴퓨터 등의 전자제품과 자동차, 로봇 등을 조작하기 위해 사용자는 버튼, 키보드, 마우스 등의 수단을 사용하고 있다. 그러나 이러한 조작 방법은 장애인이나 노약자가 사용하기에는 많은 불편함이 있다. 그래서 조작의 편의성을 높이기 위해 사용자의 음성을 통해 전자제품과 자동차, 로봇 등을 조작하는 음성인식 기술이 개발되고 있는 상황이다.

이러한 음성인식 기술에 있어서 가장 중요한 부분은 인식률을 높이는 것이다. 아동의 경우 음성 주파수가 성인에 비해 높고, 변화가 심하며, 발성속도도 느리고, 발음이 불명확하기 때문에 음성을 인식하는데 많은 어려움이 있다. 이러한 문제점을 극복하기 위하여 음성을 이용하여 성인과 아동으로 분류하고, 각각에 맞 도록 음성인식 변수를 최적화하여 인식률을 향상시키는 다양한 음성인식 기술이 개발되고 있다.

그러나 음성만을 이용하여 분류할 경우, 외부 환경에 의한 잡음과 유사음성이 부정적으로 영향을 미쳐서 성인과 아동으로 분류하는데 어려움이 있다. 따라서 다른 정보를 이용해 성인과 아동으로 분류하고, 각각에 맞도록 음성인식 변수를 설정하는 기술의 개발이 필요하다.

본 발명이 해결하고자 하는 과제는 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 이에 대응되는 음성인식 변수를 설정하는 영상정보를 이용한 음성인식 장치 및 방법을 제공하는 것이다.

이러한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법은, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고 상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 단계를 포함한다.

상기 영상정보를 기초로 음성인식 변수 설정 단계는, 상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 단계, 그리고 식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함할 수 있다.

상기 화자 식별 단계는, 상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 것으로 이루어지고, 상기 변수 설정 단계는, 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 것으로 이루어질 수 있다.

상기 영상정보를 기초로 음성인식 변수 설정 단계는, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 단계, 그리고 식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 단계 를 포함할 수 있다.

상기 음성인식 변수는, 상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수일 수 있다.

상기 음성인식 변수는, 인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수일 수 있다.

상기 영상정보로부터 추출된 특징은, 눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함할 수 있다.

본 발명의 다른 실시예에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.

본 발명의 다른 실시예에 따른 영상정보를 이용한 음성인식 장치는, 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 변수 설정부, 그리고 상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 음성 인식부를 포함한다.

상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 영상 식별부를 더 포함하며, 상기 변수 설정부는, 식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.

상기 영상 식별부는, 상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 동작을 수행하고, 상기 변수 설정부는, 상기 화자의 연령 또는 성별에 대응되 는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.

상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 영상 식별부를 더 포함하며, 상기 변수 설정부는, 식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행할 수 있다.

이와 같이 본 발명에 의하면, 영상정보로부터 화자 또는 화자의 연령, 성별을 식별하여, 각각에 최적화된 음성인식 변수를 설정하므로 인식률을 향상시킬 수 있다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

먼저, 도 1를 참고하여 본 발명의 한 실시예에 따른 영상정보를 이용한 음성 인식 장치에 대하여 상세하게 설명한다.

도 1은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 장치를 설명하기 위한 블록도이다.

도 1을 참고하면, 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 장치(100)는 화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정한다. 그러면 음성인식 장치(100)는 음성인식 변수를 이용하여 화자의 음성정보를 입력 받아 인식할 수 있다. 여기서 음성인식 장치(100)는 입력부(110), 출력부(120), 영상 식별부(130), 음성 인식부(140), 변수 설정부(150), 변수 DB(160) 및 식별 DB(170)를 포함할 수 있다.

음성인식 변수(Parameter)에는 최저 음성 변수와 신뢰도 변수가 있다. 최저 음성 변수는 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수이다. 예를 들어, 최저 음성 변수의 값이 작게 설정되면, 작은 목소리도 인식할 수 있으나 잡음의 영향이 증가하여 인식률이 낮아질 수 있다. 신뢰도 변수는 인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수이다. 예를 들어, 신뢰도 변수의 값이 크게 설정되면, 신뢰도는 높아지나 정확한 발음에도 거절되어 인식률이 낮아질 수 있다.

예를 들어, 성인의 경우 음성인식 변수 값이 큰 경우에 높은 인식률을 나타낸다. 반면에, 아동의 경우 작은 목소리와 불명확한 발음 특성상 음성인식 변수 값이 작은 경우에 높은 인식률을 나타낸다. 따라서 화자에 따라 음성인식 변수 값을 다르게 설정하면 인식률을 높이는 것이 가능하다.

입력부(110)는 화자의 영상을 카메라 등의 촬영 수단을 통해 입력 받는다. 또한 입력부(110)는 화자의 음성을 마이크 등의 입력 수단을 통해 입력 받는다. 한편, 입력부(110)는 외부 장치(도시하지 않음)에서 화자의 영상 또는 음성을 입력 받을 수도 있다.

출력부(120)는 화면에 표시 또는 음성으로 출력하는 등의 방법을 통해 입력 받은 영상정보에 대한 식별 결과 또는 음성정보에 대한 인식 결과를 제공한다. 또한 출력부(120)는 인식된 음성정보에 대응하는 메시지 등을 출력할 수 있다. 한편, 출력부(120)는 식별 결과, 인식 결과 또는 메시지 등을 외부 장치(도시하지 않음)로 제공할 수도 있다.

영상 식별부(130)는 영상정보로부터 추출된 특징을 기준으로 화자의 연령 또는 성별을 식별할 수 있다.

한편 실시예에 따라서 영상 식별부(130)는 입력 받은 영상정보로부터 화자를 식별할 수도 있다. 즉, 영상 식별부(130)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다. 여기서 영상정보로부터 추출된 특징은 눈, 코, 귀, 입 등의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입 등의 길이 또는 폭), 얼굴의 골격, 주름 등을 의미한다. 이 경우 영상 식별부(130)는 영상정보로부터 추출된 특징에 대응되는 화자가 식별 DB(170)에 존재하지 않으면, 추출된 특징을 기준으로 화자의 연령 또는 성별을 식별하도록 구현할 수도 있다.

음성 인식부(140)는 설정된 음성인식 변수를 이용하여 화자의 음성을 인식한 다.

변수 설정부(150)는 영상 식별부(130)에서 식별된 화자에 대응되는 음성인식 변수를 설정한다. 즉, 변수 설정부(150)는 식별된 화자에 대응되는 음성인식 변수 값이 존재하는지 검색할 수 있다. 그리고 음성인식 변수 값이 존재하면, 변수 설정부(150)는 이를 변수 DB(160)에 저장하여 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다. 또한, 변수 설정부(150)는 영상 식별부(130)에서 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정할 수 있다.

이하 도 2를 참고하여 음성인식 변수를 설정하는 부분에 대해 보다 자세히 설명한다.

(가)는 영상정보로부터 추출된 특징으로 화자를 식별할 수 있는 경우에 사용되는 테이블 정보이다. 예를 들어, 식별된 화자가 손오공인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 4.5, 신뢰도 변수 값은 -0.5로 설정할 수 있다.

(나)는 영상정보로부터 추출된 특징으로 화자의 연령을 식별하는 경우에 사용되는 테이블 정보이다. 예를 들어, 식별된 화자의 연령이 15세(아동)인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 4.5, 신뢰도 변수 값은 1.5로 설정할 수 있다.

(다)는 영상정보로부터 추출된 특징으로 화자의 성별을 식별하는 경우에 사 용되는 테이블 정보이다. 예를 들어, 식별된 화자의 성별이 여자인 경우에 이에 대응되는 음성인식 변수 값을 테이블 정보로부터 검색하여 이를 음성인식 시 이용되는 음성인식 변수 값으로 설정할 수 있다. 즉, 최저 음성 변수 값은 6, 신뢰도 변수 값은 -1.5로 설정할 수 있다.

물론, 화자의 연령과 성별을 조합하여, 이에 대응되는 음성인식 변수 값이 저장된 테이블 정보로 구현할 수도 있다. 예를 들어, 화자가 성인이고 남자, 화자가 성인이고 여자, 화자가 아동이고 남자 또는 화자가 아동이고 여자인 경우, 각각에 대응되는 음성인식 변수 값이 저장된 테이블 정보도 가능하다.

다시 도 1을 참고하면, 변수 DB(160)는 화자 식별 정보, 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장하고 있다. 그리고 변수 DB(160)는 현재 설정된 음성인식 변수 값을 저장하고 있다. 또한 변수 DB(160)는 연령 또는 성별, 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장하고 있다.

식별 DB(170)는 영상정보로부터 추출된 특징, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 등을 저장하고 있다. 또한 식별 DB(170)는 영상정보로부터 추출된 특징, 이에 대응되는 연령 또는 성별 등을 저장하고 있다.

그러면 도 3을 참고하여, 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법에 대해 보다 상세히 설명한다.

도 3은 본 발명의 한 실시예에 따른 영상정보를 이용한 음성인식 방법을 설명하기 위한 흐름도이다.

먼저 음성인식 장치(100)는 화자의 영상정보를 기초로 화자를 식별하는 데 이용되는 식별 DB(170)를 구축한다(S100). 그리고 음성인식 장치(100)는 식별된 화자에 최적화된 음성인식 변수 값을 실험적으로 구해 변수 DB(160)를 구축한다(S130).

그러면 음성인식 장치(100)는 화자의 영상을 카메라 등의 촬영 수단을 통해 입력 받은 화자의 영상정보를 기초로 음성인식 변수를 설정한다(S150). 한편, 음성인식 장치(100)는 외부의 장치(도시하지 않음)에서 화자의 영상을 입력 받을 수도 있다. 이후 음성인식 장치(100)는 설정된 음성인식 변수를 이용하여 마이크 등의 입력 수단을 통해 입력 받은 화자의 음성을 인식한다(S170).

이하 도 4 내지 도 6을 참고하여, 앞서 살펴본 단계(S150)에 대해 보다 자세히 설명한다.

도 4는 본 발명의 한 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.

식별 DB 구축 단계(S100)에서 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서 음성인식 장치(100)는 미리 식별된 화자에 최적화된 음성인식 변수 값을 실험적으로 구해, 화자 식별 정보와 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.

먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자를 식별한다(S151). 즉, 음성인식 장치(100)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다.

다음으로 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수를 설정한다(S152). 즉, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다.

도 5는 본 발명의 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.

식별 DB 구축 단계(S100)에서 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 연령 또는 성별 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서 음성인식 장치(100)는 미리 연령 또는 성별에 최적화된 음성인식 변수 값을 실험적으로 구해, 연령 또는 성별과 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.

먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자의 연령 또는 성별을 식별한다(S155). 즉, 음성인식 장치(100)는 영상정보로부터 추출된 특징을 기준으로 식별 DB(170)를 참조하여 화자의 연령 또는 성별을 식별할 수 있다.

다음으로 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정한다(S156). 즉, 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자의 연령 또는 성별에 맞게 갱신할 수 있다.

도 6은 본 발명의 또 다른 실시예에 따른 음성인식 변수 설정 방법을 설명하기 위한 흐름도이다.

식별 DB 구축 단계(S100)에서, 음성인식 장치(100)는 미리 영상정보로부터 특징을 추출하여, 이에 대응되는 화자 이름 또는 ID 등의 화자 식별 정보 또는 이에 대응되는 연령 또는 성별 등을 저장할 수 있다. 또한 변수 DB 구축 단계(S130)에서, 음성인식 장치(100)는 미리 식별된 화자, 연령 또는 성별에 최적화된 음성인식 변수 값을 실험적으로 구해, 화자 식별 정보, 연령 또는 성별과 이에 대응되는 음성인식 변수 값 등의 테이블 정보를 저장할 수 있다.

먼저 음성인식 장치(100)는 입력 받은 영상정보로부터 화자를 식별한다(S161). 즉, 음성인식 장치(100)는 영상정보로부터 특징을 추출하여 이에 대응되는 화자가 존재하는지 식별 DB(170)를 검색할 수 있다.

화자가 식별된 경우(S162-Y)에는, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수를 설정한다(S163). 즉, 음성인식 장치(100)는 식별된 화자에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자에 맞게 갱신할 수 있다.

반면에, 화자가 식별되지 않는 경우(S162-N)에는, 음성인식 장치(100)는 입력 받은 영상정보로부터 화자의 연령 또는 성별을 식별한다(S164). 즉, 음성인식 장치(100)는 영상정보로부터 추출된 특징을 기준으로 식별 DB(170)를 참조하여 화자의 연령 또는 성별을 식별할 수 있다.

다음으로 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수를 설정한다(S165). 즉, 음성인식 장치(100)는 식별된 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 검색하여, 현재 설정된 음성인식 변수 값을 화자의 연령 또는 성별에 맞게 갱신할 수 있다.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 영상정보를 이용한 음성인식 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

도 2는 화자, 화자의 연령 또는 성별에 대응되는 음성인식 변수 값을 저장하고 있는 테이블 정보를 설명하기 위한 표이다.

<도면의 주요 부분에 대한 부호의 설명>

100: 음성인식 장치, 110: 입력부,

120: 출력부, 130: 영상 식별부,

140: 음성 인식부, 150: 변수 설정부,

160: 변수 DB, 170: 식별 DB

Claims

화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 단계, 그리고

상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 단계

를 포함하는 영상정보를 이용한 음성인식 방법.
제1항에서,

상기 영상정보를 기초로 음성인식 변수 설정 단계는,

상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 단계, 그리고

식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함하는 영상정보를 이용한 음성인식 방법.
제2항에서,

상기 화자 식별 단계는,

상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 것으로 이루어지고,

상기 변수 설정 단계는,

상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 것으로 이루어진 영상정보를 이용한 음성인식 방법.
제1항에서,

상기 영상정보를 기초로 음성인식 변수 설정 단계는,

상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 단계, 그리고

식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 단계를 포함하는 영상정보를 이용한 음성인식 방법.
제1항 내지 제4항 중 어느 한 항에서,

상기 음성인식 변수는,

상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수인 영상정보를 이용한 음성인식 방법.
제1항 내지 제4항 중 어느 한 항에서,

상기 음성인식 변수는,

인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수인 영상정보를 이용한 음성인식 방법.
제1항 내지 제4항 중 어느 한 항에서,

상기 영상정보로부터 추출된 특징은,

눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함하는 영상정보를 이용한 음성인식 방법.
컴퓨터에 제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
화자를 촬영한 영상정보를 기초로 음성인식 변수를 설정하는 변수 설정부, 그리고

상기 설정된 음성인식 변수를 이용하여 상기 화자로부터 입력 받은 음성정보를 인식하는 음성 인식부

를 포함하는 영상정보를 이용한 음성인식 장치.
제9항에서,

상기 영상정보로부터 추출된 특징에 대응되는 상기 화자를 식별하는 영상 식별부를 더 포함하며,

상기 변수 설정부는,

식별된 상기 화자에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하 는 영상정보를 이용한 음성인식 장치.
제10항에서,

상기 영상 식별부는,

상기 영상정보로부터 상기 화자가 식별되지 않는 경우, 상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 동작을 수행하고,

상기 변수 설정부는,

상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하는 영상정보를 이용한 음성인식 장치.
제9항에서,

상기 영상정보로부터 추출된 특징을 기준으로 상기 화자의 연령 또는 성별을 식별하는 영상 식별부를 더 포함하며,

상기 변수 설정부는,

식별된 상기 화자의 연령 또는 성별에 대응되는 상기 음성인식 변수를 설정하는 동작을 수행하는 영상정보를 이용한 음성인식 장치.
제9항 내지 제12항 중 어느 한 항에서,

상기 음성인식 변수는,

상기 입력 받은 음성정보로부터 잡음을 분리할 때 사용되는 변수인 영상정보 를 이용한 음성인식 장치.
제9항 내지 제12항 중 어느 한 항에서,

상기 음성인식 변수는,

인식 대상이 아닌 어휘가 인식된 경우 거절할 때 이용되는 인식어휘에 대한 신뢰도를 의미하는 변수인 영상정보를 이용한 음성인식 장치.
제9항 내지 제12항 중 어느 한 항에서,

상기 영상정보로부터 추출된 특징은,

눈, 코, 귀, 입의 굴곡에 의한 명암의 차이, 변수들의 비(여기서 변수는 눈, 코, 귀, 입의 길이 또는 폭), 얼굴의 골격, 주름 중 적어도 하나를 포함하는 영상정보를 이용한 음성인식 장치.