KR20050030906A

KR20050030906A - 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법

Info

Publication number: KR20050030906A
Application number: KR1020050011215A
Authority: KR
Inventors: 장성주
Original assignee: 한국정보통신대학교 산학협력단
Priority date: 2005-02-07
Filing date: 2005-02-07
Publication date: 2005-03-31
Also published as: KR100728620B1

Abstract

본 발명은 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법에 관한 것이다. 이러한 집합적 음성인식 시스템은 외부에서 발생되는 음성을 인식하여 출력하는 복수의 개별 음성인식부; 및 복수의 개별 음성인식부와 각각 무선 또는 유선으로 접속되며, 복수의 개별 음성인식부에서 각각 인식되어 출력되는 음성들을 받아서 결합하여 최종으로 인식된 음성을 결정하는 집합 음성인식부를 포함한다. 여기서, 집합 음성인식부는 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정한다. 대안으로, 복수의 개별 음성인식부는 인식 대상의 음성을 발생한 외부의 화자(話者)까지의 거리를 측정하여 집합 음성인식 시스템으로 각각 출력하고, 집합 음성인식부는 복수의 개별 음성인식부에서 측정된 화자까지의 거리 정보들에 기반하여 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정한다. 본 발명에 따르면, 다수의 모듈에 구비된 음성인식 엔진에 의해 인식된 음성인식 결과를 빈도수 또는 화자의 위치에 기반한 빈도수에 기초하여 최종 음성인식 결과를 획득함으로써 보다 향상된 음성 인식율을 제공할 수 있다.

Description

집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법{SYSTEM FOR COLLECTIVELY RECOGNIZING SPEECH AND METHOD THEREOF}

본 발명은 음성인식 시스템에 관한 것으로, 보다 구체적으로는 다수의 모듈을 사용하여 음성인식을 수행할 때 개별 모듈에서 각각 인식된 음성을 집합하여 최종으로 음성을 인식하는 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법에 관한 것이다.

최근 정보 기술 및 디스플레이 기술의 발전과 더불어 이용자와의 다양한 상호 작용을 매개하는 여러 형태의 인터페이스가 개발되어 소개되고 있다.

이들 중 하나의 형태로, 센서를 기반으로 하는 다수의 셀 또는 모듈(이하 "모듈"이라 함)이 벽면을 형성하여 이용자에 대한 인터페이스를 제공하는 기술이 있으며, 이것을 지능형 건축 표면(Smart Architectural Surface)이라고 한다.

이러한 지능형 디지털 벽면을 포함하여 다수의 모듈을 이용자에 대한 인터페이스로 사용하는 시스템에서 음성인식 인터페이스는 단일의 모듈을 통하여 수행된다.

한편, 최근의 음성인식 기술은 일부 국가를 중심으로 구체적인 응용 분야가 개척되어오고 있고 멀티모드/멀티미디어 환경속에서의 다른 미디어와 통합에 관한 연구가 활발하게 진행되고 있다. 그러나, 기본적으로는 자연 언어에 가까운 음성인식률을 얻기가 어려워 상기한 다수의 모듈을 사용하는 시스템에서 단일의 모듈을 통한 음성인식률은 각 모듈의 음성인식률의 한계에 좌우된다. 따라서, 다수의 모듈을 사용하는 시스템에서는 음성인식 인터페이스의 음성인식률을 높이기 위해 각 모듈의 음성인식률이 좋아야 하므로 결과적으로는 음성인식률을 높이기 위해 많은 비용이 소모되는 문제점이 있다.

따라서 본 발명의 목적은 상기한 종래의 문제점을 해결하기 위한 것으로, 다수의 모듈을 인터페이스로 사용하는 시스템에서 각 모듈에 구비된 음성인식 엔진에 의해 인식된 음성인식 결과를 집합하여 최종 음성인식 결과를 획득하는 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법을 제공하는 데 있다.

상기한 목적을 달성하기 위하여 본 발명의 특징에 따른 집합적 음성인식 시스템은,

외부에서 발생되는 음성을 인식하여 출력하는 복수의 개별 음성인식부; 및 상기 복수의 개별 음성인식부와 각각 무선 또는 유선으로 접속되며, 상기 복수의 개별 음성인식부에서 각각 인식되어 출력되는 음성들을 받아서 결합하여 최종으로 인식된 음성을 결정하는 집합 음성인식부를 포함한다.

여기서, 상기 집합 음성인식부는, 상기 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정하는 것을 특징으로 한다.

또한, 상기 복수의 개별 음성인식부는 인식 대상의 음성을 발생한 외부의 화자(話者)까지의 거리를 측정하여 상기 집합 음성인식 시스템으로 각각 출력하고, 상기 집합 음성인식부는 상기 복수의 개별 음성인식부에서 측정된 화자까지의 거리 정보들에 기반하여 상기 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정하는 것을 특징으로 한다.

본 발명의 다른 특징에 따른 집합적 음성인식 방법은,

a) 음성 인식이 가능한 음성인식 엔진을 구비한 복수의 개별 음성인식부가 외부에서 발생되는 음성을 인식하여 출력하는 단계; 및 b) 상기 복수의 개별 음성인식부로부터 인식된 음성을 전달받는 집합 음성인식부가 상기 인식된 음성들을 결합하여 최종으로 인식된 음성을 결정하는 단계를 포함한다.

여기서, 상기 b) 단계는, i) 상기 복수의 개별 음성인식부 중 하나 이상으로부터 인식된 음성이 있는 지의 여부를 판단하는 단계; ii) 상기 i) 단계에서 인식된 음성이 있는 것으로 판단되는 경우, 상기 인식된 음성을 저장하는 단계; iii) 상기 저장된 인식된 음성들의 빈도수를 각각 산출하는 단계; 및 iv) 상기 산출된 빈도수가 가장 높은 인식된 음성을 결정하는 단계를 포함한다.

또한, 상기 a) 단계는, i) 외부에서 발생되는 음성을 인식하는 단계; ii) 상기 인식된 음성을 발생한 화자까지의 거리를 측정하는 단계; 및 iii) 상기 인식된 음성과 상기 측정된 거리 정보를 상기 집합 음성인식부로 전달하는 단계를 포함하고, 상기 b) 단계는, i) 상기 복수의 개별 음성인식부 중 하나 이상으로부터 인식된 음성이 있는 지의 여부를 판단하는 단계; ii) 상기 i) 단계에서 인식된 음성이 있는 것으로 판단되는 경우, 상기 음성을 인식한 개별 음성인식부로부터 전달되는 인식된 음성과 측정된 거리 정보를 각각 저장하는 단계; iii) 상기 저장된 거리 정보에 기초하여 상기 화자의 위치를 인식하는 단계; iv) 상기 인식된 화자의 위치에 기초하여 상기 복수의 개별 음성인식부별로 가중치를 설정하는 단계; v) 상기 설정된 가중치에 기반하여 상기 저장된 인식된 음성들의 빈도수를 각각 산출하는 단계; 및 vi) 상기 산출된 빈도수가 가장 높은 인식된 음성을 결정하는 단계를 포함한다.

이 때, 상기 iv) 단계에서, 상기 인식된 화자의 위치로부터 가까이 있는 개별 음성인식부에 비해 멀리 있는 개별 음성인식부에 대해 적은 가중치를 설정하는 것을 특징으로 한다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다. 명세서 전체를 통하여 유사한 부분에 대해서는 동일한 도면 부호를 붙였다.

이하, 본 발명의 실시 예에 따른 집합적 음성인식 시스템에 대해서 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따른 집합적 음성인식 시스템의 개략적인 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 제1 실시 예에 따른 집합적 음성인식 시스템은 다수의 개별 음성인식부(100-1, 100-2, …, 100-N) 및 집합 음성인식부(200)를 포함한다.

개별 음성인식부(100-1, 100-2, …, 100-N)는 그 각각이 음성인식 시스템의 각 모듈을 구성하고, 개별적으로 외부에서 발생된 음성을 인식하여 집합 음성인식부(200)로 각각 출력한다. 이 때, 개별 음성인식부(100-1, 100-2, …, 100-N)와 집합 음성인식부(200)는 각각 유선 또는 무선으로 접속될 수 있으며, 본 제1 실시 예에서는 무선으로 접속된 것으로 가정하여 설명한다.

집합 음성인식부(200)는 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각 인식된 음성, 예를 들어 음성 명령을 나타내는 단어들을 무선으로 각각 입력받아서 결집하여 최종 음성을 결정한다.

여기서 집합 음성인식부(200)가 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각 인식되어 전달되는 음성 명령들을 결집하여 최종 음성을 결정하는 방식에는 여러 가지가 있을 수 있다.

먼저, 본 발명의 제1 실시 예에서는 빈도수에만 기초하여 최종 인식된 음성 명령을 추출하는 것에 대해 설명한다.

도 2는 본 발명의 제1 실시예에 따라 도 1에 도시된 집합적 음성인식 시스템의 개별 음성인식부(100-N)의 일예를 나타낸 도면이다.

도 2에 도시된 바와 같이, 개별 음성인식부(100-N)는 마이크(110-N), 음성인식부(120-N), 무선 인터페이스(130-N) 및 음성인식 제어부(140-N)를 포함한다.

마이크(110-N)는 외부에서 발생되는 음성을 입력받아서 대응되는 전기 신호로 변환하여 출력한다.

음성인식부(120-N)는 마이크(110-N)로부터 출력되는 전기 신호로부터 음성 신호를 검출하여 대응되는 음성을 인식한다. 여기서 음성인식부(120-N)로는 일반적으로 잘 알려져 있는 음성인식 엔진이 사용될 수 있으므로 상세한 설명은 생략한다. 다만, 본 발명의 제1 실시 예에 따른 집합적 음성인식 시스템이 지향하는 음성인식률에 따라서 음성인식부(120-N)에 사용되는 음성인식 엔진의 음성인식률에 차이가 있을 수 있다. 예를 들어, 음성인식률이 60%, 70% 등으로 차이가 있는 음성인식 엔진을 사용할 수 있다.

무선 인터페이스(130-N)는 개별 음성인식부(100-N)가 집합 음성인식부(200)와 무선 통신을 통하여 정보 교환이 가능하도록 한다. 이러한 무선 인터페이스(130-N)으로는 무선랜, 블루투스(Bluetooth) 등이 사용될 수 있다. 따라서, 무선 인터페이스(130-N)는 음성인식부(120-N)에서 인식되어 출력되는 음성을 받아서 무선으로 집합 음성인식부(200)로 전달한다.

음성인식 제어부(140-N)는 마이크(110-N), 음성인식부(120-N) 및 무선 인터페이스(130-N)에 연결되어 외부에서 발생되어 입력되는 음성을 인식하여 집합 음성인식부(200)로 무선으로 전달될 수 있도록 제어한다.

상기에서는 하나의 개별 음성인식부(100-N)의 구성에 대해서만 설명하였지만, 나머지 개별 음성인식부(100-1, 100-2, …, 100-N-1)들도 상기한 개별 음성인식부(100-N)와 마찬가지로 구성될 수 있다.

또한, 상기한 집합 음성인식부(200)가 개별 음성인식부(100-1, 100-2, …, 100-N)와는 별도로 독립적으로 구성되는 것으로 설명하였지만, 본 발명의 기술적 범위는 여기에 한정되지 않고, 집합 음성인식부(200)가 개별 음성인식부(100-1, 100-2, …, 100-N) 중 어느 하나의 구성요소로 내장되어 구비될 수 있으며, 이 경우에는 개별 음성인식부(100-1, 100-2, …, 100-N)에 각각 구비되는 무선 인터페이스(130-N)들이 서로 다른 식별자(ID)를 가지고 서로 무선 통신을 수행할 수 있도록 동작한다.

도 3은 본 발명의 제1 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 집합 음성인식부(200)의 일예를 나타낸 도면이다.

도 3에 도시된 바와 같이, 집합 음성인식부(200)는 무선 인터페이스(210), 인식 음성 저장부(220), 빈도수 산출부(230) 및 집합적 음성인식 제어부(240)를 포함한다.

무선 인터페이스(210)는 집합 음성인식부(200)가 개별 음성인식부(100-1, 100-2, …, 100-N)와 각각 무선 통신을 통하여 정보 교환이 가능하도록 한다. 이러한 무선 인터페이스(210)으로는 무선랜, 블루투스 등이 사용될 수 있다. 따라서, 무선 인터페이스(210)는 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각 무선으로 전달되는 인식된 음성을 받아서 인식 음성 저장부(220)로 전달한다.

인식 음성 저장부(220)는 무선 인터페이스(210)를 통해서 개별 음성인식부(100-1, 100-2, …, 100-N)로부터 각각 전달되는 인식된 음성을 각각 저장한다.

빈도수 산출부(230)는 인식 음성 저장부(220)에 저장된 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각 인식된 음성들의 빈도수를 각각 산출한 후 최종적으로 빈도수가 가장 높은 인식 음성을 출력한다.

집합적 음성인식 제어부(240)는 무선 인터페이스(210), 인식 음성 저장부(220) 및 빈도수 산출부(230)에 연결되어 외부에서 발생되어 개별 음성인식부(100-1, 100-2, …, 100-N)에 의해 각각 인식된 결과를 사용하여 빈도수가 가장 높은 음성을 최종 인식된 음성으로 추출하도록 제어한다.

이하, 본 발명의 제1 실시 예에 따른 집합적 음성인식 시스템에서의 음성인식 방법에 대해 첨부된 도 4를 참조하여 설명한다.

먼저, 본 발명의 제1 실시 예에 따른 집합적 음성인식을 위해 집합 음성인식부(200)는 개별 음성인식부(100-1, 100-2, …, 100-N)가 외부 음성인식 동작을 수행하도록 명령을 전달하고(S100), 개별 음성인식부(100-1, 100-2, …, 100-N)는 외부에서 발생되어 입력되는 음성의 인식을 개별적으로 수행한다(S110).

구체적으로 설명하면, 집합 음성인식부(200)의 집합적 음성인식 제어부(240)는 외부에서 발생되어 입력되는 음성을 인식하도록 무선 인터페이스(210)를 통해 개별 음성인식부(100-1, 100-2, …, 100-N)로 음성인식 명령을 전달한다(S100).

무선 인터페이스(130-N)를 통해 이러한 명령을 각각 전달받은 개별 음성인식부(100-1, 100-2, …, 100-N)의 음성인식 제어부(140-N)는 내부에 구비된 마이크(110-N) 및 음성인식부(120-N)를 제어하여 외부에서 입력되는 음성을 각각 인식한다.

그 후, 인식된 음성이 있으면 개별 음성인식부(100-1, 100-2, …, 100-N)의 음성인식 제어부(140-N)는 무선 인터페이스(130-N)를 제어하여 음성인식부(120-N)에서 인식된 결과 음성을 집합 음성인식부(200)로 전달되도록 한다(S120).

다음, 집합 음성인식부(200)는 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각 인식된 결과 음성을 받아서 최종 집합적으로 인식된 음성을 추출한다.

구체적으로, 집합 음성인식부(200)의 집합적 음성인식 제어부(240)는 무선 인터페이스(210)를 통해 개별 음성인식부(100-1, 100-2, …, 100-N)로부터 전달된 인식된 음성이 있는 지의 여부를 확인한다(S130). 만약 개별 음성인식부(100-1, 100-2, …, 100-N)로부터 인식되어 전달되는 음성이 없으면, 개별 음성인식부(100-1, 100-2, …, 100-N) 중 적어도 하나로부터 인식되는 음성이 있을 때까지 상기 단계(S110, S120, S130)를 반복한다.

그러나 개별 음성인식부(100-1, 100-2, …, 100-N) 중 적어도 하나 많게는 모든 개별 음성인식부(100-1, 100-2, …, 100-N)로부터 인식되어 전달되는 음성이 있으면, 집합적 음성인식 제어부(240)는 무선 인터페이스(210)로부터 출력되는 인식된 음성을 인식 음성 저장부(220)에 저장한다(S140).

그 후, 집합적 음성인식 제어부(240)는 빈도수 산출부(230)를 제어하여 인식 음성 저장부(220)에 저장된 각 개별 음성인식부(100-1, 100-2, …, 100-N)에서 인식된 음성들의 빈도수를 산출하고(S150), 산출된 빈도수 중에 가장 높은 빈도수를 가진 음성을 최종 인식된 음성으로 결정한다(S160).

이와 같이, 개별 음성인식부(100-1, 100-2, …, 100-N)에서 각각의 음성인식 엔진, 즉 음성인식부(120-N)를 통해 각각 인식된 음성을 집합 음성인식부(200)에서 빈도수를 기준으로 결집하여 최종으로 인식 음성을 결정함으로써 개별 음성인식 엔진을 이용하여 음성을 인식하는 경우에 비해 음성의 인식률이 현저히 증가될 수 있다. 예를 들어, 개별 음성인식부(100-1, 100-2, …, 100-N)에 구비된 개별 음성인식 엔진, 즉 음성인식부(120-N)의 음성인식률이 70%이고, 개별 음성인식부(100-1, 100-2, …, 100-N)의 개수가 10개인 경우, 즉 N이 10인 때, 10개의 개별 음성인식부(100-1, 100-2, …, 100-N) 중 평균적으로 7개는 입력 음성으로부터 정확히 인식된 음성 단어를 집합적 음성인식부(200)로 전달하고, 집합적 음성인식부(200)는 개별 음성인식부(100-1, 100-2, …, 100-N)에서 인식된 음성의 빈도수가 높은 단어, 즉 7개로 정확히 인식된 음성 단어를 취함으로써 개별적인 음성인식 엔진을 사용하여 음성을 인식하는 경우에 비해 음성인식률이 크게 상승된다.

이하 본 발명의 제1 실시예에 대한 구체적인 예를 기재한다. 그러나 하기 구체적인 실시 예는 본 발명의 하나의 실시 예일 뿐 본 발명이 하기한 실시 예에만 한정되는 것은 아니다.

먼저, 첨부한 도 5에 도시된 바와 같이, 개별적으로 음성인식이 가능한 지능형 디지털 모듈들이 가로로 8줄, 세로로 3줄로 적층되어 지능형 디지털 벽면(300)을 구성한다.

이러한 지능형 디지털 벽면(300)의 각 지능형 디지털 모듈들에는 각각 상기한 개별 음성인식부(100-N)가 구비되어 있으며, 이러한 개별 음성인식부(100-N)는 그 각각이 상기한 마이크(110-N), 음성인식부(120-N), 무선 인터페이스(130-N) 및 음성인식 제어부(140-N)를 포함한다. 즉, 각 지능형 디지털 모듈들은 전면에 위치한 화자(話者)가 말한 음성을 인식할 수 있다.

여기서, 각 마이크(110-N)로는 로지텍사의 퀵캠 프로(Quick Cam Pro) 4000 웹 카메라에 장착된 마이크로폰이 사용되었고, 음성인식부(120-N)에서는 음성인식 엔진으로 IBM사의 비아 보이스(Via Voice)가 사용되었으며, 개별 음성인식부(100-N)는 이러한 마이크로폰과 음성인식 엔진을 대만 비아 테크놀로지사의 VIA M10000 미니 PC 보드에 장착하여 구성되었다.

한편, 다수의 지능형 디지털 모듈들 중 어느 하나에는 상기한 집합 음성인식부(200)가 구비되며, 이러한 집합 음성인식부(200)는 상기한 무선 인터페이스(210), 인식 음성 저장부(220), 빈도수 산출부(230) 및 집합적 음성인식 제어부(140)를 포함한다.

이렇게 구성된 지능형 디지털 벽면(300)의 전면의 중앙부(C)로부터 화자(話者)가 1M에서 5M까지 각 1M마다 거리를 증가시키면서 총 25개의 두 개의 영문 단어로 구성된 서로 다른 음성 명령들을 동일한 세기로 발성하고, 각 지능형 디지털 모듈에 설치된 개별 음성인식부(100-N)의 마이크(110-N)를 통해 화자가 발성한 음성 명령을 각각 인식하고, 인식된 각 음성 명령을 집합 음성인식부(200)가 결집하여 빈도수를 산출하여 최종으로 인식된 음성 명령을 추출하였다. 이 때, 지능형 디지털 벽면(300)의 전면의 중앙부(C)에 가장 근접한 지능형 디지털 모듈들 중 하나에서 인식된 결과와 집합 음성인식부(200)에서 빈도수에 근거하여 인식된 결과를 하기의 [표 1]에 나타내는 동시에, 각각의 경우에 대해 25개의 음성 명령 중에서 정확하게 인식된 음성 명령의 비율을 에러율로 나타내었다.

상기 [표 1]에서 알 수 있는 바와 같이, 25개의 준비된 영어 명령어들을 통해 실험한 결과, 지능형 디지털 벽면(300)으로부터의 거리가 증가함에 따라 중앙부(C)에 근접한 하나의 지능형 디지털 모듈에서 인식된 음성 명령의 에러율과 25개 전체의 지능형 디지털 모듈에서 인식된 음성 명령의 에러율이 모두 증가함을 알 수 있다. 그러나, 하나의 지능형 디지털 모듈에서 인식된 음성 명령의 에러율에 비해, 25개의 지능형 디지털 모듈, 즉 다수의 지능형 디지털 모듈에서 인식된 음성 명령을 빈도수에 기초하여 집합하여 인식된 음성 명령의 에러율이 현저히 낮음을 알 수 있다. 즉, 다수의 지능형 디지털 모듈을 통해 개별적으로 음성 명령을 인식한 후, 각 인식 결과를 집합하여 빈도수가 가장 높은 음성 명령을 추출하는 것이 보다 향상된 음성 인식률을 보여줌을 알 수 있다.

한편, 상기에서는 다수의 개별 음성인식부에서 인식된 결과를 빈도수에만 기초하여 최종의 인식된 음성을 추출하는 것으로만 설명하였으나, 본 발명의 기술적 범위는 여기에 한정되지 않고, 다음의 제2 실시예와 같이 다양한 변형이 가능하다.

도 6은 본 발명의 제2 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 개별 음성인식부(100-M)의 일예를 나타낸 도면이다.

도 6에 도시된 바와 같이, 개별 음성인식부(100-M)는 마이크(110-M), 음성인식부(120-M), 무선 인터페이스(130-M), 초음파 센서(140-M) 및 음성인식 및 거리측정 제어부(150-N)를 포함한다.

마이크(110-M), 음성인식부(120-M) 및 무선 인터페이스(130-M)는 상기한 제1 실시 예에서 설명한 바와 동일한 기능을 수행하므로 여기에서는 상세한 설명을 생략하고, 제2 실시 예에서 새로이 추가되는 부분에 대해서만 설명한다.

초음파 센서(140-M)는 개별 음성인식부(100-M)의 전면에 위치한 화자의 위치를 인식하여 화자까지의 거리를 측정하여 대응되는 정보로 출력한다.

음성인식 및 거리측정 제어부(150-M)는 마이크(110-M), 음성인식부(120-M) 및 무선 인터페이스(130-M)에 연결되어 외부에서 발생되어 입력되는 음성을 인식하여 집합 음성인식부(200)로 무선으로 전달하도록 제어하는 동시에, 또한 초음파 센서(140-M)에 접속되어 초음파 센서(140-M)가 개별 음성인식부(100-M)의 전면에 위치한 화자까지의 거리를 측정하여 이 또한 집합 음성인식부(200)로 무선으로 전달하도록 제어한다.

상기에서는 하나의 개별 음성인식부(100-M)의 구성에 대해서만 설명하였지만, 나머지 개별 음성인식부(100-1, 100-2, …, 100-M-1)들도 상기한 개별 음성인식부(100-M)와 마찬가지로 구성될 수 있다.

한편, 도 1에 도시된 집합 음성인식부(200)도 상기한 제1 실시예에서와 마찬기지로 개별 음성인식부(100-1, 100-2, …, 100-M)와는 별도로 독립적으로 구성되거나 또는 개별 음성인식부(100-1, 100-2, …, 100-M) 중 어느 하나의 구성요소로 내장되어 구비될 수 있으며, 이 경우에는 개별 음성인식부(100-1, 100-2, …, 100-M)에 각각 구비되는 무선 인터페이스(130-M)들이 서로 다른 식별자(ID)를 가지고 서로 무선 통신을 수행할 수 있도록 동작한다.

도 7은 본 발명의 제2 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 집합 음성인식부(200)의 일예를 나타낸 도면이다.

여기에서는 제1 실시 예에서의 집합 음성인식부(200)와의 혼동을 피하기 위해 집합 음성인식부(400)로 도면 참조부호를 변경하여 설명한다.

도 7에 도시된 바와 같이, 본 발명의 제2 실시 예에 따른 집합 음성인식부(400)는 무선 인터페이스(410), 인식 음성 저장부(420), 측정 거리 저장부(430), 위치기반 가중치 설정부(440), 위치기반 빈도수 산출부(450) 및 집합적 음성인식 제어부(460)를 포함한다.

무선 인터페이스(210) 및 인식 음성 저장부(420)는 상기한 제1 실시 예에서 설명한 바와 동일한 기능을 수행하므로 여기에서는 설명의 편의를 위해 상세한 기능 설명을 생략하고, 제1 실시 예의 경우와 다른 부분에 대해서만 설명한다.

측정 거리 저장부(430)는 무선 인터페이스(410)를 통해서 개별 음성인식부(100-1, 100-2, …, 100-M)로부터 각각 전달되는 화자까지의 측정된 거리를 받아서 개별 음성인식부(100-1, 100-2, …, 100-M)별로 대응되도록 저장한다.

위치기반 가중치 설정부(440)는 측정 거리 저장부(430)에 저장된 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각 측정된 화자까지의 거리 정보들에 기초하여 화자의 위치를 추정한 후, 추정된 위치를 기반으로 개별 음성인식부(100-1, 100-2, …, 100-M)별로 가중치를 설정한다.

예를 들어, 도 5를 참조하는 경우, 위치기반 가중치 설정부(440)가 개별 음성인식부(100-1, 100-2, …, 100-M)로부터 측정된 화자까지의 거리 정보에 기초하여 화자의 위치가 X축을 기준으로 중앙부(C)인 것으로 추정되면 중앙부(C)에 가장 근접한 개별 음성인식부(100-M)에 가장 높은 가중치를 설정하고, 중앙부(C)로부터 거리가 먼 개별 음성인식부(100-M)에 낮은 가중치를 설정한다. 따라서, 위치기반 가중치 설정부(440)는 화자의 위치에 기반하여 화자의 위치로부터 거리가 멀어질수록 설정되는 가중치가 적어지도록 한다. 이 때, 화자의 위치로부터의 거리에 따라 개별 음성인식부(100-1, 100-2, …, 100-M)별로 가중치를 설정하는 방식에는 통계상 또는 계산상으로 여러 가지 방식이 있을 수 있다.

위치기반 빈도수 산출부(450)는 인식 음성 저장부(420)에 저장된 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각 인식된 음성들과 위치기반 가중치 설정부(440)에서 개별 음성인식부(100-1, 100-2, …, 100-M)별로 설정된 가중치들을 받아서 개별 음성인식부(100-1, 100-2, …, 100-M)별로 인식된 음성에 설정된 가중치를 사용하여 인식된 음성의 빈도수를 각각 산출한 후 최종적으로 위치기반의 빈도수가 가장 높은 인식 음성을 결정하여 출력한다.

집합적 음성인식 제어부(460)는 무선 인터페이스(410), 인식 음성 저장부(420), 측정 거리 저장부(430), 위치기반 가중치 설정부(440) 및 위치기반 빈도수 산출부(450)에 연결되어 외부에서 발생되어 개별 음성인식부(100-1, 100-2, …, 100-M)에 의해 각각 인식된 결과와 개별 음성인식부(100-1, 100-2, …, 100-M)에 의해 각각 측정된 화자까지의 거리 정보를 결합하여 사용하여 위치기반의 빈도수가 가장 높은 음성을 최종 인식된 음성으로 추출하도록 제어한다.

이하, 본 발명의 제2 실시 예에 따른 집합적 음성인식 시스템에서의 음성인식 방법에 대해 첨부된 도 8을 참조하여 설명한다.

먼저, 본 발명의 제2 실시 예에 따른 집합적 음성인식을 위해 집합 음성인식부(400)는 개별 음성인식부(100-1, 100-2, …, 100-M)가 외부 음성인식 동작을 수행하도록 명령을 전달하고(S200), 개별 음성인식부(100-1, 100-2, …, 100-M)는 외부에서 발생되어 입력되는 음성의 인식을 개별적으로 수행하는 동시에, 초음파 센서(140-M)를 사용하여 개별 음성인식부(100-M)의 전면에 위치한 화자까지의 거리를 측정한다(S210).

구체적으로 설명하면, 집합 음성인식부(400)의 집합적 음성인식 제어부(460)는 외부에서 발생되어 입력되는 음성을 인식하고, 또한 화자까지의 거리를 측정하도록 무선 인터페이스(410)를 통해 개별 음성인식부(100-1, 100-2, …, 100-M)로 각각 음성인식 명령을 전달한다(S200).

무선 인터페이스(130-M)를 통해 이러한 명령을 각각 전달받은 개별 음성인식부(100-1, 100-2, …, 100-M)의 음성인식 및 거리측정 제어부(150-M)는 내부에 구비된 마이크(110-M) 및 음성인식부(120-M)를 제어하여 외부에서 입력되는 음성을 각각 인식하는 동시에, 초음파 센서(140-M)를 사용하여 개별 음성인식부(100-M)의 전면에 위치한 화자까지의 거리를 측정한다(S210). 이 때, 초음파 센서(140-M)를 사용하여 전면에 위치한 화자까지의 거리를 측정하는 기술은 이미 잘알려져 있으므로 여기에서는 상세한 설명을 생략하더라도 본 기술분야의 당업자에 의해 이해될 것이다.

그 후, 인식된 음성이 있으면 개별 음성인식부(100-1, 100-2, …, 100-M)의 음성인식 및 거리측정 제어부(150-M)는 무선 인터페이스(130-M)를 제어하여 음성인식부(120-M)에서 인식된 결과 음성과 인식된 음성을 발생한 화자까지 측정된 거리 정보를 집합 음성인식부(400)로 전달하도록 한다(S220).

다음, 집합 음성인식부(400)는 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각 인식된 결과 음성과 화자까지의 거리 정보를 받아서 최종 집합적으로 인식된 음성을 추출한다.

구체적으로, 집합 음성인식부(400)의 집합적 음성인식 제어부(460)는 무선 인터페이스(410)를 통해 개별 음성인식부(100-1, 100-2, …, 100-M)로부터 전달된 인식된 음성이 있는 지의 여부를 확인한다(S230). 만약 개별 음성인식부(100-1, 100-2, …, 100-M)로부터 인식되어 전달되는 음성이 없으면, 개별 음성인식부(100-1, 100-2, …, 100-M) 중 적어도 하나로부터 인식되는 음성이 있을 때까지 상기 단계(S210, S220, S230)를 반복한다.

그러나 개별 음성인식부(100-1, 100-2, …, 100-M) 중 적어도 하나 또는 많게는 모든 개별 음성인식부(100-1, 100-2, …, 100-M)로부터 인식되어 전달되는 음성이 있으면, 집합적 음성인식 제어부(460)는 무선 인터페이스(410)로부터 출력되는 인식된 음성을 인식 음성 저장부(420)에 개별 음성인식부(100-1, 100-2, …, 100-M)별로 저장하는 동시에, 무선 인터페이스(410)로부터 출력되는 거리 정보를 측정 거리 저장부(430)에 개별 음성인식부(100-1, 100-2, …, 100-M)별로 저장한다(S240).

그 후, 집합적 음성인식 제어부(460)는 위치기반 가중치 설정부(440)를 제어하여, 측정 거리 저장부(430)에 저장된 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각 측정된 화자까지의 거리 정보들에 기초하여 화자의 위치를 추정하여 인식한다(S250). 이러한 위치 인식 기술로는 간단하게는 측정된 거리가 가장 짧은 거리를 갖는 개별 음성인식부(100-M)가 화자에 가장 가까이 있고, 이러한 개별 음성인식부(100-M)에 X축을 기준으로 이웃한 개별 음성인식부(100-M)가 그 다음으로 가까이 있는 것으로 인식하는 방식을 비롯하여 다양한 방식들이 있을 수 있으며, 이러한 위치 인식 기술은 당업자에게 잘 알려져 있으므로 보다 상세한 설명은 생략한다.

계속해서, 위치기반 가중치 설정부(440)는 상기 단계(S250)에서 인식된 화자의 위치를 기반으로 하여 음성을 인식한 개별 음성인식부(100-1, 100-2, …, 100-M)별로 가중치를 설정한다(S260). 예를 들면, 화자까지의 거리가 가장 가까운 곳에 있는 개별 음성인식부(100-M)에는 가장 높은 가중치를 설정하고, 화자까지의 거리가 멀어질수록 설정되는 가중치가 적어지도록 한다.

다음, 집합적 음성인식 제어부(460)는 위치기반 빈도수 산출부(450)를 제어하여, 인식 음성 저장부(420)에 저장된 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각 인식된 음성들과 위치기반 가중치 설정부(440)에서 개별 음성인식부(100-1, 100-2, …, 100-M)별로 설정된 가중치들을 사용하여 개별 음성인식부(100-1, 100-2, …, 100-M)별로 인식된 음성에 설정된 가중치에 기초하여 인식된 음성들의 빈도수를 각각 산출한다(S270). 이것은 화자로부터의 거리가 가까운 곳에 위치한 개별 음성인식부(100-1, 100-2, …, 100-M)들이 보다 정확한 음성을 인식하는 것에 기초하여 인식된 음성들의 빈도수를 산출하기 위한 것이다.

그 후, 위치기반 빈도수 산출부(450)는 화자의 위치에 기반하여 산출된 빈도수 중에 가장 높은 빈도수를 가진 음성을 최종 인식된 음성으로 결정한다(S280).

이와 같이, 개별 음성인식부(100-1, 100-2, …, 100-M)에서 각각의 음성인식 엔진, 즉 음성인식부(120-M)를 통해 각각 인식된 음성과 초음파 센서(140-M)를 통해 측정된 화자까지의 거리 정보를 사용하여 집합 음성인식부(400)가 빈도수를 기준으로 결집하여 최종으로 인식 음성을 결정함으로써 개별 음성인식 엔진을 이용하여 음성을 인식하는 경우와 상기한 제1 실시 예의 경우에 비해 음성의 인식률이 현저히 증가될 수 있다. 예를 들어, 인식된 음성만의 빈도수가 적은 음성이라도 화자로부터의 거리가 가까운 곳에 있는 개별 음성인식부(100-1, 100-2, …, 100-M)에 의해 인식된 음성이라면 상대적으로 빈도수가 많은 음성이 보다 많은 수의 개별 음성인식부(100-1, 100-2, …, 100-M)에 의해 잘못 인식되었더라도 화자까지의 거리에 기반하여 설정된 가중치에 의해 빈도수가 적은 음성이 최종으로 인식된 음성으로 결정될 수 있으므로 보다 향상된 음성 인식률이 제공될 수 있다.

한편, 상기한 제1 실시 예에서는 인식된 음성들의 빈도수, 그리고 제2 실시 예에서는 화자의 위치에 기반한 인식된 음성들의 빈도수가 가장 높은 음성을 최종으로 인식된 음성으로 결정하는 것으로만 설명하였지만, 상기한 빈도수가 동일한 음성이 2개 이상이 있는 경우에는 상기와는 다른 방식으로 하나의 음성을 선택하여야 한다. 예를 들어, 제1 실시 예나 제2 실시 예에서 빈도수가 동일한 음성이 2개 이상이 있는 경우에는 인식 오류 또는 인식 실패로 처리하거나 또는 재인식을 시도할 수도 있다.

또는, 빈도수가 동일한 음성들을 인식한 각 개별 음성인식부들의 위치를 고려하여 최종으로 하나의 음성을 결정하는 방식도 있을 수 있다. 예를 들어, 제1 실시 예에서는 빈도수가 동일한 음성들을 인식한 각 개별 음성인식부들이 서로 이웃한 경우의 수가 많은 음성을 최종으로 인식된 결과 음성으로 결정할 수 있다. 제2 실시 예의 경우에서는 빈도수가 동일한 음성들을 인식한 개별 음성인식부들 중에서 화자의 위치를 중심으로 가장 가까운 곳에 위치한 개별 음성인식부가 인식한 음성을 최종으로 인식된 결과 음성으로 결정할 수 있다. 이외에도 본 발명의 제1 및 제2 실시 예에 따른 집합적 음성인식 시스템이 사용될 환경 등에 따라 다양한 방식의 음성 결정 형태가 사용될 수 있다.

비록, 본 발명이 가장 실제적이며 바람직한 실시 예를 참조하여 설명되었지만, 본 발명은 상기 개시된 실시 예에 한정되지 않으며, 후술되는 특허 청구범위 내에 속하는 다양한 변형 및 등가물들도 포함한다.

본 발명에 따르면, 다수의 모듈을 인터페이스로 사용하는 시스템에서 각 모듈에 구비된 음성인식 엔진에 의해 인식된 음성인식 결과를 집합하여 최종 음성인식 결과를 획득함으로써 보다 향상된 음성 인식율을 제공할 수 있다.

또한, 각 모듈에 구비된 초음파 센서를 통해 측정된 화자까지의 거리 정보에 기반하여 인식된 음성의 빈도수를 산출함으로써 그렇지 않은 경우에 비해 보다 정확한 음성 인식율을 제공할 수 있다.

도 2는 본 발명의 제1 실시예에 따라 도 1에 도시된 집합적 음성인식 시스템의 개별 음성인식부의 일예를 나타낸 도면이다.

도 3은 본 발명의 제1 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 집합 음성인식부의 일예를 나타낸 도면이다.

도 4는 본 발명의 제1 실시 예에 따른 집합적 음성인식 방법의 흐름도이다.

도 5는 본 발명의 실시예에 따른 집합적 음성인식 시스템이 적용되는 지능형 디지털 벽면의 예를 도시한 도면이다.

도 6은 본 발명의 제2 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 개별 음성인식부의 일예를 나타낸 도면이다.

도 7은 본 발명의 제2 실시 예에 따라 도 1에 도시된 집합적 음성인식 시스템의 집합 음성인식부의 일예를 나타낸 도면이다.

도 8은 본 발명의 제2 실시 예에 따른 집합적 음성인식 방법의 흐름도이다.

Claims

외부에서 발생되는 음성을 인식하여 출력하는 복수의 개별 음성인식부; 및

상기 복수의 개별 음성인식부와 각각 무선 또는 유선으로 접속되며, 상기 복수의 개별 음성인식부에서 각각 인식되어 출력되는 음성들을 받아서 결합하여 최종으로 인식된 음성을 결정하는 집합 음성인식부

를 포함하는 집합적 음성인식 시스템.
제1항에 있어서,

상기 집합 음성인식부가,

상기 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정하는

것을 특징으로 하는 집합적 음성인식 시스템.
제2항에 있어서,

상기 각 복수의 개별 음성인식부는,

외부에서 발생되는 음성을 입력받아서 대응되는 전기 신호로 변환하여 출력하는 마이크;

상기 마이크로부터 출력되는 전기 신호로부터 음성 신호를 검출하여 대응되는 음성을 인식하는 음성인식부; 및

상기 마이크 및 음성인식부에 연결되어 외부에서 발생되어 입력되는 음성을 인식하여 상기 집합 음성인식부로 전달하도록 제어하는 음성인식 제어부

를 포함하는 집합적 음성인식 시스템.
제2항에 있어서,

상기 집합 음성인식부는,

상기 복수의 개별 음성인식부로부터 각각 전달되는 인식된 음성을 받아서 상기 개별 음성인식부별로 각각 저장하는 인식 음성 저장부;

상기 인식 음성 저장부에 저장된 인식된 음성들의 빈도수를 각각 산출한 후 최종적으로 빈도수가 가장 높은 인식 음성을 출력하는 빈도수 산출부; 및

상기 인식 음성 저장부 및 빈도수 산출부에 연결되어 외부에서 발생되어 상기 복수의 개별 음성인식부에 의해 각각 인식된 결과를 사용하여 빈도수가 가장 높은 음성을 최종 인식된 음성으로 결정하도록 제어하는 집합적 음성인식 제어부

를 포함하는 집합적 음성인식 시스템.
제1항에 있어서,

상기 복수의 개별 음성인식부는 인식 대상의 음성을 발생한 외부의 화자(話者)까지의 거리를 측정하여 상기 집합 음성인식 시스템으로 각각 출력하고,

상기 집합 음성인식부는 상기 복수의 개별 음성인식부에서 측정된 화자까지의 거리 정보들에 기반하여 상기 복수의 개별 음성인식부에서 각각 인식된 음성들의 빈도수에 기초하여 최종으로 인식된 음성을 결정하는

것을 특징으로 하는 집합적 음성인식 시스템.
제5항에 있어서,

상기 각 복수의 개별 음성인식부는,

외부에서 발생되는 음성을 입력받아서 대응되는 전기 신호로 변환하여 출력하는 마이크;

상기 마이크로부터 출력되는 전기 신호로부터 음성 신호를 검출하여 대응되는 음성을 인식하는 음성인식부; 및

상기 외부에서 음성을 발생한 화자까지의 거리를 측정하여 대응되는 정보로 출력하는 초음파 센서;

상기 마이크 및 음성인식부에 연결되어 외부에서 발생되어 입력되는 음성을 인식하여 상기 집합 음성인식부로 전달하는 동시에, 상기 초음파 센서에 연결되어 상기 인식되는 음성을 발생한 화자까지의 거리를 측정하여 상기 집합 음성인식부로 전달하도록 제어하는 음성인식 및 거리측정 제어부

를 포함하는 집합적 음성인식 시스템.
제5항에 있어서,

상기 집합 음성인식부는,

상기 복수의 개별 음성인식부로부터 각각 전달되는 인식된 음성을 받아서 상기 개별 음성인식부별로 각각 저장하는 인식 음성 저장부;

상기 복수의 개별 음성인식부로부터 각각 전달되는 화자까지의 측정된 거리 정보를 받아서 상기 개별 음성인식부별로 대응되도록 저장하는 측정 거리 저장부;

상기 측정 거리 저장부에 저장된 상기 복수의 개별 음성인식부에서 각각 측정된 화자까지의 거리 정보들에 기초하여 상기 화자의 위치를 추정한 후, 상기 추정된 위치를 기반으로 상기 복수의 개별 음성인식부별로 가중치를 설정하는 위치기반 가중치 설정부;

상기 인식 음성 저장부에 저장된 상기 복수의 개별 음성인식부에서 각각 인식된 음성들과 상기 위치기반 가중치 설정부에서 상기 복수의 개별 음성인식부별로 설정된 가중치들을 받아서 상기 인식된 음성들의 빈도수를 각각 산출한 후 최종적으로 위치기반의 빈도수가 가장 높은 인식 음성을 결정하는 위치기반 빈도수 산출부; 및

상기 인식 음성 저장부, 측정 거리 저장부, 위치기반 가중치 설정부 및 위치기반 빈도수 산출부에 연결되어 외부에서 발생되어 상기 복수의 개별 음성인식부에 의해 각각 인식된 결과와 상기 복수의 개별 음성인식부에 의해 각각 측정된 화자까지의 거리 정보를 결합하여 사용하여 위치기반의 빈도수가 가장 높은 음성을 최종 인식된 음성으로 결정하도록 제어하는 집합적 음성인식 제어부

를 포함하는 집합적 음성인식 시스템.
제7항에 있어서,

상기 위치기반 가중치 설정부는 상기 개별 음성인식부의 위치가 상기 화자의 위치로부터 멀어질수록 상기 가중치를 적게 설정하는 것을 특징으로 하는 집합적 음성인식 시스템.
제4항 또는 제7항에 있어서,

상기 최종으로 인식된 음성이 2개 이상인 경우, 해당 음성들을 인식한 상기 개별 음성인식부들의 위치에 기초하여 최종으로 인식된 음성을 결정하는 것을 특징으로 하는 집합적 음성인식 시스템.
제2항 내지 제7항 중 어느 한 항에 있어서,

상기 복수의 개별 음성인식부 및 집합 음성인식부에는 무선으로 서로 정보를 송수신할 수 있는 무선 인터페이스가 더 포함되는 것을 특징으로 하는 집합적 음성인식 시스템.
제10항에 있어서,

상기 집합 음성인식부가 상기 복수의 개별 음성인식부 중 어느 하나에 구비되고,

상기 복수의 개별 음성인식부에 각각 포함된 무선 인터페이스는 서로 정보 송수신이 가능한

것을 특징으로 하는 집합적 음성인식 시스템.
a) 음성 인식이 가능한 음성인식 엔진을 구비한 복수의 개별 음성인식부가 외부에서 발생되는 음성을 인식하여 출력하는 단계; 및

b) 상기 복수의 개별 음성인식부로부터 인식된 음성을 전달받는 집합 음성인식부가 상기 인식된 음성들을 결합하여 최종으로 인식된 음성을 결정하는 단계

를 포함하는 집합적 음성인식 방법.
제12항에 있어서,

상기 a) 단계 전에,

상기 집합 음성인식부가 상기 복수의 개별 음성인식부에게 음성 인식을 수행하는 명령을 전달하는 단계; 및

상기 집합 음성인식부가 상기 복수의 개별 음성인식부에서 인식된 음성을 전달받기 위해 대기하는 단계

를 더 포함하는 집합적 음성인식 방법.
제12항 또는 제13항에 있어서,

상기 b) 단계는,

i) 상기 복수의 개별 음성인식부 중 하나 이상으로부터 인식된 음성이 있는 지의 여부를 판단하는 단계;

ii) 상기 i) 단계에서 인식된 음성이 있는 것으로 판단되는 경우, 상기 인식된 음성을 저장하는 단계;

iii) 상기 저장된 인식된 음성들의 빈도수를 각각 산출하는 단계; 및

iv) 상기 산출된 빈도수가 가장 높은 인식된 음성을 결정하는 단계

를 포함하는 집합적 음성인식 방법.
제12항 또는 제13항에 있어서,

상기 a) 단계는,

i) 외부에서 발생되는 음성을 인식하는 단계;

ii) 상기 인식된 음성을 발생한 화자까지의 거리를 측정하는 단계; 및

iii) 상기 인식된 음성과 상기 측정된 거리 정보를 상기 집합 음성인식부로 전달하는 단계

를 포함하는 집합적 음성인식 방법.
제15항에 있어서,

상기 b) 단계는,

i) 상기 복수의 개별 음성인식부 중 하나 이상으로부터 인식된 음성이 있는 지의 여부를 판단하는 단계;

ii) 상기 i) 단계에서 인식된 음성이 있는 것으로 판단되는 경우, 상기 음성을 인식한 개별 음성인식부로부터 전달되는 인식된 음성과 측정된 거리 정보를 각각 저장하는 단계;

iii) 상기 저장된 거리 정보에 기초하여 상기 화자의 위치를 인식하는 단계;

iv) 상기 인식된 화자의 위치에 기초하여 상기 복수의 개별 음성인식부별로 가중치를 설정하는 단계;

v) 상기 설정된 가중치에 기반하여 상기 저장된 인식된 음성들의 빈도수를 각각 산출하는 단계; 및

vi) 상기 산출된 빈도수가 가장 높은 인식된 음성을 결정하는 단계

를 포함하는 집합적 음성인식 방법.
제16항에 있어서,

상기 iv) 단계에서,

상기 인식된 화자의 위치로부터 가까이 있는 개별 음성인식부에 비해 멀리 있는 개별 음성인식부에 대해 적은 가중치를 설정하는 것을 특징으로 하는 집합적 음성인식 방법.
제16항에 있어서,

상기 vi) 단계에서,

상기 최종으로 인식된 음성이 2개 이상인 경우, 해당 음성들을 인식한 개별 음성인식부들의 위치에 기초하여 최종으로 인식된 음성을 결정하는 것을 특징으로 하는 집합적 음성인식 방법.