KR20140135349A - 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 - Google Patents
복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 Download PDFInfo
- Publication number
- KR20140135349A KR20140135349A KR20130055421A KR20130055421A KR20140135349A KR 20140135349 A KR20140135349 A KR 20140135349A KR 20130055421 A KR20130055421 A KR 20130055421A KR 20130055421 A KR20130055421 A KR 20130055421A KR 20140135349 A KR20140135349 A KR 20140135349A
- Authority
- KR
- South Korea
- Prior art keywords
- microphones
- speech recognition
- microphone
- recognition
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012795 verification Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 13
- 238000005259 measurement Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
배경의 잡음이 다양하게 변하는 원거리 음성인식 환경에서 여러 개의 마이크로폰을 분산시켜 사용자 음성에 반응하는 마이크로폰들을 선택하여 음성인식 성능을 개선하도록 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법을 제시한다. 제시된 장치는 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 마이크로폰 선택부, 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 신호대 잡음비 측정부, 선택된 두 개 이상의 마이크로폰중에서 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 음성 인식에 대한 검증을 수행하는 음성 인식 및 검증부, 및 음성 인식 및 검증부의 결과를 근거로 사용자의 음성에 대한 최종 인식결과를 출력하는 최종 인식결과 출력부를 포함한다.
Description
본 발명은 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법에 관한 것으로, 보다 상세하게는 원거리 음성인식 환경에서 배경잡음이 존재하는 경우 여러 개의 마이크로폰을 이용하여 인식 성능을 개선하기 위한 장치 및 방법에 관한 것이다.
다양한 잡음이 존재하는 환경에서 원거리 음성인식을 하는 수행하는 경우 하나의 마이크로폰으로는 원하는 인식 성능을 얻기가 어렵다.
이를 해결하기 위해 종래에는 여러 개의 마이크로폰을 일정한 구조로 배열하여 잡음을 제거하고 인식하는 방식이 개발되고 있다.
이러한 종래의 방식은 잡음의 개수, 위치 등에 제약을 가지며 정해진 조건에 맞는 경우에만 좋은 성능을 보이고, 그렇지 않은 경우에는 잡음을 제대로 제거하지 못하며 오히려 잡음 제거에 따른 왜곡이 발생시켜 음성인식 성능을 개선하는데 한계가 있다.
관련 선행기술로서, 원거리 음성인식 성능과 근거리 음성인식 성능이 동시에 높게 나오며 외부 잡음에 강인하도록 할 수 있는 내용이 기재된 대한민국 등록특허 제0855592호(발성자 거리 특성에 강인한 음성인식 장치 및 그 방법)가 있다.
대한민국 등록특허 제0855592호에 기재된 발명은, 근거리 음성녹음부와 원거리 음성녹음부에 의해 입력된 음성을 동시에 받아들여 녹음하는 거리별 음성녹음부, 거리별 음성녹음부에 출력된 거리별 음성을 입력받아 외부잡음을 추정하여 녹음음성에서 제거하는 외부잡음 제거부, 외부잡음 제거부에서 외부잡음이 제거된 녹음음성을 입력받아 원거리와 근거리의 거리특성이 반영된 입력 음성 중에서 어느 음성이 음성인식 성능을 높일 수 있는지 확인하여 선정하는 입력음성 선정부, 및 입력음성 선정부에서 선정된 음성을 입력받아 음성인식을 수행하는 음성인식부를 포함한다.
상술한 대한민국 등록특허 제0855592호에 기재된 발명은 음성인식 장치가 근거리용 마이크로폰 및 원거리용 마이크로폰을 각각 장착하고 사용자 음성을 받아 거리를 선택한 후에 음성인식을 수행한다.
다른 관련 선행기술로서, 원거리에서의 음성 감쇠 정도 및/또는 음성 왜곡 정도를 측정할 수 있도록 하는 내용이 기재된 대한민국 등록특허 제0905586호(로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법)가 있다.
대한민국 등록특허 제0905586호에 기재된 발명은, 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가 시스템에 있어서, 적어도 두 개 이상의 마이크의 성능 평가에 필요한 음성 신호를 저장하는 기준 음성 데이터베이스, 마이크들 중 기준 마이크와 대상 마이크로 기준 음성 데이터베이스로부터의 음성 신호가 입력되면 성능 평가 기준의 선택에 대응하여 입력되는 음성 신호의 감쇠 및 왜곡 중 적어도 어느 하나를 측정하여 수치화하는 측정치 산출부, 측정치 산출부에 의해 수치화된 측정 결과를 기준값과 비교하는 비교부, 및 비교 결과에 따라 대상 마이크의 선정 여부를 결정하는 마이크 선정부를 포함한다.
상술한 대한민국 등록특허 제0905586호에 기재된 발명은 다양한 거리의 마이크로폰을 이용하여 사용자 음성에 크게 반응하는 마이크로폰 하나를 선택하여 음성인식을 수행한다.
그러나, 상술한 관련 관련기술들은 근거리용 마이크로폰 및 원거리용 마이크로폰을 각각 장착하고 그 중에 어느 하나를 선택하여 음성인식을 수행하거나, 여러 개의 마이크로폰에서 어느 하나를 선택하여 음성인식을 수행하는 정도이다.
상술한 관련 관련기술들은 거리에 상관없이 사용자 음성에 반응하는 몇 개의 마이크로폰을 대상으로 협업 음성인식을 수행하지는 못한다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 배경의 잡음이 다양하게 변하는 원거리 음성인식 환경에서 여러 개의 마이크로폰을 분산시켜 사용자 음성에 반응하는 마이크로폰들을 선택하여 음성인식 성능을 개선하도록 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 장치는, 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 마이크로폰 선택부; 상기 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 신호대 잡음비 측정부; 상기 선택된 두 개 이상의 마이크로폰중에서 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 상기 음성 인식에 대한 검증을 수행하는 음성 인식 및 검증부; 및 상기 음성 인식 및 검증부의 결과를 근거로 상기 사용자의 음성에 대한 최종 인식결과를 출력하는 최종 인식결과 출력부;를 포함한다.
바람직하게, 상기 음성 인식 및 검증부는, 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행하되, 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 상기 음성 인식의 결과로서 출력하는 음성 인식부; 및 상기 나머지 마이크로폰의 입력을 이용하여 상기 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정하는 신뢰도 측정부;를 포함할 수 있다.
바람직하게, 상기 최종 인식결과 출력부는 상기 시간대별 하나 이상의 단어 후보에 대한 상기 확률값 및 신뢰도를 근거로 상기 시간대별 하나 이상의 단어 후보 각각에 대한 최종 스코어를 결정하고, 상기 시간대별로 최대값을 가지는 단어 후보를 상기 최종 인식결과로 출력할 수 있다.
바람직하게, 상기 선택된 두 개 이상의 마이크로폰의 입력에 대해 잡음 처리를 행하는 잡음 처리부;를 추가로 포함하여도 된다.
바람직하게, 상기 잡음 처리부는 위너 필터를 포함할 수 있다.
그리고, 본 발명의 바람직한 실시양태에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 방법은, 마이크로폰 선택부가, 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 단계; 신호대 잡음비 측정부가, 상기 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 단계; 음성 인식 및 검증부가, 상기 선택된 두 개 이상의 마이크로폰중에서 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 상기 음성 인식에 대한 검증을 수행하는 단계; 및 최종 인식결과 출력부가, 상기 음성 인식을 수행하고 검증을 수행하는 단계의 결과를 근거로 상기 사용자의 음성에 대한 최종 인식결과를 출력하는 단계;를 포함한다.
바람직하게, 상기 음성 인식을 수행하고 검증을 수행하는 단계는, 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행하되, 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 상기 음성 인식의 결과로서 출력하는 단계; 및 상기 나머지 마이크로폰의 입력을 이용하여 상기 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정하는 단계;를 포함할 수 있다.
바람직하게, 상기 최종 인식결과를 출력하는 단계는 상기 시간대별 하나 이상의 단어 후보에 대한 상기 확률값 및 신뢰도를 근거로 상기 시간대별 하나 이상의 단어 후보 각각에 대한 최종 스코어를 결정하고, 상기 시간대별로 최대값을 가지는 단어 후보를 상기 최종 인식결과로 출력할 수 있다.
바람직하게, 잡음 처리부가, 상기 선택된 두 개 이상의 마이크로폰의 입력에 대해 잡음 처리를 행하는 단계;를 추가로 포함하여도 된다.
이러한 구성의 본 발명에 따르면, 여러 개의 동일특성 마이크로폰을 일정 구조로 배열하여 잡음 개수, 위치에 성능이 제한되는 것에 비해 다양한 N-마이크로폰을 분산시킴으로 마이크로폰 특성이나 잡음 특성에 제한되지 않는다.
또한, 분산된 마이크로폰 가운데 덜 오염된 것들을 선택하여 음성인식을 수행함으로써 환경에 무관하게 원거리 음성인식을 할 수 있는 효과를 가진다.
도 1은 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 장치의 구성도이다.
도 2는 복수의 마이크로폰이 분산 설치된 형태 및 사용자 발성음에 반응한 마이크로폰을 예시적으로 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 방법을 설명하기 위한 플로우차트이다.
도 4는 본 발명의 실시예 설명에 채용되는 단어 격자 형태 및 최종 인식결과의 예를 나타낸 도면이다.
도 2는 복수의 마이크로폰이 분산 설치된 형태 및 사용자 발성음에 반응한 마이크로폰을 예시적으로 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 방법을 설명하기 위한 플로우차트이다.
도 4는 본 발명의 실시예 설명에 채용되는 단어 격자 형태 및 최종 인식결과의 예를 나타낸 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법에 대하여 설명하면 다음과 같다. 본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니된다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
여러 개의 잡음이 존재하는 환경에서 원거리 음성인식을 수행하는 것은 인식 대상이 되는 사용자 음성이 잡음으로 인해 다양하게 오염되기 때문에 매우 어렵다. 종래의 기술은 여러 개의 마이크로폰을 일정한 구조로 배열하여 사용자의 방향을 예측하고 예측된 방향에서의 신호를 받아들이는 형태와 사용자 음성과 잡음을 분리하는 형태로 이루어져 있다. 사용자 방향을 찾는 방식은 반향이 존재하는 환경에서 성능에 문제가 있고, 음성과 잡음을 분리하는 방식은 잡음의 개수를 미리 알아야 좋은 성능을 얻을 수 있는 문제가 있다. 또한 두 방식 모두 잡음을 제거하면서 왜곡을 일으키는 문제를 가지고 있다.
본 발명은 N개의 마이크로폰을 주위에 분산시키고 사용자 음성에 반응하는 몇 개의 마이크로폰을 선택하여 선택된 마이크로폰 음성으로부터 인식 및 검증을 병행하면서 최종 인식 결과를 출력하는 것을 기술적 특징으로 한다.
도 1은 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 장치의 구성도이고, 도 2는 복수의 마이크로폰이 분산 설치된 형태 및 사용자 발성음에 반응한 마이크로폰을 예시적으로 나타낸 도면이다.
본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 장치는 마이크로폰 선택부(20), 잡음 처리부(22), 신호대 잡음비 측정부(24), 음성 인식 및 검증부(32), 및 최종 인식결과 출력부(30)를 포함한다.
마이크로폰 선택부(20)는 도 2에서와 같이 사용자(P)의 주변에 분산된 복수의 마이크로폰의 에너지의 변화(예컨대, 음성신호의 세기)를 측정한다. 그리고, 마이크로폰 선택부(20)는 측정된 각각의 마이크로폰의 에너지 변화를 근거로 사용자의 음성에 반응하는 두 개 이상의 마이크로폰(예컨대, 10a, 10b, 10c)을 선택한다.
잡음 처리부(22)는 마이크로폰 선택부(20)에 의해 선택된 두 개 이상의 마이크로폰(예컨대, 10a, 10b, 10c)의 입력 각각에 대해 위너 필터(Wiener filter) 등을 이용하여 1채널 잡음처리를 수행한다.
신호대 잡음비 측정부(24)는 마이크로폰 선택부(20)에 의해 선택되고 잡음 처리부(22)를 통과한 두 개 이상의 마이크로폰(예컨대, 10a, 10b, 10c)의 입력에 대한 신호대 잡음비를 측정한다.
음성 인식 및 검증부(32)는 선택된 두 개 이상의 마이크로폰(예컨대, 10a, 10b, 10c)중에서 신호대 잡음비 측정부(24)에서 출력되는 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력을 이용하여 음성 인식에 대한 검증을 수행한다.
바람직하게, 음성 인식 및 검증부(32)는 음성 인식부(26), 및 신뢰도 측정부(28)를 포함한다. 음성 인식부(26)는 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행하되, 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 음성 인식의 결과로서 출력한다. 신뢰도 측정부(28)는 신호대 잡음비가 가장 큰 마이크로폰을 제외한 나머지 마이크로폰의 입력을 이용하여 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정한다.
최종 인식결과 출력부(30)는 음성 인식 및 검증부(32)의 결과를 근거로 최종 인식결과를 출력한다. 바람직하게, 최종 인식결과 출력부(30)는 시간대별 하나 이상의 단어 후보에 대한 확률값 및 신뢰도를 근거로 최종 스코어를 결정한다. 그리고, 최종 인식결과 출력부(30)는 시간대별로 최대값을 가지는 단어 후보를 최종 인식결과로 출력할 수 있다. 즉, 최종 인식결과 출력부(30)는 단어 격자에서의 모든 경로를 탐색하되 최대값을 가지는 경로를 결정하여 이를 최종 인식결과로 제시할 수 있다.
이번에는, 도 3의 플로우차트를 참조하여 본 발명의 실시예에 따른 복수의 마이크로폰을 이용한 비동기 음성인식 방법을 설명한다.
도 2에서와 같이 사용자(P)의 주변에 N개의 마이크로폰이 존재하고 각 마이크로폰에는 주변의 배경잡음이 입력되는 상황에서, 사용자(P)가 발성을 한다(S10). 사용자의 발성음이 각 마이크로폰에게로 입력될 수 있다.
그에 따라, 마이크로폰 선택부(20)는 각 마이크로폰에서의 에너지의 변화(즉, 음성신호의 세기)를 측정하여 사용자 음성에 반응하는 몇 개의 마이크로폰(예컨대, 10a, 10b, 10c)을 선택한다(S12). 여기서, 음성신호의 세기가 예컨대 기설정된 음성신호의 세기 이상이면 사용자 음성에 반응한 것으로 볼 수 있다.
이와 같이 몇 개의 마이크로폰(10a, 10b, 10c)이 선택되면 잡음 처리부(22)는 그 선택된 몇 개의 마이크로폰(10a, 10b, 10c)의 입력 각각에 대해 위너 필터 등을 이용하여 1채널 잡음처리를 수행한다(S14).
이어, 신호대 잡음비 측정부(24)는 잡음처리된 각 마이크로폰 입력의 신호대 잡음비를 측정한다(S16).
그리고 나서, 음성 인식 및 검증부(32)는 선택된 두 개 이상의 마이크로폰중에서 신호대 잡음비 측정부(24)에서 출력되는 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 음성 인식에 대한 검증을 수행한다. 도 2를 보면, 마이크로폰(10a)이 잡음에서 멀고 사용자 음성에 가장 가까운 것이 될 수 있으므로, 마이크로폰(10a)이 신호대 잡음비가 가장 큰 마이크로폰이 될 것이다. 따라서, 음성 인식 및 검증부(32)는 마이크로폰(10a)을 선택하고 마이크로폰(10a)의 입력을 이용해 먼저 음성인식을 수행한다.
즉, 음성 인식 및 검증부(32)의 음성 인식부(26)는 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행한다(S18). 이때, 음성 인식부(26)는 시간 경과에 따라 가능성 있는 N개의 단어 후보를 출력하게 된다.
바람직하게, 음성 인식부(26)는 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 음성 인식의 결과로서 출력한다(S20). 여기서, 확률값은 대략 0 ~ 10.0의 범위내에서 표현될 수 있다. 확률값은 음성 인식한 단어 후보가 발성 당시의 실제 단어와 동일할 가능성을 수치적으로 표현한 것으로 볼 수 있다.
그리고, 음성 인식 및 검증부(32)의 신뢰도 측정부(28)는 나머지 마이크로폰의 입력을 이용하여 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정한다. 여기서, 신뢰도는 대략 0 ~ 1.0의 범위내에서 표현될 수 있다. 즉, 신뢰도는 음성 인식부(26)가 마이크로폰(10a)의 입력을 시간대별로 음성 인식한 단어 후보에 대해 마이크로폰(10b, 10c)을 통해 입력받은 단어(즉, 음성)가 얼마나 매치(match)되는지를 수치적으로 나타낸 값이라고 할 수 있다. 신뢰도 측정부(28)는 시간대별 하나 이상의 단어 후보에 대하여 측정된 신뢰도를 출력한다(S22).
이와 같이, 음성인식을 수행한 결과가 시간에 따라 단어 격자 형태로 되어 각 단어 후보에 대한 확률값이 주어지고, 그 후에 각 단어 후보에 대한 신뢰도가 나머지 마이크로폰 입력에 대해 수행한 검증과정을 통해 얻어질 수 있다.
이어, 최종 인식결과 출력부(30)는 시간대별 하나 이상의 단어 후보에 대한 확률값 및 신뢰도를 근거로 각각의 단어 후보에 대한 최종 스코어를 결정한다(S24).
그리고 나서, 최종 인식결과 출력부(30)는 시간대별로 최대값을 가지는 단어 후보를 최종 인식결과로 출력한다. 즉, 최종 인식결과 출력부(30)는 단어 격자에서의 모든 경로를 탐색하여 최대값을 가지는 경로를 결정해 최종 인식 결과로 제시하게 된다(S26).
도 4는 본 발명의 실시예 설명에 채용되는 단어 격자 형태 및 최종 인식결과의 예를 나타낸 도면이다. 즉, 도 4는 도 2에서 선택된 3개의 마이크로폰(10a, 10b, 10c)의 입력을 이용하되, 먼저 수행한 마이크로폰(10a)의 인식결과에서 얻은 단어 격자 및 확률값에 시간차를 두고 진행한 나머지 2개의 마이크로폰(10b, 10c)의 입력에 대한 검증과정에서의 신뢰도를 결합하여 최대값을 가지는 경로를 결정하는 과정을 나타낸다.
도 4의 단어 격자 구조에서, 왼쪽에서 오른쪽으로 진행하면서 각 시간대별로 하나 이상의 단어 후보가 존재한다. 여기서, 각 시간대별로 하나 이상의 단어 후보는 음성 인식부(26)에 의해 생성된다.
예를 들어, 사용자가 "나는 친구와 함께 바다에 간다"를 발성한 것으로 가정한다. 그리고, 음성 인식부(26)에서의 시간대별 음성 인식 결과, 시간대 1("나는"의 경우)에서는 하나의 단어 후보를 출력하고, 시간대 2("친구와"의 경우)에서는 세 개의 단어 후보를 출력하고, 시간대 3("함께"의 경우)에서는 두 개의 단어 후보를 출력하고, 시간대 4("바다에"의 경우)에서는 네 개의 단어 후보를 출력하고, 시간대 5("간다"의 경우)에서는 두 개의 단어 후보를 출력한 것으로 가정한다. 또한, 음성 인식부(26)는 시간대 1 ~ 시간대 5의 각각의 단어 후보에 대한 확률값을 출력한다. 도 4에 표시된 10a:10.0, 10a:8.1, 10a:8.0, 10a:7.9, 10a:8.4, 10a:7.7, 10a:9.0, 10a:7.0 등이 마이크로폰(10a)의 입력에 대한 음성 인식결과로서 출력되는 각각의 단어 후보에 대한 확률값을 의미한다.
그리고, 신뢰도 측정부(28)에서의 각 단어 후보에 대한 신뢰도가 10b:1.0 / 10c:0.9, 10b:0.7 / 10c:0.7, 10b:0.8 / 10c:0.7, 10b:0.7 / 10c:0.8, 10b:0.9 / 10c:0.9, 10b:0.9, 10c:0.8 등으로 표현된다.
여기서, 예를 들어 시간대 2에서의 단어들과 시간대 3에서의 단어들 사이는 모두 연결 가능하다. 물론, 상호 인접한 다른 시간대에서의 단어들 사이도 모두 연결 가능하다.
최종 인식결과 출력부(30)는 각 단어 후보에 대한 확률값과 신뢰도를 결합하여 최종 스코어를 생성한다. 여기서, 최종 스코어는 도 4에서와 같이 "10a + (10b+10c)/2"로 구해질 수 있다.
그리고, 최종 인식결과 출력부(30)는 도 4에서와 같이 시간대 1에서 시간대 5까지 모든 경로를 따라가면서 최종 스코어가 최대가 되는 경로를 선택하여 최종 인식결과로서 출력한다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10 : 마이크로폰 20 : 마이크로폰 선택부
22 : 잡음 처리부 24 : 신호대 잡음비 측정부
26 : 음성 인식부 28 : 신뢰도 측정부
30 : 최종 인식결과 출력부 32 : 음성 인식 및 검증부
40 : 비동기 음성인식 장치
22 : 잡음 처리부 24 : 신호대 잡음비 측정부
26 : 음성 인식부 28 : 신뢰도 측정부
30 : 최종 인식결과 출력부 32 : 음성 인식 및 검증부
40 : 비동기 음성인식 장치
Claims (9)
- 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 마이크로폰 선택부;
상기 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 신호대 잡음비 측정부;
상기 선택된 두 개 이상의 마이크로폰중에서 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 상기 음성 인식에 대한 검증을 수행하는 음성 인식 및 검증부; 및
상기 음성 인식 및 검증부의 결과를 근거로 상기 사용자의 음성에 대한 최종 인식결과를 출력하는 최종 인식결과 출력부;를 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치. - 청구항 1에 있어서,
상기 음성 인식 및 검증부는,
상기 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행하되, 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 상기 음성 인식의 결과로서 출력하는 음성 인식부; 및
상기 나머지 마이크로폰의 입력을 이용하여 상기 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정하는 신뢰도 측정부;를 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치. - 청구항 2에 있어서,
상기 최종 인식결과 출력부는 상기 시간대별 하나 이상의 단어 후보에 대한 상기 확률값 및 신뢰도를 근거로 상기 시간대별 하나 이상의 단어 후보 각각에 대한 최종 스코어를 결정하고, 상기 시간대별로 최대값을 가지는 단어 후보를 상기 최종 인식결과로 출력하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치. - 청구항 1에 있어서,
상기 선택된 두 개 이상의 마이크로폰의 입력에 대해 잡음 처리를 행하는 잡음 처리부;를 추가로 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치. - 청구항 4에 있어서,
상기 잡음 처리부는 위너 필터를 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 장치. - 마이크로폰 선택부가, 사용자의 주변에 분산된 복수의 마이크로폰중에서 사용자의 음성에 반응하는 두 개 이상의 마이크로폰을 선택하는 단계;
신호대 잡음비 측정부가, 상기 선택된 두 개 이상의 마이크로폰의 입력의 신호대 잡음비를 측정하는 단계;
음성 인식 및 검증부가, 상기 선택된 두 개 이상의 마이크로폰중에서 상기 신호대 잡음비가 가장 큰 마이크로폰의 입력으로 음성 인식을 수행하고, 나머지 마이크로폰의 입력으로 상기 음성 인식에 대한 검증을 수행하는 단계; 및
최종 인식결과 출력부가, 상기 음성 인식을 수행하고 검증을 수행하는 단계의 결과를 근거로 상기 사용자의 음성에 대한 최종 인식결과를 출력하는 단계;를 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 방법. - 청구항 6에 있어서,
상기 음성 인식을 수행하고 검증을 수행하는 단계는,
상기 신호대 잡음비가 가장 큰 마이크로폰의 입력에 대한 음성 인식을 수행하되, 시간대별로 하나 이상의 단어 후보 및 각 단어 후보에 대한 확률값을 상기 음성 인식의 결과로서 출력하는 단계; 및
상기 나머지 마이크로폰의 입력을 이용하여 상기 시간대별 하나 이상의 단어 후보에 대한 신뢰도를 측정하는 단계;를 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 방법. - 청구항 7에 있어서,
상기 최종 인식결과를 출력하는 단계는 상기 시간대별 하나 이상의 단어 후보에 대한 상기 확률값 및 신뢰도를 근거로 상기 시간대별 하나 이상의 단어 후보 각각에 대한 최종 스코어를 결정하고, 상기 시간대별로 최대값을 가지는 단어 후보를 상기 최종 인식결과로 출력하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 방법. - 청구항 6에 있어서,
잡음 처리부가, 상기 선택된 두 개 이상의 마이크로폰의 입력에 대해 잡음 처리를 행하는 단계;를 추가로 포함하는 것을 특징으로 하는 복수의 마이크로폰을 이용한 비동기 음성인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130055421A KR20140135349A (ko) | 2013-05-16 | 2013-05-16 | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 |
US14/277,241 US20140343935A1 (en) | 2013-05-16 | 2014-05-14 | Apparatus and method for performing asynchronous speech recognition using multiple microphones |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20130055421A KR20140135349A (ko) | 2013-05-16 | 2013-05-16 | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140135349A true KR20140135349A (ko) | 2014-11-26 |
Family
ID=51896465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20130055421A KR20140135349A (ko) | 2013-05-16 | 2013-05-16 | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20140343935A1 (ko) |
KR (1) | KR20140135349A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9668047B2 (en) | 2015-08-28 | 2017-05-30 | Hyundai Motor Company | Microphone |
WO2017195946A1 (ko) * | 2016-05-13 | 2017-11-16 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
CN110310651A (zh) * | 2018-03-25 | 2019-10-08 | 深圳市麦吉通科技有限公司 | 波束形成的自适应语音处理方法、移动终端及存储介质 |
US10446154B2 (en) | 2015-09-09 | 2019-10-15 | Samsung Electronics Co., Ltd. | Collaborative recognition apparatus and method |
US10887714B2 (en) | 2015-07-07 | 2021-01-05 | Hyundai Motor Company | Microphone and manufacturing method thereof |
WO2023145985A1 (ko) * | 2022-01-26 | 2023-08-03 | 엘지전자 주식회사 | 디스플레이 장치 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3193328B1 (en) | 2015-01-16 | 2022-11-23 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10013981B2 (en) * | 2015-06-06 | 2018-07-03 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9865265B2 (en) | 2015-06-06 | 2018-01-09 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
US10332543B1 (en) | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
CN109377991B (zh) * | 2018-09-30 | 2021-07-23 | 珠海格力电器股份有限公司 | 一种智能设备控制方法及装置 |
KR20190113693A (ko) * | 2019-09-18 | 2019-10-08 | 엘지전자 주식회사 | 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
-
2013
- 2013-05-16 KR KR20130055421A patent/KR20140135349A/ko not_active Application Discontinuation
-
2014
- 2014-05-14 US US14/277,241 patent/US20140343935A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10887714B2 (en) | 2015-07-07 | 2021-01-05 | Hyundai Motor Company | Microphone and manufacturing method thereof |
US9668047B2 (en) | 2015-08-28 | 2017-05-30 | Hyundai Motor Company | Microphone |
US10446154B2 (en) | 2015-09-09 | 2019-10-15 | Samsung Electronics Co., Ltd. | Collaborative recognition apparatus and method |
WO2017195946A1 (ko) * | 2016-05-13 | 2017-11-16 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US10163452B2 (en) | 2016-05-13 | 2018-12-25 | Lg Electronics Inc. | Electronic device for speech recognition |
CN110310651A (zh) * | 2018-03-25 | 2019-10-08 | 深圳市麦吉通科技有限公司 | 波束形成的自适应语音处理方法、移动终端及存储介质 |
CN110310651B (zh) * | 2018-03-25 | 2021-11-19 | 深圳市麦吉通科技有限公司 | 波束形成的自适应语音处理方法、移动终端及存储介质 |
WO2023145985A1 (ko) * | 2022-01-26 | 2023-08-03 | 엘지전자 주식회사 | 디스플레이 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20140343935A1 (en) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20140135349A (ko) | 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법 | |
EP3347894B1 (en) | Arbitration between voice-enabled devices | |
US9734822B1 (en) | Feedback based beamformed signal selection | |
US9361907B2 (en) | Sound signal processing apparatus, sound signal processing method, and program | |
JP6584930B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Kanda et al. | Acoustic modeling for distant multi-talker speech recognition with single-and multi-channel branches | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
US20110096630A1 (en) | Method for estimating target range error and sonar system thereof | |
JP2015018015A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
JP2015019124A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
KR101082839B1 (ko) | 다채널 잡음처리 장치 및 방법 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
JP2017067948A (ja) | 音声処理装置および音声処理方法 | |
KR101863098B1 (ko) | 음성 인식 장치 및 방법 | |
KR20120079342A (ko) | 위치 기반의 음향 처리 장치 및 방법 | |
US20220270630A1 (en) | Noise suppression apparatus, method and program for the same | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
CN112530452A (zh) | 一种后置滤波补偿方法、装置和系统 | |
Morales-Cordovilla et al. | Room localization for distant speech recognition. | |
JP2017097101A (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
KR101054071B1 (ko) | 음성과 비음성 구간 판별 방법 및 장치 | |
US11600273B2 (en) | Speech processing apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |