KR102333476B1 - 레이더 기반 음성 인식 서비스 장치 및 방법 - Google Patents
레이더 기반 음성 인식 서비스 장치 및 방법 Download PDFInfo
- Publication number
- KR102333476B1 KR102333476B1 KR1020180115532A KR20180115532A KR102333476B1 KR 102333476 B1 KR102333476 B1 KR 102333476B1 KR 1020180115532 A KR1020180115532 A KR 1020180115532A KR 20180115532 A KR20180115532 A KR 20180115532A KR 102333476 B1 KR102333476 B1 KR 102333476B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- sound source
- sound
- radar
- voice
- Prior art date
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 title claims description 11
- 238000012805 post-processing Methods 0.000 claims abstract description 8
- 230000003068 static effect Effects 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 101000878595 Arabidopsis thaliana Squalene synthase 1 Proteins 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/02—Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
- G01S13/06—Systems determining position data of a target
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
본 발명은 레이더 기반 음성 인식 서비스 장치로, 레이더와, 레이더의 송/수신 신호를 분석하여 화자의 위치를 탐색하는 음원 위치 추적부와, 주변 음향을 입력받는 음향 획득부와, 음원 위치 추적부에 의해 추적된 화자 위치 정보를 기반으로 음향 획득부를 통해 입력된 음향에서 화자의 음성을 분리하는 음원 분리부와, 음원 분리부에 의해 분리된 화자의 음성을 인식하는 후처리부를 포함한다.
Description
본 발명은 음성 인식 기술에 관한 것으로, 특히 레이더 기술을 이용한 음성 인식 서비스 장치에 관한 것이다.
음성 인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하게 하는 것을 말한다. 음성 인식의 기술은 컴퓨터와 정보 통신의 발달로 인해 인간이 직접 움직이지 않고서도 원거리에서 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.
최근 음성 인식 기술의 발전에 따라, 애플의 시리(Siri), 구글의 나우(Now), 마이크로소프트의 코타나(Cortana), 아마존의 알렉사(Alexa) 등과 같은 다앙한 음성 인식 서비스가 출시되어 있다. 이러한 음성 인식 서비스 제공에 따른 사용자 명령을 정확히 인식하기 위해서는 화자의 음성과 같은 목표 음원의 위치를 실시간으로 추적하고 잡음이 존재하는 환경에서 마이크에 수신된 신호에서 각 음원을 분리하여 이들의 음원 위치를 파악하는 것이 요구된다.
그런데, 기존 음성 인식 서비스에서는 소리가 발생한 후에 소리 신호에 대하여 분석을 수행하여 음원 탐색(source localization)하므로, 음원 탐색에 따른 시간 지연이 발생된다. 예컨대, 웨이크업 워드(Wake-up word)인 '알렉사'가 호명되면 음성 인식 서비스가 시작되는데, 이때 음성 인식 서비스 장치는 '알렉사'라는 음원 탐색이 이루어진 후에야 화자를 분리하여 음성 인식을 수행한다. 그런데, 음원 탐색에 따른 시간 지연으로 '알'은 인식되지 못하고, '렉사'만 인식되므로, 음성 인식 서비스 장치는 웨이크 업(Wake-up) 여부를 인지하지 못하게 된다. 따라서, 사용자가 '알렉사'를 재호명해야 하므로 번거로울 수 있다. 또한, 사용자가 이동함에 따라 음원 추적이 계속적으로 이루어진 후, 음성 인식이 수행되므로 사용자 명령이 정확하기 인식되지 않을 수도 있다.
본 발명은 웨이크업 워드(Wake-up word)를 포함하는 사용자 명령을 정확히 인식할 수 있는 레이더 기반 음성 인식 서비스 장치 및 방법을 제공한다.
또한, 음원 탐색에 따른 음성 인식 지연을 방지할 수 있는 레이더 기반 음성 인식 서비스 장치 및 방법을 제공한다.
또한, 사용자가 이동하더라도 정확한 음원 인식을 수행할 수 있는 레이더 기반 음성 인식 서비스 장치 및 방법을 제공한다.
본 발명은 레이더 기반 음성 인식 서비스 장치로, 레이더와, 레이더의 송/수신 신호를 분석하여 화자의 위치를 탐색하는 음원 위치 추적부와, 주변 음향을 입력받는 음향 획득부와, 음원 위치 추적부에 의해 추적된 화자 위치 정보를 기반으로 음향 획득부를 통해 입력된 음향에서 화자의 음성을 분리하는 음원 분리부와, 음원 분리부에 의해 분리된 화자의 음성을 인식하는 후처리부를 포함한다.
본 발명은 레이더 기반 음성 인식 서비스 방법으로, 레이더의 송/수신 신호를 분석하여 화자의 위치를 추적하는 단계와, 추적된 화자 위치 정보를 기반으로 입력된 음향에서 화자의 음성을 분리하는 단계와, 분리된 화자의 음성을 인식하는 단계를 포함한다.
본 발명에 따라, 미리 레이더 기반으로 신속히 음원 위치 탐색하여 음원 탐색에 따른 지연이 발생되지 않으므로, 웨이크업 워드(Wake-up word)를 포함하는 사용자 명령을 정확히 인식할 수 있다. 또한, 사용자가 이동하더라도 음원 위치 탐색이 신속하게 이루어지므로, 정확한 음성 인식을 수행할 수 있다.
음원 위치를 추적하는 기술은 가전제품 뿐만 아니라 가사를 지원하는 서비스 로봇, 음원 추적하여 침입자를 감시하는 감시 카메라, 다자 영상 회의에 쓰이는 비디오 카메라 등과 같은 기기에 사용한다.
도 1은 본 발명의 일 실시 예에 따른 레이더 기반 음성 인식 서비스 장치의 개략적인 블록 구성도이다.
도 2는 본 발명에 따른 레이더 기반 음성 인식 서비스 장치의 상면도의 일 예이다.
도 3은 본 발명의 일 실시 예에 따른 레이더 기반 음성 인식 서비스 방법을 설명하기 위한 순서도이다.
도 2는 본 발명에 따른 레이더 기반 음성 인식 서비스 장치의 상면도의 일 예이다.
도 3은 본 발명의 일 실시 예에 따른 레이더 기반 음성 인식 서비스 방법을 설명하기 위한 순서도이다.
이하 첨부된 도면을 참조하여, 바람직한 실시 예에 따른 레이더 기반 음성 인식 서비스 장치 및 방법에 대해 상세히 설명하면 다음과 같다. 여기서, 동일한 구성에대해서는 동일부호를 사용하며, 반복되는 설명, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 발명의 실시형태는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.
이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.
도 1은 본 발명의 일 실시 예에 따른 레이더 기반 음성 인식 서비스 장치의 개략적인 블록 구성도이고, 도 2는 본 발명에 따른 레이더 기반 음성 인식 서비스 장치의 상면도의 일 예이다.
도 1을 참조하면, 레이더 기반 음성 인식 서비스 장치(이하 '장치'로 기재함)(100)는 음향 획득부(110), 음원 분리부(120), 후처리부(130), 레이더(141), 음원 위치 추적부(142) 및 제어부(150)를 포함한다.
이러한 레이더 기반 음성 인식 서비스 장치(100)는 가정의 거실 등과 같이 사용자가 거주하고 있는 공간에 설치되어 있는 단말기로서, 화자의 서비스 요청 음성을 포함하는 음향을 마이크(100)를 통해 입력받으며, 음원 분리부(120)에서 해당 음향을 분석하여 화자를 식별하며, 식별된 화자의 음성의 의미에 상응하는 서비스를 후처리부(130)에서 수행하게 된다. 여기서, 음성의 의미 상응하는 서비스는 예컨대, "거실 불을 켜줘"라는 음성이 입력될 경우, 거실 조명의 온/오프를 제어하는 것일 수 있다. 그러나, 이는 일 예일 뿐, 본 발명은 이에 한정되지 않는다. 레이더 기반 음성 인식 서비스 장치(100)는 음원 위치를 추적하는 기술이 적용된 가전제품 뿐만 아니라 가사를 지원하는 서비스 로봇, 음원 추적하여 침입자를 감시하는 감시 카메라, 다자 영상 회의에 쓰이는 비디오 카메라 등과 같은 기기일 수도 있다.
일 실시 예에 따라, 음향 획득부(110)는 복수의 마이크들(111a, 111b,..)이 이 방사 배치된 마이크로폰 어레이(Microphone array)(111)를 포함할 수 있다. 도 2를 참조하면, 마이크로폰 어레이(111)는 장치(100)의 원통형 하우징의 주변을 둘러싸는 방사형의 형태로 복수의 마이크들(111a, 111b,..)이 구비된 형태로 이루어질 수 있다. 그러나, 이는 일 예일 뿐, 본 발명은 이에 한정되지 않는다. 레이더 기반 음성 인식 장치(100)는 다양한 형태를 가질 수도 있고, 마이크로폰 어레이(110)는 레이더 기반 음성 인식 장치(100)와 유/무선 통신되는 별도의 구성을 가질 수도 있다. 또한, 다른 실시 예에 따라, 복수의 마이크들(111a, 111b,..)은 회전 가능한 지지대(미도시)에 의해 장치(100)의 하우징에 부착되어, 제어부(150)의 제어에 의해 지지대가 방향 전환 가능하도록 구성될 수도 있다.
마이크로폰 어레이(111)의 주변에는 다양한 음원들(Sound Source: SS 1,.., SS i,.., SS N)이 존재할 수 있다. 여기서, 음원들은 하나 또는 둘 이상의 사용자와, 주변의 TV 장치를 포함하여 다양한 잡음을 발생시키는 전자 장치 등이 포함될 수 있다. 마이크로폰 어레이(111)를 구성하는 복수의 마이크들(111a, 111b,..) 각각은 지향된 위치에 존재하는 음원을 중심으로 다양한 음원에서 발생시키는 음향을 입력받아 출력할 수 있다. 또한, 마이크로폰 어레이(111)는 증폭부(112)에 연결되어, 마이크로폰 어레이(111)에 의해 입력된 음향이 증폭될 수 있다. 이때, 본 발명의 일 실시 예에 따라, 증폭부(112)는 마이크로폰 어레이(111)를 구성하는 복수의 마이크들(111a, 111b,..) 각각으로부터 출력되는 음향을 증폭시키는 복수의 증폭기들로 구성되어, 복수의 증폭기들은 각각 그 이득(Gain)이 독립적으로 제어될 수 있다.
다시 도 1을 참조하면, 레이더(Radar)(141)는 장치(100)가 전원 구동됨(on)에 따라, 주변에 레이더 신호를 송출하고, 송출된 레이더 신호가 주변에 물체에 반사되어 피드백된 반사 신호를 수신한다. 본 발명의 일 실시 예에 따라, 레이더(Radar)(141) 또한 마이크로폰 어레이(111)와 같이 장치(100)의 하우징의 주변을 둘러싸는 방사형의 형태로 복수의 레이더들(미도시)이 형성되는 형태를 가질 수 있다. 따라서, 레이더(Radar)(141)는 주변에 방사형으로 복수의 레이더 신호들을 송출하여 반사된 신호를 수신할 수 있다. 또한, 다른 실시 예에 따라, 복수의 레이더들은 회전 가능한 지지대(미도시)에 의해 장치(100)의 하우징에 부착되어, 제어부(150)의 제어에 의해 지지대가 방향 전환 가능하도록 구성될 수도 있다.
음원 위치 추적부(142)는 레이더(141)의 송/수신 신호를 분석하여 화자의 위치를 탐색한다. 즉, 음원 위치 추적부(142)는 송/수신 신호를 통해 반사체와의 거리를 계산하고, 계산된 반사체와의 거리에 따라 음원 위치를 추적한다. 이때, 음원 위치 추적부(142)는 사람이 존재하지 않는 상황에서 주변에 존재하는 정적 반사체와의 거리 정보들이 미리 저장되어 있을 수 있다. 여기서, 정적 반사체는 예컨대, 거실의 TV 장치, 벽 및 쇼파 등을 포함하여 이동하지 않는 반사체일 수 있다.
따라서, 음원 위치 추적부(142)는 미리 저장된 주변의 정적 반사체와의 거리 정보들과 상이한 동적 반사체의 거리 정보가 산출될 경우, 해당 동적 반사체를 화자로 판단할 수 있다. 따라서, TV 장치가 구동되어 있어 사운드를 발생시키더라도 TV 장치는 미리 저장된 정적 반사체에 해당하므로, 음원 위치 추적부(142)는 TV 장치를 화자로 판단하지 않을 수 있다. 또한, 음원 위치 추적부(142)는 화자를 둘 이상으로 판단할 수도 있다. 또한, 음원 위치 추적부(142)는 화자의 형태 윤곽 정보도 검출할 수 있다. 예컨대, 키, 자세(앉았는지 서 있는지), 사람과 TV의 구별해낼 수 있다.
음원 분리부(120)는 음향 획득부(110)로부터 입력되는 음향에서 화자의 음성을 분리해낸다. 즉, 음향 획득부(110)에는 다양한 위치의 음원들이 발생시키는 음향들이 섞여있는 형태로 입력되는데, 음원 분리부(120)는 이러한 음향에서 화자의 음성을 분리해내는 것이다. 이를 위해 화자의 위치를 파악하는 것이 중요한데, 종래에는 다수의 마이크로폰을 직렬이나 병렬로 배치하여 마이크로폰 어레이를 구성하고 이 마이크로폰 어레이에 입력된 신호를 분석하여 음원 위치를 파악하려는 연구 개발에 많은 노력이 이루어졌다. 그런데, 이러한 기존의 방식은 음원 위치 추적을 위해 전(全) 방위에 대해 검색하고 시간 영역에서 주파수 영역으로 변환하고 이를 역변환하는 과정이 요구되므로 음원 추적시 계산량이 많아진다.
따라서, 본 발명에서는 이러한 마이크로폰 어레이에 입력된 신호를 분석하여 음원 위치를 파악하는 것이 아니라, 음원 위치 추적부(142)가 음향 획득부(110)로부터 음향이 입력되기 이전에 레이더(141) 송/수신 신호를 분석하여 음원 위치를 추적한다.
따라서, 음원 분리부(120)는 추적된 음원 위치 정보를 기반으로 음향 획득부(110)를 통해 입력되는 음향에서 화자의 음성을 분리해낸다. 이때, 음원 분리를 위해 다양한 알고리즘이 채택 가능하다. 일 예로, 음원 분리부(120)에서는 능동 잡음 제거(Active Noise Cancellation) 기술이 적용될 수 있도록 하기 위해, 추적된 음원 위치에 발생되는 음향을 추정해내고, ANC 기술을 적용하여 추정된 음향으로부터 주변 음향을 제거하는 방식으로 잡음을 제거한다. 이때, 마이크로폰 어레이(111)를 구성하는 마이크들(111a, 111b,..) 중 화자를 향하는 마이크로부터 입력되는 음향에 화자의 음성이 가장 많이 포함되어 있으므로, 잡음 제거시 고려해야 할 사항 중 중요한 것이 해당 마이크의 전방에서 들어오는 음성 신호를 최대한 손실하지 않고, 전방 이외의 방향에서 들어오는 잡음 신호가 제거되도록 하는 것이다.
이를 위해, 제어부(150)는 음향 획득부(110)의 마이크로폰 어레이(111)를 구성하는 복수의 마이크들(111a, 111b,..) 중 화자 위치를 향하는 마이크에 연결된 증폭기와 그 외의 마이크들에 연결된 증폭기들의 이득을 상이하게 제어한다. 즉, 음원 위치에 상응하는 마이크에 연결된 증폭기의 이득은 크게 하고, 그 외의 증폭기들의 이득은 작게 조절한다. 이로써, 음원 분리부(120)는 해당 마이크의 전방에서 들어오는 음성 신호를 최대한 손실하지 않고, 전방 이외의 방향에서 들어오는 잡음신호가 제거되도록 할 수 있다.
또한, 다른 실시 예에 따라, 제어부(150)는 신호대잡음비 강화(SNR enhancement), 마이크로폰 어레이 지향(micophone array orientation) 등의 알고리즘을 이용하여 화자 음원을 최대한 손실하지 않고 잡음 신호가 제거되도록 할 수도 있다. 예컨대, 전술한 바와 같이 마이크로폰 어레이(111)의 복수의 마이크들(111a, 111b,..)의 지향 위치는 조절 가능하도록 구성될 수 있고, 제어부(150)는 음원 위치 추적부(142)에 의해 추적된 음원 위치를 기반으로 복수의 마이크들(111a, 111b,..)이 해당 음원 위치를 향하도록 마이크의 지향 위치를 조절할 수도 있다.
또한, 전술한 바와 같이 마이크로폰 어레이(111)에 연결된 증폭부(120)의 개별 이득이 제어되거나, 마이크로폰 어레이(111)가 향하는 방향이 조절될 경우, 음원 분리부(120)에 의한 음원 분리(Source Separation)가 생략되고, 음성 인식부(131)에서 간략하고 빠른(Simple & Fast) 알고리즘을 통해 음성 인식을 수행할 수도 있다.
후처리부(130)는 음성 인식부(131) 및 대응 처리부(132)를 포함한다. 음성 인식부(131)는 음원 분리부(120)로부터 분리된 화자의 음성이 입력됨에 따라, 해당 음성의 의미를 인식해낼 수 있다. 그런 후, 대응 처리부(132)는 인식된 음성의 의미에 상응하는 서비스 동작이 수행되도록 한다. 예컨대, 음성의 의미에 상응하는 서비스는 외부 전자 기기를 제어하는 것으로, 후처리부(130)는 유/무선 통신을 통해 외부 전자 기기에 해당 제어 명령을 송신하는 기능을 수행할 수 있다. 여기서, 외부 전자 기기(미도시)는 제어 명령에 따라 동작되는 장비로서, 가정 내에 설치되어 있는 스마트 TV, 서비스 제공 서버(200)와 연동되는 조명 기기, 난방 기기, 에어컨 등의 다양한 사물 인터넷(IoT)용 장비가 될 수 있을 것이다.
이때, 도면에는 도시되어 있지 않지만, 후처리부(130)는 서비스 제공 메시지를 스피커(미도시)를 통해 출력할 수도 있다. 또한, 레이더 기반 음성 인식 서비스 장치(100)는 유/무선 통신을 통해 외부의 서비스 제공 서버(미도시)에 음성에서 인식된 서비스 제공 요청 메시지를 전달하여 서비스 제공 서버로부터 피드백되는 맞춤형 서비스 제안 메시지를 수신하여, 그에 상응하는 서비스를 제공할 수도 있다.
도 3은 본 발명의 일 실시 예에 따른 레이더 기반 음성 인식 서비스 방법을 설명하기 위한 순서도이다.
도 3을 참조하면, 장치(100)는 전원 구동됨(on)에 따라, 주변에 레이더 신호를 송출하고, 송출된 레이더 신호가 주변에 물체에 반사되어 피드백된 반사 신호를 수신한다(S210). 본 발명의 일 실시 예에 따라, 레이더(Radar)(141)는 주변에 방사형으로 복수의 레이더 신호들을 송출하여 반사된 신호를 수신할 수 있다.
장치(100)는 레이더 송/수신 신호를 분석하여 화자의 위치를 탐색한다(S220). 즉, 송/수신 신호를 통해 반사체와의 거리를 계산하고, 계산된 반사체와의 거리에 따라 음원 위치를 추적한다. 이때, 장치(100)는 사람이 존재하지 않는 상황에서 주변에 존재하는 정적 반사체와의 거리 정보들이 미리 저장되어 있을 수 있다. 여기서, 정적 반사체는 예컨대, 거실의 TV 장치, 벽 및 쇼파 등을 포함하여 이동하지 않는 반사체일 수 있다. 따라서, 장치(100)는 미리 저장된 주변의 정적 반사체와의 거리 정보들과 상이한 동적 반사체의 거리 정보가 산출될 경우, 해당 동적 반사체를 화자로 판단할 수 있다. 따라서, TV 장치가 구동되어 있어 사운드를 발생시키더라도 TV 장치는 미리 저장된 정적 반사체에 해당하므로, 장치(100)는 TV 장치를 화자로 판단하지 않을 수 있다. 또한, 이때 장치(100)는 화자를 둘 이상으로 판단할 수도 있다.
다음으로, 장치(100)는 탐색된 화자의 위치 정보를 기반으로 구성 요소들을 제어할 수 있다(S230). 일 실시 예에 따라, 장치(100)는 마이크로폰 어레이(111)를 구성하는 복수의 마이크들(111a, 111b,..) 각각으로부터 출력되는 음향을 증폭시키는 복수의 증폭기들 각각의 이득(Gain)이 독립적으로 제어할 수 있다. 즉, 탐색된 음원 위치에 상응하는 마이크에 연결된 증폭기의 이득은 크게 하고, 그 외의 증폭기들의 이득은 작게 조절한다. 다른 실시 예에 따라, 음원 위치를 기반으로 복수의 마이크들(111a, 111b,..)이 해당 음원 위치를 향하도록 마이크의 지향 위치를 조절할 수도 있다.
전술한 S210 내지 S230를 통해 화자 위치에 따른 음성 인식 준비가 완료되면, 장치(100)는 음성이 입력되는지를 감지한다(S240). 이로써, 예컨대 사용자가 호명하는 '알렉사'라는 웨이크업 워드 전체를 처음부터 인식할 수 있도록 한다.
S240의 감지 결과 음성 입력이 감지되지 않을 경우, 장치(100)는 S210 단계로 돌아가서 음원 위치 탐색을 계속적으로 수행한다. 그리고, S250 내지 S270을 수행하는 동시에 S210 내지 S230가 계속적으로 수행될 수 있다. 이는 화자가 이동하더라도 음원 분리가 신속히 이루어지도록 하기 위함이다. 즉, 주변 사람의 움직임을 검출하고 추적하여 그 사람과의 대화의 콘텍스트(context)가 이어지도록 할 수 있다.
반면, S240의 감지 결과 음성 입력이 감지될 경우, 장치(100)는 탐색된 화자 위치 기반으로 음원을 분리한다. 즉, 입력되는 음향에서 화자의 음성을 분리해낸다. 즉, 다양한 위치의 음원들이 발생시키는 음향들이 섞여있는 형태로 입력되는데, 이러한 음향에서 화자의 음성을 분리해내는 것이다. 이때, 음원 분리를 위해 다양한 알고리즘이 채택 가능하다. 일 예로, 능동 잡음 제거(Active Noise Cancellation) 기술이 적용될 수 있도록 하기 위해, 추적된 음원 위치에 발생되는 음향을 추정해내고, ANC 기술을 적용하여 추정된 음향으로부터 주변 음향을 제거하는 방식으로 잡음을 제거한다. 이때, 마이크로폰 어레이(111)를 구성하는 마이크들(111a, 111b,..) 중 화자를 향하는 마이크로부터 입력되는 음향에 화자의 음성이 가장 많이 포함되어 있으므로, 잡음 제거시 고려해야 할 사항 중 중요한 것이 해당 마이크의 전방에서 들어오는 음성 신호를 최대한 손실하지 않고, 전방 이외의 방향에서 들어오는 잡음 신호가 제거되도록 하는 것이다. 또한, 전술한 바와 같이 마이크로폰 어레이(111)에 연결된 증폭부(120)의 개별 이득이 제어되거나, 마이크로폰 어레이(111)가 향하는 방향이 조절될 경우, 음원 분리(Source Separation) 단계(S250)가 생략되고, S260에서 간략하고 빠른(Simple & Fast) 알고리즘을 통해 음성 인식을 수행할 수도 있다.
장치(100)는 분리된 화자의 음성의 의미를 인식해낸다(S260). 그런 후, 식된 음성의 의미에 상응하는 서비스 동작이 수행되도록 한다(S270). 예컨대, 음성의 의미에 상응하는 서비스는 외부 전자 기기를 제어하는 것으로, 유/무선 통신을 통해 외부 전자 기기에 해당 제어 명령을 송신하는 기능을 수행할 수 있다.
Claims (5)
- 레이더와,
레이더의 송/수신 신호를 분석하여 화자의 위치를 탐색하되, 미리 저장된 주변의 적어도 하나의 정적 반사체의 거리 정보를 미리 저장하고, 분석된 레이더 송/수신 신호로부터 미리 저장된 정적 반사체의 거리 정보와 상이한 동적 반사체의 거리 정보가 산출될 경우 해당 동적 반사체를 화자로 판단하고 그 위치를 화자의 위치로 판단하는 음원 위치 추적부와,
방사 배치된 복수의 마이크들로 이루어진 마이크로폰 어레이와, 복수의 마이크들 각각으로부터 출력되는 복수의 음향 신호들을 증폭하여 출력하는 복수의 증폭부들을 포함하여 주변 음향을 입력받는 음향 획득부와,
음원 위치 추적부에 의해 추적된 화자 위치 정보를 기반으로 음향 획득부를 통해 입력된 음향에서 화자의 음성을 분리하는 음원 분리부와,
음원 분리부에 의해 분리된 화자의 음성을 인식하는 후처리부와,
음원 위치 추적부에 의해 탐색된 화자 위치 정보를 기반으로 복수의 증폭부들 각각의 각각의 이득을 차별 조절하되 화자 위치를 향하는 마이크에 연결된 증폭부의 이득을 크게 조절하는 제어부를 포함하여, 음원 탐색에 따른 음성 인식 지연을 방지하여 웨이크업 워드를 정확히 인식할 수 있는 레이더 기반 음성 인식 서비스 장치.
- 삭제
- 삭제
- 레이더의 송/수신 신호를 분석하여 화자의 위치를 추적하되, 미리 저장된 주변의 적어도 하나의 정적 반사체의 거리 정보를 미리 저장하고, 분석된 레이더 송/수신 신호로부터 미리 저장된 정적 반사체의 거리 정보와 상이한 동적 반사체의 거리 정보가 산출될 경우 해당 동적 반사체를 화자로 판단하고 그 위치를 화자의 위치로 판단하는 단계와,
추적된 화자의 위치 정보를 기반으로 복수의 마이크들 각각으로부터 출력되는 복수의 음향 신호들을 증폭하는 각각의 이득을 차별 조절하되 화자 위치를 향하는 마이크에 연결된 증폭부의 이득을 크게 조절하는 화자 위치 정보 기반 제어 단계와,
추적된 화자의 위치 정보를 기반으로 입력된 음향에서 화자의 음성을 분리하는 단계와,
분리된 화자의 음성을 인식하는 단계를 포함하여, 음원 탐색에 따른 음성 인식 지연을 방지하여 웨이크업 워드를 정확히 인식할 수 있는 레이더 기반 음성 인식 서비스 방법.
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180115532A KR102333476B1 (ko) | 2018-09-28 | 2018-09-28 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
KR1020200024428A KR102407872B1 (ko) | 2018-09-28 | 2020-02-27 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180115532A KR102333476B1 (ko) | 2018-09-28 | 2018-09-28 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200024428A Division KR102407872B1 (ko) | 2018-09-28 | 2020-02-27 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200036203A KR20200036203A (ko) | 2020-04-07 |
KR102333476B1 true KR102333476B1 (ko) | 2021-12-02 |
Family
ID=70291180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180115532A KR102333476B1 (ko) | 2018-09-28 | 2018-09-28 | 레이더 기반 음성 인식 서비스 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102333476B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185413B (zh) * | 2020-09-30 | 2024-04-12 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN118333171B (zh) * | 2024-06-06 | 2024-10-11 | 国家海洋局南海调查技术中心(国家海洋局南海浮标中心) | 一种基于视频和被动声学的企鹅监测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130101943A (ko) * | 2012-03-06 | 2013-09-16 | 삼성전자주식회사 | 음원 끝점 검출 장치 및 그 방법 |
KR101733231B1 (ko) * | 2015-02-17 | 2017-05-08 | 하동경 | 음원의 3차원 위치 파악 방법 및 그 장치와, 음원의 3차원 위치를 이용한 음질 개선 방법 및 그 장치 |
-
2018
- 2018-09-28 KR KR1020180115532A patent/KR102333476B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20200036203A (ko) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10149049B2 (en) | Processing speech from distributed microphones | |
JP7119117B2 (ja) | マイクロフォンアレイ内のインテリジェントビームステアリング | |
US11043231B2 (en) | Speech enhancement method and apparatus for same | |
US20170330565A1 (en) | Handling Responses to Speech Processing | |
US10547937B2 (en) | User-controlled beam steering in microphone array | |
US9076450B1 (en) | Directed audio for speech recognition | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US20230319190A1 (en) | Acoustic echo cancellation control for distributed audio devices | |
TW202147862A (zh) | 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法 | |
KR20220117282A (ko) | 오디오 디바이스 자동-로케이션 | |
KR102333476B1 (ko) | 레이더 기반 음성 인식 서비스 장치 및 방법 | |
US20230037824A1 (en) | Methods for reducing error in environmental noise compensation systems | |
US11653156B2 (en) | Source separation in hearing devices and related methods | |
KR102407872B1 (ko) | 레이더 기반 음성 인식 서비스 장치 및 방법 | |
US10602276B1 (en) | Intelligent personal assistant | |
CN111903194B (zh) | 使用连接的照明系统来增强语音命令的系统和方法 | |
WO2021177486A1 (ko) | 레이더 기반 음성 인식 서비스 장치 및 방법 | |
JP2021197658A (ja) | 収音装置、収音システム及び収音方法 | |
EP3539128A1 (en) | Processing speech from distributed microphones | |
US11917386B2 (en) | Estimating user location in a system including smart audio devices | |
WO2024183919A1 (en) | Controlling audio for a user device | |
EP4430845A1 (en) | Rendering based on loudspeaker orientation | |
WO2023192327A1 (en) | Representation learning using informed masking for speech and other audio applications | |
CN117240966A (zh) | 一种设备控制方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
X091 | Application refused [patent] | ||
A107 | Divisional application of patent | ||
AMND | Amendment | ||
X601 | Decision of rejection after re-examination | ||
J201 | Request for trial against refusal decision | ||
J301 | Trial decision |
Free format text: TRIAL NUMBER: 2020101001291; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20200508 Effective date: 20210421 |
|
E902 | Notification of reason for refusal | ||
GRNO | Decision to grant (after opposition) |