KR20160089145A

KR20160089145A - 음성 인식 방법 및 음성 인식 장치

Info

Publication number: KR20160089145A
Application number: KR1020150008713A
Authority: KR
Inventors: 문민영; 최영상
Original assignee: 삼성전자주식회사
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2016-07-27
Also published as: KR102387567B1; US9953647B2; US20160210965A1

Abstract

음성 인식 방법 및 음성 인식 장치가 개시된다. 개시된 음성 인식 방법은 복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하고, 상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식할 수 있다. 개시된 음성 인식 장치는 사용자의 기준 음성 신호를 수신하는 수신부; 및 상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부를 포함할 수 있다.

Description

음성 인식 방법 및 음성 인식 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}

아래 실시예들은 음성 인식 방법 및 음성 인식 장치에 관한 것이다.

음성 인터페이스는 터치 인터페이스 보다 자연스럽고 직관적인 인터페이스이다. 이에 따라, 음성 인터페이스는 터치 인터페이스의 단점을 보완할 수 있는 차세대 인터페이스로 각광받고 있다. 음성 인터페이스에 있어서 가장 핵심은 음성 인식 기술의 정확도이다. 이에 따라, 음성 인식 기술의 정확도를 높이기 위한 다양한 기법들이 제안됨에 따라 음성 인식 기술은 점점 발전하고 있다.

다만, 이러한 음성 인식 기술의 발전에도 불구하고 음성 신호를 소음 환경에서 수신하거나 사용자와 음성 인식 장치와의 거리가 먼 경우에는 음성 인식 기술에 관한 최적의 성능을 보장하기 어렵다.

일실시예에 따른 음성 인식 방법은 복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하는 단계; 및 상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식하는 단계를 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 SNR들을 계산하는 단계는, 상기 음성 신호들에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR들을 계산할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 기준 음성 신호를 수신한 기준 장치의 사용 가능한 리소스 용량에 기초하여 상기 복수의 장치들 중에서 상기 기준 음성 신호를 인식할 장치를 결정하고, 상기 결정된 장치에서 상기 기준 음성 신호를 인식할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 장치에서 상기 기준 음성 신호를 인식할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 기준 음성 신호를 인식하는 단계는, 상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 장치로 전송하여 상기 다른 장치에서 상기 음성 신호를 인식할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 SNR들을 계산하는 단계는, 상기 복수의 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 장치가 존재하는 경우, 상기 배터리 상태가 미리 결정된 임계값보다 작은 장치에서 수신한 음성 신호를 다른 장치로 전송하여 SNR을 계산할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 최대 SNR을 가지는 장치는, 상기 복수의 장치들로부터 SNR들을 수신한 다른 장치에 의해 결정되거나 또는 상기 복수의 장치들 간의 통신을 통해 결정될 수 있다.

일실시예에 따른 음성 인식 방법은 상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는지 여부를 판단하는 단계; 및 상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는 것으로 판단된 경우, 상기 복수의 장치들을 통해 상기 음성 신호들을 수신하는 단계를 더 포함할 수 있다.

일실시예에 따른 음성 인식 방법은 상기 음성 신호를 인식하여 상기 사용자의 명령을 확인하고, 상기 명령에 해당하는 장치로 상기 사용자의 명령을 전송하는 단계를 더 포함하고, 상기 명령에 해당하는 장치는, 상기 명령을 수행할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, 상기 사용자 주변의 서로 다른 포지션에 위치할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, IoT(Internet of Things) 환경에서 사물에 대응할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 복수의 장치들은, 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 중 적어도 하나를 포함할 수 있다.

일실시예에 따른 음성 인식 장치는 사용자의 기준 음성 신호를 수신하는 마이크로폰; 및 상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부를 포함할 수 있다.

도 1은 일실시예에 따라 음성 인식 장치가 동작하는 환경을 도시한 도면이다.
도 2는 일실시예에 따른 음성 인식 장치를 나타낸 도면이다.
도 3은 일실시예에 따라 복수의 음성 인식 장치들을 통해 사용자의 음성 신호를 인식하는 예시를 설명하기 위한 도면이다.
도 4는 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.
도 5는 다른 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로, 실시예의 범위가 본문에 설명된 내용에 한정되는 것으로 해석되어서는 안된다. 관련 기술 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타내며, 공지된 기능 및 구조는 생략하도록 한다.

도 1은 일실시예에 따라 음성 인식 장치가 동작하는 환경을 도시한 도면이다.

음성 인식 장치는 사용자의 음성 신호를 인식할 수 있는 장치를 나타낸다. 음성 인식 장치는 사용자의 음성 신호로부터 특징값을 추출하고, 음향 모델(acoustic model) 및 언어 모델(language model)에 기초하여 특징값으로부터 음성 인식 결과인 텍스트를 생성할 수 있다. 음성 인식 장치는 음성 인식을 수행하기 위한 각종 모듈들로 구성될 수 있고, 음성 인식 장치를 구성하는 각종 모듈들은 하드웨어 모듈, 소프트웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 소프트웨어 모듈은 적어도 하나의 프로세서에 의하여 구동될 수 있다.

음성 인식 장치는 사용자의 음성 신호를 처리할 수 있는 기기라면 그 종류에 제한이 없다. 음성 인식 장치는 모바일 디바이스, 웨어러블 디바이스, 고정형 디바이스 등과 같은 다양한 형태로 존재할 수 있는데, 예를 들어, 음성 인식 장치에는 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 등이 포함될 수 있다. 나아가, 음성 인식 장치에 통신 기능이 더해지면서, 음성 인식 장치들이 통신 네트워크로 서로 연결되고 음성 인식 장치들 간의 정보 공유가 가능해 질 수 있다.

도 1을 참조하면, 전술한 음성 인식 장치들이 모여 음성 인식 시스템(100)을 구성할 수 있다. 음성 인식 시스템(100)은 복수의 음성 인식 장치들을 통해 사용자(110)의 음성 신호를 수신하고, 음성 인식을 수행할 수 있다.

예를 들어, 음성 인식 시스템(100)은 복수의 음성 인식 장치들 중 어느 하나에서 수신한 사용자(110)의 음성 신호를 인식하도록 복수의 음성 인식 장치들을 제어할 수 있다. 이 때, 음성 인식 시스템(100)은 복수의 음성 인식 장치들에서 수신된 음성 신호들 중에서 사용자(110)의 음성을 가장 명확하게 포함하고 있는 기준 음성 신호를 식별하고, 기준 음성 신호에 대해 음성 인식을 수행할 수 있다.

복수의 음성 인식 장치들은 사용자(110) 주변의 서로 다른 포지션에 위치할 수 있다. 그래서, 복수의 음성 인식 장치들이 수신한 음성 신호는 복수의 음성 인식 장치들이 위치한 주변 환경에 따라 서로 다른 크기의 사용자(110)의 음성을 포함하거나 서로 다른 크기의 노이즈를 포함할 수 있다.

예를 들어, 도 1에 도시된 음성 인식 시스템(100)은 생활 속 사물들을 유무선 네트워크로 연결하여 정보를 공유하는 IoT(Internet of Things) 환경에 대응할 수 있다. 음성 인식 시스템(100)에 포함된 복수의 음성 인식 장치들은 IoT 환경의 사물에 대응할 수 있다.

도 2는 일실시예에 따른 음성 인식 장치를 나타낸 도면이다.

도 2를 참조하면, 음성 인식 장치(200)는 마이크로폰(210), 처리부(220) 및 통신부(230)를 포함할 수 있다.

마이크로폰(210)는 사용자의 음성 신호를 수신한다. 이하, 설명의 편의를 위해 음성 인식 장치(200)가 수신하는 음성 신호를 기준 음성 신호라고 하고, 다른 음성 인식 장치가 수신하는 음성 신호와 구별될 수 있게 한다.

일례로, 마이크로폰(210)는 초저전력 센서로 구성되어 항상 온 모드로 동작하여 기준 음성 신호를 수신할 수 있다. 다른 일례로, 마이크로폰(210)는 음성 인식 장치(200)가 플러그인됨에 따라 오프 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수 있다. 또 다른 일례로, 마이크로폰(210)는 다른 음성 인식 장치로부터 트리거링 신호를 수신함에 따라 슬립 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수 있다. 또한, 처리부(220)에 의해 사용자가 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는 것으로 판단되는 경우, 마이크로폰(210)는 슬립 모드에서 온 모드로 전환하여 기준 음성 신호를 수신할 수도 있다.

처리부(220)는 기준 음성 신호의 SNR을 계산할 수 있다. SNR은 노이즈와 인식하고자 하는 사용자의 음성에 해당하는 신호의 비율을 나타내는 것으로서, SNR의 수치가 클수록 기준 음성 신호에 포함된 노이즈가 적다는 것을 의미할 수 있다. 따라서, SNR이 큰 기준 음성 신호일수록 처리부(220)는 높은 인식률로 음성 인식을 수행할 수 있다.

여기서, 음성 신호의 SNR는 음성 신호에 포함된 사용자의 음성을 트랙킹하고, 사용자의 음성을 제외한 성분(예를 들어, 노이즈)로부터 사용자의 음성을 분리함으로써 계산될 수 있다. 이러한 방법을 'speech tracking and separation'이라고 한다. 사용자의 음성은 해당 음성의 기본 주파수(fundamental frequency)를 식별함으로써 음성 신호에서 분리될 수 있다. 이러한 방법을 통해, 음성 신호에 두 명의 사용자의 음성들이 포함되어 있더라도 각 음성의 기본 주파수를 식별함으로써 두 명의 사용자의 음성들을 음성 신호에서 분리할 수 있다. 다만, 음성 신호의 SNR을 계산하는 실시예의 범위가 이러한 설명에 한정되는 것은 아니며, 음성 신호의 SNR을 계산할 수 있는 다양한 방법을 통해 SNR을 구할 수 있다.

여기서, 음성 인식하고자 하는 타겟 음성은 사용자가 미리 음성 인식 장치(200)에 입력할 수 있고, 또는 사용자가 음성 인식 장치(200)를 계속해서 사용함에 따라 음성 인식 장치(200)에 의해 설정될 수도 있다. 예를 들어, 음성 인식 장치(200)는 수신되는 기준 음성 신호를 분석하여 가장 빈번하게 인식되는 기준 음성 신호에 포함된 사용자의 음성을 타겟 음성으로 설정할 수 있다.

처리부(220)는 기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신한 사용자의 음성 신호의 SNR보다 큰지 여부를 판단할 수 있다. 일례로, 처리부(220)는 다른 음성 인식 장치와의 통신을 통해 다른 음성 인식 장치에서 계산된 SNR을 수신하여 SNR의 크기를 비교할 수 있다. 다른 일례로, 처리부(220)는 계산된 SNR을 미리 결정된 음성 인식 장치로 전송하고, 미리 결정된 음성 인식 장치에서 SNR들을 비교한 결과를 수신할 수 있다.

기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신한 사용자의 음성 신호의 SNR보다 큰 경우, 처리부(220)는 기준 음성 신호를 인식할 수 있다. 예를 들어, 처리부(220)는 사용할 수 있는 리소스 용량을 고려하여 음성 인식 장치(200)에서 음성 인식을 수행할지 또는 다른 음성 인식 장치에서 음성 인식을 수행할지 여부를 결정할 수 있다. 만약 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 처리부(220)는 기준 음성 신호를 인식할 수 있다. 만약 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 작은 경우, 처리부(220)는 다른 음성 인식 장치에서 음성 인식을 수행하는 것으로 결정하고, 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값을 다른 음성 인식 장치로 전송할 수 있다.

통신부(330)는 다른 음성 인식 장치들과 통신을 수행할 수 있다. 예를 들어, 통신부(330)는 계산된 SNR, 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값 등을 다른 음성 인식 장치로 전송하거나 다른 음성 인식 장치로부터 수신할 수 있다.

도 3은 일실시예에 따라 복수의 음성 인식 장치들을 통해 사용자의 음성 신호를 인식하는 예시를 설명하기 위한 도면이다.

도 3을 참조하면, 음성 인식 시스템은 제1 음성 인식 장치(310), 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330)를 포함할 수 있다. 제1 음성 인식 장치(310), 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330)는 내장된 마이크로폰을 통해 사용자의 음성 신호를 수신하고, 처리부를 통해 SNR 계산 및 음성 인식을 수행할 수 있으며, 통신부를 통해 다른 장치와 통신을 수행할 수 있다.

설명의 편의를 위해, 제1 음성 인식 장치(310)에서 수신한 사용자의 음성 신호는 제1 음성 신호로 나타내고, 제2 음성 인식 장치(320)에서 수신한 사용자의 음성 신호는 제2 음성 신호로 나타내고, 제3 음성 인식 장치(330)에서 수신한 사용자의 음성 신호는 제3 음성 신호로 나타낼 수 있다. 그리고, 도 3에서는 음성 인식 시스템에 포함된 음성 인식 장치가 3개인 것으로 도시되어 있으나, 이는 설명의 편의를 위한 것일 뿐 실시예의 범위가 이에 한정되는 것은 아니며, 음성 인식 시스템은 하나 이상의 음성 인식 장치를 포함할 수 있다.

일실시예에 따른 음성 인식 장치들(310, 320, 330)은 사용자로부터 "이전 채널로 이동"이라는 음성 신호를 수신할 수 있다. 음성 인식 장치들(310, 320, 330) 각각은 사용자로부터 수신한 음성 신호의 SNR을 계산할 수 있다. 이 때, 음성 인식 장치들(310, 320, 330) 각각은 배터리 상태에 기초하여 자신이 수신한 음성 신호의 SNR을 직접 계산할지 여부를 결정할 수 있다.

예를 들어, 제1 음성 인식 장치(310)의 배터리 상태가 미리 결정된 임계값보다 작은 경우, 제1 음성 인식 장치(310)는 제1 음성 신호의 SNR을 직접 계산하지 않고 다른 음성 인식 장치로 제1 음성 신호를 전송할 수 있다. 제1 음성 신호를 수신한 다른 음성 인식 장치는 제1 음성 신호의 SNR을 계산할 수 있다. 여기서, 다른 음성 인식 장치는 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330) 중 배터리 상태가 보다 더 양호한 장치 또는 제1 음성 인식 장치(310)와의 거리가 짧은 어느 하나를 나타낼 수 있다.

음성 인식 시스템은 계산된 SNR들 중 최대 SNR을 가지는 음성 신호를 식별할 수 있다. 예를 들어, 음성 인식 장치들(310, 320, 330)은 상호 통신을 통해 최대 SNR을 가지는 음성 신호를 식별할 수 있다. 또는, 음성 인식 장치들(310, 320, 330) 중 메인 장치로 선택된 어느 하나는 계산된 SNR을 수신하여 최대 SNR을 가지는 기준 음성 신호를 식별할 수 있다. 예를 들어, 계산된 SNR들 중 최대 SNR이 제1 음성 신호의 SNR인 경우, 음성 인식 시스템은 기준 음성 신호로서 제1 음성 신호를 식별할 수 있다.

음성 인식 시스템은 기준 음성 신호인 제1 음성 신호에 대해 음성 인식을 수행할 수 있다. 예를 들어, 제1 음성 인식 장치(310)는 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰지 여부에 따라 직접 음성 인식을 수행할지 또는 다른 음성 인식 장치에서 음성 인식을 수행할지 여부를 판단할 수 있다. 제1 음성 인식 장치(310)가 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 제1 음성 인식 장치(310)는 제1 음성 신호에 대해 음성 인식을 수행할 수 있다. 반대로, 제1 음성 인식 장치(310)가 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 작은 경우, 제1 음성 인식 장치(310)는 다른 음성 인식 장치로 제1 음성 신호 또는 제1 음성 신호로부터 추출된 특징값을 전송하여 다른 음성 인식 장치에서 음성 인식이 수행될 수 있다. 여기서, 다른 음성 인식 장치는 제2 음성 인식 장치(320) 및 제3 음성 인식 장치(330) 중 사용할 수 있는 리소스 용량이 큰 장치 또는 제1 음성 인식 장치(310)와의 거리가 짧은 장치를 나타낼 수 있다.

제1 음성 인식 장치(310)에서 음성 인식이 수행되고, 제1 음성 인식 장치(310)는 사용자가 "이전 채널로 이동"이라는 명령을 한 것과 사용자의 명령이 스마트 TV인 제2 음성 인식 장치(320)에 해당하는 것임을 확인할 수 있다. 제1 음성 인식 장치(310)는 제2 음성 인식 장치(320)로 사용자 명령을 전송하고, 제2 음성 인식 장치(320)는 사용자 명령인 "이전 채널로 이동"을 수행할 수 있다.

다른 일실시예에 따른 음성 인식 장치들(310, 320, 330)은 사용자로부터 "새로운 이메일 확인"이라는 음성 신호를 수신할 수 있다. 음성 인식 장치들(310, 320, 330) 각각은 사용자로부터 수신한 음성 신호의 SNR을 계산하여, 최대 SNR을 가지는 기준 음성 신호로서 제3 음성 신호를 식별할 수 있다.

제3 음성 인식 장치(330)에서 사용할 수 있는 리소스 용량이 미리 결정된 임계값보다 큰 경우, 제3 음성 인식 장치(330)는 제3 음성 신호에 대해 음성 인식을 수행하여 사용자가 "새로운 이메일 확인"이라는 명령을 한 것과 사용자의 명령이 스마트폰인 제1 음성 인식 장치(310)에 해당하는 것임을 확인할 수 있다. 제3 음성 인식 장치(330)는 제1 음성 인식 장치(310)로 사용자 명령을 전송하고, 제1 음성 인식 장치(310)는 사용자 명령인 "새로운 이메일 확인"을 수행할 수 있다. 나아가, 만약 제1 음성 신호에 포함된 사용자의 음성 크기 또는 제1 음성 신호의 SNR에 기초하여, 사용자와 제1 음성 인식 장치(310) 간의 거리가 가깝지 않고 제1 음성 인식 장치(310)에서 사용자 명령이 수행되더라도 사용자가 명령 수행 결과를 확인하기 어렵다고 판단된 경우, 제1 음성 인식 장치(310)는 명령 수행 결과를 스마트 TV인 제2 음성 인식 장치(320)로 전송하고, 제2 음성 인식 장치(320)는 새로운 이메일을 디스플레이할 수 있다.

도 4는 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.

일실시예에 따른 음성 인식 방법은 복수의 음성 인식 장치들에 포함된 처리부들에서 수행될 수 있다.

단계(410)에서, 복수의 음성 인식 장치들은 수신된 사용자의 음성 신호들의 SNR들을 계산할 수 있다. 복수의 음성 인식 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 가 존재하는 경우, 해당 음성 인식 장치에서 수신한 음성 신호를 다른 음성 인식 장치로 전송함으로써 다른 음성 인식 장치가 음성 신호의 SNR을 계산할 수 있다.

단계(420)에서, 복수의 음성 인식 장치들은 계산된 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 식별할 수 있다. 예를 들어, 복수의 음성 인식 장치들은 계산된 SNR을 복수의 음성 인식 장치들 중 메인 장치로 선택된 어느 하나로 전송하여 메인 장치에 의해 기준 음성 신호를 식별할 수 있다. 또는, 복수의 음성 인식 장치들 간의 통신을 통해 기준 음성 신호를 식별할 수 있다.

복수의 음성 인식 장치들 중 어느 하나는 기준 음성 신호를 인식할 수 있다. 예를 들어, 기본적으로 기준 음성 신호를 수신한 기준 음성 인식 장치에서 음성 인식이 수행될 수 있으나, 예외적으로 기준 음성 인식 장치의 리소스 용량이 미리 결정된 임계값보다 작은 경우, 기준 음성 인식 장치가 아닌 다른 음성 인식 장치에 의해 기준 음성 신호에 대한 음성 인식이 수행될 수도 있다. 이 때, 다른 음성 인식 장치는 기준 음성 인식 장치로부터 수신한 기준 음성 신호 또는 기준 음성 신호로부터 추출된 특징값에 기초하여 음성 인식을 수행할 수 있다.

도 5는 다른 일실시예에 따른 음성 인식 방법을 설명하기 위한 도면이다.

다른 일실시예에 따른 음성 인식 방법은 어느 하나의 음성 인식 장치에 내장된 처리부에서 수행될 수 있다.

단계(510)에서, 음성 인식 장치는 사용자가 음성 인식 시스템에 포함된 복수의 음성 인식 장치들 중 어느 하나에 대해 명령하는지 여부를 판단할 수 있다. 예를 들어, 사용자의 음성 신호가 미리 결정된 명령에 대응하는 것으로 판단된 경우, 음성 인식 장치가 사용자의 특정 액션을 감지하는 경우, 또는 사용자의 음성 신호에 대하여 음성 인식한 결과 음성 인식 장치에 관한 명령인 것으로 판단되는 경우 등과 같은 상황에서, 음성 인식 장치는 사용자가 명령하는 것으로 판단할 수 있다.

반대로, 사용자의 음성 신호가 미리 결정된 명령에 대응하지 않는 것으로 판단된 경우, 음성 인식 장치는 금번 동작은 종료하고, 추후에 사용자가 복수의 음성 인식 장치들 중 어느 하나에 대해 명령하는지 여부를 판단할 수 있다.

단계(520)에서, 음성 인식 장치는 사용자의 음성 신호를 수신할 수 있다. 이하, 설명의 편의를 위해 음성 인식 장치가 수신한 사용자의 음성 신호는 기준 음성 신호라고 지칭한다.

단계(530)에서, 음성 인식 장치는 기준 음성 신호의 SNR을 계산할 수 있다. 예를 들어, 음성 인식 장치는 기준 음성 신호에 포함된 사용자의 음성과 노이즈를 분리함으로써 SNR을 계산할 수 있다.

단계(540)에서, 기준 음성 신호의 SNR이 다른 음성 인식 장치에서 수신된 음성 신호의 SNR보다 큰 경우, 음성 인식 장치는 기준 음성 신호를 인식할 수 있다. 만약, 음성 인식 장치의 리소스 용량이 미리 결정된 임계값보다 작은 경우, 다른 음성 인식 장치에서 기준 음성 신호에 대한 음성 인식을 수행할 수 있다. 이 때, 음성 인식 장치는 기준 음성 신호 또는 기준 음성 신호로부터 추출된 임계값을 다른 음성 인식 장치로 전송할 수 있다.

단계(550)에서, 음성 인식 장치는 음성 인식 결과에 기초하여 사용자의 명령을 확인할 수 있다. 사용자의 명령이 음성 인식 장치에 관한 것으로 판단되는 경우, 음성 인식 장치는 사용자의 명령을 수행할 수 있다. 반대로 사용자의 명령이 다른 음성 인식 장치에 해당하는 것으로 판단되는 경우, 음성 인식 장치는 다른 음성 인식 장치로 사용자의 명령을 전송하여 다른 음성 인식 장치에서 사용자의 명령이 수행되게 할 수 있다.

실시예들은 복수의 음성 인식 장치들에서 수신된 음성 신호들 중에서 최대 SNR을 가지는 음성 신호에 대해 음성 인식을 수행함으로써, 음성 인식의 정확도를 효과적으로 향상시킬 수 있다.

실시예들은 복수의 음성 인식 장치들을 포함하는 IoT 환경을 이용하여 사용자의 음성 신호를 인식하는 서비스를 제공함으로써, IoT 환경에 포함된 스마트 디바이스의 활용도를 증대시킬 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 실시예와 도면을 통해 실시예들을 설명하였으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

복수의 장치들에 수신된 사용자의 음성 신호들의 SNR(Signal to Noise Ratio)들을 계산하는 단계; 및
상기 SNR들 중 최대 SNR을 가지는 기준 음성 신호를 인식하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 SNR들을 계산하는 단계는,
상기 음성 신호들에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR들을 계산하는, 음성 인식 방법.
제1항에 있어서,
상기 기준 음성 신호를 인식하는 단계는,
상기 기준 음성 신호를 수신한 기준 장치의 사용 가능한 리소스 용량에 기초하여 상기 복수의 장치들 중에서 상기 기준 음성 신호를 인식할 장치를 결정하고, 상기 결정된 장치에서 상기 기준 음성 신호를 인식하는, 음성 인식 방법.
제3항에 있어서,
상기 기준 음성 신호를 인식하는 단계는,
상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 장치에서 상기 기준 음성 신호를 인식하는, 음성 인식 방법.
제3항에 있어서,
상기 기준 음성 신호를 인식하는 단계는,
상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 장치로 전송하여 상기 다른 장치에서 상기 음성 신호를 인식하는, 음성 인식 방법.
제1항에 있어서,
상기 SNR들을 계산하는 단계는,
상기 복수의 장치들 중 배터리 상태가 미리 결정된 임계값보다 작은 장치가 존재하는 경우, 상기 배터리 상태가 미리 결정된 임계값보다 작은 장치에서 수신한 음성 신호를 다른 장치로 전송하여 SNR을 계산하는, 음성 인식 방법.
제1항에 있어서,
상기 최대 SNR을 가지는 장치는,
상기 복수의 장치들로부터 SNR들을 수신한 다른 장치에 의해 결정되거나 또는 상기 복수의 장치들 간의 통신을 통해 결정되는, 음성 인식 방법.
제1항에 있어서,
상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는지 여부를 판단하는 단계; 및
상기 사용자가 상기 복수의 장치들 중 어느 하나의 장치에 대해 명령하는 것으로 판단된 경우, 상기 복수의 장치들을 통해 상기 음성 신호들을 수신하는 단계
를 더 포함하는 음성 인식 방법.
제1항에 있어서,
상기 음성 신호를 인식하여 상기 사용자의 명령을 확인하고, 상기 명령에 해당하는 장치로 상기 사용자의 명령을 전송하는 단계
를 더 포함하고,
상기 명령에 해당하는 장치는, 상기 명령을 수행하는 음성 인식 방법.
제1항에 있어서,
상기 복수의 장치들은, 상기 사용자 주변의 서로 다른 포지션에 위치하는, 음성 인식 방법.
제1항에 있어서,
상기 복수의 장치들은, IoT(Internet of Things) 환경에서 사물에 대응하는, 음성 인식 방법.
제1항에 있어서,
상기 복수의 장치들은, 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 테블릿 중 적어도 하나를 포함하는, 음성 인식 방법.
제1항 내지 제12항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
사용자의 기준 음성 신호를 수신하는 마이크로폰; 및
상기 음성 신호로부터 계산된 SNR이 다른 음성 인식 장치에서 수신한 상기 사용자의 음성 신호의 SNR보다 큰 경우, 상기 기준 음성 신호를 인식하는 처리부
를 포함하는 음성 인식 장치.
제14항에 있어서,
상기 처리부는,
상기 기준 음성 신호에 포함된 사용자의 음성과 노이즈를 분리함으로써 상기 SNR을 계산하는, 음성 인식 장치.
제14항에 있어서,
상기 처리부는,
사용 가능한 리소스 용량에 기초하여 상기 기준 음성 신호를 인식할지 또는 상기 기준 음성 신호를 다른 음성 인식 장치로 전송하여 인식할지 여부를 결정하는, 음성 인식 장치.
제16항에 있어서,
상기 처리부는,
상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 큰 경우, 상기 기준 음성 신호를 인식하는, 음성 인식 장치.
제16항에 있어서,
상기 처리부는,
상기 사용 가능한 리소스 용량이 미리 결정된 임계값보다 작은 경우, 상기 기준 음성 신호 또는 상기 기준 음성 신호로부터 추출된 특징값을 다른 음성 인식 장치로 전송하고,
상기 다른 음성 인식 장치는 상기 기준 음성 신호를 인식하는, 음성 인식 장치.
제14항에 있어서,
상기 처리부는, 상기 사용자가 상기 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는지 여부를 판단하고,
상기 마이크로폰은,
상기 처리부에 의해 상기 사용자가 상기 음성 인식 장치 또는 다른 음성 인식 장치에 대해 명령하는 것으로 판단된 경우, 상기 기준 음성 신호를 수신하는, 음성 인식 장치.
제14항에 있어서,
상기 음성 인식 장치는,
IoT 환경에서 사물에 대응하는, 음성 인식 장치.