KR102335717B1

KR102335717B1 - 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서

Info

Publication number: KR102335717B1
Application number: KR1020197012154A
Authority: KR
Inventors: 옌 왕; 하이레이 천
Original assignee: 허페이 후아링 코., 엘티디.; 허페이 미디어 리프리저레터 씨오.,엘티디.; 미디어 그룹 코 엘티디
Priority date: 2016-09-29
Filing date: 2017-09-26
Publication date: 2021-12-06
Also published as: CN106157950A; EP3522153A1; KR20190052144A; JP2019533193A; EP3522153B1; US20200027462A1; WO2018059405A1; EP3522153A4; JP6801095B2

Abstract

본 발명은 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전 제품, 코프로세서에 관한 것이다. 웨이크업 방법은, 음성 정보를 수집하는 수집단계; 음성 정보가 사람의 음성을 포함하는지 여부를 결정하기 위해 음성 정보를 처리하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고, 인식단계로 진입하는 처리단계; 사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식 될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 수집단계로 돌아가는 인식단계; 음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함한다. 각 부재는 상기 방법으로 각각 모듈화 설계된다. 음성 인식 프로세서는 음성 인식이 필요한 경우에만 작동하며, 끊임없는 전천후적인 작동을 피하여 에너지 소모를 감소한다. 음성 웨이크업 장치는 웨이크업 워드만을 인식하고 전력 소모가 낮으며, 전천후적으로 작동하더라도 그 에너지 소모는 아주 적으며 종래의 음성 인식의 전력 소모가 비교적 큰 문제를 해결한다.

Description

음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서

상호참조

본 출원은 2016년 09월 29일자로 제출한 명칭이 "음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서"인 제2016108674779호 중국특허출원을 인용하였으며, 이는 본 출원에 인용문헌으로 전부 병합되었다.

본 발명은 가전제품 음성 제어 분야에 관한 것으로, 특히 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서에 관한 것이다.

인공 지능 기술의 발전으로 가전제품 업계는 새로운 발전을 시작하였으며, 인간-기계 음성 인터페이스는 인류의 사용 습관에 더 부합되기 때문에 연구의 뜨거운 이슈 중 하나가 되었다. 도1은 음성 제어 기능이 구비된 가전제품 회로를 나태내며, 도1에서 알 수 있다시피, 음성 제어 기능을 추가하기 위해 종래의 제어 회로에 음성 제어 회로를 추가해야 한다. 음성 제어는 외부의 소리를 실시간으로 모니터링 해야 하기 때문에 소리를 인식하기 위한 프로세서는 항상 작동하므로 전력 소모가 증가한다.

본 발명은 사람의 음성이 존재할 경우에만, 또한 사람의 음성에 인식하고자 하는 음성이 포함될 경우에만 음성 인식 소자(음성 인식 프로세서CPU)를 작동시키는 과제를 해결하기 위하여 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 스마트 가전제품을 제공하고자 한다.

상기 기술적 과제를 해결하기 위해, 본 발명은 음성 정보를 수집하는 수집단계; 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리해내고, 인식단계로 진입하는 처리단계; 사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 상기 수집단계로 돌아가는 인식단계; 음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법을 제공한다.

일부 실시예에 있어서, 상기 음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 상기 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이루며; 및/또는, 상기 수집단계는, 아날로그 신호 포맷의 음성 정보를 수집하는 단계; 상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여, 디지털 신호 포맷의 음성 정보를 획득하는 단계를 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 웨이크업방법은, 상기 웨이크업단계전에 웨이크업 워드 음성 모델을 구축하는 단계를 더 포함하고; 상기 인식단계는, 사람의 음성을 포함하는 데이터와 상기 웨이크업 워드 음성 모델을 매칭시키며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단하는 단계를 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 여러개의 웨이크업 음성 데이터를 수집하는 단계; 상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하는 단계를 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 하는 단계; 프레이밍 후 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(Hidden Markov Model, HMM)의 관찰 상태를 확립하는 단계; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM)의 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,

상기 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 처리단계는, 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 제1분리단계; 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 제2분리단계로 진입하며, 에너지 임계값을 초과하지 못할 경우 사람의 음성을 포함하지 않는 것으로 판단하고 상기 수집단계로 진입하는 판단단계; 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 제2분리단계를 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 제1분리단계에서, 상기 블라인드 소스 분리에 적용된 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석(ICA) 알고리즘인 것이 바람직하다.

본 발명의 다른 측면에 따르면, 수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈; 상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 수행하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈; 상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함하는 코프로세서를 더 제공한다.

일부 실시예에 있어서, 상기 처리모듈은, 상기 분리유닛은 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 분리유닛; 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 판단유닛을 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 인식모듈은, 웨이크업 모델을 저장하는 저장유닛; 상기 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 상기 저장유닛에 저장된 상기 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함하는 것이 바람직하다.

일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 하는 단계; 프레이밍 후 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하는 단계; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,

상기 인식모듈의 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것이 바람직하다.

본 발명의 또 다른 측면에 따르면, 음성 정보를 수집하는 음성 수집 소자; 상기 음성 수집 소자에 의해 수집된 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 웨이크업 워드 인식을 수행하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업하는 코프로세서를 포함하는 음성 제어 시스템의 웨이크업 장치를 더 제공한다.

일부 실시예에 있어서, 상기 음성 수집 소자는, 아날로그 신호 포맷의 음성 정보를 수집하는 음성 수집 모듈; 상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득하는 A/D 전환모듈을 포함하는 것이 바람직하다.

본 발명의 다른 측면에 따르면, 음성 인식 소자와 상기 웨이크업 장치를 포함하고, 상기 음성 인식 소자는 상기 웨이크업 장치의 코프로세서와 연결되며, 상기 음성 인식 소자는 작동 활성화 상태일 경우 음성을 인식하며, 음성 인식 후 비작동 수면 상태에 진입하며; 상기 음성 인식 소자는 상기 비작동 수면 상태에서 상기 작동 활성화 상태로의 전환은 상기 코프로세서에 의해 웨이크업 되는 음성 제어 시스템을 더 제공한다.

일부 실시예에 있어서, 상기 음성 인식 소자는 상기 작동 활성화 상태에서 상기 비작동 수면 상태로 전환되기 전에 대기 상태에 진입하며; 설정된 시간 범위내에 상기 음성 인식 소자가 웨이크업 되지 않을 경우 상기 비작동 수면 상태에 진입하며, 상기 음성 인식 소자가 웨이크업 될 경우 상기 작동 활성화 상태에 진입하는 것이 바람직하다.

본 발명의 다른 측면에 따르면, 상기 음성 제어 시스템과 가전제품 본체를 포함하고, 상기 가전제품 본체는 상기 음성 제어 시스템과 연결된 스마트 가전제품을 더 제공한다.

본 발명이 제공하는 기술은 웨이크업 기술을 추가하였으며, 보조 처리장치 또는 전처리장치로서 음성 웨이크업 장치를 사용하며, 이는 시각마다 음성 정보를 수집하고 음성 정보를 분석 및 인식하여 음성에 웨이크업 워드가 포함되어 있는지를 결정하며, 이때 음성 인식 프로세서를 웨이크업하여 음성 인식을 수행한다. 이와 같은 방식을 통해 음성 인식 프로세서는 음성 인식이 필요한 경우에만 작동하며, 끊임없는 전천후적인 작동을 피하여 에너지 소모를 감소한다. 음성 웨이크업 장치는 웨이크업 워드만을 인식하고 모든 음성을 인식할 필요는 없으므로, 따라서 전력 소모가 낮으며, 전천후적으로 작동하더라도 그 에너지 소모는 아주 적으며 종래의 음성 인식의 전력 소모가 비교적 큰 문제를 해결한다.

도1은 종래의 기술의 음성 제어 기능이 구비된 가전제품 회로의 구조를 개략적으로 나타낸 도면이고;
도2는 본 발명의 일 실시예에 따른 코프로세서의 구조를 개략적으로 나타낸 도면이며;
도3은 본 발명의 일 실시예에 따른 음성 제어 시스템의 웨이크업 장치의 구조를 개략적으로 나타낸 도면이며;
도4는 본 발명의 일 실시예에 따른 웨이크업 장치를 구비하는 음성 제어 시스템의 구조를 개략적으로 나타낸 도면이며;
도5는 본 발명의 일 실시예에 따른 음성 제어 시스템의 웨이크업 방법의 단계를 개략적으로 나타낸 도면이며;
도6은 본 발명의 일 실시예에 따른 웨이크업 워드 인식에서 사용한 암호 인식 모델이며;
도7은 본 발명의 일 실시예에 따른 웨이크업 워드 모델을 구축하는 단계를 개략적으로 나타낸 도면이며;
도8은 본 발명의 일 실시예에 따른 웨이크업 워드 인식 단계를 개략적으로 나타낸 도면이며;
도9는 본 발명의 일 실시예에 따른 음성 인식 소자의 상태 전환을 개략적으로 나타낸 도면이다.

이하에서 도면 및 실시예를 결합하여 본 발명의 구체적인 실시예에 대해 상세하게 설명한다. 아래의 실시예는 본 발명을 설명할 뿐, 본 발명의 범위를 제한하기 위한 것은 아니다.

본 발명에 있어서, 별도로 명확하게 규정 및 한정하지 않는 한, "장착", "서로 연결", "연결"등 용어는 보편적인 의미로 이해해야 함을 밝혀둔다. 예를 들어, 고정 연결될 수 있고, 착탈 가능하게 연결 또는 일체로 연결될 수도 있으며; 기계적으로 연결 또는 전기적으로 연결될 수 있고; 직접적으로 연결될 수 있고 중간 매체를 통해 간접적으로 연결하는 것일 수도 있으며, 또한 두개 구성요소의 내부가 연통되는 것일 수 있다.

가전제품의 음성 제어 회로의 전력 소모를 감소하기 위해, 본 발명은 음성 제어 시스템의 웨이크업 방법, 웨이크업 장치, 음성 제어 시스템 및 스마트 가전제품을 제공한다.

이하에서 기초 설계, 대체 설계 및 확장 설계를 통해 본 기술에 대해 상세하게 설명하도록 한다.

도2에 도시된 바와 같이, 음성 인식 에너지 소모를 감소하는 코프로세서는 주로 기존의 음성 인식 프로세서의 전단에 적용되며, 사전에 음성 처리하여 웨이크업 명령을 획득하며, 상기와 같이 음성 인식 프로세서를 웨이크업하여 음성 인식 프로세서의 작동 시간을 음성 인식이 필요한 시간 범위로 축소시키며 작은 출력의 코프로세서의 에너지 소모는 비교적 작으며 소모를 크게 감소시킬 수 있다. 상기 기능에 의하면, 상기 코프로세서는 주로 수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈; 상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈; 상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함한다. 상기 코프로세서의 작동과정은 도5를 참조할 수 있다.

수집한 음성에는 수집환경 내의 다양한 소리를 포함하므로 사람의 음성을 효과적으로 분리 및 인식하는 것은 후속처리의 첫 번째 단계이며, 따라서 처리모듈에 의해 사람의 음성을 포함하는 음성 세그먼트를 분리해내야 한다. 그러나 사람의 음성을 포함하는 음성 세그먼트에는 너무 많은 정보가 포함되어 있으며 각각의 정보에 대해 모두 음성 인식을 수행할 필요는 없으며, 따라서 음성 세그먼트에 포함된 특수 워드를 인식하며 이러한 특수 워드를 통해 해당 음성 세그먼트가 음성 인식이 필요한 정보인지를 결정하여 기존의 음성 인식 프로세서의 작업량을 진일보 축소할 수 있으며, 따라서 본 실시예에서는 특수 워드를 웨이크업 워드로 정의하며 웨이크업 워드를 통해 웨이크업 음성 인식 프로세서의 웨이크업을 결정한다.

유의해야 할 것은, 여러 실시예에 있어서, 처리모듈에 의해 수신된 수집 음성 정보는 통상적으로 시간 범위로 분할하여 수집하는 방식을 적용하며, 음성 수집 소자는 하나의 시간 범위에서 수집한 음성 정보 세그먼트를 하나의 전송 대상으로 하여 처리모듈에 전송하며, 계속하여 다음 시간 범위의 음성을 수집한다. 상기 코프로세서는 단독 하드웨어로서 음성 수집 소자와 음성 인식 프로세서 사이에 로딩된다.

상기 코프로세서는 저전력 DSP를 적용할 수 있고, 종래의 음성 인식 프로세서 내부의 칩에 로딩될 수도 있으며, 또는 종래의 음성 수집 소자 내부의 칩에 로딩될 수 있고, 칩은 처리모듈, 인식모듈, 웨이크업 모듈을 구비하며, 음성처리와 웨이크업 기능을 구현한다.

여기서 처리모듈은 주로 분리유닛 및 판단유닛으로 구성되고, 분리유닛은 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 음성 정보를 블라인드 소스 분리처리하며; 판단유닛은 에너지 임계값을 통해 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득한다.

블라인드 소스 분리의 작용은 신호 소스가 미지인 경우 복수개의 신호 소스를 분리하고, 여기서 ICA는 비교적 흔히 사용하는 알고리즘이며, 음 엔트로피 최대화, 4차 통계량 첨도(kurtosis), 또는 시간 주파수 변환에 기반한 방법으로 실현할 수 있으며, 고정점 쾌속 알고리즘은 DSP에서 실시간으로 구현되기 용이하다.

음성 정보는 라플라스 분포를 따르므로 슈퍼 가우시안 분포에 해당하나, 대부분 노이즈의 분포는 가우시안 특성을 갖는다. 음 엔트로피, kurtosis 등은 신호의 비 가우시안 특성을 측정할 수 있다. 상기 값이 클수록 비 가우시안 특성은 더욱 커지며, 따라서 신호중 상기 값이 제일 큰 신호를 선택 및 분리하여 처리한다.

가능한 신호를 선택한 후, 에너지 임계값에 따라 말하는 사람의 음성이 존재하는지 여부를 판단한다. 음성을 포함하는 프레임을 인식모듈로 전송하여 웨이크업 워드 인식 과정 및 후속처리를 진행하고, 음성을 포함하지 않는 프레임은 폐기한다.

인식모듈은 웨이크업 모델을 저장하는 저장모듈; 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 저장유닛에 의해 저장된 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함한다.

웨이크업 워드 인식은 사전에 설정된 웨이크업 워드(웨이크업 워드 모델에서 유래)(예를 들면, "안녕 냉장고")에 따라 음성 제어를 시도하는 사용자가 있는지 여부를 결정한다. 기본 과정은 아래와 같다.

1. 말하는 사람의 대량의 음성을 통해 웨이크업 모델을 사전에 구축한다.

2. 트레이닝 후의 웨이크업 워드 모델을 반도체 저장공간(flash)에 저장하며, 통전 후 캐시(저장유닛)에 복사한다.

3. 음성 처리 시, 전에 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 모델에 매칭하여 웨이크업 워드인지 여부를 판단한 결과를 획득한다.

4. 웨이크업 워드인지 여부를 결정한다. 코프로세서는 웨이크업 워드를 검출한 후 인터럽트가 발생하며 음성 인식 프로세서를 웨이크업하여 작동시키며, 웨이크업 워드를 검출하지 못할 경우 웨이크업 암호의 입력을 계속하여 대기한다.

웨이크업 워드 음성 모델의 구축은 아래와 같은 방법을 적용할 수 있다. 즉 여러개의 웨이크업 음성 데이터를 수집하는 하며; 상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득한다.

여러 실시예에 있어서, 웨이크업 워드의 인식은 비교적 흔히 사용하는 GMM-HMM(현재 비교적 흔히 사용하는 것으로 DNN-HMM모델, LSTM모델이 더 존재함) 모델을 적용하여 인식 여부를 판단한다. 그 암호 인식 모델은 아래의 도6에 도시된 바와 같다.

GMM모델은 음성 프레임을 클러스터링한다.

HMM모델은 2개의 상태 집합과 3개의 전이 확율로 설명할 수 있다.

2개의 상태 집합은 관찰될 수 있는 상태인 관찰 가능 상태O를 포함한다.

은닉 상태S: 이러한 상태는 마르코프 성질(t 시각의 상태는 t-1시각에만 상관된다)에 부합되며, 일반적으로 이 시각 사이에서는 관찰될 수 없다.

초기상태 상태확율 매트릭스: 초기상태의 각 은닉 상태의 확율분포를 나타낸다.

상태 전이 매트릭스: t부터 t+1 시각의 은닉 상태 사이의 전이 확율을 나타낸다.

관찰상태 출력 확율: 은닉 상태가 s인 조건하에서, 관찰값이 o인 확율을 나타낸다.

HMM은 3개의 문제가 존재한다:

1. 관찰 서열과 모델을 제공하여 어느 특정 출력의 확율을 계산하는 평가문제. 암호 인식 작업의 경우 음성 서열과 모델에 따라 해당 서열이 어느 문구일 가능성을 결정한다.

2. 관찰 서열과 모델을 제공하여 관찰 확율이 제일 큰 은닉 상태 서열을 찾는 디코딩 문제.

3. 관찰 서열을 제공하고 모델 파라미터를 조정하여 해당 관찰 서열이 발생하는 확율을 최대화 시키는 학습문제. 암호 인식 작업의 경우 대량의 암호에 따라 모델 파라미터를 조정한다.

도7에 도시된 바와 같이, 이러한 실시예에서는 아래와 같은 방식을 적용하여 웨이크업 워드 음성 모델의 구축을 구체적으로 실시한다.

즉 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고; 프레이밍 후 특징 파라미터를 추출하며; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하고, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하며, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내고, 도8에 도시된 바와 같이, 웨이크업 워드를 구축하는 상기 단계에 의하면, 상기 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함한다.

일부 경우에는, 임계값은 실험을 통해 획득한 경험치이며, 서로 다른 웨이크업 워드에 대해 설정해야하는 임계값은 실험에 따라 조정할 수 있다.

또한, 기술을 더 전면적으로 보호하기 위해 음성 제어 시스템의 웨이크업 장치를 더 보호해야 하며, 도3에 도시된 바와 같이, 이는 주로 음성 수집 소자와 상술한 코프로세서로 구성된다. 음성 수집 소자는 음성 정보를 수집하고; 코프로세서는 음성 수집 소자에 의해 수집된 음성 정보를 처리하여 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트에 대하여 웨이크업 워드 인식을 수행하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업한다.

여러 실시예에 있어서, 특히 신제품 개발 시 음성 수집 소자와 코프로세서를 일체형 부재로 통합 설계할 수도 있다. 양자는 수집, 분석 후 음성 인식을 작동하도록 음성 인식 프로세서의 웨이크업 여부를 결정하며, 따라서 양자는 음성 인식 프로세서의 작동 시간을 최대한 축소시킬 수 있으며 작동 소모를 감소할 수 있다.

여기서, 음성 수집 기능을 구비하는 상기 부재는 모두 음성 수집 소자에 적용될 수 있다. 음성 수집 소자는 주로 음성 수집모듈과 A/D 전환모듈을 포함하고, 음성 수집모듈은 아날로그 신호 포맷의 음성 정보를 수집하며; A/D 전환모듈은 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득한다.

여러 실시예에 있어서, 음성 수집모듈, A/D전환모듈은 별도의 하드웨어 설비일 수 있으며, 음성 수집 소자에 통일된 일체형 구조일 수도 있다.

다른 측면에서, 기술을 더 충분히 보호하기 위해 음성 제어 시스템을 더 제공하며, 도4에 도시된 바와 같이 음성을 수집하고, 음성을 처리하고 및 음성을 인식하며, 인식결과에 의해 음성 중의 제어 명령을 획득하며, 이는 주로 음성 인식 소자(즉 음성 인식 프로세서)와 웨이크업 장치로 구성되며; 음성 인식 소자는 웨이크업 장치의 코프로세서와 연결되며, 코프로세서는 웨이크업 워드를 검출한 후 음성 인식 작동하도록 음성 인식 소자를 웨이크업한다. 음성 인식 소자는 작동 활성화 상태 시 음성 인식하고, 음성 인식 후 비 작동 수면 상태에 진입하며, 음성 인식 소자는 비 작동 수면 상태에서 작동 활성화 상태로의 전환은 코프로세서에 의해 웨이크업 된다.

일부 경우를 고려하면, 음성 수집, 음성 처리는 일정한 시간이 필요하며 웨이크업 작동은 연속적으로 복수차례 발생할 수 있으며, 따라서 음성 인식 프로세서는 사람의 음성을 포함하는 하나의 음성 세그먼트를 인식한 후 먼저 일정 시간의 대기 상태에 진입한다. 도9에 도시된 바와 같이 대기 상태내에 정보 인식을 대기하는 음성 세그먼트가 진입하면 계속 인식하며, 인식을 대기하는 음성 세그먼트가 진입하지 않을 경우 비 작동 수면 상태에 진입한다. 즉 음성 인식 소자는 작동 활성화 상태에서 비 작동 수면 상태로 전환하기전에 대기 상태에 진입하며, 설정 시간 범위내에 음성 인식 소자가 웨이크업 되지 않을 경우 비 작동 수면 상태에 진입하며, 음성 인식 소자가 웨이크업 될 경우 작동 활성화 상태에 진입한다.

상기 음성 제어 시스템을 스마트 가전제품에 적용하며, 상기 스마트 가전제품은 주로 음성 제어 시스템과 가전제품 본체로 구성되며, 가전제품 본체는 음성 제어 시스템과 연결된다.

스마트 가전제품은 가정에서 제어 명령을 필요하는 가전설비일 수 있다.

동시에, 본 발명은 스마트 가전제품을 작동중인 전기 설비, 즉 기타 경우에서 제어가 필요한 전기 설비로 확장할 수 있다.

상술한 각 보호 설비에 의하면, 주로 사용하는 음성 제어 시스템의 웨이크업 방법은 아래와 같다.

도5에 도시된 바와 같이, 아래의 단계로 구체화한다.

단계(100): 웨이크업 워드 음성 모델을 구축하며;

이 단계는 초기 준비 시에 발생하는 단계로서, 웨이크업 워드 음성 모델을 구축한 후에만 후속 웨이크업 워드 인식 작업을 수행하는 것이 편리하다. 상기 모델을 구축할 시 여러 사람의 웨이크업 음성 데이터를 수집하고, 모든 웨이크업 음성 데이터를 처리하고 트레이닝하여 웨이크업 워드 모델을 획득한다.

도7에 도시된 바와 같이, 아래와 같이 더 구체화한다.

오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고; 프레이밍 후 특징 파라미터를 추출하며; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고; Baum-Welch알고리즘을 통해 은닉 마르코프HMM 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하고, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하며, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타낸다.

단계(110): 음성 정보를 수집하며;

음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이룬다. 일정한 시간 범위의 음성 정보 세그먼트를 단위로 후속처리에 전송한다. 수집된 음성이 후속 처리가 어려운 아날로그 신호인 것을 고려하여 아날로그 신호로부터 디지털 신호로 전환하는 단계가 더 필요하며, 따라서 여러 실시예에 있어서 상기 단계는 아래와 같이 구체화될 수 있다.

단계(1110): 아날로그 포맷의 음성 정보를 수집하며;

단계(1120): 아날로그 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득한다.

단계(120): 음성 정보를 처리하여 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고 단계(130)으로 진입하며;

상기 단계는 구체적으로 아래와 같다.

단계(1210): 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하며;

제1분리단계에서, 블라인드 소스 분리가 적용한 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석 ICA알고리즘이다.

블라인드 소스 분리의 작용은 신호 소스가 미지인 경우 복수개의 신호 소스를 분리하고, 여기서 ICA는 비교적 흔히 사용하는 알고리즘이며, 음 엔트로피 최대화, 4차 통계량 첨도(kurtosis), 또는 시간 주파수 변환에 기반한 방법으로 구현할 수 있으며, 고정점 쾌속 알고리즘은 DSP에서 실시간으로 구현되기 용이하다.

음성 정보는 라플라스 분포를 따르므로 슈퍼 가우시안 분포에 해당하나, 대부분 노이즈의 분포는 가우시안 특성을 갖는다. 음 엔트로피, kurtosis 등은 신호의 비 가우시안 특성을 측정할 수 있다. 상기 값이 클수록 비 가우시안 특성은 더욱 커지며, 따라서 신호 중 상기 값이 제일 큰 신호를 선택 및 분리하여 처리한다.

단계(1220): 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 단계(1230)으로 진입하며, 에너지 임계값을 초과하지 않을 경우 사람의 음성을 포함하지 않는 것으로 판단하고 단계(110)으로 진입하며;

단계(1230): 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득한다.

단계(130): 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 단계(140)으로 진입하며, 웨이크업 워드를 인식하지 못할 경우 단계(110)으로 돌아가며;

사람의 음성을 포함하는 데이터를 웨이크업 워드 음성 모델에 매칭하며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단한다.

도8에 도시된 바와 같이, 구체적으로 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하며;

P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인한다.

단계(140): 음성 인식 프로세서를 웨이크업한다.

이상은 본 발명의 바람직한 실시예일 뿐, 본 발명을 한정하기 위한 것은 아니며, 본 발명의 사상 및 원칙 범위내에서 임의의 보정, 치환, 개선 등은 모두 본 발명의 청구범위에 포함된다.

Claims

음성 정보를 수집하는 수집단계;
상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고, 인식단계로 진입하는 처리단계;
사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 수집단계로 돌아가는 인식단계;
음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함하고,
상기 처리단계는,
비 가우시안 수치가 가장 큰 음성 신호를 분리해내도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 제1분리단계;
에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 제2분리단계로 진입하며, 에너지 임계값을 초과하지 않을 경우 사람의 음성을 포함하지 않는 것으로 판단하고 상기 수집단계로 진입하는 판단단계;
사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 제2분리단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
제1항에 있어서,
상기 음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 상기 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이루며; 및/또는,
상기 수집단계는,
아날로그 신호 포맷의 음성 정보를 수집하는 단계;
상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여, 디지털 신호 포맷의 음성 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
제1항에 있어서,
상기 웨이크업 방법은, 상기 웨이크업 단계 전에 웨이크업 워드 음성 모델을 구축하는 단계를 더 포함하고;
상기 인식단계는, 사람의 음성을 포함하는 데이터와 상기 웨이크업 워드 음성 모델을 매칭시키며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
제3항에 있어서,
상기 웨이크업 워드 음성 모델을 구축하는 단계는,
여러개의 웨이크업 음성 데이터를 수집하는 단계;
상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
제4항에 있어서,
상기 웨이크업 워드 음성 모델을 구축하는 단계는,
오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하는 단계;
프레이밍 후 특징 파라미터를 추출하는 단계;
상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하는 단계;
Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키고, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,
상기 인식단계는,
사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계;
P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
제1항에 있어서,
상기 제1분리단계에서, 상기 블라인드 소스 분리가 적용한 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석 ICA알고리즘인 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈;
상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈;
상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함하고,
상기 처리모듈은,
비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 분리유닛;
에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 판단유닛을 포함하는 것을 특징으로 하는 코프로세서.
제7항에 있어서,
상기 인식모듈은,
웨이크업 모델을 저장하는 저장유닛;
상기 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 상기 저장유닛에 의해 저장된 상기 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함하는 것을 특징으로 하는 코프로세서.
제8항에 있어서,
상기 인식모듈은,
웨이크업 워드 음성 모델을 구축하기 위해,
여러 개의 웨이크업 음성 데이터를 수집하고;
상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하도록 구성되는 것을 특징으로 하는 코프로세서.
제9항에 있어서,
상기 인식모듈은,
웨이크업 워드 음성 모델을 구축하기 위해,
오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고;
프레이밍 후 특징 파라미터를 추출하고;
상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고;
Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화시키며, 관찰상태σ를 획득하는 확률을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내도록 구성되며,
상기 인식모듈은 인식하기 위해,
사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하고;
P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하도록 구성되는 것을 특징으로 하는 코프로세서.
음성 수집 소자와 제7항 내지 제10항 중 어느 한 항의 코프로세서를 포함하고;
상기 음성 수집 소자는 음성 정보를 수집하며;
상기 코프로세서는 상기 음성 수집 소자에 의해 수집된 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 웨이크업 워드 인식하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 장치.
제11항에 있어서,
상기 음성 수집 소자는,
아날로그 신호 포맷의 음성 정보를 수집하는 음성 수집모듈;
상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득하는 A/D 전환모듈을 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 장치.
음성 인식 소자와 제11항의 웨이크업 장치를 포함하고, 상기 음성 인식 소자는 상기 웨이크업 장치의 코프로세서와 연결되며,
상기 음성 인식 소자는 작동 활성화 상태일 경우 음성을 인식하며, 음성 인식 후 비작동 수면 상태에 진입하며;
상기 음성 인식 소자는 상기 비작동 수면 상태에서 상기 작동 활성화 상태로의 전환은 상기 코프로세서에 의해 웨이크업 되는 것을 특징으로 하는 음성 제어 시스템.
제13항에 있어서,
상기 음성 인식 소자는 상기 작동 활성화 상태에서 상기 비작동 수면 상태로 전환되기 전에 대기 상태에 진입하며;
설정 시간 범위 내에 상기 음성 인식 소자가 웨이크업 되지 않을 경우 상기 비작동 수면 상태에 진입하며, 상기 음성 인식 소자가 웨이크업 될 경우 상기 작동 활성화 상태에 진입하는 것을 특징으로 하는 음성 제어 시스템.
제13항의 상기 음성 제어 시스템과 가전제품 본체를 포함하고, 상기 가전제품 본체는 상기 음성 제어 시스템과 연결된 것을 특징으로 하는 스마트 가전제품.
삭제
삭제