KR102335717B1 - 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서 - Google Patents

음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서 Download PDF

Info

Publication number
KR102335717B1
KR102335717B1 KR1020197012154A KR20197012154A KR102335717B1 KR 102335717 B1 KR102335717 B1 KR 102335717B1 KR 1020197012154 A KR1020197012154 A KR 1020197012154A KR 20197012154 A KR20197012154 A KR 20197012154A KR 102335717 B1 KR102335717 B1 KR 102335717B1
Authority
KR
South Korea
Prior art keywords
voice
wake
word
wakeup
recognition
Prior art date
Application number
KR1020197012154A
Other languages
English (en)
Other versions
KR20190052144A (ko
Inventor
옌 왕
하이레이 천
Original Assignee
허페이 후아링 코., 엘티디.
허페이 미디어 리프리저레터 씨오.,엘티디.
미디어 그룹 코 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 허페이 후아링 코., 엘티디., 허페이 미디어 리프리저레터 씨오.,엘티디., 미디어 그룹 코 엘티디 filed Critical 허페이 후아링 코., 엘티디.
Publication of KR20190052144A publication Critical patent/KR20190052144A/ko
Application granted granted Critical
Publication of KR102335717B1 publication Critical patent/KR102335717B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전 제품, 코프로세서에 관한 것이다. 웨이크업 방법은, 음성 정보를 수집하는 수집단계; 음성 정보가 사람의 음성을 포함하는지 여부를 결정하기 위해 음성 정보를 처리하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고, 인식단계로 진입하는 처리단계; 사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식 될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 수집단계로 돌아가는 인식단계; 음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함한다. 각 부재는 상기 방법으로 각각 모듈화 설계된다. 음성 인식 프로세서는 음성 인식이 필요한 경우에만 작동하며, 끊임없는 전천후적인 작동을 피하여 에너지 소모를 감소한다. 음성 웨이크업 장치는 웨이크업 워드만을 인식하고 전력 소모가 낮으며, 전천후적으로 작동하더라도 그 에너지 소모는 아주 적으며 종래의 음성 인식의 전력 소모가 비교적 큰 문제를 해결한다.

Description

음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서
상호참조
본 출원은 2016년 09월 29일자로 제출한 명칭이 "음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서"인 제2016108674779호 중국특허출원을 인용하였으며, 이는 본 출원에 인용문헌으로 전부 병합되었다.
본 발명은 가전제품 음성 제어 분야에 관한 것으로, 특히 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서에 관한 것이다.
인공 지능 기술의 발전으로 가전제품 업계는 새로운 발전을 시작하였으며, 인간-기계 음성 인터페이스는 인류의 사용 습관에 더 부합되기 때문에 연구의 뜨거운 이슈 중 하나가 되었다. 도1은 음성 제어 기능이 구비된 가전제품 회로를 나태내며, 도1에서 알 수 있다시피, 음성 제어 기능을 추가하기 위해 종래의 제어 회로에 음성 제어 회로를 추가해야 한다. 음성 제어는 외부의 소리를 실시간으로 모니터링 해야 하기 때문에 소리를 인식하기 위한 프로세서는 항상 작동하므로 전력 소모가 증가한다.
본 발명은 사람의 음성이 존재할 경우에만, 또한 사람의 음성에 인식하고자 하는 음성이 포함될 경우에만 음성 인식 소자(음성 인식 프로세서CPU)를 작동시키는 과제를 해결하기 위하여 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 스마트 가전제품을 제공하고자 한다.
상기 기술적 과제를 해결하기 위해, 본 발명은 음성 정보를 수집하는 수집단계; 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리해내고, 인식단계로 진입하는 처리단계; 사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 상기 수집단계로 돌아가는 인식단계; 음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법을 제공한다.
일부 실시예에 있어서, 상기 음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 상기 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이루며; 및/또는, 상기 수집단계는, 아날로그 신호 포맷의 음성 정보를 수집하는 단계; 상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여, 디지털 신호 포맷의 음성 정보를 획득하는 단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 웨이크업방법은, 상기 웨이크업단계전에 웨이크업 워드 음성 모델을 구축하는 단계를 더 포함하고; 상기 인식단계는, 사람의 음성을 포함하는 데이터와 상기 웨이크업 워드 음성 모델을 매칭시키며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단하는 단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 여러개의 웨이크업 음성 데이터를 수집하는 단계; 상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하는 단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 하는 단계; 프레이밍 후 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(Hidden Markov Model, HMM)의 관찰 상태를 확립하는 단계; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM)의 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,
상기 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 처리단계는, 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 제1분리단계; 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 제2분리단계로 진입하며, 에너지 임계값을 초과하지 못할 경우 사람의 음성을 포함하지 않는 것으로 판단하고 상기 수집단계로 진입하는 판단단계; 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 제2분리단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 제1분리단계에서, 상기 블라인드 소스 분리에 적용된 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석(ICA) 알고리즘인 것이 바람직하다.
본 발명의 다른 측면에 따르면, 수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈; 상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 수행하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈; 상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함하는 코프로세서를 더 제공한다.
일부 실시예에 있어서, 상기 처리모듈은, 상기 분리유닛은 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 분리유닛; 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 판단유닛을 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 인식모듈은, 웨이크업 모델을 저장하는 저장유닛; 상기 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 상기 저장유닛에 저장된 상기 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 여러개의 웨이크업 음성 데이터를 수집하는 단계; 상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하는 단계를 포함하는 것이 바람직하다.
일부 실시예에 있어서, 상기 웨이크업 워드 음성 모델을 구축하는 단계는, 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 하는 단계; 프레이밍 후 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하는 단계; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,
상기 인식모듈의 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것이 바람직하다.
본 발명의 또 다른 측면에 따르면, 음성 정보를 수집하는 음성 수집 소자; 상기 음성 수집 소자에 의해 수집된 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 웨이크업 워드 인식을 수행하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업하는 코프로세서를 포함하는 음성 제어 시스템의 웨이크업 장치를 더 제공한다.
일부 실시예에 있어서, 상기 음성 수집 소자는, 아날로그 신호 포맷의 음성 정보를 수집하는 음성 수집 모듈; 상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득하는 A/D 전환모듈을 포함하는 것이 바람직하다.
본 발명의 다른 측면에 따르면, 음성 인식 소자와 상기 웨이크업 장치를 포함하고, 상기 음성 인식 소자는 상기 웨이크업 장치의 코프로세서와 연결되며, 상기 음성 인식 소자는 작동 활성화 상태일 경우 음성을 인식하며, 음성 인식 후 비작동 수면 상태에 진입하며; 상기 음성 인식 소자는 상기 비작동 수면 상태에서 상기 작동 활성화 상태로의 전환은 상기 코프로세서에 의해 웨이크업 되는 음성 제어 시스템을 더 제공한다.
일부 실시예에 있어서, 상기 음성 인식 소자는 상기 작동 활성화 상태에서 상기 비작동 수면 상태로 전환되기 전에 대기 상태에 진입하며; 설정된 시간 범위내에 상기 음성 인식 소자가 웨이크업 되지 않을 경우 상기 비작동 수면 상태에 진입하며, 상기 음성 인식 소자가 웨이크업 될 경우 상기 작동 활성화 상태에 진입하는 것이 바람직하다.
본 발명의 다른 측면에 따르면, 상기 음성 제어 시스템과 가전제품 본체를 포함하고, 상기 가전제품 본체는 상기 음성 제어 시스템과 연결된 스마트 가전제품을 더 제공한다.
본 발명이 제공하는 기술은 웨이크업 기술을 추가하였으며, 보조 처리장치 또는 전처리장치로서 음성 웨이크업 장치를 사용하며, 이는 시각마다 음성 정보를 수집하고 음성 정보를 분석 및 인식하여 음성에 웨이크업 워드가 포함되어 있는지를 결정하며, 이때 음성 인식 프로세서를 웨이크업하여 음성 인식을 수행한다. 이와 같은 방식을 통해 음성 인식 프로세서는 음성 인식이 필요한 경우에만 작동하며, 끊임없는 전천후적인 작동을 피하여 에너지 소모를 감소한다. 음성 웨이크업 장치는 웨이크업 워드만을 인식하고 모든 음성을 인식할 필요는 없으므로, 따라서 전력 소모가 낮으며, 전천후적으로 작동하더라도 그 에너지 소모는 아주 적으며 종래의 음성 인식의 전력 소모가 비교적 큰 문제를 해결한다.
도1은 종래의 기술의 음성 제어 기능이 구비된 가전제품 회로의 구조를 개략적으로 나타낸 도면이고;
도2는 본 발명의 일 실시예에 따른 코프로세서의 구조를 개략적으로 나타낸 도면이며;
도3은 본 발명의 일 실시예에 따른 음성 제어 시스템의 웨이크업 장치의 구조를 개략적으로 나타낸 도면이며;
도4는 본 발명의 일 실시예에 따른 웨이크업 장치를 구비하는 음성 제어 시스템의 구조를 개략적으로 나타낸 도면이며;
도5는 본 발명의 일 실시예에 따른 음성 제어 시스템의 웨이크업 방법의 단계를 개략적으로 나타낸 도면이며;
도6은 본 발명의 일 실시예에 따른 웨이크업 워드 인식에서 사용한 암호 인식 모델이며;
도7은 본 발명의 일 실시예에 따른 웨이크업 워드 모델을 구축하는 단계를 개략적으로 나타낸 도면이며;
도8은 본 발명의 일 실시예에 따른 웨이크업 워드 인식 단계를 개략적으로 나타낸 도면이며;
도9는 본 발명의 일 실시예에 따른 음성 인식 소자의 상태 전환을 개략적으로 나타낸 도면이다.
이하에서 도면 및 실시예를 결합하여 본 발명의 구체적인 실시예에 대해 상세하게 설명한다. 아래의 실시예는 본 발명을 설명할 뿐, 본 발명의 범위를 제한하기 위한 것은 아니다.
본 발명에 있어서, 별도로 명확하게 규정 및 한정하지 않는 한, "장착", "서로 연결", "연결"등 용어는 보편적인 의미로 이해해야 함을 밝혀둔다. 예를 들어, 고정 연결될 수 있고, 착탈 가능하게 연결 또는 일체로 연결될 수도 있으며; 기계적으로 연결 또는 전기적으로 연결될 수 있고; 직접적으로 연결될 수 있고 중간 매체를 통해 간접적으로 연결하는 것일 수도 있으며, 또한 두개 구성요소의 내부가 연통되는 것일 수 있다.
가전제품의 음성 제어 회로의 전력 소모를 감소하기 위해, 본 발명은 음성 제어 시스템의 웨이크업 방법, 웨이크업 장치, 음성 제어 시스템 및 스마트 가전제품을 제공한다.
이하에서 기초 설계, 대체 설계 및 확장 설계를 통해 본 기술에 대해 상세하게 설명하도록 한다.
도2에 도시된 바와 같이, 음성 인식 에너지 소모를 감소하는 코프로세서는 주로 기존의 음성 인식 프로세서의 전단에 적용되며, 사전에 음성 처리하여 웨이크업 명령을 획득하며, 상기와 같이 음성 인식 프로세서를 웨이크업하여 음성 인식 프로세서의 작동 시간을 음성 인식이 필요한 시간 범위로 축소시키며 작은 출력의 코프로세서의 에너지 소모는 비교적 작으며 소모를 크게 감소시킬 수 있다. 상기 기능에 의하면, 상기 코프로세서는 주로 수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈; 상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈; 상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함한다. 상기 코프로세서의 작동과정은 도5를 참조할 수 있다.
수집한 음성에는 수집환경 내의 다양한 소리를 포함하므로 사람의 음성을 효과적으로 분리 및 인식하는 것은 후속처리의 첫 번째 단계이며, 따라서 처리모듈에 의해 사람의 음성을 포함하는 음성 세그먼트를 분리해내야 한다. 그러나 사람의 음성을 포함하는 음성 세그먼트에는 너무 많은 정보가 포함되어 있으며 각각의 정보에 대해 모두 음성 인식을 수행할 필요는 없으며, 따라서 음성 세그먼트에 포함된 특수 워드를 인식하며 이러한 특수 워드를 통해 해당 음성 세그먼트가 음성 인식이 필요한 정보인지를 결정하여 기존의 음성 인식 프로세서의 작업량을 진일보 축소할 수 있으며, 따라서 본 실시예에서는 특수 워드를 웨이크업 워드로 정의하며 웨이크업 워드를 통해 웨이크업 음성 인식 프로세서의 웨이크업을 결정한다.
유의해야 할 것은, 여러 실시예에 있어서, 처리모듈에 의해 수신된 수집 음성 정보는 통상적으로 시간 범위로 분할하여 수집하는 방식을 적용하며, 음성 수집 소자는 하나의 시간 범위에서 수집한 음성 정보 세그먼트를 하나의 전송 대상으로 하여 처리모듈에 전송하며, 계속하여 다음 시간 범위의 음성을 수집한다. 상기 코프로세서는 단독 하드웨어로서 음성 수집 소자와 음성 인식 프로세서 사이에 로딩된다.
상기 코프로세서는 저전력 DSP를 적용할 수 있고, 종래의 음성 인식 프로세서 내부의 칩에 로딩될 수도 있으며, 또는 종래의 음성 수집 소자 내부의 칩에 로딩될 수 있고, 칩은 처리모듈, 인식모듈, 웨이크업 모듈을 구비하며, 음성처리와 웨이크업 기능을 구현한다.
여기서 처리모듈은 주로 분리유닛 및 판단유닛으로 구성되고, 분리유닛은 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 음성 정보를 블라인드 소스 분리처리하며; 판단유닛은 에너지 임계값을 통해 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득한다.
블라인드 소스 분리의 작용은 신호 소스가 미지인 경우 복수개의 신호 소스를 분리하고, 여기서 ICA는 비교적 흔히 사용하는 알고리즘이며, 음 엔트로피 최대화, 4차 통계량 첨도(kurtosis), 또는 시간 주파수 변환에 기반한 방법으로 실현할 수 있으며, 고정점 쾌속 알고리즘은 DSP에서 실시간으로 구현되기 용이하다.
음성 정보는 라플라스 분포를 따르므로 슈퍼 가우시안 분포에 해당하나, 대부분 노이즈의 분포는 가우시안 특성을 갖는다. 음 엔트로피, kurtosis 등은 신호의 비 가우시안 특성을 측정할 수 있다. 상기 값이 클수록 비 가우시안 특성은 더욱 커지며, 따라서 신호중 상기 값이 제일 큰 신호를 선택 및 분리하여 처리한다.
가능한 신호를 선택한 후, 에너지 임계값에 따라 말하는 사람의 음성이 존재하는지 여부를 판단한다. 음성을 포함하는 프레임을 인식모듈로 전송하여 웨이크업 워드 인식 과정 및 후속처리를 진행하고, 음성을 포함하지 않는 프레임은 폐기한다.
인식모듈은 웨이크업 모델을 저장하는 저장모듈; 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 저장유닛에 의해 저장된 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함한다.
웨이크업 워드 인식은 사전에 설정된 웨이크업 워드(웨이크업 워드 모델에서 유래)(예를 들면, "안녕 냉장고")에 따라 음성 제어를 시도하는 사용자가 있는지 여부를 결정한다. 기본 과정은 아래와 같다.
1. 말하는 사람의 대량의 음성을 통해 웨이크업 모델을 사전에 구축한다.
2. 트레이닝 후의 웨이크업 워드 모델을 반도체 저장공간(flash)에 저장하며, 통전 후 캐시(저장유닛)에 복사한다.
3. 음성 처리 시, 전에 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 모델에 매칭하여 웨이크업 워드인지 여부를 판단한 결과를 획득한다.
4. 웨이크업 워드인지 여부를 결정한다. 코프로세서는 웨이크업 워드를 검출한 후 인터럽트가 발생하며 음성 인식 프로세서를 웨이크업하여 작동시키며, 웨이크업 워드를 검출하지 못할 경우 웨이크업 암호의 입력을 계속하여 대기한다.
웨이크업 워드 음성 모델의 구축은 아래와 같은 방법을 적용할 수 있다. 즉 여러개의 웨이크업 음성 데이터를 수집하는 하며; 상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득한다.
여러 실시예에 있어서, 웨이크업 워드의 인식은 비교적 흔히 사용하는 GMM-HMM(현재 비교적 흔히 사용하는 것으로 DNN-HMM모델, LSTM모델이 더 존재함) 모델을 적용하여 인식 여부를 판단한다. 그 암호 인식 모델은 아래의 도6에 도시된 바와 같다.
GMM모델은 음성 프레임을 클러스터링한다.
HMM모델은 2개의 상태 집합과 3개의 전이 확율로 설명할 수 있다.
2개의 상태 집합은 관찰될 수 있는 상태인 관찰 가능 상태O를 포함한다.
은닉 상태S: 이러한 상태는 마르코프 성질(t 시각의 상태는 t-1시각에만 상관된다)에 부합되며, 일반적으로 이 시각 사이에서는 관찰될 수 없다.
초기상태 상태확율 매트릭스: 초기상태의 각 은닉 상태의 확율분포를 나타낸다.
상태 전이 매트릭스: t부터 t+1 시각의 은닉 상태 사이의 전이 확율을 나타낸다.
관찰상태 출력 확율: 은닉 상태가 s인 조건하에서, 관찰값이 o인 확율을 나타낸다.
HMM은 3개의 문제가 존재한다:
1. 관찰 서열과 모델을 제공하여 어느 특정 출력의 확율을 계산하는 평가문제. 암호 인식 작업의 경우 음성 서열과 모델에 따라 해당 서열이 어느 문구일 가능성을 결정한다.
2. 관찰 서열과 모델을 제공하여 관찰 확율이 제일 큰 은닉 상태 서열을 찾는 디코딩 문제.
3. 관찰 서열을 제공하고 모델 파라미터를 조정하여 해당 관찰 서열이 발생하는 확율을 최대화 시키는 학습문제. 암호 인식 작업의 경우 대량의 암호에 따라 모델 파라미터를 조정한다.
도7에 도시된 바와 같이, 이러한 실시예에서는 아래와 같은 방식을 적용하여 웨이크업 워드 음성 모델의 구축을 구체적으로 실시한다.
즉 오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고; 프레이밍 후 특징 파라미터를 추출하며; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고; Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하고, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하며, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내고, 도8에 도시된 바와 같이, 웨이크업 워드를 구축하는 상기 단계에 의하면, 상기 인식단계는, 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계; P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함한다.
일부 경우에는, 임계값은 실험을 통해 획득한 경험치이며, 서로 다른 웨이크업 워드에 대해 설정해야하는 임계값은 실험에 따라 조정할 수 있다.
또한, 기술을 더 전면적으로 보호하기 위해 음성 제어 시스템의 웨이크업 장치를 더 보호해야 하며, 도3에 도시된 바와 같이, 이는 주로 음성 수집 소자와 상술한 코프로세서로 구성된다. 음성 수집 소자는 음성 정보를 수집하고; 코프로세서는 음성 수집 소자에 의해 수집된 음성 정보를 처리하여 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트에 대하여 웨이크업 워드 인식을 수행하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업한다.
여러 실시예에 있어서, 특히 신제품 개발 시 음성 수집 소자와 코프로세서를 일체형 부재로 통합 설계할 수도 있다. 양자는 수집, 분석 후 음성 인식을 작동하도록 음성 인식 프로세서의 웨이크업 여부를 결정하며, 따라서 양자는 음성 인식 프로세서의 작동 시간을 최대한 축소시킬 수 있으며 작동 소모를 감소할 수 있다.
여기서, 음성 수집 기능을 구비하는 상기 부재는 모두 음성 수집 소자에 적용될 수 있다. 음성 수집 소자는 주로 음성 수집모듈과 A/D 전환모듈을 포함하고, 음성 수집모듈은 아날로그 신호 포맷의 음성 정보를 수집하며; A/D 전환모듈은 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득한다.
여러 실시예에 있어서, 음성 수집모듈, A/D전환모듈은 별도의 하드웨어 설비일 수 있으며, 음성 수집 소자에 통일된 일체형 구조일 수도 있다.
다른 측면에서, 기술을 더 충분히 보호하기 위해 음성 제어 시스템을 더 제공하며, 도4에 도시된 바와 같이 음성을 수집하고, 음성을 처리하고 및 음성을 인식하며, 인식결과에 의해 음성 중의 제어 명령을 획득하며, 이는 주로 음성 인식 소자(즉 음성 인식 프로세서)와 웨이크업 장치로 구성되며; 음성 인식 소자는 웨이크업 장치의 코프로세서와 연결되며, 코프로세서는 웨이크업 워드를 검출한 후 음성 인식 작동하도록 음성 인식 소자를 웨이크업한다. 음성 인식 소자는 작동 활성화 상태 시 음성 인식하고, 음성 인식 후 비 작동 수면 상태에 진입하며, 음성 인식 소자는 비 작동 수면 상태에서 작동 활성화 상태로의 전환은 코프로세서에 의해 웨이크업 된다.
일부 경우를 고려하면, 음성 수집, 음성 처리는 일정한 시간이 필요하며 웨이크업 작동은 연속적으로 복수차례 발생할 수 있으며, 따라서 음성 인식 프로세서는 사람의 음성을 포함하는 하나의 음성 세그먼트를 인식한 후 먼저 일정 시간의 대기 상태에 진입한다. 도9에 도시된 바와 같이 대기 상태내에 정보 인식을 대기하는 음성 세그먼트가 진입하면 계속 인식하며, 인식을 대기하는 음성 세그먼트가 진입하지 않을 경우 비 작동 수면 상태에 진입한다. 즉 음성 인식 소자는 작동 활성화 상태에서 비 작동 수면 상태로 전환하기전에 대기 상태에 진입하며, 설정 시간 범위내에 음성 인식 소자가 웨이크업 되지 않을 경우 비 작동 수면 상태에 진입하며, 음성 인식 소자가 웨이크업 될 경우 작동 활성화 상태에 진입한다.
상기 음성 제어 시스템을 스마트 가전제품에 적용하며, 상기 스마트 가전제품은 주로 음성 제어 시스템과 가전제품 본체로 구성되며, 가전제품 본체는 음성 제어 시스템과 연결된다.
스마트 가전제품은 가정에서 제어 명령을 필요하는 가전설비일 수 있다.
동시에, 본 발명은 스마트 가전제품을 작동중인 전기 설비, 즉 기타 경우에서 제어가 필요한 전기 설비로 확장할 수 있다.
상술한 각 보호 설비에 의하면, 주로 사용하는 음성 제어 시스템의 웨이크업 방법은 아래와 같다.
웨이크업 워드 인식은 사전에 설정된 웨이크업 워드(웨이크업 워드 모델에서 유래)(예를 들면, "안녕 냉장고")에 따라 음성 제어를 시도하는 사용자가 있는지 여부를 결정한다. 기본 과정은 아래와 같다.
1. 말하는 사람의 대량의 음성을 통해 웨이크업 모델을 사전에 구축한다.
2. 트레이닝 후의 웨이크업 워드 모델을 반도체 저장공간(flash)에 저장하며, 통전 후 캐시(저장유닛)에 복사한다.
3. 음성 처리 시, 전에 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 모델에 매칭하여 웨이크업 워드인지 여부를 판단한 결과를 획득한다.
4. 웨이크업 워드인지 여부를 결정한다. 코프로세서는 웨이크업 워드를 검출한 후 인터럽트가 발생하며 음성 인식 프로세서를 웨이크업하여 작동시키며, 웨이크업 워드를 검출하지 못할 경우 웨이크업 암호의 입력을 계속하여 대기한다.
도5에 도시된 바와 같이, 아래의 단계로 구체화한다.
단계(100): 웨이크업 워드 음성 모델을 구축하며;
이 단계는 초기 준비 시에 발생하는 단계로서, 웨이크업 워드 음성 모델을 구축한 후에만 후속 웨이크업 워드 인식 작업을 수행하는 것이 편리하다. 상기 모델을 구축할 시 여러 사람의 웨이크업 음성 데이터를 수집하고, 모든 웨이크업 음성 데이터를 처리하고 트레이닝하여 웨이크업 워드 모델을 획득한다.
도7에 도시된 바와 같이, 아래와 같이 더 구체화한다.
오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고; 프레이밍 후 특징 파라미터를 추출하며; 상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고; Baum-Welch알고리즘을 통해 은닉 마르코프HMM 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키며, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하고, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하며, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타낸다.
단계(110): 음성 정보를 수집하며;
음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이룬다. 일정한 시간 범위의 음성 정보 세그먼트를 단위로 후속처리에 전송한다. 수집된 음성이 후속 처리가 어려운 아날로그 신호인 것을 고려하여 아날로그 신호로부터 디지털 신호로 전환하는 단계가 더 필요하며, 따라서 여러 실시예에 있어서 상기 단계는 아래와 같이 구체화될 수 있다.
단계(1110): 아날로그 포맷의 음성 정보를 수집하며;
단계(1120): 아날로그 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득한다.
단계(120): 음성 정보를 처리하여 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고 단계(130)으로 진입하며;
상기 단계는 구체적으로 아래와 같다.
단계(1210): 비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하며;
제1분리단계에서, 블라인드 소스 분리가 적용한 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석 ICA알고리즘이다.
블라인드 소스 분리의 작용은 신호 소스가 미지인 경우 복수개의 신호 소스를 분리하고, 여기서 ICA는 비교적 흔히 사용하는 알고리즘이며, 음 엔트로피 최대화, 4차 통계량 첨도(kurtosis), 또는 시간 주파수 변환에 기반한 방법으로 구현할 수 있으며, 고정점 쾌속 알고리즘은 DSP에서 실시간으로 구현되기 용이하다.
음성 정보는 라플라스 분포를 따르므로 슈퍼 가우시안 분포에 해당하나, 대부분 노이즈의 분포는 가우시안 특성을 갖는다. 음 엔트로피, kurtosis 등은 신호의 비 가우시안 특성을 측정할 수 있다. 상기 값이 클수록 비 가우시안 특성은 더욱 커지며, 따라서 신호 중 상기 값이 제일 큰 신호를 선택 및 분리하여 처리한다.
단계(1220): 에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 단계(1230)으로 진입하며, 에너지 임계값을 초과하지 않을 경우 사람의 음성을 포함하지 않는 것으로 판단하고 단계(110)으로 진입하며;
가능한 신호를 선택한 후, 에너지 임계값에 따라 말하는 사람의 음성이 존재하는지 여부를 판단한다. 음성을 포함하는 프레임을 인식모듈로 전송하여 웨이크업 워드 인식 과정 및 후속처리를 진행하고, 음성을 포함하지 않는 프레임은 폐기한다.
단계(1230): 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득한다.
단계(130): 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 단계(140)으로 진입하며, 웨이크업 워드를 인식하지 못할 경우 단계(110)으로 돌아가며;
사람의 음성을 포함하는 데이터를 웨이크업 워드 음성 모델에 매칭하며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단한다.
도8에 도시된 바와 같이, 구체적으로 사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하며;
P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인한다.
단계(140): 음성 인식 프로세서를 웨이크업한다.
이상은 본 발명의 바람직한 실시예일 뿐, 본 발명을 한정하기 위한 것은 아니며, 본 발명의 사상 및 원칙 범위내에서 임의의 보정, 치환, 개선 등은 모두 본 발명의 청구범위에 포함된다.

Claims (17)

  1. 음성 정보를 수집하는 수집단계;
    상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하고, 인식단계로 진입하는 처리단계;
    사람의 음성을 포함하는 음성 정보 세그먼트로부터 웨이크업 워드를 인식하며, 웨이크업 워드가 인식될 경우 웨이크업단계로 진입하고, 웨이크업 워드가 인식되지 않을 경우 수집단계로 돌아가는 인식단계;
    음성 인식 프로세서를 웨이크업하는 웨이크업단계를 포함하고,
    상기 처리단계는,
    비 가우시안 수치가 가장 큰 음성 신호를 분리해내도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 제1분리단계;
    에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 것으로 판단하고 제2분리단계로 진입하며, 에너지 임계값을 초과하지 않을 경우 사람의 음성을 포함하지 않는 것으로 판단하고 상기 수집단계로 진입하는 판단단계;
    사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 제2분리단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  2. 제1항에 있어서,
    상기 음성 정보는 서로 다른 시간 범위에서 수집된 복수개의 음성 정보 세그먼트로 구성되며, 모든 상기 시간 범위는 연결되어 완전하고 연속적인 시간 체인을 이루며; 및/또는,
    상기 수집단계는,
    아날로그 신호 포맷의 음성 정보를 수집하는 단계;
    상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여, 디지털 신호 포맷의 음성 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  3. 제1항에 있어서,
    상기 웨이크업 방법은, 상기 웨이크업 단계 전에 웨이크업 워드 음성 모델을 구축하는 단계를 더 포함하고;
    상기 인식단계는, 사람의 음성을 포함하는 데이터와 상기 웨이크업 워드 음성 모델을 매칭시키며, 매칭에 성공할 경우 웨이크업 워드를 인식한 것으로 판단하고, 매칭에 실패할 경우 웨이크업 워드를 인식하지 못한 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  4. 제3항에 있어서,
    상기 웨이크업 워드 음성 모델을 구축하는 단계는,
    여러개의 웨이크업 음성 데이터를 수집하는 단계;
    상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  5. 제4항에 있어서,
    상기 웨이크업 워드 음성 모델을 구축하는 단계는,
    오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하는 단계;
    프레이밍 후 특징 파라미터를 추출하는 단계;
    상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하는 단계;
    Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화 시키고, 관찰상태σ를 획득하는 확율을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내며,
    상기 인식단계는,
    사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하는 단계;
    P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하는 단계를 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  6. 제1항에 있어서,
    상기 제1분리단계에서, 상기 블라인드 소스 분리가 적용한 방법은 음 엔트로피 최대화, 4차 통계량 첨도, 또는 시간 주파수 변환에 기반한 독립 성분 분석 ICA알고리즘인 것을 특징으로 하는 음성 제어 시스템의 웨이크업 방법.
  7. 수집한 음성 정보를 처리하고 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하는 처리모듈;
    상기 처리모듈로 분리한 사람의 음성을 포함하는 음성 정보 세그먼트에 대해 웨이크업 워드 인식을 하며, 웨이크업 워드를 인식할 경우 웨이크업 명령을 생성하는 인식모듈;
    상기 웨이크업 명령에 따라 음성 인식 프로세서를 웨이크업하는 웨이크업모듈을 포함하고,
    상기 처리모듈은,
    비 가우시안 수치가 가장 큰 음성 신호를 분리하도록 디지털 신호 포맷의 상기 음성 정보를 블라인드 소스 분리처리하는 분리유닛;
    에너지 임계값을 통해 상기 음성 신호가 사람의 음성을 포함하는지 여부를 판단하며, 에너지 임계값을 초과할 경우 사람의 음성을 포함하는 음성 정보를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 획득하는 판단유닛을 포함하는 것을 특징으로 하는 코프로세서.
  8. 제7항에 있어서,
    상기 인식모듈은,
    웨이크업 모델을 저장하는 저장유닛;
    상기 판단유닛에 의해 분리하여 획득한 사람의 음성을 포함하는 음성 정보 세그먼트를 상기 저장유닛에 의해 저장된 상기 웨이크업 모델에 웨이크업 워드 매칭하며, 매칭에 성공할 경우 웨이크업 명령을 생성하는 인식유닛을 포함하는 것을 특징으로 하는 코프로세서.
  9. 제8항에 있어서,
    상기 인식모듈은,
    웨이크업 워드 음성 모델을 구축하기 위해,
    여러 개의 웨이크업 음성 데이터를 수집하고;
    상기 웨이크업 음성 데이터를 모두 처리하고 트레이닝하여 웨이크업 워드 모델을 획득하도록 구성되는 것을 특징으로 하는 코프로세서.
  10. 제9항에 있어서,
    상기 인식모듈은,
    웨이크업 워드 음성 모델을 구축하기 위해,
    오프라인 상태에서, 말하는 사람이 서로 다른 환경에서 녹음한 웨이크업 워드를 수집하여 프레이밍 처리를 수행하고;
    프레이밍 후 특징 파라미터를 추출하고;
    상기 특징 파라미터를 클러스터링하여 은닉 마르코프 모델(HMM)의 관찰 상태를 확립하고;
    Baum-Welch알고리즘을 통해 은닉 마르코프 모델(HMM) 파라미터를 조정하여 P(σ|λ)를 최대화시키며, 관찰상태σ를 획득하는 확률을 최대화하기 위해 모델 파라미터λ를 조정하며, 모델 트레이닝을 완성하고 웨이크업 워드 음성 모델을 저장하는 단계를 포함하고, 여기서 λ는 모델 파라미터, σ는 관찰상태를 나타내도록 구성되며,
    상기 인식모듈은 인식하기 위해,
    사람의 음성을 포함하는 데이터의 음성 프레임으로부터 특징 파라미터를 추출하여 하나의 그룹의 새로운 관찰값σ'을 획득하고, 새로운 관찰상태로서 P(σ'|λ)를 계산하고;
    P(σ'|λ)와 신뢰임계값을 비교하여 웨이크업 워드의 인식여부를 확인하도록 구성되는 것을 특징으로 하는 코프로세서.
  11. 음성 수집 소자와 제7항 내지 제10항 중 어느 한 항의 코프로세서를 포함하고;
    상기 음성 수집 소자는 음성 정보를 수집하며;
    상기 코프로세서는 상기 음성 수집 소자에 의해 수집된 상기 음성 정보를 처리하여 상기 음성 정보가 사람의 음성을 포함하는지 여부를 결정하며, 사람의 음성을 포함할 경우 사람의 음성을 포함하는 음성 정보 세그먼트를 분리하여 사람의 음성을 포함하는 음성 정보 세그먼트를 웨이크업 워드 인식하며, 웨이크업 워드가 인식될 경우 음성 인식 소자를 웨이크업하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 장치.
  12. 제11항에 있어서,
    상기 음성 수집 소자는,
    아날로그 신호 포맷의 음성 정보를 수집하는 음성 수집모듈;
    상기 아날로그 신호 포맷의 음성 정보를 디지털 전환하여 디지털 신호 포맷의 음성 정보를 획득하는 A/D 전환모듈을 포함하는 것을 특징으로 하는 음성 제어 시스템의 웨이크업 장치.
  13. 음성 인식 소자와 제11항의 웨이크업 장치를 포함하고, 상기 음성 인식 소자는 상기 웨이크업 장치의 코프로세서와 연결되며,
    상기 음성 인식 소자는 작동 활성화 상태일 경우 음성을 인식하며, 음성 인식 후 비작동 수면 상태에 진입하며;
    상기 음성 인식 소자는 상기 비작동 수면 상태에서 상기 작동 활성화 상태로의 전환은 상기 코프로세서에 의해 웨이크업 되는 것을 특징으로 하는 음성 제어 시스템.
  14. 제13항에 있어서,
    상기 음성 인식 소자는 상기 작동 활성화 상태에서 상기 비작동 수면 상태로 전환되기 전에 대기 상태에 진입하며;
    설정 시간 범위 내에 상기 음성 인식 소자가 웨이크업 되지 않을 경우 상기 비작동 수면 상태에 진입하며, 상기 음성 인식 소자가 웨이크업 될 경우 상기 작동 활성화 상태에 진입하는 것을 특징으로 하는 음성 제어 시스템.
  15. 제13항의 상기 음성 제어 시스템과 가전제품 본체를 포함하고, 상기 가전제품 본체는 상기 음성 제어 시스템과 연결된 것을 특징으로 하는 스마트 가전제품.
  16. 삭제
  17. 삭제
KR1020197012154A 2016-09-29 2017-09-26 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서 KR102335717B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610867477.9 2016-09-29
CN201610867477.9A CN106157950A (zh) 2016-09-29 2016-09-29 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
PCT/CN2017/103514 WO2018059405A1 (zh) 2016-09-29 2017-09-26 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器

Publications (2)

Publication Number Publication Date
KR20190052144A KR20190052144A (ko) 2019-05-15
KR102335717B1 true KR102335717B1 (ko) 2021-12-06

Family

ID=57340915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197012154A KR102335717B1 (ko) 2016-09-29 2017-09-26 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서

Country Status (6)

Country Link
US (1) US20200027462A1 (ko)
EP (1) EP3522153B1 (ko)
JP (1) JP6801095B2 (ko)
KR (1) KR102335717B1 (ko)
CN (1) CN106157950A (ko)
WO (1) WO2018059405A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN106847283A (zh) * 2017-02-28 2017-06-13 广东美的制冷设备有限公司 智能家电控制方法和装置
CN106875946B (zh) * 2017-03-14 2020-10-27 巨数创新(深圳)科技有限公司 语音控制交互系统
CN108663942B (zh) * 2017-04-01 2021-12-07 青岛有屋科技有限公司 一种语音识别设备控制方法、语音识别设备和中控服务器
TWI643123B (zh) * 2017-05-02 2018-12-01 瑞昱半導體股份有限公司 具有語音喚醒功能的電子裝置及其操作方法
CN106971719A (zh) * 2017-05-16 2017-07-21 上海智觅智能科技有限公司 一种离线可切换唤醒词的非特定音语音识别唤醒方法
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
CN109308896B (zh) * 2017-07-28 2022-04-15 江苏汇通金科数据股份有限公司 语音处理方法及装置、存储介质及处理器
CN107371144B (zh) * 2017-08-11 2021-02-02 深圳传音通讯有限公司 一种智能发送信息的方法及装置
CN109584860B (zh) * 2017-09-27 2021-08-03 九阳股份有限公司 一种语音唤醒词定义方法和系统
CN107886947A (zh) * 2017-10-19 2018-04-06 珠海格力电器股份有限公司 一种图像处理的方法以及装置
CN108270651A (zh) * 2018-01-25 2018-07-10 厦门盈趣科技股份有限公司 语音传输节点及语音处理系统
CN108259280B (zh) * 2018-02-06 2020-07-14 北京语智科技有限公司 一种室内智能化控制的实现方法、系统
CN108564941B (zh) 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
CN109218899A (zh) * 2018-08-29 2019-01-15 出门问问信息科技有限公司 一种语音交互场景的识别方法、装置及智能音箱
CN111199733A (zh) * 2018-11-19 2020-05-26 珠海全志科技股份有限公司 多级识别语音唤醒方法及装置、计算机存储介质及设备
CN109360552B (zh) * 2018-11-19 2021-12-24 广东小天才科技有限公司 一种自动过滤唤醒词的方法及系统
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111414071B (zh) * 2019-01-07 2021-11-02 瑞昱半导体股份有限公司 处理系统与语音检测方法
CN109785845B (zh) * 2019-01-28 2021-08-03 百度在线网络技术(北京)有限公司 语音处理方法、装置及设备
KR20210145733A (ko) * 2019-03-27 2021-12-02 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
CN110049395B (zh) * 2019-04-25 2020-06-05 维沃移动通信有限公司 耳机控制方法及耳机设备
CN111899730A (zh) * 2019-05-06 2020-11-06 深圳市冠旭电子股份有限公司 语音控制方法、装置及计算机可读存储介质
CN110473544A (zh) * 2019-10-09 2019-11-19 杭州微纳科技股份有限公司 一种低功耗语音唤醒方法及装置
CN112820283A (zh) * 2019-11-18 2021-05-18 阿里巴巴集团控股有限公司 一种语音处理方法、设备及系统
CN110968353A (zh) * 2019-12-06 2020-04-07 惠州Tcl移动通信有限公司 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN113031749A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 电子设备
CN111128164B (zh) * 2019-12-26 2024-03-15 上海风祈智能技术有限公司 一种语音采集和识别的控制系统及其实现方法
US20210224078A1 (en) * 2020-01-17 2021-07-22 Syntiant Systems and Methods for Generating Wake Signals from Known Users
CN111429901B (zh) * 2020-03-16 2023-03-21 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统
CN111246285A (zh) * 2020-03-24 2020-06-05 北京奇艺世纪科技有限公司 一种解说视频中声音的分离方法、音量调节方法及装置
CN111554288A (zh) * 2020-04-27 2020-08-18 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、电子设备及介质
CN113593541B (zh) * 2020-04-30 2024-03-12 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置
CN112002320A (zh) * 2020-08-10 2020-11-27 北京小米移动软件有限公司 语音唤醒方法、装置、电子设备和存储介质
CN112382285B (zh) * 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
CN112382294B (zh) * 2020-11-05 2023-10-20 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112382288B (zh) * 2020-11-11 2024-04-02 湖南常德牌水表制造有限公司 一种语音调试设备的方法、系统、计算机设备和存储介质
CN112669830A (zh) * 2020-12-18 2021-04-16 上海容大数字技术有限公司 一种端到端多唤醒词的识别系统
US11967322B2 (en) 2021-05-06 2024-04-23 Samsung Electronics Co., Ltd. Server for identifying false wakeup and method for controlling the same
KR20220151504A (ko) * 2021-05-06 2022-11-15 삼성전자주식회사 오호출을 식별하는 서버 및 이의 제어 방법
CN113421558A (zh) * 2021-08-25 2021-09-21 北京新河科技有限公司 一种语音识别系统及方法
CN113793610A (zh) * 2021-09-10 2021-12-14 北京源来善尚科技有限公司 一种语音控制物业管理的方法、系统、设备及介质
EP4198970A1 (en) * 2021-12-20 2023-06-21 Samsung Electronics Co., Ltd. Computer implemented method for determining false positives in a wakeup-enabled device, corresponding device and system
CN117012206B (zh) * 2023-10-07 2024-01-16 山东省智能机器人应用技术研究院 一种人机语音交互系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP4496378B2 (ja) * 2003-09-05 2010-07-07 財団法人北九州産業学術推進機構 定常雑音下における音声区間検出に基づく目的音声の復元方法
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4835911B2 (ja) * 2005-07-28 2011-12-14 日本電気株式会社 音声入力装置、方法、プログラム及び無線通信装置
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
JP4809454B2 (ja) * 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
CN103811003B (zh) * 2012-11-13 2019-09-24 联想(北京)有限公司 一种语音识别方法以及电子设备
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
CN105096946B (zh) * 2014-05-08 2020-09-29 钰太芯微电子科技(上海)有限公司 基于语音激活检测的唤醒装置及方法
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN104464723B (zh) * 2014-12-16 2018-03-20 科大讯飞股份有限公司 一种语音交互方法及系统
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN105912092B (zh) * 2016-04-06 2019-08-13 北京地平线机器人技术研发有限公司 人机交互中的语音唤醒方法及语音识别装置
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Also Published As

Publication number Publication date
WO2018059405A1 (zh) 2018-04-05
US20200027462A1 (en) 2020-01-23
CN106157950A (zh) 2016-11-23
JP6801095B2 (ja) 2020-12-16
KR20190052144A (ko) 2019-05-15
EP3522153A1 (en) 2019-08-07
JP2019533193A (ja) 2019-11-14
EP3522153B1 (en) 2023-12-27
EP3522153A4 (en) 2019-10-09

Similar Documents

Publication Publication Date Title
KR102335717B1 (ko) 음성 제어 시스템 및 그 웨이크업 방법, 웨이크업 장치 및 가전제품, 코프로세서
CN106448663B (zh) 语音唤醒方法及语音交互装置
US9775113B2 (en) Voice wakeup detecting device with digital microphone and associated method
CN107622770B (zh) 语音唤醒方法及装置
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN108231079B (zh) 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
CN105704298A (zh) 声音唤醒侦测装置与方法
CN105009204B (zh) 语音识别功率管理
US8972252B2 (en) Signal processing apparatus having voice activity detection unit and related signal processing methods
TWI581180B (zh) 語音控制裝置和語音控制方法
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
JP2008009120A (ja) リモートコントローラ並びに家電機器
US20190228773A1 (en) Speech interaction method, apparatus and computer readable storage medium
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
US11848006B2 (en) Method of switching a circuit from an idle state to an active state based on a trigger signal from am always-on circuit
CN111429901A (zh) 一种面向IoT芯片的多级语音智能唤醒方法及系统
CN112951243A (zh) 语音唤醒方法、装置、芯片、电子设备及存储介质
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN111654782B (zh) 一种智能音箱及信号处理方法
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
CN111179924A (zh) 一种基于模式切换的唤醒性能优化的方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant