KR20200084457A - 가전기기 및 이의 음성 인식 방법 - Google Patents

가전기기 및 이의 음성 인식 방법 Download PDF

Info

Publication number
KR20200084457A
KR20200084457A KR1020180170454A KR20180170454A KR20200084457A KR 20200084457 A KR20200084457 A KR 20200084457A KR 1020180170454 A KR1020180170454 A KR 1020180170454A KR 20180170454 A KR20180170454 A KR 20180170454A KR 20200084457 A KR20200084457 A KR 20200084457A
Authority
KR
South Korea
Prior art keywords
noise
data
voice data
voice
home appliance
Prior art date
Application number
KR1020180170454A
Other languages
English (en)
Other versions
KR102569365B1 (ko
Inventor
이록행
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180170454A priority Critical patent/KR102569365B1/ko
Priority to EP19902192.4A priority patent/EP3837683B1/en
Priority to CN201980073746.6A priority patent/CN112955952A/zh
Priority to PCT/KR2019/018110 priority patent/WO2020138843A1/en
Priority to US16/726,002 priority patent/US11355105B2/en
Publication of KR20200084457A publication Critical patent/KR20200084457A/ko
Priority to US17/832,824 priority patent/US20220301555A1/en
Application granted granted Critical
Publication of KR102569365B1 publication Critical patent/KR102569365B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

가전기기가 개시된다. 개시된 가전기기는, 하우징의 표면에 배치되는 제1 마이크, 하우징 내부에 배치되는 제2 마이크 및 제1 마이크로부터 획득된 제1 음성 데이터에 대한 신호 처리를 수행하고, 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행하는 프로세서를 포함하고, 프로세서는, 제2 마이크로부터 획득된 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하고, 생성된 노이즈 데이터를 이용하여 제1 음성 데이터에 대한 신호 처리를 수행한다.

Description

가전기기 및 이의 음성 인식 방법{HOME APPLIANCE AND METHOD FOR VOICE RECOGNITION THEREOF}
본 개시는 가전기기 및 이의 음성 인식 방법에 관한 것으로, 보다 상세하게는 자체적으로 발생시키는 소음을 추정하고, 추정한 소음을 저감하여 음성 인식률을 높이는 가전기기 및 이의 음성 인식 방법에 관한 것이다.
가전기기는 사용자의 제어 명령에 따라 다양한 기능을 수행할 수 있다. 최근의 가전기기는 키패드, 리모컨 등의 입력 장치를 통하여 제어 명령을 입력받는 것뿐만 아니라, 사용자 음성을 통하여 제어 명령을 입력받는 음성 인식 기능이 채용되고 있다.
특히, 사용자가 특정 시작 명령어(예를 들어, 빅스비)를 발화하면, 특정 시작 명령어에 반응하여 음성 인식 기능을 활성화하는 방법이 적용된 가전기기가 확대되고 있다.
한편, 일부 가전기기, 예를 들어 로봇 청소기나 세탁기 등은 자체적으로 큰 소음을 발생시킬 수 있다. 이러한 큰 소음은 종래의 노이즈 제거 방식으로는 처리하기 어려웠다.
따라서 자체적으로 큰 소음을 발생시키는 가전기기에도 적용될 수 있는 잡음 제거 방법에 대한 필요성이 증대되었다.
본 개시의 목적은 자체적으로 발생시키는 소음을 추정하고, 추정한 소음을 저감하여 음성 인식률을 높이는 가전기기 및 이의 음성 인식 방법을 제공하는 데 있다.
본 개시의 일 실시 예에 따른 모터를 포함하는 가전기기는, 상기 하우징의 표면에 배치되는 제1 마이크, 상기 하우징 내부에 배치되는 제2 마이크 및 상기 제1 마이크로부터 획득된 제1 음성 데이터에 대한 신호 처리를 수행하고, 상기 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행하는 프로세서를 포함하고, 상기 프로세서는, 상기 제2 마이크로부터 획득된 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하고, 상기 생성된 노이즈 데이터를 이용하여 상기 제1 음성 데이터에 대한 신호 처리를 수행할 수 있다.
한편, 본 개시의 일 실시 예에 따른 가전기기의 음성 인식 방법은, 하우징의 표면에 배치되는 제1 마이크로부터 제1 음성 데이터를 획득하는 단계, 상기 하우징 내부에 배치되는 제2 마이크로부터 제2 음성 데이터를 획득하는 단계, 상기 제1 마이크로부터 획득된 제1 음성 데이터에 대한 신호 처리를 수행하는 단계, 상기 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행하는 단계를 포함하고, 상기 신호 처리를 수행하는 단계는, 상기 제2 마이크로부터 획득된 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하는 단계 및 상기 생성된 노이즈 데이터를 이용하여 상기 제1 음성 데이터에 대한 신호 처리를 수행하는 단계를 포함할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 가전기기의 간단한 구성을 설명하기 위한 블록도,
도 2는 본 개시의 일 실시 예에 따른 가전기기의 구체적인 구성을 도시한 블록도,
도 3 및 도 4는 제1 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면,
도 5 내지 도 7은 제2 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면,
도 8 내지 도 10은 제3 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면, 그리고,
도 11은 본 개시의 일 실시 예에 따른 가전기기의 음성 인식 방법을 설명하기 위한 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시 예에 따른 가전기기의 간단한 구성을 설명하기 위한 블록도이다.
도 1을 참조하면, 가전기기(100)는 제1 마이크(110), 제2 마이크(120) 및 프로세서(130)로 구성될 수 있다.
가전기기(100)는 가정에서 사용하는 전기 기계 기구로, 로봇 청소기, 진공 청소기, 전기 레인지, 가스 레인지, 전파 오븐기, 레인지 후드, 세탁기, 건조기, 냉장고, 식기 세척기, 에어컨 등일 수 있다. 이러한 가전기기(100)는 고유의 기능을 수행하는 과정 중에 진동과 소음을 발생시킬 수 있다.
그리고 가전기기(100)는 음성 인식 기능을 수행하고, 음성 인식 결과에 따른 기능을 수행할 수 있는 장치이다. 여기서, 음성 인식이란 입력된 음성의 음향학적 신호를 단어나 문장으로 변환시키는 기술을 의미한다.
그리고 가전기기(100)는 사용자 발화 음성을 감지하고, 감지한 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 가전기기(100)는 음성 인식 기능을 활성화하는 트리거 음성 명령인 시작 명령어(Wake Up Word, WUW)를 감지하면, 음성 인식 기능을 활성화하고, 이후에 입력된 음성에 대한 음성 데이터를 이용하여 음성 인식을 수행할 수 있다. 그리고 음성 인식 기능을 위해 가전기기(100)는 마이크를 구비할 수 있다.
마이크(110, 120)는 소리를 소리 신호로 바꾸는 장치로, 사용자의 발화 음성 및 주변의 소리 등을 음성 신호로 출력할 수 있다. 본 실시 예에 따른 가전기기(100)는 복수의 마이크(110, 120)를 포함할 수 있다. 예를 들어, 가전기기(100)는 제1 마이크(110)와 제2 마이크(120)를 포함할 수 있다.
한편, 본 개시에서는 가전기기(100)가 두 개의 마이크를 포함하는 것으로 도시하고 설명하였으나, 구현시에 가전기기(100)는 세 개 이상의 마이크를 포함할 수도 있다.
제1 마이크(110)는 하우징의 표면에 배치된다. 구체적으로, 제1 마이크(110)는 사용자의 발화 음성을 수집하기 위하여, 하우징의 표면에 배치되어 가전기기(100) 주변의 소리에 대응되는 제1 음성 데이터를 생성할 수 있다.
제2 마이크(120)는 하우징 내부에 배치된다. 구체적으로 제2 마이크(110)는 가전기기(100) 자체에서 발생하는 노이즈 소리를 수집하기 위하여, 하우징 내부(구체적으로, 모터 등 노이즈를 발생하는 잡음원(Noise Source) 주변)에 배치되어 가전기기(100)가 생성하는 소리에 대응되는 제2 음성 데이터를 생성할 수 있다.
프로세서(130)는 가전기기(100)를 제어한다. 구체적으로, 프로세서(130)는 사용자의 제어 명령에 따라 가전기기(100)의 각 구성을 제어할 수 있다. 예를 들어, 가전기기(100)가 세탁기인 경우, 프로세서(130)는 탈수 명령을 수신하면 세탁물을 수용하는 드럼에 회전력을 제공하도록 모터의 동작을 제어할 수 있다
그리고 프로세서(130)는 제1 마이크(110)를 통해 획득한 제1 음성 데이터를 이용하여 음성 인식을 수행할 수 있다. 한편, 제1 음성 데이터에는 사용자의 음성뿐만 아니라 잡음이 포함될 수 있으며, 포함된 잡음에 의해 음성 인식률이 떨어질 수 있다.
따라서 프로세서(130)는 제1 음성 데이터에 대한 전처리(Pre-Processing)를 수행할 수 있다. 여기서 전처리란, 음성 인식 이전에 수행되는 일련의 신호 처리로, 음성 데이터에 포함된 잡음을 제거할 수 있다.
이때 프로세서(130)의 제1 음성 데이터에 대한 전처리 동작은 제2 음성 데이터를 이용하여 수행될 수 있다. 구체적으로, 프로세서(130)는 제2 음성 데이터를 이용하여 가전기기(100) 내 잡음원의 순수한 소음에 대응되는 소리 데이터인 노이즈 데이터를 생성하고, 생성한 노이즈 데이터를 이용하여 제1 음성 데이터에 포함된 잡음을 제거함으로써 전처리를 수행할 수 있다.
상술한 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하는 동작은 제2 음성 데이터가 갖는 특성들에 기초한다. 구체적으로, 제2 음성 데이터는, 제2 마이크(120)가 배치된 위치로 인해, 제1 음성 데이터에 포함된 잡음원의 소음보다 크기가 큰 잡음원의 소음을 포함하는 특성을 갖는다.
또한, 제2 음성 데이터에도 사용자 발화 음성 및 기타 잡음이 포함될 수 있으나, 제2 음성 데이터는 잡음원 인근에 배치된 제2 마이크(120)를 통해 획득된 데이터인바, 제2 음성 데이터에 포함된 사용자 발화 음성 및 기타 잡음은 잡음원의 소음에 비해 상대적으로 작은 크기를 가질 가능성이 높다는 특성을 갖는다.
이러한 특성들로 인해 제2 음성 데이터를 이용하면 제1 음성 데이터를 이용하는 경우에 비해 잡음원의 소음에 대응되는 성분을 보다 정확하게 추출할 수 있다.
그리고 프로세서(130)는 노이즈 데이터를 생성하기 위해 잡음 경로 추정 필터를 이용할 수 있다. 여기서 잡음 경로 추정 필터란, 제2 음성 데이터에 포함된 잡음원 소음 외의 나머지 성분을 필터링하는 필터를 의미한다. 이때, 잡음 경로 추정 필터는 필터링 알고리즘으로 지칭될 수 있다.
예를 들어, 제2 음성 데이터가 잡음 경로 추정 필터에 입력되면, 제2 음성 데이터에 포함된 사용자 발화 성분이 필터링 되어, 노이즈 데이터가 출력될 수 있다. 한편, 잡음 경로 추정 필터를 이용하여 노이즈 데이터를 생성하는 구체적인 동작은 도 3 내지 도 7과 관련하여 후술한다.
그리고 프로세서(130)는 잡음 경로 추정 필터를 통해 생성한 노이즈 데이터를 이용하여, 제1 음성 데이터에서 잡음원의 소음에 대응되는 성분을 제거함으로써, 제1 음성 데이터에 대한 전처리를 수행할 수 있다.
종래에는 전처리를 위해, 복수의 마이크를 통해 음성과 잡음이 포함된 복수의 음성 신호를 획득하고, 음성 및 잡음 각각이 입사되는 방향 및 주파수 스펙트럼이 다른 특징을 이용하여 음성과 잡음을 분리함으로써 잡음을 제거하는 빔포밍 기술을 이용하였다.
그러나 실제 환경에서 잡음의 크기가 음성의 크기에 비해 더욱 큰 경우에는 기대하는 방향성 차이나 스펙트럼 차이를 확인하기 어려워, 종래의 방식으로는 음성과 잡음의 구분이 어렵다는 문제점이 있었다. 예를 들어, 자체적으로 큰 소음을 발생시키는 가전기기의 경우 소음의 크기가 사용자의 발화 음성의 크기에 비해 크므로 종래기술만으로는 음성 인식을 위한 충분한 잡음 제거가 어려웠다.
그러나 본 개시에서는 잡음원 인근 또는 잡음원에서 하우징 표면에 배치된 마이크까지의 경로 상에 배치된 마이크를 이용하여 제2 음성 데이터를 획득하고, 획득한 제2 음성 데이터를 이용하여 전처리를 수행하는바, 가전기기 내부에 잡음원이 존재하며 그 소음이 큰 경우에도 잡음원의 소음에 대한 정보를 명확히 파악하여, 음성 데이터로부터 잡음을 정확히 제거할 수 있는 효과를 갖는다.
한편, 이상에서는 전자 장치를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.
도 2는 본 개시의 일 실시 예에 따른 가전기기의 구체적인 구성을 도시한 블록도이다.
도 2를 참조하면, 본 개시의 일 실시 예에 따른 가전기기(100)는 제1 마이크(110), 제2 마이크(120), 프로세서(130), 모터(140), 가속도계(150), 입력 장치(160), 통신 장치(170), 메모리(180) 및 디스플레이(190)으로 구성될 수 있다.
제1 마이크(110) 및 제2 마이크(120)는 도 1의 구성과 동일한 기능을 수행하는바 중복 설명은 생략한다. 그리고 프로세서(130)에 대해서도 도 1과 관련하여 설명하였는바, 도 1에서 설명한 내용은 중복 기재하지 않고, 도 2에 추가된 구성과 관련된 내용만 이하에서 설명한다.
모터(140)는 가전기기(100) 내에 배치되어 가전기기(100)의 기능 수행과 관련된 구성을 구동시킨다. 예를 들어, 가전기기(100)가 세탁기인 경우, 모터(140)는 세탁물의 탈수를 위해 세탁물을 수용하는 드럼을 고속으로 회전시킬 수 있다. 이때 모터(140)가 드럼을 기동시키는 과정에서 진동과 소음이 유발될 수 있다.
또 다른 예로, 가전기기(100)가 냉장고인 경우, 모터(140)는 냉매를 생성하는 냉매 압축기를 기동시킬 수 있다. 이때 모터(140)가 냉매 압축기를 기동시키는 과정에서 진동과 소음이 유발될 수 있다.
이와 같이 모터(140)는 가전기기가 자체적으로 큰 소음을 발생시키는 경우에서의 잡음원에 해당될 수 있다. 따라서 제2 마이크(120)는 모터(140)의 인근 또는 모터(140)에서 제1 마이크(110)까지의 경로 상에 배치되어 모터(140)에서 발생하는 소리를 감지하고, 그에 대응되는 제2 음성 데이터를 생성할 수 있다.
그리고 프로세서(130)는 잡음 경로 추정 필터를 이용하여 제2 음성 데이터로부터 모터(140)의 소음에 대응되는 성분을 추출한 데이터인 노이즈 데이터를 생성할 수 있다. 그리고 생성한 노이즈 데이터를 이용하여 제1 음성 데이터에서 모터(140)의 소음에 대응되는 성분을 제거함으로써 제1 음성 데이터에 대한 전처리를 수행할 수 있다.
이와 같이, 프로세서(130)는 참조 데이터(구체적으로, 제2 음성 데이터)를 이용하여 잡음원의 소음에 대응되는 노이즈 데이터를 생성할 수 있다. 한편, 프로세서(130)는 제2 음성 데이터가 아닌 상이한 참조 데이터를 이용하여 잡음원의 소음에 대응되는 노이즈 데이터를 생성하는 것도 가능하다.
여기서 참조 데이터는 잡음원의 정보를 포함하는 데이터면 족하다. 그리고 잡음원의 정보란, 잡음원에서 발생하는 진동의 크기 및 위상, 잡음원에서 발생하는 소음의 크기 및 위상, 주요 주파수 정보 등을 포함한다.
예를 들어, 프로세서(130)는 가속도계(150)를 통해 참조 데이터를 획득하거나 입력 장치(160)를 통해 입력된 제어 명령을 통해 참조 데이터를 획득하여 노이즈 데이터를 생성할 수 있다. 이에 대한 구체적인 동작은 이하에서 설명한다.
가속도계(150)는 물체의 가속도를 측정하는 장치이다. 그리고 가속도계(150)는 모터(140)의 인근에 배치되어 모터(140)의 가속도를 측정하고, 측정된 가속도에 대한 정보를 생성할 수 있다.
그리고 프로세서(130)는 획득한 가속도 정보로부터 모터(140)의 동작 주파수를 추출하고, 추출한 동작 주파수를 이용하여 참조 데이터를 생성할 수 있다.
예를 들어, 가속도계(150)로부터 획득한 가속도 정보로부터 모터(140)의 동작 주파수로 50Hz를 추출한 경우, 프로세서(130)는 50Hz를 이용하여 특정 크기 및 위상을 갖는 삼각함수로 표현되는 참조 데이터를 생성할 수 있다.
입력 장치(160)는 가전기기(100)에서 지원하는 각종 기능을 사용자가 설정 또는 선택할 수 있는 다수의 기능키를 구비할 수 있다. 이를 통하여 사용자는 가전기기(100)에 대한 각종 제어 명령을 입력할 수 있다. 예를 들어, 가전기기(100)가 세탁기인 경우, 사용자는 입력 장치(160)를 통해 세탁기의 탈수 명령을 입력할 수 있다.
한편, 입력 장치(160)를 통해 입력되는 제어 명령은 모터(140)의 구동과 관련될 수 있다. 이 경우, 입력 장치(160)를 통해 입력되는 제어 명령에 대응되는 모터(140)의 동작 주파수를 확인할 수 있다.
예를 들어, 가전기기(100)가 세탁기이고, 탈수 명령이 입력된 경우, 모터(140)는 탈수 기능을 수행하기 위해 세탁기의 드럼을 회전시킬 수 있다. 이 경우, 탈수 명령에 대응되는 모터(140)의 동작 주파수는 50Hz인 것을 확인할 수 있다.
그리고 프로세서(130)는 제어 명령에 대응되는 모터(140)의 동작 주파수를 이용하여 참조 데이터를 생성할 수 있다.
한편, 입력 장치(160)에 입력된 제어 명령뿐만 아니라 프로세서(130)가 상황 판단에 따라 자체적으로 생성한 제어 명령에 대해서도 동일하게 적용될 수 있다.
이와 같이, 제2 마이크(120)를 통해 획득한 제2 음성 데이터, 가속도계(150)의 가속도 정보 또는 제어 명령으로부터 확인한 구동 주파수를 이용해 생성한 참조 데이터 중 적어도 하나를 이용하여 노이즈 데이터를 생성할 수 있다. 그리고 노이즈 데이터를 이용하여 제1 음성 데이터에 대한 전처리를 수행할 수 있다.
한편, 프로세서(130)는 모터(140)의 구동 여부에 따라 제1 음성 데이터에 대한 전처리 방식을 변경할 수 있다.
구체적으로, 프로세서(130)는 모터(140)가 구동하고 있는 경우, 가전기기(100)에서 자체적으로 발생하는 소음이 크므로, 상술한 방식에 따라 참조 데이터를 이용하여 제1 음성 데이터에 대한 전처리를 수행할 수 있다.
반면, 프로세서(130)는 모터(140)가 구동하고 있지 않는 경우, 가전기기(100)에서 자체적으로 발생하는 소음이 없으므로, 참조 데이터를 이용하지 않고 제1 음성 데이터를 이용하여 바로 음성 인식을 수행하거나, 종래의 방식에 따라 제1 음성 데이터에 대한 전처리를 수행한 후 음성 인식을 수행할 수 있다.
한편, 도 2에서는 잡음원이 모터(140)인 것을 가정하고 있으나, 잡음원이 모터(140)가 아닌 압축기, 팬 등에 해당하는 경우에도, 동일하게 잡음원의 구동 여부에 따라 제1 음성 데이터에 대한 전처리 방식을 변경할 수 있다.
통신 장치(170)는 외부 장치(미도시)와 연결되며, 외부 장치로부터 각종 데이터를 수신할 수 있다. 구체적으로 통신 장치(170)는 근거리 통신망(LAN: Local Area Network) 및 인터넷망을 통해 외부 장치에 접속되는 형태뿐만 아니라, USB(Universal Serial Bus) 포트 또는 무선 통신(예를 들어, WiFi 802.11a/b/g/n, NFC, Bluetooth) 포트를 통하여 접속되는 형태도 가능하다. 여기서 외부 장치는 PC, 노트북, 스마트폰, 서버 등일 수 있다.
그리고 통신 장치(170)는 외부 장치로부터 노이즈 데이터를 생성하는데 필요한 잡음 경로 추정 필터를 수신할 수 있다. 그리고 프로세서(130)는 수신한 잡음 경로 추정 필터를 이용하여 노이즈 데이터를 생성할 수 있다.
한편, 외부 장치로부터 잡음 경로 추정 필터를 수신하는 동작에 대한 구체적인 설명은 도 8과 관련하여 후술한다.
메모리(180)는 프로세서(130)의 처리 또는 제어를 위한 프로그램 등 가전기기(100) 전반의 동작을 위한 다양한 데이터를 저장한다. 구체적으로, 메모리(180)는 가전기기(100)에서 구동되는 다수의 응용 프로그램, 가전기기(100)의 동작을 위한 데이터 및 명령어들을 저장할 수 있다.
예를 들어, 메모리(180)는 입력 장치(160)를 통해 입력된 제어 명령에 대응되는 모터(140)의 구동 주파수 정보를 저장할 수 있다. 그리고 프로세서(130)는 입력된 제어 명령에 대응되는 구동 주파수를 확인하고, 확인된 구동 주파수를 이용하여 참조 데이터를 생성할 수 있다.
그리고 메모리(180)는 프로세서(130)에 의해 액세스 되며, 프로세서(130)에 의한 데이터 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 이러한 메모리(180)는 가전기기(100) 내의 저장매체뿐만 아니라, 외부 저장 매체, USB 메모리를 포함한 Removable Disk, 네트워크를 통한 웹서버(Web server) 등으로 구현될 수 있다.
그리고 메모리(180)는 노이즈 데이터를 생성하는데 필요한 잡음 경로 추정 필터를 저장할 수 있다.
디스플레이(190)는 가전기기(100)에서 제공되는 각종 정보를 표시할 수 있다. 구체적으로, 디스플레이(190)는 가전기기(100)의 동작 상태를 표시하거나, 사용자가 선택한 기능 및 옵션 선택을 위한 사용자 인터페이스 창을 표시할 수 있다.
예를 들어, 가전기기(100)가 세탁기인 경우, 디스플레이(190)는 세탁기가 탈수 동작을 수행하고 있음을 표시하거나, 사용자가 탈수 기능을 몇 분 동안 동작할 것인지 선택할 수 있도록 인터페이스 창을 표시할 수 있다.
한편, 도 2를 도시하고 설명함에 있어서, 잡음원이 모터인 것으로 도시하고 설명하였으나, 구현시에는 모터 외의 다른 구성이 잡음원에 해당될 수 있으며, 노이즈 데이터 또한 다른 구성으로부터 발생한 소음에 대한 정보를 의미할 수 있다.
또한, 도 2를 도시하고 설명함에 있어서, 하나의 모터를 구비하는 것으로 도시하고 설명하였으나, 구현시에는 복수의 모터를 구비할 수 있으며, 복수의 모터 각각에 대한 참조 데이터를 이용하여 소음을 추정할 수 있다.
또한, 도 2를 도시하고 설명함에 있어서, 가전기기가 제2 마이크 및 가속도계를 모두 구비하는 것으로 도시하고 설명하였으나, 구현시에는 가속도계만을 구비할 수 있으며, 가속도계를 통해 획득한 참조 데이터를 이용하여 소음을 추정할 수 있다. 또는, 제2 마이크 및 가속도계를 모두 구비하지 않을 수 있으며, 입력 장치를 통해 획득한 참조 데이터를 이용하여 소음을 추정할 수 있다.
또한, 도 2를 도시하고 설명함에 있어서, 모터의 동작 주파수를 이용하여 참조 데이터를 생성하는 동작을 프로세서가 수행하는 것으로 도시하고 설명하였으나, 구현시에는 동작 주파수 정보를 입력받아 정현파 신호를 생성하는 정현파 신호 생성기(미도시)를 구비할 수 있다. 이 경우, 정현파 신호 생성기에서 생성된 신호가 참조 데이터로써 이용될 수 있다.
종래에는 복수의 마이크를 통해 음성과 잡음이 포함된 복수의 음성 신호를 획득하고, 음성 및 잡음 각각이 입사되는 방향 및 주파수 스펙트럼이 다른 특징을 이용하여 음성과 잡음을 분리함으로써 잡음을 제거하는 빔포밍 기술을 이용하여 음성 데이터에 대한 전처리를 수행하였다.
그러나 잡음의 크기가 음성의 크기에 비해 더욱 큰 경우에는 기대하는 방향성 차이나 스펙트럼 차이를 확인하기 어려워 종래의 방법을 적용하기 어렵다는 문제점이 있었다.
반면, 상술한 바와 같이 본 실시 예에 따른 가전기기는 마이크 또는 가속도계를 이용하여 잡음원의 정보를 포함하는 참조 데이터를 획득하고, 획득한 참조 데이터를 이용하여 소음을 추정하고, 음성 데이터에 포함된 소음을 저감하는 방식으로 전처리를 수행한다는 점에서, 본 실시 예에 따른 가전기기는 자체적으로 큰 소음을 발생시키는 경우에도 잡음을 명확히 파악할 수 있고, 음성 데이터로부터 잡음을 정확히 제거할 수 있는바, 높은 음성 인식률을 가질 수 있다.
도 3 및 도 4는 제1 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 참조 데이터(r), 음성 데이터(d) 및 잡음 추정 알고리즘을 이용하여 노이즈 데이터(y)를 생성하고, 생성된 노이즈 데이터(y)를 이용하여 음성 데이터(d)의 잡음을 제거하는 것을 확인할 수 있다.
여기서 참조 데이터(r)는 제2 마이크(120)를 통해 획득한 제2 음성 데이터, 가속도계(150)의 가속도 정보 또는 제어 명령으로부터 확인한 구동 주파수를 이용해 생성한 참조 데이터 중 적어도 하나에 해당할 수 있다.
그리고 음성 데이터(d)는 도 1의 제1 마이크(110)에서 획득한 제1 음성 데이터에 대응될 수 있다.
프로세서(130)는 잡음 추정 알고리즘 및 참조 데이터(r)를 이용하여 노이즈 데이터(y)를 생성할 수 있다. 구체적으로, 프로세서(130)는 잡음 추정 알고리즘에 포함된 잡음 경로 추정 필터 정보를 이용하여 참조 데이터(r)로부터 잡음원 소음에 대응되는 소리 데이터인 노이즈 데이터(y)를 추출할 수 있다.
그리고 잡음 경로 추정 필터는 시간영역 상에서의 FIR(Finite Impulse Response) 필터 또는 IIR(Infinite Impulse Response) 필터로 구현될 수 있다. 또는, 잡음 경로 추정 필터는 주파수 영역 상에서 주파수 대역별로 기설정된 전달함수의 형태로도 구현될 수 있다.
그리고 잡음 경로 추정 필터는 상술한 예와 같이 선형적 구조를 가질 수 있으나, 이에 한정되지 않으며, 비선형적 구조를 가질 수 있다.
이러한 잡음 경로 추정 필터는 하나로 고정되어 사용될 수 있으며, 복수의 잡음 경로 필터 정보가 기저장된 경우에는 상황에 따라 복수의 잡음 경로 추정 필터 중 하나가 선택되어 노이즈 데이터(y)를 생성하는데 사용될 수 있다.
그리고 프로세서(130)는 생성한 노이즈 데이터(y)를 이용하여 음성 데이터(d)에 포함된 잡음원의 소음에 대응되는 성분을 제거함으로써 음성 데이터(d)에 대한 전처리를 수행할 수 있다. 그리고 프로세서(130)는 전처리를 수행하여 잡음이 제거된 음성 데이터(e)를 이용하여 음성 인식을 수행할 수 있다.
한편, 프로세서(130)는 잡음원의 소음이 변경되거나 주변 환경이 변경되더라도 정확한 노이즈 데이터(y)를 생성할 수 있도록 음성 데이터(d)를 이용하여 노이즈 데이터(y)의 생성 방식을 업데이트 할 수 있다.
구체적으로, 프로세서(130)는 전처리를 수행한 이후에 음성 데이터(d)를 이용하여 잡음 경로 필터를 업데이트할 수 있으며, 이에 대한 구체적인 설명은 도 4와 관련하여 이하에서 설명한다.
도 4를 참조하면, 주파수 영역 상에서의 잡음 경로 필터(H)를 이용하고, 잡음이 포함된 음성 데이터(d)를 이용하여 업데이트를 수행하는 잡음 추정 알고리즘을 확인할 수 있다.
프로세서(130)는 FFT(Fast Fourier Transform)를 이용하여 참조 데이터(r)를 주파수 영역으로 변환할 수 있다. 그리고 프로세서(130)는 변환된 참조 데이터(R)를 잡음 경로 추정 필터(H)에 적용하여 주파수 영역으로 변환된 노이즈 데이터(Y, Y=R·H)를 획득할 수 있다. 그리고 프로세서(130)는 IFFT(Inverse Fast Fourier Transform)를 이용하여 노이즈 데이터(Y)를 시간 영역으로 변환할 수 있다. 그리고 프로세서(130)는 변환된 노이즈 데이터(y)를 음성 데이터(d)의 잡음을 제거하는데 이용할 수 있다.
한편, 프로세서(130)는 전처리를 수행한 이후, 잡음이 혼합된 음성 데이터(d)를 이용하여 잡음 경로 추정 필터(H)를 업데이트할 수 있다. 구체적으로, 프로세서(130)는 잡음이 포함된 음성 데이터(d)가 FFT를 거쳐 주파수 영역으로 변환된 음성 데이터(D)와 변환된 참조 데이터(R)의 상관관계를 이용하여 잡음 경로 추정 필터(H)를 업데이트할 수 있다.
예를 들어, k-1번째 잡음 경로 추정 필터를 H(k-1), 이후 k번째 잡음이 포함된 음성 데이터를 d(k), k번째 참조 데이터를 r(k), k번째 주파수 영역으로 변환된 음성 데이터를 D(k), k번째 주파수 영역으로 변환된 참조 데이터를 R(k)로 가정할 수 있다. 이 경우, k번째 변환된 참조 데이터 R(k)의 Auto Correlation 값인 GRR(k) 및 k번째 참조 데이터 R(k)와 음성 데이터 D(k)의 Cross Correlation 값인 GDR(k)의 역행렬을 곱하여 새로운 잡음 경로 추정 필터(H(k), H(k)= GRR(k)·GDR(k) (-1))를 생성할 수 있다.
여기서, GRR(k) 은 GRR(k) = (1-λ) · GRR(k-1) +λ· R(k)· R(k) H (R(k) H은 참조 데이터(R(k))의 Hermitian 행렬), GDR(k) = (1-λ)·GDR(k-1) +λ·D(k)·R(k) H이다.
그리고 λ값은 시스템에 따라 정해지는 상수를 사용하거나, 알고리즘의 안정성을 위해 가변하여 사용할 수 있다. 예를 들어, 가변하여 사용하는 경우, k번째의 λ값은 λ(k) = α·(ef (k)/(1+ef (k))일 수 있다. 그리고 f(k) = β·sqrt(V(k) - |M(k)|2) / |M(k)|, M(k) = (1-γ)·M(k-1)+ γ ·D(k), V(k) = (1-γ)·V(k-1)+γ·D(k)·
Figure pat00001
(α, β 및 γ는 상수)으로 구현될 수 있다.
그리고 프로세서(130)는 k+1번째 참조 데이터(r(k+1) 및 음성 데이터(d(k+1))를 획득하면 업데이트된 새로운 잡음 경로 추정 필터(H(k))를 이용하여 다음 참조 데이터로부터 노이즈 데이터(y(k+1))를 생성하고, 생성한 노이즈 데이터(y(k+1))를 이용하여 음성 데이터(d(k+1))로부터 노이즈를 제거할 수 있다.
한편, 잡음 경로 추정 필터(H)를 업데이트하는 방법은 상술한 예에 한하지 않는다. 예를 들어, 상술한 예에서는 잡음이 포함된 음성 데이터 및 참조 데이터를 획득할 때마다 업데이트를 수행하였으나, 기설정된 개수의 잡음이 포함된 음성 데이터 및 참조 데이터를 획득하면 업데이트를 수행하는 방식으로도 구현할 수 있다. 이 경우, 기설정된 개수의 잡음이 포함된 음성 데이터 및 참조 데이터를 함께 이용하여 업데이트를 수행할 수 있다.
또한, 도 3 및 도 4를 도시하고 설명함에 있어서, 프로세서(130)가 잡음이 포함된 음성 데이터(d)에 대한 전처리를 수행한 이후 잡음 경로 추정 필터를 업데이트하는 것으로 도시하고 설명했으나, 구현시에는 잡음 경로 추정 필터를 먼저 업데이트한 후 잡음이 포함된 음성 데이터(d)에 대한 전처리를 수행하는 방식으로 구현할 수도 있다.
도 5 내지 도 7은 제2 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 참조 데이터(r), 잡음이 제거된 음성 데이터(e) 및 잡음 추정 알고리즘을 이용하여 노이즈 데이터(y)를 생성하고, 생성된 노이즈 데이터(y)를 이용하여 음성 데이터(d)의 잡음을 제거하는 것을 확인할 수 있다.
여기서 참조 데이터(r)는 제2 마이크(120)를 통해 획득한 제2 음성 데이터, 가속도계(150)의 가속도 정보 또는 제어 명령으로부터 확인한 구동 주파수를 이용해 생성한 참조 데이터 중 적어도 하나에 해당할 수 있다.
그리고 음성 데이터(d)는 도 1의 제1 마이크(110)에서 획득한 제1 음성 데이터에 대응될 수 있다.
프로세서(130)는 잡음 추정 알고리즘에 포함된 잡음 경로 추정 필터 정보를 이용하여 참조 데이터(r)로부터 잡음원 소음에 대응되는 소리 데이터인 노이즈 데이터(y)를 추출할 수 있다.
그리고 프로세서(130)는 생성한 노이즈 데이터(y)를 이용하여 음성 데이터(d)에 포함된 잡음원의 소음에 대응되는 성분을 제거함으로써 음성 데이터(d)에 대한 전처리를 수행할 수 있다.
그리고 프로세서(130)는 전처리를 수행하여 잡음이 제거된 음성 데이터(e)를 이용하여 음성 인식을 수행할 수 있다. 상술한 프로세서(130)의 일련의 동작은 도 3에서의 프로세서의 동작과 동일함을 알 수 있다. 또한, 잡음 추정 필터의 구성도 앞선 도 3의 구성과 동일한 바, 중복 설명은 생략한다.
도 5의 제2 실시 예와 도 3의 제1 실시 예의 차이점은 잡음 경로 추정 필터를 업데이트하는 방법에 있다. 구체적으로, 제2 실시 예에서, 프로세서(130)는 잡음이 포함된 음성 데이터가 아닌, 잡음이 제거된 음성 데이터를 이용하여 노이즈 데이터의 생성 방식을 업데이트 할 수 있다. 이에 대한 구체적인 설명은 도 6 및 도 7과 관련하여 이하에서 설명한다.
도 6을 참조하면, 시간 영역 상에서 FIR 필터인 잡음 경로 필터를 이용하고, 잡음이 제거된 음성 데이터를 이용하여 업데이트를 수행하는 잡음 추정 알고리즘을 확인할 수 있다.
프로세서(130)는 참조 데이터(r)를 시간 영역 상의 잡음 경로 추정 필터(h)에 적용하여 노이즈 데이터(y, y=h*r)를 획득할 수 있다. 그리고 프로세서(130)는 노이즈 데이터(y)를 이용하여 음성 데이터(d)의 잡음을 제거하고, 잡음이 제거된 음성 데이터(e)를 이용하여 음성 인식을 수행할 수 있다.
한편, 프로세서(130)는 잡음이 제거된 음성 데이터(e)를 이용하여 잡음 경로 추정 필터(h)를 업데이트할 수 있다. 구체적으로, 프로세서(130)는 전처리를 수행한 이후, 잡음이 제거된 음성 데이터(e)와 참조 데이터(r)의 상관관계를 이용하여 잡음 경로 추정 필터(h)를 업데이트할 수 있다.
예를 들어, k-1번째 잡음 경로 추정 필터를 h(k-1), k번째 잡음이 제거된 음성 데이터를 e(k), k번째 참조 데이터를 r(k)로 가정할 수 있다. 이 경우, k번째 참조 데이터 r(k)를 잡음 경로 추정 필터 h(k-1)의 길이만큼의 버퍼 r(k)로 저장하고, 버퍼 r(k)와 k번째 잡음이 제거된 음성 데이터 e(k)를 이용하여 새로운 잡음 경로 추정 필터(h(k), h(k)=h(k-1)+μ·e(k)·r(k))를 생성할 수 있다.
여기서 μ는 시스템에 따라 정해지는 상수를 사용하거나, 알고리즘의 안정성을 위해 가변하여 사용할 수 있다. 예를 들어, 가변하여 사용하는 경우, k 번째 μ는 μ(k) = α / P(k)일 수 있다. 그리고, P(k) = (1- γ)·P(k-1)+γ·
Figure pat00002
·r(k))(α 및 γ은 상수)로 구현될 수 있다.
그리고 프로세서(130)는 다음 참조 데이터(r’) 및 음성 데이터(d’)를 획득하면 업데이트된 새로운 잡음 경로 추정 필터(h’)를 이용하여 다음 참조 데이터로부터 노이즈 데이터(y’)를 생성하고, 노이즈 데이터(y’)를 이용하여 음성 데이터(d’)의 잡음을 제거하고, 잡음이 제거된 음성 데이터(e’)를 이용하여 음성 인식을 수행할 수 있다.
한편, 시간 영역 상의 잡음 경로 추정 필터(h)를 업데이트하는 방법은 상술한 예에 한하지 않는다. 예를 들어, 상술한 예에서는 잡음이 제거된 음성 데이터 및 참조 데이터를 획득할 때마다 업데이트를 수행하였으나, 기설정된 개수의 잡음이 제거된 음성 데이터 및 참조 데이터를 획득하면 업데이트를 수행하는 방식으로도 구현할 수 있다. 이 경우, 기설정된 개수의 잡음이 포함된 음성 데이터 및 참조 데이터를 함께 이용하여 업데이트를 수행할 수 있다.
한편, 잡음 경로 추정 필터(h)가 시간 영역 상의 FIR 필터가 아닌 주파수 영역 상의 주파수 대역별로 기설정된 전달함수의 형태로 구현된 필터이고, 잡음이 제거된 음성 신호(e)를 이용하여 잡음 경로 추정 필터(h)를 업데이트 하는 것도 가능하다. 이에 대한 구체적인 설명은 도 7과 관련하여 후술한다.
도 7을 참조하면, 주파수 영역 상에서의 잡음 경로 필터를 이용하고, 잡음이 제거된 음성 데이터를 이용하여 업데이트를 수행하는 잡음 추정 알고리즘을 확인할 수 있다.
프로세서(130)는 FFT를 이용하여 참조 데이터(r)를 주파수 영역으로 변환할 수 있다. 그리고 프로세서(130)는 변환된 참조 데이터(R)를 주파수 영역 상의 잡음 경로 추정 필터(H)에 적용하여 주파수 영역으로 변환된 노이즈 데이터(Y, Y=R·H)를 획득할 수 있다. 그리고 프로세서(130)는 IFFT를 이용하여 노이즈 데이터(Y)를 시간 영역으로 변환할 수 있다. 그리고 프로세서(130)는 변환된 노이즈 데이터(y)를 음성 데이터(d)의 잡음을 제거하는데 이용할 수 있다.
한편, 프로세서(130)는 잡음이 제거된 음성 데이터(e)를 이용하여 잡음 경로 추정 필터(H)를 업데이트할 수 있다. 구체적으로, 프로세서(130)는 잡음이 제거된 음성 데이터(e)가 FFT를 거쳐 주파수 영역으로 변환된 음성 데이터(E)와 변환된 참조 데이터(R)의 상관관계를 이용하여 잡음 경로 추정 필터(H)를 업데이트할 수 있다.
예를 들어, k-1번째 잡음 경로 추정 필터를 H(k-1), 이후 k번째 변환된 잡음이 제거된 음성 데이터를 E(k), k번째 주파수 영역으로 변환된 참조 데이터를 R(k)라고 가정할 수 있다. 이 경우, k-1번째 잡음 경로 추정 필터 H(k-1) k번째 주파수 영역으로 변환된 참조 데이터 R(k)의 Hermitian 행렬과 k번째 잡음이 제거된 음성 데이터 E(k)를 곱한 성분을 더함으로써 새로운 잡음 경로 추정 필터(H(k), H(k) = H(k-1)+μ·R(k) H·E(k))를 생성할 수 있다.
여기서 μ는 시스템에 따라 정해지는 상수를 사용하거나, 알고리즘의 안정성을 위해 가변하여 사용할 수 있다. 예를 들어, 가변하여 사용하는 경우, k번째의 μ는 μ(k) = α·(ef (k)/(1+ef (k))일 수 있다. 그리고 f(k) = β·sqrt(V(k) - |M(k)|2) / |M(k)|, M(k) = (1-γ)·M(k-1)+ γ ·D(k), V(k) = (1-γ)·V(k-1)+γ·D(k)·
Figure pat00003
(α, β 및 γ는 상수)으로 구현될 수 있다.
그리고 프로세서(130)는 다음 참조 데이터(r(k+1)) 및 음성 데이터(d(k+1))를 획득하면 업데이트된 새로운 잡음 경로 추정 필터(H(k))를 이용하여 다음 참조 데이터로부터 노이즈 데이터(y(k+1))를 생성하고, 생성한 노이즈 데이터(y(k+1))를 이용하여 음성 데이터(d(k+1))로부터 노이즈를 제거할 수 있다.
한편, 주파수 영역의 잡음 경로 추정 필터(H)를 업데이트하는 방법은 상술한 예에 한하지 않는다. 예를 들어, 상술한 예에서는 잡음이 제거된 음성 데이터 및 참조 데이터를 획득할 때마다 업데이트를 수행하였으나, 기설정된 개수의 잡음이 제거된 음성 데이터 및 참조 데이터를 획득하면 업데이트를 수행하는 방식으로도 구현할 수 있다. 이 경우, 기설정된 개수의 잡음이 포함된 음성 데이터 및 참조 데이터를 함께 이용하여 업데이트를 수행할 수 있다.
또한, 도 3 내지 도 7을 도시하고 설명함에 있어서, 프로세서(130)가 잡음이 포함된 음성 데이터(d)에 대한 전처리를 수행한 이후 잡음 경로 추정 필터를 업데이트하는 것으로 도시하고 설명했으나, 구현시에는 잡음 경로 추정 필터를 먼저 업데이트한 후 잡음이 포함된 음성 데이터(d)에 대한 전처리를 수행하는 방식으로 구현할 수도 있다.
도 8 내지 도 10은 제3 실시 예에 따른 잡음 제거 방법을 설명하기 위한 도면이다.
잡음 경로 추정 필터에 대한 정보는 상술한 바와 같이 가전기기(100)에 기저장되어 노이즈 데이터를 생성하는데 사용될 수 있다. 그러나 잡음 경로 추정 필터는 가전기기(100)의 제조 단계에서 기저장되지 않고, 가전기기(100)가 가정에 설치된 후 인공 지능 모델을 통해 생성되는 방식으로 구현할 수 있다. 그리고 가전기기(100)는 생성된 잡음 경로 추정 필터를 이용하여 잡음 제거를 수행할 수 있다.
이하에서는 설명의 용이를 위해 가전기기(100)가 인공 지능 모델을 포함하는 외부 장치(200)로부터 잡음 경로 추정 필터를 획득하는 경우를 가정하여 설명한다.
도 8을 참조하면, 먼저 가전기기(100)는 사용자 발화가 없는 시점에서의 음성 데이터 및 참조 데이터를 획득할 수 있다(S810). 구체적으로, 잡음 경로 추정 필터를 생성하기 위해서는 사용자 발화 음성이 없고 잡음원의 소음만이 감지된 음성 데이터 및 참조 데이터를 필요로 한다. 따라서, 가전기기(100)는 음성 인식을 수행한 결과, 사용자 발화가 없는 것으로 판단된 음성 데이터를 확인하면, 해당 음성 데이터와 동일한 시점에 획득된 참조 데이터를 확인할 수 있다.
그리고 가전기기(100)는 통신 장치(170)를 통해 획득한 음성 데이터 및 참조 데이터를 외부 장치(200)로 전송할 수 있다(S820). 구체적으로 가전기기(100)는 획득한 음성 데이터 및 참조 데이터를 시간 영역 상의 신호로 전송하거나 주파수 영역으로 변환하여 외부 장치(200)로 전송할 수 있다.
그리고 가전기기(100)의 잡음원의 소음은, 가전기기(100)의 동작 모드나 주변 환경의 변화에 따라 상이해질 수 있다. 따라서 각각의 경우에 적용하기 위한 잡음 경로 추정 필터를 생성할 필요가 있다. 이를 위해 가전기기(100)는 외부 장치(200)로 정보를 전송할 시, 가전기기(100)의 동작 모드에 대한 정보나 주변 환경에 대한 정보를 함께 전송할 수 있다.
예를 들어, 가전기기(100)가 세탁기인 경우, 동작 모드에 따라 세탁기에 포함된 모터의 회전속도가 상이할 수 있다. 따라서 동작 모드에 따라 잡음원(모터)의 소음의 크기나 특성이 상이해질 수 있다.
그러므로 가전기기(100)의 각각의 동작 모드에 대한 정보와 각각의 동작 모드로 동작 시 획득한 음성 데이터 및 참조 데이터를 함께 전송하여, 외부 장치(200)가 각각의 동작 모드에 적용할 수 있는 잡음 경로 추정 필터를 생성하도록 할 수 있다.
그리고 외부 장치(200)는 수신한 음성 데이터 및 참조 데이터를 이용하여 잡음 경로 추정 필터를 계산할 수 있다(S830). 구체적으로, 외부 장치(200)는 음성 데이터 및 참조 데이터를 입력 받아, 그에 대응되는 잡음 경로 추정 필터를 출력하는 인공 지능 모델을 이용하여 잡음 경로 추정 필터를 획득할 수 있다. 여기서 인공 지능 모델은 선형 회귀(Linear Regression) 모델일 수 있다.
그리고 외부 장치(200)는 계산한 잡음 경로 추정 필터의 정보를 가전기기(100)로 전송할 수 있다(S840). 그리고 가전기기(100)는 수신한 잡음 경로 추정 필터의 정보를 저장할 수 있다(S850).
그리고 가전기기(100)는 이후 획득한 참조 데이터와 잡음 경로 추정 필터 정보를 이용하여 노이즈 데이터를 생성하고, 생성한 노이즈 데이터를 이용하여 사용자 발화 음성이 포함된 음성 데이터의 잡음을 제거할 수 있다. 그리고 잡음이 제거된 음성 데이터를 이용하여 음성 인식 기능을 수행할 수 있다.
한편, 도 8을 도시하고 설명함에 있어서, 외부 장치로 음성 데이터 및 참조 데이터를 전송하고, 외부 장치로부터 인공 지능 모델에 의해 생성된 잡음 경로 추정 필터를 수신하는 것으로 도시하고 설명하였으나, 구현시에는 가전기기의 프로세서가 기저장된 인공 지능 모델을 이용하여 잡음 경로 추정 필터를 생성하는 방식으로 구현할 수 있다.
또는, 프로세서와 구별되는 가전기기 내 별도의 장치가 기저장된 인공 지능 모델을 이용하여 잡음 경로 추정 필터를 생성하고, 프로세서가 생성된 잡음 경로 추정 필터를 이용하는 방식으로도 구현할 수 있다. 한편 잡음 경로 추정 필터를 생성하는 방법은 상술한 예에 한하지 않는다.
이하에서는 인공 지능 모델을 이용하여 생성된 잡음 경로 필터를 이용하여 잡음을 제거하는 구체적인 동작을 설명한다.
도 9를 참조하면, 시간 영역 상에서의 잡음 경로 필터(h)를 이용한 잡음 제거 방법을 확인할 수 있다.
프로세서(130)는 외부 장치(200)로부터 수신한 잡음 경로 필터 정보(h)를 이용하여 잡음 제거를 수행할 수 있다.
구체적으로, 프로세서(130)는 참조 데이터(r)를 수신한 잡음 경로 추정 필터(h)에 적용하여 노이즈 데이터(y, y=h*r)를 획득할 수 있다. 그리고 프로세서(130)는 노이즈 데이터(y)를 이용하여 음성 데이터(d)의 잡음을 제거하고, 잡음이 제거된 음성 데이터(e)를 이용하여 음성 인식을 수행할 수 있다.
한편, 도 10을 참조하면, 주파수 영역 상에서의 잡음 경로 필터를 이용한 잡음 제거 방법을 확인할 수 있다.
프로세서(130)는 FFT를 이용하여 참조 데이터(r)를 주파수 영역으로 변환할 수 있다. 그리고 프로세서(130)는 변환된 참조 데이터(R)를 잡음 경로 추정 필터(H)에 적용하여 주파수 영역으로 변환된 노이즈 데이터(Y, Y=R·H)를 획득할 수 있다.
그리고 프로세서(130)는 노이즈 데이터(Y)를 이용하여 FFT를 통해 변환된 음성 데이터(D)의 잡음을 제거할 수 있다. 그리고 프로세서(130)는 IFFT를 이용하여 잡음이 제거된 음성 데이터(E)를 시간 영역으로 변환할 수 있다. 그리고 프로세서(130)는 잡음이 제거된 음성 데이터(e)를 이용하여 음성 인식을 수행할 수 있다.
한편, 도 9 및 도 10을 도시하고 설명함에 있어서, 잡음 경로 추정 필터에 대한 업데이트를 수행하지 않는 것으로 도시하고 설명하였지만, 구현시에는 앞서 상술한 업데이트 방법에 따라 잡음 경로 추정 필터에 대한 업데이트를 수행하는 방식으로도 구현할 수 있다.
도 11은 본 개시의 일 실시 예에 따른 가전기기의 음성 인식 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 자체적으로 큰 소음을 발생시키는 가전기기의 음성 인식 방법을 확인할 수 있다. 여기서 가전기기는 로봇 청소기, 진공 청소기, 전기 레인지, 가스 레인지, 전파 오븐기, 레인지 후드, 세탁기, 건조기, 냉장고, 식기 세척기, 에어컨 등에 해당될 수 있으며, 이에 한정되지 않는다.
먼저 제1 음성 데이터를 획득한다(S1110). 구체적으로, 가전기기의 하우징의 표면에 배치되는 제1 마이크로부터 제1 음성 데이터를 획득할 수 있다.
그리고 제2 음성 데이터를 획득한다(S1120). 구체적으로, 가전기기의 하우징 내부에 배치되는 제2 마이크로부터 제2 음성 데이터를 획득할 수 있다.
보다 구체적으로, 제2 마이크는 가전기기 내부의 잡음원 인근 또는 잡음원에서 제1 마이크까지의 경로 상에 배치되어, 잡음원에서 발생하는 소음을 감지하고, 그에 대응되는 제2 음성 데이터를 생성할 수 있다.
한편, 가전기기 내부의 잡음원은 모터, 압축기 또는 팬 등이 될 수 있으며, 상술한 예에 한하지 않는다.
그리고 제2 음성 데이터를 이용하여 노이즈 데이터를 생성한다(S1130). 여기서 노이즈 데이터란, 잡음원의 소음에 대응되는 소리 데이터를 의미한다. 예를 들어, 가전기기의 잡음원이 모터인 경우, 노이즈 데이터는 모터의 소음에 대응되는 소리 데이터가 될 수 있다.
이러한 노이즈 데이터는 제2 음성 데이터로부터 잡음원의 소음에 대응되는 성분만을 추출하거나, 잡음원의 소음에 대응되는 성분 외 나머지 성분을 필터링함으로써 획득될 수 있다.
그리고 노이즈 데이터는 시간영역 상의 FIR(Finite Impulse Response) 필터 또는 IIR(Infinite Impulse Response) 필터 중 적어도 하나를 이용하여 제2 음성 데이터에 포함된 잡음원에 대응되는 성분 외 나머지 성분을 필터링 함으로써 생성될 수 있다.
또는, 노이즈 데이터는 주파수 영역 상에서 주파수 대역별로 기설정된 전달함수를 이용하여 제2 음성 데이터로부터 잡음원의 소음에 대응되는 성분을 추출할 수 있다.
그리고 상술한 필터 또는 전달함수에 대한 정보는 제조 단계에서 가전기기에 기저장되어 노이즈 데이터를 생성하는데 사용될 수 있으나, 이에 한정되지 않는다.
예를 들어, 외부 장치와 통신이 가능한 경우, 외부 장치와의 통신을 통해 필터 또는 전달함수에 대한 정보를 수신하고, 수신한 필터 또는 전달함수에 대한 정보를 이용하여 노이즈 데이터를 생성할 수 있다.
이때, 외부 장치로부터 수신한 필터 또는 전달함수에 대한 정보는 외부 장치에 포함된 인공 지능 모델을 이용하여 획득되는 정보일 수 있다.
한편, 가전기기의 잡음원이 모터이고 가전기기가 가속도계를 구비하는 경우, 가속도계로부터 모터에 대한 가속도 정보를 획득할 수 있다. 그리고 획득한 가속도 정보로부터 동작 주파수를 추출하고, 추출한 동작 주파수를 이용하여 참조 신호를 생성할 수 있다. 이때의 참조 신호는 제2 마이크를 통해 획득한 제2 음성 데이터에 대응될 수 있다. 그리고 참조 신호를 이용하여 상술한 방식에 따라 노이즈 데이터를 생성할 수 있다.
또한, 가전기기의 잡음원이 모터이고 입력 장치에 입력되는 제어 명령이 모터의 구동과 관련된 경우, 제어 명령을 이용하여 그에 대응되는 모터의 동작 주파수를 추출하고, 추출한 동작 주파수를 이용하여 참조 신호를 생성할 수 있다. 이때의 참조 신호는 제2 마이크를 통해 획득한 제2 음성 데이터에 대응될 수 있다. 그리고 참조 신호를 이용하여 상술한 방식에 따라 노이즈 데이터를 생성할 수 있다.
그리고 노이즈 데이터를 이용하여 제1 음성 데이터에 대한 신호 처리를 수행한다(S1140). 구체적으로, 노이즈 데이터를 이용하여 제1 음성 데이터에 포함된 잡음원의 소음에 대응되는 성분을 제거하는 신호 처리를 수행할 수 있다.
그리고 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행한다(S1150).
한편, 잡음원이 모터인 경우, 모터의 구동 여부에 따라 제1 음성 데이터에 대한 신호 처리 방식을 변경할 수 있다.
구체적으로, 현재 모터가 구동하고 있는 경우, 가전기기에서 자체적으로 발생하는 소음이 크므로, 상술한 방식에 따라 참조 데이터를 이용하여 제1 음성 데이터에 대한 전처리를 수행할 수 있다.
반면, 현재 모터가 구동하고 있지 않는 경우, 가전기기에서 자체적으로 발생하는 소음이 없으므로, 참조 데이터를 이용하지 않고 제1 음성 데이터를 이용하여 바로 음성 인식을 수행하거나, 종래의 방식에 따라 제1 음성 데이터에 대한 전처리를 수행한 후 음성 인식을 수행할 수 있다.
그리고 잡음원의 소음이 변경되거나 주변 환경이 변경되더라도 정확한 노이즈 데이터를 생성할 수 있도록 잡음이 포함된 제1 음성 데이터 및 신호 처리된 제1 음성 데이터 중 적어도 하나를 이용하여 노이즈 데이터의 생성 방식을 업데이트 할 수 있다.
구체적으로, 제1 음성 데이터 및 신호 처리된 제1 음성 데이터 중 적어도 하나와 제2 음성 데이터 간의 상관 관계를 이용하여 노이즈 데이터를 생성하는 방식을 업데이트 할 수 있다.
따라서, 본 개시의 가전기기의 음성 인식 방법은 마이크 또는 가속도계를 이용하여 잡음원의 정보를 포함하는 참조 데이터를 획득하고, 획득한 참조 데이터를 이용하여 소음을 추정하고, 음성 데이터에 포함된 소음을 저감하는 방식으로 전처리를 수행할 수 있는바, 가전기기가 자체적으로 큰 소음을 발생시키는 경우에도 높은 음성 인식률을 갖는 효과를 갖는다. 도 11과 같은 음성 인식 방법은, 도 1 또는 도 2의 구성을 가지는 가전기기 상에서도 실행될 수 있으며, 그 밖의 구성을 가지는 가전 기기 상에서도 실행될 수 있다.
또한, 상술한 바와 같은 음성 인식 방법은, 상술한 바와 같은 음성 인식 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적인 판독 가능 매체에 저장될 수 있다.
비 일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 애플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100: 가전기기 110: 제1 마이크
120: 제2 마이크 130: 프로세서
140: 모터 150: 가속도계
160: 입력 장치 170: 통신 장치
180: 메모리 190: 디스플레이

Claims (20)

  1. 가전기기에 있어서,
    하우징의 표면에 배치되는 제1 마이크;
    상기 하우징 내부에 배치되는 제2 마이크; 및
    상기 제1 마이크로부터 획득된 제1 음성 데이터에 대한 신호 처리를 수행하고, 상기 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 제2 마이크로부터 획득된 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하고, 상기 생성된 노이즈 데이터를 이용하여 상기 제1 음성 데이터에 대한 신호 처리를 수행하는 가전기기.
  2. 제1항에 있어서,
    상기 가전기기의 하우징 내에 배치되어, 상기 가전기기의 기설정된 기능을 수행하기 위한 모터;를 더 포함하고,
    상기 노이즈 데이터는,
    상기 모터에 대한 모터 소음 데이터이고,
    상기 프로세서는,
    상기 모터 소음 데이터를 이용하여 상기 제1 음성 데이터에 대해서 상기 모터 소음을 제거하는 신호 처리를 수행하는 가전기기.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 모터가 구동하는 경우 상기 신호 처리된 제1 음성 데이터를 이용하여 상기 음성 인식을 수행하고, 상기 모터가 구동하지 않는 경우 상기 제1 음성 데이터를 이용하여 상기 음성 인식을 수행하는 가전기기.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 음성 데이터 및 상기 신호 처리된 제1 음성 데이터 중 적어도 하나를 이용하여 상기 노이즈 데이터를 생성하는 방식을 업데이트하는 가전기기.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 제1 음성 데이터 및 상기 신호 처리된 제1 음성 데이터 중 적어도 하나와 상기 제2 음성 데이터 간의 상관 관계를 이용하여 상기 노이즈 데이터를 생성하는 방식을 업데이트하는 가전기기.
  6. 제1항에 있어서,
    상기 프로세서는,
    FIR(Finite Impulse Filter) 및 IIR(Infinite Impulse Filter) 중 적어도 하나를 이용하여 상기 노이즈 데이터를 생성하는 가전기기.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 음성 데이터를 주파수 영역으로 변환하고, 상기 변환된 제2 음성 데이터와 기설정된 주파수 대역별 전달함수를 이용하여 상기 노이즈 데이터를 생성하는 가전기기.
  8. 제1항에 있어서,
    외부 장치와 통신 가능한 통신 장치;를 더 포함하고,
    상기 프로세서는,
    상기 통신 장치를 통해 상기 외부 장치로부터 상기 노이즈 데이터를 생성하기 위한 필터 정보를 수신하면, 상기 수신한 필터 정보를 이용하여 상기 노이즈 데이터를 생성하고,
    상기 수신한 필터 정보는,
    상기 외부 장치에 포함된 인공 지능 모델을 이용하여 획득되는 가전기기.
  9. 제1항에 있어서,
    상기 가전기기는,
    로봇 청소기, 진공 청소기, 전기 레인지, 가스 레인지, 전파 오븐기, 레인지 후드, 세탁기, 건조기, 냉장고, 식기 세척기, 에어컨 중 적어도 하나인 가전기기.
  10. 가전기기에 있어서,
    상기 가전기기의 하우징 내에 배치되어, 상기 가전기기의 기설정된 기능을 수행하기 위한 모터;
    상기 하우징의 표면에 배치되는 마이크;
    상기 모터의 가속도를 측정하여 가속도 정보를 생성하는 가속도계; 및
    상기 마이크로부터 획득된 음성 데이터에 대한 신호 처리를 수행하고, 상기 신호 처리된 음성 데이터를 이용하여 음성 인식을 수행하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 가속도 정보를 이용하여 노이즈 데이터를 생성하고, 상기 생성된 노이즈 데이터를 이용하여 상기 음성 데이터에 대한 신호 처리를 수행하는 가전기기.
  11. 가전기기의 음성 인식 방법에 있어서,
    하우징의 표면에 배치되는 제1 마이크로부터 제1 음성 데이터를 획득하는 단계;
    상기 하우징 내부에 배치되는 제2 마이크로부터 제2 음성 데이터를 획득하는 단계;
    상기 제1 마이크로부터 획득된 제1 음성 데이터에 대한 신호 처리를 수행하는 단계;
    상기 신호 처리된 제1 음성 데이터를 이용하여 음성 인식을 수행하는 단계;를 포함하고,
    상기 신호 처리를 수행하는 단계는,
    상기 제2 마이크로부터 획득된 제2 음성 데이터를 이용하여 노이즈 데이터를 생성하는 단계; 및
    상기 생성된 노이즈 데이터를 이용하여 상기 제1 음성 데이터에 대한 신호 처리를 수행하는 단계;를 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    상기 가전기기는,
    상기 가전기기의 하우징 내에 배치되어, 상기 가전기기의 기설정된 기능을 수행하기 위한 모터를 포함하고,
    상기 노이즈 데이터는,
    상기 모터에 대한 모터 소음 데이터이고,
    상기 신호 처리를 수행하는 단계는,
    상기 모터 소음 데이터를 이용하여 상기 제1 음성 데이터에 대해서 상기 모터 소음을 제거하는 신호 처리를 수행하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 모터가 구동하는지 여부를 확인하고, 상기 모터가 구동하지 않는 경우 상기 제1 음성 데이터를 이용하여 상기 음성 인식을 수행하는 단계;를 더 포함하는 음성 인식 방법.
  14. 제11항에 있어서,
    상기 제1 음성 데이터 및 상기 신호 처리된 제1 음성 데이터 중 적어도 하나를 이용하여 상기 노이즈 데이터를 생성하는 방식을 업데이트하는 단계;를 더 포함하는 음성 인식 방법.
  15. 제14항에 있어서,
    상기 업데이트하는 단계는,
    상기 제1 음성 데이터 및 상기 신호 처리된 제1 음성 데이터 중 적어도 하나와 상기 제2 음성 데이터 간의 상관 관계를 이용하여 상기 노이즈 데이터를 생성하는 방식을 업데이트하는 음성 인식 방법.
  16. 제11항에 있어서,
    상기 노이즈 데이터를 생성하는 단계는,
    FIR(Finite Impulse Filter) 및 IIR(Infinite Impulse Filter) 중 적어도 하나를 이용하여 상기 노이즈 데이터를 생성하는 음성 인식 방법.
  17. 제11항에 있어서,
    상기 노이즈 데이터를 생성하는 단계는,
    상기 제2 음성 데이터를 주파수 영역으로 변환하고, 상기 변환된 제2 음성 데이터와 기설정된 주파수 대역별 전달함수를 이용하여 상기 노이즈 데이터를 생성하는 음성 인식 방법.
  18. 제11항에 있어서,
    외부 장치로부터 상기 노이즈 데이터를 생성하기 위한 필터 정보를 수신하는 단계;를 더 포함하고,
    상기 노이즈 데이터를 생성하는 단계는,
    상기 수신한 필터 정보를 이용하여 상기 노이즈 데이터를 생성하고,
    상기 수신한 필터 정보는,
    상기 외부 장치에 포함된 인공 지능 모델을 이용하여 획득되는 음성 인식 방법.
  19. 제11항에 있어서,
    상기 가전기기는,
    로봇 청소기, 진공 청소기, 전기 레인지, 가스 레인지, 전파 오븐기, 레인지 후드, 세탁기, 건조기, 냉장고, 식기 세척기, 에어컨 중 적어도 하나인 음성 인식 방법.
  20. 하우징 내에 배치된 모터 및 가속도계를 포함하는 가전기기의 음성 인식 방법에 있어서,
    상기 하우징의 표면에 배치된 마이크로부터 음성 데이터를 획득하는 단계;
    상기 가속도계로부터 상기 모터에 대한 가속도 정보를 획득하는 단계;
    상기 음성 데이터에 대한 신호 처리를 수행하는 단계; 및
    상기 신호 처리된 음성 데이터를 이용하여 음성 인식을 수행하는 단계;를 포함하고,
    상기 신호 처리를 수행하는 단계는,
    상기 가속도 정보를 이용하여 노이즈 데이터를 생성하는 단계; 및
    상기 생성된 노이즈 데이터를 이용하여 상기 음성 데이터에 대한 신호 처리를 수행하는 단계;를 포함하는 음성 인식 방법.
KR1020180170454A 2018-12-27 2018-12-27 가전기기 및 이의 음성 인식 방법 KR102569365B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020180170454A KR102569365B1 (ko) 2018-12-27 2018-12-27 가전기기 및 이의 음성 인식 방법
EP19902192.4A EP3837683B1 (en) 2018-12-27 2019-12-19 Home appliance and method for voice recognition thereof
CN201980073746.6A CN112955952A (zh) 2018-12-27 2019-12-19 家用电器及其语音识别方法
PCT/KR2019/018110 WO2020138843A1 (en) 2018-12-27 2019-12-19 Home appliance and method for voice recognition thereof
US16/726,002 US11355105B2 (en) 2018-12-27 2019-12-23 Home appliance and method for voice recognition thereof
US17/832,824 US20220301555A1 (en) 2018-12-27 2022-06-06 Home appliance and method for voice recognition thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180170454A KR102569365B1 (ko) 2018-12-27 2018-12-27 가전기기 및 이의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20200084457A true KR20200084457A (ko) 2020-07-13
KR102569365B1 KR102569365B1 (ko) 2023-08-22

Family

ID=71121844

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180170454A KR102569365B1 (ko) 2018-12-27 2018-12-27 가전기기 및 이의 음성 인식 방법

Country Status (5)

Country Link
US (2) US11355105B2 (ko)
EP (1) EP3837683B1 (ko)
KR (1) KR102569365B1 (ko)
CN (1) CN112955952A (ko)
WO (1) WO2020138843A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210069479A (ko) * 2019-12-03 2021-06-11 삼성전자주식회사 외부 장치의 위치 정보를 식별하는 전자 장치 및 그 동작 방법
CN112614332B (zh) * 2020-12-10 2022-01-28 维沃移动通信有限公司 终端控制方法、装置和电子设备
CN116072118B (zh) * 2023-03-07 2023-06-23 广东海新智能厨房股份有限公司 基于语音识别的智能控制方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563954A (en) * 1993-02-26 1996-10-08 Matsushita Electric Industrial Co., Ltd. Microphone apparatus
US20100299145A1 (en) * 2009-05-22 2010-11-25 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method
KR20170127856A (ko) * 2016-05-13 2017-11-22 엘지전자 주식회사 전자 장치 및 그 제어 방법
US20180350379A1 (en) * 2017-06-02 2018-12-06 Apple Inc. Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4196431B2 (ja) * 1998-06-16 2008-12-17 パナソニック株式会社 機器内蔵型マイクロホン装置及び撮像装置
EP1306832B1 (en) * 2000-06-09 2010-02-24 Japan Science and Technology Agency Robot auditory apparatus
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
KR100413797B1 (ko) 2001-08-23 2003-12-31 삼성전자주식회사 음성 신호 보상 방법 및 그 장치
US6742208B2 (en) * 2001-08-24 2004-06-01 Maytag Corporation Clothes washing machine incorporating noise reduction system
KR100446626B1 (ko) 2002-03-28 2004-09-04 삼성전자주식회사 음성신호에서 잡음을 제거하는 방법 및 장치
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
GB2479672B (en) * 2006-04-01 2011-11-30 Wolfson Microelectronics Plc Ambient noise-reduction control system
US7742790B2 (en) * 2006-05-23 2010-06-22 Alon Konchitsky Environmental noise reduction and cancellation for a communication device including for a wireless and cellular telephone
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
JP5034605B2 (ja) 2007-03-29 2012-09-26 カシオ計算機株式会社 撮像装置、雑音除去方法及びプログラム
GB0725110D0 (en) * 2007-12-21 2008-01-30 Wolfson Microelectronics Plc Gain control based on noise level
US20090248411A1 (en) * 2008-03-28 2009-10-01 Alon Konchitsky Front-End Noise Reduction for Speech Recognition Engine
US8718290B2 (en) * 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
KR101658908B1 (ko) 2010-05-17 2016-09-30 삼성전자주식회사 휴대용 단말기에서 통화 음질을 개선하기 위한 장치 및 방법
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8639516B2 (en) * 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP2012169960A (ja) 2011-02-16 2012-09-06 Nec Casio Mobile Communications Ltd 電子機器、及び雑音除去方法
US8958571B2 (en) * 2011-06-03 2015-02-17 Cirrus Logic, Inc. MIC covering detection in personal audio devices
JP2013102370A (ja) * 2011-11-09 2013-05-23 Sony Corp ヘッドホン装置、端末装置、情報送信方法、プログラム、ヘッドホンシステム
US8831686B2 (en) * 2012-01-30 2014-09-09 Blackberry Limited Adjusted noise suppression and voice activity detection
US9640174B2 (en) * 2013-01-02 2017-05-02 Lg Electronics Inc. Home appliance and operation method thereof
JP2014155144A (ja) * 2013-02-13 2014-08-25 Funai Electric Co Ltd 音声入力装置及び雑音抑圧方法
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
JP6375362B2 (ja) * 2013-03-13 2018-08-15 コピン コーポレーション 雑音キャンセリングマイクロホン装置
US9510094B2 (en) * 2014-04-09 2016-11-29 Apple Inc. Noise estimation in a mobile device using an external acoustic microphone signal
CN106797512B (zh) * 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US10204622B2 (en) * 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
JP6670224B2 (ja) 2016-11-14 2020-03-18 株式会社日立製作所 音声信号処理システム
KR101898911B1 (ko) 2017-02-13 2018-10-31 주식회사 오르페오사운드웍스 인이어 마이크와 아웃이어 마이크 수음특성을 이용한 소음 제거 이어셋 및 소음 제거 방법
US10909961B2 (en) * 2018-02-21 2021-02-02 Gopro, Inc. Reduction of microphone audio noise from gimbal motor
CN108682428A (zh) * 2018-08-27 2018-10-19 珠海市微半导体有限公司 机器人语音控制系统和机器人对语音信号的处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563954A (en) * 1993-02-26 1996-10-08 Matsushita Electric Industrial Co., Ltd. Microphone apparatus
US20100299145A1 (en) * 2009-05-22 2010-11-25 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method
KR20170127856A (ko) * 2016-05-13 2017-11-22 엘지전자 주식회사 전자 장치 및 그 제어 방법
US20180350379A1 (en) * 2017-06-02 2018-12-06 Apple Inc. Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition

Also Published As

Publication number Publication date
EP3837683B1 (en) 2024-09-18
US20220301555A1 (en) 2022-09-22
KR102569365B1 (ko) 2023-08-22
US11355105B2 (en) 2022-06-07
CN112955952A (zh) 2021-06-11
WO2020138843A1 (en) 2020-07-02
US20200211538A1 (en) 2020-07-02
EP3837683A1 (en) 2021-06-23
EP3837683A4 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
US11404054B2 (en) Home appliance and method for voice recognition thereof
US20220301555A1 (en) Home appliance and method for voice recognition thereof
CN107945815B (zh) 语音信号降噪方法及设备
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
JP7218391B2 (ja) 車載環境のノイズ低減方法、装置、電子デバイス、記憶媒体、及びプログラム
US11488617B2 (en) Method and apparatus for sound processing
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
CN104937659B (zh) 车辆引擎声音提取以及再现
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
EP3705016B1 (en) Home appliance and method for controlling thereof
JP2021536596A (ja) 正規化を介して音響信号をフィンガープリンティングするための方法及び装置
JP2023536104A (ja) 機械学習を用いたノイズ削減
CN116884405A (zh) 语音指令识别方法、设备及可读存储介质
CN102316395B (zh) 一种啸叫判断及消除的方法和装置
CN109949831B (zh) 智能设备中语音识别的方法、装置及计算机可读存储介质
JP2018205512A (ja) 電子機器及び雑音抑圧プログラム
JPH1185185A (ja) 音声認識システムおよび音声認識制御プログラムを記録した記録媒体
CN112133320A (zh) 语音处理装置及语音处理方法
CN110996205A (zh) 耳机的控制方法、耳机及可读存储介质
US9763006B2 (en) Noise reduction in a microphone using vowel detection
JP6361360B2 (ja) 残響判定装置及びプログラム
CN115985337B (zh) 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
CN116057626A (zh) 使用机器学习的降噪
Cheema et al. GUI Based Speech Recognition Using Frequency Spectrum

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant