KR20210125356A - 전자 장치 및 그 동작 방법 - Google Patents

전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20210125356A
KR20210125356A KR1020200042964A KR20200042964A KR20210125356A KR 20210125356 A KR20210125356 A KR 20210125356A KR 1020200042964 A KR1020200042964 A KR 1020200042964A KR 20200042964 A KR20200042964 A KR 20200042964A KR 20210125356 A KR20210125356 A KR 20210125356A
Authority
KR
South Korea
Prior art keywords
sound
input signal
sound input
trigger word
power
Prior art date
Application number
KR1020200042964A
Other languages
English (en)
Inventor
윤석훈
김민섭
송기현
이원재
이종근
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200042964A priority Critical patent/KR20210125356A/ko
Priority to PCT/KR2021/001353 priority patent/WO2021206281A1/en
Priority to US17/169,058 priority patent/US11715468B2/en
Publication of KR20210125356A publication Critical patent/KR20210125356A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

실시예들에 따라, 전자 장치 및 그 동작 방법이 개시된다. 실시예들에 따른 전자 장치에 있어서, 대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되어 사운드 입력을 수신하는 제1사운드 수신부, 상기 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식하는 트리거 워드 인식부, 상기 트리거 워드 인식부에 의해 상기 트리거 워드가 인식됨에 따라 전원이 공급되어, 상기 사운드 입력을 수신하는 제2사운드 수신부, 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 출력하는 데이터 송수신부를 포함한다.

Description

전자 장치 및 그 동작 방법{An electronic apparatus and a method of operating the electronic apparatus}
다양한 실시예들은 전자 장치 및 그 동작 방법에 관한 것으로, 보다 구체적으로는, 음성 인식 기능에 이용되는 음성 신호를 수신하고 처리하는 전자 장치 및 그 동작 방법에 관한 것이다.
근래 들어 음성 인식 기능을 지원하는 다양한 기기가 보급화되고 있다. 음성 인식 기능은, 사용자의 발화 음성을 인식하고, 인식된 발화 음성을 기초로 소정의 기능을 수행할 수 있도록 데이터 처리를 하는 기능을 의미할 수 있다. 또한 인공 지능과 결합된 음성 인식 기능을 구현한 기기는 비디오 오디오 등의 컨텐츠를 검색하거나, 상식이나 생활 정보 등을 검색하거나, 또는 특정한 어플리케이션 등을 실행하는 등의 다양한 기능을 수행할 수 있다. 이러한 음성 인식 기능은 스피커, TV, 스마트폰, OTT 박스 등 다양한 컴퓨팅 장치에서 구현될 수 있다.
그런데, 이러한 음성 인식 기능을 구현한 기기는, 그 음성 인식 기능의 특성으로 인해, 사용자의 발화 음성이 언제 수신되더라도, 수신된 발화 음성을 인식하는 기능을 수행할 준비 상태에 있어야 한다. 따라서, 이러한 음성 인식을 위한 센서 및 음성 인식 처리 회로가 항상 파워 온 되어 있는 상태에 있어야 하므로, 배터리를 전원으로 이용하는 휴대용 기기에서는 음성 인식을 위한 센서 및 회로로 인한 전력 소모가 문제가 될 수 있다.
다양한 실시예들은, 배터리 소모를 감소시킬 수 있도록 음성 신호를 처리할 수 있는 모듈이 구현된 전자 장치 및 그 동작 방법을 제공하는 것을 목적으로 한다.
일 실시예에 따른 전자 장치는, 대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되어 사운드 입력을 수신하는 제1사운드 수신부, 상기 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식하는 트리거 워드 인식부,상기 트리거 워드 인식부에 의해 상기 트리거 워드가 인식됨에 따라 전원이 공급되어, 상기 사운드 입력을 수신하는 제2사운드 수신부, 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 출력하는 데이터 송수신부를 포함한다.
일 실시예에 따라 전자 장치는, 상기 트리거 워드 인식부로부터 상기 트리거 워드가 인식되었음을 나타내는 제어 신호를 수신함에 따라, 상기 제2사운드 수신부에 전원이 공급되도록 제어하는 전원제어부를 더 포함할 수 있다.
일 실시예에 따라 전자 장치는, 상기 트리거 워드 인식부에 의해 상기 트리거 워드가 인식됨에 따라 전원이 공급되어, 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 수신하고, 상기 제1사운드 입력 신호 및 상기 제2사운드 입력 신호를 처리하는 음성 신호 처리부를 더 포함할 수 있다.
일 실시예에 따라 상기 전원제어부는, 상기 트리거 워드 인식부로부터 상기 트리거 워드가 인식되었음을 나타내는 제어 신호를 수신함에 따라, 제2사운드 수신부에 전원이 공급되도록 제어할 수 있다.
일 실시예에 따라 상기 음성 신호 처리부는, 상기 제1 사운드 입력 신호와 상기 제2 사운드 입력 신호를 믹싱하여 스테레오 신호를 생성할 수 있다.
일 실시예에 따라 상기 전원제어부는, 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부에 전원을 공급하고, 상기 제1사운드 수신부로의 전원 공급을 차단하고, 상기 데이터 송수신부는, 전원 공급에 따라 동작하는 상기 제2사운드 수신부로부터 상기 제2사운드 입력 신호를 수신하여 출력할 수 있다.
일 실시예에 따라 상기 데이터 송수신부는, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호에, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호를 상기 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별시키는 플래그를 삽입하여 출력할 수 있다.
일 실시예에 따라 상기 플래그에 기반하여, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호는, 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별되는 음성 처리가 수행될 수 있다.
일 실시예에 따라 상기 제2사운드 수신부에 연결된 스위치를 더 포함하고, 상기 스위치는, 상기 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부로부터 공급되는 상기 제2사운드 입력 신호를 상기 데이터 송수신부로 전송하거나 또는 상기 트리거 워드 인식에 따라 상기 제2사운드 입력 신호를 상기 제1사운드 입력 신호와의 처리를 수행하는 음성 신호 처리부로 전송할 수 있다.
일 실시예에 따른 전자 장치의 동작 방법은, 대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되는 제1사운드 수신부에 의해 사운드 입력을 수신하는 동작, 상기 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식하는 동작, 상기 트리거 워드가 인식됨에 따라 전원이 공급되는 제2사운드 수신부에 의해 상기 사운드 입력을 수신하는 동작, 및 데이터 송수신부에 의해 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 출력하는 동작을 포합한다.
본 개시서의 다양한 실시예들에 따르면, 음성 인식 기능이 구현된 전자 장치에서, 음성 인식 기능을 수행하는 일부 구성 요소들을 트리거 워드가 인식된 경우에 전원 공급하여 동작시킴으로써 음성 인식 기능을 수행하는 모든 구성 요소들을 항상 전원 공급할 필요가 없게 되므로 전력 소모를 감소시킬 수 있다.
도 1은 다양한 실시예들이 적용되는 시스템의 개념을 설명하기 위한 참고도이다.
도 2는 일 실시예에 따른 전자 장치의 블록도의 일 예를 나타낸다.
도 3a는 일 실시예에 따른 전자 장치의 블록도의 다른 예를 나타낸다.
도 3b는 일 실시예에 따른 전자 장치의 블록도의 또다른 예를 나타낸다.
도 4는 일 실시예에 따라 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따라 전자 장치에서 음성 인식 기능 동작의 구체적인 흐름도이다.
도 6은 일 실시예에 따라 전자 장치에서 음성 인식 기능 동작의 구체적인 흐름도이다.
도 7은 일 실시예에 따른 전자 장치의 또 다른 예를 나타낸다.
도 8은 일 실시예에 따른 전자 장치의 또 다른 예를 나타낸다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서의 실시예에서 "사용자"라는 용어는 제어 장치를 이용하여 컴퓨팅 장치 또는 전자 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.
도 1은 다양한 실시예들이 적용되는 시스템의 개념을 설명하기 위한 참고도이다.
다양한 실시예들에 따른 음성 인식 기능을 위한 구성요소들은 다양한 전자기기에 적용될 수 있다. 도 1을 참조하면, 다양한 실시예들에 따른 음성 인식 기능을 위한 구성 요소들은, 예를 들어, 텔레비전과 같은 디스플레이 장치 10, 스마트 폰 20, OTT 박스 30, 스피커 40, 리모트 콘트롤러 50와 같은 전자 기기에 적용될 수 있다.
음성 인식 기능은 예를 들어, 리모트 콘트롤러 50 등에 적용되어 디스플레이 장치 10를 제어하는데 이용될 수 있다. 예를 들어, 사용자는 리모트 콘트롤러 50를 향해 단순히 음성 발화를 시작함으로써 디스플레이 장치 10를 제어할 수 있거나 또는 리모트 콘트롤러 50에 구비된 마이크 버튼 51을 누름으로써 음성 발화 수신을 마이크를 동작하도록 트리거 할 수 있다.
음성 인식 기능은 음성 비서(어시스턴스) 서비스를 제공하도록 인공 지능 기술과 결합될 수 있다. 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다. 인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다. 요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
일반적으로 각 음성 인식 기능 모듈은 고유의 트리거 워드나 웨이크업 워드를 수신하면 이를 인식하고, 사용자 90로부터 다음 발화 내용을 리스닝하는 상태로 진입한다. 예를 들어, 음성 인식 기능 모듈은 "하이 빅스비"라는 트리거 워드에 의해 웨이크업 될 수 있다.
통상적으로 음성 인식 기능 모듈은 자신을 지칭하는 자신의 고유 트리거 워드를 인식하도록 학습되어 있지만, 반드시 이에 한정되는 것은 아니고 음성 인식 기능 모듈은 복수개의 트리거 워드를 인식하도록 학습될 수도 있다.
사용자의 발화로 다양한 기기를 제어하는 음성 인식 기능은 버튼 입력을 트리거로 하는 근거리 음성 인식과 특정 발화어를 트리거로 하는 원거리 음성 인식으로 구분될 수 있다. 근거리 음성 인식은 특정 기기를 소지해서 버튼을 누른 후 발화를 해야 하기 때문에 인터랙션에 한계가 있을 수 있다. 즉, 음성 인식을 기능을 이용하려는 사용자는 전자 기기에 구비된 버튼을 눌러야 음성 인식 기능을 시작할 수 있으므로, 이러한 음성 인식 기능을 이용하기 위해서는 항상 전자 기기를 소지해야 한다는 한계가 있다. 반면에, 특정 발화어로 음성인식을 하는 원거리 음성 인식은 사용자가 원할 때 트리거 워드 발화만으로 일정 거리 내에서 기기를 제어할 수 있기 때문에 좀더 음성 인식 기능을 편리하게 이용할 수 있기 때문에 이에 대한 필요성이 있다.
종래 원거리 음성 인식 기기의 경우, 사람이 언제 발화할 지를 모르기 때문에 음성 인식을 수행하기 위해 항상 마이크로폰에 전원을 공급해야만 했다. 따라서 전원 플러그를 연결할 수 있는 곳에 설치해야 하는 제약 사항이 발생하거나 또는 배터리를 내장하는 기기의 경우에도 사용시간이 하루 이하가 되어 자주 충전을 해야 하는 불편함이 존재하였다.
즉, 기존의 원거리 음성인식의 경우, 사용자가 언제 트리거 워드를 발화할지 모르기 때문에 항상 사운드를 녹음하고 이에 대한 분석을 진행되어야 했다. 이러한 이유로 마이크로폰 관련 블록의 소비 전류가 항상 발생하기 때문에, 원거리 음성 인식 모듈은 전원을 안정적으로 공급할 수 있는 기기에 적용되어야 했다. TV 리모트 콘트롤러와 같은 디바이스의 경우, 일반 알카라인 건전지 (예를 들어, AA 사이즈 2개 또는 AAA 사이즈 2개)를 사용하여 1년 정도 배터리 교체없이 사용해야 하는 저전력 기술이 필수적이므로, 버튼 타입의 Push to Talk 방식으로 설계되어 졌다. 이러한 리모트 콘트롤러에 원거리 음성 인식을 적용할 경우, 사용자가 언제 발화할지 모르기 때문에 마이크로폰 블록을 항상 인에이블시켜야 한다는 문제점이 발생한다. 따라서 대기전력이 많이 소모되므로 큰 배터리 용량을 사용하거나 자주 배터리를 교체해야 하는 사용자의 불편함이 발생하게 될 수 밖에 없다.
따라서, 본 개시서에 개시된 실시예들은, 상시 전원 연결 없이 장시간 원거리 음성 인식 기능을 사용할 수 있도록 하는 전자기기를 제공하고자 한다.
도 2는 일 실시예에 따른 전자 장치의 블록도의 일 예를 나타낸다.
도 2를 참조하면, 전자 장치 100는 사운드 수신부 110, 음성 처리부 120, 전원제어부 130, 데이터 송수신부 140, 및 제어부 180를 포함할 수 있다. 를 포함한다. 사운드 수신부 110, 음성 처리부 120, 전원제어부 130, 데이터 송수신부 140, 및 제어부 180를 포함할 수 있다. 전자 장치 100의 적어도 일부 구성, 예를 들어 사운드 수신부 110, 음성 처리부 120, 전원제어부 130, 데이터 송수신부 140, 제어부 180에 전기적으로 연결될 수 있다. 다양한 실시 예에서, 전자 장치 100는 컴퓨팅 장치, 원격 제어 장치로 명명될 수 있으며, 도 2에 도시된 구성요소 외에 구성요소를 더 포함할 수 있거나, 일부 구성요소는 생략될 수 있다. 예를 들어, 전자 장치 100는 디스플레이, 메모리, 스피커 등을 더 포함할 수도 있다.
제어부 180는 프로세서 등을 포함하여 사운드 수신부 110, 음성 처리부 120, 전원제어부 130, 데이터 송수신부 140 등을 전반적으로 제어할 수 있다.
사운드 수신부 110는 사운드 입력을 수신하는 제1사운드 수신부 111 및 제2사운드 수신부 112를 포함할 수 있다.
제1사운드 수신부 111 및 제2사운드 수신부 112는 마이크로폰 등을 구비하여 외부에서 나는 사운드 입력을 수신하거나 저장할 수 있다. 제1사운드 수신부 111 및 제2사운드 수신부 112는 전자 장치 100와 일체형 뿐만 아니라 분리된 형태로 구현될 수 있다. 분리된 사운드 수신부는 전자 장치 100과 유선 또는 무선 네트워크를 통해 연결될 수 있다.
일 실시예에 따라 제1사운드 수신부 111은 항상 전원 공급을 수신하여 전자 장치 100 외부로부터 사운드 입력이 수신되는지를 검출할 수 있다. 즉, 제1사운드 수신부 111는 전자 장치 100의 대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되는 상태를 유지할 수 있다. 이때 사운드 수신부 111는 사용자의 음성 뿐만 아니라 다양한 오디오 신호 예를 들어 실내 노이즈 같은 소음을 수신할 수 있다. 제1사운드 수신부 111은 수신된 사운드의 크기가 이전에 입력된 사운드의 크기보다 기 설정된 값 이상으로 증가한 경우 사용자 음성이 입력된 것으로 감지할 수 있다. 이는 일반적인 가정환경이나 사무 환경에서는 사용자 음성을 제외한 다양한 오디오가 사운드 수신부를 통해 입력되기 때문이다. 이때 일반적인 가정환경이나 사무 환경에서 입력되는 노이즈는 일정한 크기를 가지고 있으므로, 사운드 수신부는 현재 입력된 사운드 크기가 평소에 입력된 사운드 크기보다 기 설정된 값 이상 증가한 경우 사용자 음성이 입력된 것으로 감지할 수 있다. 예를 들어, 평소에 입력된 사운드 크기가 20dB 인 경우, 사운드 수신부는 평소에 입력된 사운드 크기보다 기 설정된 값 (예를 들어, 12dB) 이상인 오디오 만을 사용자 음성이라고 판단할 수 있다.
또는 예를 들어, 제1사운드 수신부 111은 항상 외부로부터 수신되는 사운드 입력을 녹음하고 녹음된 사운드 입력이 미리 정한 임계치를 넘는지를 검출할 수 있다. 제1사운드 수신부 111은 검출 결과 녹음된 사운드 입력이 미리 정한 임계치를 넘지 않는 경우에, 해당 사운드 입력은 유효한 사운드가 아니라 소음이나 생활 잡음으로 판단하여, 이에 대해 아무런 액션도 취하지 않을 수 있다. 제1사운드 수신부 111은 검출 결과 녹음된 사운드 입력이 미리 정한 임계치를 넘는 경우, 해당 사운드 입력은 유효한 정보를 가진 사운드 인 것으로 판단할 수 있다. 제1사운드 수신부 111은 녹음된 사운드 입력이 유효한 사운드 인 것으로 판단한 경우, 이러한 유효한 사운드가 트리거 워드에 대응하는 지를 판단될 수 있도록, 녹음된 사운드 입력을 트리거 워드 인식부 121로 전송할 수 있다.
또한 제1사운드 수신부 111은 트리거 워드 인식부 121로부터 트리거 워드 인식 신호임을 나타내는 제어 신호를 수신하면, 사운드 입력의 음성 신호 처리를 위해, 수신되는 사운드 입력을 음성 신호 처리부 122로 전송할 수 있다. 즉, 트리거 워드 인식부 121에서 해당 사운드 입력이 트리거 워드에 대응되는 것으로 인식된 경우 전자 장치 100는 수신되는 사운드 입력을 음성 신호 처리되게 하기 위해 제1사운드 수신부 111은 사운드 입력을 음성 신호 처리부 122로 전송할 수 있다.
제2사운드 수신부 112는 평상시에는 전원이 공급되지 않아서 오프된 상태에 있을 수 있다. 제2사운드 수신부 112는 전원 제어부 130로부터 전원 제어 신호를 수신한 경우에 전원이 공급되어 파워 온 되어 동작을 할 수 있는데, 제2사운드 수신부 112는 전원이 공급되는 경우 사운드 입력을 수신하고, 수신된 사운드 입력 신호를 음성 처리부 122로 전송할 수 있다. 이러한 전원 제어부 130로부터의 전원 제어 신호는 트리거 워드 인식부 121가 사운드 입력이 트리거 워드에 대응한다고 판단된 경우 전원 제어부 130가 제2사운드 수신부 112로 전송할 수 있다. 이와 같이 수신된 사운드 입력이 트리거 워드에 해당하는 경우에 제2사운드 수신부 112로 전원이 공급되어, 제2사운드 수신부 112가 사운드 입력을 수신하는 동작을 수행하고, 평상시에는 제2사운드 수신부 112는 전원이 공급되지 않는 상태를 유지하므로 전력 소모를 방지할 수 있다.
음성 처리부 120는 사운드 수신부 110로부터 수신된 사운드 입력 신호를 처리하는 블록으로서, 트리거 워드 인식부 121과 음성 신호 처리부 122를 포함할 수 있다.
트리거 워드 인식부 121은 제1사운드 수신부 111로부터 사운드 입력을 수신하면, 수신된 사운드 입력이 미리 정한 트리거 워드에 대응하는지를 검출할 수 있다.
일 실시예에 따라, 트리거 워드 인식부 121는 하나 이상의 트리거 워드를 음향 모델, 발음 기호 등을 이용하여 미리 학습시켜 놓음으로써 트리거 워드를 인식할 수 있다. 일 실시예에 따라 트리거 워드 인식부 121는 인식 스코어의 임계치를 이용하여, 어떤 트리거 워드의 인식 스코어가 임계치를 넘는 경우에 해당 트리거 워드를 인식한 것으로 판단하고, 임계치를 넘지 않는 경우에 해당 트리거 워드를 인식하지 못한 것으로 판단할 수 있다.
트리거 워드 인식부 121은 검출 결과, 수신된 사운드 입력이 미리 정한 트리거 워드에 대응하지 않는다고 판단된 경우에는 아무런 액션을 취하지 않을 수 있다. 트리거 워드 인식부 121은 검출 결과, 수신된 사운드 입력이 미리 정한 트리거 워드에 대응한다고 판단된 경우에는, 트리거 워드 인식후 후속 동작이 수행될 수 있도록 하기 위해 트리거 워드를 인식했음을 나타내는 제어 신호를 전원 제어부 130와 제1사운드 수신부 111로 전송할 수 있다.
음성 신호 처리부 122는 평상시에는 즉, 전자 장치 100의 대기 모드 상태에서는 전원이 공급되지 않아서 오프된 상태에 있을 수 있다. 음성 신호 처리부 122는 전원 제어부 130로부터 전원 제어 신호를 수신한 경우에 전원이 공급되어 파워 온 되어 동작을 할 수 있는데, 음성 신호 처리부 122는 전원이 공급되는 경우 제1사운드 수신부로부터의 제1사운드 입력 및 제2사운드 수신부 112로부터의 제2사운드 입력을 수신하고, 제1사운드 입력 신호와 제2사운드 입력 신호를 믹싱하여 믹싱된 신호를 데이터 송수신부 140으로 전송할 수 있다. 이와 같은 제1사운드 입력 신호 및 제2사운드 입력 신호를 믹싱함으로써 음성 신호 처리부 122는 스테레오 신호를 생성할 수 있다. 또한 음성 신호 처리부 122는 원거리 음성 인식을 위한 사운드 입력 신호를 수신하므로 노이즈가 섞일 가능성이 높으므로 노이즈 제거 등의 처리를 수행할 수도 있다. 전원 제어부 130로부터의 전원 제어 신호는 트리거 워드 인식부 121가 사운드 입력이 트리거 워드에 대응한다고 판단된 경우 전원 제어부 130가 음성 신호 처리부 122로 전송할 수 있다. 이와 같이 수신된 사운드 입력이 트리거 워드에 해당하는 경우에 음성 신호 처리부 122로 전원이 공급되어, 음성 신호 처리부 122가 수신된 사운드 입력 신호에 대한 음성 처리를 수행하고, 평상시에는 음성 신호 처리부 122는 전원이 공급되지 않는 상태를 유지하므로 전력 소모를 방지할 수 있다.
전원 제어부 130는 트리거 워드 인식부 121로부터 트리거 워드 인식 신호를 수신하면, 제2사운드 수신부 112와 음성 신호 처리부 122로의 전원 공급을 제어하기 위해, 제2사운드 수신부 112와 음성 신호 처리부 122로 전원 제어 신호를 전송할 수 있다. 전원 제어 신호의 전송에 따라 해당 구성요소에는 전원이 공급되어 구성요소가 동작을 수행할 수 있는 파워 온 상태가 될 수 있다.
데이터 송수신부 140는 수신된 데이터를 전달하는 역할을 하는 블록으로, 데이터 수신부 141과 데이터 송신부 142를 포함할 수 있다. 데이터 송수신부 140는 무선 인터넷 모듈이나 근거리 통신 모듈을 이용하여 데이터를 외부에 송수신할 수 있다. 예를 들어, 무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 무선 인터넷 기술로는 WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 근거리 통신 모듈은 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
데이터 수신부 141은 음성 신호 처리부 122로부터 신호 처리된 데이터를 수신하고, 이를 데이터 송신부 142로 전달할 수 있다.
데이터 송신부 142는 데이터 수신부 141로부터 수신된 데이터를 외부 장치로 전달할 수 있다. 예를 들어, 데이터 송신부 142는 수신된 데이터를 통신 인터페이스를 통해서 외부 장치로 전송할 수 있다.
음성 인식(voice recognition)은 입력되는 음성의 형태에 따라, 각각의 단어를 구분하여 발화한 음성을 인식하는 고립단어 인식(isolated word recognition), 연속단어, 연속문장 및 대화체 음성을 인식하는 연속 음성 인식 (continuous speech recognition) 및 고립단어 인식과 연속음성 인식의 중간형태로, 미리 정해진 핵심어를 검출 하여 인식하는 핵심어 검출(keyword spotting)으로 구분될 수 있다. 사용자 음성이 입력되는 경우, 입력된 음성 신호 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 그리고, 입력된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 또한, 검출된 음성 구간 내의 음성 신호에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성한다. 그리고 나서, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 텍스트 정보를 생성한다. 이와 같은 음성 인식 동작을 수행하는 하나 이상의 모듈은 전자 장치 100 의 내부에 포함될 수 있다. 이 경우, 음성인식 모듈은 음성 처리부 120로부터 출력되는 신호를 수신하여 음성 인식 처리를 수행할 수 있다. 다른 예에 따라, 전자 장치 100는 음성 인식에 이용되는 사운드 데이터를 획득하기만 하고 획득된 사운드 데이터를 통신 인터페이스 등을 통해 다른 장치로 전송할 수 있다. 예를 들어, 전자 장치 100가 리모트 콘트롤러로 구현되는 경우, 전자 장치 100의 데이터 송신부 142는 수신된 데이터를 다양한 통신 방법을 이용하여 텔레비전 등의 디스플레이 장치로 전송할 수 있다.
도 2에 도시된 전자 장치 100에 따르면, 제2사운드 수신부 112와 음성 신호 처리부 122는 평상시에는 전원 공급 없이 파워 오프 상태로 있다가 트리거 워드 인식부 121에 의해 트리거 워드가 인식되면 전원이 공급되어 동작을 수행할 수 있다. 따라서, 제2사운드 수신부 112와 음성 신호 처리부 122는 동작 수행이 요구되는 시점에 전원이 공급되어 동작하게 되므로 항상 전원 공급될 필요가 없으므로 전력 소모를 줄일 수 있다.
이러한 제2사운드 수신부 112와 음성 신호 처리부 122는 사운드 입력을 수신하여 처리할 데이터가 있을 때 동작하게 되는 것이므로, 일단 전원 공급되어 파워 온 상태로 되었다 하더라도 더 이상 사운드 입력의 수신이 없으면 파워 오프 상태로 천이할 수 있다. 예를 들어 제2사운드 수신부 112는 외부로부터 사운드 입력이 수신되지 않는 시간이 일정 임계치를 넘어가면 파워 오프 상태로 진행할 수 있다. 또한 예를 들어 음성 신호 처리부 122도 제1사운드 수신부나 제2사운드 수신부로부터의 사운드 입력 신호의 수신이 되지 않아서 처리할 데이터가 없는 시간이 일정 임계치를 넘어가면 파워 오프 상태로 진행할 수 있다.
도 2에 도시된 실시예에 따르면 전자 장치 100의 대기 상태에서 두 개의 사운드 수신부 모두에 전원을 공급하는 형태가 아닌, 한 개의 사운드 수신부 예를 들어, 제1사운드 수신부에 전원을 공급하고 제1사운드 수신부로부터 수신된 사운드 입력으로 트리거 워드를 판단함으로써 배터리 수명을 확보할 수 있다.
그리고 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드로 인식된 경우에 제2사운드 수신부에 전원을 공급함으로써, 제1사운드 수신부로부터 수신되는 제1사운드 입력신호와 함께 제2사운드 수신부로부터 수신되는 사운드 입력을 음성 처리에 이용함으로써 원거리 음성인식을 위한 신호 수집을 효율적으로 할 수 있다.
또한 트리거 워드 인식부와 음성 신호 처리부의 전원을 분리시킴으로써, 실제로 음성 신호 처리부의 동작이 요구되는 경우에만 음성 신호 처리부에 전원을 공급함으로써 보다 전력 사용량을 최적화할 수 있다.
도 3a는 일 실시예에 따른 전자 장치의 블록도의 다른 예 100a를 나타낸다.
도 3a에 도시된 전자 장치 100a의 예에서는 키 입력 신호 수신에 의해 음성 인식 기능이 수행되는 구성을 추가적으로 포함할 수 있다. 앞서 설명한 바와 같이 원거리 음성 인식에서는 단지 사용자가 발화를 함으로써 음성 인식 기능을 수행하도록 전자 장치를 트리거하였지만 근거리 음성 인식에서는 전자 장치 100에 구비된 버튼을 누름으로써 전자 장치가 음성 인식 기능을 수행하도록 트리거할 수 있다.
도 3a을 참조하면, 전자 장치 100a는 도 2에 도시된 사운드 수신부 110, 음성 처리부 120, 전원제어부 130, 데이터 송수신부 140 외에 스위치 150, 사용자 입력부 160를 더 포함할 수 있다.
도 2에 도시된 구성요소와 동일한 참조번호에 대응하는 구성요소는 도 2에 도시된 구성요소와 실질적으로 동일한 기능을 수행할 수 있다. 다만, 도 3a에 도시된 전자 장치 100는 버튼 누름에 의해 트리거되는 음성 인식 기능을 위한 플로우를 위해 스위치 150를 더 포함할 수 있다.
사용자 입력부 160는 전자 장치 100a를 제어하기 위한 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력부 160는 전자 장치 100a의 외부에 배열된 하나 이상의 물리적 버튼을 포함하거나 또는 터치 입력 인터페이스 등을 포함할 수 있다. 사용자 입력부 160는 음성 인식 기능을 지시하는 사용자 입력 신호를 수신하면 이러한 사용자 입력 신호에 대응하는 제어 신호를 스위치 150과 전원제어부 130으로 전송될 수 있다. 이와 같이 음성 인식 기능을 지시하는 사용자 입력 신호에 대응하는 제어 신호는 간단히"키 입력 신호"로 언급될 수 있다. .
스위치 150는 키 입력 신호에 의해 트리거될 수 있다. 예를 들어, 스위치 150는 전자 장치 100에 구비된 음성 인식 기능 버튼이 눌려짐에 의해 발생하는 키 입력 신호에 따라 제어 신호를 수신할 수 있다. 스위치 150는 키 입력 신호에 따른 제어 신호를 수신한 경우에, 제2사운드 수신부 112로부터 수신되는 사운드 입력 신호를 바로 데이터 수신부 141로 전달할 수 있다. 즉, 키 입력 신호가 수신되었다는 것은 사용자로부터 전자 장치 100a를 쥐고, 전자 장치 100에 구비된 버튼을 누름으로써 음성인식 기능을 트리거하는 것을 의미하므로 전자 장치 100a는 사용자에게 아주 근접하게 위치하고 있다는 것을 나타낼 수 있다. 따라서, 사운드 수신부 110에 포함된 사운드 수신부 111, 112 모두를 이용하여 사운드 입력을 수신할 필요 없이 하나의 사운드 수신부 112만으로 사운드 입력을 수신하는 것에 의해 음성 인식을 위한 데이터를 충분히 수집할 수 있다고 보므로, 스위치 150는 제2사운드 수신부 112로부터 수신되는 제2사운드 입력 신호를 그대로 데이터 수신부 141로 전달하도록 동작할 수 있다.
전원 제어부 130는 키 입력 신호에 따른 제어 신호를 수신한 경우에, 제2사운드 수신부 112로 전원을 공급하기 위한 전원 제어 신호를 전송할 수 있다. 따라서 이러한 전원 제어 신호를 수신한 제2사운드 수신부는 전원이 공급되어 파워 온되고 사운드 입력을 수신하여, 수신된 사운드 입력을 스위치 150으로 전달할 수 있다.
일 실시예에 따라 전원 제어부 130는 키 입력 신호 수신에 의한 음성인식 기능(근거리 음성인식 기능)이 수행되는 동안에는 트리거 워드 인식 동작은 불필요하므로, 키 입력에 의해 근거리 음성인식이 시작되면 제1사운드 수신부 111에 전원 공급을 중단하고, 근거리 음성인식이 종료된 후 다시 제1사운드 수신부 111에 전원을 공급하도록 제어할 수 있다.
일 실시예에 따라, 전원 제어부 130는 통상의 사용 상태에서는 사용자의 발화를 대상으로 음성 인식 기능을 수행하는 원거리 음성 인식을 위해 제1사운드 수신부 111에는 항상 전원이 공급되도록 하고 제2사운드 수신부 112는 트리거 워드가 인식된 경우에 음성 처리를 위해 전원 공급되도록 제어할 수 있다.
일 실시예에 따라, 전원 제어부 130는 위와 같이 통상의 사용 상태에서는 원거리 음성 인식을 위해 제1사운드 수신부 111에는 항상 전원이 공급되도록 하지만, 키 입력 신호를 수신하여 근거리 음성 인식을 수행하는 경우에는 제2사운드 수신부 112의 사운드 입력 수신으로 동작을 수행할 수 있으므로, 제1사운드 수신부 111에는 전원 공급을 중단함으로써 추가적인 저전력 소비를 구현할 수 있다. 그리고 제2사운드 수신부 112를 통한 근거리 음성 인식 동작이 종료된 경우에 전원 제어부 130는 원거리 음성 인식 준비를 위해 제1사운드 수신부 111에 전원 공급을 재개하는 한편 제2사운드 수신부 112에는 전원공급을 중단할 수 있다.
도 3a에 도시된 예에서 원거리 음성 인식 기능을 수행하는 경우에는 도 2에서 설명한 바와 마찬가지의 동작이 수행될 수 있다. 다만, 이 경우에는 스위치 150는 제2사운드 수신부 112로부터 수신된 제2사운드 입력을 그대로 데이터 수신부 141로 전달하는 것이 아니라, 음성 처리부 120의 음성 신호 처리부 122로 전달할 수 있다.
즉, 이와 같은 스위치 150에 의해 근거리 음성 인식 기능을 수행하는 경우 스위치 150는 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호를 그대로 데이터 수신부 141로 전달하고, 원거리 음성 인식 기능을 수행하는 경우 스위치 150는 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호를 제1사운드 입력 신호와의 믹싱 작업을 위해 음성 신호 처리부 122로 전달할 수 있다.
도 3b는 일 실시예에 따른 전자 장치의 블록도의 또 다른 예 100b를 나타낸다.
도 3b에 도시된 전자 장치의 예에서는 키 입력 신호 수신에 의해 음성 인식 기능이 수행되는 구성을 추가적으로 포함할 수 있다. 도 3a에 도시된 예에서는, 근거리 음성 인식 기능의 경우, 사운드 수신부에 포함된 사운드 수신부들중 하나의 사운드 수신부를 이용하여 사운드 입력을 수신하고 이를 그대로 데이터 전달부로 전달하기 위한 스위치를 구비하였지만, 도 3b에 도시된 예에서는, 근거리 음성 인식 기능의 경우에도, 사운드 수신부에 포함된 사운드 수신부 2개 모두를 이용하여 음성 신호를 처리하는 예를 설명한다.
따라서, 키 입력 신호에 따른 제어 신호는 전원제어부 130 및 제1사운드 수신부 111로 전송될 수 있다.
제1사운드 수신부 111은 키 입력 신호에 따른 제어 신호를 수신한 경우, 제1사운드 수신부가 수신한 제1사운드 입력 신호를 음성 신호 처리부 122로 전달할 수 있다.
전원 제어부 130는 키 입력 신호에 따른 제어 신호를 수신한 경우에, 제2사운드 수신부 112 및 음성 신호 처리부 122로 전원을 공급하기 위한 전원 제어 신호를 전송할 수 있다. 따라서 이러한 전원 제어 신호를 수신한 제2사운드 수신부 112는 전원이 공급되어 파워 온되고 제2사운드 입력을 수신하여, 수신된 제2 사운드 입력을 음성 신호 처리부 122로 전달할 수 있다. 또한 전원 제어 신호를 수신한 음성 신호 처리부 122는 전원이 공급되어 파워 온되고, 제1사운드 수신부 111로부터 제1사운드 입력 신호 및 제2사운드 수신부 112로부터 제2사운드 입력 신호를 수신하고, 제1사운드 입력 신호와 제2사운드 입력 신호를 믹싱하여 데이터 송수신부 140로 출력할 수 있다.
즉, 전자 장치 100b에서 음성 인식 기능이 버튼 누름에 의해 시작되었다고 하더라도 음성 인식 기능이 시작된 이후에 사용자와 전자 장치 100b의 거리는 멀어질 수 있기 때문에, 전자 장치 100는 하나의 사운드 수신부만에 의해서가 아닌, 두개의 사운드 수신부인 제1사운드 수신부 111 및 제2사운드 수신부 112 모두에 의해 사운드 입력을 수신하여 동작하도록 구현될 수 있다.
도 4는 일 실시예에 따라 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 4를 참조하면, 동작 410에서, 전자 장치 100는 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식할 수 있다.
예를 들어, 전자 장치 100는 마이크로폰 등을 이용하여 지속적으로 외부로부터 수신되는 사운드를 녹음하고 녹음된 사운드 중 유효한 사운드를 가진다고 판단될 때 녹음된 사운드가 트리거 워드에 대응하는지를 판단할 수 있다. 전자 장치 100는 녹음된 사운드를 미리 정해진 또는 미리 저장된 트리거 워드와 비교해보고, 비교결과 트리거 워드에 대응된다고 판단하는 기준이 되는 임계치를 넘는다면 트리거 워드로 인식하고, 비교 결과 트리거 워드에 대응된다고 판단하는 기준이 되는 임계치를 넘지 않는다면 트리거 워드가 아닌 것으로 인식할 수 있다.
동작 420에서, 전자 장치 100는 트리거 워드가 인식됨에 따라 제2사운드 수신부 및 음성 신호 처리부에 전원이 공급되도록 전원 제어 신호를 출력할 수 있다. 이와 같이 제2사운드 수신부에 전원 제어 신호가 수신되면 제2사운드 수신부는 전원이 공급되어 파워 온 됨으로써, 외부로부터 사운드 입력을 수신하여 수신된 사운드 입력 신호를 음성 신호 처리부에 전달할 수 있게 된다. 음성 신호 처리부에 전원 제어 신호가 수신되면 음성 신호 처리부는 전원이 공급되어 파워 온 됨으로써, 음성 신호 처리부가 수신하는 사운드 입력 신호를 처리할 수 있게 된다.
동작 430에서, 전자 장치 100는 전원이 공급된 음성 신호 처리부에 의해, 제1사운드 수신부로부터 공급되는 제1사운드 입력 신호 및 제2사운드 수신부로부터 공급되는 제2사운드 입력 신호를 수신하고, 제1사운드 입력 신호 및 제2사운드 입력 신호를 믹싱하여 스테레오 사운드를 생성하고 생성된 스테레오 사운드를 출력할 수 있다.
도 5는 일 실시예에 따라 전자 장치에서 음성 인식 기능 동작의 구체적인 흐름도이다.
도 5를 참조하면, 동작 501에서 제1사운드 수신부 111는 외부로부터 사운드 입력을 지속적으로 수신할 수 있다. 예를 들어, 제1사운드 수신부 111는 외부로부터 수신되는 사운드 입력을 지속적으로 저장할 수 있다.
동작 502에서, 제1사운드 수신부 111는 저장된 사운드 입력이 유효한 사운드 정보를 가지는지를 판단할 수 있다. 예를 들어, 제1사운드 수신부 111는 저장된 사운드 입력이 유효한 사운드 정보를 가지는 지 아니면 일상적인 소음 신호 만을 갖고 있는지 판단하기 위해 저장된 사운드 입력의 소정 특성이 미리 정한 임계치를 넘는지를 판단할 수 있다. 제1사운드 수신부 111는 저장된 사운드 입력의 소정 특성이 미리 정한 임계치를 넘지 않는다고 판단한 경우에, 이는 특정한 액션을 취할 필요가 없으므로 제1사운드 수신부 111는 별다른 동작을 수행하지 않는다.
동작 503에서, 제1사운드 수신부 111는 저장된 사운드 입력의 소정 특성이 미리 정한 임계치를 넘는다고 판단한 경우, 이 사운드 입력이 트리거 워드에 대응하는지 알아보기 위해 저장된 사운드 입력을 트리거 워드 인식부 121로 전송할 수 있다.
동작 504에서, 제1사운드 수신부 111로부터 입력 사운드를 수신한 트리거 워드 인식부 121는 수신된 입력 사운드가 트리거 워드에 대응하는지를 판단할 수 있다.
동작 505에서, 트리거 워드 인식부 121가 트리거 워드 인식 결과, 입력 사운드에서 트리거 워드를 인식했다고 판단한 경우, 트리거 워드 인식부 121는 트리거 워드가 인식되었음을 나타내는 트리거 워드 인식 신호를 제1사운드 수신부 111로 전송할 수 있다.
동작 506에서, 트리거 워드 인식부 121는 트리거 워드 인식 신호를 전원 제어부 130으로 전송할 수 있다.
트리거 워드 인식 신호를 수신한 전원 제어부 130는 전원 제어 신호를 음성 신호 처리부 122로 전송하고 (동작 507), 전원 제어 신호를 제2사운드 수신부 112로 전송 (동작 508)할 수 있다. 음성 신호 처리부 122는 평상시에는 전원 공급이 되지 않아 파워 오프 상태로 있다가 전원 제어부 130로부터 전원 제어 신호를 수신함에 따라 음성 신호 처리부 122는 이러한 전원 제어 신호에 의해 전원이 공급되어 파워 온 상태로 되고, 동작을 수행할 준비 상태에 들어가게 될 수 있다. 제2사운드 수신부 112 또한 평상시에는 전원 공급이 되지 않아 파워 오프 상태로 있다가 전원 제어부 130로부터 전원 제어 신호를 수신함에 따라 제2사운드 수신부 112는 이러한 전원 제어 신호에 의해 전원이 공급되어 파워 온 상태로 되고, 동작을 수행할 준비 상태에 들어가게 될 수 있다.
동작 509에서, 전원이 공급된 제2사운드 수신부 112는 외부로부터 사운드 입력을 수신하여 수신된 사운드 입력 신호를 음성 신호 처리부 122로 전송할 수 있다. 즉, 전자 장치 100에서 트리거 워드가 인식 되기 전 까지는 제1사운드 수신부 111만 동작하여 트리거 워드를 담고 있는 사운드 입력을 수신할 때까지 사운드 입력을 모니터링 하지만, 트리거 워드가 인식되고 나서는 제2사운드 수신부 112도 깨어나서 동작하게 되므로 제1사운드 수신부 및 제2사운드 수신부 모두 사운드 입력을 수신하여 이를 음성 신호 처리부로 전송할 수 있다.
동작 510에서, 앞서 동작 505에서 트리거 워드 인식 신호를 수신한 제1사운드 수신부 111는 입력 사운드를 음성 신호 처리부 122로 전송할 수 있다. 즉, 트리거 워드 인식 전에는 제1사운드 수신부 111는 트리거 워드가 입력 사운드에 포함되었는지를 검출하기 위해 제1사운드 수신부 111는 입력 사운드를 트리거 워드 인식부 121로 전송하는 역할을 하였지만, 트리거 워드 인식 후에 제1사운드 수신부 111는 수신되는 입력 사운드의 음성 처리를 위해, 입력 사운드를 음성 신호 처리부 122로 전송할 수 있다.
동작 511에서, 음성 신호 처리부 122는 제1사운드 수신부 111로부터 수신된 제1사운드 입력 신호와 제2사운드 수신부 112로부터 수신된 제2사운드 입력 신호를 믹싱하여 음성 신호 처리할 수 있다.
동작 512에서, 음성 신호 처리부 122는 처리한 음성 신호를 데이터 송수신부 140으로 전송할 수 있다.
도 6은 일 실시예에 따라 전자 장치에서 음성 인식 기능 동작의 구체적인 흐름도이다.
도 6을 참조하면, 동작 601에서, 사용자 입력부 160는 음성 인식 기능을 지시하는 사용자 입력을 수신할 수 있다. 예를 들어 음성 인식 기능을 지시하는 사용자 입력은 사용자 등에 의해 음성 인식 기능 버튼 누름 신호 등을 포함할 수 있다.
동작 602에서, 사용자 입력부 160는 음성 인식 기능을 지시하는 사용자 입력에 대응하여 생성되는 키 입력 신호를 전원 제어부 130에 전달할 수 있다.
동작 603에서, 전원 제어부 130는 키 입력 신호를 수신함에 따라 키 입력에 따른 음성 인식 기능을 위해 전원 제어 신호를 제2 사운드 수신부 112로 전송할 수 있다.
동작 604에서, 전원 제어부 130는 키 입력 신호를 수신함에 따라 키 입력에 따른 음성 인식 기능이 수행될 것이고, 원거리 음성 인식을 위해 전원이 공급되고 있던 제1사운드 수신부 111는 키 입력에 따른 음성 인식 기능 수행을 위해 제2사운드 수신부 112가 동작하는 동안 제1 사운드 수신부 111는 동작하지 않아도 될 수 있으므로, 제1사운드 수신부 111에는 전원 공급 차단을 위한 제어 신호를 전송할 수 있다. 동작 605에서, 평상시에는 전원 공급되지 않아서 파워 오프 상태에 있던 제2사운드 수신부 112는 전원제어부 130로부터 수신된 전원 제어 신호에 의해 전원이 공급되어 파워 온 됨으로써 입력 사운드를 수신할 수 있다.
동작 606에서, 제2사운드 수신부 112는 수신된 입력 사운드를 데이터 송수신부 140으로 전송할 수 있다.
키 입력에 따라 음성 인식 기능을 수행하기 위한 사운드 입력이 제2사운드 수신부 112에서 더 이상 수신되지 않는 경우에, 전원제어부 130는 전자 장치 100를 다시 대기 모드로 진입하게 하기 위해 제1사운드 수신부 111로는 전원을 공급하도록 하는 전원 제어 신호를 전송하고 제2사운드 수신부 112로는 전원공급을 차단하도록 하는 전원 제어 신호를 전송할 수 있다.
도 7은 일 실시예에 따른 전자 장치의 또 다른 예를 나타낸다.
도 7을 참조하면, 또 다른 예에 따른 전자 장치 100c가 적용되는 시스템은, 디스플레이 장치 10, 전자 장치 100c 및 디스플레이 장치 10와 전자 장치 100c가 통신하는 네트워크 70를 포함할 수 있다.
일 실시예에 따라 전자 장치 100c는 사운드 수신부 110, 트리거 워드 인식부 121, 전원제어부 130, 데이터 송수신부 140, 및 사용자 입력부 160, 제어부 180를 포함할 수 있다. 전자 장치 100c의 적어도 일부 구성, 예를 들어 사운드 수신부 110, 트리거 워드 인식부 121, 전원제어부 130, 데이터 송수신부 140, 및 사용자 입력부 160는 제어부 180에 전기적으로 연결될 수 있다.
도 7에 도시된 전자 장치 100c는 도 2에 도시된 전자 장치 100과 유사하지만, 음성 신호 처리부 122를 포함하지 않는 점에서 차이가 있다.
도 2에 도시된 전자 장치 100에서는 음성 신호 처리부 122가 제1사운드 수신부 111로부터의 제1사운드 입력 신호 및 제2사운드 수신부 112로부터의 제2사운드 입력 신호를 믹싱하거나 필터링 과 같은 처리를 하고 믹싱된 신호를 외부로 출력하였다. 그러나 도 7에 도시된 전자 장치 100c에서는 이러한 음성 신호 처리부는 전자 장치 100c에 포함되어 있지 않고, 디스플레이 장치 10가 음성 신호 처리부 역할을 하는 음성 신호 처리 모듈 16을 포함한다. 따라서, 도 7에 도시된 전자 장치 100c는 수신한 제1사운드 입력 신호와 제2사운드 입력 신호에 대해서 음성 신호 처리 없이 디스플레이 장치 10로 전송하면 디스플레이 장치 10는, 수신된 제1사운드 입력 신호와 제2사운드 입력 신호의 믹싱이나 필터링 처리를 할 수 있다.
도 7에 도시된 전자 장치 100c의 구성요소는 도 2에 도시된 전자 장치 100c의 동일 번호 참조된 구성요소와 동일한 기능을 수행하므로 중복적인 설명은 생략하고, 도 2에 도시된 전자 장치 100의 구성요소의 동작과 차이가 있는 동작에 대해서 설명한다.
일 실시예에 따라, 대기 상태에서 전원이 공급되는 제1사운드 수신부 111로부터 사운드 입력 신호를 수신한 트리거 워드 인식부 121는 수신된 사운드 입력 신호가 트리거 워드에 대응하는지를 인식하고, 트리거 워드에 대응한다고 판단된 경우 전원제어부 130에 트리거 워드 인식 신호를 전송할 수 있다. 트리거 워드 인식 신호를 수신한 전원제어부 130는 제2사운드 수신부 112에 전원을 공급하도록 제어함으로써 제2사운드 수신부 112가 사운드 입력을 수신하도록 제어할 수 있다. 제1사운드 수신부 111에 의해 수신된 제1사운드 입력 신호와 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호는 음성 신호 처리 없이 바로 데이터 송수신부 140로 전달되고 데이터 송수신부 140는 수신된 제1사운드 입력 신호 및 제2 사운드 입력 신호를 네트워크 70을 통해 디스플레이 장치 10로 전달할 수 있다.
일 실시예에 따라 사용자 입력부 160으로부터 키 입력 신호를 수신한 전원 제어부 130는 제2사운드 수신부 112에 전원이 공급되도록 제어하여 제2사운드 수신부 112가 사운드 입력을 수신하도록 제어할 수 있다. 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호는 바로 데이터 송수신부 140로 전달되고 데이터 송수신부 140는 수신된 제2사운드 입력 신호를 디스플레이 장치 10로 전송할 수 있다.
일 실시예에 따라 사용자 입력부 160으로부터 키 입력 신호를 수신한 전원 제어부 130가 제2사운드 수신부 112에 전원이 공급되도록 제어할 때, 전원 제어부 130는 제1사운드 수신부 111로의 전원공급이 차단되도록 전원을 제어할 수 있다. 이와 같이 키 입력 신호에 따라 제2사운드 수신부 112로부터의 제2사운드 입력 신호만을 디스플레이 장치 10로 전송하는 경우에는 제1사운드 수신부 112로부터의 전원 공급을 차단함으로써 추가적인 저전력을 가능하게 할 수 있다. 또한 일 실시예에 따라 키 입력 신호에 따른 음성 수신이 종료된 경우 즉, 더 이상 제2사운드 수신부 112를 통해 사운드 입력이 수신되지 않는 경우, 전원제어부 130는 전자 장치 100c를 대기 상태로 전환하기 위해 제2사운드 수신부 112로의 전원 공급을 중단하고 제1사운드 수신부 111로 전원 공급이 재개되도록 전원을 제어할 수 있다.
일 실시예에 따라 디스플레이 장치 10은 디스플레이 11, 통신 인터페이스 12, 프로세서 13, 메모리 14, 및 음성인식 모듈 15를 포함할 수 있다. 디스플레이 장치 10의 적어도 일부 구성, 예를 들어 디스플레이 11, 통신 인터페이스 12, 메모리 14, 및 음성인식 모듈 15은 프로세서 13에 전기적으로 연결될 수 있다. 다양한 실시 예에서, 디스플레이 장치 10는 전자 장치, 컴퓨팅 장치로도 명명될 수 있다. 디스플레이 장치 10는 도 7에 도시된 구성요소 외에 구성요소를 더 포함할 수 있거나, 일부 구성요소는 생략될 수 있다.
일 실시예에 따라 디스플레이 11는 이미지나 비디오, 및/또는 어플리케이션의 실행 화면을 표시할 수 있다.
일 실시 예에 따른 통신 인터페이스 12는 전자 장치 100c와 규정된 프로토콜(protocol)에 따른 유선 통신 또는 무선 통신을 수립할 수 있다. 통신 인터페이스 12는 상기 유선 통신 또는 무선 통신을 기반으로 전자 장치 100c로부터 음성 인식에 이용될 사운드 입력 신호를 수신할 수 있다.
통신 인터페이스 12는 디스플레이 장치 10과 무선 통신 시스템 사이 또는 디스플레이 장치 10과 다른 전자 장치가 위치한 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신 인터페이스 12는 방송 수신 모듈, 이동통신 모듈, 무선 인터넷 모듈 및 근거리 통신 모듈을 포함할 수 있다. 통신 인터페이스 12는 송/수신부로 호칭될 수 있다.
방송 수신 모듈은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 이동통신 모듈은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 무선 인터넷 기술로는 WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 근거리 통신 모듈은 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
일 실시예에 따라 메모리 14는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
일 실시 예에 따라 메모리 14는 복수의 어플리케이션을 저장할 수 있다. 메모리 14에 저장된 복수의 어플리케이션은 사용자 입력에 따라 선택되어 실행되고 동작할 수 있다. 일 실시 예에 따라 메모리 14는 복수의 어플리케이션을 저장하고, 복수의 어플리케이션은 프로세서 13에 로드되어 동작할 수 있다.
일 실시예에 따라, 프로세서 13는 디스플레이 장치 10의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서 13는 메모리 14를 제어하여 필요한 정보를 불러오거나 저장할 수 있다.
일 실시 예에서, 프로세서13는 메모리14에 저장된 명령어들을 실행하여 컨텐츠 공유 어플리케이션을 구동시킬 수 있다. 본 발명의 다양한 실시 예에서 언급되는 여러 모듈들은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 결합으로 구현될 수도 있다.
일 실시예에 따라 음성 인식 모듈 15는 전자 장치 100c로부터 수신한 사운드 입력 신호를 기초로 음성 인식 기능을 수행할 수 있다. 또한, 음성 인식 모듈 15는 음성 신호 처리 모듈 16을 포함할 수 있다. 음성 신호 처리 모듈 16은 전자 장치 100c로부터 원거리 음성 인식 기능에 따라 제1사운드 입력 신호와 제2사운드 입력 신호를 수신한 경우에, 이러한 제1사운드 입력 신호와 제2사운드 입력 신호를 믹싱하거나, 노이즈 제거 필터 처리 등을 할 수 있다. 이러한 음성 인식 모듈 15는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 음성 신호 처리 모듈 16은 전자 장치 100c로부터 근거리 음서 인식 기능에 따라 제2사운드 입력 신호를 수신한 경우에, 이러한 제2사운드 입력 신호에 노이즈 제거 필터 처리 등을 할 수 있다. 원거리 음성 인식을 위한 사운드 입력 신호에 이용되는 노이즈 제거 필터 처리는 근거리 음성 인식을 위한 사운드 입력 신호에 이용되는 노이즈 제거 필터 처리와 다르게 구현될 수 있다.
도 8은 일 실시예에 따른 전자 장치의 또 다른 예를 나타낸다.
도 8을 참조하면, 또 다른 예에 따른 전자 장치 100d가 적용되는 시스템은, 도 7에 도시된 시스템과 동일하다. 다만, 전자 장치 100d는 전자 장치 100c와 달리 플래그 삽입부 170룰 더 포함할 수 있다.
도 8에 도시된 전자 장치 100d는 음성 신호 처리부를 포함하지 않으므로, 트리거 워드 인식에 따라 수신된 제1사운드 입력 신호와 제2사운드 입력 신호가 음성 신호 처리 없이 그대로 디스플레이 장치 10으로 전송되거나 또는 키 입력 신호에 따라 제2사운드 입력 신호가 그대로 디스플레이 장치 10로 전송될 수 있다. 이 경우, 트리거 워드 인식에 따라 전달되는 제1사운드 입력 신호와 제2사운드 입력 신호는 디스플레이 장치 10에서 하나의 신호로 믹싱하는 작업이 필요할 수 있다. 또는 트리거 워드 인식에 따라 전달되는 제1사운드 입력 신호와 제2사운드 입력 신호는 키 입력 신호에 따라 전달되는 제2사운드 입력 신호에 이용되는 노이즈 제거 필터와는 다른 노이즈 제거 필터를 필요할 수 있다. 이를 위해서는 전자 장치에서 디스플레이 장치로 보내는 사운드 신호가 트리거 워드 인식에 따라 원거리 음성 인식을 위해 전송되는 신호인지, 키 입력 신호에 따라 근거리 음성 인식을 위해 전송되는 신호인지를 구별하기 위한 플래그 정보를 부가함으로써, 디스플레이 장치에게 어떤 신호에 관한 것인지를 알게 해주는 것이 바람직할 수 있다. 따라서, 도 8에 도시된 전자 장치 100d에서는 플래그 정보 추가를 위한 플래그 삽입부 170을 더 포함할 수 있다.
일 실시예에 따라, 대기 상태에서 전원이 공급되는 제1사운드 수신부 111로부터 사운드 입력 신호를 수신한 트리거 워드 인식부 121는 수신된 사운드 입력 신호가 트리거 워드에 대응하는지를 인식하고, 트리거 워드에 대응한다고 판단된 경우 전원제어부 130 및 플래그 삽입부 170에 트리거 워드 인식 신호를 전송할 수 있다. 트리거 워드 인식 신호를 수신한 전원제어부 130는 제2사운드 수신부 112에 전원을 공급하도록 제어함으로써 제2사운드 수신부 112가 사운드 입력을 수신하도록 제어할 수 있다. 플래그 삽입부 170는 제1사운드 수신부 111에 의해 수신된 제1사운드 입력 신호와 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호를 수신하고, 해당 신호들을 데이터 송수신부 140에 전달하기 전에, 트리거 워드 인식에 따른 신호임을 나타내는 플래그를 삽입하고, 플래그가 삽입된 신호를 데이터 송수신부 140로 전달할 수 있다. 이와 같은 플래그가 삽입된 신호를 수신한 디스플레이 장치 10의 음성 신호 처리 모듈 16은 수신된 신호를 파싱함으로써 플래그를 획득하고, 플래그에 따라서 수신된 신호인 제1사운드 입력 신호와 제2사운드 입력 신호가 원거리 음성 인식을 위한 신호임을 확인하고, 그에 따라 제1사운드 입력 신호와 제2사운드 입력 신호를 믹싱 하는 처리 또는 원거리 음성 인식에 적합한 노이즈 제거 필터 처리를 수행할 수 있다.
일 실시예에 따라 사용자 입력부 160가 키 입력을 수신한 경우 사용자 입력 인터페이스 150는 전원제어부 130로 키 입력 신호를 전달할 뿐만 아니라 플래그 삽입부 170에 키 입력 신호를 전달할 수 있다. 키 입력 신호를 수신한 전원 제어부 130는 제2사운드 수신부 112에 전원이 공급되도록 제어하여 제2사운드 수신부 112가 사운드 입력을 수신하도록 제어할 수 있다. 제2사운드 수신부 112에 의해 수신된 제2사운드 입력 신호는 플래그 삽입부 160에 전달되고, 플래그 삽입부 170는 사용자 입력부 160로부터 수신된 키 입력 신호에 기반하여, 근거리 음성 인식을 위한 신호임을 나타내는 플래그를 삽입하고, 플래그가 삽입된 신호를 데이터 송수신부 140로 달할 수 있다. 이와 같은 플래그가 삽입된 신호를 수신한 디스플레이 장치 10의 음성 신호 처리 모듈 16은 수신된 신호를 파싱함으로써 플래그를 획득하고, 플래그에 따라서 근거리 음성 인식에 적합한 노이즈 제거 필터 처리를 수행할 수 있다.
위 설명에서는 트리거 워드 인식에 따라 보내지는 사운드 입력 신호들과 키 입력 신호에 따라 보내지는 사운드 입력 신호에 별도의 플래그를 삽입하는 방법을 설명하였지만, 실시예들은 이에 한정되지 않는다. 원거리 음성 인식을 위해 보내지는 신호와 근거리 음성 인식을 위해 보내지는 신호를 구별시킬 수 있는 플래그가 삽입되면 충분한다.
원거리 음성 인식을 위해 보내지는 신호와 근거리 음성 인식을 위해 보내지는 신호의 구별을 위해, 예를 들어, 제1사운드 입력 신호에 플래그를 삽입하는 방법도 고려할 수 있다. 위 설명된 예에서, 트리거 워드 인식에 따라서는 제1사운드 입력 신호와 제2사운드 입력 신호를 함께 전달하고, 키 입력 신호에 따라서는 제2사운드 입력 신호를 전달하므로, 제1사운드 입력 신호에만 플래그를 삽입한다면, 디스플레이 장치 10는 제1사운드 입력 신호에 삽입된 플래그를 참조하여, 원거리 음성 인식에 따른 음성 처리가 필요한 것으로 판단할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서,'비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시예들에 따른 제어 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 디바이스의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 디바이스로 구성되는 시스템에서, 서버의 저장매체 또는 디바이스의 저장매체를 포함할 수 있다. 또는, 서버 또는 디바이스와 통신 연결되는 제 3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제 3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 디바이스 또는 제 3 장치로 전송되거나, 제 3 장치로부터 디바이스로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 디바이스 및 제 3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 디바이스 및 제 3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 디바이스가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제 3 장치가 컴퓨터 프로그램 제품을 실행하여, 제 3 장치와 통신 연결된 디바이스가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다. 제 3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제 3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드 된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제 3 장치는 프리로드 된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (17)

  1. 전자 장치에 있어서,
    대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되어 사운드 입력을 수신하는 제1사운드 수신부,
    상기 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식하는 트리거 워드 인식부, 상기 트리거 워드 인식부에 의해 상기 트리거 워드가 인식됨에 따라 전원이 공급되어, 상기 사운드 입력을 수신하는 제2사운드 수신부,
    상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 출력하는 데이터 송수신부를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 트리거 워드 인식부로부터 상기 트리거 워드가 인식되었음을 나타내는 제어 신호를 수신함에 따라, 상기 제2사운드 수신부에 전원이 공급되도록 제어하는 전원제어부를 더 포함하는, 전자 장치.
  3. 제2항에 있어서,
    상기 트리거 워드 인식부에 의해 상기 트리거 워드가 인식됨에 따라 전원이 공급되어, 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 수신하고, 상기 제1사운드 입력 신호 및 상기 제2사운드 입력 신호를 처리하는 음성 신호 처리부를 더 포함하는, 전자 장치.
  4. 제3항에 있어서,
    상기 전원제어부는,
    상기 트리거 워드 인식부로부터 상기 트리거 워드가 인식되었음을 나타내는 제어 신호를 수신함에 따라, 제2사운드 수신부에 전원이 공급되도록 제어하는, 전자 장치.
  5. 제1항에 있어서,
    상기 음성 신호 처리부는, 상기 제1 사운드 입력 신호와 상기 제2 사운드 입력 신호를 믹싱하여 스테레오 신호를 생성하는, 전자 장치.
  6. 제2항에 있어서,
    상기 전원제어부는, 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부에 전원을 공급하고, 상기 제1사운드 수신부로의 전원 공급을 차단하고,
    상기 데이터 송수신부는, 제2사운드 수신부전원 공급에 따라 동작하는 상기 제2사운드 수신부로부터 상기 제2사운드 입력 신호를 수신하여 출력하는, 전자 장치.
  7. 제6항에 있어서,
    상기 데이터 송수신부는,
    상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호에, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호를 상기 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별시키는 플래그를 삽입하여 출력하는, 전자 장치.
  8. 제7항에 있어서,
    상기 플래그에 기반하여, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호는, 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별되는 음성 처리가 수행되는, 전자 장치.
  9. 제6항에 있어서,
    상기 제2사운드 수신부에 연결된 스위치를 더 포함하고,
    상기 스위치는, 상기 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부로부터 공급되는 상기 제2사운드 입력 신호를 상기 데이터 송수신부로 전송하거나 또는 상기 트리거 워드 인식에 따라 상기 제2사운드 입력 신호를 상기 제1사운드 입력 신호와의 처리를 수행하는 음성 신호 처리부로 전송하는, 전자 장치.
  10. 전자 장치의 동작 방법에 있어서,
    대기 상태에서 사운드 입력의 수신을 위해 전원이 공급되는 제1사운드 수신부에 의해 사운드 입력을 수신하는 동작,
    상기 제1사운드 수신부로부터 수신된 사운드 입력이 트리거 워드에 대응하는지를 인식하는 동작,
    상기 트리거 워드가 인식됨에 따라 전원이 공급되는 제2사운드 수신부에 의해 상기 사운드 입력을 수신하는 동작, 및
    데이터 송수신부에 의해 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 출력하는 동작을 포합하는, 전자 장치의 동작 방법.
  11. 제10항에 있어서,
    전원제어부에 의해, 상기 트리거 워드가 인식되었음을 나타내는 제어 신호를 수신함에 따라, 상기 제2사운드 수신부에 전원이 공급되도록 제어하는 동작을 더 포함하는, 전자 장치의 동작 방법.
  12. 제11항에 있어서,
    상기 트리거 워드가 인식됨에 따라 전원이 공급된 음성 신호 처리부에 의해, 상기 제1사운드 수신부로부터 공급되는 제1 사운드 입력 신호 및 상기 제2사운드 수신부로부터 공급되는 제2 사운드 입력 신호를 수신하고, 상기 제1사운드 입력 신호 및 상기 제2사운드 입력 신호를 처리하는 동작을 더 포함하는, 전자 장치의 동작 방법.
  13. 제12항에 있어서,
    상기 음성 신호 처리부에 의해, 상기 제1 사운드 입력 신호와 상기 제2 사운드 입력 신호를 믹싱하여 스테레오 신호를 생성하는 동작을 더 포함하는, 전자 장치의 동작 방법.
  14. 제11항에 있어서,
    상기 전원제어부에 의해, 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부에 전원을 공급하고, 상기 제1사운드 수신부로의 전원 공급을 차단하는 동작, 및
    상기 데이터 송수신부에 의해, 상기 전원 공급에 따라 동작하는 상기 제2사운드 수신부로부터 상기 제2사운드 입력 신호를 수신하여 출력하는 동작을 더 포함하는, 전자 장치의 동작 방법.
  15. 제14항에 있어서,
    상기 데이터 송수신부에 의해, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호에, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호를 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별시키는 플래그를 삽입하여 출력하는 동작을 더 포함하는, 전자 장치의 동작 방법.
  16. 제15항에 있어서,
    상기 플래그에 기반하여, 상기 키 입력 신호에 따라서 출력되는 상기 제2사운드 입력 신호는, 상기 트리거 워드 인식에 따라 출력되는 상기 제1 사운드 입력 신호 및 상기 제2 사운드 입력 신호와 구별되는 음성 처리가 수행되는, 전자 장치의 동작 방법.
  17. 제14항에 있어서,
    스위치에 의해, 상기 음성 인식 기능을 요청하는 키 입력 신호를 수신함에 따라 상기 제2사운드 수신부로부터 공급되는 상기 제2사운드 입력 신호를 상기 데이터 송수신부로 전송하거나 또는 상기 트리거 워드 인식에 따라 상기 제2사운드 입력 신호를 상기 제1사운드 입력 신호와의 처리를 수행하는 음성 신호 처리부로 전송하는 동작을 더 포함하는, 전자 장치의 동작 방법.
KR1020200042964A 2020-04-08 2020-04-08 전자 장치 및 그 동작 방법 KR20210125356A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200042964A KR20210125356A (ko) 2020-04-08 2020-04-08 전자 장치 및 그 동작 방법
PCT/KR2021/001353 WO2021206281A1 (en) 2020-04-08 2021-02-02 Electronic device and operation method thereof
US17/169,058 US11715468B2 (en) 2020-04-08 2021-02-05 Electronic device and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200042964A KR20210125356A (ko) 2020-04-08 2020-04-08 전자 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR20210125356A true KR20210125356A (ko) 2021-10-18

Family

ID=78006594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200042964A KR20210125356A (ko) 2020-04-08 2020-04-08 전자 장치 및 그 동작 방법

Country Status (3)

Country Link
US (1) US11715468B2 (ko)
KR (1) KR20210125356A (ko)
WO (1) WO2021206281A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210125356A (ko) * 2020-04-08 2021-10-18 삼성전자주식회사 전자 장치 및 그 동작 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275642B2 (en) * 2012-11-13 2016-03-01 Unified Computer Intelligence Corporation Voice-operated internet-ready ubiquitous computing device and method thereof
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
US9466288B2 (en) * 2013-08-28 2016-10-11 Texas Instruments Incorporated Comparing differential ZC count to database to detect expected sound
US9460720B2 (en) * 2013-08-28 2016-10-04 Texas Instruments Incorporated Powering-up AFE and microcontroller after comparing analog and truncated sounds
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
US9177546B2 (en) * 2013-08-28 2015-11-03 Texas Instruments Incorporated Cloud based adaptive learning for distributed sensors
US9443508B2 (en) * 2013-09-11 2016-09-13 Texas Instruments Incorporated User programmable voice command recognition based on sparse features
KR102179506B1 (ko) * 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
KR101713770B1 (ko) 2015-09-18 2017-03-08 주식회사 베이리스 차량용 음성 인식 시스템 및 그 음성 인식 방법
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
DK3323786T3 (da) * 2016-11-16 2021-03-01 Gascontec Gmbh Fremgangsmåde til kombineret fremstilling af methanol og ammoniak
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US11899519B2 (en) * 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
KR102225001B1 (ko) * 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20210125356A (ko) * 2020-04-08 2021-10-18 삼성전자주식회사 전자 장치 및 그 동작 방법
US11551700B2 (en) * 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Also Published As

Publication number Publication date
WO2021206281A1 (en) 2021-10-14
US20210319789A1 (en) 2021-10-14
US11715468B2 (en) 2023-08-01

Similar Documents

Publication Publication Date Title
US11443744B2 (en) Electronic device and voice recognition control method of electronic device
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US10261566B2 (en) Remote control apparatus and method for controlling power
US10485049B1 (en) Wireless device connection handover
KR102574593B1 (ko) 챗봇을 이용한 서비스 제공 방법 및 그 장치
CN110945584B (zh) 基于上下文信息确定接收语音输入的持续时间的电子设备和系统
US7689424B2 (en) Distributed speech recognition method
KR20190022109A (ko) 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
KR102592769B1 (ko) 전자 장치 및 그의 동작 방법
US10304449B2 (en) Speech recognition using reject information
US20210151052A1 (en) System for processing user utterance and control method thereof
KR20200043075A (ko) 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템
KR102629796B1 (ko) 음성 인식의 향상을 지원하는 전자 장치
US11361750B2 (en) System and electronic device for generating tts model
KR20210125356A (ko) 전자 장치 및 그 동작 방법
CN109065050A (zh) 一种语音控制方法、装置、设备及存储介质
CN110400568B (zh) 智能语音系统的唤醒方法、智能语音系统及车辆
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
EP3839719B1 (en) Computing device and method of operating the same
KR20210044606A (ko) 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
CN112885341A (zh) 一种语音唤醒方法、装置、电子设备和存储介质
CN112640476A (zh) 电子装置及其控制方法
CN111028832B (zh) 麦克风静音模式控制方法、装置及存储介质和电子设备