KR102065522B1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR102065522B1
KR102065522B1 KR1020177036212A KR20177036212A KR102065522B1 KR 102065522 B1 KR102065522 B1 KR 102065522B1 KR 1020177036212 A KR1020177036212 A KR 1020177036212A KR 20177036212 A KR20177036212 A KR 20177036212A KR 102065522 B1 KR102065522 B1 KR 102065522B1
Authority
KR
South Korea
Prior art keywords
audio signal
voice
electronic device
determined
compressed
Prior art date
Application number
KR1020177036212A
Other languages
English (en)
Other versions
KR20180010214A (ko
Inventor
조석환
김도형
김재현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20180010214A publication Critical patent/KR20180010214A/ko
Application granted granted Critical
Publication of KR102065522B1 publication Critical patent/KR102065522B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 외부의 오디오 신호를 입력받는 마이크, 오디오 신호를 디지털 신호로 처리하는 ADC(Analog/Digital Converter), 오디오 신호를 저장하는 메모리 및 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하고, 판단 결과를 바탕으로 상기 오디오 신호를 압축하여 메모리에 저장하는 프로세서를 포함하며, ADC 및 상기 프로세서는 하나의 칩으로 구현될 수 있다.

Description

전자 장치 및 이의 제어 방법
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 사용자 음성을 통해 전자 장치를 활성화하여 어플리케이션의 기능을 실행할 수 있는 전자 장치 및 이의 제어 방법에 관한 것이다.
근래의 다양한 전자 장치에는 마이크를 통해 입력된 사용자 음성을 이용하여 전자 장치를 제어하는 기술이 채용되고 있다. 예를 들어, 스마트 TV는 사용자 음성을 통해 채널을 변경하거나 음량을 조절하고, 스마트 폰은 사용자 음성을 통해 다양한 정보를 획득할 수 있다.
특히, 전자 장치가 비활성화되어 있는 동안 사용자 음성을 이용하여 전자 장치를 활성화시킬 수 있다. 이때, 전자 장치를 활성화시키기 위한 사용자 음성을 트리거 음성이라 할 수 있다. 전자 장치가 트리거 음성을 인식하기 위해서는 전자 장치가 비활성화되어 있는 동안 트리거 음성을 인식하기 위한 구성은 활성화되어 있어야 한다. 특히, 전자 장치가 비활성화되어 있는 동안 트리거 음성을 인식하기 위한 구성이 온 되어 있는 경우, 트리거 음성을 인식하기 위한 구성의 전력 소모에 대한 문제가 존재한다. 즉, 트리거 음성을 인식하기 위한 구성의 저전력 구동이 필요하게 된다.
또한, 트리거 음성뿐만 아니라 후속 명령어가 연속적으로 수신되는 경우, 트리거 음성과 후속 명령어에 대응되는 오디오 신호를 저장하기 위하여, 메모리의 용량이 커져야 한다. 메모리의 용량이 커지는 경우, 트리거 음성을 인식하기 위한 구성의 전력 소모가 많아지는 문제점이 존재한다.
따라서, 트리거 음성을 인식하기 위한 구성의 저전력 구동 및 트리거 음성과 후속 명령어를 저장할 수 있는 버퍼의 크기를 축소시키는 방안의 모색이 요청된다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 트리거 음성을 인식하기 위한 구성의 저전력 구동과 오디오 신호를 저장하는 메모리의 크기를 축소시킬 수 있는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른, 전자 장치는, 외부의 오디오 신호를 입력받는 마이크; 상기 오디오 신호를 디지털 신호로 처리하는 ADC(Analog/Digital Converter); 상기 오디오 신호를 저장하는 메모리; 및 상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하고, 상기 판단 결과를 바탕으로 상기 오디오 신호를 압축하여 상기 메모리에 저장하는 프로세서;를 포함하며, 상기 ADC 및 상기 프로세서는 하나의 칩으로 구현될 수 있다.
그리고, 상기 프로세서는, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이라고 판단된 경우, 상기 오디오 신호를 압축하여 상기 메모리에 저장하고, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이 아니라고 판단된 경우, 상기 오디오 신호를 압축하지 않을 수 있다.
또는, 상기 프로세서는, 상기 오디오 신호 중 일부가 상기 전자 장치를 활성화시키기 위한 트리거 음성인지 여부를 판단하여 상기 압축된 오디오 신호의 복원 여부를 판단할 수 있다.
그리고, 상기 전자 장치에서 구동되는 어플리케이션을 제어하는 어플리케이션 프로세서;를 포함하며, 상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 압축된 오디오 신호를 복원하여 상기 어플리케이션 프로세서에 출력하고, 상기 오디오 신호가 상기 트리거 음성이 아니라고 판단된 경우, 상기 메모리에 저장된 압축된 오디오 신호를 복원하지 않을 수 있다.
또는, 상기 프로세서는, 상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 어플리케이션 프로세서를 활성화시키는 신호를 상기 어플리케이션 프로세서로 출력할 수 있다.
그리고, 상기 어플리케이션 프로세서는, 상기 복원된 오디오 신호가 입력되면, 상기 오디오 신호에 대응되는 어플리케이션을 활성화하여 상기 오디오 신호 중 상기 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행할 수 있다.
또는, 상기 프로세서는, 상기 오디오 신호가 압축되는 동안 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 확률을 실시간으로 판단하고, 상기 실시간으로 판단된 확률이 기설정된 값 미만으로 판단된 경우, 상기 오디오 신호의 압축을 중단하며, 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 최종 확률이 기설정된 값 이상인 경우, 상기 오디오 신호 중 일부를 제외한 나머지 명령어에 대응되는 구간을 압축하여 상기 메모리에 저장할 수 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법는, 외부의 오디오 신호를 입력받는 단계; 상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하는 단계; 및 상기 판단 결과를 바탕으로 상기 입력된 오디오 신호를 압축하여 메모리에 저장하는 단계;를 포함한다.
그리고, 상기 저장하는 단계는, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이라고 판단된 경우, 상기 오디오 신호를 압축하여 상기 메모리에 저장하고, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이 아니라고 판단된 경우, 상기 오디오 신호를 압축하지 않을 수 있다.
또는, 상기 오디오 신호 중 일부가 상기 전자 장치를 활성화시키기 위한 트리거 음성인지 여부를 판단하여 상기 압축된 오디오 신호의 복원 여부를 판단하는 단계;를 더 포함할 수 있다.
그리고, 상기 오디오 신호가 상기 트리거 음성이 아니라고 판단된 경우, 상기 메모리에 저장된 압축된 오디오 신호를 복원하지 않고, 상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 압축된 오디오 신호를 복원하여 어플리케이션 프로세서에 출력하는 단계;를 포함할 수 있다.
또는, 상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 어플리케이션 프로세서를 활성화시키는 신호를 상기 어플리케이션 프로세서로 출력하는 단계;를 포함할 수 있다.
그리고, 상기 복원된 오디오 신호가 입력되면, 상기 어플리케이션 프로세서가 상기 오디오 신호에 대응되는 어플리케이션을 활성화하고, 상기 오디오 신호 중 상기 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행하는 단계;를 포함할 수 있다.
또는,상기 판단하는 단계는, 상기 오디오 신호가 압축되는 동안 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 확률을 실시간으로 판단하고, 상기 실시간으로 판단된 확률이 기설정된 값 미만으로 판단된 경우, 상기 오디오 신호의 압축을 중단하는 단계;를 포함하며, 상기 방법은, 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 최종 확률이 기설정된 값 이상인 경우, 상기 오디오 신호 중 일부를 제외한 나머지 명령어에 대응되는 구간을 압축하여 상기 메모리에 저장하는 단계;를 포함할 수 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체에 있어서, 상기 전자 장치의 제어 방법은, 외부의 오디오 신호를 입력받는 단계; 상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하는 단계; 및 상기 판단 결과를 바탕으로 상기 입력된 오디오 신호를 압축하여 메모리에 저장하는 단계;를 포함한다.
상술한 바와 같은 본 개시의 다양한 실시예에 따라, 트리거 음성을 인식하기 위한 칩의 저전력 구동이 가능해지며, 트리거 음성뿐만 아니라 후속 명령어를 더욱 신속하게 인식하여 후속 명령어에 대응되는 기능이 빠르게 실행될 수 있게 된다.
도 1은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 간략히 도시한 도면,
도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 상세히 도시한 도면,
도 3은 본 개시의 일 실시예에 따른, 전자 장치가 트리거 음성을 압축하기 위한 복수의 구성을 도시한 블럭도,
도 4a 및 도 4b는 본 개시의 다양한 실시예에 따른, 인코더 및 디코더의 구성을 도시한 블럭도,
도 5는 본 개시의 일 실시예에 따른, 트리거 음성 확률을 이용하여 트리거 음성을 판단하는 방법을 설명하기 위한 그래프
도 6a 내지 도 6c는 본 개시의 다양한 실시예에 따른, 트리거 음성을 압축하기 위한 프로세서의 구현 방법을 설명하기 위한 도면들,
도 7 및 도 8은 본 개시의 다양한 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도들이다.
이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제 1," "제 2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.
본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에 따르면, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.
어떤 실시예들에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션(navigation) 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
어떤 실시예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.
이하, 첨부 도면을 참조하여, 다양한 실시예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 디바이스에 의해 감지되거나 또는 디바이스에게 이벤트를 유발할 수 있는 사람일 수 있다. 사용자는 복수일 수 있다.
또한, 본 문서에서, 사용자 음성이라는 용어는 전자 장치를 사용하는 특정 사람의 음성일 수 있으나, 이는 일 실시예에 불과할 뿐, 임의의 사람의 음성일 수 있다.
도 1은 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블럭도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 마이크(110), ADC(115), 메모리(120) 및 프로세서(130)를 포함한다. 한편, 본 개시의 일 실시예에 따르면, ADC(115), 메모리(120) 및 프로세서(130)는 하나의 칩으로 구현될 수 있다.
마이크(110)는 외부로부터 오디오 신호를 수신한다. 이때, 오디오 신호에는 사용자 음성이 포함될 수 있으며, 사용자 음성에는 전자 장치(100)를 활성화하기 위한 트리거 음성 및 전자 장치(100)를 제어하기 위한 명령어가 포함될 수 있다.
ADC(115)는 마이크를 통해 수신된 오디오 신호를 디지털 형태의 오디오 신호로 처리한다.
메모리(120)는 ADC(115)에 의해 처리된 오디오 신호를 저장한다. 특히, 메모리(120)는 압축된 오디오 신호를 저장할 수 있다. 이때, 메모리(120)는 기설정된 크기 이하의 버퍼로 구현될 수 있다.
프로세서(130)는 마이크(110)로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하고, 판단 결과를 바탕으로 입력된 오디오 신호를 압축하여 메모리(120)에 저장한다.
구체적으로, 마이크(110)로부터 입력된 오디오 신호가 사용자 음성이라고 판단된 경우, 프로세서(130)는 오디오 신호를 압축하여 메모리(120)에 저정할 수 있다. 그러나, 마이크(110)로부터 입력된 오디오 신호가 사용자 음성이 아니라고 판단된 경우, 프로세서(130)는 오디오 신호를 압축하지 않고, 삭제할 수 있다.
그리고, 프로세서(120)는 입력된 오디오 신호 중 일부가 전자 장치(100)를 활성화시키기 위한 트리거 음성인지 여부를 판단하여 압축된 오디오 신호의 복원 여부를 판단할 수 있다.
구체적으로, 오디오 신호 중 일부가 트리거 음성이라고 판단된 경우, 프로세서(130)는 압축된 오디오 신호를 복원하여 어플리케이션 프로세서(이하에서는 "AP"라고 함.)에 출력할 수 있다. 특히, 오디오 신호 중 일부가 트리거 음성이라고 판단된 경우, 프로세서(130)는 AP를 활성화시키기 위한 신호를 AP로 출력할 수 있다. 이때, AP가 복원된 오디오 신호를 입력받으면, AP는 오디오 신호에 대응되는 어플리케이션을 활성화하여 오디오 신호 중 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행할 수 있다.
특히, 프로세서(130)는 오디오 신호가 압축되는 동안 오디오 신호 중 일부가 트리거 음성에 해당될 확률을 실시간으로 판단할 수 있다. 그리고, 실시간으로 판단된 확률이 기설정된 값 이상으로 판단된 경우, 프로세서(130)는 계속해서 오디오 신호의 압축을 수행할 수 있다. 그러나, 실시간으로 판단된 확률이 기설정된 값 미만으로 판단된 경우, 프로세서(130)는 오디오 신호의 압축을 중단할 수 있다.
그리고, 최종적으로, 오디오 신호에 트리거 음성이 포함되어 있지 않다고 판단된 경우, 프로세서(130)는 메모리(120)에 저장된 압축된 오디오 신호를 복원하지 않을 수 있다.
다만, 실시간으로 판단된 확률이 기설정된 값 미만으로 판단되어 오디오 신호의 압축이 중단되었다가 오디오 신호 중 일부가 트리거 음성에 해당될 최종 확률이 기설정된 값 이상인 경우, 프로세서(130)는 오디오 신호 중 일부를 제외한 나머지 명령어에 대응되는 구간을 압축하여 메모리(120)에 저장할 수 있다. 그리고, 프로세서(130)는 메모리(120)에 저장된 명령어에 대응되는 구간을 복원하여 AP로 출력할 수 있다.
상술한 바와 같은 본 개시의 다양한 실시예에 따르면, 전자 장치(100)는 트리거 음성을 인식하기 위한 칩의 저전력 구동이 가능해지며, 트리거 음성뿐만 아니라 후속 명령어를 더욱 신속하게 인식하여 후속 명령어에 대응되는 기능이 빠르게 실행될 수 있게 된다.
도 2는 본 개시을 더욱 상세히 설명하기 위한, 전자 장치(200)의 구성을 상세히 되한 블록도이다. 도 2에 도시된 바와 같이, 전자 장치는 마이크(210), ACD(215), 메모리(220), 프로세서(230), AP(240), 디스플레이(250), 센서(260) 및 입력 인터페이스(270)를 포함한다.
마이크(210)는 오디오 신호를 입력받는다. 이때, 오디오 신호는 사용자 음성을 포함할 수 있으며, 사용자 음성은 트리거 음성 및 명령어를 포함할 수 있다. 이때, 트리거 음성은 비활성화되어 있는 전자 장치(100)를 활성화하기 위한 음성일 수 있다. 명령어는 전자 장치(100)의 특정 어플리케이션에서 특징 기능을 실행하기 위한 음성일 수 있다. 예를 들어, 사용자 음성은 "하이 갤럭시"라는 트리거 음성과 "지금 몇시야"라는 명령어가 포함될 수 있다. 그리고, 트리거 음성과 명령어는 연속적으로 입력될 수 있다. 즉, 트리거 음성이 입력된 후 바로 명령어가 입력될 수 있다.
마이크(210)는 전자 장치(200)의 본체에 구비될 수 있으나, 이는 일 실시예에 불과할 뿐, 전자 장치(200)의 외부에 구비되어 전자 장치(200)와 유/무선으로 연결될 수 있다.
ADC(215)는 마이크를 통해 수신된 오디오 신호를 디지털 형태의 오디오 신호로 처리한다. 이때, ADC(215)는 메모리(210) 및 프로세서(230)와 함께 하나의 칩으로 구현될 수 있다.
메모리(220)는 마이크(210)를 통해 입력된 오디오 신호를 입력받는다. 특히, 메모리(220)는 마이크(210)를 통해 입력된 오디오 신호를 임시로 저장하는 제1 버퍼 및 압축된 오디오 신호를 저장하는 제2 버퍼를 포함할 수 있다.
기존에는 5초 분량의 오디오 신호를 저장하기 위하여, 16kHz x 16 bit x 5sec x 2ch= 312.5kbyte의 버퍼가 필요하였다.
그러나, 본 개시의 일 실시예에 따르면, 제1 버퍼는 오디오 신호가 사용자 음성인지 여부를 판단하기 위해 필요한 구간인 10ms의 오디오 데이터만이 필요하다. 따라서, 제1 버퍼는 16kHz x 16 bit x 10 msec x 2ch x 2 =1.25kbyte의 크기를 가질 수 있다. 또한, 제2 버퍼는 5초 분량의 압축된 오디오 신호를 저장하기 위하여 12.65kbps x 5 sec x 2ch =18kbyte(G.722.2 12.65kbps 기준)의 크기를 가질 수 있다.
즉, 본 개시의 일 실시예에 따르면, 제1 버퍼 및 제2 버퍼의 크기는 기존의 버퍼의 크기에 비하여 현저히 감소하게 된다. 이에 의해, 전자 장치(100)는 오디오 버퍼용 크기가 감소하여 트리거 음성을 인식하기 위한 칩의 저전력 구동이 가능해질 수 있게 된다.
또한, 메모리(220)는 도 3에 도시된 바와 같이, 음성 판단 모듈(320), 트리거 음성 판단 모듈(330), 인코더(340) 및 디코더(360)와 같은 다양한 모듈을 포함할 수 있다. 특히, 인코더(340) 및 디코더(360)는 도 4a에 도시된 바와 같이, 보코더의 한 예인 G.722.2 기술(Adaptive Multi-Rate Wideband, AMR-WB)로 구현될 수 있다. 즉, 인코더(340)는 Voice Activity Detection 모듈(341), Speech Encoder 모듈(343), Comfort Noise Parameter Computation 모듈(345) 및 Soure Controlled Rate Operation 모듈(347)을 포함하고, 디코더(360)는 Soure Controlled Rate Operation 모듈(361), Concealment of lost frame 모듈(363), Speech Decoder 모듈(365) 및 Comfort Noise Generation 모듈(367)을 포함할 수 있다. 한편, 본 개시에서는 일반적인 음성을 압축하고 복원하는 것이 아닌 트리거 음성을 압축하고 복원하는 것으로서, 다이내믹 파워의 소비도 감소시키고, 더욱 빠른 압축 및 복원을 위하여, 도 4b에 도시된 바와 같이, Comfort Noise Parameter Computation 모듈(345), Concealment of lost frame 모듈(363), Comfort Noise Generation 모듈(367)을 제거할 수 있다. 또한, Voice Activity Detection 모듈(341)의 기능이 음성 감지부(320)의 기능과 동일하므로, Voice Activity Detection 모듈(341)을 제거하고 음성 감지부(320)의 모듈을 통해 해당 기능을 수행할 수 있다.
AP(240)는 전자 장치(200)의 전반적인 동작을 제어한다. 특히, AP(240)는 적어도 하나 이상의 어플리케이션의 구동하여 사용자에게 다양한 전자 장치(200)의 기능을 제공한다. 한편, 본 개시의 일 실시예에서는 AP라고 정의하였으나, 이는 일 실시예에 불과할 뿐, 전자 장치(200)가 활성화 상태일 때, 전자 장치(200)를 제어할 수 있는 다양한 프로세서로 구현될 수 있다.
디스플레이(250)는 영상 데이터를 출력한다. 특히, 디스플레이(250)는 AP(240)의 제어에 의해 다양한 어플리케이션 실행화면을 디스플레이할 수 있다. 특히, 디스플레이(250)는, 예를 들면, 유연하게(flexible), 투명하게(transparent), 또는 착용할 수 있게(wearable) 구현될 수 있다. 디스플레이(250)에 포함된 패널은 터치 패널과 하나의 모듈로 구성될 수도 있다.
센서(260)는 물리량을 계측하거나 전자장치(201)의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 센서(260)는, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러(color) 센서, 생체 센서, 온/습도 센서, 조도 센서, 또는 UV(ultra violet) 센서, 후각 센서(E-nose sensor), EMG 센서(electromyography sensor), EEG 센서(electroencephalogram sensor), ECG 센서(electrocardiogram sensor), IR(infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다. 센서(260)는 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다. 어떤 실시예에서는, 전자장치(200)는 프로세서(230) 및 AP(240)의 일부로서 또는 별도로, 센서(260)를 제어하도록 구성된 프로세서를 더 포함하여, 프로세서(230) 또는 AP(240)가 슬립(sleep) 상태에 있는 동안, 센서 (260)를 제어할 수 있다.
입력 인터페이스(270)는 다양한 사용자 명령을 입력받는다. 이때, 입력 인터페이스(270)는 터치 패널, 버튼, 리모컨, 키보드, 마우스, 포인팅 장치와 같은 다양한 입력 장치로 구현될 수 있다.
프로세서(230)는 전자 장치(200)가 비활성화 상태인 동안 마이크(210)를 통해 입력된 오디오 신호를 이용하여 전자 장치(200)의 활성화 여부를 판단하고, 수신된 오디오 신호에 포함된 명령어를 AP(240)로 전송할 수 있다.
특히, 프로세서(230)는 도 3에 도시된 바와 같이, 메모리(220)에 저장된 다양한 모듈 및 버퍼를 이용하여 전자 장치(200)의 활성화 여부를 판단하고, 수신된 오디오 신호에 포함된 명령어를 AP(240)로 전송할 수 있다.
구체적으로, 전자 장치(200)가 비활성화를 유지하는 동안 마이크(210)는 오디오 신호를 입력받을 수 있다. 이때, 전자 장치(200)가 비활성화되었다는 의미는 전자 장치(200)에 트리거 음성이 입력되었는지 여부를 판단하는 구성(예를 들어, 마이크(210), 메모리(220), 프로세서(230) 등) 이외에 나머지 구성의 전원이 오프되거나 기능을 수행하지 않는 상태를 의미한다.
그리고, 제1 버퍼(310)는 마이크(210)를 통해 입력된 오디오 신호를 임시 저장한다. 이때, 제1 버퍼(310)는 상술한 바와 같이, 입력된 오디오 신호가 사용자 음성인지 여부를 판단할 수 있는 데이터 량인 10ms 구간의 오디오 신호를 임시 저장할 수 있다.
그리고, 음성 판단 모듈(320)은 입력된 오디오 신호에 사용자 음성이 포함되어 있는지 여부를 판단할 수 있다. 구체적으로, 음성 판단 모듈(320)은 입력된 오디오 신호의 주파수를 분석하여 입력된 오디오 신호가 사용자 음성인지 여부를 판단할 수 있다.
입력된 오디오 신호에 사용자 음성이 포함된 것으로 판단된 경우, 음성 판단 모듈(320)은 인코더(340)를 온하여 입력된 오디오 신호를 압축하도록 인코더(340)를 제어할 수 있다.
인코더(340)는 입력된 오디오 신호를 압축하여 제2 버퍼(350)에 저장할 수 있다.
그리고, 트리거 음성 판단 모듈(330)은 입력된 오디오 신호에 트리거 음성이 포함되어 있는지 여부를 판단할 수 있다. 구체적으로, 인코더(340)가 오디오 신호를 압축하는 동안 트리거 음성 판단 모듈(330)은 입력된 오디오 신호와 기 저장된 트리거 음성 신호의 유사도 확률을 실시간으로 판단할 수 있다. 그리고, 트리거 음성 판단 모듈(330)은 유사도 확률을 바탕으로 인코더(340)의 압축 동작을 중단시킬 수 있다.
예를 들어, 도 5에 도시된 520과 같이, 인코더(340)가 오디오 신호를 압축하는 기설정된 시간(예를 들어, 0.5s) 동안 유사도 확률이 기설정된 값 이하인 경우, 트리거 음성 판단 모듈(330)은 인코더(340)의 압축 동작을 중단시킬 수 있다. 그러나, 도 5에 도시된 510과 같이, 인코더(340)가 오디오 신호를 압축하는 기설정된 시간(예를 들어, 0.5s) 동안 유사도 확률이 기설정된 값 초과하는 경우, 트리거 음성 판단 모듈(330)은 인코더(340)의 압축 동작을 유지시킬 수 있다.
이로 인해, 오디오 신호에 트리거 음성이 포함되어 있지 않은 경우, 불필요한 압축 동작을 수행하지 않게 되어, 불필요한 전력 소모를 막을 수 있게 된다.
그리고, 트리거 음성 판단 모듈(330)은 입력된 오디오 신호 중 일부가 트리거 음성인지 여부를 최종 판단하고, 판단 결과를 바탕으로 압축된 오디오 신호의 복원 여부를 판단할 수 있다.
구체적으로, 입력된 오디오 신호 중 일부가 트리거 음성이라고 판단된 경우, 트리거 음성 판단 모듈(330)은 디코더(360)를 온 하고, 압축된 오디오 신호의 복원을 수행할 수 있다. 특히, 실시간으로 유사도 확률을 판단하였을 때, 유사도 확률이 기설정된 값 이하였으나, 최종적으로 입력된 오디오 신호 중 일부가 트리거 음성이라고 판단된 경우, 트리거 음성 판단 모듈(330)은 중단되었던 압축 동작을 다시 재개하고, 입력된 오디오 신호 중 명령어 구간을 압축하여 제2 버퍼(350)에 저장하며, 압축된 명령어 구간의 오디오 신호를 다시 복원할 수 있다.
특히, 입력된 오디오 신호 중 일부가 트리거 음성이라고 판단된 경우, 트리거 음성 판단 모듈(330)은 전원 공급부(미도시)를 제어하여 전자 장치(200)를 온하고, AP(240)에 입력된 오디오 신호 중 적어도 일부(예를 들어, 명령어)를 출력할 수 있다.
복원된 오디오 신호가 입력되면, AP(240)는 오디오 신호에 대응되는 어플리케이션을 활성화하여 오디오 신호 중 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행할 수 있다. 예를 들어, 입력된 오디오 신호가 "하이 갤럭시 지금 몇시야"인 경우, AP(240)는 입력된 오디오 신호 중 "지금 몇시야"에 대응되는 어플리케이션인 시계 어플리케이션을 활성화시키고, 현재 시간에 대한 안내 정보를 제공할 수 있다.
그러나, 입력된 오디오 신호 중 일부가 트리거 음성이 아니라고 판단된 경우, 트리거 음성 판단 모듈(330)은 디코더(360)를 오프하고, 복원 동작을 수행하지 않을 수 있다. 따라서, 제2 버퍼(350)에 저장된 압축된 오디오 신호는 삭제될 수 있다.
한편, 본 개시의 일 실시예에 따른, 전자 장치(200)가 비활성화 상태에서 트리거 음성을 통해 전자 장치(200)를 활성화시키는 프로세서(230)는 하나의 칩으로 구현될 수 있다. 특히, 도 6a에 도시된 바와 같이, 트리거 음성을 인식하기 위한 칩(610)은 전용 ADC(611) 및 트리거 음성을 통해 전자 장치(200)를 활성화시키기 위한 프로세서(613)를 포함할 수 있다. 이때, 전자 장치(200)는 마이크(605)를 통해 입력된 전화 음성 등을 신호 처리하기 위한 ADC 칩(620)을 별도로 구비하며, 트리거 음성을 인식하기 위한 칩(610) 및 ADC 칩(620)에서 출력된 음성 신호를 AP(630)로 전송할 수 있다. 이와 같이, 트리거 음성을 인식하기 위한 칩(610)을 별도로 구현함으로써, 전자 장치(200)는 트리거 음성 대기시 트리거 음성을 인식하기 위한 칩(610) 이외에 모든 칩을 오프시켜 저전력 구동을 수행할 수 있다.
본 개시의 다른 실시예에 따르면, 트리거 음성을 인식하기 위한 프로세서(643)가 도 6b에 도시된 바와 같이, ADC 칩(640) 내에 포함될 수 있다. 이 경우, 프로세서(643)는 ADC 칩(640) 내에 포함된 ADC(641)를 이용하여 입력된 오디오 신호를 처리할 수 있다. 이 경우, 트리거 음성을 인식하기 위한 구성에 필요한 ADC 모듈을 ADC 칩(640) 내의 ADC 모듈로 대체 가능하므로, 제조 비용이 줄어들 수 있게 된다.
본 개시의 다른 실시예에 따르면, 트리거 음성을 인식하기 위한 프로세서(661)가 도 6c에 도시된 바와 같이, AP(660) 내에 포함될 수 있다. 이 경우, 프로세서(661)는 외부의 ADC 칩(650)을 통해 처리된 오디오 신호를 바탕으로 트리거 음성이 입력되었는지 여부를 판단하고, AP(660) 내에 포함된 AP 메인 코어(663)로 제어 명령을 전송할 수 있다. 이 경우, 키워드 및 명령어를 AP 내에 바로 저장할 수 있게 된다.
도 7은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 간략히 도시한 블럭도이다.
우선, 전자 장치(100)는 외부의 오디오 신호를 입력받는다(S710). 이때, 오디오 신호는 사용자 음성을 포함할 수 있으며, 사용자 음성은 트리거 음성 및 명령어를 포함할 수 있다.
그리고, 전자 장치(100)는 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단한다(S720).
그리고, 전자 장치(100)는 판단 결과를 바탕으로 입력된 오디오 신호를 압축하여 메모리에 저장한다(S730). 구체적으로, 마이크로부터 입력된 오디오 신호가 사용자 음성인 경우, 전자 장치(100)는 입력된 오디오 신호를 압축하여 메모리에 저장하고, 입력된 오디오 신호가 사용자 음성이 아닌 경우, 전자 장치(100)는 입력된 오디오 신호를 압축하지 않고, 삭제할 수 있다.
상술한 바와 같이, 사용자 음성인지 여부를 바탕으로 입력된 오디오 신호를 압축하여 저장함으로써, 전자 장치(100)에 포함될 메모리의 크기가 작아질 수 있게 된다. 이로 인해, 전자 장치(100)는 비활성화 상태를 유지하는 동안 저전력 구동이 가능해 질 수 있게 된다.
도 8은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 상세히 도시한 블럭도이다.
우선, 전자 장치(100)는 오디오 신호를 입력받는다(S810).
그리고, 전자 장치(100)는 오디오 신호가 사용자 음성인지 여부를 판단한다(S820).
오디오 신호가 사용자 음성이라고 판단된 경우(S820-Y), 전자 장치(100)는 오디오 신호를 압축하여 저장한다(S830).
그리고, 전자 장치(100)는 오디오 신호에 트리거 음성이 포함되었는지 여부를 판단한다(S840).
오디오 신호에 트리거 음성이 포함된 것으로 판단된 경우(S840-Y), 전자 장치(100)는 압축된 오디오 신호를 복원하여 AP로 출력한다(S850). 이때, 전자 장치(100)는 트리거 음성에 의해 활성화될 수 있다.
그러나, 오디오 신호에 트리거 음성이 포함되지 않은 것으로 판단된 경우(S840-N), 전자 장치(100)는 압력된 오디오 신호를 복원하지 않고, 압축된 오디오 신호를 삭제한다(S860).
또한, 오디오 신호가 사용자 음성이 아닌 것으로 판단되는 경우(S820-N), 전자 장치(100)는 입력된 오디오 신호를 압축하지 않고, 오디오 신호를 삭제한다(S870).
상술한 바와 같이, 오디오 신호가 사용자 음성인지 여부, 오디오 신호에 트리거 음성이 포함되어 있는지 여부를 판단하여 오디오 신호를 압축/복원함으로써, 전자 장치(100)의 트리거 음성을 인식하기 위한 칩의 저전력 구동이 가능해질 수 있다. 또한, 트리거 음성뿐만 아니라 후속 명령어를 더욱 신속하게 인식하여 후속 명령어에 대응되는 기능이 빠르게 실행될 수 있게 된다.
이상과 같이 본 개시는 비록 한정된 실시 예와 도면에 의해 설명되었으나 본 개시는 상기의 실시 예에 한정되는 것은 아니며 본 개시이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 본 개시의 실시 예에 따른 동작들은 단일의 프로세서에 의해 그 동작이 구현될 수 있을 것이다. 이러한 경우 다양한 PC로 구현되는 동작을 수행하기 위한 프로그램 명령이 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판단 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 프로그램 명령은 본 개시을 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM이나 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 본 개시에서 설명된 기지국 또는 릴레이의 전부 또는 일부가 컴퓨터 프로그램으로 구현된 경우 상기 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체도 본 개시에 포함된다. 그러므로 본 개시의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 할 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    외부의 오디오 신호를 입력받는 마이크;
    상기 오디오 신호를 디지털 신호로 처리하는 ADC(Analog/Digital Converter);
    상기 오디오 신호를 저장하는 메모리; 및
    상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하고, 상기 판단 결과를 바탕으로 상기 사용자 음성이 트리거 음성인지 여부와 무관하게 상기 오디오 신호를 압축하여 상기 메모리에 저장하고,
    상기 오디오 신호 중 일부가 상기 전자 장치를 활성화시키기 위한 트리거 음성인지 여부를 판단하여 상기 압축된 오디오 신호의 복원 여부를 판단하는 프로세서;를 포함하며,
    상기 ADC 및 상기 프로세서는 하나의 칩으로 구현되는 것을 특징으로 하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 마이크로부터 입력된 오디오 신호가 사용자 음성이라고 판단된 경우, 상기 오디오 신호를 압축하여 상기 메모리에 저장하고, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이 아니라고 판단된 경우, 상기 오디오 신호를 압축하지 않는 것을 특징으로 하는 전자 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 전자 장치에서 구동되는 어플리케이션을 제어하는 어플리케이션 프로세서;를 포함하며,
    상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 압축된 오디오 신호를 복원하여 상기 어플리케이션 프로세서에 출력하고, 상기 오디오 신호가 상기 트리거 음성이 아니라고 판단된 경우, 상기 메모리에 저장된 압축된 오디오 신호를 복원하지 않는 것을 특징으로 하는 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 어플리케이션 프로세서를 활성화시키는 신호를 상기 어플리케이션 프로세서로 출력하는 것을 특징으로 하는 전자 장치.
  6. 제4항에 있어서,
    상기 어플리케이션 프로세서는,
    상기 복원된 오디오 신호가 입력되면, 상기 오디오 신호에 대응되는 어플리케이션을 활성화하여 상기 오디오 신호 중 상기 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행하는 것을 특징으로 하는 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 오디오 신호가 압축되는 동안 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 확률을 실시간으로 판단하고, 상기 실시간으로 판단된 확률이 기설정된 값 미만으로 판단된 경우, 상기 오디오 신호의 압축을 중단하며,
    상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 최종 확률이 기설정된 값 이상인 경우, 상기 오디오 신호 중 일부를 제외한 나머지 명령어에 대응되는 구간을 압축하여 상기 메모리에 저장하는 것을 특징으로 하는 전자 장치.
  8. 전자 장치의 제어 방법에 있어서,
    외부의 오디오 신호를 마이크로부터 입력받는 단계;
    상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하는 단계;
    상기 판단 결과를 바탕으로 상기 사용자 음성이 트리거 음성인지 여부와 무관하게 상기 입력된 오디오 신호를 압축하여 메모리에 저장하는 단계; 및
    상기 오디오 신호 중 일부가 상기 전자 장치를 활성화시키기 위한 트리거 음성인지 여부를 판단하여 상기 압축된 오디오 신호의 복원 여부를 판단하는 단계;를 포함하는 제어 방법.
  9. 제8항에 있어서,
    상기 저장하는 단계는,
    상기 마이크로부터 입력된 오디오 신호가 사용자 음성이라고 판단된 경우, 상기 오디오 신호를 압축하여 상기 메모리에 저장하고, 상기 마이크로부터 입력된 오디오 신호가 사용자 음성이 아니라고 판단된 경우, 상기 오디오 신호를 압축하지 않는 것을 특징으로 하는 제어 방법.
  10. 삭제
  11. 제8항에 있어서,
    상기 오디오 신호가 상기 트리거 음성이 아니라고 판단된 경우, 상기 메모리에 저장된 압축된 오디오 신호를 복원하지 않고, 상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 압축된 오디오 신호를 복원하여 어플리케이션 프로세서에 출력하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 오디오 신호 중 일부가 상기 트리거 음성이라고 판단된 경우, 상기 어플리케이션 프로세서를 활성화시키는 신호를 상기 어플리케이션 프로세서로 출력하는 단계;를 포함하는 것을 특징으로 하는 제어 방법.
  13. 제11항에 있어서,
    상기 복원된 오디오 신호가 입력되면, 상기 어플리케이션 프로세서가 상기 오디오 신호에 대응되는 어플리케이션을 활성화하고, 상기 오디오 신호 중 상기 트리거 음성에 대응되는 일부를 제외한 명령어를 이용하여 어플리케이션의 기능을 수행하는 단계;를 포함하는 제어 방법.
  14. 제8항에 있어서,
    상기 판단하는 단계는,
    상기 오디오 신호가 압축되는 동안 상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 확률을 실시간으로 판단하고,
    상기 실시간으로 판단된 확률이 기설정된 값 미만으로 판단된 경우, 상기 오디오 신호의 압축을 중단하는 단계;를 포함하고,
    상기 방법은,
    상기 오디오 신호 중 일부가 상기 트리거 음성에 해당될 최종 확률이 기설정된 값 이상인 경우, 상기 오디오 신호 중 일부를 제외한 나머지 명령어에 대응되는 구간을 압축하여 상기 메모리에 저장하는 단계;를 포함하는 제어 방법.
  15. 전자 장치의 제어 방법을 실행하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 전자 장치의 제어 방법은,
    외부의 오디오 신호를 마이크로부터 입력받는 단계;
    상기 마이크로부터 입력된 오디오 신호가 사용자 음성인지 여부를 판단하는 단계;
    상기 판단 결과를 바탕으로 상기 입력된 오디오 신호를 압축하여 메모리에 저장하는 단계; 및
    상기 오디오 신호 중 일부가 상기 전자 장치를 활성화 시키기위한 트리거 음성인지 여부를 판단하여 상기 압축된 오디오 신호의 복원 여부를 판단하는 단계;를 포함하는 컴퓨터 판독가능 기록매체.
KR1020177036212A 2015-10-23 2015-10-23 전자 장치 및 이의 제어 방법 KR102065522B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2015/011263 WO2017069310A1 (ko) 2015-10-23 2015-10-23 전자 장치 및 이의 제어 방법

Publications (2)

Publication Number Publication Date
KR20180010214A KR20180010214A (ko) 2018-01-30
KR102065522B1 true KR102065522B1 (ko) 2020-02-11

Family

ID=58557489

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177036212A KR102065522B1 (ko) 2015-10-23 2015-10-23 전자 장치 및 이의 제어 방법

Country Status (5)

Country Link
US (1) US20180254042A1 (ko)
EP (1) EP3321794A4 (ko)
KR (1) KR102065522B1 (ko)
CN (1) CN108139878B (ko)
WO (1) WO2017069310A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11545146B2 (en) * 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102585784B1 (ko) * 2018-01-25 2023-10-06 삼성전자주식회사 오디오 재생시 인터럽트를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
DE102018108419A1 (de) * 2018-04-10 2019-10-10 Carl Zeiss Microscopy Gmbh Verfahren und Vorrichtungen zur Komprimierung und Dekomprimierung von Ansteuerkurven

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US20110131291A1 (en) 2009-12-01 2011-06-02 Eric Hon-Anderson Real-time voice recognition on a handheld device
US20140244271A1 (en) 2008-10-02 2014-08-28 Apple Inc. Electronic Devices with Voice Command and Contextual Data Processing Capabilities
US20150255070A1 (en) * 2014-03-10 2015-09-10 Richard W. Schuckle Managing wake-on-voice buffer quality based on system boot profiling

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8265709B2 (en) * 2007-06-22 2012-09-11 Apple Inc. Single user input mechanism for controlling electronic device operations
US8488799B2 (en) * 2008-09-11 2013-07-16 Personics Holdings Inc. Method and system for sound monitoring over a network
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
KR102196671B1 (ko) * 2013-01-11 2020-12-30 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9613626B2 (en) * 2015-02-06 2017-04-04 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US20140244271A1 (en) 2008-10-02 2014-08-28 Apple Inc. Electronic Devices with Voice Command and Contextual Data Processing Capabilities
US20110131291A1 (en) 2009-12-01 2011-06-02 Eric Hon-Anderson Real-time voice recognition on a handheld device
US20150255070A1 (en) * 2014-03-10 2015-09-10 Richard W. Schuckle Managing wake-on-voice buffer quality based on system boot profiling

Also Published As

Publication number Publication date
CN108139878B (zh) 2022-05-24
WO2017069310A1 (ko) 2017-04-27
US20180254042A1 (en) 2018-09-06
CN108139878A (zh) 2018-06-08
EP3321794A1 (en) 2018-05-16
EP3321794A4 (en) 2018-09-12
KR20180010214A (ko) 2018-01-30

Similar Documents

Publication Publication Date Title
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
KR102414122B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US20180299951A1 (en) User interface selection based on user context
EP3605315B1 (en) Electronic device for processing user speech and operating method therefor
KR102065522B1 (ko) 전자 장치 및 이의 제어 방법
US20180314552A1 (en) Voice data processing method and electronic device supporting the same
KR102493491B1 (ko) 생체 정보를 측정하는 전자 장치와 이의 동작 방법
KR102412523B1 (ko) 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버
KR102495517B1 (ko) 전자 장치, 전자 장치의 음성 인식 방법
CN107103906B (zh) 一种唤醒智能设备进行语音识别的方法、智能设备和介质
KR102361458B1 (ko) 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
KR20180109624A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102468148B1 (ko) 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법
JP2008009120A (ja) リモートコントローラ並びに家電機器
US11417327B2 (en) Electronic device and control method thereof
KR20180082033A (ko) 음성을 인식하는 전자 장치
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR102391298B1 (ko) 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR20190018886A (ko) 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치
KR20150099678A (ko) 전자 장치 운용 방법 및 이를 지원하는 전자 장치
KR102525108B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102501083B1 (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
WO2023027578A1 (en) Nose-operated head-mounted device
KR102507249B1 (ko) 성능 모드 제어 방법 및 이를 지원하는 전자 장치
KR20180116725A (ko) 음성 인식 서비스의 운용 화면 표시 방법 및 이를 지원하는 전자 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant