KR102299330B1 - 음성 인식 방법 및 그 전자 장치 - Google Patents

음성 인식 방법 및 그 전자 장치 Download PDF

Info

Publication number
KR102299330B1
KR102299330B1 KR1020140166478A KR20140166478A KR102299330B1 KR 102299330 B1 KR102299330 B1 KR 102299330B1 KR 1020140166478 A KR1020140166478 A KR 1020140166478A KR 20140166478 A KR20140166478 A KR 20140166478A KR 102299330 B1 KR102299330 B1 KR 102299330B1
Authority
KR
South Korea
Prior art keywords
processor
voice
voice signal
keyword
electronic device
Prior art date
Application number
KR1020140166478A
Other languages
English (en)
Other versions
KR20160064258A (ko
Inventor
이태진
이상훈
서브호지트
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140166478A priority Critical patent/KR102299330B1/ko
Priority to CN201510757071.0A priority patent/CN105632491B/zh
Priority to PCT/KR2015/012063 priority patent/WO2016085157A1/en
Priority to US14/946,021 priority patent/US9779732B2/en
Priority to EP15195699.2A priority patent/EP3026667B1/en
Publication of KR20160064258A publication Critical patent/KR20160064258A/ko
Application granted granted Critical
Publication of KR102299330B1 publication Critical patent/KR102299330B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시의 다양한 실시 예는 음성 인식 방법 및 그 전자 장치에 관한 것으로, 예를 들어, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다. 또한, 본 개시의 다양한 실시 예는 상술한 실시 예와 다른 실시 예들도 포함한다.

Description

음성 인식 방법 및 그 전자 장치{METHOD FOR VOICE RECOGNITION AND AN ELECTRONIC DEVICE THEREOF}
본 개시의 다양한 실시 예는, 음성 인식 방법 및 그 전자 장치에 관한 것이다.
스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치가 널리 사용되고 있다. 상기 전자 장치는, 마이크(microphone)를 통해 사용자가 입력하는 음성(voice) 신호를 인식하고, 상기 음성 신호에 상응하는 텍스트(text)를 표시하거나, 임의의 특정 기능(function)을 수행할 수 있다.
상기 전자 장치는, 예를 들어, 절전(power saving)을 위해 엘씨디(LCD) 등과 같은 디스플레이(display)를 오프(off)한 슬립 모드(sleep mode)에서도 사용자가 마이크를 통해 입력하는 음성 신호를 인식할 수 있으며, 상기 음성 신호가 사전에 설정된 키워드(keyword)(예: “하이 갤럭시”)인지를 판별할 수 있다.
상기 전자 장치는 상기 사용자 음성 신호가 사전에 설정된 키워드인 경우, 슬립 모드를 해제함과 아울러, 상기 디스플레이를 오프 상태에서 온 상태로 전환하며, 이후, 마이크를 통해 사용자가 입력하는 음성 신호를, 커맨드(command) 또는 텍스트(text) 등으로 인식하는 음성 인식 동작을 수행할 수 있다.
상기 음성 인식 동작은, 예를 들어, 네트워크를 통해 음성 인식 서비스를 실시간으로 제공하는 서버(server)와 상기 전자 장치 간의 데이터 통신을 통해 수행될 수 있다. 최근에는 상기 음성 인식 동작의 정확성을 높이기 위한 효율적인 해결 방안이 요구되고 있다.
본 개시의 다양한 실시 예는, 스마트 폰 또는 태블릿 PC 등과 같은 다양한 유형의 전자 장치가, 마이크를 통해 입력되는 사용자의 음성 신호를 정확하게 인식할 수 있도록 하기 위한 음성 인식 방법 및 그 전자 장치를 제공한다.
본 개시의 다양한 실시 예는, 상기 전자 장치가, 슬립 모드에서, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하는 경우, 특정 노이즈의 영향을 미연에 방지하여, 음성 인식의 정확성을 높일 수 있는 음성 인식 방법 및 그 전자 장치를 제공한다.
본 개시의 다양한 실시 예는, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다.
본 개시의 다양한 실시 예는, 전자 장치에 있어서, 음성 신호를 입력 받기 위한 마이크; 상기 음성 신호를 신호 처리하기 위한 제1 프로세서; 및 상기 음성 신호를 인식하기 위한 제2 프로세서를 포함하되, 상기 제1 프로세서는 상기 전자 장치의 슬립 모드에서 지정된 클록을 사용하여 상기 마이크를 통해 입력되는 음성 신호를 인식하고, 상기 제2 프로세서는 상기 제1 프로세서에 의해 인식된 음성 신호가 사전에 설정된 키워드이면 아이들 상태에서 활성화 상태가 되어 음성 녹음을 수행하고, 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제1 프로세서의 클록을 변경할 수 있다.
본 개시의 다양한 실시 예에 따르면, 예를 들어, 스마트 폰 또는 태블릿 PC 등과 같은 다양한 유형의 전자 장치가, 마이크를 통해 입력되는 사용자의 음성 신호를 정확하게 인식할 수 있다.
본 개시의 다양한 실시 예에 따르면, 상기 전자 장치가, 슬립 모드에서, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하는 경우, 예를 들어, 오디오 코덱 등과 같이 저전력을 사용하는 제1 프로세서의 구동 주파수를 변경시키는 시점에 발생하는 특정 노이즈의 영향을 미연에 방지하여, 음성 인식의 정확성을 높일 수 있다.
도 1은 본 개시의 다양한 실시 예에 따른 전자 장치의 네트워크 환경을 예시한 도면이다.
도 2는 본 개시의 다양한 실시 예에 따른 전자 장치의 블록도이다.
도 3은 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 수행되는 전자 장치의 일부 구성을 예시한 도면이다.
도 4는 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 동작 타이밍(timing)을 예시한 도면이다.
도 5는 본 개시의 다양한 실시 예에 따른 묵음 시간 설정 테이블을 예시한 도면이다.
도 6은 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 수행되는 전자 장치에서의 다른 동작 타이밍(timing)을 예시한 도면이다.
도 7은 본 개시의 다양한 실시 예에 따른 전자 장치의 음성 인식 방법에 대한 동작 흐름도를 예시한 도면이다.
이하, 첨부된 도면을 참조하여 본 개시의 다양한 실시 예를 설명한다. 본 개시의 다양한 실시 예는 여러 형태의 변경을 가할 수 있으며, 이하에서 상세히 설명하는 특정 실시예에 한정되지 않음은 당업자에게 자명하다.
도 1은, 본 개시의 다양한 실시 예에 따른 전자 장치의 네트워크 환경을 예시한 도면이다. 도 1을 참조하면, 상기 전자 장치의 네트워크 환경 100은, 예를 들어, 스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치 101을 포함할 수 있고, 상기 전자 장치 101과 근거리에서 통신하는 외부 전자 장치 102와, 네트워크 162을 통해 원거리에 통신하는 외부 전자 장치 104 및 서버 106 등을 포함할 수 있다.
상기 전자 장치 101은, 예를 들어, 버스 110, 프로세서 120, 메모리 130, 입출력 인터페이스 150, 디스플레이 160, 그리고 통신 인터페이스 170등을 포함할 수 있고, 상기 버스 110은, 상기 구성 요소들을 서로 연결하고, 상기 구성 요소들 간의 통신 메시지 또는 데이터를 전달하는 회로를 포함할 수 있다.
상기 프로세서 120은, 중앙처리장치(CPU: Central Processing unit), 어플리케이션 프로세서(AP: Application Processor), 또는 커뮤니케이션 프로세서 (CP: Communication Processor) 중 어느 하나 이상을 포함할 수 있고, 상기 전자 장치 101의 적어도 하나의 구성 요소들의 제어 또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
상기 프로세서 120은, 예를 들어, 근접 네트워크를 구성하고, 상기 근접 네트워크의 클러스터(cluster)에 속한 다른 전자 장치들과 동기화된 통신 구간을 통해 데이터를 교환하도록 제어할 수 있다. 여기서 상기 통신 구간은, NAN 통신 표준에 따라 디스커버리 윈도우(DW)로 지칭될 수 있다.
상기 메모리 130은, 예를 들어, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있고, 상기 전자 장치 101의 적어도 하나의 다른 구성 요소에 관계된 명령 또는 데이터를 저장할 수 있고, 소프트웨어 및/또는 프로그램 140을 저장할 수 있다.
상기 프로그램 140은, 예를 들어, 커널 141, 미들웨어 143, 어플리케이션 프로그래밍 인터페이스(API: Application Programming Interface) 145, 그리고 어플리케이션 프로그램147 등을 포함할 수 있다. 상기 커널 141, 미들웨어 143, 또는 API 145의 적어도 일부는, 운영 시스템(OS: Operating System)이라고 지칭될 수 있다.
상기 커널 141은, 예를 들어, 다른 프로그램들(예: 미들웨어 143, API 145, 또는 어플리케이션 프로그램 147)에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스 110, 프로세서 120, 또는 메모리 130 등)을 제어 또는 관리할 수 있다.
상기 미들웨어 143은, 예를 들어, 상기 API 145 또는 상기 어플리케이션 프로그램 147이 상기 커널 141과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다.
상기 API 145는, 예를 들어, 상기 어플리케이션 147이 상기 커널 141 또는 상기 미들웨어 143에서 제공되는 기능을 제어하기 위한 인터페이스로서, 파일 제어, 창 제어, 화상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수를 포함할 수 있다.
상기 입출력 인터페이스 150은, 예를 들어, 사용자 또는 다른 외부 전자 장치로부터 입력된 명령 또는 데이터를, 상기 전자 장치 101의 다른 구성 요소에 전달할 수 있는 인터페이스의 역할을 할 수 있다.
상기 디스플레이 160은, 예를 들어, 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이, 유기 발광 다이오드 (OLED) 디스플레이 등과 같은 다양한 유형의 디스플레이일 수 있고, 터치 스크린을 포함할 수 있으며, 전자 펜 또는 사용자의 신체 일부를 이용한 터치, 제스처, 근접, 또는 호버링 입력을 수신할 수 있다.
상기 통신 인터페이스 170은, 상기 전자 장치 101와, 상기 외부 전자 장치 102, 104및 서버 106들 간의 통신을 설정할 수 있다. 예를 들어, 무선 통신 또는 유선 통신을 통해 네트워크 162에 연결되어 상기 외부 전자 장치 104 및 서버 106과 통신할 수 있다.
상기 무선 통신은, 예를 들어, LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro, 또는 GSM 등 중 적어도 하나를 포함할 수 있고, 상기 유선 통신은, 예를 들어, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), RS-232(Recommended Standard 232), 또는 POTS(Plain Old Telephone Service) 중 적어도 하나를 포함할 수 있다.
상기 네트워크 162는, 예를 들어, 통신 네트워크(telecommunications network), 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망(telephone network) 중 적어도 하나를 포함할 수 있다.
도 2는, 본 개시의 다양한 실시 예에 따른 전자 장치의 블록도이다. 도 2을 참조하면, 상기 전자 장치 201은, 예를 들어, 하나 이상의 어플리케이션 프로세서(AP: Application Processor) 210, 통신 모듈 220, SIM(Subscriber Identification Module) 카드 224, 메모리 230, 센서 모듈 240, 입력 장치 250, 디스플레이 260, 인터페이스 270, 오디오 모듈 280, 카메라 모듈 291, 전력 관리 모듈 295, 배터리 296, 인디케이터 297, 그리고 모터 298 등을 포함할 수 있다. 상기 전자 장치 201은, 예를 들어, 도 1의 전자 장치 101일 수 있다.
상기 AP 210은, 예를 들어, 운영 체제 또는 응용 프로그램을 구동하여 상기 AP 210에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 상기 AP 210은, 예를 들어, SoC(System On Chip)로 구현될 수 있고, GPU (Graphic Processing Unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다.
상기 AP 210은, 도 2에 도시된 구성 요소들 중 적어도 일부(예: 셀룰러 모듈 221)를 포함할 수 있고, 다른 구성 요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.
상기 통신 모듈 220은, 도 1의 통신 인터페이스 170와 동일 또는 유사한 구성을 가질 수 있다. 상기 통신 모듈 220은, 예를 들어, 셀룰러 모듈 221, WiFi 모듈 223, BT 모듈 225, GPS 모듈 227, NFC 모듈 228 또는 RF 모듈 229를 포함할 수 있다.
상기 셀룰러 모듈 221은, 예를 들어, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 상기 셀룰러 모듈 221은 가입자 식별 모듈(예: SIM 카드 224)을 이용하여 통신 네트워크 내에서 전자 장치 201의 구별 및 인증을 수행할 수 있다. 상기 셀룰러 모듈 221은 상기 AP 210가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있고, 커뮤니케이션 프로세서(CP: Communication Processor)를 포함할 수 있다.
상기 WiFi 모듈 223, 상기 BT 모듈 225, 상기 GPS 모듈 227, 또는 상기 NFC 모듈 228 각각은, 예를 들어, 해당하는 모듈을 통해 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있고, 상기 셀룰러 모듈 221, WiFi 모듈 223, BT 모듈 225, GPS 모듈 227, 또는 NFC 모듈 228 중 적어도 일부(예: 2 개 이상)는 하나의 IC(Integrated Chip) 또는 IC 패키지 내에 포함될 수 있다.
상기 RF 모듈 229는, 예를 들어, RF 통신 신호를 송수신할 수 있고, 트랜시버(transceiver), PAM(Power Amp Module), 주파수 필터(frequency filter), LNA(Low Noise Amplifier), 또는 안테나 등을 포함할 수 있고, 상기 셀룰러 모듈 221, WIFI 모듈 223, BT 모듈 225, GPS 모듈 227, 또는 NFC 모듈 228 중 적어도 하나는, 별개의 RF 모듈을 통해 RF 신호를 송수신할 수 있다.
상기 SIM 카드 224는, 예를 들어, 가입자 식별 모듈을 포함하는 카드 및/또는 내장 SIM (embedded SIM)을 포함할 수 있고, 고유한 식별 정보(예: ICCID (Integrated Circuit Card Identifier)), 또는 가입자 정보(예: IMSI (International Mobile Subscriber Identity))를 포함할 수 있다.
상기 메모리 230은, 예를 들어, 내장 메모리 232 또는 외장 메모리 234를 포함할 수 있고, 상기 센서 모듈 240은, 예를 들어, 물리 량을 계측하거나 전자 장치 201의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다.
상기 센서 모듈 240은, 예를 들어, 제스처 센서 240A, 자이로 센서 240B, 기압 센서 240C, 마그네틱 센서 240D, 가속도 센서 240E, 그립 센서 240F, 근접 센서 240G, 컬러 센서 240H (예: RGB(Red, Green, Blue) 센서), 생체 센서 240I, 온/습도 센서 240J, 조도 센서 240K, 또는 UV(Ultra Violet) 센서 240M 중의 적어도 하나를 포함할 수 있다.
상기 센서 모듈 240은, 예를 들아, 후각 센서(E-nose sensor), EMG 센서(Electromyography sensor), EEG 센서(Electroencephalogram sensor), ECG 센서(Electrocardiogram sensor), IR(Infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다.
상기 입력 장치 250은, 예를 들어, 터치 패널(touch panel) 252, (디지털) 펜 센서(pen sensor) 254, 키(key) 256, 또는 초음파(ultrasonic) 입력 장치 258를 포함할 수 있다. 상기 디스플레이 260은, 패널 262, 홀로그램 장치 264, 또는 프로젝터 266을 포함할 수 있다.
상기 인터페이스 270은, 예를 들어, HDMI 272, USB 274, 광 인터페이스 276, 또는 D-sub(D-subminiature) 278를 포함할 수 있다. 상기 오디오 모듈 280은, 예를 들어, 소리(sound)와 전기 신호를 쌍방향으로 변환시킬 수 있고, 스피커 282, 리시버 284, 이어폰 286, 또는 마이크 288 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.
상기 카메라 모듈 291은, 예를 들어, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, ISP(image signal processor), 또는 플래시(flash)(예: LED 또는 xenon lamp)를 포함할 수 있다.
상기 전력 관리 모듈 295는, 예를 들어, 상기 전자 장치 201의 전력을 관리할 수 있고, PMIC(Power Management Integrated Circuit), 충전 IC(charger integrated circuit), 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다.
상기 인디케이터 297은, 상기 전자 장치 201 또는 그 일부(예: AP 210)의 특정 상태, 예를 들어, 부팅 상태, 메시지 상태, 또는 전력 상태 등을 표시할 수 있고, 상기 모터 298은, 전기적 신호를 기계적 진동으로 변환할 수 있으며, 진동 (vibration) 등의 효과를 발생시킬 수 있다.
도 3은, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치의 일부 구성을 예시한 도면이다. 도 3을 참조하면, 전자 장치 301은, 예를 들어, 도 2의 전자 장치 201일 수 있다.
상기 전자 장치 301은 어플리케이션 프로세서 310 및 오디오 모듈 380을 포함할 수 있다.
상기 전자 장치 301은 다양한 동작 모드를 가질 수 있다. 한 실시예에서, 상기 전자 장치 301은 정상 모드(normal mode) 또는 대기 모드(idle mode)로 동작할 수 있으며, 전력 소모를 줄이기 위한 절전 모드(power saving mode)(예를 들어, 슬립 모드(sleep mode) 또는 최대 절전 모드(maximum sleep mode))로 동작할 수 있다. 예를 들어, 상기 저전력 모드는 전원 공급을 줄이기 위하여 상기 어플리케이션 프로세서 301의 동작 속도를 감소시킬 수 있다. 이하, 본 문서에서 슬립 모드는 전력 소모를 줄이기 위한 다양한 동작 모드를 나타내며, 특정 동작 모드에 국한되지 아니한다.
도 3을 참조하면, 상기 전자 장치 301은, 절전(power saving)을 위해 저전력 모드, 예를 들어, 슬립(sleep) 모드에 진입하는 경우, 고전력을 사용하는 디스플레이 모듈 360을 오프(off)시키고, 고주파 클록(clock)(예: GHz 단위)을 사용하는 어플리케이션 프로세서 310을 아이들(idle) 상태로 전환시킬 수 있다.
상기 전자 장치 301은, 상기 슬립 모드에서도, 마이크 388을 통해 사용자가 입력하는 음성 신호를 인식하기 위하여, 오디오 모듈 380 내에 포함된 저전력의 프로세서, 예를 들어, 오디오 코덱 380a을 구동시킬 수 있다. 여기서, 상기 오디오 코덱은, 저전력을 사용하는 제1 프로세서, 상기 어플리케이션 프로세서는, 고전력을 사용하는 제2 프로세서 등으로 다양하게 일컬어질 수 있다.
상기 오디오 코덱 380a는, 예를 들어, MHz 단위의 저주파(low frequency) 클록(예: 50MHz)을 사용할 수 있으며, 상기 어플리케이션 프로세서 310에 비해 소비 전력이 적은 저전력 칩(low power chip)으로 제작될 수 있다.
상기 오디오 코덱 380a은, 상기 어플리케이션 프로세서 310가 아이들(idle) 상태인 동안, 상기 마이크 388을 통해 입력되는 사용자의 음성 신호를 인식할 수 있다. 예를 들어, 상기 슬립 모드에서, 50MHz 단위의 저주파 클록을 사용하여, 마이크 388를 통해 입력되는 사용자 음성 신호를 인식하고, 상기 사용자 음성 신호가, 사전에 설정된 특정 음성 신호와 일치하는 지를 판별할 수 있다.
상기 오디오 코덱 380a는, 예를 들어, 상기 인식된 사용자 음성 신호가, 사전에 설정된 특정 키워드(예: 하이 갤럭시)인 경우, 상기 어플리케이션 프로세서 310에서 실행되는 적어도 하나 이상의 어플리케이션들에 의해 음성 인식 동작이 수행되도록, 음성 트리거(voice trigger)를 발생시킬 수 있다.
여기서, 상기 오디오 코덱 380a는, 사용자 음성 신호 인식 동작은 물론, 사용자 음성 신호를 오디오 신호 처리하여 스피커 등으로 출력할 수 있음은, 당업자라면 자명하다.
상기 어플리케이션 프로세서 310은, 상기 음성 트리거가 발생한 이후, 아이들(idle) 상태에서 활성화(active) 상태로 웨이크업(wake-up) 될 수 있고, 상기 마이크 388를 통해 입력되는 사용자의 음성 신호를, 상기 오디오 코덱 380a으로부터 전달 받아 녹음하는 음성 녹음(voice record) 동작을 수행할 수 있다.
상기 어플리케이션 프로세서 310은, 상기 음성 녹음 동작을 수행하던 도중, 사용자 음성 신호의 입력이 종료(end)되는 경우, 통신 모듈 320을 동작 제어할 수 있으며, 네트워크 362를 통해 음성 인식 서비스를 제공하는 서버 306와의 인터페이스를 수행할 수 있다. 여기서, 상기 어플리케이션 프로세서 310은, 상기 서버 306와의 인터페이스 없이도, 음성 인식 동작을 자체 수행할 수 있다.
상기 어플리케이션 프로세서 310은, 상기 서버 306와의 인터페이스를 통해, 상기 녹음된 사용자 음성 신호에 상응하는 텍스트(text) 또는 커맨드(command) 등을 제공 받을 수 있으며, 상기 텍스트를 디스플레이 하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.
상기 전자 장치 301가, 슬립 모드인 상태에서, 마이크 388를 통해 입력되는 사용자의 음성 키워드를 인식하고, 이후 연속적으로 입력된 사용자 음성 명령에 상응하는 임의의 기능을 자동으로 수행하는 기능은, “Seamless Wake-Up” 기능 등으로 다양하게 일컬어질 수 있다.
한 실시예에서, 상기 전자 장치 301은 절전 모드(power saving mode)에서 음성 트리거를 인식하는 동작; 상기 음성 트리거가 인식되는 경우 음성 입력을 녹음하는 동작; 및 상기 녹음이 종료되는 경우, 정상 모드(normal mode)로 변경하는 동작을 수행할 수 있다.
도 4는, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 동작 타이밍(timing)을 예시한 도면이다. 도 4을 참조하면, 예를 들어, 스마트 폰 등과 같은 전자 장치가 절전을 위해 슬립 모드에 진입하면, 디스플레이 모듈 460은, 오프(off) 상태가 되고, 어플리케이션 프로세서 410은, 아이들(idle) 상태가 될 수 있다.
상기 슬립 모드에서, 오디오 코덱 480a은, 예를 들어, 50MHz단위의 저주파(low frequency) 클록(clock)을 사용하여, 마이크를 통해 입력되는 사용자 음성 신호를 인식할 수 있고, 상기 마이크를 통해 입력되는 사용자 음성 신호 400가, 사전에 설정된 키워드(keyword)(예: 하이 갤럭시)와 일치하면, 음성 트리거(voice trigger)를 발생시킬 수 있다.
상기 음성 트리거가 발생하면, 상기 어플리케이션 프로세서 410은, 아이들(idle) 상태에서, 활성화(active) 상태로 웨이크업(wake-up) 될 수 있다. 예를 들어, 상기 어플리케이션 프로세서 410가, 상기 음성 트리거에 의해, 아이들 상태에서 활성화 상태로 웨이크업 할 때까지는, 소정의 지연 시간(t_delay, 예: 0.5초)이 발생할 수 있다.
상기 오디오 코덱 480a은, 상기 소정의 지연 시간(t_delay) 동안, 마이크를 통해 입력되는 사용자 음성 신호를 버퍼링(buffering)하고, 이후, 상기 어플리케이션 프로세서 410가 활성화되면, 상기 버퍼링된 사용자 음성 신호를 상기 어플리케이션 프로세서 410으로 전달하고, 이후, 마이크를 통해 입력되는 사용자 음성 신호를, 상기 어플리케이션 프로세서 410로 실시간 전달할 수 있다.
상기 어플리케이션 프로세서 410은, 활성화된 후, 상기 오디오 코덱 480a에서 전달하는 사용자 음성 신호를 녹음(record)하는 음성 녹음 동작을 수행하면서, 사용자 음성 신호의 입력이 종료(end)되는 지를 감시할 수 있다.
예를 들어, 사용자 음성 신호가 입력되지 않는 묵음 시간이, 사전에 설정된 기준 값의 묵음 시간(예: 0.5초)과 일치하는 경우, 그 시점을 사용자 음성 신호의 입력 종료 시점(t_end)이라고 판별할 수 있다.
상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 통신 모듈을 동작 제어하여, 네트워크를 통해 서버와 접속한 후, 상기 음성 녹음된 사용자 음성 신호를, 상기 서버로 전송하고, 상기 사용자 음성 신호에 상응하는 텍스트 또는 커맨드를, 상기 서버로부터 수신할 수 있으며, 상기 수신된 텍스트를 표시하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.
상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 가 판별되면, 상기 오디오 코덱 480a이 사용하는 50MHz 단위의 저주파 클록을, 100MHz 단위(예: 147MHz)의 고주파 클록으로 변경하여, 상기 오디오 코덱 480a이, 정상적인 오디오 신호 처리 동작 등을 수행할 수 있도록 한다.
상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 가 판별되면, 전자 장치의 슬립 모드를 해제함과 아울러, 상기 디스플레이 모듈 460을 오프 상태에서 온(on) 상태로 전환시킴으로써, 상기 디스플레이 모듈 460이, 현재의 동작 상태 등을 정상적으로 디스플레이할 수 있도록 한다.
상기 디스플레이 모듈 460이 오프 상태에서 온 상태로 전환되는 시점은, 상기 어플리케이션 프로세서 410가, 사용자 음성 신호의 입력 종료를 검출하는 시점이거나, 또는 상기 어플리케이션 프로세서 410가, 아이들 상태에서 활성화 상태로 웨이크업 되는 시점이 될 수도 있다.
본 개시의 다양한 실시 예에 따르면, 상기와 같이 오디오 코덱 480a의 주파수 클록이 50MHz 단위에서 100MHZ 단위로 변경되는 시점이, 상기 어플리케이션 프로세서 410가, 음성 녹음 동작을 완료하는 시점 이후가 되기 때문에, 도 4에 도시한 바와 같이, 상기 오디오 코덱 480a에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 상기 음성 녹음 동작을 수행하는 동안 유입되는 것을 미연에 방지할 수 있다.
도 5는, 본 개시의 다양한 실시 예에 따른 묵음 시간 설정 테이블을 예시한 도면이다. 상기 전자 장치의 어플리케이션 프로세서에서, 사용자 음성 신호의 입력 종료(end)를 검출하기 위해 참조하는 기준 값의 묵음(mute) 시간은, 예를 들어, 특정 키워드 및/또는 특정 키워드와 연관된 어플리케이션, 사용자 발화 특성 (발성 속도 등), 입력된 음성신호의 특성 (음성신호의 길이 등) 등에 따라 서로 다르게 설정될 수 있다.
상기 어플리케이션 프로세서는, 도 5의 묵음 시간 설정 테이블(mute time setting table) 500를, 룩업(look-up) 테이블 정보로서 저장 관리할 수 있고, 사용자 음성 신호의 입력 종료를 검출하기 위해, 상기 룩업 테이블 정보를 검색 및 참조할 수 있다. 상기 묵음 시간 설정 테이블 500에는, 적어도 하나 이상의 키워드(keyword)와, 키워드에 연관된 어플리케이션(application), 그리고 어플리케이션에 연관된 묵음 시간(mute time) 등이, 리스트 형태로 연계되어 저장될 수 있다.
상기 묵음 시간 설정 테이블 500의 제1 키워드(keyword #1) 510은, 전자 장치의 제조사가 지정한 특정 키워드, 예를 들어, “하이 갤럭시”라는 특정 음성 신호일 수 있고, 상기 묵음 시간 설정 테이블 500의 제2 키워드(keyword #2)는, 전자 장치의 사용자가 지정한 임의의 키워드, 예를 들어, “홍길동”이라는 사용자 이름의 특정 음성 신호일 수 있다.
상기 제1 키워드 510에는, 상기 제1 키워드에 의한 음성 인식 동작에 사용되는 다양한 어플리케이션들(application 1-1, 1-2..)에 대한 식별 정보(예: application id) 등이 연계될 수 있고, 각 어플리케이션에는, 동일 또는 서로 다르게 설정된 다양한 기준 값의 묵음 시간들(예: 0.5초, 0.6 초..)이 연계될 수 있다.
상기 제2 키워드 520에는, 상기 제2 키워드에 의한 음성 인식 동작에 사용되는 다양한 어플리케이션들(application 2-1, 2-2..)에 대한 식별 정보(예: application id) 등이 연계될 수 있고, 각 어플리케이션에는, 동일 또는 서로 다르게 설정된 다양한 기준 값의 묵음 시간들(예: 1.0초, 1.2 초..)이 연계될 수 있다.
상기 제1 키워드 510가, 예를 들어, 전자 장치의 제조사가 지정한 특정 키워드(예: “하이 갤럭시”)인 경우, 상기 제1 키워드를 입력한 사용자는, 이후에도, 상기 전자 장치의 제조사가 권장하거나 예측할 수 있는 정해진 내용의 음성 신호를 입력할 가능성이 있다.
예를 들어, 상기 제1 키워드를 입력한 사용자는, 이후, 음성 명령으로서, “카메라 실행”등과 같이 사전에 정해진 음성 명령을 간단하게 입력할 가능성이 높으므로, 상기 제1 키워드에 연계된 기준 값의 묵음 시간들은, 비교적 짧은 시간으로 설정될 수 있다.
반면, 상기 제2 키워드 520가, 예를 들어, 전자 장치의 사용자가 지정한 임의의 키워드(예: “홍길동”)인 경우, 상기 제2 키워드를 입력한 사용자는, 이후에도, 상기 전자 장치의 사용자가 원하는 임의의 음성 명령을 입력할 가능성이 높다.
예를 들어, 상기 제2 키워드를 입력한 사용자는, 이후, 음성 명령으로서, “카메라 촬영 기능 즉시 시작” 등과 같이 사전에 정해지지 않은 음성 명령을 길게 입력할 가능성이 높으므로, 상기 제2 키워드에 연계된 기준 값의 묵음 시간들은, 비교적 긴 시간으로 설정될 수 있다.
이에 따라, 상기 제1 키워드 510에 연계되는 기준 값의 묵음 시간들은, 상기 제2 키워드 520에 연계되는 기준 값의 묵음 시간들에 비해 상대적으로 짧은 시간일 수 있다. 이는 본 개시의 다양한 실시 예 중 하나의 예시로서, 본 개시가 이에 한정되는 것은 아니다.
도 6은, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 다른 동작 타이밍(timing)을 예시한 도면이다. 도 6을 참조하면, 예를 들어, 스마트 폰 등과 같은 전자 장치가 절전을 위해 슬립 모드에 진입하면, 디스플레이 모듈 660은, 오프(off) 상태가 되고, 어플리케이션 프로세서 610은, 아이들(idle) 상태가 될 수 있다.
상기 슬립 모드에서, 오디오 코덱 680a은, 예를 들어, 50MHz단위의 저주파(low frequency) 클록(clock)을 사용하여, 마이크를 통해 입력되는 사용자 음성 신호를 인식할 수 있고, 상기 마이크를 통해 입력되는 사용자 음성 신호 600가, 사전에 설정된 키워드(keyword)와 일치하면, 음성 트리거(voice trigger)를 발생시킬 수 있다.
예를 들어, 상기 키워드는, 도 5을 참조로 전술한 바와 같이, 전자 장치의 사용자가 임의의 지정한 제2 키워드(keyword 2, 예: “홍길동”)일 수 있고, 상기 제2 키워드(keyword 2)에 연계된 기준 값의 묵음 시간(mute 2-1, 예: 1.0초)은, 전자 장치의 제조사가 지정한 제1 키워드에 연계된 기준 값의 묵음 시간(예: mute 1-1, 예; 0.5초) 보다 상대적으로 길 수 있다.
상기 음성 트리거가 발생하면, 상기 어플리케이션 프로세서 610은, 아이들(idle) 상태에서, 활성화(active) 상태로 웨이크업(wake-up) 될 수 있고, 상기 활성화 상태로 웨이크업 할 때까지는, 소정의 지연 시간(t_delay)이 발생할 수 있다.
상기 오디오 코덱 680a은, 상기 소정의 지연 시간(t_delay) 동안, 마이크를 통해 입력되는 사용자 음성 신호를 버퍼링(buffering)하고, 이후, 상기 어플리케이션 프로세서 610가 활성화되면, 상기 버퍼링된 사용자 음성 신호를 상기 어플리케이션 프로세서 610으로 고속 전달하고, 이후, 마이크를 통해 입력되는 사용자 음성 신호를, 상기 어플리케이션 프로세서 610로 실시간 전달할 수 있다.
상기 어플리케이션 프로세서 610은, 활성화된 후, 상기 오디오 코덱 680a에서 고속으로 전달하는 사용자 음성 신호와 실시간으로 전달하는 사용자 음성 신호를 녹음(record)하는 음성 녹음 동작을 수행하면서, 사용자 음성 신호의 입력이 종료(end)되는 지를 감시할 수 있다.
예를 들어, 사용자 음성 신호가 입력되지 않는 묵음(mute) 시간이, 사전에 설정된 기준 값의 제2 묵음 시간(mute 2-1, 예: 1.0초)과 일치하는 경우, 그 시점을 사용자 음성 신호의 입력 종료 시점(t_end)이라고 판별할 수 있다.
상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 통신 모듈을 동작 제어하여, 네트워크를 통해 서버와 접속한 후, 상기 음성 녹음된 사용자 음성 신호를, 상기 서버로 전송하고, 상기 사용자 음성 신호에 상응하는 텍스트 또는 커맨드를, 상기 서버로부터 수신할 수 있으며, 상기 수신된 텍스트를 표시하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.
상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 상기 오디오 코덱 680a이 사용하는 50MHz 단위의 저주파 클록을, 100MHz 단위(예: 147MHz)의 고주파 클록으로 변경하여, 상기 오디오 코덱 680a이, 정상적인 오디오 신호 처리 동작 등을 수행할 수 있도록 한다.
상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 전자 장치의 슬립 모드를 해제함과 아울러, 상기 디스플레이 모듈 660을 오프 상태에서 온(on) 상태로 전환시킴으로써, 상기 디스플레이 모듈 660이, 현재의 동작 상태 등을 정상적으로 디스플레이할 수 있도록 한다.
상기 디스플레이 모듈 660이 오프 상태에서 온 상태로 전환되는 시점은, 상기 어플리케이션 프로세서 610가, 사용자 음성 신호의 입력 종료를 검출하는 시점이거나, 또는 상기 어플리케이션 프로세서 610가, 아이들 상태에서 활성화 상태로 웨이크업 되는 시점이 될 수도 있다.
본 개시의 다양한 실시 예에 따르면, 상기와 같이 오디오 코덱 680a의 주파수 클록이 50MHz 단위에서 100MHZ 단위로 변경되는 시점이, 상기 어플리케이션 프로세서 610가, 음성 녹음 동작을 완료하는 시점 이후가 된다.
이에 따라, 도 6에 도시한 바와 같이, 상기 오디오 코덱 680a에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 상기 음성 녹음 동작을 수행하는 동안 유입되는 것을 미연에 방지할 수 있게 된다.
더 나아가, 상기 사용자 음성의 입력 종료를 판단하는 기준 값의 묵음 시간(mute)을, 키워드 및/또는 키워드와 연관된 어플리케이션 등에 따라 다르게 변경함으로써, 슬립 모드의 해제 시점 등을 적절히 조절할 수 있다.
도 7은, 본 개시의 다양한 실시 예에 따른 전자 장치의 음성 인식 방법에 대한 동작 흐름도를 예시한 도면이다. 도 7을 참조하면, 동작 700에서, 상기 전자 장치는, 절전을 위해, 슬립 모드로 진입할 수 있다. 상기 슬립 모드가 되면, 디스플레이 모듈이 오프되고, 어플리케이션 프로세서가 아이들 상태가 될 수 있다.
동작 710에서, 상기 전자 장치의 오디오 코덱은, 슬립 모드에서도, 50MHZ 단위의 저주파 클록을 사용하여, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하고, 상기 사용자의 음성 신호가, 사전에 설정된 특정 키워드인지를 판별할 수 있다.
동작 720에서, 상기 판별 결과, 특정 키워드의 입력이면, 동작 730에서, 상기 전자 장치의 어플리케이션 프로세서는, 아이들 상태에서, 웨이크업 되며, 소정의 지연 시간이 경과하면, 활성화 상태가 될 수 있다.
동작 740에서, 상기 어플리케이션 프로세서는, 상기 특정 키워드가 입력된 이후, 상기 오디오 코덱 내에 버퍼링된 사용자 음성 신호를 전달 받고, 이후 상기 오디오 코덱을 통해 실시간으로 전달되는 사용자 음성 신호와 함께 녹음하는 사용자 음성 신호 녹음 동작을 수행할 수 있다.
동작 750에서, 상기 어플리케이션 프로세서는, 상기 음성 녹음 동작을 수행하면서, 사용자 음성이 입력되지 않는 묵음 시간을 검출하여, 사용자 음성 입력 종료를 판별할 수 있다.
동작 760에서, 상기 어플리케이션 프로세서는, 상기 사용자 음성 입력 종료가 판별되면, 슬립 모드를 해제할 수 있으며, 동작 770에서, 상기 어플리케이션 프로세서는, 상기 오디오 코덱의 주파수 클록을, 50MHZ 단위에서 100MHZ 단위(예: 147MHz)로 증가시켜, 상기 오디오 코덱이 정상적인 오디오 신호 처리 동작을 수행할 수 있도록 한다.
동작 780에서, 상기 어플리케이션 프로세서는, 상기 디스플레이 모듈을 오프 상태에서 온 상태로 전환시켜, 전자 장치의 동작 상태 등이 정상적으로 디스플레이될 수 있도록 한다.
동작 790에서, 상기 어플리케이션 프로세서는, 통신 모듈을 동작 제어하여, 네트워크를 통해 음성 인식 서비스를 제공하는 서버와 접속한 후, 상기 서버와의 통신을 통해, 음성 인식 동작을 정상적으로 수행할 수 있다. 상기 동작 760 내지 동작 790은, 다른 순서에 의해 순차적 수행되거나, 동시에 수행될 수 있다.
본 개시의 다양한 실시 예에 따르면, 상기 오디오 코덱의 주파수 클록이 증가되는 시점을, 상기 어플리케이션 프로세서가, 음성 녹음 동작을 완료하는 시점 이후가 되도록 함으로써, 오디오 코덱에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 음성 녹음에 유입되는 것을 미연에 방지할 수 있게 되므로, 음성 인식 동작의 정확성을 높일 수 있다.
본 개시의 다양한 실시 예에 따르면, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다.
상기 제1 프로세서는, 오디오 코덱이고, 상기 제2 프로세서는, 어플리케이션 프로세서이고, 상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩일 수 있다.
상기 제1 프로세서는 상기 제2 프로세서가 웨이크업 시작에서 활성화 상태가 될 때까지의 지연 시간 동안 마이크를 통해 입력되는 음성 신호를 버퍼링하고, 상기 제2 프로세서가 활성화 상태가 되면 상기 버퍼링된 음성 신호를 전달하며, 상기 활성화 이후 마이크를 통해 입력되는 음성 신호를 실시간으로 전달할 수 있다.
상기 제2 프로세서는 상기 음성 녹음 도중 음성 입력이 종료되는지를 기준 묵음 시간에 기반하여 판별할 수 있고, 상기 기준 묵음 시간은 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 설정될 수 있다.
상기 전자 장치의 음성 인식 방법은, 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 값의 묵음 시간들을 룩업 테이블 정보로서 저장하되, 상기 룩업 테이블 정보에는, 상기 전자 장치의 제조사가 지정한 특정 키워드와, 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 어느 하나가 포함될 수 있다. 상기 음성 입력의 종료가 판별되면 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 동작을 더 포함할 수 있다.
상기 수행하는 동작은 상기 제2 프로세서가 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신 받을 수 있고, 상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 동작을 더 포함할 수 있다.
본 개시의 다양한 실시 예에 따르면, 전자 장치에 있어서, 음성 신호를 입력 받기 위한 마이크; 상기 음성 신호를 신호 처리하기 위한 제1 프로세서; 및 상기 음성 신호를 인식하기 위한 제2 프로세서를 포함하되, 상기 제1 프로세서는 상기 전자 장치의 슬립 모드에서 지정된 클록을 사용하여 상기 마이크를 통해 입력되는 음성 신호를 인식하고, 상기 제2 프로세서는 상기 제1 프로세서에 의해 인식된 음성 신호가 사전에 설정된 키워드이면 아이들 상태에서 활성화 상태가 되어 음성 녹음을 수행하고, 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제1 프로세서의 클록을 변경할 수 있다.
상기 제1 프로세서는, 오디오 코덱이고, 상기 제2 프로세서는, 어플리케이션 프로세서이고, 상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩일 수 있다.
상기 제2 프로세서는 상기 음성 녹음 도중 음성 입력이 종료되는 지를 사전에 설정된 기준 묵음 시간에 기반하여 판별할 수 있고, 상기 기준 묵음 시간은 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 설정될 수 있다.
상기 제2 프로세서는 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들을 룩업 테이블 정보로서 저장하는 장치.
상기 룩업 테이블 정보에는 지정한 특정 키워드와 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 하나가 포함될 수 있고, 상기 제2 프로세서는 상기 음성 입력의 종료가 판별되면, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시킬 수 있다.
상기 제2 프로세서는 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신 받을 수 있고, 상기 제2 프로세서는 상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 할 수 있다.
본 개시의 다양한 실시 예에 대해 구체적으로 설명하였으나, 본 개시의 다양한 실시 예의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하므로, 본 개시의 다양한 실시 예의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
101: 전자 장치 110: 버스
120: 프로세서 130: 메모리
140: 프로그램 150: 입출력 인터페이스
160: 디스플레이 170: 통신 인터페이스

Claims (20)

  1. 전자 장치의 음성 인식 방법에 있어서,
    제1 주파수 클록으로 동작하는 제1 프로세서가 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하는 동작;
    상기 제1 프로세서가, 상기 사전에 설정된 키워드가 입력된 후 제2 프로세서의 상태가 아이들(idle) 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 음성 신호를 버퍼링하는 동작;
    상기 제2 프로세서가 상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하는 동작; 및
    상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 동작을 포함하는 방법.
  2. 제1항에 있어서,
    상기 제1 프로세서는, 오디오 코덱이고,
    상기 제2 프로세서는, 어플리케이션 프로세서이고,
    상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩인 방법.
  3. 제1항에 있어서,
    상기 음성 신호를 버퍼링하는 동작은,
    상기 제2 프로세서가 웨이크업 시작에서 상기 활성화 상태가 될 때까지의 지연 시간 동안 상기 마이크를 통해 입력되는 상기 음성 신호를 상기 제1 프로세서가 버퍼링하는 동작을 포함하고,
    상기 제2 프로세서가 상기 활성화 상태가 되면, 상기 버퍼링된 음성 신호는 상기 제1 프로세서에서 상기 제2 프로세서로 전달되고, 상기 제2 프로세서의 활성화 이후 상기 마이크를 통해 입력되는 음성 신호는 상기 제1 프로세서에서 상기 제2 프로세서로 실시간으로 전달되는 방법.
  4. 제1항에 있어서,
    상기 제2 프로세서가 기준 묵음 시간에 기반하여 상기 음성 녹음의 완료를 검출하는 동작을 더 포함하고,
    상기 기준 묵음 시간은 키워드 또는 키워드와 연관된 어플리케이션에 따라 다르게 설정되는 방법.
  5. 제1항에 있어서,
    상기 제1 프로세서의 상기 주파수 클록의 변경에 응답하여, 상기 제2 주파수 클록으로 동작하는 상기 제1 프로세서가 오디오 신호 처리를 수행하는 동작을 더 포함하는 방법.
  6. 제4항에 있어서,
    상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들은 룩업 테이블 정보로서 저장되고,
    상기 룩업 테이블 정보에는, 상기 전자 장치의 제조사가 지정한 특정 키워드와, 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 어느 하나가 포함되는 방법.
  7. 제1항에 있어서,
    상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 동작을 더 포함하는 방법.
  8. 제1항에 있어서,
    상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제2 프로세서가 상기 녹음된 음성 신호에 대하여 음성 인식을 수행하는 동작을 더 포함하는 방법.
  9. 제8항에 있어서,
    상기 음성 인식을 수행하는 동작은,
    상기 제2 프로세서가 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신하는 동작; 및
    상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 동작을 더 포함하는 방법.
  10. 전자 장치에 있어서,
    음성 신호를 입력 받기 위한 마이크;
    제1 프로세서; 및
    제2 프로세서를 포함하되,
    상기 제1 프로세서는:
    제1 주파수 클록으로 동작하는 동안 상기 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하고,
    상기 사전에 설정된 키워드가 입력된 후 상기 제2 프로세서의 상태가 아이들 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 상기 음성 신호를 버퍼링하고,
    상기 제2 프로세서는:
    상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하고,
    상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 장치.
  11. 제10항에 있어서,
    상기 제1 프로세서는, 오디오 코덱이고,
    상기 제2 프로세서는, 어플리케이션 프로세서이고,
    상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩인 장치.
  12. 제10항에 있어서,
    상기 제1 프로세서는:
    상기 제2 프로세서가 웨이크업 시작에서 상기 활성화 상태가 될 때까지의 지연 시간 동안 상기 마이크를 통해 입력되는 상기 음성 신호를 버퍼링하고,
    상기 제2 프로세서가 상기 활성화 상태가 되면 상기 버퍼링된 음성 신호를 상기 제2 프로세서로 전달하고,
    상기 제2 프로세서의 활성화 이후 상기 마이크를 통해 입력되는 음성 신호를 상기 제2 프로세서로 실시간으로 전달하는 장치.
  13. 제10항에 있어서,
    상기 제2 프로세서는 사전에 설정된 기준 묵음 시간에 기반하여 상기 음성 녹음의 완료를 검출하고
    상기 기준 묵음 시간은 키워드 또는 키워드와 연관된 어플리케이션에 따라 다르게 설정되는 장치.
  14. 제10항에 있어서,
    상기 제1 프로세서는 상기 주파수 클록을 상기 제2 주파수 클록으로 변경하는 것에 응답하여, 오디오 신호 처리를 수행하는 장치.
  15. 제13항에 있어서,
    상기 제2 프로세서는 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들을 룩업 테이블 정보로서 저장하는 장치.
  16. 제15항에 있어서,
    상기 룩업 테이블 정보에는 상기 전자 장치의 제조사가 지정한 특정 키워드와 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 하나가 포함되는 장치.
  17. 제10항에 있어서,
    상기 제2 프로세서는 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 장치.
  18. 제10항에 있어서,
    상기 제2 프로세서는 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 녹음된 음성 신호에 대하여 음성 인식을 수행하는 장치.
  19. 제18항에 있어서,
    상기 제2 프로세서는:
    네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신하고,
    상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 장치.
  20. 전자 장치의 음성 인식 방법에 있어서, 제1 주파수 클록으로 동작하는 제1 프로세서가 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하는 동작; 상기 제1 프로세서가, 상기 사전에 설정된 키워드가 입력된 후 제2 프로세서의 상태가 아이들(idle) 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 음성 신호를 버퍼링하는 동작; 상기 제2 프로세서가 상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하는 동작; 및 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 동작을 포함하는 방법을 수행하기 위한 프로그램이 저장된 비 일시적 컴퓨터 판독 가능 저장매체.
KR1020140166478A 2014-11-26 2014-11-26 음성 인식 방법 및 그 전자 장치 KR102299330B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020140166478A KR102299330B1 (ko) 2014-11-26 2014-11-26 음성 인식 방법 및 그 전자 장치
CN201510757071.0A CN105632491B (zh) 2014-11-26 2015-11-09 用于语音识别的方法和电子装置
PCT/KR2015/012063 WO2016085157A1 (en) 2014-11-26 2015-11-10 Method and electronic device for voice recognition
US14/946,021 US9779732B2 (en) 2014-11-26 2015-11-19 Method and electronic device for voice recognition
EP15195699.2A EP3026667B1 (en) 2014-11-26 2015-11-20 Method and electronic device for voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140166478A KR102299330B1 (ko) 2014-11-26 2014-11-26 음성 인식 방법 및 그 전자 장치

Publications (2)

Publication Number Publication Date
KR20160064258A KR20160064258A (ko) 2016-06-08
KR102299330B1 true KR102299330B1 (ko) 2021-09-08

Family

ID=54695592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140166478A KR102299330B1 (ko) 2014-11-26 2014-11-26 음성 인식 방법 및 그 전자 장치

Country Status (5)

Country Link
US (1) US9779732B2 (ko)
EP (1) EP3026667B1 (ko)
KR (1) KR102299330B1 (ko)
CN (1) CN105632491B (ko)
WO (1) WO2016085157A1 (ko)

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
CA2982196C (en) * 2015-04-10 2022-07-19 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
US11874716B2 (en) 2015-08-05 2024-01-16 Suunto Oy Embedded computing device management
US11144107B2 (en) 2015-12-01 2021-10-12 Amer Sports Digital Services Oy Apparatus and method for presenting thematic maps
US11137820B2 (en) 2015-12-01 2021-10-05 Amer Sports Digital Services Oy Apparatus and method for presenting thematic maps
US11215457B2 (en) 2015-12-01 2022-01-04 Amer Sports Digital Services Oy Thematic map based route optimization
US10651827B2 (en) * 2015-12-01 2020-05-12 Marvell Asia Pte, Ltd. Apparatus and method for activating circuits
US11210299B2 (en) 2015-12-01 2021-12-28 Amer Sports Digital Services Oy Apparatus and method for presenting thematic maps
FI127926B (en) 2015-12-21 2019-05-31 Suunto Oy Sensor-based context management
US11587484B2 (en) 2015-12-21 2023-02-21 Suunto Oy Method for controlling a display
US11284807B2 (en) 2015-12-21 2022-03-29 Amer Sports Digital Services Oy Engaging exercising devices with a mobile device
US11541280B2 (en) 2015-12-21 2023-01-03 Suunto Oy Apparatus and exercising device
US11838990B2 (en) 2015-12-21 2023-12-05 Suunto Oy Communicating sensor data in wireless communication systems
CN105611409B (zh) * 2016-01-04 2019-12-27 京东方科技集团股份有限公司 一种广告机控制系统及其控制方法和广告机
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DE102016210919A1 (de) * 2016-06-20 2017-12-21 Robert Bosch Gmbh Vorrichtung und Verfahren zum Aktivieren einer Sensoreinrichtung
CN107577329A (zh) * 2016-07-04 2018-01-12 上海中兴软件有限责任公司 一种数据信息的显示方法和装置
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
GB2545534B (en) 2016-08-03 2019-11-06 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
GB2552721A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
GB2555532B (en) * 2016-08-03 2019-11-06 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
TWI650975B (zh) * 2016-08-25 2019-02-11 凌華科技股份有限公司 提供行動設備直接存取LoRa資訊封包之LoRa行動裝置及其資料傳輸方法
US20180081352A1 (en) * 2016-09-22 2018-03-22 International Business Machines Corporation Real-time analysis of events for microphone delivery
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN109844857B (zh) * 2016-10-17 2024-02-23 哈曼国际工业有限公司 具有语音能力的便携式音频装置
US11703938B2 (en) 2016-10-17 2023-07-18 Suunto Oy Embedded computing device
DE102017009171A1 (de) * 2016-10-17 2018-04-19 Amer Sports Digital Services Oy Eingebettete rechenvorrichtung
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
GB2555660B (en) 2016-11-07 2019-12-04 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for authentication in an electronic device
KR20180051189A (ko) 2016-11-08 2018-05-16 삼성전자주식회사 자동 음성 트리거 방법 및 이를 적용한 음향 분석기
KR20180082033A (ko) 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
KR20180083587A (ko) 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN108702411B (zh) * 2017-03-21 2021-12-14 华为技术有限公司 一种控制通话的方法、终端及计算机可读存储介质
CN108986800B (zh) * 2017-05-31 2022-08-09 上海智觅智能科技有限公司 一种基于多处理器协调链表逻辑实时离线语音交互系统及方法
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102441063B1 (ko) 2017-06-07 2022-09-06 현대자동차주식회사 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
US10360909B2 (en) 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN107249116B (zh) * 2017-08-09 2020-05-05 成都全云科技有限公司 基于视频会议的噪音回音消除装置
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
KR102356889B1 (ko) * 2017-08-16 2022-01-28 삼성전자 주식회사 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
CN107633854A (zh) * 2017-09-29 2018-01-26 联想(北京)有限公司 一种语音数据的处理方法和电子设备
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN107808670B (zh) 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
KR102429498B1 (ko) * 2017-11-01 2022-08-05 현대자동차주식회사 차량의 음성인식 장치 및 방법
US10916252B2 (en) * 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
US10867623B2 (en) 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
KR102469753B1 (ko) * 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
KR102585784B1 (ko) * 2018-01-25 2023-10-06 삼성전자주식회사 오디오 재생시 인터럽트를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR102629385B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
KR102507249B1 (ko) * 2018-03-08 2023-03-07 삼성전자주식회사 성능 모드 제어 방법 및 이를 지원하는 전자 장치
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
CN108459838B (zh) * 2018-03-30 2020-12-18 联想(北京)有限公司 信息处理方法及电子设备
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
WO2019246314A1 (en) * 2018-06-20 2019-12-26 Knowles Electronics, Llc Acoustic aware voice user interface
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
KR102628211B1 (ko) * 2018-08-29 2024-01-23 삼성전자주식회사 전자 장치 및 그 제어 방법
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
CN109377989B (zh) * 2018-09-27 2021-03-12 昆山品源知识产权运营科技有限公司 唤醒方法、装置、系统、设备及存储介质
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN111316199B (zh) * 2018-10-16 2022-08-19 华为技术有限公司 一种信息处理方法及电子设备
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109508171A (zh) * 2018-12-19 2019-03-22 上海龙旗科技股份有限公司 一种基于四通道的语音处理方法及设备
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2020160683A1 (en) 2019-02-07 2020-08-13 Thomas Stachura Privacy device for smart speakers
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
CN110021307B (zh) * 2019-04-04 2022-02-01 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
KR102225001B1 (ko) 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR102224994B1 (ko) 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN112513783A (zh) * 2019-05-23 2021-03-16 深圳博芯科技股份有限公司 一种语音交互智能手环
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
KR20190104263A (ko) 2019-07-11 2019-09-09 엘지전자 주식회사 인공지능 기반의 음성 인식 서비스 제공 장치 및 방법
KR20190092333A (ko) 2019-07-19 2019-08-07 엘지전자 주식회사 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
KR102658691B1 (ko) 2019-08-28 2024-04-17 엘지전자 주식회사 정보 제공 방법 및 정보 제공 장치
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN112885339A (zh) * 2019-11-14 2021-06-01 杭州智芯科微电子科技有限公司 语音唤醒系统及语音识别系统
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
CN111524513A (zh) * 2020-04-16 2020-08-11 歌尔科技有限公司 一种可穿戴设备及其语音传输的控制方法、装置及介质
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
WO2022047808A1 (zh) * 2020-09-07 2022-03-10 华为技术有限公司 一种图像处理装置、电子设备及图像处理方法
CN114333854A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 语音唤醒方法、电子设备及芯片系统
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN114822525A (zh) * 2021-01-29 2022-07-29 华为技术有限公司 语音控制方法和电子设备
KR102464972B1 (ko) * 2021-05-24 2022-11-08 한양대학교 산학협력단 자동 활성화 마이크의 초기 음성 신호를 인식하기 위한 음성 신호의 제어 및 동기화 방법 및 장치
CN115579013B (zh) * 2022-12-09 2023-03-10 深圳市锦锐科技股份有限公司 一种低功耗音频解码器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758132A (en) * 1995-03-29 1998-05-26 Telefonaktiebolaget Lm Ericsson Clock control system and method using circuitry operating at lower clock frequency for selecting and synchronizing the switching of higher frequency clock signals
JP3446857B2 (ja) * 1996-02-07 2003-09-16 株式会社リコー 音声認識装置
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
KR20130001726A (ko) 2010-02-19 2013-01-04 톰슨 라이센싱 개선된 콘텐츠 검색
KR101192813B1 (ko) * 2010-12-14 2012-10-26 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
US8666751B2 (en) * 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
US9281827B2 (en) * 2011-11-21 2016-03-08 Cirrus Logic International Semiconductor Ltd. Clock generator
US8924453B2 (en) * 2011-12-19 2014-12-30 Spansion Llc Arithmetic logic unit architecture
EP2860726B1 (en) * 2011-12-30 2017-12-06 Samsung Electronics Co., Ltd Electronic apparatus and method of controlling electronic apparatus
CN102622079B (zh) * 2012-02-25 2015-02-04 华为终端有限公司 一种休眠方法、唤醒方法和移动终端设备
US9838810B2 (en) * 2012-02-27 2017-12-05 Qualcomm Technologies International, Ltd. Low power audio detection
US9142215B2 (en) 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
CN103782634B (zh) * 2012-08-31 2017-11-28 华为终端(东莞)有限公司 智能终端的唤醒控制方法及装置
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US20140122078A1 (en) 2012-11-01 2014-05-01 3iLogic-Designs Private Limited Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN103020165B (zh) * 2012-11-26 2016-06-22 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
KR20150121038A (ko) * 2013-02-27 2015-10-28 오디언스 인코포레이티드 음성 제어식 통신 커넥션
US10395651B2 (en) 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9542933B2 (en) * 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US9703350B2 (en) 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
CN103198831A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法与移动终端装置
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9478234B1 (en) * 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム

Also Published As

Publication number Publication date
CN105632491B (zh) 2020-07-21
US9779732B2 (en) 2017-10-03
CN105632491A (zh) 2016-06-01
US20160148615A1 (en) 2016-05-26
KR20160064258A (ko) 2016-06-08
EP3026667B1 (en) 2017-06-07
WO2016085157A1 (en) 2016-06-02
EP3026667A1 (en) 2016-06-01

Similar Documents

Publication Publication Date Title
KR102299330B1 (ko) 음성 인식 방법 및 그 전자 장치
KR102340127B1 (ko) 복수의 외부 장치들로 오디오 데이터를 전송하는 방법 및 전자 장치
US9880606B2 (en) Method and apparatus for wake-up control of intelligent terminal
KR102383130B1 (ko) 기능을 제어하는 방법 및 이를 지원하는 전자 장치
WO2017206916A1 (zh) 处理器中内核运行配置的确定方法以及相关产品
KR102486797B1 (ko) 전자 장치 및 전자 장치의 디스플레이 구동 방법
KR102275033B1 (ko) 데이터 처리 방법 및 그 전자 장치
US10088515B2 (en) Electronic device and method for determining defect in an electronic device
KR102288726B1 (ko) 웨어러블 전자 장치, 메인 전자 장치, 시스템 및 그 제어 방법
US10521000B2 (en) Electronic apparatus and battery information providing method thereof
WO2021052413A1 (zh) 节能信号监听时刻的确定方法、配置方法及相关设备
EP2882234A1 (en) Method, apparatus, equipment and system for controlling turn-on and turn-off of wireless network
TWI522917B (zh) 應用程式的啓動控制方法與裝置及電腦可讀取儲存介質
KR102151135B1 (ko) 전력 관리 방법 및 그 방법을 처리하는 전자 장치
KR102607647B1 (ko) 전자 장치 및 전자 장치의 테더링 연결 방법
US10062314B2 (en) Electronic device and method for controlling display in electronic device
US10880728B2 (en) Method for data migration and terminal device
WO2020024732A1 (zh) 进程处理方法、电子设备、计算机可读存储介质
KR102496058B1 (ko) 근거리 무선 통신 네트워크에서 스캔 방법 및 이를 구현하는 전자 장치
KR102269387B1 (ko) 상황별 정보 공유 지원 방법 및 이를 지원하는 전자 장치
US10756847B2 (en) Electronic device and method for detecting error thereof
US20160321206A1 (en) Electronic device operating method and electronic device for supporting the same
KR102318055B1 (ko) 전자 장치 및 전자 장치의 근거리 통신 커버리지 보상 방법
CN106532876B (zh) 供电控制方法、装置和计算机设备
CN110874128A (zh) 可视化数据处理方法和电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant