KR20200138644A - 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체 - Google Patents

전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체 Download PDF

Info

Publication number
KR20200138644A
KR20200138644A KR1020190176009A KR20190176009A KR20200138644A KR 20200138644 A KR20200138644 A KR 20200138644A KR 1020190176009 A KR1020190176009 A KR 1020190176009A KR 20190176009 A KR20190176009 A KR 20190176009A KR 20200138644 A KR20200138644 A KR 20200138644A
Authority
KR
South Korea
Prior art keywords
type
user command
electronic device
command
user
Prior art date
Application number
KR1020190176009A
Other languages
English (en)
Other versions
KR102331660B1 (ko
Inventor
용시 루오
샤샤 왕
강 장
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201910468915.8A external-priority patent/CN112017650B/zh
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20200138644A publication Critical patent/KR20200138644A/ko
Application granted granted Critical
Publication of KR102331660B1 publication Critical patent/KR102331660B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 출원은 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체를 제공하는바, 당해 방법은, 사용자의 제1 음성 명령을 수신하여 음악 모드로 진입하는 단계; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 인식하는 단계; 제1 유형의 사용자 명령이 음악 모드에 관련된다면 제1 유형의 사용자 명령을 실행하는 단계; 제1 유형의 사용자 명령이 음악 모드에 관련되지 않는다면 제1 유형의 사용자 명령을 실행하지 않는 단계; 및 소정의 기간 이후, 전이중 청취 상태에서 퇴출하는 단계; 를 포함한다. 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.

Description

전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체{METHODS AND APPARATUSES FOR CONTROLLING VOICE OF ELECTRONIC DEVICES, COMPUTER DEVICE AND STORAGE MEDIA}
본 출원은 인공 지능 기술 분야에 관한 것으로, 특히 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체에 관한 것이다.
현재, 인터넷 기술과 스마트 기기가 신속히 발전함에 따라, 사용자는 스마트 기기와의 음성 인터랙션으로 관련 수요를 충족시킬 수 있는바, 예를 들면, 스마트 스피커와의 대화로 음악을 재생하는 수요를 충족시킬 수 있다.
관련 기술에서, 스마트 기기와 인터랙션하기 전에 스마트 기기를 웨이크업하는 것이 필요하고, 다시 말해 매 번 스마트 기기와 인터랙션하기 전마다 스마트 기기를 웨이크업하는 조작이 한번씩 필요하고, 스마트 기기의 작동 상테에서 스마트 기기를 웨이크업하는 조작은 현재 공작 상태를 정지시키는바, 이 때문에 조작이 번거로워지고 스마트 기기의 정상적인 작동이 영향받는다.
본 출원은 관련 기술의 기술 문제 중 하나를 적어도 어느 정도 해결하고자 한다.
이를 위해, 본 출원은 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체를 제공함으로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중(full duplex) 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
상술한 목적을 달성하기 위하여, 본 출원의 제1 측면의 실시예는 전자 기기의 음성 제어 방법을 제공하는바, 당해 방법은,
사용자의 제1 음성 명령을 수신하고 상기 제1 음성 명령에 따라 음악 모드로 진입하는 단계;
상기 음악 모드로 진입한 후 소정의 기간 내에 상기 전자 기기의 전이중 청취 상태를 가동하는 단계 - 상기 전이중 청취 상태에서 상기 전자 기기가 제1 유형의 사용자 명령을 인식하고 상기 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않음 - ;
상기 전이중 청취 상태에서 상기 제1 유형의 사용자 명령을 획득하고 상기 제1 유형의 사용자 명령을 인식하는 단계;
상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 상기 제1 유형의 사용자 명령을 실행하는 단계;
상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 상기 제1 유형의 사용자 명령을 실행하지 않는 단계; 및
상기 소정의 기간 이후, 상기 전이중 청취 상태에서 퇴출하는 단계; 를 포함한다.
본 실시예의 전자 기기의 음성 제어 방법에 따르면, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하며; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않으며; 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식하며; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않고; 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다. 이로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
상술한 목적을 달성하기 위하여, 본 출원의 제2 측면의 실시예는 전자 기기의 음성 제어 장치를 제공하는바, 당해 장치는,
사용자의 제1 음성 명령을 수신하고 상기 제1 음성 명령에 따라 음악 모드로 진입하는 수신 모듈;
상기 음악 모드로 진입한 후 소정의 기간 내에 상기 전자 기기의 전이중 청취 상태를 가동하는 가동 모듈 - 상기 전이중 청취 상태에서 상기 전자 기기가 제1 유형의 사용자 명령을 인식하고 상기 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않음 - ;
상기 전이중 청취 상태에서 상기 제1 유형의 사용자 명령을 획득하는 획득 모듈;
상기 제1 유형의 사용자 명령을 인식하는 인식 모듈;
상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 상기 제1 유형의 사용자 명령을 실행하는 처리 모듈 -
상기 처리 모듈은 또한, 상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 상기 제1 유형의 사용자 명령을 실행하지 않음 - ; 및
상기 소정의 기간 이후, 상기 전이중 청취 상태에서 퇴출시키는 퇴출 모듈; 을 포함한다.
본 실시예의 전자 기기의 음성 제어 장치에 따르면, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하며; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않으며; 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식하며; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않고; 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다. 이로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
상술한 목적을 달성하기 위하여, 본 출원의 제3 측면의 실시예는 컴퓨터 기기를 제공하는바, 이는 프로세서와 메모리를 포함하고; 여기서, 상기 프로세서가 상기 메모리에 저장된 실행 가능 프로그램 코드를 판독함으로써 상기 실행 가능 프로그램 코드에 대응되는 프로그램을 실행되어 제1 측면의 실시예의 전자 기기의 음성 제어 방법을 구현한다.
상술한 목적을 달성하기 위하여, 본 출원의 제4 측면의 실시예는 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 당해 프로그램이 프로세서에 의해 실행될 경우, 제1 측면의 실시예의 전자 기기의 음성 제어 방법이 구현된다.
상술한 목적을 달성하기 위하여, 본 출원의 제5 측면의 실시예는 컴퓨터 프로그램 제품을 제공하는바, 상기 컴퓨터 프로그램 제품 내의 명령이 프로세서에 의해 실행될 경우, 제1 측면의 실시예의 전자 기기의 음성 제어 방법이 구현된다.
본 출원의 부가 측면 및 이점은 아래의 설명에서 일부 제공될 것이고, 일부는 아래의 설명에서 선명해지거나 본 출원에 대한 실천으로 알게 될 것이다.
본 출원의 상술한 및/또는 부가적인 측면 및 이점은 아래 첨부 도면이 결부되는 실시예에 대한 설명에서 선명해지고 이해하기 쉽게 될 것이다.
도1은 본 출원의 실시예에 의해 제공되는 전자 기기의 음성 제어 방법의 흐름 개략도이다.
도2는 본 출원의 실시예에 의해 제공되는 다른 전자 기기의 음성 제어 방법의 흐름 개략도이다.
도3은 본 출원의 실시예에 의해 제공되는 전자 기기의 표시에 대한 예시도이다.
도4는 본 출원의 실시예에 의해 제공되는 전자 기기의 음성 제어 장치의 개략적인 구조도이다.
도5는 본 출원의 실시예에 의해 제공되는 다른 전자 기기의 음성 제어 장치의 개략적인 구조도이다.
도6은 본 출원의 실시예에 의해 제공되는 또 다른 전자 기기의 음성 제어 장치의 개략적인 구조도이다.
도7은 본 출원의 실시예에 의해 제공되는 컴퓨터 기기의 개략적인 구조도이다.
아래, 본 출원의 실시예를 상세히 설명하고자 하는바, 상기 실시예의 예시는 첨부 도면에 도시되고, 여기서 시종일관으로 동일하거나 유사한 부호는 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 구비하는 소자를 나타낸다. 아래 첨부 도면을 참조하여 설명한 실시예는 예시적인 것으로, 본 출원을 해석하기 위한 것인바, 본 출원에 대한 제한으로 이해하여서는 안 된다.
아래, 첨부 도면을 참조하여 본 출원의 실시예의 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체를 설명하고자 한다.
도1은 본 출원의 실시예에 의해 제공되는 전자 기기의 음성 제어 방법의 흐름 개략도이다.
도1에 도시한 바와 같이, 당해 전자 기기의 음성 제어 방법은 다음과 같은 단계를 포함할 수 있다.
단계101: 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입한다.
구체적으로, 사용자는 전자 기기와 음성 인터랙션할 수 있는바, 여기서, 전자 기기는 로봇, 스마트 스피커 및 스마트 학습기 등일 수 있고 실제 응용의 필요에 따라 선택할 수 있다.
실제 응용에서, 사용자가 하나의 음성 명령을 제기한 후, 전자 기기는 음악 모드로 진입하여 음악을 재생하고, 사용자의 음성 명령을 더이상 듣지 않는다. 사용자가 다시 음성 명령을 제기하는 경우, 전자 기기를 웨이크업하기 위해서는 '샤오두 샤오두(小度小度)'와 같은 웨이크업 워드를 미리 설정하는 것이 필요한데, 이때 음악이 잠시 중단되고 전자 기기는 사용자 명령을 듣고 인식하며 인식 완료 후 당해 사용자 명령에 응답한다.
그러므로, 사용자가 다시 음성 명령을 제기하는 경우, 미리 설정된 웨이크업 워드를 다시 사용하여 전자 기기를 웨이크업하는 것이 필요한데, 이는 사용자에 있어서 음성 비용이 있을 뿐만아니라 전자 기기가 그다지 '스마트'하지 않아보인다. 다시 말해, 사용자가 다시 음성 명령을 제기하는 경우, 스피커와 마이크로폰은 하나만 작동될 수 있는 것으로, 이때 스피커가 턴오프되고 음악 재생이 잠시 중단되고 마이크로폰이 턴온되며 전자 기기가 사용자 명령을 듣고 인식하는데, 스피커가 턴오프되어 있으므로 사용자가 음악을 듣는 경험이 비연속적이게 되고 음성 명령이 제기될 때마다 음악이 중단되므로 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하된다.
상기에서 설명한 문제에 대하여, 본 출원은 전자 기기의 음성 제어 방법을 제공하는바, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
우선, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하는바, 여기서 제1 음성 명령이 예를 들어 '주걸륜(周杰쬈) 칠리향(七里香)을 재생'이라면 전자 기기는 '칠리향(七里香)'을 재생하는 음악 모드를 진행하는바, 사용자의 제1 음성 명령이 수신될 때, 전자 기기는 웨이크업 상태에 있다는 것을 이해할 수 있다.
단계102: 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하는바, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않는다.
단계103: 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식한다.
구체적으로, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동는바, 실제 응용에 따라 미리 설정된 기간을 선택하여 설정할 수 있고, 사용자의 조작 습관과 전자 기기의 에너지 소모 문제를 고려할 때, 20초 내지 40초가 바람직하다.
여기서, 사용자의 사용 경험을 나아가 더 향상시키거나 또는 사용자로 하여금 현재 전이중 청취 상태에 있는지를 결정할 수 있도록 하기 위해, 전자 기기의 전이중 청취 상태가 가동된 후, 전자 기기의 스크린에서 관련되는 이미지나 문자 등의 방식으로 사용자한테 알릴 수 있는바, 예를 들어 전자 기기의 표식 이미지를 컬러로 표시할 수 있다.
여기서, 전자 기기의 전이중 청취 상태는 스피커와 마이크로폰이 동시에 작동하는 상태이며, 사용자에 의해 제1 음성 명령이 제기된 후, 전자 기기는 소정의 기간, 예를 들어 30초 동안 지속해서 듣는다(이때 음악은 정상적으로 재생되므로 음악 청취 경험이 영향받지 않는다).
여기서, 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하는 방식에는 여러 가지가 있는바, 예를 들어 설명하면 다음과 같다.
첫 번째 예시로, 전자 기기의 현재 재생 음성 정보를 획득하고, 현재 재생 음성 정보에 따라 사용자 음성 정보를 현재 음성 정보로부터 분리하며, 사용자 음성 정보를 인식하여 제1 유형의 사용자 명령을 획득한다.
두 번째 예시로, 미리 설정되어 입력된 사용자 성문 특징에 따라 현재 음성 정보로부터 사용자 성문 특징에 대응되는 사용자 음성 정보를 직접 추출하고 사용자 음성 정보를 인식하여 제1 유형의 사용자 명령을 획득한다.
전이중 청취 상태에서 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 획득하여 제1 유형의 사용자 명령을 직접 인식할 수 있다는 것을 이해할 수 있다. 제1 유형의 사용자 명령을 인식하는 방식에는 여러 가지가 있다는 것을 이해할 수 있는바, 하나의 예시로, 제1 유형의 사용자 명령을 획득한 후, 음성 텍스트 변환 방법으로 이를 텍스트로 변환하고 텍스트 형식의 제1 유형의 사용자 명령에 대해 토큰화 처리 또는 키워드 추출 등을 실행하고 미리 설정된 명령표에 매칭시켜 대응되는 목표 명령을 획득함으로써 제1 유형의 사용자 명령에 대한 인식 조작을 완료한다.
단계104: 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행한다.
단계105: 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않는다.
단계106: 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다.
구체적으로, 제1 유형의 사용자 명령은 음악 모드에 관련되는 명령일 수도 있고 음악 모드에 관련되는 명령이 아닐 수도 있는바, 예를 들어 전자 기기가 '칠리향(七里香)'을 재생하는 음악 모드를 진행할 때, 제1 유형의 사용자 명령이 '다음 곡 재생' 및 '소리 볼륨 증가' 등으로 인식되는 경우, 당해 제1 유형의 사용자 명령을 음악 모드에 관련되는 명령로 간주하여 직접 제1 유형의 사용자 명령을 실행할 수 있고; 또 예를 들어 전자 기기가 '칠리향(七里香)'을 재생하는 음악 모드를 진행할 때, 제1 유형의 사용자 명령이 '오늘 날씨는 어때' 등으로 인식되는 경우, 당해 제1 유형의 사용자 명령을 음악 모드에 관련되는 명령이 아니라고 간주하여 제1 유형의 사용자 명령을 실행하지 않을 수 있다.
마지막으로, 전자 기기의 지속성을 향상시키고 사용자의 조작 수요를 충족시키기 위해, 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다.
본 실시예의 전자 기기의 음성 제어 방법에 따르면, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하며; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않으며; 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식하며; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않고; 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다. 이로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
도2는 본 출원의 실시예에 의해 제공되는 또 다른 전자 기기의 음성 제어 방법의 흐름 개략도이다.
도2에 도시한 바와 같이, 당해 전자 기기의 음성 제어 방법은 다음과 같은 단계를 포함할 수 있다.
단계201: 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입한다.
단계202: 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하는바, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않는다.
설명하고자 하는 바는, 단계201 내지 단계202는 상술한 실시예의 단계101 내지 단계102와 동일한바, 구체적인 설명은 단계101 내지 단계102에 대한 설명을 참조하면 되므로 이에 대한 상세한 설명은 생략하기로 한다.
단계203: 전이중 청취 상태에서 전자 기기의 현재 재생 음성 정보를 획득하고, 현재 재생 음성 정보에 따라 사용자 음성 정보를 현재 음성 정보로부터 분리하고, 사용자 음성 정보를 인식하여 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식한다.
전이중 청취 상태에서는 스피커와 마이크로폰이 모두 작동하는바, 다시 말해, 마이크로폰에 의해 수신된 현재 음성 정보에는 스피커에 의해 재생되는 소리 및 사용자의 음성 정보가 포함되므로 현재 재생 음성 정보에 따라 사용자 음성 정보를 현재 음성 정보로부터 분리하여 사용자 음성 정보를 인식하고 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식함으로써 음성 인식의 정확성을 향상시키는 것이 필요하다는 것을 이해할 수 있다.
단계204: 전자 기기의 표시 스크린에 제1 유형의 사용자 명령을 표시한다.
구체적으로, 사용자 경험을 나아가 더 향상시키기 위해, 전자 기기의 표시 스크린에 제1 유형의 사용자 명령을 표시할 수 있는바, 예를 들어 설명하면 다음과 같다.
첫 번째 예시로, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 폰트 컬러로 제1 유형의 사용자 명령을 표시하고, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제2 폰트 컬러로 제1 유형의 사용자 명령을 표시하는바, 여기서, 제1 폰트 컬러는 제2 폰트 컬러보다 짙다. 도3에 도시한 바와 같이, 음악 모드에 관련되는 제1 유형의 사용자 명령인 경우, 폰트가 푸른 색으로 변하고 음악 모드에 관련되는 제1 유형의 사용자 명령이 아닌 경우, 폰트는 회색으로 설정된다.
두 번째 예시로, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 폰트 크기로 제1 유형의 사용자 명령을 표시하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제2 폰트 크기로 제1 유형의 사용자 명령을 표시하는바, 여기서 제1 폰트 크기는 제2 폰트 크기보다 크다.
설명하고자 하는 바는, 폰트의 컬러, 크기 및 부동한 폰트에 한정되지 않는바, 표시 방식일 수도 있고, 예를 들면 속도, 위치 등일 수 있다.
단계205: 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않는다.
단계206: 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다.
구체적으로, 제1 유형의 사용자 명령은 음악 모드에 관련되는 명령일 수도 있고 음악 모드에 관련되는 명령이 아닐 수도 있는바, 예를 들어 전자 기기가 '칠리향(七里香)'을 재생하는 음악 모드를 진행할 때, 제1 유형의 사용자 명령이 '다음 곡 재생' 및 '소리 볼륨 증가' 등으로 인식되는 경우, 당해 제1 유형의 사용자 명령을 음악 모드에 관련되는 명령로 간주하여 직접 제1 유형의 사용자 명령을 실행할 수 있고; 또 예를 들어 전자 기기가 '칠리향(七里香)'을 재생하는 음악 모드를 진행할 때, 제1 유형의 사용자 명령이 '오늘 날씨는 어때' 등으로 인식되는 경우, 당해 제1 유형의 사용자 명령을 음악 모드에 관련되는 명령이 아니라고 간주하여 제1 유형의 사용자 명령을 실행하지 않을 수 있다.
마지막으로, 전자 기기의 지속성을 향상시키고 사용자의 조작 수요를 충족시키기 위해, 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다.
단계207: 제2 유형의 사용자 명령을 획득하고 제2 유형의 사용자 명령을 인식하는바, 제2 유형의 사용자 명령은 웨이크업 워드를 구비하고 제2 유형의 사용자 명령을 실행한다.
구체적으로, 전이중 청취 상태에서 퇴출한 후에는 마이크로폰만 작동하므로 웨이크업 워드를 가지는 제2 유형의 사용자 명령을 획득하고 제2 유형의 사용자 명령을 실행한다.
이에 따르면, 사용자에 의해 하나의 음성 명령이 제기된 후, 컬러 전자 기기 이미지 방식으로 전자 기기의 스크린에 표시하고 음악과 관련되는 음성 명령을 직접 다시 제기할 수 있고 음악을 들을 때 직접 제기할 수 있는바, 사용자가 음성으로 명령을 제기하는 비용이 절약되고 음악을 중단시키지 않아도 되므로 음악을 듣는 경험이 연속적이고 완전하게 된다.
본 실시예의 전자 기기의 음성 제어 방법에 따르면, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하며; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않으며; 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식하며; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않고; 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다. 이로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
상술한 실시예를 구현하기 위해, 본 출원은 전자 기기의 음성 제어 장치를 더 제공한다.
도4는 본 출원의 실시예에 의해 제공되는 전자 기기의 음성 제어 장치의 개략적인 구조도이다.
도4에 도시한 바와 같이, 당해 전자 기기의 음성 제어 장치는 수신 모듈(401), 가동 모듈(402), 획득 모듈(403), 인식 모듈(404), 처리 모듈(405) 및 퇴출 모듈(406)을 포함할 수 있다. 여기서,
수신 모듈(401)은 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입한다.
가동 모듈(402)은 상기 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동한다. 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않는다.
획득 모듈(403)은 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득한다.
인식 모듈(404)은 제1 유형의 사용자 명령을 인식한다.
처리 모듈(405)은 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행한다.
상기 처리 모듈(405)은 또한, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않는다.
퇴출 모듈(406)은, 소정의 기간 이후, 전이중 청취 상태에서 퇴출시킨다.
본 출원의 실시예의 한 가능한 구현 방식에서, 도5에 도시한 바와 같이, 도4에 기초하여 획득 인식 모듈(407)과 실행 모듈(408)이 더 포함된다.
여기서, 획득 인식 모듈(407)은 제2 유형의 사용자 명령을 획득하고 제2 유형의 사용자 명령을 인식하는바, 제2 유형의 사용자 명령은 웨이크업 워드를 구비한다.
실행 모듈(408)은 제2 유형의 사용자 명령을 실행한다.
본 출원의 실시예의 한 가능한 구현 방식에서, 도6에 도시한 바와 같이, 도4에 기초하여 표시 모듈(409)이 더 포함된다.
표시 모듈(409)은 전자 기기의 표시 스크린에 제1 유형의 사용자 명령을 표시한다.
본 출원의 실시예의 한 가능한 구현 방식에서, 표시 모듈(409)은 구체적으로, 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 폰트 컬러로 제1 유형의 사용자 명령을 표시하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제2 폰트 컬러로 제1 유형의 사용자 명령을 표시하는바, 제1 폰트 컬러는 제2 폰트 컬러보다 짙다.
본 출원의 실시예의 한 가능한 구현 방식에서, 획득 모듈(403)은 구체적으로, 사용자 음성 정보 및 현재 재생 음성 정보를 포함하는 현재 음성 정보를 수집하고; 전자 기기의 상기 현재 재생 음성 정보를 획득하고; 현재 재생 음성 정보에 따라 사용자 음성 정보를 현재 음성 정보로부터 분리하고; 사용자 음성 정보를 인식하여 제1 유형의 사용자 명령을 획득한다.
본 출원의 실시예의 한 가능한 구현 방식에서, 소정의 기간은 20~40초이다.
설명하고자 하는 바는, 상술한 전자 기기의 음성 제어 방법의 실시예에 대한 해석과 설명은 당해 실시예의 전자 기기의 음성 제어 장치에도 적용되는바, 구현 원리가 유사하므로 이에 대한 상세한 설명은 생략하기로 한다.
본 출원의 실시예의 전자 기기의 음성 제어 장치에 따르면, 사용자의 제1 음성 명령을 수신하고 제1 음성 명령에 따라 음악 모드로 진입하며; 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고, 전이중 청취 상태에서 전자 기기가 제1 유형의 사용자 명령을 인식하고 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않으며; 전이중 청취 상태에서 제1 유형의 사용자 명령을 획득하고 제1 유형의 사용자 명령을 인식하며; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우, 제1 유형의 사용자 명령을 실행하고; 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령이 아닌 경우, 제1 유형의 사용자 명령을 실행하지 않고; 소정의 기간 이후, 전이중 청취 상태에서 퇴출한다. 이로써 종래 기술에서 사용자와 전자 기기가 음성 인터랙션할 때 조작의 번거로움으로 인해 전자 기기의 정상적인 작동이 영향받고 사용자의 전자 기기 사용 경험이 저하되는 기술 문제를 해결하며, 음악 모드로 진입한 후 소정의 기간 내에 전자 기기의 전이중 청취 상태를 가동하고 웨이크업 워드를 구비하지 않는 제1 유형의 사용자 명령을 직접 인식하고 제1 유형의 사용자 명령이 음악 모드에 관련되는 명령인 경우에만 실행함으로써, 사용자가 음성으로 명령을 제기하는 비용을 절약하고 전자 기기가 음성을 정상적으로 재생하도록 보장하여 사용자의 사용 경험을 향상시킨다.
상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 기기를 더 제공하는바, 이는 프로세서와 메모리를 포함한다. 여기서, 프로세서에 의해 메모리에 저장된 실행 가능한 프로그램 코드가 판독되는 경우, 실행 가능 프로그램 코드에 대응되는 프로그램을 실행되어 상술한 실시예의 전자 기기의 음성 제어 방법을 구현한다.
도7은 본 출원의 실시예에 의해 제공되는 컴퓨터 기기의 개략적인 구조도이고, 본 출원의 구현 방식을 구현하기에 적합한 예시적인 컴퓨터 기기(90)의 블록도를 도시한다. 도7이 표시하는 컴퓨터 기기(90)는 하나의 예시일 뿐, 본 출원의 실시예의 기능과 사용 범위에 대하여 어떠한 제한을 주어서도 안된다.
도7에 도시한 바와 같이, 컴퓨터 기기(90)는 범용 컴퓨터 기기의 형식으로 표현된다. 컴퓨터 기기(90)의 컴포넌트는 하나 또는 복수의 프로세서 또는 처리 유닛(906), 시스템 메모리(910), 부동한 시스템 컴포넌트(시스템 메모리(910)와 처리 유닛(906)을 포함)를 연결하는 버스(908)를 포함할 수 있으나 이에 한정되지 않는다.
버스(908)는 여러 유형의 버스 구조 중의 한 가지 또는 여러 가지 가지를 표시하는바, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서 또는 복수 가지 버스 구조에서의 임의 버스 구조를 사용하는 로컬 버스를 포함한다. 예를 들면, 이러한 아키텍처는 산업 표준 아키텍처(Industry Standard Architecture, 아래 ISA로 약칭함) 버스, 마이크로채널 아키텍처 버스(Micro Channel Architecture, 아래 MAC로 약칭함) 버스, 확장 ISA버스, 비디오 전자공학 표준위원회(Video Electronics Standards Association, 아래 VESA로 약칭함) 로컬 버스 및 주변 컴포넌트 상호 연결(Peripheral Component Interconnect, 아래 PCI로 약칭함) 버스를 포함하나 이에 한정되지 않는다.
컴퓨터 기기(90)는 전형적으로 복수 가지 컴퓨터 시스템 판독 가능 매체를 포함한다. 이러한 매체는 임의의 컴퓨터 기기(90)에 의하여 액세스될 수 있는 사용 가능 매체일 수 있는바, 휘발성 및 비휘발성 매체, 제거 가능한 및 제거 불가능한 매체를 포함할 수 있다.
시스템 메모리(910)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체, 예를 들어 랜덤 액세스 메모리(Random Access Memory, 아래 RAM로 약칭함)(911) 및/또는 캐시 메모리(912)를 포함할 수 있다. 컴퓨터 기기(90)는 기타 제거 가능한/제거 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 나아가 더 포함할 수 있다. 그냥 예로 들면, 저장 시스템(913)은 제거 불가능한, 비휘발성 자기 매체(도7에 미도시, 통상적으로는 '하드 디스크 드라이브'임)에 대해 판독 및 기록하기 위한 것일 수 있다. 비록 도7에는 미도시하였지만, 제거 가능한 비휘발성 자기 디스크(예를 들어 '플로피 디스크')에 대해 판독 및 기록하기 위한 자기 디스크 드라이브, 그리고 제거 가능한 비휘발성 광디스크(예를 들어 콤팩트 디스크 롬(Compact Disc Read Only Memory, 아래 CD-ROM로 약칭함), 디지털 비디오 디스크 롬(Digital Video Disc Read Only Memory, 아래 DVD-ROM로 약칭함) 또는 기타 광 매체)에 대해 판독 및 기록하기 위한 광디스크 드라이브가 제공될 수 있다. 이러한 상황에서, 매개 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(908)와 상호 연결될 수 있다. 메모리(910)는 프로그램 제품을 적어도 하나 포함할 수 있는바, 당해 프로그램 제품은 한 그룹(예를 들어 적어도 하나)의 프로그램 모듈을 구비하는바, 이러한 프로그램 모듈은 본 출원의 각 실시예의 기능을 실행하도록 구성된다.
컴퓨터 판독 가능 신호 매체는 기저대역에서 또는 반송파의 일부분으로 전파되는 데이터 신호를 포함할 수 있고, 컴퓨터 판독 가능 프로그램 코드가 그 중에 탑재되어 있다. 이렇게 전파되는 데이터 신호는 복수 가지 형식을 적용할 수 있는바, 이는 전자기 신호, 광 신호 또는 상술한 것의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 컴퓨터 판독가능 신호 매체는 또한 컴퓨터 판독가능 저장 매체 이외의 임의의 컴퓨터 판독가능 매체일 수 있고, 당해 컴퓨터 판독가능 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용되는 프로그램을 송신, 전파, 또는 전송할 수 있다.
컴퓨터 판독가능 매체에 포함되는 프로그램 코드는 임의의 적당한 매체를 사용하여 전송할 수 있는바, 이는 무선, 전선, 광케이블, RF 등, 또는 상술한 임의의 적합한 조합을 포함하나 이에 한정되지 않는다.
한가지 또는 복수 가지 프로그램 설계 언어 또는 그 조합으로 본 출원의 조작을 실행하기 위한 컴퓨터 프로그램 코드를 작성할 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++와 같은 객체 지향 프로그램 설계 언어를 포함하고, 또한 'C' 언어 또는 이와 유사한 프로그램 설계 언어와 같은 종래의 절차 지향 프로그램 설계 언어도 포함한다. 프로그램 코드는 사용자 컴퓨터에서 전부 실행되거나, 사용자 컴퓨터에서 일부 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되어 일부는 사용자 컴퓨터에서, 일부는 원격 컴퓨터에서 실행되거나, 혹은 원격 컴퓨터에서 또는 서버에서 전부 실행될 수 있다.
한 그룹(적어도 하나)의 프로그램 모듈(9140)을 구비하는 프로그램/유틸리티 도구(914)는 예를 들어 메모리(910)에 저장될 수 있는바, 이러한 프로그램 모듈(9140)은 운영 체제, 하나 또는 복수 응용 프로그램, 기타 프로그램 모듈 및 프로그램 데이터를 포함하나 이에 한정되지 않고, 이러한 예시에서의 매 한 개 또는 일종의 조합에는 네트워크 환경의 구현이 포함될 수 있다. 프로그램 모듈(9140)은 통상적으로 본 출원에서 설명된 실시예 중의 기능 및/또는 방법을 실행한다.
컴퓨터 기기(90)는 하나 또는 복수의 외부 기기(10)(예를 들어 키보드, 위치 지정 도구, 디스플레이(100) 등)와 통신할 수도 있고, 또한 하나 또는 복수 사용자가 당해 컴퓨터 기기(90)와 인터렉션 가능하도록 하는 기기와 통신할 수도 있고, 및/또는 당해 컴퓨터 기기(90)가 하나 또는 복수 기타 컴퓨터 기기와 통신을 진행할 수 있도록 하는 임의 기기(예를 들어 네트워크 카드, 모뎀 등)와 통신할 수도 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(902)를 통해 진행할 수 있다. 그리고, 컴퓨터 기기(90)는 또한 네트워크 어댑터(900)를 통해 하나 또는 복수의 네트워크(예를 들어 근거리 통신망(Local Area Network,. 아래 LAN로 약칭함), 광역 통신망(Wide Area Network, 아래 WAN로 약칭함) 및/또는 공용 네트워크, 예를 들어 인터넷)와 통신할 수 있다. 도시한 바와 같이, 네트워크 어댑터(900)는 버스(908)를 통해 컴퓨터 기기(90)의 기타 모듈과 통신한다. 알아야 할 것은, 비록 도시되지 않았지만, 컴퓨터 기기(90)에 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈를 사용할 수 있는바, 마이크로코드, 기기 드라이버, 리던던트 처리 유닛, 외장 자기 디스크 드라이브 어레이, RAID 시스템, 자기 테이프 드라이브 및 데이터 백업 저장 시스템 등이 포함되나 이에 한정되지 않는다.
처리 유닛(906)은 시스템 메모리(910)에 저장되어 있는 프로그램을 작동시키는 것을 통해 각 종 기능적인 응용 및차량용 시나리오에 기반하는 전자 기기에 대한 음성 제어를 실행하는바, 예를 들어 본 출원의 실시예에 의하여 제공되는 전자 기기의 음성 제어 방법을 실행한다.
상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공하는바, 당해 프로그램이 프로세서에 의해 실행될 경우, 상술한 실시예의 전자 기기의 음성 제어 방법이 구현된다.
상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 프로그램 제품을 더 제공하는바, 상기 컴퓨터 프로그램 제품 내의 명령이 프로세서에 의해 실행되는 경우, 상술한 실시예의 전자 기기의 음성 제어 방법이 구현된다.
본 명세서의 설명에서, 참조 용어로서 '일 실시예', '일부 실시예', '예시', '구체 예시', 또는 '일부 예시' 등의 설명은 이러한 실시예 또는 예시를 결부하여 설명되는 구체 특징, 구조, 재료 또는 특징점이 본 출원의 적어도 하나의 실시예 또는 예시에 포함됨을 의미한다. 본 명세서에서 상술의 용어에 대한 예시적인 서술은 반드시 동일한 실시예 또는 예시에 대한 것이 아니다. 그리고, 설명되는 구체 특징, 구조, 재료 또는 특징점은 임의의 하나 또는 복수 개 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다. 또한,당업자라면, 상호 모순되지 않는 전제 하에 본 명세서에서 설명한 부동한 실시예 또는 예시 및 부동한 실시예 또는 예시의 특징에 대한 결합 및 조합이 가능하다.
또한,용어 '제1', '제2'는 설명의 목적을 위한 것일 뿐, 이를 상대적 중요성을 가리키거나 암시하는 것으로, 또는 가리키는 기술 특징의 수량을 묵시적으로 나타내는 것으로 이해하여서는 안된다. 따라서,'제1', '제2'에 의해 한정되는 특징에는 명시적으로 또는 묵시적으로 적어도 하나의 당해 특징이 포함한다. 본 출원에 대한 설명에서, 별도로 명확하고 구체적인 한정이 있지 않은 한, '복수'의 함의는 적어도 2개인바, 예를 들면 2개, 3개 등이다.
흐름도에서 또는 여기서 기타 방식으로 설명되는 임의의 과정 또는 방법에 대한 설명은, 하나 또는 더 많은 사용자 정의 논리 기능 또는 과정의 단계를 구현하기 위한 실행 가능한 명령을 포함하는 코드 모듈, 조각 또는 부분을 나타내는 것으로 이해할 수 있고, 본 출원의 바람직한 구현 방식의 범위에는 기타의 구현이 포함되는 것으로, 여기서는 도시한 또는 토론되는 순서에 따르지 않을 수도 있는바, 관련된 기능에 따라, 기본적으로 동시간적인 방식으로 또는 상반되는 순서로 기능을 실행하는 것이 포함되며, 본 출원의 실시예가 속하는 기술 분야의 당업자라면 이를 이해하여야 한다.
흐름도에 표시되거나 또는 여기서 기타 방식으로 설명되는 논리 및/또는 단계는, 예를 들면, 논리 기능을 구현하는 실행 가능한 명령의 시퀀싱 테이블(sequencing table)로 간주될 수 있고, 임의의 컴퓨터 판독가능 매체에 구체적으로 구현되어 명령 실행 시스템, 장치 또는 기기(예를 들면, 컴퓨터 기반 시스템, 프로세서를 포함하는 시스템 또는 기타의 명령 실행 시스템, 장치 또는 기기로부터 명령을 취하여 실행할 수 있는 시스템)에 의하여 사용되거나 또는 이러한 명령 실행 시스템, 장치 또는 기기에 결부되어 사용될 수 있다. 본 명세서에 있어서, '컴퓨터 판독가능 매체'는 프로그램을 포함, 저장, 통신, 전파 또는 전송하여 명령 실행 시스템, 장치 또는 기기에 의하여 또는 이러한 명령 실행 시스템, 장치 또는 기기에 결합되어 사용 가능한 임의의 장치일 수 있다. 컴퓨터 판독가능 매체의 더 구체적인 예시(불완전 리스트)는 이하, 하나 또는 복수의 배선을 구비하는 전기 연결부(전자 장치), 휴대형 컴퓨터 인클로저(enclosure)(자기 장치), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유 장치, 및 휴대형 컴팩트 디스크 판독 전용 메모리(CDROM)를 포함한다. 또한, 컴퓨터 판독가능 매체는 심지어는 상기 프로그램을 프린트할 수 있는 종이 또는 기타의 적합한 매체일 수 있는바, 왜냐하면, 예를 들면, 종이 또는 기타의 매체를 광학적으로 스캔한 후, 편집, 해석 또는 필요 시 기타의 적합한 방식으로 처리하여 전자 방식으로 상기 프로그램을 획득하고 이를 컴퓨터 메모리에 저장할 수 있기 때문이다.
본 출원의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있음을 이해하여야 한다. 상술한 구현 방식에서 복수의 단계 또는 방법은, 메모리에 저장되고 적합한 명령 실행 시스템에 의하여 실행되는 소프트웨어 또는 펌웨어로 구현될 수 있다. 예를 들어, 하드웨어를 사용하여 구현하는 것이 다른 구현 방식에서와 같다면, 데이터 신호에 대하여 논리 기능을 구현하는 로직 게이트 회로를 구비하는 이산 논리 회로, 적합한 조합 논리 게이트 회로를 구비하는 주문형 집적회로, 프로그램가능 게이트 어레이(PGA), 필드 프로그램가능 게이트 어레이(FPGA) 등 본 분야의 공지의 기술 중의 임의의 하나 또는 이들의 조합으로 구현될 수 있다.
당업자라면, 상술한 실시예의 방법에 포함되는 전부 또는 일부 단계를 구현하는 것은 프로그램을 통하여 관련되는 하드웨어에 명령하여 완성할수 있고, 상기 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있고, 당해 프로그램은 실행되는 경우, 방법 실시예의 단계 중 하나 또는 이들의 조합을 포함하게 됨을 이해할 수 있다.
또한, 본 출원의 각 실시예에서 각 기능적 유닛는 하나의 처리 모듈에 집적될 수도 있고 각 유닛이 단독적으로 물리적으로 존재할 수도 있고 둘 또는 둘 이상의 유닛이 하나의 모듈에 집적될 수도 있다. 상술한 집적된 모듈은 하드웨어 형식을 적용하여 구현할 수도 있고 소프트웨어 기능 모듈의 형식을 적용하여 구현할 수도 있다. 상기 집적된 모듈은 소프트웨어 기능 모듈의 형식으로 구현되어 독립적인 제품으로 판매되거나 사용되는 경우, 컴퓨터 판독 가능 저장 매체에 저장될 수도 있다.
상술한 저장 매체는 판독 전용 메모리, 자기 디스크 또는 광 디스크 등일 수 있다. 비록 위에서 이미 본 출원의 실시예에 대해 도시하고 설명하였으나, 상술한 실시예는 예시적인 것으로, 본 출원에 대한 한정으로 이해하여서는 안되며, 당업자라면 본 출원의 범위 내에서 상술한 실시예에 대한 변경, 수정, 치환 및 변형이 가능하다는 것을 이해할 수 있다.

Claims (14)

  1. 전자 기기의 음성 제어 방법에 있어서,
    사용자의 제1 음성 명령을 수신하고, 상기 제1 음성 명령에 따라 음악 모드로 진입하는 단계;
    상기 음악 모드로 진입한 후 소정의 기간 내에 상기 전자 기기의 전이중 청취 상태를 가동하는 단계 - 상기 전이중 청취 상태에서 상기 전자 기기가 제1 유형의 사용자 명령을 인식하고, 상기 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않음 - ;
    상기 전이중 청취 상태에서 상기 제1 유형의 사용자 명령을 획득하고 상기 제1 유형의 사용자 명령을 인식하는 단계;
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 상기 제1 유형의 사용자 명령을 실행하는 단계;
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 상기 제1 유형의 사용자 명령을 실행하지 않는 단계; 및
    상기 소정의 기간 이후, 상기 전이중 청취 상태에서 퇴출하는 단계; 를 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  2. 제1항에 있어서,
    상기 전이중 청취 상태에서 퇴출하는 단계 이후,
    제2 유형의 사용자 명령을 획득하고 상기 제2 유형의 사용자 명령을 인식하는 단계 - 상기 제2 유형의 사용자 명령은 웨이크업 워드를 구비함 - ; 및
    상기 제2 유형의 사용자 명령을 실행하는 단계; 를 더 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  3. 제1항에 있어서,
    상기 제1 유형의 사용자 명령을 인식하는 단계 이후,
    상기 전자 기기의 표시 스크린에 상기 제1 유형의 사용자 명령을 표시하는 단계를 더 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  4. 제3항에 있어서,
    상기 전자 기기의 표시 스크린에 상기 제1 유형의 사용자 명령을 표시하는 단계는,
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 제1 폰트 컬러로 상기 제1 유형의 사용자 명령을 표시하는 단계; 및
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 제2 폰트 컬러로 상기 제1 유형의 사용자 명령을 표시하는 단계; 를 포함하고,
    상기 제1 폰트 컬러는 상기 제2 폰트 컬러보다 짙은,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  5. 제1항에 있어서,
    상기 전이중 청취 상태에서 상기 제1 유형의 사용자 명령을 획득하는 단계는,
    사용자 음성 정보 및 현재 재생 음성 정보를 포함하는 현재 음성 정보를 수집하는 단계;
    상기 전자 기기의 상기 현재 재생 음성 정보를 획득하는 단계;
    상기 현재 재생 음성 정보에 따라 상기 사용자 음성 정보를 상기 현재 음성 정보로부터 분리하는 단계; 및
    상기 사용자 음성 정보를 인식하여 상기 제1 유형의 사용자 명령을 획득하는 단계; 를 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  6. 제1항에 있어서,
    상기 소정의 기간은 20~40초인,
    것을 특징으로 하는 전자 기기의 음성 제어 방법.
  7. 전자 기기의 음성 제어 장치에 있어서,
    사용자의 제1 음성 명령을 수신하고, 상기 제1 음성 명령에 따라 음악 모드로 진입하는 수신 모듈;
    상기 음악 모드로 진입한 후 소정의 기간 내에 상기 전자 기기의 전이중 청취 상태를 가동하는 가동 모듈 - 상기 전이중 청취 상태에서 상기 전자 기기가 제1 유형의 사용자 명령을 인식하고, 상기 제1 유형의 사용자 명령은 웨이크업 워드를 구비하지 않음 - ;
    상기 전이중 청취 상태에서 상기 제1 유형의 사용자 명령을 획득하는 획득 모듈;
    상기 제1 유형의 사용자 명령을 인식하는 인식 모듈;
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 상기 제1 유형의 사용자 명령을 실행하고, 상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 상기 제1 유형의 사용자 명령을 실행하지 않는 처리 모듈; 및
    상기 소정의 기간 이후, 상기 전이중 청취 상태에서 퇴출시키는 퇴출 모듈; 을 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  8. 제7항에 있어서,
    제2 유형의 사용자 명령을 획득하고, 상기 제2 유형의 사용자 명령을 인식하는 획득 인식 모듈 - 상기 제2 유형의 사용자 명령은 웨이크업 워드를 구비함 - ; 및
    상기 제2 유형의 사용자 명령을 실행하는 실행 모듈; 을 더 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  9. 제7항에 있어서,
    상기 전자 기기의 표시 스크린에 상기 제1 유형의 사용자 명령을 표시하는 표시 모듈을 더 포함하는,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  10. 제9항에 있어서,
    상기 표시 모듈은,
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령인 경우, 제1 폰트 컬러로 상기 제1 유형의 사용자 명령을 표시하고;
    상기 제1 유형의 사용자 명령이 상기 음악 모드에 관련되는 명령이 아닌 경우, 제2 폰트 컬러로 상기 제1 유형의 사용자 명령을 표시하고,
    상기 제1 폰트 컬러는 상기 제2 폰트 컬러보다 짙은,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  11. 제7항에 있어서,
    상기 획득 모듈은,
    사용자 음성 정보 및 현재 재생 음성 정보를 포함하는 현재 음성 정보를 수집하고;
    상기 전자 기기의 상기 현재 재생 음성 정보를 획득하고;
    상기 현재 재생 음성 정보에 따라 상기 사용자 음성 정보를 상기 현재 음성 정보로부터 분리하고;
    상기 사용자 음성 정보를 인식하여 상기 제1 유형의 사용자 명령을 획득하는,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  12. 제7항에 있어서,
    상기 소정의 기간은 20~40초인,
    것을 특징으로 하는 전자 기기의 음성 제어 장치.
  13. 컴퓨터 기기에 있어서,
    프로세서 및 메모리를 포함하고
    상기 프로세서가 상기 메모리에 저장된 실행 가능 프로그램 코드를 판독함으로써 상기 실행 가능 프로그램 코드에 대응되는 프로그램이 실행되어, 제1항 내지 제6항 중 어느 한 항의 전자 기기의 음성 제어 방법을 구현하는,
    것을 특징으로 하는 컴퓨터 기기.
  14. 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    당해 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항의 전자 기기의 음성 제어 방법이 구현되는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020190176009A 2019-05-31 2019-12-27 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체 KR102331660B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910468915.8 2019-05-31
CN201910468915.8A CN112017650B (zh) 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200138644A true KR20200138644A (ko) 2020-12-10
KR102331660B1 KR102331660B1 (ko) 2021-11-26

Family

ID=69055851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190176009A KR102331660B1 (ko) 2019-05-31 2019-12-27 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체

Country Status (4)

Country Link
US (1) US20200380994A1 (ko)
EP (1) EP3745253B1 (ko)
JP (1) JP6814871B2 (ko)
KR (1) KR102331660B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
CN113066493B (zh) * 2021-03-30 2023-01-06 联想(北京)有限公司 一种设备控制方法、系统及第一电子设备
CN114038468B (zh) * 2022-01-07 2022-04-15 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20190021012A (ko) * 2017-08-22 2019-03-05 네이버 주식회사 인공지능 기기에서의 연속 대화 기능

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4285371B2 (ja) * 2003-11-14 2009-06-24 株式会社デンソー 音場制御システム
US9826306B2 (en) * 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20190021012A (ko) * 2017-08-22 2019-03-05 네이버 주식회사 인공지능 기기에서의 연속 대화 기능

Also Published As

Publication number Publication date
US20200380994A1 (en) 2020-12-03
JP2020197695A (ja) 2020-12-10
EP3745253B1 (en) 2023-10-04
KR102331660B1 (ko) 2021-11-26
EP3745253A1 (en) 2020-12-02
CN112017650A (zh) 2020-12-01
JP6814871B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
KR102331660B1 (ko) 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
US11435980B2 (en) System for processing user utterance and controlling method thereof
JP6078964B2 (ja) 音声対話システム及びプログラム
JP2019185011A (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
CN110060685A (zh) 语音唤醒方法和装置
KR102348758B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
US10783884B2 (en) Electronic device-awakening method and apparatus, device and computer-readable storage medium
CN109215646B (zh) 语音交互处理方法、装置、计算机设备及存储介质
CN111653265A (zh) 语音合成方法、装置、存储介质和电子设备
KR102416818B1 (ko) 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체
CN108762715A (zh) 电子设备声音控制方法、装置及设备
CN113377326B (zh) 一种音频数据处理方法、装置、终端及存储介质
US20230054740A1 (en) Audio generation method, related apparatus, and storage medium
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
KR20040094634A (ko) 일본어 및 중국어 음성 인식 훈련을 위한 동적 발음 지원
CN112017650B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN111580766B (zh) 一种信息显示方法、装置和信息显示系统
CN100375084C (zh) 一种带有语言复读功能的计算机及其实现方法
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
KR20180109214A (ko) 터치 입력 처리 방법 및 이를 지원하는 전자 장치
CN113393831B (zh) 基于至少双音素的语音输入操作方法及计算机可读介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant