KR102358831B1 - 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체 - Google Patents

음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체 Download PDF

Info

Publication number
KR102358831B1
KR102358831B1 KR1020190176966A KR20190176966A KR102358831B1 KR 102358831 B1 KR102358831 B1 KR 102358831B1 KR 1020190176966 A KR1020190176966 A KR 1020190176966A KR 20190176966 A KR20190176966 A KR 20190176966A KR 102358831 B1 KR102358831 B1 KR 102358831B1
Authority
KR
South Korea
Prior art keywords
operating state
audio
voice recognition
target
user
Prior art date
Application number
KR1020190176966A
Other languages
English (en)
Other versions
KR20210033873A (ko
Inventor
용시 루오
샤샤 왕
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
상하이 샤오두 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드, 상하이 샤오두 테크놀로지 컴퍼니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210033873A publication Critical patent/KR20210033873A/ko
Application granted granted Critical
Publication of KR102358831B1 publication Critical patent/KR102358831B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 출원은 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 개시하는바, 이는 인공 지능과 음성 인식 분야에 관한 것이다. 구체적인 구현 기술안은, 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식하고; 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고, 제1 작동 상태를 제2 작동 상태로 전환하고; 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식하는 것이다. 당해 기술안에서, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면, 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서 웨이크업 워드를 연속하여 입력할 필요가 없으므로 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.

Description

음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체{SPEECH RECOGNITION CONTROL METHOD, APPARATUS, ELECTRONIC DEVICE AND READABLE STORAGE MEDIUM}
본 출원은 음성 인식과 인공 지능 기술 분야에 관한 것으로, 특히, 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 관한 것이다.
인공 지능 기술과 단말 기술이 부단히 발전됨에 따라, 인공 지능 제품, 예를 들어 스마트 스피커 등의 전자 기기가 부단히 보급되고 있고, 사용자는 전자 기기를 음성 제어함으로써, 상응하는 제어 명령을 실행시킬 수 있다. 사용자가 전자 기기와 음성 인터랙션하는 경우, 사용자는 대응되는 웨이크업 워드를 입력하여야 한다. 이러한 방식에 따르면, 사용자가 전자 기기와 연속적으로 인터랙션하고자 하는 경우에 사용자는 웨이크업 워드를 재차 입력하여야 하므로, 동작이 극히 불편하게 된다.
본 출원은 관련 기술의 기술 문제 중 하나를 적어도 어느 정도 해결하고자 한다.
본 출원은 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 제공하는 것으로, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서, 웨이크업 워드를 연속하여 입력할 필요가 없도록 구현하고자 하는바, 이에 따르면 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
본 출원의 제1 측면의 실시예는 음성 인식 제어 방법을 제공하는바,
제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는 단계 - 상기 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식함 - ;
상기 목표 동작이 탐지될 경우, 상기 목표 동작에 대응되는 제어 명령을 실행하고, 상기 제1 작동 상태를 제2 작동 상태로 전환하는 단계; 및
상기 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식하는 단계; 를 포함한다.
본 출원의 제2 측면의 실시예는 음성 인식 제어 장치를 제공하는바,
제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는 탐지 모듈 - 상기 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식함 - ;
상기 목표 동작이 탐지될 경우, 상기 목표 동작에 대응되는 제어 명령을 실행하고, 상기 제1 작동 상태를 제2 작동 상태로 전환하는 실행 모듈; 및
상기 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식하는 수집 모듈; 을 포함한다.
본 출원의 제3 측면의 실시예는 전자 기기를 제공하는바,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써, 상기 적어도 하나의 프로세서에 의해 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행된다.
본 출원의 제4 측면의 실시예는 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 상기 컴퓨터 명령은 상기 컴퓨터에 의해 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.
상술한 출원의 일 실시예는 다음과 같은 이점 또는 유익한 효과를 가진다.
제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 여기서, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식하고; 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고 제1 작동 상태를 제2 작동 상태로 전환하고; 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다. 이에 따르면, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서, 웨이크업 워드를 연속하여 입력할 필요가 없으므로, 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
상술한 선택적인 방식이 가지는 기타의 효과는 아래 구체적인 실시예를 결부하여 설명하고자 한다.
첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않으며 본 출원에 있어서 상술한 및/또는 부가적인 측면과 이점은 아래 첨부 도면을 결부한 실시예에 대한 설명에서 더 분명해지고 이해하기 수월해질 것이다.
도1은 본 출원의 실시예1에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도2는 본 출원의 실시예2에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도3은 본 출원의 실시예3에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도4는 본 출원의 실시예4에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도5는 본 출원의 실시예5에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도6은 본 출원의 실시예6에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도7은 본 출원의 실시예7에 의해 제공되는 전자 기기의 개략적인 구조도이다.
이하, 첨부 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명하고자 하는바, 여기에는 이해를 돕기 위해 본 출원의 실시예의 다양한 디테일이 포함되는데, 이러한 것을 단지 시범적인 것으로 간주하여야 한다. 따라서 당업자라면 여기서 설명하는 실시예에 대한 다양한 변경과 수정은 실행 가능한 것으로, 이는 본 출원의 범위와 사상을 벗어나지 않는 것임을 알 수 가 있다. 마찬가지로, 명백하고 간단명료하게 하고자 아래의 설명에서는 공지된 기능과 구조에 대한 설명을 생략하기로 한다.
이하, 첨부 도면을 참조하여 본 출원의 실시예의 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 대해 설명하고자 한다.
도1은 본 출원의 실시예1에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
본 출원의 실시예에서는 당해 음성 인식 제어 방법이 음성 인식 제어 장치를 통해 구현되는 경우를 예로 들어 설명하는바, 당해 음성 인식 제어 장치는 임의의 전자 기기에 응용되어 당해 전자 기기가 음성 인식 제어 기능을 실행 가능하도록 할 수 있다.
여기서, 전자 기기는 개인용 컴퓨터(Personal Computer, PC로 약칭됨), 클라우드 기기, 이동 기기, 스마트 스피커 등일 수 있고 이동 기기는 예를 들어 휴대전화, 태블릿 컴퓨터, 개인용 디지털 보조기, 웨어러블 기기, 차량용 기기 등의 다양한 운영 체제, 터치 스크린 및/또는 표시 스크린를 구비하는 하드웨어 기기일 수 있다.
도1에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기의 단계를 포함할 수 있다.
단계101, 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식한다.
본 출원의 실시예에서 제1 작동 상태는 비 청취 상태일 수 있는바, 전자 기기가 당해 비 청취 상태에 있을 때, 사용자는 웨이크업 워드를 음성으로 입력함으로써, 당해 전자 기기를 웨이크업하여 후속의 음성 인식을 할 수 있다.
본 출원의 실시예에서 웨이크업 워드는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고, 사용자의 개인화 수요를 충족시키기 위해 사용자가 자체 수요에 따라 설정할 수도 있는바, 본 출원은 이에 대해 한정하지 않는다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 웨이크업 워드는 '샤오두 샤오두(小度小度)'일 수 있다.
본 출원의 실시예에서 설정 제어 의도는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고, 당해 방법의 유연성과 적용성을 향상시키기 위해 사용자에 의해 설정될 수도 있는바, 이에 대해 한정하지 않는다. 예를 들어, 당해 설정 제어 의도는 오디오 또는 비디오 재생, 날씨 조회 등일 수 있다.
본 출원의 실시예에서, 전자 기기가 제1 작동 상태에 있는 경우, 전자 기기는 사용자가 웨이크업 워드를 입력하였는지 여부를 검출할 수 있는바, "예"의 경우, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립을 수집하여 음성 인식할 수 있다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 당해 스마트 스피커가 당해 제1 작동 상태에 있고 사용자가 노래를 재생하려는 경우, 사용자는 '샤오두 샤오두(小度小度), 노래A를 재생' 또는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 음성으로 입력할 수 있고, 그러면 전자 기기는 웨이크업 워드 이후의 오디오 클립인 '노래A를 재생' 또는 '나 노래 듣고 싶어'를 인식할 수 있고 나아가 대응되는 노래를 재생할 수 있다.
본 출원의 실시예에서, 전자 기기가 제1 작동 상태에 있는 경우, 음성 인식 제어 장치는 모니터링(monitoring)하는 방식으로 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하였는지 여부를 모니터링할 수 있는바, 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링된 것이 모니터링될 경우, 단계102를 실행할 수도 있고, 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링된 것이 모니터링되지 않을 경우, 계속하여 목표 동작에 대해 모니터링하거나 또는, 사용자에 의해 입력되는 웨이크업 워드에 대해 모니터링할 수도 있고, 사용자에 의해 웨이크업 워드가 입력된 것이 모니터링될 경우, 웨이크업 워드 이후의 오디오 클립에 대해 인식할 수도 있다. 다시 말해서, 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링된 것이 모니터링되지 않을 경우, 전자 기기는 여전히 제1 작동 상태, 즉 비 청취 상태에 있는바, 이때, 사용자가 전자 기기를 음성으로 제어하고자 한다면, 대응되는 웨이크업 워드를 더 입력하여야 하는바, 예를 들면 사용자가 노래 재생를 재생하려는 경우, 사용자는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 입력할 수 있다.
단계102, 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고, 제1 작동 상태를 제2 작동 상태로 전환한다.
본 출원의 실시예에 있어서, 제2 작동 상태는 청취 상태일 수 있고, 전자 기기가 당해 청취 상태에 있을 경우, 사용자는 웨이크업 워드를 음성으로 입력할 필요 없이 음성 명령을 실시간으로 입력하여 전자 기기와 인터랙션할 수 있다.
본 출원의 실시예에 있어서, 음성 인식 제어 장치에 의해 목표 동작이 탐지될 경우, 이는 사용자한테 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하려는 수요가 있음을 말해주는 것인바, 이때, 제1 작동 상태를 제2 작동 상태로 전환하고, 목표 동작에 대응되는 제어 명령을 실행할 수 있다.
예를 들면, 전자 기기가 스마트 스피커이고, 가지는 설정 제어 의도가 날씨 조회인 경우를 예시로 하면, 사용자가 '샤오두 샤오두(小度小度), 오늘 날씨는 어때'하고 음성으로 입력하면 스마트 스피커는 사용자에 의해 입력되는 오디오 데이터를 수집하고 이에 대해 인식한 후, 웨이크업 워드 이후의 음성 클립의 의도가 '날씨 조회'임을 결정할 수 있고, 따라서 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링되었음을 결정할 수 있는바, 이때, 전자 기기는 작동 상태를 비 청취 상태에서 청취 상태로 전환되도록 제어할 수 있고, 이와 동시에 당일 날씨를 조회하여 사용자한테 당일 날씨 정보를 보도하거나 및/또는 인터페이스에 표시할 수 있다.
단계103, 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다.
본 출원의 실시예에 있어서, 전자 기기가 제2 작동 상태에 있는 경우, 전자 기기는 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식할 수 있다. 따라서, 사용자한테 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하는 수요가 있는 경우, 웨이크업 워드를 연속하여 입력할 필요 없이 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있는바, 이에 따르면 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
여전히 상술한 예를 예시로 하면, 스마트 스피커가 청취 상태에 있는 경우, 사용자는 웨이크업 워드를 입력할 필요 없이 스마트 스피커와 연속되는 대화, 예를 들어 '내일 날씨는?', '노래를 틀지' 등을 진행할 수 있고, 이는 인간-기계 간 통신(human-machine conversation)이 더욱 자연스럽고 진실되게 하므로, 사용자의 몰입 경험이 향상된다.
부연하자면, 용어 '제1', '제2'는 단지 설명의 목적을 위한 것일 뿐, 이를 상대적 중요성을 가리키거나 암시하는 것으로, 또는 가리키는 기술 특징의 수량을 묵시적으로 가리키는 것으로 이해하여서는 안된다. 따라서, '제1', '제2'에 의해 한정되는 특징은 적어도 하나의 당해 특징을 명시적으로 또는 묵시적으로 포함할 수 있다.
본 출원의 실시예의 음성 인식 제어 방법에 따르면, 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식하고; 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고 제1 작동 상태를 제2 작동 상태로 전환하고; 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다. 이에 따르면, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서 웨이크업 워드를 연속하여 입력할 필요가 없으므로, 사용자 동작을 간략화할 수 있고, 사용자의 사용 경험을 개선할 수 있다.
구현 가능한 하나의 방식에 있어서, 전자 기기가 제1 작동 상태에 있을 때, 사용자는 음성 입력의 방식으로 목표 동작을 트리거링할 수 있다. 이하, 실시예2를 결부하여 상술한 과정을 상세히 설명하고자 한다.
도2는 본 출원의 실시예2에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도2에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기의 단계를 포함할 수 있다.
단계201, 제1 작동 상태에서 웨이크업 워드가 획득될 경우, 웨이크업 워드 이후의 오디오 클립을 수집한다.
본 출원의 실시예에 있어서, 전자 기기가 제1 작동 상태에 있는 경우, 전자 기기는 사용자가 웨이크업 워드를 입력하였는지 여부를 검출할 수 있는바, "예"의 경우, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립을 수집하여 음성 인식할 수 있다.
단계202, 오디오 클립의 의도를 획득한다.
본 출원의 실시예에 있어서, 음성 인식 기술을 기반으로 오디오 클립에 대해 음성 인식하여 대응되는 의도를 결정할 수 있다. 예를 들면, 음성 인식 기술을 기반으로 당해 오디오 클립에 대해 인식하여 당해 오디오 클립에 대응되는 텍스트 정보를 결정할 수 있고, 이 후, 당해 텍스트 정보에 대한 의미 인식을 실행하여 대응되는 의도를 결정할 수 있다. 예를 들어, 오디오 클립이 '나 노래 듣고 싶어'인 경우, 당해 오디오 클립의 의도는 '노래 듣기' 또는 '오디오 또는 비디오 재생'이다.
단계203, 오디오 클립이 설정 제어 의도를 가지는 경우, 목표 동작이 탐지되었다고 결정한다.
본 출원의 실시예에 있어서, 오디오 클립의 의도가 설정 제어 의도에 매칭되는 경우, 목표 동작이 탐지되었다고 결정할 수 있고, 오디오 클립의 의도가 설정 제어 의도에 매칭되지 않는 경우, 목표 동작이 탐지되지 않았다고 결정할 수 있다.
단계204, 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고, 제1 작동 상태를 제2 작동 상태로 전환한다.
단계205, 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다.
단계204 내지 205의 실행 과정은 상술한 실시예의 단계102 내지 103의 실행 과정을 참조할 수 있으므로, 이에 대한 상세한 설명은 생략하기로 한다.
한 예시로, 전자 기기가 스마트 스피커이고, 오디오 또는 비디오 재생이라는 설정의도를 가지는 경우를 예시로 하면, 사용자가 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 음성으로 입력하면, 스마트 스피커는 사용자에 의해 입력되는 오디오 데이터를 수집하고, 이에 대해 인식한 후, 오디오 클립 '나 노래 듣고 싶어'에 대응되는 의도가 '오디오 재생'이라고 결정할 수 있고, 이때, 오디오 클립의 의도가 설정 제어 의도에 매칭된다고 결정할 수 있고, 따라서, 노래를 재생하고 전자 기기의 작동 상태를 비 청취 상태로부터 청취 상태로 전환할 수 있는바, 이에 따르면 사용자는 스마트 스피커와 연속되는 대화, 예를 들어 '다음 곡 재생', '재생에서 종료' 등을 진행할 수 있고, 이는 인간-기계 간 통신(human-machine conversation)이 더욱 자연스럽고 진실되게 하므로 사용자의 몰입 경험이 향상된다.
다른 예시로, 전자 기기가 스마트 스피커이고 다음 곡 재생이라는 설정의도를 가지는 경우를 예시로 하면, 사용자가 노래를 들을 때, 사용자가 음성으로 입력 '샤오두 샤오두(小度小度), 다음 곡을 재생해줘'라고 입력하면, 스마트 스피커는 오디오 클립의 의도가 설정 제어 의도에 매칭된다고 결정할 수 있고, 따라서, 다음 곡을 재생하고 전자 기기의 작동 상태를 비 청취 상태에서 청취 상태로 전환할 수 있는바, 이에 따르면 사용자는 스마트 스피커와 연속적으로 대화할 수 있다.
본 출원의 실시예의 음성 인식 제어 방법에 따르면, 사용자가 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하고자 하는 의도가 있는 경우, 웨이크업 워드를 연속하여 입력할 필요 없이 음성으로 입력되는 오디오 데이터가 설정 제어 의도를 충족시키도록 확보하기만 하면 전자 기기와의 실시간 인터랙션을 구현할 수 있으므로, 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
다른 가능한 구현 방식에 있어서, 전자 기기가 제1 작동 상태에 있을 때, 사용자는 수동 입력 방식으로 목표 동작을 트리거링할 수 있다. 이하, 실시예3을 결부하여 상술한 과정을 상세히 설명하고자 한다.
도3은 본 출원의 실시예3에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도3에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기의 단계를 포함할 수 있다.
단계301, 터치 동작을 탐지한다.
본 출원의 실시예에 있어서, 음성 인식 제어 장치는 모니터링(monitoring)하는 방식으로 사용자에 의해 트리거링되는 터치 동작을 모니터링할 수 있다. 여기서, 터치 동작은 클릭 동작, 선택 동작, 입력 동작 등일 수 있다.
단계302, 터치 동작이 오디오 또는 비디오를 턴온하는 동작일 경우, 터치 동작이 설정 제어 의도를 가지는 목표 동작이라고 결정한다.
본 출원의 실시예에 있어서, 터치 동작이 오디오 또는 비디오를 턴온하는 동작일 경우, 예를 들어, 사용자가 전자 기기의 표시 인터페이스의 오디오 또는 비디오를 클릭하면, 이때, 터치 동작이 설정 제어 의도를 가지는 목표 동작이라고, 즉 설정 제어 의도를 오디오 또는 비디오 재생으로 결정할 수 있고, 터치 동작이 오디오 또는 비디오를 턴온하는 동작이 아닌 경우, 예를 들어 사용자가 메세지를 편집하거나 상태를 업데이트하거나 정보를 수정하는 등의 경우, 터치 동작은 설정 제어 의도를 가지지 않는 목표 동작이라고 결정할 수 있다.
다시 말해서, 본 출원에서는, 터치 동작이 대응되는 설정 제어 의도를 가지는 경우에만 당해 터치 동작을 목표 동작이라고 결정하고, 이때 사용자가 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하고자 하는 의도가 있다고 결정할 수 있으며, 따라서, 후속의 단계를 실행할 수 있고, 터치 동작이 대응되는 설정 제어 의도를 가지지 않는 경우 당해 터치 동작은 목표 동작이 아니라고 결정하고, 이때 사용자가 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하고자 하는 의도가 없다고 간주할 수 있으며, 따라서, 전자 기기는 당해 제1 작동 상태를 유지할 수 있다.
단계303, 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고, 제1 작동 상태를 제2 작동 상태로 전환한다.
단계304, 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다.
단계303 내지 304의 실행 과정은 상술한 실시예의 단계102 내지 103의 실행 과정을 참조할 수 있으므로 이에 대한 상세한 설명은 생략하기로 한다.
하나의 응용 장면으로, 전자 기기가 스마트 스피커인 경우, 사용자가 표시 인터페이스의 어느 한 비디오 파일을 클릭하였다면, 이때, 사용자에 의해 트리거링되는 터치 동작은 제어 의도를 가지는 목표 동작임을 결정할 수 있고, 따라서, 당해 비디오 파일을 재생할 수 있고, 전자 기기의 작동 상태를 비 청취 상태에서 청취 상태로 전환할 수 있는바, 이에 따르면 사용자는 스마트 스피커와 연속적으로 대화할 수 있다.
본 출원의 실시예의 음성 인식 제어 방법에 따르면, 사용자가 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하고자 하는 의도가 있는 경우, 웨이크업 워드를 연속하여 입력할 필요 없이 오디오 또는 비디오를 턴온하는 동작을 트리거링하기만 하면, 전자 기기와의 연속되는 인터랙션을 구현할 수 있는바, 이에 따르면 사용자 동작을 간략화할 수 있고, 사용자의 사용 경험을 개선할 수 있다.
현재, 전자 기기는 다양한 작동 모드, 예를 들어 일반 모드, 어린이 모드, 긱(Geek) 모드 등을 가질 수 있고, 사용자는 음성 또는 수동으로 전자 기기의 작동 모드를 전환할 수 있다. 관련 기술에서, 부동한 작동 모드는 서로 충돌된다.
이러한 방식에 따르면, 사용자는 동일한 시각에 하나의 작동 모드에만 진입하도록 전자 기기를 제어할 수밖에 없으므로, 사용자의 실제 의도를 충족시키지 못할 수도 있다. 예를 들면, 사용자는 전이중 연속 대화 기능을 경험하고자 어린이 모드와 긱 모드를 동시에 동작시키고자 하는 의도를 가질 수 있는데, 분명한 것은, 종래 기술은 사용자의 상기와 같은 의도를 충족시킬 수 없다.
그러나 본 출원의 실시예의 음성 인식 제어 방법에 따르면, 사용자는 어린이 모드와 긱 모드를 동시에 동작시킬 수 있고, 어린이 모드에서, 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링되거나 - 예를 들어 사용자에 의해 음성으로 입력 웨이크업 워드와 설정 제어 의도가 입력되거나, 또는, 사용자에 의해 오디오 또는 비디오를 턴온하는 동작이 트리거링되는 경우, 긱 모드에 직접 진입할 수 있는바, 어린이 모드의 사용자도 연속되는 대화를 재차 웨이크업할 필요가 없는 능력을 경험할 수 있으므로 사용자의 사용 경험이 개선된다.
다시 말해서, 어린이 모드에서는 긱 모드를 일 기능으로서 동작시킬 수 있고, 비 청취 상태에서 사용자에 의해 설정 제어 의도를 가지는 목표 동작이 트리거링된 것이 탐지될 경우, 긱 모드의 청취 상태로 전환되고 목표 동작에 대응되는 제어 명령이 실행되므로, 어린이 모드의 사용자도 연속되는 대화를 재차 웨이크업할 필요가 없는 능력을 경험할 수 있다.
구현 가능한 하나의 방식에 있어서, 전자 기기가 제2 작동 상태에 있는 경우, 전자 기기의 표시 인터페이스 내의 제1 요소를 제2 요소로 교체하고, 제3 요소를 은폐시킬 수 있는바, 제1 요소는 제1 작동 상태에 있다는 것을 제시하기 위한 것이고, 제2 요소는 제2 작동 상태에 있다는 것을 제시하기 위한 것이고, 제3 요소, 웨이크업 워드를 제시하기 위한 것이다.
하나의 응용 장면으로, 전자 기기가 스마트 스피커이고, 설정 제어 의도가 오디오 또는 비디오 재생인 경우를 예시로 하면, 스마트 스피커가 어린이 모드에 있는 경우, 사용자가 '샤오두 샤오두(小度小度), 나 애니메이션을 볼래'라고 음성으로 입력한다면, 이때, 오디오 클립 '나 애니메이션을 볼래'의 의도는 오디오 또는 비디오 재생이고, 따라서, 스마트 스피커는 목표 동작이 탐지되었다고 결정할 수 있고, 따라서, 긱 모드의 청취 상태에 진입할 수 있고, 당해 청취 상태에서, 기기를 웨이크업할 필요가 없으므로 제3 요소를 은폐시킬 수 있다. 이와 동시에, 사용자가 스마트 스피커의 현재의 상태 정보를 인지하는 편의를 위하여, 인터페이스 내의 제1 요소를 제2 요소로 교체할 수 있다.
본 출원의 실시예에 있어서, 전자 기기가 제2 작동 상태에 있는 경우, 사용자는 웨이크업 워드를 재차 입력할 필요가 없는 연속되는 대화를 경험할 수 있고, 상응하게, 전자 기기는 사용자에 의해 음성으로 입력되는 오디오 스트림을 획득하고, 당해 오디오 스트림을 음성 인식하여 당해 오디오 스트림에 제어 의도가 포함되어 있는지 여부를 결정할 수 있는바, 제어 의도가 포함되어 있는 경우, 당해 제어 의도에 대응되는 제어 명령을 실행하고, 제어 의도가 포함되어 있지 않을 경우, 이는 사용자한테 제어 수요가 없다는 것을 말해주며, 이때, 제2 작동 상태를 종료할 수 있다. 이하, 실시예4를 결부하여 상술한 과정을 상세히 설명하고자 한다.
도4는 본 출원의 실시예4에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도4에 도시한 바와 같이, 도1 내지 도3에 도시한 실시예에 기초하여 당해 음성 인식 제어 방법은 하기의 단계를 더 포함할 수 있다.
단계401, 정보 스트림을 획득하는바, 정보 스트림은 오디오 스트림을 음성 인식하여 획득된다.
본 출원의 실시예에 있어서, 사용자에 의해 오디오 데이터가 입력되면 전자 기기는 오디오 스트림을 수집하고, 당해 오디오 스트림을 음성 인식하여 대응되는 정보 스트림을 결정할 수 있다.
단계402, 정보 스트림으로부터 제어 의도를 가지는 목표 정보를 선별한다.
본 출원의 실시예에 있어서, 정보 스트림이 획득되면 당해 정보 스트림에 대해 의미 인식을 실행하여 대응되는 제어 의도를 결정할 수 있고, 정보 스트림으로부터 제어 의도를 가지는 목표 정보를 선별할 수 있다.
단계403, 역치 기간 내에 목표 정보가 선별되지 않을 경우, 제2 작동 상태를 종료한다.
본 출원의 실시예에 있어서, 역치 시각은 미리 설정되는 것으로, 예를 들어 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고, 사용자에 의해 설정될 수도 있는바, 이에 대해 한정하지 않는다. 예를 들어, 역치 기간은 90초일 수 있다.
본 출원의 실시예에 있어서, 역치 기간 내에 목표 정보가 선별되지 않을 경우, 이는 사용자한테 전자 기기를 제어하려는 의도가 없음을 말해주는 것인바, 이때 제2 작동 상태를 종료할 수 있다.
예를 들면, 전자 기기가 청취 상태에 진입할 때, 역치 기간 내에 사용자에 의한 음성 데이터 입력이 없거나 또는 전자 기기에 의해 인식되는 오디오 스트림으로부터 제어 의도가 획득되지 않았다면, 청취 상태를 종료할 수 있다. 예를 들어, 사용자가 어린이 모드와 긱 모드를 동시에 동작시키고 있을 때, 긱 모드의 청취 상태를 종료하였다면 이때 전자 기기는 단지 어린이 모드에만 있고, 사용자는 어린이 모드에서 전자 기기와 인터랙션할 수 있는바, 사용자가 전자 기기를 제어하고자 한다면, 사용자는 대응되는 웨이크업 워드를 더 입력하여야 한다.
본 출원의 실시예에 있어서, 역치 기간 내에 목표 정보가 선별되지 않을 경우, 제2 작동 상태를 종료한다. 이에 따르면, 사용자한테 전자 기기를 제어하려는 의도가 없는 경우, 제2 작동 상태를 종료하도록 전자 기기를 제어함으로써, 전자 기기가 줄곧 청취 상태 또는 작동 상태에 있게 되는 상황이 회피되므로 전자 기기의 에너지 소모가 저감될 수 있다.
상술한 실시예를 구현하기 위해, 본 출원은 음성 인식 제어 장치를 더 제공한다.
도5는 본 출원의 실시예5에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도5에 도시한 바와 같이, 당해 음성 인식 제어 장치(500)는 탐지 모듈(501), 실행 모듈(502) 및 수집 모듈(503)을 포함한다.
탐지 모듈(501)은 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식한다.
구현 가능한 하나의 방식에 있어서, 탐지 모듈(501)은 구체적으로, 웨이크업 워드가 획득될 경우, 웨이크업 워드 이후의 오디오 클립을 수집하고; 오디오 클립의 의도를 획득하고; 오디오 클립이 설정 제어 의도를 가지는 경우, 목표 동작이 탐지되었다고 결정한다.
다른 가능한 구현 방식에 있어서, 탐지 모듈(501)은 구체적으로, 터치 동작을 탐지하고; 터치 동작이 오디오 또는 비디오를 턴온하는 동작일 경우, 터치 동작이 설정 제어 의도를 가지는 목표 동작이라고 결정한다.
실행 모듈(502)은 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고, 제1 작동 상태를 제2 작동 상태로 전환한다.
수집 모듈(503)은 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다.
나아가, 본 출원의 실시예의 한 가능한 구현 방식에 있어서, 도6을 참조하면, 도5에 도시한 실시예에 기초하여 당해 음성 인식 제어 장치(500)는 하기의 모듈을 더 포함할 수 있다.
처리 모듈(504)은, 제2 작동 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 은폐시키는바, 제1 요소는 제1 작동 상태에 있다는 것을 제시하기 위한 것이고, 제2 요소는 제2 작동 상태에 있다는 것을 제시하기 위한 것이고, 제3 요소, 웨이크업 워드를 제시하기 위한 것이다.
획득 모듈(505)은, 정보 스트림을 획득하는바, 정보 스트림은 오디오 스트림을 음성 인식하여 획득된다.
선별 모듈(506)은, 정보 스트림으로부터 제어 의도를 가지는 목표 정보를 선별한다.
종료 모듈(507)은, 역치 기간 내에 목표 정보가 선별되지 않을 경우, 제2 작동 상태를 종료한다.
부연하자면, 상술한 음성 인식 제어 방법의 실시예에 대한 해석과 설명은 당해 실시예의 음성 인식 제어 장치에도 적용되는 것으로, 이에 대한 상세한 설명은 생략하기로 한다.
본 출원의 실시예의 음성 인식 제어 장치에 따르면, 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식하고; 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고 제1 작동 상태를 제2 작동 상태로 전환하고; 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다. 이에 따르면, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서, 웨이크업 워드를 연속하여 입력할 필요가 없으므로, 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
상술한 실시예를 구현하기 위해, 본 출원은 전자 기기를 더 제공하는바, 이는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행됨으로써 적어도 하나의 프로세서에 의해 본 출원의 상술한 실시예에 의해 제공되는 음성 인식 제어 방법이 실행된다.
상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공하는바, 컴퓨터 명령은 컴퓨터에 의해 본 출원의 상술한 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.
도7에 도시한 바와 같이, 이는 본 출원의 실시예의 음성 인식 제어 방법에 따른 전자 기기의 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터, 예를 들어 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타의 적합한 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 다양한 형식의 이동 장치, 예를 들어 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 기타의 이와 유사한 컴퓨팅 기기를 가리킬 수도 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 것이 아니다.
도7에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(701), 메모리(702) 및 각 부품을 연결하는 인터페이스를 포함하는바, 고속 인터페이스와 저속 인터페이스가 포함된다. 각 부품은 부동한 버스를 이용하여 서로 연결되고 공용 메인기판에 장착되거나 또는 필요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리 내에 또는 메모리 위에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링되는 디스플레이 기기)에 GUI의 그래픽 정보를 표시하는 명령이 포함된다. 기타의 구현 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있는바, 각 기기는 일부 필요한 동작을 제공한다(예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서). 도7은 하나의 프로세서(701)를 예로 든다.
메모리(702)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.
메모리(702)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예의 음성 인식 제어 방법에 대응되는 프로그램 명령/모듈(예를 들면 도5에 도시한 탐지 모듈(501), 실행 모듈(502) 및 수집 모듈(503))을 저장할 수 있다. 프로세서(701)는 메모리(702)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예의 음성 인식 제어 방법을 구현한다.
메모리(702)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수도 있고 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타의 비일시적 고체 상태 저장 장치를 포함할 수도 있다. 일부 실시예에서, 메모리(702)는 선택적으로 프로세서(701) 대비 원격 설치되는 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결될 수 있다. 상술한 네트워크의 실례는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
전자 기기는 입력 장치(703)와 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 기타의 방식으로 연결될 수 있는바, 도7에서는 버스에 의한 연결을 예로 든다.
입력 장치(703)는 입력되는 숫자 또는 캐릭터 정보를 수신하고 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면, 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 일부 구현 방식에서 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템과 기술의 다양한 구현 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 구현 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템으로 부터, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하며 고급 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능 매체'와 '컴퓨터 판독 가능 매체'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.
여기서 설명하는 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어를 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여 여기서 설명하는 시스템 및 기술의 구현 방식과 인터랙션할 수 있음) 또는 이러한 백그라운드 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로는 서로 멀리 떨어져 있고 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.
본 출원의 실시예의 기술안에 따르면, 제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는바, 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식하고; 목표 동작이 탐지될 경우, 목표 동작에 대응되는 제어 명령을 실행하고 제1 작동 상태를 제2 작동 상태로 전환하고; 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다. 이에 따르면, 사용자가 설정 제어 의도를 가지는 목표 동작을 트리거링하기만 하면 전자 기기와의 연속되는 인터랙션이 구현될 수 있어서 웨이크업 워드를 연속하여 입력할 필요가 없으므로 사용자 동작을 간략화할 수 있고 사용자의 사용 경험을 개선할 수 있다.
위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병행으로 실행될 수도 있고 순차로 실행될 수도 있고 부동한 순서로 실행될 수도 있는바, 본 출원에서 개시하는 기술안에 대한 기대 효과를 구현할 수만 있으면 되며, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 구현 방식은 본 출원의 보호 범위를 한정하지 않는다. 설계 요구와 기타 요소에 따른 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 점은 당업자에 있어서 자명할 것이다. 본 출원의 사상과 원칙 이내에 있는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims (12)

  1. 음성 인식 제어 방법에 있어서,
    제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는 단계 - 상기 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식함 - ;
    상기 목표 동작이 탐지될 경우, 상기 목표 동작에 대응되는 제어 명령을 실행하고, 상기 제1 작동 상태를 제2 작동 상태로 전환하는 단계; 및
    상기 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식하는 단계; 를 포함하고,
    상기 설정 제어 의도를 가지는 목표 동작을 탐지하는 단계는,
    터치 동작을 탐지하는 단계; 및
    상기 터치 동작이 오디오 또는 비디오를 턴온하는 동작일 경우, 상기 터치 동작이 상기 설정 제어 의도를 가지는 목표 동작이라고 결정하고, 상기 터치 동작이 오디오 또는 비디오를 턴온하는 동작이 아닌 경우, 상기 터치 동작이 상기 설정 제어 의도를 가지지 않는 목표 동작이라고 결정하는 단계; 를 포함하고,
    상기 제1 작동 상태를 제2 작동 상태로 전환하는 단계 이후,
    상기 제2 작동 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 은폐시키는 단계를 더 포함하고,
    상기 제1 요소는 상기 제1 작동 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 작동 상태에 있다는 것을 제시하기 위한 것이고, 상기 제3 요소는 상기 웨이크업 워드를 제시하기 위한 것,
    을 특징으로 하는 음성 인식 제어 방법.
  2. 제1항에 있어서,
    상기 설정 제어 의도를 가지는 목표 동작을 탐지하는 단계는,
    웨이크업 워드가 획득될 경우, 웨이크업 워드 이후의 오디오 클립을 수집하는 단계;
    상기 오디오 클립의 의도를 획득하는 단계; 및
    상기 오디오 클립이 상기 설정 제어 의도를 가지는 경우, 상기 목표 동작이 탐지되었다고 결정하는 단계; 를 포함하는 것,
    을 특징으로 하는 음성 인식 제어 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 작동 상태를 제2 작동 상태로 전환하는 단계 이후,
    정보 스트림을 획득하는 단계 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식하여 획득됨 - ;
    상기 정보 스트림으로부터 제어 의도를 가지는 목표 정보를 선별하는 단계; 및
    역치 기간 내에 상기 목표 정보가 선별되지 않을 경우, 상기 제2 작동 상태를 종료하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 음성 인식 제어 방법.
  4. 음성 인식 제어 장치에 있어서,
    제1 작동 상태에서 설정 제어 의도를 가지는 목표 동작을 탐지하는 탐지 모듈 - 상기 제1 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하여 음성 인식함 - ;
    상기 목표 동작이 탐지될 경우, 상기 목표 동작에 대응되는 제어 명령을 실행하고, 상기 제1 작동 상태를 제2 작동 상태로 전환하는 실행 모듈; 및
    상기 제2 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식하는 수집 모듈; 을 포함하고,
    상기 탐지 모듈은, 구체적으로,
    터치 동작을 탐지하고;
    상기 터치 동작이 오디오 또는 비디오를 턴온하는 동작일 경우, 상기 터치 동작이 상기 설정 제어 의도를 가지는 목표 동작이라고 결정하고, 상기 터치 동작이 오디오 또는 비디오를 턴온하는 동작이 아닌 경우, 상기 터치 동작이 상기 설정 제어 의도를 가지지 않는 목표 동작이라고 결정하고,
    상기 장치는,
    상기 제2 작동 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고, 제3 요소를 은폐시키는 처리 모듈을 더 포함하고,
    상기 제1 요소는 상기 제1 작동 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 작동 상태에 있다는 것을 제시하기 위한 것이고, 상기 제3 요소는 상기 웨이크업 워드를 제시하기 위한 것,
    을 특징으로 하는 음성 인식 제어 장치.
  5. 제4항에 있어서,
    상기 탐지 모듈은, 구체적으로,
    웨이크업 워드가 획득될 경우, 웨이크업 워드 이후의 오디오 클립을 수집하고;
    상기 오디오 클립의 의도를 획득하고;
    상기 오디오 클립이 상기 설정 제어 의도를 가지는 경우, 상기 목표 동작이 탐지되었다고 결정하는 것,
    을 특징으로 하는 음성 인식 제어 장치.
  6. 제4항에 있어서,
    상기 장치는,
    정보 스트림을 획득하는 획득 모듈 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식하여 획득됨 - ;
    상기 정보 스트림으로부터 제어 의도를 가지는 목표 정보를 선별하는 선별 모듈; 및
    역치 기간 내에 상기 목표 정보가 선별되지 않을 경우, 상기 제2 작동 상태를 종료하는 종료 모듈; 을 더 포함하는 것,
    을 특징으로 하는 음성 인식 제어 장치.
  7. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써, 상기 적어도 하나의 프로세서가 제1항 또는 제2항의 음성 인식 제어 방법을 실행 가능 하도록 하는 것,
    을 특징으로 하는 전자 기기.
  8. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터가 제1항 또는 제2항의 음성 인식 제어 방법을 실행하도록 하는 것,
    을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
KR1020190176966A 2019-09-19 2019-12-27 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체 KR102358831B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910888231.3 2019-09-19
CN201910888231.3A CN112530419B (zh) 2019-09-19 2019-09-19 语音识别控制方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
KR20210033873A KR20210033873A (ko) 2021-03-29
KR102358831B1 true KR102358831B1 (ko) 2022-02-04

Family

ID=69055812

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190176966A KR102358831B1 (ko) 2019-09-19 2019-12-27 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체

Country Status (5)

Country Link
US (1) US20210090562A1 (ko)
EP (1) EP3796308A1 (ko)
JP (1) JP7051798B2 (ko)
KR (1) KR102358831B1 (ko)
CN (1) CN112530419B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115604513A (zh) * 2021-07-07 2023-01-13 华为技术有限公司(Cn) 一种系统模式切换方法、电子设备及计算机可读存储介质
CN113628622A (zh) * 2021-08-24 2021-11-09 北京达佳互联信息技术有限公司 语音交互方法、装置、电子设备及存储介质
CN114071318B (zh) * 2021-11-12 2023-11-14 阿波罗智联(北京)科技有限公司 语音处理方法、终端设备及车辆
CN116052668B (zh) * 2023-03-28 2023-06-02 北京集度科技有限公司 一种语音识别处理方法、装置、车辆及计算机程序产品

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864815A (en) * 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
KR101262700B1 (ko) * 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
WO2014084413A1 (ko) * 2012-11-28 2014-06-05 엘지전자 주식회사 가전 기기 구동 장치 및 방법
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
CN110096249A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 用于提示快捷唤醒词的方法、装置和系统
CN109671426B (zh) * 2018-12-06 2021-01-29 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调

Also Published As

Publication number Publication date
CN112530419A (zh) 2021-03-19
US20210090562A1 (en) 2021-03-25
KR20210033873A (ko) 2021-03-29
CN112530419B (zh) 2024-05-24
EP3796308A1 (en) 2021-03-24
JP7051798B2 (ja) 2022-04-11
JP2021047391A (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
KR102358831B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN111192591B (zh) 智能设备的唤醒方法、装置、智能音箱及存储介质
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP2021044795A (ja) プログラムの起動方法、装置、デバイス及び記憶媒体
CN112382279B (zh) 语音识别方法、装置、电子设备和存储介质
JP2022003415A (ja) 音声制御方法及び音声制御装置、電子機器並びに記憶媒体
KR20210038278A (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN109658924B (zh) 会话消息处理方法、装置及智能设备
CN111627441B (zh) 电子设备的控制方法、装置、设备和存储介质
CN111652344A (zh) 用于呈现信息的方法和装置
CN112037794A (zh) 语音交互方法、装置、设备以及存储介质
CN113556649A (zh) 智能音箱的播报控制方法和装置
CN111986682A (zh) 语音交互方法、装置、设备以及存储介质
KR20210038277A (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN112037786A (zh) 语音交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant