KR20210038278A

KR20210038278A - 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체

Info

Publication number: KR20210038278A
Application number: KR1020190177035A
Authority: KR
Inventors: 용시 루오; 샤샤 왕
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2019-09-29
Filing date: 2019-12-27
Publication date: 2021-04-07
Also published as: JP7051800B2; JP2021056486A; US20210097991A1; CN112581945A; EP3799039A1

Abstract

본 출원은 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 개시하는바, 이는 음성 인식 분야에 관한 것이다. 구체적인 구현 방안은, 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하고, 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하고, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환하고; 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하고; 음성 인식에 의해 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행하는 것이다. 이로써 사용자에 의해 연속적으로 입력되는 오디오 스트림을 음성 인식하는바, 목표 장면에 부합되는 제2 제어 의도가 획득되는 경우에만 상응한 제어 명령을 실행함으로써, 웨이크업 워드를 연속적으로 입력할 필요가 없을 뿐만아니라 사용자의 조작을 간략화하고 장면의 전환에 따라 사용자의 사용 경험이 저하되는 기술적 문제도 방지할 수 있다.

Description

음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체{SPEECH CONTROL METHOD AND APPARATUS, ELECTRONIC DEVICE, AND READABLE STORAGE MEDIUM}

본 출원은 음성 인식과 인공 지능 기술 분야에 관한 것으로, 특히 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 관한 것이다.

인공 지능 기술과 단말기 기술이 부단히 발전됨에 따라, 인공 지능 제품, 예를 들어 스마트 스피커 등의 전자 기기가 부단히 보급되고 있고 사용자는 전자 기기를 음성 제어함으로써 상응하는 제어 명령을 실행시킬 수 있다. 사용자가 전자 기기를 사용하여 게임하는 과정에서 사용자가 전자 기기와 음성 인터랙션하는 경우, 사용자에 의해 입력되는 제어 명령이 게임에 관련되지 않는다면 전자 기기는 상응한 제어 명령에 응답하여 기타의 동작 장면로 전환된다. 이러한 경우, 사용자가 게임하는 과정이 중단되는바, 이는 사용자의 사용 경험에 영향을 준다.

본 출원은 관련 기술의 기술 문제 중 하나를 적어도 어느 정도 해결하고자 한다.

본 출원은 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 제공하는바, 목표 장면에서 사용자에 의해 입력되는 오디오 데이터가 연속적으로 획득된 후, 기타의 장면로 전환되지 않도록 구현함으로써, 사용자의 사용 경험이 개선된다.

본 출원의 제1 측면의 실시예는 음성 제어 방법을 제공하는바,

목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하는 단계;

상기 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하는 단계;

상기 제1 제어 의도에 매칭되는 제어 명령을 실행하고 상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계;

상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 상기 오디오 스트림을 음성 인식하는 단계; 및

음성 인식으로 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 상기 제2 제어 의도에 매칭되는 제어 명령을 실행하는 단계; 를 포함한다.

본 출원의 실시예의 첫 번째 가능한 구현 방식에 있어서, 상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 상기 오디오 스트림을 음성 인식하는 단계 이후,

정보 스트림(Information flow)을 획득하는 단계 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식 하여 획득됨 - ;

상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계;

각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 단계; 및

설정된 기간 내에 상기 제2 제어 의도가 획득되지 않은 경우, 상기 제2 동작 상태를 퇴출하는 단계; 를 더 포함하고,

상기 설정된 기간의 값의 범위는 20초 내지 40초이다.

본 출원의 실시예의 두 번째 가능한 구현 방식에 있어서, 상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계 이후,

상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 단계를 더 포함한다.

본 출원의 실시예의 세 번째 가능한 구현 방식에 있어서, 상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계 이후,

상기 제2 동작 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시하는 단계를 더 포함하고,

상기 제1 요소는 제1 동작 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 동작 상태에 있다는 것을 제시하기 위한 것이고, 상기 제3 요소는 상기 웨이크업 워드를 제시하거나 및/또는 오디오 또는 영상을 재생하기 위한 것이다.

본 출원의 실시예의 네 번째 가능한 구현 방식에 있어서, 상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계 이전에,

상기 제1 제어 의도가 상기 목표 장면에 매칭된다는 것을 결정하는 단계를 더 포함한다.

본 출원의 실시예의 다섯 번째 가능한 구현 방식에 있어서, 상기 목표 장면은 게임 장면을 포함한다.

본 출원의 제2 측면의 실시예는 음성 제어 장치를 제공하는바, 당해 음성 제어 장치는,

목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하는 실행 모듈;

상기 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하는 제1 획득 모듈;

상기 제1 제어 의도에 매칭되는 제어 명령을 실행하고 상기 제1 동작 상태를 제2 동작 상태로 전환하는 전환 모듈;

상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 상기 오디오 스트림을 음성 인식하는 인식 모듈; 및

음성 인식으로 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 상기 제2 제어 의도에 매칭되는 제어 명령을 실행하는 제어 모듈; 을 포함한다.

본 출원의 제3 측면의 실시예는 전자 기기를 제공하는바, 이는

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리; 를 포함하고,

상기 메모리에는 상기 적어도 하나의 프로세서가 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서가 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 제어 방법을 실행한다.

본 출원의 제4 측면의 실시예는 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 상기 컴퓨터 명령은 상기 컴퓨터가 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 제어 방법을 실행되도록 한다.

상술한 출원의 일 실시예는 다음과 같은 이점 또는 유익한 효과를 가진다.

목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하고, 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하고, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환하며; 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하며; 음성 인식으로 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다. 이로써, 사용자가 전자 기기와 연속적으로 인터랙션하는 경우, 사용자에 의해 연속하여 입력되는 오디오 스트림을 음성 인식하여, 목표 장면에 부합되는 제2 제어 의도가 음성 인식으로 획득되는 경우에만 상응한 제어 명령을 실행함으로써, 웨이크업 워드를 연속적으로 입력할 필요가 없을 뿐만아니라 사용자의 조작을 간략화하고 장면의 전환에 따라 사용자의 사용 경험이 저하되는 기술적 문제도 방지할 수 있다.

상술한 선택적인 방식이 가지는 기타의 효과는 아래 구체적인 실시예를 결부하여 설명하고자 한다.

첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않으며 본 출원에 있어서 상술한 및/또는 부가적인 측면과 이점은 아래 첨부 도면을 결부한 실시예에 대한 설명에서 더 분명해지고 이해하기 수월해질 것이다
도1은 본 출원의 실시예1에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.
도2는 본 출원의 실시예2에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.
도3은 본 출원의 실시예3에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.
도4는 본 출원의 실시예4에 의해 제공되는 음성 제어 장치의 개략적인 구조도이다.
도5는 본 출원의 실시예5에 의해 제공되는 전자 기기의 개략적인 구조도이다.

아래, 첨부 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명하고자 하는바, 여기에는 이해를 돕기 위해 본 출원의 실시예의 다양한 디테일이 포함되는데, 이러한 것을 단지 시범적인 것으로 간주하여야 한다. 따라서 당업자라면 여기서 설명하는 실시예에 대한 다양한 변경과 수정은 실행 가능한 것으로, 이는 본 출원의 범위와 사상을 벗어나지 않는 것임을 알 수 가 있다. 마찬가지로, 명백하고 간단명료하게 하고자 아래의 설명에서는 공지된 기능과 구조에 대한 설명을 생략하기로 한다.

아래, 첨부 도면을 참조하여 본 출원의 실시예의 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 대해 설명하고자 한다.

도1은 본 출원의 실시예1에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.

본 출원의 실시예에서는 당해 음성 제어 방법이 음성 제어 장치에 구성되는 경우를 예로 들어 설명하는바, 당해 음성 제어 장치는 임의의 전자 기기에 응용되어 당해 전자 기기가 음성 제어 기능을 수행 가능하도록 할 수 있다.

여기서, 전자 기기는 개인용 컴퓨터(Personal Computer, PC로 약칭됨), 클라우드 기기, 모바일 장치, 스마트 스피커 등일 수 있고 모바일 장치는 예를 들어 휴대전화, 태블릿 컴퓨터, 개인용 디지털 보조기, 웨어러블 기기, 차량용 기기 등의 다양한 운영 체제, 터치 스크린 및/또는 표시 스크린를 구비하는 하드웨어 기기일 수 있다.

도1에 도시한 바와 같이, 당해 음성 제어 방법은 다음의 단계를 포함할 수 있다.

단계101: 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집한다.

한 가능한 경우로, 목표 장면은 게임 장면을 포함한다. 설명하고자 하는 바는, 목표 장면은 이 외의 가능한 장면일 수 있고 예를 들면 어린이 장면일 수 있는바, 이에 대해 한정하지 않는다.

본 출원의 실시예에서 제1 동작 상태는 비 청취 상태일 수 있고, 목표 장면에서 전자 기기는 당해 비 청취 상태를 실행함으로써 사용자의 음성에 의해 입력된 웨이크업 워드에 따라 오디오 클립을 수집한다.

본 출원의 실시예에서 웨이크업 워드는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고 사용자의 개인화 수요를 충족시키기 위해 사용자가 자체 수요에 따라 설정할 수도 있다, 본 출원은 이에 대해 한정하지 않는다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 웨이크업 워드는 '샤오두 샤오두(小度小度)'일 수 있다.

본 출원의 실시예에 있어서, 목표 장면에서 전자 기기에 의해 제1 동작 상태가 실행될 때, 전자 기기는 사용자에 의해 웨이크업 워드가 입력되었는지 여부를 검출할 수 있는바, 그렇다면, 사용자가 웨이크업 워드 이후에 입력한 오디오 클립을 수집하여 음성 인식할 수 있다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 당해 스마트 스피커가 당해 제1 동작 상태에 있고 사용자가 노래를 재생하려는 경우, 사용자는 '샤오두 샤오두(小度小度), 노래A를 재생' 또는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 음성으로 입력할 수 있고, 그러면 전자 기기는 웨이크업 워드 이후의 오디오 클립인 '노래A를 재생' 또는 '나 노래 듣고 싶어'를 인식할 수 있다.

본 출원의 실시예에서 전자 기기가 제1 동작 상태에 있는 경우, 음성 제어 장치는 감청(monitoring)하는 방식으로 사용자에 의해 입력되는 웨이크업 워드를 감청할 수 있는바, 사용자에 의해 웨이크업 워드가 입력된 것이 감청되는 경우, 웨이크업 워드 이후의 오디오 클립을 인식할 수 있고, 사용자에 의해 웨이크업 워드가 입력된 것이 감청되지 않은 경우, 계속하여 사용자에 의해 입력되는 웨이크업 워드를 감청할 수 있다. 다시 말해, 사용자에 의해 입력되는 웨이크업 워드가 감청되지 않은 경우, 전자 기기는 여전히 제1 동작 상태, 즉 비 청취 상태에 있는바, 이때, 사용자가 전자 기기를 음성 제어하고자 한다면 대응되는 웨이크업 워드를 더 입력하여야 하는데, 예를 들어 사용자가 노래 재생를 재생하려는 경우, 사용자는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 입력할 수 있다.

단계102: 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득한다.

본 출원의 실시예에서 제1 제어 의도는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고 당해 방법의 유연성과 적용성을 향상시키기 위해 사용자가 설정할 수도 있는바, 이에 대해 한정하지 않는다. 예를 들어, 게임 장면에서, 제1 제어 의도는 에너지 증가, 장비 구매 등일 수 있다.

본 출원의 실시예에서 전자 기기가 제1 동작 상태에 있는 경우, 전자 기기는 사용자에 의해 웨이크업 워드가 입력된 것이 검출되면, 사용자에 의해 입력된 웨이크업 워드 이후의 오디오 클립을 수집하고, 나아가 오디오 클립을 음성 인식함으로써 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득한다.

예를 들면, 목표 장면이 게임 장면인 경우, 게임 장면에서, 전자 기기가 제1 동작 상태를 실행할 때, 사용자가 게임 장비를 교체하고자 하는 경우, 사용자는 웨이크업 워드인 '샤오두 샤오두(小度小度)'를 음성으로 입력한 후, '장비를 교체하려고 해' 또는 '장비A를 교체'라고 음성으로 입력할 수 있다. 그러면 전자 기기는 웨이크업 워드 이후의 오디오 클립을 인식하고 '장비를 교체하려고 해' 또는 '장비A를 교체'를 제1 제어 의도로 획득할 수 있다.

단계103: 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환한다.

본 출원의 실시예에서 제2 동작 상태는 청취 상태일 수 있고, 전자 기기가 당해 청취 상태에 있을 경우, 사용자는 웨이크업 워드를 음성으로 입력할 필요 없이 음성 명령을 실시간으로 입력하여 전자 기기와 인터랙션할 수 있다.

해석하고자 하는 바는, 게임 장면에서, 전자 기기가 청취 상태에 있을 경우, 전자 기기의 오디오, 영상 등은 계속하여 재생되는바, 게임 과정은 중단되지 않는다.

본 출원의 실시예에서 전자 기기는 오디오 클립을 음성 인식하여 획득된 제1 제어 의도가 획득될 경우, 제1 제어 의도에 매칭되는 제어 명령을 실행한다. 이러한 경우는, 목표 장면에서 사용자한테 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션하는 수요가 있다는 것을 말해주는바, 이때, 제1 동작 상태를 제2 동작 상태로 전환할 수 있다.

전자 기기가 스마트 스피커이고 목표 장면이 게임 장면이고 제1 제어 의도가 에너지 보충인 경우를 예시로 하면, 사용자가 '샤오두 샤오두(小度小度), 나한테 에너지를 보충해줘'하고 음성으로 입력하면 스마트 스피커는 사용자에 의해 입력되는 오디오 클립을 수집하여 인식한 후, 웨이크업 워드 이후의 오디오 클립의 의도를 '에너지 보충'으로 결정할 수 있는바, 이때, 전자 기기의 동작 상태를 비 청취 상태에서 청취 상태로 전환되도록 제어할 수 있고 이와 동시에 사용자의 게임 캐릭터에 대해 에너지를 보충하고 에너지 보충이 종료된 후, 스마트 스피커에 의해 제시 정보를 음성으로 재생하거나 또는 인터페이스에 표시할 수 있는데, 예를 들면 '에너지 보충 종료'라는 제시 정보일 수 있다.

단계104: 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식한다.

본 출원의 실시예에서 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기는 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써 음성 인식할 수 있다. 이로써, 사용자가 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션고자 하는 의도가 있는 경우, 웨이크업 워드를 연속적으로 입력할 필요 없이 전자 기기가 동작 상태에 있는 경우에만 오디오 스트림을 지속적으로 입력하여 오디오 스트림을 음성 인식하면 되므로, 사용자의 조작을 간략화하고 사용자의 사용 경험을 개선할 수 있다.

여전히 상술한 예를 예시로 하면, 스마트 스피커가 청취 상태에 있는 경우에 사용자는 웨이크업 워드를 입력할 필요 없이 스마트 스피커와 연속적으로 대화함으로써 전자 기기로 하여금 사용자에 의해 입력되는 오디오 스트림을 연속적으로 수집하여 오디오 스트림을 예를 들어 '장비 교체', '장비 구매' 등에 관하여 음성 인식하도록 할 수 있다.

단계105: 음성 인식에 의해 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다.

본 출원의 실시예에서 제2 제어 의도는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고 당해 방법의 유연성과 적용성을 향상시키기 위해 사용자가 설정할 수도 있는바, 이에 대해 한정하지 않는다. 상술한 제1 제어 의도와 구분하기 위해, 제2 동작 상태에서 오디오 스트림에 대한 음성 인식을 통해 획득되고 목표 장면에 부합되는 제어 의도를 제2 제어 의도로 명명한다.

본 출원의 실시예에서 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기는 사용자에 의해 입력되는 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식한다. 한 가능한 경우로, 오디오 스트림에 대한 음성 인식을 통해 획득되는 제어 의도가 목표 장면에 부합되는 제2 제어 의도인 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다.

목표 장면이 게임 장면인 경우를 예로 들면, 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기가 사용자에 의해 입력되는 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하여 획득되는 제2 제어 의도가 '장비 구매'이다. '장비 구매'라는 제어 의도가 게임 장면에 부합되므로 전자 기기는 '장비 구매'에 매칭되는 제어 명령을 실행한다.

다른 가능한 경우로, 전자 기기가 오디오 스트림을 음성 인식하여 획득된 제어 의도가 목표 장면에 부합되지 않는 제2 제어 의도인 경우, 전자 기기는 어떠한 조작도 수행하지 않는다.

목표 장면이 게임 장면인 경우를 예로 들면, 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기는 사용자에 의해 입력되는 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하여 획득된 제2 제어 의도가 '오늘 날씨는 어때'이다. 오디오 스트림을 음성 인식하여 획득된 제2 제어 의도가 게임 장면에 부합되지 않으므로 이러한 경우, 전자 기기는 아무런 응답도 하지 않는다. 따라서, 사용자가 게임할 때의 몰입 경험이 향상되고 게임 과정에서 기타 스킬에 의해 방해받는 것이 모면된다.

설명하고자 하는 바는, 용어 '제1', '제2'는 단지 설명의 목적을 위한 것일 뿐, 이를 상대적 중요성을 가리키거나 암시하는 것으로, 또는 가리키는 기술 특징의 수량을 묵시적으로 가리키는 것으로 이해하여서는 안된다. 따라서, '제1', '제2'에 의해 한정되는 특징은 적어도 하나의 당해 특징을 명시적으로 또는 묵시적으로 포함할 수 있다.

본 출원의 실시예의 음성 제어 방법에 따르면, 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하고, 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하고, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환하며; 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하며; 음성 인식을 통해 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다. 이로써, 사용자가 전자 기기와 연속적으로 인터랙션하는 경우, 사용자에 의해 연속적으로 입력되는 오디오 스트림을 음성 인식하여, 목표 장면에 부합되는 제2 제어 의도가 음성 인식을 통해 획득되는 경우에만 상응한 제어 명령을 실행함으로써, 웨이크업 워드를 연속적으로 입력할 필요가 없을 뿐만아니라 사용자의 조작을 간략화하고 장면의 전환에 따라 사용자의 사용 경험이 저하되는 기술적 문제도 방지할 수 있다.

상술한 실시예에 기초하는 다른 가능한 경우로, 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기가 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하여 정보 스트림을 획득하며 정보 스트림으로부터 각 후보 의도를 획득함으로써, 각 후보 의도에 목표 장면의 제어 의도에 매칭되는 제2 제어 의도가 포함되는지 여부를 결정하는바, 제2 제어 의도가 포함되지 않은 경우, 제2 동작 상태를 퇴출하고 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절할 수 있다. 아래, 실시예2를 결부하여 당해 과정을 상세히 설명하고자 한다.

도2는 본 출원의 실시예2에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.

도2에 도시한 바와 같이, 도1에 도시한 실시예에 기초하여 당해 음성 제어 방법은 다음의 단계를 더 포함할 수 있다.

단계201: 정보 스트림을 획득하는바, 여기서 정보 스트림은 오디오 스트림을 음성 인식함으로써 획득된다.

본 출원의 실시예에서 사용자에 의해 오디오 데이터가 입력된 후, 전자 기기는 오디오 스트림을 수집하고 당해 오디오 스트림을 음성 인식하여 대응되는 정보 스크림을 결정할 수 있다.

단계202: 정보 스트림으로부터 각 후보 의도를 획득한다.

본 출원의 실시예에서 정보 스트림이 획득된 후, 당해 정보 스트림에 대해 의미 인식을 수행하여 정보 스트림에 대응되는 제어 의도를 결정할 수 있고 정보 스트림에 대응되는 제어 의도로부터 각 후보 의도를 선별할 수 있다.

단계203: 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별한다.

본 출원의 실시예에서, 정보 스트림으로부터 각 후보 의도가 획득된 후, 각 후보 의도를 선별하여 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별한다.

예를 들어 목표 장면이 게임 장면인 경우, 전자 기기에 의해 정보 스트림으로부터 획득된 각 후보 의도가 '노래 재생', '장비 구매'를 포함한다면, 후보 의도를 선별함으로써 '장비 구매'를 게임 장면의 제어 의도에 매칭되는 제2 제어 의도로 획득한다.

본 출원의 실시예에서, 정보 스트림으로부터 각 후보 의도가 획득된 후, 각 후보 의도를 선별하여 목표 장면의 제어 의도에 매칭되지 않는 후보 의도가 선별되는 경우, 전자 기기는 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절한다. 따라서 목표 장면에서의 사용자의 몰입 경험이 확보된다.

여전히 상술한 예시를 예로 들면, 목표 장면이 게임 장면인 경우, 전자 기기에 의해 정보 스트림으로부터 획득된 각 후보 의도가 '노래 재생', '장비 구매'를 포함한다면, 후보 의도를 선별함으로써 '노래 재생'을 게임 장면의 제어 의도에 매칭되지 않는 후보 의도로 획득한다. 이러한 경우, 전자 기기에 의해 '노래 재생'의 후보 의도에 응답하는 것이 거절됨으로써 사용자가 게임하는 과정이 중단되고 사용자의 게임 몰입 경험이 영향받는 것이 모면된다.

단계204: 설정된 기간 내에 제2 제어 의도가 획득되지 않은 경우, 제2 동작 상태를 퇴출하는바, 여기서, 설정된 기간의 값의 범위는 20초 내지 40초이다.

본 출원의 실시예에서 설정된 기간은 미리 설정되는 것으로, 예를 들어 전자 기기의 내장 프로그램에 의해 미리 설정되거나 사용자에 의해 설정될 수 있는바, 이에 대해 한정하지 않는다. 예를 들어 설정된 기간의 값의 범위는 20초 내지 40초이다.

본 출원의 실시예에서 설정된 기간 내에 목표 장면의 제어 의도에 매칭되는 제2 제어 의도가 선별되지 않은 경우, 이는 목표 장면에 있어서 사용자는 전자 기기에 대해 연속적으로 제어하려는 의도를 가지지 않는다는 것을 말해주며, 따라서, 제2 동작 상태를 퇴출할 수 있다.

예를 들면, 설정된 기간이 30초이고 전자 기기가 청취 상태에 진입한 경우, 사용자가 설정된 기간 내에 음성 데이터를 입력하지 않았거나 또는 전자 기기에 의해 획득된 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도가 선별되지 않은 경우, 청취 상태를 퇴출할 수 있다.

본 출원의 실시예의 음성 제어 방법에 따르면, 정보 스트림을 획득하고, 정보 스트림으로부터 각 후보 의도를 획득하며, 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하고, 설정된 기간 내에 제2 제어 의도가 획득되지 않으면 제2 동작 상태를 퇴출한다. 이로써, 설정된 기간 내에 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도가 선별되지 않은 경우, 전자 기기를 제어하여 제2 동작 상태를 퇴출시키는바, 전자 기기가 지속적으로 청취 상태 또는 동작 상태에 있는 것을 방지하여 전자 기기의 에너지 소모를 절감시킬 수 있다.

본 출원의 실시예에서 목표 장면에서 오디오 클립을 음성 인식하여 획득된 제1 제어 의도가 획득된 후, 우선 제1 제어 의도가 목표 장면에 매칭된다는 것을 결정한 후, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환한 후, 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시한다. 아래, 실시예3을 결부하여 당해 과정을 상세히 설명하고자 한다.

도3은 본 출원의 실시예3에 의해 제공되는 음성 제어 방법의 개략적인 흐름도이다.

도3에 도시한 바와 같이, 당해 음성 제어 방법은 다음의 단계를 포함할 수 있다.

단계301: 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집한다.

단계302: 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득한다.

본 출원의 실시예에서 단계301과 단계302의 수행 과정은 상술한 실시예1의 단계101과 단계102를 참조하면 되므로, 이에 대한 상세한 설명은 생략하기로 한다.

단계303: 제1 제어 의도가 목표 장면에 매칭된다는 것을 결정한다.

본 출원의 실시예에 있어서, 목표 장면에서 전자 기기가 제1 동작 상태에 있는 경우, 사용자의 음성에 의해 입력된 웨이크업 워드에 따라 오디오 클립을 수집한다. 나아가, 전자 기기는 오디오 클립을 음성 인식하여 획득된 제1 제어 의도가 획득된 후, 제1 제어 의도가 목표 장면에 매칭되는지 여부를 판단하여 제1 제어 의도가 목표 장면에 매칭되는 경우, 단계304를 수행하고; 제1 제어 의도가 목표 장면에 매칭되지 않는 경우, 당해 제1 제어 의도에 응답하는 것을 거절하고 계속하여 제1 동작 상태를 실행한다.

예를 들면, 목표 장면이 게임 장면인 경우, 전자 기기는 비 청취 상태에서 사용자에 의해 웨이크업 워드가 음성으로 입력된 후, 오디오 클립을 수집하고 오디오 클립에 대해 음성 인식하여 '장비 구매'를 제1 제어 의도로 획득하는바, '장비 구매'라는 제어 의도가 게임 장면에 매칭되므로 전자 기기는 계속하여 '장비 구매'에 매칭되는 제어 명령을 실행한다.

단계304: 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환한다.

본 출원의 실시예에서 단계304의 수행 과정은 상술한 실시예1의 단계103을 참조하면 되므로 이에 대한 상세한 설명은 생략하기로 한다.

단계305: 제2 동작 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시한다.

본 출원의 실시예의 한 가능한 구현 방식에 있어서, 전자 기기가 제2 동작 상태에 있는 경우, 전자 기기의 표시 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시할 수 있다. 여기서, 제1 요소는 전자 기기가 제1 동작 상태에 있다는 것을 제시하기 위한 것이고, 제2 요소는 전자 기기가 제2 동작 상태에 있다는 것을 제시하기 위한 것이며, 제3 요소는 웨이크업 워드를 제시하거나 및/또는 오디오 또는 영상을 재생하기 위한 것이다.

한 응용 장면로서, 목표 장면이 게임 장면인 경우를 예시로 하면, 전자 기기가 제2 동작 상태에 있는 경우, 즉 전자 기기가 청취 상태에 있는 경우, 사용자가 전자 기기의 현재의 상태 정보를 인지하는 편의를 위해, 전자 기기 인터페이스 내의 제1 요소를 제2 요소로 교체할 수 있다. 전자 기기는 설정된 기간 내에 제2 제어 의도가 획득되지 않은 경우, 제2 동작 상태를 퇴출하게 되므로, 이러한 경우, 사용자에 의해 웨이크업 워드가 다시 입력되어야 하며, 따라서, 제3 요소를 표시함으로써 웨이크업 워드를 제시하는 것이 필요하다.

단계306: 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식한다.

단계307: 음성 인식에 의해 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다.

본 출원의 실시예에서 단계306과 단계307의 수행 과정은 상술한 실시예1의 단계104와 단계105를 참조하면 되므로 이에 대한 상세한 설명은 생략하기로 한다.

본 출원의 실시예에서 전자 기기가 제2 동작 상태에 있는 경우, 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시하는바, 사용자한테 전자 기기의 현재의 동작 상태가 더 명확해지도록 할 수 있으므로 사용자의 사용 경험이 개선된다.

상술한 실시예를 구현하기 위해, 본 출원은 음성 제어 장치를 더 제공한다.

도4는 본 출원의 실시예4에 의해 제공되는 음성 인식 장치의 개략적인 구조도이다.

도4에 도시한 바와 같이, 당해 음성 인식 장치400는 실행 모듈(410), 제1 획득 모듈(420), 전환 모듈(430), 인식 모듈(440) 및 제어 모듈(450)을 포함한다.

실행 모듈(410)은 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집한다.

제1 획득 모듈(420)은 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득한다.

전환 모듈(430)은 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환한다.

인식 모듈(440)은 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식한다.

제어 모듈(450)은 음성 인식에 의해 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다.

나아가, 본 출원의 실시예의 한 가능한 구현 방식에서, 당해 음성 제어 장치(400)는,

정보 스트림을 획득하는 제2 획득 모듈 - 여기서 정보 스트림은 오디오 스트림을 음성 인식함으로써 획득됨 - .

정보 스트림으로부터 각 후보 의도를 획득하는 제3 획득 모듈;

각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 선별 모듈; 및

설정된 기간 내에 제2 제어 의도가 획득되지 않은 경우, 제2 동작 상태를 퇴출하는 퇴출 모듈; 을 더 포함할 수 있고,

여기서, 설정된 기간의 값의 범위는 20초 내지 40초이다.

본 출원의 실시예의 다른 가능한 구현 방식에서, 당해 음성 제어 장치(400)는,

상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 응답 거절 모듈을 더 포함할 수 있다.

상기 제2 동작 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시하는 교체 모듈을 더 포함할 수 있는바,

상기 제1 요소는 제1 동작 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 동작 상태에 있다는 것을 제시하기 위한 것이며, 상기 제3 요소는 상기 웨이크업 워드를 제시하거나 및/또는 오디오 또는 영상을 재생하기 위한 것이다.

상기 제1 제어 의도가 상기 목표 장면에 매칭된다는 것을 결정하는 결정 모듈을 더 포함할 수 있다.

본 출원의 실시예의 다른 가능한 구현 방식에서, 상기 목표 장면은 게임 장면을 포함한다.

설명하고자 하는 바는, 상술한 음성 제어 방법의 실시예에 대한 해석과 설명은 당해 실시예의 음성 제어 장치에도 적용되는 것으로, 이에 대한 상세한 설명은 생략하기로 한다.

본 출원의 실시예의 음성 제어 장치에 따르면, 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하고, 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하고, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환하며; 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하며; 음성 인식을 통해 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다. 이로써, 사용자가 전자 기기와 연속적으로 인터랙션하는 경우, 사용자에 의해 연속적으로 입력되는 오디오 스트림을 음성 인식하여, 목표 장면에 부합되는 제2 제어 의도가 음성 인식을 통해 획득되는 경우에만 상응한 제어 명령을 실행함으로써, 웨이크업 워드를 연속적으로 입력할 필요가 없을 뿐만아니라 사용자의 조작을 간략화하고 장면의 전환에 따라 사용자의 사용 경험이 저하되는 기술적 문제도 방지할 수 있다.

상술한 실시예를 구현하기 위해, 본 출원은 전자 기기를 더 제공하는바, 이는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리; 를 포함하고, 메모리에는 적어도 하나의 프로세서가 실행 가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행됨으로써 적어도 하나의 프로세서가 본 출원의 상술한 실시예에 의해 제공되는 음성 제어 방법을 실행한다.

상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공하는바, 컴퓨터 명령은 컴퓨터가 본 출원의 상술한 실시예에 의해 제공되는 음성 제어 방법을 실행하도록 한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도5에 도시한 바와 같이, 이는 본 출원의 실시예의 음성 제어 방법에 따른 전자 기기의 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터, 예를 들어 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타의 적합한 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 다양한 형식의 이동 장치, 예를 들어 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 기타의 이와 유사한 컴퓨팅 기기를 가리킬 수도 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 것이 아니다.

도5에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(501), 메모리(502) 및 각 부품을 연결하는 인터페이스를 포함하는바, 고속 인터페이스와 저속 인터페이스가 포함된다. 각 부품은 부동한 버스를 이용하여 서로 연결되고 공용 메인기판에 장착되거나 또는 필요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리 내에 또는 메모리 위에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링되는 디스플레이 기기)에 GUI의 그래픽 정보를 표시하는 명령이 포함된다. 기타의 구현 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있는바, 각 기기는 일부 필요한 조작을 제공한다(예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서). 도5는 한 프로세서(501)를 예로 든다.

메모리(502)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서가 본 출원에 의해 제공되는 음성 제어 방법을 실행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터가 본 출원에 의해 제공되는 음성 제어 방법을 실행하도록 한다.

메모리(502)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예의 음성 제어 방법에 대응되는 프로그램 명령/모듈(예를 들면, 도4에 도시한 실행 모듈(410), 제1 획득 모듈(420), 전환 모듈(430), 인식 모듈(440) 및 제어 모듈(450))을 저장할 수 있다. 프로세서(501)는 메모리(502)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 수행하는바, 즉 상술한 방법 실시예의 음성 제어 방법을 구현한다.

메모리(502)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고 데이터 저장 영역은 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수도 있고 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타의 비일시적 고체 상태 저장 장치를 포함할 수도 있다. 일부 실시예에서, 메모리(502)는 선택적으로 프로세서(501) 대비 원격 설치되는 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결될 수 있다. 상술한 네트워크의 실례는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

전자 기기는 입력 장치(503)와 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 기타의 방식으로 연결될 수 있는바, 도5에서는 버스에 의한 연결을 예로 든다.

입력 장치(503)는 입력되는 숫자 또는 캐릭터 정보를 수신하고 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(504)는 디스플레이 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 구현 방식에서 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템과 기술의 다양한 구현 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 구현 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하며 고급 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능 매체'와 '컴퓨터 판독 가능 매체'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.

여기서 설명하는 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어를 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여 여기서 설명하는 시스템 및 기술의 구현 방식과 인터랙션할 수 있음) 또는 이러한 백그라운드 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로는 서로 멀리 떨어져 있고 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.

본 출원의 실시예의 기술안에 따르면, 목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하고, 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하고, 제1 제어 의도에 매칭되는 제어 명령을 실행하고 제1 동작 상태를 제2 동작 상태로 전환하며; 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 오디오 스트림을 음성 인식하며; 음성 인식을 통해 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 제2 제어 의도에 매칭되는 제어 명령을 실행한다. 이로써, 사용자가 전자 기기와 연속적으로 인터랙션하는 경우, 사용자에 의해 연속적으로 입력되는 오디오 스트림을 음성 인식하여, 목표 장면에 부합되는 제2 제어 의도가 음성 인식을 통해 획득되는 경우에만 상응한 제어 명령을 실행함으로써, 웨이크업 워드를 연속적으로 입력할 필요가 없을 뿐만아니라 사용자의 조작을 간략화하고 장면의 전환에 따라 사용자의 사용 경험이 저하되는 기술적 문제도 방지할 수 있다.

위에서 제시한 다양한 형식의 스트림을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병행으로 수행될 수도 있고 순차로 수행될 수도 있고 부동한 순서로 수행될 수도 있는바, 본 출원에서 개시하는 기술안에 대한 기대 효과를 구현할 수만 있으면 되며, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 구현 방식은 본 출원의 보호 범위를 한정하지 않는다. 설계 요구와 기타 요소에 따른 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 점은 당업자에 있어서 자명할 것이다. 본 출원의 사상과 원칙 이내에 있는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims

음성 제어 방법에 있어서,
목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하는 단계;
상기 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하는 단계;
상기 제1 제어 의도에 매칭되는 제어 명령을 실행하고, 상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계;
상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고, 상기 오디오 스트림을 음성 인식하는 단계; 및
음성 인식을 통해 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 상기 제2 제어 의도에 매칭되는 제어 명령을 실행하는 단계; 를 포함하는,
것을 특징으로 하는 음성 제어 방법.
제1항에 있어서,
상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고, 상기 오디오 스트림을 음성 인식하는 단계 이후,
정보 스트림을 획득하는 단계 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식함으로써 획득됨 - ;
상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계;
각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 단계; 및
설정된 기간 내에 상기 제2 제어 의도가 획득되지 않은 경우, 상기 제2 동작 상태를 퇴출하는 단계; 를 더 포함하고,
상기 설정된 기간의 값의 범위는 20초 내지 40초인,
것을 특징으로 하는 음성 제어 방법.
제2항에 있어서,
상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계 이후,
상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 단계를 더 포함하는,
것을 특징으로 하는 음성 제어 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계 이후,
상기 제2 동작 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시하는 단계를 더 포함하고,
상기 제1 요소는 상기 제1 동작 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 동작 상태에 있다는 것을 제시하기 위한 것이며, 상기 제3 요소는 상기 웨이크업 워드의 제시 또는 오디오 또는 영상의 재생 중 적어도 하나를 위한 것인,
것을 특징으로 하는 음성 제어 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 동작 상태를 제2 동작 상태로 전환하는 단계 이전에,
상기 제1 제어 의도가 상기 목표 장면에 매칭된다는 것을 결정하는 단계를 더 포함하는,
것을 특징으로 하는 음성 제어 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 목표 장면은 게임 장면을 포함하는,
것을 특징으로 하는 음성 제어 방법.
음성 제어 장치에 있어서,
목표 장면에서 제1 동작 상태를 실행함으로써 웨이크업 워드에 따라 오디오 클립을 수집하는 실행 모듈;
상기 오디오 클립을 음성 인식하여 획득된 제1 제어 의도를 획득하는 제1 획득 모듈;
상기 제1 제어 의도에 매칭되는 제어 명령을 실행하고, 상기 제1 동작 상태를 제2 동작 상태로 전환하는 전환 모듈;
상기 제2 동작 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득하고 상기 오디오 스트림을 음성 인식하는 인식 모듈; 및
음성 인식을 통해 상기 목표 장면에 부합되는 제2 제어 의도가 획득될 경우, 상기 제2 제어 의도에 매칭되는 제어 명령을 실행하는 제어 모듈; 을 포함하는,
것을 특징으로 하는 음성 제어 장치.
제7항에 있어서,
정보 스트림을 획득하는 제2 획득 모듈 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식함으로써 획득됨 - ;
상기 정보 스트림으로부터 각 후보 의도를 획득하는 제3 획득 모듈;
각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 선별 모듈; 및
설정된 기간 내에 상기 제2 제어 의도가 획득되지 않은 경우, 상기 제2 동작 상태를 퇴출하는 퇴출 모듈; 을 더 포함하고,
상기 설정된 기간의 값의 범위는 20초 내지 40초인,
것을 특징으로 하는 음성 제어 장치.
제8항에 있어서,
상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 응답 거절 모듈을 더 포함하는,
것을 특징으로 하는 음성 제어 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 제2 동작 상태에서 인터페이스 내의 제1 요소를 제2 요소로 교체하고 제3 요소를 표시하는 교체 모듈을 더 포함하고,
상기 제1 요소는 상기 제1 동작 상태에 있다는 것을 제시하기 위한 것이고, 상기 제2 요소는 상기 제2 동작 상태에 있다는 것을 제시하기 위한 것이며, 상기 제3 요소는 상기 웨이크업 워드의 제시 또는 오디오 또는 영상의 재생 중 적어도 하나를 위한 것인,
것을 특징으로 하는 음성 제어 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 제1 제어 의도가 상기 목표 장면에 매칭된다는 것을 결정하는 결정 모듈을 더 포함하는,
것을 특징으로 하는 음성 제어 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 목표 장면은 게임 장면을 포함하는,
것을 특징으로 하는 음성 제어 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서가 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서가 제1항 내지 제3항 중 어느 한 항의 음성 제어 방법을 실행하는,
것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은, 상기 컴퓨터가 제1항 내지 제3항 중 어느 한 항의 음성 제어 방법을 실행하도록 하는,
것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.