KR20210038811A

KR20210038811A - 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체

Info

Publication number: KR20210038811A
Application number: KR1020190175877A
Authority: KR
Inventors: 용씨 루오; 샤샤 왕
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2019-09-29
Filing date: 2019-12-27
Publication date: 2021-04-08
Also published as: US20210097993A1; CN112669831B; JP7051799B2; CN112669831A; JP2021056483A; EP3799040A1; KR102331254B1

Abstract

본 출원은 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 개시하는바, 이는 인공 지능과 음성 인식 분야에 관한 것이다. 구체적인 구현 방안은, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식하는 것이다. 당해 방안에서, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써, 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 제1 작동 상태에 진입하도록 기기를 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

Description

음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체{SPEECH RECOGNITION CONTROL METHOD, APPARATUS, ELECTRONIC DEVICE AND READABLE STORAGE MEDIUM}

본 출원은 음성 인식과 인공 지능 기술 분야에 관한 것으로, 특히, 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 관한 것이다.

인공 지능 기술과 단말 기술이 부단히 발전됨에 따라, 인공 지능 제품, 예를 들어 스마트 스피커 등의 전자 기기가 부단히 보급되고 있고, 사용자는 전자 기기를 음성 제어함으로써 상응하는 제어 명령을 실행시킬 수 있다. 현재, 사용자와 전자 기기 사이에 연속적인 음성 인터랙션이 필요될 경우, 즉, 사용자한테 연속적으로 대화를 개시하는 수요가 있을 경우, 전자 기기를 음성 제어하여 설정한 작동 모드에 진입하도록 함으로써, 전이중 연속 대화 기능을 경험할 수 있다.

그러나 일부 장면에서는 사용자한테 연속적으로 대화를 개시하는 수요가 없을 수도 있는바, 예를 들어 사용자가 기타의 사용자와 대화할 때 무의식중에 상응한 제어 명령을 트리거링하였다면, 이때 전자 기기가 설정된 작동 모드에 진입하는 것은 사용자를 방해할 수 있으므로, 사용자의 사용 경험을 심히 저하시킨다.

본 출원은 관련 기술의 기술 문제 중 하나를 적어도 어느 정도 해결하고자 한다.

본 출원은 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 제공하는 것으로, 사용자가 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정하는 것을 구현함으로써, 부동한 사용자의 개인화 수요를 충족시키고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 제1 작동 상태에 진입하도록 기기를 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

본 출원의 제1 측면의 실시예는 음성 인식 제어 방법을 제공하는바,

목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 단계;

상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 단계 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고, 상기 오디오 클립을 음성 인식함 - ; 및

상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 단계; 를 포함한다.

본 출원의 제2 측면의 실시예는 음성 인식 제어 장치를 제공하는바,

목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 조회 모듈;

상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 전환 모듈 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및

상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 인식 모듈; 을 포함한다.

본 출원의 제3 측면의 실시예는 다른 음성 인식 제어 방법을 제공하는바,

목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 단계;

상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 단계 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및

상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 단계; 를 포함한다. .

본 출원의 제4 측면의 실시예는 다른 음성 인식 제어 장치를 제공하는바,

목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 조회 모듈;

본 출원의 제5측면의 실시예는 전자 기기를 제공하는바,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서에 의해 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되거나, 본 출원의 제3 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행된다.

본 출원의 제6 측면의 실시예는 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 상기 컴퓨터 명령은 상기 컴퓨터에 의해 본 출원의 제1 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되거나, 본 출원의 제3 측면의 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.

상술한 출원의 일 실시예는 다음과 같은 이점 또는 유익한 효과를 가진다.

목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써, 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

상술한 선택적인 방식이 가지는 기타의 효과는 아래 구체적인 실시예를 결부하여 설명하고자 한다.

첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않으며 본 출원에 있어서 상술한 및/또는 부가적인 측면과 이점은 아래 첨부 도면을 결부한 실시예에 대한 설명에서 더 분명해지고 이해하기 수월해질 것이다.
도1은 본 출원의 실시예1에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도2는 본 출원의 실시예에 구성되는 인터페이스의 개략도이다.
도3은 본 출원의 실시예2에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도4는 본 출원의 실시예3에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도5는 본 출원의 실시예4에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.
도6은 본 출원의 실시예5에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도7은 본 출원의 실시예6에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도8은 본 출원의 실시예7에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.
도9는 본 출원의 실시예8에 의해 제공되는 전자 기기의 개략적인 구조도이다.

아래, 첨부 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명하고자 하는바, 여기에는 이해를 돕기 위해 본 출원의 실시예의 다양한 디테일이 포함되는데, 이러한 것을 단지 시범적인 것으로 간주하여야 한다. 따라서 당업자라면 여기서 설명하는 실시예에 대한 다양한 변경과 수정은 실행 가능한 것으로, 이는 본 출원의 범위와 사상을 벗어나지 않는 것임을 알 수 가 있다. 마찬가지로, 명백하고 간단명료하게 하고자 아래의 설명에서는 공지된 기능과 구조에 대한 설명을 생략하기로 한다.

아래, 첨부 도면을 참조하여, 본 출원의 실시예의 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체에 대해 설명하고자 한다.

도1은 본 출원의 실시예1에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.

본 출원의 실시예에서는 당해 음성 인식 제어 방법이 음성 인식 제어 장치에 구성되는 경우를 예로 들어 설명하는바, 당해 음성 인식 제어 장치는 임의의 전자 기기에 응용되어, 당해 전자 기기가 음성 인식 제어 기능을 실행 가능하도록 할 수 있다.

여기서, 전자 기기는 개인용 컴퓨터(Personal Computer, PC로 약칭됨), 클라우드 기기, 이동 기기, 스마트 스피커 등일 수 있고 이동 기기는 예를 들어 휴대전화, 태블릿 컴퓨터, 개인용 디지털 보조기, 웨어러블 기기, 차량용 기기 등의 다양한 운영 체제, 터치 스크린 및/또는 표시 스크린를 구비하는 하드웨어 기기일 수 있다.

도1에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기 단계를 포함할 수 있다.

단계101, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정한다.

본 출원의 실시예에서 목표 장면은, 사용자가 현재 호출된 응용 프로그램 인터페이스(Application Programmers Interface, API로 약칭됨)에 관련되는 장면이고, 예를 들면 목표 장면은 날씨 장면, 음악 장면, 비디오 장면 등의 장면일 수 있다.

본 출원의 실시예에서 제1 작동 상태는 청취 상태일 수 있고, 전자 기기가 당해 청취 상태에 있을 경우, 사용자는 웨이크업 워드를 음성으로 입력할 필요 없이 음성 명령을 실시간으로 입력하여 전자 기기와 인터랙션할 수 있다. 제1 작동 상태의 구성 정보는 사용자가 자체 수요에 따라 설정한 것으로, 당해 구성 정보에는 제1 작동 상태가 적용되는 장면 리스트가 포함되고, 당해 장면 리스트는 사용자의 선택 동작에 응답하여 부동한 장면으로부터 선택되어 생성되는 것으로, 예를 들어 당해 장면 리스트는 사용자의 선택 동작에 응답하여 음악 장면, 오디오북 장면, 비디오 장면, 날씨 장면, 쇼핑 장면 등의 장면으로부터 선택되어 생성되는 것일 수 있다.

본 출원의 실시예에서 어느 한 응용 프로그램 인터페이스를 호출하는 경우, 음성 인식 제어 장치는 당해 응용 프로그램 인터페이스에 대응되는 목표 장면을 결정할 수 있다. 선택적으로, 사용자가 어느 한 응용 프로그램을 열고 당해 응용 프로그램의 어느 한 응용 프로그램 인터페이스를 호출하는 경우, 음성 인식 제어 장치는 당해 응용 프로그램 인터페이스에 대응되는 목표 장면을 결정할 수 있는바, 예를 들어 사용자에 의해 호출된 것이 날씨 응용 프로그램이라면 호출된 응용 프로그램 인터페이스에 대응되는 목표 장면은 날씨 장면이고, 또는, 사용자가 인스턴트 메시징 응용 프로그램의 어느 한 응용 프로그램 인터페이스를 호출하여 날씨를 조회하는 경우, 호출된 응용 프로그램 인터페이스에 대응되는 목표 장면은 날씨 장면이다. 또 예를 들어, 호출된 것이 음악 응용 프로그램인 경우, 호출된 응용 프로그램 인터페이스에 대응되는 목표 장면은 음악 장면이고, 또는, 사용자가 인스턴트 메시징 응용 프로그램의 어느 한 응용 프로그램 인터페이스를 호출하여 음악을 재생하는 경우, 호출된 응용 프로그램 인터페이스에 대응되는 목표 장면은 음악 장면인 것으로, 이에 대해 일일이 나열하지 않기로 한다.

본 출원의 실시예에서 음성 인식 제어 장치가 모니터링 방식으로 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것을 탐지할 경우, 제1 작동 상태의 구성 정보를 조회하여 당해 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정할 수 있다. 구체적으로, 구성 정보에 제1 작동 상태의 장면 리스트에 당해 목표 장면이 포함된다고 나타나는 경우, 당해 목표 장면이 제1 작동 상태에 적용된다고 결정할 수 있고, 구성 정보에 제1 작동 상태의 장면 리스트에 당해 목표 장면이 포함되지 않는다고 나타나는 경우, 당해 목표 장면이 제1 작동 상태에 적용되지 않는다고 결정한다.

한 예시로, 도2를 참조하면, 도2는 본 출원의 실시예에 구성되는 인터페이스의 개략도이다. 사용자는 자체 수요에 따라 음악 장면, 오디오북 장면 및 비디오 장면으로부터 대응되는 장면을 선택하여 제1 작동 상태의 장면 리스트를 생성할 수 있는바, 사용자가 선택한 것이 음악 장면 및 비디오 장면이라면 제1 작동 상태의 장면 리스트에는 음악 장면 및 비디오 장면이 포함되고, 목표 장면이 음악 장면이라면 제1 작동 상태의 구성 정보를 조회하는바, 목표 장면이 제1 작동 상태에 적용된다고 결정할 수 있다.

부연하자면, 도2는 장면 리스트가 음악 장면, 오디오북 장면 및 비디오 장면으로부터 선택되어 생성되는 경우만을 예시로 하는바, 즉 도2는 장면 리스트가 음악 장면, 오디오북 장면 및 비디오 장면 중의 적어도 하나를 포함하는 경우만을 예시로 하며, 실제 응용에서는 장면 리스트에 기타의 장면, 예를 들어 날씨 장면, 쇼핑 장면 등의 장면이 포함될 수도 있는 것으로, 본 출원은 이에 대해 한정하지 않는다.

단계102, 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - .

본 출원의 실시예에서 제2 작동 상태는 비 청취 상태일 수 있는바, 전자 기기가 당해 비 청취 상태에 있을 때, 사용자는 웨이크업 워드를 음성으로 입력함으로써, 당해 전자 기기를 웨이크업하여 후속의 음성 인식을 할 수 있다. 여기서, 웨이크업 워드는 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고, 사용자의 개인화 수요를 충족시키기 위해 사용자가 자체 수요에 따라 설정할 수도 있는바, 본 출원은 이에 대해 한정하지 않는다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 웨이크업 워드는 '샤오두 샤오두(小度小度)'일 수 있다.

본 출원의 실시예에서 전자 기기가 제2 작동 상태에 있을 경우, 음성 인식 제어 장치는 사용자가 웨이크업 워드를 입력하였는지 여부를 검출할 수 있는바, "예"의 경우, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립을 수집하여 음성 인식할 수 있다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 당해 스마트 스피커가 당해 제2 작동 상태에 있고 사용자가 노래를 재생하려면 사용자는 '샤오두 샤오두(小度小度), 노래A를 재생' 또는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 음성으로 입력할 수 있고, 그러면 전자 기기는 웨이크업 워드 이후의 오디오 클립인 '노래A를 재생' 또는 '나 노래 듣고 싶어'를 인식할 수 있고 나아가 대응되는 노래를 재생할 수 있다.

본 출원의 실시예에서 음성 인식 제어 장치에 의해 목표 장면이 제1 작동 상태에 적용된다고 결정될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환할 수 있고, 음성 인식 제어 장치에 의해 목표 장면이 제1 작동 상태에 적용되지 않는다고 결정될 경우, 제2 작동 상태의 실행을 유지할 수 있다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 호출된 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

부연하자면, 용어 '제1', '제2'는 단지 설명의 목적을 위한 것일 뿐, 이를 상대적 중요성을 가리키거나 암시하는 것으로, 또는 가리키는 기술 특징의 수량을 묵시적으로 가리키는 것으로 이해하여서는 안된다. 따라서, '제1', '제2'에 의해 한정되는 특징은 적어도 하나의 당해 특징을 명시적으로 또는 묵시적으로 포함할 수 있다.

단계103, 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다.

본 출원의 실시예에서 전자 기기가 제1 작동 상태에 있을 경우, 전자 기기가 오디오를 연속적으로 수집하여 오디오 스트림을 획득하여 음성 인식한다. 이에 따르면, 당해 제1 작동 상태에서 사용자는 웨이크업 워드를 입력할 필요 없이 전자 기기와 실시간으로 인터랙션하거나 또는 연속적으로 인터랙션할 수 있으므로, 사용자 동작이 간략화될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

종래 기술에서는, 사용자한테 연속적으로 대화를 개시하는 수요가 없는 경우에 착오적인 트리거링으로 인해 상응한 제어 명령이 발생되어, 전자 기기가 설정된 작동 모드에 진입되도록 제어될 수가 있는바, 이러한 방식에 따르면 사용자가 방해받을 수 있고, 사용자의 사용 경험이 심히 저하된다.

예를 들어 전자 기기를 설정 작동 모드에 진입하도록 제어하는 조건이 사용자에 의해 입력되는 음성 데이터의 의도가 설정 제어 의도에 매칭되는 것인 경우, 설정 제어 의도가 오디오/비디오를 재생하는 것인 경우를 예시로 하면, 사용자A가 사용자B와 대화할 때, 사용자A가 '이 스마트 스피커를 어떻게 웨이크업하는지를 너는 알어？'라고 하고, 사용자B는 '당연히 알지, 샤오두 샤오두(小度小度)잖아, 그러고나면 음악 듣고 영화 볼 수 있는거야！'라고 하며, 이때 스마트 스피커는 사용자B의 음성 데이터를 인식하여 사용자에 의해 웨이크업 워드 '샤오두 샤오두(小度小度)'가 입력된 것을 탐지하고, 당해 사용자B에 의해 입력된 음성 데이터의 의도가 '음악 듣기, 영화 보기'임을 인식하는데, 이는 분명히 설정 제어 의도에 매칭되는 것이므로, 이때 스마트 스피커는 음악 또는 영화를 재생한다. 분명한 것은, 이러한 경우, 사용자는 음악 및 영화의 재생을 원하는 것이 아니므로, 이는 사용자를 심히 방해하게 된다.

그러나, 본 출원의 실시예의 음성 인식 제어 방법에 따르면, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

한 가능한 구현 방식에 있어서, 목표 장면이 제1 작동 상태에 적용될 경우에, 또한, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립의 의도가 목표 장면에 매칭되는지를 판단하여야 하는바, "예"의 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다, "아니오"의 경우, 제2 작동 상태의 실행을 유지한다. 이에 따르면, 사용자의 입력이 목표 장면에 매칭되는 제어 의도를 가지는 경우에만 전자 기기의 작동 상태를 전환시키므로, 사용자에 대한 방해가 회피된다. 아래, 실시예2를 결부하여 상술한 과정을 상세히 설명하고자 한다.

도3은 본 출원의 실시예2에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.

도3에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기 단계를 포함할 수 있다.

단계201, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회한다.

단계202, 구성 정보에 따라 목표 장면이 제1 작동 상태에 적용되는지 여부를 판단하고, "예"의 경우, 단계203을 실행하고, "아니오"의 경우, 단계207을 실행한다.

단계201 내지 202의 실행 과정은 상술한 실시예의 단계101의 실행 과정을 참조할 수 있으므로, 이에 대한 상세한 설명은 생략하기로 한다.

단계203, 제2 작동 상태에서 오디오 클립을 음성 인식하여 제1 제어 의도를 획득한다.

여기서, 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식한다.

본 출원의 실시예에서 제2 작동 상태에서 음성 인식 제어 장치는 사용자가 웨이크업 워드를 입력하였는지 여부를 검출할 수 있는바, "예"의 경우, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립을 수집하여 당해 음성 클립을 음성 인식하고, 당해 음성 클립에 대응되는 제1 제어 의도를 획득할 수 있다. 예를 들어, 음성 인식 기술을 기반으로, 당해 오디오 클립을 인식하고, 당해 오디오 클립에 대응되는 텍스트 정보를 결정한 후, 당해 텍스트 정보에 대해 의미 인식을 실행하여 대응되는 제1 제어 의도를 결정할 수 있다. 예를 들면, 오디오 클립이 '나 노래 듣고 싶어'인 경우, 당해 오디오 클립의 의도는 '노래 듣기' 또는 '오디오 재생'이다.

단계204, 제1 제어 의도가 목표 장면에 매칭되는지 여부를 판단하고, "예"의 경우, 단계205 내지 206을 실행하고, "아니오"의 경우, 단계207을 실행한다.

본 출원의 실시예에서 제1 제어 의도와 목표 장면의 제어 의도에 대해 의미 매칭함으로써, 제1 제어 의도가 목표 장면에 매칭되는지 여부를 결정할 수 있다.

단계205, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다.

본 출원의 실시예에서 목표 장면이 제1 작동 상태에 적용되고, 또한 사용자에 의해 입력되는 오디오 클립의 의도가 목표 장면에 매칭될 경우에만, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다. 이에 따르면, 사용자에 의해 입력되는 오디오 클립의 의도가 목표 장면에 매칭될 경우에만 전자 기기의 작동 상태를 전환시키므로, 나아가 더 사용자에 대한 방해가 회피될 수 있다.

한 예시로, 전자 기기가 스마트 스피커이고, 목표 장면이 비디오 장면인 경우를 예시로 하면, 사용자가 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'하고 음성으로 입력하면, 스마트 스피커는 사용자에 의해 입력되는 오디오 클립을 수집하고, 이에 대해 인식한 후, 오디오 클립 '나 노래 듣고 싶어'에 대응되는 제1 제어 의도는 '오디오 재생'인데, 목표 장면에 대응되는 제어 의도는 '비디오 재생'이라는 것을 결정할 수 있고, 이때, 당해 제1 제어 의도가 목표 장면에 매칭되지 않는다고 결정할 수 있고, 따라서, 제2 작동 상태의 실행을 유지하도록 스마트 스피커를 제어할 수 있다. 사용자가 '샤오두 샤오두(小度小度), 영화A를 재생해'하고 음성으로 입력하면, 스마트 스피커는 사용자에 의해 입력되는 오디오 클립을 수집하고, 이에 대해 인식한 후, 오디오 클립 '영화A를 재생해'에 대응되는 제1 제어 의도는 '비디오 재생'인데 목표 장면에 대응되는 제어 의도도 '비디오 재생'이라는 것을 결정할 수 있고, 이때, 당해 제1 제어 의도가 목표 장면에 매칭된다고 결정할 수 있고, 따라서, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하도록 스마트 스피커를 제어할 수 있는바, 이에 따르면, 당해 제1 작동 상태에서 사용자는 스마트 스피커와 연속적인 대화, 예를 들어 '무협 영화 재생', '재생을 종료' 등을 진행할 수 있고, 이는 인간 - 기계 간 통신(human-machine conversation)이 더욱 자연스럽고 진실되게 하므로, 사용자의 몰입 경험이 향상된다.

단계206, 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다.

단계207, 제2 작동 상태의 실행을 유지한다.

본 출원의 실시예에서 목표 장면이 제1 작동 상태에 적용되지 않을 경우, 또는 목표 장면이 제1 작동 상태에 적용되고 사용자에 의해 입력되는 오디오 클립의 의도가 목표 장면에 매칭되지 않을 경우, 제2 작동 상태의 실행을 유지할 수 있다. 이에 따르면, 나아가 더 사용자에 대한 방해가 회피될 수 있다.

예를 들면, 제1 작동 상태의 구성 정보에 제1 작동 상태의 장면 리스트에 비디오 장면이 포함된다고 나타나는 경우, 사용자에 의해 입력되는 오디오 클립의 의도가 비디오 장면에 매칭되더라도 목표 장면이 제1 작동 상태에 적용되지 않는다면, 전자 기기를 제1 작동 상태에 진입하도록 제어하지 않는다. 예를 들어, 사용자가 날씨 APP를 열 때, 호출된 응용 프로그램 인터페이스에 대응되는 목표 장면이 날씨 장면이라면, 분명한 것은, 당해 날씨 장면은 비디오 장면에 매칭되지 않는 것으로, 이는 사용자한테 연속적으로 대화를 개시하는 수요가 없음을 말해주는바, 따라서, 전자 기기를 제1 작동 상태에 진입하도록 제어하지 않음으로써, 사용자에 대한 방해를 저감할 수 있다.

한 가능한 구현 방식에 있어서, 나아가 더 사용자에 대한 방해를 회피하고자, 제1 작동 상태에서 사용자가 전자 기기와 실시간으로 인터랙션할 때, 사용자에 의해 입력되는 오디오 데이터의 의도가 목표 장면에 매칭될 경우에만 오디오 데이터의 의도에 대응되는 제어 명령을 실행한다. 아래, 실시예3을 결부하여 상술한 과정을 상세히 설명하고자 한다.

도4는 본 출원의 실시예3에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.

도4에 도시한 바와 같이, 도1에 도시한 실시예에 기초하여 단계103 이후, 당해 음성 인식 제어 방법은 하기 단계를 더 포함할 수 있다.

단계301, 정보 스트림을 획득하는바, 정보 스트림은 오디오 스트림을 음성 인식하여 획득된다.

본 출원의 실시예에서 사용자에 의해 오디오 데이터가 입력되면, 음성 인식 제어 장치는 오디오 스트림을 수집하고, 당해 오디오 스트림을 음성 인식하여 대응되는 정보 스크림을 결정할 수 있다.

단계302, 정보 스트림으로부터 각 후보 의도를 획득한다.

본 출원의 실시예에서 정보 스트림이 획득되면 당해 정보 스트림에 대해 의미 인식을 실행하여, 대응되는 각 후보 의도를 결정할 수 있다.

단계303, 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별한다.

단계304, 제2 제어 의도가 선별될 경우, 제2 제어 의도에 대응되는 제어 명령을 실행한다.

본 출원의 실시예에서 각 후보 의도와 목표 장면의 제어 의도에 대해 의미 매칭을 실행할 수 있는바, 어느 한 후보 의도가 목표 장면의 제어 의도에 매칭될 경우, 당해 후보 의도를 제2 제어 의도로 하고, 제2 제어 의도에 대응되는 제어 명령을 실행한다.

예를 들면, 목표 장면이 비디오 장면이고 목표 장면에 대응되는 제어 의도가 '비디오 재생'인 경우, 정보 스트림이 '나는 영화 A를 볼래'라면, 당해 정보 스트림은 '비디오 재생'이라는 단 하나의 후보 의도만 가진다고 결정할 수 있고, 이때, 당해 후보 의도에 대응되는 제어 명령, 즉, 전자 기기를 제어하여 영화A를 재생하는 것을 실행할 수 있다.

본 출원의 실시예의 음성 인식 제어 방법에 따르면, 제1 작동 상태에서 사용자가 전자 기기와 실시간으로 인터랙션할 때, 사용자에 의해 입력되는 오디오 데이터의 의도가 목표 장면에 매칭될 경우에만 오디오 데이터의 의도에 대응되는 제어 명령을 실행하므로, 나아가 더 사용자에 대한 방해가 회피될 수 있다.

한 가능한 구현 방식에 있어서, 설정 기간 내에 제2 제어 의도가 획득되지 않을 경우, 이는 사용자한테 전자 기기를 제어하려는 의도가 없음을 말해주는 것인바, 이때, 전자 기기의 에너지 소모를 저감하고 전자 기기가 줄곧 제1 작동 상태에 있는 것을 회피하기 위해 제1 작동 상태를 종료할 수 있다.

여기서, 설정 기간은 미리 설정되는 것으로, 예를 들어 전자 기기의 내장 프로그램에 의해 미리 설정될 수도 있고, 사용자에 의해 설정될 수도 있는바, 이에 대해 한정하지 않는다. 예를 들어 설정 기간의 값의 범위는 20초 내지 40초일 수 있다.

한 가능한 구현 방식에 있어서, 상기 정보 스트림으로부터 각 후보 의도가 획득된 후, 목표 장면의 제어 의도에 매칭되지 않는 후보 의도가 존재한다면, 당해 후보 의도에 응답하는 것을 거절함으로써, 사용자에 대한 방해를 저감시킬 수 있다.

예를 들면, 비디오 장면에서 사용자에 의해 입력되는 오디오 데이터가 '저기, 이 영화의 주제곡인 노래A가 꽤 듣기 좋은데, 좀 있다가 당해 노래A를 다시 들어야지'라면, 전자 기기는 당해 오디오 데이터를 인식하여 당해 오디오 데이터에 대응되는 의도가 '노래 재생'이라고 결정하는바, 분명한 것은, 이는 비디오 장면에 대응되는 제어 의도인 '비디오 재생'에 매칭되지 않으며, 사용자에 대한 방해를 회피하기 위해, 당해 오디오 데이터에 대응되는 의도에 응답하는 것을 거절할 수 있다.

다시 말해, 전자 기기는 제1 작동 상태에 있을 때, 사용자에 의해 입력되는 오디오 데이터의 의도가 목표 장면의 제어 의도에 매칭될 경우에만 오디오 데이터에 대응되는 의도에 응답함으로써, 사용자에 대한 방해가 회피된다.

상술한 실시예를 구현하기 위해, 본 출원은 음성 인식 제어 방법을 더 제공한다.

도5는 본 출원의 실시예4에 의해 제공되는 음성 인식 제어 방법의 개략적인 흐름도이다.

도5에 도시한 바와 같이, 당해 음성 인식 제어 방법은 하기 단계를 포함할 수 있다.

단계401, 목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정한다.

본 출원의 실시예에서 목표 장면은 전자 기기가 현재 표시하는 인터페이스에 대응되는 장면일 수 있는바, 예를 들어 날씨 장면, 음악 장면, 비디오 장면 등의 장면일 수 있다.

본 출원의 실시예에서 제1 작동 상태는 청취 상태일 수 있고, 전자 기기가 당해 청취 상태에 있을 경우, 사용자는 웨이크업 워드를 음성으로 입력할 필요 없이 음성 명령을 실시간으로 입력하여, 전자 기기와 인터랙션할 수 있다. 제1 작동 상태의 구성 정보는 사용자가 자체 수요에 따라 설정한 것으로, 당해 구성 정보에는 제1 작동 상태가 적용되는 장면 리스트가 포함되고, 당해 장면 리스트는 사용자의 선택 동작에 응답하여 부동한 장면으로부터 선택되어 생성되는 것으로, 예를 들어 당해 장면 리스트는 사용자의 선택 동작에 응답하여 음악 장면, 오디오북 장면, 비디오 장면, 날씨 장면, 쇼핑 장면 등의 장면으로부터 선택되어 생성되는 것일 수 있다.

본 출원의 실시예에서 사용자가 어느 한 인터페이스를 여는 경우, 음성 인식 제어 장치는 당해 인터페이스에 대응되는 목표 장면을 결정할 수 있는바, 예를 들어 사용자가 비디오 애플리케이션을 열 때, 목표 장면을 비디오 장면로 결정할 수 있고, 사용자가 음악 애플리케이션을 열 때, 목표 장면을 음악 장면로 결정할 수 있고, 또는, 사용자가 날씨 조회 인터페이스를 열 때, 목표 장면을 날씨 장면로 결정할 수 있는바, 이에 대해 일일이 나열하지 않기로 한다.

본 출원의 실시예에서 목표 장면에서 음성 인식 제어 장치는 제1 작동 상태의 구성 정보를 조회하여, 당해 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정할 수 있다. 구체적으로, 구성 정보에 제1 작동 상태의 장면 리스트에 당해 목표 장면이 포함된다고 나타나는 경우, 당해 목표 장면이 제1 작동 상태에 적용된다고 결정할 수 있고 구성 정보에 제1 작동 상태의 장면 리스트에 당해 목표 장면이 포함되지 않는다고 나타나는 경우, 당해 목표 장면이 제1 작동 상태에 적용되지 않는다고 결정한다.

한 예시로, 도2를 참조하면, 도2는 본 출원의 실시예에 구성되는 인터페이스의 개략도이다. 사용자는 자체 수요에 따라 음악 장면, 오디오북 장면 및 비디오 장면으로부터 대응되는 장면을 선택하여, 제1 작동 상태의 장면 리스트를 생성할 수 있는바, 사용자가 선택한 것이 음악 장면 및 비디오 장면이라면 제1 작동 상태의 장면 리스트에는 음악 장면 및 비디오 장면이 포함되고, 목표 장면이 음악 장면이라면 제1 작동 상태의 구성 정보를 조회하는바, 목표 장면이 제1 작동 상태에 적용된다고 결정할 수 있다.

부연하자면, 도2는 장면 리스트가 음악 장면, 오디오북 장면 및 비디오 장면으로부터 선택되어 생성될 경우만을 예시로 하는바, 즉 도2는 장면 리스트가 음악 장면, 오디오북 장면 및 비디오 장면 중의 적어도 하나를 포함하는 경우만을 예시로 하며, 실제 응용에서는 장면 리스트에 기타의 장면, 예를 들어 날씨 장면, 쇼핑 장면 등의 장면이 포함될 수도 있는 것으로, 본 출원은 이에 대해 한정하지 않는다.

단계402, 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - .

본 출원의 실시예에서 전자 기기가 제2 작동 상태에 있을 경우, 음성 인식 제어 장치는 사용자가 웨이크업 워드를 입력하였는지 여부를 검출할 수 있는바, "예"의 경우, 웨이크업 워드 이후 사용자에 의해 입력되는 오디오 클립을 수집하여 음성 인식할 수 있다. 예를 들면, 전자 기기가 스마트 스피커인 경우, 당해 스마트 스피커가 당해 제2 작동 상태에 있고, 사용자가 노래를 재생하려면 사용자는 '샤오두 샤오두(小度小度), 노래A를 재생' 또는 '샤오두 샤오두(小度小度), 나 노래 듣고 싶어'라고 음성으로 입력할 수 있고, 이때 전자 기기는 웨이크업 워드 이후의 오디오 클립인 '노래A를 재생' 또는 '나 노래 듣고 싶어'를 인식할 수 있고 나아가 대응되는 노래를 재생할 수 있다.

본 출원의 실시예에서 음성 인식 제어 장치에 의해 목표 장면이 제1 작동 상태에 적용된다고 결정될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환할 수 있고, 음성 제어 인식 장치에 의해 목표 장면이 제1 작동 상태에 적용되지 않는다고 결정될 경우, 제2 작동 상태의 실행을 유지할 수 있다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

단계403, 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다.

본 출원의 실시예의 음성 인식 제어 방법에 따르면, 목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

상술한 실시예를 구현하기 위해, 본 출원은 음성 인식 제어 장치를 더 제공한다.

도6은 본 출원의 실시예5에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.

도6에 도시한 바와 같이, 당해 음성 인식 제어 장치(600)는 조회 모듈(601), 전환 모듈(602) 및 인식 모듈(603)을 포함한다.

여기서, 조회 모듈(601)은 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정한다.

전환 모듈(602)은 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - .

인식 모듈(603)은 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다.

나아가, 본 출원의 실시예의 한 가능한 구현 방식에 있어서, 도7을 참조하면, 도6에 도시한 실시예에 기초하여 당해 음성 인식 제어 장치(600)는 하기 모듈을 더 포함할 수 있다.

제1 획득 모듈604, 제2 작동 상태에서 오디오 클립을 음성 인식하여 제1 제어 의도를 획득한다.

결정 모듈(605), 제1 제어 의도가 목표 장면에 매칭되는지 여부를 결정한다.

제2 획득 모듈(606), 정보 스트림을 획득하고 - 정보 스트림은 오디오 스트림을 음성 인식하여 획득됨 - 정보 스트림으로부터 각 후보 의도를 획득한다.

선별 모듈(607), 각 후보 의도로부터 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별한다.

실행 모듈(608), 제2 제어 의도가 선별될 경우, 제2 제어 의도에 대응되는 제어 명령을 실행한다.

종료 모듈(609), 설정 기간 내에 제2 제어 의도가 획득되지 않을 경우, 제1 작동 상태를 종료한다 - 설정 기간의 값의 범위는 20초 내지 40초임 - .

거절 모듈(610), 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절한다.

한 가능한 구현 방식에 있어서, 구성 정보에는 제1 작동 상태가 적용되는 장면 리스트가 포함되고, 장면 리스트는 사용자의 선택 동작에 응답하여 음악 장면, 오디오북 장면 및 비디오 장면으로부터 선택되어 생성된다.

부연하자면, 상술한 도1 내지 도4의 실시예의 음성 인식 제어 방법에 대한 해석과 설명은 당해 실시예의 음성 인식 제어 장치에도 적용되는 것으로, 이에 대한 상세한 설명은 생략하기로 한다.

본 출원의 실시예의 음성 인식 제어 장치에 따르면, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

도8은 본 출원의 실시예7에 의해 제공되는 음성 인식 제어 장치의 개략적인 구조도이다.

도8에 도시한 바와 같이, 당해 음성 인식 제어 장치(800)는 조회 모듈(801), 전환 모듈(802) 및 인식 모듈(803)을 포함한다.

조회 모듈(801)은 목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정한다.

전환 모듈(802)은 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환한다 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - .

인식 모듈(803)은 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다.

부연하자면, 상술한 도5의 실시예에서 음성 인식 제어 방법에 대한 해석과 설명은 당해 실시예의 음성 인식 제어 장치에도 적용되는바, 이에 대한 상세한 설명은 생략하기로 한다.

본 출원의 실시예의 음성 인식 제어 장치에 따르면, 목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

상술한 실시예를 구현하기 위해, 본 출원은 전자 기기를 더 제공하는바, 이는 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행됨으로써, 적어도 하나의 프로세서에 의해 본 출원의 상술한 실시예에 의해 제공되는 음성 인식 제어 방법이 실행된다.

상술한 실시예를 구현하기 위해, 본 출원은 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공하는바, 컴퓨터 명령은 컴퓨터에 의해 본 출원의 상술한 실시예에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도9에 도시한 바와 같이, 이는 본 출원의 실시예의 음성 인식 제어 방법에 따른 전자 기기의 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터, 예를 들어 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타의 적합한 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 다양한 형식의 이동 장치, 예를 들어 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 기타의 이와 유사한 컴퓨팅 기기를 가리킬 수도 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 하는 것이 아니다.

도9에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(901), 메모리(902) 및 각 부품을 연결하는 인터페이스를 포함하는바, 고속 인터페이스와 저속 인터페이스가 포함된다. 각 부품은 부동한 버스를 이용하여 서로 연결되고 공용 메인기판에 장착되거나 또는 필요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리 내에 또는 메모리 위에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링되는 디스플레이 기기)에 GUI의 그래픽 정보를 표시하는 명령이 포함된다. 기타의 구현 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있는바, 각 기기는 일부 필요한 동작을 제공한다(예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서). 도9는 한 프로세서(901)를 예로 든다.

메모리(902)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에 의해 제공되는 음성 인식 제어 방법이 실행되도록 한다.

메모리(902)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예의 음성 인식 제어 방법에 대응되는 프로그램 명령/모듈(예를 들면 도6에 도시한 조회 모듈(601), 전환 모듈(602) 및 인식 모듈(603))을 저장할 수 있다. 프로세서(901)는 메모리(902)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예의 음성 인식 제어 방법을 구현한다.

메모리(902)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타의 비일시적 고체 상태 저장 장치를 더 포함할 수도 있다. 일부 실시예에서, 메모리(902)는 선택적으로 프로세서(901) 대비 원격 설치되는 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

전자 기기는 입력 장치(903)와 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 기타의 방식으로 연결될 수 있는바, 도9에서는 버스에 의한 연결을 예로 든다.

입력 장치(903)는 입력되는 숫자 또는 캐릭터 정보를 수신하고, 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(904)는 디스플레이 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 일부 구현 방식에서 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템과 기술의 다양한 구현 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 구현 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 고급 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여, 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능 매체'와 '컴퓨터 판독 가능 매체'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.

여기서 설명하는 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어를 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여, 여기서 설명하는 시스템 및 기술의 구현 방식과 인터랙션할 수 있음) 또는 이러한 백그라운드 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로는 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.

본 출원의 실시예의 기술안에 따르면, 목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하고; 목표 장면이 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 제1 작동 상태로 전환하고 - 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 오디오 클립을 음성 인식함 - ; 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 오디오 스트림을 음성 인식한다. 이에 따르면, 사용자는 자체 수요에 따라 제1 작동 상태를 트리거링하는 장면을 설정함으로써, 부동한 사용자의 개인화 수요를 충족시킬 수 있고, 또한, 목표 장면이 제1 작동 상태에 적용될 경우에만 기기를 제1 작동 상태에 진입하도록 제어하므로, 사용자에 대한 방해가 저감될 수 있고, 사용자의 사용 경험이 개선될 수 있다.

위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병행으로 실행될 수도 있고, 순차로 실행될 수도 있고, 부동한 순서로 실행될 수도 있는바, 본 출원에서 개시하는 기술안에 대한 기대 효과를 구현할 수만 있으면 되며, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 구현 방식은 본 출원의 보호 범위를 한정하지 않는다. 설계 요구와 기타 요소에 따른 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 점은 당업자에 있어서 자명할 것이다. 본 출원의 사상과 원칙 이내에 있는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims

음성 인식 제어 방법에 있어서,
목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 단계;
상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 단계 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및
상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 단계; 를 포함하는 것,
을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 단계 이전에,
상기 제2 작동 상태에서 상기 오디오 클립을 음성 인식하여 제1 제어 의도를 획득하는 단계; 및
상기 제1 제어 의도가 상기 목표 장면에 매칭되는지 여부를 결정하는 단계; 를 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 방법.
제1항에 있어서,
상기 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 단계 이후,
정보 스트림을 획득하는 단계 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식하여 획득됨 - ;
상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계;
각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 단계; 및
상기 제2 제어 의도가 선별되어 획득될 경우, 상기 제2 제어 의도에 대응되는 제어 명령을 실행하는 단계; 를 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 방법.
제3항에 있어서,
상기 각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 단계 이후,
설정 기간 내에 상기 제2 제어 의도가 획득되지 않을 경우, 상기 제1 작동 상태를 종료하는 단계; 를 더 포함하고,
상기 설정 기간의 값의 범위는 20초 내지 40초인 것,
을 특징으로 하는 음성 인식 제어 방법.
제3항에 있어서,
상기 정보 스트림으로부터 각 후보 의도를 획득하는 단계 이후,
상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 단계를 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 구성 정보에는 상기 제1 작동 상태가 적용되는 장면 리스트가 포함되고,
상기 장면 리스트는 사용자의 선택 동작에 응답하여, 음악 장면, 오디오북 장면 및 비디오 장면으로부터 선택되어 생성되는 것,
을 특징으로 하는 음성 인식 제어 방법.
음성 인식 제어 장치에 있어서,
목표 장면에 관련되는 응용 프로그램 인터페이스가 호출된 것이 탐지될 경우, 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 조회 모듈;
상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 전환 모듈 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및
상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 인식 모듈; 을 포함하는 것,
을 특징으로 하는 음성 인식 제어 장치.
제7항에 있어서,
상기 장치는,
상기 제2 작동 상태에서 상기 오디오 클립을 음성 인식하여 제1 제어 의도를 획득하는 제1 획득 모듈; 및
상기 제1 제어 의도가 상기 목표 장면에 매칭되는지 여부를 결정하는 결정 모듈; 을 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 장치.
제7항에 있어서,
상기 장치는,
정보 스트림을 획득하고, 상기 정보 스트림으로부터 각 후보 의도를 획득하는 제2 획득 모듈 - 상기 정보 스트림은 상기 오디오 스트림을 음성 인식하여 획득됨 -;
각 후보 의도로부터 상기 목표 장면의 제어 의도에 매칭되는 제2 제어 의도를 선별하는 선별 모듈; 및
상기 제2 제어 의도가 선별되어 획득될 경우, 상기 제2 제어 의도에 대응되는 제어 명령을 실행하는 실행 모듈; 을 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 장치.
제9항에 있어서,
상기 장치는,
설정 기간 내에 상기 제2 제어 의도가 획득되지 않을 경우, 상기 제1 작동 상태를 종료하는 종료 모듈을 더 포함하고,
상기 설정 기간의 값의 범위는 20초 내지 40초인 것,
을 특징으로 하는 음성 인식 제어 장치.
제9항에 있어서,
상기 장치는,
상기 목표 장면의 제어 의도에 매칭되지 않는 후보 의도에 응답하는 것을 거절하는 거절 모듈을 더 포함하는 것,
을 특징으로 하는 음성 인식 제어 장치.
제7항 내지 제11항 중 어느 한 항에 있어서,
상기 구성 정보에는 상기 제1 작동 상태가 적용되는 장면 리스트가 포함되고,
상기 장면 리스트는 사용자의 선택 동작에 응답하여 음악 장면, 오디오북 장면 및 비디오 장면으로부터 선택되어 생성되는 것,
을 특징으로 하는 음성 인식 제어 장치.
음성 인식 제어 방법에 있어서,
목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 단계;
상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 단계 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및
상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 단계; 를 포함하는 것,
을 특징으로 하는 음성 인식 제어 방법.
음성 인식 제어 장치에 있어서,
목표 장면에서 제1 작동 상태의 구성 정보를 조회하여, 상기 목표 장면이 제1 작동 상태에 적용되는지 여부를 결정하는 조회 모듈;
상기 목표 장면이 상기 제1 작동 상태에 적용될 경우, 실행중의 제2 작동 상태를 상기 제1 작동 상태로 전환하는 전환 모듈 - 상기 제2 작동 상태에서 웨이크업 워드에 따라 오디오 클립을 수집하고 상기 오디오 클립을 음성 인식함 - ; 및
상기 제1 작동 상태에서 오디오를 연속적으로 수집하여 오디오 스트림을 획득함으로써, 상기 오디오 스트림을 음성 인식하는 인식 모듈; 을 포함하는 것,
을 특징으로 하는 음성 인식 제어 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써 ,상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항의 음성 인식 제어 방법을 실행하거나, 제13항의 음성 인식 제어 방법을 실행하는 것,
을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 음성 인식 제어 방법을 실행하거나, 제13항의 음성 인식 제어 방법를 실행하도록 하는 것,
을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.