KR20210038460A

KR20210038460A - 음성 인터랙션 처리 방법, 장치와 전자기기

Info

Publication number: KR20210038460A
Application number: KR1020210034723A
Authority: KR
Inventors: 귀 허
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-03-17
Filing date: 2021-03-17
Publication date: 2021-04-07
Also published as: KR102523350B1; CN111354360A; JP2021099533A

Abstract

본 출원은 음성 인터랙션 처리 방법, 장치와 전자기기를 개시하고, 음성 기술분야에 관한 것이다. 구체적인 구현 방안은, 음성 데이터를 수신하고, 해당 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 여기서, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고; 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 이로부터, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 성공적으로 매칭되면, 해당 전자기기는 웨이크업될 필요없이, 직접 음성 데이터에 대응되는 동작을 수행하기에, 전자기기는 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 사용자의 체험을 향상시킬 수 있다.

Description

음성 인터랙션 처리 방법, 장치와 전자기기{VOICE INTERACTION PROCESSING METHOD, DEVICE AND ELECTRONIC EQUIPMENT}

본 출원은 데이터 기술분야에 관한 것으로, 특히 음성 기술분야에 관한 것이다.

인공 지능 기술의 지속적인 발전에 따라, 사용자는 일상 생활에서 음성 인터랙션을 통해 전자기기로부터 점차적으로 더욱 많은 서비스를 받고 있다.

현재, 대부분의 전자기기는 사용자가 웨이크업 해야 하고, 사용자는 전자기기가 웨이크업된 후에만 정상적으로 음성 질의(query) 요청, 즉 사용자와 전자기기는 대화를 할 수 있다. 이러한 사용자가 매번 음성 질의 요청을 시작하기 전에 모두 전자기기를 웨이크업해야 하므로 사용자 체험이 저하된다. 이를 바탕으로, 종래 기술에서는 또한 프리 웨이크업 방안이 제공되는 바, 전자기기는 기설정된 일부 프리 웨이크업 단어에 대해 많은 양의 말뭉치 데이터를 수집하고, 이런 말뭉치 데이터를 기초로 초기 웨이크업 모델을 지속적으로 훈련시켜 웨이크업 모델을 획득한다. 이와 같이 전자기기가 음성 데이터를 획득하면 획득한 음성 데이터를 훈련된 웨이크업 모델과 매칭시키고, 기설정된 프리 웨이크업 단어와 매칭되면, 전자기기를 웨이크업 시킨다.

하지만, 전술한 프리 웨이크업 방안에서는 기설정된 프리 웨이크업 단어의 수가 제한되어 있어, 음성 데이터에 기설정된 프리 웨이크업 단어가 포함되지 않아 전자기기가 상응한 서비스를 제때에 제공하지 못하여, 사용자의 체험이 좋지 않을 수 있다.

본 출원의 실시예는 음성 인터랙션 처리 방법, 장치와 전자기기를 제공하여, 전자기기가 사용자에게 제때에 상응한 서비스를 제공할 수 있도록 하며, 이로부터 사용자의 체험을 향상시킬 수 있다.

제1 측면에서, 본 출원의 실시예는 음성 인터랙션 처리 방법을 제공하는 바, 해당 음성 인터랙션 처리 방법은,

음성 데이터를 수신하는 단계;

상기 음성 데이터와 현재 포어그라운드(foreground)에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 상기 음성 라이브러리에는 상기 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되는 단계;

성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 상기 음성 데이터에 대응되는 동작을 수행하는 단계를 포함할 수 있다.

이로부터 알 수 있듯이, 종래기술과 서로 다른 점은, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리가 성공적으로 매칭된 후, 해당 전자기기는 웨이크업될 필요없이, 직접 데이터에 대해 인식하여 음성 데이터에 대응되는 동작을 수행하기에, 사용자의 동작을 간소화 할뿐만 아니라 전자기기가 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다.

제2 측면에서, 본 출원의 실시예는 음성 인터랙션 처리 장치를 더 제공하는 바, 해당 장치는,

음성 데이터를 수신하는 수신모듈;

상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 상기 음성 라이브러리에는 상기 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되는 처리모듈을 포함하고,

상기 처리모듈은 또한, 성공적으로 매칭되면, 상기 음성 인터랙션 처리 장치가 프리 웨이크업 기능을 개시하도록 제어하고, 상기 음성 데이터에 대응되는 동작을 수행한다.

제3 측면에서, 본 출원의 실시예는 전자기기를 더 제공하는 바, 해당 전자기기는,

적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고; 여기서, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고; 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상술한 제1 측면의 임의의 가능한 구현 방식 중의 음성 인터랙션 처리 방법을 실행하도록 한다.

제4 측면에서, 본 출원의 실시예는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공하는 바, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 제1 측면의 임의의 가능한 구현 방식 중의 음성 인터랙션 처리 방법을 실행하도록 한다.

제5 측면에서, 본 출원의 실시예는, 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 해당 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 때, 상술한 제1 측면의 임의의 가능한 구현 방식 중의 음성 인터랙션 처리 방법을 실행하도록 한다.

상술한 출원 중의 일 실시예는 아래의 장점과 유익한 효과를 가진다. 음성 데이터를 수신한 후, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 따라서, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기를 웨이크업 시킬 필요없이, 직접 음성 데이터를 인식하여, 음성 데이터에 대응되는 동작을 수행하기에, 사용자의 동작을 간소화 할뿐만 아니라, 전자기기는 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다. 또한, 본 출원의 실시예에 따른 방안은, 종래기술 중의 대량의 말뭉치 데이터를 수집하여 초기 웨이크업 모델에 대해 지속적인 훈련을 수행해야만이 웨이크업 모델을 획득할 수 있는 것을 방지하므로, 음성 처리의 원가를 줄일 수 있다.

상술한 선택적인 방식이 구비한 기타 효과는 아래 내용에서 구체적인 실시예를 결합하여 설명할 것이다.

첨부된 도면은 본 해결수단에 대한 더 충분한 이해를 돕기 위한 것으로서, 본 출원에 대해 한정하지 않는다. 여기서,
도 1은 본 출원의 실시예에 따른 음성 인터랙션 처리 방법의 응용 시나리오를 나타내는 도면이다.
도 2는 본 출원의 제1 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이다.
도 3은 본 출원의 제2 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이다.
도 4는 음성 라이브러리를 업데이트를 나타내는 도면이다.
도 5는 본 출원의 제3 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이다.
도 6은 본 출원의 실시예에 따른 음성 인터랙션 처리 장치(60)의 구조도이다.
도 7은 본 출원의 실시예의 음성 인터랙션 처리 방법의 구현하기 위한 전자기기의 블록도이다.

이하, 첨부된 도면을 결합하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

본 출원의 실시예에서, "적어도 하나”는 하나 또는 다수를 의미하고, "다수”는 2개 또는 2개 이상을 의미한다. "및/또는”은 연관 대상의 연관 관계를 설명하고, 3가지 관계가 존재할 수 있음을 의미하는 바, 예를 들어 A 및/또는 B는, A만 존재하거나, A 및 B가 동시에 존재하거나, B만 존재하는 3가지 경우를 나타낼 수 있으며, 여기서 A, B는 단수 또는 복수일 수 있다. 본 출원의 문자 설명에서, 부호 "/"는 일반적으로 전후 연관 대상이 "또는”의 관계임을 나타낸다.

본 출원의 실시예에서, 전자기기는 정보통신을 지원하고 음성 데이터를 처리할 수 있는 다양한 전자기기일 수 있으며, 스마트폰, 태블릿 PC, 핸드헬드 컴퓨터와 데스크톱 컴퓨터 등일 수 있지만 이에 한정하지 않는다.

음성 인터랙션 방식을 통해 전자기기로부터 서비스를 받기 위해, 우선 전자기기를 웨이크업 해야 하지만, 이러한 방식으로 인해 사용자의 동작이 보다 번거로우며 사용자의 체험이 좋지 않다. 이에 따라, 현재 또 다른 방식으로는, 전자기기가 기설정된 일부 프리 웨이크업 단어에 대해 많은 말뭉치 데이터를 수집하고, 이러한 말뭉치 데이터를 기초로 초기 웨이크업 모델에 대해 지속적으로 훈련시켜 웨이크업 모델을 획득한다. 이렇게 전자기기는 음성 데이터를 획득하면, 획득된 음성 데이터와 훈련하여 얻은 웨이크업 모델을 매칭시키고, 기설정된 프리 웨이크업 단어가 매칭될 경우, 전자기기를 웨이크업 시킨다. 하지만, 기설정된 프리 웨이크업 단어의 수량이 한정되어 있고, 또한 각 사람마다 전자기기로부터 획득하고자 하는 관련 서비스가 상이할 수 있기에, 사용자가 전자기기를 사용하여 관련 서비스를 받고자 할 경우, 전자기기에 입력된 음성 데이터에 상술한 기설정된 프리 웨이크업 단어가 포함되지 않을 때, 전자기기는 상응한 서비스를 제때에 제공할 수 없게 되며, 이로부터 사용자의 좋지 않은 체험을 일으킨다.

전자기기가 사용자의 요구에 따라 사용자에게 상응한 서비스를 제때에 제공할 수 있도록 하기 위하여, 사용자는 일부 프리 웨이크업 단어를 자체로 정의할 수 있으며, 즉, 사용자는 자신의 요구에 따라 전자기기에 미리 일부 프리 웨이크업 단어를 저장하여, 전자기기의 프리 웨이크업 목적을 구현한다. 하지만 해당 방법을 사용하면, 일정한 정도에서 전자기기가 프리 웨이크업된 상황에서 사용자에게 관련 서비스를 제공하는 적시성을 향상시킬 수 있지만, 전자기기가 제공할 수 있는 서비스는 종종 변화하게 되므로, 전자기기가 제공하는 서비스가 변화할 때, 사용자는 일부 프리 웨이크업 단어를 다시 설정해야 한다. 그러므로 사용자의 동작을 번거롭게 하고 사용자의 체험이 좋지 않다.

상술한 설명을 바탕으로, 전자기기가 사용자에게 제때에 상응한 서비스를 제공함으로써, 사용자의 체험을 향상시키기 위하여, 본 출원의 실시예는 음성 인터랙션 처리 방법을 제공하는 바, 음성 데이터를 수신한 후, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 이로부터 알 수 있듯이, 종래기술과 서로 다른 점은, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리가 성공적으로 매칭된 후, 해당 전자기기는 웨이크업될 필요없이, 직접 데이터에 대해 인식하여 음성 데이터에 대응되는 동작을 수행하기에, 사용자의 동작을 간소화 할뿐만 아니라 전자기기가 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다. 또한, 본 출원의 실시예에 따른 방안은, 종래기술 중의 대량의 말뭉치 데이터를 수집하여 초기 웨이크업 모델에 대해 지속적인 훈련을 수행해야만이 웨이크업 모델을 획득할 수 있는 것을 방지하므로, 음성 처리의 원가를 줄일 수 있다.

이해할 수 있는 것은, 본 출원의 실시예에 따른 음성 인터랙션 처리 방법을 음성 인식 시나리오에 적용할 수 있고, 특히 프리 웨이크업 방식을 통해 전자기기를 제어하여, 관련 서비스를 받는 시나리오에 적용할 수 있다. 아래, 음성 방식으로 전자기기를 제어하여 어느 영화를 재생하는 시나리오를 예로 들어, 어떻게 음성 인터랙션 처리를 수행하는지에 대해 상세하게 설명한다.

도 1은 본 출원의 실시예에 따른 음성 인터랙션 처리 방법의 응용 시나리오를 나타내는 도면이고, 도 1에 도시된 바와 같이, 사용자가 전자기기로 어느 영화를 재생하고자 할 때, 사용자는 전자기기에 “영화 C를 재생”이라는 음성 데이터를 입력할 수 있으며, 전자기기는 해당 음성 데이터를 수신한 후에, 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램（application, APP）을 확정할 것이며, 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램이 어느 비디오 유형의 응용 프로그램이면, “영화 C를 재생”이 해당 비디오 유형의 응용 프로그램의 음성 라이브러리에 있는지 여부를 검색한다. “영화 C를 재생”이 해당 비디오 유형의 응용 프로그램의 음성 라이브러리에 있는 것으로 가정하면, 전자기기는 전자기기를 웨이크업할 필요가 없으며, 즉 웨이크업 엔진을 닫고, 직접 인식 엔진을 열어, 수신된 “영화 C를 재생”을 인식하고, 영화 C를 재생하기 시작한다. 이렇게 하면, 프리 웨이크업 방식을 통해 사용자에게 상응한 서비스를 제공할 수 있으며, 종래기술에서 사용자가 입력한 음성 데이터에 반드시 기설정된 프리 웨이크업 단어가 포함되어야만 단말기가 서비스를 제공할 수 있도록 하는 현상을 방지하며, 이로부터 전자기기의 서비스 제공 적시성을 향상시키고 사용자의 체험을 향상시킬 수 있다.

아래, 구체적인 실시예를 통해 본 출원에 따른 음성 인터랙션 처리 방법에 대해 상세하게 설명한다. 이해할 수 있는 것은, 아래의 다수의 구체적인 실시예는 서로 결합될 수 있고, 동일하거나 유사한 개념 또는 과정에 대해서는 일부 실시예에서 더 이상 서술하지 않을 수 있다.

도 2는 본 출원의 제1 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이고, 해당 음성 인터랙션 처리 방법은 소프트웨어 및/또는 하드웨어 장치에 의해 실행될 수 있으며, 예를 들어, 해당 하드웨어 장치는 음성 인터랙션 처리 장치일 수 있으며, 해당 음성 인터랙션 처리 장치는 전자기기 또는 차량용 단말기에 설치될 수 있다. 예시적으로, 도 2를 참조하면, 해당 음성 인터랙션 처리 방법는 아래의 단계를 포함할 수 있다.

S201, 음성 데이터를 수신한다.

S202, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

여기서, 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함된다.

본 단계에서, 전자기기는 사용자가 입력한 음성 데이터를 수신한 후, 현재 전자기기 중 포어그라운드에서 실행되고 있는 타겟 응용 프로그램을 확정하고, 수신된 음성 데이터와 해당 타겟 응용 프로그램의 음성 라이브러리를 매칭시키고, 즉 해당 음성 데이터가 타겟 응용 프로그램의 음성 라이브러리에 있는지 여부를 검색할 수 있다.

여기서, 타겟 응용 프로그램은 사용자에게 서비스를 제공할 수 있는 다양한 플랫폼을 포함할 수 있으며, 예를 들어, 비디오 유형 응용 프로그램, 영상처리 유형 응용 프로그램, 실시간 통신 유형 응용 프로그램과 네비게이션 응용 프로그램 등일 수 있다.

S203, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다.

본 단계에서, 음성 데이터와 타겟 응용 프로그램에 대응되는 음성 라이브러리가 성공적으로 매칭되면, 즉 타겟 응용 프로그램에 대응되는 음성 라이브러리에 해당 음성 데이터가 존재할 때, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 즉 전자기기를 웨이크업 시킬 필요가 없이, 직접 수신된 음성 데이터를 인식하여, 해당 음성 데이터에 대응되는 동작을 수행한다.

본 실시예에서, 전자기기는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 성공적으로 매칭시킨 후, 바로 전자기기를 제어하여 음성 데이터에 대응되는 동작을 수행하도록 할 수 있기에, 종래기술에서 전자기기가 웨이크업 된 후, 사용자는 기설정 시간대 내에서만 전자기기와 인터랙션할 수 있고, 기설정 시간대 이후에는 전자기기를 다시 웨이크업해야 하는 현상을 방지함으로써, 사용자와 전자기기 사이의 복수회의 인터랙션을 구현한다.

본 출원의 실시예에 따른 음성 인터랙션 처리 방법은, 음성 데이터를 수신한 후, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 따라서, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기를 웨이크업 시킬 필요가 없이, 직접 음성 데이터를 인식하여, 음성 데이터에 대응되는 동작을 수행하기에, 사용자의 동작을 간소화 할뿐만 아니라, 전자기기는 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다. 또한, 본 출원의 실시예에 따른 방안은, 종래기술 중의 대량의 말뭉치 데이터를 수집하여 초기 웨이크업 모델에 대해 지속적인 훈련을 수행해야만이 웨이크업 모델을 획득할 수 있는 것을 방지하므로, 음성 처리의 원가를 줄일 수 있다.

나아가, 전자기기에서 실행되는 응용 프로그램에 대해, 미리 이에 대응되는 음성 라이브러리를 구축해야 하고, 해당 음성 라이브러리에는 해당 응용 프로그램과 연관된 또는 관련된 복수의 제어명령이 포함된다. 예시적으로, 해당 음성 라이브러리는 사용자가 미리 등록한 것일 수 있거나, 또는 응용 프로그램 개발자가 미리 입력하여 저장한 것일 수 있다.

설명해야 할 바로는, 다양한 응용 프로그램에 대응되는 음성 라이브러리 중의 제어명령은 동일할 수 있고 서로 다를 수도 있다. 예를 들면, 비디오 유형 응용 프로그램에 대응되는 음성 라이브러리 중에는 “영화 A를 재생”, “재생”, “일시 중시”, “다음”과 “이전” 등이 저장되어 있을 수 있다. 이미지 유형 응용 프로그램에 대응되는 음성 라이브러리 중에는 “이미지 보기”, “삭제”, “확대”, “다음”과 “이전” 등이 저장되어 있을 수 있다.

본 실시예에서, 응용 프로그램이 지원할 수 있는 서비스에 따라 음성 라이브러리를 구축할 수 있기에, 음성 데이터의 매칭의 정확성을 향상시킬 수 있다. 또한, 사용자는 수요에 따라 프리 웨이크업 기능을 지원하는 응용 프로그램 리스트를 등록할 수도 있으므로, 음성 인터랙션 처리의 유연성을 향상시킨다.

도 3은 본 출원의 제2 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이며, 본 실시예의 상술한 각 실시예의 기초상에서, 타겟 응용 프로그램에 대응되는 음성 라이브러리에 대해 업데이트하는 과정을 상세하게 설명한다. 도 3에 도시된 바와 같이, 해당 음성 인터랙션 처리 방법은 아래의 단계를 포함할 수 있다.

S301: 업데이트 명령을 수신하되, 해당 업데이트 명령에는 타겟 응용 프로그램의 식별정보와 새로운 제어명령이 포함된다.

본 단계에서, 전자기기가 제공할 수 있는 서비스는 종종 변화하게 되므로, 예컨대 비디오 유형 응용 프로그램 중의 비디오는 자주 바뀌기에, 음성 데이터와 음성 라이브러리의 매칭의 정확도를 향상시킬 수 있도록 하기 위하여, 응용 프로그램에 대응되는 음성 라이브러리에 대해 자주 업데이트 해야 한다.

구체적으로, 사용자가 음성 방식으로 전자기기에 업데이트 명령을 발송할 수 있고, 어느 버튼을 터치하거나 어느 물리적 버튼을 누르는 방식으로 해당 업데이트 명령을 발송할 수도 있으며, 업데이트 명령의 구체적인 발송 방식에 대해서, 본 출원의 실시예는 한정하지 않는다.

S302: 식별정보와 새로운 제어명령을 기초로, 타겟 응용 프로그램의 음성 라이브러리에 대해 업데이트 한다.

본 단계에서, 전자기기가 수신한 업데이트 명령에는 타겟 응용 프로그램의 식별정보와 새로운 제어명령이 포함되며, 전자기기는 해당 식별정보를 기초로, 해당 식별정보에 대응되는 타겟 응용 프로그램의 음성 라이브러리를 업데이트할 것을 확정하고, 그 다음 새로운 제어명령을 기초로, 타겟 응용 프로그램의 음성 라이브러리에 대해 업데이트 한다. 여기서, 업데이트는 새로운 제어명령을 음성 라이브러리에 추가하거나, 또는 새로운 제어명령을 기초로, 음성 라이브러리 중의 제어명령 등을 삭제한다.

가능한 구현방식에서, 음성 라이브러리에 대해 업데이트를 수행할 때, 전자기기는 먼저 음성 라이브러리에 해당 새로운 제어명령이 이미 포함되어 있는지 여부를 검색하고, 음성 라이브러리에 이미 해당 새로운 제어명령이 포함되어 있으면, 해당 음성 라이브러리에 대해 업데이트 처리를 수행하지 않는다.

도 4는 음성 라이브러리에 대해 업데이트를 수행하는 것을 나타내는 도면이며, 도 4에 도시된 바와 같이, 사용자가 음성 방식으로 전자기기에 업데이트 명령을 발송하는 것으로 가정하면, 예컨대 사용자가 전자기기에 “응용 프로그램A에 비디오 1 재생을 추가”를 입력하면, 전자기기는 해당 업데이트 명령을 기초로, 응용 프로그램A의 음성 라이브러리에 대해 업데이트를 수행한다는 것을 알 수 있으며, 해당 음성 라이브러리에 제어명령 “비디오 1 재생”을 추가해야 한다. 전자기기는 사용자에게 추가 확인 페이지를 표시할 수 있으며, 도 4에 도시된 바와 같이, 사용자가 “확정”을 클릭하면, 전자기기는 제어명령 “비디오 1 재생”을 응용 프로그램A에 대응되는 음성 라이브러리에 추가할 수 있다. 여기서, 전자기기는 해당 제어명령을 추가하기 전에, 먼저 응용 프로그램A에 대응되는 음성 라이브러리에 이미 “비디오 1 재생”이 존재하는지 여부를 판단할 수 있으며, 존재한다면, 음성 라이브러리에 대해 업데이트를 수행하지 않고, 존재하지 않는다면, 해당 제어명령을 음성 라이브러리에 추가한다.

다른 가능한 구현방식에서, 전자기기는 타겟 응용 프로그램이 제공가능한 서비스에 따라, 이에 대응되는 음성 라이브러리를 주기적으로 업데이트할 수도 있다. 예를 들면, 비디오 유형 응용 프로그램에 대해, 업데이트 된 비디오 또는 업데이트된 비디오 처리 기능에 따라, 음성 라이브러리 중의 제어명령에 대해 업데이트할 수 있으며, 이미지 처리 유형 응용 프로그램에 대해, 업데이트된 이미지 또는 업데이트된 이미지 처리 기능에 따라, 음성 라이브러리 중의 제어명령 등을 업데이트할 수 있다.

본 실시예에서, 전자기기가 업데이트 명령을 수신한 후, 해당 업데이트 명령에 따라 음성 라이브러리 중의 제어명령에 대해 업데이트를 수행하기에, 음성 데이터와 음성 라이브러리가 매칭되는 정확도를 향상시킬 수 있으며, 구축된 음성 라이브러리 중의 제어명령이 더욱 다양하도록 한다.

도 5는 본 출원의 제3 실시예에 따른 음성 인터랙션 처리 방법의 흐름도이며, 본 실시예는 상술한 각 실시예의 기초상에서, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 과정에 대해 상세하게 설명한다. 도 5에 도시된 바와 같이, 해당 음성 인터랙션 처리 방법은 아래의 단계를 포함할 수 있다.

S501: 음성 데이터를 수신한다.

S501과 S201의 수행 과정은 유사하기에 여기서 더이상 중복설명하지 않는다.

S502: 타겟 대상의 방향을 확정한다.

S503: 타겟 대상이 전자기기를 행해 있으면, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

구체적으로, 실제 응용에서 사용자는 때로는 전자기기를 통해 관련 서비스를 획득하고자 하는 것이 아니라 단지 채팅 과정에 타겟 응용 프로그램의 음성 라이브러리 중의 어느 제어명령을 언급할 수 있으며, 예를 들면, 사용자는 채팅 과정에 “나는 XX 영화를 보고 싶다”를 언급하였을 때, 전자기기는 오인식하여 해당 제어명령과 관련된 동작을 수행할 수 있다.

이런 문제를 해결하기 위하여, 본 출원의 실시예에서는, 전자기기는 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킬 때, 먼저 타겟 대상의 방향을 확정하고, 타겟 대상이 전자기기를 행해 있으면, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

구체적으로, 상술한 타겟 대상은 사용자일 수 있으며, 전자기기에 음성 데이터를 입력하는 사용자로 이해할 수도 있다. 전자기기는 사용자가 입력한 음성 데이터를 수신한 후, 음원 포지셔닝 기술을 통해 전자기기에 대한 사용자의 각도를 확정할 수 있으며, 확정된 각도가 기설정값보다 작으면, 사용자는 전자기기를 향해 있음을 확정할 수 있으며, 사용자가 전자기기를 통해 관련 서비스를 받고자 함을 의미한다. 이때, 전자기기는 수신된 음성 데이터와 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킬 수 있다.

물론, 전자기기는 기타 방식을 통해 타겟 대상의 방향을 확정할 수도 있으며, 예를 들면 카메라에 의해 촬영된 타겟 대상을 포함한 영상을 기초로 영상에 대해 인식하여 타겟 대상이 전자기기를 향해 있는지 여부 등을 확정할 수 있다. 타겟 대상의 방향을 확정하는 구체적인 방식에 대해, 본 출원의 실시예는 한정하지 않는다.

본 실시예에서, 전자기기는 타겟 대상의 방향을 확정하고 타겟 대상이 전자기기를 향할 때, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킴으로써, 전자기기의 오인식 확률을 감소시키고, 사용자의 체험을 향상시킬 수 있다.

전자기기의 오인식 확률을 더욱더 감소하기 위하여, 타겟 대상이 전자기기를 향한 것을 확정한 후, 타겟 대상과 전자기기의 거리가 기설정값보다 작은지 여부를 판단할 수도 있으며, 타겟 대상과 전자기기의 거리가 기설정값보다 작으면, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

구체적으로, 상술한 타겟 대상은 사용자일 수 있으며, 구체적인 구현과정에서, 적외선 감응의 방식으로 사용자와 전자기기의 거리를 확정할 수 있으며, 사용자와 전자기기의 거리가 기설정값보다 작은 것으로 확정되면, 사용자가 현재 전자기기를 조작하고 있을 수 있다는 것을 의미하며, 즉 사용자는 전자기기를 통해 상응하는 서비스를 받고자 하는 것이다. 이때, 전자기기는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

여기서, 상술한 기설정값은 실제 상황 또는 경험에 따라 설정할 수 있으며, 예를 들어 10cm 또는15cm 등으로 설정할 수 있고, 기설정값의 구체적인 값에 대해 본 출원의 실시예는 여기서 한정하지 않는다.

본 실시예에서, 타겟 대상이 전자기기를 향하고, 타겟 대상과 전자기기의 거리가 기설정값보다 작을 때, 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킬 수 있으며, 이로부터 오인식 확률을 더욱 잘 감소시키고, 사용자의 체험을 향상시킬 수 있다.

S504: 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다.

가능한 구현방식에 있어서, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하는 것은, 전자기기가 웨이크업 엔진을 닫고, 인식 엔진을 열도록 제어하는 것일 수 있다. 즉, 음성 데이터와 타겟 응용 프로그램의 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기는 웨이크업 엔진을 닫고, 이때, 전자기기는 웨이크업 엔진을 통해 웨이크업할 필요가 없으며, 인식 엔진을 열어, 수신된 음성 데이터에 대해 인식하여, 해당 음성 데이터에 대응되는 동작을 수행한다.

본 실시예에서, 음성 데이터와 타겟 응용 프로그램의 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기가 웨이크업 엔진을 닫고, 인식 엔진을 열도록 제어함으로써, 전자기기가 프리 웨이크업 상태에서, 직접 음성 데이터에 대해 인식할 수 있으며, 이로부터 음성 데이터에 대응되는 동작을 수행함으로써, 전자기기가 사용자에게 관련 서비스의 적시성을 제공하고, 사용자의 체험을 향상시킨다.

나아가, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는데 실패하면, 즉 타겟 응용 프로그램에 대응되는 음성 라이브러리에 해당 음성 데이터가 존재하지 않으면, 해당 음성 데이터를 무시하고, 전자기기는 아무런 동작도 수행하지 않을 수 있다.

본 출원의 실시예에 따른 음성 인터랙션 처리 방법은, 음성 데이터를 수신한 후, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 따라서, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기를 웨이크업 시킬 필요가 없이, 직접 음성 데이터를 인식하여, 음성 데이터에 대응되는 동작을 수행하기에, 이때 사용자의 동작을 간소화 할뿐만 아니라, 전자기기는 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다. 또한, 본 출원의 실시예에 따른 방안은, 종래기술 중의 대량의 말뭉치 데이터를 수집하여 초기 웨이크업 모델에 대해 지속적인 훈련을 수행해야만이 웨이크업 모델을 획득할 수 있는 것을 방지하므로, 음성 처리의 원가를 줄일 수 있다.

상술한 각 실시예의 기초상에서, 타겟 응용 프로그램이 닫기거나 또는 백그라운드에서 실행되는 상태가 모니터링 되면, 전자기기는 해당 전자기기가 프리 웨이크업 기능을 종료하도록 제어한다.

여기서, 해당 전자기기가 프리 웨이크업 기능을 종료하도록 제어하는 것은, 전자기기가 웨이크업 엔진을 열도록 제어하는 것으로 이해할 수 있으며, 즉 전자기기가 웨이크업 단어를 통해 웨이크업된 후에만 비로소 계속 사용자에게 상응한 서비스를 제공할 수 있다.

본 실시예에서, 타겟 응용 프로그램이 닫기거나 또는 백그라운드에서 실행되는 상태가 모니터링 되면, 전자기기는 해당 전자기기가 프리 웨이크업 기능을 종료하도록 제어하기에, 이로부터 전자기기가 관련 동작을 수행하는 정확성을 향상할 수 있을뿐만 아니라 잘못된 트리거를 효과적으로 방지할 수 있다.

또한, 예시적으로, 전자기기가 웨이크업 엔진을 열은 후 인식 엔진을 닫을 수도 있으며, 이로부터 메모리를 절략하고 전력을 감소시킬 수 있다.

도 6은 본 출원의 실시예에 따른 음성 인터랙션 처리 장치(60)의 구조도이며, 예시적으로, 도 6을 참조하면, 해당 음성 인터랙션 처리 장치(60)는,

음성 데이터를 수신하는 수신모듈(601);

상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 상기 음성 라이브러리에는 상기 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되는 처리모듈(602)을 포함할 수 있으며,

상기 처리모듈(602)은 또한, 성공적으로 매칭될 때, 상기 음성 인터랙션 처리 장치가 프리 웨이크업 기능을 개시하도록 제어하고, 상기 음성 데이터에 대응되는 동작을 수행한다.

선택적으로, 상기 처리모듈(602)은 또한, 상기 타겟 응용 프로그램이 닫기거나 백그라운드에서 실행되고 있는 상태가 모니터링되면, 상기 음성 인터랙션 처리 장치가 프리 웨이크업 기능을 종료하도록 제어한다.

선택적으로, 상기 처리모듈(602)은 또한, 상기 타겟 응용 프로그램에 대응되는 음성 라이브러리를 구축한다.

선택적으로, 상기 수신모듈(601)은 또한, 업데이트 명령을 수신하되, 상기 업데이트 명령에는 타겟 응용 프로그램의 식별정보와 새로운 제어명령이 포함되고;

상기 처리모듈(602)은 또한, 상기 식별정보와 상기 새로운 제어명령을 기초로, 상기 타겟 응용 프로그램의 음성 라이브러리에 대해 업데이트 한다.

선택적으로, 상기 처리모듈(602), 구체적으로,

타겟 대상의 방향을 확정하고;

상기 타겟 대상이 상기 음성 인터랙션 처리 장치를 향하는 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

선택적으로, 상기 처리모듈(602), 구체적으로,

상기 타겟 대상이 상기 음성 인터랙션 처리 장치를 향하는 경우, 상기 타겟 대상과 상기 음성 인터랙션 처리 장치의 거리가 기설정값 미만인지 여부를 확정하고;

상기 타겟 대상과 상기 음성 인터랙션 처리 장치의 거리가 상기 기설정값 미만일 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시킨다.

선택적으로, 상기 처리모듈(602), 구체적으로,

상기 전자기기가 웨이크업 엔진을 닫고, 인식엔진을 열도록 제어한다.

본 출원의 실시예에 따른 음성 인터랙션 처리 장치(60)는, 상술한 임의의 한 실시예 중의 음성 인터랙션 처리 방법의 기술방안을 실행할 수 있으며, 그 구현 원리와 유익한 효과는 음성 인터랙션 처리 방법의 구현 원리와 유익한 유익한 효과와 유사하기에, 음성 인터랙션 처리 방법의 구현 원리 및 유익한 효과를 참조할 수 있으며, 여기서는 더 이상 중복하지 않는다.

본 출원의 실시예에 따르면, 본 출원은 전자기기 및 판독 가능 저장 매체를 더 제공한다.

도 7에 도시된 바와 같이, 도 7은 본 출원의 실시예의 음성 인터랙션 처리 방법을 위한 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자기기는 개인용 디지털 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.

도 7에 도시된 바와 같이, 해당 전자기기는, 하나 또는 다수의 프로세서(701), 메모리(702), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령은, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 필요하다면, 다수의 프로세서 및/또는 다수의 버스와 다수의 메모리를 함께 사용할 수 있다. 마찬가지로, 다수의 전자기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 7에서는 하나의 프로세서(701)를 예로 한다.

메모리(702)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 음성 인터랙션 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 해당 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 음성 인터랙션 처리 방법을 수행하도록 한다.

메모리(702)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 음성 인터랙션 처리 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 6에 도시된 수신모듈(601)과 처리 모듈(602))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(701)는 메모리(702)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 음성 인터랙션 처리 방법을 구현한다.

메모리(702)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 음성 인터랙션 처리 방법을 위한 전자기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(702)는 프로세서(701)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 인터랙션 처리 방법을 위한 전자기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

음성 인터랙션 처리 방법의 전자기기는, 입력장치(703) 및 출력장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력장치(703) 및 출력장치(704)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 7에서는 버스를 통한 연결을 예로 한다.

입력장치(703)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 음성 인터랙션 처리 방법에 따른 전자기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력장치(704)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨터 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, 용어 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

본 출원의 실시예에 따르면, 본 출원은 또한 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 해당 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 때, 상기 방법의 실시예에서의 음성 인터랙션 처리 방법을 구현한다.

본 출원의 실시예에 따른 기술방안은, 음성 데이터를 수신한 후, 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키고, 해당 음성 라이브러리에는 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되고, 성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 음성 데이터에 대응되는 동작을 수행한다. 따라서, 본 출원의 실시예는 수신된 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 성공적으로 매칭시킨 후, 전자기기를 웨이크업 시킬 필요가 없이, 직접 음성 데이터를 인식하여, 음성 데이터에 대응되는 동작을 수행하기에, 이때, 사용자의 동작을 간소화 할뿐만 아니라, 전자기기는 사용자에게 상응한 서비스를 제때에 제공할 수 있으며, 이로부터 사용자의 체험을 향상시킬 수 있다. 또한, 본 출원의 실시예에 따른 방안은, 종래기술 중의 대량의 말뭉치 데이터를 수집하여 초기 웨이크업 모델에 대해 지속적인 훈련을 수행해야만이 웨이크업 모델을 획득할 수 있는 것을 방지하므로, 음성 처리의 원가를 줄일 수 있다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

음성 데이터를 수신하는 단계;
상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 상기 음성 라이브러리에는 상기 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되는 단계;
성공적으로 매칭되면, 전자기기가 프리 웨이크업 기능을 개시하도록 제어하고, 상기 음성 데이터에 대응되는 동작을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 처리 방법.
제1항에 있어서, 상기 방법은,
상기 타겟 응용 프로그램이 닫기거나 백그라운드에서 실행되고 있는 상태가 모니터링되면, 상기 전자기기가 프리 웨이크업 기능을 종료하도록 제어하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 데이터와 상기 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 상기 단계 전에, 상기 방법은,
상기 타겟 응용 프로그램에 대응되는 음성 라이브러리를 구축하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 방법은,
업데이트 명령을 수신하되, 상기 업데이트 명령에는 타겟 응용 프로그램의 식별정보와 새로운 제어명령이 포함되는 단계;
상기 식별정보와 상기 새로운 제어명령을 기초로, 상기 타겟 응용 프로그램의 음성 라이브러리에 대해 업데이트 하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 단계는,
타겟 대상의 방향을 확정하는 단계;
상기 타겟 대상이 상기 전자기기를 향하는 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 타겟 대상이 상기 전자기기를 향하는 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 상기 단계는,
상기 타겟 대상이 상기 전자기기를 향하는 경우, 상기 타겟 대상과 상기 전자기기의 거리가 기설정값 미만인지 여부를 확정하는 단계;
상기 타겟 대상과 상기 전자기기의 거리가 상기 기설정값 미만일 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 전자기기가 프리 웨이크업 기능을 개시하도록 제어하는 단계는,
상기 전자기기가 웨이크업 엔진을 닫고, 인식엔진을 열도록 제어하는 단계를 포함하는 것을 특징으로 하는 방법.
음성 인터랙션 처리 장치에 있어서,
음성 데이터를 수신하는 수신모듈;
상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키되, 상기 음성 라이브러리에는 상기 타겟 응용 프로그램과 연관된 복수의 제어명령이 포함되는 처리모듈을 포함하고,
상기 처리모듈은 또한, 성공적으로 매칭될 때, 상기 음성 인터랙션 처리 장치가 프리 웨이크업 기능을 개시하도록 제어하고, 상기 음성 데이터에 대응되는 동작을 수행하는 것을 특징으로 하는 음성 인터랙션 처리 장치.
제8항에 있어서, 상기 처리모듈은 또한, 상기 타겟 응용 프로그램이 닫기거나 백그라운드에서 실행되고 있는 상태가 모니터링되면, 상기 음성 인터랙션 처리 장치가 프리 웨이크업 기능을 종료하도록 제어하는 것을 특징으로 하는 장치.
제8항에 있어서, 상기 처리모듈은 또한, 상기 타겟 응용 프로그램에 대응되는 음성 라이브러리를 구축하는 것을 특징으로 하는 장치.
제8항 내지 제10항 중 임의의 한 항에 있어서, 상기 수신모듈은 또한, 업데이트 명령을 수신하되, 상기 업데이트 명령에는 타겟 응용 프로그램의 식별정보와 새로운 제어명령이 포함되고;
상기 처리모듈은 또한, 상기 식별정보와 상기 새로운 제어명령을 기초로, 상기 타겟 응용 프로그램의 음성 라이브러리에 대해 업데이트 하는 것을 특징으로 하는 장치.
제8항 내지 제10항 중 임의의 한 항에 있어서, 상기 처리모듈은 구체적으로,
타겟 대상의 방향을 확정하고;
상기 타겟 대상이 상기 음성 인터랙션 처리 장치를 향하는 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 것을 특징으로 하는 장치.
제12항에 있어서, 상기 처리모듈은 구체적으로,
상기 타겟 대상이 상기 음성 인터랙션 처리 장치를 향하는 경우, 상기 타겟 대상과 상기 음성 인터랙션 처리 장치의 거리가 기설정값 미만인지 여부를 확정하고;
상기 타겟 대상과 상기 음성 인터랙션 처리 장치의 거리가 상기 기설정값 미만일 경우, 상기 음성 데이터와 현재 포어그라운드에서 실행되고 있는 타겟 응용 프로그램에 대응되는 음성 라이브러리를 매칭시키는 것을 특징으로 하는 장치.
제8항 내지 제10항 중 임의의 한 항에 있어서, 상기 처리모듈은 구체적으로,
상기 음성 인터랙션 처리 장치가 웨이크업 엔진을 닫고, 인식엔진을 열도록 제어하는 것을 특징으로 하는 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자기기.
컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서, 상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장매체.
컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제7항 중 임의의 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램.