KR20210088464A

KR20210088464A - 음성 인터랙션의 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품

Info

Publication number: KR20210088464A
Application number: KR1020210082557A
Authority: KR
Inventors: 진펑 바이; 쥐지엔 왕; 총 가오
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-11-10
Filing date: 2021-06-24
Publication date: 2021-07-14
Also published as: JP2021179642A; US20220005474A1; JP7262532B2; CN112466296A

Abstract

본 발명은 스마트 음성 및 딥 러닝 등 인공지능 기술 분야에 관한 것으로, 음성 인터랙션의 처리 방법, 장치, 전자 기기 및 저장 매체를 개시한다. 구체적인 구현 방법은, 사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하며, 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하며, 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 인터랙션 기기를 제어한다. 본 발명의 기술 방안에 따르면, 사용자의 음성 명령이 끝나는 즉시에 응답할 필요가 없으므로, 음성 인터랙션 기기의 "말을 가로채기" 현상을 방지할 수 있고, 사용자의 음성 명령에 응답하는 동작 대기시간을 셋팅할 수 있고, 또한 대기 시간에 기반하여 사용자의 음성 명령에 응답함으로써, 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

Description

음성 인터랙션의 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품{METHOD AND APPARATUS FOR PROCESSING VOICE INTERACTION, ELECTRONIC EQUIPMENT, STORAGE MEDIUM, AND COMPUTER PROGRAM PRODUCT}

본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히, 스마트 음성 및 딥 러닝 등 인공지능 기술 분야에 관한 것이고, 보다 구체적으로는, 음성 인터랙션의 처리 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

현재, 시장에 출시된 음성 인터랙션 기반의 제품들은 대부분 1회의 호출 - 1회의 인터랙션 형식으로 되어 있다. 상기 인터랙션 방식은 호출어 검측 기술과 제품 전략을 결합한 결과물이고, 이의 주요 특징은, 사용자가 상기 음성 인터랙션 기기를 활성화하기 위한 호출어를 부를 때마다, 내장된 호출어 검측 모듈은 상기 호출어 신호를 검측하고 인식하여, 감청을 가동하기 시작하며, 음성의 끝부분이 검측되거나 미리 설정된 시간이 되면 감청을 종료한다. 다음, 감청 과정에서 수신된 음성을 인식하고, 음성 인식 결과에 따라 사용자의 요구에 응답함으로써, 사용자의 수요에 응답하는 과정을 실행한다.

상술한 바에 기반하면, 종래 기술의 제품 전략은 호출어가 끝난 후의 몇 초 내지 십수 초 사이를 감청 과정으로 간주하고, 상기 과정에서 사용자는 호출어 이후의 음성 명령을 음성 인터랙션 기기로 내며, 음성 인터랙션 기기는 상기 음성 명령에 기반하여 이번 호출 후의 사용자의 요구에 응답한다는 것을 알 수 있다.

본 발명은 음성 인터랙션의 처리 방법, 장치, 전자 기기 및 저장 매체를 제공한다.

본 발명의 일 측면에 의하면, 음성 인터랙션의 처리 방법을 제공하며, 상기방법은,

사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령에 대한 제1 완전도를 예측하는 것,

상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하는 것, 및

상기 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하는 것을 포함한다.

본 발명의 다른 측면에 의하면, 음성 인터랙션의 처리 방법을 제공하며, 상기 방법은,

사용자의 음성 명령을 수신하는 것,

상기 사용자의 음성 명령을 클라우드 서버에 업로드하는 것,

상기 사용자의 음성 명령에 기반하여 상기 클라우드 서버에 의해 생성되어 상기 클라우드에서 의해 셋팅되고, 상기 사용자의 음성 명령이 끝난 후 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함하는 제어 명령을 수신하는 것, 및

상기 제어 명령 내의 상기 대기시간에 따라, 상기 사용자의 음성 명령에 응답하는 것을 포함한다.

본 발명의 또 다른 측면에 의하면, 클라우드 서버를 제공하며, 상기 클라우드 서버는,

사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령에 대한 제1 완전도를 예측하기 위한 예측 모듈,

상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하기 위한 셋팅 모듈,

상기 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하기 위한 제어 모듈을 포함한다.

본 발명의 또 다른 측면에 의하면, 음성 인터랙션 기기를 제공하며, 상기 음성 인터랙션 기기는, 수신 모듈, 업로드 모듈 및 응답 모듈을 포함하며,

상기 수신 모듈은 사용자의 음성 명령을 수신하기 위한 것이고,

상기 업로드 모듈은 상기 사용자의 음성 명령을 클라우드 서버에 업로드하기 위한 것이고,

상기 수신 모듈은 또한, 상기 사용자의 음성 명령에 기반하여 상기 클라우드 서버에 의해 생성된 제어 명령을 수신하기 위한 것이며, 상기 제어 명령은 상기 클라우드에서 셋팅되고, 상기 사용자의 음성 명령이 끝난 후 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함하고,

상기 응답 모듈은 상기 제어 명령 내의 상기 대기시간에 따라, 상기 사용자의 음성 명령에 응답하기 위한 것이다.

본 발명의 또 다른 측면에 의하면, 음성 인터랙션 기기 및 클라우드 서버를 포함하는 음성기 인터랙션 시스템을 제공하며, 상기 클라우드 서버와 상기 음성 인터랙션 기기는 통신 연결되고,

여기서, 상기 클라우드 서버는 상기 설명에 따른 클라우드 서버를 사용하며, 상기 음성 인터랙션 기기는 상기 설명에 따른 음성 인터랙션 기기를 사용한다.

본 발명의 또 다른 측면에 의하면, 전자 기기를 제공하며, 상기 전자 기기는,

적어도 하나의 프로세서, 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,

상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 상기 방법을 실행하게 한다.

본 발명의 또 다른 측면에 의하면, 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 명령어가 컴퓨터로 하여금 상기 방법을 실행하게 하기 위한 것이다.

본 발명의 기술 방안에 따르면, 사용자의 음성 명령이 끝나는 즉시 응답할 필요가 없으므로, 음성 인터랙션 기기의 "말을 가로채기" 현상을 방지할 수 있고, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하고, 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어할 수 있으므로, 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

본 명세서에 기술된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 지정하기 위한 것이 아니고, 또한, 본 발명의 범위를 한정하기 위한 것도 아님을 이해하여야 한다. 본 발명의 다른 특징들은 하기 설명으로부터 용이하게 이해할 수 있을 것이다.

첨부된 도면은 본 발명을 보다 쉽게 이해하도록 하기 위한 것이고, 본 발명은 이에 한정되지 않는다.
도 1은 본 발명에 따른 제1 실시예의 개략도이다.
도 2는 본 발명의 실시예에 따른 음성 인터랙션의 처리 방법에 대한 응용 장면 개략도이다.
도 3은 본 발명에 따른 제2 실시예의 개략도이다.
도 4는 본 발명에 따른 제3 실시예의 개략도이다.
도 5는 본 발명에 따른 제4 실시예의 개략도이다.
도 6은 본 발명에 따른 제5 실시예의 개략도이다.
도 7은 본 발명에 따른 제6 실시예의 개략도이다.
도 8은 본 발명에 따른 제7 실시예의 개략도이다.
도 9는 본 발명에 따른 제8 실시예의 개략도이다.
도 10은 본 발명의 실시예에 따른 음성 인터랙션의 처리 방법을 구현하기 위한 전자 기기의 블록도이다.

이하, 도면을 결합하여 본 발명의 예시적인 실시예들을 설명한다. 쉽게 이해할 수 있도록, 본 명세서에서 설명한 각 실시예의 세부사항을 포함하게 되는데, 이들은 단지 예시적인 것에 불과하다. 따라서, 당업자라면 본 발명의 범위 및 취지를 벗어나지 않으면서 본 발명의 실시예에 대해 여러가지 변경 및 수정이 이루어질 수 있음을 이해할 것이다. 또한, 명확성과 간결성을 위해 하기의 설명에 있어서, 공지된 기능 및 구성에 대한 설명은 생략한다.

도 1은 본 발명에 따른 제1 실시예의 개략도이다. 도 1에 도시된 바와 같이, 본 실시예가 음성 인터랙션의 처리 방법을 제공하며, 구체적으로, 하기와 같은 단계들을 포함할 수 있다.

단계 S101에서, 사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측한다.

단계 S102에서, 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅한다.

단계 S103에서, 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어한다.

본 실시예에 따른 음성 인터랙션의 처리 방법의 실행 주체는 클라우드 서버이고, 즉, 본 실시예에 따른 음성 인터랙션의 처리 방법은 클라우드 서버측에서 구현된다. 음성 인터랙션 기기측은 일반적인 처리 방식에 따라, 클라우드 서버와 배합하여 음성 인터랙션 처리를 구현하면 된다.

도 2는 본 실시예에 따른 음성 인터랙션의 처리 방법에 대한 응용 장면 개략도이다. 도 2에 도시된 바와 같이, 음성 인터랙션 중, 사용자는 음성 인터랙션 기기로 호출어의 음성 및 사용자의 음성 명령을 낼 수 있다. 호출어가 검측되면 음성 인터랙션 기기는 활성화된다. 또한, 호출어 이후의 사용자의 음성 명령에 대해 감청하여, 클라우드 서버에 업로드한다. 클라우드 서버는 수신된 사용자의 음성 명령에 기반하여 음성 인터랙션 처리를 실행한다.

본 실시예에 따른 기술 방안은, 음성 인터랙션 기기가 사용자에 의한 호출어가 검측되어 활성화된 후, 사용자의 음성 명령에 기반하여 구현되는 음성 인터랙션 방안에 적용된다.

구체적으로, 클라우드 서버가 음성 인터랙션 기기로부터 발송된 사용자의 음성 명령을 수신한 후, 우선 상기 사용자의 음성 명령이 고빈도 명령인지에 대해 검측해야 한다. 예를 들어, 본 실시예에 따라 고빈도 명령 라이브러리가 미리 셋팅될 수 있고, 고빈도 명령 라이브러리에는 모든 고빈도 명령이 수집될 수 있으며, 구체적인 고빈도 명령의 콘텐츠는 음성 인터랙션 기기의 응용 장면과 연관된다. 예를 들어, 음성 인터랙션 기기가 스마트 스피커인 경우, 대응하는 고빈도 명령은 시작, 중지, 닫기, 이전 노래, 다음 노래, 소리 크게, 소리 낮게 등을 포함할 수 있다. 또한, 음성 인터랙션 기기가 스마트 홈 기기인 경우, 대응하는 고빈도 명령은 조명 켜기, 조명 끄기, 에어컨 켜기, 에어컨 닫기, 온도 높게, 온도 낮게 등을 포함할 수 있다. 음성 인터랙션 기기가 스마트 차량 탑재 기기인 경우, 대응하는 고빈도 명령은 차창 열기, 차창 닫기, 노래 열기, 노래 닫기, 네비게이션 열기, 네비게이션 닫기 등을 포함할 수 있다.

임의의 장면에서, 고빈도 명령 라이브러리 내의 고빈도 명령은 음성 명령일 수 있고, 음성 명령에 대해 음성 인식한 후의 텍스트 명령일 수도 있다. 음성 인터랙션 기기는 고빈도 명령 라이브러리에 기반하여 사용자의 음성 명령이 고빈도 명령인지에 대해 검측할 수 있고, 검측 과정에서 고빈도 명령이 음성 명령인 경우, 사용자의 음성 명령은 고빈도 명령 라이브러리 내의 각 고빈도 명령과 직접 비교될 수 있다. 비교 결과가 매칭되는 경우, 사용자의 음성 명령이 고빈도 명령임을 판단할 수 있고, 사용자의 음성 명령이 고빈도 명령 라이브러리 내의 모든 고빈도 명령과 일치하지 않은 경우, 사용자의 음성 명령이 비 고빈도 명령임으로 판단할 수 있다. 마찬가지로, 고빈도 명령 라이브러리 내의 고빈도 명령이 텍스트 형태인 경우, 우선 사용자의 음성 명령에 대해 음성 인식하여 텍스트 형태의 사용자 명령을 획득할 수 있고, 다음, 텍스트 형태의 사용자 명령을 각각 고빈도 명령 라이브러리 내의 고빈도 명령들과 비교하여, 텍스트 형태의 사용자 명령이 고빈도 명령인지에 대해 검측한다. 비교 과정은 동일하므로, 여기서는 설명을 생략한다.

사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 본 실시예에 따라 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측할 수 있다. 구체적인 구현 과정에서, 사용자의 음성 명령 또는 사용자의 음성 명령의 텍스트 형대를 완전성 검측 모델에 입력할 수 있고, 상기 완전성 검측 모델은 사용자의 음성 명령의 시맨틱의 완전도를 예측하여 제1 완전도를 획득할 수 있다. 예를 들어, 상기 제1 완전도는 수요에 따라 0-1사이에서 설정될 수 있으며, 그 값이 클수록 사용자의 음성 명령의 시맨틱 완전성이 좋다는 것을 표시하고, 반면, 값이 낮을수록 사용자의 음성 명령의 시맨틱 완전성이 낮다는 것을 표시한다.

본 실시예에 따른 완전성 검측 모델은 신경망 모델일 수 있고, 훈련 전, 복수의 훈련 샘플을 수집할 수 있으며, 각 훈련 샘플은 훈련 사용자의 음성 명령 및 인공으로 라벨링된 상기 훈련 사용자의 음성 명령의 완전도를 포함할 수 있다. 예를 들어, 일부 완전도가 큰 훈련 사용자의 음성 명령을 수집할 수 있고, 이에 대한 완전도를 1로 라벨링하여, 긍정적훈련 샘플로 사용할 수 있다. 동시에, 일부 완전도가 매우 낮은 훈련 사용자의 음성 명령을 수집할 수도 있으며, 이에 대한 완전도를 0으로 라벨링하여, 부정적 훈련 샘플로 사용할 수 있다. 훈련 중, 각 훈련 샘플은 완전성 검측 모델에 입력되며, 상기 완전성 검측 모델은 입력된 훈련 샘플 중의 훈련 사용자의 음성 명령에 기반하여, 상기 훈련 사용자의 음성 명령의 완전도를 예측할 수 있다. 다음, 예측된 훈련 사용자의 음성 명령의 완전도와 라벨링된 훈련 사용자의 음성 명령의 완전도를 비교하여, 일치하는지를 확인하며, 일치하지 않은 경우, 예측된 훈련 사용자의 음성 명령의 완전도가 라벨링된 훈련 사용자의 음성 명령의 완전도에 접근하도록 완전도 검측 모델의 파라미터를 조정한다. 복수의 훈련 샘플을 사용하여, 사전 설정된 차례수의 연속 훈련 중, 예측된 훈련 사용자의 음성 명령의 완전도가 라벨링된 훈련 사용자의 음성 명령의 완전도와 일치될 때까지 상기 방법에 따라 완전도 검측 모델을 지속적으로 훈련하고, 이때 훈련이 종료되고, 완전도 검측 모델의 파라미터가 결정되며, 나아가 완전도 검측 모델이 결정된다.

본 실시예에 따르면, 사용자의 음성 명령에 대한 제1 완전도가 획득된 후, 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅할 수 있다. 이는 또한, 본 발명의 실시예에서, 제1 완전도와 미리 설정된 완전도 임계치의 상이한 크기 관계에 따라, 상이한 대기시간을 셋팅할 수 있고, 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어할 수 있음을 의미한다. 이는, 사용자의 음성 명령이 끝나는 즉시에 응답하여, 음성 인터랙션 과정에서 사용자가 일시 정지하는 경우에도 응답하게 되어, 음성 인터랙션 기기의 "말을 가로채기" 현상이 발생하므로, 사용자의 음성 명령의 동작에 정확하게 응답하지 못하는 종래 기술과는 다르다.

본 실시예에 따른 음성 인터랙션의 처리 방법은, 사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하고, 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하고, 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어함으로써, 사용자의 음성 명령이 끝나는 즉시에 응답할 필요가 없으므로, 음성 인터랙션 기기의 "말을 가로채기" 현상을 방지할 수 있고, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하고, 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어함으로써, 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

도 3은 본 발명에 따른 제2 실시예의 개략도이다. 도 3에 도시된 바와 같이, 상기 도 1에 도시된 실시예의 기술 방안의 기초에, 본실시예에 따른 음성 인터랙션의 처리 방법의 기술 구성이 보다 더 구체적으로 설명된다. 도 3에 도시된 바와 같이, 본 실시예에 따른 음성 인터랙션의 처리 방법은 구체적으로 하기와 같은 단계들을 포함할 수 있다.

단계 S301에서는, 음성 인터랙션 기기에 의해 업로드된 사용자의 음성 명령을 수신한다.

음성 인터랙션 기기에서, 상기 사용자의 음성 명령은 음성 인터랙션 기기에 의해 감청되어 사용자가 시작한 음성 명령이다.

단계 S302에서는, 미리 설정된 고빈도 명령 라이브러리에 기반하여, 사용자의 음성 명령이 고빈도 명령인지에 대해 검측한다. 고빈도 명령이 아닌 경우, 단계 S303이 실행되고, 고빈도 명령이면, 단계 S307이 실행된다.

단계 S303에서는, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하고, 단계 S304를 실행한다.

상기 제1 완전도는 즉 사용자의 음성 명령의 완전도를 표시한다.

단계 S304에서는, 제1 완전도가 미리 설정된 완전도 임계치 이상인지를 판단하고, 이상인 경우, 단계 S305가 실행되고, 그렇지 않으면, 단계 S306이 실행된다.

본 발명의 실시예에 따른 미리 설정된 완전성 임계치는 실제 경험에 따라 설정될 수 있고, 본 명세서에서는 구체적인 값에 대해 한정하지 않는다.

단계 S305에서는, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하고, 단계 S308을 실행한다.

예를 들어, 본 실시예에 따른 제1 대기시간은 실제 경험에 기반하여 너무 길거나 너무 짧지 않은 합리적인 시간으로 설정할 수 있고, 예를 들어 300㎳, 320㎳ 또는 다른 시간을 설정할 수 있으며, 본 명세서에서는 이에 대해 한정하지 않는다.

단계 S306에서는, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하고, 제2 대기시간은 제1 대기시간보다 길고, 단계 S315를 실행한다.

마찬가지로, 본 발명의 실시예에 따른 제2 대기시간은 실제 경험에 기반하여 설정할 수 있고, 예를 들어 800㎳, 7800㎳ 또는 다른 시간을 설정할 수 있으며, 다만 제1 대기시간보다 길면 되며, 본 명세서에서는 이에 대해 한정하지 않는다.

본 실시예에 따르면, 제1 완전도와 미리 설정된 완전도 임계치의 상이한 크기 관계에 따라, 합리적으로 상이한 대기시간을 셋팅하여, 음성 인터랙션의 지능성을 효과적으로 향상시킬 수 있다.

단계 S307에서는, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제3 대기시간으로 셋팅하고, 제3 대기시간은 제1 대기시간보다 짧으며, 단계 S322가 실행된다.

마찬가지로, 본 발명의 실시예에 따른 제3 대기시간은 실제 경험에 기반하여 설정할 수 있고, 예를 들어160㎳, 180㎳ 또는 다른 시간을 설정할 수 있으며, 다만 제1 대기시간보다 짧으면 되며, 본 명세서에서는 이에 대해 한정하지 않는다.

단계 S308에서는, 사용자의 음성 명령이 수신된 후의 대기시간은 제1 대기시간이 되는지를 검측하고, 되는 경우, 제1 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 되지 않으면, 단계 S309를 실행한다.

단계 S309에서는, 사용자의 보충 음성 명령이 수신되는지를 검측하고, 수신되지 못한 경우, 단계 S308로 돌아가서 계속 검측하며, 수신되면, 단계 S310을 실행한다.

설명해야 할 것은, 수신된 상기 사용자의 보충 음성 명령은 여전히 음성 인터랙션 기기에 의해 감청되고, 클라우드 서버에 업로드된 것이다.

단계 S310에서는, 미리 설정된 고빈도 명령 라이브러리에 기반하여, 사용자의 보충 음성 명령이 고빈도 명령인지에 대해 검측하고, 고빈도 명령이 아닌 경우, 단계 S311을 실행하고, 고빈도 명령이면, 단계 S323을 실행한다.

단계 S311에서는, 완전성 검측 모델을 사용하여, 사용자의 음성 명령 및 사용자의 보충 음성 명령으로 구성된 결합 명령에 대한 제2 완전도를 예측하고, 단계 S312를 실행한다.

이 과정은, 상기 실시예에 따른 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하는 구현 과정과 동일하므로, 여기서는 설명을 생략한다.

단계 S312에서는, 제2 완전도가 제1 완전도보다 큰지에 대해 판단하고, 큰 경우, 단계 S313을 실행하고, 그렇지 않으면, 일시적으로 임의의 동작도 실행하지 않고, 단계 S305에 셋팅된 제1 대기시간을 계속 유지하게 되며, 단계 S308로 돌아가서 계속 검측한다.

단계 S313에서는, 제2 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하며, 단계 S314를 실행한다.

구체적으로, 이 분기에서, 상기 단계 S304 내지 상기 단계 S305에는 제1 완전도는 미리 설정된 완전도 임계치보다 ㅋ,고, 또한 제2 완전도는 제1 완전도보다 크기 때문에, 이 분기 내의 제2 완전도는 필히 미리 설정된 완전도 임계치보다는 클 것이다. 그러므로 대응하는 업데이트 작업은 구체적으로 하기 단계들을 포함할 수 있다.

（a1）사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하고, 즉, 상기 제1 대기시간에 대한 셋팅을 삭제한다.

（b1）제2 완전도가 미리 설정된 완전도 임계치 이상인 것에 기반하여, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅한다.

즉, 대기시간은 여전히 제1 대기시간이나, 전에는 사용자의 음성 명령이 끝나는 시점부터 카운팅을 시작하고, 업데이트 후에는 사용자의 보충 음성 명령이 끝나는 시점부터 카운팅이 시작된다.

실제 응용 중에 사용자의 "신속" 질문은, 음성 인터랙션 과정에서 사용자가 정확하고 신속하게 질문을 표현하고, 이에 신속한 응답을 기대하는 것을 의미한다. "주저" 질문은, 음성 인터랙션 과정에서 사용자가 보다 더 정확한 응답을 획득하기 위해 머뭇거리는 방식으로 단계적으로 질문에 대해 설명함으로써, 질문에 대한 설명을 보다 완벽하게 하는 것을 의미한다. 본 실시예의 기술 방안에 따르면, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하는 것을 통해, 사용자의 "신속" 질문에 기반한 응답을 구현할 수 있다. 또한, 셋팅 정보를 업데이트함으로써, 사용자의 "주저" 질문에 대한 적어도 두개의 세그먼트 질문을 하나의 완전한 질문으로 응답할 수 있게 하여, "신속" 질문과 "주저" 질문이 균형에 달성하도록 하여, 음성 인터랙션의 지능성을 효과적으로 향상시킬 수 있다.

단계 S314에서는, 사용자의 보충 음성 명령이 수신된 후의 대기시간은 제1 대기시간이 되는지를 검측하고, 되는 경우, 제1 대기시간에 기반하여 결합 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 되지 않으면, 단계 S314로 돌아가서 계속 검측한다.

설명해야 할 것은, 단계 S314에서, 사용자가 보충 음성 명령을 단 한번만 보충한 경우를 예로 들어 설명한다. 실제 응용에서, 사용자의 보충 음성 명령이 수신된 후의 대기시간은 제1 대기시간이 되기 전에, 사용자의 다음 보충 음성 명령이 계속 수신될 가능성이 있어, 이 것으로 유추하면, 이 로직에 따라 여러 차례의 음성 명령이 반복으로 보충될 수 있고, 즉, 1회의 호출후의 복수의 인터액션 동작이 구현될 수 있다. 구체적으로는, 상기 단계 S308 내지 단계 S313의 동작을 추가하면 되며, 여기서는 설명을 생략한다.

단계 S315에서는, 사용자의 음성 명령이 수신된 후의 대기시간은 제2 대기시간이 되는지를 검측하고, 되는 경우, 제2 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 되지 않으면, 단계 S316을 실행한다.

단계 S316에서는, 사용자의 보충 음성 명령이 수신되는지를 검측하고, 수신되지 못한 경우, 단계 S315로 돌아가서 계속 검측하며, 수신되면, 단계 S317을 실행한다.

단계 S317에서는, 미리 설정된 고빈도 명령 라이브러리에 기반하여, 사용자의 보충 음성 명령이 고빈도 명령인지에 대해 검측하고, 고빈도 명령이 아닌 경우, 단계 S318을 실행하고, 반면에 고빈도 명령이면, 단계 S323을 실행한다.

단계 S318에서는, 완전성 검측 모델을 사용하여, 사용자의 음성 명령 및 사용자의 보충 음성 명령으로 구성된 결합 명령에 대한 제2 완전도를 예측하고, 단계 S319를 실행한다.

단계 S319에서는, 제2 완전도가 제1 완전도보다 큰지에 대해 판단하고, 큰 경우, 단계 S320을 실행하고, 반면에 크지 않으면, 일시적으로 임의의 동작도 실행하지 않고, 단계 S306에 셋팅된 제2 대기시간을 계속 유지하게 되며, 단계 S315로 돌아가서 계속 검측한다.

단계 S320에서는, 제2 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하고, 단계 S321을 실행한다.

구체적으로, 이 분기에서, 상기 단계 S304와 단계 S306 중의 제1 완전도는 미리 설정된 완전도 임계치보다 낮고, 제2 완전도는 또한 제1 완전도보다 크지만, 제2 완전도가 제1 완전도 임계치보다 큰지에 대해 확인할 수가 없다. 따라서, 이 분기에서, 제2 완전도가 미리 설정된 완전도 임계치보다 큰지에 대해 추가로 판단해야만 업데이트 셋팅 작업을 진행할 수 있고, 구체적으로는 하기 단계들을 포함할 수 있다.

（a2）사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하고, 즉, 상기 제2 대기시간에 대한 셋팅을 삭제한다.

（b2）제2 완전도가 미리 설정된 완전도 임계치보다 큰지에 대해 판단하고, 큰 경우, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅한다. 반면에 크지 않으면, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅한다.

단계 S321에서는, 사용자의 보충 음성 명령이 수신된 후의 대기시간은 셋팅된 대기시간이 되는지를 검측하고, 되는 경우, 셋팅된 대기시간에 기반하여 결합 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 반면에 되지 않으면, 단계 S321로 돌아가서 계속 검측한다.

단계 S322에서는, 사용자의 음성 명령이 수신된 후의 대기시간은 제3 대기시간이 되는지를 검측하고, 되는 경우, 제3 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 반면에 되지 않으면, 단계 S322로 돌아가서 계속 검측한다.

이때, 사용자의 음성 명령은 고빈도 명령이고, 제3 대기시간이 상대적으로 짧기 때문에, 이 과정에서 사용자의 보충 음성 명령을 더 이상 검측하지 않는다.

또는, 선택 가능하게, 상기 단계 S322 이후, 사용자의 음성 명령 후의 대기시간은 제3 대기시간이 되지 않는 경우, 다음 고빈도 명령이 수신되는지를 검측하여, 수신되는 경우, 동일한 방식으로 다음 고빈도 명령에 응답하는 대기시간을 제3 대기시간으로 셋팅하 되, 구현 원리는 상술한 바와 같다. 이때, 이전의 고빈도 명령에 대응하는 응답 동작이 실행되기 전에 새로운 고빈도 명령이 수신되면, 이전 고빈도 명령에 대응하는 응답 동작을 더 이상 실행하지 않고, 새로운 고빈도 명령에 응답하는 동작을 실행할 준비를 하는 것에 해당하다.

단계 S323에서는, 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하고, 단계 S324를 실행한다.

이때 수신된 사용자의 보충 음성 명령은 고빈도 명령이므로, 대응하는 업데이트 셋팅 작업은 구체적으로 하기 단계를 포함할 수 있다.

（a3）사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하고, 즉, 상기 제1 대기시간에 대한 셋팅을 삭제한다.

（b3）사용자의 보충 음성 명령이 끝난 후, 사용자의 보충 음성 명령에 응답하는 동작의 대기시간을 제3 대기시간으로 셋팅한다.

즉, 이때 사용자의 음성 명령의 동작에 더 이상 응답하지 않고, 사용자의 보충 음성 명령에 응답하는 동작의 대기시간을 직접 셋팅하여, 사용자의 보충 음성 명령에 정확하게 응답하게 한다. 마찬가지로, 상기 방안은 "신속" 질문과 "주저" 질문에 대한 응답의 균형을 이룰 수 있으므로, 음성 인터랙션의 지능성을 효과적으로 향상시킬 수 있다.

단계 S324에서는, 사용자의 보충 음성 명령이 수신된 후의 대기시간은 제3 대기시간이 되는지를 검측하고, 되는 경우, 제3 대기시간에 기반하여 사용자의 보충 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하고, 종료한다. 되지 않으면, 단계 S324 로 돌아가서 계속 검측한다.

상기 단계 S305, 단계 S306 및 단계 S307을 비교하면 알 수 있는 바와 같이, 사용자의 음성 명령이 고빈도 명령인 경우, 고빈도 명령은 매우 명확한 명령이고, 완전성이 매우 크므로, 제3 대기시간과 같은 가장 짧은 대기시간을 셋팅할 수 있다. 가장 짧은 대기시간을 셋팅함으로써, 가장 빠른 응답을 할 수 있다. 사용자의 음성 명령에 대한 제1 완전도가 비교적 좋은 경우, 즉, 미리 설정된 완전도 임계치보다 큰 경우, 상기 사용자의 음성 명령의 완전도가 상대적으로 좋은 편이고 완전한 것으로 판단할 수 있으므로, 사용자의 음성 명령에 응답하기 위해, 제1 대기시간과 같은 조금 짧은 대기시간을 설정할 수 있다. 또한, 사용자의 음성 명령에 대한 제1 완전도가 비교적 낮은 경우, 즉, 미리 설정된 완전도 임계치보다 낮은 경우, 상기 사용자의 음성 명령의 완전도가 상대적으로 낮고 완전하지 않은 것으로 판단할 수 있으므로, 제2 대기시간과 같은 조금 긴 대기시간을 설정하여, 사용자의 음성 명령에 응답함으로써, 사용자의 음성 명령에 보다 더 효과적으로 응답하도록 사용자가 음성 명령을 보충할 필요가 있는지에 대해 검측하여, 음성 명령의 완전성을 보충한다. 예를 들어, 사용자가 질문에 대해 설명하는 과정에서 머뭇거리는 현상이 있다. 머뭇거리는 동안 사용자의 음성 명령은 짧은 정지가 있기 때문에, 이때, 음성 인터랙션 기기는 사용자의 음성 명령과 보충 음성 명령을 단계적으로 수집할 수 있고, 본 발명의 실시예의 구현 방식에 따라, 사용자의 음성 명령에 정확하게 응답하도록 1회의 호출 - 복수의 인터랙션을 구현할 수 있다. 이로써, 효과적으로 사용자의 "신속" 질문과 "주저" 질문 사이의 균형을 이루어, 상황에 따라 상이한 대기시간을 설정하여, 지향성 있게 응답함으로써 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

본 발명의 실시예에 따른 처리 과정에서, 고빈도 명령의 검측 및 완전도 예측에는 일정한 우선 순위가 있는 바, 임의의 사용자의 음성 명령에 대해, 해당 사용자의 음성 명령이 고빈도 명령인지에 대해 우선 검측하고, 고빈도 명령이 아닌 경우, 사용자의 음성 명령의 완전도를 예측한다.

본 실시예에 따르면, 완전도는 두 단계로 나뉘어 처리되고, 예를 들어, 제1 완전도는 완전도 임계치에 기반하여 나뉘어진다. 실제 응용에서, 실제 수요에 따라 보다 더 세부적으로 분류할 수 있고, 예를 들어 제1 완전도 임계치 및 제2 완전도 임계치와 같은 두개 상이한 완전도 임계치를 설정하고, 제1 완전도 임계치는 제2 완전도 임계치보다 크다. 제1 완전도가 제1 완전도 임계치 이상인 경우, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제4 대기시간으로 셋팅하고, 제1 완전도가 제1 완전도 임계치보다 낮고 제2 완전도 임계치 이상인 경우, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제5 대기시간으로 셋팅하며, 제1 완전도가 제2 완전도 임계치보다 낮은 경우, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제6 대기시간으로 셋팅하는 등이다. 이에 따라 유추하면, 보다 더 상세하게 분류할 수 있고, 상이한 분류에 따른 보다 더 많은 대기시간을 셋팅할 수 있으며, 여기서는 설명을 생략한다.

본 발명의 실시예에 따른 음성 인터랙션의 처리 방법은, 상기 기술 방안을 사용함으로써, 효과적으로 사용자의 "신속" 질문과 "주저" 질문 사이의 균형을 이루어, 사용자와 음성 인터랙션 기기 사이의 1회의 호출 - 복수회의 인턴랙션 방식을 구현하여, 음성 인터랙션의 지능성을 효과적으로 향상시키고, 사용자의 사용 체험을 향상시킬 수 있다.

도 4는 본 발명에 따른 제3 실시예의 개략도이다. 도 4에 도시된 바와 같이, 본 실시예에 따른 음성 인터랙션의 처리 방법은, 구체적으로 하기 단계들을 포함할 수 있다.

단계 S401에서, 사용자의 음성 명령을 수신한다.

단계 S402에서, 사용자의 음성 명령을 클라우드 서버로 업로드한다.

단계 S403에서, 사용자의 음성 명령에 기반하여 클라우드 서버에 의해 생성된 제어 명령을 수신한다. 상기 제어 명령은 클라우드에 의해 셋팅된 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함한다.

단계 S404에서, 제어 명령 내의 대기시간에 따라, 사용자의 음성 명령에 응답한다.

본 실시예에 따른 음성 인터랙션의 처리 방법의 실행 주체는 음성 인터랙션 기기이고, 이 음성 인터랙션 기기는 단말기 측에 위치하는 기기이다. 예를 들어, 상기 음성 인터랙션 기기는 스마트 스피커, 스마트 홈 기기, 스마트 차량 탑재 기기 등일 수 있다.

음성 인터랙션 장면에서, 사용자가 음성 명령을 발송한 후, 우선 음성 인터랙션 기기에 의해 사용자의 음성 명령이 수신된다. 하지만, 본 실시예에 따른 장면에서, 음성 인터랙션 기기는 상기 사용자의 시맨틱 명령을 직접 처리하지 않고, 사용자의 음성 명령을 클라우드 서버에 직접 업로드할 수 있다. 대응적으로, 클라우드 서버는 사용자의 음성 명령을 수신한 후, 상기 도 1에 도시된 실시예의 방법을 사용하여, 사용자의 음성 명령에 기반하여 처리할 수 있다. 사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하며, 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하며, 또는, 도 3에 도시된 실시예에 따라, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하고, 음성 인터랙션 기기로 발송한 제어 명령에는 클라우드에 의해 셋팅된 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함한다. 구체적인 대기시간의 셋팅 과정은 상기 도 1 또는 도 3에 도시된 실시예에 대한 설명을 참조할 수 있고, 여기서는 설명을 생략한다.

본 발명의 실시예에 따른 음성 인터랙션의 처리 방법은, 사용자의 음성 명령을 수신하고, 사용자의 음성 명령을 클라우드 서버로 업로드하고, 사용자의 음성 명령에 기반하여 클라우드 서버에 의해 생성된 제어 명령을 수신하고, 제어 명령 내의 대기시간에 따라, 사용자의 음성 명령에 응답하며, 상기 제어 명령은 클라우드에 셋팅된 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함한다. 본 발명의 기술 방안에 따르면, 사용자의 음성 명령이 끝나는 즉시에 응답할 필요가 없으므로, 음성 인터랙션 기기의 "말을 가로채기" 현상을 방지할 수 있고, 클라우드 서버에 셋팅된 사용자의 음성 명령에 응답하는 동작의 대기시간에 따라, 사용자의 음성 명령에 응답함으로써, 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

도 5는 본 발명에 따른 제4 실시예의 개략도이다. 도 5에 도시된 바와 같이, 본 발명의 실시예는 구체적으로 음성 인터랙션의 처리 방법을 설명하며, 사용자의 음성 입력 순서가 "듣고 싶다/가수 A/노래 X/다음 노래"인 경우를 예로 들어 설명한다.

이하, 상기 본 발명의 실시예에 따른 기술 방안을 사용하여, 이 실시예의 음성 인터랙션 과정에 대해 설명한다.

도 5에 도시된 바와 같이, 우선, 클라우드 서버는 음성 인터랙션 기기에 의해 업로드된 사용자의 1 번째 음성 명령 "듣고 싶다"를 수신한다. 클라우드 서버는 우선 상기 1 번째 음성 명령이 고빈도 명령인지에 대해 검측하여, 고빈도 명령이 아닌 경우, 완전성 검측 모델을 사용하여 상기 1 번째 음성 명령의 완전도를 예측하고, 예를 들어 제1 완전도로 기록한다. 다음, 제1 완전도가 미리 설정된 완전도 임계치 이상인지를 판단하고. 예를 들어, 본 실시예에서 상기 제1 완전도가 미리 설정된 완전도 임계치보다 낮은 것으로 검측된다. 이에 따라, 사용자의 1 번째 음성 명령이 끝난 후, 사용자의 1 번째 음성 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅할 수 있다.

나아가, 도 5에 도시된 바와 같이, 1 번째 음성 명령이 끝나고 제2 대기시간이 아작 되지 않은 과정에, 클라우드 서버는 음성 인터랙션 기기로부터 업로드된 사용자의 2 번째 음성 명령 "가수 A"를 수신한다. 이때, 클라우드 서버는 우선 상기 "가수A"가 고빈도 명령인지에 대해 검측하고, 검측 결과 고빈도가 아닌 것으로 판단된다. 따라서, 상기 2 번째 음성 명령이 1 번째 음성 명령에 대한 보충 명령임으로 판단할 수 있고, 이때, 1 번째 음성 명령과 2 번째 음성 명령을 결합하여 "가수 A를 듣고 싶다"라는 하나의 결합 명령을 생성할 수 있다. 그리고, 완전성 검측 모델을 사용하여 상기 결합 명령의 완전도를 예측하고, 예를 들어 제2 완전도로 기록한다. 다음, 제2 완전도가 제1 완전도보다 큰지에 대해 판단하고, 검측 결과 상기 제2 완전도는 확실히 제1 완전도보다 크다. 나아가, 상기 제2 완전도가 미리 설정된 완전도 임계치 이상인지를 판단하고, 예를 들어, 본 실시예에서, 상기 제2 완전도는 마침 미리 설정된 완전도보다 큰 것으로 판단된다. 이때, 원래 셋팅된 내용을 삭제하고, 즉, 사용자의 1 번째 음성 명령이 끝난 후, 사용자의 1 번째 음성 명령에 응답하는 동작의 대기시간이 제2 대기시간이라는 셋팅을 삭제하고, 사용자의 2 번째 음성 명령이 끝난 후, 1 번째 음성 명령과 2번째 음성 명령의 결합 명령에 응답하는 대기시간을 제1 대기시간으로 업데이트하여 셋팅한다.

또한 나아가, 도 5에 도시된 바와 같이, 제2 음성 명령이 끝나고 제1 대기시간이 아직 되지 않은 과정에, 클라우드 서버는 음성 인터랙션 기기로부터 업로드된 사용자의 3 번째 음성 명령 "노래X"를 다시 수신한다. 이때, 클라우드 서버는 우선 상기 "노래X"가 고빈도 명령인지에 대해 검측하고, 검측된 결과 고빈도가 아닌 것으로 판단된다. 따라서, 상기 3 번째 음성 명령은 1 번째 음성 명령 및 2 번째 음성 명령에 이은 보충 명령임으로 판단할 수 있고, 이때, 1 번째 음성 명령, 2 번째 음성 명령 및 3 번째 음성 명령을 결합하여 "가수 A, 노래X를 듣고 싶다"라는 하나의 결합 명령을 생성할 수 있으며, 즉, 노래 X는 가수 A의 노래임을 표시한다. 그리고, 완전성 검측 모델을 사용하여 상기 결합 명령의 완전도를 예측하고, 예를 들어 제3 완전도로 기록한다. 다음, 제3 완전도가 제2 완전도보다 큰지에 대해 판단하고, 검측된 결과 상기 제3 완전도는 확실히 제2 완전도보다 크다. 제2 완전도는 미리 설정된 완전도 임계치보다 크고, 상기 제3 완전도는 제2 완전도보다 크기 때문에, 제3 완전도는 필히 미리 설정된 완전도 임계치보다도 클 것이다. 따라서, 이때 원래의 셋팅을 삭제하고, 즉, 사용자의 2 번째 음성 명령이 끝난 후, 사용자의 1 번째 음성 명령 및 2번째 음성 명령의 결합 명령에 응답하는 동작의 대기시간이 제1 대기시간이라는 셋팅을 삭제하고, 사용자의 3 번째 음성 명령이 끝난 후, 1 번째 음성 명령, 2 번째 음성 명령 및 3 번째 음성 명령의 결합 명령에 응답하는 대기시간을 제1 대기시간으로 업데이트하여 셋팅한다.

또한 나아가, 도 5에 도시된 바와 같이, 3번째 음성 명령이 끝나고 제1 대기시간이 아직 되지 않은 때에, 클라우드 서버는 음성 인터랙션 기기로부터 업로드된 사용자의 4번째 음성 명령 "다음 노래"를 다시 수신한다. 이때, 클라우드 서버는 우선 상기 "다음 노래"이 고빈도 명령인지에 대해 검측하고, 검측된 결과 고빈도인 것으로 판단된다. 즉, 상기 고빈도 명령은 독립적인 명령이고, 전의 몇 개의 음성 명령과 결합되어 결합 명령으로 생성되지 않는다. 이때, 더 이상 완전도 예측을 할 필요는 없다. 직접 원래의 셋팅을 삭제하고, 즉, 사용자의 3 번째 음성 명령이 끝난 후, 사용자의 1 번째 음성 명령, 2 번째 음성 명령 및 3 번째 음성 명령의 결합 명령에 응답하는 동작의 대기시간이 제1 대기시간이라는 셋팅을 삭제하고, 사용자의 4 번째 음성 명령이 끝난 후, 4 번째 음성 명령에 응답하는 대기시간을 제3 대기시간으로 업데이트하여 셋팅한다.

본 실시예에 따른 음성 인터랙션의 처리 방법은, 상기 구현 방법을 사용함으로써, 효과적으로 사용자의 "신속" 질문과 "주저" 질문 사이의 균형을 이루어, 사용자와 음성 인터랙션 기기 사이에 1회의 호출 - 복수회의 인턴랙션 방식을 구현하여, 음성 인터랙션의 지능성을 효과적으로 향상시키고, 사용자의 사용 체험을 향상시킬 수 있다.

도 6은 본 발명에 따른 제5 실시예의 개략도이다. 도 6에 도시된 바와 같이, 본 실시예에 따른 클라우드 서버(600)는, 예측 모듈(601), 셋팅 모듈(602) 및 제어 모듈(603)을 포함한다.

예측 모듈(601)은 사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 사용자의 음성 명령에 대한 제1 완전도를 예측하기 위한 것이다.

셋팅 모듈(602)은 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하기 위한 것이다.

제어 모듈(603)은 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하기 위한 것이다.

본 실시예에 따른 클라우드 서버(600)는, 상기 모듈을 사용함으로써 음성 인터랙션의 처리의 구현 원리 및 기술적 효과를 구현하였으며, 상기 관련 방법 실시예의 구현 방식과 동일하기 때문에, 상세한 설명은 상기 관련 방법 실시예를 참조할 수 있으며, 여기서는 설명을 생략한다.

도 7은 본 발명에 따른 제6 실시예의 개략도이다. 도 7에 도시된 바와 같이, 본 실시예에 따른 클라우드 서버(700)는, 상기 도 6에 도시된 실시예의 기술 방안의 기초에, 본 발명의 기술 방안을 보다 더 상세하게 설명한다. 본 실시예에 따른 클라우드 서버(700) 중의 예측 모듈(701), 셋팅 모듈(702) 및 제어 모듈(703)은 각각 상기 도 6에 도시된 실시예에 따른 클라우드 서버(600) 중의 예측 모듈(601), 셋팅 모듈(602) 및 제어 모듈(603)의 기능과 동일하다.

나아가, 본 실시예에 따른 클라우드 서버(700) 중, 셋팅 모듈(702)은, 구체적으로,

제1 완전도가 미리 설정된 완전도 임계치 이상인 경우, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하기 위한 것이다.

나아가 선택적으로, 본 발명의 실시예에 따른 클라우드 서버(700) 중, 셋팅 모듈(702)은, 또한,

제1 완전도가 미리 설정된 완전도 임계치보다 낮은 경우, 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하기 위한 것이며, 제2 대기시간은 제1 대기시간보다 길다.

나아가 선택적으로, 도 7에 도시된 바와 같이, 본 실시예에 따른 클라우드 서버(700)는, 수신 모듈(704)을 더 포함한다.

수신 모듈(704)은, 사용자의 음성 명령이 끝난 후의 대기시간 내에 사용자의 보충 음성 명령을 수신하기 위한 것이다.

예측 모듈(701)은, 또한 사용자의 보충 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 완전성 검측 모델을 사용하여, 사용자의 음성 명령 및 사용자의 보충 음성 명령으로 구성된 결합 명령에 대한 제2 완전도를 예측하기 위한 것이다.

셋팅 모듈(702)은, 또한 제2완전도가 제1 완전도보다 큰 경우, 제2 완전도와 미리 설정된 완전도 임계치에 기반하여, 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하기 위한 것이다.

나아가 선택적으로, 본 발명의 실시예에 따른 클라우드 서버(700) 중, 셋팅 모듈(702)은,

사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하고,

제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 셋팅하기 위한 것이다.

나아가 선택적으로, 본 실시예에 따른 클라우드 서버(700) 중, 셋팅 모듈은,

제2 완전도가 미리 설정된 완전도 임계치 이상인 경우, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하거나, 또는,

제2 완전도가 미리 설정된 완전도 임계치보다 낮은 경우, 사용자의 보충 음성 명령이 끝난 후, 결합 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하기 위한 것이며, 제2 대기시간은 제1 대기시간보다 길다.

나아가 선택적으로, 본 실시예에 따른 클라우드 서버(700) 중, 셋팅 모듈(702)은 또한, 사용자의 음성 명령 또는 사용자의 보충 음성 명령이 고빈도 명령임으로 검측될 경우, 사용자의 음성 명령 또는 사용자의 보충 음성 명령이 끝난 후, 사용자의 음성 명령 또는 사용자의 보충 음성 명령에 응답하는 동작의 대기시간을 제3 대기시간으로 셋팅하기 위한 것이며, 제3 대기시간은 제1 대기시간보다 짧다.

제어 모듈(703)은 또한, 제3 대기시간에 기반하여 사용자의 음성 명령 또는 사용자의 보충 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하기 위한 것이다.

본 발명의 실시예에 따른 클라우드 서버(700)는, 상기 모듈을 사용함으로써 음성 인터랙션의 처리의 구현 원리 및 기술적 효과를 구현하였으며, 상기 관련 방법 실시예의 구현 방식과 동일하기 때문에, 상세한 설명은 상기 관련 방법 실시예를 참조할 수 있으며, 여기서는 설명을 생략한다.

도 8은 본 발명에 따른 제7 실시예의 개략도이다. 도 8에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인터랙션 기기(800)는 수신 모듈(801), 업로드 모듈(802) 및 응답 모듈(803)을 포함한다.

수신 모듈(801)은 사용자의 음성 명령을 수신하기 위한 것이다.

업로드 모듈(802)은 사용자의 음성 명령을 클라우드 서버로 업로드하기 위한 것이다.

수신 모듈(801)은, 사용자의 음성 명령에 기반하여 클라우드 서버에 의해 생성된 제어 명령을 수신하기 위한 것이며, 제어 명령은 클라우드에서 셋팅된 사용자의 음성 명령이 끝난 후, 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함한다.

응답 모듈(803)은 제어 명령 내의 대기시간에 따라, 사용자의 음성 명령에 응답하기 위한 것이다.

본 발명의 실시예에 따른 음성 인터랙션 기기(800)는, 상기 모듈을 사용함으로써 음성 인터랙션의 처리의 구현 원리 및 기술적 효과를 구현하였으며, 상기 관련 방법 실시예의 구현 방식과 동일하기 때문에, 상세한 설명은 상기 관련 방법 실시예를 참조할 수 있으며, 여기서는 설명을 생략한다.

도 9는 본 발명에 따른 제8 실시예의 개략도이다. 도 9에 도시된 바와 같이, 본실시예에 따른 음성 인터랙션 시스템(900)은, 음성 인터랙션 기기(901) 및 클라우드 서버(902)를 포함하고, 클라우드 서버(902)는 음성 인터랙션 기기(901)와 통신 연결된다.

여기서, 클라우드 서버(902)는 상기 도 6 또는 도 7에 도시된 바와 같은 클라우드 서버를 사용하고, 음성 인터랙션 기기(901)는 상기 도 8에 도시된 실시예에 따른 음성 인터랙션 기기를 사용한다. 그리고, 구체적으로, 상기 도 1 내지 도 5에 도시된 실시예의 음성 인터랙션의 처리 방법을 사용하여 음성 인터랙션 처리를 구현할 수 있고, 상세한 설명은 상기 관련 실시예를 참조할 수 있으며, 여기서는 설명을 생략한다.

본 발명의 실시예에 따르면, 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도 10에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인터랙션의 처리 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 예를 들어, 랩톱컴퓨터, 데스크톱컴퓨터, 워크스테이션, 개인용 디지털 비서(Personal Digital Assistants: PDA), 서버, 블레이드서버, 메인프레임 컴퓨터, 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 예를 들어, 개인용 디지털 비서(PDA), 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 기기와 같은 다양한 형태의 모바일 기기를 포함할 수 있다. 본 명세서에 기재된 부품, 이들의 연결 및 관계, 그리고 이들의 기능은 단지 예시적인 것에 불과하며, 본 명세서에서 설명 및/또는 요구하는 본 발명의 범위를 한정하기 위한 것이 아니다.

도 10에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 복수의 프로세서(1001), 메모리(1002), 및 각 부품을 연결하기 위한 인터페이스를 포함하고, 상기 인터페이스에는 고속 인터페이스 및 저속 인터페이스가 포함된다. 각 부품들은 서로 다른 버스를 통해 서로 연결되고, 공공 메인보드에 장착되거나 또는 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자 기기에서 실행되는 명령어들을 실행할 수 있고, 상기 명령어는 메모리에 저장되어 외부 입력/출력장치(예를 들어, 인터페이스에 접속된 표시장치)에 GUI의 그래픽 정보를 표시하기 위한 명령어를 포함할 수 있다. 다른 실시예에서는, 수요에 따라 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용될 수 있다. 마찬가지로, 복수의 전자 기기를 연결하고, 각 전자 기기에 의해 일부 필요한 동작을 제공할 수 있다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로 한다). 도 10에서는, 하나의 프로세서(1001)의 경우를 예로 들어 설명한다.

메모리(1002)는 본 발명에 의해 제공되는 비휘발성 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령어가 저장되어 있어, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 음성 인터랙션 처리방법을 실행하게 한다. 본 발명의 비휘발성 컴퓨터 판독 가능 저장 매체에는 컴퓨터에 의해 실행될 경우 컴퓨터로 하여금 본 발명에 의해 제공되는 음성 인터랙션 처리방법을 실행하도록 하기 위한 컴퓨터 명령어가 저장되어 있다.

메모리(1002)는 비휘발성 컴퓨터 판독 가능 저장 매체로서, 예를 들어, 본 발명의 실시예에 따른 음성 인터랙션 처리방법에 대응하는 프로그램 명령어/모듈(예를 들어, 도 8 및 도 9에 도시된 관련 모듈)과 같은 비휘발성 소프트웨어 프로그램, 비휘발성 컴퓨터 실행가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 비휘발성 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예에 따른 음성 인터랙션의 처리 방법을 구현한다.

메모리(1002)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 OS 시스템 및 적어도 하나의 기능에 필요한 앱을 저장할 수 있고, 데이터 저장 영역은 음성 인터랙션의 처리 방법을 구현하는 전자 기기의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(1002)는 고속 RAM(Random Access Memory)를 포함할 수도 있고, 예를 들어, 적어도 하나의 디스크 저장 디바이스, 플래시 메모리 디바이스, 또는 기타 비휘발성 고체 저장 디바이스와 같은 비휘발성 메모리를 포함할 수도 있다. 일부 실시예에 따르면, 메모리(1002)는 프로세서(1001)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 인터랙션의 처리 방법을 구현하는 전자 기기에 연결될 수 있다. 상기 네트워크의 실예로는 인터넷, 인트라넷, 근거리 통신망(LAN), 이동 통신망 및 이들의 조합을 포함할 수 있는데, 이에 한정되지는 않는다.

음성 인터랙션의 처리 방법을 구현하는 전자 기기는, 입력 장치(1003) 및 출력 장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003) 및 출력 장치(1004)는 버스 또는 기타 방식으로 연결될 수 있는데, 도 10에서는 버스를 통해 연결되는 경우를 예로 한다.

입력 장치(1003)는 입력된 숫자 또는 문자 부호 정보를 수신할 수 있고, 또한 음성 인터랙션의 처리 방법을 구현하는 전자 기기의 사용자 설정 및 기능 제어와 연관된 키 신호 입력을 생성할 수 있으며, 예를 들어, 터치스크린, 키패드, 마우스, 트랙패드, 터치패드, 인디케이터 로드, 하나 또는 복수의 마우스 버튼, 트랙볼, 콘트롤러 로드 등과 같은 입력 장치를 포함할 수 있다. 출력 장치(1004)는 표시 장치, 보조 조명장치(예를 들어, LED) 및 촉각 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 상기 표시 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라스마 디스플레이를 포함할 수 있는데, 이에 한정되지는 않는다. 일부 실시 형태에 따르면, 표시 장치는 터치스크린일 수 있다.

여기서 설명한 시스템 및 기술의 다양한 실시 형태는 디지털 전자 회로시스템, 집적 회로시스템, 전용 ASIC(전용 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시 형태는 하나 또는 복수의 컴퓨터 프로그램을 통해 구현될 수 있고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하고, 데이터 및 명령어를 저장시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 송신할 수 있다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 하이라벨 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블러/기계언어를 사용하여 이러한 컴퓨터 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체" 등과 같은 용어는, 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 디스크, CD-ROM, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것이고, 기계 판독 가능 신호로서의 기계 명령어를 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"라는 용어는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위해서는, 컴퓨터를 통해 본 명세서에서 설명한 시스템 및 기술을 구현할 수 있는데, 상기 컴퓨터는, 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터), 및 사용자가 상기 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 포함한다. 기타 유형의 디바이스도 사용자와의 인터랙션을 제공하기 위한 것일 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.

본 명세서에서 설명한 시스템 및 기술은, 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트앤드 부품을 포함하는 컴퓨팅 시스템(예를 들어, GUI 또는 웹브라우저를 갖는 사용자 컴퓨터이며, 사용자는 상기 GUI 또는 상기 웹브라우저를 통하여 본 명세서에서 설명한 상기 시스템 및 기술의 실시 형태와 인터랙션을 할 수 있음), 또는 이러한 백그라운드 부품, 미들웨어 부품, 또는 프론트앤드 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크는 예를 들어 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷 및 블록체인 네트워크를 포함할 수 있다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션을 진행한다. 클라이언트와 서버의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버의 관계를 갖는 컴퓨터 프로그램에 의해 생성된다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서비스 체계내의 호스트 제품으로서, 전통적인 물리적 호스트 및 VPS 서비스"Virtual Private Server" 또는 "VPS"）에 존재하는 관리의 어려움과 약한 업무 확장성의 결함을 해결할 수 있다.

본 발명의 실시예의 기술 방안에 따르면, 사용자의 음성 명령이 끝나는 즉시에 응답할 필요가 없으므로, 음성 인터랙션 기기의 "말을 가로채기" 현상을 방지할 수 있고, 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하고, 음성 인터랙션 기기가 대기시간에 기반하여 사용자의 음성 명령에 응답하도록 제어함으로써, 음성 인터랙션 기기의 지능성을 효과적으로 향상시킬 수 있다.

본 발명의 실시예의 기술 방안에 따르면, 효과적으로 사용자의 "신속" 질문과 "주저" 질문 사이의 균형을 이루어, 사용자와 음성 인터랙션 기기사이에 1회의 호출 - 복수회의 인턴랙션 방식을 구현하여, 음성 인터랙션의 지능성을 효과적으로 향상시키고, 사용자의 사용 체험을 향상시킬 수 있다.

상기에서 설명한 다양한 흐름을 사용하여 각 단계를 다시 순서 배열, 추가 또는 삭제할 수 있다는 점을 이해하여야 한다. 예를 들어, 본 발명이 개시된 기술 방안이 원하는 결과를 구현할 수 있는 한, 본 발명에 기재된 다양한 단계는 병렬적으로 또는 순차적으로, 또는 서로 다른 순서로 실행될 수 있고, 본 발명은 이에 대해 특별히 한정하지 않는다.

본 발명의 보호범위는 상기 다양한 실시 형태에 의해 제한되지 않는다. 당업자라면, 설계 요구 및 기타 요인에 의해, 다양한 수정, 조합, 서브 조합 및 교체가 이루어질 수 있음을 이해할 것이다. 본 발명의 취지 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호범위에 속한다.

Claims

음성 인터랙션의 처리 방법으로서,
사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령에 대한 제1 완전도를 예측하는 단계,
상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하는 단계, 및
상기 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하는 단계
를 포함하는, 음성 인터랙션의 처리 방법.
제1항에 있어서,
상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하는 단계는,
상기 제1 완전도가 상기 미리 설정된 완전도 임계치 이상인 경우, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하는 것을 포함하는, 음성 인터랙션의 처리 방법.
제1항에 있어서,
상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하는 단계는,
상기 제1 완전도가 미리 설정된 완전도 임계치보다 낮은 경우, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하는 것을 더 포함하고,
상기 제2 대기시간은 상기 제1 대기시간보다 긴, 음성 인터랙션의 처리 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅한 후에, 그리고 상기 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하기 전에,
상기 사용자의 음성 명령이 끝난 후의 상기 대기시간 내에, 사용자의 보충 음성 명령을 수신하는 단계,
상기 사용자의 보충 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 상기 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령 및 상기 사용자의 보충 음성 명령으로 구성된 결합 명령에 대한 제2 완전도를 예측하는 단계, 및
상기 제2 완전도가 상기 제1 완전도보다 큰 경우, 상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하는 단계
를 더 포함하는, 음성 인터랙션의 처리 방법.
제4항에 있어서,
상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하는 단계는,
상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하는 단계, 및
상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 셋팅하는 단계
를 포함하는, 음성 인터랙션의 처리 방법.
제5항에 있어서,
상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 셋팅하는 단계는,
상기 제2 완전도가 상기 미리 설정된 완전도 임계치 이상인 경우, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하는 것,
또는,
상기 제2 완전도가 상기 미리 설정된 완전도 임계치보다 낮은 경우, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하는 것
을 포함하고, 상기 제2 대기시간이 상기 제1 대기시간보다 긴, 음성 인터랙션의 처리 방법.
제4항에 있어서,
상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령이 고빈도 명령인 것으로 검측된 경우, 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령이 끝난 후, 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령에 응답하는 동작의 대기시간을 상기 제1 대기시간보다 짧은 제3 대기시간으로 셋팅하는 단계, 및
상기 제3 대기시간에 기반하여 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령에 응답하도록 상기 음성 인터랙션 기기를 제어하는 단계
를 더 포함하는, 음성 인터랙션의 처리 방법.
음성 인터랙션의 처리 방법으로서,
사용자의 음성 명령을 수신하는 단계,
상기 사용자의 음성 명령을 클라우드 서버에 업로드하는 단계,
상기 사용자의 음성 명령에 기반하여 상기 클라우드 서버에 의해 생성되어 상기 클라우드에서 셋팅된 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함하는 제어 명령을 수신하는 단계, 및
상기 제어 명령 내의 상기 대기시간에 따라, 상기 사용자의 음성 명령에 응답하는 단계
를 포함하는, 음성 인터랙션의 처리 방법.
클라우드 서버로서,
사용자의 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 사전 훈련된 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령에 대한 제1 완전도를 예측하기 위한 예측 모듈,
상기 제1 완전도와 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 셋팅하기 위한 셋팅 모듈, 및
상기 대기시간에 기반하여 상기 사용자의 음성 명령에 응답하도록 음성 인터랙션 기기를 제어하기 위한 제어 모듈
을 포함하는, 클라우드 서버.
제9항에 있어서,
상기 셋팅 모듈은, 상기 제1 완전도가 상기 미리 설정된 완전도 임계치 이상인 경우, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하기 위한 것인, 클라우드 서버.
제9항에 있어서,
상기 셋팅 모듈은, 또한, 상기 제1 완전도가 미리 설정된 완전도 임계치보다 낮은 경우, 상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하기 위한 것이이고,
상기 제2 대기시간은 상기 제1 대기시간보다 긴, 클라우드 서버.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 클라우드 서버는 수신 모듈을 더 포함하고,
상기 수신 모듈은, 상기 사용자의 음성 명령이 끝난 후의 상기 대기시간 내에, 사용자의 보충 음성 명령을 수신하기 위한 것이고,
상기 예측 모듈은 또한, 상기 사용자의 보충 음성 명령이 고빈도 명령이 아닌 것으로 검측된 경우, 상기 완전성 검측 모델을 사용하여, 상기 사용자의 음성 명령 및 상기 사용자의 보충 음성 명령으로 구성된 결합 명령에 대한 제2 완전도를 예측하기 위한 것이며,
상기 셋팅 모듈은 또한, 상기 제2 완전도가 상기 제1 완전도보다 큰 경우, 상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 응답 동작의 대기시간을 업데이트하여 셋팅하기 위한 것인, 클라우드 서버.
제12항에 있어서,
상기 셋팅 모듈은,
상기 사용자의 음성 명령이 끝난 후, 상기 사용자의 음성 명령에 응답하는 동작의 대기시간에 대한 셋팅을 삭제하고,
상기 제2 완전도 및 미리 설정된 완전도 임계치에 기반하여, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 셋팅하기 위한 것인, 클라우드 서버.
제13항에 있어서,
상기 셋팅 모듈은,
상기 제2 완전도가 상기 미리 설정된 완전도 임계치 이상인 경우, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 제1 대기시간으로 셋팅하거나,
또는,
상기 제2 완전도가 상기 미리 설정된 완전도 임계치보다 낮은 경우, 상기 사용자의 보충 음성 명령이 끝난 후, 상기 결합 명령에 응답하는 동작의 대기시간을 제2 대기시간으로 셋팅하기 위한 것이고,
상기 제2 대기시간이 상기 제1 대기시간보다 긴, 클라우드 서버.
제12항에 있어서,
상기 셋팅 모듈은, 또한 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령이 고빈도 명령인 것으로 검측된 경우, 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령이 끝난 후, 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령에 응답하는 동작의 대기시간을 제3 대기시간으로 셋팅하기 위한 것이고, 상기 제3 대기시간은 상기 제1 대기시간보다 짧으며,
상기 제어 모듈은, 상기 제3 대기시간에 기반하여 상기 사용자의 음성 명령 또는 상기 사용자의 보충 음성 명령에 응답하도록 상기 음성 인터랙션 기기를 제어하기 위한 것인, 클라우드 서버.
음성 인터랙션 기기로서,
수신 모듈, 업로드 모듈 및 응답 모듈을 포함하되,
상기 수신 모듈은 사용자의 음성 명령을 수신하기 위한 것이며,
상기 업로드 모듈은 상기 사용자의 음성 명령을 클라우드 서버에 업로드하기 위한 것이며,
상기 수신 모듈은, 또한, 상기 사용자의 음성 명령에 기반하여 상기 클라우드 서버에 의해 생성된 제어 명령을 수신하기 위한 것이고, 상기 제어 명령은 상기 클라우드에 셋팅된 상기 사용자의 음성 명령이 끝난 후 상기 사용자의 음성 명령에 응답하는 동작의 대기시간을 포함하며,
상기 응답 모듈은 상기 제어 명령 내의 상기 대기시간에 따라, 상기 사용자의 음성 명령에 응답하기 위한 것인, 음성 인터랙션 기기.
음성 인터랙션 기기 및 클라우드 서버를 포함하는 음성기 인터랙션 시스템으로서,
상기 클라우드 서버와 상기 음성 인터랙션 기기는 통신 연결되고,
상기 클라우드 서버는 상기 제9항 내지 제11항 중 어느 한 항에 따른 클라우드 서버를 사용하고, 상기 음성 인터랙션 기기는 상기 제16항에 따른 음성 인터랙션 기기를 사용하는, 음성기 인터랙션 시스템.
전자 기기로서,
적어도 하나의 프로세서, 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리
를 포함하되, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제3항 중 어느 한 항, 또는 제8항의 방법을 실행하게 하는, 전자 기기.
컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령어가 상기 프로세서로 하여금, 제1항 내지 제3항 중 어느 한 항, 또는 제8항의 방법을 구현하게 하기 위한 것인, 비휘발성 컴퓨터 판독 가능 저장 매체.
프로세서에 의해 실행될 때 제1항 내지 제3항 중 어느 한 항, 또는 제8항의 방법을 구현하는 컴퓨터 프로그램을 포함하는, 컴퓨터 프로그램 제품.