KR102554916B1

KR102554916B1 - 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기

Info

Publication number: KR102554916B1
Application number: KR1020210036798A
Authority: KR
Inventors: 원슝 차이
Original assignee: 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Priority date: 2020-05-18
Filing date: 2021-03-22
Publication date: 2023-07-11
Also published as: KR20210039354A; JP7257434B2; JP2021099534A; CN111554298A; CN111554298B

Abstract

본 발명은 음성 인터렉션 기술분야에 관한 것으로, 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기를 제공한다. 상기 방법은: 수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 판단하는 단계; 및 상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하는 단계; 를 포함한다. 본 발명은음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

Description

음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기{SPEECH INTERACTION METHOD, SPEECH INTERACTION DEVICE AND ELECTRONIC DEVICE}

본 발명은 데이터 처리 기술, 특히 음성 기술분야에 관한 것으로, 구체적으로 음성 인터렉션 방법, 장치 및 전자 기기에 관한 것이다.

음성 어시스턴트 등과 같은 음성 인터렉션 기기는 점차적으로 사람들의 생활속으로 스며들어, 사람들은 음성과 음성 인터렉션 기기를 통해 사람-기계 인터렉션을 진행할 수 있다. 현재, 음성 인터렉션 기기와 사람-기계 인터렉션을 진행할 때, 모두 먼저 특정된 웨이크업 단어를 통해 음성 인터렉션 기기를 웨이크업하여야 한다.

본 발명은 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기를 제공하여, 음성 인터렉션 기기의 웨이크업 방식을 강화하는 것을 목표로 한다.

상술한 기술적 문제를 해결하기 위해, 본 발명은 아래와 같이 구현하려 한다.

제1 측면에 있어서, 본 발명은 음성 인터렉션 방법을 제공하며, 상기 방법은:

수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 판단하는 단계; 및

상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하는 단계; 를 포함한다.

상술한 기술적 수단을 채용함으로서, 음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

선택적으로, 상기 웨이크업 단어는 미리 설정된 것이다.

상기 실시방식에서, 제1 단어는 음성 인터렉션 기기의 미리 설정한 웨이크업 단어와 서로 매칭될 때, 진일보하여 라스트 라운드 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 검출하는 것을 선택하여, 새로운 웨이크업 단어를 획득할 수 있는 성공율을 향상시키고, 음성 인터렉션 기기에서 과도하게 라스트 라운드 음성 명령에 대해 검출을 진행하는 것을 회피하고, 음성 인터렉션 기기의 소모를 절약한다.

선택적으로, 상기 방법은:

제3 음성 명령에 에러 웨이크업 정정 단어가 포함되는 경우, 제4 음성 명령에 포함된 제2 단어를 제2 단어 라이브러리로 추가하는 단계로서, 그 중, 상기 제4 음성 명령은 상기 제3 음성 명령의 라스트 라운드 음성 명령이고, 상기 제2 단어는 상기 제1 단어 라이브러리 중의 단어와 서로 매칭되는 것인, 추가하는 단계; 를 더 포함한다.

상기 실시방식에서, 자동으로 에러 웨이크업 라이브러리를 업데이트하는 것을 통해, 음성 인터렉션 기기가 에러 웨이크업되는 것을 회피할 수 있으며, 음성 인터렉션 기기의 웨이크업 효과를 향상시킨다.

선택적으로, 상기 제4 음성 명령에 포함되는 제2 단어를 제2 단어 라이브러리로 추가한 후, 상기 방법은:

상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는지 여부를 판단하는 단계; 및

상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는 경우, 상기 제1 단어 라이브러리 중에서 상기 제2 단어를 제거하는 단계; 를 더 포함한다.

상기 실시방식은 음성 인터렉션 기기가 상기 단어에 의해 다시 에러 웨이크업되는 것을 유효하게 회피할 수 있을 뿐만 아니라, 또한 제1 단어 라이브러리에 의해 점유되는 저장 공간을 절약할 수 있으며, 제1 단어 라이브러리의 매칭 효율을 가속화한다.

선택적으로, 상기 웨이크업 특징 단어를 제1 단어 라이브러리로 추가한 후, 상기 방법은:

상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계; 및

상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는 경우, 상기 제2 단어 라이브러리 중에서 상기 웨이크업 특징 단어를 제거하는 단계; 를 더 포함한다.

상기 실시방식은 사용자로 하여금 새로운 웨이크업 단어를 통해 음성 인터렉션 기기를 웨이크업하는 것을 확보할 수 있다.

제2 측면에 있어서, 본 발명은 음성 인터렉션 기기를 제공하며, 상기 음성 인터렉션 기기는:

수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하기 위한 제1 판단 모듈로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 제1 판단 모듈; 및

상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하기 위한 제1 추가 모듈; 을 포함한다.

선택적으로, 상기 웨이크업 단어는 미리 설정된 것이다.

선택적으로, 상기 음성 인터렉션 기기는:

제3 음성 명령에 에러 웨이크업 정정 단어가 포함되는 경우, 제4 음성 명령에 포함된 제2 단어를 제2 단어 라이브러리로 추가하기 위한 제2 추가 모듈로서, 그 중, 상기 제4 음성 명령은 상기 제3 음성 명령의 라스트 라운드 음성 명령이고, 상기 제2 단어는 상기 제1 단어 라이브러리 중의 단어와 서로 매칭되는 것인, 제2 추가 모듈; 을 더 포함한다.

선택적으로, 상기 음성 인터렉션 기기는:

상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는지 여부를 판단하기 위한 제2 판단 모듈; 및

상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는 경우, 상기 제1 단어 라이브러리 중에서 상기 제2 단어를 제거하기 위한 제1 제거 모듈; 을 더 포함한다.

선택적으로, 상기 음성 인터렉션 기기는:

상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는지 여부를 판단하기 위한 제3 판단 모듈; 및

상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는 경우, 상기 제2 단어 라이브러리 중에서 상기 웨이크업 특징 단어를 제거하기 위한 제2 제거 모듈; 을 더 포함한다.

제3 측면에 있어서, 본 발명은 전자 기기를 제공하며, 상기 전자 기기는:

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하며,

그 중, 상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있으며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1 측면에서의 임의의 한 항에 따른 방법을 실행할 수 있도록 한다.

제4 측면에 있어서, 본 발명은 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1 측면에서의 임의의 한 항에 따른 방법을 실행할 수 있도록 한다.

본 발명에서의 하나의 실시예는 아래와 같은 장점 또는 유익한 효과를 구비한다.

본 발명에서, 음성 인터렉션 기기는 웨이크업된 후, 음성 인터렉션 기기는 라스트 라운드 음성 명령 중에 포함된 웨이크업 특징 단어를 새로운 웨이크업 단어로 추가하고, 이로하여, 후속으로 사용자는 고정된 웨이크업 단어에 제한되는 것이 아니라 새로운 웨이크업 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 있다. 상술한 기술적 수단을 채용함으로서, 음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

상술한 선택가능한 방식에서 구비하는 기타 효과는 아래에서 구체적인 실시예를 결부하여 설명하려 한다.

도면들은 해당 기술방안의 이해를 돕기 위한 것이지, 본 발명에 대한 한정을 구성하지 않는다.
도 1은 본 발명의 실시예에서 제공하는 음성 인터렉션 방법의 흐름 예시도이다.
도 2는 본 발명의 실시예에서 제공하는 음성 인터렉션 방법의 흐름 예시도이다.
도 3은 본 발명의 실시예에서 제공하는 음성 인터렉션 기기의 구조 예시도이다.
도 4는 본 발명의 실시예에 따른 음성 인터렉션 방법을 구현하는 전자 기기의 블록도이다.

이하, 본 발명의 실시예에서의 도면을 결부시켜, 본 발명의 실시예에 따른 기술방안을 명확하고 완전하게 설명하기로 한다. 그 중에는 이해를 돕기 위한 본 발명의 실시예의 각종 디테일도 포함되어 있으며, 전술한 실시예들은 단지 예시적인 것이며, 해당 기술분야에서 통상의 지식을 가진 자들은 본 발명의 실시예에 대해 본 발명의 정신 및 특허청구범위를 일탈하지 않고 다양한 개변 및 변형을 진행할 수 있다. 간단 명료하게 설명하기 위해, 아래에서는 해당 기술분야에 공지된 기능 및 구조에 대해 진일보하여 기술하지 않기로 한다.

본 발명은 음성 인터렉션 방법을 제공하며, 상기 음성 인터렉션 방법은 음성 인터렉션 기기에 응용될 수 있다.

도 1에서 도시한 바와 같이, 상기 음성 인터렉션 방법은:

단계 101: 수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계(101)로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 판단하는 단계(101); 를 포함한다.

본 발명에 관한 예하면 상술한 제1 음성 명령, 제2 음성 명령 및 후속으로의 제3 음성 명령 등 음성 명령들은, 모두 사용자에 의해 방출된 음성 명령을 나타낸다.

상술한 음성 인터렉션 기기의 웨이크업 단어는 미리 설정된 웨이크업 단어일 수 있고, 또한 미리 설정되지 않은 웨이크업 단어일 수도 있기에, 상술한 제1 단어는 음성 인터렉션 기기의 미리 설정된 웨이크업 단어와 서로 매칭되는 단어일 수 있고, 또한 음성 인터렉션 기기의 기타 웨이크업 단어와 서로 매칭되는 단어일 수도 있다.

여기서, 미리 설정된 웨이크업 단어는 음성 인터렉션 기기가 미리 배치한 고유하는 웨이크업 단어로 이해할 수 있고, "기설정 웨이크업 단어"로 약칭할 수 있으며, 동일한 음성 인터렉션 기기는 일반적으로 동일한 기설정 웨이크업 단어를 가지고, 음성 인터렉션 기기의 기설정 웨이크업 단어는 일반적으로 음성 인터렉션 기기의 이름이며, 음성 인터렉션 기기의 기설정 웨이크업 단어의 수량은 일반적으로 하나 또는 두개이며, 음성 인터렉션 기기의 기설정 웨이크업 단어를 강화 웨이크업 단어로 칭할 수도 있다. 예컨대, 음성 인터렉션 기기의 이름은 소A이면, "소A"는 음성 인터렉션 기기의 기설정 웨이크업 단어일 수 있다.

여기서, 미리 설정하지 않은 웨이크업 단어는, 예하면 본 발명의 음성 인터렉션 방법을 통해 새로 추가한 웨이크업 단어일 수 있으며, 뒤에서 구체적인 설명을 진행하려 한다.

본 발명에서, 단어와 단어는 서로 매칭되고, 즉 단어는 완전히 동일할 수 있거나, 또는, 단어 중의 부분 심볼은 동일할 수 있거나, 또는, 단어 간격을 통해 내포될 수 있거나, 또는, 단어가 희미하게 근사할 수 있거나 등, 이로하여, 제1 단어는 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 즉 제1 단어와 음성 인터렉션 기기의 웨이크업 단어가 완전히 동일한 경우를 포함하고, 또한 제1 단어는 음성 인터렉션 기기의 웨이크업 기기의 부분 심볼와 동일하거나 또는 희미하게 근사한 경우도 포함한다.

제2 음성 명령은 제1 음성 명령의 라스트 라운드 음성 명령이고, 제2 음성 명령은 제1 음성 명령의 라스트 라운드 음성 명령인 것으로 이해할 수 있으며, 또는, 제1 음성 명령은 사용자가 제2 음성 명령을 방출한 후, 일정한 시간 간격 내에서 방출한 음성 명령으로 이해할 수 있다. 상기 시간 간격은 사용자가 수요에 따라 자아적으로 설정한 시간 간격일 수 있고, 또한 미치 설정된 시간 간격일 수도 있는바, 예컨대, 상기 시간 간격은 10초, 20초, 30초 등일 수 있다.

본 발명에서, 제2 음성 명령에는 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되는 단어를 포함하지 않기에, 음성 인터렉션 기기는 제2 음성 명령에 의해 웨이크업되지 않으며, 따라서 제2 음성 명령에 대해 응답하지 않는다.

본 발명에서, 제1 음성 명령에는 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되는 단어를 포함하기에, 음성 인터렉션 기기는 제1 음성 명령에 의해 웨이크업되고, 제1 음성 명령에 대해 응답을 한다. 여기서, 음성 인터렉션 기기가 제1 음성 명령에 응답한다는 것은, 음성 인터렉션 기기는 제1 음성 명령에 의해 웨이크업되었고, 응답을 진행한 것으로 이해할 수 있다. 음성 인터렉션 기기가 제1 음성 명령을 응답하는 방식은 기설정에 의해 설정될 수 있고, 사용자에 의해 설정될 수도 있으며, 본 발명은 이에 대해 한정하지 않는다.

음성 인터렉션 기기는 제1 음성 명령에 의해 웨이크업된 후, 진일보하여 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단할 수 있다. 예컨대, 음성 인터렉션 기기의 이름은 소A이면, AXX（예컨대, A언니, A오빠）, XXA, AX, XA, 소(작은)AA, AA, A소A 등은 모두 소A와 관련되는 단어로 보며, 따라서 이러한 단어들을 웨이크업 특징 단어로 볼 수 있다. 설명해야 할 것은, 상기 단계 중의 웨이크업 특징 단어는 음성 인터렉션 기기의 웨이크업 단어가 아니기에, 상기 단계를 수행하기 전에, 사용자는 웨이크업 특징 단어를 통해 기기를 웨이크업할 수 없다.

본 발명에서, 음성 인터렉션 기기가 웨이크업된 후에야, 진일보하여 라스트 라운드 음성 명령 중에 웨이크업 특징 단어가 포함되는지 여부를 판단하는 것은, 사용자의 라스트 라운드 음성 명령 중에서 음성 인터렉션 기기를 웨이크업하기 위한 표시가 존재하는지 여부를 판단하기 위한 것이고, 또는, 사용자의 라스트 라운트 음성 명령 중에서 기타 웨이크업 표시가 존재하는지 여부를 판단하기 위한 것이다.

단계 102: 상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가한다.

상기 단계에서, 음성 인터렉션 기기는 제2 음성 명령에 웨이크업 특징 단어가 포함한다고 판단하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리로 추가할 수 있다.

여기서, 제1 단어 라이브러리 중에 추가된 웨이크업 특징 단어를 음성 인터렉션 기기의 닉네임, 익명 또는 별명으로 이해할 수 있으며, 제1 단어 라이브러리를 기기 명칭 단어 라이브러리, 기기 닉네임 단어 라이브러리 또는 기기 익명 단어 라이브러리 등으로 이해할 수 있다.

웨이크업 특징 단어를 제1 단어 라이브러리로 추가한 후, 상기 웨이크업 특징 단어를 새로운 웨이크업 단어로 이해할 수 있으며, 사용자는 상기 웨이크업 특징 단어를 사용하여 음성 인터렉션 기기를 웨이크업한다. 상기 제1 단어 라이브러리에서, 웨이크업 특징 단어를 저장하는 외에, 또한 기타 웨이크업 단어들도 저장할 수 있기에, 제1 단어 라이브러리를 음성 인터렉션 기기의 웨이크업 단어 라이브러리로 이해할 수도 있고, 음성 인터렉션 기기는 임의의 제1 단어 라이브러리 중의 단어와 서로 매칭되는 단어에 의해 웨이크업될 수 있다.

설명해야 할 것은, 단계 101 중의 웨이크업 특징 단어는 아직 음성 인터렉션 기기의 웨이크업 단어가 아니고, 단계 101을 수행하기 전에, 또 단계 102를 수행하기 전에, 사용자는 웨이크업 특징 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 없다. 단계 102를 수행한 후, 즉, 웨이크업 특징 단어를 제1 단어 라이브러리로 추가한 후, 사용자는 웨이크업 특징 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 있다.

본 발명에서, 음성 인터렉션 기기는 웨이크업 특징 단어를 제1 단어 라이브러리로 추가한 후, 사용자는 고정된 웨이크업 단어에 제한되는 것이 아니라 상기 웨이크업 특징 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 있으며, 상기 웨이크업 특징 단어는 음성 인터렉션 기기에 의해 사람-기계의 대화 과정에서 자동으로 추가된 것이기에, 음성 인터렉션 기기가 사용자의 자연적인 표현에서 획득한 것이며, 이로하여, 상기 웨이크업 특징 단어는 사용자로 하여금 더욱 자연스럽게 음성 인터렉션 기기를 웨이크업할 수 있게 한다.

본 발명의 기술방안을 더 바람직하게 이해하도록 하기 위해, 아래에서는 구체적인 음성 인터렉션 시나리오들을 결부하여 본 발명의 웨이크업 단어를 추가하는 과정에 대해 예시적으로 설명을 진행하려 한다.

음성 인터렉션 기기의 하나의 웨이크업 단어는 소A인 것으로 가설한다.

[사용자]: A언니 오늘 날씨 어때요

[사용자]: 소A 너를 불러(또는, 소A 있어; 또는, 소A 말해)

[음성 인터렉션 기기]: TTS（Text To Speech，텍스트로부터 음성까지） 방송: 저 방금 딴 생각을 했으니, 다시 한 번 말씀해 주시겠어요

음성 인터렉션 기기는 "소A"에 의해 웨이크업된 후, 음선 인터렉션 기기는 "A언니 오늘 날씨 어때"에서 "A언니"와 "소A"가 서로 관련되는 것임을 검출하면, "A언니"를 제1 단어 라이브러리로 추가할 수 있다.

상술한 음성 인터렉션 시나리오에서 보다 시피, 사용자는 "A언니 오늘 날씨 어때"라는 음성 명령을 방출할 때, 상기 음성 명령은 음성 인터렉션 기기를 웨이크업하는 주관 표시를 포함하고, 이로하여, 음성 인터렉션 기기가 응답하지 않을 경우, 사용자는 다시 웨이크업 단어를 사용하여 음성 인터렉션 기기를 웨이크업한다.

이로하여, 음성 인터렉션 기기는 웨이크업된 후, 라스트 라운드 음성 명령을 검출하는 것을 통해, 자동으로 사용자가 방출한 웨이크업 의도를 포함하는 웨이크업 특징 단어를 식별할 수 있고, 또한 자동으로 특징 단어를 새로운 웨이크업 단어로 추가한다. 음성 인터렉션 기기가 추가한 새로운 웨이크업 단어는 사용자와 음성 인터렉션 기기의 교류 과정에서 자연적으로 형성된 것이고, 음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

본 발명에서, 음성 인터렉션 기기는 웨이크업된 후, 음성 인터렉션 기기는 라스트 라운드 음성 명령 중에 포함되는 웨이크업 특징 단어를 새로운 웨이크업 단어로 추가할 수 있으며, 이로서, 후속으로 사용자는 고정된 웨이크업 단어에 제한되는 것이 아니라 새로운 웨이크업 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 있다. 상술한 기술적 수단을 채용함으로서, 음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

선택적으로, 상기 웨이크업 단어는 미리 설정된 것이다.

미리 설정된 웨이크업 단어를 음성 인터렉션 기기가 미리 배치한 고유하는 웨이크업 단어로 이해할 수 있고, "기설정 웨이크업 단어"로 약칭할 수 있으며, 동일한 음성 인터렉션 기기는 일반적으로 동일한 기설정 웨이크업 단어를 가지고, 음성 인터렉션 기기의 기설정 웨이크업 단어는 일반적으로 음성 인터렉션 기기의 이름이며, 음성 인터렉션 기기의 기설정 웨이크업 단어의 수량은 일반적으로 하나 또는 두개이며, 음성 인터렉션 기기의 기설정 웨이크업 단어를 강조 웨이크업 단어로 칭할 수도 있다.

이로서, 상기 제1 단어는 상기 음성 인터렉션 기기의 기설정 웨이크업 단어와 서로 매칭된다.

위에서 기술한 바와 같이, 제1 단어는 음성 인터렉션 기기의 기설정 웨이크업 단어와 서로 매칭되는 단어일 수 있고, 또한 음성 인터렉션 기기의 기타 웨이크업 단어와 서로 매칭되는 단어일 수도 있다.

실제 음성 인터렉션 시나리오를 결부하여, 사용자는 음성 인터렉션 기기를 웨이크업하는 주관 표시를 포함하는 음성 명령을 방출할 때, 만약 음성 인터렉션 기기에서 웨이크업되기 위한 응답을 하지 않았다면, 사용자는 일반적으로 더 강렬한 웨이크업 단어를 사용하는바, 예컨대, 음성 인터렉션 기기의 기설정 웨이크업 단어는, 다시 웨이크업을 위한 주관적 표시를 한다.

보다시피, 제1 단어는 음성 인터렉션 기기의 기설정 웨이크업 단어와 서로 매칭되는 경우, 사용자는 라스트 라운드 음성 명령 중에서 웨이크업 특징 단어를 포함할 확률이 상대적으로 크다. 제1 단어는 음성 인터렉션 기기의 기타 웨이크업 단어와 서로 매칭되는 경우, 사용자는 라스트 라운드 음성 명령 중에서 웨이크업 특징 단어를 포함할 확률이 상대적으로 작다. 이로서, 상기 실시방식에서, 제1 단어는 음성 인터렉션 기기의 기설정 웨이크업 단어와 서로 매칭될 때, 진일보하여 라스트 라운드 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 검출하는 것을 선택하여, 새로운 웨이크업 단어를 획득할 수 있는 성공율을 향상시키고, 음성 인터렉션 기기에서 과도하게 라스트 라운드 음성 명령에 대해 검출을 진행하는 것을 회피하고, 음성 인터렉션 기기의 소모를 절약한다.

진일보하여, 상기 제1 단어는 상기 음성 인터렉션 기기의 기설정 웨이크업 단어와 서로 매칭되고, 상기 제1 음성 명령에 웨이크업 강조 단어가 포함되는 경우, 상기 음성 인터렉션 기기는 상기 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단한다.

그 중, 웨이크업 강조 단어는 예하면 "너를 불러", "말해", "들었어", "있어"등과 같은 웨이크업 의도를 강조하는 단어일 수 있고, 웨이크업 강조 단어는 일반적으로 기설정 웨이크업 단어와 함께 제1 음성 명령에 존재하는데, 예컨대, "소A 너를 불러", "말해, 소A", "소A 들었어", "있어, 소A" 등이다.

실제 음성 인터렉션 시나리오를 결부하여, 제1 음성 명령에 기설정 웨이크업 단어와 서로 매칭되는 단어가 포함되고, 또한 웨이크업 강조 단어가 포함되는 경우, 사용자는 라스트 라운드 음성 명령 중에서 웨이크업을 위한 주관 표시를 할 확률이 더 크다. 이로서, 상기 실시방식에서, 제1 음성 명령에 기설정 웨이크업 단어와 서로 매칭되는 단어가 포함되고, 웨이크업 강조 단어가 포함될 때, 진일보하여 라스트 라운트 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 검출하는 것을 선택하여, 진일보하여 새로운 웨이크업 단어를 획득할 수 있는 성공율을 향상시키고, 음성 인터렉션 기기에서 과도하게 라스트 라운드 음성 명령에 대해 검출을 진행하는 것을 회피하고, 더 나아가 음성 인터렉션 기기의 소모를 절약한다.

선택적으로, 상기 방법은:

상기 실시방식에서, 음성 인터렉션 기기의 웨이크업 단어는 사용자와 음성 인터렉션 기기의 교류과정에서 자연적으로 형성되고, 음성 인터렉션 기기의 웨이크업 단어가 더욱 다양해져서, 음성 인터렉션 기기는 에러 웨이크업될 수 있다.

이하, 구체적인 음성 인터렉션 시나리오를 결부하여 에러 웨이크업된 시나리오에 대해 예시적으로 설명하려 한다.

음성 인터렉션 기기의 기설정 웨이크업 단어는 "소A"이고, "A언니"를 새로운 웨이크업 단어로서 제1 단어 라이브러리로 추가한다.

[사용자]: A 언니의 전화번호는 무엇입니까(차 안의 다른 승객과 이야기를 나눔)

[음성 인터렉션 기기]: 여기 있어요(처음으로 에러 웨이크업됨)

[사용자]: 너를 부르는거 아니야 소A(또는, 너를 부르지 않았어 소A)

그 중, "너를 부르는거 아니야", "너를 부르지 않았어" 등은 에러 웨이크업 정정 단어로 이해할 수 있고, 제4 음성 명령 "A언니의 전화번호는 무엇입니까"에서의 "A 언니"와 "A언니"는 서로 매칭되고, 음성 인터렉션 기기는 사용자가 웨이크업 표시를 하는 것으로 이해하고, 응답한다. 음성 인터렉션 기기는 제3 음성 명령 "너를 부르는거 아니야 소A"중 포함된 에러 웨이크업 정정 단어 "너를 부르는거 아니야"를 검출할 때, 제4 음성 명령 중의 "A 언니"를 제2 단어 라이브러리에 추가한다. 이로하여, 후속으로 음성 인터렉션 기기는 "A 언니"에 의해 웨이크업되지 않는다.

제2 단어 라이브러리를 에러 웨이크업 단어 라이브러리, 에러 웨이크업 블랙리스트 등으로 칭할 수도 있다.

본 발명에서, 제1 단어 라이브러리 및 제2 단어 라이브러리는 로직상에서 구분을 진행한 두개의 단어 라이브러리일 수 있고, 저장 위치상에서 격리된 두개의 단어 라이브러리일 수도 있다. 제1 단어 라이브러리는 웨이크업 단어 라이브러리, 웨이크업 화이트리스트 등으로 이해할 수 있으며, 제2 단어 라이브러리는 에러 웨이크업 단어 라이브러리, 에러 웨이크업 블랙리스트 등으로 이해할 수 있다.

이외, 음성 인터렉션 기기는 에러 웨이크업 정정 단어 라이브러리를 설정할 수 있으며, 상기 에러 웨이크업 정정 단어 라이브러리는 에러 웨이크업 정정 단어를 저장하기 위한 것이며, 이로하여, 음성 인터렉션 기기는 사용자가 방출한 음성 명령을 수신할 때, 음성 명령에 에러 웨이크업 정정 단어 라이브러리 중의 단어와 서로 매칭되는 단어가 포함되는지 여부를 판단할 수 있다.

본 발명에서, 음성 인터렉션 기기가 사용자의 웨이크업 표시를 지나치는 것을 회피하기 위해, 음성 인터렉션 기기가 에러 웨이크업되는 것을 회피하기 위해, 음성 인터렉션 기기가 음성 명령 중의 단어 매칭 원칙은 아래와 같은 조건을 만족시킬 수 있으며, 상기 조건은: 음성 명령 중의 단어는 제1 단어 라이브러리 중의 단어와 서로 매칭(완전히 동일 및 부분 동일을 포함함)될 때, 음성 인터렉션 기기는 웨이크업 조작(즉 응답함)을 수행하고, 즉, 음성 인터렉션 기기는 제1 단어 라이브러리 중의 단어와 서로 매칭되는 단어에 의해 웨이크업될 수 있거나, 또는, 음성 인터렉션 기기는 제1 단어 라이브러리 중의 단어와 서로 매칭되는 단어에 의해 웨이크업되는 것을 지원한다. 음성 명령 중의 단어와 제2 단어 라이브러리 중의 단어는 완전히 동일할 때, 음성 인터렉션 기기는 에러 웨이크업 조작(즉 응답하지 않음)을 수행하고, 즉, 음성 인터렉션 기기는 제2 단어 라이브러리 중의 단어에 의해 웨이크업되지 않거나, 또는, 음성 인터렉션 기기는 제2 단어 라이브러리 중의 단어에 의해 웨이크업되는 것을 지원하지 않는다.

본 발명에서, 음성 명령 중의 단어는 제1 단어 라이브러리 중의 단어와 서로 매칭될 수 있고, 동시에 또한 제2 단어 라이브러리 중의 단어와도 완전히 동일할 수 있음을 고려하여, 음성 인터렉션 기기는 웨이크업되는지 여부를 판단할 때, 아래와 같은 방식에 따라 판단을 할 수 있는데, 상기 방식은: 음성 인터렉션 기기는 먼저 음성 명령 중의 단어가 제2 단어 라이브러리 중의 단어와 동일한지 여부를 판단하고, 만약 동일하다면, 에러 웨이크업 조작을 수행하며; 만약 상이하다면, 진일보하여 음성 명령 중의 단어가 제1 단어 라이브러리 중의 단어와 서로 매칭되는지 여부를 판단하고, 만약 서로 매칭된다면, 웨이크업 조작을 수행한다. 이로하여, 음성 인터렉션 기기가 에러 웨이크업되는 것을 회피할 수 있고, 음성 인터렉션 기기가 사용자의 웨이크업 표시를 지나치는 것을 회피할 수 있다. 또는, 아래와 같은 방식에 따라 판단을 진행할 수 있는데, 상기 방식은: 음성 인터렉션 기기는 먼저 음성 명령 중의 단어가 제1 단어 라이브러리 중의 단어와 서로 매칭되는지 여부를 판단하고, 만약 서로 매칭된다면, 진일보하여 음성 명령 중의 단어가 제2 단어 라이브러리 중의 단어와 동일한지 여부를 판단하고, 만약 동일하다면, 에러 웨이크업 조작을 수행하고, 만약 상이하다면, 웨이크업 조작을 수행한다. 이로하여, 음성 인터렉션 기기가 에러 웨이크업되는 것을 회피할 수 있고, 음성 인터렉션 기기가 사용자의 웨이크업 표시를 지나치는 것을 회피할 수 있다.

도 2에서 도시한 바와 같이, 구체적인 음성 인터렉션 시나리오를 결부하여, 음성 인터렉션 기기는:

단계 201: 음성 인터렉션 기기는 제1 음성 명령을 수신하는 단계(201);

단계 202: 음성 인터렉션 기기는 제1 음성 명령에 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되는 단어가 포함되는지 여부를 판단하고, 만약 포함한다면, 단계 203을 수행하고, 그렇지 않으면, 단계 206을 수행하는 단계(202);

단계 203: 음성 인터렉션 기기는 상기 단어가 제2 단어 라이브러리 중의 단어인지 여부를 판단하고, 만약 옳다면, 음성 인터렉션 기기는 응답하지 않고, 그렇지 않으면, 음성 인터렉션 기기는 응답하고, 단계 204를 수행하는 단계(203);

단계 204: 음성 인터렉션 기기는 제1 음성 명령의 넥스트(next) 라운드 음성 명령에 에러 웨이크업 정정 단어가 포함되는지 여부를 판단하고, 만약 포함된다면, 단계 205를 수행하는 단계(204);

단계 205: 음성 인터렉션 기기는 제2 단어 라이브러리에 대해 업데이트를 진행하고, 상기 단어를 제2 단어 라이브러리로 추가하는 단계(205);

단계 206: 음성 인터렉션 기기는 제1 음성 명령의 넥스트 라운드 음성 명령에 기설정 웨이크업 단어가 포함되는지 여부를 판단하고, 만약 포함된다면, 단계 207을 수행하고, 그렇지 않은면, 음성 인터렉션 기기는 응답하지 않는 단계(206);

단계 207: 음성 인터렉션 기기는 제1 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하고, 만약 포함된다면, 단계 208을 수행하는 단계(207); 및

단계 208: 음성 인터렉션 기기는 제1 단어 라이브러리에 대해 업데이트를 진행하고, 제1 음성 명령에서 음성 인터렉션 기기의 명칭과 서로 관련되는 단어를 제1 단어 라이브러리로 추가하는 단계; 와 같은 방식을 채용하여 음성 인터렉션을 진행할 수 있다.

이상은 단지 음성 인터렉션 시나리오의 예시적인 실시예이며, 상술한 단계에 의해 음성 인터렉션을 진행할 수 있지만 본 발명은 이에 대해 한정되지 않는다.

상기 제1 단어 라이브러리에 상기 제2 단어가 포함되는지 여부를 판단하는 단계; 및

상기 제1 단어 라이브러리에 상기 제2 단어가 포함되는 경우, 상기 제1 단어 라이브러리에서 상기 제2 단어를 제거하는 단계; 를 더 포함한다.

실제 인터렉션 시나리오에서, 음성 인터렉션 기기는 그 전의 어떤 단어를 새로운 웨이크업 단어로서 제1 단어 라이브러리 중에 저장하였고, 그 후 그 단어는 또 음성 인터렉션 기기에 의해 에러 웨이크업 단어로서 제2 단어 라이브러리에 추가되었을 수 있으며, 이때, 제1 단어 라이브러리와 제2 단어 라이브러리에는 동일한 단어가 존재할 수 있다.

보다시피, 해당 실시방식은 제1 라이브러리 중에서 제2 단어 라이브러리와 동일한 단어를 제거할 수 있고, 이로서, 음성 인터렉션 기기가 상기 단어에 의해 다시 에러 웨이크업되는 것을 유효하게 회피할 수 있을 뿐만 아니라, 또한 제1 단어 라이브러리에 의해 점유되는 저장 공간을 절약할 수 있으며, 제1 단어 라이브러리의 매칭 효율을 가속화한다.

실제 인터렉션 시나리오에서, 음성 인터렉션 기기는 그 전의 어떤 단어를 에러 웨이크업 단어로서 제2 단어 라이브러리 중에 저장하였고, 그 후 그 단어는 또 사용자에 의해 새로운 웨이크업 단어로서 사용되었으며, 음성 인터렉션 기기는 해당 단어(즉 웨이크업 특징 단어)를 새로운 웨이크업 단어로서 제1 단어 라이브러리로 추가하며, 이때, 제2 단어 라이브러리에는 새로운 웨이크업 단어와 동일한 단어가 존재한다.

보다시피, 사용자의 웨이크업 체험을 향상하기 위해, 상기 실시방식은 제2 단어 라이브러리로부터 해당 웨이크업 특징 단어를 제거하여, 사용자로 하여금 새로운 웨이크업 단어를 통해 음성 인터렉션 기기를 웨이크업하는 것을 확보할 수 있다.

설명해야 할 것은, 본 발명에서의 음성 인터렉션 방법 중의 다양한 선택가능한 실시방식들은, 서로 상호 결합되어 구현될 수 있고, 또한 단독으로 구현될 수도 있으며, 이에 대해 본 발명은 한정하지 않는다.

본 발명의 상술한 실시예는 아래와 같은 장점 또는 유익한 효과를 구비한다.

본 발명은 사람-기계 인터렉션 체험을 개선할 수 있고, 특정된 웨이크업 단어에 한정되지 않고도 음성 인터렉션 기기를 웨이크업할 수 있으며, 음성 인터렉션 기기의 자연스러운 웨이크업을 구현할 수 있는 동시에, 에러 웨이크업을 유효하게 회피할 수 있고, 사람-기계 교류과정을 더욱 유창하고 자연스럽도록 한다.

본 발명은 음성 인터렉션 기기를 더 제공하며, 도 3에서 도시한 바와 같이, 음성 인터렉션 기기(300)는:

수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하기 위한 제1 판단 모듈(301)로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 제1 판단 모듈(301); 및

상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하기 위한 제1 추가 모듈(302); 을 포함한다.

선택적으로, 상기 웨이크업 단어는 미리 설정된 것이다.

선택적으로, 음성 인터렉션 기기(300)는:

선택적으로, 상기 음성 인터렉션 기기(300)는:

본 발명에서 제공하는 음성 인터렉션 기기(300)는 상술한 음성 인터렉션 방법 실시예의 음성 인터렉션 기기가 구현하는 각각의 과정을 구현할 수 있으며, 동일한 유익한 효과를 달성할 수 있는바, 중복되는 설명을 회피하기 위해, 여기서 더 이상 상세하게 기술하지 않기로 한다.

본 발명의 실시예에 있어서, 본 발명은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도 4에서 도시한 바와 같이, 도 4는 본 발명의 실시예의 음성 인터렉션 방법에 따른 전자 기기의 블록도이다. 전자 기기는 예하면 랩탑 컴퓨터, 데스크톱 컴퓨터, 워킹 테이블, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터와 같이 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 다양한 형태의 이동 장치를 나타낼 수 있으며, 예컨대, 개인용 디지털 처리, 셀룰러 휴대폰, 스마트 휴대폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치이다. 본문에서 나타내는 컴포넌트, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것이지, 본 명세서에 설명된 및/또는 요구하는 본 발명의 구현을 제한하기 위함이 아님은 자명한 것이다.

도 4에서 도시한 바와 같이, 상기 전자 기기는: 하나 또는 복수 개의 프로세서(501), 메모리(502), 및 각 컴포넌트들을 연결하기 위한 인터페이스를 포함하고, 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 컴포넌트들은 상이한 버스를 이용하여 서로 연결되고, 코먼 메인 플레이트 상에 설치되거나 또는 수요에 따라 기타 방식으로 설치될 수 있다. 프로세서는 전자 기기내에서 수행하는 명령에 대해 처리를 진행할 수 있으며, 메모리에 저장되거나 또는 메모리상에 외부 입력/출력 장치(예컨대, 인터페이스에 연결되는 표시 기기)상에서 GUI의 그래픽 정보를 나타내는 명령을 포함한다. 기타 실시방식에 있어서, 필요하다면, 복수 개의 프로세서 및/또는 복수 개의 버스를 복수 개의 메모리 및 복수 개의 메모리와 함께 사용할 수 있다. 동일하게, 복수 개의 전자 기기를 연결할 수 있으며, 각 기기들은 부분적으로 필요한 조작을 제공한다(예컨대, 서버 어레이, 블레이드 서버, 또는 멀티 프로세서 시스템). 도 4에서는 하나의 프로세서(501)를 예로 들었다.

메모리(502)는 본 발명에서 제공하는 비일시적 컴퓨터 판독 가능 저장 매체이다. 그 중, 상기 메모리에 적어도 하나의 프로세서에 의해 실행되는 명령이 저장되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에서 제공하는 음성 인터렉션 방법을 수행하도록 한다. 본 발명의 비일시적 컴퓨터 판독 가능 저장 매체에 컴퓨터 명령이 저장되어 있으며, 상기 컴퓨터 명령은 컴퓨터로 하여금 본 발명에서 제공하는 음성 인터렉션 방법을 수행하도록 하기 위한 것이다.

메모리(502)는 하나의 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터가 실행가능한 프로그램 및 모듈을 저장하기 위한 것이며, 예하면 본 발명의 실시예에서의 음성 인터렉션 방법에 대응되는 명령/모듈(예컨대, 도 3에서 도시된 제1 판단 모듈(401) 및 제1 추가 모듈(402))이다. 프로세서(501)는 메모리(502)중의 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하는 것을 통해, 따라서 음성 인터렉션 기기의 각종 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상술한 방법 실시예에서의 음성 인터렉션 방법을 구현한다.

메모리(502)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 그 중, 프로그램 저장 영역은 작업 시스템, 적어도 하나의 기능에 필요한 애플리케이션 등을 저장할 수 있으며; 데이터 저장 영역은 음성 인터렉션 방법의 전자 기기의 사용에 따라 작성된 데이터 등을 저장할 수 있다. 또한, 메모리(502)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리를 포함할 수도 있으며, 예컨대 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리 디바이스 또는 기타 비일시적 솔리드 스테이트 저장 디바이스를 더 포함할 수 있다. 일부 실시예에서, 메모리(502)는 선택적으로 프로세서(501)와 상대적으로 원격 설치된 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 음성 인터렉션 방법에 따른 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 로컬 영역 네트워크, 이동 통신망 및 이들의 조합을 포함할 수 있으나 이에 한정되지 않는다.

음성 인터렉션 방법에 따른 전자 기기는: 입력 장치(503) 및 출력 장치(504)를 더 포함할 수 있다. 프로세서(501), 메모리(502), 입력 장치(503) 및 출력 장치(504)는 버스 또는 기타 방식을 통해 연결될 수 있고, 도 4에서는 버스를 통해 연결된 것으로 예를 들었다.

입력 장치(503)는 입력된 숫자 또는 문자 부호 정보를 수신하고, 음성 인터렉션 방법에 따른 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 산생시킬 수 있는바. 예컨대, 입력 장치는 터치 패널, 기능키, 마우스, 트랙패널, 터치 패널, 표시 로드, 하나 또는 복수 개의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치이다. 출력 장치(504)는 표시 기기, 보조 조명 장치（예컨대, LED） 및 촉각 피드백 장치(예컨대, 진동 전기) 등을 포함할 수 있다. 상기 표시 기기는 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 표시 기기는 터치 스크린일 수 있다.

여기서 설명되는 시스템 및 기술의 각종 실시방식들은 디지털 전기 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 각종 실시방식은: 하나 또는 복수 개의 컴퓨터 프로그램에서 구현하는 방식을 포함할 수 있으며, 상기 하나 또는 복수 개의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능한 프로세서는 전용 또는 범용으로 프로그램 가능한 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치로 전송한다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로도 칭할 수 있음)은 프로그램 가능한 프로세서의 기계 명령을 포함하며, 고급 과정 및/또는 대상을 향한 프로그램 언어 및/또는 어셈블링/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 구현할 수 있다. 본문에서 사용되는 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능한 매체를 포함하는, 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서의 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예컨대, 자기 디스크, 광 디스크, 메모리, 프로그램 가능한 로직 장치（PLD）)를 의미한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터렉션을 제공하기 위해, 본 명세서에서 설명된 시스템 및 기술을 컴퓨터에서 실시할 수 있으며, 상기 컴퓨터는: 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예컨대, CRT (칼라 음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 및 포인팅 장치(예컨대, 마우스 또는 트랙볼)를 구비하고, 사용자는 상기 키보드 및 포인팅 장치를 통해 입력하여 컴퓨터에 제공할 수 있다. 기타 타입의 장치는 사용자와의 인터렉션을 제공할 수 있으며; 예컨대, 사용자에게 제공된 피드백은 임의의 형태의 센싱 피드백(예컨대, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며; 그리고 임의의 형태(음향 입력, 음성 입력, 또는 촉각 입력)를 사용하여 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술을 백스테이지 컴포넌트를 포함하는 컴퓨팅 시스템(예컨대, 데이터 서버), 또는 중간 컴포넌트를 포함하는 컴퓨팅 시스템(예컨대, 애플리케이션 서버), 또는 전방 컴포넌트를 포함하는 컴퓨팅 시스템(예컨대, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기에서 설명된 시스템 및 기술의 실시방식을 인터렉션할 수 있음), 또는 이런 백스테이지 컴포넌트, 중간 컴포넌트, 또는 전방 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 서로 연결될 수 있다. 통신 네트워크의 예는 로컬 네트워크（LAN）, 광역 네트워크（WAN） 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 서로 인터렉션을 진행한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 구비한 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 생성된다.

본 발명의 실시예의 기술방안에 따라, 음성 인터렉션 기기는 웨이크업된 후, 음성 인터렉션 기기는 라스트 라운드 음성 명령 중에 포함되는 웨이크업 특징 단어를 새로운 웨이크업 단어로 추가할 수 있으며, 이로서, 후속으로 사용자는 고정된 웨이크업 단어에 제한되는 것이 아니라 새로운 웨이크업 단어를 사용하여 음성 인터렉션 기기를 웨이크업할 수 있다. 상술한 기술적 수단을 채용함으로서, 음성 인터렉션 기기의 웨이크업 방식을 풍부하게 하고, 음성 인터렉션 기기의 웨이크업을 더욱 자연스럽고 다양하게 한다.

위에서 나타내는 다양한 형태의 절차를 사용하여, 단계를 재 정렬, 추가 또는 삭제할 수 있다는 것을 이해할 수 있다. 예컨대, 본 발명에서 기재된 각 단계는 병렬적으로 실행할 수 있고, 순차적으로 실행할 수도 있으며, 또한 상이한 순서로 실행할 수도 있으며, 단지 본 발명에 따른 공개된 기술방안이 의도한 결과를 실현할 수만 있다면, 본문에서는 이에 대해 제한하지 않는다.

상술한 구체적인 실시방식은, 본 발명의 보호 범위의 제한을 구성하지 않는다. 해당 기술분야에서 통상의 지식을 가진 자들은 본 발명의 실시예에의 설계 요구 및 기타 요소에 따라, 다양한 개변, 조합, 서브 조합 및 교체를 진행할 수 있다. 본 발명의 정신 및 특허청구범위를 일탈하지 않고, 이러한 개변 및 변형은 본 발명의 청구범위 및 그와 동등한 기술 범위 내에 속하며, 본 발명에서는 이러한 개변 및 변형을 청구범위 내에 귀속 시키고자 한다.

Claims

음성 인터렉션 기기에 응용되는 음성 인터렉션 방법에 있어서,
상기 방법은:
수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 판단하는 단계; 및
상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하는 단계;
를 포함하는 것을 특징으로 하는 음성 인터렉션 방법.
제1 항에 있어서,
상기 웨이크업 단어는 미리 설정된 것인 것을 특징으로 하는 음성 인터렉션 방법.
제1 항에 있어서,
상기 방법은:
제3 음성 명령에 에러 웨이크업 정정 단어가 포함되는 경우, 제4 음성 명령에 포함된 제2 단어를 제2 단어 라이브러리로 추가하는 단계로서, 그 중, 상기 제4 음성 명령은 상기 제3 음성 명령의 라스트 라운드 음성 명령이고, 상기 제2 단어는 상기 제1 단어 라이브러리 중의 단어와 서로 매칭되는 것인, 추가하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인터렉션 방법.
제3 항에 있어서,
상기 제4 음성 명령에 포함되는 제2 단어를 제2 단어 라이브러리로 추가하는 단계 이후, 상기 방법은:
상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는지 여부를 판단하는 단계; 및
상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는 경우, 상기 제1 단어 라이브러리 중에서 상기 제2 단어를 제거하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인터렉션 방법.
제3 항에 있어서,
상기 웨이크업 특징 단어를 제1 단어 라이브러리로 추가하는 단계 이후,
상기 방법은:
상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는지 여부를 판단하는 단계; 및
상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는 경우, 상기 제2 단어 라이브러리 중에서 상기 웨이크업 특징 단어를 제거하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인터렉션 방법.
음성 인터렉션 기기에 있어서,
수신한 제1 단어를 포함하는 제1 음성 명령에 응답하고, 제2 음성 명령에 웨이크업 특징 단어가 포함되는지 여부를 판단하기 위한 제1 판단 모듈로서, 그 중, 상기 제1 단어는 상기 음성 인터렉션 기기의 웨이크업 단어와 서로 매칭되고, 상기 제2 음성 명령은 상기 제1 음성 명령의 라스트 라운드(Last round) 음성 명령이며, 상기 웨이크업 특징 단어는 상기 음성 인터렉션 기기의 명칭과 서로 관련되는 단어인 것인, 제1 판단 모듈; 및
상기 제2 음성 명령은 상기 웨이크업 특징 단어를 포함하는 경우, 상기 웨이크업 특징 단어를 제1 단어 라이브러리(Word library)로 추가하기 위한 제1 추가 모듈;
을 포함하는 것을 특징으로 하는 음성 인터렉션 기기.
제6 항에 있어서,
상기 웨이크업 단어는 미리 설정된 것인 것을 특징으로 하는 음성 인터렉션 기기.
제6 항 또는 제7 항에 있어서,
상기 음성 인터렉션 기기는:
제3 음성 명령에 에러 웨이크업 정정 단어가 포함되는 경우, 제4 음성 명령에 포함된 제2 단어를 제2 단어 라이브러리로 추가하기 위한 제2 추가 모듈로서, 그 중, 상기 제4 음성 명령은 상기 제3 음성 명령의 라스트 라운드 음성 명령이고, 상기 제2 단어는 상기 제1 단어 라이브러리 중의 단어와 서로 매칭되는 것인, 제2 추가 모듈;
을 더 포함하는 것을 특징으로 하는 음성 인터렉션 기기.
제8 항에 있어서,
상기 음성 인터렉션 기기는:
상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는지 여부를 판단하기 위한 제2 판단 모듈; 및
상기 제1 단어 라이브러리 중에 상기 제2 단어가 포함되는 경우, 상기 제1 단어 라이브러리 중에서 상기 제2 단어를 제거하기 위한 제1 제거 모듈;
을 더 포함하는 것을 특징으로 하는 음성 인터렉션 기기.
제8 항에 있어서,
상기 음성 인터렉션 기기는:
상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는지 여부를 판단하기 위한 제3 판단 모듈; 및
상기 제2 단어 라이브러리 중에 상기 웨이크업 특징 단어가 포함되는 경우, 상기 제2 단어 라이브러리 중에서 상기 웨이크업 특징 단어를 제거하기 위한 제2 제거 모듈;
을 더 포함하는 것을 특징으로 하는 음성 인터렉션 기기.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하며,
그 중, 상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있으며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1 항 내지 제5 항 중 임의의 한 항에 따른 방법을 실행하도록 하는 것인;
것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터로 하여금 청구항 제1 항 내지 제5 항 중 임의의 한 항에 따른 방법을 실행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 적어도 하나의 프로세서에 의해 실행될 경우, 청구항 제1항 내지 제5항 중 임의의 어느 한 항에 따른 상기 방법을 구현하는 것인,
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.