KR102437944B1 - 음성 웨이크업 방법 및 장치 - Google Patents

음성 웨이크업 방법 및 장치 Download PDF

Info

Publication number
KR102437944B1
KR102437944B1 KR1020207028374A KR20207028374A KR102437944B1 KR 102437944 B1 KR102437944 B1 KR 102437944B1 KR 1020207028374 A KR1020207028374 A KR 1020207028374A KR 20207028374 A KR20207028374 A KR 20207028374A KR 102437944 B1 KR102437944 B1 KR 102437944B1
Authority
KR
South Korea
Prior art keywords
interaction
user
state
information
wake
Prior art date
Application number
KR1020207028374A
Other languages
English (en)
Other versions
KR20200130352A (ko
Inventor
야난 송
지아 판
구오빙 우
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20200130352A publication Critical patent/KR20200130352A/ko
Application granted granted Critical
Publication of KR102437944B1 publication Critical patent/KR102437944B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

본 발명의 실시예는 컴퓨터 응용 기술분야에 속하는 음성 웨이크업 방법 및 장치를 제공한다. 상기 방법은 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 단계; 및 사용자에 의해 입력된 음성 신호를 획득하고, 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업하는 단계를 포함한다. 이전의 인터랙션 프로세스가 중단된 후 실시간 웨이크업 워드 데이터베이스에 기반하여 웨이크업할 수 있고 다시 웨이크업할 때 사용자에게 슬립 무감지의 사용자 체험을 제공함으로써 사용자는 전에 이미 수행된 인터랙션 프로세스를 반복하지 않고 슬립 전의 인터랙션 신(Scene)에 직접 연결할 수 있다. 따라서, 인터랙션 원가를 감소시키고 사용자의 인터랙션 체험을 향상시킬 수 있다.

Description

음성 웨이크업 방법 및 장치
[상호 참조]
본 출원은 2018년 04월 04일자로 제출된 특허 명칭이 “음성 웨이크업 방법 및 장치”인 제2018102988451호 중국 특허 출원을 인용하고, 상기 중국 특허 출원은 인용됨에 따라 본 출원에 전부 병합된다.
[기술분야]
본 발명의 실시예는 컴퓨터 응용 기술 분야에 관한 것으로서, 보다 상세하게는, 음성 웨이크업 방법 및 장치에 관한 것이다.
음성 인터랙션 기술이 점차적으로 발달되면서 점점 더 많은 스마트 단말기는 사용자 음성 데이터에 대한 음성 정보를 이해함으로써 스마트 단말기를 웨이크업하기 위한 음성 웨이크업 기능을 가지고 있다. 관련 기술에는 주로 사용자가 웨이크업 워드를 사전에 설정하고 음성 신호를 수신한 후 음성 신호가 웨이크업 워드와 매칭되는지를 판단하는 음성 웨이크업 방법을 제공한다. 음성 신호가 웨이크업 워드와 매칭될 경우, 슬립(sleep) 상태의 스마트 디바이스를 웨이크업하고, 매칭되지 않을 경우, 스마트 디바이스를 웨이크업하지 않는다. 스마트 디바이스는 웨이크업된 후 즉시 인터랙션 프로세스를 시작한다. 인터랙션 프로세스에서 중단이 나타나면 스마트 디바이스를 다시 웨이크업하고 처음부터 인터랙션 프로세스를 시작해야 한다.
인터랙션 프로세스가 중단된 후 스마트 디바이스를 다시 웨이크업하고 처음부터 인터랙션 프로세스를 시작해야 한다. 만약 중단이 끝난 후 사용자가 중단 전의 인터랙션 일환을 복구하려할 경우, 이전의 인터랙션 일환은 중단전에 이미 실행되었으므로, 인터랙션 비용을 증가시키고 사용자의 인터랙션 체험을 떨어뜨릴 것이다.
상기 과제를 극복하거나 그 중 적어도 일부를 해결하기 위하여, 본 발명의 실시예는 괸련 기술에서 인터랙션 프로세스가 중단된 후 웨이크업될 때 인터랙션 프로세스를 다시 수행하는 결함을 해결하고 슬립(sleep) 전의 인터랙션 프로세스를 계속하여 수행하는 음성 웨이크업 장치 및 방법을 제공한다.
본 발명의 실시예의 제1측면에 따르면, 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 단계; 및
사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 상기 음성 신호에 기반하여 웨이크업하는 단계;를 포함하는 음성 웨이크업 방법을 제공한다.
본 발명의 실시예의 제2측면에 따르면, 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 제1결정 모듈; 및
사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 상기 음성 신호에 기반하여 웨이크업하는 웨이크업 모듈;을 포함하는 음성 웨이크업 장치를 제공한다.
본 발명의 실시예의 제3측면에 따르면, 적어도 하나의 프로세서; 및
프로세서와 통신하여 연결되는 적어도 하나의 메모리;를 포함하고,
메모리에는 프로세서에 의해 수행 가능한 프로그램 명령이 저장되며, 프로세서는 프로그램 명령을 호출하여 제1측면에서 제공된 음성 웨이크업 방법을 수행하는 디바이스를 제공한다.
본 발명의 실시예의 제4측면에 따르면, 컴퓨터가 제1측면에서 제공된 음성 웨이크업 방법을 수행하도록하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능한 저장 매체를 제공한다.
본 발명의 실시예는 사용자 인터랙션 상태에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정하므로써, 사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 상기 음성 신호에 기반하여 웨이크업하는 방법을 제공한다. 이전의 인터랙션 프로세스가 중단된 후 실시간 웨이크업 워드 데이터베이스에 기반하여 웨이크업할 수 있고 다시 웨이크업할 때 사용자에게 슬립 무감지의 사용자 체험을 제공함으로써 사용자는 이전에 이미 수행된 인터랙션 프로세스를 반복할 필요없이 슬립 이전의 인터랙션 신(Scene)에 직접 연결할 수 있다. 따라서, 인터랙션 원가를 감소시키고 사용자의 인터랙션 체험을 향상시킬 수 있다.
본 발명의 실시예 또는 종래 기술의 기술방안을 보다 명확하게 설명하기 위해, 이하에서는 실시예 또는 종래 기술에 대한 설명에서 사용되는 도면에 대하여 간략하게 설명한다. 이하 설명에서의 도면은 본 발명의 일부 실시예이고, 이러한 도면에 근거하여 창조적인 노력이 없이 기타 다른 도면을 획득할 수 있는 것은 당업자에게 있어서 자명할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 웨이크업 방법을 예시적으로 도시한 흐름도이다.
도 2는 본 발명의 다른 일 실시예에 따른 음성 웨이크업 방법을 예시적으로 도시한 흐름도이다.
도 3은 본 발명의 또 다른 일 실시예에 따른 음성 웨이크업 방법을 예시적으로 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 웨이크업 온 랜의 구성을 예시적으로 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 웨이크업 장치의 구성을 예시적으로 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 웨이크업 디바이스의 구성을 예시적으로 도시한 도면이다.
본 발명의 실시예의 목적, 기술방안 및 장점을 보다 명확하게 나타내기 위하여, 이하에서는 본 발명의 실시예의 도면을 참조하여, 본 발명의 실시예의 기술방안에 대하여 명확하고 완전하게 설명한다. 설명되는 실시예는 본 발명의 일부 실시예일 뿐 모든 실시예인 것은 아니다. 당업자가 본 발명의 실시예에 기초하여 창조적인 노력이 없이 획득한 기타 다른 모든 실시예는 본 발명의 청구 범위에 속할 것이다.
음성 웨이크업은 사용자의 음성 신호를 이해함으로써 스마트 디바이스를 웨이크업한다. 관련 기술에서의 웨이크업 과정은 다은과 같은 예를 참고할 수 있다. 스마트 디바이스는 스마트 스피커이고, 사용자가 사전에 생성한 웨이크업 워드는 ‘딩동딩동’일 경우, 스마트 스피커는 사용자가 입력한 “딩동딩동”의 음성 신호(즉 의미 없는 음성신호, 이러한 음성신호는 스마트 스피커를 웨이크업하는데만 사용됨)를 감지하면 사용자와의 인터랙션을 시작할 수 있다. 구체적인 인터랙션 프로세스는 다음과 같다.
사용자: 딩동딩동.
스마트 스피커: 무엇을 도와드릴까요?
사용자: 노래를 들려줘요.
스마트 스피커: 네, 특별히 좋아하시는 가수나 곡이 있으세요?
사용자: 저우제룬의 노래를 듣고 싶어요.
스마트 스피커: 저우제룬의 어떤 노래를 지정할까요?……
스마트 스피커가 “저우제룬의 어떤 노래를 지정할까요?”라고 질문한 후 스마트 스피커가 일정한 시간 동안 사용자로 부터 상기 질문에 대한 정확한 응답을 얻지 못하면 저우제룬의 노래를 랜덤으로 재생한 후 슬립(sleep) 상태에 들어간다. 정확한 응답을 얻지 못하는 경우는 기설정 시간대에 응답을 얻지 못하거나, 기설정 시간대에 질문과 관련없는 응답(즉, 동문서답)을 얻는 것으로 분류될 수 있다. 스마트 스피커는 슬립 상태에 진입한 후 사용자가 스마트 스피커를 다시 웨이크업하려면 ‘딩동딩동’이라고 말하고 인터랙션 프로세스를 다시 시작해야 한다. 이때, 사용자가 스마트 스피커를 웨이크업하는 목적이 저우제룬의 노래를 듣는 것이라면 다음과 같은 인터랙션 프로세스를 다시 실행해야 한다.
사용자: 딩동딩동.
스마트 스피커: 무엇을 도와드릴까요?
사용자: 노래를 들려줘요.
스마트 스피커: 네, 특별히 좋아하시는 가수나 곡이 있으세요?
사용자: 저우제룬의 노래를 듣고 싶어요.
이로부터 알 수 있다시피, 상기 인터랙션 프로세스는 중복되는 것이다. 본 발명의 실시예는 상술한 상황에 대한 음성 웨이크업 방법을 제공한다. 상기 방법의 실행 주체는 웨어러블 디바이스, 차량 탑재 디바이스, 모바일 디바이스, PC, 스마트 가전 등과 같은 스마트 디바이스일 수 있으며, 본 발명의 실시예는 이에 구체적으로 한정되지 않는다. 상기 방법은 가전 사용 신(Scene), 고객 서비스 인터랙션 신(Scene), 티켓 구매 신(Scene) 등과 같은 상이한 인터랙션 신(Scene)에 적용될 수 있으며, 본 발명의 실시예는 이에 대해서도 구체적으로 한정하지 않는다. 도 1을 참조하면, 상기 방법은 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 단계(101); 및 사용자에 의해 입력된 음성 신호를 획득하고, 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업하는 단계(102)를 포함한다.
단계 (101)을 수행하기 전에, 스마트 디바이스는 이미 사용자에 의해 웨이크업되고 사용자와 인터랙션 프로세스, 즉 이전의 인터랙션 프로세스를 개시한다. 이전의 인터랙션 프로세스에서, 스마트 디바이스는 이미 정의된 웨이크업 워드 데이터베이스를 통해 스마트 디바이스를 웨이크업할 수 있으며 이미 정의된 웨이크업 워드 데이터베이스를 오리지널 워드 데이터베이스로 할 수 있다. 오리지널 웨이크업 워드 데이터베이스는 스마트 디바이스가 출하시 자동으로 설정되거나 다음과 같은 방식으로 생성될 수도 있다. 즉, 스마트 디바이스가 사용자에 의해 입력된 웨이크업 워드의 텍스트 또는 음성 신호를 수신하되, 웨이크업 워드의 텍스트는 사용자가 사전에 정의하고 확인한 후 획득할 수 있고, 음성 신호는 의미있는 음성일 수도 있고 의미없는 음성일 수도 있다.
스마트 디바이스가 웨이크업 워드의 텍스트를 수신하면 웨이크업 워드 텍스트의 단어를 분리하고; 각 분리된 단어와 음소 간의 매핑 리스트에 따라 웨이크업 워드의 음소 혹은 마르코프 상태 레벨 시퀀스를 결정하고; 웨이크업 워드 데이터베이스를 호출하여 프로그램을 생성하며 음소 또는 상태 레벨 시퀀스에 기반하여 오리지널 웨이크업 워드 데이터베이스를 생성하고; 사용자가 새로운 웨이크업 워드를 결정한 후 오리지널 웨이크업 워드 데이터베이스를 적용하여 스마트 디바이스를 웨이크업할 수 있다.
스마트 디바이스가 음성 신호를 수신하면 먼저 필터 뱅크(filter bank) 특징과 같은 음성 신호에 대한 음향학적 특징을 추출하고, 음소 또는 상태 레벨 디코딩 워드 데이터베이스를 구축하고 음향학적 모델을 호출하여 음소 또는 상태 레벨 디코딩 워드 데이터베이스에서 음향학적 특징을 디코딩하여 웨이크업 워드의 음소 또는 상태 레벨 시퀀스를 획득하며, 웨이크업 워드 데이터베이스를 호출하여 프로그램을 생성하고 음소 또는 상태 레벨 시퀀스에 기반하여 오리지널 웨이크업 워드 데이터베이스를 생성한다.
스마트 디바이스는 이전의 인터랙션 프로세스의 어느 일환에서 사용자로부터 정확한 응답을 얻지 못하여 슬립 상태로 진입할 수 있다. 스마트 디바이스가 슬립 상태에 진입한 후 현재 사용자 인터랙션 상태를 확인할 수 있다. 사용자 인터랙션 상태는 두 가지로 구분될 수 있는데, 하나는 다음 인터랙션 프로세스에서 사용자가 슬립 전의 이전의 인터랙션 프로세스를 계속하기 원하는 것이고, 다른 하나는 다음 인터랙션 프로세스에서 사용자가 새로운 인터랙션 프로세스를 시작하기 원하는 것이다. 실시간 웨이크업 워드 데이터베이스를 결정한 후, 사용자에 의해 입력된 음성 신호를 획득하고 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업할 수 있다.
본 발명의 실시예는 사용자 인터랙션 상태에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정하므로써, 사용자에 의해 입력된 음성 신호를 획득하며 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업하는 방법을 제공한다. 이전의 인터랙션 프로세스가 중단된 후, 실시간 웨이크업 워드 데이터베이스에 기반하여 웨이크업할 수 있고, 다시 웨이크업할 때 사용자에게 슬립 무감지의 사용자 체험을 제공함으로써 사용자는 전에 이미 수행된 인터랙션 프로세스를 반복하지 않고 슬립 전의 인터랙션 신(Scene)에 직접 연결할 수 있다. 따라서, 인터랙션 원가를 감소시키고 사용자의 인터랙션 체험을 향상시킬 수 있다.
상기 실시예의 내용에 기반하여, 본 발명의 실시예는 사용자 인터랙션 상태가 슬립 전의 이전의 인터랙션 프로세스의 계속일 경우, 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하고, 상기 키워드를 오리지널 웨이크업 워드 데이터베이스에 추가하여 실시간 웨이크업 워드 데이터베이스를 획득하는 단계; 및 상기 사용자 인터랙션 상태가 인터랙션 프로세스가 다시 시작되는 상태일 경우, 오리지널 웨이크업 워드 데이터베이스를 실시간 웨이크업 워드 데이터베이스로 하는 단계를 포함하는 사용자 인터랙션 상태에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정하는 방법을 제공한다.
구체적으로, 사용자 인터랙션 상태가 슬립 전의 이전의 인터랙션 프로세스의 계속일 경우, 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득할 수 있다. 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득할 때, 제1인터랙션 정보는 이전의 인터랙션 프로세스에서 상이한 인터랙션 일환과 관련된 인터랙션 정보일 수도 있고, 이전의 인터랙션 프로세스에서 사용자 수요에 기반하여 획득한 정보일 수도 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다. 키워드는 슬립 과정 이전의 인터랙션 프로세스에서 상이한 인터랙션 일환과 관련된 명사나 동사일 수 있고, 인터랙션 일환에서 사용자가 제기한 질문에 따라 검색된 명사일 수도 있으며, 본 발명의 실시예는 이에 대해서도 구체적으로 한정하지 않는다. 키워드를 오리지널 웨이크업 워드 데이터베이스에 추가하여 실시간 웨이크업 워드 데이터베이스를 획득할 수 있다. 사용자가 입력한 음성 신호를 획득한 후 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업할 수 있다.
예를 들어, 스마트 디바이스가 스마트 스피커일 경우, 슬립 전의 이전의 인터랙션 프로세스는 상술한 예를 참고할 수 있다. 상응하게, 키워드는 “듣기”, “저우제룬”, “노래” 등과 같은 인터랙션 프로세스에서 상이한 인터랙션 일환에 관련된 명사 및 동사일 수 있고, 저우제룬에 해당하는 뮤직 라이브러리 중의 ‘간단애’ ‘회오리바람’ 등 곡명과 같은 인터랙션 일환에서 사용자가 제기한 문제에 따라 검색된 명사일 수도 있다. 상기 키워드를 통해 실시간 웨이크업 워드 데이터베이스를 결정할 수 있으며, 사용자가 '저우제룬'과 같은 음성 신호를 입력할 때 실시간 웨이크업 워드 데이터베이스를 통해 음성 신호를 인식하는 결과에 기반하여 스마트 디바이스를 웨이크업하고 슬립 전의 이전의 인터랙션 프로세스를 계속하고 저우제룬과 관련된 이력 자료를 소개하는 대신 저우제룬의 노래를 재생하는 다음 조작을 결정한다. 실시간 웨이크업 워드 데이터베이스를 구축할 때 또는 인터랙션 일환에서 사용자가 제기한 질문에 의해 검색된 곡명 ‘간단애’와 같은 명사를 키워드로 하므로써, 사용자가 입력한 음성 신호가 “간단애를 재생하다”일 때 동일하게 스마트 디바이스를 웨이크업하고 노래 “간단애”를 재생할 수 있다. 또한, 사용자가 입력한 음성 신호가 “간단애 듣기” 혹은 “간단애”일 때도 “간단애”를 재생할 수 있다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 본 발명의 실시예는 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하는 방식에 대해 구체적으로 한정하지 않으며, 품사 및/또는 문장 성분에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하는 방식이 포함되지만 이에 제한되지 않는다.
그 중 키워드 정보 규칙은 제1인터랙션 정보에서 키워드를 선택하는 선택 규칙일 수 있다. 구체적으로, 키워드 정보 규칙은 품사 및/또는 문장 성분에 때라 선택하고, 예를 들어 품사에 따라 명사, 형용사 등을 선택하고, 및/또는 문장 성분에 때라 술어, 목적어 등을 선택하며, 본 발명의 실시예는 키워드 정보 규칙의 내용에 대해 구체적으로 한정하지 않는다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 제1인터랙션 정보는 사용자가 스마트 디바이스와 인터랙션 시 내리는 명령이나 제기한 질문인 사용자 명령 정보, 스마트 디바이스가 사용자가 내린 명령이나 제기한 질문에 따라 회신하는 기계 회신 정보 및 스마트 디바이스가 사용자의 수요에 따라 조회한 조회 정보 중 어느 하나의 정보를 포함한다. 키워드 정보 규칙에 따라 인터랙션 정보의 키워드를 획득한 후 키워드에 기반하여 웨이크업 워드 데이터베이스를 구축할 수 있다. 키워드를 획득하는 과정은 미리 실행될 수 있어서 오리지널 웨이크업 워드 데이터베이스를 업데이트하는 속도를 높일 수 있음에 유의해야 한다.
키워드를 추출하기 전에 인터랙션 신(Scene)에 기반하여 의미 이해 모델을 훈련하고 인터랙션 정보의 요약 정보를 추출하고, 키워드 정보 규칙에 기반하여 요약 정보에서 키워드를 추출할 수도 있음에 유의해야 하며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
제1인터랙션 정보의 키워드를 획득한 후 키워드를 동의어적으로 확장할 수 있음으로써 키워드 및 동의어적으로 확장된 키워드에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정할 수 있다. 이때 실시간 웨이크업 워드 데이터베이스에는 제1인터랙션 정보의 키워드 내용 뿐만 아니라 확장된 키워드의 내용도 포함되므로써 후속 사용자는 슬립 전의 제1인터랙션 정보 사이에 의미적으로 관련된 음성 신호를 입력할 때도 이를 인식하고 웨이크업할 수 있으므로써 웨이크업 방식의 원활성을 향상시킨다.
상기 실시예의 내용에 기반하여, 단계(101)을 수행하기 전에, 선택 가능한 실시예로서, 본 발명의 실시예는 사용자 상태 특징 및 인터랙션 로직 특징에 기반하여 사용자 인터랙션 싱태를 결정하는 것을 포함하는 사용자 인터랙션 상태를 결정하는 방법을 더 제공한다.
여기서 사용자 상태 특징은 인터랙션 시의 사용자 상태를 나타나고, 인터랙션 로직 특징은 인터랙션 시의 인터랙션 로직을 내타낸다. 구체적으로, 사용자 상태 특징은 사용자가 스마트 디바이스와 인터랙션 시의 응답 시간 및 스마트 디바이스가 사용자의 응답을 획득할 때 사용자가 처한 상태를 설명할 수 있고; 인터랙션 로직 특징은 스마트 디바이스가 슬립하기 전에 수신한 음성 신호의 의미와 질문이 관련되는지를 설명할 수 있다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 본 발명의 실시예는 사용자 상태 특징 및 인터랙션 로직 특징에 기반하여 사용자 인터랙션 상태를 결정하는 방식에 대해 구체적으로 한정하지 않고 사용자 상태 특징 및 인터랙션 로직 특징을 인터랙션 상태 예측 모델에 입력하고 사용자 인터랙션 상태를 출력하거나 혹은 사용자 상태 특징 및 인터랙션 로직 특징을 정리한 결과에 따라 사용자 인터랙션 상태를 결정하는 방식이 포함되지만 이에 제한되지 않는다.
상기 첫번째 방식에 있어서, 인터랙션 상태 예측 모델은 사용자 상태의 샘플 특징 및 인터랙션 로직의 샘플 특징을 훈련시키므로써 획득할 수 있다. 구체적으로, 상이한 인터랙션 상태의 사용자의 사용자 상태 특징 및 인터랙션 로직 특징을 각각 미리 결정할 수 있다. 즉, 사용자가 슬립 전의 인터랙션 프로세스를 계속하려고할 때, 이 때의 사용자 상태 특징 및 인터랙션 로직 특징을 결정한다. 사용자가 새로운 인터랙션 프로세스를 시작하려고 할 때, 이 때의 사용자 상태 특징 및 인터랙션 로직 특징을 결정한다. 상이한 인터랙션 상태에서의 사용자의 사용자 상태 특징 및 인터랙션 로직 특징을 샘플 특징으로 하고, 샘플 특징을 초기 모델의 입력으로 하며, 사용자의 인터랙션 상태를 출력으로 하면 초기 모델을 훈련시켜 인터랙션 상태 예측 모델을 획득할 수 있다. 훈련시켜 인터랙션 상태 예측 모델을 획득한 후 훈련시켜 획득한 인터랙션 상태 예측 모델을 통해 사용자 인터랙션 상태를 결정할 수 있다.
상기 두번째 방식에 있어서, 사용자 상태 특징 및 인터랙션 로직 특징은 상이한 차원의 데이터일 수 있으므로, 사용자 상태 특징 및 인터랙션 로직 특징을 먼저 동일한 차원의 데이터로 정리하고 이어서 정리된 사용자 상태 특징 및 인터랙션 로직 특징을 가중 합산하고, 합산 결과가 기설정 임계값보다 크면, 슬립 전의 인터랙션 프로세스가 이미 완료되었고 사용자가 다음에 새로운 인터랙션 프로세스를 시작하기를 원함을 의미한다. 합산 결과가 기설정 임계값보다 작거나 같으면, 슬립 전의 인터랙션 프로세스가 완료되지 않았고 사용자는 슬립 전의 인터랙션 프로세스를 계속하기를 원함을 의미한다. 여기서 기설정 임계값은 수요에 따라 설정될 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 사용자 상태 특징 및 인터랙션 로직 특징에 복수의 정보를 포함할 수 있고, 사용자 상태 특징은 사용자 응답 시간, 사용자 거리, 사용자 신체 상태, 사용자 얼굴 상태 및 사용자 신분 중 적어도 어느 하나를 포함하고, 인터랙션 로직 특징은 인터랙션 로직 완성도 및 이전 텍스트 인터랙션 의미 연관성 중 적어도 어느 하나를 포함한다.
구체적으로, 사용자 응답 시간은 스마트 디바이스가 슬립하기 전의 이전의 인터랙션 프로세스에서의 마지막 인터랙션(마지막 인터랙션 후 스마트 디바이스가 즉시 슬립에 들어감)으로부터 사용자 음성 신호를 수신할 때까지의 시간 간격일 수 있다. 물론, 사용자 응답 시간은 스마트 디바이스가 슬립에 진입한 후로 부터 사용자 음성 신호를 수신할 때까지의 시간 간격일 수도 있고, 또는 슬립 시점에서 현재 시점까지의 시간 간격일 수도 있으며, 본 발명의 실시예는 이에 구체적으로 한정되지 않는다. 사용자 응답 시간이 길수록, 사용자에 의해 입력된 음성 신호(즉, 슬립 후의 응답)는 슬립 전의 이전의 인터랙션 프로세스와 관련이 없을 가능성이 높다.
사용자 거리는 사용자와 스마트 디바이스 사이의 물리적 거리를 나타낸다. 사용자 거리가 클수록 사용자가 스마트 디바리스에서 멀리 떨어진 것을 의미한다. 이때, 사용자가 입력한 음성 신호는 슬립 전의 이전의 인터랙션 프로세스와 관련이 없을 가능성이 높다. 사용자 거리는 소리가 스마트 디바이스에 도달하는 감쇠 정도에 따라 추정할 수 있고, 적외선 검출 방식으로도 추정할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
사용자 신체 상태는 사용자의 신체 동작을 나타내며, 사용자가 스마트 디바이스를 향해 사전에 설정한 제스처 동작과 같은 특정한 신체 동작을 할 경우, 사용자가 입력한 음성 신호가 슬립 전의 인터랙션 프로세스와 관련될 가능성이 높다는 것을 의미한다. 사용자 신체 상태는 스마트 디바이스의 카메라로 검측할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
사용자 얼굴 상태는 얼굴 표정 및/또는 얼굴 방향이 포함될 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다. 사용자의 얼굴 상태에 얼굴 방향이 포함되는 경우, 얼굴 방향은 사용자의 얼굴이 이미징되는 각도를 나타낸다. 사용자 얼굴 방향은 스마트 디바이스가 있는 위치와 가까울수록 사용자가 입력한 음성 신호가 슬립 전의 인터랙션 프로세스와 관련될 가능성이 높다는 것을 의미한다. 사용자 얼굴 방향은 스마트 디바이스의 카메라를 로딩하고 얼굴 인식 기술을 통해 확인할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
사용자 신분은 스마트 디바이스가 슬립 전의 이전의 인터랙션 프로세스와 다음 인터랙션 프로세스 중 인터랙션에 참여한 사용자가 동일한 사람인지를 확인하는데 사용될 수 있다. 두 차례의 인터랙션 프로세스에서 인터랙션에 참여한 사용자가 동일한 사람이면, 사용자가 입력한 음성 신호가 슬립 전의 이전의 인터랙션 프로세스와 관련될 가능성이 높다는 것을 의미한다. 사용자 신분은 얼굴 인식의 방식을 통해 확인할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다.
인터랙션 로직 완성도는 스마트 디바이스가 슬립하기 전에 사용자가 스마트 디바이스의 질문에 응답하는지 여부를 나타낸다. 인터랙션 로직 완성도는 사용자가 질문에 응답하는지 여부와 정적 상관 관계가 있으며, 사용자가 질문에 대한 응답 정도가 높을수록 인터랙션 로직 완성도도 높아진다.
이전 텍스트 인터랙션 의미 연관성은 스마트 디바이스가 슬립하기 전에 사용자가 스마트 디바이스의 질문에 응답하는 것이 질문과 관련되는지 여부를 나타낸다. 사용자에 의한 응답이 질문에 대한 관련성이 높을수록 이전 텍스트 인터랙션 의미 연관성도 높아진다.
상기 실시예로부터 알 수 있다시피, 가중 합산의 방식으로 또는 인터랙션 상태 예측 모델의 방식으로도 사용자 인터랙션 상태를 결정할 수 있는 것으로 해석되어야 한다. 인터랙션 상태 예측 모델의 방식으로 사용자 인터랙션 상태를 결정할 경우, 상기 7 가지 정보 중의 한 가지 혹은 여러 가지를 인터랙션 상태 예측 모델에 입력하여 사용자 인터랙션 상태를 출력할 수 있다. 가중 합산의 방식으로 사용자 인터랙션 상태를 결정할 경우, 사용자 상태 특징 및 인터랙션 로직 특징에 모두 한 가지 혹은 여러 가지 정보가 포함될 수 있기 때문에 각 정보를 가중 합산할 수 있다. 상기 3 가지 정보를 포함하는 사용자 상태 특징 및 상기 2 가지 정보를 포함하는 인터랙션 로직 특징을 예로 들어, 상기 상이한 차원의 정보를 정리하고, 정리한 데이터를 가중 합산하여 합산 결과를 획득할 수 있다. 구체적인 과정은 다음과 같은 공식을 참조할 수 있다.
Figure 112020104464364-pct00001
상기 공식에서 Y는 합산 결과를 나타낸다. T는 단계별 정리한 후의 사용자 응답 시간, L은 단계별 정리 후의 사용자 거리, alpha는 단계별 정리한 후의 사용자 얼굴 방향, R은 인터랙션 로직 완성도, S는 이전 텍스트 인터랙션 의미 연관성, a1、a2…a5는 각자의 가중치, a6은 고정된 가중계수를 나타낸다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 본 발명의 실시예는 이전 텍스트 인터랙션 의미의 연관성을 결정하는 방법을 제공한다. 도 2를 참조하면, 상기 방법은 이전의 인터랙션 프로세스의 제2인터랙션 정보를 획득하고 인터랙션 정보의 워드 벡터를 추출하는 단계(201); 및 워드 벡터를 샘플 인터랙션 정보에 기반하여 훈련하여 획득한 문답 연관성 모델에 입력하고 이전 텍스트 인터랙션 의미 연관성을 출력하는 단계(202)를 포함한다.
상기 단계(201)에서 제2인터랙션 정보는 사용자 명령 정보 및 기계 회신 정보를 포함할 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다. 단계(202)를 수행하기 전에 대량의 샘플 인터랙션 정보(즉, 스마트 디바이스와 사용자 간의 문답 정보)를 사전에 수집하고 샘플 인터랙션 정보의 워드 벡터를 추출하고, 워드 벡터를 초기 모델의 입력으로 훈련하여 바이너리 또는 회귀 문답 연관성 모델을 획득할 수 있다. 여기서 모델의 모델링 기법은 RNN, CNN일 수 있으며, 본 발명의 실시예는 이에 대해 구체적으로 한정하지 않는다. 슬립 전의 인터랙션 프로세스의 인터랙션 정보는 사전 기록 및 음성 인식을 통해 획득할 수 있으며, 본 발명의 실시예는 이에 대해서도 구체적으로 한정하지 않는다.
상기 실시예의 내용에 기반하여, 선택 가능한 실시예로서, 본 발명의 실시예는 실시간 웨이크업 워드 데이터베이스에 기반하여 실시간 웨이크업 온 랜을 결정하는 방법을 제공한다. 도 3을 참조하면, 상기 방법은 각 키워드를 웨이크업 워드로 하여 각 웨이크업 워드에 대응하는 음소 시퀀스 또는 마르코프 상태 시퀀스를 획득하는 단계(301); 및 모든 웨이크업 워드에 대응하는 음소 시퀀스 또는 마르코프 상태 시퀀스를 연결하여 실시간 웨이크업 온 랜을 구축하는 단계(302)를 포함한다.
구체적으로, “텍스트-음소” 매핑 리스트를 통해 웨이크업 워드를 음소 시퀀스 또는 마르코프 상태 시퀀스로 매핑할 수 있다. 시퀀스의 입상도는 음향 특징을 디코딩하는 음향 모델의 모델링 입상도와 일치할 수 있다. 상기 예를 바탕으로 구축된 실시간 웨이크업 온 랜의 구성은 도 4에 도시된 바와 같다. 도 4에서 Keyword는 바로 키워드이다.
상응하게, 실시간 웨이크업 온 랜을 구축하고 획득하여 효력 발생시킨 후, 실시간 웨이크업 온 랜에 기반하여 음성 신호를 인식하면 사용자가 실행하고자 하는 명령을 결정할 수 있다. 예를 들어, 음성 신호의 내용이 “간단애를 듣기”일 경우, 실시간 웨이크업 온 랜으로 스마트 디바이스를 웨이크업하고 “노래 간단애를 재생하다”라는 명령을 트리거 할 수 있다. 슬립 전의 이전의 인터랙션 프로세스의 키워드 및 동의어 확장 키워드가 모두 실시간 웨이크업 온 랜에 저장되므로 새로운 인터랙션 프로세스를 다시 시작하지 않고 슬립 전의 이전의 인터랙션 프로세스를 편리하게 계속할 수 있다.
구축하여 획득된 웨이크업 워드 데이터베이스는 슬립 전의 이전의 인터랙션 프로세스에 적용되고, 웨이크업된 후 스마트 디바이스가 다시 슬립되면 전에 구축된 실시간 웨이크업 워드 데이터베이스는 웨이크업에 다시 적용되지 않을 수 있음에 유의해야 한다. 따라서, 본 라운드의 인터랙션을 완료한 후, 자동으로 구축된 실시간 웨이크업 워드 데이터베이스를 삭제하고, 다음 웨이크업 단계에서 본 발명의 실시예에 따른 방법에 따라 새로운 실시간 웨이크업 워드 데이터베이스를 재생성할 수 있다. 또는 사용자 인터랙션 상태가 인터랙션 프로세스가 다시 시작되는 상태일 경우, 이전에 추가한 웨이크업 워드를 삭제하거나 혹은 오리지널 웨이크업 워드 데이터베이스를 직접 실시간 웨이크업 워드 데이터베이스로 한다.
상기 모든 선택 가능한 실시예는 임의로 본 발명의 선택 가능한 실시예로 조합될 수 있으며, 여기서 이에 대한 상세한 설명은 생략함에 유의해야 한다.
상기 실시예의 내용에 기반하여, 본 발명의 실시예는 상기 방법의 실시예에서의 음성 웨이크업 방법을 수행하는 음성 웨이크업 장치를 제공한다. 도 5를 참조하면, 상기 장치는 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 제1결정 모듈(501); 및
사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업하는 웨이크 모듈(502);을 포함한다.
선택 가능한 실시예로서, 제1결정 모듈(501)은, 상기 사용자 인터랙션 상태가 슬립 전의 이전의 인터랙션 프로세스의 계속일 경우, 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하고, 상기 키워드를 오리지널 웨이크업 워드 데이터베이스에 추가하여 상기 실시간 웨이크업 워드 데이터베이스를 획득하는 제1획득 유닛; 및
상기 사용자 인터랙션 상태가 인터랙션 프로세스가 다시 시작되는 상태일 경우, 상기 오리지널 웨이크업 워드 데이터베이스를 실시간 웨이크업 워드 데이터베이스로 하는 제2획득 유닛;을 포함한다.
선택 가능한 실시예로서, 제1획득 유닛은 품사 및/또는 문장 성분에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득한다.
선택 가능한 실시예로서, 제1인터랙션 정보는 사용자 명령 정보, 기계 회신 정보 및 조회 정보 중 어느 하나의 정보를 포함한다.
선택 가능한 실시예로서, 상기 장치는 인터랙션 시의 사용자 상태를 나타내는 사용자 상태 특징 및/또는 인터랙션 시의 인터랙션 로직을 나타내는 인터랙션 로직 특징에 기반하여 상기 사용자 인터랙션 상태를 결정하는 제2결정 모듈을 더 포함한다.
선택 가능한 실시예로서, 제2결정 모듈은 상기 사용자 상태 특징 및/또는 상기 인터랙션 로직 특징을 인터랙션 상태 예측 모델에 입력하고, 상기 사용자 인터랙션 상태를 출력하며, 또는 상기 사용자 상태 특징 및 상기 인터랙션 로직 특징을 정리한 결과에 따라 상기 사용자 인터랙션 상태를 결정한다.
선택 가능한 실시예로서, 상기 사용자 상태 특징은 사용자 응답 시간, 사용자 거리, 사용자 신체 상태, 사용자 얼굴 상태 및 사용자 신분 중 적어도 어느 하나를 포함하고;
상기 인터랙션 로직 특징은 인터랙션 로직 완성도 및 이전 텍스트 인터랙션 의미 연관성 중 적어도 어느 하나를 포함한다.
선택 가능한 실시예로서, 상기 장치는,
이전의 인터랙션 프로세스의 제2인터랙션 정보를 획득하고 상기 인터랙션 정보의 워드 벡터를 추출하는 획득 모듈; 및
상기 워드 벡터를 샘플 인터랙션 정보에 기반하여 훈련한 후 획득한 문답 연관성 모델에 입력하고, 상기 이전 텍스트 인터랙션 의미 연관성을 출력하는 출력 모듈;을 더 포함한다.
본 발명의 실시예에 따른 장치는 사용자 인터랙션 상태에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정하고, 사용자에 의해 입력된 음성 신호를 획득하며, 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업한다. 이전의 인터랙션 프로세스가 중단된 후 실시간 웨이크업 워드 데이터베이스에 기반하여 웨이크업할 수 있고, 다시 웨이크업할 때 사용자에게 슬립 무감지의 사용자 체험을 제공함으로써 사용자가 이전에 이미 수행된 인터랙션 프로세스를 반복하지 않고 슬립 전의 인터랙션 신(Scene)에 직접 연결할 수 있다. 따라서, 인터랙션 원가를 감소시키고 사용자의 인터랙션 체험을 향상시킬 수 있다.
도 6은 음성 웨이크업 디바이스의 물리적 구성을 예시적으로 도시한 도면이다. 도 6에 도시된 바와 같이, 상기 디바이스는 프로세서(processor)(610), 통신 인터페이스(Communications Interface)(620), 메모리(memory)(630) 및 버스(640)를 포함할 수 있다. 여기서 프로세서(610), 통신 인터페이스(620) 및 메모리(630)는 버스(640)를 통해 상호 간의 통신을 수행한다. 통신 인터페이스(620)는 서버와 스마트 TV 간의 정보 전송에 사용될 수 있다. 프로세서(610)는 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하고; 사용자에 의해 입력된 음성 신호를 획득하고, 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크하는 방법을 수행하도록 메모리(630)에 저장된 로직 명령을 호출할 수 있다.
한편, 상기 메모리(630)에 저장된 로직 명령은 소프트웨어 기능 유닛의 형식으로 실현되며 독립된 제품으로 판매 또는 사용될 경우 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여 본 발명의 기술방안은 본질적으로 또는 종래 기술에 기여한 부분 또는 해당 기술방안의 일부는 소프트웨어 제품의 형식으로 구현될 수 있으며, 상기 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며, 컴퓨터 장치(개인용 컴퓨터, 서버 혹은 워드 데이터베이스 디바이스 등 일 수 있음)가 본 발명의 각 방법 실시예의 전부 또는 일부 단계를 수행하도록 여러 명령을 포함한다. 상기 저장 매체는 USB, 모바일 하드 디스크, 리드 온리 메모리(ROM,Read-Only Memory), 랜덤 액세스 메모리(RAM,Random Access Memory), 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
본 발명의 실시예는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능한 저장 매체를 제공하되, 상기 컴퓨터 명령은 컴퓨터가 사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하고; 사용자에 의해 입력된 음성 신호를 획득하고 실시간 웨이크업 워드 데이터베이스 및 음성 신호에 기반하여 웨이크업하는 등, 상기 실시예에서 제공된 음성 웨이크업 방법을 수행하도록 한다.
당업자가 이해할 수 있다시피, 상기 방법의 실시예를 실현하는 전부 또는 일부 단계가 프로그램 명령과 관련된 하드웨어로 완성될 수 있고, 상기 프로그램은 ROM, RAM, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함하는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 때 상기 방법의 실시예를 포함하는 단계를 수행한다.
상술한 장치의 실시예는 예시적으로 설명된 것일 뿐, 상기 분리된 부품으로 설명된 유닛은 물리적으로 분리될 수도 있고 물리적으로 분리되지 않을 수도 있으며, 유닛으로 표시된 부품은 물리적인 유닛일 수도 있고 물리적인 유닛이 아닐 수도 있으며, 즉 한 구역에 위치할 수도 있고 여러 개의 워드 데이터베이스 유닛에 배치될 수도 있다. 실제 수요에 따라 일부 또는 모든 모듈을 선택하여 본 실시예 방안의 목적을 달성할 수 있다. 당업자는 창조적인 노력이 없이 이해하고 실시할 수 있다.
상기 실시형태의 설명을 통해 당업자는 각 실시형태는 소프트웨어 및 필요한 범용 하드웨어 플랫폼을 통해 실현될 수 있으며, 물론 하드웨어에 의해 실현될 수도 있는 것을 명확하게 이해할 수 있다. 이러한 이해에 기초하여, 상기 기술방안의 본질 또는 종래 기술에 기여한 부분은 소프트웨어 제품의 형식으로 구현될 수 있으며, 상기 컴퓨터 소프트웨어 제품은 ROM/RAM, 자기 디스크, 광 디스크 등과 같은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있고, 컴퓨터 장치(개인용 컴퓨터, 서버 혹은 워드 데이터베이스 디바이스 등일 수 있음)가 각 실시예 또는 실시예의 일부에 따른 방법을 수행하도록 여러 명령을 포함한다.
상기 실시예는 본 발명의 기술방안을 설명하기 위한 것으로서 본 발명은 상기 실시예에 제한되지 않는다. 본 발명은 상기 실시예들을 참조하여 상세하게 설명되었지만, 당업자는 상술한 각 실시예에 기재된 기술방안에 대해 보정 또는 일부 기술특징을 균등하게 대체할 수 있고, 이러한 변경 및 대체는 해당 기술방안의 본질이 본 발명의 각 실시예의 기술방안의 사상 및 범위를 벗어나지 않는 것으로 이해할 수 있음을 마지막으로 유의해야 할 것이다.

Claims (21)

  1. 슬립 상태에 진입한 후 현재 사용자 인터랙션 상태를 확인하는 단계;
    사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 단계; 및
    사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 상기 음성 신호에 기반하여 웨이크업하는 단계;를 포함하며,
    상기 사용자 인터랙션 상태는 슬립 전의 이전의 인터랙션 프로세스를 계속하거나 또는 새로운 인터랙션 프로세스를 시작하는 것을 특징으로 하는 음성 웨이크업 방법.
  2. 제1항에 있어서,
    상기 사용자 인터랙션 상태에 기반하여 실시간 웨이크업 워드 데이터베이스를 결정하는 단계는,
    상기 사용자 인터랙션 상태가 슬립 전의 이전의 인터랙션 프로세스의 계속일 경우, 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하고, 상기 키워드를 오리지널 웨이크업 워드 데이터베이스에 추가하여 상기 실시간 웨이크업 워드 데이터베이스를 획득하는 단계; 및
    상기 사용자 인터랙션 상태가 인터랙션 프로세스가 다시 시작되는 상태일 경우, 상기 오리지널 웨이크업 워드 데이터베이스를 상기 실시간 웨이크업 워드 데이터베이스로 하는 단계;를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  3. 제2항에 있어서,
    상기 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하는 단계는,
    품사 및/또는 문장 성분에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  4. 제2항에 있어서,
    상기 제1인터랙션 정보는, 사용자 명령 정보, 기계 회신 정보 및 조회 정보 중 어느 하나의 정보를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  5. 제3항에 있어서,
    상기 제1인터랙션 정보는, 사용자 명령 정보, 기계 회신 정보 및 조회 정보 중 어느 하나의 정보를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  6. 제1항에 있어서,
    상기 현재 사용자 인터랙션 상태를 확인하는 단계는,
    인터랙션 시의 사용자 상태를 나타내는 사용자 상태 특징 및/또는 인터랙션 시의 인터랙션 로직을 나타내는 인터랙션 로직 특징에 기반하여 상기 사용자 인터랙션 상태를 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  7. 제6항에 있어서,
    상기 사용자 상태 특징 및/또는 인터랙션 로직 특징에 기반하여 상기 사용자 인터랙션 상태를 결정하는 단계는,
    상기 사용자 상태 특징 및/또는 상기 인터랙션 로직 특징을 인터랙션 상태 예측 모델에 입력하고, 상기 사용자 인터랙션 상태를 출력하는 단계; 또는
    상기 사용자 상태 특징 및 상기 인터랙션 로직 특징을 정리한 결과에 따라 상기 사용자 인터랙션 상태를 결정하는 단계;를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  8. 제6항에 있어서,
    상기 사용자 상태 특징은, 사용자 응답 시간, 사용자 거리, 사용자 신체 상태, 사용자 얼굴 상태 및 사용자 신분 중 적어도 어느 하나를 포함하고;
    상기 인터랙션 로직 특징은, 인터랙션 로직 완성도 및 이전 텍스트 인터랙션 의미 연관성 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  9. 제7항에 있어서,
    상기 사용자 상태 특징은, 사용자 응답 시간, 사용자 거리, 사용자 신체 상태, 사용자 얼굴 상태 및 사용자 신분 중 적어도 어느 하나를 포함하고;
    상기 인터랙션 로직 특징은, 인터랙션 로직 완성도 및 이전 텍스트 인터랙션 의미 연관성 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  10. 제8항에 있어서,
    이전의 인터랙션 프로세스의 제2인터랙션 정보를 획득하고 상기 제2인터랙션 정보의 워드 벡터를 추출하는 단계; 및
    상기 워드 벡터를 샘플 인터랙션 정보에 기반하여 훈련 후 획득한 문답 연관성 모델에 입력하고, 상기 이전 텍스트 인터랙션 의미 연관성을 출력하는 단계;를 더 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  11. 제9항에 있어서,
    이전의 인터랙션 프로세스의 제2인터랙션 정보를 획득하고 상기 제2인터랙션 정보의 워드 벡터를 추출하는 단계; 및
    상기 워드 벡터를 샘플 인터랙션 정보에 기반하여 훈련 후 획득한 문답 연관성 모델에 입력하고, 상기 이전 텍스트 인터랙션 의미 연관성을 출력하는 단계;를 더 포함하는 것을 특징으로 하는 음성 웨이크업 방법.
  12. 슬립 상태에 진입한 후 현재 사용자 인터랙션 상태를 확인하는 제2결정 모듈;
    사용자 인터랙션 상태에 기반하여 다음 인터랙션 프로세스에 사용되는 실시간 웨이크업 워드 데이터베이스를 결정하는 제1결정 모듈; 및
    사용자에 의해 입력된 음성 신호를 획득하고, 상기 실시간 웨이크업 워드 데이터베이스 및 상기 음성 신호에 기반하여 웨이크업하는 웨이크업 모듈;을 포함하며,
    상기 사용자 인터랙션 상태는 슬립 전의 이전의 인터랙션 프로세스를 계속하거나 또는 새로운 인터랙션 프로세스를 시작하는 것을 특징으로 하는 음성 웨이크업 장치.
  13. 제12항에 있어서,
    상기 제1결정 모듈은,
    상기 사용자 인터랙션 상태가 슬립 전의 이전의 인터랙션 프로세스의 계속일 경우, 키워드 정보 규칙에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하고, 상기 키워드를 오리지널 웨이크업 워드 데이터베이스에 추가하여 상기 실시간 웨이크업 워드 데이터베이스를 획득하는 제1획득 유닛; 및
    상기 사용자 인터랙션 상태가 인터랙션 프로세스가 다시 시작되는 상태일 경우, 상기 오리지널 웨이크업 워드 데이터베이스를 상기 실시간 웨이크업 워드 데이터베이스로 하는 제2획득 유닛;을 포함하는 것을 특징으로 하는 음성 웨이크업 장치.
  14. 제13항에 있어서,
    상기 제1획득 유닛은, 품사 및/또는 문장 성분에 따라 이전의 인터랙션 프로세스의 제1인터랙션 정보의 키워드를 획득하는 것을 특징으로 하는 음성 웨이크업 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 제1인터랙션 정보는, 사용자 명령 정보, 기계 회신 정보 및 조회 정보 중 어느 하나를 포함하는 것을 특징으로 하는 음성 웨이크업 장치.
  16. 제12항에 있어서,
    상기 제2결정 모듈은, 인터랙션 시의 사용자 상태를 나타내는 사용자 상태 특징 및/또는 인터랙션 시의 인터랙션 로직을 나타내는 인터랙션 로직 특징에 기반하여 상기 사용자 인터랙션 상태를 결정하는 것을 특징으로 하는 음성 웨이크업 장치.
  17. 제16항에 있어서,
    상기 제2결정 모듈은, 상기 사용자 상태 특징 및/또는 상기 인터랙션 로직 특징을 인터랙션 상태 예측 모델에 입력하고, 상기 사용자 인터랙션 상태를 출력하며; 또는 상기 사용자 상태 특징 및 상기 인터랙션 로직 특징을 정리한 결과에 따라 상기 사용자 인터랙션 상태를 결정하는것을 특징으로 하는 음성 웨이크업 장치.
  18. 제16항 또는 제17항에 있어서,
    상기 사용자 상태 특징은, 사용자 응답 시간, 사용자 거리, 사용자 신체 상태, 사용자 얼굴 상태 및 사용자 신분 중 적어도 어느 하나를 포함하고;
    상기 인터랙션 로직 특징은, 인터랙션 로직 완성도 및 이전 텍스트 인터랙션 의미 연관성 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 음성 웨이크업 장치.
  19. 제18항에 있어서,
    이전의 인터랙션 프로세스의 제2인터랙션 정보를 획득하고 상기 제2인터랙션 정보의 워드 벡터를 추출하는 획득 모듈; 및
    상기 워드 벡터를 샘플 인터랙션 정보에 기반하여 훈련한 후 획득한 문답 연관성 모델에 입력하고, 이전 텍스트 인터랙션 의미 연관성을 출력하는 출력 모듈;을 더 포함하는 것을 특징으로 하는 음성 웨이크업 장치.
  20. 적어도 하나의 프로세서; 및
    상기 프로세서와 통신하여 연결되는 적어도 하나의 메모리;를 더 포함하고,
    상기 메모리에는 상기 프로세서에 의해 실행 가능한 프로그램 명령이 저장되며, 상기 프로세서는 상기 프로그램 명령을 호출하여 청구항 1 내지 청구항 11 중 어느 한 항에 따른 방법을 수행하는 것을 특징으로 하는 음성 웨이크업 디바이스.
  21. 컴퓨터가 청구항 1 내지 청구항 11 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 명령을 저장하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 저장 매체.
KR1020207028374A 2018-04-04 2019-01-28 음성 웨이크업 방법 및 장치 KR102437944B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810298845.1 2018-04-04
CN201810298845.1A CN108538298B (zh) 2018-04-04 2018-04-04 语音唤醒方法及装置
PCT/CN2019/073417 WO2019192250A1 (zh) 2018-04-04 2019-01-28 语音唤醒方法及装置

Publications (2)

Publication Number Publication Date
KR20200130352A KR20200130352A (ko) 2020-11-18
KR102437944B1 true KR102437944B1 (ko) 2022-08-30

Family

ID=63481860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207028374A KR102437944B1 (ko) 2018-04-04 2019-01-28 음성 웨이크업 방법 및 장치

Country Status (6)

Country Link
EP (1) EP3779972A4 (ko)
JP (1) JP7114721B2 (ko)
KR (1) KR102437944B1 (ko)
CN (1) CN108538298B (ko)
RU (1) RU2760368C1 (ko)
WO (1) WO2019192250A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
CN109493861A (zh) * 2018-12-05 2019-03-19 百度在线网络技术(北京)有限公司 利用语音控制电器的方法、装置、设备和可读存储介质
CN111312235B (zh) * 2018-12-11 2023-06-30 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN111506289A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 一种数据处理方法、装置、设备和机器可读介质
CN110012166B (zh) * 2019-03-31 2021-02-19 联想(北京)有限公司 一种信息处理方法及装置
CN111754997B (zh) * 2019-05-09 2023-08-04 北京汇钧科技有限公司 控制装置及其操作方法,和语音交互装置及其操作方法
CN110164443B (zh) * 2019-06-28 2021-09-14 联想(北京)有限公司 用于电子设备的语音处理方法、装置以及电子设备
CN110718225A (zh) * 2019-11-25 2020-01-21 深圳康佳电子科技有限公司 一种语音控制方法、终端以及存储介质
CN110992953A (zh) * 2019-12-16 2020-04-10 苏州思必驰信息科技有限公司 一种语音数据处理方法、装置、系统及存储介质
CN110970036B (zh) * 2019-12-24 2022-07-12 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111161726B (zh) * 2019-12-24 2023-11-03 广州索答信息科技有限公司 一种智能语音交互方法、设备、介质及系统
CN111192581A (zh) * 2020-01-07 2020-05-22 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及存储介质
CN111402866B (zh) * 2020-03-23 2024-04-05 北京声智科技有限公司 语义识别方法、装置及电子设备
CN111554298B (zh) * 2020-05-18 2023-03-28 阿波罗智联(北京)科技有限公司 语音交互方法、语音交互设备和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084425A1 (en) 2013-12-04 2015-06-11 Google Inc. Initiating actions based on partial hotwords
US20170169817A1 (en) 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN107564518A (zh) * 2017-08-21 2018-01-09 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154694A (ja) * 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
JP4107093B2 (ja) * 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
JP5073024B2 (ja) * 2010-08-10 2012-11-14 株式会社東芝 音声対話装置
SG187286A1 (en) * 2011-07-29 2013-02-28 Smart Communications Inc System and method for activating a mobile device to initiate a communication
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9646607B2 (en) * 2014-03-10 2017-05-09 Dell Products, L.P. Managing wake-on-voice buffer quality based on system boot profiling
CN105206271A (zh) * 2015-08-25 2015-12-30 北京宇音天下科技有限公司 智能设备的语音唤醒方法及实现所述方法的系统
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
EP3444808A4 (en) * 2016-04-11 2019-05-01 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
CN107622652B (zh) * 2016-07-15 2020-10-02 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
CN107818782B (zh) * 2016-09-12 2020-10-09 上海声瀚信息科技有限公司 一种实现家用电器智能控制的方法及系统
JP2018049230A (ja) * 2016-09-23 2018-03-29 シャープ株式会社 辞書作成装置、辞書作成プログラム、音声認識装置、音声認識プログラムおよび記録媒体
CN106653021B (zh) * 2016-12-27 2020-06-02 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN106898352B (zh) * 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备
CN107195304A (zh) * 2017-06-30 2017-09-22 珠海格力电器股份有限公司 一种电器设备的语音控制电路和方法
CN107360157A (zh) * 2017-07-10 2017-11-17 绵阳美菱软件技术有限公司 一种用户注册方法、装置及智能空调器
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
CN107704275B (zh) * 2017-09-04 2021-07-23 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107578776B (zh) * 2017-09-25 2021-08-06 咪咕文化科技有限公司 一种语音交互的唤醒方法、装置及计算机可读存储介质
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084425A1 (en) 2013-12-04 2015-06-11 Google Inc. Initiating actions based on partial hotwords
US20170169817A1 (en) 2015-12-09 2017-06-15 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN107564518A (zh) * 2017-08-21 2018-01-09 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备

Also Published As

Publication number Publication date
CN108538298A (zh) 2018-09-14
CN108538298B (zh) 2021-05-04
EP3779972A1 (en) 2021-02-17
JP2021516361A (ja) 2021-07-01
KR20200130352A (ko) 2020-11-18
WO2019192250A1 (zh) 2019-10-10
RU2760368C1 (ru) 2021-11-24
JP7114721B2 (ja) 2022-08-08
EP3779972A4 (en) 2022-04-13

Similar Documents

Publication Publication Date Title
KR102437944B1 (ko) 음성 웨이크업 방법 및 장치
US11948556B2 (en) Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
JP6968908B2 (ja) コンテキスト取得方法及びコンテキスト取得デバイス
CN111199732B (zh) 一种基于情感的语音交互方法、存储介质及终端设备
US11586689B2 (en) Electronic apparatus and controlling method thereof
EP3923198A1 (en) Method and apparatus for processing emotion information
CN111832308B (zh) 语音识别文本连贯性处理方法和装置
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN109979450B (zh) 信息处理方法、装置及电子设备
CN113314119B (zh) 语音识别智能家居控制方法及装置
US11789695B2 (en) Automatic adjustment of muted response setting
CN109859747B (zh) 语音交互方法、设备以及存储介质
KR20220158573A (ko) 페르소나 챗봇 제어 방법 및 시스템
US20230215425A1 (en) User-system dialog expansion
CN108492826B (zh) 音频处理方法、装置、智能设备及介质
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN112562659A (zh) 语音识别方法、装置、电子设备和存储介质
CN111508481A (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN112911074A (zh) 一种语音通信处理方法、装置、设备和机器可读介质
US11893996B1 (en) Supplemental content output
CN116612744A (zh) 语音唤醒方法、语音唤醒装置和车辆

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant