KR102525294B1

KR102525294B1 - 음성 제어 방법, 웨어러블 디바이스 및 단말

Info

Publication number: KR102525294B1
Application number: KR1020207037501A
Authority: KR
Inventors: 롱 장; 춘지안 리; 쿤쇼우 퀴우; 큉 창
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2023-04-24
Also published as: EP3790006A4; WO2020000427A1; CN110574103A; KR20210015917A; RU2763392C1; EP3790006A1; CN110574103B; US20210256979A1; CN112420035A

Abstract

본 출원의 실시예들은 사용자가 음성 제어 단말을 사용할 때, 성문 인식의 정확도 및 보안을 개선하기 위한 음성 제어 방법, 웨어러블 디바이스 및 단말을 개시하고, 단말 분야와 관련된다. 방법은, 단말에 의해, 웨어러블 디바이스에 대한 통신 연결을 설정하는 단계; 발성 사용자가 웨어러블 디바이스에 음성 정보를 입력할 때, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하는 단계 ― 제1 음성 성분은 웨어러블 디바이스의 제1 음성 센서에 의해 수집되고, 제2 음성 성분은 웨어러블 디바이스의 제2 음성 센서에 의해 수집됨 ― ; 및 발성 사용자에 대해 단말에 의해 수행된 아이덴티티 인증의 결과가 발성 사용자가 인가된 사용자라는 것인 경우, 단말에 의해, 음성 정보에 대응하는 동작 명령을 실행하는 단계를 포함한다.

Description

음성 제어 방법, 웨어러블 디바이스 및 단말

본 출원은 단말 분야에 관한 것으로, 특히 음성 제어 방법, 웨어러블 디바이스 및 단말에 관한 것이다.

성문(voiceprint)은 사용자가 사운드를 낼 때 음성 정보를 전달하는 음파 스펙트럼(sound wave spectrum)이며, 사용자의 오디오 특징을 반영할 수 있다. 말하는 동안 상이한 사람들에 의해 사용되는 발성 기관들(예컨대, 혀, 치아, 후두, 폐 및 비강)은 크기 및 형태가 상이하기 때문에, 일반적으로 임의의 두명의 사람의 음파 스펙트럼들은 상이하다. 따라서, 하나 이상의 유형들의 음성 정보는 성문 인식(화자 인식, SR)을 통해 분석되어 알려지지 않은 음성들 간을 구별할 수 있다.

현재, 종래의 성문 인식 방식에서, 공기에 의해 전파되는 화자의 음성 신호를 수집하기 위해 종래의 마이크로폰이 주로 사용되며, 화자의 아이덴티티는 수집된 화자의 음성 신호에 기초하여 추가로 식별된다. 그러나 화자가 노이즈 있는 환경(noisy environment)에 있는 경우, 수집된 화자의 음성 신호는 성문 인식의 정확도를 쉽게 방해하는 많은 노이즈를 갖는다. 또한, 누군가가 화자의 음성 신호를 시뮬레이팅하기 위해 화자의 레코딩을 악의적으로 사용하는 경우, 모바일 폰과 같은 단말은 음성 신호를 정확하게 식별할 수 없기 때문에, 단말의 보안 위험은 증가할 수 있다.

본 출원은 사용자가 음성 제어 단말을 사용할 때, 성문 인식의 정확도 및 보안을 개선하기 위한 음성 제어 방법, 웨어러블 디바이스 및 단말을 제공한다.

위의 목적들을 달성하기 위해, 본 출원에서는 다음의 기술 솔루션들이 사용된다.

제1 양상에 따르면, 본 출원은 음성 제어 방법을 제공하며, 이 방법은, 단말에 의해, 웨어러블 디바이스에 대한 통신 연결을 설정하는 단계; 발성 사용자가 웨어러블 디바이스에 음성 정보를 입력할 때, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하는 단계 ― 제1 음성 성분은 웨어러블 디바이스의 제1 음성 센서에 의해 수집되고, 제2 음성 성분은 웨어러블 디바이스의 제2 음성 센서에 의해 수집됨 ― ; 및 발성 사용자에 대해 단말에 의해 수행된 아이덴티티 인증의 결과가 발성 사용자가 인가된 사용자라는 것인 경우, 단말에 의해, 음성 정보에 대응하는 동작 명령을 실행하는 단계를 포함한다.

발성 사용자의 음성 정보를 수집할 때, 웨어러블 디바이스는 2개의 음성 센서들을 이용함으로써 두 피스의 음성 정보(즉, 제1 음성 성분 및 제2 음성 성분)를 수집한다는 것을 알 수 있다. 이러한 방식으로, 단말은 두 피스의 음성 정보에 대해 별개로 성문 인식을 수행할 수 있다. 두 피스의 음성 정보의 성문 인식 결과 둘 모두가 인가된 사용자의 것과 매칭할 때, 현재 발성 사용자는 인가된 사용자인 것으로 결정될 수 있다. 하나의 피스의 음성 정보의 성문 인식 프로세스와 비교해서, 두 피스의 음성 정보의 이중 성문 인식 프로세스는 사용자 아이덴티티 인증 동안 정확도 ?? 보안을 크게 개선할 수 있다는 것이 분명하다.

또한, 제2 음성 성분이 웨어러블 디바이스의 골전도 마이크로폰에 의해 수집된 경우, 이는 사용자가 사운드를 낼 때 웨어러블 디바이스를 착용하고 있음을 나타낸다. 이는, 비인가 사용자가 인가된 사용자의 레코딩을 이용함으로써 인가된 사용자의 단말을 악의적으로 제어하는 경우를 회피한다.

가능한 설계 방법에서, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하기 전에, 방법은, 단말에 의해, 웨어러블 디바이스로부터 제1 성문 인식 결과 및 제2 성문 인식 결과를 획득하는 단계를 더 포함하고, 제1 성문 인식 결과는 웨어러블 디바이스가 제1 음성 성분에 대해 성문 인식을 수행한 후에 획득되고, 제2 성문 인식 결과는 웨어러블 디바이스가 제2 음성 성분에 대해 성문 인식을 수행한 후에 획득된다. 즉, 발성 사용자의 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 수집한 후, 웨어러블 디바이스는 2개의 음성 성분들에 대해 별개로 성문 인식을 로컬로 수행하고, 인식 결과들을 단말에 추가로 전송할 수 있다. 이는 단말에 의해 음성 제어를 구현하는 구현 복잡성을 감소시킬 수 있다.

가능한 설계 방법에서, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하기 전에, 방법은, 단말에 의해, 웨어러블 디바이스로부터 제1 음성 성분 및 제2 음성 성분을 획득하는 단계; 및 단말에 의해, 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계를 더 포함한다. 즉, 발성 사용자의 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 수집한 후, 웨어러블 디바이스는 성문 인식을 위해 단말로 2개의 음성 성분들은 전송할 수 있다. 이는 웨어러블 디바이스의 전력 소비와 구현 복잡성을 감소시킨다.

가능한 설계 방법에서, 단말에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계는, 음성 정보가 미리 설정된 키워드를 포함할 때, 단말에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계; 또는 사용자에 의해 입력된 미리 설정된 동작이 수신될 때, 단말에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계를 포함한다. 그렇지 않으면, 그것은 사용자가 이 시점에서 성문 인식을 수행할 필요가 없고 단말이 성문 인식 기능을 인에이블링할 필요가 없음을 나타낸다. 이는 단말의 전력 소비를 감소시킨다.

가능한 설계 방법에서, 단말에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계는, 단말에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계 ― 제1 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제1 음성 센서에 의해 수집됨 ― ; 및 단말에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계를 포함하고, 제2 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제2 음성 센서에 의해 수집된다.

이 경우에, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하는 단계는, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하고, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는 경우, 단말에 의해, 발성 사용자가 인가된 사용자임을 결정하는 단계, 또는 그렇지 않으면, 단말에 의해, 발성 사용자가 비인가 사용자임을 결정하는 단계를 포함한다.

가능한 설계 방법에서, 단말에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계는, 단말에 의해, 제1 음성 성분과 인가된 사용자의 제1 성문 모델 간의 제1 매칭 정도를 계산하는 단계; 및 제1 매칭 정도가 제1 임계치보다 큰 경우, 단말에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭한다고 결정하는 단계를 포함하고; 그리고 단말에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계는, 단말에 의해, 제2 음성 성분과 인가된 사용자의 제2 성문 모델 간의 제2 매칭 정도를 계산하는 단계; 및 제2 매칭 정도가 제2 임계치보다 큰 경우, 단말에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭한다고 결정하는 단계를 포함한다.

가능한 설계 방법에서, 단말에 의해, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하기 전에, 방법은, 단말에 의해, 웨어러블 디바이스에 의해 전송된 인에이블링 명령(enabling instruction)을 획득하는 단계 ― 인에이블링 명령은 사용자에 의해 입력된 웨이크-업 음성에 응답하여 웨어러블 디바이스에 의해 생성됨 ― ; 및 단말에 의해, 인에이블링 명령에 응답하여 성문 인식 기능을 인에이블링하는 단계를 더 포함한다.

가능한 설계 방법에서, 단말에 의해, 웨어러블 디바이스로부터 제1 음성 성분 및 제2 음성 성분을 획득한 후에, 방법은, 단말에 의해, 제1 음성 성분 및 제2 음성 성분에 기초하여 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는지를 결정하는 단계; 및 단말에 의해, 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는 경우, 성문 인식 기능을 인에이블링하는 단계를 더 포함한다.

즉, 사용자는 웨이크-업 단어를 말함으로써 단말을 트리거하여 성문 인식 기능을 인에이블링하거나, 또는 그렇지 않으면, 그것은 사용자가 이 시점에서 성문 인식을 수행할 필요가 없고 단말이 성문 인식 기능을 인에이블링할 필요가 없음을 나타낸다. 이는 단말의 전력 소비를 감소시킨다.

가능한 설계 방법에서, 발성 사용자가 인가된 사용자인 경우, 방법은 단말에 의해 잠금 해제 동작을 자동으로 실행하는 단계를 더 포함한다. 이러한 방식으로, 사용자는 사용자 아이덴티티 인증, 모바일 폰 잠금 해제, 및 모바일 폰 기능의 인에이블링과 같은 일련의 동작들을 완료하기 위해 음성 정보를 단 한 번만 입력할 필요가 있다. 이는 및 사용자 경험 및 모바일 폰에 대한 사용자의 제어 효율성을 크게 개선한다.

가능한 설계 방법에서, 단말에 의해, 음성 정보에 대응하는 동작 명령을 실행하기 전에, 방법은, 단말에 의해, 웨어러블 디바이스의 디바이스 식별자를 획득하는 단계를 더 포함하고; 그리고 단말에 의해, 음성 정보에 대응하는 동작 명령을 실행하는 단계는, 웨어러블 디바이스의 디바이스 식별자가 미리 설정된 인가된 디바이스 식별자인 경우, 단말에 의해, 음성 정보에 대응하는 동작 명령을 실행하는 단계를 포함한다. 이러한 방식으로, 단말은 인가된 블루투스 디바이스에 의해 전송된 관련된 동작 명령을 수신 및 실행할 수 있으며, 비인가 블루투스 디바이스가 단말로 동작 명령을 전송할 때, 단말은 보안을 개선하도록 동작 명령을 폐기할 수 있다.

제2 양상에 따르면, 본 출원은 음성 제어 방법을 제공하며, 이 방법은, 웨어러블 디바이스에 의해, 단말에 대한 통신 연결을 설정하는 단계; 웨어러블 디바이스에 의해, 제1 음성 센서를 사용함으로써 음성 정보에서 제1 음성 성분을 수집하는 단계; 웨어러블 디바이스에 의해, 제2 음성 센서를 사용함으로써 음성 정보에서 제2 음성 성분을 수집하는 단계; 및 웨어러블 디바이스에 의해, 발성 사용자에 대한 아이덴티티 인증을 수행하기 위해 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계를 포함한다.

제2 양상을 참조하면, 제2 양상의 제1 가능한 설계 방법에서, 제1 음성 센서는 사용자와 접촉하지 않는, 웨어러블 디바이스의 일 측 상에 위치되고, 제2 음성 센서는 사용자와 접촉하는, 웨어러블 디바이스의 일 측 상에 위치된다. 예컨대, 제1 음성 센서는 공기 전도 마이크포폰이고 제2 음성 센서는 골전도 마이크로폰이다.

제2 양상의 제1 가능한 설계 방법을 참조하면, 제2 양상의 제2 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 센서를 사용함으로써 음성 정보에서 제1 음성 성분을 수집하기 전에, 방법은, 웨어러블 디바이스 상의 광학 근접 센서를 사용함으로써 주변 광 강도를 검출하는 단계; 웨어러블 디바이스 상의 가속도 센서를 사용함으로써 가속도 값을 검출하는 단계; 및 주변 광 강도가 미리 설정된 광 강도 임계치보다 작거나, 또는 가속도 값이 미리 설정된 가속도 임계치보다 크거나, 주변 광 강도가 미리 설정된 광 강도 임계치보다 작고 가속도 값이 미리 설정된 가속도 임계치보다 큰 경우, 웨어러블 디바이스가 착용 상태에 있다고 결정하는 단계를 더 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제3 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제2 음성 센서를 사용함으로써 음성 정보에서 제2 음성 성분을 수집한 후에, 방법은, 웨어러블 디바이스에 의해, 제1 음성 활동 검출(VAD) 값을 획득하기 위해 제1 음성 성분에 대해 VAD을 수행하는 단계; 및 웨어러블 디바이스에 의해, 제2 VAD 값을 획득하기 위해 제2 음성 성분에 대해 VAD를 수행하여 단계를 더 포함하고, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계는, 제1 VAD 값 및 제2 VAD 값이 각각 미리 설정된 조건을 충족할 때, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계를 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제4 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계는, 음성 정보가 미리 설정된 키워드를 포함할 때, 웨어러블 디바이스 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계; 또는 웨어러블 디바이스에 의해, 사용자에 의해 입력된 미리 설정된 동작이 수신될 때, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계를 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제5 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하는 단계는, 웨어러블 디바이스에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계 ― 제1 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제1 음성 센서에 의해 수집됨 ― ; 및 웨어러블 디바이스에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계를 포함하고, 제2 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제2 음성 센서에 의해 수집되고; 그리고

웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행한 후에, 방법은, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하고, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는 경우, 웨어러블 디바이스에 의해, 발성 사용자가 인가된 사용자임을 결정하는 단계, 또는 그렇지 않으면, 웨어러블 디바이스에 의해, 발성 사용자가 비인가 사용자임을 결정하는 단계를 더 포함한다.

제2 양상의 임의의 제5 가능한 설계 방법을 참조하면, 제2 양상의 제6 가능한 설계 방법에서, 방법은, 제1 음성 센서를 사용함으로써 웨어러블 디바이스에 의해, 인가된 사용자의 제1 성문 모델을 설정하기 위해 인가된 사용자에 의해 입력된 등록 음성에서 제1 등록 성분을 수집하는 단계; 및 제2 음성 센서를 사용함으로써 웨어러블 디바이스에 의해, 인가된 사용자의 제2 성문 모델을 설정하기 위해 인가된 사용자에 의해 입력된 등록 음성에서 제2 등록 성분을 수집하는 단계를 더 포함한다.

제2 양상의 임의의 제5 또는 제6 가능한 설계 방법을 참조하면, 제2 양상의 제7 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계는, 웨어러블 디바이스에 의해, 제1 음성 성분과 인가된 사용자의 제1 성문 모델 간의 제1 매칭 정도를 계산하는 단계; 및 제1 매칭 정도가 제1 임계치보다 큰 경우, 웨어러블 디바이스에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭한다고 결정하는 단계를 포함하고; 그리고 웨어러블 디바이스에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계는, 웨어러블 디바이스에 의해, 제2 음성 성분과 인가된 사용자의 제2 성문 모델 간의 제2 매칭 정도를 계산하는 단계; 및 제2 매칭 정도가 제2 임계치보다 큰 경우, 웨어러블 디바이스에 의해, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭한다고 결정하는 단계를 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제8 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행한 후에, 방법은, 웨어러블 디바이스에 의해, 발성 사용자가 인가된 사용자인 경우, 인증 성공 메시지 또는 잠금 해제 명령을 단말에 전송하는 단계를 더 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제9 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행한 후에, 방법은, 발성 사용자가 인가된 사용자인 경우, 웨어러블 디바이스에 의해, 음성 정보에 대응하는 동작 명령을 단말에 전송하는 단계를 더 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제10 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하기 전에, 방법은, 웨어러블 디바이스에 의해, 제1 음성 성분 및 제2 음성 성분에 대해 노이즈 감소 프로세싱을 수행하는 단계; 및/또는 웨어러블 디바이스에 의해, 에코 소거 알고리즘을 이용함으로써, 제1 음성 성분 및 제2 음성 성분 각각에서 에코 신호를 소거하는 단계를 더 포함한다.

제2 양상 및 제2 양상의 가능한 설계 방법들 중 임의의 하나를 참조하면, 제2 양상의 제11 가능한 설계 방법에서, 웨어러블 디바이스에 의해, 제1 음성 센서를 사용함으로써 음성 정보에서 제1 음성 성분을 수집하기 전에, 방법은, 웨어러블 디바이스에 의해, 사용자에 의해 입력된 웨이크-업 음성을 수신하는 단계 ― 웨이크-업 음성은 미리 설정된 웨이크-업 단어를 포함함 ― ; 및 웨어러블 디바이스에 의해, 웨이크-업 음성에 응답하여 단말에 인에이블링 명령을 전송하는 단계를 더 포함하고, 인에이블링 명령은 성문 인식 기능을 인에이블링하도록 단말에 지시하는 데 사용된다.

제3 양상에 따르면, 본 출원은 연결 유닛, 획득 유닛, 인식 유닛, 인증 유닛 및 실행 유닛을 포함하는 단말을 제공한다. 연결 유닛은 웨어러블 디바이스에 대한 통신 연결을 설정하도록 구성된다. 인증 유닛은, 발성 사용자가 웨어러블 디바이스에 음성 정보를 입력할 때, 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 및 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과에 기초하여 발성 사용자에 대한 아이덴티티 인증을 수행하도록 구성되고, 제1 음성 성분은 웨어러블 디바이스의 제1 음성 센서에 의해 수집되고, 제2 음성 성분은 웨어러블 디바이스의 제2 음성 센서에 의해 수집된다. 실행 유닛은 발성 사용자에 대해 단말에 의해 수행된 아이덴티티 인증의 결과가 발성 사용자가 인가된 사용자라는 것인 경우, 음성 정보에 대응하는 동작 명령을 실행하도록 구성된다.

가능한 설계 방법에서, 획득 유닛은 웨어러블 디바이스로부터 제1 성문 인식 결과 및 제2 성문 인식 결과를 획득하도록 구성되고, 제1 성문 인식 결과는 웨어러블 디바이스가 제1 음성 성분에 대해 성문 인식을 수행한 후에 획득되고, 제2 성문 인식 결과는 웨어러블 디바이스가 제2 음성 성분에 대해 성문 인식을 수행한 후에 획득된다.

가능한 설계 방법에서, 획득 유닛은 웨어러블 디바이스로부터 제1 음성 성분 및 제2 음성 성분을 획득하도록 구성되고, 인식 유닛은 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행하도록 구성된다.

가능한 설계 방법에서, 인식 유닛은 구체적으로, 음성 정보가 미리 설정된 키워드를 포함할 때, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하도록; 또는 사용자에 의해 입력된 미리 설정된 동작이 수신될 때, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하도록 구성된다.

가능한 설계 방법에서, 인식 유닛은 구체적으로, 단말에 의해, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하고 ― 제1 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제1 음성 센서에 의해 수집됨 ― ; 그리고 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하도록 구성되고, 제2 성문 모델은 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 제2 음성 센서에 의해 수집되고; 그리고 인증 유닛은 구체적으로, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하고, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭하는 경우, 발성 사용자가 인가된 사용자임을 결정하도록, 또는 그렇지 않으면, 발성 사용자가 비인가 사용자임을 결정하도록 구성된다.

가능한 설계 방법에서, 인식 유닛은 구체적으로, 제1 음성 성분과 인가된 사용자의 제1 성문 모델 간의 제1 매칭 정도를 계산하고; 제1 매칭 정도가 제1 임계치보다 큰 경우, 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭한다고 결정하고; 제2 음성 성분과 인가된 사용자의 제2 성문 모델 간의 제2 매칭 정도를 계산하고; 그리고 제2 매칭 정도가 제2 임계치보다 큰 경우, 제2 음성 성분이 인가된 사용자의 제2 성문 모델과 매칭한다고 결정하도록 구성된다.

가능한 설계 방법에서, 획득 유닛은 추가로, 웨어러블 디바이스에 의해 전송된 인에이블링 명령을 획득하도록 구성되고, 인에이블링 명령은 사용자에 의해 입력된 웨이크-업 음성에 응답하여 웨어러블 디바이스에 의해 생성되고, 실행 유닛은 추가로, 인에이블링 명령에 응답하여 성문 인식 기능을 인에이블링하도록 구성된다.

가능한 설계 방법에서, 인식 유닛은 추가로, 제1 음성 성분 및 제2 음성 성분에 기초하여 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는지를 결정하도록 구성되고, 실행 유닛은 추가로, 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는 경우, 성문 인식 기능을 인에이블링하도록 구성된다.

가능한 설계 방법에서, 실행 유닛은 추가로, 발성 사용자가 인가된 사용자인 경우 잠금 해제 동작을 자동으로 수행하도록 구성된다.

가능한 설계 방법에서, 획득 유닛은 추가로, 웨어러블 디바이스의 디바이스 식별자를 획득하도록 구성되고, 실행 유닛은 구체적으로, 웨어러블 디바이스의 디바이스 식별자가 미리 설정된 인가된 디바이스 식별자인 경우, 음성 정보에 대응하는 동작 명령을 실행하도록 구성된다.

제4 양상에 따르면, 본 출원은 연결 유닛, 검출 유닛, 인식 유닛, 인증 유닛 및 전송 유닛을 포함하는 웨어러블 디바이스를 제공한다. 연결 유닛은 단말에 대한 통신 연결을 설정하도록 구성된다. 검출 유닛은 제1 음성 센서를 이용함으로써 음성 정보에서 제1 음성 성분을 수집하도록 구성되고, 웨어러블 디바이스는 제2 음성 센서를 이용하여 음성 정보에서 제2 음성 성분을 수집한다. 인식 유닛은 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 별개로 수행하도록 구성된다.

가능한 설계 방법에서, 검출 유닛은 추가로, 웨어러블 디바이스 상의 광학 근접 센서를 사용함으로써 주변 광 강도를 검출하고; 웨어러블 디바이스 상의 가속도 센서를 사용함으로써 가속도 값을 검출하고; 그리고 주변 광 강도가 미리 설정된 광 강도 임계치보다 작거나, 또는 가속도 값이 미리 설정된 가속도 임계치보다 크거나, 주변 광 강도가 미리 설정된 광 강도 임계치보다 작고 가속도 값이 미리 설정된 가속도 임계치보다 큰 경우, 웨어러블 디바이스가 착용 상태에 있다고 결정하도록 구성된다.

가능한 설계 방법에서, 검출 유닛은 추가로, 제1 음성 활동 검출(VAD) 값을 획득하기 위해 제1 음성 성분에 대해 VAD을 수행하고; 그리고 제2 VAD 값을 획득하기 위해 제2 음성 성분에 대해 VAD를 수행하도록 구성되고; 그리고 인식 유닛은 구체적으로, 제1 VAD 값 및 제2 VAD 값이 각각 미리 설정된 조건을 충족할 때, 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 수행하도록 구성된다.

가능한 설계 방법에서, 전송 유닛은 추가로, 발성 사용자가 인가된 사용자인 경우, 인증 성공 메시지 또는 잠금 해제 명령을 단말에 전송하도록 구성된다.

가능한 설계 방법에서, 전송 유닛은 추가로, 발성 사용자가 인가된 사용자인 경우, 음성 정보에 대응하는 동작 명령을 단말에 전송하도록 구성된다.

가능한 설계 방법에서, 검출 유닛은 추가로, 사용자에 의해 입력된 웨이크-업 음성을 검출하도록 구성되고, 웨이크-업 음성은 미리 설정된 웨이크-업 단어를 포함하고, 전송 유닛은 추가로, 단말에 인에이블링 명령을 전송하도록 구성되고, 인에이블링 명령은 성문 인식 기능을 인에이블링하도록 단말에 지시하는 데 사용된다.

제5 양상에 따르면, 본 출원은 터치스크린, 하나 이상의 프로세서들, 메모리 및 하나 이상의 프로그램들을 포함하는 단말을 제공한다. 프로세서는 메모리에 커플링되고 하나 이상의 프로그램들이 메모리에 저장된다. 단말이 실행될 때, 프로세서는 메모리에 저장된 하나 이상의 프로그램들을 실행하여서, 단말은 전술한 음성 제어 방법들 중 임의의 하나를 수행한다.

제6 양상에 따르면, 본 출원은 웨어러블 디바이스 외부에 배치된 제1 음성 센서 및 웨어러블 디바이스 내부에 배치된 제2 음성 센서, 하나 이상의 프로세서들, 메모리 및 하나 이상의 프로그램들을 포함하는 웨어러블 디바이스를 제공한다. 프로세서는 메모리에 커플링되고 하나 이상의 프로그램들이 메모리에 저장된다. 웨어러블 디바이스가 실행될 때, 프로세서는 메모리에 저장된 하나 이상의 프로그램들을 실행하여서, 웨어러블 디바이스는 전술한 음성 제어 방법들 중 임의의 하나를 수행한다.

제7 양상에 따르면, 본 출원은 컴퓨터 명령을 포함하는 컴퓨터 저장 매체를 제공한다. 컴퓨터 명령이 단말 상에서 실행될 때, 단말 또는 웨어러블 디바이스는 전술한 설계 방법들 중 임의의 하나에 따라 음성 제어 방법을 수행하도록 인에이블링된다.

제8 양상에 따르면, 본 출원은 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양상 또는 제1 양상의 가능한 구현들 중 임의의 하나에 따른 음성 제어 방법을 수행하도록 인에이블링된다.

제3 양상 및 제5 양상에 따른 단말, 제4 양상 및 제6 양상에 따른 웨어러블 디바이스, 제7 양상에 따른 컴퓨터 저장 매체 및 제8 양상에 따른 컴퓨터 프로그램 제품은 모두 위에서 제공된 대응하는 방법을 수행하는 데 사용된다는 것이 이해될 수 있다. 따라서, 단말, 웨어러블 디바이스, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품이 달성할 수 있는 유리한 효과들에 대해서는 위에서 제공된 대응하는 방법들에서의 유리한 효과들을 참조한다. 세부사항들은 여기서 설명되지 않는다.

도 1은 본 출원의 실시예에 따른 음성 제어 방법의 시나리오의 아키텍처 다이어그램 1이다.
도 2는 본 출원의 실시예에 따른 웨어러블 디바이스의 개략적인 구조 다이어그램 1이다.
도 3은 본 출원의 실시예에 따른 단말의 개략적인 구조 다이어그램 1이다.
도 4는 본 출원의 실시예에 따른 음성 제어 방법의 개략적인 상호작용 다이어그램 1이다.
도 5는 본 출원의 실시예에 따른 음성 제어 방법의 시나리오의 아키텍처 다이어그램 2이다.
도 6은 본 출원의 실시예에 따른 음성 제어 방법의 개략적인 상호작용 다이어그램 2이다.
도 7(a) 및 도 7(b)는 본 출원의 실시예에 따른 음성 제어 방법의 시나리오의 아키텍처 다이어그램 3이다.
도 8은 본 출원의 실시예에 따른 단말의 개략적인 구조 다이어그램 2이다.
도 9는 본 출원의 실시예에 따른 웨어러블 디바이스의 개략적인 구조 다이어그램 2이다.
도 10은 본 출원의 실시예에 따른 단말의 개략적인 구조 다이어그램이다.

다음은 첨부 도면들을 참조하여 본 출원의 실시예들의 구현들을 상세히 설명한다.

도 1에 도시된 바와 같이, 본 출원의 실시예에서 제공되는 음성 제어 방법은 웨어러블 디바이스(11) 및 단말(12)을 포함하는 음성 제어 시스템에 적용될 수 있다.

웨어러블 디바이스(11)는 무선 헤드셋, 유선 헤드셋, 스마트 글래스, 스마트 헬멧, 스마트 손목시계 등과 같이 음성 수집 기능을 갖는 디바이스일 수 있다. 단말(12)은 모바일 폰, 태블릿 컴퓨터, 노트북 컴퓨터, 울트라 모바일 개인용 컴퓨터(Ultra-mobile Personal Computer, UMPC) 또는 개인용 디지털 보조기기(Personal Digital Assistant, PDA)와 같은 디바이스일 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.

도 2에 도시된 바와 같이, 웨어러블 디바이스(11)는 구체적으로, 웨어러블 디바이스(11) 외부에 배치된 제1 음성 센서(201) 및 웨어러블 디바이스(11) 내부에 배치된 제2 음성 센서(202)를 포함할 수 있다. 웨어러블 디바이스(11)의 내부는, 사용자가 웨어러블 디바이스(11)를 사용할 때 사용자와 직접 접촉하는 측을 지칭하고, 웨어러블 디바이스(11)의 외부는 사용자와 직접 접촉하지 않는 측을 지칭한다. 예컨대, 제1 음성 센서(201)는 공기 전도 마이크로폰일 수 있고, 제2 음성 센서(202)는 사용자가 사운드를 낼 때 생성되는 진동 신호를 수집할 수 있는 센서 이를테면, 골전도 마이크로폰, 광학 진동 센서, 가속도 센서, 또는 공기 전도 마이크로폰일 수 있다. 공기 전도 마이크로폰에 의해 음성 정보를 수집하는 방식은 공기를 이용함으로써 발성 시의 진동 신호를 마이크로폰에 송신하는 방식이다. 골전도 마이크로폰에 의해 음성 정보를 수집하는 방식은 뼈를 이용함으로써 발성 시의 진동 신호를 마이크로폰에 송신하는 방식이다.

예컨대, 제1 음성 센서(201)는 공기 전도 마이크로폰이고, 제2 음성 센서(202)는 골전도 마이크로폰이다. 본 출원의 이 실시예에서, 웨어러블 디바이스(11)를 착용한 사용자가 발화(speak)할 때, 웨어러블 디바이스(11)는 제1 음성 센서(201)를 이용함으로써, 공중 전파 후 사용자에 의해 전송된 음성 정보를 수집할 수 있고, 또한, 제2 음성 센서(202)를 사용함으로써, 뼈 전파 후에 사용자에 의해 전송된 음성 정보를 수집할 수 있다.

또한, 웨어러블 디바이스(11) 상에 복수의 제1 음성 센서들(201)이 존재할 수 있다. 예컨대, 제1 음성 센서(201)는 공기 전도 마이크로폰이다. 2개의 공기 전도 마이크로폰들이 웨어러블 디바이스(11) 외부에 배치될 수 있고, 2개의 전도 마이크로폰들이 공중 전파 후에 사용자에 의해 전송된 음성 정보를 공동으로 수집하여 음성 정보에서 제1 음성 성분을 획득한다. 또한, 골전도 마이크로폰은 골 전파 후에 사용자에 의해 전송된 음성 정보를 수집하여 음성 정보에서 제2 음성 성분을 획득할 수 있다.

여전히, 도 2에 도시된 바와 같이, 웨어러블 디바이스(11)는 가속도 센서(203)(여기서 가속 센서(203)는 제2 음성 센서(202)로서 또한 사용될 수 있음), 광학 근접 센서(204), 통신 모듈(205), 스피커(206), 계산 모듈(207), 저장 모듈(208) 및 전력 공급기(209)와 같은 구성요소들을 더 포함할 수 있다. 웨어러블 디바이스(11)는 도 2에 도시된 것들보다 더 많거나 적은 구성요소들을 가질 수 있고, 둘 이상의 구성요소들을 결합할 수 있거나, 또는 상이한 구성요소 구성들을 가질 수 있다는 것이 이해될 수 있다. 도 2에 도시된 다양한 구성요소들은 하드웨어, 소프트웨어, 또는 하나 이상의 신호 프로세싱 또는 주문형 집적 회로들을 포함하는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다.

도 3에 도시된 바와 같이, 음성 제어 시스템의 단말(12)은 구체적으로 모바일 폰(100)일 수 있다. 도 3에 도시된 바와 같이, 모바일 폰(100)은 구체적으로, 프로세서(101), 라디오 주파수(radio frequency, RF) 회로(102), 메모리(103), 터치스크린(104), 블루투스 장치(105), 하나 이상의 센서들(106), Wi-Fi 장치(107), 포지셔닝 장치(108), 오디오 회로(109), 주변 인터페이스(110) 및 전력 공급 장치(111)와 같은 구성요소들을 포함할 수 있다. 이들 구성요소들은 하나 이상의 통신 버스들 또는 신호 케이블들(도 3에 도시되지 않음)을 사용함으로써 통신할 수 있다. 당업자는, 도 3에 도시된 하드웨어 구조가 모바일 폰(100)에 대한 제한을 구성하지 않는다는 것을 이해할 수 있다. 모바일 폰(100)은 도면에 도시된 것들보다 더 많거나 적은 구성요소들을 포함하거나, 일부 구성요소들을 결합하거나, 또는 상이한 구성요소 배열들을 가질 수 있다.

다음은 도 3을 참조하여 모바일 폰(100)의 구성요소들을 상세히 설명한다.

프로세서(101)는 모바일 폰(100)의 제어 센터이다. 프로세서(101)는, 다양한 인터페이스들 및 케이블들을 이용함으로써 모바일 폰(100)의 부분들에 연결되고, 메모리(103)에 저장된 애플리케이션 프로그램을 구동 또는 실행하고, 메모리(103)에 저장된 데이터 및 명령을 호출(invoke)하여 모바일 폰(100)의 다양한 기능들을 수행하고 데이터를 프로세싱한다. 일부 실시예들에서, 프로세서(101)는 하나 이상의 프로세싱 유닛들을 포함할 수 있다. 프로세서(101)는 추가로, 애플리케이션 프로세서 및 모뎀 프로세서를 통합할 수 있다. 애플리케이션 프로세서는 주로, 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 프로세싱한다. 모뎀 프로세서는 주로, 무선 통신을 프로세싱한다. 모뎀 프로세서는 대안적으로 프로세서(101)에 통합되지 않을 수 있다는 것이 이해될 수 있다. 예컨대, 프로세서(101)는 Huawei Technologies Co., Ltd.에 의해 제조된 Kirin 960 멀티-코어 프로세서일 수 있다.

라디오 주파수 회로(102)는 정보 수신 및 전송 프로세스 또는 호출 프로세스에서 라디오 신호를 수신 및 전송하도록 구성될 수 있다. 구체적으로, 기지국으로부터 다운링크 데이터를 수신한 후, 라디오 주파수 회로(102)는 프로세싱을 위해 다운링크 데이터를 프로세서(101)에 전송할 수 있고 관련된 업링크 데이터를 기지국에 전송한다. 일반적으로, 라디오 주파수 회로는 안테나, 적어도 하나의 증폭기, 트랜시버, 커플러, 저 노이즈 증폭기, 듀플렉서 등을 포함(그러나 이에 제한되지 않음)한다. 또한, 라디오 주파수 회로(102)는 추가로, 무선 통신을 통해 다른 디바이스와 통신할 수 있다. 무선 통신은 모바일 통신들을 위한 글로벌 시스템, 일반 패킷 라디오 서비스, 코드 분할 다중 액세스, 광대역 코드 분할 다중 액세스, 롱 텀 에볼루션(long term evolution), 이메일, 메시징 서비스 등을 포함(그러나 이에 제한되지 않음)하는 임의의 통신 표준 또는 프로토콜을 사용할 수 있다.

메모리(103)는 애플리케이션 프로그램 및 데이터를 저장하도록 구성된다. 프로세서(101)는 메모리(103)에 저장된 애플리케이션 프로그램 및 데이터를 실행하여 모바일 폰(100)의 다양한 기능들을 실행하고 데이터를 프로세싱한다. 메모리(103)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함한다. 프로그램 저장 영역은 운영체제 및 적어도 하나의 기능(예컨대, 사운드 재생 기능 또는 이미지 재생 기능)에 의해 요구되는 애플리케이션 프로그램을 저장할 수 있다. 데이터 저장 영역은 모바일 폰(100)의 사용에 기초하여 생성된 데이터(예컨대, 오디오 데이터 또는 폰 북)를 저장할 수 있다. 또한, 메모리(103)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비-휘발성 메모리, 이를테면, 자기 디스크 저장 디바이스, 플래시 메모리 디바이스 또는 다른 휘발성 솔리드-스테이트(solid-state) 저장 디바이스를 더 포함할 수 있다. 메모리(103)는 Apple에 의해 개발된 IOS^®운영 체제, Google에 의해 개발된 ANDROID^®운영 체제와 같은 다양한 운영 체제들을 저장할 수 있다.

터치스크린(104)은 터치-감지 표면(104-1) 및 디스플레이(104-2)를 포함할 수 있다.

터치-감지 표면(104-1)(예컨대, 터치 패널)은 터치-감지 표면(104-1) 상에서 또는 그 근처에서 모바일 폰(100)의 사용자에 의해 수행된 터치 이벤트(예컨대, 사용자에 의해 손가락 또는 스타일러스와 같은 적절한 객체를 사용함으로써 터치-감지 표면(104-1) 상에서 또는 터치-감지 표면(104-1) 근처에서 수행되는 동작)를 수집하고 수집된 터치 정보를 다른 구성요소, 예컨대, 프로세서(101)로 전송할 수 있다. 터치-감지 표면(104-1) 근처에서 사용자에 의해 수행된 터치 이벤트는 플로팅 터치(floating touch)로 지칭될 수 있다. 플로팅 터치는 사용자가 객체(예컨대, 아이콘)를 선택, 이동 또는 드래그하기 위해 터치패드를 직접 터치할 필요가 없고, 사용자는 원하는 기능을 실행하기 위해 단말 근처에 있기만 할 필요가 있다는 것을 의미할 수 있다. 플로팅 터치의 응용 시나리오에서, "터치" 및 "접촉"과 같은 용어들은 터치스크린과의 직접적인 접촉이 아니라 터치스크린에 가깝거나 근접한 접촉을 암시한다. 플로팅 터치가 수행될 수 있는 터치-감지 표면(104-1)은 정전 용량 유형, 적외선 감지 유형, 초음파 유형 등으로 구현될 수 있다. 터치-감지 표면(104-1)은 2개의 부분들: 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 배향을 검출하고, 터치 동작에 의해 생성되는 신호를 검출하고, 신호를 터치 제어기에 송신한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 정보를 터치포인트 좌표들로 변환하고, 터치포인트 좌표들을 프로세서(101)에 전송한다. 터치 제어기는 추가로, 프로세서(101)에 의해 전송된 명령을 수신하고 명령을 실행할 수 있다. 또한, 터치-감지 표면(104-1)은 저항 유형, 정전 용량 유형, 적외선 유형, 표면 음향파 유형 등과 같은 복수의 유형들로 구현될 수 있다.

디스플레이(디스플레이 스크린으로서 또한 지칭됨)(104-2)는 사용자에 의해 입력된 정보 또는 사용자를 위해 제공되는 정보 및 모바일 폰(100)의 다양한 메뉴를 디스플레이하도록 구성될 수 있다. 디스플레이(104-2)는 액정 디스플레이 또는 유기 발광 다이오드와 같은 형태로 구성될 수 있다. 터치-감지 표면(104-1)은 디스플레이(104-2)를 커버할 수 있다. 터치-감지 표면(104-1) 상에서 또는 그 근처에서 터치 이벤트를 검출한 후, 터치-감지 표면(104-1)은 터치 이벤트의 유형을 결정하기 위해 프로세서(101)에 터치 이벤트를 송신한다. 그 후, 프로세서(101)는 터치 이벤트의 유형에 기초하여 디스플레이(104-2) 상에 대응하는 시각적 출력을 제공할 수 있다. 도 3에서, 터치-감지 표면(104-1) 및 디스플레이 스크린(104-2)이 모바일 폰(100)의 입력 및 출력 기능들을 구현하기 위한 2개의 독립적인 부분들로서 사용되지만, 일부 실시예들에서, 터치-감지 표면(104-1) 및 디스플레이 스크린(104-2)은 모바일 폰(100)의 입력 및 출력 기능들을 구현하도록 통합될 수 있다. 터치스크린(104)은 복수의 재료 층들을 적층함으로써 형성된다는 것이 이해될 수 있다. 터치-감지 표면(층)과 디스플레이 스크린(층)만이 본 출원의 실시예들에서 제시되고, 다른 층들은 본 출원의 실시예들에서 기록되지 않는다. 또한, 본 출원의 일부 다른 실시예들에서, 터치-감지 표면(104-1)은 디스플레이(104-2)를 커버할 수 있고, 터치-감지 표면(104-1)의 크기는 디스플레이 스크린(104-2)의 크기보다 크다. 따라서, 디스플레이 스크린(104-2)은 터치-감지 표면(104-1)에 의해 전체적으로 커버된다. 대안적으로, 터치-감지 표면(104-1)은 풀 패널 형태(full panel form)로 모바일 폰(100)의 전방 상에 구성될 수 있는데, 즉, 모바일 폰(100)의 전방 상에서 사용자에 의해 수행되는 임의의 터치는 모바일 폰에 의해 감지될 수 있다. 이러한 방식으로, 모바일 폰의 전방 상에서 풀 터치 제어 경험이 구현될 수 있다. 일부 다른 실시예들에서, 터치-감지 표면(104-1)은 풀 패널 형태로 모바일 폰(100)의 전방 상에 구성되고, 디스플레이 스크린(104-2)은 또한 풀 패널 형태로 모바일 폰(100)의 전방 상에 구성될 수 있다. 이러한 방식으로, 베젤이 없는 구조가 모바일 폰의 전방 상에 구현될 수 있다. 본 출원의 일부 다른 실시예들에서, 터치스크린(104)은 센서 어레이들의 하나 이상의 그룹들을 더 포함할 수 있어서, 터치스크린(104)은 또한 터치스크린(104) 상에서 사용자에 의해 수행된 터치 이벤트를 감지하면서, 터치스크린(104) 상에서 사용자에 의해 가해지는 압력 등을 감지할 수 있다.

모바일 폰(100)은 모바일 폰(100)과 다른 단거리 단말(예컨대, 웨어러블 디바이스(11)) 간의 데이터 교환을 구현하도록 구성된 블루투스 장치(105)를 더 포함할 수 있다. 본 출원의 실시예들에서, 블루투스 장치는 집적 회로, 블루투스 칩 등일 수 있다.

모바일 폰(100)은 광 센서, 모션 센서 및 다른 센서와 같은 적어도 하나의 유형의 센서(106)를 더 포함할 수 있다. 구체적으로, 광학 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 기초하여 터치스크린(104)의 디스플레이의 휘도를 조정할 수 있고, 근접 센서는 모바일 폰(100)이 귀로 이동할 때 디스플레이를 끌(power off) 수 있다. 일 유형의 모션 센서로서, 가속도 센서는 다양한 방향들(보통 3개의 축들 상의)의 가속도 값들을 검출할 수 있다. 가속도 센서는 가속도 센서가 정적일 때 중력의 방향 및 값을 검출할 수 있으며, 모바일 폰 자세를 인식하기 위한 애플리케이션(이를테면, 가로 모드와 세로 모드 간의 스위칭, 관련된 게임, 자력계 자세 교정), 진동 인식과 관련된 기능(이를테면, 보수계, 노크) 등에 적용될 수 있다. 지문 인식 구성요소, 자이로스코프, 기압계, 습도계, 온도계, 적외선 센서와 같은 다른 센서들이 모바일 폰(100) 상에 추가로 구성될 수 있다. 세부사항들은 여기서 설명되지 않는다.

Wi-Fi 장치(107)는 모바일 폰(100)에 대해, Wi-Fi 관련 표준 프로토콜을 따르는 네트워크 액세스를 제공하도록 구성된다. 모바일 폰(100)은 Wi-Fi 장치(107)를 이용하여 Wi-Fi 액세스 포인트에 액세스하여 사용자가 이메일을 수신 및 송신하고, 웹 페이지를 브라우징하고, 스트리밍 미디어에 액세스하는 등에 도움을 줄 수 있다. Wi-Fi 장치(107)는 사용자를 위해 무선 광대역 인터넷 액세스를 제공한다. 일부 다른 실시예들에서, Wi-Fi 장치(107)는 Wi-Fi 무선 액세스 포인트로서 사용될 수 있고, 다른 단말에 Wi-Fi 네트워크 액세스를 제공할 수 있다.

포지셔닝 장치(108)는 모바일 폰(100)에 대한 지리적 위치를 제공하도록 구성된다. 포지셔닝 장치(108)는 구체적으로, 글로벌 포지셔닝 시스템(global positioning system, GPS) 또는 BeiDou 내비게이션 위성 시스템과 같은 포지셔닝 시스템의 수신기일 수 있다는 것이 이해될 수 있다. 포지셔닝 시스템에 의해 전송된 지리적 위치를 수신한 후, 포지셔닝 장치(108)는 프로세싱을 위해 정보를 프로세서(101)로 전송하거나 저장을 위해 정보를 메모리(103)로 전송한다. 일부 다른 실시예들에서, 포지셔닝 장치(108)는 어시스트 글로벌 포지셔닝 시스템(assisted global positioning system, AGPS)의 수신기일 수 있다. AGPS는 GPS 포지셔닝이 특정 보조를 받아 수행되는 방식으로 실행된다. GPS 위성 신호와 함께 기지국의 신호를 이용함으로써, AGPS는 모바일 폰(100)의 포지셔닝 속도가 더 높아지는 것을 가능하게 한다. AGPS 시스템에서, 포지셔닝 장치(108)는 어시스트 포지셔닝 서버(예컨대, 모바일 폰 포지셔닝 서버)와의 통신을 통해 포지셔닝 보조를 획득할 수 있다. AGPS 시스템은 레인징 및 포지셔닝 서비스들을 완료함에 있어 포지셔닝 장치(108)를 보조하도록 어시스트 서버로서 사용된다. 이 경우에, 어시스트 포지셔닝 서버는 무선 통신 네트워크를 이용하여 모바일 폰(100)의 포지셔닝 장치(108)(GPS 수신기)와 같은 단말과 통신함으로써 포지셔닝 보조를 제공한다.

오디오 회로(109), 스피커(113) 및 마이크로폰(114)은 사용자와 모바일 폰(100) 사이의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(109)는 수신된 오디오 데이터를 전기 신호로 변환하고 그 후 전기 신호를 스피커(113)로 송신하고, 스피커(113)는 출력을 위해 전기 신호를 사운드 신호로 변환한다. 또한, 마이크로폰(114)은 수집된 사운드 신호를 전기 신호로 변환한다. 오디오 회로(109)는 전기 신호를 수신하고, 전기 신호를 오디오 데이터로 변환하고, 그 후 오디오 데이터를 RF 회로(102)에 출력하여 오디오 데이터를 예컨대, 다른 모바일 폰으로 전송하거나 추가의 프로세싱을 위해 오디오 데이터를 메모리(103)에 출력한다.

주변 인터페이스(110)는 외부 입력/출력 디바이스(예컨대, 키보드, 마우스, 외부 디스플레이, 외부 메모리, 가입자 아이덴티티 모듈 카드)를 위한 다양한 인터페이스들을 제공하도록 구성된다. 예컨대, 모바일 폰(100)은 범용 직렬 버스 인터페이스를 이용하여 마우스에 연결되고, 가입자 아이덴티티 모듈 카드의 카드 슬롯 상의 금속 접촉부를 사용함으로써, 통신 사업자(telecommunications operator)에 의해 제공되는 가입자 아이덴티티 모듈(subscriber identity module, SIM) 카드에 전기적으로 연결된다. 주변 인터페이스(110)는 외부 입력/출력 주변 디바이스를 프로세서(101) 및 메모리(103)에 커플링하도록 구성될 수 있다.

모바일 폰(100)은 구성요소들에 전력을 공급하는 전력 공급 장치(111)(예컨대, 배터리 및 전력 공급 관리 칩)를 더 포함할 수 있다. 배터리는 전력 공급 관리 칩을 이용하여 프로세서(101)에 논리적으로 연결될 수 있어서, 충전, 방전, 전력 소모 관리와 같은 기능들이 전력 공급 장치(111)를 이용하여 구현될 수 있다.

도 3에는 도시되지 않았지만, 모바일 폰(100)은 카메라, 플래시, 마이크로 프로젝션 장치, 근거리 통신(near field communication, NFC) 장치 등을 더 포함할 수 있다. 세부사항들은 여기서 설명되지 않는다.

도 1 내지 도 3을 참조하면, 예컨대, 웨어러블 디바이스(11)는 블루투스 헤드셋이고, 단말(12)은 모바일 폰이다. 블루투스 헤드셋 및 모바일 폰은 블루투스 연결을 이용하여 서로 통신할 수 있다. 본 출원의 이 실시예에서, 사용자는 블루투스 헤드셋을 착용할 때 블루투스 헤드셋에 음성 정보를 입력할 수 있다. 이 경우에, 블루투스 헤드셋은 외부에 배치된 제1 음성 센서(201) 및 내부에 배치된 제2 음성 센서(202)를 이용하여 별개로 음성 정보를 수집할 수 있다. 예컨대, 제1 음성 센서(201)에 의해 수집된 음성 정보는 제1 음성 성분이고, 제2 음성 센서(202)에 의해 수집된 음성 정보는 제2 음성 성분이다.

이러한 방식으로, 블루투스 헤드셋은 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행할 수 있다. 예컨대, 블루투스 헤드셋은 인가된 사용자의 제1 성문 모델 및 제2 성문 모델을 미리 저장할 수 있다. 제1 성문 모델은 인가된 사용자에 의해 제1 음성 센서(201)에 미리 입력된 등록 음성에 기초하여 생성된다. 제2 성문 모델은 인가된 사용자에 의해 제2 음성 센서(202)에 미리 입력된 등록 음성에 기초하여 생성된다. 이 경우에, 블루투스 헤드셋은 제1 성문 모델을 수집된 제1 음성 성분과 매칭시키고, 제2 성문 모델을 수집된 제2 음성 성분과 매칭시킬 수 있다.

제1 음성 성분이 제1 성문 모델과 매칭하고, 제2 음성 성분이 제2 성문 모델과 매칭할 때, 이는 이 때 블루투스 헤드셋에 의해 수집된 음성 정보가 인가된 사용자에 의해 입력된 것임을 표시한다. 예컨대, 블루투스 헤드셋은 특정 알고리즘을 이용함으로써, 제1 음성 성분과 제1 성문 모델 간의 제1 매칭 정도 및 제2 음성 성분과 제2 성문 모델 간의 제2 매칭 정도를 계산할 수 있다. 더 높은 매칭 정도는 음성 성분과 대응하는 성문 모델 사이의 더 많은 유사성, 및 발성 사용자가 인가된 사용자일 더 높은 가능성을 표시한다. 예컨대, 제1 매칭 정도 및 제2 매칭 정도의 평균 값이 80 점보다 클 때, 블루투스 헤드셋은 제1 음성 성분이 제1 성문 모델과 매칭하고 제2 음성 성분이 제2 성문 모델과 매칭한다는 것을 결정할 수 있다. 대안적으로, 제1 매칭 정도 및 제2 매칭 정도가 각각 85 점보다 클 때, 블루투스 헤드셋은 제1 음성 성분이 제1 성문 모델과 매칭하고 제2 음성 성분이 제2 성문 모델과 매칭한다는 것을 결정할 수 있다. 또한, 블루투스 헤드셋은 음성 정보에 대응하는 동작 명령, 예컨대, 잠금 해제 명령, 전원-끄기 명령 또는 특정 연락처에 전화를 걸기 위한 명령을 모바일 폰에 전송할 수 있다. 이러한 방식으로, 모바일 폰은 동작 명령에 기초하여 대응하는 동작을 수행할 수 있어서, 사용자는 음성을 이용하여 모바일 폰을 제어할 수 있다.

확실히, 블루투스 헤드셋은 대안적으로, 수집된 제1 음성 성분 및 수집된 제2 음성 성분을 모바일 폰으로 전송할 수 있다. 모바일 폰은 제1 음성 성분 및 제2 음성 성분에 대해 별개로 성문 인식을 수행하고, 인식 결과들에 기초하여, 음성 정보를 입력한 사용자가 인가된 사용자인지를 결정한다. 사용자가 인가된 사용자인 경우, 모바일 폰은 음성 정보에 대응하는 동작 명령을 실행할 수 있다.

인가된 사용자는, 모바일 폰에 의해 미리 설정된 아이덴티티 인증 조치를 통과할 수 있는 사용자이다. 예컨대, 단말에 의해 미리 설정된 아이덴티티 인증 조치가 패스워드 입력, 지문 인식, 성문 인식일 때, 사용자 아이덴티티 인증이 수행되는 단말에 패스워드를 입력하거나, 지문 정보 및 성문 모델을 미리 입력한 사용자는 단말의 인가된 사용자로서 간주될 수 있다. 확실히, 하나의 단말에 대해 하나 이상의 인가된 사용자들이 존재할 수 있고, 인가된 사용자 이외의 임의의 사용자는 단말의 비인가 사용자로서 간주될 수 있다. 특정 아이덴티티 인증 조치를 통과한 후, 비인가 사용자는 또한 인가된 사용자로서 간주될 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.

본 출원의 이 실시예에서, 사용자가 단말(12)을 제어하기 위해 웨어러블 디바이스(11)에 음성 정보를 입력하는 경우, 웨어러블 디바이스(11)는 사용자가 사운드를 낼 때 이도(ear canal)에서 생성되는 음성 정보 및 이도 외부에서 생성되는 음성 정보를 수집할 수 있는 것을 알 수 있다. 이 경우에, 웨어러블 디바이스(11)는 두 피스의 음성 정보(즉, 제1 음성 성분 및 제2 음성 성분)를 생성한다. 따라서, 웨어러블 디바이스(11)(또는 단말(12))는 두 피스의 음성 정보에 대해 별개로 성문 인식을 수행할 수 있다. 두 피스의 음성 정보의 성문 인식 결과들이 각각 인가된 사용자의 성문 모델과 매칭할 때, 이 때 음성 정보를 입력하는 사용자는 인가된 사용자인 것으로 결정될 수 있다. 하나의 피스의 음성 정보의 성문 인식 프로세스와 비교해서, 두 피스의 음성 정보의 이중 성문 인식 프로세스는 사용자 아이덴티티 인증 동안 정확도 ?? 보안을 크게 개선할 수 있다는 것이 분명하다.

또한, 웨어러블 디바이스(11)는 이러한 골전도 방식에서, 사용자가 웨어러블 디바이스(11)를 착용한 후에만 사용자에 의해 입력된 음성 정보를 수집할 수 있기 때문에, 이러한 골전도 방식으로 웨어러블 디바이스(11)에 의해 수집된 음성 정보가 성문 인식을 통과할 수 있는 경우, 웨어러블 디바이스(11)를 착용한 인가된 사용자가 사운드를 낼 때 음성 정보가 생성된다는 것에 또한 주의한다. 이는, 비인가 사용자가 인가된 사용자의 레코딩을 이용함으로써 인가된 사용자의 단말을 악의적으로 제어하는 경우를 회피한다.

이해의 용이함을 위해, 이하에서는 첨부 도면들을 참조하여, 본 출원의 실시예들에서 제공되는 음성 제어 방법을 구체적으로 설명한다. 예컨대, 이하의 실시예들에서, 단말로서 모바일 폰이 사용되고 웨어러블 디바이스로서 블루투스 헤드셋이 사용된다.

도 4는 본 출원의 실시예에 따른 음성 제어 방법의 개략적인 흐름도이다. 도 4에 도시된 바와 같이, 음성 제어 방법은 다음의 단계들을 포함할 수 있다.

S401: 모바일 폰은 블루투스 헤드셋에 대한 블루투스 연결을 설정한다.

사용자가 블루투스 헤드셋을 사용하고자 할 때 블루투스 헤드셋의 블루투스 기능을 인에이블링할 수 있다. 이 경우에, 블루투스 헤드셋은 페어링 브로드캐스트(pairing broadcast)를 외부로 전송할 수 있다. 모바일 폰 상의 블루투스 기능이 인에이블링된 경우, 모바일 폰은 페어링 브로드캐스트를 수신하고 관련된 블루투스 디바이스가 스캐닝되었음을 사용자에게 알릴 수 있다. 사용자가 모바일 폰 상에서 블루투스 헤드셋을 선택한 후, 모바일 폰은 블루투스 헤드셋과 페어링되고 블루투스 연결을 설정할 수 있다. 후속적으로, 모바일 폰 및 블루투스 헤드셋은 블루투스 연결을 이용함으로써 서로 통신할 수 있다. 확실히, 현재 블루투스 연결이 설정되기 전에 모바일 폰 및 블루투스 헤드셋이 성공적으로 페어링된 경우, 모바일 폰은 스캔에 의해 발견된 블루투스 헤드셋에 대한 블루투스 연결을 자동으로 설정할 수 있다.

또한, 사용되는 헤드셋이 Wi-Fi 기능을 갖는 것으로 사용자가 예상하는 경우, 사용자는 헤드셋에 대한 Wi-Fi 연결을 설정하도록 모바일 폰을 동작시킬 수 있다. 대안적으로, 사용되는 헤드셋이 유선 헤드셋인 것으로 사용자가 예상하는 경우, 사용자는 유선 연결을 설정하도록 헤드셋 케이블 플러그를 모바일 폰의 대응하는 헤드셋 인터페이스에 삽입한다. 이는 본 출원의 실시예들에서 제한되지 않는다.

S402(선택적) : 블루투스 헤드셋은 블루투스 헤드셋이 착용 상태인지를 검출한다.

도 2에 도시된 바와 같이, 광학 근접 센서 및 가속도 센서가 블루투스 헤드셋 상에 배치될 수 있다. 광학 근접 센서는 사용자가 블루투스 헤드셋을 착용할 때 사용자와 접촉하는 측 상에 배치된다. 광학 근접 센서 및 가속도 센서는 현재 검출된 측정 값을 획득하기 위해 주기적으로 인에이블링될 수 있다.

블루투스 헤드셋을 착용한 후, 사용자는 광학 근접 센서 내로 방출되는 광을 차단한다. 따라서, 광학 근접 센서에 의해 검출된 광 강도가 미리 설정된 광 강도 임계치 미만일 때, 블루투스 헤드셋은, 이 때 블루투스 헤드셋이 착용 상태에 있는 것으로 결정할 수 있다. 또한, 사용자가 블루투스 헤드셋을 착용한 후, 블루투스 헤드셋은 사용자와 함께 움직일 수 있다. 따라서, 가속도 센서에 의해 검출된 가속도 값이 미리 설정된 가속도 임계치보다 클 때, 블루투스 헤드셋은, 이 때 블루투스 헤드셋이 착용 상태에 있는 것으로 결정할 수 있다. 대안적으로, 광학 근접 센서에 의해 검출된 광 강도가 미리 설정된 광 강도 임계치보다 작을 때, 이 때 가속도 센서에 의해 검출된 가속도 값이 미리 설정된 가속도 임계치보다 큰 것으로 검출되는 경우, 블루투스 헤드셋은 블루투스 헤드셋이 이 때 착용 상태에 있는 것으로 결정할 수 있다.

또한, 골전도 방식으로 음성 정보를 수집하는 제2 음성 센서(예컨대, 골전도 마이크로폰 또는 광학 진동 센서)가 블루투스 헤드셋 상에 추가로 배치되기 때문에, 블루투스 헤드셋은 추가로 제2 음성 센서를 이용함으로써, 현재 환경에서 생성하는 진동 신호를 수집할 수 있다. 블루투스 헤드셋은 착용 상태에 있을 때 사용자와 직접 접촉한다. 따라서, 제2 음성 센서에 의해 수집된 진동 신호는 미-착용 상태에서 제2 음성 센서에 의해 수집된 진동 신호보다 강하다. 이 경우에, 제2 음성 센서에 의해 수집된 진동 신호의 에너지가 에너지 임계치보다 큰 경우, 블루투스 헤드셋은 블루투스 헤드셋이 착용 상태에 있는 것으로 결정할 수 있다. 대안적으로, 사용자가 블루투스 헤드셋을 착용할 때 수집된 진동 신호에 있는, 고조파 및 공명과 같은 스펙트럼 특징은 블루투스 헤드셋이 착용되지 않았을 때 수집된 것과 현저히 상이하기 때문에, 제2 음성 센서에 의해 수집된 진동 신호가 미리 설정된 스펙트럼 특징을 충족하는 경우, 블루투스 헤드셋은 블루투스 헤드셋이 착용 상태에 있는 것으로 결정할 수 있다. 이는 사용자가 블루투스 헤드셋을 주머니 등에 넣는 시나리오에서 광학 근접 센서 또는 가속도 센서를 이용함으로써 블루투스 헤드셋이 착용 상태를 정확하게 검출할 수 없는 가능성을 감소시킬 수 있다.

에너지 임계치 또는 미리 설정된 스펙트럼 특징은 대량의 사용자들이 블루투스 헤드셋을 착용한 후 발생하는 사운드들, 움직임 등에 의해 생성되는 다양한 진동 신호들을 수집한 후의 통계 수집을 통해 획득될 수 있고, 사용자가 블루투스 헤드셋을 착용하지 않을 때 제2 음성 센서에 의해 검출되는 음성 신호의 에너지 또는 스펙트럼 특징과 상당히 상이하다. 또한, 블루투스 헤드셋 외부의 제1 음성 센서(예컨대, 공기 전도 마이크로폰)의 전력 소비가 일반적으로 상대적으로 높기 때문에, 현재 블루투스 헤드셋이 착용 상태에 있음을 블루투스 헤드셋이 검출하기 전에 제1 음성 센서가 인에이블링될 필요가 없다. 블루투스 헤드셋이 현재 착용 상태에 있음을 검출한 후, 블루투스 헤드셋은 사용자가 사운드를 낼 때 생성되는 음성 정보를 수집하도록 제1 음성 센서를 인에이블링하여 블루투스 헤드셋의 전력 소비를 감소시킬 수 있다.

블루투스 헤드셋이 현재, 착용 상태에 있음을 검출한 후, 블루투스 헤드셋은 다음 단계들 S403 내지 S407을 계속 수행할 수 있거나, 그렇지 않으면 블루투스 헤드셋은 수면 상태에 진입하고, 블루투스 헤드셋이 현재 착용 상태에 있음을 검출한 후 다음 단계들 S403 내지 S407을 계속 수행할 수 있다. 즉, 블루투스 헤드셋은, 사용자가 블루투스 헤드셋을 착용하고 있음을 블루투스 헤드셋이 검출할 때만, 즉 사용자가 블루투스 헤드셋을 사용할 의사가 있을 때만, 블루투스 헤드셋이 사용자에 의해 입력된 음성 정보를 수집하고 성문 인식 등을 수행하는 프로세스를 트리거할 수 있다. 이는 블루투스 헤드셋의 전력 소비를 감소시킨다. 확실히, 단계 S402는 선택적이다. 구체적으로, 사용자의 블루투스 헤드셋을 착용하는지에 관계없이. 블루투스 헤드셋은 다음 단계들 S403 내지 S407을 계속 수행할 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.

S403: 착용 상태에 있는 경우, 블루투스 헤드셋은 제1 음성 센서를 이용함으로써, 사용자에 의해 입력된 음성 정보에서 제1 음성 성분을 수집하고, 제2 음성 센서를 이용함으로써 음성 정보에서 제2 음성 성분을 수집한다.

블루투스 헤드셋이 착용 상태에 있는 것으로 결정할 때, 블루투스 헤드셋은 제1 음성 센서 및 제2 음성 센서를 이용함으로써, 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 획득하기 위해 사용자에 의해 입력된 음성 정보를 별개로 수집하도록 음성 검출 모듈을 인에이블링할 수 있다. 예컨대, 제1 음성 센서는 공기 전도 마이크포폰이고 제2 음성 센서는 골전도 마이크로폰이다. 블루투스 헤드셋을 사용하는 프로세스에서, 사용자는 음성 정보 "Xiao E, pay by using WeChat"를 입력할 수 있다. 이 경우에, 공기 전도 마이크로폰이 공기 중에 노출되기 때문에, 블루투스 헤드셋은 공기 전도 마이크로폰을 이용함으로써, 사용자가 사운드를 낸 후에 공기 진동에 의해 생성되는 진동 신호(즉, 음성 정보의 제1 음성 성분)를 수신할 수 있다. 또한, 골전도 마이크로폰은 피부를 통해 사용자의 귀뼈와 접촉할 수 있기 때문에, 블루투스 헤드셋은 골전도 마이크로폰을 사용함으로써, 사용자가 사운드를 낸 후 피부 및 귀뼈의 진동에 의해 생성되는 진동 신호(즉, 음성 정보의 제2 음성 성분)를 수신할 수 있다.

본 출원의 일부 실시예들에서, 사용자에 의해 입력된 음성 정보를 검출한 후, 블루투스 헤드셋은 추가로, VAD(voice activity detection, voice activity detection) 알고리즘을 이용하여 음성 정보에서 음성 신호 및 배경 노이즈를 구별할 수 있다. 구체적으로, 블루투스 헤드셋은 음성 정보의 제1 음성 성분 및 제2 음성 성분을 대응하는 VAD 알고리즘에 별개로 입력하여 제1 음성 성분에 대응하는 제1 VAD 값 및 제2 음성 성분에 대응하는 제2 VAD 값을 획득할 수 있다. VAD 값은 음성 정보가 화자의 정상적인 음성 신호인지 또는 노이즈 신호인지를 반영하는 데 사용될 수 있다. 예컨대, VAD 값은 0 내지 100의 범위에 있도록 세팅될 수 있다. VAD 값이 VAD 임계치보다 클 때, 이는 음성 정보가 화자의 정상적인 음성 신호임을 표시하거나, VAD 값이 VAD 임계치 미만일 때, 이는 음성 정보가 노이즈 신호임을 표시한다. 다른 예로, VAD 값은 0 또는 1로 세팅될 수 있다. VAD 값이 1일 때, 이는 음성 정보가 화자의 정상적인 음성 신호임을 표시하고 VAD 값이 0일 때, 이는 음성 정보가 노이즈 신호임을 표시한다.

이 경우에, 블루투스 헤드셋은 2개의 VAD 값들: 제1 VAD 값 및 제2 VAD 값에 기초하여, 음성 정보가 노이즈 신호인지를 결정할 수 있다. 예컨대, 제1 VAD 값 및 제2 VAD 값 둘 모두가 1일 때, 블루투스 헤드셋은 음성 정보가 노이즈 신호가 아니라, 화자의 정상적인 음성 신호인 것으로 결정할 수 있다. 다른 예로, 제1 VAD 값 및 제2 VAD 값이 각각 미리 설정된 값보다 클 때, 블루투스 헤드셋은 음성 정보가 노이즈 신호가 아니라, 화자의 정상적인 음성 신호인 것으로 결정할 수 있다.

또한, 제2 VAD 값이 1이거나 제2 VAD 값이 미리 설정된 값보다 클 대, 이는, 이 때 수집된 음성 정보는 살아있는 사용자에 의해 전송된 것임을 어느 정도 표시할 수 있다. 따라서, 블루투스 헤드셋은 또한, 제2 VAD 값만에 기초하여, 음성 정보가 노이즈 신호인지를 결정할 수 있다.

음성 활동 검출은 제1 음성 성분 및 제2 음성 성분에 대해 별개로 수행된다. 음성 정보가 노이즈 신호인 것으로 블루투스 헤드셋이 결정할 때, 블루투스 헤드셋은 음성 정보를 폐기할 수 있다. 음성 정보가 노이즈 신호가 아닌 것으로 블루투스 헤드셋이 결정하는 경우, 블루투스 헤드셋은 다음 단계들 S404 내지 S407을 계속 수행할 수 있다. 즉, 사용자가 블루투스 헤드셋에 유효한 음성 정보를 입력할 때만, 블루투스 헤드셋이 트리거되어 성문 식별과 같은 후속 프로세스를 수행한다. 이는 블루투스 헤드셋의 전력 소비를 감소시킨다.

또한, 제1 음성 성분 및 제2 음성 성분에 각각 대응하는 제1 VAD 값 및 제2 VAD 값을 획득한 후, 블루투스 헤드셋은 추가로, 노이즈 추정 알고리즘(예컨대, 최소 통계 알고리즘 또는 최소 제어 재귀적 평균화 알고리즘)을 이용하여 음성 정보의 노이즈 값을 별개로 측정할 수 있다. 예컨대, 블루투스 헤드셋은 노이즈 값을 저장하기 위해 특별히 사용되는 저장 공간을 세팅할 수 있고, 새로운 노이즈 값을 계산한 이후마다, 블루투스 헤드셋은 새로운 노이즈 값을 저장 공간에 업데이트할 수 있다. 즉, 가장 최근에 계산된 노이즈 값이 저장 공간에 항상 저장된다.

이러한 방식으로, VAD 알고리즘을 이용함으로써, 음성 정보가 유효한 음성 정보인 것으로 결정한 후, 블루투스 헤드셋은 저장 공간의 노이즈 값을 이용함으로써 제1 음성 성분 및 제2 음성 성분에 대해 별개로 노이즈 감소 프로세싱을 수행할 수 있어서, 후속 블루투스 헤드셋(또는 모바일 폰)이 제1 음성 성분 및 제2 음성 성분에 대해 별개로 성문 인식을 수행할 때 획득되는 인식 결과들이 더 정확하게 한다.

S404: 블루투스 헤드셋은 블루투스 연결을 사용함으로써 제1 음성 성분 및 제2 음성 성분을 모바일 폰에 전송한다.

제1 음성 성분 및 제2 음성 성분을 획득한 후, 블루투스 헤드셋은 제1 음성 성분 및 제2 음성 성분을 모바일 폰으로 전송할 수 있다. 이후, 모바일 폰은 사용자에 의해 입력된 음성 정보에 대한 성문 인식 및 사용자 아이덴티티 인증과 같은 동작들을 구현하기 위해 다음 단계들 S705 내지 S707을 수행한다.

S405: 모바일 폰은 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행한다.

하나 이상의 인가된 사용자들의 성문 모델들이 모바일 폰에 미리 저장될 수 있다. 각각의 인가된 사용자는 2개의 성문 모델들을 갖는데, 하나는 공기 전도 마이크로폰(즉, 제1 음성 센서)이 작동할 때 수집된 사용자의 음성 특징에 기초하여 설정된 제1 성문 모델이고, 다른 하나는 골전도 마이크로폰(즉, 제2 음성 센서)이 작동할 때 수집된 사용자의 음성 특징에 기초하여 설정된 제2 성문 모델이다.

제1 성문 모델 및 제2 성문 모델을 설정하기 위한 2개의 페이즈들이 존재한다. 제1 페이즈는 백그라운드 모델 트레이닝 페이즈이다. 제1 페이즈에서, 개발자는 블루투스 헤드셋을 착용한 대량의 화자들이 사운드를 낼 때 생성되는 관련 텍스트들(예컨대, "Hello, Xiao E")의 음성들을 수집할 수 있다. 추가로, 관련 텍스트들의 음성들에 대해 필터링 및 노이즈 감소를 수행한 후, 모바일 폰은 백그라운드 사운드에서 오디오 특징(예컨대, 시간-주파수 노이즈 스펙트럼 그래프 또는 감마톤-유사 스펙트로그램)을 추출할 수 있고, 성문 인식의 백그라운드 모델은 GMM(gaussian mixed model, Gaussian mixture model), SVM(support vector machines, support vector machine) 또는 딥 뉴럴 네트워크 프레임워크와 같은 기계 학습 알고리즘을 사용함으로써 설정된다. 모바일 폰 또는 블루투스 헤드셋은 사용자에 의해 입력된 등록 음성 및 백그라운드 모델에 기초하여, 사용자에게 속하는 제1 성문 모델 및 제2 성문 모델을 설정할 수 있다. 딥 뉴럴 네트워크 프레임워크는 DNN(딥 뉴럴 네트워크, deep neural network) 알고리즘, RNN(회귀 뉴럴 네트워크, recurrent neural network) 알고리즘, LSTM(장단기 메모리, long short-term memory) 알고리즘 등을 포함(그러나 이에 제한되지 않음)한다.

제2 페이즈는 사용자가 처음으로 모바일 폰 상의 음성 제어 기능을 사용할 때, 등록 음성을 입력함으로써 사용자에게 속한 제1 성문 모델 및 제2 성문 모델이 설정되는 프로세스이다. 예컨대, 인가된 사용자 1이 모바일 폰 상에 설치된 음성 보조 앱을 처음으로 사용할 때, 음성 보조 앱은 사용자에게, 블루투스 헤드셋을 착용하고 등록 음성 "Hello, Xiao E"를 발언하도록 촉구할 수 있다. 마찬가지로, 블루투스 헤드셋은 공기 전도 마이크로폰 및 골전도 마이크로폰을 포함하기 때문에, 블루투스 헤드셋은 공기 전도 마이크로폰을 사용하여 수집된 제1 등록 성분 및 골전도 마이크로폰을 사용하여 수집된 제2 등록 성분을 획득할 수 있으며, 이들은 등록 음성에 있다. 또한, 블루투스 헤드셋이 제1 등록 성분 및 제2 등록 성분을 모바일 폰으로 전송한 후, 모바일 폰은 제1 등록 성분 및 제2 등록 성분에서 사용자 1의 오디오 특징을 별개로 추출하고, 사용자 1의 오디오 특징을 백그라운드 모델에 추가로 입력할 수 있다. 이러한 방식으로, 사용자 1의 제1 성문 모델 및 제2 성문 모델이 획득된다. 모바일 폰은 인가된 사용자 1의 제1 성문 모델 및 제2 성문 모델을 로컬로 저장할 수 있거나, 저장을 위해 인가된 사용자 1의 제1 성문 모델 및 제2 성문 모델을 블루투스 헤드셋으로 전송할 수 있다.

또한, 인가된 사용자 1의 제1 성문 모델 및 제2 성문 모델이 설정될 때, 모바일 폰은 추가로, 인가된 블루투스 디바이스로서 현재 모바일 폰에 연결된 블루투스 헤드셋을 사용할 수 있다. 예컨대, 모바일 폰은 인가된 블루투스 디바이스의 식별자(예컨대, 블루투스 헤드셋의 MAC 어드레스)를 로컬로 저장할 수 있다. 이러한 방식으로, 모바일 폰은 인가된 블루투스 디바이스에 의해 전송된 관련된 동작 명령을 수신 및 실행할 수 있으며, 비인가 블루투스 디바이스가 모바일 폰으로 동작 명령을 전송할 때, 모바일 폰은 보안을 개선하도록 동작 명령을 폐기할 수 있다. 하나의 모바일 폰이 하나 이상의 인가된 블루투스 디바이스들을 관리할 수 있다. 도 7(a)에 도시된 바와 같이, 사용자는 세팅 기능으로부터 성문 인식 기능의 세팅 스크린(701)에 액세스할 수 있고, 세팅 버튼(705)을 클릭한 후, 사용자는 도 7(b)에 도시된 인가된 디바이스의 관리 스크린(706)에 액세스할 수 있다. 사용자는 인가된 디바이스의 관리 스크린(806) 상에서 인가된 블루투스 디바이스를 추가하거나 삭제할 수 있다.

단계 S405에서, 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 획득한 후, 모바일 폰은 제1 음성 성분 및 제2 음성 성분 각각의 오디오 특징을 별개로 추출하고, 그 후, 인가된 사용자 1의 제1 성문 모델을 제1 음성 성분의 오디오 특징과 매칭시키고, 인가된 사용자 1의 제2 성문 모델을 제2 음성 성분의 오디오 특징과 매칭시킨다. 예컨대, 모바일 폰은 특정 알고리즘을 이용함으로써, 제1 성문 모델과 제1 음성 성분 간의 제1 매칭 정도(즉, 제1 성문 인식 결과), 및 제2 성문 모델과 제2 음성 성분 간의 제2 매칭 정도(즉, 제2 성문 인식 결과)를 계산할 수 있다. 일반적으로, 더 높은 매칭 정도는 음성 정보의 오디오 특징과 인가된 사용자 1의 오디오 특징 간의 더 강한 유사성, 및 음성 정보를 입력하는 사용자가 인가된 사용자 1일 더 높은 가능성을 표시한다.

모바일 폰이 복수의 인가된 사용자들의 성문 모델들을 저장하는 경우, 모바일 폰은 추가로, 전술한 방법에 따라, 제1 음성 성분과 다른 인가된 사용자(예컨대, 인가된 사용자 2 또는 인가된 사용자 3) 간의 제1 매칭 정도, 및 제2 음성 성분과 다른 인가된 사용자 간의 제2 매칭 정도를 하나씩 계산할 수 있다. 또한, 블루투스 헤드셋은 현재 발성 사용자로서 최고 매칭 정도를 갖는 인가된 사용자(예컨대, 인가된 사용자 A)를 결정할 수 있다.

또한, 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 수행하기 전에, 모바일 폰은 추가로, 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식이 수행될 필요가 있는지를 미리 결정할 수 있다. 예컨대, 블루투스 헤드셋 또는 모바일 폰이 사용자에 의해 입력된 음성 정보로부터 미리 설정된 키워드 예컨대, 사용자 프라이버시 또는 자금 행동(fund behavior)과 관련된 키워드 이를테면, "transfer", "payment", "**bank", 또는 "chat record"를 식별할 수 있는 경우, 이는, 이 때 음성을 통해 모바일 폰을 제어하기 위한 사용자의 보안 요건이 상대적으로 높다는 것을 표시한다. 따라서, 모바일 폰은 단계 S405, 즉 성문 인식을 수행할 수 있다. 다른 예로, 블루투스 헤드셋이, 사용자에 의해 수행되고 성문 인식 기능을 인에이블링하는 데 사용되는 미리 설정된 동작, 예컨대, 블루투스 헤드셋을 태핑(tapping)하거나 볼륨 + 버튼 및 볼륨 ― 버튼을 동시에 누르는 동작을 수신하는 경우, 이는 이 때 사용자가 성문 인식을 통해 사용자 아이덴티티를 검증할 필요가 있다는 것을 표시한다. 따라서, 블루투스 헤드셋은 S405 단계를 수행하도록, 즉 성문 인식을 수행하도록 모바일 폰에 지시할 수 있다.

대안적으로, 상이한 보안 레벨들에 대응하는 키워드들이 모바일 폰 상에 미리 설정될 수 있다. 예컨대, 최고 보안 레벨의 키워드는 "pay", "payment" 등을 포함하고, 상대적으로 높은 보안 레벨의 키워드는 "photographing", "calling" 등을 포함하고, 최저 보안 레벨의 키워드는 "listening to a song", "navigation" 등을 포함한다.

이러한 방식으로, 수집된 음성 정보가 최고 보안 레벨의 키워드를 포함하는 것으로 검출될 때, 모바일 폰은 제1 음성 성분 및 제2 음성 성분에 대해 별개로 성문 인식을 수행하여 즉, 2개의 수집된 음성 소스들 둘 모두에 대해 성문 인식을 수행하여 모바일 폰을 제어하는 음성의 보안을 개선하도록 트리거될 수 있다. 수집된 음성 정보가 상대적으로 높은 보안 레벨의 키워드를 포함하는 것으로 검출될 때, 이 때 사용자가 모바일 폰을 제어하는 음성의 보안 요건은 중간이기 때문에, 모바일 폰은 단지 제1 음성 성분 또는 제2 음성 성분에 대해서만 성문 인식을 수행하도록 트리거될 수 있다. 수집된 음성 정보가 최저 보안 레벨의 키워드를 포함하는 것으로 검출될 때, 모바일 폰은 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 수행할 필요가 없다.

확실히, 블루투스 헤드셋에 의해 수집된 음성 정보가 키워드를 포함하지 않는 경우, 이는, 이 때 수집된 음성 정보는 단지 정상적인 대화 동안 사용자에 의해 전송된 음성 정보일 수 있다는 것을 표시한다. 따라서, 모바일 폰은 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 수행할 필요가 없다. 이는 모바일 폰의 전력 소비를 감소시킨다.

대안적으로, 모바일 폰은 추가로, 모바일 폰을 웨이크 업(wake up)시키고 성문 인식 기능을 인에이블링하도록 하나 이상의 웨이크-업 단어들을 미리 설정할 수 있다. 예컨대, 웨이크-업 단어는 "Hello, Xiao E"일 수 있다. 사용자가 블루투스 헤드셋에 음성 정보를 입력한 후, 블루투스 헤드셋 또는 모바일 폰은 음성 정보가 웨이크-업 단어를 포함하는 웨이크-업 음성인지를 식별할 수 있다. 예컨대, 블루투스 헤드셋은 수집된 음성 정보의 제1 음성 성분 및 제2 음성 성분을 모바일 폰으로 전송할 수 있다. 음성 정보가 웨이크-업 단어를 포함한다는 것을 모바일 폰이 추가로 식별하는 경우, 모바일 폰은 성문 인식 기능을 인에이블링할 수 있다(예컨대, 성문 인식 칩의 파워 온(power on). 후속적으로, 블루투스 헤드셋에 의해 수집된 음성 정보가 키워드를 포함하는 경우, 모바일 폰은 인에이블링된 성문 인식 기능을 이용함으로써 단계 S405의 방법에 따른 성문 인식을 수행할 수 있다.

다른 예로, 음성 정보를 수집한 후, 블루투스 헤드셋은 추가로, 음성 정보가 웨이크-업 단어를 포함하는지를 식별할 수 있다. 음성 정보가 웨이크-업 단어를 포함하는 경우, 이는, 사용자가 후속적으로 성문 식별 기능을 사용할 필요가 있을 수 있음을 표시한다. 이 경우에, 블루투스 헤드셋은 인에이블링 명령을 모바일 폰으로 전송하여서, 모바일 폰은 인에이블링 명령에 응답하여 성문 식별 기능을 인에이블링할 수 있다.

S406: 모바일 폰은 제1 성문 인식 결과 및 제2 성문 인식 결과에 기초하여 사용자 아이덴티티 인증을 수행한다.

단계 S706에서, 성문 인식을 통해, 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득한 후, 모바일 폰은 2개의 성문 인식 결과들에 기초하여, 음성 정보를 입력하는 사용자에 대한 아이덴티티 인증을 수행할 수 있다. 따라서, 사용자 아이덴티티 인증의 정확도 및 보안이 개선된다.

예컨대, 인가된 사용자의 제1 성문 모델과 제1 음성 성분 간의 제1 매칭 정도는 제1 성문 인식 결과이고, 인가된 사용자의 제2 성문 모델과 제2 음성 성분 간의 제2 매칭 정도는 제2 성문 인식 결과이다. 사용자 아이덴티티 인증 시에, 제1 매칭 정도 및 제2 매칭 정도가 미리 설정된 인증 정책을 충족하는 경우, 예컨대, 인증 정책은 제1 매칭 정도가 제1 임계치보다 크고 제2 매칭 정도가 제2 임계치보다 클 경우(제2 임계치는 제1 임계치와 동일하거나 상이함), 모바일 폰은 제1 음성 성분과 제2 음성 성분을 전송하는 사용자가 인가된 사용자인 것으로 결정하거나, 또는 그렇지 않으면, 모바일 폰은 제1 음성 성분과 제2 음성 성분을 전송하는 사용자가 비인가 사용자인 것으로 결정할 수 있다.

다른 예로, 모바일 폰은 제1 매칭 정도 및 제2 매칭 정도의 가중 평균값을 계산할 수 있다. 가중 평균값이 미리 설정된 임계치보다 클 때, 모바일 폰은 제1 음성 성분과 제2 음성 성분을 전송하는 사용자가 인가된 사용자인 것으로 결정할 수 있거나, 또는 그렇지 않으면, 모바일 폰은 제1 음성 성분과 제2 음성 성분을 전송하는 사용자가 비인가 사용자인 것으로 결정할 수 있다.

대안적으로, 모바일 폰은 상이한 성문 인식 시나리오들에서 상이한 인증 정책들을 사용할 수 있다. 예컨대, 수집된 음성 정보가 최고 보안 레벨의 키워드를 포함할 때, 모바일 폰은 제1 임계치와 제2 임계치 둘 모두를 99 점으로 세팅할 수 있다. 이러한 방식으로, 제1 매칭 정도 및 제2 매칭 정도 둘 모두가 99 점을 초과할 때만, 모바일 폰은 현재 발성 사용자가 인가된 사용자인 것으로 결정한다. 수집된 음성 정보가 상대적으로 낮은 보안 레벨의 키워드를 포함할 때, 모바일 폰은 제1 임계치 및 제2 임계치 둘 모두를 85 점으로 세팅할 수 있다. 이러한 방식으로, 제1 매칭 정도 및 제2 매칭 정도 둘 모두가 85 점을 초과할 때, 모바일 폰은 현재 발성 사용자가 인가된 사용자인 것으로 결정할 수 있다. 즉, 상이한 보안 레벨들의 성문 인식 시나리오들에 대해, 모바일 폰은 상이한 보안 레벨들의 인증 정책들을 사용하여 사용자 아이덴티티 인증을 수행할 수 있다.

게다가, 모바일 폰이 복수의 인가된 사용자들의 성문 모델들을 저장하는 경우, 예컨대, 모바일 폰은 인가된 사용자 A, 인가된 사용자 B 및 인가된 사용자 C의 성문 모델들을 저장하고, 각각의 인가된 사용자의 성문 모델은 제1 음성 모델 및 제2 음성 모델을 포함한다. 이 경우에, 모바일 폰은 전술한 방법에 따라, 수집된 제1 음성 성분 및 수집된 제2 음성 성분을 각각의 인가된 사용자의 성문 모델과 별개로 매칭시킬 수 있다. 또한, 모바일 폰은, 현재 발성 사용자로서 인증 정책을 충족시키고 최고 매칭 정도를 갖는 인가된 사용자(예컨대, 인가된 사용자 A)를 결정할 수 있다.

이 출원의 일부 다른 실시예들에서, 인가된 사용자의 것이고 모바일 폰 상에 저장되는 성문 모델은 대안적으로, 모바일 폰이 등록 음성의 제1 등록 성분 및 제2 등록 성분을 결합한 후에 설정될 수 있다. 이 경우에, 각각의 인가된 사용자는 성문 모델을 갖고, 성문 모델은 음성이 공중을 통해 송신될 때 인가된 사용자의 음성의 오디오 특징을 반영할 수 있고, 음성이 뼈를 통해 송신될 때 인가된 사용자의 음성의 오디오 특징을 또한 반영할 수 있다.

이러한 방식으로, 블루투스 헤드셋에 의해 전송된 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 수신한 후, 모바일 폰은 제1 음성 성분 및 제2 음성 성분을 결합한 후 성문 인식을 수행할 수 있는데, 예컨대, 모바일 폰은 인가된 사용자의 성문 모델과 제1 음성 성분 및 제2 음성 성분의 조합 간의 매칭 정도를 계산한다. 또한, 모바일 폰은 또한 매칭 정도에 기초하여 사용자 아이덴티티 인증을 수행할 수 있다. 이 아이덴티티 인증 방법에 따르면, 인가된 사용자의 성문 모델은 하나의 성문 모델로 결합된다. 따라서, 성문 모델의 복잡성 및 요구된 저장 공간은 상응하게 감소된다. 또한, 제2 음성 성분의 성문 특징에 관한 정보가 사용되기 때문에, 이중 성문 보증 및 활성 검출 기능(liveness detection function)이 또한 제공된다.

S407: 사용자가 인가된 사용자인 경우, 모바일 폰은 음성 정보에 대응하는 동작 명령을 실행한다.

단계 S406의 인증 프로세스를 통해, 단계 S402에서 음성 정보를 입력한 발성 사용자가 인가된 사용자인 것으로 모바일 폰이 결정하는 경우, 모바일 폰은 음성 정보에 대응하는 동작 명령을 생성할 수 있다. 예컨대, 음성 정보가 "Xiao E, pay by using WeChat"일 때, 음성 정보에 대응하는 동작 명령은 WeChat 앱의 결제 스크린을 디스플레이한다. 이러한 방식으로, WeChat 앱 상에 결제 스크린을 디스플레이하기 위한 동작 명령을 생성한 후, 모바일 폰은 자동으로, WeChat 앱을 인에이블링하고 WeChat 앱 상에 결제 스크린을 디스플레이할 수 있다.

또한, 사용자가 인가된 사용자인 것으로 모바일 폰이 결정하기 때문에, 도 5에 도시된 바와 같이, 모바일 폰이 현재 잠금 상태에 있는 경우, 모바일 폰은 추가로, 먼저 스크린을 잠금 해제(unlock)하고, 그 후 WeChat 앱 상에 결제 스크린(501)을 디스플레이하기 위해 WeChat 앱 상에 결제 스크린을 디스플레이하기 위한 동작 명령을 실행할 수 있다.

예컨대, 단계들 S401 내지 S407에서 제공되는 음성 제어 방법은 음성 보조 앱에 의해 제공되는 기능일 수 있다. 블루투스 헤드셋이 모바일 폰과 상호작용할 때, 성문 인식을 통해 현재 발성 사용자가 인가된 사용자인 것으로 결정하는 경우, 모바일 폰은 데이터 이를테면, 생성된 동작 명령 또는 음성 정보를 애플리케이션 층에서 실행중인 음성 보조 앱으로 전송할 수 있다. 또한, 음성 보조 앱은 음성 정보에 대응하는 동작 명령을 실행하도록 애플리케이션 프레임워크 층에서 관련된 인터페이스 또는 서비스를 호출한다.

본 출원의 이 실시예에서 제공되는 음성 제어 방법에 따르면, 모바일 폰은 성문을 사용함으로써, 사용자 아이덴티티를 식별하면서, 잠금 해제되고 음성 정보에 대응하는 동작 명령을 실행할 수 있다는 것을 알 수 있다. 즉, 사용자는, 사용자 아이덴티티 인증, 모바일 폰 잠금 해제, 및 모바일 폰 기능의 인에이블링과 같은 일련의 동작들을 완료하기 위해 음성 정보를 단 한 번만 입력할 필요가 있다. 이는 및 사용자 경험 및 모바일 폰에 대한 사용자의 제어 효율성을 크게 개선한다.

단계들 S401 내지 S407에서, 모바일 폰은 성문 인식 및 사용자 아이덴티티 인증과 같은 동작들을 수행하기 위한 실행 주체로서 사용된다. 단계들 S401 내지 S407 중 일부 또는 전부가 또한 블루투스 헤드셋에 의해 완료될 수 있다는 것이 이해될 수 있다. 이는, 모바일 폰의 구현 복잡성 및 모바일 폰의 전력 소비를 감소시킬 수 있다. 도 6에 도시된 바와 같이, 음성 제어 방법은 다음의 단계들을 포함할 수 있다.

S601: 모바일 폰은 블루투스 헤드셋에 대한 블루투스 연결을 설정한다.

S602(선택적) : 블루투스 헤드셋은 블루투스 헤드셋이 착용 상태인지를 검출한다.

S603: 착용 상태에 있는 경우, 블루투스 헤드셋은 제1 음성 센서를 이용함으로써, 사용자에 의해 입력된 음성 정보에서 제1 음성 성분을 수집하고, 제2 음성 센서를 이용함으로써 음성 정보에서 제2 음성 성분을 수집한다.

블루투스 헤드셋과 모바일 폰 사이에 블루투스 연결을 설정하고, 블루투스 헤드셋이 착용 상태에 있는지를 검출하고, 음성 정보에서 제1 음성 성분 및 제2 음성 성분을 검출하기 위한 구체적인 방법 단계들 S601 내지 S603에 대해서는 단계들 S401 내지 S403의 관련된 설명들을 참조한다. 세부사항들은 여기서 설명되지 않는다.

제1 음성 성분 및 제2 음성 성분을 획득한 후, 블루투스 헤드셋은 추가로, 검출된 제1 음성 성분 및 검출된 제2 음성 성분에 대해 VAD 검출, 노이즈 감소 또는 필터링과 같은 동작들을 수행할 수 있다는 것이 주의되어야 한다. 이는 본 출원의 실시예들에서 제한되지 않는다.

본 출원의 일부 실시예들에서, 블루투스 헤드셋은 오디오 재생 기능을 갖기 때문에, 블루투스 헤드셋의 스피커가 작동중일 때, 블루투스 헤드셋의 공기 전도 마이크로폰 및 골전도 마이크로폰은 스피커에 의해 재생되는 음원의 에코 신호를 수신할 수 있다. 따라서, 블루투스 헤드셋은 제1 음성 성분 및 제2 음성 성분을 획득한 후, 블루투스 헤드셋은 추가로, 후속 성문 인식의 정확도를 개선하기 위해, 에코 소거 알고리즘(예컨대, AEC(adaptive echo cancellation))을 사용함으로써 제1 음성 성분 및 제2 음성 성분 각각에서 에코 신호를 소거할 수 있다.

S604: 블루투스 헤드셋은 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 제1 음성 성분 및 제2 음성 성분에 대한 성문 인식을 별개로 수행한다.

단계들 S401 내지 S407과 달리, 단계 S604에서. 블루투스 헤드셋은 하나 이상의 인가된 사용자들의 성문 모델들을 미리 저장할 수 있다. 이러한 방식으로, 제1 음성 성분 및 제2 음성 성분을 획득한 후, 블루투스 헤드셋은 블루투스 헤드셋 상에 로컬로 저장된 성문 모델들을 이용함으로써 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 수행할 수 있다. 블루투스 헤드셋에 의해 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 별개로 수행하기 위한 구체적인 방법에 대해서는 단계 S405에서 모바일 폰에 의해 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 별개로 수행하기 위한 구체적인 방법을 참조한다. 세부사항들은 여기서 설명되지 않는다.

S605: 블루투스 헤드셋은 제1 성문 인식 결과 및 제2 성문 인식 결과에 기초하여 사용자 아이덴티티 인증을 수행한다.

블루투스 헤드셋이 제1 성문 인식 결과 및 제2 성문 인식 결과에 기초하여 사용자 아이덴티티 인증을 수행하는 프로세스에 대해서는, 제1 성문 인식 결과 및 제2 성문 인식 결과에 기초하여 모바일 폰이 사용자 아이덴티티 인증을 수행하는 단계 S406의 관련된 설명들을 참조한다. 세부사항들은 여기서 설명되지 않는다.

S606: 사용자가 인가된 사용자인 경우, 블루투스 헤드셋은 블루투스 연결을 사용함으로써 음성 정보에 대응하는 동작 명령을 모바일 폰으로 전송한다.

S607: 모바일 폰은 동작 명령을 실행한다.

음성 정보를 입력한 발성 사용자가 인가된 사용자인 것으로 블루투스 헤드셋이 결정하는 경우, 블루투스 헤드셋은 음성 정보에 대응하는 동작 명령을 생성할 수 있다. 예컨대, 음성 정보가 "Xiao E, pay by using WeChat"일 때, 음성 정보에 대응하는 동작 명령은 WeChat 앱의 결제 스크린을 디스플레이한다. 이러한 방식으로, 블루투스 헤드셋은 설정된 블루투스 연결을 사용함으로써 WeChat 앱 상에 결제 스크린을 디스플레이하기 위한 동작 명령을 모바일 폰으로 전송할 수 있다. 도 5에 도시된 바와 같이, 동작 명령을 수신한 이후, 모바일 폰은 자동으로 WeChat 앱을 인에이블링하고 WeChat 앱 상에 결제 스크린(501)을 디스플레이할 수 있다.

또한, 사용자가 인가된 사용자인 것으로 블루투스 헤드셋이 결정하기 때문에, 모바일 폰이 잠금 상태에 있을 때, 블루투스 헤드셋은 추가로, 사용자 아이덴티티 인증의 성공 메시지 또는 잠금 해제 명령을 모바일 폰으로 전송하여서, 모바일 폰은 먼저 스크린을 잠금 해제하고, 그 후 음성 정보에 대응하는 동작 명령을 실행할 수 있다. 확실히, 블루투스 헤드셋은 또한 수집된 음성 정보를 모바일 폰으로 전송할 수 있고, 모바일 폰은 음성 정보에 기초하여 대응하는 동작 명령을 생성하고 동작 명령을 실행한다.

본 출원의 일부 실시예들에서, 음성 정보 또는 대응하는 동작 명령을 모바일 폰으로 전송할 때, 블루투스 헤드셋은 추가로, 블루투스 헤드셋의 디바이스 식별자(예컨대, MAC 어드레스)를 모바일 폰으로 전송할 수 있다. 모바일 폰은 인증을 통과한 인가된 블루투스 디바이스의 식별자를 저장하기 때문에, 모바일 폰은 수신된 디바이스 식별자에 기초하여, 현재 연결된 블루투스 헤드셋이 인가된 블루투스 디바이스인지를 결정할 수 있다. 블루투스 헤드셋이 인가된 블루투스 디바이스인 경우, 모바일 폰은 추가로, 블루투스 헤드셋에 의해 전송된 동작 명령을 실행하거나 블루투스 헤드셋에 의해 전송된 음성 정보에 대한 음성 인식과 같은 동작을 수행할 수 있거나; 그렇지 않으면, 모바일 폰은 블루투스 헤드셋에 의해 전송된 동작 명령을 폐기할 수 있다. 이는, 비인가 블루투스 디바이스에 의한 모바일 폰의 악의적인 제어에 의해 야기되는 보안 문제를 회피할 수 있다.

대안적으로, 모바일 폰 및 인가된 블루투스 디바이스는 패스워드 또는 동작 명령을 송신하기 위한 패스워드 또는 패스워드에 대해 사전 합의할 수 있다. 이러한 방식으로, 음성 정보 또는 대응하는 동작 명령을 모바일 폰으로 전송할 때, 블루투스 헤드셋은 추가로, 사전 합의된 패스워드 또는 패스워드를 모바일 폰으로 전송할 수 있어서, 모바일 폰은 현재 연결된 블루투스 헤드셋이 인가된 블루투스 디바이스인지를 결정한다.

대안적으로, 모바일 폰 및 인가된 블루투스 디바이스는 동작 명령을 전송하는 데 사용되는 암호화 알고리즘 및 복호화 알고리즘에 대해 사전 협의할 수 있다. 이러한 방식으로, 음성 정보 또는 대응하는 동작 명령을 모바일 폰으로 전송하기 전에, 블루투스 헤드셋은 협의된 암호화 알고리즘을 사용함으로써 동작 명령을 암호화할 수 있다. 암호화된 동작 명령을 수신한 후, 모바일 폰이 협의된 복호화 알고리즘을 사용함으로써 동작 명령을 복호화할 수 있는 경우, 이는 현재 연결된 블루투스 헤드셋이 인가된 블루투스 디바이스이고 모바일 폰은 추가로, 블루투스 헤드셋에 의해 전송된 동작 명령을 실행할 수 있음을 표시하거나; 또는 그렇지 않으면, 현재 연결된 블루투스 헤드셋이 비인가 블루투스 디바이스임을 표시하고, 모바일 폰은 블루투스 헤드셋에 의해 전송된 동작 명령을 폐기할 수 있다.

단계들 S401 내지 S407 및 단계들 S601 내지 S607은 단지 본 출원에서 제공되는 음성 제어 방법의 2개의 구현들일뿐이라는 점이 주의되어야 한다. 당업자는 실제 응용 시나리오 또는 실제 경험에 기초하여, 전술한 실시예들에서 어떤 단계들이 블루투스 헤드셋에 의해 수행될지 그리고 어떤 단계들이 모바일 폰에 의해 수행될지를 세팅할 수 있다는 것이 이해될 수 있다. 이는 본 출원의 실시예들에서 제한되지 않는다.

예컨대, 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식을 수행한 후, 블루투스 헤드셋은 또한 획득된 제1 성문 인식 결과 및 획득된 제2 성문 인식 결과를 모바일 폰으로 전송할 수 있고, 후속적으로, 모바일 폰은 성문 인식 결과에 기초하여 사용자 아이덴티티 인증과 같은 동작을 수행한다.

다른 예로, 제1 음성 성분 및 제2 음성 성분을 획득한 후, 블루투스 헤드셋은, 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식이 수행될 필요가 있는지를 미리 결정할 수 있다. 제1 음성 성분 및 제2 음성 성분에 대해 성문 인식이 수행될 필요가 있는 경우, 블루투스 헤드셋은 제1 음성 성분 및 제2 음성 성분을 모바일 폰으로 전송할 수 있어서, 모바일 폰이 성문 인식 및 사용자 아이덴티티 인증과 같은 후속 동작들을 완료하게 하거나; 또는 그렇지 않으면, 블루투스 헤드셋이 제1 음성 성분 및 제2 음성 성분을 모바일 폰으로 전송할 필요가 없다. 이는 제1 음성 성분 및 제2 음성 성분을 프로세싱하기 위해 모바일 폰의 전력 소비를 증가시키는 것을 회피한다.

또한, 도 7(a)에 도시된 바와 같이, 사용자는 추가로 모바일 폰의 세팅 스크린(701)에 액세스하여 음성 제어 기능을 인에이블링 또는 디스에이블링할 수 있다. 사용자가 음성 제어 기능을 인에이블링하는 경우, 사용자는 세팅 버튼(702)을 이용함으로써, 음성 제어 기능을 실행하기 위한 키워드 예컨대, "Xiao E" 또는 "Pay"를 세팅할 수 있거나, 또는 사용자는 세팅 버튼(703)을 이용함으로써, 인가된 사용자의 성문 모델을 관리할 수 있는데 예컨대, 인가된 사용자의 성문 모델을 추가 또는 삭제할 수 있거나, 또는 사용자는 세팅 버튼(704)을 이용함으로써, 음성 보조에 의해 지원될 수 있는 동작 명령(예컨대, 결제, 전화 걸기, 식사 주문)을 세팅할 수 있다. 이러한 방식으로 사용자는 맞춤식 음성 제어 경험을 획득할 수 있다.

본 출원의 일부 실시예들에서, 본 출원의 실시예는 단말을 개시한다. 도 8에 도시된 바와 같이, 단말은 전술한 방법 실시예들에서 레코딩된 방법들을 구현하도록 구성되고, 단말은 연결 유닛(801), 획득 유닛(802), 인식 유닛(803), 인증 유닛(804) 및 실행 유닛(805)을 포함한다. 연결 유닛(801)은 도 4의 프로세스 S401 및 도 6의 프로세스 S601을 수행하는 데 있어 단말을 지원하도록 구성된다. 획득 유닛(802)은 도 4의 프로세스 S404 및 도 6의 프로세스 S606을 수행하는 데 있어 단말을 지원한다. 인식 유닛(803)은 도 4의 프로세스 S405를 수행하는 데 있어 단말을 지원하도록 구성된다. 인증 유닛(804)은 도 4의 프로세스 S406을 수행하는 데 있어 단말을 지원하도록 구성된다. 실행 유닛(805)은 도 4의 프로세스 S407 및 도 6의 프로세스 S607을 수행할 시에 단말을 지원하도록 구성된다. 전술한 방법 실시예들의 단계들의 모든 관련 내용은 대응하는 기능 모듈들의 기능 설명들에 인용될 수 있다. 세부사항들은 여기서 설명되지 않는다.

본 출원의 일부 실시예들에서, 본 출원의 실시예는 웨어러블 디바이스를 개시한다. 도 9에 도시된 바와 같이, 웨어러블 디바이스는 전술한 방법 실시예들에서 레코딩된 방법들을 구현하도록 구성되고, 웨어러블 디바이스는 연결 유닛(901), 검출 유닛(902), 전송 유닛(903), 인식 유닛(904) 및 인증 유닛(905)을 포함한다. 연결 유닛(801)은 도 4의 프로세스 S401 및 도 6의 프로세스 S601을 수행하는 데 있어 단말을 지원하도록 구성된다. 검출 유닛(902)은 도 4의 프로세스들 S402 및 S403 및 도 6의 프로세스들 S602 및 S603을 수행하는 데 있어 단말을 지원하도록 구성된다. 인식 유닛(904)은 도 6의 프로세스 S604를 수행하는 데 있어 단말을 지원하도록 구성된다. 인증 유닛(905)은 도 6의 프로세스 S605을 수행하는 데 있어 단말을 지원하도록 구성된다. 전송 유닛(903)은 도 4의 프로세스 S404 및 도 6의 프로세스 S606을 수행할 시에 단말을 지원하도록 구성된다. 전술한 방법 실시예들의 단계들의 모든 관련 내용은 대응하는 기능 모듈들의 기능 설명들에 인용될 수 있다. 세부사항들은 여기서 설명되지 않는다.

본 출원의 일부 다른 실시예들에서, 본 출원의 실시예는 단말을 개시한다. 도 10에 도시된 바와 같이, 단말은 터치스크린(1001)을 포함할 수 있으며, 여기서 터치스크린(1001)은 터치-감지 표면(1006) 및 디스플레이 스크린(1007), 하나 이상의 프로세서들(1002), 메모리(1003), 하나 이상의 애플리케이션들(도시되지 않음) 및 하나 이상의 컴퓨터 프로그램들(1004)을 포함한다. 전술한 구성요소들은 하나 이상의 통신 버스들(1005)을 사용하여 연결될 수 있다. 하나 이상의 컴퓨터 프로그램들(1004)은 메모리(1003)에 저장되고 하나 이상의 프로세서들(1002)에 의해 실행되도록 구성된다. 하나 이상의 컴퓨터 프로그램들(1004)은 명령을 포함한다. 명령은 도 4, 도 6 및 대응하는 실시예들의 단계들을 수행하는 데 사용될 수 있다.

구현들에 관한 전술한 설명들은, 편리하고 간단한 설명을 위해, 전술한 기능 모듈들의 분할이 예시를 위한 예로서 취해진 것이라는 것을 당업자가 이해할 수 있게 한다. 실제 응용에 있어서, 전술한 기능들은 상이한 모듈들에 할당되어 요건에 따라 구현될 수 있는데 즉, 장치의 내부 구조는 위에서 설명된 기능들 중 일부 또는 전부를 구현하도록 상이한 기능 모듈들로 분할된다. 전술한 시스템, 장치 및 유닛의 상세한 작업 프로세스에 대해서는 전술한 방법 실시예들의 대응하는 프로세스를 참조하고, 세부사항들이 여기서 재차 설명되지 않는다.

본 출원의 실시예들에서의 기능 유닛들은 하나의 프로세싱 유닛에 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛들이 하나의 유닛에 통합된다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 또는 소프트웨어 기능 유닛의 형태로 구현될 수 있다.

통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용될 때, 통합 유닛은 컴퓨터-판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본질적으로 본 출원의 실시예들의 기술적 솔루션들, 또는 종래 기술에 기여하는 부분, 또는 기술적 솔루션들 중 일부 또는 전부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품이 저장 매체에 저장되고, 본 출원의 실시예들에서 설명된 방법들의 단계들 중 일부 또는 전부를 수행하도록 컴퓨터 디바이스(이는 개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있음)에 지시하기 위한 여러 명령들을 포함한다. 전술한 저장 매체는, 플래시 메모리, 제거 가능 하드 디스크, 판독-전용 메모리, 랜덤 액세스 메모리, 자기 디스크 또는 광학 디스크와 같이 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

전술한 설명들은 단지 본 출원의 실시예들의 특정 구현들일 뿐이며, 본 출원의 실시예들의 보호 범위를 제한하려는 것은 아니다. 본 출원의 실시예들에서 개시된 기술적 범위 내의 임의의 변형 또는 대체는 본 출원의 실시예들의 보호 범위 내에 속한다. 따라서, 본 출원의 실시예들의 보호 범위는 청구범위의 보호 범위에 종속되어야 한다.

Claims

음성 제어 방법으로서,
발성 사용자(voicing user)가 웨어러블 디바이스에 음성 정보를 입력할 때, 단말에 의해, 상기 음성 정보가 미리 설정된 키워드를 포함하는지 또는 상기 사용자에 의해 입력된 미리 설정된 동작이 수신되는지 결정하는 단계 ― 상기 미리 설정된 키워드 및 상기 미리 설정된 동작 각각은 복수의 보안 레벨 중 하나를 표시함 ― ;
상기 미리 설정된 키워드 또는 상기 미리 설정된 동작에 의해 표시되는 상기 보안 레벨이 임계치 이상이라고 결정되면, 상기 단말에 의해, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 표시된 보안 레벨에 대응하는 아이덴티티 인증(identity authentication)을 수행하는 단계 ― 상기 웨어러블 디바이스는 상기 단말과 통신 가능하게 연결되고, 상기 제1 음성 성분은 상기 웨어러블 디바이스의 제1 음성 센서에 의해 수집되고, 상기 제2 음성 성분은 상기 웨어러블 디바이스의 제2 음성 센서에 의해 수집됨 ― ; 및
상기 단말에 의해 상기 발성 사용자에 대해 수행된 아이덴티티 인증의 결과가 상기 발성 사용자가 인가된 사용자라는 것인 경우, 상기 단말에 의해, 상기 음성 정보에 대응하는 동작 명령을 실행하는 단계를 포함하는,
음성 제어 방법.
제1항에 있어서,
상기 단말에 의해, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 표시된 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 방법은,
상기 단말에 의해, 상기 웨어러블 디바이스로부터 상기 제1 성문 인식 결과 및 상기 제2 성문 인식 결과를 획득하는 단계를 더 포함하고,
상기 제1 성문 인식 결과는 상기 웨어러블 디바이스가 상기 제1 음성 성분에 대해 성문 인식을 수행한 후에 획득되고, 상기 제2 성문 인식 결과는 상기 웨어러블 디바이스가 상기 제2 음성 성분에 대해 성문 인식을 수행한 후에 획득되는,
음성 제어 방법.
제1 항에 있어서,
상기 단말에 의해, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 표시된 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 방법은,
상기 단말에 의해, 상기 웨어러블 디바이스로부터 상기 제1 음성 성분 및 상기 제2 음성 성분을 획득하는 단계; 및
상기 단말에 의해, 상기 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 상기 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 상기 제1 음성 성분 및 상기 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계를 더 포함하는,
음성 제어 방법.
삭제
제3 항에 있어서,
상기 단말에 의해, 상기 제1 음성 성분 및 상기 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 단계는,
상기 단말에 의해, 상기 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계 ― 상기 제1 성문 모델은 상기 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 상기 제1 음성 센서에 의해 수집됨 ― ; 및
상기 단말에 의해, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계― 상기 제2 성문 모델은 상기 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 상기 제2 음성 센서에 의해 수집됨 ―를 포함하고;
상기 단말에 의해, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하는 단계는,
상기 제1 음성 성분이 상기 인가된 사용자의 제1 성문 모델과 매칭하고, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는 경우, 상기 단말에 의해, 상기 발성 사용자가 인가된 사용자임을 결정하는 단계, 또는 그렇지 않으면, 상기 단말에 의해, 상기 발성 사용자가 비인가 사용자임을 결정하는 단계를 포함하는,
음성 제어 방법.
제5 항에 있어서,
상기 단말에 의해, 상기 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 단계는,
상기 단말에 의해, 상기 제1 음성 성분과 상기 인가된 사용자의 제1 성문 모델 간의 제1 매칭 정도를 계산하는 단계; 및
상기 제1 매칭 정도가 제1 임계치보다 큰 경우, 상기 단말에 의해, 상기 제1 음성 성분이 상기 인가된 사용자의 제1 성문 모델과 매칭한다고 결정하는 단계를 포함하고;
상기 단말에 의해, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 단계는,
상기 단말에 의해, 상기 제2 음성 성분과 상기 인가된 사용자의 제2 성문 모델 간의 제2 매칭 정도를 계산하는 단계; 및
상기 제2 매칭 정도가 제2 임계치보다 큰 경우, 상기 단말에 의해, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭한다고 결정하는 단계를 포함하는,
음성 제어 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 단말에 의해, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 방법은,
상기 단말에 의해, 상기 웨어러블 디바이스에 의해 전송된 인에이블링 명령(enabling instruction)을 획득하는 단계 ― 상기 인에이블링 명령은 상기 사용자에 의해 입력된 웨이크-업 음성에 응답하여 상기 웨어러블 디바이스에 의해 생성됨 ― ; 및
상기 단말에 의해, 상기 인에이블링 명령에 응답하여 성문 인식 기능을 인에이블링하는 단계를 더 포함하는,
음성 제어 방법.
제3 항에 있어서,
상기 단말에 의해, 상기 웨어러블 디바이스로부터 상기 제1 음성 성분 및 상기 제2 음성 성분을 획득한 후에, 상기 방법은,
상기 단말에 의해, 상기 제1 음성 성분 및 상기 제2 음성 성분에 기초하여 상기 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는지를 결정하는 단계; 및
상기 단말에 의해, 상기 음성 정보가 상기 미리 설정된 웨이크-업 단어를 포함하는 경우, 성문 인식 기능을 인에이블링하는 단계를 더 포함하는,
음성 제어 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 발성 사용자가 인가된 사용자인 경우, 상기 방법은,
상기 단말에 의해, 잠금 해제 동작(unlock operation)을 자동으로 실행하는 단계를 더 포함하는,
음성 제어 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 단말에 의해, 상기 음성 정보에 대응하는 동작 명령을 실행하기 전에, 상기 방법은,
상기 단말에 의해, 상기 웨어러블 디바이스의 디바이스 식별자를 획득하는 단계를 더 포함하고;
상기 단말에 의해, 상기 음성 정보에 대응하는 동작 명령을 실행하는 단계는,
상기 웨어러블 디바이스의 디바이스 식별자가 미리 설정된 인가된 디바이스 식별자인 경우, 상기 단말에 의해, 상기 음성 정보에 대응하는 동작 명령을 실행하는 단계를 포함하는,
음성 제어 방법.
단말로서,
터치스크린 ― 상기 터치스크린은 터치-감지 표면 및 디스플레이를 포함함 ― ;
하나 이상의 프로세서;
하나 이상의 메모리; 및
하나 이상의 컴퓨터 프로그램을 포함하고,
상기 하나 이상의 컴퓨터 프로그램은 상기 하나 이상의 메모리에 저장되고, 상기 하나 이상의 컴퓨터 프로그램은 명령어를 포함하며, 상기 명령어가 상기 단말에 의해 실행될 때, 상기 단말은,
발성 사용자가 웨어러블 디바이스에 음성 정보를 입력할 때, 상기 음성 정보가 미리 설정된 키워드를 포함하는지 또는 상기 사용자에 의해 입력된 미리 설정된 동작이 수신되는지 결정하는 단계 ― 상기 미리 설정된 키워드 및 상기 미리 설정된 동작 각각은 복수의 보안 레벨 중 하나를 표시함 ― ;
상기 미리 설정된 키워드 또는 상기 미리 설정된 동작에 의해 표시되는 상기 보안 레벨이 임계치 이상이라고 결정되면, 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하는 단계 ― 상기 웨어러블 디바이스는 상기 단말과 통신 가능하게 연결되고, 상기 제1 음성 성분은 상기 웨어러블 디바이스의 제1 음성 센서에 의해 수집되고, 상기 제2 음성 성분은 상기 웨어러블 디바이스의 제2 음성 센서에 의해 수집됨 ― ; 및
상기 발성 사용자에 대해 수행된 아이덴티티 인증의 결과가 상기 발성 사용자가 인가된 사용자라는 것인 경우, 상기 음성 정보에 대응하는 동작 명령을 실행하는 단계를 수행하도록 인에이블링되는,
단말.
제11 항에 있어서,
상기 단말이 상기 음성 정보에서 상기 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 상기 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 단말은 추가로,
상기 웨어러블 디바이스로부터 제1 성문 인식 결과 및 제2 성문 인식 결과를 획득하도록 구성되고,
상기 제1 성문 인식 결과는 상기 웨어러블 디바이스가 상기 제1 음성 성분에 대해 성문 인식을 수행한 후에 획득되고, 상기 제2 성문 인식 결과는 상기 웨어러블 디바이스가 상기 제2 음성 성분에 대해 성문 인식을 수행한 후에 획득되는,
단말.
제11 항에 있어서,
상기 단말이 상기 음성 정보에서 상기 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 상기 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 단말은 추가로,
상기 웨어러블 디바이스로부터 상기 제1 음성 성분 및 상기 제2 음성 성분을 획득하고; 그리고
상기 제1 음성 성분에 대응하는 제1 성문 인식 결과 및 상기 제2 음성 성분에 대응하는 제2 성문 인식 결과를 획득하도록 상기 제1 음성 성분 및 상기 제2 음성 성분에 대한 성문 인식을 별개로 수행하도록 구성되는,
단말.
삭제
제13 항에 있어서,
상기 단말이 상기 제1 음성 성분 및 상기 제2 음성 성분에 대한 성문 인식을 별개로 수행하는 것은, 구체적으로
상기 단말에 의해, 상기 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 것 ― 상기 제1 성문 모델은 상기 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 상기 제1 음성 센서에 의해 수집됨 ― ; 그리고
상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 것 ― 상기 제2 성문 모델은 상기 인가된 사용자의 것인 오디오 특징을 반영하는데 사용되며, 상기 제2 음성 센서에 의해 수집됨 ―을 포함하고;
상기 단말이 상기 음성 정보에서 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하는 것은, 구체적으로
상기 제1 음성 성분이 상기 인가된 사용자의 제1 성문 모델과 매칭하고, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는 경우, 상기 발성 사용자가 인가된 사용자임을 결정하는 것, 또는 그렇지 않으면, 상기 발성 사용자가 비인가 사용자임을 결정하는 것을 포함하는,
단말.
제15 항에 있어서,
상기 단말에 의해, 상기 제1 음성 성분이 인가된 사용자의 제1 성문 모델과 매칭하는지를 결정하는 것은, 구체적으로
상기 제1 음성 성분과 상기 인가된 사용자의 제1 성문 모델 간의 제1 매칭 정도를 계산하는 것; 그리고
상기 제1 매칭 정도가 제1 임계치보다 큰 경우, 상기 제1 음성 성분이 상기 인가된 사용자의 제1 성문 모델과 매칭한다고 결정하는 것을 포함하고;
상기 단말에 의해, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭하는지를 결정하는 것은, 구체적으로
상기 제2 음성 성분과 상기 인가된 사용자의 제2 성문 모델 간의 제2 매칭 정도를 계산하는 것; 그리고
상기 제2 매칭 정도가 제2 임계치보다 큰 경우, 상기 제2 음성 성분이 상기 인가된 사용자의 제2 성문 모델과 매칭한다고 결정하는 것을 포함하는,
단말.
제11 항 내지 제13 항 중 어느 한 항에 있어서,
상기 단말이 상기 음성 정보에서 상기 제1 음성 성분의 제1 성문 인식 결과 또는 상기 음성 정보에서 상기 제2 음성 성분의 제2 성문 인식 결과 중 적어도 하나에 기초하여 상기 발성 사용자에 대한 상기 보안 레벨에 대응하는 아이덴티티 인증을 수행하기 전에, 상기 단말은 추가로,
상기 웨어러블 디바이스에 의해 전송된 인에이블링 명령을 획득하고 ― 상기 인에이블링 명령은 상기 사용자에 의해 입력된 웨이크-업 음성에 응답하여 상기 웨어러블 디바이스에 의해 생성됨 ― ; 그리고
상기 인에이블링 명령에 응답하여 성문 인식 기능을 인에이블링하도록 구성되는,
단말.
제13 항에 있어서,
상기 단말이 상기 웨어러블 디바이스로부터 상기 제1 음성 성분 및 상기 제2 음성 성분을 획득한 후에, 상기 단말은, 추가로
상기 제1 음성 성분 및 상기 제2 음성 성분에 기초하여 상기 음성 정보가 미리 설정된 웨이크-업 단어를 포함하는지를 결정하고; 그리고
상기 음성 정보가 상기 미리 설정된 웨이크-업 단어를 포함하는 경우, 성문 인식 기능을 인에이블링하도록 구성되는,
단말.
제11 항 내지 제13 항 중 어느 한 항에 있어서,
상기 발성 사용자가 인가된 사용자인 경우, 상기 단말은, 추가로
잠금 해제 동작을 자동으로 실행하도록 구성되는,
단말.
제11 항 내지 제13 항 중 어느 한 항에 있어서,
상기 단말이 상기 음성 정보에 대응하는 동작 명령을 실행하기 전에, 상기 단말은, 추가로
상기 웨어러블 디바이스의 디바이스 식별자를 획득하도록 구성되고;
상기 단말에 의해, 상기 음성 정보에 대응하는 동작 명령을 실행하는 것은, 구체적으로
상기 웨어러블 디바이스의 디바이스 식별자가 미리 설정된 인가된 디바이스 식별자인 경우, 상기 음성 정보에 대응하는 동작 명령을 실행하는 것을 포함하는,
단말.
컴퓨터-판독 가능 저장 매체로서,
상기 컴퓨터-판독 가능 저장 매체는 명령어를 저장하고, 상기 명령어가 단말 상에서 실행될 때, 상기 단말은 제1 항 내지 제3 항 중 어느 한 항에 따른 음성 제어 방법을 수행하도록 인에이블링되는,
컴퓨터-판독 가능 저장 매체.
삭제