KR20180034507A - 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템 - Google Patents

사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20180034507A
KR20180034507A KR1020187005014A KR20187005014A KR20180034507A KR 20180034507 A KR20180034507 A KR 20180034507A KR 1020187005014 A KR1020187005014 A KR 1020187005014A KR 20187005014 A KR20187005014 A KR 20187005014A KR 20180034507 A KR20180034507 A KR 20180034507A
Authority
KR
South Korea
Prior art keywords
user
model
voice
voice information
segment
Prior art date
Application number
KR1020187005014A
Other languages
English (en)
Other versions
KR102250460B1 (ko
Inventor
칭 링
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20180034507A publication Critical patent/KR20180034507A/ko
Application granted granted Critical
Publication of KR102250460B1 publication Critical patent/KR102250460B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

본 출원은 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템을 개시한다. 사용자 성문 모델을 구축하기 위한 방법은, 사용자에 의해 입력된 음성 정보를 수신하는 단계; 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하는 단계; 상기 판단 결과가 예스인 경우, 음성 정보로부터, 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계; 및 음성 세그먼트를 사용함으로써 사용자에 대한 성문 모델을 구축하는 단계를 포함한다. 본 출원에 의해 제공되는 기술적 해결책이 적용되는 경우, 사용자의 음성이 수신될 수 있는 임의의 애플리케이션 시나리오에서, 사용자 성문 모델의 구축은 자동으로 완료될 수 있고, 따라서 사용자에 의한 사용을 용이하게 할 수 있다.

Description

사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
본 출원은 2015년 7월 23일자에 출원되고, 발명의 명칭이 "사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템"인 중국 특허 출원 제201510438382.0호의 우선권을 주장하며, 그 전체가 본 명세서에 참조로 포함된다.
본 출원은 컴퓨터 애플리케이션 기술 분야에 관한 것으로서, 특히 사용자 성문(voiceprint) 모델을 구축하기 위한 방법, 장치 및 시스템에 관한 것이다.
성문은 생체 특징(feature) 중 하나이다. 성문 인식은 화자(speaker)의 음성 및 행동 특성에 따라 화자의 신원을 자동으로 인식하기 위한 생체 인식 방법이다. 성문 인식에 의해 제공되는 보안은 다른 생체 인식 기술(예를 들어, 지문 및 홍채)에 의해 제공되는 보안과 비슷하며, 이것은 음성 수집 장치를 구현하기 위해 다른 특수 장치가 아닌 전화/휴대폰 또는 마이크만 사용할 필요가 있다. 성문 인식 방법은 음성 언어, 방언 또는 억양과는 관련이 없으며, 어떠한 프라이버시 문제도 수반하지 않으며, 널리 적용된다. 소리 신호(sound signal)는 원격 전송 및 획득이 편리하며, 성문 인식 방법은 전기통신 및 네트워크를 기반으로 하는 신원 인식 애플리케이션에서 특히 유리하다.
성문 인식은 주로 두 단계를 포함한다. 제 1 단계는 사용자가 음성의 세그먼트를 시스템에 미리 기록할 필요가 있는 등록 단계이며, 시스템은 등록된 음성으로부터 추출된 성문 특징을 이용하여 사용자에 대한 성문 모델을 구축한다. 제 2 단계는 시스템 프롬프트에 따라 사용자가 지정된 음성 세그먼트를 말하는 적용 단계이며, 시스템은 사용자의 음성을 자동으로 기록하고, 성문 특징을 추출하고, 새로 추출된 성문 특징 및 사전 구축된 성문 모델에 대해 매칭 작업을 수행하며, 두 개의 매칭 정도에 따라 현재 사용자의 신원을 인식한다.
컴퓨터와 인터넷 기술의 발달로, 성문 인식은, 예를 들어, 스마트 단말기 애플리케이션, 자동 전화 서비스 시스템 등과 같은 사람들의 일상생활에 점차적으로 침투해왔다. 등록이 전체 성문 인식 프로세스에서 필수 단계임을 상기 설명으로부터 알 수 있다. 그러나 등록 단계는 사용자들에게 특히 중년 및 노인과 같이 새로운 기술에 민감하지 않은 특수 그룹의 사용자들에게 어느 정도 불편을 가져다줄 것이며, 심지어 성문을 성공적으로 등록할 수 있는지 여부의 문제도 있다. 또한, 일부 경우에, 시스템의 보안 또는 견고성을 향상시키기 위해, 사용자가 등록 중에 여러 음성 세그먼트를 기록하도록 요구될 수 있으며, 이것은 사용자에게 사용의 어려움을 더욱 증가시킬 것이다.
본 출원은 성문 인식 시스템을 사용하는 어려움을 줄이기 위해 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템을 제공한다. 기술적 해결책은 다음과 같다:
본 출원은 사용자 성문 모델을 구축하기 위한 방법을 제공하며, 상기 방법은:
사용자에 의해 입력된 음성 정보를 수신하는 단계;
모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하는 단계;
상기 판단 결과가 예스(yes)인 경우, 음성 정보로부터, 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계; 및
음성 세그먼트를 사용하여 사용자에 대한 성문 모델을 구축하는 단계를 포함하는 방법.
본 출원은 성문 기반 사용자 신원 확인 방법을 제공하며, 상기 방법은:
사용자에 의해 입력된 음성 정보를 수신하는 단계;
확인 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하는 단계;
상기 판단 결과가 예스인 경우, 음성 정보로부터, 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계;
음성 세그먼트의 성문 특징을 추출하는 단계; 및
성문 특징 및 사용자의 사전 구축된 성문 모델을 사용하여 사용자의 신원을 확인하는 단계를 포함하는 방법.
본 출원은 사용자 성문 모델을 구축하기 위한 장치를 제공하며, 상기 장치는:
사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈;
모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하도록 구성된 모델링 키워드 판단 모듈;
상기 판단 결과가 예스인 경우, 음성 정보로부터, 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처도록 구성된 음성 세그먼트 캡처 모듈; 및
음성 세그먼트를 사용하여 사용자에 대한 성문 모델을 구축하도록 구성된 성문 모델 구축 모듈을 포함하는 장치.
본 출원은 성문 기반 사용자 신원 확인 장치를 제공하며, 상기 장치는:
사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈;
확인 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하도록 구성된 확인 키워드 판단 모듈;
상기 판단 결과가 예스인 경우, 음성 정보로부터, 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하도록 구성된 음성 세그먼트 캡처 모듈;
음성 세그먼트의 성문 특징을 추출하도록 구성된 성문 특징 추출 모듈; 및
성문 특징 및 사용자의 사전 구축된 성문 모델을 사용하여 사용자의 신원을 확인하도록 구성된 확인 모듈을 포함하는 장치.
본 출원은 성문 기반 사용자 신원 확인 시스템을 제공하고, 상기 시스템은 상술한 바와 같이 사용자 성문 모델을 구축하기 위한 장치 및 사용자 신원 확인 장치를 포함한다.
본 출원의 실시예들에 의해 제공되는 사용자 성문 모델을 구축하기 위한 방법을 적용함으로써, 이론적으로 사용자 성문 모델은 사용자의 음성이 수신될 수 있는 임의의 애플리케이션 시나리오에서 자동으로 구축될 수 있다. 여기에서 음성 정보의 수신은 사용자가 다른 기능들을 구현하는데 필요한 작업일 수 있으며, 의도적으로 성문 정보 등록 작업을 실행할 필요가 없으므로 사용자에 의한 사용을 용이하게 한다.
따라서, 신원 확인을 요구하는 애플리케이션 시나리오에서, 사용자의 음성 정보가 획득될 수 있고 음성 정보가 이전에 성문 모델을 구축한 키워드를 포함하면, 성문을 사용하여 신원 확인을 자동으로 수행함으로써 다른 확인 방식의 복잡한 작업을 생략할 수 있다. 또한, 사용자가 확인 프로세스에서 의도적으로 확인 패스워드를 말할 필요가 없다.
위의 일반적인 설명 및 이하의 상세한 설명은 단지 예시적이고 설명적인 것이며, 본 출원을 제한할 수 없다는 것을 이해해야 한다.
종래 기술 또는 본 출원의 실시예들의 기술적 해결책을 보다 명확하게 설명하기 위해, 이하에서는 실시예들 또는 종래 기술을 설명하기 위해 요구되는 첨부 도면을 간단히 소개한다. 명백하게, 이하에 설명되는 첨부 도면은 본 출원에 기록된 일부 실시예들에 불과하며, 당업자는 여전히 이들 첨부 도면으로부터 다른 도면을 도출할 수 있다.
도 1은 본 출원에 따른 사용자 성문 모델을 구축하기 위한 방법의 개략적인 흐름도이다.
도 2는 본 출원에 따른 사용자 신원 확인 방법의 개략적인 흐름도이다.
도 3은 본 출원에 따른 사용자 성문 모델을 구축하기 위한 장치의 개략적인 구조도이다.
도 4는 본 출원에 따른 사용자 신원 확인 장치의 개략적인 구조도이다.
도 5는 본 출원에 따른 사용자 신원 확인 시스템의 개략적인 구조도이다.
음성은 인간 사이의 의사 소통을 위한 중요한 매개체이다. 음성 인식과 같은 기술이 급속하게 발전함에 따라, 사용자는 이미 음성 입력 및 음성 제어와 같은, 다양한 시나리오에서 음성으로 컴퓨터와 통신할 수 있었다. 즉, 컴퓨터의 관점에서, 사용자 음성 정보를 수집할 수 있는 많은 기회가 있다. 또한, 사용자의 전화 메시지 및 실시간 전화 기록으로부터 사용자의 음성 정보를 수집할 수 있다. 이러한 실제 상황에 기초하여, 본 출원은 사용자에 대한 어떠한 추가적인 등록 작업도 추가하지 않으면서 사용자의 음성을 수집할 수 있는 임의의 시나리오에서 사용자의 성문 모델링을 구현할 수 있는 해결책을 제공함으로써, 성문 등록 작업이 복잡하다는 종래의 문제점을 해결할 수 있다.
성문 인식은 텍스트 종속적 성문 인식 및 텍스트 독립적 성문 인식을 포함한다. 텍스트 종속적 성문 인식 시스템은 사용자에게 등록 동안 지정된 내용에 따라 발음하도록 요구한다. 각 사용자의 성문 모델이 정확하게 확립된다. 또한, 사용자는 인식 동안 지정된 내용에 따라 발음해야 한다. 모든 사용자의 성문 모델이 "표준"이므로 원하는 인식 효과를 달성할 수 있다. 그러나 시스템은 사용자의 협조를 요구하고, 사용자의 발음이 특정 내용에 대해 확인되지 않으면, 사용자를 정확하게 인식할 수 없다. 이론적으로, 텍스트 독립적 인식 시스템은 화자의 발음 내용을 명시할 수 없다. 그러나 모델을 확립하는 것이 상대적으로 어려우며, 실제 적용 중에 이상적인 인식 효과를 달성할 수 없다.
인식 효과를 보장하기 위해, 본 출원에서 제공된 해결책은 "텍스트 종속적" 성문 인식 기술을 위해 제안되고, 그 다음, 해결되어야 할 문제점은: 사용자에 대한 추가적인 작업을 증가시키지 않고 사용자가 "지정된 내용"을 말하도록 하는 방법이다.
이 해결책을 구현하는 동안, 발명자는: 특정 애플리케이션 시나리오에서, 사용자가 시나리오와 관련된 키워드를 말할 확률이 매우 높다는 것을 발견한다. 예를 들어, 사용자가 음성(예를 들어, 전화 또는 음성 메시지와 같은 방식으로)을 사용하여 제품 상담을 수행하는 경우, 사용자는 이름, 모델, 기능, 부분 및 정상 실패와 같은 제품의 키워드 중 하나 이상을 거의 불가피하게 말할 수 있다. 사용자가 음성 제어 작업을 수행할 때, 많은 음성 제어 명령들이 또한 사전 정의되고, 다양한 유사한 시나리오들이 존재한다. 이러한 실제 상황에 기초하여, 성문 인식이 적용되는 상이한 시나리오에 대해, 이러한 시나리오에 나타나는 하나 이상의 고 빈도 키워드에 대해 미리 통계를 작성할 수 있고, 고 빈도 키워드는 "지정된 내용"으로 정의될 수 있다. 이러한 방식으로, 사용자가 음성 상호 작용 중에 이러한 키워드를 말하면 시스템은 사용자에 대한 성문 모델링을 구현할 수 있다.
당업자가 본 출원의 기술적 해결책을 더 잘 이해할 수 있도록 하기 위해, 본 출원의 실시예들에서의 기술적 해결책은 본 출원의 실시예들에서의 첨부 도면을 통해 상세히 설명될 것이다. 명백하게, 설명된 실시예들은 단지 본 출원의 실시예들의 일부이며, 모든 실시예가 아니다. 본 출원의 실시예들에 기초하여, 당업자에 의해 도출된 모든 다른 실시예들은 모두 본 출원의 보호 범위 내에 있다.
도 1에 도시된 바와 같이, 본 출원에 따른 사용자 성문 모델을 구축하기 위한 방법의 흐름도가 도시되어 있으며, 이 방법은 다음의 단계들을 포함할 수 있다:
S101: 사용자에 의해 입력된 음성 정보를 수신한다;
S102: 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단한다;
S103: 판단 결과가 예스라면, 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 음성 정보로부터 캡처한다; 및
S104: 음성 세그먼트를 사용하여 사용자에 대한 성문 모델을 구축한다.
상기 해결책은 다음에서 더 상세하게 설명될 것이다:
이론적으로, 본 출원의 해결책은 음성 입력, 음성 제어 및 전화 메시지와 같은 사용자의 음성이 수집될 수 있는 임의의 시나리오에서 구현될 수 있다. 당연히, 실제 적용 중에, 다음 요소를 더 고려해야 한다: 시나리오가 성문 인식 요구 사항을 가지고 있는지 여부, 현재 말하는 사용자의 신원을 결정할 수 있는지 여부, 사용자의 음성 길이(계산 복잡도를 포함), 키워드를 포함하는 음성 세그먼트를 효과적으로 수집할 수 있는지 여부(수집 효율성) 등.
통상적인 애플리케이션 시나리오는, 예를 들어, 대화형 음성 응답(Interactive Voice Response, IVR) 시스템에서 "한 문장으로 문제를 설명한다"이다. 시스템은 호출자 ID 또는 사용자가 수동으로 입력한 확인 정보 수단 또는 다른 방식에 따라, 사용자의 신원을 확인할 수 있다. "한 문장"의 음성 길이는 후속 처리에 적합하다. 또한, 사용자는 많은 특정 서비스 시나리오에서 일부 키워드를 말할 가능성이 크다. 예를 들어, 온라인 거래 시나리오에서, 관련 키워드로는 주문, 수령, 배송, 금액 등이 있다. 은행 및 결제와 같은 시나리오에서, 관련 키워드로는 전송, 잔액, 계좌, 패스워드 등이 있다.
또한, 사용자가 개인 단말기를 사용하는 경우, 운영 체제 계층 또는 다양한 특정 애플리케이션 계층에서 사용되는 다양한 음성 제어 명령 모두가 성문 모델링 중에 음성 정보 수집을 위해 사용될 수 있다. 첫째, 사용자는 단말기를 개인 소지품으로 사용할 때 다양한 확인 작업을 수행할 수 있다. 예를 들어, 휴대 전화를 잠금 해제하거나 일부 특정 애플리케이션을 시작할 때 사용자는 제스처 또는 숫자 패스워드를 입력하도록 요구될 수 있으므로, 사용자 신원 확인 요구 사항을 먼저 충족시킬 수 있다. 또한, 운영 체제 또는 특정 애플리케이션에 의해 사용되는 음성 제어 명령은 너무 길지 않으며, 그 중 대부분은 사전 정의되어 있다. 예를 들어, Android 휴대 전화의 음성 상호 작용 기능은 "OK Google" 또는 "OK Google Now" 음성 명령을 사용하여 트리거된다. 이러한 키워드 모두는 사용자 성문 모델링을 구현하는 데 사용될 수 있다.
계산 복잡도에 대한 요구 사항이 그다지 크지 않으면, 수동 응답 플랫폼에 실제로 액세스된 사용자 통화가 기록될 수 있고, 수동 응답 플랫폼의 음성 및 사용자의 음성은 오디오 특성에 따라 구별되어, 후속 단계에서 사용자의 음성 부분만 분석된다. 이러한 방식으로, 키워드를 포함하는 음성 세그먼트는 길고 완전한 사용자 통화로부터 보다 효과적으로 수집될 수 있다.
당연히, 상기의 몇몇 애플리케이션 시나리오는 단지 예시를 위해 사용된 것이고, 본 출원의 해결책에 대한 제한으로 이해되어서는 안 된다.
S101에 따르면, 사용자의 음성 정보는 임의의 애플리케이션 시나리오에서 수신될 수 있다. 당연히, 최종 요구 사항은 성문 모델링을 구현하는 것이므로, 다른 방식(예를 들어, 사용자 ID, 확인 패스워드, 제스처, 지문 등)으로 먼저 현재 화자의 신원을 확인할 필요가 있다.
S102에서, 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단한다. 여기서, 하나 이상의 키워드는 실제 요구 사항에 따라 사전 설정될 수 있다. 여러 개의 키워드를 사전 설정하는 것은 다음과 같은 점에서 유리하다: 한편으로는 성공적인 모델링 확률이 향상될 수 있는 것인데 즉, 사용자가 여러 개의 키워드 중 적어도 하나를 말하면 성문 모델링을 구현할 수 있다는 것이고, 다른 한편으로는 보안 요구 사항이 높은 일부 애플리케이션 시나리오에서 확인을 위해 여러 개의 성문 세그먼트를 함께 사용하는 것이 요구될 수 있다는 것이다.
이 단계에서, 사전 설정된 키워드가 음성 정보에 포함되는지 여부는, 음성 인식 관련 기술을 사용하여 결정될 필요가 있다. 음성 인식 시스템의 모델은 일반적으로 음향 모델 및 언어 모델을 포함하는 두 개의 부분을 포함하며, 각각은 음성으로부터 음절로의 확률의 계산 및 음절로부터 단어로의 확률의 계산에 대응한다. 본 출원의 해결책의 실제 요구 사항에 따르면, 음성 정보에 대한 인식은 다음 두 가지 관점에서 구현될 수 있다:
a) 음향 특징 사용:
인간 언어는 모두 일련의 연속적인 음절로 구성되며, 연속적인 소리 정보는 음절 흐름으로 지칭된다. 음향의 관점에서, 음절 흐름은 몇 개의 독립적인 음절로 분할될 수 있다. 또한, 각각의 발음 음절에는 고정된 오디오 특징이 있다. 음성 인식 기술은 두 가지 측면에 기반을 두고 음향 모델을 확립하여 음절 흐름에 대해 단어 세그먼트화를 구현한다. 그러나 본 출원에서, 기술은 사용자 음성 정보에 대한 인식을 구현하기 위해 직접 사용될 수 있으며, 특정 해결책은 다음의 단계를 포함한다:
적어도 하나의 음성 세그먼트를 획득하기 위해 음향 모델을 사용하여 음성 정보를 분할하는 단계; 및
획득된 음성 세그먼트 또는 이들의 조합이 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 오디오 특징과 매칭하는지 여부를 판단하고, 만약 예스라면, 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는 것으로 결정하는 단계.
예를 들어, 사전 설정된 키워드는 전송, 잔액, 계좌 및 패스워드를 포함하며, 시스템은 네 개의 키워드의 오디오 데이터 또는 오디오 특징 데이터를 사전 저장해야 한다. 사용자의 수신된 음성이 "잔액 조회"인 경우, 몇몇 음성 세그먼트(여기서는 논의되지 않은 상이한 분할 알고리즘에 따라 특정 분할 결과는 상이할 수 있음)가 먼저 음향 모델로 분할되어 획득될 수 있으며, 비교시 이들 세그먼트 또는 세그먼트의 조합이 "잔액" 오디오 특징과 매칭하는 부분을 포함한다는 것을 알 수 있다. 그러므로 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는 것으로 결정할 수 있다.
b) 언어 특징 사용:
텍스트 단어 세그먼트화는 자연 언어 처리 기술 분야에 속한다. 순수 음향 레벨에서의 단어 세그먼트화와 비교할 때, 텍스트 단어 세그먼트화 기술은 보다 성숙되어 더 양호한 효과를 갖는다. 또한, 동일한 발음이 여러 종류의 텍스트에 대응할 수 있으므로, 매칭 동안 텍스트 내용을 직접 비교함으로써 더 양호한 효과가 달성될 수 있음을 이해할 수 있다. 본 출원에서, 사용자 음성 정보의 인식은 음성 인식 기술과 텍스트 단어 세그먼트화 기술의 조합을 직접 사용하여 구현될 수 있다. 특정 해결책은 다음 단계들을 포함한다:
대응하는 텍스트 정보를 획득하기 위해 음성 정보에 대해 음성 인식을 수행하는 단계;
적어도 하나의 텍스트 세그먼트를 획득하기 위해 언어 모델을 사용하여 텍스트 정보를 분할하는 단계; 및
획득된 텍스트 세그먼트 또는 이들의 조합이 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 텍스트 내용과 일치하는지 여부를 판단하고, 만약 예스라면, 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는 것으로 결정하는 단계.
상기 두 가지 해결책에 따르면, 당업자는 실제 요구 사항에 따라 유연하게 선택을 할 수 있다. 예를 들어, 상이한 언어의 특성에 따르면, 서양 언어(예를 들어, 영어 및 프랑스어)의 각 단어는 비교적 완전한 의미를 갖지만, 중국어의 각 문자에는 이러한 특성이 없다. 그러므로 음향 특징만을 사용하는 처리 방식은 현재 서양 언어를 처리하는 데 더 적합하다. 중국어는 언어 특징을 참조하여 처리되도록 제안된다. 당연히, 본 출원은 음성 인식 알고리즘 또는 단어 세그먼트화 알고리즘에 중점을 둔 것이 아니라, 임의의 기술적 수단이 대응하는 요구 사항을 만족시킬 수 있는 한 본 출원에 적용될 수 있다는 것을 알아야 한다.
S102에서 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 사용자 음성 정보에 포함되어있는 것으로 확인되면, S103에서 대응하는 음성 세그먼트는 음성 정보로부터 추가로 캡처될 것이다. S102에서 음성 세그먼트에 기초하여 판단이 수행되면, 음성 세그먼트는 음성 세그먼트의 매칭 결과에 따라 직접 캡처된다. S102에서 텍스트 세그먼트에 기초하여 판단이 수행되면, 음성 세그먼트는 텍스트 세그먼트의 매칭 결과로부터 역으로 추론함으로써 획득된 대응하는 음성 세그먼트의 위치에 따라 캡처된다. 예를 들어, 사용자가 "나는 계좌의 잔액을 확인하고 싶다"라고 말했고, 여기서 "계좌" 및 "잔액"은 모델링 요구 사항을 충족시키는 사전 설정된 키워드이다. 전체 음성 정보에서 두 단어의 상대 위치는 S102의 처리 절차에 따라 결정될 수 있으며, 그 다음 두 단어 "계좌" 및 "잔액"의 오디오 세그먼트가 캡처된다.
S104에서, S103에서 캡처된 오디오 세그먼트를 사용하여 성문 모델링이 수행된다. 특정 모델링 방법은 본 출원과 관련이 없으므로, 여기서는 상세히 설명하지 않는다. 마지막으로, 모델링 결과는 S101에서 결정된 화자 신원 식별자와 연관되어 저장되어 사용자의 성문 모델 라이브러리를 형성한다.
상기 방법을 적용함으로써, 사용자가 다른 음성 기능을 사용할 때, 성문 모델링은 "부수적으로" 수행될 수 있으며, 따라서 사용자에 의한 사용을 용이하게 한다. 또한 "키워드"를 사용하는 것은, "텍스트 종속적" 모델링 요구 사항을 충족시키고 높은 모델링 성공률을 보장할 수 있다.
또한, 상기 방법은 처음으로 성문 정보의 등록에 적용되는 것 외에도 성문 모델의 업데이트에도 또한 적용될 수 있다. 특정 업데이트 전략은 다음 두 가지 관점에서 고려될 수 있다:
1) 모델 개선:
성문 모델을 구축하는 상기 절차는 여러 개의 기본 키워드를 지원하며, 사용자는 한 번의 음성 상호 작용 동안 반드시 모든 키워드를 말할 수 있는 것은 아니다. 그러나 사용자의 음성 상호 작용은 정상적인 행동이므로, 처음으로 성문 모델의 구축이 완료된 이후에, 사용자와의 후속 상호 작용 절차에서 사용자의 음성 정보를 다시 수집할 수 있다. 새롭게 수집된 음성 정보가 이전 모델에 포함되지 않은 키워드를 포함하면, 새로운 키워드가 기존의 성문 모델을 보완하기 위해 사용될 수 있다.
구체적으로, 특정 사용자에 대해, 사용자의 성문 모델이 현재 존재한다고 가정하면, S102에서, "모델링 요구 사항을 충족시키는 사전 설정된 키워드"는 "사용자의 현재 성문 모델에 포함되지 않은 사전 설정된 키워드"로 또한 정의될 수 있다.
예를 들어, 시스템에 의해 지정된 키워드는: "전송", "잔액", "계좌" 및 "패스워드"를 포함한다. 사용자 X가 처음으로 성문 정보를 등록할 때, "계좌" 및 "잔액"이라는 두 개의 키워드에 대한 성문 모델이 각각 사용자에 대해 확립되었다. 그 후, 사용자 X의 음성 정보 "나는 계좌의 패스워드를 변경하고 싶다"가 추가로 수집된다. S102에 따르면, "계좌" 및 "패스워드"가 모두 사전 설정된 키워드에 속하는 것으로 결정될 수 있으며, 여기서 "패스워드"는 사용자 X의 현재의 성문 모델에 포함되지 않은 사전 설정된 키워드이다. 그러므로 성문 모델링은 그 뒤에 "패스워드"를 사용하여 수행되고, 모델링 결과는 사용자 X의 성문 모델 라이브러리에 추가된다.
이 방법을 적용함으로써, 다양한 특정 요구 사항을 충족하기 위해 사용자의 성문 모델이 지속적으로 개선될 수 있다. 더욱이, 시스템이 보안 성능에 대한 더 높은 요구 사항을 갖는다면, 키워드가 적용되기 전에 사용자의 성문 모델에 포함된 키워드의 수가 특정 수보다 커야한다는 것이 명시될 수 있다. 음성 정보 수집을 한 번만 수행하여 사용자의 성문 모델링을 구현할 수 없는 경우, 본 실시예의 방법이 채택되어 사용자의 음성 정보를 여러 번 수집함으로써 사용자의 성문 모델링을 완료할 수 있다.
2) 모델 훈련:
생체 인식 기술 및 기계 학습 기술은 밀접한 관련이 있다. 많은 애플리케이션 시나리오에서, 모델은 일반적으로 샘플을 여러 번 수집함으로써 훈련되어, 인식 정확도 및 내결함성과 같은 여러 측면에서 성능이 개선된다. 본 출원의 해결책을 위해, 동일한 키워드에 대해 동일한 사용자의 음성 정보를 여러 번 수집함으로써 성문 모델의 훈련이 또한 달성될 수 있다.
여기의 요구 사항은 1)의 요구 사항과 반대인 것을 볼 수 있다. 구체적으로, 동일한 키워드에 대해 성문 샘플의 여러 번 수집을 구현하기 위해, S102에서, "모델링 요구 사항을 충족시키는 사전 설정된 키워드"는 "사용자의 현재 성문 모델에 포함되어 있는 사전 설정된 키워드"로 추가로 정의되어야 한다.
예를 들어, 시스템에 의해 지정된 키워드는: "전송", "잔액", "계좌" 및 "패스워드"를 포함한다. 사용자 X가 처음으로 성문 정보를 등록할 때, "계좌" 및 "잔액"이라는 두 개의 키워드에 대한 성문 모델이 각각 사용자에 대해 확립되었다. 후속 음성 정보 수집 프로세스에서, "계좌" 및 "잔액"이라는 두 개의 키워드에만 집중할 수 있어, 두 개의 키워드의 성문 모델은 지속적으로 훈련된다.
실제 애플리케이션에서, 사용자의 음성 정보를 무제한으로 수집하는 것을 피하기 위해 몇몇 제한 조건이 또한 설정될 수 있다. 예를 들어, 키워드에 대해 수집된 성문 샘플의 수가 임계값에 도달하면, 그 뒤에 그 키워드에 대한 성문 샘플이 수집되지 않을 것이다.
또한, 특정 애플리케이션 요구 사항 및 선택된 훈련 알고리즘에 따라, 여러 번 수집된 샘플은 평균화 및 동시 보유와 같은 방법을 사용하여 처리될 수 있으며, 이는 본 출원에서 제한될 필요는 없다.
상기 두 가지 업데이트 전략은 독립적으로 또는 조합하여 구현될 수 있다. 실제로, 거시적인 관점에서, "모델링 요구 사항을 충족시키는 사전 설정된 키워드"가 정의되지 않더라도 두 기능의 구현에는 영향을 미치지 않을 것이다. 즉, S102가 수행될 때마다, 이 음성 정보에 포함된 모든 키워드가 가능한 한 많이 획득된다. 이전 모델에는 포함되지 않은 키워드에 대해 새로운 성문 모델이 확립되고 이전 모델에 포함된 키워드는 이전 모델을 학습하는 데 사용된다. 또한, 상기 두 기능 중 하나가 구현을 위해 선택될 수 있다. 본 출원의 해결책을 적용하는 것은 사용자에게 어떠한 문제도 일으키지 않고 학습을 가능하게 하여 점차적으로 사용자의 성문 모델을 완성하는 것이 중요하다.
본 출원에 의해 제공되는 사용자 성문 모델을 구축하기 위한 방법이 위에 소개되었다. 유사한 개념에 기초하여, 본 출원은 또한 성문 기반 사용자 신원 확인 방법을 제공한다. 도 2를 참조하면, 상기 방법은 다음 단계들을 포함할 수 있다:
S201: 사용자에 의해 입력된 음성 정보를 수신한다.
S202: 확인 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단한다.
S203: 판단 결과가 예스라면, 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 음성 정보로부터 캡처한다.
S204: 음성 세그먼트의 성문 특징을 추출한다.
S205: 성문 특징 및 사용자의 사전 구축된 성문 모델을 사용하여 사용자의 신원을 확인한다.
S201 내지 S203은 기술적 구현의 관점에서 기본적으로 S101 내지 S103과 동일하고, 차이점은 단지 상이한 애플리케이션 시나리오에 있다. S204 내지 S205는 통상적인 성문 확인 단계이며, 상세하게 소개되지 않을 것이다. 본 출원의 해결책과 종래의 성문 확인 해결책 사이의 차이는 다음에서 강조된다.
본 출원의 배경 기술의 소개에 따르면, 성문 인식은 주로 등록 및 적용을 포함하는 두 가지 단계를 포함하고, 등록 단계는 적용 섹션에 필요한 데이터 준비를 제공한다는 것을 알 수 있다. 본 출원의 방법을 적용함으로써 구현되는 성문 모델링은 주로 다양한 애플리케이션 요구 사항에 적용 가능하다. 또한, 본 출원의 해결책의 특성에 따라, 일부 특정 애플리케이션 요구 사항이 또한 충족될 수 있다.
엄밀히 말하면, 성문 인식을 포함한 생체 특징 인식 기술의 애플리케이션 시나리오는 두 가지 범주: 확인 및 식별로 더 세분될 수 있다. 확인은 사용자가 지문 잠금 장치, 성문 잠금 장치 등과 같이 자신이 선언한 신원인지 여부를 인증하는 것을 말한다. 식별은 사용자의 신원을 결정하는 것을 말하며, 예를 들어 공공 보안 기관은 지문 또는 범죄 현장 기록을 조사하여 범죄자를 결정한다. 확인은 식별보다 요구 사항이 적다는 것을 쉽게 알 수 있다.
본 출원에서 제공되는 기술적 해결책은 "확인" 요구 사항에 기초하여 제안되며, 통상적인 성문 확인과 비교하여 적어도 다음의 특성을 갖는다.
첫째, 본 출원에 의해 제공되는 해결책은 "텍스트 종속적" 성문 기술을 기반으로 하지만, 해결책이 적용될 때, 사용자는 의도적으로 "특정 내용"을 말할 필요가 없고, 시스템도 또한 의도적으로 사용자를 자극하거나 안내할 필요가 없다. 이것은 사용자가 다른 작업을 수행할 때 상기 요구 사항이 모두 부수적으로 충족될 수 있기 때문이다.
예를 들어, 은행의 셀프 서비스 음성 서비스 시스템에서, 사용자가 서비스 번호로 전화를 걸고 셀프 서비스 음성 프롬프트에 따라 "한 문장으로 문제를 설명하기" 섹션에서 "잔액 조회"를 말하면, 시스템은 정보에 따라 음성 인식, 의미 인식, 요구 사항 분석 및 기타 처리를 수행할 수 있으며, 서비스가 개인 프라이버시와 관련이 있으며 사용자의 신원을 추가 인증해야한다고 결정할 수 있다. 종래의 처리 방식은, "당신의 계좌 패스워드를 입력하고 # 키를 눌러 종료하십시오"라는 프롬프트가 사용자에게 제공되고, 그러면 사용자는 프롬프트에 따라 동작하여 확인을 완료하는 것일 수 있다. 본 출원에서 제공되는 해결책을 사용함으로써, 키워드 "잔액"에 대한 모델링이 사용자에 대해 이전에 완료된 경우, 사용자가 "잔액 조회"를 말한 후에, 확인은 성문을 사용하여 구현될 수 있고, 사용자가 패스워드를 입력할 필요가 없다. 의도적으로 "특정 내용"을 말할 필요가 없는 경우 성문 확인의 편리함을 누릴 수 있다.
다음으로, 사용자가 말하는 특정 내용이 불확실하지만, "키워드"의 특성에 따라, 사용자가 실제로 이러한 키워드를 말할 확률이 높으며, 키워드의 수가 증가함에 따라 이 확률은 명백하게 향상될 수 있다. 성문 확인이 실패하더라도, 통상적인 확인 방식이 추가로 사용될 수 있다. 예를 들어, 상기 예에서 패스워드의 수동 입력이 사용될 수 있으며, 이것은 사용자에게 추가적인 문제를 일으키지 않을 것이다.
또한, S203에서 "확인 요구 사항을 충족시키는 사전 설정된 키워드"를 정의함으로써, 시스템 성능은 더욱 개선될 수 있거나 특정 요구 사항은 더욱 충족될 수 있다. 예를 들어, 시스템이 성문 추출 또는 매칭과 같은 후속적으로 무효한 처리를 수행하는 것을 방지하기 위해, "확인 요구 사항을 충족시키는 사전 설정된 키워드"는 사용자의 현재 성문 모델에 포함되어 있는 사전 설정된 키워드로서 정의될 수 있다. 또한, 지불 거래와 같은 높은 보안 요구 사항을 갖는 애플리케이션 시나리오의 경우, 사용자 음성에 포함된 키워드의 수가 또한 "확인 요구 사항을 충족시키는 사전 설정된 키워드"에 정의될 수도 있다. 키워드 수 요구 사항이 충족되지 않으면, 이 방식은 충분히 안전하지 않은 것으로 간주되며, 이 시점에서 성문 확인 방식은 포기되고 다른 보안 방식이 대신 사용될 수 있다.
마지막으로, 본 출원에 의해 제공되는 성문 모델링 방법 및 성문 확인 방법은 동일한 원리에 기초하고, 따라서, 두 가지 해결책이 다양한 방식으로 통합될 수 있다는 것을 이해할 수 있다. 예를 들어, 확인 절차 후에, 이 확인에 사용된 사용자의 음성 정보는 여전히 성문 모델을 완성하는 데 사용될 수 있다. 통상적인 적용에서, 먼저 이 확인에 사용된 음성 정보가 사용자의 현재 성문 모델에 포함되지 않은 사전 설정된 키워드를 포함하는지 여부를 판단하고, 만약 예스라면, 키워드에 대응하는 음성 세그먼트를 음성 정보로부터 캡처하고, 음성 세그먼트를 사용하여 사용자의 성문 모델을 업데이트한다. 특정 업데이트 방식은 이전의 실시예를 참조하여 획득될 수 있으며, 여기에서 반복되지 않을 것이다. 또한, 기술 절차의 관점에서, 신원 확인이 성공했는지 여부는 성문 모델 업데이트에 영향을 미치지 않는다. 당연히, 보안의 개선이 고려된다면, 사용자 신원 확인이 성공할 때, 성문 모델을 업데이트하는 작업이 추가로 트리거될 수 있다. 또한, "신원 확인 성공"은 성문 신원 확인으로 한정되지 않는다.
요약하면, 종래 기술과 비교하여, 본 출원은 주로 다음과 같은 점에서 유리하다: 사용자 성문 정보의 등록 및 확인이 사용자가 다른 음성 기반 작업을 수행할 때 부수적으로 구현될 수 있어 사용자에 의한 사용을 용이하게 한다. 또한, 특정 애플리케이션 시나리오에 대한 특정 키워드를 설정함으로써, "텍스트 종속적"의 장점을 유지할 수 있으며, 원래의 불확실한 애플리케이션 시나리오에서 더 높은 성공률이 또한 보장될 수 있다.
상기 방법 실시예에 대응하여, 본 출원은 사용자 성문 모델을 구축하기 위한 장치를 더 제공한다. 도 3를 참조하면, 상기 장치는:
사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈(110);
모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하도록 구성된 모델링 키워드 판단 모듈(120);
상기 판단 결과가 예스인 경우, 음성 정보로부터, 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처도록 구성된 음성 세그먼트 캡처 모듈(130); 및
음성 세그먼트를 사용하여 사용자에 대한 성문 모델을 구축하도록 구성된 성문 모델 구축 모듈(140)을 포함할 수 있다.
본 출원의 특정 구현예에 따르면, 모델링 키워드 판단 모듈(120)은 구체적으로:
사용자의 성문 모델이 현재 이미 존재하는 경우, 성문 모델에 포함되지 않은 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하고;
또는
사용자의 성문 모델이 현재 이미 존재하는 경우, 성문 모델에 이미 포함되어 있는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하도록 구성될 수 있다.
본 출원의 특정 구현예에 따르면, 성문 모델 구축 모듈(140)은 구체적으로:
사용자의 성문 모델이 현재 이미 존재하는 경우, 음성 세그먼트를 사용하여 성문 모델을 업데이트하도록 구성될 수 있다.
본 출원의 특정 구현예에 따르면, 모델링 키워드 판단 모듈(120)은 구체적으로:
적어도 하나의 음성 세그먼트를 획득하기 위해 음향 모델을 사용하여 음성 정보를 분할하고;
획득된 음성 세그먼트 또는 이들의 조합이 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 오디오 특징과 매칭하는지 여부를 판단하고, 만약 예스라면, 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는 것으로 결정하도록 구성될 수 있다.
또는
모델링 키워드 판단 모듈(120)은 또한 구체적으로:
대응하는 텍스트 정보를 획득하기 위해 음성 정보에 대해 음성 인식을 수행하고;
적어도 하나의 텍스트 세그먼트를 획득하기 위해 언어 모델을 사용하여 텍스트 정보를 분할하며;
획득된 텍스트 세그먼트 또는 이들의 조합이 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 텍스트 내용과 일치하는지 여부를 판단하고, 만약 예스라면, 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는 것으로 결정하도록 구성될 수 있다.
상기 방법 실시예에 대응하여, 본 출원은 또한 성문 기반 사용자 신원 확인 장치를 제공한다. 도 4를 참조하면, 상기 장치는:
사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈(210);
확인 요구 사항을 충족시키는 사전 설정된 키워드가 음성 정보에 포함되는지 여부를 판단하도록 구성된 확인 키워드 판단 모듈(220);
상기 판단 결과가 예스인 경우, 음성 정보로부터, 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하도록 구성된 음성 세그먼트 캡처 모듈(230);
음성 세그먼트의 성문 특징을 추출하도록 구성된 성문 특징 추출 모듈(250); 및
성문 특징 및 사용자의 사전 구축된 성문 모델을 사용하여 사용자의 신원을 확인하도록 구성된 확인 모듈(260)을 포함할 수 있다.
본 출원은 또한 성문 기반 사용자 신원 확인 시스템을 제공하고, 상기 시스템은 상술한 바와 같이 사용자 성문 모델을 구축하기 위한 장치 및 사용자 신원 확인 장치를 포함할 수 있다.
사실, 상기 두 장치에서 일부 모듈에 의해 구현된 기능은 완전히 동일하다. 예를 들면:
음성 정보 수신 모듈(110) 및 음성 정보 수신 모듈(210);
음성 세그먼트 캡처 모듈(130) 및 음성 세그먼트 캡처 모듈(230)이 있고;
확인 키워드 판단 모듈(120)과 확인 키워드 판단 모듈(220)의 차이는 단지 판단이 수행되는 상이한 규칙에 있다. 따라서, 실제 적용 동안, 이들 동일하거나 유사한 모듈은 도 5에 도시된 바와 같이 시스템에서 완전히 다중화될 수 있다.
음성 정보 수신 모듈(310)은 음성 정보 수신 모듈(110)과 음성 정보 수신 모듈(210)의 기능을 통합한다.
키워드 판단 모듈(320)은 확인 키워드 판단 모듈(120)과 확인 키워드 판단 모듈(220)의 기능을 통합한다.
음성 세그먼트 캡처 모듈(330)은 음성 세그먼트 캡처 모듈(130)과 음성 세그먼트 캡처 모듈(230)의 기능을 통합한다.
성문 모델 구축 모듈(340), 성문 특징 추출 모듈(350) 및 확인 모듈(360)의 기능은, 상기 장치의 동일 명칭의 모듈의 기능과 각각 동일하다.
상기 장치 내의 모든 유닛의 기능 및 효과의 구현 프로세스는, 구체적으로 상기 방법에서의 대응하는 단계의 구현 프로세스를 지칭할 수 있으며, 여기에서 반복되지 않는다.
구현 방식에 대한 앞서 말한 설명에 기초하여, 당업자는 본 출원이 필요한 범용 하드웨어 플랫폼과 결합하여 소프트웨어에 의해 구현될 수 있음을 명확히 이해할 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결책 또는 종래 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 ROM/RAM, 자기 디스크 또는 광 디스크와 같은 저장 매체에 저장될 수 있으며, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)가 본 출원의 모든 실시예 또는 실시예들의 특정 부분에서의 방법을 실행할 수 있도록 하는 몇몇 명령어를 포함할 수 있다.
본 명세서의 다양한 실시예들은 점진적인 방식으로 설명된다. 실시예들 사이에서 동일하거나 유사한 부분은 서로 참조될 수 있다. 각각의 실시예에서, 다른 실시예들과의 상이한 부분이 집중되고 기술된다. 특히, 장치 또는 시스템 실시예는 기본적으로 방법 실시예와 유사하므로 간단히 설명되고, 관련 부분에 대해서는 방법 실시예에서의 부분에 대한 설명을 참조할 수 있다. 상술한 장치 또는 시스템 실시예는 단지 예시적인 것으로서, 분리된 부분으로 나타난 모듈은 물리적으로 분리될 수도 있고 분리되지 않을 수도 있다. 본 출원의 구현 동안, 모듈들의 기능들은 소프트웨어 및/또는 하드웨어의 동일한 하나 이상의 조각들에 구현될 수 있다. 이 실시예의 해결책의 목적은 실제 요구 사항에 따라 모듈의 일부 또는 전부를 선택함으로써 구현될 수 있다. 당업자는 창조적인 노력 없이 본 출원을 이해하고 구현할 수 있다.
본 출원의 특정 구현예가 위에 설명되었다. 당업자라면, 본 출원의 원리를 벗어나지 않고 여러 가지 개선 및 수정을 이룰 수 있으며, 이러한 개선 및 수정은 또한 본 출원의 보호 범위 내에 속하는 것으로 고려되어야 한다는 것을 알아야 한다.

Claims (14)

  1. 사용자 성문(voiceprint) 모델을 구축하기(construct) 위한 방법에 있어서,
    사용자에 의해 입력된 음성 정보를 수신하는 단계;
    모델링 요구 사항을 충족시키는 사전 설정된 키워드가, 상기 음성 정보에 포함되는지(carried) 여부를 판단하는 단계;
    상기 판단 결과가 예스(yes)인 경우, 상기 음성 정보로부터, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계; 및
    상기 음성 세그먼트를 사용함으로써 상기 사용자에 대한 성문 모델을 구축하는 단계
    를 포함하는, 사용자 성문 모델을 구축하기 위한 방법.
  2. 제 1 항에 있어서, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계는:
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 성문 모델에 포함되지 않은 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계; 또는
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 성문 모델에 이미 포함되어 있는 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계
    를 포함하는 것인, 사용자 성문 모델을 구축하기 위한 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 음성 세그먼트를 사용함으로써 상기 사용자에 대한 성문 모델을 구축하는 단계는:
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 음성 세그먼트를 사용함으로써 상기 성문 모델을 업데이트하는 단계를 포함하는 것인, 사용자 성문 모델을 구축하기 위한 방법.
  4. 제 1 항에 있어서, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계는:
    적어도 하나의 음성 세그먼트를 획득하기 위해 음향 모델을 사용함으로써 상기 음성 정보를 분할하는 단계; 및
    상기 획득된 음성 세그먼트 또는 이들의 조합이 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 오디오 특징(feature)과 매칭하는지 여부를 판단하고, 만약 예스라면, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는 것으로 결정하는 단계
    를 포함하는 것인, 사용자 성문 모델을 구축하기 위한 방법.
  5. 제 1 항에 있어서, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계는:
    대응하는 텍스트 정보를 획득하기 위해 상기 음성 정보에 대해 음성 인식을 수행하는 단계;
    적어도 하나의 텍스트 세그먼트를 획득하기 위해 언어 모델을 사용함으로써 상기 텍스트 정보를 분할하는 단계; 및
    상기 획득된 텍스트 세그먼트 또는 이들의 조합이 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 텍스트 내용과 일치하는지 여부를 판단하고, 만약 예스라면, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는 것으로 결정하는 단계
    를 포함하는 것인, 사용자 성문 모델을 구축하기 위한 방법.
  6. 성문 기반 사용자 신원 확인 방법에 있어서,
    사용자에 의해 입력된 음성 정보를 수신하는 단계;
    확인 요구 사항을 충족시키는 사전 설정된 키워드가, 상기 음성 정보에 포함되는지 여부를 판단하는 단계;
    상기 판단 결과가 예스인 경우, 상기 음성 정보로부터, 상기 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계;
    상기 음성 세그먼트의 성문 특징을 추출하는 단계; 및
    상기 성문 특징 및 상기 사용자의 사전 구축된 성문 모델을 사용함으로써 상기 사용자의 신원을 확인하는 단계
    를 포함하는, 성문 기반 사용자 신원 확인 방법.
  7. 제 6 항에 있어서,
    상기 사용자의 상기 성문 모델에 포함되지 않은 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하는 단계;
    상기 판단 결과가 예스인 경우, 상기 음성 정보로부터, 포함되지 않은 상기 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하는 단계; 및
    포함되지 않은 상기 사전 설정된 키워드에 대응하는 상기 음성 세그먼트를 사용함으로써 상기 사용자의 상기 성문 모델을 업데이트하는 단계
    를 더 포함하는 성문 기반 사용자 신원 확인 방법.
  8. 사용자 성문 모델을 구축하기 위한 장치에 있어서,
    사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈;
    모델링 요구 사항을 충족시키는 사전 설정된 키워드가, 상기 음성 정보에 포함되는지 여부를 판단하도록 구성된 모델링 키워드 판단 모듈;
    상기 판단 결과가 예스인 경우, 상기 음성 정보로부터, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처도록 구성된 음성 세그먼트 캡처 모듈; 및
    상기 음성 세그먼트를 사용함으로써 상기 사용자에 대한 성문 모델을 구축하도록 구성된 성문 모델 구축 모듈
    을 포함하는, 사용자 성문 모델을 구축하기 위한 장치.
  9. 제 8 항에 있어서, 상기 모델링 키워드 판단 모듈은 구체적으로:
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 성문 모델에 포함되지 않은 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하도록; 또는
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 성문 모델에 이미 포함되어 있는 사전 설정된 키워드가 상기 음성 정보에 포함되는지 여부를 판단하도록
    구성되는 것인, 사용자 성문 모델을 구축하기 위한 장치.
  10. 제 8 항 또는 제 9 항에 있어서, 상기 성문 모델 구축 모듈은 구체적으로:
    상기 사용자의 상기 성문 모델이 현재 이미 존재하는 경우, 상기 음성 세그먼트를 사용함으로써 상기 성문 모델을 업데이트하도록 구성되는 것인, 사용자 성문 모델을 구축하기 위한 장치.
  11. 제 8 항에 있어서, 상기 모델링 키워드 판단 모듈은 구체적으로:
    적어도 하나의 음성 세그먼트를 획득하기 위해 음향 모델을 사용함으로써 상기 음성 정보를 분할하고;
    상기 획득된 음성 세그먼트 또는 이들의 조합이 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 오디오 특징과 매칭하는지 여부를 판단하고, 만약 예스라면, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는 것으로 결정하도록
    구성되는 것인, 사용자 성문 모델을 구축하기 위한 장치.
  12. 제 8 항에 있어서, 상기 모델링 키워드 판단 모듈은 구체적으로:
    대응하는 텍스트 정보를 획득하기 위해 상기 음성 정보에 대해 음성 인식을 수행하고;
    적어도 하나의 텍스트 세그먼트를 획득하기 위해 언어 모델을 사용함으로써 상기 텍스트 정보를 분할하며;
    상기 획득된 텍스트 세그먼트 또는 이들의 조합이 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드의 텍스트 내용과 일치하는지 여부를 판단하고, 만약 예스라면, 상기 모델링 요구 사항을 충족시키는 사전 설정된 키워드가 상기 음성 정보에 포함되는 것으로 결정하도록
    구성되는 것인, 사용자 성문 모델을 구축하기 위한 장치.
  13. 성문 기반 사용자 신원 확인 장치에 있어서,
    사용자에 의해 입력된 음성 정보를 수신하도록 구성된 음성 정보 수신 모듈;
    확인 요구 사항을 충족시키는 사전 설정된 키워드가, 상기 음성 정보에 포함되는지 여부를 판단하도록 구성된 확인 키워드 판단 모듈;
    상기 판단 결과가 예스인 경우, 상기 음성 정보로부터, 상기 확인 요구 사항을 충족시키는 사전 설정된 키워드에 대응하는 음성 세그먼트를 캡처하도록 구성된 음성 세그먼트 캡처 모듈;
    상기 음성 세그먼트의 성문 특징을 추출하도록 구성된 성문 특징 추출 모듈; 및
    상기 성문 특징 및 상기 사용자의 사전 구축된 성문 모델을 사용함으로써 상기 사용자의 신원을 확인하도록 구성된 확인 모듈
    을 포함하는, 성문 기반 사용자 신원 확인 장치.
  14. 성문 기반 사용자 신원 확인 시스템에 있어서,
    상기 시스템은 제 7 항 내지 제 12 항 중 어느 한 항의 사용자 성문 모델을 구축하기 위한 장치, 및 제 13 항의 사용자 신원 확인 장치를 포함하는, 성문 기반 사용자 신원 확인 시스템.
KR1020187005014A 2015-07-23 2016-07-14 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템 KR102250460B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510438382.0 2015-07-23
CN201510438382.0A CN106373575B (zh) 2015-07-23 2015-07-23 一种用户声纹模型构建方法、装置及系统
PCT/CN2016/089962 WO2017012496A1 (zh) 2015-07-23 2016-07-14 一种用户声纹模型构建方法、装置及系统

Publications (2)

Publication Number Publication Date
KR20180034507A true KR20180034507A (ko) 2018-04-04
KR102250460B1 KR102250460B1 (ko) 2021-05-13

Family

ID=57833756

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187005014A KR102250460B1 (ko) 2015-07-23 2016-07-14 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템

Country Status (9)

Country Link
US (2) US10714094B2 (ko)
EP (1) EP3327720B1 (ko)
JP (1) JP6859522B2 (ko)
KR (1) KR102250460B1 (ko)
CN (1) CN106373575B (ko)
ES (1) ES2880006T3 (ko)
PL (1) PL3327720T3 (ko)
SG (1) SG11201800297WA (ko)
WO (1) WO2017012496A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015917A (ko) * 2018-06-29 2021-02-10 후아웨이 테크놀러지 컴퍼니 리미티드 음성 제어 방법, 웨어러블 디바이스 및 단말

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018108263A1 (en) 2016-12-14 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Authenticating a user subvocalizing a displayed text
KR102640423B1 (ko) * 2017-01-31 2024-02-26 삼성전자주식회사 음성 입력 처리 방법, 이를 지원하는 전자 장치, 및 시스템
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107590374A (zh) * 2017-07-31 2018-01-16 捷开通讯(深圳)有限公司 语音助手权限的控制方法、智能终端及存储装置
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108665901B (zh) * 2018-05-04 2020-06-30 广州国音科技有限公司 一种音素/音节提取方法及装置
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统
CN109599116B (zh) * 2018-10-08 2022-11-04 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
US20200201970A1 (en) * 2018-12-20 2020-06-25 Cirrus Logic International Semiconductor Ltd. Biometric user recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110671792A (zh) * 2019-05-08 2020-01-10 青岛海尔空调器有限总公司 用于控制出风风量和出音音量的方法、装置和空调室内机
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110298150B (zh) * 2019-05-29 2021-11-26 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110570869B (zh) * 2019-08-09 2022-01-14 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
CN110491393B (zh) * 2019-08-30 2022-04-22 科大讯飞股份有限公司 声纹表征模型的训练方法及相关装置
CN110738998A (zh) * 2019-09-11 2020-01-31 深圳壹账通智能科技有限公司 基于语音的个人信用评估方法、装置、终端及存储介质
CN110753254A (zh) * 2019-10-30 2020-02-04 四川长虹电器股份有限公司 应用于智能语音电视声纹支付的声纹注册方法
CN110991498A (zh) * 2019-11-18 2020-04-10 有时数联科技(北京)有限公司 一种基于算法模型的识别方法、装置及系统
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认系统和方法
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN111063360B (zh) * 2020-01-21 2022-08-19 北京爱数智慧科技有限公司 一种声纹库的生成方法和装置
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11315575B1 (en) 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11522994B2 (en) 2020-11-23 2022-12-06 Bank Of America Corporation Voice analysis platform for voiceprint tracking and anomaly detection
CN112417532A (zh) * 2020-12-08 2021-02-26 浙江百应科技有限公司 一种支持语音和隐私输入的智能ai信息查询方法
CN112908339B (zh) * 2021-03-18 2022-11-04 龙马智芯(珠海横琴)科技有限公司 一种会议环节定位方法、装置、定位设备及可读存储介质
TWI755328B (zh) * 2021-05-24 2022-02-11 中華電信股份有限公司 孩童聲音偵測系統、方法及電腦可讀媒介
CN113488042B (zh) * 2021-06-29 2022-12-13 荣耀终端有限公司 一种语音控制方法及电子设备
CN116229987B (zh) * 2022-12-13 2023-11-21 广东保伦电子股份有限公司 一种校园语音识别的方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
US20150081295A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
JPH11291799A (ja) 1998-04-09 1999-10-26 Combi Corp チャイルドシート
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
JP4440502B2 (ja) * 2001-08-31 2010-03-24 富士通株式会社 話者認証システム及び方法
JP2003302999A (ja) * 2002-04-11 2003-10-24 Advanced Media Inc 音声による個人認証システム
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
US20100063817A1 (en) * 2007-03-14 2010-03-11 Pioneer Corporation Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP5223843B2 (ja) * 2009-10-22 2013-06-26 富士通株式会社 情報処理装置およびプログラム
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
JP5611270B2 (ja) * 2012-05-08 2014-10-22 ヤフー株式会社 単語分割装置、及び単語分割方法
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
JP6239826B2 (ja) * 2013-01-29 2017-11-29 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
CN104765996B (zh) * 2014-01-06 2018-04-27 讯飞智元信息科技有限公司 声纹密码认证方法及系统
CN104901926A (zh) * 2014-03-06 2015-09-09 武汉元宝创意科技有限公司 基于声纹特征的远程认证支付的系统与方法
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US10008208B2 (en) * 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法
US9721571B2 (en) * 2015-06-14 2017-08-01 Nice Ltd. System and method for voice print generation
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN105930892A (zh) 2016-04-22 2016-09-07 深圳活悦网络科技有限公司 一种可变logo二维码防伪方法及系统
CN107103480A (zh) 2017-05-18 2017-08-29 电子科技大学 基于主权区块链的供应链管理方法
CN107657463A (zh) 2017-09-29 2018-02-02 北京京东尚科信息技术有限公司 物品溯源平台和方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
US20150081295A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015917A (ko) * 2018-06-29 2021-02-10 후아웨이 테크놀러지 컴퍼니 리미티드 음성 제어 방법, 웨어러블 디바이스 및 단말

Also Published As

Publication number Publication date
US20200321010A1 (en) 2020-10-08
SG11201800297WA (en) 2018-02-27
JP2018527609A (ja) 2018-09-20
CN106373575A (zh) 2017-02-01
EP3327720B1 (en) 2021-05-05
US11043223B2 (en) 2021-06-22
US10714094B2 (en) 2020-07-14
US20180137865A1 (en) 2018-05-17
EP3327720A1 (en) 2018-05-30
WO2017012496A1 (zh) 2017-01-26
ES2880006T3 (es) 2021-11-23
KR102250460B1 (ko) 2021-05-13
PL3327720T3 (pl) 2021-10-25
CN106373575B (zh) 2020-07-21
EP3327720A4 (en) 2019-04-03
JP6859522B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
KR102250460B1 (ko) 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
CN111488433B (zh) 一种适用于银行的提升现场体验感的人工智能交互系统
US10476872B2 (en) Joint speaker authentication and key phrase identification
US8812319B2 (en) Dynamic pass phrase security system (DPSS)
US9799338B2 (en) Voice print identification portal
WO2017197953A1 (zh) 基于声纹的身份识别方法及装置
CN111858892B (zh) 基于知识图谱的语音交互方法、装置、设备及介质
US11948582B2 (en) Systems and methods for speaker verification
US20160118050A1 (en) Non-standard speech detection system and method
KR20160011709A (ko) 지불 확인을 위한 방법, 장치 및 시스템
US9646613B2 (en) Methods and systems for splitting a digital signal
CN109462482B (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
CN111684444A (zh) 一种身份验证方法、终端设备、存储介质
Dimaunahan et al. MFCC and VQ voice recognition based ATM security for the visually disabled
CN110379433A (zh) 身份验证的方法、装置、计算机设备及存储介质
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
KR102604319B1 (ko) 화자 인증 시스템 및 그 방법
KR20130059999A (ko) 음성 기반 인증시스템 및 방법
CN105575385A (zh) 语音密码设置系统及方法、语音密码验证系统及方法
Tanwar et al. An approach to ensure security using voice authentication system
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN113593580A (zh) 一种声纹识别方法及装置
EP4184355A1 (en) Methods and systems for training a machine learning model and authenticating a user with the model
US20230153815A1 (en) Methods and systems for training a machine learning model and authenticating a user with the model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant