KR20180104595A - 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버 - Google Patents

성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버 Download PDF

Info

Publication number
KR20180104595A
KR20180104595A KR1020187015547A KR20187015547A KR20180104595A KR 20180104595 A KR20180104595 A KR 20180104595A KR 1020187015547 A KR1020187015547 A KR 1020187015547A KR 20187015547 A KR20187015547 A KR 20187015547A KR 20180104595 A KR20180104595 A KR 20180104595A
Authority
KR
South Korea
Prior art keywords
test
voice
feature
target
user
Prior art date
Application number
KR1020187015547A
Other languages
English (en)
Inventor
지안종 왕
후이 구오
지쳉 송
징 샤오
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20180104595A publication Critical patent/KR20180104595A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/39Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버에 관한 것이다. 당해 성문 식별 방법은, 클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계; 백스테이지 서버는 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계; 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계; 백스테이지 서버는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 클라이언트 단말에 판단결과를 출력하는 단계; 및 클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함한다. 당해 성문 식별 방법은 신속히 음성 식별 효과에 달하고, 음성 식별 효율을 향상시킬 수 있다.

Description

성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버
본 출원은 2017년 2월 16일에 출원되고, 중국 출원 번호가 CN 201710083629.0이고, 발명의 명칭이 "성문 식별 방법 및 장치"인 중국 특허 출원의 우선권을 향유하며, 당해 중국 특허 출원의 모든 내용은 참고의 방식으로 본 출원과 결합되어 있다.
본 발명은 생체 특징의 신분 식별 기술 분야에 관한 것으로, 특히 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버에 관한 것이다.
성문 식별(Voiceprint Recognition)은 음성에 포함된 화자(話者)의 생체 특징에 근거하여, 화자를 식별하는 일종 신분 식별 기술이다. 성문 식별은 안전 신뢰성을 구비하기에, 신분 식별이 필요한 거의 모든 안전성 보호 분야와 개성화 응용 장소에 이용된다. 예를 들어 은행, 증권, 보험 등과 같은 금융기구는, 업무량이 지속적으로 확장되기에, 대량의 신분 식별 수요가 생성되고 있다. 기존의 신분 식별 기술과 비교할 경우, 신분 식별의 장점은 성문 추출 과정이 간단하고 원가가 낮으며, 매개인의 성문 특징과 타인의 성문 특징이 상이하기에, 유일성을 구비하고, 위조 또는 가짜를 제조하기 어려운 것이다. 성문 식별은 안전하고, 신뢰성이 있고, 편리함 등 특징을 구비하여, 신분 식별 분야에서 널리 응용되고 있다. 하지만, 기존의 성문 식별 과정은 시간 소모가 비교적 많고, 대량의 음성 식별 요청을 처리할 때, 오랜 처리 시간으로 일부분의 음성 식별 요청이 유실되어, 성문 식별 기술의 응용에 영향을 준다.
본 발명의 해결하고자 하는 과제로서, 종래 기술의 결함에 대해, 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버를 제공하여, 대량의 음성 식별 요청 처리 효율을 향상시키고, 처리 시간을 단축시키는 것이다.
본 발명이 기술적 과제를 해결하는데 이용한 기술안은 성문 식별 방법으로서, 상기 성문 식별 방법은,
클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함한다.
본 발명은 또한 성문 식별 장치를 제공하는 바, 상기 성문 식별 장치는,
사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는데 사용되는 클라이언트 단말;
상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는데 사용되는 백스테이지 서버;
상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는데 사용되는 백스테이지 서버;
상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단 결과를 출력하는데 사용되는 백스테이지 서버; 및
상기 판단 결과를 수신하고 표시하는데 사용되는 클라이언트 단말을 포함한다.
본 발명은 또한 백스테이지 서버를 제공하며, 상기 백스테이지 서버는, 메모리, 프로세서 및 상기 메모리중에 저장되고 상기 프로세서에서 수행되는 컴퓨터 프로그램을 포함하며, 상기 프로세서는 상기 컴퓨터 프로그램을 수행할 시 상기 성문 특별 방법 중의 백스테이지 서버가 수행하는 단계를 실현한다.
본 발명은 또한 컴퓨터 판독가능 저장 매체를 제공하며, 상기 컴퓨터 판독 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로세서에 의해 수행될 시 상기 성문 식별 방법 중의 백스테이지 서버가 수행하는 단계를 실현한다.
본 발명과 종래의 기술을 비교할 경우, 이하의 장점을 갖고 있다. 본 발명에 의해 제공되는 성문 식별 방법 및 장치에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여, 타겟 성문 특징과 테스트 성문 특징의 화자가 통일한 사용자인지 여부를 확정하고, 신속히 음성 식별 효과에 달하고, 음성 식별 효율을 향상시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청 처리 효율을 향상시키고, 오랜 처리 시간으로 인한 음성 식별 요청 유실을 피하도록 한다.
이하, 도면 및 실시예와 결합하여 본 발명을 설명한다. 도면에 있어서,
도1은 본 발명의 실시예1 중의 성문 식별 방법의 흐름도이다.
도2는 본 발명의 실시예2 중의 성문 식별 장치의 원리 블록도이다.
도3은 본 발명의 일 실시예에 의해 제공되는 백스테이지 서버의 모식도이다.
본 발명의 기술적 특징, 목적 및 효과에 대한 더욱 명확한 이해를 위해, 이하 첨부 도면으로 본 발명의 구체적인 실시형태를 상세히 설명한다.
실시예 1
도1은 본 실시예 중의 성문 식별 방법의 흐름도이다. 당해 성문 식별 방법은 클라이언트 단말과 백스테이지 서버에 응용되어, 클라이언트 단말에서 채집된 테스트 음성에 대해 신분 식별을 실현한다. 도1에 도시된 바와 같이, 당해 성문 식별 방법은 이하의 단계를 포함한다.
S10: 클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID와 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신한다.
여기서, 클라이언트 단말은 스마트 휴대폰, 노트북, 데스크톱 컴퓨터 등과 같은 백스테이지 서버와 통신 연결되는 단말을 포함하여, 클라이언트 단말에는 테스트 음성을 채집하는데 사용되는 마이크가 설치되어 있거나 또는 외장 마이크 인터페이스가 설치되어 있다. 사용자 ID는 사용자 신분을 유일하게 식별하는데 사용되는 바, 본 실시예 중의 테스트 음성은 사용자 ID에 관련되어, 테스트 음성에 대응되는 사용자의 확정에 이용되고 있다. 클라이언트 단말은 사용자에 대한 샘플링 및 녹음을 진행하여, WAV 오디오 형식의 테스트 음성을 획득하며, 테스트 음성과 사용자 ID에 따라 음성 식별 요청을 형성하며, 음성 식별 요청을 백스테이지 서버에 송신한다.
클라이언트 단말이 모바일 단말일 경우, 멀티 스레딩 방식(Multithreading Mode)을 이용하여 테스트 음성을 채집하고; 클라이언트 단말이 홈페이지 단말일 경우, Ajax 비동기식 리프레시 방식으로 테스트 음성을 채집하여, 백스테이지 서버와 통신할 시 사용자 작업을 중단하지 않고, 테스트 요청의 채집 속도를 향상시킬 수 있다. Ajax(Asynchronous JavaScript and XML), 비동기식 JavaScript와 XML는 클라이언트 단말의 스크립트(Script)를 이용하여 Web 서버와 데이터를 교환하는 Web 응용 개발 방법이다.
S20: 백스테이지 서버는 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정한다.
여기서, 백스테이지 서버는 적어도 하나의 클라이언트 단말이 송신한 음성 식별 요청을 수신하고, 적어도 하나의 음성 식별 요청을 메시지 대기열에 대기시킨다. 백스테이지 서버는 비동기식 메카니즘을 이용하여 메시지 대기열 중의 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여, 백스테이지 서버가 메시지 대기열 중의 각 정보를 처리할 경우, 송신측과 수신측은 서로 독립되기에, 대방의 회답을 대기할 필요가 없다. 메시지 대기열과 비동기식 메카니즘을 이용하여 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여 처리 대기 음성 식별 요청을 획득하며, 백스테이지 서버로 하여금 동시에 대량의 음성 식별 요청을 획득하도록 하고, 임의의 처리 대기 음성 식별 요청의 처리 시간이 과도하게 긴 것으로 인한 기타 대량의 음성 식별 요청 유실을 피할 수 있도록 한다. 한편으로, 메시지 대기열과 비동기식 메카니즘을 이용하여 백스테이지 서버에 분포식 시스템을 구축하며, 음성 식별 요청의 최고 처리 능력과 영활성을 향상시키고, 프로세서 간의 결합도를 감소시키며, 각 음성 식별 요청이 모두 처리될 수 있도록 보증한다.
S30: 백스테이지 서버는 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.
구체적으로, 타겟 성문 특징은 사전에 백스테이지 서버 중에 저장되는 것으로, 사용자 ID에 대응되는 사용자 성문 특징이다. 테스트 성문 특징은 음성 요청 중 테스트 음성에 대응되는 성문 특징이다. 여기서, 성문(Voiceprint)은, 전기 음향 기기로 표시되는 언어 정보를 휴대한 음파 주파수 스펙트럼이다. 성문 특징에는, 예를 들어 스펙트럼, 캡스트럼, 포먼트, 기음, 반사계수, 비음, 심호흡음, 목이 잠긴소리, 웃음소리 등과 같은, 인류의 발음 메카니즘의 해부학 구조에 관련된 성학 특징이 포함되나, 이에 한정되는 것이 아니다.
본 실시예에 있어서, 타겟 성문 특징과 테스트 성문 특징은 I-vector(즉 identifying vector, 식별 벡터) 특징인 것이 바람직하다. 임의의 I-vector 특징은 I-vector 알고리즘을 이용하여 획득할 수 있고, i-vector 알고리즘은 숨음 변수를 추정하는 방법으로서, 고정된 길이의 저차원 벡터로 한 단락의 음성을 나타내고, I-vector 특징의 추출 과정에서 클래스 내, 클래스 간의 분산은 별도로 고려하지 않고, 이를 서브 공간에 방치하며, 다시 말해서 총 변량 공간(total variablity space) 중으로부터 고려하여, 무 감독의 방법으로 트레이닝을 진행할 수 있고, 또한 총 변량 공간 중에서 언어 종류와 관련이 없는 정보를 제거하여, 차원을 감소시키고 소음을 제거함과 동시에, 최대 한도로 언어 종류에 관련되는 성학 정보를 보유한다.
단계 S30은 구체적으로 다음과 같은 단계를 포함한다.
S31: 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득한다.
구체적으로, 성문 특징 데이터베이스 중에 사전에 적어도 한 그룹의 사용자 ID 및 사용자 ID에 관련된 타겟 성문 특징을 저장하여, 처리 대기 음성 식별 요청 중의 사용자 ID에 따라 대응되는 타겟 성문 특징을 찾아낸다.
S32: 가우스 혼합 모형 - 통용 배경 모형을 이용하여 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.
여기서, 가우스 혼합형 모형 - 통용 배경 모형(즉 Gaussian Mixture Model-Universal Background Model, GMM-UBM으로 약칭)은 화자와 관련없는 고 차원의 GMM으로서, 이는 화자의 트레이닝 음성에 따라 트레이닝에 적응하며, 다시 말해서 음성 모형은 화자를 통해 자신의 음성으로 모형 중에 포함되지 않는 음성 상황을 반영하며, 화자와 관련없는 음성 특징 분포릍 통해 대략적인 설명을 진행하고, 식별율이 높은 특점을 구비하고 있다.
구체적으로 백스테이지 서버는 수신된 음성 식별 요청을 메시지 대기열에 대기시키며, 유휴 시간(Idle Time)이 있을 때, 메시지 대기열에서 처리 대기 음성 식별 요청을 취하여 백스테이지 Servlet 용기에 전송하여 처리시키며, Servlet 용기는 하나의 HttpRequest 대상을 설립하여, 송신한 정보를 이 대상 중에 저장함과 동시에 HttpResponse 대상을 설립하여, HttpRequest와 HttpResponse를 파라미터로 하여 HttpServlet 대상에 전송하고, HttpServlet 대상의 service 방법을 조절하며, service 방법 중에서 가우스 혼합 모형 - 통용 배경 모형 조절을 통해 테스트 음성을 처리하여, 테스트 성문 특징을 획득한다.
S40: 백스테이지 서버는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자 대응 여부를 판단하고, 클라이언트 단말에 판단 결과를 출력한다.
타겟 성문 특징은, 사전에 성문 특징 데이터베이스 중에 저장된, 사용자 ID에 관련된 성문 특징이고, 테스트 성문 특징은 클라이언트 단말이 채집한 사용자 ID와 관련된 테스트 음성에 대응되는 성문 특징으로서, 두 개가 동일하거나 유사도가 사전 설정 유사 역치에 달할 경우, 양자를 동일한 사용자로 인정하고, 클라이언트 단말에 양자가 동일한 사용자이거나 동일한 사용자가 아닌 판단 결과를 출력한다.
단계 S40은 구체적으로 다음과 같은 단계를 포함한다.
S41: PLDA 알고리즘을 이용하여 타겟 성문 특징과 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득한다.
여기서, PLDA(Probabilistic Linear Discriminant Analysis) 알고리즘은 채널 보상 알고리즘이다. PLDA는 I-vector 특징을 기반으로 하고, I-vector 특징에는 화자의 정보가 포함되어 있을 뿐만 아니라 채널 차이 정보도 포함되어 있으나, 우리는 화자의 정보에만 관심이 있기에, 채널 보상이 필요하다. PLDA 알고리즘의 채널 보상 기능은 LDA 알고리즘보다 더욱 양호하다.
여기서, PLDA 알고리즘은,
(1)
Figure pct00001
Figure pct00002
를 초기화하는 단계;
(2)
Figure pct00003
를 이용하여
Figure pct00004
를 계산하는 단계;
(3)
Figure pct00005
가 지정 역치보다 작을 때까지,
Figure pct00006
을 이용하여
Figure pct00007
를 계산하고, 되돌아가
Figure pct00008
를 이용하여
Figure pct00009
를 계산하는 단계를 포함하며,
여기서,
Figure pct00010
는 평균값 성문 벡터이고;
Figure pct00011
는 클래스 사이의 거리이며;
Figure pct00012
는 성문 특징이며;
Figure pct00013
는 반복 횟수이다.
S42: 코사인 측정 함수를 이용하여, 타겟 차원 감소값과 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득한다.
구체적으로 코사인 측정 함수에는 다음과 같은 내용이 포함된다.
Figure pct00014
; 여기서,
Figure pct00015
는 타겟 성문 특징이고,
Figure pct00016
는 테스트 성문 특징이며,
Figure pct00017
는 시간이다. 코사인 측정 함수를 이용하여 타겟 성문 특징과 테스트 성문 특징 사이의 거리를 측정하고, 타겟 성문 특징과 테스트 성문 특징이 지정 유한 차원 공간 내에서 전개될 수 있을 경우, 당해 코사인 측정 함수에 의한 계산은 간단하고 효과적이며 직접적이고 효과적이다.
S43: 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다.
구체적으로,
Figure pct00018
일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자이며; 반대로,
Figure pct00019
일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자가 아니며; 여기서
Figure pct00020
는 유사 역치로서, 50%보다 큰 상수일 수 있다.
S50: 클라이언트 단말은 판단 결과를 수신하고 표시한다.
해당 판단 결과는 테스트 음성에 대응되는 테스트 성문 특징과 성문 특징 데이터베이스에 저장된 타겟 성문 특징의 화자가 동일한 사용자인 판단 결과, 또는 동일한 사용자가 아닌 판단 결과를 인정할 수 있다.
본 발명이 제공하는 성문 식별 방법에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하고, 신속한 음성 식별 효과에 달하여, 음성 식별 효율을 제고시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청의 처리 효율을 향상시키고, 장시간 처리로 인한 일부 음성 식별 요청의 유실을 피할 수 있다.
구체적인 실시형태에 있어서, 해당 성문 식별 방법은 또한 다음과 같은 단계를 포함한다.
S51: 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득한다.
여기서, MFCC(Mel Frequency Cepstrum Coefficients, 멜 주파수 캡스트럼 계수). 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하는 과정에는 다음과 같은 내용이 포함된다. 트레이닝 음성에 대한 프리 엠퍼시스, 프레이밍, 창 추가를 진행하고; 각 짧은 시간 내에 창을 분석하며, FFT(Fast Fourier Transform, 고속 푸리에 변환)을 통해 대응되는 주파수 스펙트럼을 획득하며; 상기 주파수 스펙트럼은 Mel 필터 그룹을 통하여 멜 주파수를 획득하며; Mel 주파수 스펙트럼 위에서 캡스트럼 분석(로그 값을 취하고, 역변환을 진행하는 바, 실제적으로 역변환은 일반적으로 DCT 이산 코사인 변환에 의해 실현되며, DCT를 취한 후의 2번째부터 13번째의 계수를 MFCC 계수로 함)을 진행하여 멜 주파수 캡스트럼 계수 MFCC를 획득하여, MFCC 성학 특징을 획득한다.
S52: MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정한다.
여기서, 음성 활동 검출은 음성 활동 검출(Voice Activity detection, VAD) 알고리즘을 이용하여 음성과 소음의 부동한 특성에 대하여 음성과 소음 판단을 진행하고, 연속 샘플링을 통하여 획득한 데이터 신호 중에서 검출한 음성 신호 구역과 소음 신호 구역을 획득하며, 음성 신호 구역의 MFCC 성학 특징으로 가우스 혼합 모형(Gaussian Mixture Model 모형, GMM 모형으로 약칭)의 파라미터 그룹을 추정한다. 구체적으로, 음성 활동 검출 알고리즘으로 짧은 시간 내의 에너지, 짧은 시간 내의 제로 크로싱 율, 짧은 시간 내의 자아관련 등과 같은 음성 특징 파라미터를 이용하여, 뮤트 신호(Mutesignal)와 비 음성 신호를 제거하며, 비 뮤트 신호를 보유하여 가우스 혼합 모형의 파라미터를 추정한다. 본 실시예에 있어서, MFCC 성학 특징의 0 차원, 1차원, 2차원 양으로 가우스 혼합 모형의 파라미터를 추정한다.
S53: 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다.
본 실시예에 있어서, 가우스 혼합 모형 파라미터에 대해 통용 배경 모형으로 요인 분석을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다. 구체적으로 통용 배경 모형의 요인 분석 알고리즘에는 다음과 같은 내용들이 포함된다.
Figure pct00021
, 여기서,
Figure pct00022
는 평균소리, 즉 평균값 벡터이며;
Figure pct00023
는 성문 공간 매핑 행열이며;
Figure pct00024
는 성문 차이 벡터이며, 즉 I-vector 특징이다. 요인 분석 알고리즘을 이용하여 가우스 혼합 모형으로 나타내는 성학 특징에 대한 인자분석을 진행하고, 성학 특징의 평균값 벡터량(평균값)과 성문 차이 벡터를 분리(잔여량)시켜 I-vector특징을 획득한다. 해당 요인 분석 알고리즘은 상이한 음성 사이의 성문 차이 벡터를 분리시키어, 상이한 음성 사이의 성문 특이성을 용이하게 추출한다.
S54: 성문 등록 요청을 수신하고, 성문 등록 요청에는 사용자 ID와 타겟 트레이닝 음성이 포함된다.
본 실시예에 있어서, 클라이언트 단말은 사용자가 입력한 성문 등록 요청을 수신하고, 해당 성문 등록 요청을 서버에 송신하고, 서버는 해당 성문 등록 요청을 수신한다.
S55: 가우스 혼합 모형 - 통용 배경 모형을 이용하여 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득한다.
구체적으로, 서버는 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 이용하여, 타겟 트레이닝 음성에 대한 특징을 추출하여, 타겟 성문 특징을 획득한다. 다시 말해서, 우선 타겟 트레이닝 음성에 대한 MFCC 특징을 추출하고, 대응되는 타겟 MFCC 성학 특징을 획득한 후, 타겟 MFCC 성학 특징에 대한 음성 활동 검출을 진행하고, 그 다음 활동 음성이 검출된 후의 MFCC 성학 특징을 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형에 두어 특징을 추출하여, 타겟 성문 특징을 획득한다.
S56: 사용자 ID와 타겟 성문 특징을 성문 특징 데이터베이스에 저장한다.
본 실시예에 있어서, 성문 등록 요청 중의 사용자 ID와 타겟 트레이닝 음성을 기반으로 획득한 타겟 성문 특징을 성문 특징 데이터베이스에 저장하여, 사용자 신분 식별시 사용자 ID를 기반으로 상응한 타겟 성문 특징을 조절한다.
해당 구체적인 실시형태에 있어서, 트레이닝 음성을 통하여 MFCC 특징 추출과 음성 활동 검출을 진행하며, 가우스 혼합 모형 파라미터를 추정하고, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 트레이닝을 진행한 가우스 혼합 모형 - 통용 배경 모형을 획득하며, 해당 가우스 혼합 모형 - 통용 배경 모형은 식별율이 높은 장점을 구비하고 있다. 성문 등록 요청을 수신할 시, 성문 등록 요청 중의 타겟 트레이닝 음성은 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 통하여 특징을 추출하고, 타겟 성문 특징을 획득하며, 타겟 성문 특징과 사용자 ID를 성문 특징 데이터베이스 중에 저장하여, 음성 식별 과정에 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응된 타겟 성문 특징을 획득할 수 있으며, 테스트 성문 특징에 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하여 음성 식별 효과에 달할 수 있다.
실시예 2
도면2는 본 실시예 중의 성문 식별 방법의 흐름도이다. 해당 성문 식별 장치는 클라이언트 단말과 백스테이지 서버를 포함하며, 클라이언트 단말이 채집한 테스트 음성에 대하여 신분 식별을 진행한다. 도2에 도시된바와 같이, 해당 성문 식별 장치는 클라이언트 단말(10)과 백스테이지 서버(20)를 포함한다.
클라이언트 단말(10)은 사용자 테스트 음성 채집에 사용되어, 백스테이지 서버에 음성 식별 요청을 송신하고, 음성 식별 요청에는 사용자 ID와 테스트 음성이 포함된다.
여기서, 클라이언트 단말(10)에는 스마트 휴대폰, 노트북, 데스크톱 컴퓨터 등과 같은 백스테이지 서버와 통신 연결되는 단말이 포함되며, 클라이언트 단말에는 테스트 음성을 채집하는데 사용되는 마이크가 설치되어 있거나 또는 외장 마이크 인터페이스가 설치되어 있다. 사용자 ID는 사용자 신분 식별을 유일하게 식별하는데 사용되는 바, 본 실시예 중의 테스트 음성은 사용자 ID에 관련되어, 테스트 음성에 대응되는 사용자의 확정에 이용되고 있다. 클라이언트 단말은 사용자에 대한 샘플링 및 녹음을 진행하여, wav 오디오 형식의 테스트 음성을 획득하며, 테스트 음성과 사용자 ID에 따라 음성 식별 요청을 형성하며, 음성 식별 요청을 백스테이지 서버에 송신한다.
클라이언트가 모바일 단말일 경우, 멀티 스레딩 방식을 이용하여 테스트 음성을 채집하고; 클라이언트 단말이 홈페이지 단말일 경우, Ajax 비동기식 리프레시 방식으로 테스트 음성을 채집하여, 백스테이지 서버와 통신할 시 사용자 조작을 중단하지 않고, 테스트 요청의 채집 속도를 향상시킬 수 있다. Ajax(Asynchronous JavaScript and XML), 비동기식 JavaScript와 XML는 클라이언트 단말의 스크립트를 이용하여 Web서버와 데이터를 교환하는 Web 응용 개발 방법이다.
백스테이지 서버(20)는 음성 식별 요청의 수신에 사용되고, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정한다.
여기서, 백스테이지 서버(20)는 적어도 하나의 클라이언트 단말이 송신한 음성 식별 요청을 수신하고, 적어도 하나의 음성 식별 요청을 메시지 대기열에 대기시킨다. 백스테이지 서버는 비동기식 메카니즘을 이용하여 메시지 대기열 중의 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여, 백스테이지 서버가 메시지 대기열 중의 각 정보를 처리할 경우, 송신측과 수신측은 서로 독립되기에, 대방의 회답을 대기할 필요가 없다. 메시지 대기열과 비동기식 메카니즘을 이용하여 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여 처리 대기 음성 식별 요청을 획득하며, 백스테이지 서버로 하여금 동시에 대량의 음성 식별 요청을 획득하도록 하고, 임의의 처리 대기 음성 식별 요청의 처리 시간 과도하게 긴 것으로 인한 기타 대량의 음성 식별 요청 유실을 피할 수 있도록 한다. 한편으로, 메시지 대기열과 비동기식 메카니즘을 이용하여 백스테이지 서버에 분포식 시스템을 구축하며, 음성 식별 요청의 최고 처리 능력과 영활성을 향상시키고, 프로세서 간의 결합도를 감소시키며, 각 음성 식별 요청이 모두 처리될 수 있도록 보증한다.
백스테이지 서버(20)는 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.
구체적으로, 타켓 성문 특징은 사전에 백스테이지 서버 중에 저장되는 것으로, 사용자 ID에 대응되는 사용자 성문 특징이다. 테스트 성문 특징은 음성 요청 중 테스트 음성에 대응되는 성문 특징이다. 여기서, 성문(Voiceprint)은 전기 음향 기기로 표시되는 언어 정보를 휴대한 음파 주파수 스펙트럼이다. 성문 특징에는, 예를 들어 스펙트럼, 캡스트럼, 포먼트, 기음, 반사계수, 비음, 심호흡음, 목이 잠긴소리, 웃음소리 등과 같은, 인류의 발음 메카니즘의 해부학 구조에 관련된 성학 특징이 포함되나, 이에 한정되는 것이 아니다.
본 실시예에 있어서, 타겟 성문 특징과 테스트 성문 특징은 I-vector(즉 identifying vector, 식별 벡터) 특징인 것이 바람직하다. 임의의 I-vector 특징은 I-vector 알고리즘을 이용하여 획득할 수 있고, i-vector 알고리즘은 숨음 변수를 추정하는 방법으로서, 고정된 길이의 저차원 벡터로 한 단락의 음성을 나타내고, I-vector 특징의 추출 과정에서 클래스 내, 클래스 간의 분산은 별도로 고려하지 않고, 이를 서브 공간에 방치하며, 다시 말해서 총 변량 공간(total variablity space) 중으로부터 고려하여, 무 감독의 방법으로 트레이닝을 진행할 수 있고, 또한 총 변량 공간 중에서 언어 종류와 관련이 없는 정보를 제거하여, 차원을 감소시키고 소음을 제거함과 동시에, 최대한도로 언어 종류에 관련되는 성학 정보를 보유한다.
백스테이지 서버(20)는 특징 검색 유닛(211) 및 특징 처리 유닛(212)을 포함한다.
특징 검색 유닛(211)은 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득한다.
구체적으로, 성문 특징 데이터베이스 중에 사전에 적어도 한 그룹의 사용자 ID 및 사용자 ID에 관련된 타겟 성문 특징을 저장하여, 처리 대기 음성 식별 요청 중의 사용자 ID에 따라 대응되는 타겟 성문 특징을 찾아낸다.
특징 처리 유닛(212)은 가우스 혼합 모형 - 통용 배경 모형을 이용하여 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 처리 대기 음성 식별 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.
여기서, 가우스 혼합 모형 - 통용 배경 모형(즉 Gaussian Mixture Model-Universal Background Model, GMM-UBM으로 약칭)은 화자와 관련없는 고 차원의 GMM으로서, 이는 화자의 트레이닝 음성에 따라 트레이닝에 적응하며, 다시 말해서 음성 모형은 화자를 통해 자신의 음성으로 모형 중에 포함되지 않는 음성 상황을 반영하며, 화자와 관련없는 음성 특징 분포를 통해 대략적인 설명을 진행하고, 식별율이 높은 특점을 구비하고 있다.
구체적으로 백스테이지 서버(20)는 수신된 음성 식별 요청을 메시지 대기열에 대기시키며, 유휴 시간이 있을 때, 메시지 대기열에서 처리 대기 음성 식별 요청을 취하여 백스테이지 Servlet 용기에 전송하여 처리시키며, Servlet용기는 하나의 HttpRequest 대상을 설립하여, 송신한 정보를 이 대상 중에 저장함과 동시에 HttpResponse 대상을 설립하여, HttpRequest와 HttpResponse를 파라미터로 하여 HttpServlet 대상에 전송하고, HttpServlet 대상의 service 방법을 조절하며, service방법 중에서 가우스 혼합 모형 - 통용 배경 모형 조절을 통해 테스트 음성을 처리하여, 테스트 성문 특징을 획득한다.
백스테이지 서버(20)는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자 대응 여부를 판단하고, 클라이언트 단말에 판단 결과를 출력한다.
타겟 성문 특징은, 사전에 성문 특징 데이터베이스 중에 저장된, 사용자 ID에 관련된 성문 특징이고, 테스트 성문 특징은 클라이언트 단말이 채집한 사용자 ID와 관련된 테스트 음성에 대응되는 성문 특징으로서, 두 개가 동일하거나 또는 유사도가 사전 설정 유사 역치에 달할 경우, 양자를 동일한 사용자로 인정하고, 클라이언트 단말에 양자가 동일한 사용자이거나 동일한 사용자가 아닌 판단 결과를 출력한다.
백스테이지 서버(20)는 구체적으로 특징 차원 감소 유닛(221), 코사인 측정 처리 유닛(222) 및 사용자 식별 판단 유닛(223)을 포함한다.
특징 차원 감소 유닛(221)은 PLDA 알고리즘을 이용하여 타겟 성문 특징과 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득한다.
여기서, PLDA(Probabilistic Linear Discriminant Analysis) 알고리즘은 채널 보상 알고리즘이다. PLDA는 I-vector 특징을 기반으로 하고, I-vector 특징에는 화자의 정보가 포함되어 있을 뿐만 아니라 채널 차이 정보도 포함되어 있으나, 우리는 화자의 정보에만 관심이 있기에, 채널 보상이 필요하다. PLDA 알고리즘의 채널 보상 기능은 LDA 알고리즘보다 더욱 양호하다.
여기서, PLDA 알고리즘은,
(1)
Figure pct00025
Figure pct00026
를 초기화하는 단계;
(2)
Figure pct00027
를 이용하여
Figure pct00028
를 계산하는 단계;
(3)
Figure pct00029
가 지정 역치보다 작을 때까지,
Figure pct00030
을 이용하여
Figure pct00031
를 계산하고, 되돌아가
Figure pct00032
를 이용하여
Figure pct00033
를 계산하는 단계를 포함하며,
여기서,
Figure pct00034
는 평균값 성문 벡터이고;
Figure pct00035
는 클래스 사이의 거리이며;
Figure pct00036
는 성문 특징이며;
Figure pct00037
는 반복 횟수이다.
코사인 측정 처리 유닛(222)은, 코사인 측정함수를 이용하여, 타겟 차원 감소값과 테스트 차원값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득한다.
구체적으로, 코사인 측정 함수에는 다음과 같은 내용이 포함된다.
Figure pct00038
; 여기서,
Figure pct00039
는 타겟 성문 특징이며,
Figure pct00040
는 테스트 성문 특징이며,
Figure pct00041
는 시간이다. 코사인 측정 함수를 이용하여 타겟 성문 특징과 테스트 성문 특징사이의 거리를 측정하고, 타겟 성문 특징과 테스트 성문 특징이 지정 유한 차원 공간 내에서 전개될 수 있을 경우, 해당 코사인 측정 함수에 의한 계산은 간단하고 효과적이며 직접적이고 효과적이다.
사용자 식별 판단 유닛(223)은, 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다.
구체적으로,
Figure pct00042
일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자이며; 반대로,
Figure pct00043
일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자가 아니며; 여기서
Figure pct00044
는 유사 역치로서, 50%보다 큰 상수일 수 있다.
클라이언트(10)는, 판단 결과를 수신하고 표시한다.
해당 판단 결과는 테스트 음성에 대응되는 테스트 성문 특징과 성문 특징 데이터베이스에 저장된 타겟 성문 특징의 화자가 동일한 사용자인 판단 결과 또는 동일한 사용자가 아닌 판단 결과를 인정할 수 있다.
본 발명이 제공하는 성문 식별 장치에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하고, 신속한 음성 식별 효과에 달하여, 음성 식별 효율을 제고시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청의 처리 요율을 향상시키고, 장시간 처리로 인한 일부 음성 식별 요청의 유실을 피할 수 있다.
구체적인 실시형태에 있어서, 해당 성문 식별 장치는 성학 특징 추출 유닛(231), 음성 활동 검출 유닛(232), 모형 트레이닝 유닛(233), 등록 음성 수신 유닛(234), 타켓 성문 특징 획득 유닛(235) 및 타겟 성문 특징 저장 유닛(236)을 포함한다.
성학 특성 추출 유닛(231)은, 트레이닝 음성에 대하여 MCFF 특징 추출을 진행하여, MFCC 성학 특징을 획득한다.
여기서, MFCC(Mel Frequency Cepstrum Coefficients, 멜 주파수 캡스트럼 계수). 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하는 과정에는 다음과 같은 내용이 포된다. 트레이닝 음성에 대한 프리엠퍼시스, 프레이밍, 창 추가를 진행하고; 각 짧은 시간 내에 창을 분석하며, FFT(Fast Fourier Transform, 고속 푸리에 변환)을 통해 대응되는 주파수 스펙트럼을 획득하며; 상기 주파수 스펙트럼은 Mel 필터 그룹을 통하여 멜 주파수를 획득하며; Mel 주파수 스펙트럼 위에서 캡스트럼 분석(로그 값을 취하고, 역변환을 진행하는 바, 실제적으로 역변환은 일반적으로 DCT 이산 코사인 변환에 의해 실현되며, DCT를 취한 후의 2번째부터 13번째의 계수를 MFCC 계수로 함)을 진행하여 멜 주파수 캡스트럼 계수 MFCC를 획득하여, MFCC 성학 특징을 획득한다.
음성 활동 검출 유닛(232)은, MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정한다.
여기서, 음성 활동 검출은 음성 활동 검출(Voice Activity detection, VAD) 알고리즘을 이용하여 음성과 소음의 부동한 특성에 대하여 음성과 소음 판단을 진행하고, 연속 샘플링을 통하여 획득한 데이터 신호 중에서 검출한 음성 신호 구역과 소음 신호 구역을 획득하며, 음성 신호 구역의 MFCC 성학 특징으로 가우스 혼합 모형(Gaussian Mixture Model 모형, GMM 모형으로 약칭)의 파라미터 그룹을 추정한다. 구체적으로, 음성 활동 검출 알고리즘으로 짧은 시간 내의 에너지, 짧은 시간 내의 제로 크로싱 율, 짧은 시간 내의 자아관련 등과 같은 음성 특징 파라미터를 이용하여, 뮤트 신호와 비 음성 신호를 제거하여, 비 뮤트 신호를 보유하여 가우스 혼합 모형의 파라미터를 추정한다. 본 실시예에 있어서, MFCC 성학 특징의 0 차원, 1차원, 2차원 양으로 가우스 혼합 모형의 파라미터를 추정한다.
모형 트레이닝 유닛(233)은, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다.
본 실시예에 있어서, 가우스 혼합 모형 파라미터에 대해 통용 배경 모형으로 요인 분석을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다. 구체적으로 통용 배경 모형의 요인 분석 알고리즘에는 다음과 같은 내용들이 포함된다.
Figure pct00045
, 여기서,
Figure pct00046
는 평균소리, 즉 평균값 벡터이며;
Figure pct00047
는 성문 공간 매핑 행열이며;
Figure pct00048
는 성문 차이 벡터이며, 즉 I-vector 특징이다. 요인 분석 알고리즘을 이용하여 가우스 혼합 모형으로 나타내는 성학 특징에 대한 요인 분석을 진행하고, 성학 특징의 평균값 벡터량(평균값)과 성문 차이 벡터를 분리(잔여량)시켜 I-vector 특징을 획득한다. 해당 요인 분석 알고리즘은 상이한 음성 사이의 성문 차이 벡터를 분리시키어, 상이한 음성 사이의 성문 특이성을 용이하게 추출한다.
등록음성 수신 유닛(234)은, 성문 등록 요청을 수신하고, 성문 등록 요청에는 사용자 ID와 타겟 트레이닝 음성이 포함된다. 본 실시예에 있어서, 클라이언트 단말은 사용자가 입력한 성문 등록 요청을 수신하고, 해당 성문 등록 요청을 서버에 송신하고, 서버는 해당 성문 등록 요청을 수신한다.
타겟 성문 특징 획득 유닛(235)은, 가우스 혼합 모형 - 통용 배경 모형을 이용하여 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득한다. 구체적으로, 서버는 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 이용하여, 타겟 트레이닝 음성에 대한 특징을 추출하여, 타겟 성문 특징을 획득한다. 다시 말해서, 우선 타겟 트레이닝 음성에 대한 MFCC 특징을 추출하고, 대응되는 타겟 MFCC 성학 특징을 획득한 후, 타겟 MFCC 성학 특징에 대한 음성 활동 검출을 진행하고, 그 다음 활동 음성이 검출된 후의 MFCC 성학 특징을 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형에 두어 특징을 추출하여, 타겟 성문 특징을 획득한다.
타겟 성문 특징 저장 유닛(236)은, 사용자 ID와 타겟 성문 특징을 성문 특징 데이터베이스에 저장한다. 본 실시예에 있어서, 성문 등록 요청 중의 사용자 ID와 타겟 트레이닝 음성을 기반으로 획득한 타겟 성문 특징을 성문 특징 데이터베이스에 저장하여, 사용자 신분 식별시 사용자 ID를 기반으로 상응한 타겟 성문 특징을 조절한다.
해당 구체적인 실시형태가 제공한 음성 식별 장치에 있어서, 트레이닝 음성을 통하여 MFCC 특징 추출과 음성 활동 검출을 진행하며, 가우스 혼합 모형 파라미터를 추정하고, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 트레이닝을 진행한 가우스 혼합 모형 - 통용 배경 모형을 획득하며, 해당 가우스 혼합 모형 - 통용 배경 모형은 식별율이 높은 장점을 구비하고 있다. 성문 등록 요청을 수신할 시, 성문 등록 요청 중의 타겟 트레이닝 음성은 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 통하여 특징을 추출하고, 타겟 성문 특징을 획득하며, 타겟 성문 특징과 사용자 ID를 성문 특징 데이터베이스 중에 저장하여, 음성 식별 과정에 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응된 타겟 성문 특징을 획득하며, 테스트 성문 특징과 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하여 음성 식별 효과에 달할 수 있다.
도3은 본 발명의 일 실시예가 제공한 백스테이지 서버의 모식도이다. 도3에 도시된 바와 같이, 해당 실시예의 백스테이지 서버(3)는, 프로세서(30), 메모리(31) 및 상기 메모리(31) 중에 저장되고 상기 프로세서(30)에 의해 수행되는 컴퓨터 프로그램(32)을 포함하는 바, 예를 들어 상기 프로그램은 상술한 성문 식별 방법을 수행하는 프로그램이다. 상기 프로세서(30)는 상기 컴퓨터 프로그램(32)을 수행할 시 상기 각 성문 식별 방법의 실시예 중의 단계를 실현하는 바, 예를 들어 도면1에 도시한 단계 S10 부터 S50를 실현한다. 또는, 상기 프로세서(30)가 상기 컴퓨터 프로그램(32)을 수행할 시 상기 각 장치의 실시예 중의 각 모듈/유닛 기능을 실현하는 바, 예를 들어 도면2중의 백스테이지 서버(20)의 각 유닛의 기능을 실현한다.
예시한 바와 같이, 상기 컴퓨터 프로그램(32)은 하나 또는 복수 개의 모듈/유닛으로 분할될 수 있으며, 상기 하나 또는 복수 개의 모듈/유닛은 상기 메모리(31) 중에 저장되고, 상기 프로세서(30)로 수행하여, 본 발명을 완성한다. 상기 하나 또는 복수 개의 모듈/유닛은 특정 기능을 완성할 수 있는 일련의 컴퓨터 프로그램 명령구역일 수 있고, 해당 명령은 상기 컴퓨터 프로그램(32)이 상기 백스테이지 서버(3) 중의 수행 과정에 사용된다.
상기 백스테이지 서버(3)는 로컬 서버, 클라우드 서버 등과 같은 계산 설비이다. 상기 백스테이지 서버에는 프로세서(30), 메모리(31)가 포함되지만 이에 한정되는 것이 아니다. 당업자는, 도3은 백스테이지 서버(3)의 예시일 뿐이고, 백스테이지 서버(3)를 한정하는 것이 아니며, 도시보다 많거나 적은 부품을 포함할 수 있거나, 또는 일부 부품을 조합하거나, 또는 상이한 부품을 포함할 수 있고, 예를 들어 상기 백스테이지 서버는 또한 입력 출력 설비, 네트워크 액세스 설비, 버스 등을 포함할 수 있다는 것을 이해해야 할 것이다.
상기 프로세서(30)는 중앙 프로세서(Central Processing Unit, CPU)이거나, 기타 통용 프로세서, 데이터 신호 프로세서(Digital Signal Processor, DSP), 전용 집적회로(Application Specific Integrated Circuit, ASIC), 필드 프로그래머블 게이트 어레이(Field-Programmable Gate Array, FPGA) 또는 기타 프로그래머블 논리장치, 개별 게이트 또는 트랜지스터 논리장치, 개별 하드웨어 부품 등이다. 통용 프로세서는 마이크로 프로세서이거나 또는 임의의 통상적인 프로세서이다.
상기 메모리(31)는 상기 백스테이지 서버(3)의 내부 메모리일 수 있는 바, 예를 들어 백스테이지 서버(3)의 하드웨어이거나 메모리이다. 상기 메모리(31)는 상기 백스테이지 서버(3)의 외부 저장 장치이며, 예를 들어 상기 백스테이지 서버(3) 위에 배치한 삽입 연결식 하드웨어, 스마트 미디어 카드(Smart Media Card, SMC), 안전 데이터(Secure Digital, SD) 카드, 플래시 카드(Flash Card) 등이 있다. 또한, 상기 메모리(31)는 상기 백스테이지 서버(3)의 내부 메모리 장치를 포함할 수도 있고, 외부 메모리 장치를 포함할 수도 있다. 상기 메모리(31)는 상기 컴퓨터 프로그램 및 상기 백스테이지 서버에 필요한 기타 프로그램과 데이터 저장에 사용된다. 상기 메모리(31)는 이미 출력되었거나 출력할 데이터 저장에 일시적으로 사용될 수 있다.
본 발명은 몇개 구체적인 실시예를 통하여 설명되었는 바, 당업자는 본 발명의 범위를 벗어나지 않는 상황 하에서, 본 발명에 대한 각종 변환과 동등한 대체를 진행할 수 있다는것이 자명하다. 이 외에도, 특정 상황 또는 구체적인 상황하에서 본 발명의 범위를 벗어나지 않는 상황 하에서 본 발명에 대한 각종 수정을 진행할 수 있다. 따라서, 본 발명은 개시된 구체적인 실시예에 한정되는 것이 아니라, 본 특허청구의 범위내에 전부 실시형태를 포함해야 할 것이다.

Claims (20)

  1. 성문 식별 방법에 있어서,
    클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
    백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
    백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
    백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
    클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함하는 것을 특징으로 하는
    성문 식별 방법.
  2. 제1항에 있어서,
    상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
    상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
    가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
    성문 식별 방법.
  3. 제2항에 있어서,
    트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
    상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
    상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
    사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
    상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
    상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
    성문 식별 방법.
  4. 제1항에 있어서,
    상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
    PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
    코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
    상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
    성문 식별 방법.
  5. 제4항에 있어서,
    상기 PLDA 알고리즘은,
    Figure pct00049
    Figure pct00050
    를 초기화하는 단계;
    Figure pct00051
    를 이용하여
    Figure pct00052
    를 계산하는 단계;
    Figure pct00053
    가 지정 역치보다 작을 때까지,
    Figure pct00054
    을 이용하여
    Figure pct00055
    를 계산하고, 되돌아가
    Figure pct00056
    를 이용하여
    Figure pct00057
    를 계산하는 단계를 포함하며,
    여기서,
    Figure pct00058
    는 평균값 성문 벡터이고;
    Figure pct00059
    는 클래스 사이의 거리이며;
    Figure pct00060
    는 성문 특징이며;
    Figure pct00061
    는 반복 횟수이며,
    상기 코사인 측정 함수에는,
    Figure pct00062
    이 포함되고,
    여기서,
    Figure pct00063
    는 타겟 성문 특징이고,
    Figure pct00064
    는 테스트 성문 특징이며,
    Figure pct00065
    는 시간인 것을 특징으로 하는
    성문 식별 방법.
  6. 성문 식별 장치에 있어서,
    사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는데 사용되는 클라이언트 단말;
    상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는데 사용되는 백스테이지 서버;
    상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는데 사용되는 백스테이지 서버;
    상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단 결과를 출력하는데 사용되는 백스테이지 서버; 및
    상기 판단 결과를 수신하고 표시하는데 사용되는 클라이언트 단말을 포함하는 것을 특징으로 하는
    성문 식별 장치.
  7. 제6항에 있어서,
    상기 백스테이지 서버는,
    상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는, 특징 검색 유닛; 및
    가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는, 특징 처리 유닛을 포함하는 것을 특징으로 하는
    성문 식별 장치.
  8. 제7항에 있어서,
    상기 백스테이지 서버는,
    트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는, 성학 특징 추출 유닛;
    상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는, 음성 활동 검출 유닛;
    상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는, 모형 트레이닝 유닛;
    사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는, 등록 음성 수신 유닛;
    상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는, 타켓 성문 특징 획득 유닛; 및
    상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는, 타겟 성문 특징 저장 유닛을 더 포함하는 것을 특징으로 하는
    성문 식별 장치.
  9. 제6항에 있어서,
    상기 백스테이지 서버는,
    PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는, 특징 차원 감소 유닛;
    코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는, 코사인 측정 처리 유닛; 및
    상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는, 사용자 식별 판단 유닛을 포함하는 것을 특징으로 하는
    성문 식별 장치.
  10. 제9항에 있어서,
    상기 PLDA 알고리즘은,
    상기 PLDA 알고리즘은,
    Figure pct00066
    Figure pct00067
    를 초기화하는 단계;
    Figure pct00068
    를 이용하여
    Figure pct00069
    를 계산하는 단계;
    Figure pct00070
    가 지정 역치보다 작을 때까지,
    Figure pct00071
    을 이용하여
    Figure pct00072
    를 계산하고, 되돌아가
    Figure pct00073
    를 이용하여
    Figure pct00074
    를 계산하는 단계를 포함하며,
    여기서,
    Figure pct00075
    는 평균값 성문 벡터이고;
    Figure pct00076
    는 클래스 사이의 거리이며;
    Figure pct00077
    는 성문 특징이며;
    Figure pct00078
    는 반복 횟수이며,
    상기 코사인 측정 함수에는,
    Figure pct00079
    이 포함되고,
    여기서,
    Figure pct00080
    는 타겟 성문 특징이고,
    Figure pct00081
    는 테스트 성문 특징이며,
    Figure pct00082
    는 시간인 것을 특징으로 하는
    성문 식별 장치.
  11. 백스테이지 서버에 있어서,
    메모리, 프로세서 및 상기 메모리중에 저장되고 상기 프로세서에서 수행되는 컴퓨터 프로그램을 포함하며, 상기 프로세서는 상기 컴퓨터 프로그램을 수행할 시,
    클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
    백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
    백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
    백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
    클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 실현하는 것을 특징으로 하는
    백스테이지 서버.
  12. 제11항에 있어서,
    상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
    상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
    가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
    백스테이지 서버.
  13. 제12항에 있어서,
    트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
    상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
    상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
    사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
    상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
    상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
    백스테이지 서버.
  14. 제11항에 있어서,
    상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
    PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
    코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
    상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
    백스테이지 서버.
  15. 제14항에 있어서,
    상기 PLDA 알고리즘은,
    Figure pct00083
    Figure pct00084
    를 초기화하는 단계;
    Figure pct00085
    를 이용하여
    Figure pct00086
    를 계산하는 단계;
    Figure pct00087
    가 지정 역치보다 작을 때까지,
    Figure pct00088
    을 이용하여
    Figure pct00089
    를 계산하고, 되돌아가
    Figure pct00090
    를 이용하여
    Figure pct00091
    를 계산하는 단계를 포함하며,
    여기서,
    Figure pct00092
    는 평균값 성문 벡터이고;
    Figure pct00093
    는 클래스 사이의 거리이며;
    Figure pct00094
    는 성문 특징이며;
    Figure pct00095
    는 반복 횟수이며,
    상기 코사인 측정 함수에는,
    Figure pct00096
    이 포함되고,
    여기서,
    Figure pct00097
    는 타겟 성문 특징이고,
    Figure pct00098
    는 테스트 성문 특징이며,
    Figure pct00099
    는 시간인 것을 특징으로 하는
    백스테이지 서버.
  16. 컴퓨터 판독가능 저장 매체에 있어서,
    컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로세서에 의해 수행될 시,
    클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
    백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
    백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
    백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
    클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 실현하는 것을 특징으로 하는
    컴퓨터 판독가능 저장 매체.
  17. 제16항에 있어서,
    상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
    상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
    가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
    컴퓨터 판독가능 저장 매체.
  18. 제17항에 있어서,
    트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
    상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
    상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
    사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
    상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
    상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
    컴퓨터 판독가능 저장 매체.
  19. 제16항에 있어서,
    상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
    PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
    코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
    상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
    컴퓨터 판독가능 저장 매체.
  20. 제 19 항에 있어서,
    상기 PLDA 알고리즘은,
    Figure pct00100
    Figure pct00101
    를 초기화하는 단계;
    Figure pct00102
    를 이용하여
    Figure pct00103
    를 계산하는 단계;
    Figure pct00104
    가 지정 역치보다 작을 때까지,
    Figure pct00105
    을 이용하여
    Figure pct00106
    를 계산하고, 되돌아가
    Figure pct00107
    를 이용하여
    Figure pct00108
    를 계산하는 단계를 포함하며,
    여기서,
    Figure pct00109
    는 평균값 성문 벡터이고;
    Figure pct00110
    는 클래스 사이의 거리이며;
    Figure pct00111
    는 성문 특징이며;
    Figure pct00112
    는 반복 횟수이며,
    상기 코사인 측정 함수에는,
    Figure pct00113
    이 포함되고,
    여기서,
    Figure pct00114
    는 타겟 성문 특징이고,
    Figure pct00115
    는 테스트 성문 특징이며,
    Figure pct00116
    는 시간인 것을 특징으로 하는
    성문 식별 방법.
KR1020187015547A 2017-02-16 2017-06-26 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버 KR20180104595A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710083629.0 2017-02-16
CN201710083629.0A CN106847292B (zh) 2017-02-16 2017-02-16 声纹识别方法及装置
PCT/CN2017/090046 WO2018149077A1 (zh) 2017-02-16 2017-06-26 声纹识别方法、装置、存储介质和后台服务器

Publications (1)

Publication Number Publication Date
KR20180104595A true KR20180104595A (ko) 2018-09-21

Family

ID=59128377

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187015547A KR20180104595A (ko) 2017-02-16 2017-06-26 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버

Country Status (8)

Country Link
US (1) US10629209B2 (ko)
EP (1) EP3584790A4 (ko)
JP (1) JP6649474B2 (ko)
KR (1) KR20180104595A (ko)
CN (1) CN106847292B (ko)
AU (2) AU2017341161A1 (ko)
SG (1) SG11201803895RA (ko)
WO (1) WO2018149077A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190067135A (ko) 2019-05-27 2019-06-14 박경훈 묶을 수 있는 끈이 일체형으로 직조 된 망사 자루 연속 자동화 제조방법 및 그로써 직조 된 망사 자루

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847292B (zh) 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
US10170112B2 (en) * 2017-05-11 2019-01-01 Google Llc Detecting and suppressing voice queries
CN107492379B (zh) * 2017-06-30 2021-09-21 百度在线网络技术(北京)有限公司 一种声纹创建与注册方法及装置
CN109215643B (zh) * 2017-07-05 2023-10-24 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108806696B (zh) * 2018-05-08 2020-06-05 平安科技(深圳)有限公司 建立声纹模型的方法、装置、计算机设备和存储介质
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN108986792B (zh) * 2018-09-11 2021-02-12 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及系统
CN110491370A (zh) * 2019-07-15 2019-11-22 北京大米科技有限公司 一种语音流识别方法、装置、存储介质及服务器
CN110364182B (zh) * 2019-08-01 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种声音信号处理方法及装置
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN111048100B (zh) * 2019-11-21 2023-09-08 深圳市东进银通电子有限公司 一种大数据并行化声纹辨认系统和方法
CN111081261B (zh) * 2019-12-25 2023-04-21 华南理工大学 一种基于lda的文本无关声纹识别方法
CN111370000A (zh) * 2020-02-10 2020-07-03 厦门快商通科技股份有限公司 声纹识别算法评估方法、系统、移动终端及存储介质
CN111312259B (zh) * 2020-02-17 2022-12-30 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、系统、设备和计算机可读存储介质
CN111554303B (zh) * 2020-05-09 2023-06-02 福建星网视易信息系统有限公司 一种歌曲演唱过程中的用户身份识别方法及存储介质
CN112000570A (zh) * 2020-07-29 2020-11-27 北京达佳互联信息技术有限公司 应用测试方法、装置、服务器及存储介质
CN112185395B (zh) 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112214298B (zh) * 2020-09-30 2023-09-22 国网江苏省电力有限公司信息通信分公司 基于声纹识别的动态优先级调度方法及系统
US11522994B2 (en) 2020-11-23 2022-12-06 Bank Of America Corporation Voice analysis platform for voiceprint tracking and anomaly detection
CN112669820B (zh) * 2020-12-16 2023-08-04 平安科技(深圳)有限公司 基于语音识别的考试作弊识别方法、装置及计算机设备
CN114780787A (zh) * 2022-04-01 2022-07-22 杭州半云科技有限公司 声纹检索方法、身份验证方法、身份注册方法和装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU670379B2 (en) 1993-08-10 1996-07-11 International Standard Electric Corp. System and method for passive voice verification in a telephone network
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
JP2002304379A (ja) * 2001-04-05 2002-10-18 Sharp Corp 個人認証方法および個人認証システム
US6853716B1 (en) * 2001-04-16 2005-02-08 Cisco Technology, Inc. System and method for identifying a participant during a conference call
JP2003114617A (ja) * 2001-10-03 2003-04-18 Systemfrontier Co Ltd 音声による認証システム及び音声による認証方法
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
JP2005115921A (ja) * 2003-09-17 2005-04-28 Moss Institute Co Ltd 音声情報管理方法,音声情報管理システム,音声情報管理プログラム及び音声データ管理装置
US20060015335A1 (en) * 2004-07-13 2006-01-19 Ravigopal Vennelakanti Framework to enable multimodal access to applications
CN1936967A (zh) * 2005-09-20 2007-03-28 吴田平 声纹考勤机
CN101197131B (zh) * 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
JP2009230267A (ja) * 2008-03-19 2009-10-08 Future Vision:Kk 会議室設備及び会議室設備を用いた会議記録システム
JP2009237774A (ja) * 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP2010182076A (ja) * 2009-02-05 2010-08-19 Nec Corp 認証システム、認証サーバ、証明方法およびプログラム
CN101923855A (zh) 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN102402985A (zh) 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 提高声纹识别安全性的声纹认证系统及其实现方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102509547B (zh) * 2011-12-29 2013-06-19 辽宁工业大学 基于矢量量化的声纹识别方法及系统
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
GB2529503B8 (en) * 2012-09-11 2020-01-29 Auraya Pty Ltd Voice authentication system and method
CN103035245A (zh) * 2012-12-08 2013-04-10 大连创达技术交易市场有限公司 以太网声纹识别系统
JP6276523B2 (ja) 2013-06-28 2018-02-07 株式会社フジクラ 酸化物超電導導体及び酸化物超電導導体の製造方法
WO2015011867A1 (ja) * 2013-07-26 2015-01-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報管理方法
EP3261087A1 (en) * 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
EP2897076B8 (en) * 2014-01-17 2018-02-07 Cirrus Logic International Semiconductor Ltd. Tamper-resistant element for use in speaker recognition
CN103915096A (zh) * 2014-04-15 2014-07-09 胡上杰 警务声纹识别方法
WO2016137042A1 (ko) 2015-02-27 2016-09-01 삼성전자 주식회사 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스
CN104835498B (zh) * 2015-05-25 2018-12-18 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105845140A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 应用于短语音条件下的说话人确认方法和装置
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN106297806A (zh) * 2016-08-22 2017-01-04 安徽工程大学机电学院 基于声纹的智能传声系统
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190067135A (ko) 2019-05-27 2019-06-14 박경훈 묶을 수 있는 끈이 일체형으로 직조 된 망사 자루 연속 자동화 제조방법 및 그로써 직조 된 망사 자루

Also Published As

Publication number Publication date
CN106847292A (zh) 2017-06-13
EP3584790A1 (en) 2019-12-25
SG11201803895RA (en) 2018-09-27
US10629209B2 (en) 2020-04-21
EP3584790A4 (en) 2021-01-13
JP6649474B2 (ja) 2020-02-19
CN106847292B (zh) 2018-06-19
US20190272829A1 (en) 2019-09-05
AU2017341161A1 (en) 2018-08-30
JP2019510248A (ja) 2019-04-11
WO2018149077A1 (zh) 2018-08-23
AU2017101877A4 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
KR20180104595A (ko) 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
TWI641965B (zh) 基於聲紋識別的身份驗證的方法及系統
US9940935B2 (en) Method and device for voiceprint recognition
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
CN109147797B (zh) 基于声纹识别的客服方法、装置、计算机设备及存储介质
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
Ajmera et al. Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram
CN108694954A (zh) 一种性别年龄识别方法、装置、设备及可读存储介质
CN110457432A (zh) 面试评分方法、装置、设备及存储介质
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
WO2014114116A1 (en) Method and system for voiceprint recognition
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
WO2020034628A1 (zh) 口音识别方法、装置、计算机装置及存储介质
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
CN111161713A (zh) 一种语音性别识别方法、装置及计算设备
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
CN112381989A (zh) 排序方法、装置、系统和电子设备
Sailaja et al. Text Independent Speaker Identification Using Finite Doubly Truncated Gaussian Mixture Model
Al-Hmouz et al. Multimodal biometrics using multiple feature representations to speaker identification system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application