KR20140144233A - 성문 특징 모델 갱신 방법 및 단말 - Google Patents

성문 특징 모델 갱신 방법 및 단말 Download PDF

Info

Publication number
KR20140144233A
KR20140144233A KR1020147029482A KR20147029482A KR20140144233A KR 20140144233 A KR20140144233 A KR 20140144233A KR 1020147029482 A KR1020147029482 A KR 1020147029482A KR 20147029482 A KR20147029482 A KR 20147029482A KR 20140144233 A KR20140144233 A KR 20140144233A
Authority
KR
South Korea
Prior art keywords
audio stream
speaker
original
feature model
unit
Prior art date
Application number
KR1020147029482A
Other languages
English (en)
Inventor
팅 루
Original Assignee
후아웨이 디바이스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 디바이스 컴퍼니 리미티드 filed Critical 후아웨이 디바이스 컴퍼니 리미티드
Publication of KR20140144233A publication Critical patent/KR20140144233A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 음성 인식 기술 분야에 적용 가능하며, 성문 특징 모델 갱신 방법 및 단말을 제공한다. 성문 특징 모델 갱신 방법은: 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하는 단계; 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하는 단계; 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하는 단계; 및 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신하는 단계를 포함한다. 본 발명에서는, 호출 동안 유효한 오디오 스트림이 적응적으로 추출되고 추가의 오디오 스트림 학습 샘플로서 사용되어, 원래의 성문 특징 모듈을 동적으로 정정하며, 이에 의해 상대적으로 높은 실용성의 전제 하에 성문 특징 모델의 정확도 및 인식 정확도를 높이는 목적을 달성한다.

Description

성문 특징 모델 갱신 방법 및 단말{METHOD FOR UPDATING VOICEPRINT FEATURE MODEL AND TERMINAL}
본 출원은 2012년 7월 9일에 중국특허청에 출원되고 발명의 명칭이 "METHOD FOR UPDATING VOICEPRINT FEATURE MODEL AND TERMINAL"인 중국특허출원 No. 201210235593.0에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 본 명세서에 원용되어 병합된다.
본 발명은 음성 인식 기술 분야에 관한 것이며, 특히 성문 특징 모델 갱신 방법 및 단말에 관한 것이다.
성문 인식은 사람의 소리를 사용함으로써 실행되는 인식 기술의 한 유형이다. 사람이 말을 할 때 사용되는 발성 기관 간에는 약간의 차이가 있으며, 임의의 두 사람 소리의 성문 스펙트로그램(voiceprint spectrogram)은 다르다. 그러므로 성문은 개인차를 나타내는 생물학적 특징으로 사용될 수 있다. 즉, 성문 특징 모델을 확립함으로써 서로 다른 개체를 나타낼 수 있는데, 이 성문 특징 모델을 사용하여 서로 다른 개체를 인식한다. 현재, 성문 특징 모델은 딜레마에 빠져 있는데, 이것은 학습 말뭉치의 길이 선택에 주로 반영되어 있다. 일반적으로, 성문 학습 말뭉치를 길게 하면 확립된 특징 모델을 더 정확해지고 인식 정확도가 높아지지만, 실용성이 떨어지고; 성문 학습 말뭉치를 짧게 하면 실용성은 좋아지지만, 인식 정확도가 높지 않다. 또한, 실제의 애플리케이션에서, 예를 들어, 화면 성문 잠금해제 애플리케이션에서, 보안을 충족하기 위해서는 높은 인식 정확도가 요구되고, 실용성을 좋게 하기 위해서는 학습 말뭉치가 과도하게 길어서는 안 된다.
기존의 성문 특징 모델 확립 방법에서는, 사용자가 성문 등록 구문에서 학습을 복수 회 수행하고 각각의 학습에서 짧은 말뭉치를 사용하며, 최종적으로 이 짧은 말뭉치를 긴 학습 말뭉치와 결합하여 특징 모델을 생성한다. 그렇지만, 사용자는 특정한 기간 동안 복수 회 학습 말뭉치를 수동으로 기록할 때 안 좋은 경험을 할 수 있고; 그 결합된 학습 말뭉치의 길이는 여전히 제한적이고, 정확한 특징 모델이 생성될 수 없고, 인식 정확도는 더 향상될 수 없으며; 말하는 속도의 변화와 감정 동요 역시 모델 확립 정확도에 영향을 미칠 수 있다. 그러므로 성문 특징 모듈의 정확도를 어떻게 개선할 것인가와 상대적으로 높은 실용성의 전제 하에서 인식 정확도를 더 향상시키는 것이 시급한 과제이다.
본 발명의 목적은 성문 특징 모델 갱신 방법 및 단말을 제공하여, 기존의 방법을 사용하여 성문 특징 모델을 획득할 때, 상대적으로 높은 실용성의 전제 하에서는 성문 특징 모델의 정확도를 개선하는 것이 확보될 수 없고, 그 결과 성문 특징 모델을 사용해서는 인식 정확도를 개선할 수 없다는 문제를 해결한다.
제1 관점에 따르면, 성문 특징 모델 갱신 방법은: 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하는 단계; 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하는 단계; 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하는 단계; 및 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신하는 단계를 포함한다.
제1 관점의 제1 가능한 실행 방법에서, 상기 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하는 단계 이전에, 상기 방법은: 사전설정된 오디오 스트림 학습 샘플에 따라 원래의 성문 특징 모델을 확립하는 단계를 더 포함한다.
제1 관점 또는 제1 관점의 제1 가능한 실행 방법을 참조하여, 제2 가능한 실행 방법에서, 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하는 단계는 구체적으로: 상기 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하는 단계 - 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함함 - ; 및 사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하는 단계를 포함한다.
제1 관점 또는 제1 관점의 제1 가능한 실행 방법 또는 제1 관점의 제2 가능한 실행 방법을 참조하여, 제3 가능한 실행 방법에서, 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하는 단계는: 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득하는 단계; 및 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하는 단계를 포함한다.
제1 관점 또는 제1 관점의 제1 가능한 실행 방법 또는 제1 관점의 제2 가능한 실행 방법 또는 제1 관점의 제3 가능한 실행 방법을 참조하여, 제4 가능한 실행 방법에서, 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신하는 단계는 구체적으로: 상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하는 단계 - 상기 사전설정된 오디오 스트림 학습 샘플은 상기 원래의 성문 특징 모델을 생성하기 위한 오디오 스트림임 - ; 및 상기 정정된 성문 특징 모델에 따라 상기 원래의 성문 특징 모델을 갱신하는 단계를 포함한다.
제2 관점에 따라 단말은, 원래의 오디오 스트림 획득 유닛, 세그먼테이션 및 클러스터링 유닛, 정합 유닛, 및 모델 갱신 유닛을 포함하며, 여기서 상기 원래의 오디오 스트림 획득 유닛은 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하고 상기 원래의 오디오 스트림을 상기 세그먼테이션 및 클러스터링 유닛에 송신하도록 구성되어 있으며; 상기 세그먼테이션 및 클러스터링 유닛은 상기 원래의 오디오 스트림 획득 유닛에 의해 송신된 원래의 오디오 스트림을 수신하고, 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하며, 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 상기 정합 유닛에 송신하도록 구성되어 있으며; 상기 정합 유닛은 상기 세그먼테이션 및 클러스터링 유닛에 의해 송신된 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 수신하고, 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하며, 상기 성공적으로 정합된 오디오 스트림을 상기 모델 갱신 유닛에 송신하도록 구성되어 있으며; 그리고 상기 모델 갱신 유닛은 상기 모델 갱신 유닛에 송신된 상기 성공적으로 정합된 오디오 스트림을 수신하고, 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있다.
제2 관점의 제1 가능한 실행 방식에서, 단말은 샘플 획득 유닛 및 원래의 모델 확립 유닛을 더 포함하며, 상기 샘플 획득 유닛은 사전설정된 오디오 스트림 학습 샘플을 획득하고, 상기 사전설정된 오디오 스트림 학습 샘플을 상기 원래의 모델 확립 유닛에 송신하도록 구성되어 있으며, 상기 원래의 모델 확립 유닛은 상기 샘플 획득 유닛에 의해 송신된 상기 사전설정된 오디오 스트림 학습 샘플을 수신하고, 상기 사전설정된 오디오 스트림 학습 샘플에 따라 상기 원래의 성문 특징 모델을 확립하도록 구성되어 있다.
제2 관점 또는 제2 관점의 제1 가능한 실행 방식을 참조해서, 제2 가능한 실행 방식에서, 상기 세그먼테이션 및 클러스터링 유닛은 구체적으로 세그먼테이션 유닛 및 클러스터링 유닛을 포함하며, 여기서 상기 세그먼테이션 유닛은 상기 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하며 - 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함함 - 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 상기 클러스터링 유닛에 송신하도록 구성되어 있으며; 그리고 상기 클러스터링 유닛은 상기 세그먼테이션 유닛에 의해 송신된, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 수신하고, 사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하도록 구성되어 있다.
제2 관점 또는 제2 관점의 제1 가능한 실행 방식 또는 제2 관점의 제2 가능한 실행 방식을 참조해서, 제3 가능한 실행 방식에서, 상기 정합 유닛은 구체적으로 정합도 획득 유닛 및 정합 오디오 스트림 획득 유닛을 포함하며, 여기서 상기 정합도 획득 유닛은 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득하고, 상기 정합도를 상기 정합 오디오 스트림 획득 유닛에 송신하도록 구성되어 있으며; 그리고 상기 정합 오디오 스트림 획득 유닛은 상기 정합도 획득 유닛에 의해 송신된, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 수신하고, 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하도록 구성되어 있다.
제2 관점 또는 제2 관점의 제1 가능한 실행 방식 또는 제2 관점의 제2 가능한 실행 방식 또는 제2 관점의 제3 가능한 실행 방식을 참조해서, 제4 가능한 실행 방식에서, 상기 모델 갱신 유닛은 구체적으로 정정 모델 획득 유닛 및 모델 갱신 서브유닛을 포함하며, 여기서 상기 정정 모델 획득 유닛은 상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하고, 상기 정정된 성문 특징 모델을 상기 모델 갱신 서브유닛에 송신하도록 구성되어 있으며; 그리고 상기 모델 갱신 서브유닛은 상기 정정 모델 획득 유닛에 의해 송신된 상기 정정된 성문 특징 모델을 수신하고, 상기 정정된 성문 특징 모델에 따라 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있다.
본 발명의 실시예에서는, 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하고, 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 획득하며, 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림을 원래의 성문 특징 모델과 개별적으로 정합하여 성공적으로 정합된 오디오 스트림을 획득하며, 그 성공적으로 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로 사용함으로써, 원래의 성문 특징 모델을 갱신할 수 있다. 이것은 기존의 방법을 사용하여 성문 특징 모델을 획득할 때, 상대적으로 높은 실용성의 전제 하에서는 성문 특징 모델의 정확도를 개선하는 것이 확보될 수 없고, 그 결과 성문 특징 모델을 사용해서는 인식 정확도를 개선할 수 없다는 문제를 해결하며, 이것은 성문 특징 모델의 정확도 및 인식 정확도를 개선한다.
도 1은 본 발명의 실시예 1에 따른 성문 특징 모델 갱신 방법을 실행하는 흐름도이다.
도 2는 본 발명의 실시예 2에 따른 성문 특징 모델 갱신 방법을 실행하는 흐름도이다.
도 3은 본 발명의 실시예에 따른 원래의 오디오 스트림의 세그먼테이션 및 클러스터링에 대한 개략도이다.
도 4는 본 발명의 실시예 3에 따른 단말에 대한 구조도이다.
도 5는 본 발명의 실시예 4에 따른 단말에 대한 구조도이다.
도 6은 본 발명의 실시예 5에 따른 단말에 대한 구조도이다.
도 7은 본 발명의 실시예 6에 따른 단말에 대한 구조도이다.
본 발명의 실시예의 목적, 기술적 솔루션, 및 이점을 더 명확하고 더 잘 이해할 수 있도록 하기 위해, 이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에 따른 기술적 솔루션에 대해 명확하고 완전하게 설명한다. 당연히, 이하의 상세한 설명에서의 실시예는 본 발명의 모든 실시예가 아닌 일부에 지나지 않는다. 당업자가 창조적 노력 없이 본 발명의 실시예에 기초하여 획득하는 모든 다른 실시예는 본 발명의 보호 범위 내에 있게 된다.
본 발명의 실시예에서는, 적어도 한 명의 화자의 원래의 오디오 스트림을 획득하고, 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 획득하며, 원래의 성문 특징 모델과 정합하는 오디오 스트림을 획득하며, 그 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로 사용함으로써, 원래의 성문 특징 모델을 갱신할 수 있으며, 이에 따라 성문 특징 모델의 정확도를 개선하고 사용자 경험에 대한 효과가 향상된다.
이하 본 발명의 특정한 실행에 대해 특정한 실시예를 참조하여 설명한다.
실시예 1:
도 1은 본 발명의 실시예 1에 따른 성문 특징 모델 갱신 방법을 실행하는 프로세스이고 다음과 같이 상세히 설명한다:
단계 S101: 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득한다.
원래의 오디오 스트림은 사용자가 이동 단말을 사용하여 전화를 걸거나 음성 채팅을 함으로써 생성하는 오디오 스트림일 수 있으며, 또는 음성을 레코딩하는 방식으로 획득된 오디오 스트림일 수 있다. 구체적으로, 다음과 같은 상황이 가능하다: 특정한 이동 단말 사용자가 호출 접속 상태에 있을 때, 사용자가 성문 학습 기능을 사용하는 것에 동의하는지를 질의하고, 동의하면 대화 동안 생성된 오디오 스트림이 기록되거나; 성문 학습 기능을 자동으로 가능하게 하는 스위치가 호출 동안 단말에 대해 구성되고, 사용자가 필요에 따라 스위치를 설정하거나; 성문 학습 기능이 단말에 대해 구성되고, 사용자는 오디오 스트림을 기록할 수 있다. 여러 사람이 전화 동안 또는 채팅 동안 차례로 대화에 참여할 수 있으므로, 이 경우에 획득된 원래의 오디오 스트림은 여러 사람의 오디오 데이터를 포함할 수 있다는 것에 유의해야 한다.
단계 S102: 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득한다.
구체적으로, 원래의 오디오 스트림은 적어도 한 명의 화자의 오디오 스트림을 포함하고 있기 때문에, 이 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할해야 하며, 여기서 복수의 오디오 클립 중 각각의 오디오 클립은 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함한다. 그런 다음 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립은 사전설정된 화자 클러스터링 알고리즘에 따라 클러스터링되어 최종적으로 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성한다.
단계 S103: 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득한다.
원래의 성문 모델은 사전설정된 오디오 스트림 학습 샘플에 따라 미리 확립되어 있는 성문 특징 모델이다. 원래의 성문 특징 모델은 특정한 사람이나 여러 사람에 대한 성문 등록 프로세스 후에 형성되는 특징 모델이고, 이 등록 프로세스는 학습 말뭉치의 길이에 대한 요건을 가지지 않으며, 이를 오디오 스트림 학습 샘플이라고도 한다. 이 경우, 성공적으로 정합된 오디오 스트림은 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도(matching degree)에 따라 선택될 수 있다.
단계 S104: 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신한다.
구체적으로, 상기 성공적으로 정합된 오디오 스트림을 획득한 후, 상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플을 기본으로 사용하며, 여기서 사전설정된 오디오 스트림 학습 샘플은 전술한 원래의 성문 특징 모델을 생성하기 위한 샘플이다. 그런 다음, 성문 등록 알고리즘 인터페이스를 호출하고, 정정된 성문 특징 모델이 생성되며, 여기서 정정된 성문 특징 모델은 더 정확한 성문 특징 모델이며, 이에 의해 모델 적응 및 지능의 목적을 달성한다.
선택적으로, 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림이 원래의 성문 특징 모델과 정합할 수 없는 상황에서, 성문 특징 모델은 사용자의 사전-설정에 따라 새롭게 확립되고 기록될 수 있다. 예를 들어, 처음 사용되는 단말에 있어서는, 원래의 성문 특징 모델이 무효이고, 정합에 사용되는 오디오 스트림은 존재하지 않는다. 이 경우, 특정한 스피커의 오디오 스트림은 사용자의 설정에 따라 인식되고, 성문 등록 알고리즘 인터페이스는 성문 특징 모델을 새롭게 확립하기 위해 호출되고, 원래의 성문 특징 모델은 그 새롭게 확립된 성문 특징 모델로 갱신된다.
본 발명의 본 실시예에서는, 적어도 한 명의 화자의 원래의 오디오 스트림을 획득하고, 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 획득하며, 원래의 성문 특징 모델과 정합하는 오디오 스트림을 획득하며, 그 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 원래의 성문 특징 모델을 갱신하며, 이에 의해 성문 특징 모델을 지속적으로 정정하고 갱신하는 목적을 달성하고, 성문 특징 모델의 정확도를 지속적으로 높이며, 사용자 경험을 향상시키는 등을 달성할 수 있다.
실시예 2:
도 2는 본 발명의 실시예 2에 따른 성문 특징 모델 갱신 방법을 실행하는 프로세스이고 다음과 같이 상세히 설명한다:
단계 S201: 사전설정된 오디오 스트림 학습 샘플에 따라 원래의 성문 특징 모델을 확립한다.
원래의 성문 특징 모델은 성문 등록 알고리즘 인터페이스를 호출함으로써 사전설정된 오디오 스트림 학습 샘플에 따라 확립된 성문 특징 모델이다.
원래의 성문 특징 모델은 특정한 사람이나 여러 사람에 대한 성문 등록 프로세스 후에 형성되는 특징 모델이고, 이 등록 프로세스는 학습 말뭉치의 길이에 대한 요건을 가지지 않으며, 이를 오디오 스트림 학습 샘플이라고도 한다. 또한, 본 발명의 실시예에서 제공하는 방법은 정정된 모델에 대해 동적 정정을 지속적으로 수행할 수 있고, 원래의 성문 특징 모델은 기존의 방법을 사용하여 획득된 모델일 수 있으며, 본 발명의 본 실시예에서 제공하는 방법을 사용하여 정정된 모델일 수도 있다.
단계 S202: 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득한다.
특정한 실행 프로세스에서, 원래의 오디오 스트림은
사용자가 이동 단말을 사용하여 전화를 걸거나 음성 채팅을 함으로써 생성하는 오디오 스트림일 수 있으며, 또는 음성을 레코딩하는 방식으로 획득된 오디오 스트림일 수 있다. 구체적으로, 다음과 같은 상황이 가능하다: 특정한 이동 단말 사용자가 호출 접속 상태에 있을 때, 사용자가 성문 학습 기능을 사용하는 것에 동의하는지를 질의하고, 사용자가 동의한 후, 대화 동안 생성된 오디오 스트림이 기록되거나; 호출 동안 성문 학습 기능을 자동으로 가능하게 하는 스위치가 단말에 대해 구성되고, 사용자는 필요에 따라 스위치를 설정하거나; 성문 학습 기능이 단말에 대해 구성되고, 사용자는 오디오 스트림을 기록할 수 있다. 통상적으로 여러 사람이 전화 동안 또는 채팅 동안 차례로 대화에 참여할 수 있으므로, 이 경우에 획득된 원래의 오디오 스트림은 여러 사람의 오디오 데이터를 포함할 수 있다는 것에 유의해야 한다.
또한, 말하는 속도, 억양, 및 감정 동요는 사용자가 말하는 프로세스 또는 여러 사람의 대화의 프로세스 동안 크게 변할 수 있다. 호출 동안의 말뭉치는 성문 특징 모델의 정확도를 위해 사람의 억양, 말하는 속도, 및 감정의 요인으로 야기되는 편차를 제거하도록 지속적으로 수집되고, 이것은 성문 특징 모델의 정확도에 대한 억양, 말하는 속도, 및 감정의 요인의 영향을 크게 감소시키고, 또한 성문 인식 정확도에 대한 충격을 감소시킬 수 있다.
단계 S203: 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하고, 여기서 복수의 오디오 스트림의 각각의 오디오 클립은 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함한다.
단계 S204: 사전설정된 화자 클러스터링 알고리즘에 따라, 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성한다.
구체적으로, 여러 사람의 대화를 예로 해서, 대화에 참여하고 있는 사람이 사용자 A, 사용자 B, 사용자 C인 것으로 가정한다. 사용자가 음성을 레코딩하는 것에 동의한 후, 레코딩 모듈이 가능하게 되고, 호출 동안의 원래의 오디오 스트림은 호출이 완료된 후 또는 레코딩 지속시간이 만료된 후 레코딩된다. 원래의 오디오 스트림은 원래의 오디오 스트림은 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할될 수 있으며, 여기서 각각의 오디오 클립은 한 명의 화자의 오디오 정보만을 포함한다. 도 3에 도시된 바와 같이, 원래의 오디오 스트림이 분할된 후, 그 획득된 오디오 클립은 오디오 클립 A, 오디오 클립 B, 오디오 클립 A, 오디오 클립 C, 오디오 클립 A, 오디오 클립 C이며; 오디오 클립 A, 오디오 클립 B, 오디오 클립 C는 각각 사용자 A, B, C로 되어 있는 상이한 클립이며, 말하는 순번에 따라 획득된다. 그런 다음, 동일한 화자의 오디오 클립은 사전설정된 화자 클러스터링 알고리즘을 사용하여 클러스터링됨으로써, 오디오 스트림 A의 파일, 오디오 스트림 B의 파일, 및 오디오 스트림 C의 파일을 생성한다. 예를 들어, 오디오 스트림 A는 사용자 A의 모든 오디오 클립이다. 그러므로 상이한 사람들의 오디오 스트림을 구별할 수 있고, 동일한 사람의 유효한 오디오 스트림을 추출할 수 있다. 화자 세그먼테이션 알고리즘 및 클러스터링 알고리즘은 각각 기존의 임의의 한 명의 화자 세그먼테이션 알고리즘 및 클러스터링 알고리즘일 수 있으며, 여기서 제한되지 않는다.
단계 S205: 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득한다.
단계 S205는 구체적으로:
상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도(matching degree)를 획득하는 단계; 및
가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하는 단계
를 포함한다.
구체적으로, 성문 증명 알고리즘 인터페이스를 호출하여, 오디오 스트림 A, 오디오 스트림 B, 오디오 스트림 C와 원래의 성문 특징 모델 간의 정합도 A, 정합도 B, 정합도 C를 개별적으로 획득한다. 정합도의 계산 방식은: 오디오 스트림 A, 오디오 스트림 B, 오디오 스트림 C를 각각 원래의 성문 특징 모델의 입력값으로 사용하고, 원래의 성문 특징 모델에 대응하여, 오디오 스트림 A, 오디오 스트림 B, 오디오 스트림 C의 정합도 A, 정합도 B, 정합도 C를 각각 획득하며, 여기서 정합도 A, 정합도 B, 정합도 C를 각각 대응하는 확률 A, 확률 B, 확률 C라고도 한다. 예를 들어, 정합도 A는 오디오 스트림 A와 원래의 특징 모델 간의 관련성을 나타낸다. 원래의 성문 특징 모델은 사용자 A의 오디오 스트림 학습 샘플에 기초해서 구축되고, 정합도 A는 정상적인 상황 하에서 정합 임계값보다 크고, 정합도 B 및 정합도 C는 정상적인 상황 하에서는 정합 임계값보다 작아야 하는 것으로 가정하고, 여기서 사전설정된 임계값은 실제의 테스트 결과에 따라 획득될 수 있거나, 사전설정될 수 있거나, 사용자-정의일 수 있다. 그러므로 이 경우 사전설정된 임계값에 대응하는 정합도에 대응하는 오디오 스트림이 획득되며, 즉 오디오 스트림 A가 성공적으로 정합된 오디오 스트림이다. 특별한 경우, A 및 B의 사운드가 유사할 때, 정합 임계값보다 큰 하나 이상의 오디오 스트림이 있을 수 있으며, 정합 값이 가장 높은 오디오 스트림을 성공적으로 정합된 오디오 스트림으로 선택할 수 있다.
또한, 원래의 성문 특징 모델이 여러 사람에 대한 성문 등록 프로세스 후에 형성되는 특징 모델일 때, 예를 들어 사용자 B 및 C의 오디오 스트림 학습 샘플에 대해 구축되는 특징 모델일 때, 그 정합 후에 획득되는 오디오 스트림은 모두 오디오 스트림 B 및 오디오 스트림 C를 포함할 가능성이 크고, 이에 의해 다인 모드(multi-person mode)에서 성문 특징 모델의 정합을 실행한다. 이 경우, 전술한 단계들은 여러 사람 각각에 대해 개별적으로 실행된다.
단계 S206: 상기 성공적으로 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로 사용하고, 상기 원래의 성문 모델 특징을 갱신한다.
단계 S206은 구체적으로:
성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하는 단계 - 상기 사전설정된 오디오 스트림 학습 샘플은 원래의 성문 특징 모델을 생성하기 위한 오디오 스트림임 - ; 및
상기 원래의 성문 특징 모델을 상기 정정된 성문 특징 모델로 갱신하는 단계
를 포함한다.
구체적으로, 성공적으로 정합된 오디오 스트림은 추가의 오디오 스트림 학습 샘플로서 사용된다. 즉, 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하기 위해 성문 등록 알고리즘 인터페이스를 호출하며, 여기서 상기 정정된 성문 특징 모델은 더 정확한 성문 특징 모델이며, 이에 의해 모델 적응 및 지능의 목적을 달성한다.
또한, 갱신된 성문 특징 모델은 원래의 성문 모델로도 사용될 수 있으며, 전술한 단계들은 지속적으로 반복되어 성문 특징 모델을 정정하고 갱신하며, 성문 특징 모델의 정확도를 지속적으로 높인다.
본 발명의 본 실시예에서, 음성 호출의 원래의 오디오 스트림은 자동으로 성문 학습 말뭉치로 사용되고, 수집된 원래의 오디오 스트림은 사용자 경험이 영향을 받지 않거나 사용자 조작이 감소되는 상황에서 화자 세그먼테이션 및 클러스터링 알고리즘을 사용해서 처리되어 성문 학습 말뭉치의 순수성을 보장하며, 추가의 정합된 오디오 스트림은 학습 말뭉치의 길이를 늘이는 데 사용되어, 원래의 성문 특징 모델을 동적으로 정정한다. 이것은 성문 특징 모델을 동적으로 정정하고 갱신하며 성문 특징 모델의 정확도를 높인다. 그러므로 인식률을 더 높일 수 있고 사용자의 사용자 경험 역시 성문 특징 모델을 사용함으로써 음성 인식과 같은 프로세스에서 개선될 수 있다.
당업자라면 전술한 실시예의 방법의 단계 중 일부 또는 전부는 관련 하드웨어에 명령을 내리는 프로그램으로 실행될 수 있다는 것을 이해할 수 있을 것이다. 프로그램은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있으며, 이러한 저장 매체로는 예를 들어 ROM/RAM, 자기디스크, 또는 광디스크를 들 수 있다.
실시예 3:
도 4는 본 발명의 실시예 3에 따른 단말에 대한 구조도이다. 본 발명의 실시예 3에서 제공하는 단말은 본 발명의 실시예 1 및 실시예 2의 방법을 실행하도록 구성될 수 있다. 설명을 쉽게 하기 위해, 본 발명의 실시예와 관련된 부분만을 도시하고 있다. 설명되지 않은 특정한 기술적 상세에 대해서는, 본 발명의 실시예 1 및 실시예 2를 참조하면 된다.
단말은 이동 전화, 태블릿 컴퓨터, 개인휴대단말(Personal Digital Terminal: PDA), 판매 시점 관리(Point of Sales: POS) 시스템, 또는 차량 장착 컴퓨터와 같은 단말 장치일 수 있다. 단말이 이동 전화인 경우를 예를 들어 사용한다. 도 4는 본 발명의 본 실시예에서 제공하는 단말과 관련된 이동 전화(400)의 구조 중 일부에 대한 블록도이다. 도 4를 참조하면, 이동 전화(400)는 무선 주파(Radio Frequency: RF) 회로(410), 메모리(420), 입력 유닛(430), 디스플레이 유닛(440), 센서(450), 오디오 회로(460), WiFi(wireless fidelity) 모듈(470), 프로세서(480), 전원(490)과 같은 부분을 포함한다. 당업자라면 도 4에 도시된 이동 전화의 구조는 이동 전화에 대한 제한을 구성하지 않으며, 이동 전화는 도면에 도시된 것보다 더 많은 또는 더 적은 부분을 포함할 수 있거나 일부의 부분을 결합할 수 있거나, 이러한 부분들의 상이한 배치를 가질 수 있다는 것을 이해할 수 있을 것이다.
이하에서는 이러한 이동 전화(400)의 부분을 도 4를 참조하여 상세히 설명한다.
RF 회로(410)는 정보를 송수신하거나 호출 동안 신호를 송수신하며, 특히 기지국의 다운링크 정보를 수신하고, 그 정보를 처리를 위한 프로세서(480)에 송신한다. 또한, RF 회로(410)는 업링크 데이터를 기지국에 송신한다. 일반적으로, RF 회로는 적어도 하나의 증폭기, 송수신기, 커플러, 저잡음 증폭기(Low Noise Amplifier: LNA), 듀플렉서 등을 포함하되, 이에 제한되지 않는다. 또한, RF 회로(410)는 무선 통신 및 네트워크를 사용하여 다른 장치들과 통신할 수 있다. 무선 통신은 임의의 하나의 통신 표준 또는 프로토콜을 사용할 수 있으며, 이러한 통신 표준 또는 프로토콜로는 이동 통신을 위한 글로벌 시스템(Global System for Mobile Communication: GSM), 범용 패킷 무선 서비스(General Packet Radio Service: GPRS), 코드분할다중접속(Code Division Multiple Access: CDMA), 광대역 코드분할다중접속(Wideband Code Division Multiple Access: WCDMA), 롱텀에볼루션(Long Term Evolution: LTE), 전자 메일, 단문 메시징 서비스(Short Messaging Service: SMS) 등이 있으나, 이에 제한되지 않는다.
메모리(420)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(480)는 메모리(420)에 저장되어 있는 소프트웨어 프로그램 및 모듈을 실행하여 이동 전화(400)의 모든 유형의 기능 애플리케이션을 실행하고 데이터를 처리한다. 메모리(420)는 프로그램 저장 영역 및 데이터 저장 영역을 주로 포함할 수 있으며, 여기서 프로그램 저장 영역은 운영체제, 기능이 필요로 하는 적어도 하나의 애플리케이션 프로그램(예를 들어, 사운드 재생 기능 또는 이미지 재생 기능 등) 등을 저장할 수 있으며; 데이터 저장 영역은 이동 전화(400)의 사용에 따라 생성되는 데이터(예를 들어, 오디오 데이터 또는 전화번호부)를 저장할 수 있다. 또한, 메모리(420)는 고속의 랜덤 액세스 메모리를 포함할 수 있고, 비휘발성 메모리, 예를 들어, 적어도 하나의 자기디스크, 플래시 메모리 또는 다른 비휘발성 고체상태 메모리도 포함할 수 있다.
입력 유닛(430)은 입력되는 숫자 또는 문자 정보를 수신하고 이동 전화(400)의 사용자 설정 및 기능 제어와 관련된 중요한 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 입력 유닛(430)은 터치-제어 패널(431) 및 다른 입력 장치(432)를 포함할 수 있다. 터치-제어 패널(431)은 터치 스크린이라고도 하는데 패널 상에서 또는 패널 근처에서의 사용자의 터치 동작(예를 들어, 사용자가 손가락 또는 스트일러스와 같은 임의의 적절한 대상 또는 부착물을 사용하여 터치-제어 패널(431) 상에서 또는 터치-제어 패널(431) 근처에서 수행하는 동작)을 수집할 수 있고, 미리 정해진 프로그램에 따라 대응하는 접속 장치를 구동시킬 수 있다. 선택적으로, 터치-제어 패널(431)은 2개의 부분, 즉 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 동작에 의해 생기는 신호를 검출하며, 이 신호를 터치 제어기에 전달한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 이 터치 정보를 터치 포인트의 좌표로 변환하고, 이 좌표를 프로세서(480)에 송신하며, 프로세서(480)에 의해 송신되는 커맨드를 수신 및 실행할 수 있다. 또한, 터치-제어 패널(431)은 복수의 형태, 예를 들어, 저항성 형태, 용량성 형태, 및 표면 음향 파로 실행될 수 있다. 터치-제어 패널(431) 외에도, 입력 유닛(430)은 다른 입력 장치(432)를 더 포함할 수 있다. 구체적으로, 다른 입력 장치(432)는 물리적 키보드, 기능 키(예를 들어 음량 제어 키 및 온-오프 키), 트랙볼, 마우스, 및 조이스틱 중 하나 이상을 포함하되, 이에 제한되지는 않는다.
디스플레이 유닛(440)은 사용자가 입력하는 정보, 사용자에게 제공되는 정보, 및 이동 전화(400)의 다양한 메뉴를 표시하도록 구성될 수 있다. 디스플레이 유닛(440)은 디스플레이 패널(441)을 포함할 수 있다. 선택적으로, 디스플레이 패널(441)은 액정 디스플레이(Liquid Crystal Display: LCD) 및 유기발광 다이오드(Organic Light-Emitting Diode: OLED) 등의 형태를 사용하여 구성될 수 있다. 또한, 터치-제어 패널(431)은 디스플레이 패널(441)을 커버할 수 있다. 터치-제어 패널(431) 상의 또는 터치-제어 패널(431) 근처의 터치 동작을 검출한 후, 터치-제어 패널(431)은 이 동작을 프로세서(480)에 전송하여 터치 이벤트의 유형을 판단한다. 그런 다음 프로세서(480)는 그 터치 이벤트의 유형에 따라 대응하는 비주얼 출력을 디스플레이 패널(441) 상에 제공한다. 도 4의 터치-제어 패널(431) 및 디스플레이 패널(441)이 이동 전화(400)의 입력 및 입력 기능을 실행하는 2개의 독립적인 구성요소이나, 일부의 실시예에서는 터치-제어 패널(431) 및 디스플레이 패널(441)을 통합하여 이동 전화(400)의 입력 및 입력 기능을 실행할 수 있다.
이동 전화(400)는 적어도 하나의 유형의 센서(450), 예를 들어, 광센서, 모션 센서, 및 다른 센서를 더 포함할 수 있다. 구체적으로, 광센서는 조도 센서(ambient light sensor) 및 근접 센서(proximity sensor)를 포함하고, 조도 센서는 조도의 밝기에 따라 디스플레이 패널(441)의 밝기를 표시하며, 근접 센서는 이동 전화(400)를 귀에 가까이 대면 디스플레이 패널(441) 및/또는 백라이트를 턴 오프할 수 있다. 한 유형의 모션 센서로서, 가속 센서는 모든 방향(일반적으로 3축)의 가속을 검출할 수 있고, 가속도계가 정적 상태에 있을 때 중력의 크기 및 방향을 검출할 수 있으며, 이동 단말 자세 애플리케이션(예를 들어, 초상화와 풍경 방향 간의 전환, 관련 게임, 및 자력계 자세 캘리브레이션), 및 진동 인식 관련 기능(예를 들어, 계수기 및 두드림)을 인식하도록 구성될 수 있다. 자이로스코프, 기압계, 습도계, 온도계, 및 적외선 센서와 같은 다른 센서가 이동 전화(400)에 구성될 수 있으며, 이에 대해서는 여기서 더 설명하지 않는다.
오디오 회로(460), 라우드스피커(461), 및 마이크로폰(462)은 사용자와 이동 전화(400) 간에 오디오 인터페이스를 제공할 수 있다. 오디오 회로(460)는 수신된 오디오 데이터로부터 변환된 전기 신호를 변환하여 라우드스피커(461)에 전송하고, 라우드스피커(461)는 이 전기 신호를 음성 신호로 변환하여 출력한다. 한편, 마이크로폰(462)은 수집된 사운드 신호를 전기 신호로 변환하고, 오디오 회로(460)는 전기 신호를 수신하고 이 전기 신호를 오디오 데이터로 변환하고, 이 오디오 데이터를 처리를 위한 프로세서(480)에 출력하며, 처리된 오디오 신호를, 예를 들어, RF 회로(410)를 사용함으로써 다른 이동 전화에 송신되거나, 이 오디오 데이터를 추가의 처리를 위해 메모리(420)에 출력한다.
WiFi는 단거리 무선 전송 기술에 속한다. 이동 전화(400)는 WiFi 모듈(470)을 사용함으로써, 사용자가 전자메일을 송수신할 수 있게 하고, 웹페이지를 브라우징할 수 있게 하며, 스트리밍 미디어에 액세스할 수 있게 한다. WiFi 모듈(470)은 무선 광대역 인터넷 액세스를 사용자에게 제공한다. 도 4에는 WiFi 모듈(470)이 도시되어 있으나, WiFi 모듈은 이동 전화(400)의 필수 구성요소가 아니며 당연히 본 발명의 본질을 변화시킴이 없는 범위 내의 요구에 따라 생략될 수도 있다는 것을 이해할 수 있어야 한다.
프로세서(480)는 이동 전화(400)의 제어 센터이며, 모든 유형의 인터페이스 및 회로를 사용함으로써 전체 이동 전화의 모든 부분을 접속하며, 메모리(420)에 저장되어 있는 소프트웨어 프로그램 및/또는 모듈을 운영 또는 실행함으로써 그리고 메모리(420)에 저장되어 있는 데이터를 호출함으로써 이동 전화를 전반적으로 모니터링한다. 선택적으로, 프로세서(480)는 하나 이상의 프로세싱 유닛을 포함할 수 있다. 양호하게, 프로세서(480)는 애플리케이션 프로세서 및 모뎀 프로세서와 통합될 수 있으며, 여기서 애플리케이션 프로세서는 운영체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 주로 처리하며, 모뎀 프로세서는 무선 통신을 주로 처리한다. 전술한 모뎀 프로세서는 프로세서(480)에 통합되지 않을 수도 있음은 물론이다.
이동 전화(400)는 모든 구성요소에 전력을 공급하는 전원(490)(예를 들어, 배터리)을 더 포함한다. 양호하게, 전원은 전원 관리 시스템을 사용함으로써 프로세서(480)에 논리적으로 접속되어 있고, 그러므로 전원 관리 시스템을 사용함으로써 충전 관리, 방전 관리, 및 전력 소모 관리와 같은 기능을 실행한다.
도시되지는 않았으나, 이동 전화(400)는 카메라 및 블루투스 모듈 등을 더 포함할 수 있으며, 이에 대해서는 여기서 더 설명하지 않는다.
본 발명의 본 실시예에서, 단말에 의해 포함되는 마이크로폰(462), 메모리(420), 및 프로세서(480)는 이하의 기능을 더 구비한다.
마이크로폰(462)은 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하고, 오디오 회로(460)를 사용하여 원래의 오디오 스트림을 메모리(420)에 송신하도록 구성되어 있다.
본 발명의 본 실시예에서, 원래의 오디오 스트림은 사용자가 이동 단말을 사용하여 전화를 걸거나 음성 채팅을 함으로써 생성하는 오디오 스트림일 수 있으며, 또는 예를 들어 음성을 레코딩하는 방식으로 마이크로폰(462)에 의해 획득된 오디오 스트림일 수 있다. 구체적으로, 다음과 같은 상황이 가능하다: 특정한 이동 전화 단말이 호출 접속 상태에 있을 때, 사용자가 성문 학습 기능을 사용하는 것에 동의하는지를 질의하고, 사용자가 동의하면 대화 동안 생성된 오디오 스트림이 기록되거나; 호출 동안 성문 학습 기능을 자동으로 가능하게 하는 스위치가 단말에 대해 구성되고, 사용자가 필요에 따라 스위치를 설정하거나; 성문 학습 기능이 이동 전화 단말에 대해 구성되고, 사용자는 오디오 스트림을 기록할 수 있다. 여러 사람이 전화 동안 또는 채팅 동안 차례로 대화에 참여할 수 있으므로, 이 경우에 획득된 원래의 오디오 스트림은 여러 사람의 오디오 데이터를 포함할 수 있다는 것에 유의해야 한다.
프로세서(480)는 메모리에 저장되어 있는 원래의 오디오 스트림을 발동하고, 메모리(420) 내의 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘을 호출하고, 이 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하며, 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 원래의 성문 특징 모델과 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하고, 이 성공적으로 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 원래의 성문 특징 모델을 갱신한다.
본 발명의 본 실시예에서, 원래의 오디오 스트림은 적어도 한 명의 화자의 오디오 스트림을 포함하고 있기 때문에, 프로세서(480)는 메모리(420) 내의 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘을 호출하고 원래의 오디오 스트림을 복수의 오디오 클립으로 분할하며 여기서, 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함한다. 그런 다음, 프로세서(480)는 사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 최종적으로 생성한다. 또한, 프로세서(480)는 각각의 사람의 각각의 오디오 스트림 및 원래의 성문 특징 모델을 참조하여 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합함으로써 획득되는 정합도를 획득할 수 있고,
사전설정된 정합 임계값보다 크면서 가장 높은 정합도를 가지는 오디오 스트림을 성공적으로 정합된 오디오 스트림으로 선택함으로써, 성공적으로 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고; 성문 등록 알고리즘 인터페이스를 호출하고 원래의 성문 특징 모델을 갱신하여, 더 정확한 성문 특징 모델을 획득한다.
본 발명의 본 실시예는 마이크로폰(462), 메모리(420), 프로세서(480) 등을 포함하는 단말을 제공한다. 마이크로폰(462)은 적어도 한 명의 화자의 원래의 오디오 스트림을 획득하고, 이 원래의 오디오 스트림을 오디오 회로(460)를 통해 메모리(420)에 송신한다. 프로세서(480)는 오디오 회로(460)를 통해 마이크로폰(462)에 의해 송신되는 원래의 오디오 스트림을 수신하고, 메모리(420) 내의 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘을 호출하고, 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하며, 원래의 성문 특징 모델과 정합하는 오디오 스트림을 획득하며, 이 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 원래의 성문 특징 모델을 갱신한다. 이것은 상대적으로 높은 실용성의 전제 하에 성문 특징 모델에 대한 동적 정정 및 갱신을 보장하고 성문 특징 모델의 정확도를 높인다.
실시예 4:
도 5는 본 발명의 실시예 4에 따른 단말에 대한 구조도이다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 본 발명의 실시예 4에서 제공하는 단말은 본 발명의 실시예 1 및 실시예 2의 방법을 실행하도록 구성될 수 있다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 설명되지 않은 특정한 기술적 상세에 대해서는, 본 발명의 실시예 1 및 실시예 2를 참조하면 된다.
구체적으로, 도 5는 본 발명의 본 실시예에서 제공하는 단말과 관련된 이동 전화(500)의 구조 중 일부에 대한 블록도를 도시한다. 도 4에 도시된 구조에 기초해서, 본 발명의 실시예에서는, 도 4에 도시된 마이크로폰(462) 및 프로세서(480) 대신 마이크로폰(51) 및 프로세서(52)를 각각 사용한다.
실시예 3에서의 마이크로폰(462)에 포함되어 있는 기능 외에, 마이크로폰(51)은 사전설정된 오디오 스트림 학습 샘플을 획득하고, 오디오 회로(460)를 사용함으로써 오디오 스트림 학습 샘플을 메모리(420)에 송신하도록 구성되어 있으며, 이에 따라 프로세서(52)는 메모리 내의 사전설정된 성문 등록 알고리즘 인터페이스를 호출하고, 사전설정된 오디오 스트림 학습 샘플에 따라 원래의 성문 특징 모델을 확립한다.
본 발명의 본 실시예에서, 원래의 성문 특징 모델은 성문 등록 알고리즘 인터페이스를 호출함으로써 사전설정된 오디오 스트림 학습 샘플에 따라 확립된 성문 특징 모델이다. 원래의 성문 특징 모델은 특정한 사람이나 여러 사람에 대한 성문 등록 프로세스 후에 형성되는 특징 모델이고, 이 등록 프로세스는 학습 말뭉치의 길이에 대한 요건을 가지지 않으며, 이를 오디오 스트림 학습 샘플이라고도 한다. 또한, 본 발명의 실시예에서 제공하는 방법은 정정된 모델에 대한 지속적이고 동적인 정정을 실행할 수 있고, 원래의 성문 특징은 기존의 방법을 사용함으로써 획득되는 모델일 수도 있고 본 발명의 실시예에서 제공하는 방법을 사용함으로써 정정된 모델일 수도 있다.
이 경우, 프로세서(52)는, 적어도 한 명의 화자가 말을 할 때 마이크로폰(51)에 의해 수신되는 원래의 오디오 스트림에 따라, 메모리(420) 내의 사전설정된 스피커 세그먼테이션 알고리즘을 호출함으로써 원래의 오디오 스트림을 복수의 오디오 클립을 분할하고, 여기서 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하며, 그런 다음 메모리(420) 내의 사전설정된 화자 클러스터링 알고리즘을 호출함으로써, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성한다.
또한, 프로세서(52)는 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 원래의 성문 특징 모델에 따라 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득하고, 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 성공적으로 정합된 오디오 스트림으로 선택하며, 상기 성공적으로 정합된 오디오 스트림 및 상기 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하며, 원래의 성문 특징 모델을 상기 정정된 성문 특징 모델로 갱신하도록 추가로 구성되어 있다.
본 발명의 본 실시예에서, 마이크로폰(51)은 사전설정된 오디오 스트림 학습 샘플을 획득할 수 있으며, 여기서 사전설정된 오디오 스트림 학습 샘플은 원래의 성문 특징 모델을 확립하는 데 필요한 원래의 오디오 스트림이다. 마이크로폰(51)은 또한 적어도 한 명의 화자의 원래의 오디오 스트림을 획득할 수 있다. 프로세서(52)는 메모리(420) 내의 사전설정된 성문 등록 알고리즘 인터페이스, 화자 세그먼테이션 알고리즘, 및 사전설정된 화자 클러스터링 알고리즘을 선택적으로 호출하여, 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하며, 최종적으로 성공적으로 정합된 오디오 스트림을 획득할 수 있으며; 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하고, 원래의 성문 특징 모델을 정정된 성문 특징 모델로 갱신한다. 그러므로 정정된 성문 특징 모델을 사용하여 원래의 성문 특징 모델에 비해 오디오 스트림 인식 정확도를 현저하게 높일 수 있고, 사용자 경험은 더 향상된다.
실시예 5:
도 6은 본 발명의 실시예 5에 따른 단말에 대한 구조도이다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 본 발명의 실시예 5에서 제공하는 단말은 본 발명의 실시예 1 및 실시예 2의 방법을 실행하도록 구성될 수 있다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 설명되지 않은 특정한 기술적 상세에 대해서는, 본 발명의 실시예 1 및 실시예 2를 참조하면 된다.
단말은 원래의 오디오 스트림 획득 유닛(61), 세그먼테이션 및 클러스터링 유닛(62), 정합 유닛(63), 및 모델 갱신 유닛(64)을 포함한다. 원래의 오디오 스트림 획득 유닛(61)은 실시예 3에서의 마이크로폰(41)에 의해 포함되어 있는 기능과 일대일 대응하고, 세그먼테이션 및 클러스터링 유닛(62), 정합 유닛(63) 및 모델 갱신 유닛(64)은 실시예 3에서의 프로세서(42)에 의해 포함되어 있는 기능들과 일대일 대응하며, 여기서,
상기 원래의 오디오 스트림 획득 유닛(61)은 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하고, 상기 원래의 오디오 스트림을 상기 세그먼테이션 및 클러스터링 유닛(62)에 송신하도록 구성되어 있으며;
상기 세그먼테이션 및 클러스터링 유닛(62)은 상기 원래의 오디오 스트림 획득 유닛(61)에 의해 송신된 원래의 오디오 스트림을 수신하고, 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하며, 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 상기 정합 유닛(63)에 송신하도록 구성되어 있으며;
상기 정합 유닛(63)은 상기 세그먼테이션 및 클러스터링 유닛(62)에 의해 송신된 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 수신하고, 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하며, 상기 성공적으로 정합된 오디오 스트림을 상기 모델 갱신 유닛(64)에 송신하도록 구성되어 있으며; 그리고
상기 모델 갱신 유닛(64)은 상기 모델 갱신 유닛(63)에 송신된 상기 성공적으로 정합된 오디오 스트림을 수신하고, 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있다.
본 발명의 본 실시예에서, 호출 듣기 상태(call listening state)로 들어간 후, 원래의 오디오 스트림 획득 유닛(61)은 듣기에 의해 오디오 스트림을 획득하며 여기서 오디오 스트림은 음성 레코더 또는 음성 채팅 소프트웨어를 사용하여 생성될 수 있다.
본 발명의 본 실시예에서, 상기 세그먼테이션 및 클러스터링 유닛(62)은 원래의 오디오 스트림을 수 개의 오디오 클립으로 분할 수 있고, 여기서 각각의 오디오 클립은 한 명의 화자의 오디오 정보만을 포함하며, 동일한 화자의 오디오 클립을 다시 클러스터링하여 각자의 오디오 스트림을 생성하며, 최종적으로 원래의 오디오 스트림을 상이한 화자를 나타내는 오디오 스트림으로 분할하고, 즉 모든 화자 중에서 동일한 화자의 오디오 정보의 오디오 스트림을 생성한다. 정합 회로(63)는 모든 오디오 스트림을 횡단하고, 원래의 성문 특징 모델을 참조하여 각각의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득한다. 구체적으로, 정합 유닛(63)은 각각의 오디오 스트림을 원래의 성문 특징 모델의 입력값으로 개별적으로 사용하여 확률을 획득하거나, 각각의 오디오 스트림에 대응하는 정합도로서 참조하며, 원래의 성문 특징 모델과 정합하는 하나 이상의 오디오 스트림을 획득한다. 실제의 동작 프로세스에서, 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 성공적으로 정합된 오디오 스트림으로 선택하여, 그 획득된 오디오 스트림이 원래의 성문 특징 모델과 가장 관련 깊은 것으로 보장할 수 있으며, 이에 따라 성문 학습 말뭉치로서 사용되는 오디오 스트림은 순수하다. 모델 갱신 유닛(64)은 성공적으로 정합된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 그런 다음 성문 등록을 수행하고 새로운 성문 특징 모델을 생성하거나, 정정된 성문 특징 모델로서 참조하며, 원래의 성문 특징 모델을 정정된 성문 특징 모델로 갱신한다. 최종적으로, 성문 특징 모델을 획득한 후, 상대적으로 높은 실용성의 전제 하에서 성문 특징 모델의 정확도를 높이는 목적이 달성되는 것을 보장한다.
실시예 6:
도 7은 본 발명의 실시예 6에 따른 단말에 대한 구조도이다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 본 발명의 실시예 6에서 제공하는 단말은 본 발명의 실시예 1 및 실시예 2의 방법을 실행하도록 구성될 수 있다. 설명을 쉽게 하기 위해, 본 발명의 본 실시예와 관련된 부분만을 도시하고 있다. 설명되지 않은 특정한 기술적 상세에 대해서는, 본 발명의 실시예 1 및 실시예 2를 참조하면 된다.
단말은 샘플 획득 유닛(71), 원래의 모델 확립 유닛(72), 원래의 오디오 스트림 획득 유닛(73), 세그먼테이션 및 클러스너링 유닛(74), 정합 유닛(75), 모델 갱신 유닛(76)을 포함하며, 원래의 오디오 스트림 획득 유닛(73), 세그먼테이션 및 클러스너링 유닛(74), 정합 유닛(75), 및 모델 갱신 유닛(76)은 실시예 5에서의 원래의 오디오 스트림 획득 유닛(61), 세그먼테이션 및 클러스너링 유닛(62), 정합 유닛(63), 및 모델 갱신 유닛(64)에 각각 일대일 대응하고, 이에 대한 설명은 여기서 다시 설명하지 않는다.
상기 샘플 획득 유닛(71)은 사전설정된 오디오 스트림 학습 샘플을 획득하고, 상기 사전설정된 오디오 스트림 학습 샘플을 상기 원래의 모델 확립 유닛(72)에 송신하도록 구성되어 있다.
상기 원래의 모델 확립 유닛(72)은 상기 사전설정된 오디오 스트림 학습 샘플에 따라 상기 원래의 성문 특징 모델을 확립하도록 구성되어 있다.
원래의 성문 특징 모델은 특정한 사람이나 여러 사람에 대한 성문 등록 프로세스 후에 형성되는 특징 모델이고, 이 등록 프로세스는 학습 말뭉치의 길이에 대한 요건을 가지지 않으며, 이를 오디오 스트림 학습 샘플이라고도 한다. 또한, 본 발명의 실시예에서 제공하는 방법은 정정된 모델에 대해 동적 정정을 지속적으로 수행할 수 있고, 원래의 성문 특징 모델은 기존의 방법을 사용하여 획득된 모델일 수 있으며, 본 발명의 본 실시예에서 제공하는 방법을 사용하여 정정된 모델일 수도 있다.
본 발명의 본 실시예에서, 호출 듣기 상태로 들어간 후, 원래의 오디오 스트림 획득 유닛(73)은 듣기에 의해 오디오 스트림을 획득할 수 있으며, 여기서 오디오 스트림은 음성 레코더 또는 음성 채팅 소프트웨어를 사용하여 생성될 수 있다. 단말이 스마트폰인 경우를 예를 들어 사용한다.
스마트폰이 호출 접속 상태에 있을 때, 사용자가 성문 학습 기능을 사용하는 것에 동의하는지를 질의하고, 사용자가 동의한 후, 호출에 참여하는 사용자 및 호출의 다른 상대방의 오디오 스트림이 기록될 수 있거나; 호출 동안 성문 학습 기능을 자동으로 가능하게 하는 스위치가 단말에 대해 구성되고, 사용자가 필요에 따라 스위치를 설정하거나; 성문 학습 기능이 단말에 대해 구성되고, 사용자는 오디오 스트림을 기록할 수 있다. 여러 사람이 전화 동안 또는 채팅 동안 차례로 대화에 참여할 수 있으므로, 이 경우에 획득된 원래의 오디오 스트림은 여러 사람의 오디오 데이터를 포함할 수 있다는 것에 유의해야 한다. 원래의 오디오 스트림 획득 유닛(73)에 의해 획득된 원래의 오디오 스트림은 화자의 다양한 억양, 말하는 속도, 및 감정에 대한 오디오 데이터를 망라할 수 있으며, 모델 정확도에 대한 억양, 말하는 속도, 및 감정의 요인들의 효과를 감소시킨다. 또한, 사용자는 오디오 스트림을 획득하는 프로세스 동안의 특정한 횟수 및 지속시간을 가지는 오디오 스트림을 입력하지 않아도 되며, 이에 의해 사용자 동작의 복잡도를 감소시키고, 획득 프로세스에서의 실용성을 보장하며, 사용자 경험도 향상시킨다.
도 7에 도시된 바와 같이, 세그먼테이션 및 클러스터링 유닛(74)은 구체적으로 세그먼테이션 유닛(741) 및 클러스터링 유닛(742)을 포함하며, 여기서
상기 세그먼테이션 유닛(741)은 상기 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하며, 여기서 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하며, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 상기 클러스터링 유닛(742)에 송신하도록 구성되어 있으며; 그리고
상기 클러스터링 유닛(742)은 상기 세그먼테이션 유닛(741)에 의해 송신된, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 수신하고, 사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하도록 구성되어 있다.
본 발명의 본 실시예에서, 세그먼테이션 유닛(741)은 원래의 오디오 스트림을 수 개의 오디오 클립으로 분할하고, 여기서 각각의 오디오 클립은 한 명의 화자의 오디오 정보만을 포함하며, 클러스터링 유닛(742)은 동일한 화자의 오디오 클립을 다시 클러스터링하여, 각자의 오디오 스트림을 생성한다. 최종적으로, 원래의 오디오 스트림은 상이한 화자를 나타내는 오디오 스트림으로 분할된다.
도 7에 도시된 바와 같이, 정합 유닛(75)은 구체적으로 정합도 획득 유닛(751) 및 정합 오디오 스트림 획득 유닛(752)을 포함하며, 여기서
상기 정합도 획득 유닛(751)은 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득하고, 상기 정합도를 상기 정합 오디오 스트림 획득 유닛(752)에 송신하도록 구성되어 있으며; 그리고
상기 정합 오디오 스트림 획득 유닛(752)은 상기 정합도 획득 유닛(751)에 의해 송신된, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 수신하고, 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하도록 구성되어 있다.
본 발명의 본 실시예에서, 정합도 획득 유닛(7511)은 모든 오디오 스트림을 횡단하고, 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 원래의 성문 특징 모델에 따라 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 원래의 성문 특징 모델 간의 정합도를 획득한다. 구체적으로, 정합도 획득 유닛(7511)은 각각의 오디오 스트림을 원래의 성문 특징 모델의 입력값으로 개별적으로 사용하여 각각의 오디오 스트림에 대응하는 정합값을 획득하며, 상기 정합값은 구체적으로 성문 증명 알고리즘 인터페이스를 호출함으로써 획득될 수 있다. 그런 다음, 정합된 오디오 스트림 획득 유닛(752)은 원래의 성문 특징 모델과 정합하는 하나 이상의 오디오 스트림을 획득하고, 구체적으로 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 성공적으로 정합된 오디오 스트림으로 선택하여, 그 획득된 오디오 스트림이 원래의 성문 특징 모델과 가장 관련 깊은 것으로 보장할 수 있으며, 이에 따라 성문 학습 말뭉치로서 사용되는 오디오 스트림은 순수하다.
도 7에 도시된 바와 같이, 모델 갱신 유닛(76)은 구체적으로 정정 모델 획득 유닛(761) 및 모델 갱신 서브유닛(762)을 포함하며, 여기서
상기 정정 모델 획득 유닛(761)은 상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하고, 상기 정정된 성문 특징 모델을 상기 모델 갱신 서브유닛(762)에 송신하도록 구성되어 있으며; 그리고
상기 모델 갱신 서브유닛(762)은 상기 정정 모델 획득 유닛(761)에 의해 송신된 상기 정정된 성문 특징 모델을 수신하고, 상기 정정된 성문 특징 모델에 따라 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있다.
본 발명의 본 실시예에서, 성공적으로 정합된 오디오 스트림은 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용된다. 즉, 원래의 성문 특징 모델을 생성하는 데 사용되는 오디오 스트림 학습 샘플 및 성공적으로 정합된 오디오 스트림을 참조하여, 정정 모델 획득 유닛(761)은 성문 등록을 수행하고 새로운 성문 특징 모델을 생성하거나, 정정된 성문 특징 모델로서 참조하는 데 사용된다. 모델 갱신 서브유닛(762)은 원래의 성문 특징 모델을 정정된 성문 특징 모델로 갱신한다.
본 발명의 본 실시예는 샘플 획득 유닛(71), 원래의 모델 확립 유닛(72), 원래의 오디오 스트림 획득 유닛(73), 세그먼테이션 및 클러스터링 유닛(74), 정합 유닛(75), 및 모델 갱신 유닛(76)을 포함하는 단말을 제공한다. 화자의 원래의 오디오 스트림 정보는 듣기에 의해 획득되며 성문 학습 말뭉치로서 사용되며, 원래의 오디오 스트림 정보는 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘을 사용함으로써 처리되어, 추가의 오디오 스트림 학습 샘플을 획득하며, 이에 따라 추가의 오디오 스트림 학습 샘플에 따라 원래의 성문 특징 모델에 대해 정정 및 갱신 동작이 수행되며, 이에 의해 상대적으로 높은 실용성의 전제 하에서 성문 특징 모델의 정확도를 높인다. 그러므로 성문 인식 정확도는 정정된 원래의 성문 특징 모델이 단말의 성문 잠금해제 솔루션에 적용될 때 현저하게 향상된다. 또한, 여러 사람의 스피치 오디오 스트림 학습 샘플에 대해 원래의 성문 특징 모델이 확립되면, 갱신된 원래의 성문 특징 모델은 여러 사람의 오디오 정보를 정확하게 인식하여 잠금해제 등을 수행하며, 이에 따라 잠금해제 프로세스가 더 지능적으로 된다.
본 발명의 실시예에서 제공하는 성문 특징 모델을 갱신하는 방법에서, 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림이 획득되며, 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림은 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 획득되며, 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림은 원래의 성문 특징 모델과 개별적으로 정합되어, 성공적으로 정합된 오디오 스트림을 획득하며, 성공적으로 획득된 오디오 스트림을 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 원래의 성문 특징 모델은 갱신된다. 이것은 기존의 방법을 사용하여 성문 특징 모델을 획득할 때, 성문 특징 모델의 정확도가 상대적으로 높은 실용성의 전제 하에서 향상되는 것을 보장할 수 없고, 그 결과 성문 특징 모델을 사용함으로써 인식 정확도가 향상될 수 없는 문제를 해결한다. 이것은 사용자 경험이 영향을 받지 않는 전자 하에서 성문 특징 모델의 정확도 및 인식 정확도를 향상시키며 상대적으로 높은 실용성이 보장된다.
본 명세서에서 설명된 실시예에서 설명된 예들을 조합함으로써, 유닛 및 알고리즘 단계들은 전자식 하드웨어, 컴퓨터 소프트웨어, 또는 이것들의 조합으로 실현될 수 있다는 것에 유의해야 한다. 하드웨어와 소프트웨어 간의 상호교환성을 명확하게 설명하기 위해, 위에서는 기능에 따라 각각의 예의 구성 및 단계를 개괄적으로 설명하였다. 이러한 기능들이 하드웨어 또는 소프트웨어로 수행되느냐는 것은 기술적 솔루션의 특별한 애플리케이션 및 설계 제약 조건에 달려 있다. 당업자라면 다양한 방법을 사용하여 각각의 특별한 애플리케이션에 대해 설명된 기능을 실행할 수 있을 것이며, 이것은 그 실행이 본 발명의 범주를 넘어서는 것으로 파악되어서는 안 된다.
본 명세서에서 설명된 실시예를 조합하여, 방법 또는 알고리즘 단계는 하드웨어, 프로세서에 의해 실행되는 소프트웨어, 또는 이것들의 조합으로 실행될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(RAM), 리드-온리 메모리(ROM), 전기적으로 프로그래머블 ROM, 전기적으로 삭제 가능한 프로그머블 ROM, 레지스터, 하드디스크, 탈착식 디스크, CD-ROM, 또는 종래기술의 임의의 다른 형태의 저장 매체에 상주할 수 있다.
본 발명의 목적, 기술적 솔루션 및 이로운 효과에 대해 특정한 실시예를 통해 상세히 설명하였다. 전술한 실시예는 단지 본 발명의 특정한 실행 모드에 지나지 않으며, 본 발명의 보호 범위를 제한하려는 것이 아님을 이해해야 한다. 본 발명의 정신 및 원리에 근거하여 이루어지는 모든 설정, 등가의 대체 및 개선은 본 발명의 보호 범위 내에 있게 된다.

Claims (10)

  1. 성문(voiceprint) 특징 모델 갱신 방법에 있어서,
    적어도 한 명의 화자(speaker)를 포함하는 원래의 오디오 스트림을 획득하는 단계;
    사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하는 단계;
    상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하는 단계; 및
    상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신하는 단계
    를 포함하는 성문 특징 모델 갱신 방법.
  2. 제1항에 있어서,
    상기 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하는 단계 이전에,
    사전설정된 오디오 스트림 학습 샘플에 따라 원래의 성문 특징 모델을 확립하는 단계
    를 더 포함하는 성문 특징 모델 갱신 방법.
  3. 제1항 또는 제2항에 있어서,
    사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하는 단계는 구체적으로,
    상기 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하는 단계 - 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함함 - ; 및
    사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하는 단계
    를 포함하는, 성문 특징 모델 갱신 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하는 단계는,
    상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도(matching degree)를 획득하는 단계; 및
    가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하는 단계
    를 포함하는, 성문 특징 모델 갱신 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하고, 상기 원래의 성문 특징 모델을 갱신하는 단계는 구체적으로,
    상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하는 단계 - 상기 사전설정된 오디오 스트림 학습 샘플은 상기 원래의 성문 특징 모델을 생성하기 위한 오디오 스트림임 - ; 및
    상기 정정된 성문 특징 모델에 따라 상기 원래의 성문 특징 모델을 갱신하는 단계
    를 포함하는, 성문 특징 모델 갱신 방법.
  6. 단말에 있어서,
    원래의 오디오 스트림 획득 유닛, 세그먼테이션 및 클러스터링 유닛, 정합 유닛, 및 모델 갱신 유닛
    을 포함하며,
    상기 원래의 오디오 스트림 획득 유닛은 적어도 한 명의 화자를 포함하는 원래의 오디오 스트림을 획득하고 상기 원래의 오디오 스트림을 상기 세그먼테이션 및 클러스터링 유닛에 송신하도록 구성되어 있으며;
    상기 세그먼테이션 및 클러스터링 유닛은 상기 원래의 오디오 스트림 획득 유닛에 의해 송신된 원래의 오디오 스트림을 수신하고, 사전설정된 화자 세그먼테이션 및 클러스터링 알고리즘에 따라 상기 원래의 오디오 스트림 내의 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 획득하며, 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 상기 정합 유닛에 송신하도록 구성되어 있으며;
    상기 정합 유닛은 상기 세그먼테이션 및 클러스터링 유닛에 의해 송신된 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림을 수신하고, 상기 적어도 한 명의 화자 중 각각의 화자의 각각의 오디오 스트림과 원래의 성문 특징 모델을 개별적으로 정합하여, 성공적으로 정합된 오디오 스트림을 획득하며, 상기 성공적으로 정합된 오디오 스트림을 상기 모델 갱신 유닛에 송신하도록 구성되어 있으며; 그리고
    상기 모델 갱신 유닛은 상기 모델 갱신 유닛에 송신된 상기 성공적으로 정합된 오디오 스트림을 수신하고, 상기 성공적으로 정합된 오디오 스트림을 상기 원래의 성문 특징 모델을 생성하기 위한 추가의 오디오 스트림 학습 샘플로서 사용하며, 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있는, 단말.
  7. 제6항에 있어서,
    샘플 획득 유닛 및 원래의 모델 확립 유닛을 더 포함하며,
    상기 샘플 획득 유닛은 사전설정된 오디오 스트림 학습 샘플을 획득하고, 상기 사전설정된 오디오 스트림 학습 샘플을 상기 원래의 모델 확립 유닛에 송신하도록 구성되어 있으며,
    상기 원래의 모델 확립 유닛은 상기 샘플 획득 유닛에 의해 송신된 상기 사전설정된 오디오 스트림 학습 샘플을 수신하고, 상기 사전설정된 오디오 스트림 학습 샘플에 따라 상기 원래의 성문 특징 모델을 확립하도록 구성되어 있는, 단말.
  8. 제6항 또는 제7항에 있어서,
    상기 세그먼테이션 및 클러스터링 유닛은 구체적으로 세그먼테이션 유닛 및 클러스터링 유닛을 포함하며,
    상기 세그먼테이션 유닛은 상기 원래의 오디오 스트림을 사전설정된 화자 세그먼테이션 알고리즘에 따라 복수의 오디오 클립으로 분할하며 - 상기 복수의 오디오 클립 중 각각의 오디오 클립은 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함함 - 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 상기 클러스터링 유닛에 송신하도록 구성되어 있으며; 그리고
    상기 클러스터링 유닛은 상기 세그먼테이션 유닛에 의해 송신된, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 수신하고, 사전설정된 화자 클러스터링 알고리즘에 따라, 상기 적어도 한 명의 화자의 동일한 화자만을 포함하는 오디오 클립을 클러스터링하여, 상기 적어도 한 명의 화자 중의 동일한 화자의 오디오 정보만을 포함하는 오디오 스트림을 생성하도록 구성되어 있는, 단말.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 정합 유닛은 구체적으로 정합도 획득 유닛 및 정합 오디오 스트림 획득 유닛을 포함하며,
    상기 정합도 획득 유닛은 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림 및 상기 원래의 성문 특징 모델에 따라, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 획득하고, 상기 정합도를 상기 정합 오디오 스트림 획득 유닛에 송신하도록 구성되어 있으며; 그리고
    상기 정합 오디오 스트림 획득 유닛은 상기 정합도 획득 유닛에 의해 송신된, 상기 적어도 한 명의 화자 중 각각의 화자의 오디오 스트림과 원래의 성문 특징 모델 간의 정합도를 수신하고, 가장 높으면서 사전설정된 정합 임계값보다 큰 정합도에 대응하는 오디오 스트림을 상기 성공적으로 정합된 오디오 스트림으로 선택하도록 구성되어 있는, 단말.
  10. 제6항 내지 제9항 중 어느 한 항에 있어서,
    상기 모델 갱신 유닛은 구체적으로 정정 모델 획득 유닛 및 모델 갱신 서브유닛을 포함하며,
    상기 정정 모델 획득 유닛은 상기 성공적으로 정합된 오디오 스트림 및 사전설정된 오디오 스트림 학습 샘플에 따라 정정된 성문 특징 모델을 생성하고, 상기 정정된 성문 특징 모델을 상기 모델 갱신 서브유닛에 송신하도록 구성되어 있으며; 그리고
    상기 모델 갱신 서브유닛은 상기 정정 모델 획득 유닛에 의해 송신된 상기 정정된 성문 특징 모델을 수신하고, 상기 정정된 성문 특징 모델에 따라 상기 원래의 성문 특징 모델을 갱신하도록 구성되어 있는, 단말.
KR1020147029482A 2012-07-09 2013-07-08 성문 특징 모델 갱신 방법 및 단말 KR20140144233A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210235593.0 2012-07-09
CN2012102355930A CN102760434A (zh) 2012-07-09 2012-07-09 一种声纹特征模型更新方法及终端
PCT/CN2013/079005 WO2014008843A1 (zh) 2012-07-09 2013-07-08 一种声纹特征模型更新方法及终端

Publications (1)

Publication Number Publication Date
KR20140144233A true KR20140144233A (ko) 2014-12-18

Family

ID=47054876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147029482A KR20140144233A (ko) 2012-07-09 2013-07-08 성문 특징 모델 갱신 방법 및 단말

Country Status (7)

Country Link
US (1) US9685161B2 (ko)
EP (1) EP2821992B1 (ko)
JP (1) JP5996783B2 (ko)
KR (1) KR20140144233A (ko)
CN (1) CN102760434A (ko)
AU (1) AU2013289660B2 (ko)
WO (1) WO2014008843A1 (ko)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9258425B2 (en) * 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
CN103488764B (zh) * 2013-09-26 2016-08-17 天脉聚源(北京)传媒科技有限公司 个性化视频内容推荐方法和系统
CN104851423B (zh) * 2014-02-19 2021-04-13 联想(北京)有限公司 一种声音信息处理方法及装置
CN104935713A (zh) * 2014-03-20 2015-09-23 海尔集团公司 通信终端存储电话号码的方法及装置
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
WO2016015687A1 (zh) 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
CN104219381B (zh) * 2014-08-18 2017-08-25 上海卓易科技股份有限公司 一种智能解锁方法、终端及系统
CN104202486A (zh) * 2014-09-26 2014-12-10 上海华勤通讯技术有限公司 移动终端及其屏幕解锁方法
CN104320255A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 生成账户认证数据的方法、账户认证的方法以及装置
CN105575391B (zh) * 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
CN104392722B (zh) * 2014-11-28 2018-11-09 电子科技大学 一种基于声音的生物种群识别方法及系统
CN104616655B (zh) 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106033670B (zh) * 2015-03-19 2019-11-15 科大讯飞股份有限公司 声纹密码认证方法及系统
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
US9721571B2 (en) * 2015-06-14 2017-08-01 Nice Ltd. System and method for voice print generation
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
CN106373575B (zh) 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN106558306A (zh) * 2015-09-28 2017-04-05 广东新信通信息系统服务有限公司 用于语音识别的方法、装置和设备
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN105913849B (zh) * 2015-11-27 2019-10-25 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN106887231A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种识别模型更新方法及系统以及智能终端
US9697836B1 (en) 2015-12-30 2017-07-04 Nice Ltd. Authentication of users of self service channels
CN106971735B (zh) * 2016-01-14 2019-12-03 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及系统
CN106981289A (zh) * 2016-01-14 2017-07-25 芋头科技(杭州)有限公司 一种识别模型训练方法及系统以及智能终端
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置
CN106205610B (zh) * 2016-06-29 2019-11-26 联想(北京)有限公司 一种语音信息识别方法和设备
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置
CN106296302B (zh) * 2016-08-18 2019-07-09 中国联合网络通信集团有限公司 一种语音数据处理方法、装置、用具和系统
CN106056996B (zh) * 2016-08-23 2017-08-29 深圳市鹰硕技术有限公司 一种多媒体交互教学系统及方法
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
CN106653016B (zh) * 2016-10-28 2020-07-28 上海智臻智能网络科技股份有限公司 智能交互方法和装置
US11620471B2 (en) * 2016-11-30 2023-04-04 Cylance Inc. Clustering analysis for deduplication of training set samples for machine learning based computer threat analysis
CN106782507B (zh) * 2016-12-19 2018-03-06 平安科技(深圳)有限公司 语音分割的方法及装置
CN106782563B (zh) * 2016-12-28 2020-06-02 上海百芝龙网络科技有限公司 一种智能家居语音交互系统
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
CN108447471B (zh) * 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备
CN107123418B (zh) * 2017-05-09 2020-12-25 广东小天才科技有限公司 一种语音消息的处理方法及移动终端
CN109147770B (zh) * 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
CN109145145A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
CN109102810B (zh) * 2017-06-21 2021-10-15 北京搜狗科技发展有限公司 声纹识别方法和装置
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US10592649B2 (en) * 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
CN109427336B (zh) * 2017-09-01 2020-06-16 华为技术有限公司 语音对象识别方法及装置
US11227605B2 (en) 2017-09-11 2022-01-18 Telefonaktiebolaget Lm Ericsson (Publ) Voice-controlled management of user profiles
CN107731220B (zh) * 2017-10-18 2019-01-22 北京达佳互联信息技术有限公司 音频识别方法、装置和服务器
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN107799120A (zh) * 2017-11-10 2018-03-13 北京康力优蓝机器人科技有限公司 服务机器人识别唤醒方法及装置
CN108257604B (zh) * 2017-12-08 2021-01-08 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
CN108174236A (zh) * 2017-12-22 2018-06-15 维沃移动通信有限公司 一种媒体文件处理方法、服务器及移动终端
CN108269575B (zh) * 2018-01-12 2021-11-02 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108364654B (zh) * 2018-01-30 2020-10-13 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
CN108806695A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 自更新的反欺诈方法、装置、计算机设备和存储介质
CN110875042B (zh) * 2018-08-14 2022-08-16 杭州海康威视数字技术股份有限公司 指定人群监控方法、装置和存储介质
CN110880325B (zh) * 2018-09-05 2022-06-28 华为技术有限公司 身份识别方法及设备
CN109378003B (zh) * 2018-11-02 2021-10-01 科大讯飞股份有限公司 一种声纹模型训练的方法和系统
US10978095B2 (en) * 2018-11-06 2021-04-13 International Business Machines Corporation Control of incoming calls
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
US11200884B1 (en) * 2018-11-06 2021-12-14 Amazon Technologies, Inc. Voice profile updating
TWI707249B (zh) * 2018-11-27 2020-10-11 美律實業股份有限公司 產生標籤資料的系統及方法
US11641363B2 (en) * 2019-01-14 2023-05-02 Qatar Foundation For Education, Science And Community Development Methods and systems for verifying the authenticity of a remote service
CN109979467B (zh) * 2019-01-25 2021-02-23 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN110164415B (zh) * 2019-04-29 2024-06-14 腾讯科技(深圳)有限公司 一种基于语音识别的推荐方法、装置及介质
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN110660398B (zh) * 2019-09-19 2020-11-20 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
KR20210050884A (ko) * 2019-10-29 2021-05-10 삼성전자주식회사 화자 인식을 위한 등록 방법 및 장치
CN111243601B (zh) * 2019-12-31 2023-04-07 北京捷通华声科技股份有限公司 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN111248861B (zh) * 2020-01-16 2023-01-24 广州国音智能科技有限公司 一种提高声纹采集精度的方法、装置和设备
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111429920B (zh) * 2020-03-30 2024-01-23 北京奇艺世纪科技有限公司 用户区分方法、用户行为库确定方法、装置及设备
CN111627449B (zh) * 2020-05-20 2023-02-28 Oppo广东移动通信有限公司 屏幕的声纹解锁方法和装置
CN111785291B (zh) * 2020-07-02 2024-07-02 北京捷通华声科技股份有限公司 语音分离方法和语音分离装置
CN111951791B (zh) * 2020-08-26 2024-05-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
US11837238B2 (en) 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
CN112735432B (zh) * 2020-12-24 2023-05-02 北京百度网讯科技有限公司 音频识别的方法、装置、电子设备及存储介质
CN112735438B (zh) * 2020-12-29 2024-05-31 科大讯飞股份有限公司 一种在线声纹特征更新方法及设备、存储设备和建模设备
CN112717374B (zh) * 2021-01-08 2023-03-24 南方科技大学 用户匹配方法、装置、电子设备及介质
CN113066506B (zh) * 2021-03-12 2023-01-17 北京百度网讯科技有限公司 音频数据分离方法、装置、电子设备以及存储介质
CN113421563B (zh) * 2021-06-21 2024-05-28 安徽听见科技有限公司 说话人标注方法、装置、电子设备和存储介质
CN113570754B (zh) * 2021-07-01 2022-04-29 汉王科技股份有限公司 声纹锁控制方法、装置、电子设备
CN116741180B (zh) * 2023-08-14 2023-10-31 北京分音塔科技有限公司 基于声纹增强和对抗的语音识别模型训练方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US7739114B1 (en) * 1999-06-30 2010-06-15 International Business Machines Corporation Methods and apparatus for tracking speakers in an audio stream
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US20030236663A1 (en) 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
JP2006017936A (ja) * 2004-06-30 2006-01-19 Sharp Corp 通話装置,中継処理装置,通信認証システム,通話装置の制御方法,通話装置の制御プログラム,および通話装置の制御プログラムを記録した記録媒体
US9240188B2 (en) * 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
JP2006178334A (ja) * 2004-12-24 2006-07-06 Yamaha Corp 語学学習システム
CN1905445B (zh) * 2005-07-27 2012-02-15 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
JP4700522B2 (ja) * 2006-03-02 2011-06-15 日本放送協会 音声認識装置及び音声認識プログラム
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
JP5418223B2 (ja) * 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
WO2010009495A1 (en) * 2008-07-21 2010-01-28 Auraya Pty Ltd Voice authentication systems and methods
JP4964204B2 (ja) * 2008-08-27 2012-06-27 日本電信電話株式会社 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
CN101673544B (zh) * 2009-10-10 2012-07-04 上海电虹软件有限公司 一种基于声纹识别和定位跟踪的交叉监控方法和系统
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US10134401B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling
US10873117B2 (en) * 2013-01-01 2020-12-22 Massachusetts Institute Of Technology Multi-layer structures prepared by layer-by-layer assembly
US9258425B2 (en) * 2013-05-22 2016-02-09 Nuance Communications, Inc. Method and system for speaker verification
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers

Also Published As

Publication number Publication date
AU2013289660B2 (en) 2016-06-30
CN102760434A (zh) 2012-10-31
EP2821992A4 (en) 2015-03-04
WO2014008843A1 (zh) 2014-01-16
US9685161B2 (en) 2017-06-20
JP5996783B2 (ja) 2016-09-21
JP2015516091A (ja) 2015-06-04
AU2013289660A1 (en) 2014-10-30
EP2821992A1 (en) 2015-01-07
US20150112680A1 (en) 2015-04-23
EP2821992B1 (en) 2018-02-14

Similar Documents

Publication Publication Date Title
AU2013289660B2 (en) Method for updating voiceprint feature model and terminal
CN110364145B (zh) 一种语音识别的方法、语音断句的方法及装置
CN109447234B (zh) 一种模型训练方法、合成说话表情的方法和相关装置
CN110164469B (zh) 一种多人语音的分离方法和装置
CN107580113B (zh) 提示方法、装置、存储介质及终端
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN111477243B (zh) 音频信号处理方法及电子设备
CN106920559B (zh) 通话音的优化方法、装置及通话终端
CN110070863A (zh) 一种语音控制方法及装置
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN112004174B (zh) 一种降噪控制方法、设备及计算机可读存储介质
US20170364516A1 (en) Linguistic model selection for adaptive automatic speech recognition
CN108073572A (zh) 信息处理方法及其装置、同声翻译系统
CN110830368A (zh) 即时通讯消息发送方法及电子设备
CN107403623A (zh) 录音内容的保存方法、终端、云服务器及可读存储介质
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
CN114065168A (zh) 信息处理方法、智能终端及存储介质
CN112653789A (zh) 语音模式切换方法、终端及存储介质
CN109453526B (zh) 一种声音处理方法、终端及计算机可读存储介质
CN111326175A (zh) 一种对话者的提示方法及穿戴设备
WO2017124876A1 (zh) 一种语音播放方法和装置
CN114093357A (zh) 控制方法、智能终端及可读存储介质
CN108958505B (zh) 一种显示候选信息的方法及终端

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application