KR20190093962A - 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 - Google Patents

화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 Download PDF

Info

Publication number
KR20190093962A
KR20190093962A KR1020180013430A KR20180013430A KR20190093962A KR 20190093962 A KR20190093962 A KR 20190093962A KR 1020180013430 A KR1020180013430 A KR 1020180013430A KR 20180013430 A KR20180013430 A KR 20180013430A KR 20190093962 A KR20190093962 A KR 20190093962A
Authority
KR
South Korea
Prior art keywords
user
voice
feature
voice signal
speaker
Prior art date
Application number
KR1020180013430A
Other languages
English (en)
Other versions
KR102585231B1 (ko
Inventor
한영호
조근석
노재영
김남훈
박치연
류종엽
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180013430A priority Critical patent/KR102585231B1/ko
Priority to CN201980011477.0A priority patent/CN111684521A/zh
Priority to PCT/KR2019/001372 priority patent/WO2019151802A1/en
Priority to EP19747302.8A priority patent/EP3738121A4/en
Priority to US16/265,237 priority patent/US10916249B2/en
Publication of KR20190093962A publication Critical patent/KR20190093962A/ko
Application granted granted Critical
Publication of KR102585231B1 publication Critical patent/KR102585231B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

본 개시의 실시예에 따른 음성 신호 처리 방법은 전자 장치에서 화자 인식을 수행하기 위한 방법에 있어서, 제1 사용자의 음성 신호를 획득하는 단계; 상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 단계; 상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 단계; 및 상기 추천 문장을 출력하는 단계를 포함한다.

Description

화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 {SPEECH SIGNAL PROCESSING MEHTOD FOR SPEAKER RECOGNITION AND ELECTRIC APPARATUS THEREOF}
본 개시의 실시예는 수신되는 음성 신호에 근거하여 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치에 대한 것이다.
최근에 스마트폰과 같이 다양한 기능을 복합적으로 수행하는 전자 장치들이 개발됨에 따라, 조작성을 향상시키기 위하여 음성 인식 기능이 탑재된 전자 장치들이 출시되고 있다. 음성 인식 기능은, 별도의 버튼 조작 또는 터치 모듈의 접촉에 의하지 않고 사용자의 음성을 인식함으로써 장치를 손쉽게 제어할 수 있는 장점을 가진다.
이러한 음성 인식 기능에 의하면, 예를 들어 스마트폰과 같은 휴대용 단말기에서는 별도의 버튼을 누르는 조작 없이 통화 기능을 수행하거나 문자 메시지를 작성할 수 있으며, 길찾기, 인터넷 검색, 알람 설정 등 다양한 기능을 손쉽게 설정할 수 있다.
이러한 음성 인식 기술의 발전에 따라서, 음성 인식 기술을 이용하여 화자를 인식하는 기능이 탑재된 전자 장치들이 출시되고 있다. 구체적으로, 수신되는 음성 신호에 기반하여 화자 인식을 수행하고, 수행된 화자 인식 결과에 따라서 후속 동작, 예를 들어, 전자 장치의 이용을 허용 또는 제한하거나, 후속되는 음성 인식 동작을 수행할지 여부를 결정하는 동작 등을 수행하는 전자 장치들이 개발되고 있다.
사용자 개인의 정보의 보호를 중요시하여야 할 필요가 있는 전자 장치, 예를 들어, 사용자의 휴대폰의 경우, 해당 휴대폰의 주인인 사용자만이 해당 휴대폰을 이용하도록 하여야 할 필요가 있다. 이 경우, 해당 휴대폰에서는 화자 인식(speaker recognition)을 통하여 음성 신호를 입력한 화자가 등록된 사용자인지를 확인할 필요가 있으므로, 화자 인식을 수행하여야 한다.
또 다른 예로, 사용자가 누구인지에 따라서 개인화된 서비스를 제공하는 전자 장치의 경우, 화자 인식이 필요하다. 구체적으로, 이러한 전자 장치의 경우, 화자 인식을 수행하여 사용자가 누구인지를 확인하고, 확인 결과에 따라서 개인화된 서비스를 제공할 수 있다.
화자 인식 기술의 빠른 발전에도 불구하고, 유사한 음성 특징을 가진 복수의 화자들 각각에 대응되는 복수의 음성 신호들 간을 구별해야 경우, 전자 장치의 화자 인식 정확도 여전히 높지 않다. 또한, 화자가 발화하는 환경에서 발생하는 잡음 등으로 인하여, 화자 인식 정확도가 낮아질 수 있다.
따라서, 어떠한 주변 환경 및/또는 동작 환경에서도 화자 인식의 정확도를 높일 수 있는 방법 및 장치를 개발할 필요가 있다.
본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치는 수신되는 음성 신호에 근거한 화자 인식의 정확도를 향상시킬 수 있다.
구체적으로 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치는 발화하는 화자의 음성 특징 중 기준값과 대비되는 음성 특징을 추출하고 추출된 음성 특징에 근거하여 추천 문자를 제시함으로써, 수신되는 음성 신호에 근거한 화자 인식의 정확도를 향상시킬 수 있다.
구체적으로, 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치는 유사한 음성 특징을 갖는 복수의 화자들에 대한 화자 인식을 수행하는 경우, 복수의 화자들 중 일 화자가 발화한 음성에 근거한 화자 인식 성능을 향상시킬 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치는 화자 인식을 위해 음성 신호를 수신할 때 발생하는 잡음 신호로 인하여 화자 인식률, 예를 들어, 화자 인식의 정확도가 저하되는 문제를 극복할 수 있다.
구체적으로, 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치는 화자 인식이 수행되는 동작 환경 및 잡음 환경의 변화에 적응적으로 대응하여 화자 인식에 이용되는 기준값 및 한계값 중 적어도 하나를 조절함으로써, 화자 인식 성능을 향상시킬 수 있다.
본 개시의 실시예에 따른 전자 장치에서 화자 인식을 수행하기 위한 음성 신호 처리 방법은, 제1 사용자의 음성 신호를 획득하는 단계; 상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 단계; 상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 단계; 및 상기 추천 문장을 출력하는 단계를 포함한다.
또한, 상기 제1 사용자 특징을 획득하는 단계는 상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하는 단계; 및 상기 비교 결과에 근거하여, 상기 복수개의 단위 음 특징 각각과 상기 기준값 간의 차이가 소정 범위를 넘는 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 단계를 포함할 수 있다.
또한, 상기 제1 사용자 특징을 획득하는 단계는 상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하는 단계; 및 상기 비교 결과에 근거하여, 상기 기준값과의 유사도가 낮은 상기 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 단계를 포함할 수 있다.
또한, 상기 음성 특징이 소정 단위로 추출될 때, 상기 소정 단위는 음소맥락(phone context) 단위가 될 수 있다. 또한, 상기 추천 문장을 생성하는 단계는 상기 제1 사용자 특징에 포함되는 상기 음소맥락을 포함하는 글자가 상기 추천 문장에 포함되도록 상기 추천 문장을 생성하는 단계를 포함할 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법은 제1 사용자가 상기 추천 문장을 발화하면, 상기 제1 사용자가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신하고, 상기 등록 음성 신호를 이용하여 화자 인식을 수행하는 단계를 더 포함할 수 있다.
또한, 상기 기준값은 복수의 사용자들의 평균적인 음성 특징을 음소맥락 단위로 나타내는 값이 될 수 있다.
또한, 상기 기준값은 상기 전자 장치를 상기 제1 사용자를 포함하는 복수의 사용자가 공유하여 이용할 때, 상기 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값이 될 수 있다.
또한, 상기 제1 사용자 특징을 획득하는 단계는 상기 제1 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징과 상기 제2 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징을 비교하고, 상기 비교 결과 상기 제1 사용자의 음성 특징과 상기 제2 사용자의 음성 특징의 차이가 소정 범위를 넘는 적어도 하나의 음소맥락을 상기 제1 사용자 특징으로 추출하는 단계를 포함할 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법은 상기 제1 사용자의 음성 특징과 상기 제2 사용자의 음성 특징 간의 유사성이 있을 때, 상기 제1 사용자의 음성과 상기 제2 사용자의 음성을 인식하는데 있어서의 변별력이 증가되도록, 상기 제1 사용자의 음성 특징, 상기 제2 사용자의 음성 특징, 상기 제1 사용자의 음성 신호를 인식하는데 이용되는 모델 및 상기 제2 사용자의 음성 신호를 인식하는데 이용되는 모델 중 적어도 하나를 변형시키는 단계를 더 포함할 수 있다.
또한, 상기 제1 사용자의 음성 신호를 입력받는 단계는 상기 제1 사용자가 발화한 상기 음성 신호 및 상기 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호를 입력받는 단계를 포함할 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법은 상기 잡음 신호의 특징인 잡음 특징을 추출하는 단계; 상기 잡음 특징에 근거하여, 화자 인식을 수행하는데 있어서 적용되는 한계값 및 상기 제1 사용자의 음성 신호에 포함되는 소정 단위 음에 적용되는 가중치 중 적어도 하나를 조절하는 단계; 및 조절된 상기 한계값 및 상기 가중치 중 적어도 하나에 근거하여, 화자 인식을 수행하는 단계를 더 포함할 수 있다.
또한, 상기 제1 사용자의 음성 신호를 입력받는 단계는 상기 제1 사용자가 발화한 상기 음성 신호 및 상기 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호를 입력받는 단계를 포함할 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법은 상기 잡음 신호의 신호 특징을 추출하는 단계; 및 상기 잡음 신호의 특징인 잡음 특징에 근거하여, 화자 인식 대상에 되는 음성 신호가 상기 잡음 신호에 의해서 마스킹 되지 않도록, 화자 인식 모델을 조절하는 단계를 더 포함할 수 있다.
본 개시의 실시예에 따른, 화자 인식을 수행하기 위해 음성 신호를 처리하는 전자 장치는 제1 사용자의 음성 신호를 획득하는 수신부; 상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하고, 상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 제어부; 및 상기 추천 문장을 출력하는 출력부를 포함한다.
본 개시의 실시예에 따른 컴퓨터에 의해서 실행 가능한 명령어들을 포함하는 프로그램을 기록한 기록 매체에 있어서, 상기 프로그램은 전자 장치에서 화자 인식을 수행하기 위한 음성 신호 처리 방법을 실행하기 위한 명령어들을 포함한다. 여기서, 음성 신호 처리 방법은 제1 사용자의 음성 신호를 획득하는 단계; 상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 단계; 상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 단계; 및 상기 추천 문장을 출력하는 단계를 포함한다.
본 개시의 실시예에 따른 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치는 화자 인식의 정확도를 향상시킬 수 있다.
구체적으로, 본 개시의 실시예에 따른 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치는 유사한 음성 특징을 갖는 복수의 화자들에 대한 화자 인식을 수행하는 경우, 복수의 화자들 중 일 화자가 발화한 음성에 근거한 화자 인식 성능을 향상시킬 수 있다.
또한, 본 개시의 실시예에 따른 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치는 화자 인식을 위해 음성 신호를 수신할 때 발생하는 잡음 신호로 인하여 화자 인식률, 예를 들어, 화자 인식의 정확도를 향상시킬 수 있다.
구체적으로, 본 개시의 실시예에 따른 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치는 화자 인식이 수행되는 동작 환경 및 잡음 환경의 변화에 적응적으로 대응함으로써, 화자 인식 성능을 향상시킬 수 있다.
도 1a 내지 도 1d는 화자 인식을 수행하는 전자 장치를 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치를 나타내는 블록도이다.
도 3은 본 개시의 다른 실시예에 따른 전자 장치를 나타내는 블록도이다.
도 4는 본 개시의 실시예에 따른 전자 장치에서 수행되는 비교 동작을 설명하기 위한 일 도면이다.
도 5는 본 개시의 실시예에 따른 전자 장치에서 수행되는 비교 동작을 설명하기 위한 다른 도면이다.
도 6은 본 개시의 실시예에 따른 전자 장치에서 수행되는 추천 문장 출력 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
도 8은 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
도 9는 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 단일 화자 인식을 위한 동작을 설명하기 위한 도면이다.
도 10는 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
도 11은 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 복수 화자 인식을 위한 동작을 설명하기 위한 일 도면이다.
도 12a는 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 복수 화자 인식을 위한 동작을 설명하기 위한 다른 도면이다.
도 12b는 유사성을 갖는 복수 화자들 간의 음성 특징을 설명하기 위한 도면이다.
도 13은 본 개시의 실시예에 따라 유사성을 갖는 복수 화자들 간의 음성 변별력을 높이기 위한 동작을 설명하기 위한 도면이다.
도 14는 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은하나 이상의 프로세서 또는 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 모듈 및 구성등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
본 개시의 실시예는 음성 신호에 근거한 화자 인식을 수행하는 방법 및 장치에 대한 것이다.
본 개시의 실시예에서는 오디오 신호를 수신하고, 수신된 오디오 신호에 근거하여 화자 등록 및 화자 인식을 수행할 수 있다. 여기서, 오디오 신호는 화자가 발화한 음성 신호를 포함할 수 있다. 또한, 오디오 신호는 화자가 발화한 음성 신호 및 화자가 발화하는 환경에서 발생하는 잡음 신호를 모두 포함할 수 있다.
이렇게 수신되는 오디오 신호에 근거하여, 음성 인식 및 화자 등록을 수행하고, 화자 등록이 완료된 이후에 수신되는 음성 신호에 근거하여 화자 인식을 수행할 수 있다.
본 개시의 실시예에 따른 전자 장치는 오디오 신호에 근거한 화자 인식을 수행할 수 있는 모든 전자 장치가 될 수 있다. 구체적으로, 본 개시의 실시예에 따른 전자 장치는 사람의 음성을 포함하는 오디오 신호를 수신하고 이를 음성 인식하여 화자 인식 기능을 수행할 수 있다. 여기서, 화자 인식 기능이란 인식된 음성 신호에 근거하여 화자 등록을 수행하거나, 인식된 음성 신호에 근거하여 등록된 화자 맞는지를 판단하거나, 상기 판단에 근거하여 후속되는 소정 동작을 수행할지 여부를 판단하는 동작을 수행하는 기능을 의미한다.
구체적으로, 본 개시의 실시예에 따른 전자 장치는 웨어러블 디바이스, 스마트 폰, 태블릿 PC, PC, PDA(personal digital assistant), 랩탑 컴퓨터, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라 및 자동차의 전자 제어 장치, 중앙 정보 디스플레이(CID, Central Information Display) 등 모바일 컴퓨팅 장치 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 본 개시의 실시예에 따른 전자 장치는 가정 사물 인터넷(Home IoT: Home Internet of Things) 플렛폼에 의해서 제어 가능한 가전 제품들, 예를 들어, 가정 내 TV, 세탁기, 냉장고, 전자레인지, 컴퓨터 등이 될 수 있다.
구체적으로, 본 개시의 실시예에 따른 전자 장치는 전술한 웨어러블 디바이스, 스마트 폰, 태블릿 PC, PC, PDA(personal digital assistant), 랩탑 컴퓨터, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라 및 자동차의 전자 제어 장치, 중앙 정보 디스플레이(CID, Central Information Display) 등 모바일 컴퓨팅 장치 또는 비모바일 컴퓨팅 장치, 또는 사물 인터넷 플렛폼에 의해서 제어 가능한 가전 제품들에 포함되거나 탑재되는 형태로 형성될 수 있다.
이하의 도 1a 내지 도 1d에서는 본 개시의 실시예에 따른 전자 장치가 스마트 폰인 경우를 예로 들어 설명한다. 도 1a 내지 도 1d에 있어서, 동일한 구성은 동일한 도면 기호를 이용하여 도시하며, 상호 중복되는 내용은 설명한다.
도 1a는 화자 인식을 수행하는 전자 장치를 설명하기 위한 도면이다.
전자 장치(100)는 사용자(10)가 발화하는 음성 신호를 수신하고 수신된 음성 신호에 근거하여 화자 인식을 수행할 수 있다.
여기서, 화자 인식(speaker recognition)은 수신된 음성 신호에 근거하여 음성 신호를 발화한 사용자의 고유 특성을 분석하여, 수신된 음성 신호의 발화자가 누구인지를 자동적으로 판단하는 동작을 의미할 수 있다. 화자 인식은 음성 인식을 이용한 화자 식별로서, 본인 확인을 위해서 이용될 수 있다.
구체적으로 도 1a을 참조하면, 전자 장치(100)는 먼저 사용자(10)가 발화하는 음성 신호를 수신하고, 수신된 음성 신호를 인식하는 음성 인식 동작을 수행할 수 있다. 여기서, 음성 인식 동작은 수신되는 오디오 신호인 음성 신호를 사용자의 말인 음성으로서 감지 또는 인식하는 것을 의미한다.
그리고, 전자 장치(100)는 전술한 음성 인식 동작을 수행하여 인식된 음성에 근거하여 화자 인식 동작을 수행할 수 있다.
또한, 화자 인식을 위한 전제로, 화자 등록이 수행될 수 있다. 예를 들어, 전자 장치(100)가 사용자(10)가 발화한 음성 신호에 근거하여 화자 등록을 수행할 수 있다. 구체적으로, 사용자(10)가 전자 장치(100)를 새로 구입한 후, 최초로 사용자 등록을 위해서 음성 신호를 발화할 수 있다. 그러면, 전자 장치(100)는 발화된 음성을 화자 인식용 음성 신호로 등록하여 사용자 등록을 완료할 수 있다.
후속 시점에서, 전자 장치(100)로 화자 인식을 위해서 음성 신호가 수신되면, 전자 장치(100)는 수신된 음성 신호를 발화한 화자가 등록된 사용자와 일치하는지 여부를 판단하는 화자 인식 동작을 수행할 수 있다. 구체적으로, 화자 인식을 위하여 수신되는 음성 신호에 대응되는 음성 특징이 화자 등록 시 추출된 음성 특징과 유사성 또는 동일성을 갖는지 비교할 수 있다. 그리고, 비교 결과에 따라서 음성 신호를 발화한 화자가 등록된 사용자 인지 여부를 판단할 수 있다.
화자 인식 결과, 음성 신호를 발화한 화자가 등록된 사용자인 경우, 전자 장치(100)는 후속하여 수신되는 사용자가 발화하는 음성 신호를 인식하고, 인식된 음성 신호에 대응되는 동작을 수행할 수 있다.
또한, 화자 인식 결과 음성 신호를 발화한 화자가 등록된 사용자인 아닌 경우, 전자 장치(100)는 추가적인 동작 수행 없이 음성 인식을 종료할 수 있다. 구체적으로, 전자 장치(100)는 등록된 사용자가 아니라는 메시지를 출력하고, 화자가 발화한 음성 신호에 대응되는 동작 수행을 거부할 수 있다.
또한, 화자 인식은 화자 등록 이외에도 다양한 목적을 위하여 수행될 수 있다. 예를 들어, 등록된 화자가 맞는지 확인하기 위하여 수행될 수도 있다. 또한, 인식된 화자에 대응되는 개인화된 서비스를 제공하기 위한 목적으로, 화자가 누구인지를 특정하기 위해서 화자 인식이 수행될 수도 있다.
또한, 도 1a에서는 전자 장치(100)에서 화자 인식을 수행하는 경우를 예로 들어 도시하였다. 그러나, 화자 인식을 수행하기 위한 동작들은, 전자 장치(100), 서버(미도시), 및 웨어러블 디바이스 등과 같은 다른 전자 장치(미도시) 중 적어도 하나와 연계되어 수행될 수도 있으며, 이하에서 도 1b 내지 도 1d를 참조하여 상세히 설명한다.
도 1b를 참조하면, 화자 인식 동작은, 전자 장치(100) 및 서버(120)에서 수행될 수도 있을 것이다. 여기서, 서버(120)는 전자 장치(100)와 유선 또는 무선의 네트워크를 통하여 연결되는 음성 인식 서버(120)가 될 수 있다. 도 1b에서는 전자 장치(100)와 음성 인식 서버(120)가 무선 네트워크(121)로 연결되는 경우를 예로 들어 도시하였다. 여기서, 무선 네트워크(121)는 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크가 될 수 있다. 이하에서는, 전자 장치(100)와 음성 인식 서버(120)가 Wi-Fi 통신 규격을 따르는 네트워크를 통하여 소정 데이터를 송수신하는 경우를 예로 들어 설명한다.
구체적으로, 전자 장치(100)는 사용자(10)가 발화한 음성 신호를 수신하고, 수신된 음성 신호를 음성 인식 서버(120)로 전송할 수 있다. 그러면, 음성 인식 서버(120)는 수신된 음성 신호를 음성 인식하고, 음성 인식된 결과를 전자 장치(100)로 전송할 수 있다. 그러면, 전자 장치(100)는 수신된 음성 인식 결과에 대응되는 동작을 수행할 수 있을 것이다.
도 1c를 참조하면, 화자 인식 동작은, 전자 장치(100) 및 웨어러블 디바이스(130)에서 수행될 수도 있을 것이다. 여기서, 웨어러블 디바이스(130)는 전자 장치(200)와 유선 또는 무선의 네트워크를 통하여 연결되는 전자 장치(100)와 물리적으로 구별되는 다른 전자 장치가 될 수 있다. 도 1c 에서는 전자 장치(100)와 웨어러블 디바이스(130)가 무선 네트워크(135)로 연결되는 경우를 예로 들어 도시하였다.
구체적으로, 웨어러블 디바이스(130)는 사용자(10)가 발화한 음성 신호를 수신한다. 그리고, 웨어러블 디바이스(130)는 수신된 음성 신호를 무선 네트워크, 예를 들어, 블루투스 통신 규격에 따른 네트워크(135)를 통하여 전자 장치(100)로 전송한다. 그러면, 전자 장치(200)는 전송된 음성 신호를 음성 인식할 수 있을 것이다.
도 1d를 참조하면, 화자 인식 동작은, 전자 장치(100), 웨어러블 디바이스(130), 및 음성 인식 서버(120)에서 수행될 수도 있을 것이다.
구체적으로, 외부 전자 장치인 웨어러블 디바이스(130)는 사용자(10)로부터 음성 신호를 수신하고, 수신된 음성 신호를 전자 장치(100)로 전송한다. 전자 장치(100)는 수신된 음성 신호를 다시 음성 인식 서버(120)로 전송한다. 그러면, 음성 인식 서버(120)는 수신된 음성 신호에 대한 음성 인식을 수행할 수 있을 것이다.
전술한 바와 같이, 화자 인식 또는 화자 등록을 위한 음성 인식 동작은 전자 장치(예를 들어, 100), 전자 장치와 연계되어 동작 가능한 웨어러블 디바이스(130), 및 전자 장치와 소정의 통신 네트워크를 통하여 연결 가능한 서버(120)(예를 들어, 음성 인식 서버) 중 적어도 하나를 이용하여 수행될 수 있다. 이하에서는, 설명의 편의 상, 음성 인식 동작이 전자 장치에서 수행되는 경우를 예로 들어 설명한다.
전술한 화자 인식 동작을 수행하는데 있어서, 무엇보다도 중요한 것은 얼마나 정확하게 화자가 등록된 사용자인지를 판단하는 것이다. 즉, 화자 인식을 수행하는 전자 장치에 있어서는, 화자 인식 성능을 향상시켜, 화자 인식 성공률 또는 화자 인식 정확도를 증가시키는 것이 무엇보다 중요하다.
이하에서는, 단일 화자가 존재하는 경우, 복수의 화자가 존재하는 경우, 또는 잡음이 존재하는 환경에서 발화하는 화자의 음성 신호를 수신하는 경우 등 어떠한 경우에서도 탄력적으로 대응하여 화자 인식 성능을 향상시킬 수 있는 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치를 첨부된 도면들을 참조하여 상세히 설명한다.
도 2는 본 개시의 일 실시예에 따른 전자 장치를 나타내는 블록도이다.
도 2를 참조하면, 본 개시의 일 실시예에 따른 전자 장치(200)는 수신부(210), 제어부(220) 및 출력부(230)를 포함한다. 여기서, 전자 장치(200)는 도 1a에서 도시한 전자 장치(100)와 동일 대응되므로, 전자 장치(200)를 설명하는데 있어서 도 1a에서와 중복되는 설명은 생략한다.
전자 장치(200)는 전술한 화자 등록 또는 화자 인식을 수행하기 위해 음성 신호를 처리한다. 전자 장치(200)는 화자 등록 또는 화자 인식을 수행할 수 있는 장치로, 도 1에서 설명한 바와 같이 전자 장치(100), 웨어러블 디바이스, 및 서버 중 적어도 하나를 포함하는 형태로 다양하게 존재할 수 있다. 예를 들어, 전자 장치(200)는 스마트 폰과 같은 단일 전자 장치로 형성될 수 있다.
화자 등록을 위하여 등록 대상이 되는 화자가 발화한 음성에 대하여 음성 인식이 수행되어야 한다. 즉, 화자 등록을 위하여도 화자의 음성 인식이 수행된다. 따라서, 이하에서는 화자 등록 또는 화자 인식을 모두 '화자 인식'이라고 표현하도록 하겠다.
수신부(210)는 제1 사용자의 음성 신호를 획득한다.
구체적으로, 수신부(210)는 오디오 신호를 획득할 수 있다. 여기서, 오디오 신호는 제1 사용자의 음성 신호 만을 포함할 수 있다. 또한, 오디오 신호는 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호와 제1 사용자의 음성 신호를 모두 포함할 수 있다. 오디오 신호가 제1 사용자의 음성 신호 및 잡음 신호를 모두 포함하는 경우, 수신부(210)는 음성 인식 동작을 수행하여, 오디오 신호에서 제1 사용자의 음성 신호만을 추출할 수 있을 것이다.
또한, 수신부(210)는 무선 마이크, 유선 마이크 등의 음성 수신 장치를 통하여, 제1 사용자로부터 직접 음성 신호를 획득할 수 있다. 또한, 수신부(210)는 외부의 음성 수신 장치(미도시)에서 수신된 제1 사용자의 음성 신호를 통신 모듈(미도시)를 통하여 전송 받을 수도 있을 것이다. 여기서, 외부의 음성 수신 장치는 전자 장치(200)와 독립적으로 형성되는 무선 마이크 또는 유선 마이크, 음성 수신이 가능한 외부의 전자 장치(미도시)(예를 들어, 웨어러블 디바이스), 또는 제1 사용자의 음성 신호를 수신 및/또는 저장하는 외부의 서버(미도시) 등이 될 수 있을 것이다.
여기서, 통신 모듈(미도시)는 전자 장치(200)의 물리적으로 이격되어 형성되는 외부의 음성 수신 장치(미도시)와 유무선의 통신 네트워크를 통하여 연결되며, 유무선의 통신 네트워크를 통하여 음성 신호를 수신할 수 있을 것이다.
또한, 통신 모듈(미도시)는 수신부(210) 내에 구비될 수도 있으며, 수신부(210)와 별도의 모듈로 형성되며 전자 장치(200) 내에 포함되는 형태로 구비될 수 있을 것이다. 구체적으로, 통신 모듈(미도시)는 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등과 같은 적어도 하나의 통신 모듈을 포함한다. 그리고, 적어도 하나의 통신 모듈은 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크를 통하여 데이터 송수신을 수행할 수 있는 통신 모듈을 의미한다.
예를 들어, 외부의 음성 수신 장치(미도시)가 전자 장치(200)와 블루투스 통신 네트워크를 통하여 연결되는 웨어러블 디바이스(미도시)인 경우, 웨어러블 디바이스(미도시)는 제1 사용자가 발화한 음성 신호를 수신할 수 있다. 그리고, 수신된 음성 신호를 블루투스 통신 네트워크를 통하여 전자 장치(200)로 전송할 수 있다. 전자 장치(200)의 통신 모듈(미도시)(예를 들어, 블루투스 통신 모듈)은 수신된 음성 신호를 제어부(220)로 전송할 수 있다.
제어부(220)는 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하고, 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성할 수 있다. 구체적으로, 제어부(220)는 수신부(210)로부터 제1 사용자가 발화한 음성 신호를 전송받을 수 있다. 그리고, 음성 신호로부터 음성 특징을 추출할 수 있다. 계속하여, 제어부(220)는 추출된 음성 특징과 기준값을 비교하고, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하고, 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성할 수 있다.
구체적으로, 제어부(220)는 적어도 하나의 프로세서를 포함할 수 있다. 그리고, 적어도 하나의 프로세서 각각은 적어도 하나의 명령어를 실행시킴으로써, 소정 동작을 실행할 수 있다. 또한, 제어부(220)는 내부적으로 구비되는 적어도 하나의 프로세서 및 제어부(220)의 외부적으로 구비되는 적어도 하나의 프로세서 중 적어도 하나를 제어하여, 소정 동작이 실행되도록 제어할 수 있다. 여기서, 소정 동작은, 전술한 제1 사용자의 음성 신호에서 음성 특징을 추출하는 동작, 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하는 동작, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 동작, 및 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 동작 등을 포함할 수 있다.
여기서, 기준값은 전자 장치(200)로 수신되는 음성 신호를 발화한 화자의 변별력을 높이기 위하여, 화자가 발화한 음성 신호가 가지는 특징적인 소정 단위의 음을 추출하기 위해서 이용되는 비교 기준 값이 될 수 있다.
기준값은 도 4 및 도 5를 참조하여 이하에서 상세히 설명한다.
제어부(220)는 기준값과 대비되는 제1 사용자의 음성 특징을 제1 사용자 특징으로 획득할 수 있다. 구체적으로, 제1 사용자의 음성 신호에서 추출된 음성 특징의 값과 기준 값의 차이가 큰 값을 가지는 적어도 하나의 단위 음을 제1 사용자 특징으로 획득할 수 있다. 구체적으로, 제1 사용자의 음성 신호에서 추출된 음성 특징의 값과 기준 값의 차이가 소정 범위 이상 또는 초과가 되는 적어도 하나의 단위 음을 제1 사용자 특징으로 획득할 수 있다. 여기서, 제1 사용자 특징은 이하에서 도 4 및 도 5를 참조하여 이하에서 상세히 설명한다.
그리고, 제어부(220)는 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성할 수 있다. 구체적으로, 제어부(220)는 제1 사용자 특징에 포함되는 적어도 하나의 단위 음이 포함되도록 추천 문장을 생성할 수 있다.
또한, 제어부(220)는 전자 장치(200)의 동작을 전반적으로 제어할 수 있다.
출력부(230)는 추천 문장을 출력한다. 구체적으로, 출력부(230)는 제어부(220)에서 생성된 추천 문장을 사용자, 예를 들어, 제1 사용자가 시각적 또는 청각적으로 인식할 수 있도록 출력한다.
구체적으로, 출력부(230)는 오디오 데이터를 출력하는 오디오 장치(미도시) 및 영상 데이터를 출력하는 디스플레이(미도시) 중 적어도 하나를 포함할 수 있다.
구체적으로, 출력부(230)가 오디오 장치(미도시)를 포함하는 경우, 오디오 장치는 추천 문장을 사용자가 청각적으로 인식할 수 있는 오디오 신호로 출력할 수 있다. 또는, 출력부(230)가 디스플레이를 포함하는 경우, 디스플레이는 추천 문장을 포함하는 사용자 인터페이스 화면을 출력할 수 있다.
도 3은 본 개시의 다른 실시예에 따른 전자 장치를 나타내는 블록도이다.
본 개시의 다른 실시예에 따른 전자 장치(300)는 도 2에서 도시된 전자 장치(200)에 대응될 수 있다. 또한, 전자 장치(300)에 포함되는 수신부(310), 제어부(320) 및 출력부(330)는 각각 도 2에서 도시한 전자 장치(200)에 포함되는 수신부(210), 제어부(220) 및 출력부(230)에 대응된다. 따라서, 전자 장치(300)에 포함되는 각 구성을 설명하는데 있어서, 도 2 및 도 2에 대응되는 설명에서와 중복되는 설명은 생략한다.
도 3을 참조하면, 전자 장치(300)는 전자 장치(200)에 비하여, 메모리(340) 및 사용자 인터페이스(350) 중 적어도 하나를 더 포함할 수 있다.
출력부(330)는 스피커(미도시) 및 디스플레이(미도시) 중 적어도 하나를 포함할 수 있다. 스피커(미도시)는 소정 정보를 사용자가 청각적으로 인식할 수 있도록 오디오 신호를 출력한다. 그리고, 디스플레이(미도시)는 소정 정보를 사용자가 시각적으로 인식할 수 있도록 하는 화면등과 같은 비디오 신호를 출력한다.
또한, 출력부(330)는 소정 정보를 사용자에게 출력하는데 있어서, 오디오 신호 만을 출력할 수도 있고, 또는 비디오 신호 만을 출력할 수도 있을 것이다. 또한 출력부(330)는 오디오 신호 및 비디오 신호를 동시에 출력할 수도 있을 것이다.
본 개시의 실시예에서, 제어부(320)가 텍스트 데이터 형태로 생성되는 추천 문장을 음성 합성하여 오디오 신호를 생성한 경우, 스피커(미도시)는 생성된 오디오 신호를 출력할 수 있다. 또는, 제어부(320)가 텍스트 데이터 형태로 생성되는 추천 문장을 포함하는 화면을 생성한 경우, 디스플레이(332)는 화면을 출력할 수 있다.
메모리(340)는 소정 데이터, 및 소정 동작을 수행하기 위한 명령어들을 포함하는 프로그램들 중 적어도 하나를 포함할 수 있다.
본 개시의 실시예에서 메모리(340)는 전자 장치(300)의 사용자로 등록된 사용자의 음성 신호, 사용자가 발화한 추천 문장에 대응되는 음성 신호, 출력부(230)가 출력한 추천 문장에 대응되어 사용자 발화한 등록 문장에 대응되는 음성 신호 등을 저장할 수 있다.
본 개시의 실시예에서 메모리(340)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
사용자 인터페이스(350)는 전자 장치(300)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(350)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다.
본 개시의 실시예에서 사용자 인터페이스(350)는 출력부(330)가 출력하는 추천 문장을 수락하는 터치 입력 또는 버튼 입력을 수신할 수 있다.
이하에서는, 본 개시에서 이용되는 음성 특징에 대하여 상세히 설명한다.
본 개시의 실시예에서, 제어부(320)는 기준값과 대비되는 제1 사용자의 음성 특징을 제1 사용자 특징으로 획득할 수 있다.
음성 특징은 음성 인식 또는 음성 인식에 근거한 화자 인식이 가능하도록, 사람의 음성과 사람의 음성이 아닌 소리(예를 들어, 잡음, 동물의 음, 인공음 등)를 구별할 수 있도록 하는 특징값들을 포함할 수 있다. 구체적으로, 음성 특징은 음성 인식된 음성 신호로부터 추출되며, 특징 벡터를 이용하여 표현될 수 있다. 구체적으로, 음성 특징은 화자 인식에 강인한 특징을 갖는 화자 인식용의 특징 벡터를 이용하여 표현될 수 있다.
예를 들어, 전자 장치(300)는 실시간으로 오디오 신호를 입력 받을 수 있다. 그리고, 입력 받은 오디오 신호를 소정 길이의 프레임 단위로 분할하고, 프레임 단위로 분할된 오디오 신호를 처리할 수 있다. 프레임 단위로 분할된 오디오 신호로부터 프레임 단위의 음성 신호를 검출할 수 있다. 여기서, 오디오 신호는 화자의 음성 신호 및 잡음 신호를 포함한 신호가 될 수 있으며, 음성 신호는 화자가 발화한 음성에 대응되는 신호가 될 수 있다.
구체적으로, 전자 장치(300)는 화자 인식에 강인한 화자 인식용 특징 벡터를 음성 신호로부터 추출할 수 있다. 전자 장치(300)는, 시간 도메인(time domain) 기반의 음성 신호를 주파수 도메인(frequency domain) 상의 신호로 변환하고, 변환된 신호의 주파수 에너지를 서로 다르게 변형함으로써 화자 인식용 특징 벡터를 추출할 수 있다.
예를 들어, 화자 인식용 특징 벡터는 MFCC(Mel-frequency cepstral coefficients) 또는 필터 뱅크 에너지(Filter Bank Energy)일 수 있으나 이에 한정되는 것은 아니며 다양한 방식으로 음성 신호로부터 특징 벡터를 추출할 수 있다.
전자 장치(300)는 음성 신호의 화자가 등록된 화자인지 여부를 판단할 수 있다. 전자 장치(300)는 음성 신호로부터 추출된 특징 정보에 근거하여 발화한 화자를 나타내는 화자 정보를 생성하고, 생성된 화자 정보에 근거하여 음성 신호를 발화한 화자가 등록된 화자인지 여부를 판단할 수 있다.
여기서, 등록된 화자는 전자 장치(300)의 주 사용자일 수 있다. 예를 들어, 전자 장치(300)가 도 1a에 도시된 바와 같이 스마트 폰(100)인 경우, 스마트 폰의 소유자가 등록된 화자일 수 있다. 전자 장치(300)는 사용자 입력에 기초하여 화자를 등록하거나, 디폴트 값으로서 소정 화자를 등록된 화자로서 저장할 수 있다. 전자 장치(300)는, 한 명의 화자를 등록된 화자로서 저장할 수 있으며, 복수의 화자들을 등록된 화자들로서 저장할 수 있을 것이다.
일 실시예에서, 전자 장치(300)는, 특정 화자의 음성 특징을 등록 화자 정보로서 저장할 수 있다.
여기서, 음성 특징은 소정 단위의 음마다 추출될 수 있다. 여기서, 소정 단위의 음은 단일음소(mono-phone) 또는 해당 음소의 앞과 뒤에 오는 음소까지 종합적으로 고려하는 음소맥락(phone-context) 등이 될 수 있다. 또한, 음소맥락은 해당 음소의 앞 한 개의 음소와 뒤 한 개의 음소를 고려하는 음인 연속삼음소(tri-phone)를 예로 들 수 있다. 이하에서는, 소정 단위를 갖는 음을 '단위 음'이라고 호칭하도록 하겠다. 즉, 단위 음은 단일 음소, 음소 맥락, 연속삼음소 등이 될 수 있을 것이다.
또한, 음성 특징은 i-벡터(i-vector) 값으로 표현될 수 있다. 구체적으로, 음성 신호로부터 추출된 음향 파라미터들의 분포를 가우시안 혼합 모델(GMM, Gaussian mixture model)로 모델링 했을 경우, 각 가우시안들의 평균 값들을 연결하여 만든 GMM 슈퍼 벡터로부터 일반적 배경 모델(UBM, Universal background model)을 뺀 정보는 i-벡터와 전체 변이성 변환 행렬의 곱으로 표현될 수 있다. 여기서, 일반적인 배경 모델(UBM)은 복수의 다양한 화자들의 음성 특징들을 나타내는 대용량 데이터를 이용하여 획득되는 값이 되며, 전체 변이성 변환 행렬은 화자 인식을 위한 모델, 예를 들어, 가우시안 혼합 모델 등에 따라서 정해지는 값이므로, 화자의 음성 신호를 획득하면 i-벡터를 획득할 수 있게 된다. 또한, i-벡터를 획득하는 방법은 매우 다양하게 존재하며, 화자 인식 분야에서 자명한 사항이므로, 상세 설명은 생략한다.
전술한 바와 같이, 음성 신호가 획득되면, 획득된 음성 신호로부터 i-벡터를 획득할 수 있으며, i-벡터는 단위 음마다 서로 다른 값으로 표현될 수 있다.
개시된 실시예에서, 제어부(320)는 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 소정 단위를 갖는 기준값을 비교할 수 있다. 여기서, 소정 단위는 전술한 단일음소(mono-phone) 또는 음소맥락(phone-context)이 될 수 있을 것이다. 단위 음의 음성 특징인 단위 음 특징은 i-벡터, 또는 i-벡터에 대응되는 값으로 표현될 수 있을 것이다. 계속하여, 제어부(320)는 전술한 비교 결과에 근거하여, 기준값과의 유사도가 낮은 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 제1 사용자 특징으로 추출할 수 있다. 여기서, 기준값과의 유사도가 낮은지 여부는, 기준값과 기준값에 대응되는 음성 특징 간의 차이가 소정 범위 이상 나는지 여부에 따라서 결정될 수 있다. 또한, 소정 범위는 전자 장치(300)의 음성 인식에 있어서의 신뢰도, 음성 인식 성능, 음성 인식 정확도, 음성 스코어, 제품 사양 등에 근거하여 결정될 수 있다. 또는, 기준값과의 유사도가 낮은지 여부는, 기준값과 기준값에 대응되는 음성 특징 간의 차이가 큰 순서대로 소정 개수의 단위 음을 추출함으로써 결정될 수 있다. 여기서, 음성 스코어는 음성 인식률에 대응되는 값으로, 음성 인식률에 비례하는 값으로 전자 장치(300) 또는 음성 인식 서버(미도시)에서 자체적으로 생성될 수 있다.
이하의 도 4에서는 단위 음으로 단일음소가 이용된 경우의 제어부(320)의 비교 동작을 설명하고, 도 5에서는 단위 음으로 음소맥락이 이용된 경우의 제어부(320)의 비교 동작을 설명하도록 하겠다.
도 4는 본 개시의 실시예에 따른 전자 장치에서 수행되는 비교 동작을 설명하기 위한 일 도면이다.
일 실시예에서, 전자 장치(300)의 주 사용자가 존재하는 경우, 예를 들어, 전자 장치(300)가 스마트 폰인 경우, 등록된 화자는 단일 화자가 될 수 있다. 이러한 경우, 전자 장치(300)는 일반적인 복수의 화자들과 대비되는 등록된 화자의 특징을 추출하여 화자 인식을 수행할 수 있다. 따라서, 발화한 화자의 음성 신호에서 추출된 음성 특징을 복수의 화자들에 대응되는 음성 특징과 비교하고, 복수의 화자들의 음성 특징과 명확히 구분되는 발화한 화자의 음성 특징을 이용하면, 보다 용이하게 화자 인식을 수행할 수 있을 것이다.
도 4에 도시된 그래프에 있어서, x 축은 음성 신호에서 추출될 수 있는 복수개의 단위 음들을 나타내며, y 축은 음성 신호로부터 추출된 음성 특징의 특징값을 나타낸다. 도 4에서 x 축 상에 도시된 단위 음들로, 단일음소(mono-phone)을 예로 들어 도시하였으나, 축 상에 도시되는 단위 음들은 음소맥락이 될 수도 있을 것이다.
또한, y 축 상에 도시되는 특징값은 i-벡터에 대응되는 값이 될 수 있다.
도 4를 410 그래프는 기준값에 대응되는 그래프가 될 수 있다. 예를 들어, 410 그래프는 일반적인 화자들의 음성 신호들에 대한 일반적이고 평균적인 음성 특징을 나타내는 그래프가 될 수 있다. 또한, 410 그래프는 해당 전자 장치를 이용하는 복수의 화자들 중 음성 신호를 발화한 제1 사용자 이외의 다른 화자의 음성 특징을 나타내는 값이 될 수 도 있다. 그리고, 415 그래프는 전자 장치(300)를 이용하는 특정 화자, 예를 들어, 제1 사용자의 음성 특징을 나타내는 그래프이다.
기준값으로 어떤값이 이용되는지 여부는, 전자 장치(300)가 단일 화자에 대한 화자인식을 수행하는지, 복수의 화자에 대한 화자 인식을 수행하는지에 따라서 달라질 수 있다.
먼저, 전자 장치(300)가 단일 화자에 대한 화자 인식을 수행하는 경우에 대응되는 기준값을 먼저 설명하도록 하겠다.
예를 들어, 415 그래프는 전자 장치(300)가 스마트 폰인 경우 스마트 폰의 주인인 제1 사용자가 발화한 음성 신호로부터 추출된 음성 특징을 나타내는 그래프가 될 수 있다. 구체적으로, 전자 장치(300)가 단일 화자에게 주로 이용되는 제품인 경우, 전자 장치(300)는 기준값으로 복수의 사용자들의 평균적인 음성 특징을 나타내는 값을 이용할 수 있다.
구체적으로, 제어부(320)는 복수의 사용자들의 평균적인 음성 특징을 나타내는 기준값을 이용하여, 음성 신호를 발화한 제1 사용자의 음성 특징과 복수의 사용자들의 평균적인 음성 특징을 단위 음마다 비교하고, 비교된 차이 값이 큰 적어도 하나의 단위 음을 제1 사용자 특징으로 추출할 수 있다.
구체적으로, 단위 음이 음소맥락이 되는 경우, 기준 값은 복수의 사용자들의 평균적인 음성 특징을 음소맥락 단위로 나타내는 값이 될 수 있다. 또한, 단위 음이 단일음소인 경우, 기준 값은 복수의 사용자들의 평균적인 음성 특징을 단일 음소 단위로 나타내는 값이 될 수 있다.
또한, 기준값은 전자 장치(300)에서 자체적으로 설정될 수 있으며, 전자 장치(300)의 제조자, 판매자 또는 사용자 중 적어도 하나에 의해서 설정 및 입력될 수도 있을 것이다.
구체적으로, 기준값은 전자 장치(300)에서 화자 인식의 대상이 되는 사용자가 단일 화자인지, 복수의 화자인지, 복수의 화자일 경우 복수의 화자들 간의 음성 특징 유사성이 존재하는지 여부에 따라서, 서로 다른 값으로 설정될 수 있다. 예를 들어, 전자 장치(300)가 단일 화자에 대한 화자 인식을 필요로 하는 전자 제품일 경우, 기준값을 복수의 다양한 화자들의 평균적인 음성 특징을 나타내는 값이 될 수 있을 것이다.
도 4를 참조하면, 일반적인 화자들의 음성 신호들에 대한 일반적이고 평균적인 음성 특징인 410 그래프와 제1 사용자의 음성 특징인 415 그래프를 비교한 결과, 차이가 소정 범위 이상 또는 초과가 되는 단위 음을 제1 사용자 특징으로 추출할 수 있다. 여기서, 소정 범위 차이는 전자 장치(300)의 음성 인식 정확도, 음성 인식 성능, 음성 스코어 등을 고려할 때, 서로 다른 화자라고 인식할 수 있는 차이 값이 될 수 있다.
예를 들어, 도 4의 420, 430, 440 및 450 부분에서 기준값과 제1 사용자의 음성 특징이 명확히 구별되는 경우, 예를 들어, 기준값과 제1 사용자의 음성 특징 간의 차이가 소정 범위를 벗어나는 경우, 전자 장치(300)의 제어부(320)는 해당 경우에서의 단위 음, 예를 들어, d, k, r, w 를 제1 사용자 특징으로 추출할 수 있다.
그리고, 제어부(320)는 제1 사용자 특징에 포함되는 단위 음, 예를 들어, 단일음소 또는 음소맥락을 포함하는 글자가 추천 문장에 포함되도록 추천 문장을 생성할 수 있을 것이다.
따라서, 발화한 화자의 음성 신호에서 추출된 음성 특징을 복수의 화자들에 대응되는 음성 특징과 비교하고, 복수의 화자들의 음성 특징과 명확히 구분되는 발화한 화자의 음성 특징을 이용하면, 보다 용이하게 화자 인식을 수행할 수 있을 것이다.
후속하여, 전자 장치(300)가 복수의 화자에 대한 화자 인식을 수행하는 경우에서의 기준값 및 비교 동작을 설명한다.
일 실시예에서, 전자 장치(300)의 사용자가 복수로 존재하는 경우, 예를 들어, 전자 장치(300)가 가정 내의 디지털 TV 인 경우, 등록된 화자는 가정 내에서 함께 거주하는 복수의 화자들이 될 수 있다. 예를 들어, 디지털 TV 를 제어하기 위한 화자 인식 대상은 가정 내에 함께 거주하는 가족들이 될 수 있다.
이러한 경우, 전자 장치(300)는 화자 인식의 대상이 되는 복수의 화자들 상호간을 명확히 구별하여 인식하여야 할 필요가 있다. 구체적으로, 가정 사물 인터넷(Home IoT) 플렛폼에 의해 제어 가능한 가전 제품들을 공용으로 이용하는 사용자들은 가족 구성원이 될 수 있다. 그러나, 가족 구성원들은 유사한 음성 특징을 갖는 경우, 유사한 음성 특징을 갖는 복수의 화자들 각각을 구별하여 인식하여야 하므로 화자 인식률이 낮아질 수 있다. 예를 들어, 가족 구성원에 유사 연령대의 두 자매가 포함되는 경우, 두 자매 간의 음성 특성이 서로 유사할 수 있다. 또는, 가족 구성원에 아버지와 성년의 아들이 포함되는 경우, 아버지와 아들 간의 음성 특성이 서로 유사할 수 있다. 이러한 경우, 제1 사용자의 화자 인식을 수행하는 경우 적용되는 기준값은 유사한 음성 특징을 가지며 해당 전자 장치를 이용하는 다른 화자의 음성 특징을 나타내는 값이 될 수 있다. 이 경우, 도 4에 도시된 410 그래프는 해당 전자 장치를 이용하는 다른 화자의 음성 특징을 나타내는 값이 될 수 있다.
즉, 기준값은 전자 장치(300)가 제1 사용자를 포함하는 복수의 사용자에 대한 화자 인식을 수행할 때, 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값이 될 수도 있다. 바람직하게, 제2 사용자는 제1 사용자와 음성 유사성을 가질 수 있다. 음성 유사성을 가지는 또 다른 사용자의 음성 특징이 기준값으로 이용되는 경우는, 이하에서 도 1a1, 도 1a2a 및 도 1a2b를 참조하여 이하에서 상세히 설명하도록 하겠다.
도 5는 본 개시의 실시예에 따른 전자 장치에서 수행되는 비교 동작을 설명하기 위한 다른 도면이다.
도 5에 있어서, 510 그래프 및 520 그래프는 각각 전술한 410 그래프 및 415 그래프에 대응될 수 있다. 따라서, 도 5의 도시 구성을 설명하는데 있어서, 4에서와 중복되는 설명은 생략하도록 한다.
도 5를 참조하면, x 축은 음성 신호에서 추출될 수 있는 복수개의 단위 음들을 나타내며, y 축은 음성 신호로부터 추출된 음성 특징의 특징값을 나타낸다. 도 4에서는 x 축 상에 도시된 단위 음들로 단일음소(mono-phone)을 예로 들어 도시하였으나, 도 5에서는 x 축 상에 도시된 단위 음들로 음소맥락(context-phone)들 각각에 대응되는 상태 ID를 도시하였다.
전자 장치(300)가 단위 음으로 단일음소를 이용하지 않고, 음소맥락을 이용하는 경우, 더욱 세분화된 음의 종류를 인식할 수 있다. 따라서, 전자 장치(300)는 음소맥락에 대응되는 음성 특징을 이용하여, 보다 정확하게 음성 인식 및 화자 인식을 수행할 수 있다.
구체적으로, 도 5에 있어서 x 축은 음소맥락에 대응되는 상태 ID 단위를 갖는 단위 음들을 나타내며, 510 그래프 및 520 그래프가 도시된 y 축은 i-벡터 값이 될 수 있다. 여기서, 음소맥락은 연속삼음소(tri-phone)이 될 수 있다.
도 5에 있어서, 530 그래프는 제1 사용자가 발화한 음성 신호에서 추출된 음성 특징인 510 그래프와 기준값을 나타내는 520 그래프 간의 차이를 실효치(RMS: root mean square)로 나타내는 그래프이다. 이 경우, 실효치가 소정 한계값을 초과하는 경우인 531, 532, 533, 534 및 535 표시 부분에 해당하는 음소맥락들을 제1 사용자 특징으로 획득할 수 있다. 즉, 상태 ID 가 2862, 3390, 4214, 5025, 6083 값을 갖는 음소맥락들을 제1 사용자 특징으로 획득할 수 있다.
계속하여, 제어부(320)는 제1 사용자 특징에 포함되는 음소맥락을 포함하는 글자가 추천 문장에 포함되도록 추천 문장을 생성할 수 있을 것이다.
도 6은 본 개시의 실시예에 따른 전자 장치에서 수행되는 추천 문장 출력 동작을 설명하기 위한 도면이다. 도 6에 있어서, 도시된 화자(601)는 도 1a 내지 도 3에서 전술한 제1 사용자에 대응될 수 있으며, 전자 장치(620)는 도 3에 도시된 전자 장치(300)에 대응될 수 있다.
제어부(320)는 제1 사용자 특징에 포함되는 적어도 하나의 단위 음에 대응되는 글자가 추천 문장에 포함되도록 추천 문장을 생성할 수 있다. 여기서, 추천 문장은 단어, 구문, 문장 등이 될 수 있을 것이다. 도 6에서 설명하는 실시예에서는, 단위 음이 'ㅕ', 'ㄹ' 등과 같은 음소맥락인 경우를 예로 들어 설명한다.
예를 들어, 제어부(320)에서 제1 사용자 특징으로 'ㅕ', 'ㄹ', 'ㅊ', 'ㅏ', 'ㅁ'에 대응되는 단위 음을 추출한 경우, 제어부(320)는 추출된 'ㅕ', 'ㄹ', 'ㅊ', 'ㅏ', 'ㅁ'을 포함하는 추천 문장인 '열려라 참깨'를 생성하고, 생성된 추천 문장이 출력되도록 제어할 수 있다.
도 6을 참조하면, 제1 사용자(601)는 전자 장치(620)로 추천 문장의 생성 및 출력을 요청할 수 있다. 예를 들어, 제1 사용자(601)가 '하이 빅스비, 추천해줘'(610)라고 발화하면, 전자 장치(610)는 사용자가 발화한 '하이 빅스비, 추천해줘'(610)에 대한 음성 인식을 수행하고, 음성 인식된 요청인 추천 문장을 생성하기 위한 동작을 수행할 수 있다. 그에 따라서, 전자 장치(620)는 추천 문장인 열려라 참깨를 생성하고, 생성된 열려라 참깨를 오디오 신호로 전자 장치(620) 내부에 구비되는 스피커(미도시)를 통하여 출력(22)할 수 있다.
또한, 전자 장치(620)는 추천 문장을 알리는 텍스트 메시지(621)를 전자 장치(620) 내부에 구비되는 디스플레이(미도시)를 통하여 출력할 수 있다.
그러면, 제1 사용자(601)는 추천 문장을 발화하여 화자 인식을 위한 음성 신호를 등록할 수 있다.
구체적으로, 전자 장치(300)는 제1 사용자(601)가 추천 문장을 발화하면, 제1 사용자(601)가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신하고, 등록 음성 신호를 이용하여 화자 인식을 수행할 수 있다. 구체적으로, 전자 장치(300)는 등록 음성 신호에서 음성 특징을 추출하여, 등록 음성 특징을 획득할 수 있다. 그리고, 전자 장치(300)는 등록 음성 특징을 메모리(340)에 저장할 수 있다. 등록 음성 신호가 수신되어 사용자 등록이 완료 후, 후속되는 시점에서 화자 인식이 수행될 경우, 전자 장치(300)는 발화한 화자가 등록된 사용자와 일치하는지를 판단하는 화자 인식을 수행할 수 있다.
상기에서는, 추천 문장 생성 동작이 제1 사용자를 특정 화자로 등록하기 위한, 화자 등록을 위하여 이용된 경우를 예로 들어 설명하였다.
또한, 추천 문장 생성 동작은 암호구 등록을 위하여 이용될 수도 있을 것이다. 구체적으로, 전자 장치(300)에 설정되는 비밀번호, 패턴 및/또는 키워드 등과 같이 사용 인증 또는 접근 허용을 위하여 이용되는 암호구를 설정하기 위해서, 전자 장치(300)는 추천 문장 생성 동작을 수행할 수 있다. 예를 들어, 전자 장치(300)가 스마트 폰인 경우, 제1 사용자(601)는 잠금 화면의 잠금 상태를 해제하기 위해서 비밀번호 입력 또는 패턴 입력 이외에, 암호구를 발화할 수 있다. 그러면, 전자 장치(300)는 제1 사용자(601)가 발화한 암호구를 수신하고, 수신된 암호구가 등록된 암호구와 일치하면 잠금 화면의 잠금 상태를 해제할 수 있다.
전술한 바와 같이, 추천 문장이 암호구 등록을 위하여 이용되는 경우, 전자 장치(300)는 화자 등록을 위해서 1차적으로 추천 문장을 생성하고, 암호구 등록을 위하여 2차적으로 추천 문장을 생성할 수 있다. 구체적으로, 전자 장치(300)는 주 사용자로 제1 사용자(601)를 등록하기 위하여, 화자 등록을 수행할 수 있다. 그에 따라서, 전자 장치(300)는 화자 등록을 위하여 1차적으로 추천 문장을 생성하여 제1 사용자(601)에게 제공할 수 있다. 그리고, 제1 사용자(601)에 대한 화자 등록이 완료되면, 2차적으로 암호구 등록을 위하여 2차적으로 추천 문장을 생성하여 제1 사용자(601)에게 제공할 수 있다.
도 1a 내지 도 6을 참조하여 설명한 바와 같이, 본 개시의 실시예에 따른 전자 장치(200 또는 300)는 전자 장치(200 또는 300)를 이용하는 화자의 범위에 대응되는 기준값을 이용하여, 화자 인식의 대상이 되는 사용자에 대한 변별력이 높아지도록 할 수 있는 제1 사용자의 음성 특징인 제1 사용자 특징을 추출하고, 추출된 제1 사용자 특징에 근거하여 추천 문장을 생성 및 출력할 수 있다.
그에 따라서, 본 개시의 실시예는 화자 인식의 대상이 되는 화자를 보다 정밀하고 정확하게 변별할 수 있도록 하는 추천 문장을 생성하여 사용자에게 제공할 수 있다. 그러면, 사용자는 본 개시의 실시예에서 출력되는 추천 문장을 이용하여 화자 인식을 위한 음성을 등록함으로써, 전자 장치의 화자 인식 성능을 개선하여 화자 인식의 정확도를 증가시킬 수 있다.
도 7은 본 개시의 일 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다. 도 7에 도시된 본 개시의 실시예에 따른 음성 신호 처리 방법(700)은 도 1a 내지 도 6을 참조하여 설명한 본 개시의 실시예에 따른 전자 장치(100, 200 또는 300)에서 수행되는 동작들에 대응되는 단계들을 수행할 수 있다. 따라서, 음성 신호 처리 방법(700)은 본 개시의 실시예에 따른 전자 장치(100, 200 또는 300)에서와 그 기술적 사상을 동일하게 포함할 수 있다. 그러므로, 음성 신호 처리 방법(700)을 설명하는데 있어서 도 1a 내지 도 6에서의 설명과 중복되는 설명은 생략한다.
이하에서는, 도 3에 도시된 전자 장치(300)를 참조하여, 음성 신호 처리 방법(700)을 설명한다.
도 7을 참조하면, 음성 신호 처리 방법(700)은 전자 장치에서 화자 인식을 수행하기 위한 방법이다. 여기서, 화자 인식은 (i) 화자 등록을 위한 음성 인식 및 (ii) 음성 신호를 발화한 화자가 등록된 사용자인지를 판단하기 위해 수행되는 화자 인식을 모두 포함하는 의미로 이용될 수 있다.
음성 신호 처리 방법(700)은 제1 사용자의 음성 신호를 획득한다(S710). 여기서, S710 단계의 동작은 제어부(320)의 제어에 따라서 수신부(310)에서 수행될 수 있다. 또는, S710 단계의 동작은 전자 장치(300)와 연계되어 동작 가능한 외부의 전자 장치(미도시), 예를 들어, 웨어러블 디바이스 또는 외부 마이크 등을 통하여 수행될 수도 있다.
제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득한다(S720). S720 단계의 동작은 제어부(320)에서 수행될 수 있다.
구체적으로, S710 단계에서 획득된 제1 사용자의 음성 신호로부터 음성 특징을 추출할 수 있다. 여기서, 음성 특징은 단위 음 단위마다 추출될 수 있다. 여기서, 단위 음은 단일 음소, 음소 맥락, 연속삼음소 등이 될 수 있다. 구체적으로, 제1 사용자가 발화한 음성 신호에 포함되는 복수개의 단위 음 각각에 대응되는 복수개의 음성 특징들이 추출될 수 있다. 그리고, 복수개의 단위 음 각각에 대응되는 복수개의 음성 특징들과 복수개의 단위 음 각각에 대응되는 복수개의 기준 값을 비교하고, 비교 결과에 근거하여 기준값과 차이가 큰 음성 특징을 제1 사용자 특징으로 추출할 수 있다. 여기서, 기준 값과 차이가 큰 음성 특징을 제1 사용자 특징으로 추출하는 동작은 도 4 및 도 5를 참조하여 상세히 설명하였으므로 자세한 설명은 생략한다.
S720 단계에서 획득된 제1 사용자 특징에 근거하여, 화자 인식에 이용되는 추천 문장을 생성한다(S730). S730 단계의 동작은 제어부(320)에서 수행될 수 있다. 구체적으로, S720 단계에서 획득된 제1 사용자 특징에 포함되는 적어도 하나의 단위 음을 포함하도록 추천 문장을 생성할 수 있다. 도 6에서 예시한 바와 같이, 제1 사용자 특징이, 'ㅕ', 'ㄹ', 'ㅊ', 'ㅏ', 'ㅁ'을 포함할 수 있다. 따라서, S730 단계는 'ㅕ', 'ㄹ', 'ㅊ', 'ㅏ', 'ㅁ'을 포함하는 문자인 '열려라 참깨'를 추천 문장으로 생성할 수 있다.
S730 단계에서 생성된 추천 문장을 출력한다(S740). S740 단계의 동작은 출력부(330)에서 수행될 수 있다. 구체적으로, S740 단계의 동작은 제어부(320)의 제어에 따라서 출력부(330)에서 수행될 수 있다.도 8은 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
도 9는 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 단일 화자 인식을 위한 동작을 설명하기 위한 도면이다.
예를 들어, 스마트 폰, 웨어러블 디바이스, 퍼스널 컴퓨터(PC), 테블릿 PC 등과 같이 전자 장치(300)가 특정한 한명의 사용자, 예를 들어, 해당 전자 장치의 소유자가 주로 사용하는 제품인 경우에는, 특정 사용자인 해당 전자 장치의 소유자의 음성을 이용하여 화자 인식 동작을 수행할 필요가 있다. 이 경우, 제1 사용자 특징을 획득하기 위해서 이용되는 기준값은 복수의 사용자들의 평균적인 음성 특징에 대응되는 값이 될 수 있다.
이하에서, 도 8 및 도 9를 참조하여, 복수의 사용자들과 대비되는 특정 사용자의 화자 인식을 위한 방법 및 장치를 설명한다.
도 8을 참조하면, 본 개시의 실시예에 따른 음성 신호 처리 방법(800)에 포함되는 S810, S830, 및 S840 단계 각각은 도 7에서 설명한 음성 신호 처리 방법(700)에 포함되는 S710, S730, 및 S740 단계에 대응된다. 따라서, 음성 신호 처리 방법(800)을 설명하는데 있어서, 도 1a 내지 도 7에서와 중복되는 설명은 생략한다. 그리고, S815 단계 및 S820 단계는 S720 단계에 대응될 수 있으며, 이하에서 상세히 설명한다.
도 9는 화자 인식을 위한 동작들을 수행하는 기능 블록들을 나타낸다. 구체적으로, 920 블록에 포함되는 구성들은 전자 장치(300) 및 음성 인식 서버(미도시) 중 적어도 하나에서 화자 인식을 위해 수행되는 동작들을 나타낸다. 여기서, 도 9에 도시된 블록들에 대응되는 동작들은 하나의 물리적인 칩, 모듈, 또는 프로세서에서 수행될 수 있다. 또는, 도 9에 도시된 블록들에 대응되는 동작들은 복수개의 칩, 모듈, 또는 프로세서에 수행될 수도 있을 것이다. 이하에서는, 도 9에 도시된 920 블록이 전자 장치(300)의 제어부(320)에 포함되는 경우를 예로 들어 설명한다.
도 8 및 도 9를 참조하면, 음성 신호 처리 방법(800)은 제1 사용자의 음성 신호(901)를 획득한다(S810). 제1 사용자의 음성 신호(901)에는 기본 음성 및 환경 잡음이 포함되어 있을 수 있다. 따라서, 제어부(320)는 음성 신호(901)를 잡음 필터링하여, 음성 신호(901)에 포함되는 환경 잡음을 제거하여, 제1 사용자의 순수한 음성 신호를 획득한다. 전술한 '환경 잡음'은 화자가 발화하는 환경에서 발생 가능한 모든 잡음 신호들을 포함할 수 있으며, '잡음 신호'로 표현될 수도 있다. 구체적으로, 잡음 신호는 화자가 발화하는 환경에서 발생하는 바람 소리, 다른 화자들의 발화로 인한 음성, 기계음 등을 예로 들 수 있다.
제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교한다(S815). 구체적으로, 제어부(320)는 제1 사용자의 음성 신호에서 음성 특징을 추출(910)한다. 여기서, 기준값은 복수의 사용자들의 평균적인 음성 특징에 대응되는 값이 된다. 또한, 기준값은 단위음 각각에 대응되는 값이 되며, 복수개의 단위음 각각에 대응하는 복수개의 기준값들이 존재할 수 있다. 구체적으로, 단위 음이 음소맥락이 되는 경우, 기준 값은 복수의 사용자들의 평균적인 음성 특징을 음소맥락 단위로 나타내는 값이 될 수 있다. 또한, 단위 음이 단일음소인 경우, 기준 값은 복수의 사용자들의 평균적인 음성 특징을 단일 음소 단위로 나타내는 값이 될 수 있다.
계속하여, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득한다(S820). 도 4 및 도 5를 참조하여 설명한 바와 같이, 기준값과 대비되는 제1 사용자의 음성 특징은 기준값과 제1 사용자의 음성 특징 간의 차이값에 근거하여 결정될 수 있다.
제어부(320)는 제1 사용자 특징에 근거하여, 추천 문장을 생성한다(S830). 구체적으로, S820 단계에서 획득된 제1 사용자 특징에 포함되는 적어도 하나의 단위 음을 포함하도록 추천 문장을 생성(920)할 수 있다.
그리고, 제어부(320)는 생성된 추천 문장이 시각 또는 청각적인 정보로 출력되도록 제어할 수 있다(S840). 그에 따라서, 전자 장치(300)는 추천 문장을 제1 사용자에게 추천할 수 있다.
계속하여, 음성 신호 처리 방법(800)은 제1 사용자가 추천 문장을 발화하면, 제1 사용자가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신하고, 등록 음성 신호를 이용하여 화자 인식을 수행할 수 있다(단계 미도시). 구체적으로, 수신부(310)는 등록 음성 신호를 수신하고, 수신된 음성 신호를 제어부(320)로 전송할 수 있다. 그러면, 제어부(320)는 등록 음성 신호로부터 음성 특징을 추출하고, 추출된 음성 특징을 제1 사용자의 등록 특징으로 저장할 수 있다. 후속되는 시점에서 제1 사용자가 사용 인증 또는 음성 제어 등을 위하여 등록 음성 신호를 발화하는 경우, 화자 식별 엔진(930)은 등록 음성 신호에 대한 음성 인식을 수행할 수 있다.
구체적으로, 화자 식별 엔진(930)은 제1 사용자의 등록 특징과 수신된 음성에서 추출된 음성 특징 간의 유사도에 근거하여, 음성 신호를 발화한 화자가 제1 사용자 인지를 식별할 수 있다. 여기서, 유사도는 화자 인식의 정확도, 화자 인식의 신뢰도, 음성 스코어, 제품 사양 등에 따라서 달라질 수 있다. 예를 들어, 전자 장치(300)는 음성 인식 성능을 고려하여, 유사도가 95% 이상이 될 경우, 음성 신호를 발화한 화자가 제1 사용자인 것으로 결정할 수 있을 것이다.
제어부(320)는 화자 식별 엔진(930)의 화자 식별 결과(940)를 출력할 수 있다. 예를 들어, 사용자 인증을 위하여 화자 인식 동작이 수행된 경우, 제어부(320)는 화자 인증 결과를 사용자가 알 수 있도록 '등록된 사용자와 일치합니다'라는 메시지가 음성 또는 영상으로 출력되도록 제어할 수 있다. 또 다른 예로, 소정 어플리케이션의 실행을 위하여 화자 인증 동작이 수행된 경우, 제어부(320)는 화자 인증 결과(940)에 따라서, 소정 어플리케이션의 실행 여부를 결정할 수 있다. 구체적으로, 제어부(320)는 음성을 발화한 화자가 등록된 사용자인 경우 소정 어플리케이션의 실행을 수락(accept)하고, 음성을 발화한 화자가 등록된 사용자가 아닌 경우 소정 어플리케이션의 실행을 거부(reject)할 수 있다.
또한, 본 개시의 실시예에 따른 음성 신호 처리 방법(700 또는 800)은 환경 잡음에 근거하여 음성을 발화한 화자가 등록된 사용자인지 여부를 식별하는 단계(단계 미도시)를 더 포함할 수 있다.
구체적으로, 제어부(320)는 환경 잡음에 근거하여 화자 식별 엔진(930)을 조정(950)할 수 있다. 또한, 화자 식별 엔진(930)은 수신된 음성 신호의 음성 특징에 근거하여 화자 인식을 수행하는 화자 인식 모델을 포함할 수 있다. 화자 인식 모델은 수신된 음성 신호의 음성 특징과 기준값(또는 한계값(threshold value))을 비교한 결과에 근거하여, 인식된 화자가 맞는지를 판단할 수 있다. 또한, 인식된 화자가 맞는지 여부에 따라서, 제어부(320)는 전술한 화자 인증 결과(940)에 따른 소정 어플리케이션의 실행 여부를 결정할 수 있다.
이하에서는, 제어부(320)의 수신부(310)에서 수신하는 환경 잡음을 '잡음 신호'라 한다. 구체적으로, 제어부(320)는 잡음 신호의 신호 특징을 추출할 수 있다. 그리고, 제어부(320)는 잡음 신호의 신호 특징에 근거하여, 화자 인식을 수행하는데 있어서 적용되는 기준값(또는 한계값) 및 제1 사용자의 음성 신호에 포함되는 소정 단위 음에 적용되는 가중치 중 적어도 하나를 조절할 수 있다.
구체적으로, 화자 식별 엔진(930)의 조정은 (i) 화자 식별 엔진(930)에서 이용되는 기준값(또는, 한계값)을 조절하는 것, 및 (ii) 기준값과 비교 대상이 되는 제1 사용자의 음성 신호에 포함되는 소정 단위 음에 적용되는 가중치 값을 조절하는 것 중 적어도 하나를 통하여 수행될 수 있다.
여기서, 기준값은 수신된 음성 신호가 등록된 사용자인지 여부를 판단하는 기준이 되는 값이다. 즉, 기준값은 수신된 음성 신호가 등록된 화자의 음성 특징을 가지는지 여부를 판단하는 기준이 되는 값으로, 한계값(threshold value)으로 호칭될 수도 있다. 제어부(320)는 수신된 음성 신호의 특징 값이 기준 값 이상 또는 초과가 되면, 수신된 음성 신호에 대응하는 화자가 등록된 화자와 동일한 것으로 판단할 수 있다. 구체적으로, 음성 신호의 특징 값과 기준 값 간의 비교 동작은 단위 음마다 수행될 수 있다.
제어부(320)는 환경 잡음을 분석하고 분석된 환경 잡음의 잡음 특성에 근거하여 음성을 발화한 화자가 등록된 사용자 인지 여부를 판단하는 기준값(또는 한계값(threshold value))을 조절할 수 있다. 구체적으로, 제어부(320)는 잡음 신호의 음성 특징을 획득하고, 잡음 특징에 근거하여 화자 식별 엔진(930)에 포함되는 화자 인식 모델에서의 기준 값을 증가 또는 감소시킬 수 있다. 예를 들어, 제어부(320)는 수신된 음성 신호가 잡음 신호에 의해서 마스킹(masking) 되지 않도록, 기준 값은 증가 또는 감소시킬 수 있다.
또한, 제어부(320)는 환경 잡음을 분석하고, 분석된 환경 잡음의 잡음 특성에 근거하여, 발화한 화자의 음성 신호에서 추출된 음성 특징에 적용될 가중치 값을 조절할 수 있다. 그리고, 조절된 가중치 값을 발화한 화자의 음성 신호에서 추출된 음성 특징에 적용하고, 가중치 값이 적용된 음성 특징을 기준값과 비교하여, 음성을 발화한 화자가 등록된 사용자 인지 여부를 판단할 수 있다.
예를 들어, 자동차 내에서 화자 인식이 수행될 수 있다. 자동차 내에는, 자동차 엔진음, 네비게이션 안내음 등의 잡음이 존재할 수 있다. 화자 인식을 수행하는 전자 장치(300)는 이러한 잡음이 존재하는 환경에서, 자동차 내의 소정 메뉴 조작을 위하여 화자 인식이 수행될 수 있다. 자동차 내에서 발생하는 잡음은 자동차 엔진음 등과 같이 신호 대 잡음비(SNR)가 높고 저주파수의 규칙적인 잡음일 수 있다. 따라서, 제어부(320)는 기준값을 낮추고, 수신된 음성 신호 중 파찰음 및 마찰음 등에 대응되는 음성 특징에 가중치를 줄 수 있다. 구체적으로, 수신된 음성 신호 중 파찰음 및 마찰음 등에 대응되는 음성 특징에 1 값을 초과하는 가중치 값을 적용하고, 가중치 값이 적용된 음성 특징을 기준 값과 비교할 수 있다. 여기서, 파찰음 및 마찰음은 자동차 내에서 발생하는 잡음에 의해서 마스킹 되지 않는, 즉, 자동차 내에서 발생하는 잡음과 구별되는 단위 음이 될 수 있다.
또 다른 예로, 조용한 거실 환경에서 화자 인식이 수행될 수 있다. 조용한 거실 환경에서는 별다른 잡음이 발생하지 않으므로, 제어부(320)는 기준값을 높일 수 있다. 그리고, 제어부(320)는 조절된 기준값을 수신된 음성 신호의 음성 특징과 비교할 수 있다.
또 다른 예로, 부엌과 같이 쇠소리 또는 그릇 소리 등과 같은 고주파수의 불규칙한 잡음 환경에서, 화자 인식이 수행될 수 있다. 이러한 부엌 환경에서는, 제어부(320)는 단위 음들 전체적으로 대응되는 기준값을 낮출 수 있다. 그리고, 제어부(320)는 부엌에서 발생하는 잡음과 구별되는 단위 음인 모음 및 유성음의 음성 특징에 가중치를 줄 수 있다. 구체적으로, 제어부(320)는 모음 및 유성음에 대응되는 음성 특징에 1 값을 초과하는 가중치 값을 적용하고, 가중치 값이 적용된 음성 특징을 기준 값과 비교할 수 있다.
또 다른 예로, 카페와 같이 다수의 사람들이 대화하는 환경에서, 화자 인식이 수행될 수 있다. 여기서, 화자 인식의 대상이 되는 화자 이외의 사람들의 음성은 잡음으로 간주될 수 있다. 이러한 환경에서는 버블성 잡음이 높게 존재한다. 따라서, 제어부(320)는 단위 음들 전체적으로 대응되는 기준값들을 낮출 수 있다. 또한, 가중치 값은 조절하지 않을 수 있다. 그에 따라서, 제어부(320)는 단위 음 마다, 감소된 기준 값과 수신된 음성 신호의 음성 특징을 비교할 수 있다.
전술한 바와 같이, 화자 인식이 수행되는 환경에서 발생하는 잡음의 특성에 근거하여, 화자 식별 엔진(930)을 조정하고, 조정된 화자 식별 엔진(930)을 이용하여 화자 인식 동작을 수행할 수 있다.
그에 따라서, 본 개시의 실시예에 따른 전자 장치(300)는 어떠한 잡음 환경에서도, 정확하게 화자 식별 동작을 수행할 수 있다.
이하에서, 도 10 및 도 11을 참조하여, 소정의 전자 장치를 공유하여 이용하는 복수의 사용자들이 존재하는 경우, 전자 장치에서 수행되는 화자 인식 동작을 상세히 설명한다.
도 10는 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다.
도 11은 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 복수 화자 인식을 위한 동작을 설명하기 위한 일 도면이다.
예를 들어, 가정 내에 존재하는 TV, 냉장고, 세탁기 등의 전자 장치와 같이, 가정에서 같이 생활하는 복수의 사용자(구체적으로, 가족 구성원들)가 소정 전자 장치를 공유하여 이용하는 경우가 있다. 이 경우, 소정 전자 장치에 등록되는 화자는 가족 구성원들 전제가 될 수 있다. 따라서, 소정 전자 장치는 가족 구성원들 각각을 화자 등록 및 인식하여야 하며, 가족 구성원들 중 일 사용자인 제1 사용자와 다른 사용자들을 구별하여 화자 등록 및 인식을 수행하여야 한다. 이 경우, 제1 사용자 특징을 획득하기 위해서 이용되는 기준값은 가족 구성원들의 평균적인 음성 특징에 대응되는 값 또는 가종 구성원들 중 적어도 하나의 사용자의 음성 특징에 대응되는 값이 될 수 있다.
도 10을 참조하면, 본 개시의 실시예에 따른 음성 신호 처리 방법(1000)에 포함되는 S1010, S1030, 및 S1040 단계 각각은 도 7에서 설명한 음성 신호 처리 방법(700)에 포함되는 S710, S730, 및 S740 단계에 대응된다. 따라서, 음성 신호 처리 방법(1000)을 설명하는데 있어서, 도 1a 내지 도 7에서와 중복되는 설명은 생략한다. 그리고, S1015 단계 및 S1020 단계는 S720 단계에 대응될 수 있으며, 이하에서 상세히 설명한다. 또한, 도 10에 도시된 음성 신호 처리 방법(1000)에 있어서, 도 9를 참조하여 설명한 환경 잡음에 따른 화자 식별 엔진의 조정 동작(또는 단계)는 도시하지 않았으나, 음성 신호 처리 방법(1000) 또한 S1040 단계에 후속하여, 도 9를 참조하여 설명한 환경 잡음에 따른 화자 식별 엔진의 조정 동작을 추가적으로 수행할 수도 있다.
도 11은 화자 인식을 위한 동작들을 수행하는 기능 블록들을 나타낸다. 구체적으로, 도 11에 포함되는 1110, 1155, 1140, 1150 및 1160 블록 동작들은 전자 장치(300) 및 음성 인식 서버(미도시) 중 적어도 하나에서 화자 인식을 위해 수행되는 동작들을 나타낸다. 구체적으로, 1110, 1155, 1140, 1150 및 1160 블록 동작들은 전자 장치(300)의 제어부(320)에서 수행될 수 있다.
여기서, 도 11에 도시된 블록들에 대응되는 동작들은 하나의 물리적인 칩, 모듈, 또는 프로세서에서 수행될 수 있다. 또는, 도 11에 도시된 블록들에 대응되는 동작들은 복수개의 칩, 모듈, 또는 프로세서에 수행될 수도 있을 것이다.
이하에서는, 도 11에 도시된 블록 동작들이 전자 장치(300)의 제어부(320)에서 수행되는 경우를 예로 들어 설명한다.
가정 내에 존재하는 TV 등과 같이 가족 구성원들이 공유하여 이용하는 전자 장치의 경우, 해당 전자 장치의 제어 또는 이용을 위하여 화자 등록 및 화자 인식이 수행될 수 있다. 예를 들어서, 가족 구성원으로 아빠, 엄마, 큰 딸, 및 작은 딸이 포함되는 경우, 전자 장치인 TV 는 아빠, 엄마, 큰 딸, 및 작은 딸을 모두 화자 등록 및 화자 인식하여야 한다. 가족 구성원인 큰 딸 및 작은 딸과 같이 두 자매 간에는 음성 유사성이 높을 수 있다. 일반적으로, 음성 유사성이 높은 경우 정확하게 화자를 구별 및 인식하는 것이 어려울 수 있다. 도 10 및 도 11에 도시된 실시예에서는, 음성 유사성이 높은 복수의 화자들을 명확히 구별하여 화자 등록 및 화자 인식하기 위해서 S1050 단계의 동작을 수행할 수 있다.
도 10 및 도 11을 참조하면, 음성 신호 처리 방법(1000)은 제1 사용자의 음성 신호를 획득한다(S1010). 여기서, '제1 사용자'는 도 11에 도시된 '발화자 1'에 대응될 수 있다.
제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교한다(S1015).
여기서, 기준값은 전자 장치(300)를 제1 사용자를 포함하는 복수의 사용자가 공유하여 이용할 때, 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값이 될 수 있다. 구체적으로, 기준값은 전자 장치(300)가 제1 사용자를 포함하는 복수의 사용자에 대한 화자 등록 및 화자 인식을 수행할 때, 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값에 대응될 수 있다. 또한, 전자 장치(300)가 화자 인식을 수행하는 대상인 복수의 사용자는 전술한 예에서의 가족 구성원들이 될 수 있다. 그리고, 제1 사용자 및 제2 사용자는 가족 구성원들에 포함되는 사용자들로, 음성 유사성이 존재하는 사용자들이 될 수 있다.
또한, 기준값은 전자 장치(300)를 공유하여 사용하는 복수의 사용자들 중 제1 사용자를 제외한 나머지 사용자들의 평균적인 음성 특징에 대응되는 값이 될 수 있다. 또한, 기준값은 전자 장치(300)를 공유하는 복수의 사용자들 중 음성 유사성이 존재하는 적어도 둘 이상의 사용자들의 평균적인 음성 특징에 대응되는 값이 될 수 있다. 예를 들어, 가족 구성원들 내에서, 엄마와 두 자매인 큰 딸과 작은 딸 간의 억양, 말투, 및 음성 중 적어도 하나가 유사할 수 있다. 이러한 경우, 엄마와 두 자매인 큰 딸과 작은 딸 간의 음성 유사성이 존재할 수 있다. 상기의 예에서, 큰 딸이 제1 사용자일 경우, 기준값은 엄마와 작은딸의 평균적인 음성 특징에 대응되는 값이 될 수 있다.
또한, 제2 사용자는 전자 장치(300)에 이미 화자 등록된 사용자가 될 수 있다. 구체적으로, 전자 장치(300)는 전자 장치(300)를 이용하는 복수의 사용자들 중 한명인 제2 사용자에 대한 화자 등록을 수행하고, 후속하여 제1 사용자에 대한 화자 등록을 수행할 수 있다. 그러면, 제1 사용자의 화자 등록을 위해 필요한 음성 특징 값을, 이미 화자 등록된 제2 사용자의 음성 특징 값을 이용하여 추출할 수 있다.
계속하여, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득한다(S1020). 도 4 및 도 5를 참조하여 설명한 바와 같이, 기준값과 대비되는 제1 사용자의 음성 특징은 기준값과 제1 사용자의 음성 특징 간의 차이값에 근거하여 결정될 수 있다. 구체적으로, 제어부(320)는 제1 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징과 제2 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징을 비교하고, 상기 비교 결과 제1 사용자의 음성 특징과 제2 사용자의 음성 특징의 차이가 소정 범위를 넘는 적어도 하나의 음소맥락을, 제1 사용자 특징으로 추출할 수 있다.
제어부(320)는 S1020 단계에서 획득된 제1 사용자 특징에 근거하여, 추천 문장을 생성한다(S1030). 구체적으로, S1020 단계에서 획득된 제1 사용자 특징에 포함되는 적어도 하나의 단위 음을 포함하도록 추천 문장을 생성할 수 있다.
그리고, 제어부(320)는 생성된 추천 문장이 시각 또는 청각적인 정보로 출력되도록 제어할 수 있다(S1040). 그에 따라서, 전자 장치(300)는 추천 문장을 제1 사용자에게 추천할 수 있다.
계속하여, 음성 신호 처리 방법(1000)은 제1 사용자가 추천 문장을 발화하면, 제1 사용자가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신하고, 등록 음성 신호를 이용하여 화자 인식을 수행할 수 있다(단계 미도시).
또한, 음성 신호 처리 방법(1000)은 화자 인식률을 높이기 위해서, S1050 단계의 동작을 더 수행할 수 있다.
구체적으로, 음성 신호 처리 방법(1000)은 제1 사용자의 음성 특징과 제2 사용자의 음성 특징 간의 유사성이 있을 때, 제1 사용자의 음성과 제2 사용자의 음성을 인식하는데 있어서의 변별력이 증가되도록 제어할 수 있다(S1050).
구체적으로, 제어부(320)는 제1 사용자의 음성 특징과 제2 사용자의 음성 특징 간의 유사성이 있을 때, 제1 사용자의 음성과 제2 사용자의 음성을 인식하는데 있어서의 변별력이 증가되도록, 제1 사용자의 음성 특징, 제2 사용자의 음성 특징, 제1 사용자의 음성 신호를 인식하는데 이용되는 모델인 '발화자1 특징 모델' 및 상기 제2 사용자의 음성 신호를 인식하는데 이용되는 모델인 '발화자2 특징 모델' 중 적어도 하나를 변형시킬 수 있다. 그리고, 변형된 제1 사용자의 음성 특징, 제2 사용자의 음성 특징, 제1 사용자의 음성 신호를 인식하는데 이용되는 모델인 '발화자1 특징 모델' 및 상기 제2 사용자의 음성 신호를 인식하는데 이용되는 모델인 '발화자2 특징 모델' 중 적어도 하나를 이용하여, 화자 인식을 수행할 수 있다.
구체적으로, 도 11을 참조하면, 화자 식별 엔진(1110)은 도 9에 도시된 화자 식별 엔진(930)에 대응될 수 있다.
화자 식별 엔진(1110)은 복수의 사용자들 각각의 음성을 수신할 수 있다. 여기서, 복수의 사용자들은 '발화자 1' 및 '발화자 2'를 포함하며, '발화자 1' 및 '발화자 2'는 각각 전술한 '제1 사용자' 및 '제2 사용자'에 대응될 수 있다. 화자 식별 엔진(1110)은 발화자 1인 제1 사용자의 음성 특징을 추출하고, 발화자 2인 제2 사용자의 음성 특징을 추출할 수 있다. 그리고, 화자 식별 엔진(1110)은 발화자 1의 음성 특징에 근거하여 발화자 1에 대한 특징 모델을 생성할 수 있다. 그리고, 화자 식별 엔진(1110)은 발화자 2의 음성 특징에 근거하여 발화자 2에 대한 특징 모델을 생성할 수 있다. 구체적으로, 화자 식별 엔진(1110)은 1차적으로 '발화자1 특징 모델'(1120) 및 '발화자2 특징 모델'(1130)을 생성할 수 있다. 여기서, 1차적으로 생성된 '발화자1 특징 모델'(1120) 및 '발화자2 특징 모델'(1130) 각각은 변형되지 않은 발화자1의 음성 특징 및 발화자2의 음성 특징에 근거하여 생성된 모델이 될 수 있다.
계속하여, 발화자1의 음성 특징과 발화자2 간의 음성 특징에 근거하여, 발화자1과 발화자2 간의 음성 유사성을 측정한다(1140 블록 동작).
도 12a는 본 개시의 실시예에 따른 음성 신호 처리 방법 및 그에 따른 전자 장치에서 수행되는 복수 화자 인식을 위한 동작을 설명하기 위한 다른 도면이다. 도 12a에서는 단위 음이 a, b, c, d 등과 같이 단일음소인 경우를 예로 들어 도시하였다.
도 12a를 참조하면, 1210 그래프는 발화자1의 음성 특징을 나타내고, 1215 그래프는 발화자2의 음성 특징을 나타낸다. 예를 들어, 전자 장치(300)를 공유하여 이용하는 가족 구성원들 중, 발화자1은 큰 딸이 될 수 있으며, 발화자2는 작은 딸이 될 수 있다.
음성 유사성은 비교 대상이 되는 복수의 발화자들에 대응되는 복수의 음성 특징들 간의 차이값에 근거하여 판단될 수 있다. 구체적으로, 비교 대상이 되는 복수의 발화자인 발화자1 및 발화자2 각각에 대응되는 음성 특징들의 차이 값이 소정 한계값 이하가 되면, 발화자1 및 발화자2 간의 음성 유사성이 존재하는 것으로 판단될 수 있다.
도 12a의 1220 영역을 참조하면, 발화자1의 음성 특징(1210)과 발화자2의 음성 특징(1215) 간의 차이가 소정 범위 이상 나는 단위음들로, h, g, h, i, j, k 등이 존재할 수 있다. 음성 유사성이 존재하는지 여부는, 발화자1의 음성 특징(1210)과 발화자2의 음성 특징(1215) 간의 차이가 소정 범위 이상 나는 단위음의 개수, 차이값의 구체적인 값 또는 차이값의 총 합 값 등에 근거하여 판단될 수 있다. 또한, 음성 유사성이 존재하는지 여부는, 발화자1의 음성 특징(1210)과 발화자2의 음성 특징(1215)에 근거하여 화자 인식을 수행하였을 때, 음성 인식의 오류 확률, 음성 인식의 정확도 등에 근거하여 판단될 수도 있을 것이다.
또는, 음성 특징에 근거하여, 발화자들을 분류하는 대용량 화자 그룹 모델을 생성할 때, 대용량 화자 그룹 모델 내에서 동일한 그룹에 속하는지 여부에 따라서, 음성 유사성을 판단할 수도 있을 것이다. 또한, 발화자들 간의 대용량 화자 그룹 모델 내에서의 거리에 근거하여, 음성 유사성을 판단할 수도 있을 것이다. 대용량 화자 그룹 모델은 이하에서 도 12b를 참조하여 상세히 설명한다.
또한, 이하에서는, 화자들 간의 음성 유사성을 대용량 화자 그룹 모델에 근거하여 판단하는 경우를 예로 들어 설명한다. 구체적으로, 화자들 간의 음성 유사성을 대용량 화자 그룹 모델 내에서의 화자들 간의 거리에 근거하여 판단하는 경우를 예로 들어 설명한다.
도 12b는 유사성을 갖는 복수 화자들 간의 음성 특징을 설명하기 위한 도면이다. 여기서, 도 11의 '발화자1' 및 '발화자2'는 도 12b의 '화자2' 및 '화자3'에 동일 대응된다.
도 12b를 참조하면, 대용량 화자 그룹 모델(1210)은 다차원 상에서 표현될 수 있다. 여기서, 대용량 화자 그룹 모델(1210)을 표현하는 다차원은 화자의 음성 특징을 나타내는 특징값들이 표현되는 차원이 될 수 있다. 예를 들어, 화자의 음성 특징을 나타내는 특징값들로 i 벡터를 이용하는 경우, 대용량 화자 그룹 모델(1210)은 i 벡터의 차원과 동일한 차원 상에서 표현될 수 있다. 예를 들어, i 벡터가 3차원으로 표현될 경우, 대용량 화자 그룹 모델(1210)은 3차원 상에서 표현될 수 있다.
도 12b에서는 대용량 화자 그룹 모델(1210)을 형성하는 다차원이 X 축 및 Y 축으로 표현되는 2차원 상에서 표현되는 경우를 예로 들어 설명한다.
도 12b를 참조하면, 전자 장치(300)를 공유하여 이용하는 복수의 사용자들(예를 들어, 가족 구성원)을 포함하는 대용량 화자 그룹 모델(1210)이 도시된다. 예를 들어, 가족 구성원(1220)으로는, 아빠(화자1), 큰 딸(화자2), 작은 딸(화자 3), 및 엄마(화자4)가 존재할 수 있다.
대용량 화자 그룹 모델(1210)은 화자들의 음성 특징들에 근거하여, 유사한 음성 특징을 포함하는 화자들을 그룹핑하고 있다. 구체적으로, 대용량 화자 그룹 모델(1210)은
예를 들어, 대용량 화자 그룹 모델(1210)에 포함되는 각각의 셀, 예를 들어, 1211)은 유사한 음성 특징을 포함하는 화자들을 분류하고 있을 수 있다. 구체적으로, 대용량 화자 그룹 모델(1210) 내에서, 큰 딸(화자2)과 작은 딸(화자 3)은 동일한 셀(1212) 에 포함될 수 있으며, 그에 따라서, 음성 유사성이 있는 것으로 판단될 수 있다. 또한, 화자1 및 화자 4는 각각 서로 다른 셀에 포함되어 있어서, 상호간에 음성 유사성이 존재하지 않는 것으로 판단될 수 있다.
그리고, 음성 유사성이 존재하는 것으로 판단되면, 제어부(320)는 변별력 강화모듈(1150)을 통하여, 음성 유사성이 존재하는 복수의 화자 간의 음성 변별력이 증가되도록, 화자의 특징 모델을 변형시킬 수 있다. 그에 따라서, 제어부(320)는 1차 발화자1 특징 모델(1120)은 2차 발화자1 특징 모델(1165)로 변형하며, 1차 발화자2 특징 모델(1130)은 2차 발화자2 특징 모델(1170)로 변형할 수 있다. 구체적으로, 변별력 강화 모듈(1150)은 대용량 화자 그룹 모델(1155)을 이용하여, 1차 발화자1 특징 모델(1120)을 2차 발화자1 특징 모델(1165)로 변형하며, 1차 발화자2 특징 모델(1130)을 2차 발화자2 특징 모델(1170)로 변형할 수 있다. 여기서, 대용량 화자 그룹 모델(1155)은 전자 장치(300)에서 자체적으로 생성 및/또는 저장하고 있을 수 있다.
또는, 대용량 화자 그룹 모델(1155)은 전자 장치(300)와 유무선의 통신 네트워크를 통하여 연결되는 서버 또는 외부 장치에서 저장하고 있을 수 있다. 이 경우, 전자 장치(300)는 유무선의 통신 네트워크를 통하여 대용량 화자 그룹 모델(1155)에 접근할 수 있을 것이다.
대용량 화자 그룹 모델(1155)에 근거한 특징 모델의 변형은 이하에서 도 13을 참조하여 상세히 설명한다.
도 13은 본 개시의 실시예에 따라 유사성을 갖는 복수 화자들 간의 음성 변별력을 높이기 위한 동작을 설명하기 위한 도면이다. 도 13 및 도 12b에 있어서, 동일한 구성은 동일한 도면 기호를 이용하여 도시하였다.
도 13을 참조하면, 1310 블록은 화자2 및 화자3을 포함하는 셀(1212)를 확대하여 나타내며, 화자2는 셀(1212) 내에서 지점(1315)에 대응될 수 있으며, 화자3은 셀(1212) 내에서 지점(1316)에 대응될 수 있다.
대용량 화자 그룹 모델에 있어서, 화자들 간의 거리가 크면 클수록 화자들 간의 음성 특징이 유사하지 않은 것으로 판단될 수 있다. 또한, 화자들 간의 거리가 작을수록 화자들 간의 음성 특징이 유사한 것으로 판단될 수 있다. 이하에서는, 대용량 화자 그룹 모델 내에서 화자들 간의 거리가 소정 한계값 이하 또는 미만이 되는 경우를, 화자들 간의 음성 유사성이 존재하는 것으로 판단할 수 있다. 구체적으로, 셀(1212)을 참조하면, 화자2와 화자3 각각에 대응되는 지점(1315) 및 지점(1316) 간의 거리가 소정 한계값 이하가 되므로, 화자2와 화자3 는 음성 유사성이 있는 것으로 판단될 수 있다.
제어부(320)는 화자2와 화자3 간의 음성 유사성이 존재하므로, 화자2와 화자3 간의 음성 유사성이 존재하지 않는 것으로 판단되도록, 화자2와 화자3 각각에 대응되는 지점(1315) 및 지점(1316) 간의 거리가 소정 한계값 이상 또는 초과가 되도록, 화자2 및 화자3의 음성 특징 및 특징 모델 중 적어도 하나를 변형할 수 있다.
구체적으로, 변별력 강화 모듈(1150) 은 화자2와 화자3 각각에 대응되는 지점(1315) 및 지점(1316) 간의 거리가 소정 한계값 이상 또는 초과가 되도록, 화자2와 화자3 각각에 대응되는 지점(1335) 및 지점(1336) 간의 거리(1331)가 증가되도록, 화자2 및 화자3의 음성 특징값 및 특징 모델 중 적어도 하나를 변형할 수 있다. 여기서, 음성 특징값 및 특징 모델을 변형하는 방법은 다양하게 존재할 수 있다. 예를 들어, 음성 특징값에 가중치를 설정하고, 설정된 가중치를 원래의 음성 특징값에 곱하는 방식으로 음성 특징값을 조절할 수 있을 것이다. 또는, 화자의 음성에 대응하는 특징 모델을 추출하는데 있어서, 음성 유사성이 가장 높은 적어도 하나의 단위 음에 대응하는 음성 특징을 제외시키는 방식으로, 특징 모델을 조절할 수 있을 것이다. 또는, 음성 특징을 나타내는 i 벡터의 기준 축(예를 들어, X 축 및/또는 Y 축)의 위치를 변경시킴으로써, 두 화자들이 대용량 화자 그룹 모델에서 서로 다른 셀에 포함되도록 할 수도 있을 것이다.
전술한 변별력 강화 모듈(1150)의 변별력 강화를 위한 동작 수행에 따라서, 화자2와 화자3 각각에 대응되는 지점(1335) 및 지점(1336) 간의 거리(1331)가 조정 이전인 지점(1315) 및 지점(1316) 간의 거리에 비하여 증가하게 된다. 그에 따라서, 화자2와 화자3 간의 음성 유사성이 존재하지 않는 것으로 판단될 수 있다.
2차 발화자1 특징 모델(1165)는 조정된 화자2(큰 딸)의 음성 특징에 대응되는 지점(1335)에 대응될 수 있으며, 2차 발화자2 특징 모델(1170)는 조정된 화자3(작은 딸)의 음성 특징에 대응되는 지점(1336)에 대응될 수 있다. 후속되는 시점에서는, 큰 딸 또는 작은 딸에 대한 화자 인식을 수행할 때, 조정된 특징 모델을 이용하여 화자 인식을 수행함으로써, 화자 인식의 정확도를 증가시킬 수 있다. 도 14는 본 개시의 다른 실시예에 따른 음성 신호 처리 방법을 나타내는 흐름도이다. 도 14에 도시된 음성 신호 처리 방법(1400)에 있어서, S1410, S1420, S1430, 및 S1440 단계의 동작은 각각 도 7에 도시된 S710, S720, S730, 및 S740 단계의 동작에 동일 대응되므로, 도 7에서와 중복되는 설명은 생략한다.
도 14를 참조하면, 음성 신호 처리 방법(1400)은 제1 사용자의 음성 신호를 획득한다(S1410).
제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득한다(S1420).
계속하여, S1420 단계에서 획득된 제1 사용자 특징에 근거하여, 화자 인식에 이용되는 추천 문장을 생성한다(S1430).
그리고, S1430 단계에서 생성된 추천 문장을 출력한다(S1440).
계속하여, 음성 신호 처리 방법(1400)은 제1 사용자가 추천 문장을 발화하면, 제1 사용자가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신할 수 있다(S1450).
S1450 단계에서 수신되는 음성 신호에는 잡음 신호 및 순수한 음성 신호가 포함될 수 있다. 여기서, '잡음 신호'는 제1 사용자가 발화하는 환경에서 발생하는 제1 사용자 음성을 제외하는 모든 오디오 신호로, 전술한 환경 잡음을 포함할 수 있다.
음성 신호 처리 방법(1400)은 제1 사용자의 음성 특징 및 잡음 신호의 음성 특징에 근거하여, 화자 인식을 수행하는데 적용되는 한계값 및 가중치 중 적어도 하나를 조절할 수 있다(S1460). S1460 단계의 동작은 제어부(320)에서 수행될 수 있으며, 도 9에서 설명한 환경 잡음에 근거한 조정 동작(950 블록 동작)에 동일 대응되므로, 상세한 설명은 생략한다.
계속하여, 음성 신호 처리 방법(1400)은 S1460 단계에서 조절된 값에 근거하여, 화자 인식을 수행할 수 있다(S1470). S1470 단계의 동작은 제어부(320)에서 수행될 수 있다. 구체적으로, S1460 동작은 도 9의 화자 식별 엔진(930)을 통하여 수행될 수 있다. 구체적으로, 화자 인식이 수행되는 환경에서 발생하는 잡음의 특성에 근거하여 화자 식별 엔진(930)을 조정하고, 조정된 화자 식별 엔진(930)을 이용하여 화자 인식 동작을 수행할 수 있다.
상술한 실시예는, 일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 구체적으로, 기록 매체는 본 개시의 실시예에 따른 음성 신호 처리 방법을 실행하기 위한 명령어들을 포함하는 프로그램을 기록하는 기록 매체가 될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. 또한, 일부 실시예는 컴퓨터에 의해 실행되는 컴퓨터 프로그램과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품 (computer program product)으로도 구현될 수 있다.
본 개시에서 설명된 특정 실행들은 일 실시예 일 뿐이며, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 및 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.
200: 전자 장치
210: 수신부
220: 제어부
230: 출력부

Claims (20)

  1. 전자 장치에서 화자 인식을 수행하기 위한 음성 신호 처리 방법에 있어서,
    제1 사용자의 음성 신호를 획득하는 단계;
    상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 단계;
    상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 단계; 및
    상기 추천 문장을 출력하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  2. 제1항에 있어서, 상기 제1 사용자 특징을 획득하는 단계는
    상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하는 단계; 및
    상기 비교 결과에 근거하여, 상기 복수개의 단위 음 특징 각각과 상기 기준값 간의 차이가 소정 범위를 넘는 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  3. 제1항에 있어서, 상기 제1 사용자 특징을 획득하는 단계는
    상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하는 단계; 및
    상기 비교 결과에 근거하여, 상기 기준값과의 유사도가 낮은 상기 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  4. 제1항에 있어서,
    상기 음성 특징이 소정 단위로 추출될 때, 상기 소정 단위는 음소맥락(phone context) 단위이며,
    상기 추천 문장을 생성하는 단계는
    상기 제1 사용자 특징에 포함되는 상기 음소맥락을 포함하는 글자가 상기 추천 문장에 포함되도록 상기 추천 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  5. 제1항에 있어서,
    제1 사용자가 상기 추천 문장을 발화하면, 상기 제1 사용자가 발화한 추천 문장에 대응되는 음성 신호인 등록 음성 신호를 수신하고, 상기 등록 음성 신호를 이용하여 화자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  6. 제1항에 있어서, 상기 기준값은
    복수의 사용자들의 평균적인 음성 특징을 음소맥락 단위로 나타내는 값인 것을 특징으로 하는 음성 신호 처리 방법.
  7. 제1항에 있어서, 상기 기준값은
    상기 전자 장치를 상기 제1 사용자를 포함하는 복수의 사용자가 공유하여 이용할 때, 상기 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값인 것을 특징으로 하는 음성 신호 처리 방법.
  8. 제7항에 있어서, 상기 제1 사용자 특징을 획득하는 단계는
    상기 제1 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징과 상기 제2 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징을 비교하고, 상기 비교 결과 상기 제1 사용자의 음성 특징과 상기 제2 사용자의 음성 특징의 차이가 소정 범위를 넘는 적어도 하나의 음소맥락을 상기 제1 사용자 특징으로 추출하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  9. 제7항에 있어서,
    상기 제1 사용자의 음성 특징과 상기 제2 사용자의 음성 특징 간의 유사성이 있을 때, 상기 제1 사용자의 음성과 상기 제2 사용자의 음성을 인식하는데 있어서의 변별력이 증가되도록, 상기 제1 사용자의 음성 특징, 상기 제2 사용자의 음성 특징, 상기 제1 사용자의 음성 신호를 인식하는데 이용되는 모델 및 상기 제2 사용자의 음성 신호를 인식하는데 이용되는 모델 중 적어도 하나를 변형시키는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  10. 제1항에 있어서,
    상기 제1 사용자의 음성 신호를 입력받는 단계는
    상기 제1 사용자가 발화한 상기 음성 신호 및 상기 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호를 입력받는 단계를 포함하며,
    상기 음성 신호 처리 방법은
    상기 잡음 신호의 특징인 잡음 특징을 추출하는 단계;
    상기 잡음 특징에 근거하여, 화자 인식을 수행하는데 있어서 적용되는 한계값 및 상기 제1 사용자의 음성 신호에 포함되는 소정 단위 음에 적용되는 가중치 중 적어도 하나를 조절하는 단계; 및
    조절된 상기 한계값 및 상기 가중치 중 적어도 하나에 근거하여, 화자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  11. 제1항에 있어서,
    상기 제1 사용자의 음성 신호를 입력받는 단계는
    상기 제1 사용자가 발화한 상기 음성 신호 및 상기 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호를 입력받는 단계를 포함하며,
    상기 음성 신호 처리 방법은
    상기 잡음 신호의 신호 특징을 추출하는 단계; 및
    상기 잡음 신호의 특징인 잡음 특징에 근거하여, 화자 인식 대상에 되는 음성 신호가 상기 잡음 신호에 의해서 마스킹 되지 않도록, 화자 인식 모델을 조절하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  12. 화자 인식을 수행하기 위해 음성 신호를 처리하는 전자 장치에 있어서,
    제1 사용자의 음성 신호를 획득하는 수신부;
    상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하고, 상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 제어부; 및
    상기 추천 문장을 출력하는 출력부를 포함하는 것을 특징으로 하는 전자 장치.
  13. 제12항에 있어서, 상기 제어부는
    상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하여, 상기 복수개의 단위 음 특징 각각과 상기 기준값 간의 차이가 소정 범위를 넘는 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 것을 특징으로 하는 전자 장치.
  14. 제12항에 있어서, 상기 제어부는
    상기 제1 사용자의 음성 신호에서 소정 단위로 추출된 복수개의 단위 음 특징 각각과 상기 소정 단위를 갖는 상기 기준값을 비교하여, 상기 기준값과의 유사도가 낮은 상기 제1 사용자 음성 신호에서 추출된 적어도 하나의 단위 음 특징을 상기 제1 사용자 특징으로 추출하는 것을 특징으로 하는 전자 장치.
  15. 제13항에 있어서,
    상기 음성 특징이 소정 단위로 추출될 때, 상기 소정 단위는 음소맥락(phone context) 단위이며,
    상기 제어부는
    상기 제1 사용자 특징에 포함되는 상기 음소맥락을 포함하는 글자가 상기 추천 문장에 포함되도록 상기 추천 문장을 생성하는 것을 특징으로 하는 전자 장치.
  16. 제12항에 있어서, 상기 기준값은
    복수의 사용자들의 평균적인 음성 특징을 음소맥락 단위로 나타내는 값인 것을 특징으로 하는 전자 장치.
  17. 제12항에 있어서, 상기 기준값은
    상기 전자 장치가 상기 제1 사용자를 포함하는 복수의 사용자에 대한 화자 인식을 수행할 때, 상기 복수의 사용자에 포함되는 제2 사용자의 음성 신호에서 추출된 음성 특징을 나타내는 값인 것을 특징으로 하는 전자 장치.
  18. 제17항에 있어서, 상기 제어부는
    상기 제1 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징과 상기 제2 사용자의 음성 신호에서 추출된 음소맥락 단위의 음성 특징을 비교하고, 상기 비교 결과 상기 제1 사용자의 음성 특징과 상기 제2 사용자의 음성 특징의 차이가 소정 범위를 넘는 적어도 하나의 음소맥락을 상기 제1 사용자 특징으로 추출하는 것을 특징으로 하는 전자 장치.
  19. 제12항에 있어서, 상기 수신부는
    상기 제1 사용자가 발화한 상기 음성 신호 및 상기 제1 사용자가 발화하는 환경에서 발생하는 잡음 신호를 입력받으며,
    상기 제어부는
    상기 잡음 신호의 신호 특징을 추출하고, 상기 잡음 신호의 신호 특징에 근거하여 화자 인식을 수행하는데 있어서 적용되는 한계값 및 상기 제1 사용자의 음성 신호에 포함되는 소정 음성 단위에 적용되는 가중치 중 적어도 하나를 조절하며, 조절된 상기 한계값 및 상기 가중치 중 적어도 하나에 근거하여 화자 인식을 수행하는 것을 특징으로 하는 전자 장치.
  20. 컴퓨터에 의해서 실행 가능한 명령어들을 포함하는 프로그램을 기록한 기록 매체에 있어서, 상기 프로그램은
    전자 장치에서 화자 인식을 수행하기 위한 음성 신호 처리 방법에 있어서,
    제1 사용자의 음성 신호를 획득하는 단계;
    상기 제1 사용자의 음성 신호에서 추출된 음성 특징과 기준값을 비교하여, 상기 기준값과 대비되는 제1 사용자의 음성 특징인 제1 사용자 특징을 획득하는 단계;
    상기 제1 사용자 특징에 근거하여 화자 인식에 이용되는 추천 문장을 생성하는 단계; 및
    상기 추천 문장을 출력하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법을 실행하기 위한 명령어들을 포함하는 프로그램인 것을 특징으로 하는 기록 매체.
KR1020180013430A 2018-02-02 2018-02-02 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 KR102585231B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020180013430A KR102585231B1 (ko) 2018-02-02 2018-02-02 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
CN201980011477.0A CN111684521A (zh) 2018-02-02 2019-01-31 用于说话者识别的处理语音信号方法及实现其的电子装置
PCT/KR2019/001372 WO2019151802A1 (en) 2018-02-02 2019-01-31 Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
EP19747302.8A EP3738121A4 (en) 2018-02-02 2019-01-31 PROCESS FOR PROCESSING A VOICE SIGNAL FOR THE RECOGNITION OF SPEAKER AND ELECTRONIC APPARATUS IMPLEMENTING THE SAME
US16/265,237 US10916249B2 (en) 2018-02-02 2019-02-01 Method of processing a speech signal for speaker recognition and electronic apparatus implementing same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180013430A KR102585231B1 (ko) 2018-02-02 2018-02-02 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치

Publications (2)

Publication Number Publication Date
KR20190093962A true KR20190093962A (ko) 2019-08-12
KR102585231B1 KR102585231B1 (ko) 2023-10-05

Family

ID=67475159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180013430A KR102585231B1 (ko) 2018-02-02 2018-02-02 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치

Country Status (5)

Country Link
US (1) US10916249B2 (ko)
EP (1) EP3738121A4 (ko)
KR (1) KR102585231B1 (ko)
CN (1) CN111684521A (ko)
WO (1) WO2019151802A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7268449B2 (ja) * 2019-03-29 2023-05-08 京セラドキュメントソリューションズ株式会社 表示制御装置、表示制御方法、及び表示制御プログラム
US11562724B2 (en) * 2019-08-26 2023-01-24 Knowles Electronics, Llc Wind noise mitigation systems and methods
CN110689895B (zh) * 2019-09-06 2021-04-02 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
KR20210053722A (ko) * 2019-11-04 2021-05-12 삼성전자주식회사 전자장치 및 그 제어방법
US11721322B2 (en) * 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130714A1 (en) * 2010-11-24 2012-05-24 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
KR20160014297A (ko) * 2014-07-29 2016-02-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US20160248768A1 (en) * 2015-02-20 2016-08-25 Sri International Joint Speaker Authentication and Key Phrase Identification
KR20160105496A (ko) * 2014-06-24 2016-09-06 구글 인코포레이티드 화자 검증을 위한 동적 임계치
US20170287487A1 (en) * 2013-11-04 2017-10-05 Google Inc. Speaker identification

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980045013A (ko) 1996-12-09 1998-09-15 양승택 암호 입력을 통한 화자 인식기의 성능 개선 방법
KR20010037652A (ko) 1999-10-19 2001-05-15 서주철 오디오 색인화 장치 및 그 방법과 그를 이용한 오디오 검색 시스템 및 그 방법
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8489399B2 (en) * 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
KR20100021204A (ko) 2008-08-14 2010-02-24 (주)파워보이스 가변 신뢰도 문턱치를 사용한 음성인식스위치 제어방법
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US9147400B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for generating speaker-specific spoken passwords
US9293140B2 (en) * 2013-03-15 2016-03-22 Broadcom Corporation Speaker-identification-assisted speech processing systems and methods
WO2015017303A1 (en) * 2013-07-31 2015-02-05 Motorola Mobility Llc Method and apparatus for adjusting voice recognition processing based on noise characteristics
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
WO2016033364A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US20170256270A1 (en) * 2016-03-02 2017-09-07 Motorola Mobility Llc Voice Recognition Accuracy in High Noise Conditions
US9972322B2 (en) * 2016-03-29 2018-05-15 Intel Corporation Speaker recognition using adaptive thresholding
KR20180013430A (ko) 2016-07-29 2018-02-07 나무애그림 주식회사 3차원 후광 연출 방법 및 장치
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US20180277132A1 (en) * 2017-03-21 2018-09-27 Rovi Guides, Inc. Systems and methods for increasing language accessability of media content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130714A1 (en) * 2010-11-24 2012-05-24 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20160203821A1 (en) * 2010-11-24 2016-07-14 At&T Intellectual Property I, Lp System and method for generating challenge utterances for speaker verification
US20170287487A1 (en) * 2013-11-04 2017-10-05 Google Inc. Speaker identification
KR20160105496A (ko) * 2014-06-24 2016-09-06 구글 인코포레이티드 화자 검증을 위한 동적 임계치
KR20160014297A (ko) * 2014-07-29 2016-02-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US20160248768A1 (en) * 2015-02-20 2016-08-25 Sri International Joint Speaker Authentication and Key Phrase Identification

Also Published As

Publication number Publication date
CN111684521A (zh) 2020-09-18
US20190244612A1 (en) 2019-08-08
US10916249B2 (en) 2021-02-09
EP3738121A1 (en) 2020-11-18
WO2019151802A1 (en) 2019-08-08
EP3738121A4 (en) 2021-11-24
KR102585231B1 (ko) 2023-10-05

Similar Documents

Publication Publication Date Title
EP3525205B1 (en) Electronic device and method of performing function of electronic device
US11978440B2 (en) Wakeword detection
US10607597B2 (en) Speech signal recognition system and method
JP6452708B2 (ja) オーディオパスワードの強度を評価するためのシステムおよび方法
KR102585231B1 (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US11514900B1 (en) Wakeword detection
KR20190096308A (ko) 전자기기
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
CN113330511A (zh) 语音识别方法、装置、存储介质及电子设备
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
US20240013784A1 (en) Speaker recognition adaptation
JP2019028465A (ja) 話者検証方法及び音声認識システム
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
US11929077B2 (en) Multi-stage speaker enrollment in voice authentication and identification
WO2021139589A1 (zh) 一种语音处理方法、介质及系统
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
KR102098237B1 (ko) 화자 검증 방법 및 음성인식 시스템
US10950231B1 (en) Skill enablement
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR20210130465A (ko) 대화 시스템 및 그 제어 방법
CN112513845A (zh) 与语音使能设备的暂时账户关联
US20240143920A1 (en) Method and electronic device for processing user utterance based on language model
US20220261218A1 (en) Electronic device including speaker and microphone and method for operating the same
KR20240049061A (ko) 음성 인식을 수행하는 전자 장치와 이의 동작 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant