KR102413282B1 - 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 - Google Patents

개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 Download PDF

Info

Publication number
KR102413282B1
KR102413282B1 KR1020170103052A KR20170103052A KR102413282B1 KR 102413282 B1 KR102413282 B1 KR 102413282B1 KR 1020170103052 A KR1020170103052 A KR 1020170103052A KR 20170103052 A KR20170103052 A KR 20170103052A KR 102413282 B1 KR102413282 B1 KR 102413282B1
Authority
KR
South Korea
Prior art keywords
voice signal
target
user
input
user terminal
Prior art date
Application number
KR1020170103052A
Other languages
English (en)
Other versions
KR20190018282A (ko
Inventor
이호동
유상현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170103052A priority Critical patent/KR102413282B1/ko
Priority to US15/891,260 priority patent/US20190051288A1/en
Priority to CN201810436268.8A priority patent/CN109410916B/zh
Priority to EP18172427.9A priority patent/EP3444809B1/en
Priority to JP2018101565A priority patent/JP7173758B2/ja
Publication of KR20190018282A publication Critical patent/KR20190018282A/ko
Application granted granted Critical
Publication of KR102413282B1 publication Critical patent/KR102413282B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버가 개시된다. 개시된 사용자 단말에서 수행되는 인식 방법은 사용자로부터 입력된 기준 음성 신호에 기초하여 사용자의 음성에 개인화된 특성 파라미터를 결정하고, 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받으며, 타겟 음성 신호의 인식 결과를 출력한다. 타겟 음성 신호의 인식 결과는 특성 파라미터 및 인식을 위한 모델에 기초하여 결정된다.

Description

개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버{METHOD FOR PERFORMING PERSONALIZED SPEECH RECOGNITION AND USER TERMINAL AND SERVER PERFORMING THE SAME}
아래 실시예들은 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버에 관한 것이다.
음성 인터페이스는 터치 인터페이스 보다 자연스럽고 직관적인 인터페이스다. 이에 따라, 음성 인터페이스는 터치 인터페이스의 단점을 보완할 수 있는 차세대 인터페이스로 각광받고 있다. 음성 인터페이스에 있어서 가장 핵심은 음성 인식 기술의 정확도이다. 이에 따라, 음성 인식 기술의 정확도를 높이기 위한 다양한 기법들이 제안됨에 따라 음성 인식 기술은 점점 발전하고 있다.
일실시예에 따른 사용자 단말에서 수행되는 인식 방법은 사용자로부터 입력된 기준 음성 신호(reference speech signal)에 기초하여 상기 사용자의 음성에 개인화된 특성 파라미터를 결정하는 단계; 상기 사용자로부터 인식하고자 하는 타겟 음성 신호(target speech signal)를 입력 받는 단계; 및 상기 타겟 음성 신호의 인식 결과를 출력하는 단계를 포함하고, 상기 타겟 음성 신호의 인식 결과는 상기 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 결정된다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 모델에 입력되는 상기 타겟 음성 신호의 특징 벡터에 적용되거나, 상기 모델에서 분류할 클래스 정보를 포함할 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 타겟 음성 신호의 특징 벡터를 정규화하기 위한 정규화 정보를 포함하고, 상기 타겟 음성 신호의 인식 결과는 상기 모델에 입력될 상기 타겟 음성 신호의 특징 벡터를 상기 정규화 정보에 기초하여 정규화함으로써 결정될 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 사용자의 음성적인 특징을 나타내는 식별 정보를 포함하고, 상기 타겟 음성 신호의 인식 결과는 상기 모델에 상기 타겟 음성 신호의 특징 벡터와 함께 식별 정보를 입력시킴으로써 결정될 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 모델에서 분류할 클래스 정보를 포함하고, 상기 타겟 음성 신호의 인식 결과는 상기 모델에서 상기 타겟 음성 신호의 특징 벡터로부터 추정된 값을 상기 클래스 정보와 비교함으로써 결정될 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터를 결정하는 단계는 상기 기준 음성 신호가 상기 사용자 단말에 입력될 때의 환경 정보에 기초하여 상기 특성 파라미터를 유형별로 결정할 수 있다.
일실시예에 따른 인식 방법에서 상기 환경 정보는 상기 기준 음성 신호에 포함된 노이즈 정보 및 상기 사용자 단말로부터 상기 기준 음성 신호를 발화한 사용자까지의 거리 정보 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 인식 방법에서 상기 타겟 음성 신호의 인식 결과는 상기 기준 음성 신호가 입력될 때의 환경 정보에 기초하여 유형별로 저장된 특성 파라미터들 중에서 상기 타겟 음성 신호가 입력될 때의 환경 정보에 기초하여 선택된 특성 파라미터를 이용하여 결정될 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터를 결정하는 단계는 다수의 사용자들을 기준으로 결정된 기본 파라미터에 상기 기준 음성 신호로부터 획득한 개인 파라미터를 반영함으로써, 상기 특성 파라미터를 결정할 수 있다.
일실시예에 따른 인식 방법에서 상기 기준 음성 신호는 상기 타겟 음성 신호가 상기 사용자 단말에 입력되기 이전에 상기 사용자가 상기 사용자 단말을 이용함에 따라 상기 사용자 단말에 입력되는 음성 신호일 수 있다.
일실시예에 따른 인식 방법은 상기 타겟 음성 신호와 상기 특성 파라미터를 서버로 전송하는 단계; 및 상기 서버로부터 상기 타겟 음성 신호의 인식 결과를 수신하는 단계를 더 포함하고, 상기 타겟 음성 신호의 인식 결과는 상기 서버에서 생성될 수 있다.
일실시예에 따른 인식 방법에서 상기 타겟 음성 신호의 인식 결과는 상기 사용자 단말에서 생성될 수 있다.
일실시예에 따른 사용자 단말에 입력된 타겟 음성 신호를 인식하는 서버의 인식 방법은 사용자로부터 입력된 기준 음성 신호에 기초하여 결정된 상기 사용자의 음성에 개인화된 특성 파라미터를 상기 사용자 단말로부터 수신하는 단계; 인식의 대상이 되는 상기 사용자의 타겟 음성 신호를 상기 사용자 단말로부터 수신하는 단계; 상기 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 상기 타겟 음성 신호를 인식하는 단계; 및 상기 타겟 음성 신호의 인식 결과를 상기 사용자 단말로 전송하는 단계를 포함한다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 타겟 음성 신호를 정규화하기 위한 정규화 정보, 상기 사용자의 음성적인 특징을 나타내는 식별 정보 및 상기 모델에서 분류할 클래스 정보 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 인식 방법에서 상기 특성 파라미터는 상기 기준 음성 신호가 상기 사용자 단말에 입력될 때의 환경 정보에 기초하여 유형별로 저장된 특성 파라미터들 중에서 상기 타겟 음성 신호가 상기 사용자 단말에 입력될 때의 환경 정보에 기초하여 선택된 특성 파라미터일 수 있다.
일실시예에 따른 사용자 단말은 프로세서; 및 상기 프로세서에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리를 포함하고, 상기 적어도 하나의 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 사용자로부터 입력된 기준 음성 신호에 기초하여 상기 사용자의 음성에 개인화된 특성 파라미터를 결정하고, 상기 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받으며, 상기 타겟 음성 신호의 인식 결과를 출력하고, 상기 타겟 음성 신호의 인식 결과는 상기 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 결정된다.
도 1은 일실시예에 따라 사용자 단말 및 서버 간 관계를 나타낸 도면이다.
도 2는 일실시예에 따라 사용자 단말에 입력된 음성 신호가 인식되는 과정을 나타낸 도면이다.
도 3은 일실시예에 따라 타겟 음성 신호가 특성 파라미터 및 모델에 기초하여 인식되는 과정을 나타낸 도면이다.
도 4는 다른 일실시예에 따라 환경 정보를 더 이용하여 음성 신호를 인식하는 과정을 나타낸 도면이다.
도 5는 일실시예에 따라 환경 정보를 설명하기 위한 도면이다.
도 6은 또 다른 일실시예에 따른 사용자 단말의 인식 방법을 나타낸 도면이다.
도 7은 일실시예에 따른 사용자 단말을 나타낸 도면이다.
도 8은 일실시예에 따른 서버를 나타낸 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
하기에서 설명될 실시예들은 음성을 인식하는 데 사용될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따라 사용자 단말 및 서버 간 관계를 나타낸 도면이다.
도 1을 참조하면, 일실시예에 따른 사용자 단말(110) 및 서버(120)가 도시된다.
일실시예에 따른 사용자 단말(110)은 사용자로부터 음성 신호를 입력 받고, 음성 신호의 인식 결과를 출력하는 장치로서, 아래에서 설명되는 적어도 하나의 동작을 위한 명령어들을 저장하는 메모리 및 해당 명령어들을 실행하는 프로세서를 포함할 수 있다. 예를 들어, 사용자 단말(110)은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 모바일 기기, 스마트 스피커, 스마트 텔레비전, 스마트 가전 기기, 지능형 자동차, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.
일실시예에 따른 사용자 단말(110)은 사용자로부터 입력 받은 음성 신호에 기초하여 사용자의 음성에 개인화된 특성 파라미터(111)를 결정한다. 특성 파라미터(111)는 음성 인식의 개인화에 필요한 부가적인 정보로서, 음성 인식을 위한 모델을 직접적으로 변경하지 않으면서 사용자 단말(110)을 조작하는 사용자에 개인화된 음성 인식이 수행되도록 할 수 있다. 예를 들어, 특성 파라미터(111)는 CMVN(Cepstral Mean Variance Normalization)에 따른 정규화 정보, i-벡터(i-vector), PDF(Probability density function) 중 적어도 하나를 포함할 수 있다. 특성 파라미터(111)에 대해서는 도 3을 참조하여 후술한다.
사용자 단말(110)은 음성 인식이 요청되기 전에 특성 파라미터(111)를 미리 결정할 수 있다. 이하, 설명의 편의를 위해 특성 파라미터(111)의 결정에 고려되는 음성 신호를 기준 음성 신호(reference speech signal)라고 지칭하고, 인식하고자 하는 음성 신호를 타겟 음성 신호(target speech signal)라고 지칭한다.
사용자로부터 인식 대상이 되는 타겟 음성 신호를 입력 받은 경우, 사용자 단말(110)은 타겟 음성 신호와 특성 파라미터(111)를 서버(120)로 전송할 수 있다.
일실시예에 따른 서버(120)는 음성 인식을 위한 모델을 포함한 장치로서, 모델을 이용하여 사용자 단말(110)로부터 수신된 타겟 음성 신호를 음성 인식하는 컴퓨팅 장치일 수 있다. 서버(120)는 사용자 단말(110)로부터 수신한 타겟 음성 신호를 음성 인식하고, 그 인식 결과를 사용자 단말(110)로 전송할 수 있다.
일실시예에 따른 모델은 타겟 음성 신호가 입력됨에 따라 해당 타겟 음성 신호의 인식 결과를 출력하는 뉴럴 네트워크(neural network)로서, 특정 개인에 커스터마이즈되기 보다는 다수의 사용자들의 음성 인식을 위한 범용적인 모델일 수 있다.
서버(120)는 사용자의 음성에 개인화된 특성 파라미터(111)를 더 이용함으로써, 범용적인 모델을 통해서 해당 사용자에 개인화된 음성 인식을 수행할 수 있다. 다시 말해, 일반적으로 개인 사용자는 특유의 악센트, 톤, 말투 등을 가질 수 있는데, 특성 파라미터(111)를 통해 이러한 특유의 개인적 특성에 적응적으로 음성 인식이 수행될 수 있다.
서버(120)는 타겟 음성 신호의 인식 결과를 사용자 단말(110)로 전송하고, 사용자 단말(110)은 인식 결과를 출력할 수 있다.
도 2는 일실시예에 따라 사용자 단말에 입력된 음성 신호가 인식되는 과정을 나타낸 도면이다.
도 2를 참조하면, 일실시예에 따라 사용자 단말(110) 및 서버(120)에서 수행되는 인식 방법이 도시된다.
단계(210)에서, 사용자 단말(110)은 사용자로부터 기준 음성 신호를 입력 받을 수 있다. 기준 음성 신호는 인식하고자 하는 타겟 음성 신호가 사용자 단말(110)에 입력되기 이전에 사용자가 사용자 단말(110)을 이용함에 따라 사용자 단말(110)에 입력되는 음성 신호일 수 있다. 예를 들어, 사용자가 사용자 단말(110)을 통해 통화를 수행하거나 음성을 녹음할 때 사용자 단말(110)로 입력되는 음성 신호가 기준 음성 신호에 해당될 수 있다. 다시 말해, 기준 음성 신호는 음성 인식의 대상이 되지 않으며, 음성 인식 외 사용자 단말(110)의 일반적인 사용으로 사용자 단말(110)에 입력되는 음성 신호일 수 있다.
단계(220)에서, 사용자 단말(110)은 기준 음성 신호에 기초하여 사용자의 음성에 개인화된 특성 파라미터를 결정한다. 특성 파라미터는 음성 인식을 위한 모델을 직접적으로 변경하지 않으면서도 사용자에 개인화된 음성 인식이 수행되게 하는 파라미터일 수 있다.
일실시예에 따른 사용자 단말(110)은 기준 음성 신호가 입력될 때마다 해당 기준 음성 신호에 기초하여 특성 파라미터를 업데이트할 수 있다. 이 때, 사용자 단말(110)은 입력되는 모든 기준 음성 신호를 이용하여 특성 파라미터를 업데이트할 수 있고, 또는 일정 조건(예컨대, 음성 신호의 크기, 길이 등)이 만족되는 기준 음성 신호를 선별적으로 이용하여 특성 파라미터를 업데이트할 수도 있다.
예를 들어, 사용자 단말(110)은 다수의 사용자들을 기준으로 결정된 기본 파라미터에 기준 음성 신호로부터 획득한 개인 파라미터를 반영함으로써, 특성 파라미터를 결정할 수 있다. 여기서, 기본 파라미터는 다수의 사용자들의 음성 신호에 기초하여 결정된 초기 파라미터로서, 서버(120)로부터 제공될 수 있다. 이러한 기본 파라미터와 해당 사용자에 관한 개인 파라미터 각각에 가중치를 적용하여 합산함으로써, 특성 파라미터가 결정될 수 있다. 그리고, 다음 기준 음성 신호가 입력되는 경우, 최근에 계산된 특성 파라미터에 다음 기준 음성 신호로부터 획득한 개인 파라미터를 반영함으로써, 특성 파라미터를 업데이트할 수 있다.
기준 음성 신호가 사용자 단말(110)에 입력될 때마다 이와 같이 특성 파라미터를 결정함으로써, 사용자의 음성에 개인화된 특성 파라미터가 누적 계산될 수 있다. 누적 계산될수록, 해당 사용자에 보다 개인화된 특성 파라미터가 획득될 수 있다.
다른 일실시예에 따라서는, 사용자 단말(110)에서 기본 파라미터에 개인 파라미터가 반영되어 특성 파라미터가 결정되는 대신, 사용자 단말(110)에서는 개인 파라미터만을 고려하여 특성 파라미터가 누적 계산되어 서버(120)로 전송되고, 서버(120)에서 기본 파라미터와 특성 파라미터 간 가중치 합을 통해 최종적으로 특성 파라미터가 결정될 수도 있다.
단계(230)에서, 사용자 단말(110)은 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받는다. 예를 들어, 사용자 단말(110)은 음성 인식 명령과 함께 입력된 음성 신호를 타겟 음성 신호로 식별할 수 있다.
단계(240)에서, 사용자 단말(110)은 타겟 음성 신호와 특성 파라미터를 서버(120)로 전송할 수 있다. 예를 들어, 사용자 단말(110)은 타겟 음성 신호와 특성 파라미터를 함께 서버(120)로 전송할 수 있다.
또는, 사용자 단말(110)은 타겟 음성 신호에 앞서 특성 파라미터를 서버(120)로 전송할 수도 있다. 이 경우, 사용자 단말(110)은 일정한 주기마다 또는 특성 파라미터가 업데이트될 때마다 서버(120)로 특성 파라미터를 미리 전송하고, 특성 파라미터는 서버(120)에 해당 사용자 또는 해당 사용자 단말(110)에 매핑되어 저장될 수 있다. 그리고, 사용자 단말(110)은 타겟 음성 신호가 입력되면, 특성 파라미터 없이 해당 타겟 음성 신호를 서버(120)로 전송할 수 있다.
사용자의 개인정보가 아닌 수치화된 값에 해당하는 특성 파라미터가 서버(120)로 전송됨으로써, 개인정보 유출과 같은 보안 이슈에 대해서도 자유로울 수 있다.
단계(250)에서, 서버(120)는 특성 파라미터 및 인식을 위한 모델에 기초하여 타겟 음성 신호를 인식할 수 있다. 서버(120)는 모델에 입력되는 타겟 음성 신호의 특징 벡터에 특성 파라미터를 적용하거나 모델에서 분류할 클래스 정보로 특성 파라미터를 이용함으로써, 모델을 직접적으로 변경하지 않으면서 해당 사용자에 개인화된 음성 인식을 수행할 수 있다. 특성 파라미터 및 모델에 기초한 음성 인식에 대해서는 도 3을 참조하여 후술한다.
단계(260)에서, 서버(120)는 타겟 음성 신호의 인식 결과를 사용자 단말(110)로 전송할 수 있다.
단계(270)에서, 사용자 단말(110)은 타겟 음성 신호의 인식 결과를 출력한다. 일실시예에 따른 사용자 단말(110)은 타겟 음성 인식의 인식 결과를 디스플레이할 수 있다.
또는, 사용자 단말(110)은 인식 결과에 따른 동작을 수행하고, 그 동작 결과를 출력할 수 있다. 예를 들어, 사용자 단말(110)은 인식 결과에 따라 사용자 단말(110)에 설치된 어플리케이션(예컨대, 전화 어플리케이션, 연락처 어플리케이션, 메신저 어플리케이션, 웹 어플리케이션, 스케줄 관리 어플리케이션, 날씨 어플리케이션 등)을 실행하거나, 해당 어플리케이션에서 특정 동작(예컨대, 통화 수행, 연락처 검색, 메시지 입력 및 전송, 웹 검색, 스케줄 확인, 날씨 조회 등)을 수행하고, 그 결과를 출력할 수 있다.
도 3은 일실시예에 따라 타겟 음성 신호가 특성 파라미터 및 모델에 기초하여 인식되는 과정을 나타낸 도면이다.
도 3을 참조하면, 일실시예에 따라 모델(310), CMVN 필터(320), i-벡터 필터(330), PDF(340)가 도시된다. 도 3에서는 설명의 편의를 위해 CMVN 필터(320), i-벡터 필터(330), PDF(340)가 모두 도시되었지만, 실시예에 따라서 CMVN 필터(320), i-벡터 필터(330), PDF(340) 중 적어도 하나만 적용될 수도 있다.
일실시예에 따른 모델(310)은 타겟 음성 신호가 입력됨에 따라 해당 타겟 음성 신호의 인식 결과를 출력하는 뉴럴 네트워크일 수 있다. 뉴럴 네트워크는 복수의 레이어들을 포함할 수 있다. 복수의 레이어들 각각은 복수의 뉴런들을 포함할 수 있다. 이웃한 레이어들의 뉴런들은 시냅스들로 연결될 수 있다. 학습에 따라 시냅스들에는 가중치들이 부여될 수 있고, 파라미터들은 이러한 가중치들을 포함할 수 있다.
일실시예에 따른 특성 파라미터들은 CMVN의 정규화 정보, i-벡터, PDF 중 적어도 하나를 포함할 수 있다. 이러한 특성 파라미터들은 CMVN 필터(320), i-벡터 필터(330), PDF(340)로 적용될 수 있다.
타겟 음성 신호의 특징 벡터는 MFCC(Mel-Frequency Cepstral Coefficient), Filter bank 등을 통해 타겟 음성 신호로부터 추출될 수 있으며, CMVN 필터(320)로 입력될 수 있다.
CMVN 필터(320)는 음성 인식을 수행하기에 앞서 음성 신호의 특징 벡터를 정규화(normalization)하는 단계로, 정규화된 특징 벡터에 대해 음성 인식을 수행함으로써 음성 인식의 정확도를 향상시킬 수 있다. CMVN 필터(320)는 음성 신호에 포함된 노이즈나 왜곡에 강인하게 음성 인식이 수행되도록 할 수 있다. 예를 들어, CMVN 필터(320)는 음성 신호의 특징 벡터에 포함된 각 차원들의 평균이 0으로 변환되고, 분산이 기준 분산(unit variance)으로 변환되도록 함으로써, 특징 벡터에 대한 정규화를 수행할 수 있다. 이러한 정규화를 위해 정규화 정보가 사용될 수 있으며, 정규화 정보는 특징 벡터에 포함된 차원들의 평균을 0으로 변환하고, 분산을 기준 분산으로 변환하기 위한 평균 값 및 분산 값을 포함할 수 있다. 예를 들어, 기준 분산은 1일 수 있다.
CMVN 필터(320)에서 이용되는 정규화 정보는 사용자 단말에서 누적되어 계산될 수 있으며, 누적될수록 CMVN 필터(320)에서 수행되는 정규화가 정교하게 수행되어 음성 인식의 성능이 더욱 향상될 수 있다.
i-벡터 필터(330)는 타겟 음성 신호의 특징 벡터에 i-벡터가 적용되는 단계일 수 있다. i-벡터는 타겟 음성 신호를 발화한 사용자를 식별하는 정보를 벡터로 표현한 식별 벡터(identity vector)로서, 사용자의 개별적인 특성을 나타낼 수 있다. 일례로, 식별 벡터는 음성으로부터 추출된 음향 파라미터의 분포를 GMM(Gaussian mixture model)으로 모델링했을 때, 각 가우시안들의 평균 값들을 연결하여 만든 GMM 슈퍼벡터가 가지고 있는 변이성을 표현하는 벡터일 수 있다.
이러한 i-벡터가 서버가 아닌 사용자 단말에서 결정되고, 사용자 단말에서 기준 음성 신호가 입력될 때마다 또는 일정 조건을 만족하는 기준 음성 신호가 입력될 때마다 누적 계산됨으로써, 해당 사용자의 발음에 대한 정교한 i-벡터가 결정될 수 있다.
사용자 단말에서 결정된 i-벡터가 i-벡터 필터(330)를 통해 타겟 음성 신호의 특징 벡터에 적용되어 모델(310)에 입력될 수 있다. 다시 말해, 타겟 음성 신호의 특징 벡터와 함께 i-벡터가 모델(310)에 입력됨으로써, i-벡터에 의해 식별된 사용자의 음성 특징을 반영하여 음성 인식이 수행되고, 인식 정확도를 향상시킬 수 있다.
이 경우, 모델(310)도 여러 사람들의 i-벡터에 기초하여 트레이닝된 모델일 필요가 있다. 음성 인식 시에 함께 입력되는 i-벡터를 이용하여, 트레이닝 시 고려하였던 여러 사람들 중에서 금번 사용자가 어떤 사람과 특성이 유사한지가 판단될 수 있으며, 이러한 판단 결과에 따라 음성 인식이 적응적으로 수행될 수 있다.
PDF(340)는 모델(310)에서 분류되는 클래스 정보를 포함할 수 있다. PDF(340)는 발음적 특징에 대한 분포 값을 나타내는 정보로서, 모델(310)에서 추정된 값과 비교되어 최종적으로 해당 타겟 음성 신호가 어떤 음소들로 구성되는지가 판단되고, 이 판단에 따라 인식 결과가 결정될 수 있다.
동일한 단어를 발음하더라도 사용자마다 해당 단어를 발음하는 악센트나 톤이 다를 수 있는데, 해당 사용자에 개인화된 PDF(340)를 이용함으로써, 해당 사용자에 개인화된 음성 인식을 수행할 수 있다. 음성 인식 수행 시, PDF(340)는 해당 사용자에 개인화된 PDF로 대체(replace)될 수 있다.
일실시예에 따른 PDF(340)는 서버 외부에서 계산할 수 있는 간단한 GMM 등의 기법을 사용자 단말에서 수행함으로써, 사용자 단말에서 계산될 수 있다. 계산 초기에는 다수의 사용자들을 기준으로 결정된 클래스 정보에 기준 음성 신호로부터 획득된 개인화된 클래스 정보를 반영시킴으로써, PDF(340)가 누적 계산될 수 있다.
또한, PDF 카운트 정보(PDF count information)도 개인화되어 음성 인식 시에 활용될 수 있다. PDF 카운트 정보는 해당 음소가 얼마나 빈번히 사용되었는지를 나타내는 것으로, 해당 사용자가 자주 발화하는 음소를 효과적으로 인식하게 할 수 있다. PDF 카운트 정보도 계산 초기에는 다수의 사용자들을 기준으로 결정된 PDF 카운트 정보에 기준 음성 신호로부터 획득된 개인화된 PDF 카운트 정보를 반영시킴으로써, 결정될 수 있다.
도 4는 다른 일실시예에 따라 환경 정보를 더 이용하여 음성 신호를 인식하는 과정을 나타낸 도면이다.
도 4를 참조하면, 다른 일실시예에 따라 사용자 단말(110) 및 서버(120)에서 수행되는 인식 방법이 도시된다.
단계(410)에서, 사용자 단말(110)은 사용자로부터 기준 음성 신호를 입력 받고, 이 때의 기준 환경 정보를 획득할 수 있다. 기준 환경 정보는 기준 음성 신호가 사용자 단말(110)에 입력될 때의 상황에 대한 정보로서, 예를 들어, 기준 음성 신호에 포함된 노이즈 정보 및 사용자 단말(110)로부터 기준 음성 신호를 발화한 사용자까지의 거리 정보 중 적어도 하나를 포함할 수 있다.
여기서, 노이즈 정보는 기준 음성 신호가 실내에서 입력되었는지 또는 실외에서 입력되었는지 여부를 나타내고, 거리 정보는 사용자 단말(110)과 사용자 간의 거리가 근거리 또는 원거리인지 여부를 나타낼 수 있다.
예를 들어, 기준 환경 정보는 사용자 단말(110)에 내장된 별도의 센서를 통해 획득될 수 있다.
단계(420)에서, 사용자 단말(110)은 기준 환경 정보에 기초하여 특성 파라미터를 유형별로 결정할 수 있다. 예를 들어, 실내에서 입력된 기준 음성 신호에 기초하여 실내 유형의 특성 파라미터가 결정되고, 실외에서 입력된 기준 음성 신호에 기초하여 실외 유형의 특성 파라미터가 결정될 수 있다. 마찬가지로, 근거리에서 입력된 기준 음성 신호에 기초하여 근거리 유형의 특성 파라미터가 결정되고, 원거리에서 입력된 기준 음성 신호에 기초하여 원거리 유형의 특성 파라미터가 결정될 수 있다.
또한, 사용자 단말(110)은 기준 환경 정보에 기초하여 특성 파라미터를 유형별로 업데이트할 수 있다.
단계(430)에서, 사용자 단말(110)은 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받고, 이 때의 타겟 환경 정보를 획득할 수 있다. 예를 들어, 사용자 단말(110)은 음성 인식 명령과 함께 입력된 음성 신호를 타겟 음성 신호로 식별하고, 이 때 획득된 환경 정보를 타겟 환경 정보로 식별할 수 있다.
단계(440)에서, 사용자 단말(110)은 타겟 환경 정보에 기초하여 특성 파라미터를 선택할 수 있다. 사용자 단말(110)은 유형별로 저장된 특성 파라미터들 중에서 타겟 환경 정보에 대응하는 특성 파라미터를 선택할 수 있다. 예를 들어, 타겟 음성 신호가 실내에서 입력된 경우, 타겟 환경 정보에 기초하여 특성 파라미터들 중 실내 유형의 특성 파라미터가 선택될 수 있다. 마찬가지로, 타겟 음성 신호가 근거리에서 입력된 경우, 타겟 환경 정보에 기초하여 특성 파라미터들 중 근거리 유형의 특성 파라미터가 선택될 수 있다.
단계(450)에서, 사용자 단말(110)은 타겟 음성 신호 및 선택된 특성 파라미터를 서버(120)로 전송할 수 있다.
단계(460)에서, 서버(120)는 선택된 특성 파라미터 및 인식을 위한 모델에 기초하여 타겟 음성 신호를 인식할 수 있다.
단계(470)에서, 서버(120)는 타겟 음성 신호의 인식 결과를 사용자 단말(110)로 전송할 수 있다.
단계(480)에서, 사용자 단말(110)은 타겟 음성 신호의 인식 결과를 출력한다. 일실시예에 따른 사용자 단말(110)은 타겟 음성 인식의 인식 결과를 디스플레이할 수 있다. 또는, 사용자 단말(110)은 인식 결과에 따른 동작을 수행하고, 그 동작 결과를 출력할 수 있다.
도 4에 도시된 각 단계들에는 도 1 내지 도 3를 통하여 전술한 사항들이 그대로 적용되므로, 보다 상세한 설명은 생략한다.
도 5는 일실시예에 따라 환경 정보를 설명하기 위한 도면이다.
도 5를 참조하면, 일실시예에 따른 환경 정보(510)는 노이즈 정보(520) 및 거리 정보(530) 중 적어도 하나를 포함할 수 있다. 도 5에서는 설명의 편의를 위해 환경 정보(510)의 실시예들이 도시되어 있으나, 이외에도 음성 신호가 사용자 단말에 입력되는 상황을 나타내는 정보라면 제한 없이 포함될 수 있다.
노이즈 정보(520)는 음성 신호에 포함된 노이즈에 관한 정보를 나타내는 정보일 수 있다. 일반적으로 사용자가 위치한 장소에 따라 음성 신호에 포함되는 노이즈 종류가 달라지므로, 노이즈 정보(520)는 음성 신호가 실내 또는 실외에서 입력되었는지를 나타낼 수 있다. 나아가, 노이즈 정보(520)는 실내의 경우를 세부적으로 나누어, 해당 음성 신호가 집, 도서관, 카페, 사무실, 차량 등에서 입력되었는지를 나타낼 수도 있다. 또한, 노이즈 정보(520)는 실외의 경우를 세부적으로 나누어, 해당 음성 신호가 도로, 공원, 광장, 해변 등에서 입력되었는지를 나타낼 수도 있다.
거리 정보(530)는 사용자 단말로부터 음성 신호를 발화한 사용자까지의 거리를 나타내는 정보일 수 있다. 거리 정보(530)는 음성 신호가 근거리 또는 원거리에서 입력되었는지를 나타낼 수 있다. 예를 들어, 사용자가 사용자 단말을 자신의 입 근처로 근접시켜 발화한 경우, 거리 정보(530)는 음성 신호가 근거리에서 입력되었음을 나타낼 수 있다. 또는, 실내에 위치한 사용자가 일정 거리 이상 떨어진 사용자 단말(예컨대, 스마트 스피커)에 대해 발화한 경우, 거리 정보(530)는 음성 신호가 원거리에서 입력되었음을 나타낼 수 있다.
또는, 거리 정보(530)는 단순히 근거리, 원거리로 구분하지 않고, 구체적인 거리 수치를 포함할 수도 있다.
도 6은 또 다른 일실시예에 따른 사용자 단말의 인식 방법을 나타낸 도면이다.
도 6을 참조하면, 또 다른 일실시예에 따른 사용자 단말에서 수행되는 인식 방법이 도시된다. 앞선 설명들은 음성 인식을 위한 모델이 서버에 위치하는 경우를 기준으로 하였으나, 경우에 따라서는 모델이 사용자 단말 내에 위치할 수도 있고, 도 6이 이러한 경우의 인식 방법을 도시한다.
단계(610)에서, 사용자 단말은 사용자로부터 기준 음성 신호를 입력 받을 수 있다. 기준 음성 신호는 인식하고자 하는 타겟 음성 신호가 사용자 단말에 입력되기 이전에 사용자가 사용자 단말을 이용함에 따라 사용자 단말에 입력되는 음성 신호일 수 있다.
단계(620)에서, 사용자 단말은 기준 음성 신호에 기초하여 사용자의 음성에 개인화된 특성 파라미터를 결정한다. 특성 파라미터는 음성 인식을 위한 모델을 직접적으로 변경하지 않으면서도 사용자에 개인화된 음성 인식이 수행되게 하는 파라미터일 수 있다.
단계(630)에서, 사용자 단말은 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받는다. 예를 들어, 사용자 단말은 음성 인식 명령과 함께 입력된 음성 신호를 타겟 음성 신호로 식별할 수 있다.
단계(640)에서, 사용자 단말은 특성 파라미터 및 인식을 위한 모델에 기초하여 타겟 음성 신호를 인식할 수 있다. 사용자 단말은 모델에 입력되는 타겟 음성 신호의 특징 벡터에 특성 파라미터를 적용하거나 모델에서 분류할 클래스 정보로 특성 파라미터를 이용함으로써, 모델을 직접적으로 변경하지 않으면서 해당 사용자에 개인화된 음성 인식을 수행할 수 있다.
단계(650)에서, 사용자 단말은 타겟 음성 신호의 인식 결과를 출력한다. 일실시예에 따른 사용자 단말은 타겟 음성 인식의 인식 결과를 디스플레이할 수 있다. 또는, 사용자 단말은 인식 결과에 따른 동작을 수행하고, 그 동작 결과를 출력할 수 있다.
도 6에 도시된 각 단계들에는 도 1 내지 도 3을 통하여 전술한 사항들이 적용될 수 있으므로, 보다 상세한 설명은 생략한다. 또한, 도 6에서는 환경 정보를 더 이용하는 경우에 대해서는 명시적으로 설명하지 않았으나, 도 4 및 도 5을 통하여 전술한 사항들이 도 6의 경우에도 마찬가지로 적용될 수 있으므로, 보다 상세한 설명을 생략한다.
도 7은 일실시예에 따른 사용자 단말을 나타낸 도면이다.
도 7을 참조하면, 사용자 단말(110)은 메모리(710), 프로세서(720) 및 마이크로폰(730)을 포함한다. 사용자 단말(110)은 트랜시버(740) 및 센서(750)를 더 포함할 수 있다. 메모리(710), 프로세서(720), 마이크로폰(730), 트랜시버(740) 및 센서(750)는 버스(bus)(760)를 통해 서로 데이터를 주고 받을 수 있다.
메모리(710)는 휘발성 메모리 및 비휘발성 메모리를 포함할 수 있으며, 버스(760)를 통해 수신된 정보를 저장할 수 있다. 메모리(710)는 프로세서(720)에 의해 실행 가능한 적어도 하나의 명령어를 포함할 수 있다. 또한, 메모리(710)는 앞서 설명한 특성 파라미터를 저장할 수 있다.
프로세서(720)는 메모리(710)에 저장된 명령어들, 혹은 프로그램들을 실행할 수 있다. 프로세서(720)는 사용자로부터 입력된 기준 음성 신호에 기초하여 사용자의 음성에 개인화된 특성 파라미터를 결정하고, 사용자로부터 인식하고자 하는 타겟 음성 신호를 입력 받으며, 타겟 음성 신호의 인식 결과를 출력한다. 여기서, 타겟 음성 신호의 인식 결과는 특성 파라미터 및 인식을 위한 모델에 기초하여 결정된다.
마이크로폰(730)은 사용자 단말(110)에 장착되어 사용자로부터 기준 음성 신호, 타겟 음성 신호를 입력 받을 수 있다.
트랜시버(740)는 특성 파라미터와 타겟 음성 신호를 서버로 전송하고, 서버로부터 타겟 음성 신호의 인식 결과를 수신할 수 있다. 만약 도 6에서 설명한 바와 같이, 음성 인식을 위한 모델이 사용자 단말(110)에 존재하는 경우에는 트랜시버(740)가 생략될 수도 있다.
센서(750)는 음성 신호가 입력될 때의 환경 정보를 감지할 수 있다. 예를 들어, 센서(750)는 사용자 단말(110)로부터 사용자까지의 거리를 측정하기 위한 장치로서, 예를 들어, 이미지 센서, 적외선 센서, 라이더 센서 등을 포함할 수 있다. 센서(750)는 사용자를 촬영하여 영상을 출력하거나, 사용자로 적외선을 방사하고 사용자에 의해 반사되어 되돌아오는 적외선의 비행시간을 감지할 수 있다. 이러한 센서(750)의 출력 데이터에 기초하여 사용자 단말(110)로부터 사용자까지의 거리가 측정될 수 있다. 만약 도 2에서 설명한 바와 같이, 환경 정보가 이용되지 않을 경우에는 센서(750)가 생략될 수도 있다.
그 밖에, 사용자 단말(110)에는 전술한 사항이 적용될 수 있으며, 보다 상세한 설명은 생략한다.
도 8은 일실시예에 따른 서버를 나타낸 도면이다.
도 8을 참조하면, 서버(120)는 메모리(810), 프로세서(820) 및 트랜시버(830)을 포함한다. 메모리(810), 프로세서(820) 및 트랜시버(830)는 버스(840)를 통해 서로 데이터를 주고 받을 수 있다.
메모리(810)는 휘발성 메모리 및 비휘발성 메모리를 포함할 수 있으며, 버스(840)를 통해 수신된 정보를 저장할 수 있다. 메모리(810)는 프로세서(820)에 의해 실행 가능한 적어도 하나의 명령어를 포함할 수 있다. 또한, 메모리(810)는 앞서 설명한 음성 인식을 위한 모델을 저장할 수 있다.
프로세서(820)는 메모리(810)에 저장된 명령어들, 혹은 프로그램들을 실행할 수 있다. 프로세서(820)는 사용자로부터 입력된 기준 음성 신호에 기초하여 결정된 사용자의 음성에 개인화된 특성 파라미터를 사용자 단말로부터 수신하고, 인식의 대상이 되는 사용자의 타겟 음성 신호를 사용자 단말로부터 수신하고, 특성 파라미터 및 인식을 위한 모델에 기초하여 타겟 음성 신호를 인식하며, 타겟 음성 신호의 인식 결과를 사용자 단말로 전송한다.
트랜시버(830)는 사용자 단말로부터 특성 파라미터와 타겟 음성 신호를 수신하고, 사용자 단말로 타겟 음성 신호의 인식 결과를 전송할 수 있다.
그 밖에, 서버(120)에는 전술한 사항이 적용될 수 있으며, 보다 상세한 설명은 생략한다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 사용자 단말에서 수행되는 인식 방법에 있어서,
    사용자로부터 입력된 기준 음성 신호(reference speech signal) 및 상기 기준 음성 신호가 입력될 때의 기준 환경 정보에 기초하여 상기 사용자의 음성에 개인화된 특성 파라미터를 유형별로 결정하는 단계;
    상기 사용자로부터 인식하고자 하는 타겟 음성 신호(target speech signal) 및 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보를 입력 받는 단계;
    상기 기준 음성 신호가 입력될 때의 기준 환경 정보에 기초하여 유형별로 결정된 특성 파라미터들 중에서 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보에 대응하는 특성 파라미터를 선택하는 단계; 및
    상기 타겟 음성 신호의 인식 결과를 출력하는 단계
    를 포함하고,
    상기 타겟 음성 신호는 상기 선택된 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 인식되고,
    상기 특성 파라미터는
    상기 타겟 음성 신호를 정규화하기 위한 정규화 정보, 상기 사용자의 음성적인 특징을 나타내는 식별 정보 및 상기 모델에서 분류할 클래스 정보를 포함하고,
    상기 타겟 음성 신호의 인식 결과는
    상기 정규화 정보에 기초하여 상기 타겟 음성 신호를 정규화하고, 상기 정규화된 타겟 음성 신호를 상기 식별 정보와 함께 다수의 사용자들을 위한 범용 음성 인식의 상기 모델에 입력하며, 상기 정규화된 타겟 음성 신호가 입력된 상기 모델에서 추정된 값과 상기 클래스 정보를 비교함으로써, 상기 사용자의 음성 특성에 개인화된 음성 인식을 통해 결정되고,
    상기 특성 파라미터를 결정하는 단계는
    음성 신호의 크기 및/또는 길이에 관한 미리 정해진 조건을 만족하고, 상기 사용자로부터 입력된 다른 기준 음성 신호들을 선택적으로 이용하여 상기 특성 파라미터를 업데이트하는, 인식 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 환경 정보는
    상기 기준 음성 신호에 포함된 노이즈 정보 및 상기 사용자 단말로부터 상기 기준 음성 신호를 발화한 사용자까지의 거리 정보 중 적어도 하나를 포함하는, 인식 방법.
  8. 삭제
  9. 제1항에 있어서,
    상기 특성 파라미터를 결정하는 단계는
    다수의 사용자들을 기준으로 결정된 기본 파라미터에 상기 기준 음성 신호로부터 획득한 개인 파라미터를 반영함으로써, 상기 특성 파라미터를 결정하는, 인식 방법.
  10. 제1항에 있어서,
    상기 기준 음성 신호는
    상기 타겟 음성 신호가 상기 사용자 단말에 입력되기 이전에 상기 사용자가 상기 사용자 단말을 이용함에 따라 상기 사용자 단말에 입력되는 음성 신호인, 인식 방법.
  11. 제1항에 있어서,
    상기 타겟 음성 신호와 상기 특성 파라미터를 서버로 전송하는 단계; 및
    상기 서버로부터 상기 타겟 음성 신호의 인식 결과를 수신하는 단계
    를 더 포함하고,
    상기 타겟 음성 신호의 인식 결과는 상기 서버에서 생성되는, 인식 방법.
  12. 제1항에 있어서,
    상기 타겟 음성 신호의 인식 결과는 상기 사용자 단말에서 생성되는, 인식 방법.
  13. 사용자 단말에 입력된 타겟 음성 신호를 인식하는 서버의 인식 방법에 있어서,
    인식의 대상이 되는 사용자의 타겟 음성 신호 및 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보에 따라 선택된 특성 파라미터를 상기 사용자 단말로부터 수신하는 단계;
    상기 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 상기 타겟 음성 신호를 인식하는 단계; 및
    상기 타겟 음성 신호의 인식 결과를 상기 사용자 단말로 전송하는 단계
    를 포함하고,
    상기 특성 파라미터는
    기준 음성 신호가 상기 사용자 단말에 입력될 때의 기준 환경 정보에 기초하여 유형별로 결정된 특성 파라미터들 중에서 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보에 대응하는 것으로 선택되고,
    상기 특성 파라미터는
    상기 타겟 음성 신호를 정규화하기 위한 정규화 정보, 상기 사용자의 음성적인 특징을 나타내는 식별 정보 및 상기 모델에서 분류할 클래스 정보를 포함하고,
    상기 타겟 음성 신호의 인식 결과는
    상기 정규화 정보에 기초하여 상기 타겟 음성 신호를 정규화하고, 상기 정규화된 타겟 음성 신호를 상기 식별 정보와 함께 다수의 사용자들을 위한 범용 음성 인식의 상기 모델에 입력하며, 상기 정규화된 타겟 음성 신호가 입력된 상기 모델에서 추정된 값과 상기 클래스 정보를 비교함으로써, 상기 사용자의 음성 특성에 개인화된 음성 인식을 통해 결정되고,
    상기 특성 파라미터는
    음성 신호의 크기 및/또는 길이에 관한 미리 정해진 조건을 만족하고, 상기 사용자로부터 상기 사용자 단말에 입력된 다른 기준 음성 신호들을 선택적으로 이용함으로써 업데이트되는 인식 방법.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 제1항, 제7항 및 제9항 내지 제13항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 저장 매체.
  20. 프로세서; 및
    상기 프로세서에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리
    를 포함하고,
    상기 적어도 하나의 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 사용자로부터 입력된 기준 음성 신호 및 상기 기준 음성 신호가 입력될 때의 기준 환경 정보에 기초하여 상기 사용자의 음성에 개인화된 특성 파라미터를 유형별로 결정하고, 상기 사용자로부터 인식하고자 하는 타겟 음성 신호 및 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보를 입력 받고, 상기 기준 음성 신호가 입력될 때의 기준 환경 정보에 기초하여 유형별로 결정된 특성 파라미터들 중에서 상기 타겟 음성 신호가 입력될 때의 타겟 환경 정보에 대응하는 특성 파라미터를 선택하며, 상기 타겟 음성 신호의 인식 결과를 출력하고,
    상기 타겟 음성 신호는 상기 선택된 특성 파라미터 및 상기 인식을 위한 모델에 기초하여 인식되고,
    상기 특성 파라미터는
    상기 타겟 음성 신호를 정규화하기 위한 정규화 정보, 상기 사용자의 음성적인 특징을 나타내는 식별 정보 및 상기 모델에서 분류할 클래스 정보 중 적어도 하나를 포함하고,
    상기 타겟 음성 신호의 인식 결과는
    상기 정규화 정보에 기초하여 상기 타겟 음성 신호를 정규화하고, 상기 정규화된 타겟 음성 신호를 상기 식별 정보와 함께 다수의 사용자들을 위한 범용 음성 인식의 상기 모델에 입력하며, 상기 정규화된 타겟 음성 신호가 입력된 상기 모델에서 추정된 값과 상기 클래스 정보를 비교함으로써, 상기 사용자의 음성 특성에 개인화된 음성 인식을 통해 결정되고,
    상기 특성 파라미터는
    음성 신호의 크기 및/또는 길이에 관한 미리 정해진 조건을 만족하고, 상기 사용자로부터 입력된 다른 기준 음성 신호들을 선택적으로 이용함으로써 업데이트되는, 사용자 단말.
KR1020170103052A 2017-08-14 2017-08-14 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 KR102413282B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020170103052A KR102413282B1 (ko) 2017-08-14 2017-08-14 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US15/891,260 US20190051288A1 (en) 2017-08-14 2018-02-07 Personalized speech recognition method, and user terminal and server performing the method
CN201810436268.8A CN109410916B (zh) 2017-08-14 2018-05-09 个性化语音识别方法以及执行该方法的用户终端和服务器
EP18172427.9A EP3444809B1 (en) 2017-08-14 2018-05-15 Personalized speech recognition method and system
JP2018101565A JP7173758B2 (ja) 2017-08-14 2018-05-28 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170103052A KR102413282B1 (ko) 2017-08-14 2017-08-14 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버

Publications (2)

Publication Number Publication Date
KR20190018282A KR20190018282A (ko) 2019-02-22
KR102413282B1 true KR102413282B1 (ko) 2022-06-27

Family

ID=62186265

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170103052A KR102413282B1 (ko) 2017-08-14 2017-08-14 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버

Country Status (5)

Country Link
US (1) US20190051288A1 (ko)
EP (1) EP3444809B1 (ko)
JP (1) JP7173758B2 (ko)
KR (1) KR102413282B1 (ko)
CN (1) CN109410916B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832672B2 (en) 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker system with cognitive sound analysis and response
US10832673B2 (en) * 2018-07-13 2020-11-10 International Business Machines Corporation Smart speaker device with cognitive sound analysis and response
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11605379B2 (en) * 2019-07-11 2023-03-14 Lg Electronics Inc. Artificial intelligence server
CN112242142B (zh) * 2019-07-17 2024-01-30 北京搜狗科技发展有限公司 一种语音识别输入的方法及相关装置
KR20190107622A (ko) 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치
KR20210031265A (ko) 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
KR102327441B1 (ko) 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
CN110827819A (zh) * 2019-11-26 2020-02-21 珠海格力电器股份有限公司 家居设备控制方法及控制系统
US11120805B1 (en) * 2020-06-19 2021-09-14 Micron Technology, Inc. Intelligent microphone having deep learning accelerator and random access memory
CN111554300B (zh) * 2020-06-30 2021-04-13 腾讯科技(深圳)有限公司 音频数据处理方法、装置、存储介质及设备
CN112839107B (zh) * 2021-02-25 2023-04-18 北京梧桐车联科技有限责任公司 推送内容的确定方法、装置、设备及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US6768979B1 (en) * 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6823312B2 (en) * 2001-01-18 2004-11-23 International Business Machines Corporation Personalized system for providing improved understandability of received speech
JP2003122388A (ja) * 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
FR2835087B1 (fr) * 2002-01-23 2004-06-04 France Telecom Personnalisation de la presentation sonore de messages synthetises dans un terminal
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
JP4731174B2 (ja) * 2005-02-04 2011-07-20 Kddi株式会社 音声認識装置、音声認識システム及びコンピュータプログラム
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US8842811B2 (en) * 2011-07-14 2014-09-23 Intellisist, Inc. Computer-implemented system and method for providing recommendations regarding hiring agents in an automated call center environment based on user traits
US9275639B2 (en) * 2012-04-02 2016-03-01 Dixilang Ltd. Client-server architecture for automatic speech recognition applications
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US10049658B2 (en) * 2013-03-07 2018-08-14 Nuance Communications, Inc. Method for training an automatic speech recognition system
US9378729B1 (en) * 2013-03-12 2016-06-28 Amazon Technologies, Inc. Maximum likelihood channel normalization
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
KR20160030168A (ko) * 2013-07-09 2016-03-16 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
US10049656B1 (en) * 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
CN103578474B (zh) * 2013-10-25 2017-09-12 小米科技有限责任公司 一种语音控制方法、装置和设备
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
US20150162004A1 (en) * 2013-12-09 2015-06-11 Erwin Goesnar Media content consumption with acoustic user identification
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
KR102146462B1 (ko) * 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP5995226B2 (ja) * 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
KR102585228B1 (ko) * 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
EP3308379B1 (en) * 2015-06-10 2021-07-28 Cerence Operating Company Motion adaptive speech processing
KR102386863B1 (ko) * 2015-09-09 2022-04-13 삼성전자주식회사 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US20170098192A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Content aware contract importation
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US10187394B2 (en) * 2016-03-31 2019-01-22 Microsoft Technology Licensing, Llc Personalized inferred authentication for virtual assistance
US11455985B2 (en) * 2016-04-26 2022-09-27 Sony Interactive Entertainment Inc. Information processing apparatus
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149167A1 (en) * 2011-03-31 2015-05-28 Google Inc. Dynamic selection among acoustic transforms

Also Published As

Publication number Publication date
CN109410916B (zh) 2023-12-19
KR20190018282A (ko) 2019-02-22
EP3444809A1 (en) 2019-02-20
EP3444809B1 (en) 2020-09-23
JP7173758B2 (ja) 2022-11-16
US20190051288A1 (en) 2019-02-14
CN109410916A (zh) 2019-03-01
JP2019035941A (ja) 2019-03-07

Similar Documents

Publication Publication Date Title
KR102413282B1 (ko) 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US11170788B2 (en) Speaker recognition
US11475881B2 (en) Deep multi-channel acoustic modeling
KR102292546B1 (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
CN112259106B (zh) 声纹识别方法、装置、存储介质及计算机设备
US9412361B1 (en) Configuring system operation using image data
CN111276131A (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
CN105940407A (zh) 用于评估音频口令的强度的系统和方法
WO2020043162A1 (en) System and method for performing multi-model automatic speech recognition in challenging acoustic environments
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
US11455998B1 (en) Sensitive data control
TW202018696A (zh) 語音識別方法、裝置及計算設備
KR102655791B1 (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
KR20210047709A (ko) 음성 인식 방법 및 음성 인식 장치
KR20190136578A (ko) 음성 인식 방법 및 장치
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
US11437043B1 (en) Presence data determination and utilization
US9892726B1 (en) Class-based discriminative training of speech models
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
CN115376498A (zh) 语音识别方法、模型训练方法、装置、介质、电子设备
US11831644B1 (en) Anomaly detection in workspaces
CN110419078B (zh) 用于自动语音识别的系统和方法
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant