KR20170035529A - 전자 기기 및 그의 음성 인식 방법 - Google Patents

전자 기기 및 그의 음성 인식 방법 Download PDF

Info

Publication number
KR20170035529A
KR20170035529A KR1020150134465A KR20150134465A KR20170035529A KR 20170035529 A KR20170035529 A KR 20170035529A KR 1020150134465 A KR1020150134465 A KR 1020150134465A KR 20150134465 A KR20150134465 A KR 20150134465A KR 20170035529 A KR20170035529 A KR 20170035529A
Authority
KR
South Korea
Prior art keywords
user
pronunciation
phoneme
speech
dictionary
Prior art date
Application number
KR1020150134465A
Other languages
English (en)
Other versions
KR102443087B1 (ko
Inventor
신성환
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150134465A priority Critical patent/KR102443087B1/ko
Priority to US15/227,447 priority patent/US10134390B2/en
Publication of KR20170035529A publication Critical patent/KR20170035529A/ko
Application granted granted Critical
Publication of KR102443087B1 publication Critical patent/KR102443087B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

전자 기기가 개시된다. 본 전자 기기는, 사용자 발음 사전을 저장하는 저장부, 사용자의 발화 음성을 수신하는 음성 입력부 및 수신된 발화 음성으로부터 사용자의 발음 패턴을 추출하고, 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트하는 프로세서를 포함한다.

Description

전자 기기 및 그의 음성 인식 방법{ELECTRONIC DEVICE AND VOICE RECOGNITION METHOD THEREOF}
본 발명은 전자 기기 및 그의 음성 인식 방법에 관한 것으로, 더욱 상세하게는 사용자 발음 사전을 이용하여 음성 인식을 수행하는 전자 기기 및 그의 음성 인식 방법에 관한 것이다.
음성 인식 서비스는 사용자의 음성을 개발 단계에서 시스템에 등록해 놓은 텍스트(단어 또는 단어의 조합)와 비교하여 가장 확률이 높은 텍스트 결과를 제공한다. 이때, 시스템에 등록해 놓은 텍스트를 일반적으로 단어 사전(word lexicon)이라 하며 이 단어 사전에 얼마나 많은 단어가 포함되어 있으냐에 따라 음성 인식 서비스의 지원 범위가 결정된다. 나아가 음성 인식 서비스의 성능은 단어 사전 내부의 발음 사전(pronunciation lexicon)의 정확도와 이에 대응되는 음향 모델의 퀄리티에 의존한다.
일반적으로 발음 사전은 최대한 많은 발음 변이가 포함될 수 있도록 개발된다. 특히, 컨텐츠명 및 외래어의 경우 사용자별 발음 변이가 다양하여 하나의 단어에 5~10개 이상의 발음열을 제공하게 된다. 이때, 다중 발음열 생성의 목적은 음성 인식 서비스를 사용하는 불특정 다수의 평균 인식률을 만족시키기 위함이다.
종래에는 불특정 다수의 평균 인식률을 만족시키는 발음열 생성을 목적으로 하였다. 하지만, 이러한 일반적인 발음열(generic pronunciation)으로는 개별 사용자의 발음 습관이나 특성 등을 반영할 수 없었고, 만족스러운 음성 인식률을 제공하기 어려웠다.
또한, 이러한 제약을 극복하기 위해, 개인 발음열 사전을 제공하는 개인화 서비스가 출시되었으나 개인 발음열을 생성하는 방법에 대한 구체적이고 신뢰성 있는 방안이 제시되지 않았다. 가장 큰 원인은 사용자간 발성 변이가 커서 이를 규칙화할 수 있는 방안을 정하기가 쉽지 않기 때문이다.
종래에 사용자 로그에서 단순 패턴 분석 기반으로 발음열을 업데이트 하는 기술들이 소개된 바 있으나 음성 인식 결과는 오인식을 포함하기 때문에 패턴 기반 규칙은 오류를 다수 포함할 수 밖에 없었다. 이러한 종래의 패턴 기반 발음열 업데이트 방안은 오히려 기존 인식률을 하락시키는 부작용을 발생시켰다.
본 발명은 상술한 필요성에 따른 것으로, 본 발명의 목적은, 개별 사용자의 발음 패턴에 기초하여 업데이트된 발음 사전에 기초하여 음성 인식을 수행할 수 있는 전자 기기 및 그 음성 인식 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 전자 기기는, 사용자 발음 사전을 저장하는 저장부, 사용자의 발화 음성을 수신하는 음성 입력부 및 상기 수신된 발화 음성으로부터 상기 사용자의 발음 패턴을 추출하고, 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 상기 사용자 발음 사전을 업데이트하는 프로세서를 포함한다.
여기서, 상기 프로세서는, 상기 사용자의 발화 음성을 수신되면, 상기 저장부에 저장된 상기 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다.
또한, 상기 프로세서는, 상기 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 상기 발음 패턴을 추출할 수 있다.
여기서, 상기 프로세서는, 상기 발음 사전에 저장된 음소별 발음과 상기 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 상기 음소별 신뢰도를 산출할 수 있다.
여기서, 상기 프로세서는, 상기 발화 음성에 포함된 음소의 타입별로 상기 유사도에 따른 상이한 가중치를 부여하고, 상기 부여된 가중치에 기초하여 상기 음소별 신뢰도를 산출할 수 있다.
또한, 상기 프로세서는, 상기 생성된 발음 패턴 규칙에 기초하여 기설정된 단어에 대한 변이 규칙을 생성하고, 상기 생성된 변이 규칙에 기초하여 상기 사용자 발음 사전을 업데이트할 수 있다.
또한, 상기 프로세서는, 상기 사용자 발음 사전에 저장된 발음열 중 상기 사용자가 기설정된 횟수 이상 사용하지 않는 발음열은 삭제하고, 상기 발음 패턴 규칙에 기초하여 생성된 발음열 중 상기 사용자 발음 사전에 저장되어 있지 않은 발음열을 상기 발음 사전에 추가할 수 있다.
또한, 본 전자 기기는, 클라우드 서버와 통신을 수행하는 통신부를 더 포함하고, 상기 프로세서는, 상기 생성된 발음 패턴 규칙에 따라 업데이트된 사용자 발음 사전을 상기 클라우드 서버에 전송할 수 있다.
또한, 상기 프로세서는, 상기 사용자로부터 입력된 식별 정보 및 상기 수신된 사용자의 발화 음성 중 적어도 하나에 기초하여 상기 사용자를 식별하고, 상기 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다.
한편, 본 발명의 일 실시 예에 따른 전자 기기의 음성 인식 방법은, 사용자의 발화 음성을 수신하는 단계, 상기 수신된 발화 음성으로부터 상기 사용자의 발음 패턴을 추출하는 단계 및 상기 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트하는 단계를 포함한다.
여기서, 본 음성 인식 방법은, 상기 사용자의 발화 음성을 수신되면, 상기 사용자 발음 사전에 기초하여 음성 인식을 수행하는 단계를 더 포함할 수 있다.
또한, 상기 추출하는 단계는, 상기 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 상기 발음 패턴을 추출할 수 있다.
여기서, 상기 추출하는 단계는, 상기 발음 사전에 저장된 음소별 발음과 상기 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 상기 음소별 신뢰도를 산출할 수 있다.
여기서, 상기 추출하는 단계는, 상기 발화 음성에 포함된 음소의 타입별로 상기 유사도에 따른 상이한 가중치를 부여하고, 상기 부여된 가중치에 기초하여 상기 음소별 신뢰도를 산출할 수 있다.
또한, 상기 업데이트하는 단계는, 상기 생성된 발음 패턴 규칙에 기초하여 기설정된 단어에 대한 변이 규칙을 생성하고, 상기 생성된 변이 규칙에 기초하여 상기 사용자 발음 사전을 업데이트할 수 있다.
또한, 상기 업데이트하는 단계는, 상기 사용자 발음 사전에 저장된 발음열 중 상기 사용자가 기설정된 횟수 이상 사용하지 않는 발음열은 삭제하고, 상기 발음 패턴 규칙에 기초하여 생성된 발음열 중 상기 사용자 발음 사전에 저장되어 있지 않은 발음열을 상기 발음 사전에 추가할 수 있다.
또한, 본 음성 인식 방법은, 상기 생성된 발음 패턴 규칙에 따라 업데이트된 사용자 발음 사전을 클라우드 서버에 전송하는 단계를 더 포함할 수 있다.
또한, 본 음성 인식 방법은, 상기 사용자로부터 입력된 식별 정보 및 상기 수신된 사용자의 발화 음성 중 적어도 하나에 기초하여 상기 사용자를 식별하고, 상기 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행하는 단계를 더 포함할 수 있다.
이상 설명한 바와 같이 본 발명의 다양한 실시 예에 따르면 사용자의 발음 패턴에 기초하여 업데이트된 발음 사전을 이용하여 음성 인식을 수행함으로써, 음성 인식률 향상 및 음성 인식 서비스의 사용성을 개선할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 전자 기기의 구성을 나타내는 블럭도이다.
도 2a 내지 도 2c는 본 발명의 일 실시 예에 따른 전자 기기의 세부 구성을 나타내는 블럭도이다.
도 3은 본 발명의 일 실시 예에 따른 사용자의 발음 패턴을 추출하고 발음 사전을 업데이트하는 구체적인 방법을 설명하기 위한 도면이다.
도 4a, 도 4b, 도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 사용자의 발음 패턴을 추출하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 7 및 도 8은 본 발명의 일 실시 예에 따른 음소별 신뢰도를 산출하는 구체적인 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 전자 기기의 음성 인식 수행 과정을 나타내는 흐름도이다.
이하 본 발명의 다양한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일 실시 예에 따른 전자 기기의 구성을 나타내는 블럭도이다.
도 1에 도시된 바와 같이 본 발명의 일 실시 예에 따른 전자 기기(100)는 음성 입력부(110), 저장부(120) 및 프로세서(130)를 포함할 수 있다.
본 발명의 일 실시 예에 따른 전자 기기(100)는 스마트 TV와 같은 디스플레이 장치, 스마트 폰, 타블렛 PC, 오디오 장치, 네비게이션 등 음성 인식이 가능한 다양한 전자 기기로 구현될 수 있다.
음성 입력부(110)는 사용자의 발화 음성을 수신할 수 있다. 예를 들어, 음성 입력부(110)는 사용자의 발화 음성을 수신하기 위한 마이크로 구현될 수 있다. 음성 입력부(110)는 전자 기기(100)에 내장되어 일체형을 이루거나, 분리된 형태로 구현될 수 있다.
또한, 음성 입력부(110)는 수신된 사용자의 발화 음성을 처리할 수 있다. 예를 들어, 음성 입력부(110)는 사용자의 음성에서 노이즈를 제거할 수 있다. 구체적으로, 음성 입력부(110)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환할 수 있다. 그리고 음성 입력부(110)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단할 수 있다.
음성 입력부(110)는 디지털 신호의 에너지가 기설정된 값 이상인 경우, 디지털 신호에서 노이즈 성분을 제거하여 프로세서(130) 등에 전달할 수 있다. 예를 들어, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 한편, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 음성 입력부(110)는 디지털 신호에 별다른 처리 과정을 수행하지 않고, 다른 입력을 기다린다. 이에 의해, 사용자 발화 음성이 아닌 다른 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지할 수 있다.
저장부(120)는 사용자 발음 사전을 저장할 수 있다. 구체적으로, 저장부(120)는 음성 인식을 수행하기 위해 필요한 사용자 발음 사전이 저장되는 저장 매체로서, 메모리, HDD(Hard Disk Drive) 등으로 구현 가능하다. 예를 들어, 저장부(120)는 프로세서(130)의 동작을 수행하기 위한 프로그램이 저장되는 ROM, 프로세서(130)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM 등을 구비할 수 있다. 또한, 각종 참조 데이터를 저장하기 위한 EEROM(Electrically Erasable and Programmable ROM) 등을 더 구비할 수 있다.
예를 들어, 저장부(120)는 "한화 이글스"라는 단어에 대하여, "한화 이글스", "한화 이글쓰", "한와 이글스", "한와 이글쓰" 등의 발음열을 저장할 수 있다. 즉, 저장부(120)에는 다양한 사람들이 특정 단어를 보고 발음할 수 있는 여러 가지 경우의 발음열이 저장될 수 있다. 특히, 외래어의 경우 일반적으로 국어보다 다양하게 발음되기 때문에 좀 더 많은 발음열이 저장될 수 있다. 예를 들어, 저장부(120)는, "내셔널 지오그래픽"이란 단어에 대하여, "내셔널 지오그래픽", "내쇼널 지오그래픽", "내쇼날 지오그래픽", "나셔널 지오그래픽", "나쇼날 지오그래픽" 등 다양한 발음열을 저장할 수 있다.
또한, 저장부(120)는 복수의 사용자 별 발음 사전을 저장할 수 있다. 전자 기기(100)를 이용하는 사용자가 복수인 경우, 저장부(120)는 복수의 사용자 별 발음 사전을 저장하고, 프로세서(130)는 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다. 또한, 저장부(120)는 프로세서(130)에 의해 발음 사전이 업데이트되면, 업데이트된 사용자 별 발음 사전을 저장할 수 있다.
프로세서(130)는 사용자의 발화 음성으로부터 사용자의 발음 패턴을 추출하여 사용자 발음 사전을 업데이트 할 수 있다. 구체적으로, 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 사용자의 발음 패턴을 추출할 수 있다. 여기서, 발음 패턴은 사용자의 발화 음성에 포함된 음소들의 집합으로 나타낼 수 있으며, 음소란 단어의 의미를 구별짓는 최소의 소리 단위를 의미한다. 또한, 음소별 신뢰도는 사용자의 발화 음성에 포함된 음소가 기저장된 특정 음소와 유사한 정도를 나타내는 값으로, 음소별 신뢰도가 높을수록 사용자의 발화 음성에 포함된 음소는 기저장된 특정 음소와 유사하게 된다.
음소별 신뢰도는 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음을 비교하여 산출될 수 있다. 예를 들어, 프로세서(130)는 음소별 신뢰도는 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음의 유사도에 따라, 유사도가 높은 경우 높은 가중치를 부여하고, 유사도가 낮은 경우 낮은 가중치를 부여할 수 있다. 또한, 가중치는 0과 1 사이의 값을 가질 수 있으며, 유사도가 높은 경우 0.5보다 큰 값을 갖고, 유사도가 낮은 경우 0.5보다 작은 값을 가질 수 있다. 다만, 이에 한정되는 것은 아니며, 가중치는 1 보다 큰 값을 가질 수도 있다.
또한, 프로세서(130)는 사용자의 발화 음성에 포함된 음소의 타입별로 상이한 가중치를 부여하여 음소별 신뢰도를 산출할 수 있다. 구체적으로, 사용자의 발화 음성에 포함된 음소의 타입이 발음 사전에 저장된 음소의 타입과 동일한 경우 높은 가중치가 부여될 수 있으며, 사용자의 발화 음성에 포함된 음소의 타입이 발음 사전에 저장된 음소의 타입과 상이한 경우 낮은 가중치가 부여될 수 있다. 프로세서(130)가 음소의 타입별로 상이한 가중치를 부여하는 구체적인 실시 예는 이하 도 3에서 후술한다.
또한, 프로세서(130)는 사용자의 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트할 수 있다. 여기서, 발음 패턴 규칙이란 사용자의 발음 습관이나 특성에 관한 반복되는 규칙으로, 예를 들어, 사용자가 "한화 이글스" 및 "지구 온난화"를 "한와 이글스" 및 "지구 온난와"로 발음하는 경우, 프로세서(130)는 사용자의 발음 패턴에 기초하여, 사용자가 "ㄴ" 이후의 "ㅎ"을 "ㅇ"으로 발음하는 발음 패턴 규칙을 생성할 수 있다.
구체적으로, 프로세서(130)는 사용자의 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 기초하여 기설정된 단어에 대한 변이 규칙을 생성하고, 생성된 변이 규칙에 기초하여 사용자 발음 사전을 업데이트 할 수 있다. 여기서, 변이 규칙이란 사용자가 특정 단어에 대하여 기저장된 발음 패턴 규칙과 다른 방식으로 발음하는 경우의 발음 패턴 규칙을 의미한다.
이 경우, 프로세서(130)는 사용자 발음 사전에 저장된 발음열 중 사용자가 기설정된 횟수 이상 사용하지 않는 발음열은 삭제하고, 발음 패턴 규칙에 기초하여 생성된 발음열 중 사용자 발음 사전에 저장되어 있지 않은 발음열은 발음 사전에 추가하거나 수정하는 방법으로 사용자 발음 사전을 업데이트 할 수 있다. 예를 들어, 발음 사전에 "한화 이글스"에 대한 발음열로 "한화 이글스", "한화 이글쓰", "한와 이글스", "한와 이글쓰"가 저장되어 있고, 기설정된 횟수가 10회인 경우, 사용자의 발화 음성이 10회 이상 "한와 이글스" 또는 "한와 이글쓰"로만 인식되는 경우, 프로세서(130)는 발음 사전에서 "한화 이글스"에 대한 발음열 중 "한화 이글스", "한화 이글쓰"를 삭제할 수 있다. 이에 따라, "한화 이글스"에 대한 발음열은 "한와 이글스" 및 "한와 이글쓰"만 남게되어, 전자 기기(100)의 음성 오인식을 줄일 수 있다.
또한, 프로세서(130)는 클라우드 서버를 통하여 발음 사전을 업데이트 할 수 있다. 구체적으로, 사용자의 식별 정보(예를 들어, 로그인 정보) 또는 수신된 사용자의 발화 음성에 기초하여 사용자가 식별되면, 클라우드 서버에 저장된 복수의 사용자 별 발음 사전 중 식별된 사용자에 대응되는 사용자 발음 사전을 수신할 수 있다. 이후, 프로세서(130)는 수신된 발음 사전을 이용하여 음성 인식을 수행할 수 있다. 프로세서(130)는 음성 인식을 수행하면서 수신된 사용자의 발화 음성으로부터 발음 패턴을 추출하고 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 클라우드 서버에 저장된 사용자 별 발음 사전을 업데이트할 수 있다.
이하에서는, 프로세서(130)가 음성 인식을 수행하는 구체적인 실시 예에 관하여 설명한다.
일 예로, 프로세서(130)는 수신된 사용자의 발화 음성을 인식하여 텍스트로 변환할 수 있다. 이 경우, 프로세서(130)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 프로세서(130)는 변환된 텍스트에 포함된 음소를 사용자 발음 사전에 저장된 음소와 비교하여 변환된 텍스트에 대응되는 단어를 추출할 수 있다. 구체적으로, 프로세서(130)는 변환된 텍스트에 포함된 음소와 사용자 발음 사전에 저장된 음소의 유사도를 측정하고 각각의 음소에 대한 신뢰도를 부여하는 방식으로, 사용자의 발화 음성에 대응되는 단어를 사용자 발음 사전에서 추출하여 음성 인식을 수행할 수 있다.
또한, 프로세서(130)는 외부의 클라우드 서버를 이용하여 음성 인식을 수행할 수 있다. 구체적으로 프로세서(130)는 입력된 사용자 발화 음성에 대응되는 음성 신호를 클라우드 서버로 전송하고, 클라우드 서버는 음성 신호에 기초하여 음성 인식을 수행하고 음성 인식 결과를 다시 전자 기기(100)로 전송하며, 프로세서(130)는 수신된 음성 인식 결과에 대응되는 동작을 수행할 수 있다.
프로세서(130)는 저장부(120)에 복수의 사용자 별 발음 사전이 저장된 경우, 사용자의 식별 정보(예를 들어, 로그인 정보) 또는 음성 입력부(110)를 통해 수신된 사용자의 발화 음성에 기초하여 음성 인식에 적용되는 발음 사전을 결정할 수 있다. 구체적으로, 프로세서(130)는 사용자의 식별 정보 또는 수신된 사용자의 발화 음성으로부터 사용자를 식별할 수 있고, 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다.
또한, 본 발명의 일 실시 예에 따른 전자 기기(100)의 저장부(120) 및 프로세서(130)는 클라우드 서버로 제공될 수 있다. 구체적으로, 클라우드 서버는 사용자 발음 사전을 저장하고, 전자 기기(100)로부터 수신된 발화 음성으로부터 사용자의 발음 패턴을 추출하고, 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트 할 수 있다. 이 경우, 전자 기기(100)는 클라우드 서버에 저장되어 있는 사용자 발음 사전을 수신하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
도 2a 및 도 2c는 본 발명의 일 실시 예에 따른 전자 기기의 세부 구성을 나타내는 블럭도이다.
도 2a를 참조하면, 전자 기기(100)는 음성 입력부(110), 저장부(120), 제어부(130), 통신부(140), 인터페이스부(150), 디스플레이부(160) 및 음성 출력부(170)를 포함할 수 있다. 도 2a에 도시된 구성 중 도 1에 도시된 구성과 중복되는 부분에 대해서는 자세한 설명은 생략하도록 한다.
프로세서(130)는 전자 기기(100')의 동작을 전반적으로 제어한다.
구체적으로, 프로세서(130)는 RAM(131), ROM(132), 메인 CPU(133), 음성 처리부(134), 제1 내지 n 인터페이스(135-1 ~ 135-n), 버스(136)를 포함한다.
RAM(131), ROM(132), 메인 CPU(133), 음성 처리부(134), 제1 내지 n 인터페이스(135-1 ~ 135-n) 등은 버스(136)를 통해 서로 연결될 수 있다.
제1 내지 n 인터페이스(135-1 내지 135-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
메인 CPU(133)는 저장부(120)에 액세스하여, 저장부(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 저장부(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
ROM(132)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(133)는 ROM(132)에 저장된 명령어에 따라 저장부(120)에 저장된 O/S를 RAM(131)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(133)는 저장부(120)에 저장된 각종 어플리케이션 프로그램을 RAM(131)에 복사하고, RAM(131)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
음성 처리부(134)는 수신된 사용자의 발화 음성을 수신된 사용자의 발화 음성을 처리할 수 있다. 예를 들어, 음성 처리부(134)는 사용자의 음성에서 노이즈를 제거할 수 있다. 구체적으로, 음성 처리부(134)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환할 수 있다. 그리고 음성 처리부(134)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단할 수 있다.
음성 처리부(134)는 디지털 신호의 에너지가 기설정된 값 이상인 경우, 디지털 신호에서 노이즈 성분을 제거하여 프로세서(130) 등에 전달할 수 있다. 예를 들어, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 한편, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 음성 처리부(134)는 디지털 신호에 별다른 처리 과정을 수행하지 않고, 다른 입력을 기다린다. 이에 의해, 사용자 발화 음성이 아닌 다른 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지할 수 있다.
한편, 상술한 프로세서(130)의 동작은 도 2c에 도시된 바와 같은 저장부(120)에 저장된 프로그램에 의해 이루어질 수 있다.
저장부(120)는 전자 기기(100')를 구동시키기 위한 O/S(Operating System) 소프트웨어 모듈, 각종 멀티미디어 컨텐츠와 같은 다양한 데이터를 저장한다.
특히, 저장부(120)는 도 2b에 도시된 바와 같이 본 발명의 일 실시 예에 따른 사용자 발음 사전을 업데이트 하는데 필요한 통신 모듈(121), 발음 분석 모듈(122), 업데이트 모듈(123) 및 음성 인식 모듈(124) 등의 프로그램이 저장되어 있을 수 있다.
프로세서(130)는 통신 모듈(121)을 이용하여 외부의 클라우드 서버로부터 전자 기기(100)의 사용자에 대응되는 사용자 발음 사전을 수신하거나, 클라우드 서버에 업데이트된 사용자 발음 사전을 전송할 수 있다.
또한, 프로세서(130)는 발음 분석 모듈(122)을 이용하여 수신된 발화 음성으로부터 사용자의 발음 패턴을 추출하고, 발음 패턴 규칙을 생성할 수 있다. 여기서, 발음 분석 모듈(122)은 도 2c에 도시된 바와 같이 garbage 모듈(122-1), anti 모듈(122-2), phonetic-class 모듈(122-3) 및 발음 패턴 추출 모듈(122-4) 등으로 구성될 수 있다. 구체적으로, 프로세서(130)는 발음 분석 모듈(122) 중 garbage 모듈(122-1), anti 모듈(122-2), phonetic-class 모듈(122-3)을 이용하여 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하고, 발음 패턴 추출 모듈(122-4)을 이용하여 산출된 신뢰도에 기초하여 발음 패턴을 추출할 수 있다. 여기서, garbage 모듈(122-1)은 사용자의 발화 음성에 따른 발음과 다른 발음을 제외시키는 방식으로 음소별 신뢰도를 산출하고, anti 모듈(122-2)은 사용자의 발화 음성에 따른 발음과 유사한 정도에 따라 다른 신뢰도를 부여하는 방식으로 음소별 신뢰도를 산출하며, phonetic-class 모듈(122-3)은 발음이 유사한 발음끼리 그룹화하고, 사용자의 발화 음성에 따른 발음이 어떤 그룹의 발음인지에 따라 신뢰도를 부여하는 방식으로 음소별 신뢰도를 산출하는 방식의 모듈이다.
예를 들어, 프로세서(130)는 사용자의 발화 음성이 수신되면, 발음 분석 모듈(122)을 구성하는 garbage 모듈(122-1), anti 모듈(122-2), phonetic-class 모듈(122-3) 중 어느 하나의 모듈에 따라 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하고, 발음 패턴 추출 모듈(122-4)을 이용하여 산출된 신뢰도에 기초하여 발음 패턴을 추출하고, 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트한다. 이 경우, 프로세서(130)는 통신 모듈(121)을 이용하여 사용자 발음 사전의 업데이트를 수행할 수 있다.
또한, 프로세서(130)는 업데이트 모듈(123)을 이용하여 사용자 발음 사전의 업데이트를 수행할 수 있다. 구체적으로, 발음 분석 모듈(122)에 의하여 발음 패턴 규칙이 생성되면, 업데이트 모듈(123)은 생성된 발음 패턴 규칙 및 사용자 발음 사전에 기저장된 발음열에 기초하여, 기설정된 횟수 이상 사용되지 않는 발음열은 삭제하고, 사용자 발음 사전에 저장되지 않은 발음열은 사용자 발음 사전에 기저장된 발음열을 수정하거나 사용자 발음 사전에 새로 추가하여 사용자 발음 사전을 업데이트 할 수 있다.
또한, 프로세서(130)는 음성 인식 모듈(124)을 이용하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(130)는 수신된 사용자의 발화 음성을 사용자 발음 사전에 기저장된 발음열과 비교하여 음소별 신뢰도를 추출하고, 음소별 신뢰도가 높은 음소로 구성된 발음열을 사용자의 발화 음성으로 인식할 수 있다.
통신부(140)는 클라우드 서버와 같은 외부 기기와 통신을 수행한다. 프로세서(130)에서 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트 하면, 업데이트 된 발음 사전을 클라우드 서버로 전송할 수 있다. 이를 위해, 통신부(140)는 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 모듈, WiFi, IEEE, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution), LTE-A(LTE Advanced) 등과 같은 다양한 무선 통신 모듈을 포함할 수 있다.
인터페이스부(150)는 다양한 사용자 입력을 수신한다. 특히, 인터페이스부(150)는 사용자를 식별하기 위한 식별 정보를 수신하거나 언어 종류를 수신하는 등 다양한 사용자 입력을 수신할 수 있다.
또한, 인터페이스부(150)는 전자 기기(100)의 구현 예에 따라 다양한 형태로 구현될 수 있다. 예를 들어, 인터페이스부(150)는 사용자 음성을 입력받는 마이크, 터치 디스플레이, 키보드 등으로 구현될 수 있으며, 이에 한정되는 것은 아니다.
본 발명의 다른 실시 예에 따른 전자 기기(100)는 대화형 음성 인식 기능을 제공하기 위한 출력부로, 디스플레이부(160) 또는 음성 출력부(170)를 포함할 수 있다.
디스플레이부(160)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 전자 기기(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(160)는 사용자의 음성에 대응되는 응답 메시지를 텍스트 또는 이미지로 디스플레이할 수 있다.
음성 출력부(170)는 잭 등과 같은 출력 포트 또는 스피커로 구현되어, 사용자 음성에 대응되는 응답 메시지를 음성으로 출력할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 사용자의 발음 패턴을 추출하고 발음 사전을 업데이트하는 구체적인 방법을 설명하기 위한 도면이다.
이하 도 3을 참조하여, 본 발명의 일 실시 예에 따른 전자 기기(100)의 발음 사전 업데이트 과정을 개략적으로 설명하기로 한다.
도 3을 참조하면, 저장부(120)에 저장된 사용자 발음 사전에는 개체명 리스트 및 각각의 개체명에 대응되는 발음열이 저장될 수 있다. 예를 들어, "한화 이글스"라는 개체명에 대응되는 발음열로는, "한화 이글스", "한화 이글쓰", "한와 이글스", "한와 이글쓰" 등이 저장될 수 있다.
일 예로, 사용자로부터 "한와 이글스"라는 발화 음성이 수신되면, 프로세서(130)는 사용자의 발화 음성에 포함된 음소별 발음을 발음 사전에 저장된 음소별 발음과 비교하여, 유사도에 따른 가중치를 부여한다. 구체적으로, 사용자로부터 수신된 발화 음성이 "한와 이글스"이므로, "하" "ㄴ" "와" "이" "그" "ㄹ" "스" 라는 음소가 포함될 수 있다. 이 경우, 수신된 발화 음성 중 "와" 에 해당하는 음소는 "와"에 유사하므로, "화"에는 0.2의 가중치가 부여되고, "와"에는 0.8의 가중치가 부여될 수 있다. 이에 따라 프로세서(130)는 사용자의 "한화 이글스"에 대한 발음 패턴이 "한와 이글스"인 것을 인식할 수 있으며, 발음 사전에 저장된 "한화"를 포함하는 음소열을 삭제할 수 있다. 결과적으로, 발음 사전에는 "한와"를 포함하는 음소열만 남게 되어, 프로세서(130)는 사용자가 "한와 이글스" 또는 "한와 이글쓰"로 발음하는 경우에도 "한화 이글스"를 좀 더 정확하게 인식할 수 있다.
또한, 프로세서(130)는 사용자가 "한화 이글스"를 "한와 이글스"로 발음하는 발음 패턴으로부터 "ㄴ" 이후에 연속된 "ㅎ"을 "ㅇ"으로 발음하는 발음 패턴을 추출하여, 다른 개체명에서 "ㄴ" 이후에 연속된 "ㅎ"을 "ㅇ"으로 변경하거나 "ㄴ" 이후에 연속된 "ㅎ"을 삭제하여 발음 사전을 업데이트할 수 있다. 예를 들어, "지구 온난화"의 발음열 중 "지구 온난화"를 삭제하고 "지구 온난와"를 추가할 수 있다. 한편, 상기 실시 예는 본 발명의 일 실시 예에 불과한바, 본 발명이 이러한 실시 예에 한정되는 것은 아니며, 다양한 개체명에 대한 음성 인식을 다양한 방법으로 수행할 수 있다.
프로세서(130)는 사용자 별 다른 발음 사전을 적용하여 음성 인식을 수행한다. 이 경우, 프로세서(130)는 인터페이스부(150)를 통하여 사용자로부터 입력된 식별 정보에 기초하여 사용자를 식별하거나 음성 입력부(110)에 의하여 수신된 사용자의 발화 음성을 이용하여 사용자를 식별할 수 있다. 프로세서(130)는 사용자가 식별되면, 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다. 또한, 발음 사전이 클라우드 서버에 저장되어 있는 경우, 프로세서(130)는 사용자가 식별되면, 식별된 사용자에 대응되는 사용자 발음 사전을 클라우드 서버로부터 수신하여 수신된 발음 사전을 이용하여 음성 인식을 수행할 수 있다.
도 4a, 도 4b, 도 5a 및 도 5b는 본 발명의 일 실시 예에 따른 사용자의 발음 패턴을 추출하는 방법을 설명하기 위한 도면이다.
도 4a를 참조하면, 예를 들어, 사용자가 자음 "ㄴ" 이후 연속되는 "ㅎ" 발음에 대해 "ㅇ"으로 발음하는 습관이 있는 경우, 프로세서(130)는 사용자가 "한화 이글스"에 대한 발음을 "한와 이글스" 또는 "한와 이글쓰"로 발음하는 발음 패턴을 추출할 수 있다. 이 경우, 프로세서(130)는 발음 사전에서 "한화 이글스"에 대한 음소열 중 "한화 이글스", "한화 이글쓰" 등 "한화"를 포함하는 음소열을 삭제할 수 있다. 따라서, 프로세서(130)는 사용자가 "한와 이글스" 또는 "한와 이글쓰"로 발음하는 경우에도 좀 더 정확하게 "한화 이글스"를 인식할 수 있게 된다. 또한, 불필요한 음소열을 삭제할 수 있게 되어, 저장 공간을 효율적으로 활용할 수 있는 효과도 있다.
또한, 도 5b를 참조하면, 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하여 사용자 발음 사전을 업데이트 할 수 있다. 예를 들어, 사용자가 "ㅎ" 발음 및 "ㅡ" 발음이 취약하여, "한화 이글스"를 "한와 이걸스"로 발음하는 경우, 프로세서(130)는 사용자가 "ㅎ"을 "ㅇ"으로 발음하고, "ㅡ"를 "ㅓ"로 발음하는 발음 패턴 규칙을 생성하여, 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트할 수 있다. 이에 따라, 사용자 발음 사전에 저장된 발음열 중 "ㅎ" 또는 "ㅡ"를 포함하는 발음열은 "ㅇ" 또는 "ㅓ"로 수정될 수 있다. 예를 들어, 사용자 발음 사전에 저장된 "새하얀 그림"에 대한 발음열은 "새아얀 거림"으로 수정되거나 "새아얀 거림"에 대한 발음열이 추가될 수 있다.
또한, 도 5a 및 도 5b에서와 같이, 사용자의 발화 음성이 영문인 경우에도, 동일하게 적용할 수 있다. 예를 들어, 사용자가 "th" 발음을 "s"로 발음하는 습관이 있는 경우, 프로세서(130)는 사용자가 "Game of Thrones"에 대한 발음을 "gae im ov srownx"로 발음하는 발음 패턴을 추출할 수 있다. 이 경우, 프로세서(130)는 발음 사전에서 "Game of Thrones"에 대한 음소열 중 "thrownx"를 포함하는 음소열을 삭제할 수 있다. 또한, 발음 사전에 "gae im ov srownx" 음소열이 저장되어 있지 않은 경우, "gae im ov srownx"을 "Game of Thrones"에 대한 음소열에 추가할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 우선 사용자로부터 발화 음성을 수신한다(S610).
이어서, 수신된 발화 음성으로부터 사용자의 발음 패턴을 추출한다(S620). 여기서, 발음 패턴은 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 음소별 신뢰도에 기초하여 추출될 수 있다.
이어서, 추출된 발음 패턴에 기초하여 발음 패턴 규칙을 생성하고(S630), 생성된 발음 패턴 규칙에 따라 발음 사전을 업데이트 한다(S640).
또한, 사용자의 발화 음성이 수신되면, 저장된 사용자 발음 사전에 기초하여 음성 인식을 수행할 수 있다.
도 7 및 도 8은 본 발명의 일 실시 예에 따른 음소별 신뢰도를 산출하는 구체적인 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 우선 사용자로부터 발화 음성을 수신한다(S710). 이어서, 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음을 비교한다(S720). 이 경우, 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음의 유사도에 따른 가중치를 부여할 수 있다. 이어서, 부여된 가중치에 따라 음소별 신뢰도를 산출한다(S730). 이 경우, 음소별 신뢰도는 음소별 발음이 유사할수록 높은 값을 가질 수 있다. 이어서, 산출된 음소별 신뢰도에 기초하여 발음 패턴을 추출한다(S740).
도 8을 참조하면, 우선 사용자로부터 발화 음성을 수신한다(S810). 이어서, 발화 음성에 포함된 음소의 타입별로 상이한 가중치를 부여한다(S820). 이 경우, 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음의 유사도를 고려하여 가중치를 부여할 수 있다. 이어서, 부여된 가중치에 따라 음소별 신뢰도를 산출한다(S830). 이어서, 산출된 음소별 신뢰도에 기초하여 발음 패턴을 추출한다(S840).
도 9는 본 발명의 일 실시 예에 따른 전자 기기의 음성 인식 수행 과정을 나타내는 흐름도이다.
도 9를 참조하면, 전자 기기는 사용자로부터 발화 음성이 수신되면(S910), 사용자 발음 사전에 기초하여 음성 인식을 수행한다(S920). 이후, 인식된 음성 인식 결과를 로그에 저장하고(S930), 사용자의 발음 패턴을 추출하고 추출된 발음 패턴을 분석한다(S940). 이 경우, 전자 기기는 사용자의 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 발음 패턴을 추출할 수 있다. 또한, 전자 기기는 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 음소별 신뢰도를 산출할 수 있다.
이어서, 전자 기기는 추출된 발음 패턴에 기초하여 발음 패턴 규칙을 생성하고(S950), 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트 한다(S960). 또한, 발음 사전에 저장된 음소별 발음과 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 음소별 신뢰도를 산출할 수 있고(S970), 산출된 신뢰도에 기초하여 발음 패턴을 추출할 수 있다. 전자 기기는 사용자의 발화 음성이 수신되면, 업데이트된 발음 사전에 기초하여 음성 인식을 수행할 수 있다(S980).
이상 설명한 바와 같이 본 발명의 다양한 실시 예에 따르면 사용자의 발음 패턴에 기초하여 업데이트된 발음 사전을 이용하여 음성 인식을 수행함으로써, 음성 인식률 향상 및 음성 인식 서비스의 품질을 개선할 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 기기에 대한 소프트웨어 업그레이드만으로도 구현될 수 있다.
또한, 본 발명에 따른 음성 인식 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
일 예로, 사용자의 발화 음성을 수신하는 단계, 수신된 발화 음성으로부터 사용자의 발음 패턴을 추출하는 단계 및 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 전자 기기 110: 음성 입력부
120: 저장부 130: 프로세서

Claims (18)

  1. 전자 기기에 있어서,
    사용자 발음 사전을 저장하는 저장부;
    사용자의 발화 음성을 수신하는 음성 입력부; 및
    상기 수신된 발화 음성으로부터 상기 사용자의 발음 패턴을 추출하고, 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 상기 사용자 발음 사전을 업데이트하는 프로세서;를 포함하는 전자 기기.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자의 발화 음성이 수신되면, 상기 저장부에 저장된 상기 사용자 발음 사전에 기초하여 음성 인식을 수행하는 것을 특징으로 하는 전자 기기.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 상기 발음 패턴을 추출하는 것을 특징으로 하는 전자 기기.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 발음 사전에 저장된 음소별 발음과 상기 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 상기 음소별 신뢰도를 산출하는 것을 특징으로 하는 전자 기기.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 발화 음성에 포함된 음소의 타입별로 상기 유사도에 따른 상이한 가중치를 부여하고, 상기 부여된 가중치에 기초하여 상기 음소별 신뢰도를 산출하는 것을 특징으로 하는 전자 기기.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 생성된 발음 패턴 규칙에 기초하여 기설정된 단어에 대한 변이 규칙을 생성하고, 상기 생성된 변이 규칙에 기초하여 상기 사용자 발음 사전을 업데이트하는 것을 특징으로 하는 전자 기기.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 발음 사전에 저장된 발음열 중 상기 사용자가 기설정된 횟수 이상 사용하지 않는 발음열은 삭제하고, 상기 발음 패턴 규칙에 기초하여 생성된 발음열 중 상기 사용자 발음 사전에 저장되어 있지 않은 발음열을 상기 발음 사전에 추가하는 것을 특징으로 하는 전자 기기.
  8. 제1항에 있어서,
    클라우드 서버와 통신을 수행하는 통신부;를 더 포함하고,
    상기 프로세서는,
    상기 생성된 발음 패턴 규칙에 따라 업데이트된 사용자 발음 사전을 상기 클라우드 서버에 전송하는 것을 특징으로 하는 전자 기기.
  9. 제8항에 있어서,
    상기 프로세서는,
    상기 사용자로부터 입력된 식별 정보 및 상기 수신된 사용자의 발화 음성 중 적어도 하나에 기초하여 상기 사용자를 식별하고, 상기 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행하는 것을 특징으로 하는 전자 기기.
  10. 전자 기기의 음성 인식 방법에 있어서,
    사용자의 발화 음성을 수신하는 단계;
    상기 수신된 발화 음성으로부터 상기 사용자의 발음 패턴을 추출하는 단계; 및
    상기 추출된 발음 패턴에 기초하여 생성된 발음 패턴 규칙에 따라 사용자 발음 사전을 업데이트하는 단계;를 포함하는 음성 인식 방법.
  11. 제10항에 있어서,
    상기 사용자의 발화 음성이 수신되면, 상기 사용자 발음 사전에 기초하여 음성 인식을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  12. 제10항에 있어서,
    상기 추출하는 단계는,
    상기 발화 음성에 포함된 음소별 신뢰도를 산출하고, 산출된 신뢰도에 기초하여 상기 발음 패턴을 추출하는 것을 특징으로 하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 추출하는 단계는,
    상기 발음 사전에 저장된 음소별 발음과 상기 사용자의 발화 음성에 포함된 음소별 발음을 비교하여, 유사도에 따른 가중치를 부여하여 상기 음소별 신뢰도를 산출하는 것을 특징으로 하는 음성 인식 방법.
  14. 제13항에 있어서,
    상기 추출하는 단계는,
    상기 발화 음성에 포함된 음소의 타입별로 상기 유사도에 따른 상이한 가중치를 부여하고, 상기 부여된 가중치에 기초하여 상기 음소별 신뢰도를 산출하는 것을 특징으로 하는 음성 인식 방법.
  15. 제10항에 있어서,
    상기 업데이트하는 단계는,
    상기 생성된 발음 패턴 규칙에 기초하여 기설정된 단어에 대한 변이 규칙을 생성하고, 상기 생성된 변이 규칙에 기초하여 상기 사용자 발음 사전을 업데이트하는 것을 특징으로 하는 음성 인식 방법.
  16. 제10항에 있어서,
    상기 업데이트하는 단계는,
    상기 사용자 발음 사전에 저장된 발음열 중 상기 사용자가 기설정된 횟수 이상 사용하지 않는 발음열은 삭제하고, 상기 발음 패턴 규칙에 기초하여 생성된 발음열 중 상기 사용자 발음 사전에 저장되어 있지 않은 발음열을 상기 발음 사전에 추가하는 것을 특징으로 하는 음성 인식 방법.
  17. 제10항에 있어서,
    상기 생성된 발음 패턴 규칙에 따라 업데이트된 상기 사용자 발음 사전을 클라우드 서버에 전송하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  18. 제17항에 있어서,
    상기 사용자로부터 입력된 식별 정보 및 상기 수신된 사용자의 발화 음성 중 적어도 하나에 기초하여 상기 사용자를 식별하고, 상기 식별된 사용자에 대응되는 사용자 발음 사전에 기초하여 음성 인식을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
KR1020150134465A 2015-09-23 2015-09-23 전자 기기 및 그의 음성 인식 방법 KR102443087B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150134465A KR102443087B1 (ko) 2015-09-23 2015-09-23 전자 기기 및 그의 음성 인식 방법
US15/227,447 US10134390B2 (en) 2015-09-23 2016-08-03 Electronic device and voice recognition method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150134465A KR102443087B1 (ko) 2015-09-23 2015-09-23 전자 기기 및 그의 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20170035529A true KR20170035529A (ko) 2017-03-31
KR102443087B1 KR102443087B1 (ko) 2022-09-14

Family

ID=58282937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150134465A KR102443087B1 (ko) 2015-09-23 2015-09-23 전자 기기 및 그의 음성 인식 방법

Country Status (2)

Country Link
US (1) US10134390B2 (ko)
KR (1) KR102443087B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103518A1 (ko) * 2017-11-24 2019-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20190064384A (ko) * 2017-11-30 2019-06-10 주식회사 인텔로이드 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법
KR20190134366A (ko) * 2018-05-25 2019-12-04 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
US10449440B2 (en) 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
JP6869835B2 (ja) * 2017-07-06 2021-05-12 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、端末装置、及び辞書管理方法
US10621317B1 (en) 2017-09-14 2020-04-14 Electronic Arts Inc. Audio-based device authentication system
US10629192B1 (en) * 2018-01-09 2020-04-21 Electronic Arts Inc. Intelligent personalized speech recognition
CN110491382B (zh) * 2019-03-11 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
US10926173B2 (en) 2019-06-10 2021-02-23 Electronic Arts Inc. Custom voice control of video game character
US11217245B2 (en) * 2019-08-29 2022-01-04 Sony Interactive Entertainment Inc. Customizable keyword spotting system with keyword adaptation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
US20150120297A1 (en) * 2013-10-24 2015-04-30 Honeywell International Inc. Voice-responsive building management system

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434521B1 (en) 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
FI114051B (fi) 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
US7280963B1 (en) 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
KR100573870B1 (ko) 2003-10-15 2006-04-26 한국전자통신연구원 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
US8214213B1 (en) 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
JP2010197644A (ja) 2009-02-25 2010-09-09 Gifu Univ 音声認識システム
JP5493537B2 (ja) 2009-07-24 2014-05-14 富士通株式会社 音声認識装置、音声認識方法及びそのプログラム
JP2011232668A (ja) 2010-04-30 2011-11-17 Clarion Co Ltd 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP2015038525A (ja) 2011-03-31 2015-02-26 株式会社東芝 音声認識装置及び音声認識方法
US9336769B2 (en) 2011-07-01 2016-05-10 Nec Corporation Relative semantic confidence measure for error detection in ASR
KR101333194B1 (ko) 2011-07-21 2013-11-26 한국전자통신연구원 통계 기반의 다중 발음 사전 생성 장치 및 방법
KR20140051519A (ko) 2012-10-23 2014-05-02 한국전자통신연구원 연속어 음성인식 방법 및 연속어 음성인식 장치
KR20140057018A (ko) 2012-11-02 2014-05-12 현대모비스 주식회사 스마트 피드백 음성인식 시스템
KR20140082157A (ko) 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
JP6236805B2 (ja) 2013-03-05 2017-11-29 日本電気株式会社 発話コマンド認識システム
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
US9489943B2 (en) 2013-10-16 2016-11-08 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
JP2015087544A (ja) 2013-10-30 2015-05-07 株式会社コト 音声認識装置及び音声認識プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
US20150120297A1 (en) * 2013-10-24 2015-04-30 Honeywell International Inc. Voice-responsive building management system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103518A1 (ko) * 2017-11-24 2019-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20190060157A (ko) * 2017-11-24 2019-06-03 삼성전자주식회사 전자 장치 및 그 제어 방법
US11455990B2 (en) 2017-11-24 2022-09-27 Samsung Electronics Co., Ltd. Electronic device and control method therefor
KR20190064384A (ko) * 2017-11-30 2019-06-10 주식회사 인텔로이드 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법
KR20190134366A (ko) * 2018-05-25 2019-12-04 삼성전자주식회사 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체

Also Published As

Publication number Publication date
US20170084267A1 (en) 2017-03-23
US10134390B2 (en) 2018-11-20
KR102443087B1 (ko) 2022-09-14

Similar Documents

Publication Publication Date Title
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
US11978432B2 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
US10629192B1 (en) Intelligent personalized speech recognition
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
US20200143799A1 (en) Methods and apparatus for speech recognition using a garbage model
WO2014183373A1 (en) Systems and methods for voice identification
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
KR102598057B1 (ko) 음소기반 화자모델 적응 방법 및 장치
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
US11893813B2 (en) Electronic device and control method therefor
US10714087B2 (en) Speech control for complex commands
JP5396530B2 (ja) 音声認識装置および音声認識方法
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
KR20200140171A (ko) 전자 장치 및 이의 제어 방법
US20150206539A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
JP6572969B2 (ja) 音声認識装置、音声認識システム、及び、プログラム
JP6172491B2 (ja) テキスト整形プログラム、方法及び装置
JP2007206523A (ja) 音声認識装置及び音声認識プログラム
JP2009128723A (ja) 音声認識装置及びその制御方法、プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant