KR100998567B1 - 음성인식 방법 및 그 장치 - Google Patents

음성인식 방법 및 그 장치 Download PDF

Info

Publication number
KR100998567B1
KR100998567B1 KR1020080080573A KR20080080573A KR100998567B1 KR 100998567 B1 KR100998567 B1 KR 100998567B1 KR 1020080080573 A KR1020080080573 A KR 1020080080573A KR 20080080573 A KR20080080573 A KR 20080080573A KR 100998567 B1 KR100998567 B1 KR 100998567B1
Authority
KR
South Korea
Prior art keywords
recognition
voice
user
pronunciation information
pronunciation
Prior art date
Application number
KR1020080080573A
Other languages
English (en)
Other versions
KR20100021910A (ko
Inventor
신원호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020080080573A priority Critical patent/KR100998567B1/ko
Publication of KR20100021910A publication Critical patent/KR20100021910A/ko
Application granted granted Critical
Publication of KR100998567B1 publication Critical patent/KR100998567B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

본 발명에 의하면 음성인식 성공률을 향상시킬 수 있는 음성인식방법 및 그 장치가 제공된다. 상기 음성인식 방법은 전자 기기에서 음성인식을 수행하는 방법에 있어서, 적어도 하나의 인식대상에 대해 표준 발음정보를 각각 매칭한 인식사전에서 제1 인식대상을 선택하고, 상기 제1 인식대상에 대하여 사용자의 음성을 입력받고, 음향모델을 이용하여 상기 입력된 음성에 대한 사용자 발음정보를 획득하고, 그리고상기 인식사전에, 상기 제1 인식대상과 상기 획득된 상기 사용자 발음정보를 매칭하는 것을 포함한다.
음성인식, 인식사전

Description

음성인식 방법 및 그 장치{METHOD FOR SPEECH RECOGNITION AND APPARATUS THEREOF}
본 발명은 음성인식 방법 및 그 장치에 관한 것으로, 구체적으로는 인식대상에 대한 사용자의 고유한 발음을 인식사전에 추가함으로써 음성인식 성공률을 높일 수 있는 음성인식 방법 및 그 장치에 관한 것이다.
최근, 좀 더 편리한 사용자 인터페이스 제공에 대한 요구가 증가하면서, 각종 전자기기 등에 음성인식방법이 적용되는 사례가 증가하는 추세이다.
음성인식방법이란, 인간의 가장 자연스러운 의사소통 수단 중의 하나인 '말'을 이용하여 기계와 인간간의 상호소통을 가능하도록 하는 기술을 의미하는 것으로, 입력되는 음성을 텍스트로 변환하는 기술 또는, 입력되는 음성에 대응되는 인식대상을 판단해내는 방법 등이 그에 속한다.
이러한 음성인식방법에 있어서, 다양한 측면에서 음성인식기술의 상용화에 선행되는 문제점들이 있으며, 이에 따라 인식성공률을 향상시키기 위한 연구가 진행 중이다. 특히, 사용자마다 음성에 있어서의 고유한 특성을 가지고 있거나, 또는 사용자가 표준발음과는 다른 사용자 고유의 발음을 사용하여 발성을 하게 되는 경 우의 음성인식 성공률을 향상시키는 것에 대한 연구가 진행되고 있다.
본 발명이 이루고자 하는 기술적 과제는 인식대상에 대한 표준발음 외에 방언과 같은 고유의 발음을 사용하는 사용자의 음성에 대한 인식률을 향상시키기 위한 음성인식 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 방언과 같은 고유의 발음을 사용하는 사용자의 음성에 대한 인식률을 향상시키기에 적합한 음성인식 장치를 제공하는 데 있다.
상술한 본 발명의 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 의하면, 전자 기기에서 음성인식을 수행하는 방법에 있어서, 적어도 하나의 인식대상에 대해 표준 발음정보를 각각 매칭한 인식사전에서 제1 인식대상을 선택하고, 상기 제1 인식대상에 대하여 사용자의 음성을 입력받고, 음향모델을 이용하여 상기 입력된 음성에 대한 사용자 발음정보를 획득하고, 그리고 상기 인식사전에, 상기 제1 인식대상과 상기 획득된 상기 사용자 발음정보를 매칭하는 것을 포함하는 음성인식방법이 제공된다.
본 발명의 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 의하면, 전자 기기에서 음성인식을 수행하는 방법에 있어서, 인식대상에 대한 음성인식이 실패할 때마다, 상기 인식대상에 대해 입력된 사용자의 음성에 대한 사용자 발음정보들을 저장하고, 그리고 상기 저장된 사용자 발음정보들 중 빈도가 가장 높은 사 용자 발음정보를 상기 인식대상에 대해 매칭하는 것을 포함하는 음성인식 방법이 제공된다.
또한, 상술한 본 발명의 다른 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 의하면, 사용자로부터 입력받은 음성으로부터 음성특징정보를 추출하는 음성신호 검출부, 소정의 언어단위들과 음성특징정보들이 각각 매칭되어 저장된 음향모델, 적어도 하나의 인식대상에 대한 표준 발음정보들이 매칭되어 있는 인식사전, 상기 음향모델 및 상기 음성신호 검출부에 의해 추출된 음성특징정보를 이용해 상기 입력받은 음성에 대한 사용자 발음정보를 획득하는 발음정보 추출부, 및 상기 음성신호 검출부, 상기 음향모델, 상기 인식사전 및 상기 발음정보 추출부의 동작을 제어하며, 상기 추출된 발음정보를 인식사전에 매칭하는 제어부를 포함하는 음성인식장치가 제공된다.
상술한 바와 같이 본 발명에 의하면, 방언을 사용하거나 외래어를 발음하는 것과 같이, 표준화된 발음 외에 사용자 고유의 발음을 사용하는 경우에 사용자의 발음에 대한 발음정보를 인식사전에 추가하는 방법을 사용함으로써 음성인식 성공률을 향상시킬 수 있는 음성인식 방법 및 음성인식장치를 제공하게 된다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명하기로 한다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시 예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 도면들에 있어서, 층 및 영역들의 두께는 명확성을 기하기 위하여 과장된 것일 수 있다. 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소들을 의미한다.
먼저, 본 발명에 의한 음성인식 장치에 대해서 설명하기로 한다.
도 1은 본 발명의 일 실시예에 의한 음성인식 장치를 대략적으로 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 의한 음성인식 장치는 음성입력부(10), 음성신호 검출부(20), 음향모델(30), 인식사전(40), 검색부(50), 발음정보 추출부(60), 제어부(70) 및 발음열생성기(80)를 포함할 수 있다.
상기 음성입력부(10)는 사용자의 음성을 입력받는 기능을 수행하는 것으로 예를 들어, 마이크와 같은 구성요소일 수 있다. 상기 음성신호 검출부(20)는 상기 음성입력부(10)를 통하여 입력된 음성으로부터 음성특징정보들을 추출해내는 기능을 수행하는 것이다.
상기 음향모델(30)은 언어단위들과 상기 언어단위들의 음성특징정보들이 매칭되어 저장되어 있는 것이다. 상기 언어단위들은 발음단위들일 수 있으며, 상기 발음단위들은 음소단위 또는 음운단위일 수 있다. 예를 들어, 상기 음향모델(30)에는 각 음소들 및 각 음소들에 대한 음성특징정보들이 상호매칭되어 저장될 수 있다.
상기 인식사전(40)에는 적어도 하나의 인식대상과 상기 적어도 하나의 인식 대상에 대한 표준 발음정보들이 각각 매칭되어 저장된다. 상기 복수개의 인식대상들은 본 발명에 의한 음성인식방법 또는 장치가 적용된 장치에 대한 명령어 등과 같은 것으로 예를 들어, 사람이름, 명령어, 숫자, 단어 또는 문장 등일 수 있다. 사용자의 요청에 의해 상기 인식사전(40)에 저장되어 있지 않은 다른 인식대상을 상기 인식사전(40)에 등록할 수도 있다.
상기 발음정보들은 상기 인식대상들에 대한 발음열 정보일 수 있다. 발음열이라 함은 인식대상이 실제로 발음될 때의 음소들을 나열한 것을 말하는 것으로, 예를 들어, "국민학교"에 대한 표준화된 실제 발음은 "궁민하꾜"이며, 이에 대한 발음열은 [ㄱ,ㅜ,ㅇ,ㅁ,ㅣ,ㄴ,ㅎ,ㅏ,ㄲ,ㅛ]가 된다. 또는, 영어 표현의 예로써, "Ronald"에 대한 표준화된 실제 발음은 '로널드[R AA N AH L D]'가 된다([R AA N AH L D]는 CMU 발음 사전 기호를 기준으로 표기한 것임). 이하에서는, 편의상 발음열을 표시하는 방법으로 상기한 "궁민하꾜"와 같은 표기 방식 및 [ㄱ,ㅜ,ㅇ,ㅁ,ㅣ,ㄴ,ㅎ,ㅏ,ㄲ,ㅛ]와 같은 표기방식을 혼용하기로 한다.
상기 발음열은 상기 발음열생성기(80)에 의해 생성될 수 있다. 상기 발음열생성기(80)는 음소변동규칙이나 변이음규칙 등과 같은 발음규칙에 대한 정보를 바탕으로 인식대상에 대한 표준적인 발음열을 생성해낼 수 있게 된다.
상기 검색부(50)는 입력된 발음의 음성특징정보를 상기 음향모델(30) 및 상기 인식사전(40)을 토대로 생성되는 적어도 하나의 인식대상에 대한 음성특징정보들과 비교하여 사용자가 어떤 인식대상을 발음한 것인지 판단하는 기능을 수행하게 된다.
상기 발음정보 추출부(60)는 상기 음성신호 검출부(20)에 의해 검출된 음성특징정보를 상기 음향모델에 저장되어 있는 음소와 같은 발음단위들에 대한 음성특징정보들과 비교하여, 사용자로부터 입력받은 음성의 발음열과 같은 발음정보를 추출해낼 수 있다. 상기 발음정보 추출부(60)에 의해 추출된 발음정보는 상기 인식사전(40)에 저장될 수 있다.
상기 음성입력부(10), 상기 음성신호 검출부(20), 상기 음향모델(30), 상기 인식사전(40), 상기 검색부(50) 및 상기 발음정보 추출부(60)의 동작은 상기 제어부(70)에 의해 제어될 수 있다.
또한, 상기 제어부(70)는 음성인식의 성공여부를 판단할 수 있다. 예를 들어, 본 발명에 의한 음성인식 장치 또는 방법이 휴대폰과 같은 모바일 통신기기에 적용되어 사용되는 경우, 사용자가 A에게 음성다이얼링을 사용하기 위하여 음성인식 기능을 수행한 후, 음성인식이 실패하여 모바일 통신기기가 B에게 다이얼링을 한 경우, 사용자로부터 피드백을 받아 음성인식이 실패하였음을 판단하게 될 수 있다.
또는, 상기와 같은 상황에서 사용자가 B로의 다이얼링을 취소하고 미리 정해진 소정의 시간 내에 키패드입력을 통해 A에게 다이얼링을 재시도하는 경우, 상기 제어부(70)는 음성인식에 실패하였음을 판단할 수 있다.
상술한 바와 같은 음성인식의 성공여부 판단을 통해 상기 제어부(70)는 특정 인식대상에 대한 음성인식 성공률을 산출해낼 수 있다. 또한, 특정 인식대상에 대한 음성인식이 실패한 경우, 상기 제어부(70)는 실패한 때에 입력된 사용자의 음성 또는 상기 입력된 음성에 대한 발음정보를 상기 제어부(70) 내부의 메모리(도면 미도시) 또는 외부의 메모리(도면 미도시)에 저장할 수 있다. 또는, 상기 실패한 때에 입력된 사용자의 음성 또는 상기 입력된 음성에 대한 발음정보는 상기 인식사전(40)에 매칭되어 저장될 수도 있다.
이하에서는, 본 발명에 의한 음성인식 방법에 대해서 설명하기로 한다. 설명의 편의를 위하여, 본 발명에 의한 음성인식장치 또는 방법이 모바일 통신기기에 적용된 경우를 상정하여 설명하는 경우가 있을 수 있다. 하지만, 본 발명에 의한 음성인식방법 및 장치는 모바일 통신기기에만 한정되어 사용되는 것은 아니며, PDA(Persnal Digital Assistant), 네이게이션 장치, PC 등과 같이 음성인식에 의한 인터페이스의 적용이 가능한 모든 장치에 적용될 수 있다.
본 발명에 의한 음성인식방법 또는 장치가 채택된 모바일 통신기기는 사용자의 음성을 입력받을 수 있다. 상기 입력된 음성의 분석에 의하여 그에 대한 음성특징정보가 추출될 수 있다. 상기 추출된 음성특징정보를 토대로 인식사전에 저장되어 있는 적어도 하나의 인식대상 중 어느 인식대상에 대한 음성인지를 판단하게 된다. 이어서, 상기 모바일 통신기기는 상기 인식대상에 해당하는 후속단계를 수행하게 된다. 예를 들어, 상기 인식대상이 전화번호부에 저장되어 있는 것이라면, 상기 전화번호에 상기 인식대상에 대응되어 저장되어 있는 전화번호로 자동 다이얼링을 하게 될 수 있다.
그러나, 상기 음성인식을 수행하기 위해서는 인식사전에 적어도 하나의 인식대상들과 매칭되어 저장되어 있는 발음정보에 맞게 정확하게 발음하지 않으면 음성 인식에 실패하게 될 수 있다. 특히, 사용자가 방언을 사용하거나, 인식대상이 외래어인 경우에 있어서는 더욱 음성인식의 성공률이 저하될 수 있다.
본 발명은 이러한 경우에 간단한 사용자의 음성을 등록함으로써 사용자 고유의 발음에 대한 음성인식 성공률을 향상시키는 방법을 제공한다.
도 2,3 및 도 5는 본 발명의 일 실시예에 의한 음성인식 성공률을 향상시키기 위한 방법을 설명하기 위한 흐름도들이다. 도 4 및 6은 본 발명의 일 실시예에 의한 음성인식방법이 적용된 모바일 통신장치에서 본 발명에 의한 사용자 음성등록방법이 구현되는 것을 나타낸 도면들이다.
도 2 내지 도 6을 참조하면, 사용자의 음성을 등록할 대상인 제1 인식대상이 선택된다(S100). 음성인식장치는 음성입력부(10)를 통하여 제1 인식대상에 대한 사용자의 음성을 입력받을 수 있다(S110). 상기 모바일 통신기기는 사용자의 음성을 입력받기 위한 인터페이스를 사용자에게 제공할 수 있다(D130, D210). 상기 제1 인식대상은 상기 인식사전(40)에 저장되어 있는 것으로써, 사용자 또는 음성인식장치에 의해서, 그에 대한 음성인식 성공률이 낮다고 판단되는 것이다. 이하에서는, 설명의 편의를 위하여 상기 제1 인식대상은 "국민학교"라는 단어인 것으로 상정하기로 한다. 즉, 사용자 또는 본 발명에 의한 음성인식방법 또는 장치가 적용된 모바일 통신기기에 의해서 "국민학교"에 대한 음성인식 성공률이 낮다고 판단되는 경우를 상정하여 설명하기로 한다.
상기 사용자의 음성이 입력되면, 상기 음성신호 검출부(20)를 통하여 상기 사용자의 음성에 대한 음성특징정보가 추출된다(S120). 상기 사용자의 음성에 대한 상기 음성특징정보는 상기 발음정보 추출부(60)에 의해 상기 음향모델(30)에 저장되어 있는 음소와 같은 발음단위에 대한 음성특징정보들과 비교될 수 있다. 이에 의해, 상기 발음정보 추출부(60)는 상기 사용자의 음성이 어떠한 발음단위들로 구성되어 있는지에 대한 발음정보를 획득할 수 있게 된다(S130). 예컨대, 상기 발음정보 추출부(60)는 상기 입력된 사용자 음성의 발음열을 획득할 수 있게 된다.
예를 들어, 상기 사용자로부터 입력된 음성의 분석을 통하여, 그에 대한 음성특징정보가 순차적으로 "A, B, C, D, E, F, G, H, I, J"로 이루어져 있는 것을 가정한다. 또한, 상기 음향모델(30)에 음소단위 및 그 음소단위들에 대한 음성특징정보들이 매칭되어 저장되어 있다고 가정한다. 이 때, 상기 음향모델(30)에 저장되어있는 음성특징정보들 중 A특징은 음소 "ㄱ"에, B특징은 음소"ㅜ"에, C특징은 음소"ㅇ"에, D특징은 음소"ㅁ"에, E특징은 음소"ㅣ"에, F특징은 "ㄴ"에, G특징은 음소"ㅎ"에, H특징은 음소"ㅐ"에, I특징은 음소"ㄲ"에, 그리고 J특징은 음소"ㅛ"에 해당하는 경우, 상기 발음정보 추출부(60)는 상기 사용자의 음성이 [ㄱ,ㅜ,ㅇ,ㅁ,ㅣ,ㄴ,ㅎ,ㅐ,ㄲ,ㅛ], 즉 "궁민해꾜"의 발음열로 이루어져 있음을 판단해내게 되는 것이다.
상기 획득된 발음열과 같은 발음정보는 상기 "국민학교"라는 인식대상에 대응되는 발음정보로써, 상기 인식사전(40)에 추가적으로 등록되게 된다(S140). 이와 함께, 상기 모바일 통신장치는 사용자 음성이 정상적으로 등록되었음을 사용자에게 알려줄 수 있다(D130, D220).
이로써, 상기 인식사전(40)에는 "국민학교"라는 하나의 인식대상에 상기 발 음열생성기(80)에 의해서 생성된 [ㄱ,ㅜ,ㅇ,ㅁ,ㅣ,ㄴ,ㅎ,ㅏ,ㄲ,ㅛ]라는 발음정보가 매칭되어 저장되어 있을 뿐만 아니라, "국민학교"에 대한 상기 사용자의 고유한 발음정보인 [ㄱ,ㅜ,ㅇ,ㅁ,ㅣ,ㄴ,ㅎ,ㅐ,ㄲ,ㅛ]도 함께 매칭되어 저장되게 되는 것이다. 이 때, 상기 사용자의 발음정보는 상기 제1 인식대상에 매칭되어 있는 기존의 발음정보에 더하여 추가적으로 매칭시킬 수 있으며, 또는 기존의 발음정보를 대체하여 매칭될 수 있다.
따라서, 이러한 사용자 발음을 인식사전(40)에 추가하여 등록한 후에는, "궁민하꾜"라고 표준적인 발음을 사용할 때뿐만이 아니라, 사용자가 "국민학교"의 방언에 해당하는 "궁민해꾜"라고 발음하여도, "국민학교"라는 인식대상에 대한 발음을 한 것으로 인식할 수 있게 된다.
앞에서는 "국민학교"와 같은 한국어에 대하여 설명하였으나, 본 발명은 한국어에 대해서만 적용되는 것은 아니며, 한글 이외의 다른 언어, 예를 들어, 영어 또는 알파벳을 쓰는 다른 언어들에 대해서도 적용할 수 있다. 예를 들어, "Ronald"에 대하여, 사용자가 표준화된 발음인 '로널드[R AA N AH L D]'라고 발음하는 대신에, '호나우드[HH AO N AA UH D]'라고 발음하는 경우에도 앞서 설명한 것과 동일하게 사용자의 고유 발음을 상기 인식사전(40)에 추가하여 등록할 수 있다.
도 3 및 도 4를 참조하여, 사용자에 의해 사용자음성을 등록할 제1 인식대상이 선택되는 방법에 대해 설명한다.
상기 제1 인식대상에 대한 사용자의 음성을 입력받기(S110) 전에, 상기 모바일 통신기기와 같은 전자기기는 사용자로부터 사용자의 음성등록을 할 것을 요청받 을 수 있다(S10). 예를 들어, 도 4에 도시된 바와 같이 사용자는 상기 모바일 통신장치에서 사용자 음성등록을 메뉴에서 선택할 수 있다(D100).
이에 따라, 상기 모바일 통신기기와 같은 전자기기는 사용자가 음성등록을 행할 상기 제1 인식대상을 선택할 수 있는 인터페이스를 제공할 수 있다(S12). 예를 들어, 상기 모바일 통신장치는 상기 인식사전(40)에 저장되어 있는 적어도 하나의 인식대상 리스트를 사용자에게 디스플레이할 수 있다(D110).
상기 인터페이스를 통하여 사용자로부터 사용자음성을 등록할 제1 인식대상을 선택받게 되면, 상기 제1 인식대상에 대한 사용자의 음성을 입력받을 수 있다(S110, D120).
즉, 사용자는 상기 제1 인식대상에 대한 음성인식 성공률이 낮다고 판단되는 경우, 상기 제1 인식대상에 대한 사용자의 음성을 등록할 것을 요청하고, 그에 대한 사용자의 발음을 발성할 수 있다.
도 5 및 도 6을 참조하여, 본 발명에 의한 음성인식장치 또는 방법이 적용된 전자 기기에 의하여 사용자 음성을 등록할 제1 인식대상이 선택되는 방법을 설명한다.
상기 제어부(70)는 상기 인식사전(40)에 저장되어 있는 적어도 하나의 인식대상에 대한 각각의 인식성공률을 산출할 수 있으며, 상기 적어도 하나의 인식대상들 중 인식성공률이 기준값보다 낮은 제1 인식대상을 검색해낼 수 있다(S20). 이 경우, 사용자에게 상기 제1 인식대상에 대한 사용자음성등록을 수행할 지 여부에 대해 선택받을 수 있다(S22, D200). 이어서, 상기 제1 인식대상에 대한 사용자의 음성을 입력받을 수 있다(S110, D210).
즉, 본 발명에 의한 음성인식장치는 스스로 상기 제1 인식대상에 대한 음성인식 성공률이 낮다고 판단하면, 그에 대한 사용자의 발음을 사용자가 발성할 것을 요청할 수 있는 것이다.
도 7은 본 발명의 다른 실시예에 의한 음성인식 성공률을 향상시키기 위한 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 인식사전(40)에 저장되어 있는 적어도 하나의 인식대상 각각에 대해 음성인식의 성공여부를 판단할 수 있다(S200). 이는 사용자가 음성인식을 사용하는 동안 사용자로부터의 별도의 요청없이 수행되는 것일 수 있다. 상기 음성인식의 성공여부를 판단하는 것은 상기 제어부(70)에 의해 수행될 수 있으며, 그 판단결과는 상기 제어부(70) 내의 메모리(도면 미도시), 또는 상기 제어부(70) 외부의 메모리(도면 미도시)에 저장될 수 있다. 상기 메모리는 비휘발성 메모리일 수 있다.
상기 음성인식 성공여부를 판단한 결과, 음성인식이 실패한 경우, 음성인식이 실패한 때에 입력된 사용자의 음성에 대한 발음정보를 획득하고, 상기 획득된 발음정보를 그 인식대상과 매칭하여 저장할 수 있다(S210). 상기 제어부(70)는 동일한 인식대상에 대하여 음성인식이 실패한 횟수를 산출하여 저장할 수 있다(S220).
음성인식 성공여부를 판단하는 것(S200)은, 예를 들어, 본 발명에 의한 음성인식 장치 또는 방법이 휴대폰과 같은 모바일 통신기기에 적용되어 사용되는 경우, 사용자가 A에게 음성다이얼링을 사용하기 위하여 음성인식 기능을 수행한 후, 음성인식의 실패에 의하여 모바일 통신기기가 A가 아닌 B에게 다이얼링을 하는 경우, 상기 모바일 통신기기는 사용자로부터 피드백을 받아 음성인식이 실패하였음을 판단하게 될 수 있다. 상기와 같은 판단은 상기 제어부(40)에 의해 수행될 수 있다. 상기 피드백의 결과 원래 사용자가 의도했던 인식대상이 A였음을 입력받을 수 있다.
또는, 상기와 같은 상황에서 사용자가 B로의 다이얼링을 취소하고 소정의 시간 내에 상기 모바일 통신장치에 의해 제공되는 키패드입력 등을 통해 A에게 다이얼링을 시도하는 경우, 상기 제어부(70)는 음성인식에 실패하였음을 판단할 수 있다. 이 때, 상기 제어부(70)는 사용자가 의도했던 인식대상이 A였음을 사용자로부터의 피드백없이 판단해낼 수도 있다.
한편, 상기 오인식 시마다 입력/저장된 사용자음성에 대한 발음정보들은 다수개일 수 있다. 사용자가 음성인식에 대하여 실패할 때, 항상 동일한 발음하지 않는 경우가 생길 수 있기 때문이다. 예를 들어, "국민학교"라는 인식대상에 대하여, 사용자가 "궁민해꾜"라고 발음할 수도 있고, 또는 때에 따라서, "쿵민하꾜", "궁민해쿄"라고 발음할 수도 있다. 상기 제어부(70)는 상기 발음정보별 입력회수도 산출할 수 있으며, 이를 저장할 수 있다(S230).
이 때, 상기 오인식 시에 입력된 발음정보들 중 빈도가 가장 높은 발음정보의 입력회수를 기준값과 비교할 수 있다(S240). 만약, 상기 비교결과, 상기 입력회수가 기준값보다 큰 경우에, 상기 제어부(70)는 상기 인식대상에 대해 추가적으로 매칭하여 상기 인식사전(40)에 저장할 수 있다(S250).
다시 말해, 음성인식의 성공여부를 판단하고(S200), 음성인식이 실패된 경우의 발음정보를 저장하는 것을 반복하면서, 상기 제어부(70)는 제1 인식대상에 대한 오인식 시에 입력된 사용자음성들 중에서, 동일한 발음정보를 가지는 사용자의 음성이 입력된 경우의 횟수를 산출할 수 있다(S220). 예를 들어, 상기 제어부(70)는 "국민학교"라는 인식대상에 대하여 음성인식이 실패하였을 경우에 입력된 발음정보들의 횟수는, "궁민해꾜"로 입력된 횟수가 4번이고, "쿵민하꾜"로 입력된 횟수가 2번, "궁민해쿄"로 입력된 횟수가 1임을 산출해낼 수 있다. 이 때, 상기 기준값이 3이라면, 상기 제어부(70)는 인식대상 "국민학교"에 대하여 발음정보 "궁민해꾜"를 매칭하여 상기 인식사전(40)에 저장할 수 있다.
상술한 바와 같이, 본 발명에 의한 음성인식방법을 수행하는 경우, 방언을 사용하는 사용자에 대한 음성인식 성공률이 향상될 수 있으며, 사용자마다 발음의 차이가 클 수 있는 외래어 같은 특수단어들에 대한 사용자들 고유의 발음을 인식사전에 추가적으로 등록하여줌으로써, 외래어와 같은 특수한 단어들에 대한 음성인식 성공률을 높일 수 있게 된다.
또한, 본 발명에 의한 음성인식방법은 음향모델에 저장되어 있는 음성특징정보들을 사용자의 발음에 맞추어 훈련과정을 거치고, 상기 훈련과정을 통해 상기 음향모델에 저장된 음성특징정보들을 갱신하게 되는 복잡한 방법과 달리, 인식사전에 사용자의 발음에 대한 발음정보를 개별적으로 등록하는 방식을 취함으로써, 더욱 간단한 방법으로 사용자 고유의 발음에 대한 음성인식 성공률을 향상시킬 수 있게 된다.
도 1은 본 발명의 일 실시예에 의한 음성인식 장치를 대략적으로 나타낸 블록도이다.
도 2,3 및 도 5는 본 발명의 일 실시예에 의한 음성인식 성공률을 향상시키기 위한 방법을 설명하기 위한 흐름도들이다.
도 4 및 6은 본 발명의 일 실시예에 의한 음성인식방법이 적용된 모바일 통신장치에서 본 발명에 의한 사용자 음성등록방법이 구현되는 것을 나타낸 도면들이다.
도 7은 본 발명의 다른 실시예에 의한 음성인식 성공률을 향상시키기 위한 방법을 설명하기 위한 흐름도이다.

Claims (21)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 전자 기기에서 음성인식을 수행하는 방법에 있어서,
    인식대상에 대한 음성인식이 실패할 때마다, 상기 인식대상에 대해 입력된 사용자의 음성에 대한 사용자 발음정보들을 저장하는 단계; 및
    상기 저장된 사용자 발음정보들 중 빈도가 가장 높은 사용자 발음정보를 상기 인식대상에 대해 매칭하는 단계를 포함하는 음성인식 방법.
  10. 제 9 항에 있어서, 상기 매칭하는 단계는,
    실패 회수가 기준값보다 큰 경우에 수행되는 것을 특징으로 하는 음성인식 방법.
  11. 제 9 항에 있어서, 상기 매칭하는 단계는,
    상기 저장된 사용자 발음정보들 중 빈도가 가장 높은 발음정보의 입력 회수가 기준값 이상인 경우에 수행되는 것을 특징으로 하는 음성인식 방법.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 메모리;
    인식대상에 대한 음성인식이 실패할 때마다, 상기 인식대상에 대해 입력된 사용자의 음성에 대한 사용자 발음정보들을 상기 메모리에 저장하고, 상기 저장된 사용자 발음정보들 중 빈도가 가장 높은 사용자 발음정보를 상기 인식대상에 대해 매칭하는 제어부를 포함하는 음성인식장치.
  17. 제 16 항에 있어서, 상기 제어부는,
    실패 회수가 기준값보다 큰 경우에 상기 빈도가 가장 높은 사용자 발음정보를 상기 인식대상에 대해 매칭하는 음성인식장치.
  18. 제 16 항에 있어서, 상기 제어부는,
    상기 저장된 사용자 발음정보들 중 빈도가 가장 높은 발음정보의 입력 회수가 기준값 이상인 경우에 상기 인식대상에 매칭하는 음성인식장치.
  19. 제 16 항에 있어서,
    사용자로부터 입력받은 음성으로부터 음성특징정보를 추출하는 음성신호 검출부;
    소정의 언어단위들과 음성특징정보들이 매칭되어 저장된 음향모델; 및
    상기 음향모델 및 상기 음성신호 검출부에 의해 추출된 음성특징정보를 이용해 상기 입력받은 음성에 대한 상기 사용자 발음정보를 획득하는 발음정보 추출부를 더 포함하는 음성인식장치.
  20. 제 16 항에 있어서,
    상기 인식대상에 대해 발음정보가 각각 매칭되어 있는 인식사전을 더 포함하는 음성인식장치.
  21. 제 20 항에 있어서, 상기 제어부는,
    상기 사용자 발음정보를 상기 인식대상에 대해 상기 인식사전에 매칭하여 저장하되, 상기 발음정보를 대체하여 상기 사용자 발음정보를 매칭하거나 상기 사용자 발음정보를 추가적으로 매칭하는 음성인식장치.
KR1020080080573A 2008-08-18 2008-08-18 음성인식 방법 및 그 장치 KR100998567B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080080573A KR100998567B1 (ko) 2008-08-18 2008-08-18 음성인식 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080080573A KR100998567B1 (ko) 2008-08-18 2008-08-18 음성인식 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20100021910A KR20100021910A (ko) 2010-02-26
KR100998567B1 true KR100998567B1 (ko) 2010-12-07

Family

ID=42091427

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080080573A KR100998567B1 (ko) 2008-08-18 2008-08-18 음성인식 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100998567B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096856A (ko) 2019-07-30 2019-08-20 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20230055025A (ko) 2021-10-18 2023-04-25 주식회사 케이티 음성을 인식하는 장치, 방법 및 컴퓨터 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102373247B1 (ko) * 2014-11-25 2022-03-11 현대모비스 주식회사 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096856A (ko) 2019-07-30 2019-08-20 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11250843B2 (en) 2019-07-30 2022-02-15 Lg Electronics Inc. Speech recognition method and speech recognition device
KR20230055025A (ko) 2021-10-18 2023-04-25 주식회사 케이티 음성을 인식하는 장치, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR20100021910A (ko) 2010-02-26

Similar Documents

Publication Publication Date Title
US8275618B2 (en) Mobile dictation correction user interface
US7826945B2 (en) Automobile speech-recognition interface
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US8195461B2 (en) Voice recognition system
US20070016421A1 (en) Correcting a pronunciation of a synthetically generated speech object
JP4680691B2 (ja) 対話システム
US20060293889A1 (en) Error correction for speech recognition systems
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
JPH10133684A (ja) 音声認識中に代替ワードを選択する方法及びシステム
EP2747077A1 (en) Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device
JP2007041319A (ja) 音声認識装置および音声認識方法
KR100998567B1 (ko) 음성인식 방법 및 그 장치
JP5688677B2 (ja) 音声入力支援装置
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
EP3241123B1 (en) Voice recognition-based dialing
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP2003162293A (ja) 音声認識装置及び方法
JP2012226220A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN112820294B (zh) 语音识别方法、装置、存储介质及电子设备
JP6325770B2 (ja) 音声認識誤り修正装置及びそのプログラム
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2006251699A (ja) 音声認識装置
JPH04254896A (ja) 音声認識訂正装置
JP2005227555A (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131024

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141024

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151023

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191014

Year of fee payment: 10