KR20210108557A - 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 - Google Patents
음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 Download PDFInfo
- Publication number
- KR20210108557A KR20210108557A KR1020200023278A KR20200023278A KR20210108557A KR 20210108557 A KR20210108557 A KR 20210108557A KR 1020200023278 A KR1020200023278 A KR 1020200023278A KR 20200023278 A KR20200023278 A KR 20200023278A KR 20210108557 A KR20210108557 A KR 20210108557A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- information
- user
- voice recognition
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000007621 cluster analysis Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템이 개시된다. 음성 인식 지원 방법은 음성 인식 지원시스템이 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하는 단계, 기 설정된 양의 음성 정보가 수집되면 각 단어에 대한 상기 음성 정보 및 사용자 정보에 대하여 군집 분석하는 단계, 상기 군집 분석된 정보, 상기 음성 정보 및 상기 사용자 정보를 이용하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 단계 및 상기 생성된 학습 모델을 음성 인식 장치로 전송함으로써 상기 음성 인식 장치의 학습 모델을 업데이트하는 단계를 포함할 수 있다.
Description
본 발명은 음성 인식 장치의 음성 인식률을 향상시킬 수 있는 음성 인식률 향상을 위한 음성 인식 지원 방법 및 시스템에 관한 것이다.
음성 인식 기술이란 인간이 발성하는 음성을 컴퓨터가 인식할 수 있도록 문자 또는 코드 등으로 변환하는 기술이다. 이와 같은 음성 인식 기술은 타이핑으로 문자를 입력하는 것 보다 빠른 속도의 입력이 가능하기 때문에, 음성 인식 기술의 정확도를 높이기 위한 연구가 활발히 진행되고 있다.
그러나, 현재까지 개발된 음성 인식 장치는 음성 인식률이 완벽하지 않다. 따라서, 현재까지 개발된 음성 인식장치는 각 사용자의 개인차(예를 들어, 성별, 거주 지역, 발음의 정확도 등)에 따라 음성 인식률이 변화하게 된다. 더욱이, 한국인이 영어를 발음하는 경우와 같이 사용자가 외국어를 발음하는 경우에는, 사용자의 발음이 원어민에 비해 부정확하기 때문에 더 낮은 인식률을 보인다.
따라서, 사용자가 부정확하게 발음하거나 외국어를 발음하는 경우에도 음성 인식 장치가 보다 정확하게 음성을 인식할 수 있도록 하는 방법이 요구되고 있다.
음성 인식 장치의 음성 인식률이 향상되도록 지원할 수 있는 음성 인식률의 향상을 위한 음성 인식 지원 방법및 시스템이 제공된다.
사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 음성 인식 장치가 정확하게 음성을 인식할 수 있도록 지원할 수 있는 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템이 제공된다.
음성 인식 지원 방법은 음성 인식 지원 시스템이 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하는 단계, 기 설정된 양의 음성 정보가 수집되면, 각 단어에 대한 상기 음성 정보 및 사용자 정보에 대하여 군집 분석하는 단계, 상기 군집 분석된 정보, 상기 음성 정보 및 상기 사용자 정보를 이용하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 단계 및 상기 생성된 학습 모델을 음성 인식 장치로 전송함으로써 상기 음성 인식 장치의 학습 모델을 업데이트하는 단계를 포함할 수 있다.
일측에 따르면, 상기 음성 정보는 사용자가 발음한 단어에 대한 정보 및 상기 단어에 해당하는 음성을 포함할 수 있다.
다른 측면에 따르면, 상기 사용자 정보는 사용자가 위치하는 지역, 상기 사용자의 외국어 학습 레벨, 상기 사용자의 성별 및 상기 사용자로부터 입력된 키스트로크(keystroke) 중 적어도 하나에 대한 정보를 포함할 수 있다.
또 다른 측면에 따르면, 상기 전송된 학습 모델은 상기 음성 인식 장치가 상기 사용자로부터 키스트로크(keystroke)와 음성을 입력 받아 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 입력 받은 음성에 해당하는 후보 단어를 검색 시 사용될 수 있다.
또 다른 측면에 따르면, 상기 군집 분석하는 단계는 상기 수신한 사용자 정보를 기초로 특정 단어에 대하여 수집된 상기 음성 정보를 군집 분석함으로써 상기 단어를 세분화하여 저장하는 단계일 수 있다.
음성 인식 지원 방법은 음성 인식 지원 시스템이 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하는 단계, 기 설정된 양의 음성 정보가 수집되면 각 단어에 대한 상기 음성 정보 및 사용자 정보에 대하여 군집 분석하는 단계, 상기 군집 분석된 정보, 상기 음성 정보 및 상기 사용자 정보를 이용하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 단계, 상기 생성한 학습 모델을 이용하여 상기 음성 정보에 해당하는 후보 단어를 검색하는 단계 및 상기 검색된 후보 단어를 음성 인식 장치로 전송하는 단계를 포함할 수 있다.
음성 인식 장치의 음성 인식을 지원하는 시스템은 상기 음성 인식 장치로부터 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하여 상기 사용자 정보를 기초로 상기 음성 정보를 군집 분석하는 음성 분석부 및 상기 군집 분석된 음성 정보를 기초로 각 사용자 집단의 발음 패턴에 대한 학습 모델을 생성하는 학습 모델 생성부를 포함할 수 있다.
음성 인식 장치의 음성 인식을 지원하는 시스템은 상기 음성 인식 장치로부터 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하여 상기 사용자 정보를 기초로 상기 음성 정보를 군집 분석하는 음성 분석부, 상기 군집 분석된 음성 정보를 기초로 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 학습 모델 생성부 및 상기 생성한 학습 모델을 이용하여 상기 음성 정보에 해당하는 후보 단어를 검색하고 상기 검색된 후보 단어를 상기 음성 인식 장치로 전송하는 후보 단어 검색부를 포함할 수 있다.
사용자 정보를 기초로 음성 정보를 군집화하고 이를 분석하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성한 후 생성된 학습 모델을 음성 인식 장치로 전송하거나 생성된 학습 모델을 이용하여 상기 음성 정보에 해당하는 후보 단어를 검색한 후 이를 음성 인식 장치로 전송함으로써 음성 인식 장치의 음성 인식률이 향상되도록 지원할 수 있다.
음성 인식 장치가 사용자가 위치하는 지역, 사용자의 외국어 학습 레벨, 사용자의 성별 등에 대한 정보에 기초하여 생성된 학습 모델을 이용하여 음성 인식을 수행하도록 함으로써 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 음성 인식 장치가 정확하게 음성을 인식할 수 있도록 지원할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 음성 인식률의 향상을 위한 음성 인식 지원 방법을 나타내는 흐름도이다. 도 2 및 도 3은 본 발명의 일실시예에 있어서, 음성 인식 지원 시스템으로부터 학습 모델을 수신한 음성 인식장치가 스피치와 키스트로크를 조합하여 음성을 인식하는 과정을 나타내는 예시도이다. 도 4는 본 발명의 일실시예에 있어서, 음성 인식 장치와 음성 인식률의 향상을 위한 음성 인식 지원 시스템을 나타내는 블록도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 있어서, 음성 인식률의 향상을 위한 음성 인식 지원 방법을 나타내는 흐름도이다.
음성 인식 장치의 음성 인식률은 사용자 간의 발음에 차이가 있기 때문에 사용자의 성별, 거주 지역 등에 따라 다르게 나타난다. 또한, 사용자가 외국어를 발음하는 경우에는 사용자의 발음이 원어민에 비해 부정확하기 때문에 음성 인식률이 더 낮은 낮아지게 된다.
예를 들어, "Macdonald"라는 단어에 대해서 한국인의 경우 이를 "맥도날드"라고 발음하는 반면, 일본인은 "마끄도나르도"라고 발음하고, 미국인은 "맥다날-드"로 발음한다. 마찬가지로, "Eat"라는 단어에 대해서 한국인은 "이트"로 발음하지만, 중국인은 "이터"로 발음하고, 미국인은 "이잇트"로 발음한다. 그리고, "Spring"이라는 단어에 대해서도 한국인은 "스프링"이라고 발음하지만, 일본인은 "스프링구"로 발음하고, 미국인은 "스쁘륑"으로 발음한다.
따라서, 본 발명에 따른 음성 인식 지원 방법은 상술한 것과 같이 사용자가 외국어를 발음하거나 부정확하게 발음하는 경우에도 음성 인식 장치가 보다 정확하게 사용자의 음성을 인식하도록 하기 위하여, 사용자가 위치하는 지역, 외국어 학습 레벨, 성별 등에 따라 사용자들의 음성 정보를 수집하여 군집화하고 이를 분석하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성한다.
구체적으로, 본 발명에 따른 음성 인식 지원 시스템은 사용자들이 잘못 발음한 음성을 학습하기 위하여 먼저 복수개의 음성 인식 장치로부터 음성 정보를 수신할 수 있다(S110) 이 때, 음성 인식 지원 시스템이 음성 인식 장치로부터 수신하는 음성 정보에는 사용자가 발음한 단어에 대한 정보 및 상기 단어에 해당하는 음성이 포함될 수 있다.
이를 위하여 음성 인식 장치는 일 예로 사용자에게 특정 단어를 제시하고 이에 대한 음성을 입력 받아 음성 정보를 생성한 후 이를 음성 인식 지원 시스템으로 전송하거나, 음성 인식 시 사용자가 발음한 음성 및 상기 음성에 해당하는 단어로서 복수개의 후보 단어 중 사용자가 선택한 단어를 이용하여 음성 정보를 생성한 후 이를 음성 인식 지원 시스템으로 전송할 수 있다.
음성 인식 지원 시스템은 음성 인식 장치들로부터 음성 정보가 수신되면 음성 정보에 대한 사용자 정보를 기초로 수신한 음성 정보를 군집화하고(S120), 군집화된 음성 정보를 데이터베이스에 저장한다. 여기서, 사용자 정보에는 사용자가 위치하는 지역에 대한 정보, 상기 사용자의 외국어 학습 레벨에 대한 정보, 상기 사용자의 성별에 대한 정보, 상기 사용자로부터 입력된 키스트로크(keystroke)에 대한 정보 등이 포함될 수 있다. 상기 사용자 정보는 음성 인식 장치를 통해 사용자로부터 입력 받거나 수집될 수 있다.
일 예로, 사용자가 위치하는 지역에 대한 정보는 음성 인식 장치에 포함된 GPS(Global Positioning System) 모듈을 통해 수집될 수 있고, 사용자의 외국어 학습 레벨에 대한 정보와 사용자의 성별에 대한 정보는 사용자가 입력한 음성의 분석 결과를 기초로 파악될 수 있다.
이후, 음성 인식 지원 시스템은 상술한 과정을 통해 기 설정된 양의 음성 정보가 수집되면, 군집화되어 저장된 음성 정보를 분석하여 각 단어에 대해 기존 사용자들이 잘못 발음한 음성을 학습함으로써 각 사용자 집단의 발음 패턴에 대한 학습 모델을 생성한다(S130) 이 때, 음성 인식 지원 시스템은 사용자가 위치하는 지역, 사용자의 외국어 학습 레벨, 사용자의 성별, 등의 정보를 이용하여 사용자들의 발음 패턴에 기초한 학습 모델을 생성할 수도 있다.
일반적으로 학습은 트레이닝 데이터(xi1, xi2,, iN, yi, where xij = i번째 데이터의 j번째 input값, yi =i번째 데이터의 output값)를 모아서, f(x1, x2,, xN) = y 의 f( )을 추론해 내는 것이다. 여기서, 각 단어에 대해 음성 정보, 지역, 성별 등은 x1, x2, x3 등이 될 수 있고, y는 해당 단어가 될 수 있다.
그러나, 본 발명에 따른 음성 인식 지원 시스템은 여기서 y값을 음성 정보, 지역, 성별 등의 정보를 기초로 세분화할 수 있다. 즉, 특정 y에 대하여 x값을 바탕으로 군집 분석하여, y값을 달리해 줄 수 있다. 예를 들어, "Spring"이란 단어에 대해, 한국인은 "스프링", 일본인은 "스프링구"와 비슷하게 발음한다고 했을 때, 종래에는 이렇게 모인 "스프링"과 "스프링구" 음성 정보들에 대하여 다 같은 y값인 "Spring"으로 추론하거나 아예 지역적 발음 특성을 고려하지 않은 채 영미인의 발음만을 인식하였지만, 본 발명에 따른 음성 인식 지원 시스템은 수집된 "스프링"과 "스프링구"와 비슷한 음성들에 대하여, 군집 분석을 통해 "스프링"과 가까운 발음에 대해서는 y값을 "Spring_1"로 할당하고, "스프링구"와 가까운 발음에 대해서는 y값을 "Spring_2"로 할당할 수 있다. 따라서, 수집된 학습 데이터의 y값을 세분화 함으로써 음성 인식의 정확도를 높일 수 있게 된다.
본 발명에 따른 음성 인식 지원 시스템은 이와 같은 과정을 통해 생성된 학습 모델을 음성 인식 장치로 전송함으로써(S140) 학습 모델을 수신한 음성 인식 장치가 상기 학습 모델을 이용하여 사용자의 음성을 인식할 수 있도록 할 수 있다.
예를 들어, 음성 인식 장치는 수신한 학습 모델은 기초로 사용자로부터 키스트로크(keystroke)와 음성을 입력받아 현재까지 입력 받은 키스트로크를 기반으로 사용자가 입력한 음성에 해당하는 후보 단어를 검색할 수 있다.
이 경우, 음성 인식 장치는 사용자로부터 입력 받은 키스트로크에서 텍스트 "t"를 도출하고, 사용자로부터 입력받은 음성에서 음성 "s"를 도출할 수 있다. 이후, 음성 인식 장치는 다음의 수학식 1을 이용하여 도출된 텍스트 "t"를 포함하는 복수개의 후보 단어 중 인식된 음성 "s"에 해당하는 후보 단어를 검색하여 검색된 후보 단어를 음성 인식 장치의 디스플레이를 통해 표시할 수 있다.
이 때, 디스플레이를 통해 표시된 후보 단어에 사용자가 원하는 단어가 포함되지 않는 경우, 사용자는 음성 인식 장치에 추가적으로 키스트로크를 입력하거나 음성을 다시 입력할 수 있다.
음성 인식 장치는 추가적인 키스트로크가 입력되는 경우 추가적으로 입력된 키스트로크를 포함하는 후보 단어 중 입력 받은 음성에 해당하는 후보 단어를 디스플레이를 통해 표시할 수 있고, 음성이 다시 입력되는 경우 기 입력된 키스트로크를 포함하는 후보 단어 중 다시 입력된 음성에 해당하는 후보 단어를 디스플레이를 통해 표시할 수 있다.
이와 같은 과정으로 통해 음성 인식 장치에 입력된 음성에 대한 정보와 상기 음성에 해당하는 단어로서 사용자에 의해 선택된 단어에 대한 정보는 사용자의 음성을 보다 정확하게 인식할 수 있도록 지원하는 음성 인식 지원 시스템으로 전송될 수 있다.
음성 인식 지원 시스템은 음성 인식 장치로부터 수신한 음성을 사용자 정보를 기초로 군집화한 후 분석하여 사용자의 음성 인식을 위한 학습 모델을 생성하고 이를 음성 인식 장치로 전송함으로써 학습 모델의 업데이트를 통해 음성 인식 장치의 음성 인식률이 향상되도록 지원할 수 있다.
이상에서는 음성 인식 지원 시스템이 학습 모델을 생성하여 음성 인식 장치로 전송함으로써 음성 인식 장치가 음성을 인식할 수 있도록 지원하는 방법에 대해 설명하였지만, 본 발명에 따른 음성 인식 지원 시스템은 상술한 과정을 통해 생성한 학습 모델을 이용하여 음성 인식 장치로부터 수신한 음성 정보에 해당하는 후보 단어를 검색한 후 검색한 후보 단어를 음성 인식 장치로 전송할 수도 있다. 이 경우 음성 인식 지원 시스템은 후보 단어 검색 시 필요에 따라 음성 인식 장치로부터 음성 정보에 대한 사용자의 키스트로크를 수신할 수도 있다.
도 2 및 도 3은 본 발명의 일실시예에 있어서, 음성 인식 지원 시스템으로부터 학습 모델을 수신한 음성 인식 장치가 스피치와 키스트로크를 조합하여 음성을 인식하는 과정을 나타내는 예시도이다. 이하에서는, 일 예로 음성 인식 장치가 전자 사전인 경우를 예를 들어 설명한다.
먼저 도 2를 참조하면, 사용자는 도 2(a)에 도시된 것과 같이 "refrigerator"에 대한 의미를 검색하기 위해 입력 인터페이스(210)를 통해 "R"이라는 키스트로크를 입력할 수 있다. 이후, 사용자가 입력 인터페이스(210)를 통해 음성으로 "refrigerator"를 입력하면, 음성 인식 장치는 음성 인식 지원 시스템으로부터 수신한 학습 모델을 이용하여 "R"이라는 키스트로크를 포함하고 "refrigerator"라는 음성에 해당하는 후보 단어를 검색할 수 있다.
이때, 음성 인식 장치는 사용자로부터 키스트로크 또는 음성을 마지막으로 [0041] 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우, 현재까지 입력 받은 키스트로크를 기반으로 입력 받은 음성에 해당하는 N 개의 후보 단어를 검색할 수 있다.
도 2(b)에는 일 예로, 사용자가 "Ref"라는 키스트로크를 입력하고 "refrigerator"라는 음성을 입력한 경우를 나타낸다. 이 경우, 음성 인식 장치는 "Ref"라는 키스트로크를 포함하는 복수개의 후보 단어 중 사용자가 발음한 "refrigerator"라는 음성에 해당하는 후보 단어(220)인 "refrigerator" 및 "refrigerated"를 표시할 수 있다.
이후, 사용자가 "refrigerator"라는 후보 단어(220)를 선택하면 음성 인식 장치는 도 2(c)에 도시된 것과 같이, 음성 인식에 대한 결과로서 "refrigerator: 냉장고"라는 단어(230)를 출력할 수 있다.
한편, 도 3(a)에 도시된 것과 같이 사용자가 "Spring"에 대한 의미를 검색하기 위해 입력 인터페이스(310)를 통해 "S"라는 키스트로크를 입력하고, "Spring"을 발음하면, 음성 인식 장치는 "S"라는 키스트로크를 포함하고 "Spring"이라는 음성에 해당하는 후보 단어를 검색할 수 있다.
그러나, 사용자가 일본인이기 때문에 "Spring"을 "스프링구"로 발음한 경우, 음성 인식 장치는 도 3(b)에 도시된 것과 같이 "Sp"라는 키스트로크 및 "스프링구"라는 음성에 해당하는 후보 단어(320) "Spring up"이외에, 사용자 정보에 기초한 학습 모델을 이용하여 일본인의 발음 "스프링구"에 해당하는 "Spring"을 후보 단어(320)로서 표시함으로써 후보 단어의 선택을 통해 "Spring: 용수철"이라는 정확한 단어(330)가 출력되도록 할 수 있다.
따라서, 본 발명에 따른 음성 인식 지원 방법은 사용자의 거주 지역, 성별, 외국어 학습 레벨 등에 기초한 학습모델을 음성 인식 장치로 전송하므로 사용자가 부정확한 발음 또는 외국어를 음성 입력 장치에 입력하는 경우에도 음성 입력 장치가 보다 정확한 음성 인식을 수행할 수 있도록 지원할 수 있다.
이상에서는 본 발명에 따른 음성 인식 지원 방법이 전자 사전에 적용된 경우를 예를 들어 설명하였지만, 본 발명에 따른 음성 인식 지원 방법은 전자 사전뿐만 아니라 스마트폰(Smart Phone), PDA(Personal Digital Assistants), 데스크탑 PC(Desktop Personal Computer), 네비게이션(Navigation), 태블릿(Tablet) PC 등과 같은 다양한 단말의 음성 인식을 지원할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 음성 인식 장치와 음성 인식률의 향상을 위한 음성 인식 지원 시스템을 나타내는 블록도이다.
먼저, 음성 인식 장치(410)는 적어도 하나의 디스플레이(412), 적어도 하나의 프로세서(414), 메모리(416) 및 적어도 하나의 프로그램(418)을 포함할 수 있다.
일 예로, 상기 프로그램(418)은 메모리(416)에 저장되어 프로세서(414)에 의해 실행되도록 구성될 수 있다. 상기 프로그램(418)은 소정의 입력 인터페이스를 통해 사용자로부터 키스트로크(keystroke)와 음성을 입력 받고, 현재까지 입력 받은 키스트로크를 기반으로 입력 받은 음성에 해당하는 후보 단어를 메모리(416)에 저장된 복수개의 후보 단어 중에서 검색하며, 검색된 후보 단어를 디스플레이(412)를 통해 표시하는 명령어를 포함하여 사용자의 음성을 인식할 수 있다.
구체적으로, 상기 프로그램(418)은 입력 인터페이스를 통해 입력 받은 키스트로크를 포함하는 복수개의 후보 단어 중 인식된 음성에 해당하는 후보 단어를 검색할 수 있다.
그리고, 상기 프로그램(418)은 사용자로부터 키스트로크 또는 음성을 마지막으로 입력 받은 시간으로부터 기 설정된 시간이 경과하는 경우에 후보 단어를 검색할 수 있다.
또한, 상기 프로그램(418)은 디스플레이를 통해 표시된 후보 단어에 사용자가 원하는 단어가 포함되지 않는 경우 사용자가 추가적으로 키스트로크 또는 음성을 입력할 수 있도록 함으로써 추가로 입력된 키스트로크 또는 음성을 이용하여 보다 정확하게 음성을 인식할 수 있다.
음성 인식 장치(410)로 입력된 음성, 상기 음성에 해당하는 단어 등을 포함하는 음성 정보는 유선 또는 무선 네트워크를 통해 음성 인식 지원 시스템(420)으로 전송될 수 있다.
음성 인식 지원 시스템(420)은 음성 저장부(422), 음성 분석부(424) 및 학습 모델 생성부(426)을 포함할 수 있다.
음성 저장부(422)는 음성 인식 장치(410)를 통해 수신되는 음성 정보를 사용자 정보를 기초로 군집화하고 군집화된 음성 정보를 저장한다. 여기서, 상기 사용자 정보는 사용자가 위치하는 지역에 대한 정보, 사용자의 외국어 학습 레벨에 대한 정보, 사용자의 성별에 대한 정보, 상기 사용자가 입력한 키스트로크에 대한 정보 등을 포함할 수 있다. 이러한 사용자 정보는 사용자로부터 입력 받거나, 음성 인식 장치(410)를 통해 수집될 수 있다.
일 예로, 사용자가 위치하는 지역에 대한 정보는 음성 인식 장치(410)에 포함된 GPS(Global Positioning
System) 모듈을 통해 수집될 수 있고, 사용자의 외국어 학습 레벨에 대한 정보와 사용자의 성별에 대한 정보는사용자가 입력한 음성의 분석 결과를 기초로 측정될 수 있다.
음성 분석부(424)는 기 설정된 양의 음성 정보가 수집되면 음성 저장부(422)에 지역, 성별, 외국어 학습 레벨 등을 기반으로 군집화되어 저장된 음성을 기초로 해당 단어에 대한 사용자들의 음성을 분석한다.
학습 모델 생성부(426)는 음성 분석부(424)에서 분석된 음성 정보를 기초로 각각의 단어에 대해 사용자들이 발음한 음성을 학습하고 이를 기초로 각 사용자 집단의 발음 패턴에 대한 학습 모델을 생성한다.
본 발명에 따른 음성 인식 지원 시스템(420)은 이와 같은 과정을 통해 생성된 학습 모델을 네트워크를 통해 음성 인식 장치(410)로 전송하여 음성 인식 장치(410)의 프로그램이 업데이트(update)되도록 함으로써 음성 인식 장치(410)가 보다 정확하게 음성을 인식할 수 있도록 지원하거나, 상기 학습 모델을 이용하여 음성 인식 장치로부터 수신한 음성 정보에 해당하는 후보 단어를 검색한 후 검색한 후보 단어를 음성 인식 장치로 전송할 수 있다.
따라서, 본 발명에 따른 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템은 사용자 정보를 기초로 음성 정보를 군집화하고 이를 분석하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성한 후 생성된 학습 모델을 음성 인식 장치로 전송함으로써 음성 인식 장치의 음성 인식률이 향상되도록 지원할 수 있다.
또한, 본 발명에 따른 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템은 사용자가 위치하는 지역별, 사용자의 외국어 학습 레벨 별 및 사용자의 성별 별로 학습 모델을 생성하고 음성 인식 장치가 이를 기초로 음성 인식을 수행하도록 함으로써 사용자가 부정확한 발음을 입력하거나 외국어를 발음하는 경우에도 음성 인식 장치가 정확하게 음성을 인식할 수 있도록 지원할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
Claims (15)
- 컴퓨터로 구현되는 음성 인식 지원 방법에 있어서,
음성 인식 지원 시스템이 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하는 단계;
기 설정된 양의 음성 정보가 수집되면 각 단어에 대한 상기 음성 정보 및 사용자 정보에 대하여 군집 분석하는 단계;
상기 군집 분석된 정보, 상기 음성 정보 및 상기 사용자 정보를 이용하여 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 단계; 및
상기 생성된 학습 모델을 음성 인식 장치로 전송함으로써 상기 음성 인식 장치의 학습 모델을 업데이트하는 단계를 포함하는 음성 인식 지원 방법. - 제1항에 있어서,
상기 음성 정보는,
사용자가 발음한 단어에 대한 정보 및 상기 단어에 해당하는 음성을 포함하는 것을 특징으로 하는 음성 인식 지원 방법. - 제1항에 있어서,
상기 사용자 정보는,
상기 사용자가 위치하는 지역, 상기 사용자의 외국어 학습 레벨, 상기 사용자의 성별 및 상기 사용자로부터 입력된 키스트로크(keystroke) 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는 음성 인식 지원 방법. - 제1항에 있어서,
상기 전송된 학습 모델은,
상기 음성 인식 장치가 상기 사용자로부터 키스트로크(keystroke)와 음성을 입력 받아 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 입력 받은 음성에 해당하는 후보 단어를 검색 시 사용되는 것을 특징으로 하는 음성 인식 지원 방법. - 제1항에 있어서,
상기 군집 분석하는 단계는,
상기 수신한 사용자 정보를 기초로 특정 단어에 대하여 수집된 상기 음성 정보를 군집 분석함으로써 상기 단어를 세분화하는 단계인 것을 특징으로 하는 음성 인식 지원 방법. - 컴퓨터로 구현되는 음성 인식 지원 방법에 있어서,
음성 인식 지원 시스템이 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하는 단계;
기 설정된 양의 음성 정보가 수집되면 각 단어에 대한 상기 음성 정보 및 사용자 정보에 대하여 군집 분석하는 단계;
상기 군집 분석된 정보, 상기 음성 정보 및 상기 사용자 정보를 이용하여 각 사용자의 발음 패턴에 대한 학습모델을 생성하는 단계;
상기 생성한 학습 모델을 이용하여 상기 음성 정보에 해당하는 후보 단어를 검색하는 단계; 및
상기 검색된 후보 단어를 음성 인식 장치로 전송하는 단계를 포함하는 음성 인식 지원 방법. - 제6항에 있어서,
상기 음성 정보는,
사용자가 발음한 단어에 대한 정보 및 상기 단어에 해당하는 음성을 포함하고,
상기 사용자 정보는, 상기 사용자가 위치하는 지역, 상기 사용자의 외국어 학습 레벨, 상기 사용자의 성별 및 상기 사용자로부터 입력된 키스트로크(keystroke) 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는 음성 인식 지원 방법. - 제6항에 있어서,
상기 군집 분석하는 단계는,
상기 수신한 사용자 정보를 기초로 특정 단어에 대하여 수집된 상기 음성 정보를 군집 분석함으로써 상기 단어를 세분화하는 단계인 것을 특징으로 하는 음성 인식 지원 방법. - 음성 인식 장치의 음성 인식을 지원하는 시스템에 있어서,
상기 음성 인식 장치로부터 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하여 상기 사용자 정보를 기초로 상기 음성 정보를 군집 분석하는 음성 분석부; 및 상기 군집 분석된 음성 정보를 기초로 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 학습 모델 생성부를 포함하는 음성 인식 지원 시스템. - 제9항에 있어서,
상기 음성 정보는,
사용자가 발음한 단어에 대한 정보 및 상기 단어에 해당하는 음성을 포함하는 것을 특징으로 하는 음성 인식 지원 시스템. - 제9항에 있어서,
상기 사용자 정보는,
상기 사용자가 위치하는 지역, 상기 사용자의 외국어 학습 레벨, 상기 사용자의 성별 및 상기 사용자로부터 입력된 키스트로크(keystroke) 중 적어도 하나에 대한 정보를 포함하는 것을 특징으로 하는 음성 인식 지원 시스템. - 제9항에 있어서,
상기 생성된 학습 모델은,
상기 음성 인식 장치로 전송되어 상기 음성 인식 장치가 상기 사용자로부터 키스트로크(keystroke)와 음성을 입력 받아 현재까지 입력 받은 상기 키스트로크를 기반으로 상기 입력 받은 음성에 해당하는 후보 단어를 검색 시 사용되는 것을 특징으로 하는 음성 인식 지원 시스템. - 제9항에 있어서,
상기 음성 분석부는,
상기 수신한 사용자 정보를 기초로 특정 단어에 대하여 수집된 상기 음성 정보를 군집 분석함으로써 상기 단어를 세분화하는 것을 특징으로 하는 음성 인식 지원 시스템. - 제13항에 있어서,
상기 군집화된 음성 정보를 저장하는 음성 저장부를 더 포함하는 것을 특징으로 하는 음성 인식 지원 시스템. - 음성 인식 장치의 음성 인식을 지원하는 시스템에 있어서,
상기 음성 인식 장치로부터 음성 정보 및 상기 음성 정보에 대한 사용자 정보를 수신하여 상기 사용자 정보를 기초로 상기 음성 정보를 군집 분석하는 음성 분석부;
상기 군집 분석된 음성 정보를 기초로 각 사용자의 발음 패턴에 대한 학습 모델을 생성하는 학습 모델 생성부;
및
상기 생성한 학습 모델을 이용하여 상기 음성 정보에 해당하는 후보 단어를 검색하고 상기 검색된 후보 단어를 상기 음성 인식 장치로 전송하는 후보 단어 검색부
를 포함하는 음성 인식 지원 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200023278A KR20210108557A (ko) | 2020-02-26 | 2020-02-26 | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200023278A KR20210108557A (ko) | 2020-02-26 | 2020-02-26 | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210108557A true KR20210108557A (ko) | 2021-09-03 |
Family
ID=77784925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200023278A KR20210108557A (ko) | 2020-02-26 | 2020-02-26 | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210108557A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102515914B1 (ko) * | 2022-12-21 | 2023-03-30 | 주식회사 액션파워 | Stt 모델을 활용하는 발음 전사 방법 |
KR102524615B1 (ko) * | 2022-10-28 | 2023-04-21 | 주식회사 액션파워 | 개인화된 음성 인식을 위한 데이터를 생성하고, 생성된 데이터를 이용하여 개인화된 음성 인식을 수행하는 방법 |
WO2024072036A1 (ko) * | 2022-09-30 | 2024-04-04 | 삼성전자 주식회사 | 음성인식 장치 및 음성인식 장치의 동작방법 |
-
2020
- 2020-02-26 KR KR1020200023278A patent/KR20210108557A/ko unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024072036A1 (ko) * | 2022-09-30 | 2024-04-04 | 삼성전자 주식회사 | 음성인식 장치 및 음성인식 장치의 동작방법 |
KR102524615B1 (ko) * | 2022-10-28 | 2023-04-21 | 주식회사 액션파워 | 개인화된 음성 인식을 위한 데이터를 생성하고, 생성된 데이터를 이용하여 개인화된 음성 인식을 수행하는 방법 |
KR102515914B1 (ko) * | 2022-12-21 | 2023-03-30 | 주식회사 액션파워 | Stt 모델을 활용하는 발음 전사 방법 |
US12051421B2 (en) | 2022-12-21 | 2024-07-30 | Actionpower Corp. | Method for pronunciation transcription using speech-to-text model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
KR100998566B1 (ko) | 음성인식을 이용한 언어 번역 방법 및 장치 | |
JP6203288B2 (ja) | 音声を認識するシステムおよび方法 | |
KR102191425B1 (ko) | 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법 | |
US11328708B2 (en) | Speech error-correction method, device and storage medium | |
US9196246B2 (en) | Determining word sequence constraints for low cognitive speech recognition | |
US9990916B2 (en) | Method to synthesize personalized phonetic transcription | |
KR20210108557A (ko) | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 | |
US20090228273A1 (en) | Handwriting-based user interface for correction of speech recognition errors | |
KR20170034227A (ko) | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 | |
JP2011503638A (ja) | カーナビゲーションシステムのための自由会話命令分類の改良 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20130128716A (ko) | 어학 학습 시스템 및 학습 방법 | |
CN111554276B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
JP6272496B2 (ja) | 単語のシーケンスを含む音声を認識するための方法及びシステム | |
KR20220090586A (ko) | 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화 | |
KR101399777B1 (ko) | 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템 | |
JP2018066800A (ja) | 日本語音声認識モデル学習装置及びプログラム | |
CN112133325B (zh) | 错误音素识别方法及装置 | |
KR101393255B1 (ko) | 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치 | |
JP5169602B2 (ja) | 形態素解析装置、形態素解析方法及びコンピュータプログラム | |
CN112434148A (zh) | 一种基于人工智能的智能机器人应答方法和装置 | |
US11809831B2 (en) | Symbol sequence converting apparatus and symbol sequence conversion method |