KR102144345B1 - 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법 - Google Patents

사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102144345B1
KR102144345B1 KR1020180109117A KR20180109117A KR102144345B1 KR 102144345 B1 KR102144345 B1 KR 102144345B1 KR 1020180109117 A KR1020180109117 A KR 1020180109117A KR 20180109117 A KR20180109117 A KR 20180109117A KR 102144345 B1 KR102144345 B1 KR 102144345B1
Authority
KR
South Korea
Prior art keywords
user
word
speech recognition
recognition result
pronunciation string
Prior art date
Application number
KR1020180109117A
Other languages
English (en)
Other versions
KR20200030354A (ko
Inventor
최보람
서영철
김무중
김현수
이지훈
최지혜
최동희
강희석
정진아
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020180109117A priority Critical patent/KR102144345B1/ko
Publication of KR20200030354A publication Critical patent/KR20200030354A/ko
Application granted granted Critical
Publication of KR102144345B1 publication Critical patent/KR102144345B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법이 개시된다. 본 발명은 사용자에 의해 미리 지정된 사용자 정의 단어들이 저장되어 있는 사용자 정의 단어 데이터베이스를 참조하여 발화자에 의해 인가된 음성 인식 결과에 대한 보정 처리를 수행함으로써, 특수한 분야의 단어나 신조어에 대해서 기존의 일반적인 음성 인식 모델 데이터를 이용한 음성 인식을 수행하더라도 높은 음성 인식의 정확도를 제공할 수 있다.

Description

사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법{VOICE RECOGNITION PROCESSING DEVICE FOR PERFORMING A CORRECTION PROCESS OF THE VOICE RECOGNITION RESULT BASED ON THE USER-DEFINED WORDS AND OPERATING METHOD THEREOF}
본 발명은 발화자에 의해 인가된 음성에 대한 인식률을 향상시키기 위한 기술들과 관련된다.
최근, 인공지능 기능이 탑재된 전자 장비들이 출시됨에 따라 사용자가 음성으로 명령을 인가하면, 사용자의 음성을 인식하여 제어를 수행하는 기술이 주목받고 있다.
음성 인식 기술은 발화자로부터 음성이 입력되면, 음성의 특징을 분석하여 특징 벡터를 추출하고, 특징 벡터의 패턴을 인식한 후 패턴 인식 결과에 기반하여 발화자의 음성에 매칭되는 단어를 결과로 출력하는 기술을 의미한다.
이러한 음성 인식 기술은 다양한 음성 데이터를 수집하여 소정의 음성 인식 모델 데이터로 구축해 둠으로써, 사용자에 의해 인가되는 음성에 매칭되는 문자를 생성하도록 구성된다.
보통, 음성 인식에 사용되는 음성 인식 모델 데이터는 음성 인식이 활용되는 분야에 따라 다르게 구성된다.
예컨대, 의료 분야에서 음성 인식에 사용되는 음성 인식 모델 데이터는 의료 분야에 주로 활용되는 음성 및 언어 데이터들로 구성되어 있기 때문에 의료 분야와 관련된 음성에 대한 인식률이 높게 나오도록 구축되어 있으며, 법률 분야에서 음성 인식에 사용되는 음성 인식 모델 데이터는 법률 분야에 주로 활용되는 음성 및 언어 데이터들로 구성되어 있기 때문에 법률 분야와 관련된 음성에 대한 인식률이 높게 나오도록 구축되어 있다.
이렇게 언어가 활용되는 분야가 다양하게 존재하고 있기 때문에 특수한 분야에서 사용되는 단어나 신조어를 사용자가 음성으로 인가하였을 때, 일반적인 음성 인식 모델 데이터를 기반으로 음성 인식을 수행하는 경우, 사용자가 의도한 정확한 단어가 결과물로 도출되지 못하는 문제가 발생할 수 있다.
특수한 분야의 단어나 신조어에 대한 음성 인식률을 높이기 위해서는 새로운 단어에 대한 훈련 데이터를 확보하여 음성 인식 모델 데이터에 추가하는 방법을 사용할 수 있지만, 새로운 단어에 대한 음성 인식 모델 데이터를 구축하기 위해서는 다수의 음성 데이터와 훈련 데이터들의 확보가 필요하다는 점에서 한계가 존재한다.
따라서, 특수한 분야에서 사용되는 단어나 신조어에 대해서도 기존의 일반적인 음성 인식 모델 데이터를 이용한 음성 인식에 있어 그 정확도를 높일 수 있도록 하는 기법의 연구가 필요하다.
본 발명은 사용자에 의해 미리 지정된 사용자 정의 단어들이 저장되어 있는 사용자 정의 단어 데이터베이스를 참조하여 발화자에 의해 인가된 음성 인식 결과에 대한 보정 처리를 수행함으로써, 특수한 분야의 단어나 신조어에 대해서 기존의 일반적인 음성 인식 모델 데이터를 이용한 음성 인식을 수행하더라도 높은 음성 인식의 정확도를 제공할 수 있도록 한다.
본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치는 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있는 사용자 정의 단어 데이터베이스, 마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된(predetermined) 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성하는 음성 인식부, 상기 사용자 정의 단어 데이터베이스에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산하는 유사도 연산부, 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택하는 단어 선택부 및 상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 음성 인식 보정 처리부를 포함한다.
또한, 본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법은 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있는 사용자 정의 단어 데이터베이스를 유지하는 단계, 마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성하는 단계, 상기 사용자 정의 단어 데이터베이스에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산하는 단계, 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택하는 단계 및 상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 단계를 포함한다.
본 발명은 사용자에 의해 미리 지정된 사용자 정의 단어들이 저장되어 있는 사용자 정의 단어 데이터베이스를 참조하여 발화자에 의해 인가된 음성 인식 결과에 대한 보정 처리를 수행함으로써, 특수한 분야의 단어나 신조어에 대해서 기존의 일반적인 음성 인식 모델 데이터를 이용한 음성 인식을 수행하더라도 높은 음성 인식의 정확도를 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치(110)는 사용자 정의 단어 데이터베이스(111), 음성 인식부(112), 유사도 연산부(113), 단어 선택부(114) 및 음성 인식 보정 처리부(115)를 포함한다.
사용자 정의 단어 데이터베이스(111)에는 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있다.
여기서, 상기 복수의 사용자 정의 단어들은 사용자가 미리 설정해둔 단어들을 의미하는 것으로, 본 발명에 따른 음성 인식 처리 장치(110)가 택배 업계에서 자주 사용된다고 하는 경우, 상기 복수의 사용자 정의 단어들은 택배 업계에서 자주 사용되는 단어들을 중심으로 사용자에 의해 미리 정해질 수 있다.
그리고, 발음 문자열이란 각 단어를 발음나는데로 표현하였을 때의 문자열을 의미하는 것으로, 예컨대, '특허'라고 하는 단어가 있을 때, '특허'라고 하는 단어는 '트커'로 발음되기 때문에 '특허'라고 하는 단어에 대응하는 발음 문자열은 '트커'가 된다.
이러한 점을 종합해 보았을 때, 사용자 정의 단어 데이터베이스(111)에는 하기의 표 1과 같이 데이터가 저장되어 있을 수 있다.
복수의 사용자 정의 단어들 발음 문자열
반품집화 반품지퐈
택배 택빼
운송장 운송장
... ...
음성 인식부(112)는 마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된(predetermined) 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성한다.
예컨대, 발화자에 의해서 '반품집화'라는 음성이 입력되었는데, 상기 기설정된 음성 인식 모델 데이터를 기초로 상기 '반품집화'라는 음성을 인식한 결과, 상기 기설정된 음성 인식 모델 데이터가 택배 업계에서 자주 사용되는 데이터를 기초로 구축된 모델 데이터가 아닌 이유로 '반품집하'라는 단어로 인식된 경우, 음성 인식부(112)는 '반품집하'라는 제1 인식 단어를 생성하고, '반품집하'라는 상기 제1 인식 단어를 발음나는데로 표현한 '반품지파'라고 하는 제1 발음 문자열을 생성할 수 있다.
유사도 연산부(113)는 사용자 정의 단어 데이터베이스(111)에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산한다.
이때, 본 발명의 일실시예에 따르면, 유사도 연산부(113)는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열의 자소를 분리하고, 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이를 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도로 연산할 수 있다.
예컨대, 앞서 설명한 바와 같이 음성 인식부(112)에 의해 상기 제1 인식 단어가 '반품집하'로 인식되었고, 이로 인해 상기 제1 발음 문자열이 '반품지파'로 생성되었다고 하는 경우, 유사도 연산부(113)는 상기 표 1과 같은 사용자 정의 단어 데이터베이스(111)에 저장되어 있는 복수의 사용자 정의 단어들 각각의 발음 문자열인 '반품지퐈', '택빼', '운송장' 각각에 대해 자소를 분리하고, 상기 제1 발음 문자열인 '반품지파'에 대해서도 자소를 분리할 수 있다.
여기서, 자소란 문자 체계에서 음소를 표시하는 최소의 변별적 단위를 의미하는 것으로, 한글에서는 문자를 구성하는 자음, 모음을 의미한다.
이로 인해, 유사도 연산부(113)는 '반품지퐈'에 대해 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅗㅏ'라는 형태로 자소를 분리할 수 있고, '택빼'에 대해 'ㅌㅐㄱㅃㅐ'라는 형태로 자소를 분리할 수 있으며, '운송장'에 대해 'ㅇㅜㄴㅅㅗㅇㅈㅏㅇ'이라는 형태로 자소를 분리할 수 있다.
그리고, 유사도 연산부는(113)는 상기 제1 발음 문자열인 '반품지파'에 대해서도 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅏ'라는 형태로 자소를 분리할 수 있다.
이렇게, 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열이 자소로 분리되면, 유사도 연산부(113)는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 LCS의 길이를 연산할 수 있다.
LCS란 두 개의 문자열에서 일치하는 연속된 문자열을 의미하는 것으로, 'ACAYKP'와 'CAPCAK'가 있다고 하였을 때, 두 문자열 간의 LCS는 'ACAK'이고, 이때 LCS의 길이는 '4'가 된다.
관련해서, 유사도 연산부(113)는 '반품지퐈'의 자소와 '반품지파'의 자소 간의 LCS의 길이를 연산할 수 있고, '택빼'의 자소와 '반품지파'의 자소 간의 LCS의 길이를 연산할 수 있으며, '운송장'의 자소와 '반품지파'의 자소 간의 LCS를 연산할 수 있다.
즉, 유사도 연산부(113)는 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅗㅏ'와 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅏ' 간의 일치하는 연속된 자소의 개수를 연산할 수 있고, 'ㅌㅐㄱㅃㅐ'와 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅏ' 간의 연속된 자소의 개수를 연산할 수 있으며, 'ㅇㅜㄴㅅㅗㅇㅈㅏㅇ'과 'ㅂㅏㄴㅍㅜㅁㅈㅣㅍㅏ' 간의 연속된 자소의 개수를 연산할 수 있다.
이때, 유사도 연산부(113)에 의해 연산된 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 LCS의 길이가 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도가 된다.
즉, LCS의 길이가 클수록 유사도가 큰 것을 의미한다.
단어 선택부(114)는 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택한다.
관련해서, 상기 기준 유사도가 '8'이라고 하고, 전술한 실시예에 따라 단어 선택부(114)의 동작을 설명하면, 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열인 '반품지파'와의 유사도 즉 LCS의 길이가 '8'이상으로 연산되는 사용자 정의 단어의 발음 문자열은 '반품지퐈'이고, '반품지퐈'의 유사도가 최대이기 때문에 단어 선택부(114)는 '반품지퐈'라는 발음 문자열을 갖는 사용자 정의 단어인 '반품집화'를 상기 제2 사용자 정의 단어로 선택할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단어 선택부(114)는 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대로 연산된 발음 문자열을 갖는 사용자 정의 단어가 둘 이상 존재하는 경우, 상기 제1 발음 문자열과의 유사도가 최대인 둘 이상의 사용자 정의 단어들 각각과 상기 제1 인식 단어의 자소를 분리하여 상기 둘 이상의 사용자 정의 단어들 각각의 자소와 상기 제1 인식 단어의 자소 간의 LCS의 길이를 연산한 후 상기 둘 이상의 사용자 정의 단어들 중 상기 제1 인식 단어의 자소와의 LCS의 길이가 최대로 연산된 자소를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 선택할 수 있다.
예컨대, 상기 제1 발음 문자열인 '반품지파'와의 유사도가 최대로 연산된 발음 문자열이 '반품집퐈'뿐 아니라 추가로 하나 더 존재한다고 하는 경우, 단어 선택부(114)는 상기 제1 인식 단어인 '반품집하'의 자소를 분리하고, 유사도가 최대인 사용자 정의 단어인 '반품집화'와 또 다른 사용자 정의 단어에 대해서도 자소를 분리할 수 있다.
그러고 나서, 단어 선택부(114)는 유사도가 최대인 사용자 정의 단어인 '반품집화'와 상기 제1 인식 단어인 '반품집하'의 자소 간의 LCS의 길이를 연산하고, 나머지 사용자 정의 단어와 상기 제1 인식 단어인 '반품집하'의 자소 간의 LCS의 길이를 연산하여 최대의 LCS의 길이를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 최종 선택할 수 있다.
즉, 단어 선택부(114)는 음성 인식부(112)를 통해 인식된 상기 제1 인식 단어의 발음 문자열과 사용자 정의 단어들의 발음 문자열 간의 유사도를 기반으로 최대 유사도를 갖는 사용자 정의 단어를 선택하되, 최대 유사도를 갖는 사용자 정의 단어가 둘 이상 존재한다면, 발음 문자열 간의 유사도가 아닌 인식된 단어 자체의 자소 간의 LCS의 길이를 비교하여 상기 제1 인식 단어에 최대 유사도를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 최종 선택할 수 있다.
음성 인식 보정 처리부(115)는 단어 선택부(114)에 의해 상기 제2 사용자 정의 단어가 선택되면, 상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시한다.
즉, '반품집화'가 상기 제2 사용자 정의 단어로 선택되었다면, 음성 인식 보정 처리부(115)는 음성 인식부(112)에서 '반품집하'로 발화자의 음성이 인식되었다고 하더라도 화면상에 '반품집화'라는 단어를 최종 인식 결과 단어로 표시함으로써, 상기 음성 인식 모델 데이터가 택배 업계에 매칭되도록 구성된 데이터가 아니더라도 발화자의 음성이 택배 업계에서 사용되는 적절한 단어로 인식되도록 처리할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단어 선택부(114)는 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 상기 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 상기 적어도 하나의 제1 사용자 정의 단어가 존재하지 않는 경우, 사용자 정의 단어에 대한 선택 중지 이벤트를 실행시킬 수 있다.
이때, 음성 인식 보정 처리부(115)는 상기 사용자 정의 단어에 대한 선택 중지 이벤트가 실행되면, 상기 제1 인식 단어를 상기 발화자의 음성에 대응되는 상기 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시할 수 있다.
예컨대, 발화자의 음성 입력에 대응하여 음성 인식부(112)에서 인식된 상기 제1 인식 단어가 '특허'라고 하고, 유사도 연산부(113)에서 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 '트커'라고 하는 상기 제1 발음 문자열 간의 유사도를 연산한 결과, 상기 복수의 사용자 정의 단어들 중 유사도가 상기 기설정된 기준 유사도 이상을 갖는 사용자 정의 단어가 존재하지 않는 경우, 단어 선택부(114)는 사용자 정의 단어 데이터베이스(111)에 '특허'라고 하는 단어를 보정하기 위한 사용자 정의 단어가 존재하지 않는 것으로 확인하고, 사용자 정의 단어에 대한 선택 중지 이벤트를 실행시킬 수 있다.
이때, 음성 인식 보정 처리부(115)는 상기 제1 인식 단어인 '특허'에 대한 사용자 정의 단어가 존재하지 않기 때문에 원래 음성 인식부(112)에서 인식되었던 '특허'라고 하는 상기 제1 인식 단어를 그대로 최종 인식 결과 단어로 취급하여 화면상에 표시할 수 있다.
즉, 발화자에 의해 인가된 음성에 따른 단어에 매칭되는 사용자 정의 단어가 사용자 정의 단어 데이터베이스(111) 상에 존재하지 않는 경우, 본 발명에 따른 음성 인식 처리 장치(110)는 음성 인식부(112)에 의한 음성 인식이 제대로 수행된 것으로 판단하고, 음성 인식부(112)에 의해서 인식된 음성 인식 결과를 그대로 화면상에 표시할 수 있다.
본 발명의 일실시예에 따르면, 음성 인식 처리 장치(110)는 폰트 정보 테이블 유지부(116)를 더 포함할 수 있다.
폰트 정보 테이블 유지부(116)는 미리 정해진 복수의 서로 다른 음량 값 범위들과 상기 복수의 서로 다른 음량 값 범위들 각각에 대한 미리 정해진 고유 폰트(font)에 대한 정보가 서로 대응되어 기록되어 있는 폰트 정보 테이블을 저장하여 유지한다.
예컨대, 상기 폰트 정보 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.
복수의 서로 다른 음량 값 범위들 고유 폰트에 대한 정보
0~30dB 명조체
30~70dB 고딕체
70~100dB 궁서체
... ...
이때, 음성 인식부(112)는 상기 마이크로폰을 통해 상기 발화자로부터 음성이 입력되면, 상기 발화자의 음성 입력에 따른 제1 음량 값을 확인하는 음량 값 확인부(117)를 포함할 수 있다.
그리고, 음성 인식 보정 처리부(115)는 상기 최종 인식 결과 단어의 확정이 완료되면, 상기 폰트 정보 테이블로부터 상기 제1 음량 값이 속해있는 음량 값 범위에 대응되어 기록되어 있는 제1 고유 폰트에 대한 정보를 확인한 후 상기 최종 인식 결과 단어에 상기 제1 고유 폰트에 따른 폰트 서식을 적용하여 화면상에 표시할 수 있다.
예컨대, 발화자에 의해 인가된 음성에 따른 상기 제1 음량 값이 '40dB'이라고 하고, 상기 최종 인식 결과 단어가 '반품집화'라고 하는 경우, 음성 인식 보정 처리부(115)는 상기 표 2와 같은 폰트 정보 테이블을 참조하여 상기 제1 음량 값인 '40dB'이 속해있는 음량 값 범위에 대응되어 기록되어 있는 제1 고유 폰트에 대한 정보인 '고딕체'를 확인한 후 '반품집화'라는 단어에 '고딕체'에 따른 폰트 서식을 적용해서 화면상에 표시할 수 있다.
본 발명의 일실시예에 따르면, 사용자 정의 단어 데이터베이스(111)에는 상기 복수의 사용자 정의 단어들 각각에 대해 음성 인식이 부정확하게 수행되었음을 지시하는 부정확 응답 메시지의 수신 횟수가 추가로 대응되어 저장되어 있을 수 있다.
예컨대, 사용자 정의 단어 데이터베이스(111)에는 하기의 표 3과 같이 각 사용자 정의 단어에 대해 부정확 응답 메시지의 수신 횟수가 추가로 대응되어 저장되어 있을 수 있다.
복수의 사용자 정의 단어들 발음 문자열 부정확 응답 메시지의 수신 횟수
반품집화 반품지퐈 4회
택배 택빼 3회
운송장 운송장 5회
... ... ...
이때, 음성 인식 처리 장치(110)는 질의 메시지 표시부(118), 횟수 갱신부(119) 및 데이터베이스 갱신 처리부(120)를 더 포함할 수 있다.
질의 메시지 표시부(118)는 음성 인식 보정 처리부(115)에 의해 상기 최종 인식 결과 단어가 화면상에 표시되면, 상기 최종 인식 결과 단어에 대한 정확성 여부를 질의하는 질의 메시지를 화면상에 표시한다.
횟수 갱신부(119)는 상기 발화자에 의해 상기 질의 메시지에 대한 응답 메시지로 상기 최종 인식 결과 단어가 부정확함을 지시하는 상기 부정확 응답 메시지가 수신된 경우, 사용자 정의 단어 데이터베이스(111)에서 상기 제2 사용자 정의 단어에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 1회 증가시킨다.
예컨대, '반품집화'라는 단어가 최종 인식 결과 단어로 확인되어 화면상에 표시되었지만, 발화자는 '반품집화'가 자신이 음성으로 입력한 단어가 아닌 것으로 확인된다면, '반품집화'가 부정확하게 인식되었음을 지시하는 부정확 응답 메시지를 음성 인식 처리 장치(110)에 인가할 수 있고, 이때, 횟수 갱신부(119)는 상기 표 3과 같은 사용자 정의 단어 데이터베이스(111)에서 '반품집화'에 대응되어 저장되어 있는 부정확 응답 메시지의 수신 횟수를 1회 증가시켜 '5회'로 변경할 수 있다.
데이터베이스 갱신 처리부(120)는 기설정된 주기 간격으로 사용자 정의 단어 데이터베이스(111)에서 상기 복수의 사용자 정의 단어들 각각에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 확인하여 상기 부정확 응답 메시지의 수신 횟수가 기설정된 기준 횟수를 초과하는 것으로 확인되는 사용자 정의 단어를 사용자 정의 단어 데이터베이스(111)에서 삭제한다.
즉, 사용자 정의 단어 데이터베이스(111)에서 상기 부정확 응답 메시지의 수신 횟수가 높게 기록되어 있는 사용자 정의 단어는 발화자의 음성에 대응되는 적절한 단어를 인식하는 데에 방해가 될 뿐이기 때문에, 데이터베이스 갱신 처리부(120)는 상기 기설정된 주기 간격으로 상기 부정확 응답 메시지의 수신 횟수가 기설정된 기준 횟수를 초과하는 사용자 정의 단어를 사용자 정의 단어 데이터베이스(111)에서 삭제 처리할 수 있다.
도 2는 본 발명의 일실시예에 따른 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있는 사용자 정의 단어 데이터베이스를 유지한다.
단계(S220)에서는 마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성한다.
단계(S230)에서는 상기 사용자 정의 단어 데이터베이스에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산한다.
단계(S240)에서는 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택한다.
단계(S250)에서는 상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시한다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열의 자소를 분리하고, 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 LCS의 길이를 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도로 연산할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S240)에서는 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대로 연산된 발음 문자열을 갖는 사용자 정의 단어가 둘 이상 존재하는 경우, 상기 제1 발음 문자열과의 유사도가 최대인 둘 이상의 사용자 정의 단어들 각각과 상기 제1 인식 단어의 자소를 분리하여 상기 둘 이상의 사용자 정의 단어들 각각의 자소와 상기 제1 인식 단어의 자소 간의 LCS의 길이를 연산한 후 상기 둘 이상의 사용자 정의 단어들 중 상기 제1 인식 단어의 자소와의 LCS의 길이가 최대로 연산된 자소를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 선택할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S240)에서는 상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 상기 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 상기 적어도 하나의 제1 사용자 정의 단어가 존재하지 않는 경우, 사용자 정의 단어에 대한 선택 중지 이벤트를 실행시킬 수 있다.
이때, 단계(S250)에서는 상기 사용자 정의 단어에 대한 선택 중지 이벤트가 실행되면, 상기 제1 인식 단어를 상기 발화자의 음성에 대응되는 상기 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 음성 인식 처리 장치의 동작 방법은 미리 정해진 복수의 서로 다른 음량 값 범위들과 상기 복수의 서로 다른 음량 값 범위들 각각에 대한 미리 정해진 고유 폰트에 대한 정보가 서로 대응되어 기록되어 있는 폰트 정보 테이블을 저장하여 유지하는 단계 및 상기 마이크로폰을 통해 상기 발화자로부터 음성이 입력되면, 상기 발화자의 음성 입력에 따른 제1 음량 값을 확인하는 단계를 더 포함할 수 있다.
이때, 단계(S250)에서는 상기 최종 인식 결과 단어의 확정이 완료되면, 상기 폰트 정보 테이블로부터 상기 제1 음량 값이 속해있는 음량 값 범위에 대응되어 기록되어 있는 제1 고유 폰트에 대한 정보를 확인한 후 상기 최종 인식 결과 단어에 상기 제1 고유 폰트에 따른 폰트 서식을 적용하여 화면상에 표시할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 사용자 정의 단어 데이터베이스에는 상기 복수의 사용자 정의 단어들 각각에 대해 음성 인식이 부정확하게 수행되었음을 지시하는 부정확 응답 메시지의 수신 횟수가 추가로 대응되어 저장되어 있을 수 있다.
이때, 상기 음성 인식 처리 장치의 동작 방법은 상기 최종 인식 결과 단어가 화면상에 표시되면, 상기 최종 인식 결과 단어에 대한 정확성 여부를 질의하는 질의 메시지를 화면상에 표시하는 단계, 상기 발화자에 의해 상기 질의 메시지에 대한 응답 메시지로 상기 최종 인식 결과 단어가 부정확함을 지시하는 상기 부정확 응답 메시지가 수신된 경우, 상기 사용자 정의 단어 데이터베이스에서 상기 제2 사용자 정의 단어에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 1회 증가시키는 단계 및 기설정된 주기 간격으로 상기 사용자 정의 단어 데이터베이스에서 상기 복수의 사용자 정의 단어들 각각에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 확인하여 상기 부정확 응답 메시지의 수신 횟수가 기설정된 기준 횟수를 초과하는 것으로 확인되는 사용자 정의 단어를 상기 사용자 정의 단어 데이터베이스에서 삭제하는 단계를 더 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 음성 인식 처리 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 음성 인식 처리 장치의 동작 방법은 도 1을 이용하여 설명한 음성 인식 처리 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 음성 인식 처리 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 음성 인식 처리 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치
111: 사용자 정의 단어 데이터베이스 112: 음성 인식부
113: 유사도 연산부 114: 단어 선택부
115: 음성 인식 보정 처리부 116: 폰트 정보 테이블 유지부
117: 음량 값 확인부 118: 질의 메시지 표시부
119: 횟수 갱신부 120: 데이터베이스 갱신 처리부

Claims (14)

  1. 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있는 사용자 정의 단어 데이터베이스;
    마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된(predetermined) 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성하는 음성 인식부;
    상기 사용자 정의 단어 데이터베이스에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산하는 유사도 연산부;
    상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택하는 단어 선택부; 및
    상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 음성 인식 보정 처리부
    를 포함하고,
    상기 유사도 연산부는
    상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열의 자소를 분리하고, 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이를 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도로 연산하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 단어 선택부는
    상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대로 연산된 발음 문자열을 갖는 사용자 정의 단어가 둘 이상 존재하는 경우, 상기 제1 발음 문자열과의 유사도가 최대인 둘 이상의 사용자 정의 단어들 각각과 상기 제1 인식 단어의 자소를 분리하여 상기 둘 이상의 사용자 정의 단어들 각각의 자소와 상기 제1 인식 단어의 자소 간의 LCS의 길이를 연산한 후 상기 둘 이상의 사용자 정의 단어들 중 상기 제1 인식 단어의 자소와의 LCS의 길이가 최대로 연산된 자소를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 선택하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치.
  4. 제1항에 있어서,
    상기 단어 선택부는
    상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 상기 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 상기 적어도 하나의 제1 사용자 정의 단어가 존재하지 않는 경우, 사용자 정의 단어에 대한 선택 중지 이벤트를 실행시키고,
    상기 음성 인식 보정 처리부는
    상기 사용자 정의 단어에 대한 선택 중지 이벤트가 실행되면, 상기 제1 인식 단어를 상기 발화자의 음성에 대응되는 상기 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치.
  5. 제1항에 있어서,
    미리 정해진 복수의 서로 다른 음량 값 범위들과 상기 복수의 서로 다른 음량 값 범위들 각각에 대한 미리 정해진 고유 폰트(font)에 대한 정보가 서로 대응되어 기록되어 있는 폰트 정보 테이블을 저장하여 유지하는 폰트 정보 테이블 유지부
    를 더 포함하고,
    상기 음성 인식부는
    상기 마이크로폰을 통해 상기 발화자로부터 음성이 입력되면, 상기 발화자의 음성 입력에 따른 제1 음량 값을 확인하는 음량 값 확인부
    를 포함하며,
    상기 음성 인식 보정 처리부는
    상기 최종 인식 결과 단어의 확정이 완료되면, 상기 폰트 정보 테이블로부터 상기 제1 음량 값이 속해있는 음량 값 범위에 대응되어 기록되어 있는 제1 고유 폰트에 대한 정보를 확인한 후 상기 최종 인식 결과 단어에 상기 제1 고유 폰트에 따른 폰트 서식을 적용하여 화면상에 표시하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치.
  6. 제1항에 있어서,
    상기 사용자 정의 단어 데이터베이스에는
    상기 복수의 사용자 정의 단어들 각각에 대해 음성 인식이 부정확하게 수행되었음을 지시하는 부정확 응답 메시지의 수신 횟수가 추가로 대응되어 저장되어 있고,
    상기 음성 인식 처리 장치는
    상기 최종 인식 결과 단어가 화면상에 표시되면, 상기 최종 인식 결과 단어에 대한 정확성 여부를 질의하는 질의 메시지를 화면상에 표시하는 질의 메시지 표시부;
    상기 발화자에 의해 상기 질의 메시지에 대한 응답 메시지로 상기 최종 인식 결과 단어가 부정확함을 지시하는 상기 부정확 응답 메시지가 수신된 경우, 상기 사용자 정의 단어 데이터베이스에서 상기 제2 사용자 정의 단어에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 1회 증가시키는 횟수 갱신부; 및
    기설정된 주기 간격으로 상기 사용자 정의 단어 데이터베이스에서 상기 복수의 사용자 정의 단어들 각각에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 확인하여 상기 부정확 응답 메시지의 수신 횟수가 기설정된 기준 횟수를 초과하는 것으로 확인되는 사용자 정의 단어를 상기 사용자 정의 단어 데이터베이스에서 삭제하는 데이터베이스 갱신 처리부
    를 더 포함하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치.
  7. 미리 정해진 복수의 사용자 정의 단어들과 상기 복수의 사용자 정의 단어들 각각을 발음나는데로 표현한 발음 문자열이 서로 대응되어 저장되어 있는 사용자 정의 단어 데이터베이스를 유지하는 단계;
    마이크로폰을 통해 발화자로부터 음성이 입력되면, 음성 인식을 위한 기설정된(predetermined) 음성 인식 모델 데이터를 기초로 상기 발화자의 음성을 인식하여 상기 발화자의 음성 인식 결과에 따른 제1 인식 단어를 생성하고, 상기 제1 인식 단어를 발음나는데로 표현한 제1 발음 문자열을 생성하는 단계;
    상기 사용자 정의 단어 데이터베이스에 저장되어 있는 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도를 연산하는 단계;
    상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 적어도 하나의 제1 사용자 정의 단어를 선택하고, 상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대인 발음 문자열을 갖는 제2 사용자 정의 단어를 선택하는 단계; 및
    상기 제2 사용자 정의 단어를 상기 발화자의 음성에 대응되는 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 단계
    를 포함하고,
    상기 유사도를 연산하는 단계는
    상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열의 자소를 분리하고, 상기 복수의 사용자 정의 단어들 각각의 발음 문자열의 자소와 상기 제1 발음 문자열의 자소 간의 최장 공통 부분 수열(Longest Common Subsequence: LCS)의 길이를 상기 복수의 사용자 정의 단어들 각각의 발음 문자열과 상기 제1 발음 문자열 간의 유사도로 연산하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법.
  8. 삭제
  9. 제7항에 있어서,
    상기 제2 사용자 정의 단어를 선택하는 단계는
    상기 적어도 하나의 제1 사용자 정의 단어 중에서 상기 제1 발음 문자열과의 유사도가 최대로 연산된 발음 문자열을 갖는 사용자 정의 단어가 둘 이상 존재하는 경우, 상기 제1 발음 문자열과의 유사도가 최대인 둘 이상의 사용자 정의 단어들 각각과 상기 제1 인식 단어의 자소를 분리하여 상기 둘 이상의 사용자 정의 단어들 각각의 자소와 상기 제1 인식 단어의 자소 간의 LCS의 길이를 연산한 후 상기 둘 이상의 사용자 정의 단어들 중 상기 제1 인식 단어의 자소와의 LCS의 길이가 최대로 연산된 자소를 갖는 사용자 정의 단어를 상기 제2 사용자 정의 단어로 선택하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법.
  10. 제7항에 있어서,
    상기 제2 사용자 정의 단어를 선택하는 단계는
    상기 복수의 사용자 정의 단어들 중 상기 제1 발음 문자열과의 유사도가 상기 기설정된 기준 유사도 이상으로 연산된 발음 문자열을 갖는 상기 적어도 하나의 제1 사용자 정의 단어가 존재하지 않는 경우, 사용자 정의 단어에 대한 선택 중지 이벤트를 실행시키고,
    상기 최종 인식 결과 단어를 화면상에 표시하는 단계는
    상기 사용자 정의 단어에 대한 선택 중지 이벤트가 실행되면, 상기 제1 인식 단어를 상기 발화자의 음성에 대응되는 상기 최종 인식 결과 단어로 확정하여 상기 최종 인식 결과 단어를 화면상에 표시하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법.
  11. 제7항에 있어서,
    미리 정해진 복수의 서로 다른 음량 값 범위들과 상기 복수의 서로 다른 음량 값 범위들 각각에 대한 미리 정해진 고유 폰트(font)에 대한 정보가 서로 대응되어 기록되어 있는 폰트 정보 테이블을 저장하여 유지하는 단계; 및
    상기 마이크로폰을 통해 상기 발화자로부터 음성이 입력되면, 상기 발화자의 음성 입력에 따른 제1 음량 값을 확인하는 단계
    를 더 포함하고,
    상기 최종 인식 결과 단어를 화면상에 표시하는 단계는
    상기 최종 인식 결과 단어의 확정이 완료되면, 상기 폰트 정보 테이블로부터 상기 제1 음량 값이 속해있는 음량 값 범위에 대응되어 기록되어 있는 제1 고유 폰트에 대한 정보를 확인한 후 상기 최종 인식 결과 단어에 상기 제1 고유 폰트에 따른 폰트 서식을 적용하여 화면상에 표시하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법.
  12. 제7항에 있어서,
    상기 사용자 정의 단어 데이터베이스에는
    상기 복수의 사용자 정의 단어들 각각에 대해 음성 인식이 부정확하게 수행되었음을 지시하는 부정확 응답 메시지의 수신 횟수가 추가로 대응되어 저장되어 있고,
    상기 음성 인식 처리 장치의 동작 방법은
    상기 최종 인식 결과 단어가 화면상에 표시되면, 상기 최종 인식 결과 단어에 대한 정확성 여부를 질의하는 질의 메시지를 화면상에 표시하는 단계;
    상기 발화자에 의해 상기 질의 메시지에 대한 응답 메시지로 상기 최종 인식 결과 단어가 부정확함을 지시하는 상기 부정확 응답 메시지가 수신된 경우, 상기 사용자 정의 단어 데이터베이스에서 상기 제2 사용자 정의 단어에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 1회 증가시키는 단계; 및
    기설정된 주기 간격으로 상기 사용자 정의 단어 데이터베이스에서 상기 복수의 사용자 정의 단어들 각각에 대응되어 저장되어 있는 상기 부정확 응답 메시지의 수신 횟수를 확인하여 상기 부정확 응답 메시지의 수신 횟수가 기설정된 기준 횟수를 초과하는 것으로 확인되는 사용자 정의 단어를 상기 사용자 정의 단어 데이터베이스에서 삭제하는 단계
    를 더 포함하는 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치의 동작 방법.
  13. 제7항, 제9항, 제10항, 제11항 또는 제12항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  14. 제7항, 제9항, 제10항, 제11항 또는 제12항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020180109117A 2018-09-12 2018-09-12 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법 KR102144345B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180109117A KR102144345B1 (ko) 2018-09-12 2018-09-12 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180109117A KR102144345B1 (ko) 2018-09-12 2018-09-12 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20200030354A KR20200030354A (ko) 2020-03-20
KR102144345B1 true KR102144345B1 (ko) 2020-08-13

Family

ID=69958189

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180109117A KR102144345B1 (ko) 2018-09-12 2018-09-12 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102144345B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102566899B1 (ko) * 2020-02-24 2023-08-14 주식회사 한글과컴퓨터 개인별 맞춤형 자동 오타 정정을 수행할 수 있는 전자 단말 장치 및 그 동작 방법
KR102503586B1 (ko) * 2020-09-29 2023-02-24 네이버 주식회사 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN112863516A (zh) * 2020-12-31 2021-05-28 竹间智能科技(上海)有限公司 一种文本纠错方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215396A (ja) 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
KR101681944B1 (ko) * 2015-07-09 2016-12-02 (주)신명시스템즈 임의의 입력 음성에 대한 한국어 발음 표시 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
KR102357321B1 (ko) * 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014215396A (ja) 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
KR101681944B1 (ko) * 2015-07-09 2016-12-02 (주)신명시스템즈 임의의 입력 음성에 대한 한국어 발음 표시 장치 및 방법

Also Published As

Publication number Publication date
KR20200030354A (ko) 2020-03-20

Similar Documents

Publication Publication Date Title
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
US5127055A (en) Speech recognition apparatus & method having dynamic reference pattern adaptation
KR102144345B1 (ko) 사용자 정의 단어에 기초하여 음성 인식 결과의 보정 처리를 수행하는 음성 인식 처리 장치 및 그 동작 방법
JP3414735B2 (ja) 複合ワードを有する言語のための音声認識装置
US9558741B2 (en) Systems and methods for speech recognition
US6732074B1 (en) Device for speech recognition with dictionary updating
US9135911B2 (en) Automated generation of phonemic lexicon for voice activated cockpit management systems
US20020049590A1 (en) Speech data recording apparatus and method for speech recognition learning
CN110473527B (zh) 一种语音识别的方法和系统
CN112951211B (zh) 一种语音唤醒方法及装置
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
US11232786B2 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
JP2000293191A (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
JP6664466B2 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
KR102187528B1 (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN114530145A (zh) 语音识别结果纠错方法及装置、计算机可读存储介质
KR20120046627A (ko) 화자 적응 방법 및 장치
JP2009031328A (ja) 音声認識装置
US11341961B2 (en) Multi-lingual speech recognition and theme-semanteme analysis method and device
US7899251B2 (en) Balancing out-of-dictionary and in-dictionary recognition scores
JP2016191739A (ja) 発音誤り検出装置、方法およびプログラム
KR102119740B1 (ko) 음성인식을 기반으로 입력 단어에 대한 오타 보정 처리를 수행하는 전자 단말 장치 및 그 동작 방법
JP2001109491A (ja) 連続音声認識装置および方法
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right