KR102204395B1 - 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 - Google Patents
개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 Download PDFInfo
- Publication number
- KR102204395B1 KR102204395B1 KR1020130151798A KR20130151798A KR102204395B1 KR 102204395 B1 KR102204395 B1 KR 102204395B1 KR 1020130151798 A KR1020130151798 A KR 1020130151798A KR 20130151798 A KR20130151798 A KR 20130151798A KR 102204395 B1 KR102204395 B1 KR 102204395B1
- Authority
- KR
- South Korea
- Prior art keywords
- correction
- category
- spacing
- recognition
- error
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012937 correction Methods 0.000 claims abstract description 259
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000003058 natural language processing Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims 3
- 235000009091 Cordyline terminalis Nutrition 0.000 description 30
- 244000289527 Cordyline terminalis Species 0.000 description 30
- 241000287828 Gallus gallus Species 0.000 description 9
- 238000013519 translation Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템으로서, 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계; 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계; 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법과 이를 제공하기 위한 시스템이며, 이와 같은 본 발명에 의하면 고유명사나 신종 단어 및 변종 단어 등과 같이 음성인식 사전에 등록되어 있지 않는 단어가 사용되는 경우에도 먼저 카테고리로서 해당 단어의 범주를 파악하고 이를 띄어쓰기 확률에 적용함으로써 정확하고 신뢰도 높게 음성 인식의 띄어쓰기 오류를 보정할 수 있게 된다.
Description
본 발명은 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템에 대한 것으로서, 보다 상세하게는 음성인식 결과에서 띄어쓰기 오류 구간을 추정하고 상기 오류 구간의 카테고리를 고려하여 카테고리별 개체명 사전을 기초로 띄어쓰기 확률을 적용함으로써 보다 정확하고 신뢰도 높게 음성 인식에 대한 띄어쓰기를 보정할 수 있는 방안을 개시한다.
디지털 통신 기술의 발달에 따라 사람들의 일상 생활에서 디지털 통신 기기들의 사용이 생활의 일부분으로 자리잡고 있는데, 각종 스마트 디바이스(smart device)나 웨어러블 디바이스(wearable device)가 등장하면서 기존의 키보드나 터치 패드 중심의 인터페이스만으로 제공되던 각종 서비스들이 사용자의 편리성을 더욱 도모하고자 점차 음성 인터페이스로 대체되고 있는 실정이다.
이와 같은 기술발전으로 음성 인식은 단순히 사람들 간의 소통 수단에서 각종 주변 생활 기기들을 제어하거나 서비스를 제공받기 위한 입력 수단으로 확장되어 가고 있다.
종래의 일반적인 음성 인식 엔진의 경우에 음성 인식 결과에 대한 정확률이 60~70% 수준이며, 여기에는 철자 오류나 띄어쓰기 오류 등 다양한 인식 오류가 포함되어 있어 음성 인식에 따라 스마트 기기 제어나 서비스를 제공하는데 있어서 사용자의 의도와는 다른 결과가 도출되는 문제점이 자주 발생되는 상황이므로, 이를 해결하고자 보다 정확한 음성 인식을 위한 다양한 기술들이 제시되고 있다.
특히, 음성 인식 오류 중 가장 빈번히 발생되는 부분이 띄어쓰기 오류인데, 이에 대한 해결 방안으로써 엔-그램(N-gram) 확률 모델에 따른 띄어쓰기를 보정하는 다양한 방안이 제시된 바 있다.
도 1은 종래기술에 따른 엔-그램 확률 모델을 적용하여 띄어쓰기를 보정하는 방법을 도시하는데, 음성이 입력(S10)되면 입력된 음성을 텍스트 등으로 변환하여 인식(S20)하고, 띄어쓰기 등의 정확도를 높이기 위해서 텍스트의 음성 쌍에 대한 바이그램(bi-gram) 특성을 추출(S30)하여 그에 따라 띄어쓰기 공백 삽입 확률을 산출(S40)한다. 그리고 산출된 확률에 기초하여 상기 텍스트 상에 띄어쓰기 오류를 보정(S50)하여 음성 인식에 대한 보정된 음성 인식 결과(S60)가 도출된다.
이와 같은 상기 도 1의 종래기술뿐만 아니라 그외 종래기술들도 일반적으로 각종 사전에 등록된 단어들을 기초로 띄어쓰기를 보정하고 있는데, 세상에 존재하는 모든 단어가 사전에 반영되는 것은 불가능하며, 나아가서 빅 데이터 환경에서 데이터의 급속한 확장으로 인해 새로운 단어의 추가가 기하급수적으로 증가하고 기존의 단어 의미가 변형되는 수도 증가하고 있는 상황이므로 정확한 신종 또는 변종 단어의 의미를 실시간 파악하여 사전에 반영하기가 힘들다.
특히, 이름이나 조직명 등의 고유명사는 그 수가 너무 방대하며 실시간 생성되고 소멸될뿐만 아니라 사용 빈도 또한 높지 않고, 또한 최근의 신종 단어 중에는 짧은 시간에 사용도가 폭넓게 퍼지면서도 그 사용주기가 짧은 단어들이 빈번하므로, 음성인식 엔진의 효율성 측면에서 이와 같은 단어들을 모두 음성인식 사전에 반영하고 있지 못한 것이 현실이다.
따라서 종래기술에 따른 음성인식의 경우에 고유명사나 신종 단어들을 인식하는 것이 불가능한데, 가령 "안동훈씨는 언제 태어났지?"라는 음성이 입력되는 경우에 지역명 ‘안동’이 사전 등에 빈번하게 등장하고 사람 이름인 ‘안동훈’이란 단어가 사전에는 존재하지 않기 때문에 종래기술에 따른 음성인식에서는 이를 지역명으로 인식하여 ‘안동’, ’공백’, ’훈씨는’으로 인식함으로써 띄어쓰기에 대한 오류가 발생된다.
이와 같은 음성 인식의 띄어쓰기에 대한 오류로 인해 음성 인식을 기반으로 제어되는 각종 스마트 기기나 서비스 등에서 실질적으로 사용자가 원하는 동작이나 서비스 제공이 이루어지지 않으며, 특히 웨어러블 디바이스 등은 그 기능적 특성으로 인해 키패드나 터치 패드를 음성 인식으로 대체하는 추세이므로 음성 인식의 오류는 기기 동작에 치명적인 오류로 발생되게 된다.
나아가서 음성 인식에 따른 외국어 번역 또는 통역에서도 음성 인식의 띄어쓰기 오류는 전혀 다른 의미로 번역 또는 통역이 이루어질 수 있어 오역에 따른 큰 혼란을 야기시킬 수도 있게 된다.
본 발명은 상술한 바와 같은 종래 기술의 문제점을 해결하고자 하는 것으로서, 고유명사나 신종 단어 및 변종 단어 등이 음성인식 사전에 등록되어 있지 않음에 따라 발생되는 음성인식 오류를 해결하고자 한다.
특히, 띄어쓰기 인식에 대한 오류로 인해 음성 인식을 기반으로 제어되는 각종 스마트 기기나 서비스 등에서 실질적으로 사용자가 원하는 동작이나 서비스 제공이 이루어지지 않는 문제점을 해결하고자 한다.
나아가서 음성 인식에 따른 외국어 번역 또는 통역에서 띄어쓰기 등의 오류로 인해 전혀 다른 의미로 번역 또는 통역이 이루어질 수 있어 오역에 따른 큰 혼란을 야기시킬 수도 있는 문제점을 해결하고자 한다.
상기 기술적 과제를 달성하고자 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법은, 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계; 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계; 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함할 수 있다.
바람직하게는 상기 오류 구간 판단 단계는, 형태소 사전을 기초로 상기 음성 텍스트에 대한 형태소를 분석하는 형태소 분석 단계; 및 상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하여, 상기 오류 구간을 보정 대상으로 설정하는 보정 대상 설정 단계를 포함할 수 있다.
여기서 상기 보정 대상 설정 단계는, 상기 음성 텍스트에 대한 형태소 분석 결과에서 하기 [ 조건 1 ] 또는 [ 조건 2 ]와 하기 [ 조건 3 ]을 적용하여,
[ 조건 1 ] = 한 어절이 두 음절이하로 구성,
[ 조건 2 ] = 한 어절이 5음절 이상으로 구성,
[ 조건 3 ] = 명사 또는 명사와 조사의 품사만으로 구성,
상기 [ 조건 1 ] 또는 [ 조건 2 ]와 상기 [ 조건 3 ]을 충족하는 구간을 오류 구간으로 추출하는 오류 구간 추출 단계; 및 추출한 상기 오류 구간을 하나의 어절로 생성하고 이를 보정 대상으로 설정하는 보정 대상 설정 단계를 포함할 수 있다.
그리고 상기 카테고리 추정 단계는, 상기 음성 텍스트에 대한 자연어 처리 결과를 기초로 상기 보정 대상의 전후 문맥을 고려하여 상기 보정 대상이 사용되는 사용 패턴 후보를 생성하는 사용 패턴 후보 생성 단계; 상기 카테고리별 개체명 사용 패턴 DB에서 상기 사용 패턴 후보에 대응되는 개체명 사용 패턴을 검색하는 사용 패턴 검색 단계; 및 검색된 개체명 사용 패턴이 속하는 카테고리를 상기 보정 대상의 카테고리로 설정하는 카테고리 설정 단계를 포함할 수 있다.
여기서 상기 사용 패턴 후보 생성 단계에서는, 복수의 사용 패턴 후보를 생성하며, 상기 사용 패턴 검색 단계에서는, 각각의 사용 패턴 후보에 대응되는 개체명 사용 패턴을 검색하며, 상기 카테고리 설정 단계에서는, 각각의 사용 패턴 후보에 대응되는 개체명 사용 패턴이 속하는 카테고리의 빈도수 중 가장 높은 빈도의 카테고리를 상기 보정 대상의 카테고리로 설정할 수도 있다.
보다 바람직하게는 상기 사용 패턴 후보 생성 단계는, 상기 음성 텍스트에 대한 자연어 처리 결과를 기초로 상기 보정 대상이 포함된 문장에서 명사를 추출하는 단계; 및 추출된 상기 명사를 상기 보정 대상과 조합하여 사용 패턴 후보를 생성하는 단계를 포함할 수도 있다.
나아가서 상기 띄어쓰기 보정 단계는, 상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들을 기초로 상기 보정 대상의 순차적인 연이은 음절 쌍들에 대한 유니그램(Uni-gram)과 바이그램(Bi-gram)의 출현 빈도수로 상기 보정 대상에 대한 띄어쓰기 확률을 산출하는 띄어쓰기 확률 산출 단계; 및 상기 띄어쓰기 확률에 따라 상기 보정 대상에 대하여 띄어쓰기를 보정하는 보정 대상 보정 단계를 포함할 수 있다.
바람직하게는 상기 띄어쓰기 확률 산출 단계에서는, 각각의 상기 음절 쌍에 대하여 붙여쓰기 확률을 하기 [식 1]로 산출하고,
여기서, 상기 Xn은 상기 보정 대상에서 n번째 음절이며, 상기 P(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 붙여쓰기 확률이고, 상기 K는 가중치이고, 상기 B(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 바이그램의 출현 빈도율로서 하기 [식 2]로 산출하고, 상기 U(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 유니그램의 출현 빈도율로서 하기 [식 3]으로 산출하며,
여기서, 상기 freq(Xn)는 상기 카테고리별 개체명 사전 DB의 개체명들 중 상기 보정 대상이 속하는 카테고리에서 음절 Xn의 출현 횟수이며, 상기 M은 상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들의 음절수 총합을 나타내며, 산출된 각각의 음절 쌍에 대한 붙여쓰기 확률을 기초로 상기 띄어쓰기 확률을 산출할 수 있다.
여기서 상기 띄어쓰기 확률 산출 단계에서는, 각각의 상기 음절 쌍에 대한 붙여쓰기 확률이 기준치 이하인 경우 띄어쓰기로 판단할 수 있다.
또는 상기 띄어쓰기 확률 산출 단계에서는, 각각의 상기 음절 쌍에 대하여, P(Xn, Xn +1)과 P(Xn , 공백)을 산출하며, 여기서 상기 공백은 개체명 중 음절 Xn으로 끝나는 경우를 나타내고, 상기 P(Xn , 공백)이 상기 P(Xn , Xn +1) 보다 큰 경우 띄어쓰기로 판단할 수도 있다.
또한 본 발명에 따른 음성인식 띄어쓰기 보정 시스템은, 음성 인식으로 생성된 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류가 발생된 오류 구간을 추정하여 상기 오류 구간을 보정 대상으로 설정하는 음성 인식부; 및 개체명에 대한 카테고리별 사용 패턴이 저장된 카테고리별 개체명 사용 패턴 DB 및 개체명에 대한 카테고리별 의미가 저장된 카테고리별 개체명 사전 DB와 연동하여 상기 보정 대상에 대한 카테고리를 추정하고, 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram) 모델을 적용하여 상기 보정 대상의 띄어쓰기를 보정하는 인식 오류 보정부를 포함하는 음성 인식 보정 장치를 포함하여 구성될 수 있다.
바람직하게는 상기 음성 인식부는, 형태소 사전을 기초로 상기 음성 텍스트에 대한 형태소를 분석하는 자연어 처리부; 및 상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 발생 판단부를 포함할 수 있다.
그리고 상기 인식 오류 보정부는, 상기 카테고리별 개체명 사용 패턴 DB와 연동하여 상기 음성 텍스트에서 상기 보정 대상의 전후 문맥을 고려하여 상기 보정 대상의 카테고리를 설정하는 카테고리 추정부; 및 상기 카테고리별 개체명 사전 DB와 연동하여 카테고리별 음절 엔그램 모델에 따라 상기 보정 대상에 대한 띄어쓰기를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 추정부를 포함할 수 있다.
나아가서 상기 카테고리별 개체명 사전 DB에 저장된 카테고리별 개체명의 각각의 음절 엔그램에 대한 출현 빈도수를 저장하고 있는 카테고리별 음절 엔그램 모델 DB를 더 포함하며, 상기 띄어쓰기 추정부는, 상기 음절 엔그램 모델 DB에 저장된 카테고리별 개체명의 각각의 음절 엔그램에 대한 출현 빈도수를 기초로 상기 보정 대상에 대한 띄어쓰기 확률을 산출하여 상기 보정 대상의 띄어쓰기를 보정할 수도 있다.
한걸음 더 나아가서 입력된 음성을 인식하여 음성 텍스트를 생성하는 음성 입력부; 및 상기 음성 인식 보정 장치로부터 보정된 음성 텍스트를 수신하여 출력하는 음성 인식 출력부를 더 포함할 수도 있다.
이와 같은 본 발명에 의하면, 고유명사나 신종 단어 및 변종 단어 등과 같이 음성인식 사전에 등록되어 있지 않는 단어가 사용되는 경우에도 먼저 카테고리로서 해당 단어의 범주를 파악하고 이를 띄어쓰기 확률에 적용함으로써 정확하고 신뢰도 높게 음성 인식의 띄어쓰기 오류를 보정할 수 있게 된다.
특히, 각종 스마트 기기나 서비스 제공 시스템 등에서 사용자의 음성을 정확하게 인식하여 분석함으로써 사용자가 원하는 동작이나 서비스 제공에 오류나 착오가 발생되지 않게 된다.
나아가서 음성 인식에 따른 외국어 번역 또는 통역에서 띄어쓰기 등의 오류로 인해 전혀 다른 의미로 번역 또는 통역이 이루어지는 문제를 해결함으로써 정확한 의사소통에 기여할 수 있게 된다.
도 1은 종래기술에 따른 엔그램(N-gram) 모델을 통한 띄어쓰기 보정 방법의 흐름도를 도시하며,
도 2는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 실시예에 대한 구성도를 도시하며,
도 3은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 음성 인식부의 실시예에 대한 구성도를 도시하며,
도 4는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 인식 오류 보정부의 실시예에 대한 구성도를 도시하며,
도 5는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 개략적인 흐름도를 도시하며,
도 6은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 실시예에 대한 흐름도를 도시하며,
도 7은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 오류 구간을 추출이 적용되는 실시예를 도시하며,
도 8은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 보정 대상에 대한 카테고리의 설정이 적용되는 실시예를 도시하며,
도 9는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 띄어쓰기 확률을 산출하고 이를 기초로 보정 대상에 대한 보정이 적용되는 실시예를 도시한다.
도 2는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 실시예에 대한 구성도를 도시하며,
도 3은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 음성 인식부의 실시예에 대한 구성도를 도시하며,
도 4는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 인식 오류 보정부의 실시예에 대한 구성도를 도시하며,
도 5는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 개략적인 흐름도를 도시하며,
도 6은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 실시예에 대한 흐름도를 도시하며,
도 7은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 오류 구간을 추출이 적용되는 실시예를 도시하며,
도 8은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 보정 대상에 대한 카테고리의 설정이 적용되는 실시예를 도시하며,
도 9는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 띄어쓰기 확률을 산출하고 이를 기초로 보정 대상에 대한 보정이 적용되는 실시예를 도시한다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 설명하기 위하여 이하에서는 본 발명의 바람직한 실시예를 예시하고 이를 참조하여 살펴본다.
먼저, 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 또한 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명은, 음성인식의 오류가 발생된 구간에 대하여 해당 카테고리를 추정하고 추정된 카테고리를 고려한 카테고리별 개체명을 기반으로 오류 구간에 대한 띄어쓰기 확률의 산출로 오류 구간에 대한 띄어쓰기를 보정함으로써 보다 정확하고 신뢰도 높게 음성 인식의 오류를 보정하는 방법과 시스템을 개시한다.
먼저 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에 대하여 그 실시예를 통해 살펴보고, 이를 이용하여 음성인식 띄어쓰기를 보정하는 방법에 대하여 그 실시예를 통해 살펴보기로 한다.
도 2는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 개략적인 구성을 도시한다.
본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템(100)은 개략적으로 음성 입력부(110), 음성 인식부(130), 인식 오류 보정부(150), 음성 인식 출력부(170)를 포함하여 구성될 수 있는데, 바람직하게는 음성 인식부(130)와 인식 오류 보정부(150)는 하나의 음성 인식 보정 장치(100a)로 구성되어 음성 인식 보정 장치(100a)가 기존의 음성 인식 장치와 연계되어 기존의 음성 인식 장치에서 발생되는 음성 인식 오류를 보정하도록 구성될 수도 있다.
본 발명의 주된 특징은 음성 인식의 오류 보정을 위해 오류 구간의 카테고리를 추정하고, 추정한 카테고리를 고려하여 오류 구간의 띄어쓰기를 보정하는데, 이를 위해 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템(100)은 카테고리별 개체명 사전 DB(200), 카테고리별 개체명 사용 패턴 DB(250), 카테고리별 음절 엔그램(N-gram) 모델 DB(300)를 필요에 따라 선택적으로 포함하여 구성되거나 이들 DB가 외부에 위치되어 이와 연동하도록 구성될 수도 있다.
카테고리별 개체명 사전 DB(200)은 개체명들이 카테고리별로 분류되어 저장된 일종의 사전 DB를 의미하고, 카테고리별 개체명 사용 패턴 DB(250)는 개체명들이 문장 내에서 사용되는 패턴을 카테고리별로 분류하여 저장한 DB를 의미하는데, 여기서 상기 카테고리란 사회, 정치, IT, 경제 등 개념적인 넓은 범위로 분류될 수도 있고 또는 인물명, 지역명, 브랜드명, 상품명 등의 세부적인 좁은 범위로 분류될 수도 있다.
이와 같은 카테고리별 개체명 사전 DB(200)와 카테고리별 개체명 사용 패턴 DB(250)에 대해서는 본 발명의 발명자가 제안한 "비지도 학습을 통한 개체명 사전 구축 방법 및 시스템" 발명(한국 특허출원번호 : 제 10-2013-0151365호)에서 자세하게 설명하고 있으며, 본 발명에서는 이와 같은 카테고리별 개체명 사전 DB(200)이나 카테고리별 개체명 사용 패턴 DB(250)를 구축하는 것이 아니고 이를 이용하는 것이므로 자세한 설명은 생략하기로 한다.
다시 도 2를 참조하여 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 구성에 대하여 계속하여 살펴보면, 음성 입력부(110)는 사용자의 음성을 입력 받고 이를 텍스트로 변환하여 음성 텍스트 파일을 생성한다.
음성 인식부(130)는 음성 입력부(110)에서 생성한 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 발생 여부를 판단하고, 인식 오류가 발생된 오류 구간을 추정하여 이를 보정 대상으로 설정한다. 이를 위해 음성 인식부(130)는 카테고리별 개체명 사전 DB(200)나 카테고리별 개체명 사용 패턴 DB(250)와 연동할 수도 있다.
인식 오류 보정부(150)는 카테고리별 개체명 사용 패턴 DB(250) 및 카테고리별 개체명 사전 DB(200)와 연동하여 상기 보정 대상에 대한 카테고리를 추정하고, 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram) 모델을 적용하여 상기 보정 대상의 띄어쓰기를 보정한다. 여기서 인식 오류 보정부(150)는 띄어쓰기 확률을 산출하여 이를 기초로 상기 보정 대상에 대한 띄어쓰기를 보정하는데, 이때 인식 오류 보정부(150)는 상기 보정 대상의 음절 쌍 각각에 대한 음절 엔그램의 출현 빈도수를 직접 산출할 수도 있고 또는 카테고리별 개체명 각각의 음절 엔그램에 대한 출현 빈도수가 저장된 카테고리별 음절 엔그램 모델 DB(300)의 데이터를 이용할 수도 있다.
그리고 음성 인식 출력부(170)는 인식 오류 보정부(150)가 보정한 음성 텍스트를 제공하는데, 보정된 음성 텍스트는 단순히 그 자체로 사용자에게 제공될 수도 있지만, 다양한 스마트 기기나 각종 서비스 시스템의 소스로 제공될 수 있다. 가령 스마트 기기의 경우에는 보정된 음성 텍스트가 각종 기능을 제어하는 명령으로 제공될 수도 있고 또는 번역이나 통역 서비스 시스템 등에서는 음성 인식에 대한 보정된 음성 텍스트를 제공함으로써 보다 정확하고 신뢰도 높은 번역이나 통역이 이루어질 수 있다.
상기 도 2에 도시된 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 주요 구성에 대하여 구체적인 실시예를 통해 살펴보자면, 도 3은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 음성 인식부의 실시예에 대한 구성도를 도시하며, 도 4는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템에서 인식 오류 보정부의 실시예에 대한 구성도를 도시한다.
먼저 상기 도 3을 참조하여 음성 인식부(130)의 구성에 대하여 좀더 자세히 살펴보면, 음성 인식부(130)는 자연어 처리부(131)와 오류 발생 판단부(135)를 포함하여 구성될 수 있다.
자연어 처리부(131)는 자연어 처리 과정을 수행하여 음성 텍스트를 분석하는데, 바람직하게는 음성 텍스트에 대한 형태소를 분석한다. 이때 형태소 사전(350)이 연동될 수 있다.
그리고 오류 발생 판단부(135)는 자연어 처리부(131)에서 수행한 상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하고, 상기 오류 구간을 보정 대상으로 설정한다. 오류 발생 판단부(135)가 상기 음성 텍스트 상에서 오류 구간을 판단함에 있어서 사전에 설정된 오류 구간 추출 조건이 적용될 수 있으며, 오류 발생 판단부(135)에서 오류 구간을 추출하는 동작에 대해서는 이후에 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 실시예를 통해 자세히 살펴보기로 한다.
다음으로 상기 도 4를 참조하여 인식 오류 보정부(150)의 구성에 대하여 좀더 자세히 살펴보면, 인식 오류 보정부(150)는 카테고리 추정부(151)와 띄어쓰기 추정부(155)를 포함하여 구성될 수 있는데, 상기 도 4에 도시된 바와 같이 인식 오류 보정부(150)는 카테고리별 개체명 사전 DB(200) 및 카테고리별 개체명 사용 패턴 DB(250)와 연동할 수 있고 또한 필요에 따라서는 카테고리별 음절 엔그램 모델 DB(300)과 연동할 수도 있다. 나아가서 인식 오류 보정부(150)는 필요에 따라 이들 DB를 포함하여 구성될 수도 있다.
카테고리 추정부(151)는 카테고리별 개체명 사용 패턴 DB(250)와 연동하여 상기 음성 텍스트에서 상기 보정 대상의 전후 문맥을 고려하여 상기 보정 대상의 카테고리를 설정하는데, 이를 위해서 카테고리 추정부(151)는 상기 보정 대상이 상기 음성 텍스트 상에서 사용되는 사용 패턴을 생성하고 이와 매칭되는 개체명 사용 패턴이 카테고리별 개체명 사용 패턴 DB(250) 상에 저장된 카테고리로 상기 보정 대상의 카테고리를 설정한다.
띄어쓰기 추정부(155)는 카테고리별 개체명 사전 DB(200)와 연동하여 카테고리별 음절 엔그램 모델에 따라 상기 보정 대상에 대한 띄어쓰기를 분석하고 상기 보정 대상의 띄어쓰기를 보정하는데, 여기서 상기 보정 대상의 음절 쌍들에 대한 유니그램(uni-gram)과 바이그램(bi-gram)의 출현 빈도수로 띄어쓰기 확률을 산출하여 상기 보정 대상의 띄어쓰기를 보정할 수 있으며, 이를 위해 띄어쓰기 추정부(155)는 카테고리별로 개체명의 음절 엠그램에 대한 출현 빈도수를 저장하고 있는 카테고리별 음절 엔그램 모델 DB(300)를 이용할 수도 있다.
이상에서 살펴본 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템(100)은 각각의 구성이 개별 장치로 구성되지 않고 하나로 통합된 장치로 구성될 수도 있으며, 본 발명에 따른 음성인식 띄어쓰기 보정 시스템(100)이나 음성 인식 보정 장치(100a)는 음성 인식이 요구되는 다양한 장치나 서비스에 적용될 수 있다. 가령, 본 발명에 따른 음성 인식 보정 장치(100a)가 스마트 디바이스나 웨어러블 디바이스에 적용되어 기설치된 음성 인식 장치의 음성 인식에 대한 오류를 보정할 수도 있고 또는 하나의 통합된 장치로서 스마트 디바이스나 웨어러블 디바이스에 적용될 수도 있다.
또한 본 발명에서는 이와 같은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템을 이용하여 음성 인식 띄어쓰기를 보정하는 방법을 제공하는데, 이하에서 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정에 대하여 살펴보기로 한다.
본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법은 앞서 살펴본 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템을 기반으로 제시되므로 상기의 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템의 실시예를 같이 참조하여 살펴보기로 한다.
도 5는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 개략적인 흐름도를 도시한다.
상기 도 5를 참조하여 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에 대하여 개략적으로 살펴보자면, 음성이 입력(S110)되면 입력된 음성을 인식(S120)하고 음성 인식에 대한 오류가 있는지를 판단(S150)한다.
그리고 만약 오류가 존재하는 경우에 본 발명에 대한 주된 특징을 적용하여 띄어쓰기 오류에 대한 보정을 수행하는데, 먼저 본 발명에 따른 띄어쓰기 보정 방법에 대한 제1 특징적 구성으로서, 오류 구간 추출 조건을 적용하여 오류가 발생한 구간을 추정(S170)한다.
다음으로 본 발명에 따른 띄어쓰기 보정 방법에 대한 제2 특징적 구성으로서, 상기 오류 구간의 카테고리를 추정(S210)하는데 이를 위해 본 발명에서는 오류 구간을 보정 대상으로 설정하고 상기 보정 대상이 사용되는 패턴과 매칭되는 개체명 사용 패턴을 카테고리별 개체명 사용 패턴 DB(250)에서 검색하여 검색된 개체명 사용 패턴이 속하는 카테고리를 근거로 상기 보정 대상의 카테고리를 추정한다.
그 후 본 발명에 따른 띄어쓰기 보정 방법에 대한 제3 특징적 구성으로서, 상기 보정 대상의 카테고리를 고려하여 카테고리별 엔그램의 출현 빈도수로 상기 오류 구간에 대한 띄어쓰기 확률을 산출(S250)한다.
이와 같이 본 발명에 따른 특징적 구성을 통해 보다 정확하고 신뢰도 높은 띄어쓰기 보정(S280)을 수행하여 보정된 음성 인식 결과(S300)를 얻을 수 있게 된다.
본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 각 특징적 구성을 구체적인 실시예를 통해 살펴보기로 하며, 도 6은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법의 실시예에 대한 흐름도를 도시한다.
음성 입력부(110)가 음성을 입력(S110)받고 입력 받은 음성을 텍스트로 변환하여 음성 텍스트(S125)를 생성하고, 생성된 음성 텍스트(S125)를 음성 인식부(130)로 제공(S130)한다.
음성 인식부(130)의 자연어 처리부(131)는 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 상기 음성 텍스트의 형태소를 분석(S140)하는데, 이때 형태소 사전(350)이 이용될 수 있다.
그리고 오류 발생 판단부(135)는 상기 음성 텍스트의 형태소 분석 결과를 기초로 음성 인식에 띄어쓰기 오류가 존재하는지를 판단(S155)하고, 상기 텍스트의 형태소 분석 결과에 본 발명에 따른 띄어쓰기 보정 방법에 대한 제1 특징적 구성으로서 오류 구간 추출 조건을 적용하여 오류가 발생한 구간을 추정(S170)하여 오류 구간을 보정 대상으로 설정(S180)한다.
여기서 상기 오류 구간 추출 조건이란 하기 [조건 1] 내지 [조건 3]으로서, 상기 음성 텍스트의 형태소 분석 결과에서 하기 [ 조건 1 ] 또는 [ 조건 2 ]와 하기 [ 조건 3 ]을 적용하여, 이를 충족하는 구간을 오류 구간으로 추정한다.
[ 조건 1 ] = 한 어절이 두 음절이하로 구성,
[ 조건 2 ] = 한 어절이 5음절 이상으로 구성,
[ 조건 3 ] = 명사 또는 명사와 조사의 품사만으로 구성,
이와 같이 본 발명에서는 오류 구간 추출 조건을 설정하고, 이들 조건을 적용하여 오류 구간을 추정하는데, 음성 인식부(130)에서 오류 구간을 추출하는 과정을 도 7에 도시된 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 오류 구간을 추출이 적용되는 실시예를 참조하여 좀더 살펴보기로 한다.
상기 도 7에서 케이스 (A)는 "안동훈 씨는 언제 태어 났지?"라는 음성 텍스트를 본 발명에 따라 보정하는 실시예이며, 상기 도 7에서 케이스 (B)는 "안동찜닭 파는 곳은 어디인가요?"라는 음성 텍스트를 본 발명에 따라 보정하는 실시예를 나타낸다.
앞서 "안동훈씨는 언제 태어났지?"라는 음성이 입력되는 경우에 지역명 ‘안동’이 사전 등에 빈번하게 등장하고 사람 이름인 ‘안동훈’이란 단어가 사전에는 존재하지 않기 때문에 일반적인 음성인식에서는 이를 지역명으로 인식하여‘안동’,’공백’,’훈씨는’으로 인식함으로써 띄어쓰기에 대한 오류가 발생될 수 있다는 점은 살펴보았다. 마찬가지로 일반적인 음성인식에서는 "안동찜닭 파는 곳은 어디인가요?"의 경우에 "안동찜닭"을 사람 이름으로 인식하여 ‘안동찜’과 ‘닭’으로 구분되도록 인식하거나 ‘안동’을 지역명으로 인식하여 ‘안동’과 찜닭’으로 구분되도록 인식할 수도 있을 것이다.
이와 같은 경우에 본 발명에서는 어떻게 띄어쓰기가 보정되는지를 자세히 살펴보기로 한다.
상기 도 7을 참조하여 먼저 케이스 (A)를 살펴보면, 음성 입력부(110)는 "안동훈 씨는 언제 태어났지?"라는 음성이 입력(S110)되면, 이에 대한 음성 텍스트를 파일로 생성(S125)하여 음성 인식부(130)로 전달한다.
음성 인식부(130)는 형태소 사전(350)을 이용하여 음성 텍스트에 대한 형태소를 분석하는데, [안/n, 동/n, 훈/n, 씨/n+는/j, 언제/m, 태/n, 이/j+어/e+나/p+아/e+지/e]란 분석 결과가 생성(S140)된다. 여기서 n은 명사, j는 조사, m은 형용사, e는 어미, p는 용언을 나타낸다.
그리고 음성 인식부(130)는 형태소 분석 결과를 기초로 상기 음성 텍스트에 대한 띄어쓰기 오류가 있는지를 판단(S150)하고 오류 구간을 추정(S170)한다. 이때 상기에서 살펴본 오류 구간 추출 조건을 적용하는데, 케이스 (A)의 경우에 상기 [조건 1]인 한 어절이 두 음절 이하로 구성되는 조건을 충족하는 부분은 [안/n, 동/n, 훈/n, 씨/n+는/j, 언제/m]이며, 상기 [조건 2]인 한 어절이 5음절 이상으로 구성되는 조건을 충족하는 부분은 [이/j+어/e+나/p+아/e+지/e]이다.
그리고 상기 [조건 1]이나 [조건 2]를 충족하는 부분 중 상기 [조건 3]인 명사 또는 명사와 조사의 품사만으로 구성되는 조건을 충족하는 부분은 [안/n, 동/n, 훈/n, 씨/n]이다.
따라서 상기 케이스 (A)에 대한 오류 구간은 [안/n, 동/n, 훈/n, 씨/n]로 추정(S170)된다.
음성 인식부(130)는 오류 구간이 확정되면 상기 오류 구간을 하나의 어절로 생성하고 이를 보정 대상으로 설정하는데, 상기 케이스 (A)에서 오류 구간은 [안/n, 동/n, 훈/n, 씨/n]이므로 이를 한 어절로 생성하면 [안동훈씨/n]가 되어 [안동훈씨/n]를 보정 대상으로 설정(S180)한다.
다음으로 케이스 (B)를 살펴보는데, 음성 인식부(130)에서 수행되는 과정이 상기 케이스 (B)의 경우에 상기 케이스 (A)와 유사하므로 간략하게만 살펴보기로 한다. "안동찜닭 파는 곳은 어디인가요?"라는 음성이 입력(S110)되면, 이에 대한 음성 텍스트를 파일로 생성(S125)하며, 형태소 사전(350)을 이용하여 음성 텍스트에 대한 형태소를 분석하여 [안/n, 동/n, 찜/n, 닭/n, 팔/p+는/e, 곳/n+은/j, 어디/n+이/j+ㄴ가/e+요/j]란 분석 결과가 생성(S140)된다. 그리고 오류 구간 추출 조건을 적용하는데, 상기 케이스 (B)의 경우에 상기 [조건 1]인 한 어절이 두 음절 이하로 구성되는 조건을 충족하는 부분은 [안/n, 동/n, 찜/n, 닭/n, 팔/p+는/e, 곳/n+은/j]이며, 상기 [조건 2]인 한 어절이 5음절 이상으로 구성되는 조건을 충족하는 부분은 [어디/n+이/j+ㄴ가/e+요/j]이다.
그리고 상기 [조건 1]이나 [조건 2]를 충족하는 부분 중 상기 [조건 3]인 명사 또는 명사와 조사의 품사만으로 구성되는 조건을 충족하는 부분은 [안/n, 동/n, 찜/n, 닭/n]이다.
따라서 상기 케이스 (B)에 대한 오류 구간은 [안/n, 동/n, 찜/n, 닭/n]로 추정(S170)되어, 보정 대상을 [안동찜닭/n]으로 설정(S180)한다.
이와 같은 과정을 통해 음성 인식부(130)에서는 오류 구간을 추정하고 보정 대상을 설정한다.
다시 도 6으로 회귀하여 음성 인식부(130)에서 수행되는 과정 이후의 과정을 계속하여 살펴보면, 음성 인식부(130)는 보정 대상과 음성 텍스트를 인식 오류 보정부(150)에 제공(S190)하며, 인식 오류 보정부(150)의 카테고리 추정부(151)는 본 발명에 따른 띄어쓰기 보정 방법에 대한 제2 특징적 구성으로서, 상기 오류 구간의 카테고리를 추정하는 과정을 수행한다.
이를 살펴보면, 인식 오류 보정부(150)의 카테고리 추정부(151)는 상기 음성 텍스트 상에서 상기 보정 대상의 전후 문맥을 고려하여 상기 보정 대상이 사용되는 사용 패턴 후보를 생성(S220)하고 카테고리별 개체명 사용 패턴 DB(250)와 연동하여 상기 사용 패턴 후보에 대응하는 개체명 사용 패턴을 검색하여 대비(S230)한다. 그리고 상기 사용 패턴 후보에 매칭되는 개체명 사용 패턴의 카테고리를 상기 사용 패턴 후보의 카테고리로 설정(S240)한다.
이때 상기 보정 대상에 대한 사용 패턴 후보는 복수개가 생성될 수 있으며, 복수개의 사용 패턴 후보가 생성되는 경우에는 복수개의 사용 패턴 후보 각각에 매칭되는 개체명 사용 패턴을 검색하고 각각의 카테고리를 추출하여 빈도수가 가장 높은 카테고리를 상기 보정 대상의 카테고리로 설정한다.
인식 오류 보정부(150)의 카테고리 추정부(151)에서 수행되는 카테고리 추정 과정을 실시예에 적용하여 살펴보자면, 도 8은 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 보정 대상에 대한 카테고리의 설정이 적용되는 실시예로서, 상기 도 7의 케이스 (A)와 케이스(B)가 계속적으로 이어져 인식 오류 보정부(150)의 카테고리 추정부(151)에서 수행되는 과정을 도시한다.
먼저 상기 도 8에 도시된 케이스 (A)에 대하여 살펴보자면, 보정 대상인 [안동훈씨/n]에 대하여 상기 음성 텍스트 상에서 전후 문맥을 고려하여 상기 보정 대상이 사용되는 사용 패턴 후보를 생성하는데, 이를 위해 먼저 보정 대상인 [안동훈씨/n]가 포함된 문장에서 명사만을 추출한다.
즉, [보정 대상/n+는/j, 언제/m, 태/n, 이/j+어/e+나/p+아/e+지/e]에서 상기 보정 대상의 전후에 존재하는 명사만을 추출하면 상기 도 8에서와 같이 상기 보정 대상의 전에는 품사가 존재하지 않으며, 상기 보정 대상의 후에서 [태/n]가 추출(S215)된다.
그리고 상기 보정 대상 [안동훈씨/n]에 추출된 명사[태/n]를 조합하여 사용 패턴 후보를 생성하는데, 상기 케이스 (A)에서는 상기 보정 대상 외에 추출된 명사가 [태/n]만 존재하므로 이들이 조합된 사용 패턴 후보로는 [보정대상+태] 하나만 생성(S220)된다.
상기 보정 대상 [안동훈씨/n]에 대한 사용 패턴 후보가 하나만 생성되었으므로 사용 패턴 후보 [보정대상+태]에 대해서만 이와 대비될 수 있는 개체명 사용 패턴을 카테고리별 개체명 사용 패턴 DB(250)에서 검색한다. 상기 도 8에서는 사용 패턴 후보 [보정대상+태]에 매칭되는 개체명 사용 패턴 [개체명+태]가 검색(S231)된 것으로 가정한다.
카테고리별 개체명 사용 패턴 DB(250)에는 카테고리별로 분류되어 개체명 사용 패턴이 저장되어 있는데, 상기 도 8에서는 검색된 개체명 사용 패턴 [개체명+태]의 경우에 카테고리가 ‘인물명’으로 분류되어 있으며, 검색된 개체명 사용 패턴 [개체명+태]의 카테고리 ‘인물명’을 추출(S233)하여 상기 보정 대상 [안동훈씨/n]의 카테고리로 설정(S240)하면 상기 보정 대상 [안동훈씨/n]의 카테고리는 ‘인물명’이 된다.
다음으로 상기 도 8에 도시된 케이스 (B)에 대하여 살펴보면, 상기 케이스 (A)의 경우와 마찬가지로 보정 대상인 [안동찜닭/n]이 포함된 문장에서 명사만을 추출하면, [보정 대상/n, 팔/p+는/e, 곳/n+은/j, 어디/n+이/j+ㄴ가/e+요/j]에서 [곳/n, 어디/n]가 추출(S215)된다. 상기 케이스 (B)에서는 추출된 명사가 상기 보정 대상 외에 [곳/n, 어디/n]로서 2개가 추출된다.
따라서 상기 보정 대상 [안동찜닭/n]에 추출된 명사[곳/n, 어디/n]를 조합하여 사용 패턴 후보를 생성하면 상기 케이스 (A)와는 다르게 사용 패턴 후보 #1로서 [보정대상+곳], 사용 패턴 후보 #2로서 [보정대상+어디] 및 사용 패턴 후보 #3으로서 [보정대상+곳+어디]가 생성되어 3개의 사용 패턴 후보가 생성(S220)된다.
그리고 상기 3개의 사용 패턴 후보와 대비될 수 있는 개체명 사용 패턴을 카테고리별 개체명 사용 패턴 DB(250)에서 검색한다. 상기 도 8에서는 사용 패턴 후보 #1 [보정대상+곳]에 매칭되는 개체명 사용 패턴 [개체명+곳]과 사용 패턴 후보 #2 [보정대상+어디]에 매칭되는 개체명 사용 패턴 [개체명+어디]가 검색(S231)된 것으로 가정하며, 상기 도 8에서 검색된 개체명 사용 패턴 #1인 [개체명+곳]의 경우에 카테고리가 ‘브랜드명’, ‘인물명’, ‘지역명’에 존재하며, 검색된 개체명 사용 패턴 #2인 [개체명+어디]의 경우에 카테고리가 ‘브랜드명’과 지역명’에 존재하며, 검색된 개체명 사용 패턴 #3인 [개체명+곳+어디]의 경우에 카테고리가 ‘브랜드명’에 존재하는 것으로 나타나 있으므로, 각각의 카테고리를 추출하면 개체명 사용 패턴 #1에 대해서는 ‘브랜드명’, ‘인물명’ 및 ‘지역명’이 추출되고 개체명 사용 패턴 #2에 대해서는 ‘브랜드명’과 ‘지역명’이 추출되고, 개체명 사용 패턴 #3에 대해서는 ‘브랜드명’이 추출된다.
추출된 카테고리의 빈도수를 산출(S535)하면, ‘브랜드명’은 3회, ‘지역명’은 2회, ‘인물명’은 1회이며, 여기서 가장 빈도수가 높은 카테고리를 선택하면 ‘브랜드명’이 선택된다. 따라서 카테고리 ‘브랜드명’을 상기 보정 대상 [안동찜닭/n]의 카테고리로 설정(S240)하여 상기 보정 대상 [안동찜닭/n]의 카테고리는 ‘브랜드명’이 된다.
이와 같은 과정을 통해 인식 오류 보정부(150)의 카테고리 추정부(151)에서는 보정 대상에 대한 카테고리를 설정한다.
다시 도 6으로 회귀하여 인식 오류 보정부(150)의 카테고리 추정부(151)에서 수행되는 과정 이후의 과정을 계속하여 살펴보면, 인식 오류 보정부(150)의 카테고리 추정부(151)에서 보정 대상에 대한 카테고리를 설정하면, 인식 오류 보정부(150)의 띄어쓰기 추정부(155)는 본 발명에 따른 띄어쓰기 보정 방법에 대한 제3 특징적 구성으로서, 상기 오류 구간의 띄어쓰기 확률을 산출하여 띄어쓰기를 결정하는 과정을 수행한다.
먼저 인식 오류 보정부(150)의 띄어쓰기 추정부(155)에서는 설정된 카테고리를 근거로 카테고리별 개체명 사전DB(200)에서 해당 개체명들을 대상으로 보정 대상의 순차적인 연이은 음절 쌍들에 대한 유니그램(Uni-gram)과 바이그램(Bi-gram)의 출현 빈도수를 산출(S260)하고 이를 기초로 띄어쓰기 확률을 산출(S270)한다.
나아가서 띄어쓰기 확률의 빠른 결과 획득을 위해서, 카테고리별 개체명 사전 DB(200)에 저장된 개체명들에 대하여 카테고리별로 음절 엔그램의 출현 빈도수를 미리 산출하여 저장한 카테고리별 음절 엔그램 모델 DB(300)과 연동하여 인식 오류 보정부(150)의 띄어쓰기 추정부(155)가 보정 대상에 대한 띄어쓰기 확률을 산출할 수도 있다.
띄어쓰기 확률을 산출하는 과정을 살펴보면, 각각의 상기 음절 쌍에 대하여 붙여쓰기 확률을 하기 [식 1]로 산출한다.
여기서, 상기 Xn은 상기 보정 대상에서 n번째 음절이며, 상기 P(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 붙여쓰기 확률이고, 상기 K는 가중치이고, 상기 B(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 바이그램의 출현 빈도율로서 하기 [식 2]로 산출하고, 상기 U(Xn , Xn +1)는 음절 쌍 Xn과 Xn +1에 대한 유니그램의 출현 빈도율로서 하기 [식 3]으로 산출한다.
여기서, 상기 freq(Xn)는 상기 카테고리별 개체명 사전 DB의 개체명들 중 상기 보정 대상이 속하는 카테고리에서 음절 Xn의 출현 횟수이며, 상기 M은 상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들의 음절수 총합을 나타낸다.
즉, 상기 [식 2]의 바이그램의 출현 빈도율과 상기 [식 3]의 유니그램의 출현 빈도율을 상기 보정 대상의 각각의 음절 쌍에 대하여 산출한 후 상기 [식 3]을 통해 각각의 음절 쌍에 대한 붙여쓰기 확률을 기초로 상기 띄어쓰기 확률을 산출한다.
이와 같이 보정 대상에 대한 띄어쓰기 확률이 산출되면, 보정 대상의 각각의 음절 쌍에 대한 띄어쓰기 여부를 결정하는데, 간단하게는 각각의 상기 음절 쌍에 대한 붙여쓰기 확률이 기준치 이하인 경우 띄어쓰기로 판단할 수 있다.
띄어쓰기 여부에 대하여 좀더 정확도를 높이기 위해서 상기 [식 1] 내지 [식 3]을 통해 보정 대상에 대하여 P(Xn , 공백)을 산출하는데, 여기서 공백이란 개체명 중 보정대상의 음절 Xn으로 끝나는 경우를 의미한다.
그리고 상기 보정대상의 음절에 대한 상기 P(Xn , 공백)과 상기 P(Xn , Xn +1)를 대비하여 상기 P(Xn , 공백)이 상기 P(Xn , Xn +1) 보다 큰 경우 띄어쓰기로 판단한다.
상기 과정을 통해 보정 대상에 대한 띄어쓰기 확률에 기초하여 띄어쓰기가 판단되며, 그에 따라 상기 보정 대상의 띄어쓰기를 보정(S280)하여 보정된 음성 텍스트(290)를 생성한다.
인식 오류 보정부(150)의 띄어쓰기 추정부(155)에서 수행되는 오류 구간의 띄어쓰기 확률을 산출하여 띄어쓰기를 결정하는 과정을 실시예에 적용하여 살펴보자면, 도 9는 본 발명에 따른 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법에서 띄어쓰기 확률을 산출하고 이를 기초로 보정 대상에 대한 보정이 적용되는 실시예로서, 상기 도 7 및 도 8의 케이스 (A)와 케이스(B)가 계속적으로 이어져 인식 오류 보정부(150)의 띄어쓰기 추정부(155)에서 수행되는 과정을 도시한다.
먼저 상기 도 9에 도시된 케이스 (A)에 대하여 살펴보자면, 보정 대상 [안동훈씨]에서 순차적으로 연이은 음절 쌍을 추출하면, [안동], [동훈] 및 [훈씨]가 추출(S261)된다.
보정 대상 [안동훈씨]에서 추출된 각각의 음절 쌍에 대하여 상기 [식 1] 내지 [식 3]을 적용하여 각각의 음절 쌍 [안동], [동훈] 및 [훈씨]에 대하여 P(안,동), P(동,훈) 및 P(훈,씨)가 산출(S265)된다. 물론 여기서 산출된 P(안,동), P(동,훈) 및 P(훈,씨)는 붙여쓰기 확률을 나타내는데, 상기 붙여쓰기 확률과 띄어쓰기 확률은 반비례 관계이므로 상기 붙여쓰기 확률로부터 띄어쓰기 확률의 산출이 가능하다.
그리고 보정 대상 [안동훈씨]에 대한 띄어쓰기를 결정하는데, 앞서 살펴본 바와 같이 산출된 각각의 음절 쌍에 대한 붙여쓰기 확률이 기설정된 기준치 이하의 값을 갖는 음절 쌍에 대하여 띄어쓰기로 판단할 수 있다.
또는 P(안, 공백), P(동, 공백) 및 P(훈, 공백)를 산출하고, P(안, 공백)과 P(안,동)를 대하여 P(안, 공백)이 P(안,동)보다 큰 경우 음절 쌍 [안동] 사이를 띄어쓰기로 결정하고, 마찬가지로 P(동, 공백)과 P(동,훈) 및 P(훈, 공백)과 P(훈,씨)를 대비하여 음절 쌍 [동훈] 및 [훈씨]에 대한 띄어쓰기를 결정할 수 있다.
이와 같은 과정으로 띄어쓰기를 결정한 결과 상기 도 9에서는 음절 쌍 [훈씨]에 대한 띄어쓰기를 결정하여, 보정 대상 [안동훈씨]는 [안동훈/n, 씨/n]로 띄어쓰기가 보정(S280)되었다.
그리고 최종적으로 보정된 음성 텍스트는 [안동훈/ 씨는/ 어디서/ 태어났지?]로 생성(S290)된다.
다음으로 상기 도 9에 도시된 케이스 (B)에 대하여 살펴보자면, 상기 도 9의 케이스 (B)도 상기 케이스 (A)와 마찬가지로 보정 대상 [안동찜닭]에서 순차적으로 연이은 음절 쌍을 추출하면, [안동], [동찜] 및 [찜닭]이 추출(S261)되며, 보정 대상 [안동찜닭]에서 추출된 각각의 음절 쌍에 대하여 상기 [식 1] 내지 [식 3]을 적용하여 각각의 음절 쌍에 대한 P(안,동), P(동,찜) 및 P(찜,닭)이 산출(S265)된다.
그리고 산출된 각각의 음절 쌍에 대한 붙여쓰기 확률이 기설정된 기준치 이하의 값을 갖는 음절 쌍에 대하여 띄어쓰기로 판단할 수도 있고, 또는 P(안, 공백), P(동, 공백) 및 P(찜, 공백)를 산출하고, 이를 각각 P(안,동), P(동,찜) 및 P(찜,닭)과 대비하여 띄어쓰기를 결정할 수 있다.
이와 같은 과정으로 띄어쓰기를 결정한 결과 상기 도 9에서는 모든 음절 쌍에 대하여 띄어쓰기가 없는 것으로 판단되어, 보정 대상 [안동찜닭]은 그대로 [안동찜닭]으로 보정(S280)되었다.
그리고 최종적으로 보정된 음성 텍스트는 [안동찜닭/ 파는/ 곳은/ 어디인가요?]로 생성(S290)된다.
이와 같은 과정을 통해 인식 오류 보정부(150)의 띄어쓰기 추정부(155)에서는 보정 대상에 대한 띄어쓰기 확률을 산출하여 띄어쓰기를 보정한다.
이상에서 살펴본 바와 같이, "안동훈씨는 언제 태어났지?"나 "안동찜닭 파는 곳은 어디인가요?"의 경우에 지역명 ‘안동’이 사전 등에 빈번하게 등장하기 때문에 일반적인 음성인식에서는 ‘안동훈씨’를 지역명‘안동’으로 인식하며, 만약 이를 사람 이름으로 인식하는 경우라면 ‘안동찜닭’을 사람명 ‘안동찜’으로 인식하게 되어 어느 경우에도 띄어쓰기 오류가 발생하지만, 본 발명에서는 오류 구간의 전후 문맥을 기초로 카테고리를 추정하고 카테고리를 고려하여 띄어쓰기 확률을 산출하여 오류 구간을 보정함으로써 상기 실시예와 설명한 바와 같이 보다 정확하고 신뢰도 높게 띄어쓰기에 대한 보정을 수행할 수 있다.
이와 같은 본 발명은, 고유명사나 신종 단어 및 변종 단어 등과 같이 음성인식 사전에 등록되어 있지 않는 단어가 사용되는 경우에도 먼저 카테고리로서 해당 단어의 범주를 파악하고 이를 띄어쓰기 확률에 적용함으로써 정확하고 신뢰도 높게 음성 인식의 띄어쓰기 오류를 보정할 수 있게 된다.
특히, 각종 스마트 기기나 서비스 제공 시스템 등에서 사용자의 음성을 정확하게 인식하여 분석함으로써 사용자가 원하는 동작이나 서비스 제공에 오류나 착오가 발생되지 않게 된다.
나아가서 음성 인식에 따른 외국어 번역 또는 통역에서 띄어쓰기 등의 오류로 인해 전혀 다른 의미로 번역 또는 통역이 이루어지는 문제를 해결함으로써 정확한 의사소통에 기여할 수 있게 된다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템,
110 : 음성 입력부,
130 : 음성 인식부,
131 : 자연어 처리부, 135 : 오류 발생 판단부,
150 : 인식 오류 보정류,
151 : 카테고리 추정부, 155 : 띄어쓰기 추정부,
170 : 음성 인식 출력부,
200 : 카테고리별 개체명 사전 DB,
250 : 카테고리별 개체명 사용 패턴 DB,
300 : 카테고리별 음절 엔그램 모델 DB,
350 : 형태소 사전.
110 : 음성 입력부,
130 : 음성 인식부,
131 : 자연어 처리부, 135 : 오류 발생 판단부,
150 : 인식 오류 보정류,
151 : 카테고리 추정부, 155 : 띄어쓰기 추정부,
170 : 음성 인식 출력부,
200 : 카테고리별 개체명 사전 DB,
250 : 카테고리별 개체명 사용 패턴 DB,
300 : 카테고리별 음절 엔그램 모델 DB,
350 : 형태소 사전.
Claims (15)
- 음성 입력부, 음성 인식부 및 인식 오류 보정부를 포함하는 음성인식 띄어쓰기 보정 시스템의 음성인식 띄어쓰기 보정 방법에 있어서,
음성 입력부가 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계;
음성 인식부가 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계;
인식 오류 보정부가 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및
인식 오류 보정부가 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함하는 것으로,
상기 카테고리 추정단계는
상기 음성 텍스트에 대한 자연어 처리 결과를 기초로 상기 보정 대상이 포함된 문장에서 명사를 추출하고, 추출된 상기 명사를 상기 보정 대상과 조합하여 사용 패턴 후보를 생성하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 제 1 항에 있어서,
상기 오류 구간 판단 단계는,
형태소 사전을 기초로 상기 음성 텍스트에 대한 형태소를 분석하는 형태소 분석 단계; 및
상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하여, 상기 오류 구간을 보정 대상으로 설정하는 보정 대상 설정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 음성 입력부, 음성 인식부 및 인식 오류 보정부를 포함하는 음성인식 띄어쓰기 보정 시스템의 음성인식 띄어쓰기 보정 방법에 있어서,
음성 입력부가 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계;
음성 인식부가 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계;
인식 오류 보정부가 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및
인식 오류 보정부가 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함하는 것으로,
상기 오류 구간 판단 단계는,
형태소 사전을 기초로 상기 음성 텍스트에 대한 형태소를 분석하는 형태소 분석 단계; 및
상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하여, 상기 오류 구간을 보정 대상으로 설정하는 보정 대상 설정 단계를 포함하고,
상기 보정 대상 설정 단계는,
상기 음성 텍스트에 대한 형태소 분석 결과에서 하기 [ 조건 1 ] 또는 [ 조건 2 ]와 하기 [ 조건 3 ]을 적용하여,
[ 조건 1 ] = 한 어절이 두 음절이하로 구성,
[ 조건 2 ] = 한 어절이 5음절 이상으로 구성,
[ 조건 3 ] = 명사 또는 명사와 조사의 품사만으로 구성,
상기 [ 조건 1 ] 또는 [ 조건 2 ]와 상기 [ 조건 3 ]을 충족하는 구간을 오류 구간으로 추출하는 오류 구간 추출 단계; 및
추출한 상기 오류 구간을 하나의 어절로 생성하고 이를 보정 대상으로 설정하는 보정 대상 설정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 제 1 항에 있어서,
상기 카테고리 추정 단계는,
상기 음성 텍스트에 대한 자연어 처리 결과를 기초로 상기 보정 대상의 전후 문맥을 고려하여 상기 보정 대상이 사용되는 사용 패턴 후보를 생성하는 사용 패턴 후보 생성 단계;
상기 카테고리별 개체명 사용 패턴 DB에서 상기 사용 패턴 후보에 대응되는 개체명 사용 패턴을 검색하는 사용 패턴 검색 단계; 및
검색된 개체명 사용 패턴이 속하는 카테고리를 상기 보정 대상의 카테고리로 설정하는 카테고리 설정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 제 4 항에 있어서,
상기 사용 패턴 후보 생성 단계에서는,
복수의 사용 패턴 후보를 생성하며,
상기 사용 패턴 검색 단계에서는,
각각의 사용 패턴 후보에 대응되는 개체명 사용 패턴을 검색하며,
상기 카테고리 설정 단계에서는,
각각의 사용 패턴 후보에 대응되는 개체명 사용 패턴이 속하는 카테고리의 빈도수 중 가장 높은 빈도의 카테고리를 상기 보정 대상의 카테고리로 설정하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 삭제
- 제 1 항에 있어서,
상기 띄어쓰기 보정 단계는,
상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들을 기초로 상기 보정 대상의 순차적인 연이은 음절 쌍들에 대한 유니그램(Uni-gram)과 바이그램(Bi-gram)의 출현 빈도수로 상기 보정 대상에 대한 띄어쓰기 확률을 산출하는 띄어쓰기 확률 산출 단계; 및
상기 띄어쓰기 확률에 따라 상기 보정 대상에 대하여 띄어쓰기를 보정하는 보정 대상 보정 단계를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 음성 입력부, 음성 인식부 및 인식 오류 보정부를 포함하는 음성인식 띄어쓰기 보정 시스템의 음성인식 띄어쓰기 보정 방법에 있어서,
음성 입력부가 입력된 음성을 인식하여 음성 텍스트를 생성하는 단계;
음성 인식부가 상기 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류 구간을 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 구간 판단 단계;
인식 오류 보정부가 상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여 상기 보정 대상이 해당되는 카테고리를 추정하는 카테고리 추정 단계; 및
인식 오류 보정부가 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram)의 출현 빈도수를 분석하여 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 보정 단계를 포함하는 것으로,
상기 띄어쓰기 보정 단계는,
상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들을 기초로 상기 보정 대상의 순차적인 연이은 음절 쌍들에 대한 유니그램(Uni-gram)과 바이그램(Bi-gram)의 출현 빈도수로 상기 보정 대상에 대한 띄어쓰기 확률을 산출하는 띄어쓰기 확률 산출 단계; 및
상기 띄어쓰기 확률에 따라 상기 보정 대상에 대하여 띄어쓰기를 보정하는 보정 대상 보정 단계를 포함하며,
상기 띄어쓰기 확률 산출 단계에서는,
각각의 상기 음절 쌍에 대하여 붙여쓰기 확률을 하기 [식 1]로 산출하고,
[식 1]
여기서, 상기 Xn은 상기 보정 대상에서 n번째 음절이며, 상기 P(Xn, Xn+1)는 음절 쌍 Xn과 Xn+1에 대한 붙여쓰기 확률이고, 상기 K는 가중치이고, 상기 B(Xn, Xn+1)는 음절 쌍 Xn과 Xn+1에 대한 바이그램의 출현 빈도율로서 하기 [식 2]로 산출하고, 상기 U(Xn, Xn+1)는 음절 쌍 Xn과 Xn+1에 대한 유니그램의 출현 빈도율로서 하기 [식 3]으로 산출하며,
[식 2]
[식 3]
여기서, 상기 freq(Xn)는 상기 카테고리별 개체명 사전 DB의 개체명들 중 상기 보정 대상이 속하는 카테고리에서 음절 Xn의 출현 횟수이며, 상기 M은 상기 카테고리별 개체명 사전 DB에서 상기 보정 대상이 속하는 카테고리에 속하는 개체명들의 음절수 총합을 나타내며,
산출된 각각의 음절 쌍에 대한 붙여쓰기 확률을 기초로 상기 띄어쓰기 확률을 산출하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 제 8 항에 있어서,
상기 띄어쓰기 확률 산출 단계에서는,
각각의 상기 음절 쌍에 대한 붙여쓰기 확률이 기준치 이하인 경우 띄어쓰기로 판단하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 제 8 항에 있어서,
상기 띄어쓰기 확률 산출 단계에서는,
각각의 상기 음절 쌍에 대하여, P(Xn , Xn +1)과 P(Xn , 공백)을 산출하며,
여기서 상기 공백은 개체명 중 음절 Xn으로 끝나는 경우를 나타내고,
상기 P(Xn , 공백)이 상기 P(Xn , Xn +1) 보다 큰 경우 띄어쓰기로 판단하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법. - 음성 인식으로 생성된 음성 텍스트에 대한 자연어 처리 과정을 통해 음성 인식의 오류가 발생된 오류 구간을 추정하여 상기 오류 구간을 보정 대상으로 설정하는 음성 인식부 및
개체명에 대한 카테고리별 사용 패턴이 저장된 카테고리별 개체명 사용 패턴 DB 및 개체명에 대한 카테고리별 의미가 저장된 카테고리별 개체명 사전 DB와 연동하여 상기 보정 대상에 대한 카테고리를 추정하고, 상기 보정 대상에 대한 카테고리별 음절 엔그램(N-gram) 모델을 적용하여 상기 보정 대상의 띄어쓰기를 보정하는 인식 오류 보정부를 포함하는 음성 인식 보정 장치를 포함하는 것으로,
상기 인식 오류 보정부는,
상기 음성 텍스트에서 상기 보정 대상 및 상기 보정 대상의 전후 문맥으로 상기 보정 대상이 사용되는 사용 패턴을 추출하고, 이를 상기 카테고리별 개체명 사용 패턴 DB에 저장된 개체명 사용 패턴과 대비하여, 상기 보정 대상의 카테고리를 설정하는 카테고리 추정부; 및
상기 카테고리별 개체명 사전 DB에 기초하여 상기 보정 대상에 대한 카테고리별 음절 엔그램의 출현 빈도수를 분석하여, 상기 보정 대상의 띄어쓰기를 보정하는 띄어쓰기 추정부를 포함하고,
상기 사용 패턴 후보는
상기 음성 텍스트에 대한 자연어 처리 결과를 기초로 상기 보정 대상이 포함된 문장에서 명사를 추출하고, 추출된 상기 명사를 상기 보정 대상과 조합하여 생성하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템. - 제 11 항에 있어서,
상기 음성 인식부는,
형태소 사전을 기초로 상기 음성 텍스트에 대한 형태소를 분석하는 자연어 처리부 및
상기 음성 텍스트에 대한 형태소 분석 결과를 기초로 연속된 어절에 대한 띄어쓰기가 인식되지 않는 구간을 오류 구간으로 추정하고, 상기 오류 구간을 보정 대상으로 설정하는 오류 발생 판단부를 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템. - 삭제
- 제 11 항에 있어서,
상기 카테고리별 개체명 사전 DB에 저장된 카테고리별 개체명의 각각의 음절 엔그램에 대한 출현 빈도수를 저장하고 있는 카테고리별 음절 엔그램 모델 DB를 더 포함하며,
상기 띄어쓰기 추정부는,
상기 음절 엔그램 모델 DB에 저장된 카테고리별 개체명의 각각의 음절 엔그램에 대한 출현 빈도수를 기초로 상기 보정 대상에 대한 띄어쓰기 확률을 산출하여 상기 보정 대상의 띄어쓰기를 보정하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템. - 제 11 항에 있어서,
입력된 음성을 인식하여 음성 텍스트를 생성하는 음성 입력부 및
상기 음성 인식 보정 장치로부터 보정된 음성 텍스트를 수신하여 출력하는 음성 인식 출력부를 더 포함하는 것을 특징으로 하는 개체명 인식을 이용한 음성인식 띄어쓰기 보정 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130151798A KR102204395B1 (ko) | 2013-12-06 | 2013-12-06 | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130151798A KR102204395B1 (ko) | 2013-12-06 | 2013-12-06 | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150066361A KR20150066361A (ko) | 2015-06-16 |
KR102204395B1 true KR102204395B1 (ko) | 2021-01-19 |
Family
ID=53514779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130151798A KR102204395B1 (ko) | 2013-12-06 | 2013-12-06 | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102204395B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102450853B1 (ko) | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US11443732B2 (en) | 2019-02-15 | 2022-09-13 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
CN111523327B (zh) * | 2020-04-23 | 2023-08-22 | 北京市科学技术情报研究所 | 一种基于语音识别的文本确定方法及系统 |
CN113569571A (zh) * | 2021-02-04 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 商圈实体的识别方法、装置、介质及设备 |
CN115910070A (zh) * | 2022-12-12 | 2023-04-04 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149188A (ja) * | 2000-11-15 | 2002-05-24 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びに記録媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100376032B1 (ko) * | 2000-10-12 | 2003-03-15 | (주)언어와 컴퓨터 | 음절 바이그램 특성을 이용한 한글 문서의 오류 인식 및교정 방법 |
KR101491581B1 (ko) * | 2008-04-07 | 2015-02-24 | 삼성전자주식회사 | 철자 오류 보정 시스템 및 방법 |
KR101259558B1 (ko) * | 2009-10-08 | 2013-05-07 | 한국전자통신연구원 | 문장경계 인식 장치 및 방법 |
-
2013
- 2013-12-06 KR KR1020130151798A patent/KR102204395B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149188A (ja) * | 2000-11-15 | 2002-05-24 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びに記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR20150066361A (ko) | 2015-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP6675463B2 (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
TW448381B (en) | Automatic segmentation of a text | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
KR102013230B1 (ko) | 구문 전처리 기반의 구문 분석 장치 및 그 방법 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
KR20130018205A (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
KR101627428B1 (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
KR100853173B1 (ko) | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 | |
KR20110024075A (ko) | 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
KR20180062003A (ko) | 음성 인식 오류 교정 방법 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
US10614170B2 (en) | Method of translating speech signal and electronic device employing the same | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
Aliero et al. | Systematic review on text normalization techniques and its approach to non-standard words | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR100400220B1 (ko) | 대화 모델을 이용한 자동 통역 장치 및 방법 | |
JP2013109364A (ja) | Cjk名前検出 | |
Arslan et al. | Detecting and correcting automatic speech recognition errors with a new model | |
Deka et al. | A study of t’nt and crf based approach for pos tagging in assamese language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |