KR101830210B1 - 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 - Google Patents
적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 Download PDFInfo
- Publication number
- KR101830210B1 KR101830210B1 KR1020160052304A KR20160052304A KR101830210B1 KR 101830210 B1 KR101830210 B1 KR 101830210B1 KR 1020160052304 A KR1020160052304 A KR 1020160052304A KR 20160052304 A KR20160052304 A KR 20160052304A KR 101830210 B1 KR101830210 B1 KR 101830210B1
- Authority
- KR
- South Korea
- Prior art keywords
- semantic unit
- semantic
- improvement
- unit
- unit set
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000006872 improvement Effects 0.000 claims abstract description 359
- 238000004590 computer program Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims 8
- 238000004220 aggregation Methods 0.000 claims 8
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 16
- 238000004873 anchoring Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005067 remediation Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000010304 firing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명에 따르면, 의미 유닛의 집합을 개선하기 위해 사용자가 재발화하는 음성을 보다 정확하게 인식할 수 있으므로, 사용자가 별다른 명령이나 조작을 입력할 필요 없이 개선용 음성을 발화하는 것만으로 자신이 의도한 바에 의미 유닛 집합을 쉽고 정확하게 개선할 수 있게 되는 효과가 달성된다.
Description
본 발명은 적어도 하나의 의미론적 유닛(이하에서는, 간략히 "의미 유닛"이라고도 칭하기로 함)의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
사람의 음성을 인식하여 이를 보다 표준적인 의미 유닛의 집합(즉, 의미론적인 유닛을 적어도 하나 포함하는 집합)으로 변환하기 위한 시도가 다수 행하여진 바 있다. 이러한 의미 유닛 집합은 특정 언어에 해당하는 디지털 음성으로 출력되거나 특정 언어의 텍스트로 표기될 수 있는 것이기도 하다. 전자의 경우, 의미 유닛 집합은 광의의 음성 인식 중 하나인 아날로그 음성의 분석에 따른 결과인 디지털 음성일 수 있고, 후자의 경우, 의미 유닛 집합은 협의의 음성 인식에 따른 결과인 음성 인식 텍스트일 수 있다.
그러나, 위와 같은 시도에 따라 획득되는 의미 유닛 집합은 품질의 측면에 있어서 어느 정도 한계가 있었다. 예컨대, 사람마다 무수히 다양한 발화 습관이나 일부 인물의 불명료한 발음, 사전에 없는 어휘나 방언의 사용, 주변의 잡음 등은 음성 인식 기술에 의존하여 의미 유닛의 집합을 도출하는 작업에 실질적인 어려움을 부과하는 것이었다.
따라서, 본 발명자는 적어도 하나의 의미 유닛의 집합을 개선용 음성(즉, 개선을 위하여 따로 발화되는 음성)을 이용하여 개선하여, 결과적으로 더 우수한 품질의 의미 유닛 집합이 획득되도록 하기 위한 새로운 기술을 여기서 제시하는 바이다.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은, 사용자의 재발화에 따라 개선용 음성을 수신하고, 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하고, 포착된 의미 유닛 집합 및 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여 위의 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 위의 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 위의 매칭된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥 정보를 참조로 하여, 개선용 의미 유닛 집합을 결정함으로써, 의미 유닛의 집합을 개선하기 위해 사용자가 재발화하는 음성을 보다 정확하게 인식할 수 있도록 하는 것을 다른 목적으로 한다.
적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인지, 아니면 소정의 전자 장치(미도시됨)를 통하여 입력된 후에(예를 들면, 키보드나 키패드에 의하여 입력된 후에) TTS(Text To Speech) 기술에 의하여 출력되는 디지털 음성이나 마찬가지로 입력된 후에 화면 상에서 디스플레이되는 텍스트인지를 가리지 아니 하고, 아래에서 설명되는 본 발명에 따라 개선용 음성에 의하여 개선될 수 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정, 입력되어 디스플레이된 텍스트에 있어서의 오타의 수정 등을 들 수 있다.
한편, 적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인 경우, 아래에서 설명되는 본 발명에 따라 개선용 텍스트에 의하여 개선될 수도 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정, 삽입, 삭제, 대치 등을 들 수 있다.
위와 같은 관점에서 상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서, 상기 사용자의 재발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하는 단계, 상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서, 상기 사용자의 1차 재발화 및 2차 재발화 각각에 따라 개선용 음성을 수신하는 단계, 상기 1차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 대한 1차 개선용 의미 유닛 집합 후보를 특정하고, 상기 2차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합의 2차 개선용 의미 유닛 집합 후보를 특정하는 단계, 상기 포착된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계를 포함하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서, 상기 사용자의 재발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하는 단계, 상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 대상으로 수행될 개선 동작을 결정하는 단계, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보와 상기 결정되는 개선 동작에 관한 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계, 및 상기 개선용 의미 유닛 집합을 이용하여 상기 매칭된 의미 유닛 집합에 대하여 상기 결정된 개선 동작을 수행하는 단계를 포함하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 장치로서, 상기 사용자의 재발화에 따라 개선용 음성을 수신하는 음성 감지부, 및 상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하고, 상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 의미 유닛 개선부를 포함하는 장치가 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 장치로서, 상기 사용자의 1차 재발화 및 2차 재발화 각각에 따라 개선용 음성을 수신하는 음성 감지부, 및 상기 1차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 대한 1차 개선용 의미 유닛 집합 후보를 특정하고, 상기 2차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합의 2차 개선용 의미 유닛 집합 후보를 특정하고, 상기 포착된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 의미 유닛 개선부를 포함하는 장치가 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 장치로서, 상기 사용자의 재발화에 따라 개선용 음성을 수신하는 음성 감지부, 및 상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하고, 상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 대상으로 수행될 개선 동작을 결정하고, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보와 상기 결정되는 개선 동작에 관한 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하고, 상기 개선용 의미 유닛 집합을 이용하여 상기 매칭된 의미 유닛 집합에 대하여 상기 결정된 개선 동작을 수행하는 의미 유닛 개선부를 포함하는 장치가 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 의미 유닛의 집합을 개선하기 위해 사용자가 재발화하는 음성을 보다 정확하게 인식할 수 있으므로, 사용자가 별다른 명령이나 조작을 입력할 필요 없이 개선용 음성을 발화하는 것만으로 자신이 의도한 대로 의미 유닛 집합을 쉽고 정확하게 개선할 수 있게 되는 효과가 달성된다.
또한, 본 발명에 의하면, 개인화된 언어 모델, 개인화된 과거 개선 이력, 개인화된 발음 습관 등의 문맥 정보에 기초하여 의미 유닛 집합을 개선하고자 하는 사용자의 의도를 보다 정확하게 파악할 수 있게 되는 효과가 달성된다.
도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.
도 4 내지 도 7은 본 발명의 일 실시예에 따라 음성 인식 결과로서 도출되는 가중치를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따라 문맥 정보를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 개선용 의미 유닛 집합 후보의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 매칭된 의미 유닛 집합의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.
도 4 내지 도 7은 본 발명의 일 실시예에 따라 음성 인식 결과로서 도출되는 가중치를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따라 문맥 정보를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 개선용 의미 유닛 집합 후보의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 매칭된 의미 유닛 집합의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
[본 발명의 바람직한 실시예]
장치의 구성
도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.
도 1에 도시된 바와 같이, 의미 유닛 개선 장치(100)는, 사용자에게 각종 의미 유닛 집합 등에 관한 시각적인 정보를 디스플레이하여 주는 디스플레이부(110)(예를 들면, 디스플레이 패널), 의미 유닛 개선 장치(100)의 종류에 따라 사용자가 누르거나 만지면 소정의 기능이 수행되도록 할 수 있는 버튼부(120)(예를 들면, 스마트 폰의 홈 버튼), 의미 유닛 개선 장치(100)에서 발생되는 음성이나 음향을 출력할 수 있는 음성 출력부(130)(예를 들면, 스피커), 음향 센서(많은 경우, 버튼부(120)의 아래 부근에 배치되는 마이크)(미도시됨), 기타 공지의 전기전자 부품(미도시됨) 등을 포함할 수 있다. 도 1에서 의미 유닛 개선 장치(100)가 스마트 폰인 것처럼 도시되었으나, 의미 유닛 개선 장치(100)가 이에 제한되는 것은 전혀 아니고, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기(스마트 폰이 아닌 것), 각종 스마트 웨어러블 디바이스(예를 들면, 스마트 워치, 스마트 밴드, 스마트 글래스, 스마트 링 등), 스마트카, 차량용 인포테인먼트 디바이스(IVI; In-Vehicle Infotainment) 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 의미 유닛 개선 장치(100)로서 채택될 수 있다.
한편, 디스플레이부(110)는 공지의 터치 패널로서 작용하여 사용자의 텍스트 입력을 수신하기 위한 기능을 더 수행할 수 있다. 이때, 사용자의 텍스트 입력은 터치 패널과 연동하여 소프트웨어적으로 제공되는 터치 패널 상의 키보드(미도시됨)나 키패드(미도시됨)에 의하여 이루어질 수 있다. 다만, 의미 유닛 개선 장치(100)는 별도의 하드웨어 키보드/키패드(미도시됨)를 포함하여 사용자의 텍스트 입력을 수신할 수도 있다.
아래에서는, 의미 유닛 개선 장치(100)의 내부 구성에 관하여 도 2를 참조하여 자세하게 살펴보기로 한다. 도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 의미 유닛 개선 장치(100)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)는 그 중 적어도 일부가 소정의 연산을 수행하거나 다른 하드웨어 구성요소나 소프트웨어 구성요소를 관리하거나 이러한 구성요소와 통신하기 위한 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 의미 유닛 개선 장치(100)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 의미 유닛 개선 장치(100)와 통신 가능한 원격 기억 장치(미도시됨)나 심지어 외부의 연산 장치(미도시됨)에 저장될 수도 있다. 따라서, 의미 유닛 개선 장치(100)의 기능의 적어도 일부는 당업자의 자유로운 선택에 따라 외부 연산 장치(원격의 서버 등)에 의하여 실행될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명의 일 실시예에 따른 음성 감지부(210)는, 사용자 등에 의하여 발화되는 음성, 즉, 개선의 대상이 되는 적어도 하나의 의미 유닛의 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 아날로그 음성이나, 위와 같은 개선을 위하여 사용자에 의하여 따로 더 발화될 수 있는 개선용 음성을 감지하는 기능을 수행할 수 있다.
이를 위하여, 본 발명의 일 실시예에 따른 음성 감지부(210)는 전술한 바와 같은 음향 센서를 그 일부로서 포함하거나 적어도 이러한 음향 센서와 통신할 수 있다. 이와 같은 음향 센서의 예에는, 마이크와 같은 일반적인 음향 센서는 물론, 진폭이 작은 음성 신호도 감지할 수 있는 소음 센서와 진동 센서, 초음파 센서 등이 포함될 수 있다.
그리고, 본 발명의 일 실시예에 따른 음성 감지부(210)는 감지된 음성의 아날로그 신호를 후술하는 바와 같은 음성 처리부(220)로 전달할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 음성 처리부(220)는 음성 감지부(210)로부터 전달 받은 아날로그 음성 신호를 디지털 신호로 변환하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 음성 처리부(220)는 공지의 아날로그-디지털 컨버터를 포함할 수 있다. 따라서, 음성 처리부(220)는 표본화(sampling), 양자화(quantization) 및 부호화(encoding)의 프로세스 중 적어도 하나를 수행함으로써, 개선의 대상이 되는 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합(즉, 후술할 "포착된 의미 유닛 집합")에 해당하는 음성이나 개선용 의미 유닛 집합에 해당하는 음성의 신호를 아날로그 신호로부터 디지털 신호로 변환할 수 있다.
또한, 본 발명의 일 실시예에 따른 음성 처리부(220)는, 필요에 따라, 음성 신호를 증폭시키거나, 음성 신호로부터 소음을 제거하거나, 특정 주파수 대역의 음성 신호만을 선별적으로 수신하거나, 음성 신호의 파형을 변경하거나 할 수 있다. 이를 위하여, 음성 처리부(220)는 공지의 증폭기, 소음 필터, 밴드패스/밴드리젝트 필터, 칼만(Kalman) 필터, EMA 필터, 사비츠키-골레이(Savitzky-Golay) 필터 등을 포함할 수 있다. 또한, 음성 처리부(220)는 시간 도메인의 음성 신호를 주파수 도메인의 것으로 변환하는 처리나 그 역의 처리를 수행할 수도 있다.
그리고, 본 발명의 일 실시예에 따른 음성 처리부(220)는 처리의 결과물인 디지털 음성 신호를 후술하는 바와 같은 의미 유닛 개선부(230)로 전달할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 기초하여, 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합을 포착할 수 있다. 이것은 물리적으로는 해당 디지털 음성에 대한 음성 인식을 수행한 결과로서 도출되는 텍스트로일 수 있다. 후자의 경우나 후술하는 바와 같은 다른 음성 인식 니즈를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈을 포함하거나 이와 연동할 수 있다. 이하에서는, 위와 같은 의미 유닛 집합을 "포착된 의미 유닛 집합"이라고 칭하기로 한다.
한편, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 역시 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 기초하여, 개선용 음성에 해당하는 의미 유닛 집합(즉, "개선용 의미 유닛 집합")에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정할 수 있다. 여기서, 개선용 의미 유닛 집합이나 그에 관한 개선용 의미 유닛 집합 후보는 물리적으로는 해당 디지털 음성에 대한 음성 인식을 수행한 결과로서 도출되는 텍스트일 수 있다.
그리고, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 포착된 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 포착된 의미 유닛 집합 내에서 개선용 의미 유닛 집합 후보와 높은 연관성을 나타내어 실제적인 개선의 대상이 된다고 판단되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 이러한 추출을 개선의 대상이 되는 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 "매칭"이라고도 칭할 수 있다. 이와 같이 개선의 대상이 되는 것으로서 개선용 의미 유닛 집합 후보와 매칭된 의미 유닛 집합은 편의상 "매칭된 의미 유닛 집합"이라고 칭하기로 한다. 이것은 하나의 포착된 의미 유닛 집합 내에 하나만 존재할 수도 있지만, 복수 개 존재할 수도 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 포착된 의미 유닛 집합 및 개선용 의미 유닛 집합 후보 사이의 연관성은, 디지털 음성 간의 비교, 텍스트 간의 비교, 디지털 음성과 텍스트 간의 비교(다만, 이 경우에는, 디지털 음성과 텍스트 중 하나가 다른 하나와 같은 형식의 것으로 변환되는 과정이 필요할 수 있다.)에 의하여 결정될 수 있다. 나아가, 본 발명의 일 실시예에 따르면, 위의 연관성에 관한 정보에는, 텍스트 유사도, 언어 모델 적합성, 문법 적합성 등에 관한 정보가 포함될 수 있다.
그리고, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 매칭된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥 정보를 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치는, 각각 사용자가 발화한 음성 및 사용자가 재발화한 음성에 대한 음성 인식 결과(예를 들면, 신뢰도 값 등)에 기초하여 결정될 수 있다. 또한, 본 발명의 일 실시예에 따르면, 포착된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥 정보는, 포착된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥(context) 또는 상황에 관한 정보로서, 과거 개선 이력에 관한 정보, 발음 습관에 관한 정보, 사용 어휘로 이루어지는 언어 모델에 관한 정보, 현재 다루어지고 있는 토픽(topic)에 관한 정보 등을 포함할 수 있으며, 이러한 정보 중 적어도 일부는 개선을 행하는 사용자별로 개인화된 정보일 수 있다.
한편, 본 발명의 다른 실시예에 따른 의미 유닛 개선부(230)는, 매칭된 의미 유닛 집합을 특정하거나 또는 개선용 의미 유닛 집합을 결정하기 위하여 사용자의 입력(즉, 개선용 음성의 발화나 개선용 텍스트의 입력 외의 다른 입력)에 의한 정보를 더 활용할 수도 있다. 이에 관하여는, 후술할 "의미 유닛 집합 개선을 위한 사용자 인터페이스" 부분에서 더 자세하게 살펴보기로 한다.
본 발명에 따라 개선용 의미 유닛 집합을 결정하는 구성에 관한 더 자세한 내용은 아래에서 상술하기로 한다.
그리고, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 위의 결정되는 개선용 의미 유닛 집합에 기초하여, 포착된 의미 유닛 집합 내의 매칭된 의미 유닛 집합에 대하여 개선 동작을 수행함으로써, 포착된 의미 유닛 집합을 개선할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)에 의해 수행될 수 있는 개선 동작에는, 매칭된 의미 유닛 집합을 개선용 의미 유닛 집합으로 대체하는 동작(이하, "수정"이라고 함), 매칭된 의미 유닛 집합과 개선용 의미 유닛 집합 사이에서 대응되는 앵커링(anchoring) 의미 유닛을 기준으로 하여 개선용 의미 유닛 집합 내의 앵커링 의미 유닛에 인접하는 적어도 하나의 의미 유닛을 매칭된 의미 유닛 집합 내의 앵커링 의미 유닛에 인접한 위치에 삽입하는 동작(이하, "삽입"이라고 함), 매칭된 의미 유닛 집합 내의 앵커링 의미 유닛에 인접하는 적어도 하나의 의미 유닛을 삭제하는 동작(이하, "삭제"라고 함), 매칭된 의미 유닛 집합 내의 앵커링 의미 유닛에 인접하는 적어도 하나의 의미 유닛을 개선용 의미 유닛 집합 내 앵커링 의미 유닛에 인접하는 적어도 하나의 의미 유닛으로 대체하는 동작(이하, "대치"이라고 함) 등이 포함될 수 있다. 즉, 본 발명의 일 실시예에 따르면, 위와 같이 개선되는 결과물은 포착된 의미 유닛 집합이 물리적 형식은 유지하되 그 품질은 개선된 것일 수 있다. 이러한 결과물은 물리적으로는 디지털 음성이거나 텍스트일 수 있다.
다음으로, 본 발명의 일 실시예에 따른 데이터베이스(240)에는, 의미 유닛을 개선하는 과정에서 도출될 수 있는 다양한 의미 유닛 집합(즉, 포착된 의미 유닛 집합, 포착된 의미 유닛 집합 후보, 매칭된 의미 유닛 집합, 매칭된 의미 유닛 집합 후보, 개선용 의미 유닛 집합 및 개선용 의미 유닛 집합 후보, 개선된 의미 유닛 집합 등)에 관한 정보가 저장될 수 있고, 포착된 의미 유닛 집합과 개선용 의미 유닛 집합 사이의 연관성에 관한 정보, 매칭된 의미 유닛 집합을 구성하는 의미 유닛 또는 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보, 포착된 의미 유닛 집합 또는 개선용 의미 유닛 집합에 관한 문맥 정보 등이 저장될 수 있다. 비록 도 2에서 데이터베이스(240)가 의미 유닛 개선 장치(100)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(240)는 의미 유닛 개선 장치(100)와 별개로 구성될 수도 있다. 한편, 본 발명에서의 데이터베이스(240)는, 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있으며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서의 데이터베이스(240)가 될 수 있다.
다음으로, 본 발명의 일 실시예에 따른 통신부(250)는 의미 유닛 개선 장치(100)가 외부 장치 또는 외부 서버와 통신할 수 있도록 하는 기능을 수행한다.
마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(240) 및 통신부(250) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(260)는 의미 유닛 개선 장치(100)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(240) 및 통신부(250)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
아래에서는, 도 3 내지 도 11을 참조하여, 위에서 약술한 바와 같은 의미 유닛 개선을 수행하는 실시예에 관하여 자세하게 살펴보기로 한다.
실시예들
도 3은 본 발명의 일 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.
먼저, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는 사용자가 발화하는 음성(또는 사용자가 입력하는 텍스트)으로부터 포착된 의미 유닛 집합과 개선용 의미 유닛 집합에 관한 적어도 하나의 후보를 특정하는 단계(S310)를 수행할 수 있다.
예를 들면, "I can correct errors without backspacing"이라고 발화한 음성이 사용자의 의도와 다르게 인식됨에 따라 "I can correct it hurts without fix a seat"가 포착된 의미 유닛 집합으로서 특정될 수 있고, 사용자가 위의 포착된 의미 유닛 집합을 개선하기 위하여 "errors without backspacing"이라고 재발화한 음성이 인식됨에 따라 "errors we don't fix AC", "errors without backspacing" 등이 개선용 음성 인식 집합에 관한 개선용 의미 유닛 집합 후보로서 특정될 수 있다.
예를 들면, 위와 같은 특정은, 먼저 입력된 포착된 의미 유닛 집합에 해당하는 음성(즉, 발화된 음성)과 그 뒤에 입력된 개선용 의미 유닛 집합에 해당하는 음성 부분(즉, 재발화된 음성) 사이의 시간 간격이 소정의 임계치 이상이라는 점에 근거할 수 있다.
다음으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 위와 같이 특정되는 포착된 의미 유닛 집합과 개선용 의미 유닛 집합에 관한 개선용 의미 유닛 집합 후보 사이의 연관성을 도출하는 단계(S320)를 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 포착된 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 연관성을 도출하기 위하여, 포착된 의미 유닛 집합 내의 유닛 간의 시간 간격이나 스페이스 그리고/또는 개선용 의미 유닛 집합의 길이(예를 들면, 그에 해당하는 디지털 음성 신호의 지속 시간, 텍스트의 길이, 어절의 수, 단어의 수, 음절의 수, 글자의 수, 어소의 수 등)에 기초하여, 포착된 의미 유닛 집합을, 예를 들면, "I can correct", "it hurts", "without fix a seat" 등의 부분 의미 유닛 집합으로 나누고 확장한 후에, 각 부분 의미 유닛 집합을 개선용 의미 유닛 집합 후보와 비교하여 볼 수 있다. 물론, "I", "can", "correct", "it", "hurts", "without", "fix", "a", "seat" 등의 개별 의미 유닛 단위로 나누거나, "without"이 아닌 "with", "out" 등과 같이 의미 유닛보다 작은 단위로 나누는 것도 또한 가능하다. 이러한 경우, 포착된 의미 유닛 집합으로부터 나누어진 각 부분은 그 중 하나 이상이 함께, 개선용 의미 유닛 집합 후보와 비교될 수 있고, 그 비교 결과에 따라 포착된 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 연관성이 도출될 수 있다. 이상에서 그리고 이하에서, 포착된 의미 유닛 집합을 개선용 의미 유닛 집합 후보와의 비교를 위하여 나누거나 확장하는 것에 관하여 설명하지만, 포착된 의미 유닛 집합의 부분이 개선용 의미 유닛 집합 후보와 비교될 수 있는 이상, 포착된 의미 유닛 집합의 부분들로의 분리(나눔)나 부분들의 확장(즉, 부분들의 배열이 중첩적으로 되도록 하는 것) 외의 다른 방식도 얼마든지 채택될 수 있다.
이러한 비교는, 디지털 음성 간의 비교인 경우에는, 시간 도메인이나 주파수 도메인에서의 디지털 음성의 특징의 비교일 수 있다. 이러한 음성 특징 중에서 전형적으로 사용되는 것은 디지털 음성 신호의 파(wave)에 있어서의 특징점일 수 있다. 즉, 동일한 재생 시간 구간 내에서 두 디지털 음성 신호 간에 더 많은 공통의 특징점이 발견될수록, 두 디지털 음성이 서로 더 높은 연관성을 갖는 것으로 볼 수 있다. 다만, 디지털 음성 간의 비교를 위하여는 다양한 알고리즘이 사용될 수 있음을 밝혀 둔다.
한편, 위와 같은 비교는 텍스트 간의 비교일 수도 있다. 이 경우, 텍스트는 그 어절, 단어, 음절, 글자 및 어소 중 적어도 한 가지에 관하여 비교될 수 있다. 이러한 비교를 위하여 공지의 텍스트 비교 알고리즘이 하나 이상 채용될 수 있다. 예를 들어, 음절마다의 순차적인 유사도(예를 들면, 음가나 스펠링의 유사도)가 높은 두 개의 텍스트는 상호 간에 높은 연관성을 갖는 텍스트로 규정될 수 있다.
포착된 의미 유닛 집합과 개선용 의미 유닛 집합 후보를 비교하여 포착된 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 연관성을 도출하는 구성에 관한 더 자세한 설명은, 본 발명자의 연관 발명에 관한 국제출원인 제PCT/KR2015/004010호의 명세서를 참조할 수 있으며, 여기서, 상기 출원의 명세서는 그 전체로서 본 명세서에 편입된 것으로 간주되어야 한다.
다음으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 매칭된 의미 유닛 집합과 개선용 의미 유닛 집합 후보 사이의 연관성을 참조로 하여, 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 것으로 판단되는 매칭된 의미 유닛 집합을 결정하는 단계(S330)를 수행할 수 있다.
다음으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는 앞선 단계에서 결정된 매칭된 의미 유닛 집합을 구성하는 의미 유닛 또는 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 매칭된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥 정보를 참조로 하여, 사용자가 포착된 의미 유닛 집합을 개선하기 위하여 재발화하면서 의도했던 것으로 판단되는 개선용 의미 유닛 집합을 결정하는 단계(S340)를 수행할 수 있다.
다음으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 앞선 단계에서 결정된 개선용 의미 유닛 집합을 이용하여, 포착된 의미 유닛 집합 내의 매칭된 의미 유닛 집합에 대하여 수정, 삽입, 삭제, 대치 등의 개선 동작을 수행함으로써, 포착된 의미 유닛 집합을 개선하는 단계(S350)를 수행할 수 있다. 이러한 개선의 결과물은 개선된 음성 인식 결과일 수도 있고 개선된 텍스트일 수도 있다.
이하에서는, 개선용 의미 유닛 집합을 결정하는 구성에 관한 보다 구체적인 실시예를 살펴보기로 한다.
1. 음성 인식 결과에 기초한 가중치
도 4 내지 도 7은 본 발명의 일 실시예에 따라 음성 인식 결과로서 도출되는 가중치를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
도 4 내지 도 7의 실시예에서, 사용자가 "I can correct errors without backspacing"이라고 발화한 음성에 대한 음성 인식이 수행됨에 따라 도출되는 음성 인식 결과물 중 신뢰도 값이 가장 높은 "I can correct it hurts without fix a seat"라는 의미 유닛 집합이 포착된 의미 유닛 집합으로서 특정되고, 나머지 신뢰도 값이 낮은 4개의 음성 인식 결과물인 "I can correct it hurts without fix AC", "I can correct letters without fix a seat", "I can correct editors without fix a seat" 및 "I can correct editors without fix AC"가 각각 포착된 의미 유닛 집합에 관한 4개의 후보로서 특정될 수 있다.
또한, 도 4 내지 도 7의 실시예에서, 사용자가 위의 포착된 의미 유닛 집합을 개선하기 위하여 "errors without backspacing"이라고 1차 재발화한 음성에 대한 음성 인식이 수행됨에 따라 도출되는 5개의 음성 인식 결과물인 "errors we don't fix AC", "errors without backspacing", "errors readout fix a seat", "errors we don't backspacing" 및 "errors without fix a seat"가 각각 개선용 의미 유닛 집합에 관한 5개의 1차 후보로서 특정될 수 있다.
또한, 도 4 내지 도 7의 실시예에서, 사용자가 위의 포착된 의미 유닛 집합을 개선하기 위하여 "errors without backspacing"이라고 2차 재발화한 음성에 대한 음성 인식이 수행됨에 따라 도출되는 5개의 음성 인식 결과물인 "letters we don't backspacing", "letters without backspacing", "It hurts we don't backspacing", "errors without backspacing" 및 "It hurts without backspacing"가 각각 개선용 의미 유닛 집합에 관한 5개의 2차 후보로서 특정될 수 있다.
먼저, 도 4를 참조하면, 포착된 의미 유닛 집합, 4개의 포착된 의미 유닛 집합 후보, 5개의 1차 개선용 의미 유닛 집합 후보 및 5개의 2차 개선용 의미 유닛 집합 후보에 대하여 음성 인식 결과에 따른 가중치가 부여될 수 있다. 그리고, 위와 같이 의미 유닛 집합에 부여된 가중치는 다시 해당 의미 유닛 집합을 구성하는 의미 유닛 각각에 부여될 수 있다. 본 발명의 일 실시예에 따르면, 가중치는, 각 의미 유닛 집합이 사용자가 발화한 음성, 1차 재발화한 음성 또는 2차 재발화한 음성과 유사한(또는 매칭되는) 정도에 따라 결정되는 음성 인식 신뢰도 값에 기초하여 결정될 수 있다. 예를 들면, 1차 재발화된 음성에 대한 음성 인식 결과로서 도출되는 5개의 개선용 의미 유닛 집합 후보에는 그 음성 인식 신뢰도 값에 따라 0.6, 0.2, 0.1, 0.05 및 0.05의 가중치가 각각 부여될 수 있다.
다음으로, 도 5를 참조하면, 사용자가 발화한 음성에 대한 음성 인식 결과(구체적으로는, 그 중 개선의 대상이 되는 매칭된 의미 유닛 집합에 해당하는 부분에 대한 음성 인식 결과), 사용자가 1차 재발화한 음성에 대한 음성 인식 결과 및 사용자가 2차 재발화한 음성 인식 결과 각각은 소정의 가중치가 부여된 의미 유닛에 의해 연결되는 복수의 노드로 이루어지는 컨퓨전 네트워크(confusion network)로 표현될 수 있다.
계속하여, 도 5를 참조하면, 컨퓨전 네트워크 내에서 중복되는 둘 이상의 의미 유닛은, 그 둘 이상의 의미 유닛을 각각 포함하는 둘 이상의 의미 유닛 집합에 부여된 가중치가 더해지거나 곱해짐으로써, 하나의 의미 유닛으로 병합될 수 있다. 예를 들면, 사용자가 발화한 음성에 대한 음성 인식 결과에 해당하는 컨퓨전 네트워크에서 가중치가 0.6인 의미 유닛 집합에 포함되는 "it"과 가중치가 0.2인 의미 유닛 집합에 포함되는 "it"은 컨퓨전 네트워크 내에서 가중치가 0.8인 "it"으로 병합될 수 있다.
여기서, 의미 유닛 집합에 포함되는 의미 유닛별로 음성 인식 신뢰도 값을 획득할 수 있는 경우에는, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 의미 유닛 각각에 대한 신뢰도 값에 직접 근거하여 의미 유닛 각각에 부여될 가중치 값을 결정할 수 있을 것이다.
다음으로, 도 6을 참조하면, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 음성 인식 결과로서 도출되는 복수의 의미 유닛 집합에 걸쳐서 나타나는 기설정된 특이 사항 또는 패턴에 기초하여 복수의 의미 유닛 집합에 포함되는 적어도 하나의 의미 유닛에 부여되는 가중치를 조정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 하나의 발화(또는 재발화)된 음성에 대한 음성 인식 결과로서 도출되는 복수의 의미 유닛 집합 내에서 기설정된 비율 이상으로 자주 나타나는 의미 유닛에 대하여는 가중치를 증가시킬 수 있다. 음성 인식 결과에서 중복하여 도출되는 의미 유닛은 사용자의 의도에 부합하는 것일 가능성이 높기 때문이다. 예를 들면, 사용자가 발화한 음성에 대한 음성 인식 결과로서 도출되는 포착된 의미 유닛 집합 및 그에 대한 4개의 후보에서 5번이나 중복하여 나타나는 의미 유닛인 "without"의 가중치에 1.5를 곱하여 그 가중치를 높일 수 있다(도 6의 (a) 참조).
또한, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 최근에 발화(또는 재발화)된 음성에 대한 음성 인식 결과로서 도출되는 의미 유닛 집합 내에서 나타나는 의미 유닛에 부여되는 가중치가 그 이전의 발화(또는 재발화)된 음성에 대한 음성 인식 결과로서 도출되는 의미 유닛 집합 내에서 나타나는 의미 유닛에 부여되는 가중치보다 더 높아지도록 할 수 있다. 복수 회에 걸쳐서 이루어지는 발화(또는 재발화)에서 사용자가 최근에 발화(또는 재발화)한 음성일수록 사용자의 의도한 음성에 가까울 가능성이 높기 때문에다. 예를 들면, 사용자가 2차 재발화한 음성(즉, 사용자가 가장 최근에 재발화한 음성)에 대한 음성 인식 결과로서 도출된 2차 개선용 의미 유닛 집합 후보 내에서 나타나는 의미 유닛에 부여되는 가중치에는 전체적으로 1을 곱하고, 사용자가 1차 재발화한 음성(즉, 사용자가 두 번째로 최근에 재발화한 음성)에 대한 음성 인식 결과로서 도출된 1차 개선용 의미 유닛 집합 후보 내에서 나타나는 의미 유닛에 부여되는 가중치에는 전체적으로 0.9를 곱할 수 있다(도 6의 (b) 참조).
다음으로, 도 7을 참조하면, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 발화한(또는 재발화한) 음성에 대한 음성 인식 결과로서 도출된 복수의 컨퓨전 네트워크를 병합하여 하나의 통합 컨퓨전 네트워크를 생성할 수 있고(도 7의 (a) 참조), 이렇게 생성된 통합 컨퓨전 네트워크 내에 포함되는 의미 유닛에 부여되어 있는 가중치를 정규화(normalization)할 수 있다(도 7의 (b) 참조). 또한, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 위와 같이 가중치가 정규화된 통합 컨퓨전 네트워크를 구성하는 노드를 연결하는 의미 유닛으로 조합될 수 있는 다양한 의미 유닛 집합 중에서 가중치가 가장 높은 의미 유닛으로 조합되는 의미 유닛 집합을 개선용 의미 유닛 집합으로서 결정할 수 있다. 예를 들면, 가중치가 가장 높은 의미 유닛으로 조합되는 의미 유닛 집합은, 해당 의미 유닛 집합을 구성하는 의미 유닛 각각에 부여된 가중치를 모두 곱한 값이 가장 큰 의미 유닛 집합일 수 있다. 도 7의 실시예에서는, 가중치의 곱이 0.118272(= 0.44 x 0.56 x 0.48)인 의미 유닛의 조합으로 구성되는 "errors without backspacing"이 개선용 의미 유닛 집합(710)으로서 결정될 수 있다.
이상에서, 소정의 가중치가 부여된 의미 유닛에 의해 연결되는 복수의 노드로 이루어지는 컨퓨전 네트워크를 이용하여 개선용 의미 유닛 집합을 결정하는 실시예에 대하여 주로 설명되었지만, 본 발명에 따라 개선용 의미 유닛 집합을 결정하는 방법이 반드시 상기 언급된 실시예에 한정되는 것은 아니며, 복수의 의미 유닛 집합 후보 또는 그것을 구성하는 의미 유닛의 빈도 또는 중요도를 나타낼 수 있는 소정의 가중치 또는 신뢰도 값에 기초하여 사용자의 개선 의도에 부합하는 개선용 의미 유닛 집합을 결정하는 방법이라면 얼마든지 본 발명에 따른 개선용 의미 유닛 집합 결정 방법으로서 활용될 수 있음을 밝혀 둔다. 또한, 후술할 바와 같이, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 매칭된 의미 유닛 집합 또는 개선용 의미 유닛 집합 후보에 관한 문맥 정보를 더 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다.
또한, 이상에서, 컨퓨전 네트워크를 이용하여 개선용 의미 유닛 집합을 결정하는 실시예에 대하여 주로 설명되었지만, 본 발명에 따라 개선용 의미 유닛 집합을 결정하는 방법이 반드시 상기 언급된 실시예에 한정되는 것은 아니며, 래티스(lattice)를 이용하여 개선용 의미 유닛 집합을 결정하는 실시예도 얼마든지 상정될 수 있음을 밝혀 둔다.
구체적으로, 본 발명의 다른 실시예에 따르면, 사용자가 발화한 음성에 대한 음성 인식 결과(구체적으로는, 그 중 실질적으로 개선의 대상이 되는 매칭된 의미 유닛 집합에 해당하는 부분에 대한 음성 인식 결과), 사용자가 1차 재발화한 음성에 대한 음성 인식 결과 및 사용자가 2차 재발화한 음성 인식 결과 각각은 소정의 가중치가 부여된 의미 유닛에 의해 연결되는 복수의 노드로 이루어지는 래티스로 표현될 수 있다.
보다 구체적으로, 본 발명의 다른 실시예에 따르면, 래티스 내의 특정 의미 유닛에 부여되는 가중치는, 의미 유닛 집합 내에서 그 특정 의미 유닛의 앞에 등장하는 선행 의미 유닛에 이어서 그 특정 의미 유닛이 등장할 조건부 확률일 수 있고, 만약 어떤 의미 유닛에 대하여 산출되는 조건부 확률에 기초하여 결정될 수 있다. 한편, 본 발명의 다른 실시예에 따른 의미 유닛 개선부(230)는, 위와 같이 결정되는 가중치가 기설정된 수준 미만인 의미 유닛(즉, 개선용 의미 유닛 집합을 구성할 가능성이 기설정된 수준 미만인 의미 유닛)을 래티스에서 제거함으로써, 개선용 의미 유닛 집합을 결정함에 있어서 정확도를 높일 수 있다.
2. 문맥 정보
이하에서는, 문맥 정보를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성에 관하여 자세하게 살펴보기로 한다.
도 8 및 도 9는 본 발명의 일 실시예에 따라 문맥 정보를 참조로 하여 개선용 의미 유닛 집합을 결정하는 구성을 예시적으로 나타내는 도면이다.
(1) 개인화된 언어 모델을 이용하는 실시예
먼저, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 직접 작성한 텍스트 또는 사용자가 직접 발화한 음성으로부터 인식되어 변환된 텍스트에 기초하여 구축되는 개인화된 언어 모델을 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다. 구체적으로, 본 발명의 일 실시예에 따르면, 개인화된 언어 모델은, 사용자가 작성했거나 사용자와 연관된 문서, 이메일, 문자메시지, 소셜네트워크서비스의 게시물, 주소록 등으로부터 수집되는 음성 또는 텍스트에 기초하여 구축될 수 있다.
도 8을 참조하면, 포착된 의미 유닛 집합이 "I can correct typed in letters without backspaces"이고, 개선용 의미 유닛 집합에 관한 2개의 후보(이들 후보는, 앞서 살펴본 바에 따라, 사용자에 의해 재발화된 음성에 대한 음성 인식 결과에 기초하여 도출되는 가중치를 참조로 하여 결정된 후보일 수 있다.)가 각각 "typing errors" 및 "IP address"인 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 해당 사용자에 대하여 구축된 개인화된 언어 모델에서는 "typing", "errors", "typing-errors" 등의 의미 유닛이 "IP", "address", "IP-address" 등의 의미 유닛보다 높은 빈도로 발견된다는 점을 참조로 하여, 2개의 후보 중 "typing errors"를 개선용 의미 유닛 집합으로서 결정할 수 있다.
또한, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 개인화된 언어 모델에서 나타나는 인접 단어 정합도를 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 "I can correct errors we don't fix AC"이고, 개선용 의미 유닛 집합에 관한 2개의 후보(이들 후보는, 앞서 살펴본 바에 따라, 사용자에 의해 재발화된 음성에 대한 음성 인식 결과에 기초하여 도출되는 가중치를 참조로 하여 결정된 후보일 수 있다.)가 각각 "readout backspacing" 및 "without backspacing"인 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 개인화된 언어 모델에서 "errors-without"의 인접 단어 정합도가 "errors-readout"의 인접 단어 정합도보다 더 높게 나타난다는 점을 참조로 하여, 2개의 후보 중 "without backspacing"를 개선용 의미 유닛 집합으로서 결정하고, 이에 따라 위의 "I can correct errors we don't fix AC"를 "I can correct errors without backspacing"으로 개선할 수 있다
또한, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 직접 작성한 텍스트 또는 사용자가 직접 발화한 음성으로부터 인식되어 변환된 텍스트에 기초하여 구축되는 개인화된 품사 언어 모델을 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 "There is another version of the story"이고, 개선용 의미 유닛 집합에 관한 2개의 후보(이들 후보는, 앞서 살펴본 바에 따라, 사용자에 의해 재발화된 음성에 대한 음성 인식 결과에 기초하여 도출되는 가중치를 참조로 하여 결정된 후보일 수 있다.)가 각각 "is this story" 및 "of this story"인 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 해당 사용자에 대하여 구축된 개인화된 품사 언어 모델에서는 "대명사-동사-형용사-명사-전치사-대명사-명사"라는 품사 조합 패턴이 "대명사-동사-형용사-명사-동사-대명사-명사"라는 품사 조합 패턴보다 높은 빈도로 발견된다는 점을 참조로 하여, 2개의 후보 중 "of this story"를 개선용 의미 유닛 집합으로서 결정하고, 이에 따라 위의 "There is another version of the story"을 "There is another version of this story"로 개선할 수 있다.
한편, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 앞서 설명된 개인화된 언어 모델 또는 개인화된 품사 언어 모델을 참조로 하여, 개선용 의미 유닛 집합 후보 또는 그 후보들이 병합됨에 따라 생성되는 컨퓨전 네트워크 또는 래티스에 부여되는 가중치를 조정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 도 7의 (b)에 도시된 컨퓨전 네트워크를 구성하는 각 의미 유닛에 부여되는 가중치는, 각 의미 유닛을 포함하는 개선용 의미 유닛 집합 후보의 음성 인식 신뢰도 값에 기초하여 결정되는 가중치 A, 각 의미 유닛을 포함하는 개선용 의미 유닛 집합 후보에 포함되는 적어도 하나의 의미 유닛 또는 그들의 조합이 개인화된 언어 모델에서 얼마나 자주 또는 많이 출현하느냐에 기초하여 결정되는 가중치 B 및 각 의미 유닛을 포함하는 개선용 의미 유닛 집합 후보에 포함되는 둘 이상의 의미 유닛 사이의 품사 조합 패턴이 개인화된 품사 언어 모델에서 얼마나 자주 또는 많이 출현하느냐에 기초하여 결정되는 가중치 C가 모두 고려됨에 따라 조정될 수 있다. 예를 들면, 도 7의 (b)에 도시된 컨퓨전 네트워크를 구성하는 각 의미 유닛에 부여되는 가중치는, 위의 가중치 A, 가중치 B 및 가중치 C를 모두 곱한 값으로서 조정될 수 있다.
(2) 개인화된 개선 이력을 이용하는 실시예
다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 과거에 의미 유닛 집합(또는 의미 유닛)을 개선한 이력에 기초하여 해당 사용자에 대하여 개인화된 개선 이력 데이터베이스를 구축할 수 있고, 위와 같이 구축되는 개인화된 개선 이력 데이터베이스를 참조로 하여 개선용 의미 유닛 집합을 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 개인화된 개선 이력 데이터베이스에는, 개선 전 의미 유닛 집합 및 개선 후 의미 유닛 집합이 대응되어 이루어지는 적어도 하나의 쌍(pair)과 그 적어도 하나의 쌍에 부여되는 가중치에 관한 정보(즉, 일종의 오류-정답 사전)가 포함될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 개인화된 개선 이력 데이터베이스에는, 개선 후 의미 유닛 집합 및 개선 후 의미 유닛 집합에 부여되는 빈도(Ngram)에 기초한 가중치에 관한 정보가 포함될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 개인화된 개선 이력 데이터베이스는 의미 유닛을 개선하는 동작이 수행될 때마다 그 개선 결과에 기초하여 갱신될 수 있다. 도 8의 실시예에서, 의미 유닛 개선부(230)가 사용자의 개선 의도를 파악하여 자동으로 또는 사용자가 임의로 후보 2("IP address")를 배제하고 후보 1("typing errors")를 개선용 의미 유닛 집합으로서 결정한 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자의 개인화된 개선 이력 데이터베이스 내에서 "typing", "errors" 등의 의미 유닛 또는 "typing-errors" 등의 구조로 이루어지는 의미 유닛 집합에 부여되는 가중치를 증가시킬 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 이러한 경우에, 개선을 위해 재발화되는 음성에 대한 음성 인식 결과로서 생성되는 의미 유닛 집합 후보에 "typing errors"가 포함되면 그 "typing errors"에 부여되는 가중치를 증가시킬 수 있고, 개선을 위해 재발화되는 음성에 대한 음성 인식 결과로서 생성되는 의미 유닛 집합 후보에 "typing errors"가 포함되어 있지 않으면 "typing errors"를 새로운 의미 유닛 집합 후보로서 추가할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 개선 이력 데이터베이스가 반드시 특정 사용자의 개선 이력에만 기초하여 구축되어야 하는 것은 아니며, 개선 이력 데이터베이스가 반드시 특정 사용자가 행하는 의미 유닛 개선에만 참조로 되어야 하는 것은 아님을 밝혀 둔다. 예를 들면, 어떤 개선 이력 데이터베이스는 소정의 공통점을 공유하거나 소정의 관계를 맺고 있는 둘 이상의 사용자의 개선 이력에 기초하여 구축될 수도 있다. 다른 예를 들면, 제1 사용자에 대한 개인화된 개선 이력 데이터베이스가 제1 사용자와 소정의 공통점을 공유하거나 제1 사용자와 소정의 관계를 맺고 있는 제2 사용자의 의미 유닛 개선에도 참조될 수 있다. 따라서, 본 발명에 의하면, 개선 이력을 가지고 있는 않은 신규 사용자가 의미 유닛을 개선하는 경우에도, 신규 사용자와 공통점이 있거나 신규 사용자와 관계를 맺고 있는 다른 사용자의 개선 이력 데이터베이스를 참조로 하여 신규 사용자가 자신의 의도에 맞게 의미 유닛을 개선할 수 있도록 지원할 수 있게 되는 효과가 달성된다.
(3) 개인화된 발음 습관을 이용하는 실시예
다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자의 발음 습관에 기초하여 설정될 수 있는 발음 기호 사이의 유사도에 관한 정보를 참조로 하여, 개선용 의미 유닛 집합을 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 사용자의 의미 유닛 개선 이력을 참조로 하여 의미 유닛 사이의 발음 유사도 판단의 기준이 되는 발음 기호 사이의 거리를 설정할 수 있다.
도 9를 참조하면, 의미 유닛 개선부(230)가 사용자의 개선 의도를 파악하여 자동으로 또는 사용자가 임의로 "dot"를 "that"으로 수정한 개선 이력이 존재하면, 이러한 개선 이력에 따라 발음 기호 d에 해당하는 발음 및 유성 치 마찰음에 해당하는 발음 사이의 거리와 발음 기호 a에 해당하는 발음 및 발음 기호 ae에 해당하는 발음 사이의 거리가 가까워질 수 있다.
계속하여, 도 9를 참조하면, 포착된 의미 유닛 집합이 "Look at dot, rather done me"이고, 개선용 의미 유닛 집합에 관한 2개의 후보가 각각 "doubt me" 및 "than me"인 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 포착된 의미 유닛 집합의 "done"과 개선용 의미 유닛 집합 후보 1의 "doubt" 사이의 텍스트 유사도가 높음에도 불구하고, 개인화된 발음 습관에 근거할 때 발음 기호 d에 해당하는 발음 및 유성 치 마찰음에 해당하는 발음 사이의 거리가 가깝다는 점을 참조로 하여, 포착된 의미 유닛 집합의 "done"과 발음이 유사한 "than"을 포함하는 후보 2를 개선용 의미 유닛 집합으로서 결정할 수 있다.
(4) 토픽을 이용하는 실시예
다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 발화(또는 재발화)하고 있는 상황에서 다루어지고 있는 토픽을 인식하고, 그 인식된 토픽에 부합하는 의미 유닛을 포함하는 의미 유닛 집합을 개선용 의미 유닛 집합으로서 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 음성을 발화(또는 재발화)함으로써 작성하고 있는 문서나 사용자가 음성을 발화(또는 재발화)함으로써 참여하고 있는 대화에서 등장한 의미 유닛(단어)에 기초하여 현재 문서 또는 대화에서 다루어지고 있는 토픽을 알아낼 수 있다.
도 8의 실시예에서, 사용자가 음성을 발화함으로써 참여하고 있는 대화에서 컴퓨터 네트워크라는 토픽에 해당하는 의미 유닛보다는 타이핑 에러라는 토픽에 해당하는 의미 유닛이 훨씬 더 많이 발견되는 경우를 가정할 수 있는데, 이러한 경우에, 후보 2("IP address")가 배제되고 후보 1("typing errors")이 개선용 의미 유닛 집합으로서 결정될 수 있다.
한편, 이상에서, 음성 인식 결과에 기초한 가중치에 관한 정보만을 참조로 하여 개선용 의미 유닛 집합을 결정하는 실시예 또는 문맥 정보만을 참조로 하여 개선용 의미 유닛 집합을 결정하는 실시예에 관하여 주로 설명되어 있지만, 후술할 바와 같이, 본 발명에 따른 개선용 의미 유닛 집합 결정 방법이 반드시 이상의 실시예에 한정되는 것은 아님을 밝혀 둔다.
예를 들면, 도 7의 실시예에서, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230), 사용자의 개인화된 언어 모델에서 "letters"라는 의미 유닛이 자주 발견된다는 취지의 문맥 정보, 사용자의 개선 이력 데이터베이스 내에서 "it hurts"를 "letters"로 개선한 이력에 부여된 가중치가 기설정된 수준 이상이라는 취지의 문맥 정보, 사용자가 작성 중인 문서가 편지(letter)라는 토픽에 관한 것이라는 취지의 문맥 정보 등을 참조로 하여, 도 7에 도시된 컨퓨전 네트워크에서 음성 인식 결과에 기초하여 "letters"에 부여된 0.28이라는 가중치를 2배로 증가시켜 "letters"의 가중치가 0.56이 되도록 할 수 있으며, 결과적으로, "letters without backspacing"을 개선용 의미 유닛 집합으로서 결정할 수 있다.
3. 네스티드 커렉션(nested correction)
본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 개선용 의미 유닛 집합의 특정 부분에 해당하는 의미 유닛을 결정함에 있어서, 사용자에 의해 발화(또는 재발화)된 음성에 대한 음성 인식 결과 중 위의 특정 부분에 매칭되는 음성 인식 결과에만 기초할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 포착된 의미 유닛 집합을 개선하기 위하여 사용자가 n+1 번 재발화하는 경우에, 개선용 의미 유닛 집합 중 1차 내지 n차 재발화 음성에 대한 음성 인식 결과로서 도출되는 1차 내지 n차 개선용 의미 유닛 집합 후보에만 매칭되고 n+1차 재발화 음성에 대한 음성 인식 결과로서 도출되는 n+1차 개선용 의미 유닛 집합 후보에는 매칭되지 않는 부분은, 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 1차 내지 n차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치와 매칭된 의미 유닛 집합 또는 1차 내지 n차 개선용 의미 유닛 후보 집합에 관한 문맥 정보에 기초하여 결정될 수 있다. 또한, 본 발명의 일 실시예에 따르면, 개선용 의미 유닛 집합 중 1차 내지 n+1차 재발화 음성에 대한 음성 인식 결과로서 도출되는 1차 내지 n+1차 개선용 의미 유닛 집합 후보 모두에 매칭되는 부분은, 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 1차 내지 n+1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치와 매칭된 의미 유닛 집합 또는 1차 내지 n+1차 개선용 의미 유닛 후보 집합에 관한 문맥 정보에 기초하여 결정되도록 할 수 있다.
즉, 본 발명에 따르면, 개선용 의미 유닛 집합 중 사용자에 의해 더 이상 재발화되지 않는 부분은 그 이전에 재발화된 음성에만 기초하여 결정될 수 있게 된다. 따라서, 본 발명에 의하면, 개선용 의미 유닛 집합 중 선행하는 재발화 음성에 기초하여 이미 사용자의 의도에 맞게 개선될 수 있을 것으로 기대되는 부분이 후행하는 재발화 음성에 기초하여 사용자의 의도와 다르게 변경되어 버리는 상황이 발생하는 것을 방지할 수 있게 되며, 이에 따라, 사용자가 의도한 개선용 의미 유닛 집합을 보다 정확하게 추정할 수 있게 되는 효과가 달성된다.
도 10은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 개선용 의미 유닛 집합 후보의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
도 10을 참조하면, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 발화 컨퓨전 네트워크(1010), 사용자가 1차 재발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 1차 재발화 컨퓨전 네트워크(1020) 및 사용자가 2차 재발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 2차 재발화 컨퓨전 네트워크(1030)를 병합함에 있어서, 발화 컨퓨전 네트워크(1010)의 제1 노드(1011) 및 제3 노드(1013) 사이의 구간에 해당하는 부분에 대하여는 발화 컨퓨전 네트워크(1010), 1차 재발화 컨퓨전 네트워크(1020) 및 2차 재발화 컨퓨전 네트워크(1020)를 모두 병합하고, 발화 컨퓨전 네트워크(1010)의 제3 노드(1013) 및 제7 노드(1017) 사이의 구간에 해당하는 부분에 대하여는 발화 컨퓨전 네트워크(1010) 및 1차 재발화 컨퓨전 네트워크(1020)만을 병합할 수 있고, 이렇게 병합된 컨퓨전 네트워크를 참조로 하여 개선용 의미 유닛 집합을 결정할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 사용자가 재발화한 음성에 대한 음성 인식 결과로서 도출되는 개선용 의미 유닛 집합 후보가 매칭된 의미 유닛 집합과 매칭되지 않는 부분(즉, 포착된 의미 유닛 집합 중 매칭된 의미 유닛 집합 밖의 부분)을 포함하고 있다면, 매칭된 의미 유닛 집합을 확장시킬 수 있다.
도 11은 본 발명의 일 실시예에 따라 개선용 의미 유닛 집합을 결정함에 있어서 기초가 되는 매칭된 의미 유닛 집합의 범위를 설정하는 구성을 예시적으로 나타내는 도면이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 발화 컨퓨전 네트워크(1110), 사용자가 1차 재발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 1차 재발화 컨퓨전 네트워크(1120) 및 사용자가 2차 재발화한 음성에 대한 음성 인식 결과에 기초하여 특정되는 컨퓨전 네트워크인 2차 재발화 컨퓨전 네트워크(1130)를 병합함에 있어서, 포착된 의미 유닛 집합 중 2차 재발화 컨퓨전 네트워크(1130)의 제1 노드(1131) 및 제2 노드(1132) 사이의 구간에 매칭되는 부분(1140)을 기존의 매칭된 의미 유닛 집합에 편입시킴으로써, 발화 컨퓨전 네트워크(1110)를 확장시킬 수 있다.
이상에서, 포착된 의미 유닛 집합 내의 매칭된 의미 유닛 집합에 대하여 "수정" 동작을 수행함으로써 의미 유닛을 개선하는 실시예에 대하여 주로 설명되었지만, 본 발명의 실시예에 반드시 이상에서 언급된 것에 한정되는 것은 아님을 밝혀 둔다. 즉, 본 발명의 일 실시예에 따르면, 포착된 의미 유닛 집합 내의 매칭된 의미 유닛 집합에 대하여 "삽입", "삭제", "대치" 등의 다양한 개선 동작을 수행함으로써, 의미 유닛을 개선하는 실시예도 충분히 상정될 수 있다.
이하에서는, "수정"뿐만 아니라 "삽입", "삭제", "대치" 등의 다양한 개선 동작을 수행함에 있어서, 매칭된 의미 유닛 집합, 개선 동작 및 개선용 의미 유닛 집합을 결정하는 실시예에 대하여 보다 구체적으로 살펴보기로 한다.
본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 포착된 의미 유닛 집합 및 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 위의 매칭된 의미 유닛 집합을 대상으로 수행될 개선 동작을 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 매칭된 의미 유닛 집합의 적어도 하나의 후보와 매칭된 의미 유닛 집합을 대상으로 하여 수행될 개선 동작의 적어도 하나의 후보로 이루어지는 적어도 하나의 조합을 도출할 수 있고, 포착된 의미 유닛 집합과 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 기초하여 위의 적어도 하나의 조합에 대하여 소정의 스코어를 부여할 수 있으며, 위의 부여되는 스코어가 기설정된 수준 이상으로 높은 조합을 이루는 매칭된 의미 유닛 집합의 후보 및 개선 동작의 후보를 각각 매칭된 의미 유닛 집합 및 개선 동작으로서 결정할 수 있다.
예를 들면, 본 발명의 일 실시예에 따르면, 사용자가 원문을 발화함에 따라 "I think your efforts won't change a thing"이라는 포착된 의미 유닛 집합이 특정되고, 사용자가 이를 개선하기 위하여 재발화함에 따라 "you won't" 및 "new want"라는 개선용 의미 유닛 집합 후보가 특정되는 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 포착된 의미 유닛 집합의 "your" 및 "won't"와 개선용 의미 유닛 집합 후보의 "you" 및 "won't" 또는 "new" 및 "want"가 대응된다는 점에 근거하여, 위의 대응되는 의미 유닛이 앵커링 의미 유닛에 해당한다고 판단할 수 있고, 이에 따라 사용자가 의도한 개선 동작이, 앞서 주로 살펴본 수정이 아니라, 앵커링 의미 유닛을 기준으로 하는 삽입, 삭제 또는 대치라고 판단할 수 있다.
계속하여, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 개선용 의미 유닛 집합을 결정함에 있어서, 위의 결정되는 개선 동작을 더 참조로 하여, 매칭된 의미 유닛 집합 또는 그 후보 중 앵커링 의미 유닛에 해당하는 의미 유닛(개선용 의미 유닛 집합과의 연관성이 기대되므로)만이 고려되도록 하고 앵커링 의미 유닛을 제외한 나머지 의미 유닛(개선용 의미 유닛 집합과의 연관성이 기대되지 않으므로)은 고려되지 않도록 배제할 수 있다.
예를 들면, 사용자의 원문 발화에 따라 특정되는 포착된 의미 유닛 집합 중 매칭된 의미 유닛 집합이 "your efforts won't"이고, 사용자의 재발화에 따라 특정되는 개선용 의미 유닛 집합 후보가 "you won't" 및 "new want"이고, 매칭된 의미 유닛 집합 내의 앵커링 의미 유닛이 "your" 및 "won't" 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따르면, 매칭된 의미 유닛 집합 중 앵커링 의미 유닛인 "your" 및 "won't"에 대하여 부여되는 가중치는, 이어지는 개선용 의미 유닛 집합 결정 과정에서 유효하게 활용될 수 있고, 매칭된 의미 유닛 집합 중 앵커링 의미 유닛이 아닌 "efforts"에 대하여 부여되는 가중치는, 이어지는 개선용 의미 유닛 집합 결정 과정에서 무시될 수 있다.
의미 유닛 집합 개선을 위한 사용자 인터페이스
이하에서는, 사용자가 본 발명에 따라 의미 유닛 집합을 개선할 수 있도록 지원하는 사용자 인터페이스의 구성에 대하여 살펴보기로 한다.
1. 사용자의 임의 선택에 기반한 사용자 인터페이스
먼저, 매칭된 의미 유닛 집합이나 개선용 의미 유닛 집합에 관한 복수의 후보가 도출되는 경우에, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 사용자가 이들 복수의 후보 중 적어도 일부를 수동으로(즉, 임의로) 선택할 수 있도록 하는 사용자 인터페이스를 제공하고, 사용자로부터 입력되는 선택에 관한 정보를 참조로 하여 매칭된 의미 유닛 집합이나 개선용 의미 유닛 집합을 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따르면, 사용자는 재발화 시작 명령과 종료 명령 사이에 자신이 원하는 결과가 나올 때까지 여러 번 재발화할 수 있고, 각 재발화 시도마다 업데이트되는 재발화 음성 인식 결과가 사용자에게 제시될 수 있고, 위와 같이 제시되는 재발화 음성 인식 결과 중 사용자에 의하여 선택 또는 조합된 적어도 하나의 재발화 음성 인식 결과가 개선용 의미 유닛 집합으로서 결정되거나, 종료 명령이 입력되는 시점에서 가장 최근에 제시된 재발화 음성 인식 결과가 개선용 의미 유닛 집합으로서 결정될 수 있다.
보다 구체적으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는, 음성 처리부(220)로부터 전달 받은 디지털 음성 신호 중에서 사용자의 소정의 지시의 전이나 후에(또는, 직전이나 직후에) 전달 받은 디지털 신호의 음성을 개선용 음성으로서, 즉, 개선용 의미 유닛 집합으로서 특정할 수 있다(위와 같은 지시는 사용자의 미리 약속된 단어의 발화나 미리 약속된 키의 입력일 수 있다). 따라서, 본 발명에 따르면, 사용자가 발화한 개선용 음성이 해당 사용자가 의도한 것과 다르게 인식되는 경우에도, 사용자가 대기 명령을 입력하여 자신이 의도한 인식 결과가 나올 때까지 개선용 음성을 반복하여 발화할 수 있고, 자신이 의도한 인식 결과가 나오면, 사용자가 그때 비로소 개선 명령을 입력하여 그 인식된 개선용 음성을 개선용 의미 유닛 집합으로서 직접 특정할 수 있게 된다. 보다 구체적으로, 개선용 음성이 입력되는 것을 대기하도록 하는 대기 명령이 내려지는 단계, 위의 대기 명령이 내려진 이후에 사용자의 발화에 의한 개선용 음성이 입력되는 단계, 위의 입력된 개선용 음성에 대한 음성 인식 결과가 의미 유닛 개선 장치(100)의 디스플레이부(110)에 표시되는 단계, 개선 명령이 내려지는 단계, 및 수정 명령이 내려지기 직전에 입력되어 인식된 개선용 음성이 개선용 의미 유닛 집합으로서 특정되는 단계를 거쳐서, 개선용 의미 유닛 집합이 특정될 수 있다.
예를 들면, "Look at that, rather done me"라는 포착된 의미 유닛 집합을 개선하기 위하여 사용자가 세 번에 걸쳐 재발화한 음성 각각에 대한 음성 인식 결과로서, "doubt me", "than me" 및 "that and me"가 순차적으로 제시되는 경우를 가정할 수 있다. 이러한 경우에, 사용자가 "than me"를 선택하고 나서 종료 명령을 내리면, "than me"가 개선용 의미 유닛 집합으로 결정됨에 따라 위의 "Look at that, rather done me"가 "Look at that, rather than me"로 개선될 수 있고(즉, 대치), 사용자가 "that at me"를 선택하고 나서 종료 명령을 내리면, "that and me"가 개선용 의미 유닛 집합으로 결정됨에 따라 위의 "Look at that, rather done me"가 "Look at that and me, rather done me"로 개선될 수 있다(즉, 삽입).
다음으로, 본 발명의 일 실시예에 따르면, 한 번의 재발화에 따라 도출되는 복수의 재발화 음성 인식 결과 중 사용자가 임의로 선택한 어느 한 재발화 음성 인식 결과가 개선용 의미 유닛 집합으로서 결정될 수 있다.
예를 들면, 사용자의 한 번의 재발화에 대응하여 "doubt me", "than me", "ban me", "and me" 및 "that and me"라는 다섯 개의 재발화 음성 인식 결과가 도출되는 경우를 가정할 수 있다. 이러한 경우에, 본 발명의 일 실시예에 따르면, 다섯 개의 재발화 음성 인식 결과 중 음성 인식 신뢰도 값이 가장 높은 "doubt me"가 개선용 의미 유닛 집합으로서 자동으로 결정될 수 있고, 이에 따라 위의 "Look at that, rather done me"가 "Look at that, rather doubt me"로 개선될 수 있다. 다음으로, 위의 개선 결과에 동의하지 않는 사용자는 다시 개선하기 위한 조작(예를 들면, 화면에 표시된 "doubt"라는 의미 유닛을 터치하는 조작 등)을 입력할 수 있고, 이에 따라 다섯 개의 재발화 음성 인식 결과 중 "doubt me"를 제외한 나머지 네 개의 재발화 음성 인식 결과가 사용자에게 제시될 수 있고(음성 인식 신뢰도가 가장 낮은 "that and me"는 여전히 제시되지 않을 수도 있음), 그 중 사용자에 의해 선택된 "than me"가 개선용 의미 유닛 집합으로서 결정될 수 있으며, 결과적으로 위의 개선되었던 "Look at that, rather doubt me"가 "Look at that, rather than me"로 다시 개선될 수 있다.
2. 음성 인식에 기반한 사용자 인터페이스
본 발명의 일 실시예에 따르면, 의미 유닛 개선부(230)는, 사용자가 원문 발화에 따라 특정되는 포착된 의미 유닛 집합을 개선하기 위하여 재발화를 하는 경우에, 의미 유닛 개선 장치(100)에서 감지되는 음성에 대한 음성 인식 결과에만 기초하여, 원문 발화 음성, 원문의 개선을 위한 재발화 음성, 원문의 추가를 위한 발화 음성, 기타 명령을 위한 음성 등을 자동으로 구분하여 인식할 수 있다.
예를 들면, 사용자가 원문을 발화하는 것이 1회로 제한된 경우에, 사용자의 원문 발화를 위한 음성이 입력된 후에 감지되는 음성은, 기타 명령을 위한 음성("send", "delete", "I want to send" 등)이나 원문의 추가를 위한 발화 음성을 제외하고는, 모두 원문의 개선을 위한 재발화 음성인 것으로 인식될 수 있다. 여기서, 원문 발화를 위한 음성인 것으로 인식된 음성은 상술한 포착된 의미 유닛 집합에 대응하는 것으로서 특정될 수 있고, 원문의 개선을 위한 재발화 음성인 것으로 인식된 음성은 상술한 개선용 의미 유닛 집합 후보에 대응하는 것으로서 특정될 수 있다.
따라서, 본 발명의 일 실시예에 따르면, 위와 같이 포착된 의미 유닛 집합 및 개선용 의미 유닛 집합 후보가 특정되고 나면, 그에 기초하여, 앞서 도 4 내지 도 11을 참조로 하여 충분하게 설명된 일련의 의미 유닛 개선 과정(즉, 매칭된 의미 유닛 집합 결정, 개선 동작 결정, 개선용 의미 유닛 결정, 개선 동작 수행 등의 과정)이 수행될 수 있게 된다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 의미 유닛 개선 장치
210: 음성 감지부
220: 음성 처리부
230: 의미 유닛 개선부
240: 데이터베이스
250: 통신부
260: 제어부
210: 음성 감지부
220: 음성 처리부
230: 의미 유닛 개선부
240: 데이터베이스
250: 통신부
260: 제어부
Claims (18)
- 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서,
상기 사용자의 재발화에 따라 개선용 음성을 수신하는 단계,
상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하는 단계,
상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계
를 포함하고,
상기 음성 인식 결과에 기초한 가중치에 관한 정보에는, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 의해 연결되는 복수의 노드로 이루어지는 컨퓨전 네트워크(confusion network)에 관한 정보가 포함되는 방법. - 제1항에 있어서,
상기 연관성에 관한 정보에는, 텍스트 유사도, 언어 모델 적합성 및 문법 적합성 중 적어도 하나에 관한 정보가 포함되는 방법. - 제1항에 있어서,
상기 음성 인식 결과에 기초한 가중치는, 상기 음성 인식 결과의 신뢰도 값에 기초하여 결정되는 방법. - 삭제
- 제1항에 있어서,
상기 문맥 정보에는, 상기 사용자의 개인화된 언어 모델에 관한 정보가 포함되는 방법. - 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서,
상기 사용자의 재발화에 따라 개선용 음성을 수신하는 단계,
상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하는 단계,
상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계
를 포함하고,
상기 문맥 정보에는, 상기 사용자의 개인화된 과거 개선 이력에 관한 정보가 포함되는 방법. - 제6항에 있어서,
상기 과거 개선 이력에 관한 정보에는, 개선되기 전의 의미 유닛 집합 및 개선된 후의 의미 유닛 집합으로 이루어지는 적어도 하나의 쌍(pair)과 상기 적어도 하나의 쌍에 부여되는 가중치가 포함되는 방법. - 제6항에 있어서,
상기 과거 개선 이력에 관한 정보에는, 개선된 후의 의미 유닛 집합과 상기 개선된 의미 유닛 집합에 부여되는 가중치가 포함되는 방법. - 제1항 또는 제6항에 있어서,
상기 문맥 정보에는, 상기 사용자의 개인화된 발음 습관에 관한 정보가 포함되는 방법. - 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서,
상기 사용자의 재발화에 따라 개선용 음성을 수신하는 단계,
상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하는 단계,
상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계
를 포함하고,
상기 결정 단계에서,
상기 문맥 정보를 참조로 하여 상기 음성 인식 결과에 기초한 가중치를 조정하고, 상기 조정된 가중치를 참조로 하여 상기 개선용 의미 유닛 집합을 결정하는 방법. - 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 방법으로서,
상기 사용자의 1차 재발화 및 2차 재발화 각각에 따라 개선용 음성을 수신하는 단계,
상기 1차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 대한 1차 개선용 의미 유닛 집합 후보를 특정하고, 상기 2차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합의 2차 개선용 의미 유닛 집합 후보를 특정하는 단계,
상기 포착된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 단계
를 포함하고,
상기 결정 단계에서,
상기 개선용 의미 유닛 집합 중 상기 1차 개선용 의미 유닛 집합 후보에 대응되고 상기 2차 개선용 의미 유닛 집합에는 대응되지 않는 의미 유닛은, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 1차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여 결정되고,
상기 개선용 의미 유닛 집합 중 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 모두에 대응되는 의미 유닛은, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여 결정되는 방법. - 삭제
- 삭제
- 삭제
- 제1항 내지 제3항, 제5항 내지 제8항, 제10항 내지 제 11항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
- 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 장치로서,
상기 사용자의 재발화에 따라 개선용 음성을 수신하는 음성 감지부, 및
상기 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 관한 적어도 하나의 개선용 의미 유닛 집합 후보를 특정하고, 상기 포착된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 음성 인식 결과에 기초한 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 적어도 하나의 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 의미 유닛 개선부
를 포함하고,
상기 문맥 정보에는, 상기 사용자의 개인화된 과거 개선 이력에 관한 정보가 포함되는 장치. - 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따라 포착된 의미 유닛 집합임 - 을 개선하기 위한 장치로서,
상기 사용자의 1차 재발화 및 2차 재발화 각각에 따라 개선용 음성을 수신하는 음성 감지부, 및
상기 1차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합에 대한 1차 개선용 의미 유닛 집합 후보를 특정하고, 상기 2차 재발화에 따른 개선용 음성에 대한 음성 인식 결과에 기초하여 개선용 의미 유닛 집합의 2차 개선용 의미 유닛 집합 후보를 특정하고, 상기 포착된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 사이의 연관성에 관한 정보를 참조로 하여, 상기 포착된 의미 유닛 집합 내에서 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하고, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여, 상기 개선용 의미 유닛 집합을 결정하는 의미 유닛 개선부
를 포함하고,
상기 의미 유닛 개선부에서,
상기 개선용 의미 유닛 집합 중 상기 1차 개선용 의미 유닛 집합 후보에 대응되고 상기 2차 개선용 의미 유닛 집합에는 대응되지 않는 의미 유닛은, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛 및 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합 및 상기 1차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여 결정되고,
상기 개선용 의미 유닛 집합 중 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 모두에 대응되는 의미 유닛은, 상기 매칭된 의미 유닛 집합을 구성하는 의미 유닛, 상기 1차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛 및 상기 2차 개선용 의미 유닛 집합 후보를 구성하는 의미 유닛에 부여되는 가중치에 관한 정보와 상기 매칭된 의미 유닛 집합, 상기 1차 개선용 의미 유닛 집합 후보 및 상기 2차 개선용 의미 유닛 집합 후보 중 적어도 하나에 관한 문맥 정보를 참조로 하여 결정되는 장치. - 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160052304A KR101830210B1 (ko) | 2016-04-28 | 2016-04-28 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160052304A KR101830210B1 (ko) | 2016-04-28 | 2016-04-28 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170123090A KR20170123090A (ko) | 2017-11-07 |
KR101830210B1 true KR101830210B1 (ko) | 2018-02-21 |
Family
ID=60384682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160052304A KR101830210B1 (ko) | 2016-04-28 | 2016-04-28 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101830210B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015163684A1 (ko) * | 2014-04-22 | 2015-10-29 | 주식회사 큐키 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
-
2016
- 2016-04-28 KR KR1020160052304A patent/KR101830210B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015163684A1 (ko) * | 2014-04-22 | 2015-10-29 | 주식회사 큐키 | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
KR20170123090A (ko) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10884701B2 (en) | Voice enabling applications | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN106796788B (zh) | 基于用户反馈来改善自动语音识别 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
CN109791761B (zh) | 使用校正的术语的声学模型训练 | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2010197644A (ja) | 音声認識システム | |
CN111712790B (zh) | 计算设备的语音控制 | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
CN110021295B (zh) | 用于识别由语音识别系统生成的错误转录的方法和系统 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
KR101704501B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
AU2019100034A4 (en) | Improving automatic speech recognition based on user feedback | |
KR20190030970A (ko) | 음성-텍스트 변환 장치 | |
KR20190030975A (ko) | 음성-텍스트 변환 시스템 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |