KR20110119478A - 음성 인식 장치 및 음성 인식 방법 - Google Patents

음성 인식 장치 및 음성 인식 방법 Download PDF

Info

Publication number
KR20110119478A
KR20110119478A KR1020100039217A KR20100039217A KR20110119478A KR 20110119478 A KR20110119478 A KR 20110119478A KR 1020100039217 A KR1020100039217 A KR 1020100039217A KR 20100039217 A KR20100039217 A KR 20100039217A KR 20110119478 A KR20110119478 A KR 20110119478A
Authority
KR
South Korea
Prior art keywords
word
words
language model
information
grid information
Prior art date
Application number
KR1020100039217A
Other languages
English (en)
Other versions
KR101677530B1 (ko
Inventor
한익상
박치연
김정수
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100039217A priority Critical patent/KR101677530B1/ko
Publication of KR20110119478A publication Critical patent/KR20110119478A/ko
Application granted granted Critical
Publication of KR101677530B1 publication Critical patent/KR101677530B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

음성 대화형 사용자 인터페이스에서의 음성 인식 장치 및 방법이 제공된다. 음성 인식 장치는, 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출하는 1차 음성 인식부와, 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 제2 단어 격자 정보 검출부와, 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 병합부와, 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 문장을 생성하는 2차 음성 인식부를 포함한다.

Description

음성 인식 장치 및 음성 인식 방법{Apparatus for speech recognition and method thereof}
음성 인식 기술에 관한 것으로, 더욱 상세하게는, 음성 대화형 사용자 인터페이스에서의 음성 인식 장치 및 방법에 관한 것이다.
멀티미디어 콘텐츠가 풍부해지고 접근성이 용이해지는 한편, 이를 뒷받침하는 기기들의 하드웨어 사양이 개선되고 있다. 이에 따라, 터치, 동작, 음성 대화 사용자 인터페이스와 같이, 사용자와 기기 간의 사용자 인터페이스도 더욱 사용자 친화적으로 바뀌고 있다.
이러한 사용자 인터페이스 중에 음성 대화 사용자 인터페이스는 주로 전화망을 통한 비행기나 기차 예약 시스템 등 비교적 제한적이고 간단한 시스템에만 상용되고 있다. 이와 같이, 음성 대화 사용자 인터페이스가 제한적으로 사용되는 이유 중 하나는 사용자가 체감하는 음성인식률 및 대화성공률이 낮기 때문이다. 음성인식률 및 대화성공률이 낮은 원인으로는 잡음 등에 의한 발성 오류가 있거나, 사용자들이 음성 대화 사용자 인터페이스에 패턴화되지 않은 다양한 형태의 문장을 입력하기 때문이다.
사용자가 음성 대화형 인터페이스를 통하여 자연스런 문장을 발성한 경우 음성 인식 성능을 향상시키기 위한 음성 인식 장치 및 방법이 제공된다.
일 측면에 따른 음성 인식 장치는, 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출하는 1차 음성 인식부와, 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 제2 단어 격자 정보 검출부와, 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 병합부와, 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 입력된 음성에 대한 문장을 생성하는 2차 음성 인식부를 포함한다.
다른 측면에 따른 음성 인식 방법은, 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출하는 단계와, 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 단계와, 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 단계와, 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 입력된 음성에 대한 문장을 생성하는 단계를 포함한다.
또 다른 측면에 따른 음성 인식 장치는, 입력된 음성에 대한 연속어 인식을 수행하여 제2 단어 격자 정보를 검출하는 1차 음성 인식부와, 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 제2 단어 격자 정보 검출부와, 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 병합부를 포함한다.
사용자가 여러 형태의 문장을 발성하는 경우에, 제한적 데이터를 가진 언어 모델을 보완할 수 있으며, 기존의 언어 모델로 인하여 음성을 잘못 인식 확률을 경감하여, 음성 인식 성능을 향상시킬 수 있다.
도 1은 음성 인식 장치의 구성의 일 예를 나타내는 도면이다.
도 2는 도 1의 음성 인식 장치에 포함된 제2 단어 격자 정보 검출부의 구성의 일 예를 나타내는 도면이다.
도 3은 도 2의 제2 단어 격자 정보 검출부의 제2 단어 검출 동작의 일 예를 나타내는 도면이다.
도 4는 도 1의 음성 인식 장치에 포함된 병합부의 동작의 일 예를 나타내는 흐름도이다.
도 5는 도 1의 2차 음성 인식부의 동작의 일 예를 나타내는 도면이다.
도 6은 도 1의 제2 언어 모델의 일 예를 나타내는 도면이다.
도 7은 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 8a는 일 실시예에 따른 음성 인식 방법이 입력된 음성의 앞 부분에 발성 오류가 있는 경우 적용된 일 예를 나타내고, 도 8b는 일 실시예에 따른 음성 인식 방법이 음성 인식기가 불충분한 언어 모델을 가진 경우 적용된 일 예를 나타낸다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 음성 인식 장치의 구성의 일 예를 나타내는 도면이다.
음성 인식 장치(100)는 1차 음성 인식부(110), 제2 단어 격자 정보 검출부(120), 병합부(130), 2차 음성 인식부(140) 및 저장부(150)를 포함한다. 저장부(150)는 음향 모델(152), 단어 리스트(154), 제1 언어 모델(156) 및 제2 언어 모델(158)을 포함할 수 있다.
저장부(150)는 음성 인식 장치(100) 외부의 저장 매체로 구현될 수 있다. 음향 모델(152)은 음성 신호에 대한 특징을 나타내는 모델이다. 단어 리스트(154)는 복수 개의 단어 및 단어별 음소열을 포함하는 리스트이다. 제1 언어 모델(156)은 인접한 n개의 단어에 대한 언어 모델인 n-그램 모델과 같은 통계기반 언어 모델 또는 문맥 자유 문법과 같은 문법 기반 언어 모델일 수 있다. 제2 언어 모델(158)은 제1 언어 모델(156)보다 느슨한(loose) 언어 모델일 수 있다.
1차 음성 인식부(110)은 음향 모델(152), 단어 리스트(154) 및 제1 언어 모델(156)을 이용하여 1차적으로 음성을 인식하여 인식 대상 단어들로 구성되는 제1 단어 격자 정보(word lattice information)를 생성한다.
상세하게는, 1차 음성 인식부(110)는 기존 연속어 인식기의 일 부분일 수 있다. 연속어인식 시스템은 문장 단위로 인식을 수행하는 시스템을 의미한다. 1차 음성 인식부(110)는 입력되는 음성을 프레임화하고 주파수 대역의 신호로 변환한 다음, 변환된 신호로부터 특징 정보를 추출하여, 음성 특징 벡터를 생성할 수 있다. 1차 음성 인식부(110)는 추출된 특징 벡터에 음향 모델(152)을 적용하여 단어 리스트(154)에 있는 단어들을 검출하고, 검출된 단어들에 대해, 단어들 사이의 관계를 나타내는 제1 언어 모델(156)을 적용하여, 제1 단어 격자 정보를 생성할 수 있다.
여기에서, 제1 단어 격자 정보는 복수 개의 제1 단어 브랜치의 집합인 단어 격자에 대한 정보를 의미한다. 제1 단어 브랜치는, 단어, 단어 id(identifier), 단어의 시작 프레임 위치, 단어의 끝 프레임 위치, 단어의 음향 모델 스코어 값 등을 포함할 수 있다. 여기에서, 시작 프레임의 위치는 해당 단어가 검출된 시작 시간을 나타내고, 끝 프레임의 위치는 해당 단어가 검출된 마지막 시간을 나타낼 수 있다.
입력된 음성에 대해 음향 모델(152)을 적용하기 위하여 특징 벡터를 추출하는 동작은 1차 음성 인식부(110)에서 수행하는 것으로 설명하였으나, 이 동작은 별도의 전처리부(도시되지 않음)에서 수행되어 저장부(150)의 특정 공간에 저장되어 이용될 수 있다. 따라서, 1차 음성 인식부(110)뿐만 아니라, 2차 단어 격자 정보 검출부(120) 및 2차 음성 인식부(140)는 저장부(150)에 저장된 특징 벡터를 이용하도록 구성될 수 있다.
제2 단어 격자 정보 검출부(120)는 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출할 수 있다.
여기에서, 제2 단어 격자 정보는 복수 개의 제2 단어 브랜치의 집합인 제2 단어 격자에 대한 정보를 의미한다. 제2 단어 브랜치는, 단어, 단어 id(identifier), 단어의 시작 프레임 위치, 단어의 끝 프레임 위치, 단어의 음향 모델 스코어 값 등을 포함할 수 있다. 여기에서, 시작 프레임의 위치는 해당 단어가 검출된 시작 시간을 나타내고, 끝 프레임의 위치는 해당 단어가 검출된 마지막 시간을 나타낼 수 있다.
제2 단어 격자 정보 검출부(120)는 최종적으로 출력되는 제2 단어 격자 정보를 병합부(130)로 전달한다. 제2 단어 격자 정보 검출부(120)의 상세 구성 및 동작에 대해서는 도 2를 참조하여 후술한다.
제1 단어 격자 정보는 발성을 완전히 커버할 수 있지만, 언어 모델의 영향 하에서 만들어진 것이므로 오류의 전파로 인해 주요 제1 단어들을 추출해내지 못할 수도 있다. 이에 비해, 제2 단어 격자 정보는, 발성된 하나의 문장 내에서 비교적 정확하게 발성하여, 음향 스코어가 높은 단어들을 주로 포함한다. 그러나, 제2 단어 격자 정보는 발성을 부분적으로만 커버하게 되어, 제2 단어 격자 정보만으로 전체 발성을 완전히 커버하는 문장을 만들지 못할 수 있다.
병합부(130)는 제1 단어 격자 정보 및 제2 단어 격자 정보를 병합하여, 통합 단어 격자를 생성한다. 제1 단어 격자 정보와 제2 단어 격자 정보를 서로 병합하게 되면, 서로의 단점을 보완할 수 있게 된다. 그래서, 2차 음성 인식부(140)에서 정확하게 발성한 부분 위주로 완전한 문장을 만들 수 있도록 하기 위하여 통합 격자 정보가 이용될 수 있다.
2차 음성 인식부(140)는 병합부(130)에서 생성된 통합 격자 정보를 이용하여 입력된 음성에 대한 문장을 생성한다. 2차 음성 인식부(140)는 기존 연속어 인식기의 스택 디코딩 부분에 대응될 수 있다. 그러나, 기존 연속어 인식기와는 달리, 언어 모델을 이원적으로 적용한다는 차이점이 있다.
2차 음성 인식부(140)는 제1 단어 격자 정보에 속한 단어 브랜치끼리 연결을 위하여 제1 언어 모델(156)을 이용하고, 제2 단어 격자 정보에 속한 제2 단어 브랜치와 제1 단어 격자 정보에 속한 단어 브랜치와의 연결을 위하여 제1 언어 모델보다 느슨한 제2 언어 모델(158)을 이용하여 음성 인식을 수행할 수 있다. 제2 단어격자 정보에 속한 단어 브랜치끼리의 연결은 제2 언어 모델(158)을 이용하여 수행할 수 있다. 여기에서, 제2 언어 모델(158)로서 제1 언어 모델(156)보다 제약이 덜한 언어 모델이 이용된다.
예를 들어, 제1 언어 모델(156)은 n-그램 언어 모델이고, 제2 언어 모델(158)은 2개의 단어가 소정 거리 내에서 동시에 출현하는 정도를 확률로 모델링한 동시 발생형 언어 모델일 수 있다. 다른 예로, 제1 언어 모델(156)은 단어 및 단어의 형태소를 고려하여 단어를 연결하는 언어 모델이고, 제2 언어 모델(168)은 단어의 형태소만을 고려하여 단어를 연결하는 언어 모델일 수 있다.
2차 음성 인식부(140)가 문장을 생성한 결과, 후보 문장이 복수 개 생성되는 경우에는, 다시 음향 모델(152)을 이용하여, 각 후보 문장에 포함된 단어들의 음향 특징 정보를 이용하여, 각 후보 문장에 포함된 음향 스코어 값이 가장 높은 후보 문장을 최종 음성 인식 문장으로 출력할 수 있다.
도 1에 도시된 음성 인식 장치(100)는, 통합 격자 정보를 이용하여 2차 음성 인식부(140)를 통해 문장 형태의 음성 인식 결과를 출력하는 예에 대하여 설명하였다. 그러나, 음성 인식 장치(100)는 제1 음성 인식부(110), 제2 단어 격자 정보 검출부(120) 및 병합부(130)만으로 구성될 수도 있고, 제1 음성 인식부(110), 제2 단어 격자 정보 검출부(120) 및 병합부(130)에 다른 응용 모듈이 결합된 형태로 구성될 수도 있다. 예를 들어, 다른 응용 모듈은 통합 격자 정보를 이용하여 음성 녹음 파일 검색을 수행하는 검색 애플리케이션 수행부일 수 있다. 여기에서, 검색 애플리케이션은 음성 강의 검색, 동영상 검색 등 다양한 분야의 검색에 이용되는 애플리케이션을 포함할 수 있다.
음성 인식 장치(100)는 각종 전화 예약 시스템뿐만 아니라, 텔레비전 및 휴대폰 등과 같은 멀티미디어 기기, 로봇, 키오스크(kiosk) 등 다양한 전자 제품에 탑재된 음성 대화형 사용자 인터페이스로서 구현될 수 있다.
도 2는 도 1의 음성 인식 장치에 포함된 제2 단어 격자 정보 검출부(120)의 구성의 일 예를 나타내는 도면이다.
제2 단어 격자 정보 검출부(120)는 음소열 인식부(210), 단어 매칭부(220), 리스코어링부(230) 및 제2 단어 통합부(240)를 포함할 수 있다.
음소열 인식부(210)는 주어진 음성으로부터 음소열을 인식한다. 음소열 인식부(210)는 입력 음성 신호에서 특징 벡터를 검출하고, 검출된 특징 벡터 및 음향 모델(152)을 이용하여, 소정 길이의 음소열을 인식할 수 있다. 음소열 인식부(210)는 입력 음성 신호에서 특징 벡터를 검출하는 동작을 별도로 수행하지 않고, 저장부(150)에 미리 저장된 특징 벡터를 이용할 수도 있다.
음소열 인식부(210)는 소정의 언어별 음소 결합 법칙을 이용하여, 검출된 특징 벡터로부터 각 언어에 따른 최적화된 음소열을 추출할 수 있다. 예를 들어, 음소열 인식부(210)는 검출된 특징 벡터를 스칼라(scalar) 값으로 변경하여, 39차 cepstrum 벡터열을 분석하여, 알파벳 중 최적의 하나의 문자(예를 들어, /a/)로 인지할 수 있다. 또한, 한글의 초/중/종성의 결합 법칙을 소정의 음소 문법기(phone grammer)에 저장해 놓은 환경에서, 음소열 인식부(210)는 한글이라는 언어적 특성을 고려하여 검출된 특징 벡터를 소정의 한글 음소로 인지할 수 있다. 이러한 과정을 통해, 음소열 인식부(210)는 한글의 경우 45개 내외의 음소열을 인식할 수 있다. 여기에서, 음소열 인식부(210)의 동작의 일 예를 설명한 것으로, 음소열 인식은 다른 여러가지 방법으로 수행될 수 있다.
단어 매칭부(220)는 단어 리스트(154)에 포함된 단어들 및 각 단어의 음소열과, 음소열 인식부(210)에서 인식된 음소열간의 매칭을 수행하고, 유사도를 계산한다. 유사도는 매칭 정도를 나타내는 매칭 스코어로 나타낼 수 있다. 상세하게는, 단어 리스트(154)의 각 단어들에 대해 음소열 중에서, 인식된 음소열과 연관된 음소열을 인식 후보로서 선별할 수 있다. 이를 위해, 단어 매칭부(220)는 인식된 음소열과 단어 리스트(154)에 존재하는 어휘의 음소열과의 유사도를 계산하고, 계산된 유사도에 기초하여 인식 후보를 추출할 수 있다.
단어 매칭부(220)는 음소 혼동 매트릭스(phone confusion matrix)를 이용해서 인식된 음소열과 단어 리스트(154)에 존재하는 어휘의 음소열 간의 유사도 즉, 매칭 스코어를 계산할 수 있다. 여기에서, 음소 혼동 매트릭스는 음소열 인식부(210)에서 사용되는 음소 세트(phone set)와 단어 리스트(154)에서 정의된 기준 음소열들 사이의 혼동(confusion) 정도를 확률값으로 표현한 것이다.
여기에서, 단어 매칭부(220)는 1차 음성 인식부(110)에서 이용하는 단어 리스트(154)를 이용하여 제1 단어를 매칭하는 것으로 설명하였으나, 단어 매칭부(220)에는 단어 리스트(154)보다 적은 용량의 중심 어휘를 포함하는 별도의 중심 단어 리스트를 이용할 수도 있다. 중심 단어 리스트는, 음성 인식 장치(110)가 이용되는 분야에 따라 다르게 구성될 수 있다. 예를 들어, 음성 인식 장치(110)가 네비게이션에 적용되는 경우, 중심 단어 리스트는 지명 중심의 단어로 구성될 수 있다. 이와 같이, 단어 매칭부(220)가 중심 단어 리스트를 이용하게 되면, 음성 인식이 적용되는 응용예에서 주로 이용하는 단어들에 대한 음성 인식률을 높일 수 있을 것이다.
리스코어링부(230)는 단어 매칭부(220)에서 출력되는 제2 단어들 중 매칭 스코어가 특정 임계치 이상의 제2 단어들에 대해서 음향 모델(152) 및 음소 문법(phone grammer)를 이용하여 비터비 검색(Viterbi matching) 과정 등을 통해 리스코어링을 수행할 수 있다. 이와 같이, 음소열 매칭을 통해, 비교적 적은 양의 데이터인 스코어가 특정 임계치 이상의 제2 단어들에 대하여, 다시 음향 모델(152)을 이용하여 리스코어링을 수행함으로써, 처리시에 요구되는 리소스에 제한이 있더라도 원할하게 음성 인식을 수행할 수 있다.
제2 단어 통합부(240)는 리스코어링부(230)를 통하여 얻어진 제2 단어들에 대하여, 제1 언어 모델(156)을 이용하여, 2개 이상의 단어를 통합할 수 있다. 또한, 제2 단어 통합부(240)는 제1 언어 모델(156)을 이용하여 인접한 제2 단어들을 묶으면서 스코어를 산출할 수 있다. 여기에서, 제2 단어 통합부(240)가 모든 제2 단어들을 2개 이상 통합하여 출력하여야 하는 것을 의미하는 것은 아니다. 제2 단어 통합부(240)는 2개 이상의 단어를 통합한 각 경우에 대하여 스코어를 산출하여, 임계치 이상의 스코어를 가진 통합 단어를 출력할 수 있다.
제2 단어 통합부(240)는 산출된 스코어가 임계치 이상인 통합된 제2 단어들에 대해 수학식 1과 같은 방식으로 스코어를 산출할 수 있다.
Figure pat00001
ScoreAcoustic은 제2 단어에 대한 음향 모델(152)의 매칭 스코어로 제2 단어의 프레임 개수로 정규화된 값이다. 일반적으로 ScoreAcoustic의 경우, '오', '예', '우' 등의 짧은 단어들이 높은 스코어를 얻는다.
제2 단어 통합부(240)는 이를 보정하기 위해 ωLength/#Frame 항목처럼 프레임 개수가 짧을수록 페널티를 줄 수 있다. 여기에서, ωLength는 조절 파라미터로 일정 수준 이상으로 긴 단어들 사이에는 길이에 따른 페널티의 차이가 크지 않도록 하는 역할을 할 수 있다. #Frame는 통합된 2 이상의 제2 단어에 대응하는 음향 프레임의 개수이다.
한편, 스코어 산출에 ωLength/#Frame 항목을 고려하게 되면, 짧은 단어들로 구성된 문장이 발성된 경우 단어 길이에 의한 페널티로 인해 각 단어들의 스코어가 너무 낮게 나올 수 있다. 제2 단어들 간에 서로 묶일 수 있는 것들을 통합한 상태에서 스코어링을 하게 되면, 단어 길이에 의한 피해를 방지할 수 있다.
이때, 제2 단어들을 묶기 위해서는 인접 단어들 간의 확률을 모델링한 언어 모델 중 트라이그램(trigram) 같은 언어 모델을 사용할 수 있다. 이 때, 2이상의 제2 단어가 서로 인접할 확률을 스코어로 표현한 것이 ScoreLanguage이며, ωLanguage는 조절 파라미터이다.
예를 들어, '로마/라는/말/의/유래/가/뭐/야'라는 발성은 짧은 제2 단어들로 구성되는 데이터들이 서로 묶이게 되면, 예를 들어, '로마/라는'과 같이 묶인 상태에서 스코어가 산정될 수 있으므로, 스코어 산출이 훨씬 정확해질 수 있다. 제2 단어들이 묶여진 상태에서 예를 들어 "로마" 및 "라는"이 "로마라는"으로 묶여진 상태에서 스코어를 산출할 때, ScoreAcoustic은 "로마"에 대한 음향 모델(152)의 매칭 스코어 및 "라는"에 대한 음향 모델(152)의 매칭 스코어의 평균 값일 수 있다.
즉, 제2 단어 통합부(240)는 통합된 제2 단어에 포함된 각 단어의 음향 모델(152)의 매칭 스코어 ScoreAcoustic, 통합된 제2 단어에 포함된 2이상의 단어가 서로 인접할 확률인 ScoreLanguage및, 통합된 제2 단어에 대응하는 음향 프레임의 개수 #Frame에 비례하도록 스코어를 산출할 수 있다. 이와 같이, 제2 단어를 2 이상 통합함으로써, 중요한 단어가 인식되지 않을 확률을 낮출 수 있다.
도 2에서는, 제2 단어 통합부(240)가 제1 음성 인식부(110)가 이용하는 제1 언어 모델(156)을 이용하여 단어를 통합하는 예를 나타내고 있으나, 이에 제한되는 것은 아니다. 일 예로, 제1 음성 인식부(110)는 5-gram의 인접형 언어 모델을 이용하고, 제2 단어 통합부(240)는 트라이그램(trigram) 등의 인접형 언어 모델을 이용할 수 있다.
도 3은 도 2의 제2 단어 격자 정보 검출부의 제2 단어 검출 동작의 일 예를 나타내는 도면이다.
도 3의 음성 입력은, '로마 신분제도에 대해 알려 줘'라는 발성에 대한 음향 신호 파형을 나타낸다.
도 3의 음소열 인식은 도 2의 음소열 인식부(210)가 발성된 음향 신호에 대해 음소열을 인식한 결과를 나타낸다.
도 3의 단어 매칭은, 도 2의 단어 매칭부(220)가 단어 리스트(152)에 포함된 단어의 음소열과 입력된 음소열을 매칭한 결과, 매칭 스코어가 임계치 이상인 매칭된 단어를 음성의 해당 부분에 나타내고 있다. 예를 들어, 입력된 음성의 앞 부분에 제1 단어 브랜치로서 '로마', '로마인', '도마' 등이 매칭되고, 중간에는 '신분', '제도', '분재' 등 주로 음향학적으로 잘 맞는 제2 단어들을 포함하는 제2 단어 격자 정보가 추출되었음을 알 수 있다.
도 4는 도 1의 음성 인식 장치에 포함된 병합부(130)의 동작의 일 예를 나타내는 흐름도이다.
전술한 바와 같이, 병합부(130)는 제1 단어 격자 정보 및 제2 단어 격자 정보를 병합하여, 제1 단어 격자 정보 및 제2 단어 격자 정보로 구성되는 통합 단어 격자를 생성한다.
병합부(130)는 제1 단어 격자 정보 및 제2 단어 격자 정보를 입력받는다(410). 병합부(130)는 제2 단어 격자 정보의 제2 단어 브랜치 중에서 제1 단어 격자 정보의 제1 단어 브랜치와 중복되는 부분을 제거한다(420).
병합부(130)는 중복되지 않는 제2 단어 브랜치를 제1 단어 격자 정보에 삽입하여 통합 격자 정보를 생성한다(430). 이때, 병합부(130)는, 통합 격자 정보에 포함된 격자 정보가 제1 단어 격자 정보인지 제2 단어 격자 정보인지를 구별하기 위한 정보를 통합 격자 정보에 포함시킬 수 있다.
도 5는 도 1의 2차 음성 인식부(140)의 동작의 일 예를 나타내는 도면이다.
2차 음성 인식부(140)는 제1 단어 격자에서 온 제1 단어 브랜치끼리 연결될 때에는, 기존 언어 모델인 제1 언어 모델(156)을 적용하고, 제2 단어 격자에서 온 제2 단어 브랜치와 제1 단어 브랜치가 연결될 때에는, 제1 언어 모델(156)보다 제약이 덜한 제2 언어 모델(158)을 적용할 수 있다. 이는 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 문장을 생성할 때, 제1 언어 모델(156)을 일원적으로 적용하는 경우, 음향학적인 스코어가 높은 제2 단어 격자 정보에 포함된 제2 단어 브랜치들이 배제될 수 있으므로, 이를 방지하기 위함이다.
Case 1은 w1, w2 다음에 w3a가 제1 단어 격자에서 온 경우이다. 이 때는, 다음 단어인 w4가 제1 단어 격자에서 온 것인지, 단어 격자에서 온 것인지에 따라 적용하는 언어 모델이 달라진다. w4a처럼 제1 단어 격자에서 왔으면, 제1 언어 모델(156)을 적용하어 스코어링을 하고, w4b처럼 제2 단어 격자에서 왔으면, 제2 언어 모델(158)을 적용하여 스코어링을 할 수 있다.
Case 2는 w1, w2 다음에 w3b가 제2 단어 격자에서 온 경우이다. 이 때는, 다음 단어인 w4로 확장할 때, w3b가 제2 단어 격자에서 온 것이므로, w4가 제1 단어 격자에서 왔는지, 제2 단어 격자에서 왔는지에 무관하게 제2 언어 모델(158)을 이용하여 스코어링을 수행할 수 있다.
도 6은 도 1의 제2 언어 모델(158)의 일 예를 나타내는 도면이다.
도 2의 제2 언어 모델(158)은 제1 언어 모델(156)보다 제약이 덜한 즉, 느슨한 언어 모델일 수 있다.
도 1의 제1 언어 모델(156)은 일반적인 n-그램일 수 있다. 제1 언어 모델(156)은 수학식 2로 나타낼 수 있다.
Figure pat00002
N(·)은 단어가 훈련 DB에 출현한 횟수를 의미한다.
도 6에서 각 블록은 단어 정보를 나타낸다. 단어 정보는 단어 이름 및 형태소 정보로 구성될 수 있다. 예를 들어, 단어 정보 w3은 단어 이름(n3) 및 형태소(t3)로 구성될 수 있음을 나타낸다. 도 6에서 화살표는 제2 언어 모델(158)이 화살표로 연결된 2개의 단어가 동시에 출현할 확률을 나타내는 동시 발생형(co-occurence) 언어 모델임을 나타낸다. 이 경우, 제2 언어 모델(158)은 수학식 3으로 나타낼 수 있다.
Figure pat00003
d는 x와 y 사이의 거리로, d가 1이면 바로 인접한 상태를 나타내고, 2이면 x와 y 사이에 다른 단어가 한 개 끼어있는 상태를 의미한다. 그래서, Nd(x, y)는 x와 y가 d라는 거리 내에서 동시에 출현하는 횟수를 의미한다.
제1 언어 모델(156)이 인접한 단어들을 모델링하는데 비해, 동시 발생형 언어 모델(158)에서는 이와 같이 반드시 인접할 필요는 없고 주어진 거리 내에 동시에 존재하기만 하면 되므로, 제1 언어 모델(156)보다는 유연한 방식이라고 할 수 있다.
다만, 2 단어가 d라는 거리 내에 있더라도, 형태소 문법 또한 확률상 인접해서 붙일 수 있는 확률이 작다면 되도록 인접해서 붙이면 안되므로, f(tx, ty) 같은 제약 조건을 두었다. tx는 x라는 단어의 형태소이며 ty는 y라는 단어의 형태소를 나타낸다. f(tx, ty)는 2개의 형태소 사이에 연결될 확률이 높으면 1에 가까워지고, 붙을 확률이 낮으면 0에 가까워지도록 설계하면 된다.
도 7은 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 1의 음성 인식 장치(100)는 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출한다(710).
음성 인식 장치(100)는 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출한다(720).
제2 단어 격자 정보를 검출하기 위해서, 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어들의 음소열을 매칭하여 매칭 스코어를 계산하고, 음향 모델을 이용하여, 매칭된 제2 단어들 중에서 매칭 스코어가 임계치 이상인 제2 단어들에 대한 리스코어링을 수행할 수 있다. 그런 다음, 제2 단어들이 음성 인식시 2개 이상 묶여서 인식되도록 하기 위하여 언어 모델을 이용하여 제2 단어들을 통합할 수 있다. 인식된 음소열과 단어 리스트에 포함된 단어들의 음소열을 매칭하여 매칭 스코어를 계산할 때에는, 음소 혼동 행렬(phone confusion matrix)이 이용될 수 있다.
음성 인식 장치(100)는 제1 단어 격자 정보 및 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성한다(730). 음성 인식 장치(100)는 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 입력된 음성에 대한 문장을 생성한다(740).
도 8a는 일 실시예에 따른 음성 인식 방법이 입력된 음성의 앞 부분에 발성 오류가 있는 경우 적용된 일 예를 나타내고, 도 8b는 일 실시예에 따른 음성 인식 방법이 음성 인식기가 불충분한 언어 모델을 가진 경우 적용된 일 예를 나타낸다.
도 8a에 도시된 바와 같이, 입력된 음성의 앞 부분에 발성 오류가 있는 경우이다. 입력된 음성에 대한 음성 인식의 정답 즉, 사용자의 발성 의도는 "AB···"라고 가정한다. 여기에서, "···"은 첫번째 단어 A와 B 이후에 발성된 단어들을 생략하여 표현한 것이다.
제1 단어 격자는 언어 모델의 적용에 따라, 발성의 앞 부분이 "C"로 잘못 인식됨으로 인해, 발성의 그 다음 부분이 "D"로 인식되었음을 나타낸다. 또한, 제2 단어 격자는 정답인 "A"가 발성의 앞 부분에 나타나지 않고, "C"로 잘못 인식된 것을 나타낸다. 그러나, 제2 단어 격자에서는 발성에 오류가 있는 앞 부분에서 "A"가 출현하지 않았다 하더라도, 언어 모델의 제약을 받지 않으므로, 뒷 부분은 제대로 "B"로 인식될 수 있다.
한편, 제1 단어 격자는 전체 발성을 커버하지만 제2 단어 격자는 발성의 일부분만을 커버하므로, 발성에 포함된 단어들이 모두 출력된다고 보장할 수 없다.
통합 격자는 단어 격자와 제1 단어 격자를 모두 통합한 것이다. 따라서, 일 실시예에 따라 통합 격자를 이용하여 최종 음성 인식을 수행하면, 발성 오류로 인하여 발성의 앞 부분이 "C"로 잘못 인식되었더라도, 나머지 음성 인식 결과는 잘못 인식된 결과에 영향을 받지 않을 수 있다. 따라서, 통합 격자를 이용하여 음성 인식을 수행하면 발성 오류로 인해 추가적으로 발생될 수 있는 음성 인식의 오류를 줄일 수 있다.
도 8b는, 발성에 특별한 오류가 없더라도, 사용자의 다양한 발성에 대하 언어 모델이 충분한 데이터를 가지 못하는 경우를 나타낸다. 제1 단어 격자는 "A" 다음에 "B"라는 단어가 불충분한 언어 모델에 의해 나오지 못하였음을 나타낸다. 따라서, 제1 단어 격자에서는 "AD···"가 출력되었다. 그러나, 제2 단어 격자는 언어 모델에 의한 제약을 받지 않으므로 "AB···"가 모두 출현하게 된다.
통합 격자는 제1 단어 격자 및 제2 단어 격자를 모두 포함하므로, 최종 음성 인식 결과는 음성 인식의 정답인 "AB···"가 될 수 있다.
이와 같이, 일 실시예에 따른 음성 인식 장치 및 방법에 따르면, 사용자가 여러 형태의 문장을 발성하는 경우에, 제한적 데이터를 가진 언어 모델을 보완할 수 있으며, 기존의 언어 모델로 인하여 음성을 잘못 인식 확률을 경감하여, 음성 인식 성능을 향상시킬 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

Claims (20)

  1. 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출하는 1차 음성 인식부;
    상기 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 제2 단어 격자 정보 검출부;
    상기 제1 단어 격자 정보 및 상기 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 병합부; 및
    상기 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 상기 입력된 음성에 대한 문장을 생성하는 2차 음성 인식부를 포함하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 제2 단어 격자 정보 검출부는,
    상기 입력된 음성으로부터 음소열을 인식하는 음소열 인식부;
    상기 인식된 음소열과 상기 단어 리스트에 포함된 단어들과의 음소열 매칭을 수행하여 매칭 스코어를 계산하는 단어 매칭부; 및
    음향 모델을 이용하여, 상기 매칭된 제2 단어들 중에서 매칭 스코어가 임계치 이상인 제2 단어들에 대한 리스코어링을 수행하는 리스코어링부; 및
    상기 제2 단어들이 음성 인식시 2개 이상 묶여서 인식되도록 하기 위하여 언어 모델을 이용하여 제2 단어들을 통합하는 제2 단어 통합부를 포함하는 음성 인식 장치.
  3. 제2항에 있어서,
    상기 단어 매칭부는 음소 혼동 행렬(phone confusion matrix)를 이용하여 상기 매칭 스코어를 계산하는 음성 인식 장치.
  4. 제2항에 있어서,
    상기 제2 단어 통합부는 상기 제2 단어들이 2개 이상 통합된 경우, 통합된 제2 단어들에 포함된 각 단어의 음향 모델의 매칭 스코어(ScoreAcoustic), 통합된 2이상의 제2 단어들이 서로 인접할 확률(ScoreLanguage) 및 통합된 2 이상의 제2 단어들에 대응하는 음향 프레임의 개수(#Frame)에 비례하도록 상기 통합된 제2 단어들의 스코어를 산출하는 음성 인식 장치.
  5. 제1항에 있어서,
    상기 병합부는 제2 단어 격자 정보의 제2 단어 브랜치 중에서 제1 단어 격자 정보와 중복되는 부분을 제거하고 남은 중복되지 않는 제2 단어 브랜치를 제1 단어 격자 정보에 삽입하여, 상기 제1 단어 격자 정보 및 제2 단어 격자 정보를 병합하는 음성 인식 장치.
  6. 제5항에 있어서,
    상기 병합부는, 상기 통합 격자 정보에 포함된 격자 정보가 제1 단어 격자 정보인지 제2 단어 격자 정보인지를 구별하기 위한 정보를 통합 격자 정보에 포함시키는 음성 인식 장치.
  7. 제6항에 있어서,
    상기 2차 음성 인식부는,
    상기 제1 단어 격자 정보에 속한 단어 브랜치끼리 연결을 위하여 제1 언어 모델을 이용하고, 상기 제1 단어 격자 정보에 속한 제1 단어 브랜치와 상기 제2 단어 격자 정보에 속한 제2 단어 브랜치와의 연결을 위하여 상기 제1 언어 모델보다 느슨한 제2 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식 장치.
  8. 제7항에 있어서,
    상기 제1 언어 모델은 n-그램 언어 모델이고, 상기 제2 언어 모델은 2개의 단어가 소정 거리 내에서 동시에 출현하는 정도를 확률로 모델링한 동시 발생형 언어 모델인 음성 인식 장치.
  9. 제8항에 있어서,
    상기 제2 언어 모델은 2개의 형태소 사이에 연결될 확률이 높으면 1에 가까워지고, 붙을 확률이 낮으면 0에 가까워지도록 설계된 음성 인식 장치.
  10. 제7항에 있어서,
    상기 제1 언어 모델은 단어 및 단어의 형태소를 고려하여 단어를 연결하는 언어 모델이고, 상기 제2 언어 모델은 단어의 형태소만을 고려하여 단어를 연결하는 언어 모델인 음성 인식 장치.
  11. 입력된 음성에 대한 연속어 인식을 수행하여 제1 단어 격자 정보를 검출하는 단계;
    상기 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 단계;
    상기 제1 단어 격자 정보 및 상기 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 단계; 및
    상기 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 입력된 음성에 대한 문장을 생성하는 단계를 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    상기 제2 단어 격자 정보를 검출하는 단계는,
    상기 입력된 음성으로부터 음소열을 인식하는 단계;
    상기 인식된 음소열과 상기 단어 리스트에 포함된 단어들과의 음소열 매칭을 수행하여 매칭 스코어를 계산하는 단계;
    음향 모델을 이용하여, 상기 매칭된 제2 단어들 중에서 매칭 스코어가 임계치 이상인 제2 단어들에 대한 리스코어링을 수행하는 단계; 및
    상기 제2 단어들이 음성 인식시 2개 이상 묶여서 인식되도록 하기 위하여 언어 모델을 이용하여 제2 단어들을 통합하는 단계를 포함하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 인식된 음소열과 상기 단어 리스트에 포함된 단어들의 음소열을 매칭하여 매칭 스코어를 계산하는 단계에서, 음소 혼동 행렬(phone confusion matrix)를 이용하여 상기 매칭 스코어가 계산되는 음성 인식 방법.
  14. 제12항에 있어서,
    상기 제2 단어들을 통합하는 단계는,
    상기 제2 단어들이 2개 이상 통합된 경우, 통합된 제2 단어들에 포함된 각 단어의 음향 모델의 매칭 스코어(ScoreAcoustic), 통합된 2이상의 제2 단어들이 서로 인접할 확률(ScoreLanguage) 및 통합된 2 이상의 제2 단어들에 대응하는 음향 프레임의 개수(#Frame)에 비례하도록 상기 통합된 제2 단어들에 대한 스코어를 산출하는 단계를 더 포함하는 음성 인식 방법.
  15. 제11항에 있어서,
    상기 통합 격자 정보를 생성하는 단계는,
    제2 단어 격자 정보의 제2 단어 브랜치 중에서 제1 단어 격자 정보와 중복되는 부분을 제거하는 단계; 및
    남은 중복되지 않는 제2 단어 브랜치를 제1 단어 격자 정보에 삽입하여 상기 제1 단어 격자 정보 및 제2 단어 격자 정보를 병합하는 단계를 포함하는 음성 인식 방법.
  16. 제11항에 있어서,
    상기 통합 격자 정보를 이용하여 2차 음성 인식을 수행하여 입력된 음성에 대한 문장을 생성하는 단계는,
    상기 제1 단어 격자 정보에 속한 단어 브랜치끼리 연결을 위하여 제1 언어 모델을 이용하고, 상기 제1 단어 격자 정보에 속한 제1 단어 브랜치와 상기 제2 단어 격자 정보에 속한 제2 단어 브랜치와의 연결을 위하여 상기 제1 언어 모델보다 느슨한 제2 언어 모델을 이용하여 음성 인식을 수행하는 음성 인식 방법.
  17. 제16항에 있어서,
    상기 제1 언어 모델은 n-그램 언어 모델이고, 상기 제2 언어 모델은 2개의 단어가 소정 거리 내에서 동시에 출현하는 정도를 확률로 모델링한 동시 발생형 언어 모델인 음성 인식 방법.
  18. 입력된 음성에 대한 연속어 인식을 수행하여 제2 단어 격자 정보를 검출하는 1차 음성 인식부;
    상기 입력된 음성으로부터 인식된 음소열과 단어 리스트에 포함된 단어 브랜치와의 음소열 매칭을 통하여 제2 단어 격자 정보를 검출하는 제2 단어 격자 정보 검출부; 및
    상기 제1 단어 격자 정보 및 상기 제2 단어 격자 정보를 통합하여 통합 격자 정보를 생성하는 병합부를 포함하는 음성 인식 장치.
  19. 제18항에 있어서,
    상기 제2 단어 격자 정보 검출부는,
    상기 입력된 음성으로부터 음소열을 인식하는 음소열 인식부;
    상기 인식된 음소열과 상기 단어 리스트에 포함된 단어들과의 음소열 매칭을 수행하여 매칭 스코어를 계산하는 단어 매칭부; 및
    음향 모델을 이용하여, 상기 매칭된 제2 단어들 중에서 매칭 스코어가 임계치 이상인 제2 단어들에 대한 리스코어링을 수행하는 리스코어링부; 및
    상기 제2 단어들이 음성 인식시 2개 이상 묶여서 인식되도록 하기 위하여 언어 모델을 이용하여 제2 단어들을 통합하는 제2 단어 통합부를 포함하는 음성 인식 장치.
  20. 제19항에 있어서,
    상기 통합 격자 정보를 이용하여 음성 파일 검색을 수행하는 검색 애플리케이션 수행부를 더 포함하는 음성 인식 장치.
KR1020100039217A 2010-04-27 2010-04-27 음성 인식 장치 및 음성 인식 방법 KR101677530B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100039217A KR101677530B1 (ko) 2010-04-27 2010-04-27 음성 인식 장치 및 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100039217A KR101677530B1 (ko) 2010-04-27 2010-04-27 음성 인식 장치 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20110119478A true KR20110119478A (ko) 2011-11-02
KR101677530B1 KR101677530B1 (ko) 2016-11-21

Family

ID=45391065

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100039217A KR101677530B1 (ko) 2010-04-27 2010-04-27 음성 인식 장치 및 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101677530B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026325A (ko) * 2020-08-25 2022-03-04 주식회사 카카오엔터프라이즈 음성 인식에 관한 빔 서치 방법 및 장치
KR102552297B1 (ko) * 2023-03-29 2023-07-06 (주)유알피 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치
KR102606415B1 (ko) * 2023-03-27 2023-11-29 (주)유알피 딥러닝 기반 음성인식을 이용한 문맥 의도 인식 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035944A (ko) * 2007-10-08 2009-04-13 삼성전자주식회사 음성 인식 방법 및 그 장치
KR20090066106A (ko) * 2007-12-18 2009-06-23 삼성전자주식회사 음성 검색어 확장 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090035944A (ko) * 2007-10-08 2009-04-13 삼성전자주식회사 음성 인식 방법 및 그 장치
KR20090066106A (ko) * 2007-12-18 2009-06-23 삼성전자주식회사 음성 검색어 확장 방법 및 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026325A (ko) * 2020-08-25 2022-03-04 주식회사 카카오엔터프라이즈 음성 인식에 관한 빔 서치 방법 및 장치
KR102606415B1 (ko) * 2023-03-27 2023-11-29 (주)유알피 딥러닝 기반 음성인식을 이용한 문맥 의도 인식 장치 및 방법
KR102552297B1 (ko) * 2023-03-29 2023-07-06 (주)유알피 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치

Also Published As

Publication number Publication date
KR101677530B1 (ko) 2016-11-21

Similar Documents

Publication Publication Date Title
CN109635270B (zh) 双向概率性的自然语言重写和选择
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US7085716B1 (en) Speech recognition using word-in-phrase command
US9710463B2 (en) Active error detection and resolution for linguistic translation
US8972243B1 (en) Parse information encoding in a finite state transducer
US7890325B2 (en) Subword unit posterior probability for measuring confidence
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
JP2008233229A (ja) 音声認識システム、および、音声認識プログラム
US20120095766A1 (en) Speech recognition apparatus and method
US20070038453A1 (en) Speech recognition system
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP4089861B2 (ja) 音声認識文章入力装置
KR101677530B1 (ko) 음성 인식 장치 및 음성 인식 방법
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP5243886B2 (ja) 字幕出力装置、字幕出力方法及びプログラム
JP2012255867A (ja) 音声認識装置
US11043212B2 (en) Speech signal processing and evaluation
Lamel et al. The limsi 2006 tc-star epps transcription systems
JP2003162524A (ja) 言語処理装置
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
JP2001013992A (ja) 音声理解装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191106

Year of fee payment: 4