KR101218332B1

KR101218332B1 - 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체

Info

Publication number: KR101218332B1
Application number: KR1020110048289A
Authority: KR
Inventors: 김동엽; 김기용
Original assignee: 휴텍 주식회사
Priority date: 2011-05-23
Filing date: 2011-05-23
Publication date: 2013-01-21
Also published as: KR20120130399A

Abstract

하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 이를 실행하는 장치가 개시된다. 본 발명에 따른 문자 입력 장치는, 사용자의 음성발화를 수신하기 위한 음성수신부(100); 음성수신부로부터 제공되는 사용자의 음성발화 신호를 연속 음성 형태의 제 1 발화(發話)로 음성 처리하여 음성 인식을 수행하기 위한 제 1 음성처리부(101a); 음성수신부로부터 제공되는 사용자의 음성발화 신호를 음소(音素) 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하기 위한 제 2 음성처리부(101b); 입력 모드가 연음 입력모드인 경우에는 음성수신부에서 수신된 사용자의 음성발화 신호를 제 1 음성처리부가 제 1 발화의 연속 음성 형태의 음성 인식으로 처리하도록 제어하고, 입력 모드가 음소 입력모드인 경우에는 음성수신부에서 수신된 사용자의 음성발화 신호를 제 2 음성처리부가 제 2 발화의 음소 단위 음성 형태의 음성 인식으로 수행하도록 제어하며, 제 1 음성처리부와 제 2 음성처리부의 음성인식 결과를 결합하여 사용자의 문자 입력을 달성하는 제어부(102);를 포함하여 구성된다. 본 발명에 따르면, 다양한 방식의 음성인식 방식을 필요에 따라 적용할 수 있게 되어 음성인식의 성공확률을 제고할 수 있는 장점이 있다.

Description

하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체{METHOD AND APPARATUS FOR CHARACTER INPUT BY HYBRID-TYPE SPEECH RECOGNITION, AND COMPUTER-READABLE RECORDING MEDIUM WITH CHARACTER INPUT PROGRAM BASED ON HYBRID-TYPE SPEECH RECOGNITION FOR THE SAME}

본 발명은 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 이를 실행하는 장치에 관한 것이다. 더욱 상세하게는 본 발명은 서로 다른 발음 형태에 해당하는 적어도 두 개의 발화(發話)를 수신하여 하나의 발화의 인식 결과에 오류가 발생할 시 다른 하나의 발화의 인식 결과를 이용하는 하이브리드 방식의 문자 입력 방법 및 장치에 관한 것이다.

최근 TV 디스플레이 장치 분야에서는 디스플레이 화면의 디지털화 고선명화뿐만 아니라 여러 가지 다른 기능들의 융합화 또는 복합화가 급속도로 진행되고 있다. 이에 따라, 외부의 주변 디지털 가전 기기와의 연결이 다양해지고 있으며 이들과 주고 받는 신호의 형태도 다양해지고 있다. 향후에는 가전 기기뿐만 아니라 조명 기기, 가스 기기, 난방 기기, 방범 기기 등을 연결하여 홈 네트워킹을 구성하고 제어하기 위한 주 제어장치로 TV가 사용될 전망이다.

예를 들어, 종래의 전통적인 TV는 안테나로부터 수신되는 지상파 방송 또는 케이블을 통해 수신되는 케이블 방송을 디스플레이하는 방송 디스플레이장치로만 적용되었다. 그러나 최근의 TV는, 그에 연결되는 주변 가전 기기들이 급속도로 디지털화가 진행되면서, 다양한 포맷의 디지털 입력 신호를 표시할 수 있는 복합 디스플레이 장치의 역할이 요구되고 있다.

종래의 TV는 사용자 조작의 편의를 위해 리모컨을 통해 채널 업/다운, 볼륨 업/다운 정도의 기능만 제공하였으나, 최근에는 소위 '스마트 TV'라는 개념으로 각종의 기능이 TV에 도입되고 있다. 예를 들어, 인터넷 브라우저를 설치하여 TV를 통해 인터넷 검색을 할 수 있도록 하거나, 유튜브(YouTube) 동영상을 검색하여 볼 수 있도록 하거나, 날씨/뉴스를 조회할 수 있도록 하거나, 게시판을 조회하고 글을 남길 수 있도록 하는 기능이 있다.

이러한 스마트 TV 기능을 활용하기 위해서는 TV를 통해 문자를 입력할 수 있어야 하는데, 현재로서는 TV 화면에 가상키보드(virtual keyboard)를 표시하고 리모컨의 화살표를 이용하여 문자를 입력하는 방식이 채택되고 있다. 하지만 이러한 문자 입력 방식은 매우 불편하기에 좀더 개선된 대안이 제시되고 있으며, 리모컨에 트랙포인트를 설치하거나 아이폰 또는 아이패드와 같은 터치 디바이스를 이용하여 포인터를 TV 화면에 활용하는 것이 제시되고 있다.

한편, 문자를 입력하는 데에 음성인식 기술을 채택하는 것을 고려해볼 수 있다. 사용자가 음성으로 명령을 내려 예컨대 스마트 TV에서 제공하는 특정메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구, 콘텐츠 선택, 문자 입력 등의 기능을 사용자가 조작하는 것이다.

하지만 음성인식 기술은 그 동작의 완벽함에 있어서 매우 떨어진다는 결정적인 단점이 있다. 똑같은 단어라도 사람마다 발음이 전혀 다르기에 시스템에서 정확하게 인식하는 것이 매우 어렵고, 그에 따라 음성인식의 에러율이 매우 높아 도저히 가전제품에 적용할 수 없는 것이다. 특히, 문장을 읽는 것과 같이 사용자가 여러 단어를 연속하여 발음하는 경우에는 음성 발화가 매우 복잡하게 얽혀지기에 음성인식 정확도는 더욱더 떨어지게 된다.

그에 따라, 사용자의 발화를 정확하게 인식하여 사용자의 요구에 따른 특정메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구, 콘텐츠 선택, 문자 입력을 수행할 수 있도록 해주는 기술이 종래로부터 요구된다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 음성인식을 이용하여 문자를 정확하게 입력하는 기술을 제공하는 것이다.

본 발명의 다른 목적은 사용자로부터 연속 음성 형태의 제 1 발화와 음소 단위 음성 형태의 제 2 발화를 모두 수신하여 음성 인식을 수행하며, 제 1 발화의 음성 인식 결과에 오류가 발생할 시 제 2 발화의 음성 인식을 통해 학습한 후 음성 인식 결과를 문자로 생성하여 출력하는 하이브리드 방식의 문자 입력 방법 및 이를 실행하는 장치를 제공하는 데 있다.

상기한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 하이브리드 방식의 문자 입력 장치는, 사용자의 음성발화를 수신하기 위한 음성수신부(100); 음성수신부로부터 제공되는 사용자의 음성발화 신호를 연속 음성 형태의 제 1 발화(發話)로 음성 처리하여 음성 인식을 수행하기 위한 제 1 음성처리부(101a); 음성수신부로부터 제공되는 사용자의 음성발화 신호를 음소(音素) 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하기 위한 제 2 음성처리부(101b); 입력 모드가 연음 입력모드인 경우에는 음성수신부에서 수신된 사용자의 음성발화 신호를 제 1 음성처리부가 제 1 발화의 연속 음성 형태의 음성 인식으로 처리하도록 제어하고, 입력 모드가 음소 입력모드인 경우에는 음성수신부에서 수신된 사용자의 음성발화 신호를 제 2 음성처리부가 제 2 발화의 음소 단위 음성 형태의 음성 인식으로 수행하도록 제어하며, 제 1 음성처리부와 제 2 음성처리부의 음성인식 결과를 결합하여 사용자의 문자 입력을 달성하는 제어부(102);를 포함하여 구성된다. 이때, 본 발명에 따른 문자 입력 장치는, 입력모드를 설정하기 위한 사용자로부터의 제어입력을 제공받아 제어부로 제공하는 리모컨수신부(107);를 더 포함하여 구성될 수 있다.

본 발명에 따른 문자 입력 장치는, 문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단하는 오류판단부(206); 오류판단부의 판단 결과에 따라 오류정정 상황이 있었던 경우에 연음 입력모드에서 입력된 사용자의 음성발화 신호와 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득하는 학습부(203);를 더 포함하여 구성되고, 제 1 음성처리부(101a, 201a)는 학습부에서 획득된 사용자의 발성특징 정보를 연속 음성 형태의 제 1 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것이 바람직하다.

본 발명에 따른 문자 입력 장치에서, 오류판단부(206)는 문자 입력 과정에서 음소 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 이를 정정하는 음성 인식 처리가 이루어진 제 2 오류정정 상황이 있었는지 여부를 더 판단하고, 학습부(203)는 제 2 오류정정 상황이 있었던 경우에 오류 정정 결과로부터 사용자의 발성특징 정보를 더 획득하고, 제 2 음성처리부(101b, 201b)는 학습부에서 획득된 사용자의 발성특징 정보를 음소 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것이 바람직하다.

이때, 제 1 음성처리부(101a, 201a)는 제 1 발화로부터 특징 벡터를 추출하고, 미리 저장된 음향모델 및 언어모델과 특징 벡터를 비교한 후 후처리과정을 통해 연속 음성 형태의 음성 인식을 수행하는 것이 바람직하다. 또한, 제 2 음성처리부(101b, 201b)는 제 2 발화로부터 묵음을 제거한 후 제 2 발화의 특징 벡터를 추출하고, 특징 벡터와 음향모델을 비교하는 과정을 통해 음소 단위 음성 형태의 음성 인식을 수행하는 것이 바람직하다.

한편, 본 발명에 따른 하이브리드 방식의 문자 입력 방법은, 사용자의 음성발화를 수신하는 단계; 문자 입력모드를 체크하는 단계; 입력 모드가 연음 입력모드인 경우, 수신된 사용자의 음성발화 신호를 연속 음성 형태의 음성 인식으로 처리하는 제 1 음성인식 단계; 입력 모드가 음소 입력모드인 경우, 수신된 사용자의 음성발화 신호를 음소 단위 음성 형태의 음성 인식으로 처리하는 제 2 음성인식 단계; 제 1 음성인식의 결과와 제 2 음성인식의 결과를 결합하여 사용자의 문자 입력을 달성하는 단계;를 포함하여 구성된다.

본 발명에 따른 문자 입력 방법은, 문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단하는 오류판단 단계; 오류정정 상황이 있었던 경우에 연음 입력모드에서 입력된 사용자의 음성발화 신호와 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득하는 학습 단계;를 더 포함하여 구성되고, 제 1 음성인식 단계는 획득된 사용자의 발성특징 정보를 연속 음성 형태의 제 1 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것이 바람직하다.

본 발명에 따른 문자 입력 방법은, 문자 입력 과정에서 음소 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 이를 정정하는 음성 인식 처리가 이루어진 제 2 오류정정 상황이 있었는지 여부를 판단하는 제 2 오류판단 단계; 제 2 오류정정 상황이 있었던 경우에 오류 정정 결과로부터 사용자의 발성특징 정보를 획득하는 제 2 학습 단계;를 더 포함하여 구성되고, 제 2 음성인식 단계는 제 2 학습 단계에서 획득된 사용자의 발성특징 정보를 음소 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것이 바람직하다.

이때, 제 1 음성인식 단계는 제 1 발화로부터 특징 벡터를 추출하고 미리 저장된 음향모델 및 언어모델과 특징 벡터를 비교한 후 후처리과정을 통해 연속 음성 형태의 음성 인식을 수행하는 것이 바람직하다. 또한, 제 2 음성인식 단계는, 제 2 발화로부터 묵음을 제거한 후 제 2 발화의 특징 벡터를 추출하고, 특징 벡터와 음향모델을 비교하는 과정을 통해 음소 단위 음성 음성 인식을 수행하는 것이 바람직하다.

상기와 같은 본 발명에 따른 문자 입력 방법 및 이를 실행하는 장치를 이용할 경우에는 사용자로부터 수신된 제 1 발화에 대한 음성 인식 오류가 발생한 경우, 음성 인식 오류가 발생한 발음에 해당하는 음소 단위의 제 2 발화를 수신하여 음성 인식 오류에 해당하는 발음을 제 2 발화의 음성 인식을 통해 학습하기 때문에 사용자 발음의 특성을 정확하게 분석할 수 있다.

또한, 본 발명은 제 1 발화에 대한 음성 인식 오류에 해당하는 발음을 제 2 발화의 음성 인식을 통해 학습하여 분석한 사용자 발음의 특성을 이후의 음성 인식 프로세싱에 반영하여 음성인식의 성공률을 높일 수 있다.

[도 1]은 본 발명의 제 1 실시예에 따른 문자 입력 장치의 내부 구조를 나타낸 도면,
[도 2]는 본 발명의 제 2 실시예에 따른 문자 입력 장치의 내부 구조를 나타낸 도면,
[도 3]는 본 발명의 제 1 실시예에 따른 문자 입력 방법을 나타낸 흐름도,
[도 4]는 본 발명의 제 2 실시예에 따른 문자 입력 방법을 나타낸 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상과 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이들 구성요소들은 용어에 의해 한정되어서는 안 된다. 이들 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명에 따른 음성인식을 이용한 문자 입력 기술을 설명하기에 앞서 일반적인 음성 인식 시스템에 대해서 설명하기로 한다.

음성 인식 시스템은 일반적으로 전처리부와 음성인식부로 이루어진다. 이중에서 전처리부는 사용자가 발성한 음성 신호로부터 음성인식에 필요한 특징 벡터를 추출하는 작업을 수행한다. 마이크를 통해 입력된 음성이 음성 인식 시스템으로 수신되면, 전처리부는 일정 시간, 보통 1/100초마다 음성학적 특징을 잘 표현해 줄 수 있는 특징 벡터를 추출한다.

특징 벡터는 음성학적 특성은 잘 나타내며 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감해야한다. 이러한 과정을 거쳐 전처리부에서 추출된 특징 벡터는 음성인식부로 전송된다. 음성인식부는 미리 저장된 음향모델과 전처리부에서 추출된 특징 벡터를 비교하고, 단어 단위 검색과 문장 단위 검색을 통해 최종 인식된 문자를 출력한다.

먼저, 음성인식부는 특징 벡터를 데이터베이스에 저장된 단어 모델, 즉 각 단어의 음성학적 특징, 혹은 그보다 짧게 음절 단위의 음향 모델과의 비교를 통해 가능한 단어를 검색한다. 그 후, 음성인식부는 단어 단위 검색 결과인 후보 단어 또는 후보 음소들의 정보를 기초로 하여 문법 구조, 전체적인 문장 문맥, 특정 주제에의 부합 여부를 판단하여 어떤 단어나 음소가 가장 적합한지를 판단하여 최종 인식된 문자를 출력한다.

이러한 음성 인식 시스템은 발화자 음성에 따른 분류와 발화 방식에 따른 분류로 나눌 수 있다. 이중에서 발화 방식에 따른 분류는 고립 단어 인식(Isolated word recognition) 시스템과 연속 음성 인식(Continuous speech recognition) 시스템으로 분류된다. 고립 단어 인식 시스템은 단어 단위로 인식하는 것으로 한 단어씩 떨어져 있는 형태이기 때문에 고립 단어 인식 시스템이라고 한다. 예를 들어, 인식 대상 어휘가 "서울"과 "부산"인 경우라면 고립 단어 인식 시스템은 "서울"과 "부산" 딱 두개 어휘만 인식한다.

반면, 연속 음성 인식 시스템은 자연스럽게 발성한 문장 형태의 연속된 음성을 인식하는 것으로 음성 신호 처리 기술뿐만 아니라 언어 처리 기술도 요구하고 있어 음성 타자기 등의 문법 형식에 맞는 발성의 인식에 주로 적용되고 있다. 예를 들어, 인식 대상 어휘가 "서울"과 "부산"인 경우, 연속 음성 인식 시스템은 "서울"과 "부산"의 모든 조합, 즉 "서울 서울", "서울 부산 서울"과 같이 어떠한 길이의 어휘 조합도 모두 인식한다.

고립 단어 인식 시스템은 음성과 묵음 사이의 구분(VAD: Voice Activity Detection), 특징 벡터 추출, 패턴 비교 과정을 통해서 음성을 인식한다. 고립 단어 인식 시스템은 적은 계산량 또는 소규모 음성 인식에 적합하지만, 신뢰도 검사만으로 미등록이 거절을 수행하여 잡음환경에 따라 신뢰도 검사 오류 발생이 자주 발행된다는 단점이 있다.

연속 음성 인식 시스템은 특징 벡터 추출, 음향 모델과의 패턴 비교, 언어 모델과의 비교, 후처리 과정을 통해서 인식한다. 이러한 연속 음성 인식 시스템은 고사양의 서버급 PC 등에서 대규모 음성 인식 시스템에 적합하며, 저장매체와 연산처리 능력이 날로 발전함에 따라 실시간 대규모 음성 인식 시스템의 구현이 가능하게 되고 있다. 하지만, 그와 더불어 날로 경량화되어 가는 단말기에 탑재되기 위해서는 여전히 부족한 저장용량과 복잡한 연산이 문제가 되며, 많은 계산량과 대규모 데이터 저장용량이 필요하다는 단점이 있다.

이러한 고립 단어 인식 시스템 및 연속 음성 인식 시스템의 단점을 보완하기 위해서 본 발명에서는 사용자로부터 수신된 연속 음성 형태의 제 1 발화에 대한 음성 인식 오류가 발생한 경우, 음성 인식 오류가 발생한 발음에 해당하는 음소 단위 음성 형태의 제 2 발화를 수신하여 음성 인식을 통한 하이브리드 방식의 문자 입력 장치를 제안한다. 이하에서는 [도 1]을 참조하여 본 발명에 따른 문자 입력 장치의 내부 구조를 보다 구체적으로 설명하기로 한다.

[도 1]은 본 발명의 제 1 실시예에 따른 하이브리드 방식의 음성인식을 통한 문자 입력 장치의 내부 구조를 나타낸다.

[도 1]의 실시예서 문자 입력 장치는 스마트 TV, 휴대 단말, PAD 등에서 구동될 수 있으며, 문자 입력 장치는 가상 키보드 등으로 칭해질 수 있다. [도 1]의 실시예에서 문자 입력 장치는 사용자로부터 마이크를 통해서 수신되는 음성 신호 또는 리모컨, 터치 장치를 통해서 수신되는 입력 신호를 처리하여 문자를 입력할 수 있다. 이를 위한 문자 입력 장치는 음성수신부(100), 제 1 음성처리부(101a), 제 2 음성처리부(101b), 제어부(102), 표시부(104), 저장부(105), 리모컨수신부(107)를 포함하여 구성된다.

먼저, 음성수신부(100)는 사용자의 음성발화를 수신하여 음성발화 신호를 생성하기 위한 구성이다. 음성수신부(100)는 외부의 음성 신호를 수신하여 전기적인 음성 데이터로 처리하는 마이크 등으로 구성할 있으며, 이때 마이크는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제어 알고리즘이 구현될 수 있다.

제 1 음성처리부(101a)는 음성수신부(100)를 통해 사용자로부터 제공되는 음성발화 신호를 연속 음성 형태의 제 1 발화로 음성 처리하여 음성 인식을 수행한다. 이때, 제 1 발화(發話)는 자연스러운 발음 기준의 발화로서, 대한민국의 한글의 경우라면 '사람', '비행기', '자동차', '채널', '소리' 등이 될 것이다. 제 1 음성처리부(101a)는 사용자로부터 제공되는 이러한 음성 사운드를 처리하여 음성 인식을 이룬다. 보다 구체적으로, 제 1 음성처리부(101a)는 제 1 발화로부터 특징 벡터를 추출하고, 미리 저장된 음향모델 및 언어모델과 특징 벡터를 비교한 후 후처리과정을 통해 음성 인식을 수행한다.

제 2 음성처리부(101b)는 음성수신부(100)를 통해 사용자로부터 제공되는 음성발화 신호를 음소(音素) 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행한다. 이때, 제 2 발화는 음소 단위의 입력으로서, 대한민국의 한글의 경우라면 '기역', '니은', '아', '우' 등이 될 것이다. 제 2 음성처리부(101b)는 사용자로부터 제공되는 이러한 음성 사운드를 처리하여 'ㄱ', 'ㄴ', 'ㅏ', 'ㅜ' 등으로 인식한다. 보다 구체적으로, 제 2 음성처리부(101b)는 제 2 발화로부터 묵음을 제거한 후 제 2 발화의 특징 벡터를 추출하고, 특징 벡터와 음향모델을 비교하는 과정을 통해 음성 인식을 수행한다.

제어부(102)는 현재 설정된 입력 모드에 대응하여 음성인식 처리 방식을 다르게 설정한다. 즉, 입력 모드가 연음 입력모드인 경우에는 음성수신부(100)를 통해 사용자로부터 제공되는 음성발화 신호를 제 1 음성처리부(101a)가 제 1 발화의 연속 음성 형태의 음성 인식으로 처리하도록 제어한다. 반대로, 입력 모드가 음소 입력모드인 경우에는 음성수신부(100)를 통해 사용자로부터 제공되는 음성발화 신호를 제 2 음성처리부(101b)가 제 2 발화의 음소 단위 음성 형태의 음성 인식으로 수행하도록 제어한다. 이처럼, 입력 모드에 따라서 사용자의 음성은 전혀 다른 방식으로 인식되도록 처리된다.

그리고 나서, 제어부(102)는 제 1 음성처리부(101a)의 음성인식 결과와 제 2 음성처리부(101b)의 음성인식 결과를 결합하여 사용자가 제공한 문자 입력을 달성한다. 즉, 사용자는 음성을 이용하여 문자를 입력할 때, 자연스러운 연음 방식의 발음과 음소 단위의 발음을 혼합하여 사용할 수 있다. 이중에서 자연스러운 연음 방식의 발음은 제 1 음성처리부(101a)에서 음성인식 처리되고, 음소 단위의 발음은 제 2 음성처리부(101b)에서 음성인식 처리되며, 이러한 음성인식 결과를 다시 결합시켜 전체 문구(문자)를 구성한다.

예를 들어, "경기도 분당구"를 입력하는 경우를 생각한다. 사용자가 음성으로 "경기도 분 디긋 아 이응 구"라고 발음하면, 제 1 음성처리부(101a)가 이중에서 "경기도 분"과 "구"를 음성인식하고, 제 2 음성처리부(101b)가 이중에서 "디긋 아 이응"을 "ㄷㅏㅇ"으로 음성인식하는 것이다. 제어부(102)는 이러한 음성인식 결과를 결합하여 "경기도 분당구"를 재구성한다.

본 발명에서는 전술한 바와 같이 문자 입력 모드를 연음 입력모드와 음소 입력모드로 구분하는데, 이러한 문자 입력 모드의 설정은 다양한 방식으로 구성할 수 있다. 예를 들어, 리모컨(미도시)에 입력모드 설정 버튼이 마련되어 있어, 사용자가 이 버튼을 누르면 리모컨수신부(107)가 그에 관련된 제어신호를 입력받아 입력모드를 설정할 수도 있다. 다른 방법으로는 입력모드 설정을 음성인식으로 달성할 수도 있다. 입력모드 설정을 위한 명령어를 미리 예약하고, 사용자가 이러한 명령어를 발성하면 그에 따라 입력모드를 설정하는 것이다. 또다른 방법으로는, 음소 입력모드에서 들어올 수 있는 발음의 경우의 수가 적다는 점에 착안하여, 사용자의 발화음을 그때그때 음소 입력인지 여부를 판단하여 그에 따라 입력모드를 설정하는 것이다.

표시부(104)는 앞서 이루어진 음성 인식 결과를 문자로 생성하여 사용자에게 표시한다. 표시부(104)는 디바이스의 동작 상황과 사용자의 메뉴 선택 화면 등을 사용자에게 디스플레이하는 모듈로서, 예컨대 액정표시장치와 같은 표시장치를 사용하여 구성할 수 있다.

저장부(105)는 앞서 이루어진 음성 인식 결과를 기초로 하여 생성된 문자를 저장한다. 저장부(105)는 수십 메가비트 용량을 갖는 SRAM(static random access memory)이나 수십 기가비트의 용량을 갖는 플래시메모리(flash memory)가 하나의 칩으로 구현될 수 있다. 이하에서는 [도 2]를 참조하여 본 발명의 다른 실시예에 따른 문자 입력 장치의 내부 구조를 살펴보기로 한다.

[도 2]는 본 발명의 제 2 실시예에 따른 하이브리드 방식의 음성인식을 통한 문자 입력 장치의 내부 구조를 나타낸다.

[도 2]를 참조하면, 본 발명의 제 2 실시예에 따른 문자 입력 장치는 음성수신부(200), 제 1 음성처리부(201a), 제 2 음성처리부(201b), 제어부(202), 학습부(203), 표시부(204), 저장부(205), 오류판단부(206), 리모컨수신부(207)를 포함하여 구성된다. [도 2]에 도시된 제 2 실시예는 [도 1]을 참조하여 기술하였던 제 1 실시예와 기본적으로 동작 방식이 유사하므로, 이하에서는 제 2 실시예의 특징과 관련된 사항을 중심으로 기술한다. 제 1 실시예와 공통되거나 매우 유사한 내용에 대해서는 중복된 설명을 생략한다.

제 2 실시예는 연음 입력모드에서 사용자가 문자 입력을 하다가 제대로 음성인식이 되지않는 현상(오류)이 발생하여 다시 음소 입력모드로 문자 입력을 완성한 경우에 학습 기능을 통해 음성인식 성능을 향상시키는 것에 특징이 있다. 즉, 당해 문자에 대해서 연음 입력모드에서 사용자가 제공한 음성(사운드)을 활용하면 사용자의 발성특징 정보를 획득할 수 있으므로, 이를 향후의 음성인식 처리에 활용하려는 것이다.

오류판단부(206)는 문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단한다. 예를 들어, 사용자가 연음 입력모드에서 "분당구"라고 발음하였는데, 음성인식 결과가 "분강구"라고 나왔다면, 사용자는 이 부분에서 오류가 발생하였음을 시각적으로 판단할 수 있다. 이 경우, 사용자는 이 음성인식 결과 "분강구"를 삭제한 후, 음소 입력모드에서 "분 디긋 아 이응 구"라고 발음하고, 이에 대한 음성인식 결과가 "분ㄷㅏㅇ구"를 거쳐 "분당구"로 제시되어 사용자가 이를 받아들이는 상황이 발생할 수 있다. 오류판단부(206)는 이러한 과정을 분석함으로써 "분당구"의 문자입력 과정에서 오류정정 상황이 발생하였다는 것을 판단할 수 있다.

또한, 오류판단부(206)는 문자 입력 과정에서 음소 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 이를 정정하는 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 더 판단하는 것이 바람직하다. 예를 들어, 사용자가 음소 입력 모드에서 "디긋 아 이응"이라고 발음하였음에도 이에 대한 음성인식 결과가 "동"이라고 나왔다면, 당해 음성인식 결과를 삭제하고 반복적인 시도를 통해 "당"이라는 음성인식 결과를 얻을 수 있다. 오류판단부(206)는 이러한 과정을 분석함으로써 "당"의 음소단위 문자입력 과정에서 오류정정 상황이 발생하였다는 것을 판단할 수 있다.

학습부(203)는 오류판단부(206)의 판단 결과에 따라 오류정정 상황이 있었던 것으로 밝혀진 경우에, 연음 입력모드에서 입력된 사용자의 음성발화 신호와 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득하고 이를 학습할 수 있다. 음성 인식 오류에 해당하는 연음 입력모드에서의 발음을 음소 입력모드의 결과를 통해 학습하기 때문에 사용자 발음의 특성을 정확하게 분석할 수 있는 것이다.

이 경우, 이렇게 획득한 사용자의 발성특징은 이후의 음성 인식 프로세싱에 반영하여 음성인식의 성공률을 높일 수 있다. 특히, 연음 입력모드에서 제공되는 연속 음성 형태의 제 1 발화를 음성 처리함에 있어서 위에서 획득된 발성특징을 매우 유용하게 활용될 수 있다.

연음 입력모드에서의 오류정정 결과뿐만 아니라, 음소 입력모드에서의 오류정정 결과로부터 사용자의 발성특징 정보를 더 획득하고, 그 결과를 음소 단위 음성 형태의 제 2 발화를 음성 처리함에 있어서 반영하는 것이 바람직하다. 유사한 발음의 음소 간에 음성인식 오류가 발생할 수 있으므로 이들 사이의 오류를 감소시키는 장점을 얻을 수 있다. 이하에서는 [도 3]을 참조하여 본 발명의 일 실시예에 따른 문자 입력 방법을 살펴보기로 한다.

[도 3]은 본 발명의 일 실시예에 따른 하이브리드 방식의 음성인식을 통한 문자 입력 방법의 기본 개념을 나타낸다.

(S301) 단계 : 문자 입력 장치는 일반적으로 처음에는 연음 입력모드에서 사용자의 음성을 제공받는다. 그에 따라 연속 음성 형태의 제 1 발화를 수신하고, 그 수신한 제 1 발화에 대해 음성 인식을 수행한다.

(S302) 단계 : 입력 모드가 전환되는 경우에는 음소 입력모드로 설정되어 사용자의 음성을 제공받는다.

(S303) 단계 : 음소 입력모드로 전환된 후에는 사용자로부터 음소 단위 음성 형태의 제 2 발화를 수신하고, 그 수신한 제 2 발화에 대해 음소 단위의 음성 인식을 수행한다.

[도 3]에는 도시하지 않았지만, 문자 입력 장치는 제 1 발화의 음성 인식 결과를 문자로 생성하여 출력할 수 있다. 또한, 문자 입력 장치는 제 1 발화의 음성 인식 결과에 오류가 존재한다고 판단한 경우, 음성 인식 오류에 해당하는 발음을 제 2 발화의 음성 인식을 통해 학습할 수 있다. 이하에서는 [도 4]를 참조하여 본 발명의 다른 실시예에 따른 문자 입력 방법을 구체적으로 살펴보기로 한다.

[도 4]는 본 발명의 다른 실시예에 따른 하이브리드 방식의 음성인식을 통한 문자 입력 방법을 구체적으로 나타낸 흐름도이다.

(S401) 단계 : 사용자의 음성발화를 수신한다. [도 1]과 [도 2]를 참조하여 전술한 바와 같이, 마이크 등으로 구성되는 음성수신부(100, 200)를 통하여 사용자의 음성발화를 수신한다.

(S402) 단계 : 문자 입력모드를 체크하여, 연음 입력모드로 처리해야 하는지 아니면 음소 입력모드로 처리해야 하는지를 판단한다.

(S403) 단계 : 입력 모드가 연음 입력모드인 경우, 위 수신된 사용자의 음성발화 신호를 연속 음성 형태의 음성 인식으로 처리한다. [도 1]과 [도 2]를 참조하여 앞서 제 1 발화라고 명명된 자연스러운 발음 형태의 연음 입력모드에서 제 1 음성처리부(101a, 201a)가 음성인식 처리한다.

(S404) 단계 : 입력 모드가 음소 입력모드인 경우, 위 수신된 사용자의 음성발화 신호를 음소 단위 음성 형태의 음성 인식으로 처리한다. 앞서 제 2 발화라고 명명된 음소 입력모드의 발화는 음소 단위로 음성인식 처리한다. 예를 들어, '기역', '니은', '아', '우' 등과 같이 사용자가 발음하면, 음소 입력모드에서는 이를 'ㄱ', 'ㄴ', 'ㅏ', 'ㅜ' 등으로 인식한다.

(S405) 단계 : 제 1 음성인식의 결과와 제 2 음성인식의 결과를 결합하여 사용자의 문자 입력을 달성한다. 이에 대해서는 전술한 바와 같다.

(S406) 단계 : 문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단한다. 오류정정 상황이 있었는지 여부는 사용자의 음성입력 과정을 분석하면 판단할 수 있는데, 이에 대해서는 [도 2]를 참조하여 상세하게 기술한 바 있다.

(S407) 단계 : 오류정정 상황이 있었던 경우에 연음 입력모드에서 입력된 사용자의 음성발화 신호와 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득한다. 이렇게 획득된 사용자의 발성특징 정보는 이후의 음성인식 과정에서 반영하는 것이 바람직하며, 이를 통해 음성인식의 성공률을 점차적으로 높일 수 있다.

한편, [도 4]에는 도시되어 있지는 않으나, [도 2]를 참조하여 전술한 바와 같이, 연음 입력모드에서의 오류정정 결과뿐만 아니라, 음소 입력모드에서의 오류정정 결과로부터 사용자의 발성특징 정보를 더 획득하고, 그 결과를 음소 단위 음성 형태의 제 2 발화를 음성 처리함에 있어서 반영하는 것이 바람직하다. 유사한 발음의 음소 간에 음성인식 오류가 발생할 수 있으므로 이들 사이의 오류를 감소시키는 장점을 얻을 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

예를 들어, 본 명세서에서는 발명자의 모국어 문자인 대한민국의 한글을 기준으로 본 발명의 아이디어를 설명하였으나, 한글 외에도 영어나 독일어 등과 같은 다양한 문자에 대해서도 본 발명의 사상을 적용할 수 있다. 본 발명의 아이디어를 영어에 적용한다면, 음소 단위 입력은 알파벳 단위 입력에 해당할 것이다. 즉, 'student'를 '스튜던트(stu:dnt)'와 같이 발성하는 방식이 제 1 발화에 해당하고, '에스(es) 티(ti:) 유(juː) 디(di:) 이(i:) 엔(en) 티(ti:)'와 같이 발성하는 방식이 제 2 발화에 해당한다.

이처럼 본 발명의 아이디어를 영어나 독일어 등에 적용하는 경우에 오류판단부(206)와 학습부(203)의 동작도 그에 맞도록 구성된다. 예를 들어, 음소 입력 단위의 오류정정 및 학습과 관련하여, 사용자가 예컨대 'G'로 발음했는데 'Z'로 인식하였다면, DELETE 명령을 하여 음성인식 결과 'Z'를 삭제하고 재차 시도하여 'G'를 발음하여 'G'로 인식하며, 이러한 과정으로부터 사용자의 발음특징을 획득하여 이후의 음성인식에 반영하는 것이 바람직하다.

Claims

사용자의 음성발화를 수신하기 위한 음성수신부(100);
상기 음성수신부로부터 제공되는 사용자의 음성발화 신호를 연속 음성 형태의 제 1 발화(發話)로 음성 처리하여 음성 인식을 수행하기 위한 제 1 음성처리부(101a);
상기 음성수신부로부터 제공되는 사용자의 음성발화 신호를 음소(音素) 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하기 위한 제 2 음성처리부(101b);
입력 모드가 연음 입력모드인 경우에는 상기 음성수신부에서 수신된 사용자의 음성발화 신호를 상기 제 1 음성처리부가 제 1 발화의 연속 음성 형태의 음성 인식으로 처리하도록 제어하고, 입력 모드가 음소 입력모드인 경우에는 상기 음성수신부에서 수신된 사용자의 음성발화 신호를 상기 제 2 음성처리부가 제 2 발화의 음소 단위 음성 형태의 음성 인식으로 수행하도록 제어하며, 상기 제 1 음성처리부와 상기 제 2 음성처리부의 음성인식 결과를 결합하여 사용자의 문자 입력을 달성하는 제어부(102);
문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단하는 오류판단부(206);
상기 오류판단부의 판단 결과에 따라 오류정정 상황이 있었던 경우에 상기 연음 입력모드에서 입력된 사용자의 음성발화 신호와 상기 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득하는 학습부(203);
를 포함하여 구성되고, 상기 제 1 음성처리부(101a, 201a)는 상기 학습부에서 획득된 사용자의 발성특징 정보를 상기 연속 음성 형태의 제 1 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 하이브리드 방식의 음성인식을 통한 문자 입력 장치.
삭제
청구항 1에 있어서,
상기 오류판단부(206)는 문자 입력 과정에서 음소 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 이를 정정하는 음성 인식 처리가 이루어진 제 2 오류정정 상황이 있었는지 여부를 더 판단하고,
상기 학습부(203)는 상기 제 2 오류정정 상황이 있었던 경우에 상기 오류 정정 결과로부터 사용자의 발성특징 정보를 더 획득하고,
상기 제 2 음성처리부(101b, 201b)는 상기 학습부에서 획득된 사용자의 발성특징 정보를 상기 음소 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 장치.
청구항 3에 있어서,
상기 제 1 음성처리부(101a, 201a)는,
상기 제 1 발화로부터 특징 벡터를 추출하고, 미리 저장된 음향모델 및 언어모델과 상기 특징 벡터를 비교한 후 후처리과정을 통해 연속 음성 형태의 음성 인식을 수행하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 장치.
청구항 4에 있어서,
상기 제 2 음성처리부(101b, 201b)는,
상기 제 2 발화로부터 묵음을 제거한 후 제 2 발화의 특징 벡터를 추출하고, 상기 특징 벡터와 음향모델을 비교하는 과정을 통해 음소 단위 음성 형태의 음성 인식을 수행하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 장치.
사용자의 음성발화를 수신하는 단계;
문자 입력모드를 체크하는 단계;
상기 입력 모드가 연음 입력모드인 경우, 상기 수신된 사용자의 음성발화 신호를 연속 음성 형태의 음성 인식으로 처리하는 제 1 음성인식 단계;
상기 입력 모드가 음소 입력모드인 경우, 상기 수신된 사용자의 음성발화 신호를 음소 단위 음성 형태의 음성 인식으로 처리하는 제 2 음성인식 단계;
상기 제 1 음성인식의 결과와 상기 제 2 음성인식의 결과를 결합하여 사용자의 문자 입력을 달성하는 단계;
문자 입력 과정에서 연음 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 그에 대응하는 음소 입력모드의 음성 인식 처리가 이루어진 오류정정 상황이 있었는지 여부를 판단하는 오류판단 단계;
상기 오류정정 상황이 있었던 경우에 상기 연음 입력모드에서 입력된 사용자의 음성발화 신호와 상기 음소입력 모드에서의 음성인식 결과를 반영하여 사용자의 발성특징 정보를 획득하는 학습 단계;
상기 제 1 음성인식 단계에서 상기 학습 단계에서 획득된 사용자의 발성특징 정보를 상기 연속 음성 형태의 제 1 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하도록 설정하는 단계;
를 포함하여 구성되는 하이브리드 방식의 음성인식을 통한 문자 입력 방법.
삭제
청구항 6에 있어서,
상기 문자 입력 방법은,
문자 입력 과정에서 음소 입력모드에서의 음성 인식 결과에 오류가 발생한 결과로 이를 정정하는 음성 인식 처리가 이루어진 제 2 오류정정 상황이 있었는지 여부를 판단하는 제 2 오류판단 단계;
상기 제 2 오류정정 상황이 있었던 경우에 상기 오류 정정 결과로부터 사용자의 발성특징 정보를 획득하는 제 2 학습 단계;
를 더 포함하여 구성되고,
상기 제 2 음성인식 단계는 상기 제 2 학습 단계에서 획득된 사용자의 발성특징 정보를 상기 음소 단위 음성 형태의 제 2 발화로 음성 처리하여 음성 인식을 수행하는 데에 반영하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 방법.
청구항 8에 있어서,
상기 제 1 음성인식 단계는 상기 제 1 발화로부터 특징 벡터를 추출하고 미리 저장된 음향모델 및 언어모델과 상기 특징 벡터를 비교한 후 후처리과정을 통해 연속 음성 형태의 음성 인식을 수행하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 방법.
청구항 9에 있어서,
상기 제 2 음성인식 단계는, 상기 제 2 발화로부터 묵음을 제거한 후 제 2 발화의 특징 벡터를 추출하고, 상기 특징 벡터와 음향모델을 비교하는 과정을 통해 음소 단위 음성 음성 인식을 수행하는 것을 특징으로 하는 하이브리드 방식의 음성인식을 통한 문자 입력 방법.
청구항 6, 8, 9, 10 중 어느 하나의 항에 따른 하이브리드 방식의 음성인식을 통한 문자 입력 방법을 실행하기 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체.