KR20110117449A

KR20110117449A - 데이터수집 단말을 이용한 음성인식 시스템

Info

Publication number: KR20110117449A
Application number: KR1020100036914A
Authority: KR
Inventors: 이진욱
Original assignee: 이진욱
Priority date: 2010-04-21
Filing date: 2010-04-21
Publication date: 2011-10-27

Abstract

각 가정에 보급된 데이터 수집 단말은 자체 구비한 음성인식 알고리즘을 통하여 화자로부터 수집한 음성데이터를 기준 음성데이터와 비교하여 변위값을 추출하고, 이를 서버에 전달하여 해당 데이터 수집 단말에 대응하는 음성인식 알고리즘을 개발하도록 한 다음, 이를 다시 데이터 수집 단말로 재전송하여 구비된 음성인식 알고리즘을 갱신하도록 하는 과정을 반복함으로써, 이와 같은 주기적인 음성인식 알고리즘의 갱신을 통하여 불특정 다수의 화자에 대한 독립적인 음성인식이 가능할 뿐만 아니라, 음성인식률도 향상시킬 수 있다.

Description

데이터수집 단말을 이용한 음성인식 시스템{Voice Recognition System using Data Collecting Terminal}

본 발명은 음성인식 시스템에 관한 것으로, 특히 데이터수집 단말을 이용하여 음성 인식률을 형상시킬 수 있는 음성인식 시스템에 관련한다.

수십 년 전부터 음성인식 알고리즘이 다양하게 개발되어 음성인식을 가능하게 함으로써 많은 종류의 언어의 혼돈을 인식가능하게 하려는 인류의 꿈을 이룰 수 있도록 하고 있다.

음성인식은 화자 종속적(Voicer Dependent) 방법과 화자 독립적((Voicer Independent) 방법이 있는데, 후자의 경우 전 세계적으로 아직까지 불특정 다수에 대하여 독립적으로 인식할 수 있는 음성인식 알고리즘이 개발되지 못하고 있다. 이는 특정 화자 자체도 그때 그때의 감정이나 몸의 상태에 따라 음성데이터의 기준 값이 달라지기 때문에 음성인식의 신뢰성이 떨어지며, 더욱이 불특정 다수의 화자에 대한 독립적 음성인식은 현재로서는 불가능한 상태이다.

또한, 앞서 얘기한 바와 같이, 전자의 경우도 특정 개인의 음성데이터의 기준 값이 매번 달라지기 때문에 화자 종속적 음성인식도 그리 쉽지만은 않다. 이를 확장하여 생각해보면, 특정 개인의 음성데이터를 인식하는 화자 종속적 방법 또한 변수가 대단히 많다는 것을 알 수 있다.

이러한 문제점을 해결하기 위해서, 특정 개인에 대하여 학습을 시키고 음성인식을 화자 종속적 방법으로 국한한다고 하여도 음성인식 알고리즘의 인식률이 향상된다고 확신할 수는 없다.

이러한 상황에서, 불특정 다수에 대한 화자 독립적 방법의 음성인식은 불가능하다는 결론에 도달하게 된다.

본 발명의 목적은 불특정 다수에 대한 화자 독립적인 방식의 음성인식을 가능하게 하고 음성 인식률을 향상시킬 수 있는 음성인식 시스템을 제공하는 것이다.

본 발명에 따르면, 각 가정에 보급된 데이터 수집 단말은 자체 구비한 음성인식 알고리즘을 통하여 화자로부터 수집한 음성데이터를 기준 음성데이터와 비교하여 변위값을 추출하고, 이를 서버에 전달하여 해당 데이터 수집 단말에 대응하는 음성인식 알고리즘을 개발하도록 한 다음, 이를 다시 데이터 수집 단말로 재전송하여 구비된 음성인식 알고리즘을 갱신하도록 하는 과정을 반복함으로써, 이와 같은 주기적인 음성인식 알고리즘의 갱신을 통하여 불특정 다수의 화자에 대한 독립적인 음성인식이 가능할 뿐만 아니라, 음성인식률도 향상시킬 수 있다.

상기의 구성에 의하면, 불특정 다수의 화자의 음성데이터 변위값에 대한 데이터베이스를 구축하여 추가 가능한 변위값들을 예측하는 알고리즘을 주기적으로 갱신함으로써 어떠한 음성데이터 변위값이라도 독립적으로 인식할 수 있다.

도 1은 본 발명에 의한 음성인식 시스템을 나타내는 구성도이다.
도 2는 본 발명에 적용되는 DCT(10)의 기능적 구성을 나타내는 블록도이다.
도 3은 본 발명의 음성인식 시스템의 작용을 설명하는 플로차트이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다.

도 1은 본 발명에 의한 음성인식 시스템을 나타내는 구성도이다.

각 가정에는 데이터 수집 단말(Data Collecting Terminal; 10)(이하, DCT라 함)이 보급된다.

DCT(10)는 도 2에 나타낸 구성을 포함하며, 마이크로프로세서를 포함하는 제어모듈의 제어하에 가령 마이크로폰과 스피커나 LCD를 포함하는 입출력모듈을 이용하여 화자와 대화를 나눌 수 있다. 이에 대해서는 후에 상세히 설명한다.

본 발명에 따르면, DCT(10)가 구비한 음성인식모듈의 주기적인 업그레이드를 통하여 화자의 음성을 입력받아 이를 정확하게 인식함으로써, 음성인식의 인식률을 높일 수 있으며, 이 과정에서 화자는 가령 외국어 구사 및 청취 능력을 향상시킬 수 있다.

DCT(10)는 이동가능한 로봇(robot) 형태로 제공될 수 있으며, 바람직하게 홈 오토메이션을 위한 셋톱박스(settop box)의 역할을 할 수도 있다.

다시 도 1을 참조하면, 각 가정에는 DCT(10)를 외부 네트워크, 가령 인터넷(200)에 연결하기 위한 액세스 포인트(access point; 100)가 설치된다. 물론, DCT(10)는 액세스 포인트(100)를 통하여 댁내 내부 네트워크에 연결될 수 있으며, 댁내 내부 네트워크에 연결된 다양한 종류의 가전기기를 제할 수 있다.

인터넷(200)의 다른 쪽에 접속된 서버는, 가령 관리 서버(310), 데이터 서버(320), 그리고 음성인식알고리즘 개발 서버(330)를 포함할 수 있다.

이들 각 서버(310, 320, 330)는 서버 부하를 고려하고 서버 운영의 효율성을 위해 분리 구축될 수도 있지만, 하나의 서버로 구현될 수 있다.

관리 서버(310)는 말 그대로 외부 단말로부터의 요청을 수신하고 처리하여 그 결과를 전송하며, 데이터 서버(320) 및 음성인식알고리즘 개발 서버(330)의 동작을 제어한다.

데이터 서버(320)는 관리 서버(310)의 제어하에 각종 데이터를 저장하거나 필요한 데이터를 검색 추출하여 관리 서버(310)에 제공한다.

또한, 음성인식알고리즘 개발 서버(330)는 DCT(10)로부터 전송되는 음성데이터 변위값에 기초하여 변위값 데이터베이스를 구축함과 동시에 예측가능한 변위값을 산출함으로써 음성인식알고리즘을 개발하며, 개발된 음성인식알고리즘을 DCT(10)로 전송한다.

도 2는 본 발명에 적용되는 DCT(10)의 기능적 구성을 나타내는 블록도이다.

본 발명에 따르면, DCT(10)는 데이터 저장모듈(14), 통신모듈(16), 음성인식모듈(18), 입출력모듈(20), 및 제어모듈(12)을 포함한다.

데이터 저장모듈(14)은 메모리를 말하며, 가령 하드디스크나 SSD 등을 포함한다. 데이터 저장모듈(14)에는 기본적으로 DCT(10)의 동작을 위한 다양한 음성데이터가 저장되고, 화자로부터 입력받은 음성데이터를 임시 저장하는 버퍼 기능도 수행하며, 그외 다양한 학습용 콘텐츠가 저장된다. 가령, DCT(10)를 영어 학습장치로 사용하는 경우에는, 영어 문장이나 단어의 발음을 위한 음성데이터나 학습용 영상데이터 등의 외국어 학습용 콘텐츠가 저장된다.

통신모듈(16)은 액세스 포인트(100)와의 무선 통신을 위해 데이터를 송수신하는 기능을 갖는다.

음성인식모듈(18)은 음성인식 알고리즘(19)을 구비하고 있으며, 입력모듈(21)을 통하여 수신한 화자의 음성 데이터를 음성인식 알고리즘(19)을 통하여 인식함과 동시에 음성데이터 변위값을 추출하고 분석하여 서버(300)로 전송한다.

또한, 음성인식모듈(18)은 서버(300)로부터 주기적으로 수신하는 갱신된 음성인식 알고리즘으로 DCT(10) 자체에 구비한 음성인식 알고리즘(19)을 대체한다.

입출력모듈(20)은 입력모듈(21)과 출력모듈(22)을 포함하는데, 출력모듈(22)은 표시유닛, 음성출력유닛 또는 동작제어유닛을 구비할 수 있다.

입력모듈(21)은, 가령 마이크로폰이나 카메라를 포함하며, 화자의 음성데이터나 영상데이터를 수신한다. 출력모듈(21)의 표시유닛 가령 LCD를 포함하며, DCT(10)의 반응을 화자에게 영상을 통하여 보여준다. 또한, 음성출력유닛은 가령 스피커를 포함하고, 동작제어유닛은 DCT(10)가 로봇인 경우, 관절의 움직임을 제어하여 반응을 화자에게 보여준다.

제어모듈(12)은 각 모듈(14, 16, 18, 20)의 기능을 제어하여 고유의 기능을 수행하도록 하며, 가령 마이크로프로세서로 구현될 수 있다.

이하, 본 발명의 음성인식 시스템의 작용에 대해 도 1 내지 3을 참조하여 설명한다.

도 3은 본 발명의 음성인식 시스템의 작용을 설명하는 플로차트이다.

각 가정에는 가령 로봇 구조의 DCT(10)가 보급되는데, 기본적으로 DCT(10)에는 도 2의 구조를 갖는 마이크로 컴퓨터가 장착된다. 예를 들어, 얼굴에 대응하여 LCD가 설치되고, 입에 대응하여 스피커가 설치되며, 화자의 음성데이터의 수신을 위한 마이크와 영상을 얻기 위한 카메라가 설치된다.

각 가정에 보급되는 DCT(10)는 관리 서버(310)에 의해 고유 식별자와 함께 관련 정보가 데이터 서버(320)에 저장됨과 동시에, 음성인식알고리즘 개발 서버(330)로부터 특정 화자에 대응하지 않은 공통의 음성인식 알고리즘(19)을 제공받아 장착된다.

DCT(10)가 온 되면, 제어모듈(12)은 다른 모듈(14, 16, 18, 20)의 상태를 체크하고, 통신모듈(16)을 제어하여 액세스 포인트(100)와 연결하고, 인터넷(200)을 통하여 관리 서버(310)와 통신하는 초기화 과정을 수행한다.

이하의 설명에서는 화자가 DCT(10)에 일반적인 명령을 전달하여 동작하는 경우를 예로 들어 설명한다. 이 경우, 상기한 바와 같이, DCT(10)의 동작을 위한 다양한 음성데이터는 데이터 저장모듈(14)에 사전에 저장된다.

입력모듈(21)은 인터랙티브(interactive) 방식에 의한 화자와의 대화에서 음성데이터를 수집한다(단계 S31).

제어모듈(12)은 입력모듈(21)로부터 전달된 음성데이터를 데이터 저장모듈(14)에 임시 저장함과 동시에 음성인식모듈(18)로 하여금 음성인식을 수행하도록 한다.

음성인식모듈(18)은 구비한 음성인식알고리즘에 기초하여 입력된 음성데이터를 분석하고, 이를 데이터 저장모듈(14)에 저장된 동작을 위한 음성데이터와 비교하여 대응하는 동작을 추출하여 제어모듈(12)에 전달한다. 이와 함께, 입력된 음성데이터와 저장된 기준 음성데이터와 비교 분석하여 변위값을 추출하여 데이터 저장모듈(14)에 전달한다(단계 S32).

제어모듈(14)은 음성인식모듈(18)로부터 전달된 동작에 대응하는 명령을 출력모듈(22)에 전달하여 수행하도록 한다. 이에 따라, 출력모듈(22)은 LCD를 통하여 정보를 표시하거나, 스피커를 통하여 응답데이터를 음성으로 출력하거나, 대응하는 행동을 하도록 제어한다.

또한, 제어모듈(14)은 임시 저장된 음성데이터 변위값을 주기적으로 관리 서버(310)에 전달한다(단계 S33).

관리 서버(310)는 수신한 음성데이터 변위값을 데이터 서버(320)에 해당 DCT(10)의 식별자에 대응하여 저장하며, 음성인식알고리즘 개발 서버(330)는 이 변위값을 분석하여 예측가능한 변위값을 추출하고 그 결과를 반영하여 해당 DCT(10) 별로 데이터 서버(320)에 저장된 기존의 음성인식알고리즘을 갱신한다(단계 S34).

이후, 관리 서버(310)는 주기적으로 각 DCT(10)의 음성인식알고리즘의 버전을 체크하여 해당 DCT(10)와 관련된 갱신이 데이터 서버(320)에 있는 경우, 갱신된 음성인식알고리즘을 해당 DCT(10)에 전송한다(단계 S35).

이와 같이, 각 가정에 보급된 DCT(10)가 구비한 음성인식 알고리즘을 통하여 화자로부터 수집한 음성데이터를 기준 음성데이터와 비교하여 변위값을 추출하고, 이를 서버에 전달하여 해당 DCT(10)에 대응하는 음성인식 알고리즘을 개발하도록 한 다음, 이를 다시 DCT(10)로 재전송하여 구비된 음성인식 알고리즘을 갱신하도록 하는 과정을 반복한다. 이와 같은 주기적인 음성인식 알고리즘의 갱신을 통하여 불특정 다수의 화자에 대한 독립적인 음성인식이 가능할 뿐만 아니라, 음성인식률도 향상시킬 수 있다.

이상에서는 본 발명의 바람직한 실시 예를 중심으로 설명하였지만, 당업자의 수준에서 다양한 변경이나 변형을 가할 수 있다.

상기의 실시 예에서는 각 가정에 보급된 DCT(10)에 대해 하나의 화자가 대응하는 경우를 예로 들었지만, 해당 가정에 다수의 화자가 있는 경우, 하나의 DCT(10)는 다수의 화자에 대응하게 된다. 이 경우, 수집되는 음성데이터는 음성인식모듈(18)에 의해 각 화자마다 고유 식별자가 부가되어 저장되며, 이후의 일련의 과정에서도 항상 부가된 고유 식별자와 함께 전달된다.

한편, 자세히 기술하지는 않았지만, DCT(10)는 홈 오토메이션을 위한 셋톱박스의 기능을 할 수 있어, 사용자의 명령에 따라 액세스 포인트(100)에 연결된 가정내 다양한 가전기기의 제어할 수 있다.

따라서, 본 발명의 권리범위는 상기의 실시 예에 한정되어 해석되어서는 안 되며 이하에 기재된 특허청구범위에 의해 해석되어야 한다.

10: 데이터 수집단말
100: 액세스 포인트
200: 인터넷
300: 서버
310: 관리 서버
320: 데이터 서버
330: 음성인식알고리즘 개발서버

Claims

데이터수집 단말의 동작을 위한 다양한 음성데이터가 저장되고, 입력받은 음성데이터를 임시 저장하는 데이터 저장모듈;
액세스 포인트와의 무선 통신을 위해 데이터를 송수신하는 통신모듈;
음성인식 알고리즘을 구비하고, 상기 입력받은 음성 데이터를 상기 음성인식 알고리즘을 통하여 인식함과 동시에 음성데이터 변위값을 추출하고 분석하는 음성인식모듈;
화자의 음성 데이터 또는 영상 데이터를 입력받고 상기 데이터수집 단말의 는 반응을 상기 화자에게 보여주는 입출력모듈; 및
상기 각 모듈의 기능을 제어하여 고유의 기능을 수행하도록 하는 제어모듈을 포함하는 것을 특징으로 하는 데이터수집 단말을 이용한 음성인식 시스템.