KR100383391B1

KR100383391B1 - 음성인식서비스 시스템 및 방법

Info

Publication number: KR100383391B1
Application number: KR10-2000-0036005A
Authority: KR
Inventors: 김재형; 김지한; 홍종철
Original assignee: 김지한; 김재형; 홍종철
Priority date: 2000-06-28
Filing date: 2000-06-28
Publication date: 2003-05-12
Also published as: KR20020001359A

Abstract

본 발명은 음성 인식 시스템 및 방법에 관한 것으로, 더욱 상세하게는 다수의 사이트에서 하나의 음성인식수단을 공유하고, 음성인식수단에서는 각각의 사이트의 요청에 의하여 음성인식 서비스를 제공하는 음성인식서비스시스템 및 방법을 제공한다.

상기 목적을 위하여 본 발명의 시스템은 컴퓨터나 휴대폰등의 유, 무선의 사용자 인터페이스장치와 상호 접속되어 상기 인터페이스에 음성인식서비스를 제공하는 음성인식서비스시스템에 있어서;

상기 사용자 인터페이스로부터 음성을 입력받아 사용자별로 음성을 저장하는 사용자 데이터베이스;

상기 사용자 데이터베이스에 저장된 정보와 새로 입력되는 사용자의 음성데이터를 분석하여 상기 음성데이터를 인식하는 음성인식수단을 포함한다.

본 발명에 따르면 각 사용자나 사이트 운영자는 음성인식을 위한 자신의 시스템을 구비할 필요없이 독자적으로 운영되는 음성인식서비스시스템을 이용함으로써 편리하게 음성인식서비스를 제공받을 수 있으며, 개별적으로 운영되는 음성인식시스템을 구비하는 것보다 정교한 음성인식서비스를 음성인식서비스시스템을 통하여 제공받는 이점이 있다.

Description

음성인식서비스 시스템 및 방법{Voice Recogizing System and the Method thereos}

본 발명은 음성 인식 시스템 및 방법에 관한 것으로, 더욱 상세하게는 다수의 사이트에서 하나의 음성인식수단을 공유하고, 음성인식수단에서는 각각의 사이트의 요청에 의하여 음성인식 서비스를 제공하는 음성인식서비스시스템 및 방법에 관한 것이다.

현 정보화시대에는 통신망에 연결될 수 있는 수많은 종류의 단말기, 예를 들어 컴퓨터, 휴대폰, PDA등이 선을 보이고 있고, 이러한 단말기를 가능한 편리하게 조작하기 위하여 수많은 연구개발이 진행되어 왔다. 그 중 하나가 인간의 음성을 시스템이 인식하도록 하여 소망의 작업이 이루어지도록 하는 소위 음성인식기술이다. 음성인식기술은 인간과 단말기사이에 보다 편리한 인터페이스환경을 제공할 수 있기 때문에 새로운 기술들이 계속적으로 개발되고, 선보이고 있으나, 정교한 음성인식을 해결하기 위해서는 고가의 유, 무형의 설비를 필요로 하고 있다.

종래 인터넷망을 이용하여 홈페이지를 운영하는 사이트는 자신의 사이트 접속자에게 음성인식 서비스를 제공하기 위하여 기술 및 설비를 갖추어야 하기 때문에 원활하게 음성인식 서비스가 이루어지지 못하였다. 또한 음성인식 서비스가 이루어지는 경우에도 시스템이 정교하지 못하였기 때문에 에러의 발생율이 높아 그 신뢰도가 저하되어 있는 형편이다.

또한, 종래의 음성인식시스템은 다수 사람에 공통적으로 적용되는 범용 솔루션들을 사용하고 있기 때문에 개개인에 적합한 음성인식을 제공할 수가 없었다.

따라서, 본 발명은 이와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 인터넷으로 연결된 여러 사이트들의 음성인식의 요청에 따라 음성인식을 대행해주며, 그 결과를 요청된 곳에 통보하는 음성인식서비스 시스템 및 방법을 제공하기 위한 것이다.

본 발명의 또 다른 특징은 각 사이트별로 운영되고 있는 음성인식시스템들보다 정교한 시스템을 구축하고, 이들 사이트들(이하, 협약사이트라 함)에 음성인식서비스를 제공함으로써 최종 사용자에게 양질의 서비스를 제공하고, 각각의 사이트에서 개별적으로 운영되는 경우에 수반되는 중복투자의 결점을 배제하도록 하여 전체적으로 자원의 효율적 사용이 될 수 있는 시스템 및 방법을 제공하기 위한 것이다.

본 발명의 또 다른 특징은 자기학습을 실현하도록 함으로써, 본 발명의 시스템을 이용할수록 음성인식의 정확도가 높아지도록 사용자 개개인의 음성데이터베이스를 구축하고, 자기학습기능을 구비한 시스템 및 방법을 제공하기 위한 것이다.

도 1은 본 발명의 일실시예의 기본 구성을 설명하기 위한 구성도이다.

도 2 본 발명의 일실시예의 음성인식서비스시스템의 시스템 구성도를 도시한 것이다.

도 3은 본 발명의 일실시예에서 사용자 인터페이스의 한 예의 구성도이다.

도 4는 본 발명의 일실시예에서 협약사이트의 일예를 도시한 구성도이다.

도 5 는 본 발명의 일실시예의 음성인식시스템에서 음성인식하는 과정을 나타내기 위한 순서도이다.

도 6은 본 발명의 일실시예에서의 HMM방식을 설명하기 위한 순서도이다.

도 7 본 발명의 무선이동 통신을 이용한 음성입력 구성도이다.

도 8은 본 발명의 음성인식 시스템을 이용하는 기본 순서도이다.

도 9는 본 발명의 일실시예에서 협약사이트에서 음성데이터베이스를 이용하여 음성인식서비스를 제공하기 위한 순서도이다.

도 10은 본 발명의 사용자 음성데이터베이스 생성 순서도이다.

도 11은 본 발명의 일실시예에서 사용자 회원로그인하는 과정에 대한 순서도이다.

도 12는 본 발명의 일실시예에서 사용자음성데이터베이스 최적화 작업 순서도이다.

도 13은 본 발명의 일실시예의 화자독립음성데이터베이스 개선과정이다.

이와 같은 목적들을 달성하기 위한 본 발명의 특징은 컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치와 상호 접속되어 상기 인터페이스에 음성인식서비스를 제공하는 음성인식서비스시스템에 있어서 상기 사용자 인터페이스로부터 음성을 입력받아 사용자별로 음성을 저장하는 사용자 데이터베이스와 상기 사용자 데이터베이스에 저장된 정보와 새로 입력되는 사용자의 음성데이터를 분석하여 상기 음성데이터를 인식하는 음성인식수단을 포함하는 것을 특징으로 한다.

또한, 본 발명에서 상기 음성인식수단은 상기 음성데이터로부터 음성구간을 검출하고, 상기 검출된 음성으로부터 그 음성의 성질을 잘 표현해 주는 특징 벡터를 추출하고, 상기 특징 벡터와 기 저장된 데이터베이스의 기준모델집합과의 유사도를 측정하고 음성데이터의 최종인식을 이루는 것을 특징으로 한다.

또한, 본 발명에서 상기 사용자의 음성데이터에는 명령이 포함됨으로써 상기 음성인식의 결과 일련의 명령이 이루어지는 것을 특징으로 한다.

또한, 본 발명에서 상기 음성인식수단은 상기 사용자의 음성인식기준모델을 학습하고 교정하기 위한 음성인식최적화 수단을 더 포함하되, 상기 음성인식최적화 수단은 사용자의 음성데이터로부터 새로운 음성 특징을 추출하고, 상기 추출된 음성특징으로부터 사용자에 맞는 통계적 음성모델을 추정하고, 상기 추정된 음성모델에 의하여 사용자의 음성의 기준음성 인식모델을 지속적으로 개선함으로써 사용자 음성인식 기준모델을 학습 및 교정하고, 상기 교정된 사용자음성인식 기준모델을 사용자음성데이터베이스 265에 저장하는 것을 특징으로 한다.

본 발명의 또 다른 특징으로는 컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치와 음성인식서비스시스템이 인터넷 등의 통신망에 의하여 상호 접속되어 상기 음성인식서비스시스템에서 상기 사용자 인터페이스에 음성인식서비스를 제공하는 음성인식서비스시스템에 있어서; 상기 사용자 인터페이스로부터 음성을 입력받아 사용자별로 음성을 저장하는 사용자 데이터베이스, 상기 사용자 데이터베이스에 저장된 정보로부터 다수의 사용자들의 음성데이터가 갖는 공통요소와 특징요소를 추출하여 저장하는 화자독립 데이터베이스 및 상기 화자독립 데이터베이스와 새로 입력되는 사용자의 음성데이터를 비교하여 새로 입력되는 사용자의 음성데이터를 인식하는 음성인식수단을 포함하는 한다.

본 발명의 또 다른 특징으로는 사용자가 음성을 입력하기 위한 컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치, 음성데이터를 인식하기 위한 수단을 구비하는 음성인식서비스시스템, 상기 사용자 인터페이스와 인터넷 등의 통신망에 의하여 상호 접속되고, 상기 인터페이스장치로부터 입력되는 음성데이터를 상기 음성인식서비스시스템에 전송하고, 상기 음성인식서비스시스템로부터 인식된 음성정보에 따라 동작되는 협약사이트를 포함한다.

본 발명의 또 다른 특징으로는 컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치, 상기 인터페이스 에 접속되고, 상기 인터페이스와 인터넷등 통신망에 접속되어 상기 인터페이스를 통하여 입력된 음성데이터에 포함되는 명령에 의해 구동되는 협약사이트 및 상기 음성데이터로부터 상기 명령을 인식하여 상기 협약사이트에 전송하는 음성인식서비스시스템에 있어서; 상기 사용자의 음성데이터를 저장하는 사용자별 음성데이터를 저장하는 사용자 데이터베이스, 상기 사용자 데이터베이스의 저장된 데이터베이스의 정보와 새로이 입력되는 음성데이터를 분석하여 음성데이터로부터 명령을 추출하는 음성인식수단을 포함한다.

본 발명의 또 다른 특징으로는 컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치, 상기 인터페이스 에 접속되고, 상기 인터페이스와 인터넷등 통신망에 접속되어 상기 인터페이스를 통하여 입력된 음성데이터에 포함되는 명령에 의해 구동되는 협약사이트 및 상기 협약사이트에서 음성데이터로부터 상기 명령을 추출할 수 있도록 정보를 전송하는 음성인식서비스시스템에 있어서, 상기 협약사이트로 전송되는 사용자의 음성데이터를 저장하고, 상기 협약사이트의 요청에 의해서 상기 사용자 데이터베이스를 상기 협약사이트에 전송할 정보가 저장되는 사용자 데이터베이스, 상기 사용자데이터베이스의 정보와 입력되는 음성데이터로부터 명령을 추출하도록 하는 음성인식수단을 포함하도록 함으로써, 상기 협약사이트의 요청에 의해서 상기 음성인식수단을 상기 협약사이트에 전송함으로써 상기 협약사이트에서 새로이 입력되는 사용자의 음성데이터의 명령을 추출하는 하도록 것이다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호로 표기되었음에 유의하여야 한다. 또한, 하기의 설명에서는 구체적인 회로의 구성소자 등과 같은 많은 특정사항들이 도시되어 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들 없이도 본 발명이 실시될 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

음성인식서비스시스템200은 음성데이터베이스와 음성인식시스템을 구비하고 있으며 협약사이트들400, 다양한 사용자들300과 유선, 무선의 인터넷망에 의해 연결되어진다. 사용자들300은 협약사이트들400을 경유하거나, 직접 음성인식서비스시스템200을 통하여 음성인식서비스를 받을 수 있다.

이때, 음성인식서비스는 다양한 형태로 이루어질 수 있다. 그 예로 특정 사용자300이 자신의 단말기에서 특정 쇼핑몰에 접속하여 특정 물품에 대하여 구매요청을 하는 경우에 키보드입력대신에 단말기에 연결된 마이크를 이용하여 음성을 입력함으로써 구매요청을 하고, 쇼핑몰에 음성이 입력되면 쇼핑몰에서는 음성인식서비스시스템200으로 이 음성신호를 전송하고, 음성인식서비스시스템200에서는 이 음성신호를 인식하여 문자변환한 후 쇼핑몰에 재전송하게되는 것이 그 일예이다. 또 다른 예로 사용자300은 직접 음성인식서비스시스템200에 접속하여 음성인식서비스시스템200에 접속하여 음성데이터를 입력하면, 음성인식서비스시스템200에서는 그 입력데이터를 문자변환하여 다시 사용자300에게 전송함으로써 사용자300은 특별히 자신의 음성인식시스템이 구비할 필요 없이 음성을 문자로 변환하는 서비스를 제공받을 수 있다.

도 1을 참조하여 본 발명의 일실시예의 음성인식서비스시스템의 역할을 설명하면, 사용자는 자신의 단말기(이하, 사용자는 항상 자신의 단말기를 이용하여 데이터를 입출력받으므로 이를 단순히 사용자300이라 함)에서 유, 무선 인터넷망 또는 기타의 통신망을 이용하여 음성인식서비스시스템200에 접속하여 음성 데이터를 입력하면(10), 음성인식서비스시스템에서는 이 음성데이터를 각각의 사용자별로 구분된 데이터베이스에 저장하고, 이 데이터베이스에 기 축적된 음성을 기반으로 입력된 음성데이터에 대하여 음성인식처리를 하여 사용자300에게 음성인식서비스를 제공한다(20). 또한, 사용자300은 쇼핑몰 등의 협약사이트400에 접속하여 음성데이터를 전송하면(30), 협약사이트400에서 음성인식서비스시스템200으로 상기 음성데이터를 재전송하고(40), 음성인식서비스시스템200에서는 이 음성데이터를 인식하여 인식결과를 협약사이트400에 전송함으써(50) 협약사이트에서는 소정의 처리를 수행하는 음성인식서비스를 사용자에게 제공한다(60). 또한 협약사이트400에서는 음성인식서비스시스템200으로부터 음성인식시스템을 제공받고(70), 사용자의 음성데이터가 전송되어져 올 때마다 음성인식서비스시스템200에 음성데이터베이스를 자료축적을 요구하고(80), 필요시 그 음성데이터베이스로부터 자료를 전송받아(90) 직접 입력된 음성데이터를 인식하도록 할 수 있다.

CPU 205, ROM 210, RAM 215, clock 220, 음성인식시스템 230, 지불프로세서 235, 오퍼레이팅 시스템 245를 구비하는 음성인식서비스시스템 200을 동작시키기 위해 개인 컴퓨터, 메인 프레임 컴퓨터 등 저장, 연산과정을 수행할 수 있는 제품들이 이용된다. 음성인식서비스시스템 200을 동작시키는 제품들은 인터넷상에서 웹서버로 이용되어지며 사용자들이 음성인식서비스시스템200을 통하여 유, 무선통신을 이용하여 음성인터넷을 이용하도록 도와준다. 음성인식서비스시스템 200은 대용량의 정보처리 능력을 갖고 있고 각각의 프로세스에서 수행하는 연산 및 데이터베이스서치, 저장, 제어, 정보처리 등을 주관한다. 중앙연산처리장치(CPU) 205는 인텔계열, AMD 계열, 알파계열, 모토롤라 계열 등의 펜티엄급 microprocessor를 이용한다. 음성인식시스템 230은 사용자가 음성으로 음성인식서비스시스템 200이 제공하는 인터넷을 이용할 때 사용자인터페이스 장치나, 이동통신기기로부터 입력되는 사용자의 음성데이터 처리, 음성인식, 인식결과 산출 등의 동작을 한다. 또한 협약사이트로부터 전송되는 협약사이트 사용자들의 음성데이터를 처리하는데 사용된다. 지불프로세서 235는 하나 또는 다수의 마이크로프로세서를 사용하여 지불금, 세금의 계산과 저장 처리과정을 돕는다. 세금이나 택배비 등을 합산하여 협약사이트가 카드, 지로, 계좌이체 등의 지불방식으로 계산을 하는 사항들을 처리한다. 이 프로세서는 카드번호, 계좌번호 등을 인터넷상에서 카드사나 은행의 홈뱅킹 또는 은행 계좌시스템에 연동되어 협약사이트 400이 음성인식서비스시스템의 음성인식시스템이나 음성데이터베이스 이용에 따른 지불 금액을 처리한다. 오퍼레이팅시스템 245는 인터넷음성인식서비스시스템 200의 여러 데이터 처리나 프로세서동작, 시스템동작을 원활히 수행하도록 체계를 잡아 음성인식서비스시스템 200의 각각의 동작사항에 대한 도움을 준다. 네트웍인터페이스 장치 250은 사용자 300, 음성인식서비스시스템 200, 협약사이트400, 이동통신 사업자간의 정보의 전달과 통신을 할 수 있는 시스템 장치이다. 이동통신 기기나 내, 외장 모뎀을 통하여 사용자 300은 음성인식서비스시스템 200에 접속한다. 음성인식서비스시스템 200의 네트웍 구성은 T1, T3, E1, T3 급과 그 이상의 광케이블 등으로 사용자 300에게 중계 서비스를 제공하고 사용자 300은 ADSL, ISDN, HDSL, 전용선, 전화선, 무선이동 통신망 등을 이용하여 직접 서버를 운영하거나, ISP사업자, 이동통신사업자 등을 이용하여 본 서비스에 접속한다. 네트웍 인터페이스는 이러한 인터넷이나 인트라넷, 유, 무선의 온라인망에 연결되어진다. 저장데이터베이스 255는 하드디스크, 자기디스크, CD-ROM 드라이버 등을 포함한다. 방식은 스카시 방식이나 IDE 방식, 이외의 다른 저장컨트롤 방식을 사용한다. 본 발명에서는 데이터의 저장 및 처리를 하기 위해 다양한 데이터베이스를 사용한다. 사용자 데이터 베이스 260 본 발명 사이트에 회원으로 가입한 사용자 300을 저장하며 각각의 필드에는 이름, 계정, 비밀번호, 나이, 주소, 주민등록번호, E-mail 주소, 관심사항, 직업, 학력, 전화번호 등을 기입하고 회원등록을 한 사항들을 저장한다. 사용자 계정 데이터 베이스 261은 사용자가 본 발명 사이트에 회원으로 등록한 시간, 계정과 비밀번호 정보 등을 저장한다. 각각의 필드에는 사용자 이름, 주민등록번호, 사용자 계정, 비밀번호 등이 저장된다. 이동통신번호 데이터베이스 262는 사용자가 음성인식서비스시스템 200에 이동통신시스템을 이용하여 음성인터넷을 행할 경우, 음성인식서비스시스템 200에 접속한 사용자의 이동통신번호와 음성을 통하여 회원로그인을 하고, 음성인터넷을 이용하도록 하는 사용자의 이동통신번호가 저장된다. 각각의 필드에는 사용자 이름, 사용자 계정, 이동통신번호, 비밀번호, 접속시간 등이 저장된다. 협약사이트 데이터베이스 263은 음성인식서비스시스템 200에 음성시스템이나 음성데이터베이스의 이용을 신청한 협약사이트 400들의 정보가 저장된다. 각각의 필드에는 협약사업자 명, 사업형태, 사업자등록번호, 담당자 이름, 협약번호, 시스템이용사항, 이용료 등이 저장된다. 화자독립음성 데이터베이스 264는 여러 사람이 공통적으로 음성인터넷을할 수 있도록 음성인식시스템에 제공되는 기준모델집합이 저장된다. 사용자음성 데이터베이스 265는 사용자들이 음성인터넷을 이용할 때, 음성인식서비스시스템200에서 최적화된 음성인터넷을 제공하기 위해 사용자 개개인별 음성의 특징에 따른 사용자음성인식기준모델들을 저장한다. 각각의 필드에는 사용자이름, 계정, 개개인별 음성인식기준모델 등이 저장된다. 지불데이터베이스 266은 협약사이트 400이 음성인식시스템 또는 음성데이터베이스에 대한 이용대금을 지불한 사항을 저장한다. 각각의 필드에는 협약사이트 명, 계정, 주소, 계좌번호, 카드번호, 담당자 명, 시간, 지불한 이용금액 등을 저장한다. 회계데이터 베이스 267 협약사이트가 음성인식시스템 또는 음성데이터베이스를 이용한 것에 대한 대금 정보를 저장한다. 각각의 필드에 납입한 이용료의 협약사이트 이름, 담당자 명, 계정, 지급수단의 정보, 날짜, 이용료 납입액수 등을 저장한다.

인터페이스 장치는 일반적으로 퍼스널 컴퓨터를 말하나, 여기서는 입력 장치(키보드, 마우스, 마이크, 조이스틱, 리모콘, 마이크 등), 디스플레이 장치(TV, 모니터, 액정화면 등), 프로세스 장치 (cpu), 그리고 모뎀을 이용한 퍼스널 컴퓨터와, 인터넷 TV, 네트웍게임기, 핸드폰, PCS 등의 모든 일련의 장치를 포함한다.

사용자 인터페이스 장치 300은 중앙연산처리장치 ( cpu) 330, 비디오 모니터 305, 비디오 드라이버 310, RAM 315, ROM 320, 사운드카드 325, 모뎀 335, 시간측정장치 340, 입력장치 345, 음성입력장치 350, 데이터 저장장치 355, CLOCK 360,스피커365가 포함된다.

이때, CLOCK 은 사용자 300의 모든 정보가 발생되는 시간을 생성하고 시간측정장치 345를 이용하여 측정한다. 모뎀 335는 사용자 300의 음성정보와 의견 등을 음성인식서비스시스템과 통신 할 때 사용한다. 음성입력장치는 사용자 300의 음성을 받아들이는 일련의 모든 장치를 의미한다. 사운드카드 325는 사용자의 음성이 음성입력장치로 들어오면 들어온 아날로그음성을 디지털음성으로 변환한다. 데이터 저장 장치 355는 플레시메모리, 광 정보저장장치, 하드디스크, 마그네틱 디스크, CD WRITER등을 사용하며, 사용자의 의견이나 반응을 저장한다.

CPU 405, ROM 410, RAM 415, clock 420, 오퍼레이팅 시스템 445, 협약사이트 400을 동작시키기 위해 개인 컴퓨터, 메인 프레임 컴퓨터 등 저장, 연산과정을 수행할 수 있는 제품들이 이용된다. 협약사이트 400을 동작시키는 제품들은 인터넷상에서 웹서버로 이용되어지며 사용자들에게 음성인터넷을 통하여 정보나, 컨텐츠 등을 제공하고 음성인식서비스시스템 200과의 음성데이터 협약처리 등을 한다.

협약사이트 400은 대용량의 정보처리 능력을 갖고 있고 각각의 프로세스에서 수행하는 연산 및 데이터베이스 서치, 저장, 제어, 정보처리, 사용자 음성데이터의 처리 또는 음성인식서비스시스템 200과의 연동 음성처리 등을 주관한다. 중앙연산처리장치(CPU) 405는 인텔계열, AMD 계열, 알파계열, 모토롤라 계열 등의 펜티엄급 microprocessor를 이용한다. 음성인식시스템 430은 협약사이트 400이 음성인식서비스시스템 200과 음성데이터베이스 이용협약을 하였을 경우, 사용자가 음성으로 협약사이트 400이 제공하는 인터넷을 이용할 때 사용자인터페이스 장치나, 이동통신기기로부터 입력되는 사용자의 음성데이터 처리, 음성인식서비스시스템 200의 음성데이터베이스를 이용한 음성인식, 인식결과 산출 등의 동작을 한다. 오퍼레이팅시스템 445는 협약사이트 400의 여러 데이터 처리나 프로세서동작, 시스템동작을 원활히 수행하도록 체계를 잡아 협약사이트 400의 각각의 동작사항에 대한 도움을 준다. 네트웍인터페이스 장치 450은 사용자 300, 협약사이트 400, 음성인식서비스시스템 200간의 음성정보의 전달과 통신을 할 수 있는 시스템 장치이다. 내, 외장 모뎀을 통하여 사용자 300은 협약사이트 400에 접속하여 음성인터넷 사이트를 이용한다. 저장데이터베이스 455는 하드디스크, 자기디스크, CD-ROM 드라이버 등을 포함한다. 방식은 스카시 방식이나 IDE 방식, 이외의 다른 저장컨트롤 방식을 사용한다. 협약사이트에서는 데이터의 저장 및 처리를 하기 위해 다양한 데이터베이스를 사용한다. 사용자 데이터 베이스 460 협약사이트에 회원으로 가입한 사용자 300을 저장하며 각각의 필드에는 이름, 계정, 비밀번호, 나이, 주소, 주민등록번호, E-mail 주소, 관심사항, 직업, 학력, 전화번호 등을 기입하고 회원등록을 한 사항들을 저장한다. 사용자 계정 데이터 베이스 461은 사용자가 협약사이트에 회원으로 등록한 시간, 계정과 비밀번호 정보 등을 저장한다. 각각의 필드에는 사용자 이름, 주민등록번호, 사용자 계정, 비밀번호 등이 저장된다. 이동통신번호 데이터베이스 462는 사용자가 협약사이트 400에 이동통신시스템을 이용하여 음성인터넷을 행할 경우, 협약사이트 400에 접속한 사용자의 이동통신번호와 음성을 통하여 회원로그인하여 음성인터넷을 이용하는 사용자의 이동통신번호가 저장된다. 각각의 필드에는 사용자 이름, 사용자 계정, 이동통신번호, 비밀번호, 접속시간 등이 저장된다. 회계데이터 베이스 467 협약사이트가 음성인식서비스시스템으로 음성시스템이용료 또는 음성데이터베이스 이용료 등의 납입한 대금 정보를 저장한다. 각각의 필드에 납입한, 지급수단의 정보, 날짜, 납입금 액수 등을 저장한다.

도 5 는 본 발명의 일실시예의 음성인식시스템에서 음성 인식하는 과정을 나타내기 위한 순서도이다.

일반적으로 음성인식시스템에서 이루어지는 음성인식이라는 의미는 적절한 음성입력 장치를 통한 음성입력을 전처리 단계를 거쳐 특징 파라미터로 변환된 후 미리 만들어 둔 표준 패턴과의 정합을 통해 인식하는 패턴인식의 한 분야로서 음성신호를 컴퓨터를 이용하여 음성의 의미를 추출하여 인지하는 것을 의미한다.

신호처리DSP(Digital Signal Processor) 또는 이에 해당하는 소프트웨어적인 알고리즘에서는 음성입력 장치를 통하여 입력된 신호로부터 음성구간만을 추출한다. 이때 사용되는 방법은 에너지, 영교차율, 자기상관계수, 예측계수, 그리고 예측 에러 에너지 등을 이용하는 일반적인 방법들이 존재한다(510). 음성구간이 검출된 후 음성은 특징 파라미터로 변환된다. 음성의 특징 파라미터로는 에너지, ZCR(Zero-Crossing Rate), pitch period, formant, short-time spectrum, filter-bank 출력, LPC( Linear Predictive Coding) 계수, cepstrum 계수 등이 사용되고 이들의 개선된 형태의 파라미터들과 새롭게 제안된 많은 파라미터들도 사용되고 있다. 또한, 인식의 단위로는 단어, 음절, 반음절과 음소 등이 사용되어 질 수 있으나, 음소 단위가 단어나 음절 단위보다 그 종류가 작고 음향적인 특성을 잘 나타낼수 있기 때문에 많이 사용한다.

본 실시예에서 음성구간이 검출되게되면, 검출된 음성으로부터 그 음성의 성질을 잘 표현해 주는 특징 벡터를 추출한다(520). 음성에 대하여 추출된 특징 벡터는 이미 저장된 화자독립음성 데이터베이스, 사용자음성 데이터베이스의 기준모델집합과 검출된 음성 신호 간의 유사도를 측정하여(530) 가장 가까운 기준 모델을 구하여 음성의 최종 인식을 결정을 얻는다(540). 그리고 인식된 결과의 타당성을 검증한 후 결과를 출력한다(550). 이때 본 실시예에서의 특징벡터의 추출 및 유사도측정은 HMM(Hidden Markov Model)방식을 이용한다.

HMM방식은 음성은 기본적으로 마코브 모델(Markov Model)로 모델링 될 수 있다는 가정하에, 각 단어의 발음상에 각종 변화 요인들이 존재하면, 그 변화요인들을 마코브 모델에 근거를 둔 통계적 기법으로 묘사하고 패턴 유사도를 측정하는 방법이다. 훈련과정(traning)에서 마코브모델의 확률적인 파라미터를 구하여 기준 마코브모델을 만들고 마코브 프로세스에서의 상태천이확률 및 출력 심볼 관찰 확률을 추정한 후, 인식과정에서는 입력음성과 가장 유사한 기준 마코브모델을 추정하여 음성을 인식하는 방식으로, 추정된 확률로부터 비터비 디코딩(Viterbi decoding)을 이용하여 인식단어를 결정하는 방식이다. 이것은 음성패턴의 다양한 변화를 수용 할 수 있다. 또한, 연속 음성인식 시스템 구축에 있어 음성 데이터베이스는 음성 인식기의 훈련과 평가, 최적화 작업이 반드시 필요하다. 이런 음성 데이터베이스 구축 작업은 많은 시간과 노력이 필요하다. 여기서 음성 데이터베이스는 음성인식기를 훈련시키는 데 필요할 뿐 아니라 구현된 음성인식기에 혹시 있을지도 모를 버그(bug)를 찾는데도 매우 유용함으로, 음성 데이터베이스와 음성 인식기는 서로 공생하는 관계를 맺을 수 있다.

도 6에 도시된 바와 같이, 초기화 과정에서는 추정할 HMM 파라미터의 초기화와 초기 코드북을 읽어 들이고, 훈련 데이터(훈련 음성 특징 벡터)를 VQ(Vector Quantization; 입력벡터를 코드북의 중심 벡터 중에서 가장 가까운 거리를 갖는 벡터를 찾는 것) 하는 과정 등이 수행한다(610). 초기음소분할 과정(620)은 초기의 각 음소에 대한 평균적인 길이를 할당한다. 즉 해당 발성의 길이를 총 음소 개수로 나눠 평균 길이를 구한 후 길이 만큼 씩 균일하게 할당하는 것이다. 초기 조건(정확하지 않은 세그멘테이션 정보)으로 훈련을 시작해도 훈련을 반복하다 보면 서서히 각 음소가 자신의 위치를 찾아가는 것을 보게 될 것이다. 훈련의 종료는 전체 훈련의 횟수로 한정하거나 각 음소의 발생 확률값을 이전에 훈련할 때 각 음소의 발생 확률값과 비교해 판단한다(630). 전향-후향 알고리즘(640)은 HMM수식에 나타난 알파와 베타값을 구하는 것이다. HMM 파라미터 측정(650)은 바움-웰츠 알고리즘을 사용하고 이 방법은 관찰 심볼열이 주어진 모델에서 최대의 확률값이 나오도록 모델 파라미터를 조절하는 것이라고 볼 수 있다. 여기서 천이 확률과 출력 확률을 구하기 위해 수식을 이용하여 천이 확률이나 출력 확률을 구한다. 출력 확률 밀도 함수의 파라미터는 학습 데이터의 양이 많을수록 보다 정확히 추정된다. 그리고 불충분한 학습 데이터는 출력 심볼의 발생 확률을 0으로 만들기도 한다. 이 값은 인식 과정 중에 관찰 심볼열이 발생할 확률을 0으로 만들기 때문에 인식을 못하는 원인이 된다. 따라서 바움-웰츠 재추정 시 HMM의 각 파라미터가 일정한 문턱값 이하로 내려가는 경우 일정한 문턱값을 대입시켜야 한다(660).

음성인식은 기준 패턴과 입력 패턴과의 유사도 측정이라고 할 수 있다. 적당한 기준 패턴을 어떻게 생성할 것인가. 기준 패턴을 입력 패턴과 어떤 기준에 의해 유사성을 측정할 것인가. 패턴 인식의 핵심은 이 두 가지라고 볼 수 있다.

음성인식에서 널리 사용되는 패턴 벡터양자화(VQ, Vector Quantization)는 입력 벡터를 코드북(codebook)의 중심 벡터(centroid)중에서 가장 가까운 거리를 갖는 벡터를 찾는 것을 말한다. 해당 영역에서 추출된 음성 특징 벡터를 유한한 수의 중심 벡터로 이뤄진 코드북에 대응되므로 코드북의 성능에 따라서 음성인식기의 성능이 좌우된다. 또한, 음성 인식에 벡터 양자화는 이산형 은닉 마코프 모델 (DHMM, Discrete Hidden Markov Model)이나 준 연속형 은닉 마코브 모델(SCHMM)이 사용된다(670), (680). 추정한 HMM 파라미터를 사용해 각 심볼이 어느 음소에 할당되는지를 비터비 알고리즘(Viterbi algorithm)을 이용해 찾아낸다(690). 이것은 주어진 심볼열이 해당 HMM 파라미터에서 어떤 상태에 속하는가를 알아내는 것으로 주어진 심볼열의 최대 발생 확률값을 찾는다. 여기서 구해진 각 음소의 발생 확률값은 재훈련 여부를 판단하는 기준이 된다. 만일 값이 미리 정해 놓은 일정한 문턱값을 넘으면 각 음소의 HMM 파라미터나 코드북 등을 저장하고 훈련을 종료한다. 훈련의 종료는 이런 방법 이외에도 훈련 횟수로 제한하는 방법도 있다.

상기 설명된 방법들은 본 실시예를 설명하기 위해 구현된 방식을 설명한 것이다. 상기 설명한 방법이외의 다른 알고리즘과 파라미터를 이용한 음성인식기의구현이 이루어 질 수도 있기에, 상기설명은 본 발명을 보다 상세히 설명하기 위해, 하나의 인식시스템을 구현한 예시일 뿐이다.

이동통신 기기700을 사용하여 사용자의 아날로그음성이 디지털로 변화된 후 CDMA, GSM, AMPS, 등의 변조방식으로 사용자의 음성데이터가 변조되어 전송되면

(710), 이동통신사업자720을 거쳐 전송된 사용자의 음성데이터는 변조된 방식에 맞게 디지털음성으로 복조 된다(730). 복조된 사용자의 디지털음성은 음성인식서비스시스템 200으로 입력되어(750) 협약사이트를 이동통신 인터넷으로 이용하게 된다.

사용자 300이 음성입력장치를 이용하여 자신의 음성을 음성인식서비스시스템 200에 입력하면(801), 음성인식서비스시스템200은 음성인식시스템 230을 이용하여 입력된 음성의 음성 구간을 나누고 음성의 특징을 추출한다(802). 추출된 음성의 특징과 기준모델집합 (화자독립음성데이터베이스 264, 사용자음성데이터베이스 265)에 있는 음성의 패턴을 비교, 분석하여(803), 입력된 음성이 무엇을 뜻하는 지를 인지한 후(804), 인지된 정보에 맞게 음성인식서비스시스템 200은 사용자의 음성입력 명령을 실행한다(805). 음성인식서비스시스템 200이 사용자의 음성을 인지하여 명령을 실행하면, 사용자는 음성명령을 통하여 사이트를 이용한다(806).

본 실시예에서, 협약사이트 사용자들이 협약사이트를 이용할 때, 협약사이트에 음성명령을 입력하면(807) 협약사이트 400은 사용자로부터 입력된 음성데이터를 음성인식서비스시스템 200에 전송하게 된다(808). 전송된 사용자들의 음성정보는802, 803, 804단계를 거쳐서 음성인식서비스시스템 200에서 음성정보가 인지되고, 음성인식서비스시스템 200은 협약사이트400으로부터 전송된 음성정보에 대한 인지정보를 협약사이트400으로 전송한다(809). 협약사이트 400은 음성인식서비스시스템 200으로부터 전송된 인지정보를 바탕으로 협약사이트를 사용자에게 서비스(명령실행)하고(810), 협약사이트 사용자들은 협약사이트 400에 음성명령을 통하여 사이트를 이용한다(811).

도 8에서 사용자 300들이 음성인식서비스시스템 200을 이용하는 방식은 상동하고, 협약사이트 사용자들이 음성입력하여 협약사이트 400을 이용하려고 할 시에, 협약사이트 400은 입력된 음성특징을 추출하여(901), 음성인식서비스시스템 200이 제공하는 기준모델집합(화자독립음성데이터베이스 264, 사용자데이터베이스265)을 이용하여 입력된 음성을 인지하고(902), 인지된 명령을 실행하여(903) 사용자들이 협약사이트 400을 음성입력을 통하여 이용할 수 있도록 한다.

사용자 300이 음성인식서비스시스템 200이 회원으로 가입하려 하면(1001), 음성인식서비스시스템 200은 음성을 이용하여 회원으로 가입할 수 있는 음성인식 회원가입폼을 사용자 300에게 전송한다(1002). 회원가입폼을 본 사용자 300은 회원가입폼에 나와있는 회원가입시 필요한 기입 내용들을 음성을 입력하는 방식으로 기입하고(1003) 입력된 아날로그 음성은 사용자인터페이스장치에 부착된 사운드 카드325를 통하여 디지털음성으로 변환된 후(1004), 음성인식서비스시스템 200으로 전송된다. 음성인식서비스시스템 200은 전송된 음성의 특징을 추출하여(1005) 화자독립음성데이터베이스 264의 기준모델집합과 추출된 음성특징의 유사도(패턴)를 측정한다(1006). 패턴인식을 통하여 입력된 음성의 최종 인식 결과를 결정하고(1007), 결정된 결과에 맞게 음성인식서비스시스템 200은 입력된 음성신호에 대한 단어 및 문장을 생성한다(1008). 생성된 인식결과는 speech to text 방식을 이용하여 text로 변환되어(1009) 사용자 300에게 회원기입폼에 기입된 결과를 보여준다(1010). 1005단계와 1007단계에서 사용자 300에 맞게 추출되고, 결정된 음성의 특징 모델은 사용자음성데이터베이스 265에 회원으로 가입한 사용자에 대한 기준모델집합으로 저장된다(1010).

사용자 300이 음성을 통하여 사용자 로그인 명령을 행하면(1100), 사운드카드 325는 사용자의 음성데이터를 디지털신호로 만들고 사용자 인터페이스장치를 통하여 음성데이터가 전송되면(1101), 음성인식서비스시스템 200은 전송된 음성의 특징을 추출하여(1103), 사용자음성데이터베이스 265의 회원들의 음성특징을 검색한 후, HMM화자식별알고리즘을 이용하여 회원판단을 한다(1104), (1105). 입력된 음성데이터가 회원의 음성이면 음성인식서비스시스템 200은 사용자 로그인을 허락하고(1106), 회원이 아니라고 인식되면 입력된 음성의 사용자를 접속 거부한다 (1107).

사용자 300이 1001, 1101, 1005, 1010단계들을 거쳐 생성된 사용자음성데이터베이스 265의 사용자별 기준모델집합은 사용자 300들이 사이트를 이용하면서

(1201), 사용자 300의 음성데이터를 계속적으로 전송하게 되면(1202), 음성인식서비스시스템 200은 전송된 음성데이터의 새로운 음성 특징을 추출하여(1203) 사용자에 맞는 통계적 음성특징을 추정하게 된다(1204). 추정된 음성모델은 사용자의 음성의 기준음성 인식모델을 지속적으로 개선하여(1205) 사용자 음성인식 기준모델의 학습 및 교정을 한다(1206). 교정된 사용자음성인식 기준모델은 사용자음성데이터베이스 265에 저장되어(1207) 음성인식서비스시스템 200은 기존의 기준모델집합을 지속적으로 사용자 300에 맞는 인식모델로 만들어 가는 과정을 수행하여, 사용자 음성인식 기준모델집합의 최적화 작업을 수행한다.

음성인식서비스시스템 200은 사용자음성데이터베이스 265에서 각각의 사용자에 따른 사용자음성인식 기준모델을 추출하여(1301) 어떤 사용자가 음성을 입력하여도 모든 음성명령을 인지할 수 있는 최적화 모델을 만들기 위해 추출한 사용자음성인식 기준모델을 평균화한다(1302). 기준모델을 평균화 한 후 음성인식서비스시스템 200은 음성에 대한 화자독립기준모델을 생성하고, 화자독립음성데이터베이스 264에 있는 화자독립기준모델을 개선 1304하여 화자독립음성데이터베이스 264에 개선된 기준모델을 저장한다(1304).

이와 같이, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범주에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

본 발명에 따르면, 각 사용자나 사이트 운영자는 음성인식을 위한 자신의 시스템을 구비할 필요 없이 독자적으로 운영되는 음성인식서비스시스템을 이용함으로써 편리하게 음성인식서비스를 제공받을 수 있으며, 개별적으로 운영되는 음성인식시스템을 구비하는 것보다 정교한 음성인식서비스를 음성인식서비스시스템을 통하여 제공받는 잇점이 있다. 특히, 음성인식서비스시스템에는 사용자자신의 음성 데이터베이스가 구축됨으로써 자신의 음성인식에 대한 높은 확률을 유지하고, 반복된 사용으로 음성인식확률을 높이게 되는 효과가 있으므로 결과적으로 음성인식서비스의 신뢰도를 높이게 된다.

Claims

컴퓨터나 휴대폰 등의 유, 무선의 사용자 인터페이스장치와 상호 접속되어 상기 인터페이스에 음성인식서비스를 제공하는 음성인식서비스시스템에 있어서;

상기 사용자 인터페이스로부터 음성을 입력받아 사용자별로 음성을 저장하는 사용자 데이터베이스;

상기 사용자 데이터베이스에 저장된 정보와 새로 입력되는 사용자의 음성데이터를 분석하여 상기 음성데이터를 인식하는 음성인식수단;

사용자의 음성데이터로부터 새로운 음성 특징을 추출하고, 상기 추출된 음성특징으로부터 사용자에 적합한 통계적 음성모델을 추정하며, 상기 추정된 음성모델에 의하여 사용자의 음성의 기준음성 인식모델을 지속적으로 개선함으로써 사용자 음성인식 기준모델을 학습 및 교정하고, 상기 교정된 사용자음성인식 기준모델을 사용자음성데이터베이스에 저장하여, 상기 사용자의 음성인식기준모델을 학습하고 교정하기 위한 음성인식최적화 수단을 포함하는 것을 특징으로 하는 음성인식서비스시스템.
제 1 항에 있어서; 상기 음성인식수단은

상기 음성데이터로부터 음성구간을 검출하고;

상기 검출된 음성으로부터 그 음성의 성질을 잘 표현해 주는 특징 벡터를 추출하고;

상기 특징 벡터와 기 저장된 데이터베이스의 기준모델집합과의 유사도를 측정하고 음성데이터의 최종인식을 이루는 것을 특징으로 하는 음성인식서비스시스템.
제 1 항에서; 상기 사용자의 음성데이터에는 명령이 포함됨으로써 상기 음성인식의 결과 일련의 명령이 이루어지는 것을 특징으로 하는 음성인식서비스 시스템.
삭제
삭제
삭제
컴퓨터나 휴대폰등의 유, 무선의 사용자 인터페이스장치, 상기 인터페이스 에 접속되고, 상기 인터페이스와 인터넷등 통신망에 접속되어 상기 인터페이스를 통하여 입력된 음성데이터에 포함되는 명령에 의해 구동되는 협약사이트 및 상기 음성데이터로부터 상기 명령을 인식하여 상기 협약사이트에 전송하는 음성인식서비스시스템에 있어서;

상기 사용자의 음성데이터를 저장하는 사용자 데이터베이스;

상기 사용자 데이터베이스의 저장된 데이터베이스의 정보와 새로이 입력되는 음성데이터를 분석하여 음성데이터로부터 명령을 추출하는 음성인식수단;

사용자의 음성데이터로부터 새로운 음성 특징을 추출하고, 상기 추출된 음성특징으로부터 사용자에 적합한 통계적 음성모델을 추정하며, 상기 추정된 음성모델에 의하여 사용자의 음성의 기준음성 인식모델을 지속적으로 개선함으로써 사용자 음성인식 기준모델을 학습 및 교정하고, 상기 교정된 사용자음성인식 기준모델을 사용자음성데이터베이스에 저장하여, 상기 사용자의 음성인식기준모델을 학습하고 교정하기 위한 음성인식최적화 수단을 포함하는 것을 특징으로 하는 음성인식서비스시스템.
제 7항에 있어서, 상기 사용자 데이터 베이스는 사용자마다 별도의 음성정보가 구축되는 것을 특징으로 하는 음성인식서비스시스템.
제 7항에 있어서, 상기 사용자 데이터베이스에 저장된 정보로부터 다수의 사용자들의 음성데이터가 갖는 공통요소와 특징요소를 추출하여 저장하는 화자독립 데이터베이스를 더 포함하고, 상기 협약사이트에서 새로이 입력되는 사용자의 음성데이터의 명령을 추출하는 것을 특징으로 음성인식서비스시스템.
제 7 항 내지 제 9 항 중 어느한 항에 있어서;

상기 음성인식수단은

상기 음성데이터로부터 음성구간을 검출하고;

상기 검출된 음성으로부터 그 음성의 성질을 잘 표현해 주는 특징 벡터를 추출하고;

상기 특징 벡터와 기 저장된 데이터베이스의 기준모델집합과의 유사도를 측정하고 음성데이터의 최종인식을 이루는 것을 특징으로 하는 음성인식서비스시스템.
제 7 항 내지 제 9 항 중 어느한 항에 있어서;

상기 사용자의 음성데이터에는 명령이 포함됨으로써 상기 음성인식의 결과 일련의 명령이 이루어지는 것을 특징으로 하는 음성인식서비스 시스템.
삭제
삭제
삭제