KR20040075447A

KR20040075447A - 이동통신 기반의 음성인식 시스템 및 방법

Info

Publication number: KR20040075447A
Application number: KR20030010946A
Authority: KR
Inventors: 김진영; 최승호
Original assignee: 대한민국(전남대학교총장)
Priority date: 2003-02-21
Filing date: 2003-02-21
Publication date: 2004-08-30

Abstract

본 발명은 이동통신 기반의 음성인식 시스템 및 방법에 관한 것으로, 클라이언트의 이동통신 단말기에서 음성특징 벡터를 추출하여 이를 데이터의 형태로 음성인식 서버로 전송하도록 구성하였다. 따라서, 본 발명을 이용하면, 통신환경 하에서 채널의 영향이 제거됨으로써, 음성특징 벡터의 추출과정이 잡음과 왜곡의 영향을 받지 않아 음성인식장치의 성능이 현저히 향상될 수 있으며, 이를 통해 음성인식 서비스에 대한 이용도를 높일 수 있다. 특히, 본 발명은, 잡음과 채널 왜곡에 대한 예측에 의해 신호 처리하는 과정이나 음성인식을 위한 합성 데이터베이스를 구성 시 채널 왜곡 특성을 고려하는 과정이 불필요하므로, 매우 간단한 구성으로 잡음과 왜곡을 완벽하게 제거한 음성인식 시스템을 구축할 수 있다.

Description

이동통신 기반의 음성인식 시스템 및 방법 {A system for speech recognition through mobile communication and method of the same}

본 발명은 이동통신 기반의 음성인식 시스템 및 방법에 관한 것으로, 보다 상세하게는 통신 채널에서 음성이 왜곡됨으로 인한 음성인식 성능의 저하를 방지하고 음성인식 성능을 향상시킬 수 있는 이동통신 기반의 음성인식 시스템 및 방법에 관한 것이다.

일반적으로, 통신환경 하에서 음성인식은, 통신 단말기를 통하여 서버로 음성을 전송하고, 서버에서는 입력된 음성을 분석하여 분석된 음성을 기준 패턴과 비교함에 의해 인식을 수행하며, 이 인식된 음성에 의해 그에 상응하는 서비스를 제공한다.

예컨대, 음성전화걸기(voice dialing)의 서비스에서는, 전화기를 들고, 음성으로 '아버지'라고 말을 하면, '아버지'라는 음성신호가 전화기로부터 전화국을 거쳐 음성인식 서버에 전송되고, 음성인식 서버에서 상기 전송되어온 음성을 인식하여 그에 따라 다이얼링을 해주게 된다.

도 1은 종래의 일반적인 통신환경 하에서의 음성인식 시스템의 개략도로서, 통신 단말기(1)로부터 이용자의 송화음성이 통신망의 교환기(2)를 매개로 음성인식 서버(3)로 전송되어, 음성인식 서버(3)에서 음성인식이 이루어지도록 이루어진 것으로, 이와 같은 구조의 음성인식 시스템을 흔히 stand-alone 구조라고 칭한다.

상기 음성인식 서버(3)에는 음성인식을 수행하는 음성인식 장치가 구비되어 있는데, 이러한 음성인식 장치는, 도 2에 도시된 바와 같이, 음성 끝점 검출부(10)와 음성특징 추출부(11)와 패턴정합부(12)와 단어모델 데이터베이스(13) 및 인정 결정부(14)를 포함하여 구성된다.

상기 음성 끝점 검출부(10)는 음성이 입력되면 음성신호가 존재하는 구간만을 탐색하여 묵음구간을 제거하고, 상기 음성특징 추출부(11)는 음성을 표현할 수 있는 특징벡터를 계산한다.

상기 패턴정합부(12)는 음성특징 추출부(11)로부터 입력되는 특징벡터 열을 단어모델 데이터베이스(13)에 저장되어 있는 단어모델과 비교하여 각 단어마다 정합확률 또는 거리를 구한다.

상기 인정 결정부(14)는 패턴정합부(12)로부터 구해진 각 단어별 확률 또는 거리가 제일 작은 단어를 선정하고 신뢰도 기법을 사용하여 인식된 단어가 실제 발성한 단어인지의 여부를 검증하여 그 결과를 출력한다.

그런데, 상기한 종래의 음성인식 시스템은, 통신단말기에서 교환기까지 전달되는 채널을 통과하는 과정에서 음성신호가 왜곡될 수 있다.

여기서, 음성신호를 왜곡시키는 요소는, 부가잡음과 콘볼루션(convolution) 왜곡 등인데, 상기 부가 잡음은 통신 채널에서 발생하거나 채널에 실린 잡음으로서 음성신호에 더하여진 것이고, 상기 콘볼루션 왜곡은 전달 채널의 특성이 주파수영역에서 일정(flat)하지 않기 때문에 스펙트럼(spectrum)이 찌그러지는 잡음을 일컫는다.

상기 부가 잡음과 콘볼루션 왜곡은 크게 2가지의 특성을 갖으며, 그 중 하나는 잡음의 양과 채널 전달함수를 정확하게 예측하기 어렵다는 점이고, 나머지 하나는 잡음과 채널 전달함수가 시간 및 장소에 따라 변화 즉, 시변(time varying)한다는 점이다.

따라서, 상기 부가 잡음과 음성신호의 왜곡은 음성인식장치의 성능을 현저히 저하시킴으로써 음성인식을 이용한 서비스를 제대로 수행할 수 없게 된다.

이를 해결하기 위해 종래에는, 음성인식장치의 전처리 과정에서 잡음과 채널 왜곡을 예측하여 신호처리기술로 제거하는 방안이 시도되었으나, 이는 실제 잡음과 채널 왜곡에 대한 예측이 쉽지 않다는 점과 비용과 처리시간을 증가시키는 문제점이 있었다.

다른 종래예로서, 음성인식을 위한 학습데이터를 실제 통신환경 하에서 광범위하게 수집하는 방안이 시도되었고, 이는 현재 통신환경 하에서 상기한 음성인식의 문제점을 해결하기 위해 가장 널리 사용되고 있으나, 데이터 베이스를 구축하는 데 막대한 비용과 인력 및 시간이 필요하다는 문제점이 있고, 왜곡 특성이 시변이라는 점을 감안할 때 왜곡을 완벽하게 제거할 수 없는 문제점이 있었다.

이에 본 발명은 상기한 종래기술의 문제점을 해소하기 위한 것으로, 음성인식 과정을 클라이언트 단말기와 서버 간에 분리시켜 클라이언트 단말기와 서버 간에 음성신호가 아닌 음성인식 데이터가 전송되도록 함으로써, 간단한 구조로서 비용과 처리시간의 증가 없이 부가잡음과 왜곡을 완벽하게 제거하여 음성인식률을 현저히 향상시킬 수 있는 이동통신 기반의 음성인식 시스템 및 방법을 제공하는 데 그 목적이 있다.

도 1은 종래의 일반적인 통신환경 하에서의 음성인식 시스템의 개략도,

도 2는 도 1의 음성인식 서버에 구비된 음성인식 장치의 개략적인 블록구성도,

도 3은 본 발명의 바람직한 실시예에 따른 이동통신 기반의 음성인식 시스템의 개략도,

도 4는 도 3에 도시된 이동통신 단말기의 구조에 대한 제1 실시예를 도시한 개략적인 블록구성도,

도 5는 도 3에 도시된 이동통신 단말기의 구조에 대한 제2 실시예를 도시한 개략적인 블록구성도,

도 6는 도 5에 도시된 이동통신 단말기의 동작과정을 설명하기 위한 플로우차트,

도 7은 도 5에 도시된 이동통신 단말기의 다른 실시예에 따른 동작과정을 설명하기 위한 플로우차트.

<도면의 주요 부분에 대한 부호의 설명>

100: 이동통신 단말기 110: 마이크로폰

112: 스피커 120: 음성인식 전처리수단

122: 음성 끝점 검출부 124: 음성 특징 추출부

130: 무선 송수신부 140: 키입력부

142: 표시부 150: 제어부

152: 메모리 200: 교환기

300: 음성인식 서버 310: 음성인식 후처리수단

311: 패턴 정합부 312: 단어모델 데이터베이스

313: 인정 결정부

상기 목적을 달성하기 위한 본 발명에 따른 이동통신 기반의 음성인식 시스템은, 송화 음성의 음성인식을 위한 끝점 검출 및 특징추출의 전처리 과정을 수행하는 음성인식 전처리수단을 포함하는 이동통신 단말기와, 상기 이동통신 단말기로부터 음성의 특징 벡터를 수신받아 패턴정합과 인정 결정에 의해 음성인식을 수행하고 그 수행된 인식결과를 출력하는 음성인식 후처리수단을 포함하는 음성인식 서버 및, 상기 이동통신 단말기와 상기 음성인식 서버간의 통신을 매개하는 통신망을 포함하여 구성된 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명에 따른 이동통신 기반의 음성인식 방법은, 이용자가 입력한 전화번호에 의해 이동통신 단말기가 통신망을 매개로 음성인식 서버에 접속하는 스텝과, 상기 이동통신 단말기가 이용자의 송화음성에 대해 끝점 검출 및 특징추출의 전처리 과정을 수행하고 추출된 음성 특징 벡터 데이터를 상기 통신망을 매개로 상기 음성인식 서버로 전송하는 스텝과, 상기 음성인식 서버는 상기 이동통신 단말기로부터 수신받은 음성 특징 벡터 데이터에 대해 패턴정합과 인정 결정에 의해 음성인식을 수행하고 그 수행된 인식결과를 출력하는 스텝을 포함하여 이루어진 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 3은 본 발명의 바람직한 실시예에 따른 이동통신 기반의 음성인식 시스템의 개략도로서, 동도면을 참조하면 알 수 있듯이, 본 발명에 따른 이동통신 기반의 음성인식 시스템은, 음성인식 전처리수단(120)을 구비한 이동통신 단말기(100)와 교환기(200)와 음성인식 서버(300)를 포함하여 구성된다.

상기 이동통신 단말기(100)는, 도 4에 도시된 바와 같이, 마이크로폰(110)과 스피커(112)와 음성 입출력부(114)와 음성인식 전처리수단(120)과 무선송수신부(130)와 키입력부(140)와 표시부(142)와 제어부(150) 및 메모리(152)로 구성된다.

상기 마이크로폰(110)은 이용자의 송화음성을 전기적인 음성신호로 변환하여 음성 입출력부(114)로 입력하고, 상기 스피커(112)는 음성 입출력부(114)로부터 출력되는 수화음성을 가청주파수의 음성신호로 변환하여 출력한다.

상기 음성 입출력부(114)는 제어부(150)의 제어에 따라 상기 마이크로폰(110)으로부터 입력되는 송화 음성신호를 음성인식 전처리 수단(120) 및 무선송수신부(130)로 전송하고 무선송수신부(130)로부터 수신되는 수화 음성신호를 스피커(112)로 출력한다.

상기 음성인식 전(前)처리수단(120)은, 음성 끝점 검출부(122)와 음성특징 추출부(124)를 포함하며, 상기 음성 끝점 검출부(122)는 음성 입출력부(1140)로부터 입력되는 음성신호가 존재하는 구간만을 탐색하여 묵음구간을 제거하고, 상기 음성특징 추출부(124)는 음성을 표현할 수 있는 특징벡터를 계산하여 이 음성 특징벡터에 대한 데이터를 무선 송수신부(130)로 전송한다.

상기 무선 송수신부(130)는 음성 입출력부(114)로부터 입력받은 송화 음성신호와 음성인식 전처리수단(120)으로부터 입력받은 음성특징 벡터 데이터 및 제어부(150)로부터 입력받은 송신 데이터 등을 무선주파수신호로 변환하여 송신하고 수신된 무선주파수신호로부터 수화 음성신호와 수신 데이터를 추출변환하여 음성 입출력부 (114) 및 제어부(150)로 인가한다.

상기 키입력부(140)는 전화번호와 각종 선택 기능과 통화 연결 및 종료 등을 선택 입력하는 다수의 키를 구비하고 이용자가 각 키를 조작하면 그에 상응하는 키신호를 발생하여 제어부(150)로 입력하고, 상기 표시부(142)는 제어부(150)의 제어에 따라 전화번호와 문자메시지 및 선택 기능 등과 같은 각종의 정보를 표시한다.

상기 제어부(150)는 키입력부(140)로부터 입력되는 키신호에 따라 이동통신 단말기의 각 구성부를 제어하며, 메모리(152)는 이동통신 단말기(100)의 구동에 필요한 소프트웨어와 이용자가 입력한 정보(전화번호 등)와 제어부(150)의 제어 연산 처리결과에 따라 발생한 데이터 및 무선 송수신부(130)로부터 입력받은 수신 데이터 등을 저장한다.

상기 교환기(200)는 이동통신망과 유선 통신망의 교환기를 포함한 것으로,이동통신 단말기(100)와 음성인식 서버(300) 간의 호접속과 통화 및 데이터 전송을 매개한다.

상기 음성인식 서버(300)는 음성인식 후처리수단(310)을 포함하고 이 음성인식 후처리수단(31)에 의한 음성인식 수행결과에 따라 그에 상응하는 서비스를 이용자에게 제공한다.

상기 음성인식 후(後)처리수단(310)은 패턴 정합부(311)와 단어모델 데이터베이스(312)와 인정 결정부(313)를 포함하여 구성된다.

상기 패턴정합부(311)는 이동통신 단말기(100)로부터 수신되는 특징벡터 열을 단어모델 데이터베이스(312)에 저장되어 있는 단어모델과 비교하여 각 단어마다 정합확률 또는 거리를 구한다.

상기 인정 결정부(313)는 패턴정합부(311)로부터 구해진 각 단어별 확률 또는 거리가 제일 작은 단어를 선정하고 신뢰도 기법을 사용하여 인식된 단어가 실제 발성한 단어인지의 여부를 검증하여 그 결과를 출력한다.

이제 상기와 같이 구성된 본 발명의 동작과정을 첨부된 도면을 참조하여 상세히 설명하기로 한다.

이용자가 키 입력부(140)를 통해 음성인식 서버(300)에 접속하기 위한 전화번호(이하, "음성인식 서비스번호" 라 한다)를 입력하면, 제어부(150)는 무선 송수신부(130)를 제어하여 이동통신 단말기(100)가 교환기(200)를 매개로 음성 인식 서버(300)에 접속하도록 한다.

이 상태에서 이용자가 이동통신 단말기(100)의 마이크로폰(110)을 통해 음성을 입력하면, 이 입력된 음성은 마이크로폰(110)을 통해 전기적인 음성신호로 변환되어 음성 입출력부(114)를 통해 음성인식 전처리수단(120)으로 입력된다.

음성 입출력부(114)로부터 입력되는 음성신호는 음성 끝점 검출부(122)에 의해 묵음구간이 제거되어 음성특징 추출부(124)로 인가되고, 음성특징 추출부(124)에서는 상기 묵음구간이 제거된 음성신호에서 음성을 표현할 수 있는 특징벡터를 계산하여 이 음성 특징벡터에 대한 데이터를 무선 송수신부(130)로 인가한다.

상기 음성특징 추출부(124)로부터 인가된 음성 특징벡터 데이터는 무선 송수신부(130)에서 무선주파수신호로 변환되어 교환기(200)를 매개로 음성인식 서버(300)로 전송된다.

상기 음성인식 서버(300)로 전송되어온 음성 특징벡터 데이터는 음성인식 후처리수단(310)으로 입력되고, 패턴정합부(311)는 이동통신 단말기(100)로부터 수신되는 특징벡터 열을 단어모델 데이터베이스(312)에 저장되어 있는 단어모델과 비교하여 각 단어마다 정합확률 또는 거리를 구한다.

상기 인정 결정부(313)는 상기 패턴정합부(311)에 의해 구해진 각 단어별 확률 또는 거리가 제일 작은 단어를 선정하고 신뢰도 기법을 사용하여 인식된 단어가 실제 발성한 단어인지의 여부를 검증하여 그 결과를 출력한다.

음성인식 서버(300)는 상기 인정 결정부(313)로부터 출력된 음성인식 결과에 상응하는 서비스(예컨대, 정보의 전송, 음성인식 다이얼링 등)를 이용자에게 제공한다.

한편, 도 5는 도 3에 도시된 이동통신 단말기의 구조에 대한 제2 실시예를도시한 개략적인 블록구성도, 동도면을 참조하면 알 수 있듯이, 마이크로폰(110)과 스피커(112)와 음성 입출력부(114)와 음성인식 전처리수단(120)과 무선송수신부(130)와 키입력부(140)와 표시부(142)와 신호절환부(160)와 제어부(170) 및 메모리(172)로 구성된다.

여기서, 도 4에 도시된 제1 실시예의 구성과 동일한 기능 및 동작을 수행하는 구성요소에 대해서는 동일한 참조부호를 부여하였으며, 중복된 기재를 피하고자 참조부호가 동일한 구성요소에 대해서는 그 구체적인 설명은 생략하기로 한다.

즉, 제2 실시예의 이동통신 단말기는 도 4에 도시된 제1 실시예와 비교하여 신호절환부(160)가 추가되었고, 제어부(170)의 연산 처리 과정과 메모리(172)에 저장되는 데이터가 추가된 점만이 다를 뿐 나머지 구성은 동일하다.

상기 신호절환부(160)는 제어부(170)로부터 인가되는 제어신호에 따라 음성입출력부(114)로부터 인가되는 이용자의 송화 음성신호와 음성인식 전처리수단(120)으로부터 인가되는 음성특징 벡터 데이터를 선택 절환하여 무선 송수신부(130)로 인가한다.

상기 제어부(170)는, 키입력부(140)로부터 입력되는 키신호에 따라 이동통신 단말기의 각 구성부를 제어하되, 키입력부(140)로부터 입력되는 전화번호를 메모리(172)에 저장되어 있는 음성인식 서비스번호와 비교하여 입력 전화번호가 음성인식 서비스번호이면 음성 특징 벡터 데이터가 무선 송수신부(130)로 인가되도록 하는 반면 입력 전화번호가 일반 전화번호이면 이용자의 송화 음성이 무선 송수신부(130)로 인가되도록 신호 절환부(160)를 제어한다.

상기 메모리(172)는 이동통신 단말기(100)의 구동에 필요한 소프트웨어와 이용자가 입력한 정보(전화번호 등)와 제어부(170)의 제어 연산 처리결과에 따라 발생한 데이터 및 무선 송수신부(130)로부터 입력받은 수신 데이터 등과 더불어, 음성인식 서비스번호를 저장한다. 예컨대, 상기 음성인식 서비스번호는 이용자에 의해 임의로 설정되거나 이동통신 단말기(100)의 제조 시에 등록될 수 있으며, 단수개이거나 복수개일 수 있다.

이제 상기와 같이 구성된 본 발명의 제2 실시예에 따른 이동통신 단말기의 동작과정에 대해 도 6의 플로우챠트를 참조하여 상세히 설명하기로 한다.

이용자가 키 입력부(140)를 통해 전화번호를 입력하면, 제어부(170)는 이를 인식하여(S10), 입력된 전화번호를 메모리(172)에 저장되어 있는 음성인식 서비스 번호와 비교하여(S20), 양자가 일치하는지를 판단한다(S30).

상기 스텝(S30)에서의 판단결과 입력된 전화번호가 음성인식 서비스번호이면, 제어부(170)는 무선 송수신부(130)를 제어하여 상기 음성인식 서비스번호에 따라 음성인식 서버(300)에 호접속함과 더불어, 음성인식 전처리수단(120)이 작동되도록 제어하고 음성인식 전처리수단(120)으로부터 출력되는 음성특징 벡터 데이터가 무선 송수신부(130)로 인가되도록 신호 절환부(160)를 제어한다(S40).

음성 입출력부(114)로부터 입력되는 음성신호는 음성 끝점 검출부(122)에 의해 묵음구간이 제거되어 음성특징 추출부(124)로 인가되고(S50), 음성특징 추출부(124)에서는 상기 묵음구간이 제거된 음성신호에서 음성을 표현할 수 있는 특징벡터를 계산하여 이 음성 특징벡터에 대한 데이터를 출력한다(S60).

상기 음성특징 추출부(124)로부터 출력된 음성특징 벡터 데이터는 신호 절환부(160)를 통해 무선 송수신부(130)로 인가되고, 무선 송수신부(130)에서 무선주파수신호로 변환되어 교환기(200)를 매개로 음성인식 서버(300)로 전송된다(S70).

만약, 상기 스텝(S30)에서의 판단결과 입력된 전화번호가 음성인식 서비스번호가 아닌 일반 전화번호이면, 제어부(170)는 무선 송수신부(130)를 제어하여 입력된 전화번호로 호접속함과 더불어, 음성인식 전처리수단(120)이 작동되지 않도록 제어하고 음성 입출력부(114)로부터 출력되는 송화 음성신호가 무선 송수신부(130)로 인가되도록 신호 절환부(160)를 제어한다(S80).

이 상태에서 이용자가 이동통신 단말기(100)의 마이크로폰(110)을 통해 음성을 입력하면, 이 입력된 음성은 마이크로폰(110)을 통해 전기적인 음성신호로 변환되어 음성 입출력부(114)와 신호 절환부(160)를 통해 무선 송수신부(130)로 인가되고, 무선 송수신부(130)에서 무선주파수신호로 변환되어 송신된다.

이상에서 설명한 바와 같이 제2 실시예의 이동통신 단말기는, 음성인식 서버에 접속하는 경우에만 음성인식 전처리수단이 동작되어 음성인식 벡터 데이터가 송신되도록 하고, 다른 전화번호로 전화를 거는 경우에는 음성인식 전처리수단의 동작이 중지되는 대신 이용자의 송화음성 만이 송신되도록 함으로써, 음성인식 전처리수단이 불필요한 경우에도 작동되는 것을 방지할 수 있다.

특히, 상기한 제2 실시예의 이동통신 단말기는, 통신 시스템의 프로토콜 구조 상 송화음성과 음성인식 벡터 데이터가 동시에 전송되는 것이 어려운 환경일 경우에 유용하다.

다른 한편, 도 7은 도 5에 도시된 이동통신 단말기의 다른 실시예에 따른 동작과정을 설명하기 위한 플로우차트로서, 동도면의 플로우챠트는, 간단히 키입력부의 기능키를 조작함에 의해 음성의 송신과 음성특징 벡터 데이터를 선택 절환하여 송신할 수 있도록 구성한 것으로, 이에 대해 설명하면 다음과 같다.

도 7에 있어서, 이용자가 키입력부(140)를 통해 음성인식 서비스 번호를 입력하면 제어부(170)는 무선 송수신부(130)를 제어하여 상기 음성인식 서비스번호에 따라 음성인식 서버(300)에 호접속한다(S110).

다음, 제어부(170)는 키입력부(140)에 구비된 다수의 기능키 중 특별히 지정된 음성인식 키가 온(on) 되는지를 체크하여(S120), 음성인식 키가 온(on) 되었으면 음성인식 전처리수단(120)이 작동되도록 제어하고 음성인식 전처리수단(120)으로부터 출력되는 음성특징 벡터 데이터가 무선 송수신부(130)로 인가되도록 신호 절환부(160)를 제어한다.

음성 입출력부(114)로부터 입력되는 음성신호는 음성 끝점 검출부(122)에 의해 묵음구간이 제거되어 음성특징 추출부(124)로 인가되고(S130), 음성특징 추출부(124)에서는 상기 묵음구간이 제거된 음성신호에서 음성을 표현할 수 있는 특징벡터를 계산하여 이 음성 특징벡터에 대한 데이터를 출력한다(S140).

상기 음성특징 추출부(124)로부터 출력된 음성특징 벡터 데이터는 신호 절환부(160)를 통해 무선 송수신부(130)로 인가되고, 무선 송수신부(130)에서 무선주파수신호로 변환되어 교환기(200)를 매개로 음성인식 서버(300)로 전송된다(S150).

다음, 제어부(S160)는 키입력부(140)의 기능키 중 통화종료 키가 조작되었거나 상대방과의 호접속이 중단되었는지를 판단하여(S160), 판단결과 통화종료 키가 조작되지 않았고 상대방과의 호접속이 유지되고 있는 상태로 판단되면 상기 스텝(S120)으로 되돌아간다.

만약, 되돌아간 상기 스텝(S120)에서 체크결과 키입력부(140)의 음성인식 키가 오프(off) 상태이면, 제어부(170)는 음성인식 전처리수단(120)이 작동되지 않도록 제어하고 음성 입출력부(114)로부터 출력되는 송화 음성신호가 무선 송수신부(130)로 인가되도록 신호 절환부(160)를 제어한다.

이 상태에서 이용자가 이동통신 단말기(100)의 마이크로폰(110)을 통해 음성을 입력하면, 이 입력된 음성은 마이크로폰(110)을 통해 전기적인 음성신호로 변환되어 음성 입출력부(114)와 신호 절환부(160)를 통해 무선 송수신부(130)로 인가되고, 무선 송수신부(130)에서 무선주파수신호로 변환되어 송신된다(S170).

다음, 제어부(S160)는 키입력부(140)의 기능키 중 통화종료 키가 조작되었거나 상대방과의 호접속이 중단되었는지를 판단하여(S160), 판단결과 키입력부(140)의 기능키 중 통화종료 키가 조작되었거나 상대방과의 호접속이 중단되었으면, 무선 송수신부(130)를 제어하여 통화를 종료한다.

참고적으로, 이용자가 음성인식 서비스 번호가 아닌 일반 전화번호를 입력하는 경우의 동작과정도 상기와 동일하다.

이상에서 설명한 바와 같은 제2 실시예의 이동통신 단말기에 대한 다른 실시예의 동작과정에 따르면, 이용자가 입력한 전화번호에 관계없이, 간단히 키입력부의 기능키를 조작함에 의해 음성의 송신과 음성특징 벡터 데이터를 선택 절환하여 송신할 수 있으므로, 특히, 음성인식 서버에서 음성인식 다이얼링 서비스를 제공하는 경우에 매우 유용하다.

상기에서 본 발명은 특정 실시예를 예시하여 설명하지만 본 발명이 상기 실시예에 한정되는 것은 아니다. 당업자는 본 발명에 대한 다양한 변형, 수정을 용이하게 만들 수 있으며, 이러한 변형 또는 수정이 본 발명의 특징을 이용하는 한 본 발명의 범위에 포함된다는 것을 명심해야 한다.

상술한 바와 같이 본 발명은, 클라이언트의 이동통신 단말기에서 음성특징 벡터를 추출하여 이를 데이터의 형태로 음성인식 서버로 전송하도록 구성하였다. 따라서, 본 발명을 이용하면, 통신환경 하에서 채널의 영향이 제거됨으로써, 음성특징 벡터의 추출과정이 잡음과 왜곡의 영향을 받지 않아 음성인식장치의 성능이 현저히 향상될 수 있으며, 이를 통해 음성인식 서비스에 대한 이용도를 높일 수 있는 효과가 있다.

특히, 본 발명은, 잡음과 채널 왜곡에 대한 예측에 의해 신호 처리하는 과정이나 음성인식을 위한 합성 데이터베이스를 구성 시 채널 왜곡 특성을 고려하는 과정이 불필요하므로, 매우 간단한 구성으로 잡음과 왜곡을 완벽하게 제거한 음성인식 시스템을 구축할 수 있는 효과가 있다.

Claims

송화 음성의 음성인식을 위한 끝점 검출 및 특징추출의 전처리 과정을 수행하는 음성인식 전처리수단을 포함하는 이동통신 단말기와,

상기 이동통신 단말기로부터 음성의 특징 벡터를 수신받아 패턴정합과 인정 결정에 의해 음성인식을 수행하고 그 수행된 인식결과를 출력하는 음성인식 후처리수단을 포함하는 음성인식 서버 및,

상기 이동통신 단말기와 상기 음성인식 서버간의 통신을 매개하는 통신망을 포함하여 구성된 것을 특징으로 하는 이동통신 기반의 음성인식 시스템.
제 1 항에 있어서, 상기 이동통신 단말기는, 상기 음성인식 전처리수단과,

이용자의 송화음성을 입력받아 이를 전기적인 신호로 변환하여 상기 음성인식 전처리수단으로 인가하는 음성 입력수단과,

상기 음성인식 전처리수단으로부터 출력되는 음성특징 벡터 데이터를 무선주파수 신호로 변환하여 상기 음성인식 서버로 송신하는 무선 송수신부와,

전화번호와 각종 선택 기능과 통화 연결 및 종료 등을 선택 입력하는 키 입력부와,

상기 키 입력부로부터 입력되는 키신호에 따라 상기 이동통신 단말기의 각 구성부를 제어하는 제어부를 포함하여 구성된 것을 특징으로 하는 이동통신 기반의 음성인식 시스템.
제 2 항에 있어서, 상기 이동통신 단말기는, 상기 음성 입력수단으로부터 출력되는 이용자의 송화음성과 상기 음성인식 전처리 수단으로부터 출력되는 음성 특징 벡터 데이터를 선택 절환하여 상기 무선 송수신부로 인가하는 신호 절환부를 더 포함하여 구성되고,

상기 제어부는 상기 키입력부로부터 입력되는 전화번호가 미리 설정된 음성인식 서비스번호이면 상기 음성 특징 벡터 데이터가 상기 무선 송수신부로 인가되도록 하는 반면 입력된 전화번호가 일반 전화번호이면 상기 송화음성이 상기 무선 송수신부로 인가되도록 상기 신호 절환부를 제어하도록 구성된 것을 특징으로 하는 이동통신 기반의 음성인식 시스템.
제 2 항에 있어서, 상기 이동통신 단말기는, 상기 음성 입력수단으로부터 출력되는 이용자의 송화음성과 상기 음성인식 전처리 수단으로부터 출력되는 음성 특징 벡터 데이터를 선택 절환하여 상기 무선 송수신부로 인가하는 신호 절환부를 더 포함하여 구성되고,

상기 제어부는 상기 키입력부로부터 미리 설정된 음성인식 키신호가 입력되는 동안에는 상기 음성 특징 벡터 데이터가 상기 무선 송수신부로 인가되도록 하는 반면 상기 음성인식 키신호가 입력되지 않으면 상기 송화음성이 상기 무선 송수신부로 인가되도록 상기 신호 절환부를 제어하도록 구성된 것을 특징으로 하는 이동통신 기반의 음성인식 시스템.
이용자가 입력한 전화번호에 의해 이동통신 단말기가 통신망을 매개로 음성인식 서버에 접속하는 스텝과,

상기 이동통신 단말기가 이용자의 송화음성에 대해 끝점 검출 및 특징추출의 전처리 과정을 수행하고 추출된 음성 특징 벡터 데이터를 상기 통신망을 매개로 상기 음성인식 서버로 전송하는 스텝과,

상기 음성인식 서버는 상기 이동통신 단말기로부터 수신받은 음성 특징 벡터 데이터에 대해 패턴정합과 인정 결정에 의해 음성인식을 수행하고 그 수행된 인식결과를 출력하는 스텝을 포함하여 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.
제 5 항에 있어서, 상기 이동통신 단말기가 이용자로부터 입력된 전화번호를 미리 설정된 미리 설정된 음성인식 서비스번호와 비교하는 스텝을 더 포함하고,

상기 비교 스텝에서의 비교결과 이용자로부터 입력된 전화번호가 상기 음성인식 서비스번호와 일치하면 상기 이동통신 단말기가 상기 음성 특징 벡터 데이터만을 상기 음성인식 서버로 전송하는 반면, 일치하지 않으면 이용자의 송화음성만을 전송하도록 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.
제 5 항에 있어서, 상기 이동통신 단말기가 이용자로부터 음성인식 키신호가 입력되는지를 체크하는 스텝을 더 포함하고,

음성인식 키신호가 입력되는 동안에는 상기 이동통신 단말기가 상기 음성 특징 벡터 데이터만을 상기 음성인식 서버로 전송하는 반면, 일치하지 않으면 이용자의 송화음성만을 전송하도록 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.
제 5 항에 있어서, 상기 이동통신 단말기가 이용자의 송화음성과 상기 음성 특징 벡터 데이터를 모두 전송하도록 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.
제 5 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 음성인식 서버는, 상기 음성인식 결과에 따라 그에 상응하는 정보를 상기 통신망을 매개로 상기 이동통신 단말기로 전송하는 스텝을 더 포함하여 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.
제 5 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 음성인식 서버는, 상기 음성인식 결과에 따라 그에 상응하는 미리 설정된 전화번호로 상기 이동통신 단말기와의 호접속을 매개하는 음성인식 자동 다이얼링 스텝을 더 포함하여 이루어진 것을 특징으로 하는 이동통신 기반의 음성인식 방법.