KR20060022490A

KR20060022490A - 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기

Info

Publication number: KR20060022490A
Application number: KR1020040071327A
Authority: KR
Inventors: 김찬우
Original assignee: 엘지전자 주식회사
Priority date: 2004-09-07
Filing date: 2004-09-07
Publication date: 2006-03-10
Also published as: JP2006079089A; US20060053011A1; EP1632934A1; CN1797542B; ATE370494T1; KR100640893B1; DE602005001995T2; DE602005001995D1; US7593853B2; EP1632934B1; CN1797542A

Abstract

본 발명은 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 보다 구체적으로는, 음성 인식율을 높일 수 있고, 연산량이나 전력 소비의 면에서 경제적인 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은, 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec); 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하여 구성됨을 특징으로 한다.

음성 인식, 오디오 코덱, 베이스밴드 모뎀, PCM, 특징 벡터, 보코더

Description

음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기{Baseband modem and mobile terminal for voice recognition}

도1a는 종래기술에 따른 이동통신 단말기용 베이스밴드 모뎀의 구성도임.

도1b는 도1a에 도시된 베이스밴드 모뎀을 통한 음성 인식 과정을 설명한 절차 흐름도임.

도2는 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀의 바람직한 일 실시예의 블록 구성도임.

<도면 주요부호의 설명>

21 마이크 22 오디오 코덱

23 버퍼 24 특징 벡터 추출부

25 특징 벡터 저장부 26 음성 인식부

27 제어부 28 보코더

본 발명은 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 보다 구체적으로는, 음성 인식율을 높일 수 있고, 연산량이나 전력 소비의 면 에서 경제적인 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다.

최근의 경향을 보면 베이스밴드 모뎀(baseband modem)에 오디오 코덱(audio codec)을 포함하고 있다. MSM5500과 같은 모뎀의 경우는 8 kHz 음성 샘플(speech sample)이 이미 코딩된 것만 얻을 수 있고, 이 후에 나온 MSM6500과 같은 모뎀의 경우는 8 kHz, 16 kHz 마이크 입력을 모두 지원하고 있다. 종래의 음성 인식 방법을 단말에 적용하는 경우는 대부분 음성 통화를 위한 보코딩(vocoding)을 하는 경우와 음성 인식을 하기 위한 경우에 동일한 샘플링 레이트(sampling rate)로 된 음성에 대해서 처리를 하였다. 이는 16 kHz 마이크 입력을 지원하는 베이스밴드 모뎀이 많지 않으며 또 현재 많은 수의 베이스밴드 모뎀의 경우 PCM(Pulse Code Modulation) 데이터를 얻는 것에 어려움이 있기 때문이다.

도1a는 종래기술에 따른 이동통신 단말기용 베이스밴드 모뎀의 구성도이고, 도1b는 도1a에 도시된 베이스밴드 모뎀을 통한 음성 인식 과정을 설명한 절차 흐름도이다. 단말기의 마이크(11)를 통하여 사용자의 음성이 입력되면 오디오 코덱(13)은 8kHz의 샘플링 레이트에 의해 PCM(Pulse Code Modulation) 변조를 수행한다[S12]. 상기 오디오 코덱(13)의 출력인 PCM 변조 데이터는 보코더(15)에 의해 QCELP, EVRC 등의 방법으로 보코딩(vocoding)된다[S14]. 이 단계까지는 음성 통화를 위한 음성이 마이크(11)를 통해 입력된 경우에도 동일하다. 보코딩된 데이터는 MPU/DSP(17)로 입력되어 음성 인식 과정을 거친다. MPU/DSP(17)에서는 보코딩된 데이터를 디코딩하고[S16], 디코딩된 데이터로부터 특징 벡터를 추출하여[S18], 추출된 특징 벡터를 이용하여 음성 인식 알고리즘을 통해 음성 인식을 수행한다[S20]. 음성 통화를 위한 경우에는 보코더(15)에 의해 보코딩된 후에 콘볼루션 코드(convolution code), 터보 코드(turbo code) 등에 의한 채널 인코딩(channel encoding) 과정을 거친다.

종래기술에 있어서 샘플링 레이트를 8 kHz로 한 이유는 4 kHz 이하의 음성 성분으로도 충분한 정도로 알아들을 만한 음질 수준을 낼 수 있기 때문이다. 또한, 현재의 단말기에서 음성 인식을 할 경우 대부분 음성 통화를 위해 샘플링된 데이터를 음성 인식용으로 사용하기 때문에 만족할 만한 음성 인식율을 보장하지 못하는 문제점이 있다. 또한, 상기한 바와 같은 종래기술에 있어서는 음성 인식을 위한 절차로서는 불필요하다고 할 수 있는 보코딩과 디코딩 과정을 거쳐야 하고, 보코딩, 디코딩 과정에서 SQNR이 발생하는 문제점도 있다. 음성 인식을 위해 별도의 DSP 칩이나 음성 인식 칩을 사용하는 방법도 있으나 단가 등이 상승하게 되는 단점이 있다.

종래기술의 베이스밴드 모뎀에서 음성 인식을 할 경우 화자 종속형 DTW(Dynamic Time Warping)와 같은 방법을 사용하였으며, 음성 인식으로 동작한다고 해서 베이스밴드 내부의 오디오 코덱(audio codec)의 샘플링 레이트가 올라가거나 혹은 특징 벡터 추출(feature extraction) 등이 H/W적으로 구현되지 않았다.

음성 인식을 위한 또 다른 방법으로 베이스밴드 외부에 음성 인식에 적합한 샘플링 레이트를 갖는 별도의 오디오 코덱을 설치하는 방법이 있을 수 있으며 이 경우 H/W적으로 구현이 복잡해진다. 종래에는 베이스밴드 모뎀의 샘플링 레이트를 조절할 수 없거나 혹은 PCM 데이터를 얻기 불편하거나 하는 등의 문제가 있었다.

본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 음성 인식에 적합한 샘플링 레이트를 적용하여 음성 인식율을 높일 수 있는 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기를 제공하는 것이다.

본 발명의 다른 목적은 특징 벡터 추출 과정 등 변화를 별로 줄 필요가 없는 것을 H/W로 구현하여 연산량이나 전력 소비의 면에서 경제적인 베이스밴드 모뎀 및 이동통신용 단말기를 제공하는 것이다.

발명의 개요

본 발명의 일 양상으로서, 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은, 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec); 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하여 구성됨을 특징으로 한다.

본 발명의 다른 양상으로서, 본 발명에 따른 이동통신용 단말기는, 마이크로 부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 가변시켜 PCM 변조를 수행하는 오디오 코덱; 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코딩하는 보코더를 포함하여 구성됨을 특징으로 한다.

실시예

이하에서 첨부된 도면을 참조하여 설명되는 본 발명의 바람직한 일 실시예에 의해 본 발명의 구성 및 그 작용, 다른 특징 및 효과가 명확히 이해될 수 있을 것이다. 도2는 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀의 바람직한 일 실시예의 블록 구성도이다.

도2에서, 베이스밴드 모뎀은, 마이크(21)와, 상기 마이크로부터 입력되는 음성 신호에 따라 가변적인 샘플링 레이트를 적용하여 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec, 22)과, 오디오 코덱의 샘플링 레이트를 제어하는 제어부(27)와, 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱(22)에 의해 PCM 변조된 데이터를 저장하는 버퍼(23)와, 상기 버퍼(23)로부터 데이터를 전달받아 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부(24), 상기 특징 벡터 추출부(24)에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부(26)와, 상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코 딩(vocoding)하는 보코더(28, vocoder)를 포함하여 구성된다.

상기 마이크(21)는 사용자로부터 입력받은 음성 신호를 전기적 신호로 변환한다. 상기 오디오 코덱(22)은 상기 마이크(21)로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 변경하여 PCM 변조를 수행한다. 음성 통화용 오디오 신호의 경우에는 일반적으로 8 kHz 정도의 샘플링 레이트가 적용되고, 음성 인식용 오디오 신호의 경우에는 그 보다 높은 12 kHz ~ 32 kHz 범위의 샘플링 레이트를 적용하여 PCM 변조를 하는 것이 바람직하다. 음성 인식의 경우 16 kHz 정도의 샘플링 레이트를 가지면 인식률이 향상된다는 것은 잘 알려진 사실이다. 그 이유는 4 kHz 이하의 성분이 사람이 음성을 판별하는데 중요한 역할을 하나, 무성음(unvoiced sound)의 경우 4 kHz가 넘는 부분이 많으며 현재의 특징 벡터(feature vector) 추출 기반의 음성 인식기의 경우 무성음 판별에 많은 문제가 있어서 인식률의 저하를 가져오게 된다.

상기 마이크(21)를 통하여 입력되는 오디오 신호가 음성 통화를 위한 것인지 아니면 음성 인식을 위한 것인지는 사용자가 선택하는 어플리케이션 프로그램(application program)에 의해 용이하게 구분될 수 있다. 즉, 사용자가 음성 통화를 위해서는 음성 통화를 위한 어플리케이션 프로그램을 선택할 것이고, 음성 인식을 위해서는 음성 인식을 위한 어플리케이션 프로그램을 선택할 것이기 때문에 단말기의 입장에서 입력되는 오디오 신호가 음성 통화를 위한 것인지 아니면 음성 인식을 위한 것인지 쉽게 파악할 수 있다. 상기한 바와 같은 선택에 관한 사항은 제어부(27)에 설정이 된다. 도2에 도시된 바와 것과 같이 제어부의 제어에 따라서 활 성화되는 부분이 음성 통화시와 음성 인식시가 상이하다. 즉, 음성 인식시에는 음성 인식시 사용되는 버퍼(23), 특징 벡터 추출부(24), 특징 벡터 저장부(25), 그리고 음성 인식부(26) 으로 이어지는 경로가 활성화되며 반대로 음성 인식시가 아닐 경우는 비활성화되게 된다.

상기 제어부(27)는 상기 오디오 코덱(22)의 샘플링 레이트를 제어한다. 즉, 상기 마이크(21)를 통하여 입력되는 오디오 신호가 음성 통화용인지 또는 음성 인식용인지에 따라 적당한 샘플링 레이트를 선택하여 상기 오디오 코덱(22)이 그에 따라 PCM 변조를 수행하도록 한다. 상기 제어부(27)는 다음과 같은 방식으로 구현될 수 있다. 즉, 음성 인식을 이용한 어플리케이션 프로그램(다이얼링, 메뉴 선택, 이름 호출 등)을 사용하도록 사용자가 단말기를 동작을 시킬 경우 해당 베이스밴드의 레지스터(register) 중 음성 인식 모드를 가리키는 부분을 온(on)시키면, 상기 오디오 코덱(22)의 샘플링 레이트를 음성 인식용 샘플링 레이트(예를 들어 16 kHz)로 설정한다. 또한, 상기 버퍼(23), 특징 벡터 추출부(24), 특징 벡터 저장부(25)도 상기 음성 인식 모드를 가리키는 레지스터를 온/오프(on/off)시킴으로써 제어할 수 있다.

상기 오디오 코덱(22)에 의해 PCM 변조된 데이터는 상기 버퍼(23)에 저장된다. 상기 버퍼(23)는 핑퐁 버퍼(ping pong buffer) 형태로 구성되는 것이 바람직하다. 핑퐁 버퍼는 이중 버퍼링(double buffering)이라고도 불리며 두 개의 버퍼를 이용하여 두 개의 버퍼 중에서 어느 하나의 버퍼에는 데이터를 채우는 동시에 다른 버퍼에서는 미리 저장된 데이터를 출력하여 다음 단으로 전달하는 구조를 의미한 다. 핑퐁 버퍼를 확장하여 세 개 이상의 버퍼에 의해 링(ring) 형태로 만든 링 버퍼(ring buffer)로도 구성이 가능하다. 다음 상기 버퍼(23)를 20ms~40ms 버퍼로 구현할 수 있다.

상기 특징 벡터 추출부(24)는 상기 버퍼(23)로부터 PCM 변조된 데이터를 전달받아 그 데이터로부터 특징 벡터(feature vector)를 추출한다. 상기 특징 벡터 추출부(24)는 종래에 이미 알려진 MFCC(mel frequency cepstral coefficnet), PLP(perceptual linear prediction), LPC 또는 LPCC 방법을 이용하여 특징 벡터를 추출할 수 있다. 상기 특징 벡터 추출부(24)에 추출된 특징 벡터는 상기 특징 벡터 저장부(25)에 저장된다. 이 경우에 20ms~40ms 정도의 단시간 신호(short time signal)에 대해서 반복적으로 특징 벡터를 추출하고 특징 벡터 어레이(array) 형태로 상기 특징 벡터 저장부(25)에 저장하는 것이 바람직하다.

상기 특징 벡터 추출 방법은 필터 뱅크(filter bank), 필터링(filtering), FFT(Fast Fourier Transform), DCT(Discrete Cosine Transform), IFFT(Inverse Fast Fourier Transform) 등의 과정을 거쳐야 하기 때문에 많은 연산량을 요구한다. 또한, 상기 특징 벡터 추출 과정은 규칙성이 강하기 때문에 하드웨어적으로 구현하는 것이 연산량 및 전력(power) 소비의 면에서 바람직하다. 물론 상기 특징 벡터 추출 과정을 소프트웨어적으로 구현하는 것도 가능하다.

상기 음성 인식부(26)는 상기 특징 벡터 저장부(25)로부터 특징 벡터를 전달받아 음성 인식 알고리즘을 적용하여 음성 인식을 수행한다. 상기 특징 벡터 추출 과정과는 달리 음성 인식 알고리즘 자체는 많은 변화 가능성이 있고, 또한 트레이 닝 파일(training file) 및 파라미터에 따라 고정점 이행(fixed point implementation)시 구현의 차이가 있을 수 있다. 또한, 알고리즘 개선 등이 있을 수 있으므로 비터비 디코딩(Viterbi decoding), 언어 모델링(language modeling), 문법(grammar)에 해당하는 부분들은 MPU 또는 DSP를 통하여 구현하는 것이 바람직하다. 한편, 특징 벡터 추출 전의 전처리로 노이즈 제거(noise cancellation) 등은 MPU 또는 DSP를 통하여 수행할 수 있다.

사용자가 음성 통화 어플리케이션 프로그램을 이용할 경우 등에는 기존의 베이스밴드 모뎀과 동일한 샘플링 레이트(예를 들어 8kHz)를 적용하여 PCM 변조를 수행하고, PCM 변조된 데이터를 상기 보코더(28)가 보코딩한다. 이 경우 상기 보코딩에는 QCELP(Qualcomm Code Excited Linear Prediction), EVRC(Enhanced Variable Rate Coding), VSELP(Vector Sum Excited Linear Prediction) 나 RPE-LTP 방식 등이 이용될 수 있다. 상기 보코더(28)에 의해 보코딩된 데이터는 채널 코딩, 무선 변조 등의 과정을 거치게 된다.

본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은 독립적인 형상을 갖는 모뎀의 형태로 이동통신용 단말기에 장착되는 것도 가능하고, 또한 독립적인 형상을 모뎀의 형태가 아니라 단말기 내부의 구성요소로 구현되는 것도 가능할 것이다. 본 발명에 따른 기술적 범위는 상기 양자의 경우에 모두 미칠 수 있음이 이해되어야 한다.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명에 따른 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 의하면 다음과 같은 효과가 있다.

첫째, 음성 인식에 적합한 샘플링 레이트를 사용하므로 음성 인식률이 향상된다.

둘째, 특징 벡터 추출 과정 등 변화를 별로 줄 필요가 없는 것을 H/W로 구현하여 연산량이나 전력 소비의 면에서 경제적이다.

셋째, 구조적으로도 간단하며 알고리즘 개선이나 고정점 임플러멘테이션(fixed point implementation)이 주로 필요한 부분은 MPU/DSP에 의해 구현함으로써 후에 필요에 따라서 개선할 수 있다.

넷째, PCM 변조된 데이터를 일 부분만 저장하며 곧바로 H/W로 처리를 해서 훨씬 데이터량이 줄어든 특징 벡터로서 데이터를 저장해서 음성 인식부에 전달하므로 메모리 측면에서도 이익이다.

Claims

마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec);

음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부;

상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및

상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하는 이동통신 단말기용 베이스밴드 모뎀.
제1항에 있어서,

음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터를 저장하는 버퍼(buffer)를 더 포함하는 이동통신 단말기용 베이스밴드 모뎀.
제1항에 있어서,

상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 저장하였다가 상기 음성 인식부로 전달하는 특징 벡터 저장부를 더 포함하는 이동통신 단말기용 베이스밴드 모뎀.
제2항에 있어서,

상기 버퍼는 핑퐁 버퍼(ping pong buffer)인 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
제1항에 있어서,

음성 인식용 오디오 신호에 대한 샘플링 레이트는 12 kHz ~ 32 kHz 범위에 포함되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
제1항에 있어서,

상기 특징 벡터 추출부는 하드웨어적으로 구성되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
제1항에 있어서,

마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지는 음성 인식 모드를 가르키는 레지스터를 온 또는 오프(on/off)시킴으로써 구분되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 가변시켜 PCM 변조를 수행하는 오디오 코 덱;

음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부;

상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및

상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코딩하는 보코더를 포함하는 이동통신용 단말기.
제8항에 있어서,

음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터를 저장하는 버퍼(buffer)를 더 포함하는 이동통신용 단말기.
제8항에 있어서,

상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 저장하였다가 상기 음성 인식부로 전달하는 메모리부를 더 포함하는 이동통신용 단말기.
제9항에 있어서,

상기 버퍼는 핑퐁 버퍼(ping pong buffer)인 것을 특징으로 하는 이동통신용 단말기.
제8항에 있어서,

음성 인식용 오디오 신호에 대한 샘플링 레이트는 12 kHz ~ 32 kHz 범위에 포함되는 것을 특징으로 하는 이동통신용 단말기.
제8항에 있어서,

상기 특징 벡터 추출부는 하드웨어적으로 구성되는 것을 특징으로 하는 이동통신용 단말기.
제8항에 있어서,

마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지는 음성 인식 모드를 가르키는 레지스터를 온 또는 오프(on/off)시킴으로써 구분되는 것을 특징으로 하는 이동통신용 단말기.