KR20060022490A - 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 - Google Patents

음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 Download PDF

Info

Publication number
KR20060022490A
KR20060022490A KR1020040071327A KR20040071327A KR20060022490A KR 20060022490 A KR20060022490 A KR 20060022490A KR 1020040071327 A KR1020040071327 A KR 1020040071327A KR 20040071327 A KR20040071327 A KR 20040071327A KR 20060022490 A KR20060022490 A KR 20060022490A
Authority
KR
South Korea
Prior art keywords
speech recognition
feature vector
audio signal
pcm
voice
Prior art date
Application number
KR1020040071327A
Other languages
English (en)
Other versions
KR100640893B1 (ko
Inventor
김찬우
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020040071327A priority Critical patent/KR100640893B1/ko
Priority to EP05019451A priority patent/EP1632934B1/en
Priority to JP2005259381A priority patent/JP2006079089A/ja
Priority to US11/221,463 priority patent/US7593853B2/en
Priority to DE602005001995T priority patent/DE602005001995T2/de
Priority to AT05019451T priority patent/ATE370494T1/de
Priority to CN2005101249116A priority patent/CN1797542B/zh
Publication of KR20060022490A publication Critical patent/KR20060022490A/ko
Application granted granted Critical
Publication of KR100640893B1 publication Critical patent/KR100640893B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 보다 구체적으로는, 음성 인식율을 높일 수 있고, 연산량이나 전력 소비의 면에서 경제적인 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은, 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec); 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하여 구성됨을 특징으로 한다.
음성 인식, 오디오 코덱, 베이스밴드 모뎀, PCM, 특징 벡터, 보코더

Description

음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기{Baseband modem and mobile terminal for voice recognition}
도1a는 종래기술에 따른 이동통신 단말기용 베이스밴드 모뎀의 구성도임.
도1b는 도1a에 도시된 베이스밴드 모뎀을 통한 음성 인식 과정을 설명한 절차 흐름도임.
도2는 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀의 바람직한 일 실시예의 블록 구성도임.
<도면 주요부호의 설명>
21 마이크 22 오디오 코덱
23 버퍼 24 특징 벡터 추출부
25 특징 벡터 저장부 26 음성 인식부
27 제어부 28 보코더
본 발명은 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다. 보다 구체적으로는, 음성 인식율을 높일 수 있고, 연산량이나 전력 소비의 면 에서 경제적인 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 관한 것이다.
최근의 경향을 보면 베이스밴드 모뎀(baseband modem)에 오디오 코덱(audio codec)을 포함하고 있다. MSM5500과 같은 모뎀의 경우는 8 kHz 음성 샘플(speech sample)이 이미 코딩된 것만 얻을 수 있고, 이 후에 나온 MSM6500과 같은 모뎀의 경우는 8 kHz, 16 kHz 마이크 입력을 모두 지원하고 있다. 종래의 음성 인식 방법을 단말에 적용하는 경우는 대부분 음성 통화를 위한 보코딩(vocoding)을 하는 경우와 음성 인식을 하기 위한 경우에 동일한 샘플링 레이트(sampling rate)로 된 음성에 대해서 처리를 하였다. 이는 16 kHz 마이크 입력을 지원하는 베이스밴드 모뎀이 많지 않으며 또 현재 많은 수의 베이스밴드 모뎀의 경우 PCM(Pulse Code Modulation) 데이터를 얻는 것에 어려움이 있기 때문이다.
도1a는 종래기술에 따른 이동통신 단말기용 베이스밴드 모뎀의 구성도이고, 도1b는 도1a에 도시된 베이스밴드 모뎀을 통한 음성 인식 과정을 설명한 절차 흐름도이다. 단말기의 마이크(11)를 통하여 사용자의 음성이 입력되면 오디오 코덱(13)은 8kHz의 샘플링 레이트에 의해 PCM(Pulse Code Modulation) 변조를 수행한다[S12]. 상기 오디오 코덱(13)의 출력인 PCM 변조 데이터는 보코더(15)에 의해 QCELP, EVRC 등의 방법으로 보코딩(vocoding)된다[S14]. 이 단계까지는 음성 통화를 위한 음성이 마이크(11)를 통해 입력된 경우에도 동일하다. 보코딩된 데이터는 MPU/DSP(17)로 입력되어 음성 인식 과정을 거친다. MPU/DSP(17)에서는 보코딩된 데이터를 디코딩하고[S16], 디코딩된 데이터로부터 특징 벡터를 추출하여[S18], 추출된 특징 벡터를 이용하여 음성 인식 알고리즘을 통해 음성 인식을 수행한다[S20]. 음성 통화를 위한 경우에는 보코더(15)에 의해 보코딩된 후에 콘볼루션 코드(convolution code), 터보 코드(turbo code) 등에 의한 채널 인코딩(channel encoding) 과정을 거친다.
종래기술에 있어서 샘플링 레이트를 8 kHz로 한 이유는 4 kHz 이하의 음성 성분으로도 충분한 정도로 알아들을 만한 음질 수준을 낼 수 있기 때문이다. 또한, 현재의 단말기에서 음성 인식을 할 경우 대부분 음성 통화를 위해 샘플링된 데이터를 음성 인식용으로 사용하기 때문에 만족할 만한 음성 인식율을 보장하지 못하는 문제점이 있다. 또한, 상기한 바와 같은 종래기술에 있어서는 음성 인식을 위한 절차로서는 불필요하다고 할 수 있는 보코딩과 디코딩 과정을 거쳐야 하고, 보코딩, 디코딩 과정에서 SQNR이 발생하는 문제점도 있다. 음성 인식을 위해 별도의 DSP 칩이나 음성 인식 칩을 사용하는 방법도 있으나 단가 등이 상승하게 되는 단점이 있다.
종래기술의 베이스밴드 모뎀에서 음성 인식을 할 경우 화자 종속형 DTW(Dynamic Time Warping)와 같은 방법을 사용하였으며, 음성 인식으로 동작한다고 해서 베이스밴드 내부의 오디오 코덱(audio codec)의 샘플링 레이트가 올라가거나 혹은 특징 벡터 추출(feature extraction) 등이 H/W적으로 구현되지 않았다.
음성 인식을 위한 또 다른 방법으로 베이스밴드 외부에 음성 인식에 적합한 샘플링 레이트를 갖는 별도의 오디오 코덱을 설치하는 방법이 있을 수 있으며 이 경우 H/W적으로 구현이 복잡해진다. 종래에는 베이스밴드 모뎀의 샘플링 레이트를 조절할 수 없거나 혹은 PCM 데이터를 얻기 불편하거나 하는 등의 문제가 있었다.
본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 음성 인식에 적합한 샘플링 레이트를 적용하여 음성 인식율을 높일 수 있는 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기를 제공하는 것이다.
본 발명의 다른 목적은 특징 벡터 추출 과정 등 변화를 별로 줄 필요가 없는 것을 H/W로 구현하여 연산량이나 전력 소비의 면에서 경제적인 베이스밴드 모뎀 및 이동통신용 단말기를 제공하는 것이다.
발명의 개요
본 발명의 일 양상으로서, 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은, 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec); 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하여 구성됨을 특징으로 한다.
본 발명의 다른 양상으로서, 본 발명에 따른 이동통신용 단말기는, 마이크로 부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 가변시켜 PCM 변조를 수행하는 오디오 코덱; 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및 상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코딩하는 보코더를 포함하여 구성됨을 특징으로 한다.
실시예
이하에서 첨부된 도면을 참조하여 설명되는 본 발명의 바람직한 일 실시예에 의해 본 발명의 구성 및 그 작용, 다른 특징 및 효과가 명확히 이해될 수 있을 것이다. 도2는 본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀의 바람직한 일 실시예의 블록 구성도이다.
도2에서, 베이스밴드 모뎀은, 마이크(21)와, 상기 마이크로부터 입력되는 음성 신호에 따라 가변적인 샘플링 레이트를 적용하여 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec, 22)과, 오디오 코덱의 샘플링 레이트를 제어하는 제어부(27)와, 음성 인식용 오디오 신호에 대하여 상기 오디오 코덱(22)에 의해 PCM 변조된 데이터를 저장하는 버퍼(23)와, 상기 버퍼(23)로부터 데이터를 전달받아 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부(24), 상기 특징 벡터 추출부(24)에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부(26)와, 상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코 딩(vocoding)하는 보코더(28, vocoder)를 포함하여 구성된다.
상기 마이크(21)는 사용자로부터 입력받은 음성 신호를 전기적 신호로 변환한다. 상기 오디오 코덱(22)은 상기 마이크(21)로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 변경하여 PCM 변조를 수행한다. 음성 통화용 오디오 신호의 경우에는 일반적으로 8 kHz 정도의 샘플링 레이트가 적용되고, 음성 인식용 오디오 신호의 경우에는 그 보다 높은 12 kHz ~ 32 kHz 범위의 샘플링 레이트를 적용하여 PCM 변조를 하는 것이 바람직하다. 음성 인식의 경우 16 kHz 정도의 샘플링 레이트를 가지면 인식률이 향상된다는 것은 잘 알려진 사실이다. 그 이유는 4 kHz 이하의 성분이 사람이 음성을 판별하는데 중요한 역할을 하나, 무성음(unvoiced sound)의 경우 4 kHz가 넘는 부분이 많으며 현재의 특징 벡터(feature vector) 추출 기반의 음성 인식기의 경우 무성음 판별에 많은 문제가 있어서 인식률의 저하를 가져오게 된다.
상기 마이크(21)를 통하여 입력되는 오디오 신호가 음성 통화를 위한 것인지 아니면 음성 인식을 위한 것인지는 사용자가 선택하는 어플리케이션 프로그램(application program)에 의해 용이하게 구분될 수 있다. 즉, 사용자가 음성 통화를 위해서는 음성 통화를 위한 어플리케이션 프로그램을 선택할 것이고, 음성 인식을 위해서는 음성 인식을 위한 어플리케이션 프로그램을 선택할 것이기 때문에 단말기의 입장에서 입력되는 오디오 신호가 음성 통화를 위한 것인지 아니면 음성 인식을 위한 것인지 쉽게 파악할 수 있다. 상기한 바와 같은 선택에 관한 사항은 제어부(27)에 설정이 된다. 도2에 도시된 바와 것과 같이 제어부의 제어에 따라서 활 성화되는 부분이 음성 통화시와 음성 인식시가 상이하다. 즉, 음성 인식시에는 음성 인식시 사용되는 버퍼(23), 특징 벡터 추출부(24), 특징 벡터 저장부(25), 그리고 음성 인식부(26) 으로 이어지는 경로가 활성화되며 반대로 음성 인식시가 아닐 경우는 비활성화되게 된다.
상기 제어부(27)는 상기 오디오 코덱(22)의 샘플링 레이트를 제어한다. 즉, 상기 마이크(21)를 통하여 입력되는 오디오 신호가 음성 통화용인지 또는 음성 인식용인지에 따라 적당한 샘플링 레이트를 선택하여 상기 오디오 코덱(22)이 그에 따라 PCM 변조를 수행하도록 한다. 상기 제어부(27)는 다음과 같은 방식으로 구현될 수 있다. 즉, 음성 인식을 이용한 어플리케이션 프로그램(다이얼링, 메뉴 선택, 이름 호출 등)을 사용하도록 사용자가 단말기를 동작을 시킬 경우 해당 베이스밴드의 레지스터(register) 중 음성 인식 모드를 가리키는 부분을 온(on)시키면, 상기 오디오 코덱(22)의 샘플링 레이트를 음성 인식용 샘플링 레이트(예를 들어 16 kHz)로 설정한다. 또한, 상기 버퍼(23), 특징 벡터 추출부(24), 특징 벡터 저장부(25)도 상기 음성 인식 모드를 가리키는 레지스터를 온/오프(on/off)시킴으로써 제어할 수 있다.
상기 오디오 코덱(22)에 의해 PCM 변조된 데이터는 상기 버퍼(23)에 저장된다. 상기 버퍼(23)는 핑퐁 버퍼(ping pong buffer) 형태로 구성되는 것이 바람직하다. 핑퐁 버퍼는 이중 버퍼링(double buffering)이라고도 불리며 두 개의 버퍼를 이용하여 두 개의 버퍼 중에서 어느 하나의 버퍼에는 데이터를 채우는 동시에 다른 버퍼에서는 미리 저장된 데이터를 출력하여 다음 단으로 전달하는 구조를 의미한 다. 핑퐁 버퍼를 확장하여 세 개 이상의 버퍼에 의해 링(ring) 형태로 만든 링 버퍼(ring buffer)로도 구성이 가능하다. 다음 상기 버퍼(23)를 20ms~40ms 버퍼로 구현할 수 있다.
상기 특징 벡터 추출부(24)는 상기 버퍼(23)로부터 PCM 변조된 데이터를 전달받아 그 데이터로부터 특징 벡터(feature vector)를 추출한다. 상기 특징 벡터 추출부(24)는 종래에 이미 알려진 MFCC(mel frequency cepstral coefficnet), PLP(perceptual linear prediction), LPC 또는 LPCC 방법을 이용하여 특징 벡터를 추출할 수 있다. 상기 특징 벡터 추출부(24)에 추출된 특징 벡터는 상기 특징 벡터 저장부(25)에 저장된다. 이 경우에 20ms~40ms 정도의 단시간 신호(short time signal)에 대해서 반복적으로 특징 벡터를 추출하고 특징 벡터 어레이(array) 형태로 상기 특징 벡터 저장부(25)에 저장하는 것이 바람직하다.
상기 특징 벡터 추출 방법은 필터 뱅크(filter bank), 필터링(filtering), FFT(Fast Fourier Transform), DCT(Discrete Cosine Transform), IFFT(Inverse Fast Fourier Transform) 등의 과정을 거쳐야 하기 때문에 많은 연산량을 요구한다. 또한, 상기 특징 벡터 추출 과정은 규칙성이 강하기 때문에 하드웨어적으로 구현하는 것이 연산량 및 전력(power) 소비의 면에서 바람직하다. 물론 상기 특징 벡터 추출 과정을 소프트웨어적으로 구현하는 것도 가능하다.
상기 음성 인식부(26)는 상기 특징 벡터 저장부(25)로부터 특징 벡터를 전달받아 음성 인식 알고리즘을 적용하여 음성 인식을 수행한다. 상기 특징 벡터 추출 과정과는 달리 음성 인식 알고리즘 자체는 많은 변화 가능성이 있고, 또한 트레이 닝 파일(training file) 및 파라미터에 따라 고정점 이행(fixed point implementation)시 구현의 차이가 있을 수 있다. 또한, 알고리즘 개선 등이 있을 수 있으므로 비터비 디코딩(Viterbi decoding), 언어 모델링(language modeling), 문법(grammar)에 해당하는 부분들은 MPU 또는 DSP를 통하여 구현하는 것이 바람직하다. 한편, 특징 벡터 추출 전의 전처리로 노이즈 제거(noise cancellation) 등은 MPU 또는 DSP를 통하여 수행할 수 있다.
사용자가 음성 통화 어플리케이션 프로그램을 이용할 경우 등에는 기존의 베이스밴드 모뎀과 동일한 샘플링 레이트(예를 들어 8kHz)를 적용하여 PCM 변조를 수행하고, PCM 변조된 데이터를 상기 보코더(28)가 보코딩한다. 이 경우 상기 보코딩에는 QCELP(Qualcomm Code Excited Linear Prediction), EVRC(Enhanced Variable Rate Coding), VSELP(Vector Sum Excited Linear Prediction) 나 RPE-LTP 방식 등이 이용될 수 있다. 상기 보코더(28)에 의해 보코딩된 데이터는 채널 코딩, 무선 변조 등의 과정을 거치게 된다.
본 발명에 따른 이동통신 단말기용 베이스밴드 모뎀은 독립적인 형상을 갖는 모뎀의 형태로 이동통신용 단말기에 장착되는 것도 가능하고, 또한 독립적인 형상을 모뎀의 형태가 아니라 단말기 내부의 구성요소로 구현되는 것도 가능할 것이다. 본 발명에 따른 기술적 범위는 상기 양자의 경우에 모두 미칠 수 있음이 이해되어야 한다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명에 따른 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기에 의하면 다음과 같은 효과가 있다.
첫째, 음성 인식에 적합한 샘플링 레이트를 사용하므로 음성 인식률이 향상된다.
둘째, 특징 벡터 추출 과정 등 변화를 별로 줄 필요가 없는 것을 H/W로 구현하여 연산량이나 전력 소비의 면에서 경제적이다.
셋째, 구조적으로도 간단하며 알고리즘 개선이나 고정점 임플러멘테이션(fixed point implementation)이 주로 필요한 부분은 MPU/DSP에 의해 구현함으로써 후에 필요에 따라서 개선할 수 있다.
넷째, PCM 변조된 데이터를 일 부분만 저장하며 곧바로 H/W로 처리를 해서 훨씬 데이터량이 줄어든 특징 벡터로서 데이터를 저장해서 음성 인식부에 전달하므로 메모리 측면에서도 이익이다.

Claims (14)

  1. 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트(sampling rate)를 가변시켜 PCM(Pulse Code Modulation) 변조를 수행하는 오디오 코덱(audio codec);
    음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 통화용 오디오 신호에 대하여 PCM 변조된 데이터를 보코딩(vocoding)하는 보코더(vocoder)를 포함하는 이동통신 단말기용 베이스밴드 모뎀.
  2. 제1항에 있어서,
    음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터를 저장하는 버퍼(buffer)를 더 포함하는 이동통신 단말기용 베이스밴드 모뎀.
  3. 제1항에 있어서,
    상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 저장하였다가 상기 음성 인식부로 전달하는 특징 벡터 저장부를 더 포함하는 이동통신 단말기용 베이스밴드 모뎀.
  4. 제2항에 있어서,
    상기 버퍼는 핑퐁 버퍼(ping pong buffer)인 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
  5. 제1항에 있어서,
    음성 인식용 오디오 신호에 대한 샘플링 레이트는 12 kHz ~ 32 kHz 범위에 포함되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
  6. 제1항에 있어서,
    상기 특징 벡터 추출부는 하드웨어적으로 구성되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
  7. 제1항에 있어서,
    마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지는 음성 인식 모드를 가르키는 레지스터를 온 또는 오프(on/off)시킴으로써 구분되는 것을 특징으로 하는 이동통신 단말기용 베이스밴드 모뎀.
  8. 마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지에 따라 샘플링 레이트를 가변시켜 PCM 변조를 수행하는 오디오 코 덱;
    음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터로부터 음성 인식을 위한 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 통화용 오디오 신호에 대해 PCM 변조된 데이터를 보코딩하는 보코더를 포함하는 이동통신용 단말기.
  9. 제8항에 있어서,
    음성 인식용 오디오 신호에 대하여 상기 오디오 코덱에 의해 PCM 변조된 데이터를 저장하는 버퍼(buffer)를 더 포함하는 이동통신용 단말기.
  10. 제8항에 있어서,
    상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 저장하였다가 상기 음성 인식부로 전달하는 메모리부를 더 포함하는 이동통신용 단말기.
  11. 제9항에 있어서,
    상기 버퍼는 핑퐁 버퍼(ping pong buffer)인 것을 특징으로 하는 이동통신용 단말기.
  12. 제8항에 있어서,
    음성 인식용 오디오 신호에 대한 샘플링 레이트는 12 kHz ~ 32 kHz 범위에 포함되는 것을 특징으로 하는 이동통신용 단말기.
  13. 제8항에 있어서,
    상기 특징 벡터 추출부는 하드웨어적으로 구성되는 것을 특징으로 하는 이동통신용 단말기.
  14. 제8항에 있어서,
    마이크로부터 입력되는 오디오 신호가 음성 인식용 오디오 신호인지 통화용 오디오 신호인지는 음성 인식 모드를 가르키는 레지스터를 온 또는 오프(on/off)시킴으로써 구분되는 것을 특징으로 하는 이동통신용 단말기.
KR1020040071327A 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 KR100640893B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020040071327A KR100640893B1 (ko) 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
EP05019451A EP1632934B1 (en) 2004-09-07 2005-09-07 Baseband modem and method for speech recognition and mobile communication terminal using the same
JP2005259381A JP2006079089A (ja) 2004-09-07 2005-09-07 音声認識用ベースバンドのモデムと、それを用いる移動通信端末機
US11/221,463 US7593853B2 (en) 2004-09-07 2005-09-07 Baseband modem for speech recognition and mobile communication terminal using the same
DE602005001995T DE602005001995T2 (de) 2004-09-07 2005-09-07 Basisband-Modem und Verfahren zur Spracherkennung und verwendendes Mobilkommunikationsendgerät
AT05019451T ATE370494T1 (de) 2004-09-07 2005-09-07 Basisband-modem und verfahren zur spracherkennung und verwendendes mobilkommunikationsendgerät
CN2005101249116A CN1797542B (zh) 2004-09-07 2005-09-07 移动通信终端上用于语音识别的基带调制解调器及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040071327A KR100640893B1 (ko) 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기

Publications (2)

Publication Number Publication Date
KR20060022490A true KR20060022490A (ko) 2006-03-10
KR100640893B1 KR100640893B1 (ko) 2006-11-02

Family

ID=36158548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040071327A KR100640893B1 (ko) 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기

Country Status (7)

Country Link
US (1) US7593853B2 (ko)
EP (1) EP1632934B1 (ko)
JP (1) JP2006079089A (ko)
KR (1) KR100640893B1 (ko)
CN (1) CN1797542B (ko)
AT (1) ATE370494T1 (ko)
DE (1) DE602005001995T2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
WO2010086928A1 (ja) * 2009-01-28 2010-08-05 三菱電機株式会社 音声認識装置
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US9851787B2 (en) 2012-11-29 2017-12-26 Microsoft Technology Licensing, Llc Display resource management
CN104038804B (zh) * 2013-03-05 2017-09-29 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
US9542933B2 (en) * 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
CN103886860B (zh) * 2014-02-21 2017-05-24 联想(北京)有限公司 一种信息处理方法和电子设备
JP6910721B2 (ja) * 2017-07-27 2021-07-28 アルパイン株式会社 電子装置および情報端末システム
CN110910888B (zh) * 2018-09-17 2022-06-14 中国移动通信集团设计院有限公司 语音识别装置及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0356568B1 (de) * 1988-09-02 1994-01-19 Siemens Aktiengesellschaft Verfahren und Anordnung zur Sprechererkennung in einer Fernsprechvermittlungsanlage
JPH04207551A (ja) 1990-11-30 1992-07-29 Toshiba Corp 電話装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6212228B1 (en) * 1997-09-10 2001-04-03 Nortel Networks Limited Apparatus for modulation and demodulating digital data
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6411926B1 (en) 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
KR20010008073A (ko) 2000-11-07 2001-02-05 조용범 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치
US6901270B1 (en) 2000-11-17 2005-05-31 Symbol Technologies, Inc. Apparatus and method for wireless communication
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7221902B2 (en) * 2004-04-07 2007-05-22 Nokia Corporation Mobile station and interface adapted for feature extraction from an input media sample

Also Published As

Publication number Publication date
JP2006079089A (ja) 2006-03-23
US20060053011A1 (en) 2006-03-09
EP1632934A1 (en) 2006-03-08
CN1797542B (zh) 2010-04-07
ATE370494T1 (de) 2007-09-15
KR100640893B1 (ko) 2006-11-02
DE602005001995T2 (de) 2008-05-15
DE602005001995D1 (de) 2007-09-27
US7593853B2 (en) 2009-09-22
EP1632934B1 (en) 2007-08-15
CN1797542A (zh) 2006-07-05

Similar Documents

Publication Publication Date Title
EP1632934B1 (en) Baseband modem and method for speech recognition and mobile communication terminal using the same
US20230230572A1 (en) End-to-end speech conversion
US10540979B2 (en) User interface for secure access to a device using speaker verification
US9875752B2 (en) Voice profile management and speech signal generation
JP4607334B2 (ja) 分散された音声認識システム
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
AU667871B2 (en) Voice controlled messaging system and processing method
US8401856B2 (en) Automatic normalization of spoken syllable duration
US20060235692A1 (en) Bandwidth efficient digital voice communication system and method
US8190430B2 (en) Method and system for using input signal quality in speech recognition
US20040148172A1 (en) Prosodic mimic method and apparatus
JP2004536329A (ja) 分散型音声認識システムにおける音声認識のためのシステム及び方法
JP2004511003A (ja) 音声コーディングにおける雑音のロバストな分類のための方法
CN106133832B (zh) 在装置处切换译码技术的设备及方法
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120926

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130924

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140924

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150924

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160923

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee