KR100278640B1 - 이동 전화기를 위한 음성 다이얼링 장치 및방법 - Google Patents

이동 전화기를 위한 음성 다이얼링 장치 및방법 Download PDF

Info

Publication number
KR100278640B1
KR100278640B1 KR1019980038692A KR19980038692A KR100278640B1 KR 100278640 B1 KR100278640 B1 KR 100278640B1 KR 1019980038692 A KR1019980038692 A KR 1019980038692A KR 19980038692 A KR19980038692 A KR 19980038692A KR 100278640 B1 KR100278640 B1 KR 100278640B1
Authority
KR
South Korea
Prior art keywords
voice
signal
speech
feature
database
Prior art date
Application number
KR1019980038692A
Other languages
English (en)
Other versions
KR20000020201A (ko
Inventor
김경선
공병구
최승호
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019980038692A priority Critical patent/KR100278640B1/ko
Publication of KR20000020201A publication Critical patent/KR20000020201A/ko
Application granted granted Critical
Publication of KR100278640B1 publication Critical patent/KR100278640B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 다이얼링 기능을 적용시킬 수 있는 음성 다이얼링 장치 및 방법에 관한 것으로, 이러한 음성 다이얼링 장치는 이동통신 단말기의 다이얼링시 버튼을 누르지 않고, 음성으로 다이얼링하는 장치에 있어서, 프레임별 패킷 데이터에서 소정시간이내에 보코더에서 음성특징 파라미터를 추출하여 음성 다이얼링의 입력으로 만들어 주는 입력 인터페이스, 입력 인터페이스부에서 만들어진 파라미터를 이용하여 음성 구간을 검출하는 음성 구간 검출부, 검출돤 음성구간에서 음성 인식용 음성신호의 특징을 추출하는 특징 추출부, 특징 추출부로부터 추출된 음성 인식용 음성신호의 특징을 각 전화번호에 해당하도록 데이터베이스에 등록시키는 음성 등록부, 특징 추출부로부터 추출된 음성 인식용 음성신호의 특징을 이용하여 데이터베이스에 등록된 음성신호와 음성 다이얼링을 위해 발성된 음성을 비교하여 가장 가까운 음성 신호를 골라내는 음성 인식부, 음성인식결과에 해당되는 음성 신호와 전화 번호를 출력하는 결과 출력부을 포함함을 특징으로 한다.

Description

이동 전화기를 위한 음성 다이얼링 장치 및 방법
본 발명은 이동 단말기에서 음성을 이용한 다이얼링 기술에 관한 것으로, 특히 음성 신호가 아닌 각 보코더의 특징 파라미터를 이용하여 기존 단말기에 하드웨어의 추가없이 소프트웨어만으로 실시간 구현하는 이동 전화기를 위한 음성 다이얼링 방법 및 장치에 관한 것이다.
음성 다이얼링 기술은 음성인식 기술을 전화기 제어에 응용한 것이다. 이러한 음성 다이얼링 기술은 입력으로 사용하는 것이 8KHz 샘플링, 16비트 PCM 데이터나 그에 준하는 음성을 직접 사용하는 것이었다. 하지만, 이동 전화기 환경하에서 하드웨어의 추가없이 소프트웨어 만으로 음성 다이얼링 기술을 구현하려면 이동 전화기의 보코더 결과를 이용하는 방법을 찾아야만 한다. 왜냐하면, 음성을 직접 받기 위해서는 A/D 장치는 물론 상당량의 메모리도 추가로 필요하기 때문이다.
그리고, 보코더 결과를 이용하여 음성을 재생하는 방법은 소프트웨어 만으로 구현하기에는 계산량이 부족한 것이 일반적이다. 한편, 핸즈프리 환경하에서 음성 다이얼링을 하고자 할 때는 배경 잡음의 처리라는 또 하나의 문제가 발생한다. 즉, 고속도로를 달리는 자동차에서 전화를 걸려면 핸즈프리 장치를 이용하여야 하는데 이 때 마이크는 자동차 선바이저에 장착하는 것이 일반적이다. 이러한 환경에서 음성을 발성하면 음성과 함께 고속도로에서 발생하는 여러 잡음이 동시에 들어 오게 된다. 100km 이상 달리는 자동차 안에서 고속도로 잡음을 측정해보면 신호대잡음비(SNR)가 -6dB에서 6dB 정도나 된다. 이 수치는 음성의 출력 크기나 잡음의 출력 크기가 비슷하다는 것을 의미한다. 따라서, 음성이 아닌 보코더 출력인 패킷 데이터를 이용해야 한다는 문제와 함께 다양하고 값이 큰 잡음 환경하에서 음성 인식을 수행해야 한다는 문제를 안고 있는 것이다.
잡음 환경하에서 음성 인식을 하기위해서 잡음을 제거하는 방법은 주파수 차감법(Spectral substraction)등 알려진 기술이 많지만 이러한 방법은 PCM 데이터를 이용할 수 있다는 가정에서 시작하는 것이다.
한편, 보코더에서 만들어내는 특징 파라미터중 게인에 관계되는 파라미터를 이용해서 음성 인식을 수행하는 것은 잡음이 적은 환경에서는 최고 90% 정도의 인식률을 얻을 수 있지만 잡음이 많은 환경에서는 40% 이하의 인식률 밖에 보장할 수 없다.
본 발명이 이루고자하는 기술적 과제는 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 다이얼링 기능을 적용시킬 수 있는 음성 다이얼링 장치 및 방법을 제공함에 있다.
도 1은 본 발명에 의한 음성 다이얼링 장치의 구성을 도시한 것이다.
도 2는 음성 구간 검출부의 구성도이다.
도 3은 음성 등록부의 구성도이다.
도 4는 음성 인식부의 구성도이다.
상기 기술적 과제를 해결하기 위한 본 발명에 의한 음성 다이얼링 장치는 이동통신 단말기의 다이얼링시 버튼을 누르지 않고, 음성으로 다이얼링하는 장치에 있어서, 보코더의 패킷 출력을 음성 다이얼링의 입력으로 만들어 주는 입력 인터페이스부; 상기 입력 인터페이스부에서 만들어진 파라미터를 이용하여 음성 구간을 검출하는 음성 구간 검출부; 상기 검출돤 음성구간에서 음성 인식용 음성신호의 특징을 추출하는 특징 추출부; 상기 특징추출부로부터 추출된 상기 음성 인식용 음성신호의 특징을 각 전화번호에 해당하도록 데이터베이스에 등록시키는 음성 등록부; 상기 특징추출부로부터 추출된 상기 음성 인식용 음성신호의 특징을 이용하여 상기 데이터베이스에 등록된 음성신호와 음성 다이얼링을 위해 발성된 음성을 비교하여 가장 가까운 음성 신호를 골라내는 음성 인식부; 및 상기 음성 인식 결과에 해당되는 음성 신호와 전화 번호를 출력하는 결과 출력부을 포함함을 특징으로 한다.
상기 다른 기술적 과제를 해결하기 위한 본 발명에 의한 음성 다이얼링 방법은 이동통신 단말기의 다이얼링시 음성으로 다이얼링하는 방법에 있어서, (a)보코더로부터 출력된 패킷 스트림신호를 언패킹 파라미터 스트림신호로 변환하는 단계; (b)상기 언패킹 파라미터 스트림신호의 구간을 검출하는 단계; (c)상기 검출된 신호에서 음성신호의 특징을 검출하는 단계; (d)상기 음성신호의 특징을 각 전화번호에 해당하도록 메모리에 저장시키는 음성 등록 단계; (e)상기 등록된 음성 신호에서 발성된 음성과 가장 가까운 음성 신호를 골라내는 음성 인식 단계; 및 (f)상기 음성인식결과에 해당되는 음성 신호와 전화 번호를 출력하는 단계를 포함함을 특징으로 한다.
이하 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명에 의한 음성 다이얼링 장치의 구성도로서, 입력인터페이스(110), 음성구간검출부(120), 특징추출부(130), 음성등록부(140), 음성인식부(150) 및 결과출력부(160)로 이루어진다.
입력 인터페이스(110)는 보코더의 패킷 데이터를 언패킹(unpacking)하고 그 데이타를 해석하여 음성구간검출부(120)에 입력시켜주는 일을 한다. 이 장치는 프레임 별 패킷 데이터에서 1~2msec 이내에 특징 파라미터를 추출한다.
음성구간검출부(120)은 입력인터페이스(110)에서 만들어진 파라미터의 게인특성을 이용하여 음성구간을 검출한다.
특징추출부(130)은 음성구간검출부(120)에서 검출돤 음성구간에서 음성 인식용 음성신호의 특징을 추출한다.
음성등록부(140)은 각 전화번호에 해당하는 음성 신호의 특징을 메모리(Flash ROM)에 저장시킨다.
음성 인식부(150)은 현재의 발성이 저장되어 있는 등록 데이터베이스(170)와 어느 정도 유사한지 계산하는 일을 수행한다. 한번 혹은 필요하면 두번의 발성을 가지고 인식을 수행한다.
결과 출력부(160)은 전화를 걸어주기에 앞서 인식 결과에 해당하는 음성을 사용자에게 들려 주고 확인 시켜주는 일을 한다.
상술한 구성에 의거하여 본 발명의 동작에 대하여 설명하기로 한다.
본 발명은 이동전화기용 음성 다이얼링에 관한 것으로서 음성을 입력받는 것이 아니라 임의의 코덱 패킷 값을 가지고 음성인식용 특징을 추출하고 음성부분을 검출하여 맨버신 인터페이스를 가능하게 한다.
본 발명은 QCELP, EVRC 및 RPE-LTP 같은 보코더에서 생성된 음성특징 파라미터만을 이용한 것이다. 입력인터페이스(110)는 상기 보코더의 패킷 데이터를 언패킹(unpacking)하고 그 데이타를 해석하여 음성구간검출부(120)에 입력하고, 프레임 별 패킷 데이터에서 1~2msec 이내에 특징 파라미터를 추출한다.
도 2는 음성구간검출부(120)의 구성도로서, 유사신호 생성부(210), 유사신호 게인생성부(220), 게인 평균부(230), 프레임상태 판정부(240) 및 후처리부(250)으로 이루어진다.
유사신호 생성부(210)는 특징 파라미터를 이용하여 유사 신호를 생성하는 것으로서 백색 잡음 펄스에 보코더 게인 값을 이용하여 게인 필터링을 한 후, 피치 정보를 이용하여 피치 필터링을 수행한다. 이렇게 해서 생성된 신호는 사람의 귀로 구별할 수 있을 정도의 음성 신호는 아니지만 음성을 구별하는 기본 정보인 음의 크기와 주파수 정보를 포함하고 있다. 수학식 1은 유사 신호를 생성하는 식이다.
x(i)=w(i)*G+x(i-l)*B
여기서, i는 샘플 수에 해당하는 시간 변수이고, G값은 프레임별 게인 값, L은 프레임별 피치, B는 프레임별 피치 게인, x(i)는 유사 신호, w(i)는 백색 신호이다.
이런 방법을 이용하여 이동 전화기에서 음성검출기의 실시간 구현을 위해 각 보코더의 신호 재생 장치를 대치할 수 있는 것이다.
유사신호 게인 생성부(220)는 생성된 유사신호를 절대값을 취한 후 프레임의 크기 만큼 합한 수이다. 각 신호를 제곱하여 더한 후 제곱근을 구해야 정확한 게인값을 구할 수 있지만 실시간에 구현하기 위해서는 곱하기나 제곱근은 사용할 수 없다. 수학식 2는 유사신호의 게인을 생성하는 식이다.
s(j) = abs_sum(x(j*I) ~ x(j*(I+1) - 1))
여기서, j는 프레임 수로서 j = i / I 에 해당한다. I는 프레임의 크기로서 160(20msec)이 일반적이다. abs_sum(x(k) ~ x(m))는 k번째 유사신호부터 m번째 유사신호까지의 절대값 합을 의미한다.
유사신호 게인 평균부(230)는 수학식 3과 같이 연속된 4개의 프레임의 평균값을 구하는 일을 수행한다. 본 발명에서 연속된 4개의 프레임을 사용하는 이유는 음성의 특징이 가장 잘 유지되는 프레임의 길이이기 때문이다.
nG(j) = (s(j-3) + s(j-2) + s(j-1) + s(j)) / 4
각 프레임별 유사신호의 게인은 시간에 따른 변화 폭이 커 수학식 2의 결과를 이용한 음성 검출시에 에러가 발생할 확률이 높아진다. 수학식 3은 수학식 2보다 게인의 변화폭이 안정되어서 음성 부분과 잡음 부분을 구분짓기가 용이하다.
프레임 상태 판정부(240)는 유사신호의 게인 평균값과 과거 상태 판정 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성 사이의 묵음 구간인지, 배경 잡음 구간인지 판정해주는 일을 한다. 1차 음성 구간 결정은 음성과 음성 사이의 묵음 구간을 포함한 시작 위치와 끝 위치 정보를 알려준다.
후처리부(250)는 1차 음성 구간 결과를 이용하여 시작 위치와 끝 위치를 좀더 상세하게 보정해 준다. 이것은 시작 위치 결과의 앞뒤 10프레임, 끝 위치 결과의 앞뒤 10프레임 내에서 상태 판정단을 다시 수행시켜 음성 검출 결과를 보정시키는 일을 수행한다.
따라서, 음성구간검출부(120)로부터 검출돤 음성구간은 특징추출부(130)에 의해서 음성 인식용 음성신호의 특징을 추출한다. 그리고 특징추출부(130)의 음성 인식용 음성신호의 특징은 등록모드일때는 음성등록부(140)로 입력되고, 인식모드일때는 음성인식부(150)로 입력된다.
음성등록부(140)는 상기 음성신호의 특징을 각 전화번호에 해당하도록 메모리(Flash ROM)에 저장시킨다. 또한, 보코더의 패킷을 해석한 결과를 이용해서 음성특징을 추출함을 특징으로 한다.
도 3은 음성등록부(140)의 구성 요소를 나타낸 구성도이다. 음성비교부(310)는 입력발성음과 데이터베이스(170)에 등록된 음성의 유사성을 비교한다. 발성비교부(320)는 상기 발성음이 상기 데이터베이스에 등록된 음성과 유사하지 않으면, 상기 발성음과 재발성된 발성음의 발성특징을 비교한다. 데이터베이스저장부(330)는 발성비교부(320)에서 비교된 발성특징이 같으면 상기 발성음의 발성특징을 저장한다. 또한 발성비교부(320)는 상기 발성음과 재발성된 발성음의 발성특징이 다르면 입력음성을 추가하여 발성특징을 재비교하는 추가 발성비교부를 더 구비할 수 있다.
음성 등록을 위해서는 2번에서 3번의 음성 발성이 필요하다. 등록 과정을 살펴보면, 발성음 1을 입력하면 기존에 저장된 음성 데이터베이스들과 유사성을 검토하여 유사하다고 판단되면 발성음 1을 음성등록부(140)에 저장하고, 처음으로 되돌아간다.
발성음 2가 입력되면 발성음 1과 발성음 2의 유사성을 검토하여 유사하다고 판단되면 발성음 1과 발성음 2의 특징을 음성등록부(140)에 저장한다. 만약, 발성음 1과 발성음 2가 유사하지 않으면 발성음 3을 입력하여 발성음 1과 발성음 2를 발성음 3과 유사성을 검토하여 유사하면 발성음 1 혹은 발성음 2와 발성음 3 의 특징을 음성등록부(140)에 저장한다.
여기서, 추가발성비교부(도면에 도시되지 않음)는 발성음 3과 발성음 1 혹은 발성음 2와 비교하는 단계를 뜻한다. 등록 데이터베이스는 플래쉬 롬에 저장하여 항시 쓰고 읽을 수 있게 한다.
음성인식부(150)은 현재의 발성이 저장되어 있는 등록 데이터베이스와 어느 정도 유사한지 계산하는 일을 수행한다. 한번 혹은 필요하면 두번의 발성을 가지고 인식을 수행한다.
도 4는 음성 인식부(150)의 구성 요소를 나타낸 구성도이다. 데이터베이스 비교부(410)는 입력발성음과 데이터베이스에 등록된 음성의 유사성을 비교한다. 또한 데이터베이스 비교부(410)는 입력발성음이 데이터베이스에 등록된 음성과 유사하지 않으면 입력발성음을 추가하여 데이터베이스에 등록된 음성과 재비교하는 추가발성 데이터베이스 비교부(도면에 도시되지 않음)를 더 부가할 수 있다. 인식확인부(420)는 데이터베이스 비교부(410)에서 결정한 인식 후보를 가지고 전화를 걸어 줄지 결정해주는 일을 한다. 비록 인식 결과가 1위로 나온 후보라도 결과의 신빙성이 떨어지면 전화를 걸어 주지 않는다. 이러한 일을 하기 위해서는 현재의 잡음 정도와 1위 후보와 2위 후보 사이의 인식 결과값 차이, 후보들간의 유사값을 이용한다.
그리고, 음성 등록부(140)나 음성 인식부(150)는 보코더 패킷을 해석한 결과를 이용해서 특징을 추출한다.
예를 들어, 시디엠에이(CDMA) 단말기에서는 양자화된 엘에스피(LSP:Line Spe ctrum Pair) 계수를 이용하여 유사 켑스트럼이라는 인식용 특징을 만들고, 지에스엠(GSM) 단말기에서는 엘에이알(LAR:Log Araea Ratio) 계수를 이용하여 인식용 특징을 만든다.
결과 출력부(160)는 전화를 걸어주기에 앞서 인식 결과에 해당하는 음성을 사용자에게 들려 주고 확인 시켜주는 일을 한다. 이것을 위해서는 음성 등록부에 인식용 특징과 함께 발성 부분만을 메모리에 저장시켜야 한다.
본 발명에 의하면, 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 다이얼링 기능을 적용시킬 수 있으므로써, 고속도로 같은 잡음이 다양한 환경에서도 음성 인식을 수행 할 수 있으므로 단말기 뿐만 아니라 핸즈프리킷트에서도 음성 다이얼링을 할 수 있다. 따라서, 음성 특징을 저장하기 위한 메모리의 추가 만으로 단말기의 고급화를 추구할 수 있어 제품의 경쟁력을 높일 수 있다.

Claims (15)

  1. 이동통신 단말기의 다이얼링시 버튼을 누르지 않고, 음성으로 다이얼링하는 장치에 있어서,
    보코더에서 츨력된 프레임별 패킷 데이터로부터 음성특징 파라미터를 추출하는 입력 인터페이스;
    상기 입력 인터페이스부로부터 출력된 상기 음성특징 파라미터를 이용하여 음성 구간을 검출하는 음성 구간 검출부;
    상기 검출돤 음성구간에서 음성 인식용 음성신호의 특징을 추출하는 특징 추출부;
    상기 특징추출부로부터 추출된 상기 음성 인식용 음성신호의 특징을 각 전화번호에 해당하도록 데이터베이스에 등록시키는 음성 등록부;
    상기 특징추출부로부터 추출된 상기 음성 인식용 음성신호의 특징을 이용하여 상기 데이터베이스에 등록된 음성신호와 음성 다이얼링을 위해 발성된 음성을 비교하여 가장 가까운 음성 신호를 골라내는 음성 인식부; 및
    상기 음성인식결과에 해당되는 음성 신호와 전화 번호를 출력하는 결과 출력부을 포함함을 특징으로 하는 음성 다이얼링 장치.
  2. 제1항에 있어서, 상기 음성구간검출부는
    상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 유사신호 생성부;
    상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 유사신호 게인 생성부;
    상기 유사신호 게인의 중첩평균(moving average)을 시간에 따라 구하는 게인 평균부;
    상기 게인 평균부의 결과와 이전 프레임들의 결과를 이용한 현재 프레임의 상태를 판정하는 프레임 상태 판정부; 및
    상기 프레임 상태 판정부의 결과를 보정하는 후처리부을 포함함을 특징으로 하는 음성 다이얼링 장치.
  3. 제1항에 있어서, 상기 음성등록부는
    입력발성음과 데이터베이스에 등록된 음성의 유사성을 비교하는 데이터베이스 비교부;
    상기 발성음이 상기 데이터베이스에 등록된 음성과 유사하지 않으면, 상기 발성음과 재발성된 발성음의 발성특징을 비교하는 발성비교부; 및
    상기 발성비교부에서 비교된 발성특징이 같으면 상기 발성음의 발성특징을 저장하는 데이터베이스저장부를 포함함을 특징으로 하는 음성 다이얼링 장치.
  4. 제3항에 있어서, 상기 음성등록부는
    보코더의 패킷을 해석한 결과를 이용해서 음성특징을 추출함을 특징으로 하는 음성 다이얼링 장치.
  5. 제3항에 있어서, 상기 발성비교부는
    상기 발성음과 재발성된 발성음의 발성특징이 다르면 입력음성을 추가하여 발성특징을 재비교하는 추가발성비교부를 더 구비함을 특징으로 하는 음성 다이얼링 장치.
  6. 제1항에 있어서, 상기 음성인식부는
    입력발성음과 데이터베이스에 등록된 음성의 유사성을 비교하는 데이터베이스 비교부; 및
    상기 데이터베이스 비교부에서 결정한 인식후보를 가지고 전화를 걸어줄지 결정하는 인식확인부를 포함함을 특징으로 하는 음성 다이얼링 장치.
  7. 제6항에 있어서, 상기 음성인식부는
    보코더의 패킷을 해석한 결과를 이용해서 음성특징을 추출함을 특징으로 하는 음성 다이얼링 장치.
  8. 제6항에 있어서, 상기 데이터베이스 비교부는
    입력발성음이 데이터베이스에 등록된 음성과 유사하지 않으면 입력발성음을 추가하여 데이터베이스에 등록된 음성과 재비교하는 추가발성 데이터베이스 비교부를 더 구비함을 특징으로 하는 음성 다이얼링 장치.
  9. 이동통신 단말기의 다이얼링시 음성으로 다이얼링하는 방법에 있어서,
    (a)보코더로부터 출력된 패킷 스트림신호를 언패킹 파라미터 스트림신호로 변환하는 단계;
    (b)상기 언패킹 파라미터 스트림신호의 구간을 검출하는 단계;
    (c)상기 검출된 신호에서 음성신호의 특징을 검출하는 단계;
    (d)상기 음성신호의 특징을 각 전화번호에 해당하도록 메모리에 저장시키는 음성 등록 단계;
    (e)상기 등록된 음성 신호에서 발성된 음성과 가장 가까운 음성 신호를 골라내는 음성 인식 단계; 및
    (f)상기 음성인식결과에 해당되는 음성 신호와 전화 번호를 출력하는 단계를 포함함을 특징으로 하는 음성 다이얼링 방법.
  10. 제9항에 있어서, 상기 (b)단계는
    (b1)상기 보코더에서 상기 음성특징 파라미터를 추출하는 단계;
    (b2)상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 단계;
    (b3)상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 단계;
    (b4)상기 유사신호 게인의 중첩평균을 시간에 따라 구하는 단계;
    (b5)상기 유사신호 게인의 중첩평균결과와 이전 프레임들의 결과를 이용한 현재 프레임의 음성구간을 결정하는 단계; 및
    (b6)상기 음성구간의 시작위치와 끝위치를 후처리 보정하는 단계를 포함함을 특징으로 하는 음성 다이얼링 방법.
  11. 제10항에 있어서, 상기 (h)단계에서 유사신호 x(i)는
    x(i) = w(i) * G + x(i-L) * B
    (여기서, i는 샘플 수에 해당하는 시간 변수이고, G값은 프레임별 게인 값, L은 프레임별 피치, B는 프레임별 피치 게인, x(i)는 유사 신호, w(i)는 백색 신호이다. )
    에 의해 생성됨을 특징으로 하는 음성 다이얼링 방법.
  12. 제11항에 있어서, 상기 (i)단계에서 유사신호 게인 s(j)는
    s(j) = abs_sum(x(j*I) ~ x(j*(I+1) - 1))
    (여기서, j는 프레임 수로서 j = i / I 에 해당한다. I는 프레임의 크기이다. abs_sum(x(k) ~ x(m))는 k번째 유사신호부터 m번째 유사신호까지의 절대값 합을 의미한다.)
    에 의해 생성됨을 특징으로 하는 음성 다이얼링 방법.
  13. 제12항에 있어서, 상기 (j)단계에서 유사신호 게인의 중첩평균 nG(j)는
    nG(j) = (s(j-3) + s(j-2) + s(j-1) + s(j)) / 4
    에 의해 계산됨을 특징으로 하는 음성 다이얼링 방법.
  14. 제9항에 있어서, 상기 (d)단계는
    입력발성음과 데이터베이스에 등록된 음성의 유사성을 비교하는 단계;
    상기 발성음이 상기 데이터베이스에 등록된 음성과 유사하지 않으면, 상기 발성음과 재발성된 발성음의 발성특징을 비교하는 단계; 및
    상기 발성음과 재발성된 발성음의 발성특징이 같으면 상기 발성음의 발성특징을 저장하는 단계를 포함함을 특징으로 하는 음성 다이얼링 방법.
  15. 제9항에 있어서, 상기 (e)단계는
    입력발성음과 데이터베이스에 등록된 음성과의 유사성을 비교하는 단계;
    상기 입력발성음과 상기 데이터베이스에 등록된 음성과의 유사성 있는 인식후보를 결정하는 단계; 및
    상기 인식후보들의 인식 결과값 차이를 이용하여 전화를 걸어줄지 결정하는 단계를 포함함을 특징으로 하는 음성 다이얼링 방법.
KR1019980038692A 1998-09-18 1998-09-18 이동 전화기를 위한 음성 다이얼링 장치 및방법 KR100278640B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980038692A KR100278640B1 (ko) 1998-09-18 1998-09-18 이동 전화기를 위한 음성 다이얼링 장치 및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980038692A KR100278640B1 (ko) 1998-09-18 1998-09-18 이동 전화기를 위한 음성 다이얼링 장치 및방법

Publications (2)

Publication Number Publication Date
KR20000020201A KR20000020201A (ko) 2000-04-15
KR100278640B1 true KR100278640B1 (ko) 2001-12-12

Family

ID=19551101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980038692A KR100278640B1 (ko) 1998-09-18 1998-09-18 이동 전화기를 위한 음성 다이얼링 장치 및방법

Country Status (1)

Country Link
KR (1) KR100278640B1 (ko)

Also Published As

Publication number Publication date
KR20000020201A (ko) 2000-04-15

Similar Documents

Publication Publication Date Title
KR100629669B1 (ko) 분산 음성인식 시스템
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US6671669B1 (en) combined engine system and method for voice recognition
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
RU2291499C2 (ru) Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления
JP2004504641A (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US5806022A (en) Method and system for performing speech recognition
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
GB2347775A (en) Method of extracting features in a voice recognition system
EP0685835B1 (en) Speech recognition based on HMMs
EP0634041B1 (en) Method and apparatus for encoding/decoding of background sounds
Li et al. A high-performance auditory feature for robust speech recognition.
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100294921B1 (ko) 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치
KR100294920B1 (ko) 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
JPH0477795A (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee