KR100344552B1 - 음성 인식 다이얼링 전화기용 음성 인식 방법 - Google Patents

음성 인식 다이얼링 전화기용 음성 인식 방법 Download PDF

Info

Publication number
KR100344552B1
KR100344552B1 KR1020000003446A KR20000003446A KR100344552B1 KR 100344552 B1 KR100344552 B1 KR 100344552B1 KR 1020000003446 A KR1020000003446 A KR 1020000003446A KR 20000003446 A KR20000003446 A KR 20000003446A KR 100344552 B1 KR100344552 B1 KR 100344552B1
Authority
KR
South Korea
Prior art keywords
voice
matching
point
lattice points
grid point
Prior art date
Application number
KR1020000003446A
Other languages
English (en)
Other versions
KR20000024138A (ko
Inventor
백종관
이윤근
Original Assignee
(주) 보이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 보이스웨어 filed Critical (주) 보이스웨어
Priority to KR1020000003446A priority Critical patent/KR100344552B1/ko
Publication of KR20000024138A publication Critical patent/KR20000024138A/ko
Application granted granted Critical
Publication of KR100344552B1 publication Critical patent/KR100344552B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/272Devices whereby a plurality of signals may be stored simultaneously with provision for storing only one subscriber number at a time, e.g. by keyboard or dial
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 음성 인식 다이얼링 전화기용 음성 인식 방법은 기존의 DTW 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 이용하는 단계로 이루어진다.

Description

음성 인식 다이얼링 전화기용 음성 인식 방법{Method of Speech Recognition for Dialing}
발명의 분야
본 발명은 음성 인식에 관한 것이다. 보다 구체적으로 본 발명은 음성인식전화기에 적용하기 위한 것으로 기존의 DTW (Dynamic Time Warping) 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하고, 음성 구간 수정시 매칭 스코어의 로칼 최저값 정보를 이용하여 주변 잡음이 많은 경우에 인식 성능을 향상시키기 위한 방법에 관한 것이다.
발명의 배경
음성 인식에 의해 다이얼링을 하는 기술은 현재 몇몇 휴대폰에 이미 적용되고 있다. 이는 일반 휴대폰에 적용되어 사용 편의성을 증대시키는 측면 이외에 차량용 핸즈프리(hands free)에 적용될 경우 사고 위험성을 줄이는 등 매우 중요한 역할을 담당한다. 그러나 현재 휴대폰에 적용된 알고리즘은 잡음환경에 취약하여 인식률이 저조한 단점이 있다. 일반적으로 휴대 전화에는 화자 종속 단어 인식 알고리즘이 적용되며 이 경우 패턴 매칭 방법으로 DTW (Dynamic Time Warping) 방법이 많이 쓰인다. DTW 방법은 음성 구간 검출의 정확도에 따라 성능이 크게 좌우되는 단점이 있는데 잡음환경에서는 음성 구간이 정확히 검출되지 않아 인식 성능이 저하된다. 본 발명에서는 음성 구간 검출이 정확하지 않아도 좋은 성능을 발휘할 수 있도록 기존의 DTW 알고리즘을 개선하였다.
본 발명의 목적은 종래의 음성 인식 방법의 잡음환경에서의 성능 저하를 개선한 방법을 제공하기 위한 것이다.
본 발명의 다른 목적은 잡음환경에 강인한 음성 인식 방법을 휴대폰의 음성 다이얼링 기능에 적용하여 음성인식 휴대폰을 제공하기 위한 것이다.
본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.
제1도는 음성 인식 전화기의 음성인식 하드웨어의 구성도이다.
제2도는 음성 인식 전화기의 음성 인식 과정의 흐름도이다.
제3도는 음성 매칭 단계에서 두 시퀀스의 매칭을 위한 격자점을 도시하는 도표이다.
제4도는 음성인식에 있어서 전방향 및 후방향 DTW 방법의 흐름도이다.
제5도는 음성인식에 있어서 전방향 및 후방향 DTW의 탐색경로의 한 예를 도시하는 도표이다.
본 발명의 음성 인식 다이얼링 전화기용 음성 인식 방법은 기존의 DTW 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 이용하는 단계로 이루어진다. 이하 첨부된 도면을 참고로 본 발명의 내용을 하기에 상세히 설명한다.
제1도는 음성 인식 전화기의 음성인식 하드웨어의 구성도이다. 음성 인식 전화기의 음성인식 하드웨어는 스피커, 마이크로폰, 코덱, 보코더, 콘트롤러, 데이터 메모리 및 프로그램 메모리로 이루어진다. 스피커는 음성을 출력하기 위한 수단이고, 마이크로폰은 음성을 입력하기 위한 수단이다. 코덱(Codec)은 마이크로폰을 통해 입력된 음성을 PCM 또는 m-law PCM 데이터로 바꾸어 준다. 보코더(Vocoder)는 상기 코덱의 PCM 또는 m-law PCM 데이터를 엔코딩(encoding) 한다. 출력 데이터는 스펙트럼 정보를 나타내는 계수, 음성의여기신호(excitation signal)를 모델링하는 정보와 게인(gain) 등으로 이루어져 있다. 예를 들어 QCELP의 경우는 LSP 계수, codebook index와 gain, long-term predictor의 delay값과 gain 등이다. 콘트롤러는 음성 인식 전화기의 제반 동작을 제어한다. 음성 인식 기능을 위하여 프로그램 메모리에 저장되어 있는 음성 인식 시퀀스에 따라 훈련 과정 및 인식 과정 등을 제어하며 보코더와 데이타를 주고 받으며 필요한 데이타를 메모리에 쓰고 읽는다. 데이터 메모리는 전화기의 동작에 필요한 데이터를 저장하고, 프로그램 메모리는 전화기를 동작시키는 모든 시퀀스가 들어 있다.
제2도는 음성 인식 전화기의 음성 인식 과정의 흐름도이다. 음성 입력 안내에 따라 음성이 입력되면 음성을 엔코딩(encoding) 하고 음성이 갖는 특징들(features)을 추출한다. 추출된 특징을 저장되어 있는 등록단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징들을 가진 등록 단어를 선택한다. 유사도가 일정 수준 이상이면 인식된 결과가 올바른 것이라고 보고 인식 단어에 해당되는 전화번호로 전화를 건다. 인식된 단어의 유사도가 일정 수준 이하이면 등록되지 않은 단어가 발성된 경우일 수 있으므로 인식과정의 처음으로 다시 돌아가 다시 음성 입력 안내를 하게 된다.
제3도는 음성 매칭 단계에서 두 시퀀스의 매칭을 위한 격자점을 도시하는 도표이고, 제4도는 음성인식에 있어서 전방향 및 후방향 DTW 방법의 흐름도이며, 제5도는 음성인식에 있어서 전방향 및 후방향 DTW의 탐색경로의 한 예를 도시하는 도표이다.
종래의 DTW 방법은 다음과 같다. 매칭(matching) 하고자 하는 두 시퀀스의 길이를 각각 N, M 이라고 할 때, 두 개의 시퀀스를 매칭하기 위해서 도면3과 같이 M x N개의 격자점을 갖는 2차원의 수직 좌표계를 만든다. 탐색하는 격자점(m,n)은 두 시퀀스의 m 번째 특징과 n 번째 특징까지의 최소 누적거리값을 갖게 된다. 각 격자점에서의 두 특징간의 거리는 아래의 식의 dm,n으로 정의된다. 즉, 두 특징의 각 차수에 해당하는 값의 차이를 모두 더하여 각 특징간의 거리를 구한다. 격자점(m,n)에서의 최소누적거리(Dm,n)는 하기식에 의하여 계산한다. 맨 아래의 열부터 시작하여 위로 순차적으로 올라가면서 모든 격자점에 대하여 최소누적거리값을 구한다. 최종 매칭거리는 격자점(M,N)에서의 최소누적거리를 두 시퀀스 길이의 합 (M+N)으로 나눈 값이 된다.
본 발명에 따른 전방향 및 후방향 DTW 방법은 다음과 같다. 전방향 DTW를 기존 DTW와 동일한 방법으로 수행한다. 즉 격자점(0, 0)으로부터 시작하여격자점(M, N)까지 진행한다. 격자점 중 기준패턴 또는 테스트 패턴의 끝에 도달한 격자점, 즉 (M, n) 또는 (m, N) 에 해당하는 격자점에 대해 매칭 거리를 비교한다. 이중 최소 매칭 거리를 갖는 격자점을 (X, Y)라 한다. 위에서 구한 격자점 (X, Y)가 수정된 음성 끝점이 된다. 수정된 음성 끝점으로부터 시작하여 후방향 DTW를 수행한다. 즉 격자점 (X, Y)로 부터 시작하여 격자점 (0, 0)까지 진행한다. 격자점 중 기준 패턴 또는 테스트 패턴의 시작점에 도달한 격자점, 즉 (0, n) 또는 (m, 0)에 해당하는 격자점에 대해 매칭 거리를 비교한다. 이중 최소 매칭 거리를 갖는 매칭점이 수정된 음성 시작점이 되며 이때의 매칭거리가 해당 기준 패턴과 테스트 패턴과의 거리가 되므로 이를 출력한다.
본 발명은 기존 음성 인식 전화기에 탑재되어 있는 패턴 매칭 방법을 개선하여 잡음환경에서도 성능이 우수하도록 함으로써 단말기의 사용 편리성을 증대시겼다. 또한, 본 발명은 이와 유사한 PDA등에도 적용하여 같은 효과를 얻을 수 있다.
본 발명은 종래의 음성 인식 방법의 잡음환경에서의 성능 저하를 개선한 방법을 제공하고, 잡음환경에 강인한 음성 인식 방법을 휴대폰의 음성 다이얼링 기능에 적용하여 음성인식 휴대폰을 제공하는 발명의 효과를 갖는다.
본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 실시될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.

Claims (4)

  1. 음성 입력 안내에 따라 음성이 입력되면 음성을 엔코딩(encoding) 하고 음성이 갖는 특징들(features)을 추출하고;
    음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 출력하는 방법으로 추출된 특징을 저장되어 있는 등록단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징들을 가진 등록 단어를 매칭하고; 그리고
    유사도가 일정 수준 이상이면 인식된 결과가 올바른 것이라고 보고 인식 단어에 해당되는 전화번호로 전화를 거는;
    단계로 이루어지는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 매칭 단계가 격자점(0, 0)으로부터 시작하여 격자점(M, N)까지 진행하는 전방향 DTW를 수행하고;
    격자점 중 기준패턴 또는 테스트 패턴의 끝에 도달하는 격자점 (M, n) 또는(m, N) 에 해당하는 격자점에 대해 매칭 거리를 비교하고;
    최소 매칭 거리를 갖는 격자점 (X, Y)이 수정된 음성 끝점으로부터 시작하여 후방향 DTW를 수행하여 격자점 (X, Y)로부터 시작하여 격자점 (0, 0)까지 진행하고; 격자점 중 기준 패턴 또는 테스트 패턴의 시작점에 도달한 격자점 (0, n) 또는 (m, 0)에 해당하는 격자점에 대해 매칭 거리를 비교하고; 그리고
    최소 매칭 거리를 갖는 매칭점이 수정된 음성 시작점이 되며 이때의 매칭거리를 출력하는;
    단계로 이루어지는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.
  4. 제1항에 있어서, 상기 인식된 단어의 유사도가 일정 수준 이하이면 인식과정의 처음으로 다시 돌아가 다시 음성 입력 안내를 하게 되는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.
KR1020000003446A 2000-01-25 2000-01-25 음성 인식 다이얼링 전화기용 음성 인식 방법 KR100344552B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000003446A KR100344552B1 (ko) 2000-01-25 2000-01-25 음성 인식 다이얼링 전화기용 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000003446A KR100344552B1 (ko) 2000-01-25 2000-01-25 음성 인식 다이얼링 전화기용 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20000024138A KR20000024138A (ko) 2000-05-06
KR100344552B1 true KR100344552B1 (ko) 2002-07-20

Family

ID=19641243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000003446A KR100344552B1 (ko) 2000-01-25 2000-01-25 음성 인식 다이얼링 전화기용 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR100344552B1 (ko)

Also Published As

Publication number Publication date
KR20000024138A (ko) 2000-05-06

Similar Documents

Publication Publication Date Title
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US6671669B1 (en) combined engine system and method for voice recognition
US6260012B1 (en) Mobile phone having speaker dependent voice recognition method and apparatus
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US7319960B2 (en) Speech recognition method and system
EP1994529B1 (en) Communication device having speaker independent speech recognition
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
JP4246703B2 (ja) 自動音声認識の方法
US6321195B1 (en) Speech recognition method
US6574596B2 (en) Voice recognition rejection scheme
KR100344552B1 (ko) 음성 인식 다이얼링 전화기용 음성 인식 방법
Nair et al. Multi pattern dynamic time warping for automatic speech recognition
JP4658022B2 (ja) 音声認識システム
KR100287842B1 (ko) 음성다이얼링방법
KR20080002359A (ko) 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
JP4391031B2 (ja) 音声認識装置
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
Elvira et al. Creating user defined new vocabularies for voice dialing.
Al-Haddad An automatic Malay speech recognition system for dysathric
Al-Haddad Speech disorder Malay speech recognition system
KR20060027570A (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
JPH0689100A (ja) 連続音声認識方法
JPH0635499A (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130620

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140619

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20150615

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160617

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20170622

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20180615

Year of fee payment: 17

FPAY Annual fee payment

Payment date: 20190626

Year of fee payment: 18