KR100344552B1

KR100344552B1 - 음성 인식 다이얼링 전화기용 음성 인식 방법

Info

Publication number: KR100344552B1
Application number: KR1020000003446A
Authority: KR
Inventors: 백종관; 이윤근
Original assignee: (주) 보이스웨어
Priority date: 2000-01-25
Filing date: 2000-01-25
Publication date: 2002-07-20
Also published as: KR20000024138A

Abstract

본 발명의 음성 인식 다이얼링 전화기용 음성 인식 방법은 기존의 DTW 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 이용하는 단계로 이루어진다.

Description

음성 인식 다이얼링 전화기용 음성 인식 방법{Method of Speech Recognition for Dialing}

발명의 분야

본 발명은 음성 인식에 관한 것이다. 보다 구체적으로 본 발명은 음성인식전화기에 적용하기 위한 것으로 기존의 DTW (Dynamic Time Warping) 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하고, 음성 구간 수정시 매칭 스코어의 로칼 최저값 정보를 이용하여 주변 잡음이 많은 경우에 인식 성능을 향상시키기 위한 방법에 관한 것이다.

발명의 배경

음성 인식에 의해 다이얼링을 하는 기술은 현재 몇몇 휴대폰에 이미 적용되고 있다. 이는 일반 휴대폰에 적용되어 사용 편의성을 증대시키는 측면 이외에 차량용 핸즈프리(hands free)에 적용될 경우 사고 위험성을 줄이는 등 매우 중요한 역할을 담당한다. 그러나 현재 휴대폰에 적용된 알고리즘은 잡음환경에 취약하여 인식률이 저조한 단점이 있다. 일반적으로 휴대 전화에는 화자 종속 단어 인식 알고리즘이 적용되며 이 경우 패턴 매칭 방법으로 DTW (Dynamic Time Warping) 방법이 많이 쓰인다. DTW 방법은 음성 구간 검출의 정확도에 따라 성능이 크게 좌우되는 단점이 있는데 잡음환경에서는 음성 구간이 정확히 검출되지 않아 인식 성능이 저하된다. 본 발명에서는 음성 구간 검출이 정확하지 않아도 좋은 성능을 발휘할 수 있도록 기존의 DTW 알고리즘을 개선하였다.

본 발명의 목적은 종래의 음성 인식 방법의 잡음환경에서의 성능 저하를 개선한 방법을 제공하기 위한 것이다.

본 발명의 다른 목적은 잡음환경에 강인한 음성 인식 방법을 휴대폰의 음성 다이얼링 기능에 적용하여 음성인식 휴대폰을 제공하기 위한 것이다.

본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.

제1도는 음성 인식 전화기의 음성인식 하드웨어의 구성도이다.

제2도는 음성 인식 전화기의 음성 인식 과정의 흐름도이다.

제3도는 음성 매칭 단계에서 두 시퀀스의 매칭을 위한 격자점을 도시하는 도표이다.

제4도는 음성인식에 있어서 전방향 및 후방향 DTW 방법의 흐름도이다.

제5도는 음성인식에 있어서 전방향 및 후방향 DTW의 탐색경로의 한 예를 도시하는 도표이다.

본 발명의 음성 인식 다이얼링 전화기용 음성 인식 방법은 기존의 DTW 알고리즘의 잡음환경에서의 성능을 향상시키기 위하여 음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 이용하는 단계로 이루어진다. 이하 첨부된 도면을 참고로 본 발명의 내용을 하기에 상세히 설명한다.

제1도는 음성 인식 전화기의 음성인식 하드웨어의 구성도이다. 음성 인식 전화기의 음성인식 하드웨어는 스피커, 마이크로폰, 코덱, 보코더, 콘트롤러, 데이터 메모리 및 프로그램 메모리로 이루어진다. 스피커는 음성을 출력하기 위한 수단이고, 마이크로폰은 음성을 입력하기 위한 수단이다. 코덱(Codec)은 마이크로폰을 통해 입력된 음성을 PCM 또는 m-law PCM 데이터로 바꾸어 준다. 보코더(Vocoder)는 상기 코덱의 PCM 또는 m-law PCM 데이터를 엔코딩(encoding) 한다. 출력 데이터는 스펙트럼 정보를 나타내는 계수, 음성의여기신호(excitation signal)를 모델링하는 정보와 게인(gain) 등으로 이루어져 있다. 예를 들어 QCELP의 경우는 LSP 계수, codebook index와 gain, long-term predictor의 delay값과 gain 등이다. 콘트롤러는 음성 인식 전화기의 제반 동작을 제어한다. 음성 인식 기능을 위하여 프로그램 메모리에 저장되어 있는 음성 인식 시퀀스에 따라 훈련 과정 및 인식 과정 등을 제어하며 보코더와 데이타를 주고 받으며 필요한 데이타를 메모리에 쓰고 읽는다. 데이터 메모리는 전화기의 동작에 필요한 데이터를 저장하고, 프로그램 메모리는 전화기를 동작시키는 모든 시퀀스가 들어 있다.

제2도는 음성 인식 전화기의 음성 인식 과정의 흐름도이다. 음성 입력 안내에 따라 음성이 입력되면 음성을 엔코딩(encoding) 하고 음성이 갖는 특징들(features)을 추출한다. 추출된 특징을 저장되어 있는 등록단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징들을 가진 등록 단어를 선택한다. 유사도가 일정 수준 이상이면 인식된 결과가 올바른 것이라고 보고 인식 단어에 해당되는 전화번호로 전화를 건다. 인식된 단어의 유사도가 일정 수준 이하이면 등록되지 않은 단어가 발성된 경우일 수 있으므로 인식과정의 처음으로 다시 돌아가 다시 음성 입력 안내를 하게 된다.

제3도는 음성 매칭 단계에서 두 시퀀스의 매칭을 위한 격자점을 도시하는 도표이고, 제4도는 음성인식에 있어서 전방향 및 후방향 DTW 방법의 흐름도이며, 제5도는 음성인식에 있어서 전방향 및 후방향 DTW의 탐색경로의 한 예를 도시하는 도표이다.

종래의 DTW 방법은 다음과 같다. 매칭(matching) 하고자 하는 두 시퀀스의 길이를 각각 N, M 이라고 할 때, 두 개의 시퀀스를 매칭하기 위해서 도면3과 같이 M x N개의 격자점을 갖는 2차원의 수직 좌표계를 만든다. 탐색하는 격자점(m,n)은 두 시퀀스의 m 번째 특징과 n 번째 특징까지의 최소 누적거리값을 갖게 된다. 각 격자점에서의 두 특징간의 거리는 아래의 식의 d_m,n으로 정의된다. 즉, 두 특징의 각 차수에 해당하는 값의 차이를 모두 더하여 각 특징간의 거리를 구한다. 격자점(m,n)에서의 최소누적거리(D_m,n)는 하기식에 의하여 계산한다. 맨 아래의 열부터 시작하여 위로 순차적으로 올라가면서 모든 격자점에 대하여 최소누적거리값을 구한다. 최종 매칭거리는 격자점(M,N)에서의 최소누적거리를 두 시퀀스 길이의 합 (M+N)으로 나눈 값이 된다.

본 발명에 따른 전방향 및 후방향 DTW 방법은 다음과 같다. 전방향 DTW를 기존 DTW와 동일한 방법으로 수행한다. 즉 격자점(0, 0)으로부터 시작하여격자점(M, N)까지 진행한다. 격자점 중 기준패턴 또는 테스트 패턴의 끝에 도달한 격자점, 즉 (M, n) 또는 (m, N) 에 해당하는 격자점에 대해 매칭 거리를 비교한다. 이중 최소 매칭 거리를 갖는 격자점을 (X, Y)라 한다. 위에서 구한 격자점 (X, Y)가 수정된 음성 끝점이 된다. 수정된 음성 끝점으로부터 시작하여 후방향 DTW를 수행한다. 즉 격자점 (X, Y)로 부터 시작하여 격자점 (0, 0)까지 진행한다. 격자점 중 기준 패턴 또는 테스트 패턴의 시작점에 도달한 격자점, 즉 (0, n) 또는 (m, 0)에 해당하는 격자점에 대해 매칭 거리를 비교한다. 이중 최소 매칭 거리를 갖는 매칭점이 수정된 음성 시작점이 되며 이때의 매칭거리가 해당 기준 패턴과 테스트 패턴과의 거리가 되므로 이를 출력한다.

본 발명은 기존 음성 인식 전화기에 탑재되어 있는 패턴 매칭 방법을 개선하여 잡음환경에서도 성능이 우수하도록 함으로써 단말기의 사용 편리성을 증대시겼다. 또한, 본 발명은 이와 유사한 PDA등에도 적용하여 같은 효과를 얻을 수 있다.

본 발명은 종래의 음성 인식 방법의 잡음환경에서의 성능 저하를 개선한 방법을 제공하고, 잡음환경에 강인한 음성 인식 방법을 휴대폰의 음성 다이얼링 기능에 적용하여 음성인식 휴대폰을 제공하는 발명의 효과를 갖는다.

본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 실시될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.

Claims

음성 입력 안내에 따라 음성이 입력되면 음성을 엔코딩(encoding) 하고 음성이 갖는 특징들(features)을 추출하고;

음성의 전방향 및 후방향 탐색과정을 수행하고, 상기 전방향 및 후방향 탐색시 부정확하게 검출된 음성 시작점 및 끝점을 수정하며, 상기 음성 구간 수정시 매칭 스코어의 로칼(local) 최저값 정보를 출력하는 방법으로 추출된 특징을 저장되어 있는 등록단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징들을 가진 등록 단어를 매칭하고; 그리고

유사도가 일정 수준 이상이면 인식된 결과가 올바른 것이라고 보고 인식 단어에 해당되는 전화번호로 전화를 거는;

단계로 이루어지는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.
삭제
제1항에 있어서, 상기 매칭 단계가 격자점(0, 0)으로부터 시작하여 격자점(M, N)까지 진행하는 전방향 DTW를 수행하고;

격자점 중 기준패턴 또는 테스트 패턴의 끝에 도달하는 격자점 (M, n) 또는(m, N) 에 해당하는 격자점에 대해 매칭 거리를 비교하고;

최소 매칭 거리를 갖는 격자점 (X, Y)이 수정된 음성 끝점으로부터 시작하여 후방향 DTW를 수행하여 격자점 (X, Y)로부터 시작하여 격자점 (0, 0)까지 진행하고; 격자점 중 기준 패턴 또는 테스트 패턴의 시작점에 도달한 격자점 (0, n) 또는 (m, 0)에 해당하는 격자점에 대해 매칭 거리를 비교하고; 그리고

최소 매칭 거리를 갖는 매칭점이 수정된 음성 시작점이 되며 이때의 매칭거리를 출력하는;

단계로 이루어지는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.
제1항에 있어서, 상기 인식된 단어의 유사도가 일정 수준 이하이면 인식과정의 처음으로 다시 돌아가 다시 음성 입력 안내를 하게 되는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 전화기의 다이얼링 방법.