KR100287842B1 - 음성다이얼링방법 - Google Patents

음성다이얼링방법 Download PDF

Info

Publication number
KR100287842B1
KR100287842B1 KR1019980015108A KR19980015108A KR100287842B1 KR 100287842 B1 KR100287842 B1 KR 100287842B1 KR 1019980015108 A KR1019980015108 A KR 1019980015108A KR 19980015108 A KR19980015108 A KR 19980015108A KR 100287842 B1 KR100287842 B1 KR 100287842B1
Authority
KR
South Korea
Prior art keywords
voice
word
input
frame
feature
Prior art date
Application number
KR1019980015108A
Other languages
English (en)
Other versions
KR19990081261A (ko
Inventor
이윤근
김기백
이병수
이종석
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1019980015108A priority Critical patent/KR100287842B1/ko
Priority to US09/295,523 priority patent/US6321195B1/en
Priority to CN99105366A priority patent/CN1125437C/zh
Publication of KR19990081261A publication Critical patent/KR19990081261A/ko
Application granted granted Critical
Publication of KR100287842B1 publication Critical patent/KR100287842B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

음성 인식에 의한 자동 다이얼링 기능을 수행하는 음성 다이얼링 방법에 관한 것으로서, 특히 사용하고자 하는 전화 번호를 입력하고 그 번호에 해당하는 음성을 입력하면 보코더에서 엔코딩을 수행한 후 엔코딩 결과로 출력되는 정보를 이용하여 음성 구간만을 검출하고 검출된 음성 구간의 특징을 추출하여 메모리에 저장하는 훈련 과정과, 음성이 입력되면 상기 훈련 과정과 동일한 방법으로 음성 구간만을 검출하고 검출된 음성 구간의 특징을 추출한 후 추출된 특징을 상기 훈련 과정에서 저장되어 있는 등록 단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징을 가진 등록 단어를 선택하는 인식 과정과, 상기 인식 과정에서 선택된 등록 단어의 유사도가 일정 임계치 이하이면 인식된 결과가 올바르다고 판단하고 인식 단어에 해당하는 전화 번호로 자동 다이얼링을 수행하는 과정이 수행되어, 이동 전화 단말기에 간단하게 음성 인식 기능을 구현할 수 있으며, 이는 단말기의 사용상 많은 편리함을 줄 수 있다. 또한, 입력 음성과 등록된 기준 음성을 비교시 DTW 방법을 사용하고, 상기 DTW 전단계에서 프리-선택 과정을 수행함으로써, 응답시간을 줄일 수 있다.

Description

음성 다이얼링 방법{SPEECH DIALING METHOD}
본 발명은 음성 인식에 의한 자동 다이얼링 기능을 수행하는 음성 다이얼링 방법에 관한 것이다.
인간은 음성을 이용하여 자신의 의사를 이웃에게 전달한다. 이렇게 인간과 인간 사이의 전달 수단이었던 음성이 이제는 인간과 기계 사이의 통신 수단으로 쓰이게 되었다. 즉, 음성 인식 기술은 일상적으로 사용하는 많은 전기, 전자 기기들을 음성으로 동작시킬 수 있게 하는데 이용된다. 특히, 이동전화에 활용될 경우 사용상에 많은 편리함을 얻을 수 있다.
따라서, 본 발명의 목적은 기존의 음성 인식 알고리즘을 보코더(vocoder)가 내장되어 있는 이동 전화기에 적용하여 음성으로 다이얼링이 가능하도록 하는 음성 다이얼링 방법을 제공함에 있다.
도 1은 본 발명에 따른 음성 인식 전화기의 구성 블록도
도 2는 본 발명에 따른 음성 인식 알고리즘에서 음성 훈련 과정을 수행하기 위한 흐름도
도 3은 본 발명에 따른 음성 인식 알고리즘에서 음성 매칭 과정을 수행하기 위한 흐름도
도 4는 본 발명에서 두 시퀀스의 매칭을 위한 격자점 구성과 탐색 윈도우 설정 상태를 나타낸 도면
도면의 주요부분에 대한 부호의 설명
11 : 마이크 12 : 스피커
13 : 변/복조부 14 : 보코더
15 : 제어부 16 : 데이터 메모리
17 : 프로그램 메모리
상기와 같은 목적을 달성하기 위한 음성 다이얼링 방법은, 음성이 입력되면 변조를 수행한 후 변조된 음성에 대해 엔코딩을 수행하는 보코더가 내장된 전화기의 음성 다이얼링 방법에 있어서, 사용하고자 하는 전화 번호를 입력하고 그 번호에 해당하는 음성을 입력하면 상기 보코더에서 엔코딩을 수행한 후 엔코딩 결과로 출력되는 정보를 이용하여 음성 구간만을 검출하고 검출된 음성 구간의 특징을 추출하여 저장하는 훈련 과정과, 음성이 입력되면 상기 보코더에서 엔코딩을 수행하고 엔코딩 결과로 출력되는 정보를 이용하여 음성 구간만을 검출하고 검출된 음성 구간의 특징을 추출한 후 추출된 특징을 상기 훈련 과정에서 저장되어 있는 등록 단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징을 가진 등록 단어를 선택하는 인식 과정과, 상기 인식 과정에서 선택된 등록 단어의 유사도가 일정 임계치 이하이면 인식 결과가 올바르다고 판단하여 인식 단어에 해당하는 전화 번호로 자동 다이얼링을 수행하는 과정을 포함하여 이루어짐을 특징으로 한다.
상기 훈련 과정 및 인식 과정은 상기 보코더의 엔코딩 결과로 출력되는 코드북 게인을 에너지 정보로 이용하여 입력된 신호 중에서 실제 발성된 음성 구간만을 검출함을 특징으로 한다.
상기 훈련 과정 및 인식 과정은 음성 구간이 검출되면 엔코딩 결과로 출력되는 음성 구간에 해당하는 프레임의 스펙트럼 계수를 특징(feature)으로 추출함을 특징으로 한다.
상기 인식 과정은 음성 구간에 해당하는 프레임의 특징이 추출되면 상기 추출된 특징을 상기 훈련 과정에서 저장한 등록 단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징을 가진 등록 단어를 선택함을 특징으로 한다.
상기 인식 과정은 입력된 음성으로부터 추출한 스펙트럼 계수들과 훈련 과정에서 등록된 각 단어의 스펙트럼 계수를 비교할 때 다이나믹 타임 와핑(DTW)하여 비교함을 특징으로 한다.
상기 인식 과정은 입력 음성과 가장 유사도가 큰 등록 단어를 선택하기 위한 DTW 전 단계로 프리-선택 단계를 수행함을 특징으로 한다.
상기 프리-선택 단계는 매 프레임마다 추출된 스펙트럼 정보의 일부분만을 이용하여 DTW를 수행함에 의해 비교적 유사도가 큰 소정개의 등록 단어를 선택한 후 선택된 등록 단어에 대하여 DTW를 하여 입력 음성과 가장 유사도가 큰 등록 단어를 최종 단어로 선택함을 특징으로 한다.
상기 프리-선택 단계는 리니어 매칭 방법을 이용하여 비교적 유사도가 큰 소정개의 등록 단어를 선택한 후 선택된 등록 단어에 대하여 DTW를 하여 입력 음성과 가장 유사도가 큰 등록 단어를 최종 단어로 선택함을 특징으로 한다.
음성 인식 기술 중 가장 간단한 것은 화자 종속 고립 단어 인식이다. 이는 훈련시킨 사람의 목소리만을 인식할 수 있으며, 단어(또는 짧은 문장) 단위로 발성된 음성만 인식할 수 있다. 이를 위한 음성 인식 알고리즘은 이미 많이 알려져 있는데 크게 음성 구간 검출 과정과 특징(feature) 추출과정, 그리고 매칭 과정으로 나눌 수 있다. 이 과정들은 비교적 많은 계산량을 필요로 하여 고속의 프로세서가 필요하나 현재 시판중인 이동 전화기에는 보코더 칩이 내장되어 여기에서 음성의 스펙트럼 파라미터가 추출되므로 본 발명은 별도의 특징 추출 과정을 거치지 않아도 되는 장점이 있다.
본 발명의 다른 목적, 특징 및 잇점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
이하, 본 발명의 바람직한 실시예를 첨부도면을 참조하여 상세히 설명한다.
도 1은 본 발명에 따른 음성 인식 전화 시스템의 구성 블록도로서, 마이크로 폰(이하, 마이크라 칭함.)(11), 스피커(12), 변/복조부(CODEC)(13), 보코더(14), 제어부(15), 데이터 메모리(16), 및 프로그램 메모리(17)로 구성된다.
이와같이 구성된 도 1에서 마이크(11)는 사용자에 의해 발성되어 입력되는 음성 신호를 전기적 신호로 변환시켜 변/복조부(13)로 출력하고, 스피커(12)는 상기 변/복조부(13)에서 출력되는 음성을 외부로 출력시킨다. 상기 변/복조부(13)는 상기 마이크(11)를 통해 입력된 음성을 PCM(Pulse Code Modulation) 또는 μ-law PCM 데이터로 변조하여 보코더(14)로 출력한다. 또한, 상기 변/복조부(13)는 보코더(14)에서 출력되는 음성 신호를 복조하여 스피커(12)로 출력하기도 한다.
상기 보코더(14)는 PCM 또는 μ-law PCM 데이터를 엔코딩한다. 이때, 상기 보코더(14)의 출력 데이터는 스펙트럼 정보를 나타내는 계수, 음성의 여기신호(Excitation signal)를 모델링하는 정보와 게인등으로 이루어져 있다. 예를 들어, QCELP의 경우는 LSP 계수, 코드북(codebook) 인덱스와 게인, 롱-텀 예측기(long-term predictor)의 지연값과 게인등이다.
그리고, 음성 인식 전화기의 제반 동작을 제어하는 제어부(15)는 음성 인식 기능을 위하여 프로그램 메모리(17)에 저장되어 있는 음성 인식 시퀀스(sequence)에 따라 훈련 과정 및 인식 과정등을 제어하고, 보코더(14)와 데이터를 주고 받으며 필요한 데이터를 메모리(16)에 쓰고 읽는다. 상기 데이터 메모리(16)는 전화기의 동작에 필요한 데이터를 저장하는데, 음성 인식을 위한 등록 단어의 기준 패턴도 저장된다. 상기 프로그램 메모리(17)에는 전화기를 동작시키는 모든 시퀀스가 들어있다.
한편, 음성 인식 알고리즘은 등록 단어에 대한 기준 패턴을 데이터베이스화하기 위한 훈련 과정과 입력되는 음성을 등록 단어들과 비교하여 인식하기 위한 인식 과정으로 분류된다.
먼저, 훈련 과정에서는 도 2에 도시된 바와 같이 인식할 단어를 등록시킨다. 즉, 사용하고자 하는 전화 번호를 입력하고 그 번호에 해당하는 음성을 입력하면 훈련 과정에서는 입력된 음성을 분석하여 특징을 추출한 후 그 특징을 데이터 메모리(16)에 저장하여 놓는다. 각 특징에는 해당 전화번호가 부여된다.
좀더 상세하게는, 사용자가 원하는 전화 번호를 텐키(ten-key)등을 이용하여 입력하면(단계 201), 전화기는 사용자에게 음성을 발성하라는 메시지를 스피커(12)등을 통해 출력한다(단계 202). 따라서, 사용자가 입력된 전화 번호에 해당하는 음성(예를들어, 119에 해당하는 음성은 '소방서')을 마이크(11)를 통해 발성하면(단계 203), 변/복조부(13)는 입력된 음성을 PCM 또는 μ-law PCM 데이터로 변조하고, 상기 보코더(14)는 상기 변/복조부(13)에서 변조되어 입력되는 음성을 엔코딩한다(단계 204). 이때, 음성 신호는 짧은 구간의 신호(즉, 프레임)로 분할되어 각 프레임 단위로 엔코딩된다. 이때, 엔코딩 결과로 스펙트럼 정보, 여기 코드북 게인(excitation codebook gain)등이 출력된다.
그리고, 각 프레임의 에너지 정보를 이용하여 입력된 신호 중에서 실제로 발성된 구간 즉, 음성 구간만을 검출한다(단계 205). 이때, 보코더(14)에서 출력되는 여기 코드북 게인을 에너지 정보로 이용한다. 즉, 코드북 게인은 음성의 크기 정보를 나타내는데, 게인이 일정값 이상이면 음성으로 판별한다.
상기 단계 205에서 음성 구간이 검출되면 음성 구간에 해당하는 프레임의 스펙트럼 계수를 데이터 메모리(16)에 저장한다(단계 206). 즉, 프레임의 음성 신호의 스펙트럼 정보를 음성의 특징으로 이용하는데, 매 프레임마다의 특징을 추출하여 저장 또는 인식에 이용한다. 본 발명은 상기 보코더(14)에서 출력되는 LSP(Linear Spectrum Pairs) 계수를 특징으로 이용한다. 또한, 인식 과정에서 인식 결과를 음성으로 알려주기 위하여 음성 구간에 해당하는 프레임의 모든 엔코딩된 데이터를 상기 데이터 메모리(16)에 저장한다.
그리고나서, 입력할 전화번호가 더 있으면 상기 단계 201로 되돌아가 상기된 과정들을 반복 수행하고, 더 이상 입력할 전화번호가 없으면 종료한다(단계 207).
한편, 인식 과정에서는 도 3에 도시된 바와 같이 인식할 단어를 훈련시 저장된 등록 단어와 비교하여 가장 유사한 단어를 추출해냄에 의해 음성을 인식한다. 즉, 인식 과정에서는 데이터 메모리(16)에 저장된 등록 단어의 특징들을 이용하여 음성이 인식되면 인식된 특징에 해당하는 전화 번호로 자동 다이얼링을 하여 전화를 걸게된다. 예컨대, 음성이 입력되면 입력된 음성을 분석하여 특징을 추출한 후 추출된 특징을 저장되어 있는 등록 단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징을 가진 등록 단어를 선택한다. 이때, 유사도가 일정 수준이상이면 인식된 결과가 올바른 것이라고 판단하여 인식 단어에 해당되는 전화번호로 자동 다이얼링을 수행하고, 인식된 단어의 유사도가 일정 수준 이하이면 등록되지 않은 단어가 발성된 경우일 수 있으므로 인식 과정의 처음으로 다시 돌아간다.
좀더 상세하게 설명하면, 전화기가 사용자에게 음성을 발성하라는 메시지를 스피커(12)등을 통해 출력하면(단계 301), 사용자는 전화를 걸고자 하는곳을 등록된 단어대로 마이크(11)를 통해 발성한다(단계 302). 예를 들어, 119가 '소방서'라고 등록되어 있다면 119에 전화를 하기 위해서는 '소방서'라고 발성한다.
그러면, 도 2의 훈련 과정과 마찬가지로, 변/복조부(13)는 입력된 음성을 PCM 또는 μ-law PCM 데이터로 변조하고, 보코더(14)는 상기 변/복조부(13)에서 변조되어 입력되는 음성을 엔코딩한다(단계 303). 이때, 음성 신호는 짧은 구간의 신호(즉, 프레임)로 분할되어 각 프레임 단위로 엔코딩되고, 엔코딩 결과로 스펙트럼 정보, 여기 코드북 게인(excitation codebook gain)등이 출력된다. 그리고, 입력되는 음성 신호 중에서 실제로 발성된 구간 즉, 음성 구간만을 검출하는데, 보코더(14)에서 출력되는 여기 코드북 게인을 에너지 정보로 이용한다(단계 304). 즉, 상기 단계 301 내지 304는 도 2의 훈련 과정과 동일하게 진행된다.
한편, 상기 단계 304에서 음성 구간이 검출되면 입력된 음성과 가장 유사한 음성을 등록되어 있는 음성 중에서 찾는 매칭 과정을 수행한다(단계 305). 즉, 저장되어 있는 등록 단어의 특징들과 입력되는 음성의 특징을 비교하여 입력 특징과 가장 유사한 등록 단어의 특징을 선택하는데, 이것이 인식 결과이다. 이를 위해 입력된 음성으로부터 추출한 스펙트럼 계수들과 훈련 과정에서 등록된 각 단어의 스펙트럼 계수를 비교하여 유사도를 계산한다. 그리고, 등록되어 있는 각 단어에 대한 유사도를 모두 계산한 후 가장 유사한 등록 단어를 추출한다. 유사도를 측정할 때 입력 음성과 저장되어 있는 음성의 발성 속도가 다를 수 있으므로 음성의 발성 속도에 따른 오차를 줄이기 위하여 이들을 타임 와핑(time-warping)하여 비교하는데 여기서, DTW (Dynamic Time Warping)방법이 이용된다.
즉, 동일한 사람이 동일한 단어를 발성하여도 그때마다 발음 속도의 차이로 인하여 시간축 상에서 비선형으로 신축한다. 이러한 시간축상에서의 변동을 제거하기 위해서 테스트 패턴(즉, 입력되는 음성)을 기준 패턴(즉, 저장되어 있는 등록 단어)과 비교하여 두 패턴 사이의 유사성을 결정하는 시간축 정규화 계산 방법이 DTW이다. 예컨대, 테스트 패턴과 기준 패턴 사이에 시간 구간이 일치하지 않으므로 비선형적인 시간 와핑(Time warping) 방법을 통해서 타임 스케일(time scale)을 정하게 된다. 이러한 타임 스케일의 결정은 DTW 방법을 통해 실현되며 이 방법을 사용하면 입력 패턴과 기준 패턴 사이의 최대 유사성을 갖는 경로를 다이나믹하게 결정할 수 있으므로, 단어경계 검출, 비선형 타임 정렬(alignment) 및 인식의 세 과정이 동시에 이루어진다. 따라서, 단어 경계 및 타임 정렬에서 발생된 오류에 의해 인식 오류가 발생될 경우는 없어진다.
DTW를 위해 먼저, 매칭하고자 하는 두 시퀀스의 길이를 도 4에서와 같이 각각 N,M이라 정한다. 이때, 비교하고자 하는 시퀀스 길이 M,N중 큰 쪽이 작은 쪽의 2배가 넘으면 같을 확률이 거의 없으므로 매칭 과정을 수행하지 않고 매칭 디스토션(matching distortion)을 미리 정해둔 최대값으로 준다. 이는 입력된 단어와 등록된 단어가 2배이상 차이가 나므로 같을 확률이 거의 없어 인식된 단어의 유사도 판별시 제외시키기 위해서이다.
그리고, 두 개의 시퀀스를 매칭하기 위해서 M×N개의 격자점을 갖는 2차원의 수직 좌표계를 만든다. 이때, 저장된 등록 단어 즉, 기준 패턴의 프레임과 입력된 음성 즉, 테스트 패턴의 프레임 길이를 비교하여 더 긴 프레임을 갖는 패턴을 M축에 위치하도록 하면 계산을 원할히 할 수 있게된다.
이때, 최적 패스 탐색 범위를 제한하여 불필요한 계산을 줄이기 위하여 윈도우를 설정한다. 즉, 같은 사람이 발성을 하면 큰 변화가 없으므로 윈도우를 설정하여 탐색 구간을 제한한다.
여기서, 윈도우 설정은 여러 가지가 있는데, 본 발명에서는 기울기 계산이 필요없이 윈도우 설정이 용이하며, 계산량이 빨라져 응답 속도를 빠르게 하기 위해 윈도우를 다음과 같이 결정한다.
먼저, 시작 격자점(1,1)과 끝 격자점(M,N)에서부터 각각 기울기 1을 갖는 사선을 긋는다. 이로부터 정해진 값(), 여기서, N은 프레임의 개수이고, n은 자연수이며, n이 2일때가 가장 적당하다.)만큼 양쪽으로 사선을 이동시키면 두 사선 사이의 격자점들이 매칭을 위해 탐색하게 되는 구간이 된다. 이때, 윈도우의 폭을로 정함으로써, 나눗셈은 복잡한 제산기가 필요없이 쉬프터를 이용하면 되므로 효율적이다. 여기서, N은 테스트 패턴의 프레임 수일수도 있고, 기준 패턴의 프레임 수일수도 있다.
그리고, 탐색하는 윈도우 내에서 격자점(m,n)은 두 시퀀스의 m번째 특징과 n번째 특징까지의 최소 누적 거리값을 갖게된다. 이때, 특징 값을 0∼5000 사이의 정수값을 갖도록 스케일링한다.
또한, 각 격자점에서의 두 특징간의 거리는 아래의 수학식 1의 dm,n과 같이 정의된다.
즉, 두 특징의 각 차수에 해당하는 값의 차이를 모두 더하여 각 특징간의 거리를 구한다. 이때, 격자점(m,n)에서의 최소 누적 거리는 수학식 1과 같이 계산하며 그 값이 정수의 범위가 넘는 값이 나올때는 최대 정수값으로 대치한다.
그리고, 맨 아래의 열부터 시작하여 위로 순차적으로 올라가면서 탐색 범위 내에 들어있는 격자점에 대하여 최소 누적 거리값을 구한다. 현재의 열의 최소 누적 거리값을 구하기 위해서 바로 아래열의 최소 누적 거리값이 필요하므로 이를 저장한다.
최종 매칭 스코어는 격자점(M,N)에서의 최소 누적 거리를 두 시퀀스 길이의 합(M+N)으로 나눈 값이 된다.
p : 특징의 차수
한편, 등록된 각 단어의 수만큼 상기와 같이 DTW를 수행하여 등록되어 있는 각 단어에 대한 유사도가 모두 계산되면 가장 유사한 등록 단어를 추출한다. 즉, 가장 유사한 등록 단어와 입력 음성의 유사도가 일정 수준이상 예컨대, 일정 임계치 이하이면 인식된 결과가 올바른 것이라고 판단한다. 이와 같이, 매칭 과정이 성공하면(단계 306), 그 결과에 따라 등록 단어의 전화번호로 자동 다이얼링을 수행하여 전화를 건다(단계 307).
또한, 가장 유사한 등록 단어와 입력 음성의 유사도가 일정 임계치 이상일 경우 등록되어 있지 않은 음성이 입력된 것으로 판별하고 단계 301로 되돌아가 다시 음성을 받아들인다. 이 단계는 필요에 따라 첨가될 수도 삭제될 수도 있다.
한편, DTW 알고리즘은 계산량이 많으므로 응답시간이 길어진다. 이를 개선하기 위하여 프리-선택(Pre-selection) 과정을 거칠 수 있다. 즉, 입력 음성과 가장 유사도가 큰 등록 단어를 고르기 위한 전 단계로서, 비교적 유사도가 큰 몇 개의 등록 단어를 간단한 계산으로 구한다. 이와 같이 등록 단어의 후보를 줄이면 DTW 알고리즘의 수행 횟수를 줄일 수 있으므로 응답속도를 개선할 수 있다.
이때, 프리-선택 방법 중 하나는 매 프레임마다 추출된 스펙트럼 정보의 일부분만을 이용하여 DTW를 수행함에 의해 N개의 후보를 결정하고 이 후보에 대하여 DTW를 하여 최종 후보를 결정하는 방법이다. 여기서, 일부분의 정보는 스펙트럼 계수의 차수를 줄이는 법, 프레임을 서브샘플링하는 법, 두 가지를 혼용한 법등이 있다. 다른 하나는 DTW보다 계산량이 적은 리니어 매칭 방법을 이용하여 N개의 후보를 결정하고 이 후보에 대하여 DTW를 하여 최종 후보를 결정하는 방법이다.
본 발명에서는 실시예로 전자의 방법을 이용하였으며, 10차의 LSP 계수중 4개를 사용하여 프레임마다 발생되는 코드의 수를 줄였고 프레임을 2:1로 서브샘플링하여 최적 패스 탐색시 프레임을 하나씩 스킵하도록 하였다.
이상에서와 같이 본 발명에 따른 음성 다이얼링 방법에 의하면, 이동 전화 단말기의 보코더에서 출력되는 코드북 게인을 이용하여 음성 구간만을 검출하고, 스펙트럼 파라메터를 특징으로 이용함에 의해 적은 부가 계산으로 단말기에 음성 인식 기능을 적용함으로써, 이동 전화 단말기에서 간단하게 음성 인식 기능을 구현할 수 있으며, 이는 단말기의 사용상 많은 편리함을 줄 수 있다. 또한, 입력 음성과 등록된 기준 음성을 비교하는데에 DTW 방법을 사용하고, 상기 DTW 전단계에서 프리-선택 과정을 수행함으로써, 음성 인식에 대한 응답시간을 줄일 수 있다.
그리고, 본 발명은 이와 유사한 PDA등에도 적용하여 같은 효과를 얻을 수 있다.

Claims (14)

  1. 음성이 입력되면 변조를 수행한 후 변조된 음성 신호에 대해 엔코딩을 수행하는 보코더가 내장된 전화기의 음성 다이얼링 방법에 있어서,
    사용하고자 하는 전화 번호를 입력하고 그 번호에 해당하는 음성을 입력하면 상기 보코더에서 엔코딩을 수행한 후 엔코딩 결과로 출력되는 정보를 이용하여 음성 구간만을 검출하고 검출된 음성 구간의 특징을 추출하여 저장하는 훈련 과정을 수행하는 제 1 단계와;
    사용자가 전화를 걸고자 하는 곳을 음성으로 입력하면 입력된 음성에 대해 변조를 수행한 수 상기 보코더로 출력하여 음성 신호를 프레임 단위로 분할하고 각 프레임 단위로 엔코딩을 수행하는 제 2 단계와,
    상기 제 1 단계의 엔코딩 결과로 출력되는 코드북 게인을 에너지 정보로 이용하여 입력된 신호 중에서 실제 발성된 음성 구간만을 검출하는 제 3 단계와,
    상기 제 2 단계에서 음성 구간이 검출되면 엔코딩 결과로 출력되는 음성 구간에 해당하는 프레임의 스펙트럼 계수를 특징(feature)으로 추출한 후 추출된 특징을 상기 훈련 과정에서 저장한 등록 단어의 특징들과 비교하여 입력 음성과 가장 유사한 특징을 가진 등록 단어를 선택하는 제 4 단계와,
    제 3 단계에서 선택된 등록단어의 유사도가 일정 임계치 이하이면, 인식결과가 바르다고 판단하여 인식단어에 해당하는 전화번호로 자동 다이얼을 수행하는 제 5 단계를 포함하여 이루어짐을 특징으로 하는 음성 다이얼링 방법.
  2. 제 1 항에 있어서, 상기 제 1 단계는
    사용자가 원하는 전화 번호를 입력하고 그 번호에 해당하는 음성을 입력하면 입력된 음성에 대해 변조를 수행한 후 상기 보코더로 출력하여 음성 신호를 프레임단위로 분할하고 각 프레임 단위로 엔코딩을 수행하는 제 1 단계와,
    상기 제 1 단계의 엔코딩 결과로 출력되는 코드북 게인을 에너지 정보로 이용하여 입력된 신호 중에서 실제 발성된 음성 구간만을 검출하는 제 2 단계와,
    상기 제 2 단계에서 음성 구간이 검출되면 엔코딩 결과로 출력되는 음성 구간에 해당하는 프레임의 스펙트럼 계수를 특징(feature)으로 하여 저장하는 제 3 단계와,
    상기 제 3 단계가 수행된 후 입력할 전화번호가 더 있으면 상기 제 1 단계로 되돌아가 상기된 과정들을 반복 수행하는 제 4 단계로 이루어짐을 특징으로 하는 음성 다이얼링 방법.
  3. 제 2 항에 있어서, 상기 제 3 단계는 상기 보코더에서 출력되는 LSP 계수를 특징으로 이용함을 특징으로 하는 음성 다이얼링 방법.
  4. 제 2 항에 있어서, 상기 제 3 단계는 상기 인식 과정에서 인식 결과를 음성으로 알려주기 위하여 음성 구간에 해당하는 프레임의 모든 엔코딩된 데이터를 저장함을 특징으로 하는 음성 다이얼링 방법.
  5. 제 1 항에 있어서, 상기 제 4 단계는
    입력된 음성으로부터 추출한 스펙트럼 계수들과 훈련 과정에서 등록된 각 단어의 스펙트럼 계수를 비교할 때 다이나믹 타임 와핑(DTW)하여 비교함을 특징으로 하는 음성 다이얼링 방법.
  6. 제 5 항에 있어서, 상기 다이나믹 타임 와핑은
    입력 음성의 특징과 저장된 등록 단어의 특징 셋트의 두 시퀀스를 매칭하기 위해서 M×N개(M,N은 입력 음성의 프레임 수와 등록 단어의 프레임 수)의 격자점을 갖는 2차원의 수직 좌표계를 만드는 단계와,
    상기 2차원의 수직 좌표계의 시작 격자점(1,1)과 끝 격자점(M,N)에서부터 각각 기울기 1을 갖는 사선을 긋고, 이로부터 정해진 값(, 여기서, N은 프레임의 개수이고, n은 자연수)만큼 양쪽으로 사선을 이동시켜 매칭을 위한 탐색 구간을 정하는 단계와,
    상기 탐색 구간의 각 열의 각 격자점에서의 두 특징간의 거리를 계산하여 두 특징 사이의 거리가 최소가 되는 패스를 선택하는 단계와,
    상기 탐색 구간의 모든 열에 대해서 상기 최소 패스 선택 단계를 반복하는 단계와,
    상기 끝 격자점(M,N)에서의 최소 누적 거리를 두 시퀀스 길이의 합(M+N)으로 나누어 최종 매칭 스코어를 계산하는 단계로 이루어짐을 특징으로 하는 음성 다이얼링 방법.
  7. 제 6 항에 있어서, 각 격자점에서의 두 특징간의 거리는 두 특징의 각 차수에 해당하는 값의 차이를 모두 더하여 구하며, 하기의 방정식으로 정의함을 특징으로 하는 음성 다이얼링 방법.
    여기서, Dm,n: 격자점(m,n)에서의 최소누적거리,
    dm,n: 격자점(m,n)에서의 두 특징간의 거리
    ,
    ai 1,m: 첫번째 시퀀스의 m번째 특징의 i차 값,
    ai 2,n: 두번째 시퀀스의 n번째 특징의 i차 값,
    P : 특징의 차수.
  8. 제 7 항에 있어서,
    각 격자점(m,n)에서의 최소 누적 거리 값이 정수의 범위가 넘을때는 최대 정수값으로 대치함을 특징으로 하는 음성 다이얼링 방법.
  9. 제 1 항에 있어서, 상기 제 4 단계는 입력 음성과 가장 유사도가 큰 등록 단어를 선택하기 위한 전 단계로 프리-선택 단계를 수행함을 특징으로 하는 음성 다이얼링 방법.
  10. 제 9 항에 있어서, 상기 프리-선택 단계는 매 프레임마다 추출된 스펙트럼 정보의 일부분만을 이용하여 DTW를 수행함에 의해 비교적 유사도가 큰 소정개의 등록 단어를 선택한 후 선택된 등록 단어에 대하여 DTW를 하여 입력 음성과 가장 유사도가 큰 등록 단어를 최종 단어로 선택함을 특징으로 하는 음성 다이얼링 방법.
  11. 제 10 항에 있어서, 상기 프리-선택 단계는 매 프레임마다 추출된 스펙트럼 계수의 차수를 줄인 후 DTW를 수행함에 의해 비교적 유사도가 큰 소정개의 등록 단어를 선택함을 특징으로 하는 음성 다이얼링 방법.
  12. 제 10 항에 있어서, 상기 프리-선택 단계는 프레임을 서브샘플링하여 프레임 수를 줄인 후 DTW를 수행함에 의해 비교적 유사도가 큰 소정개의 등록 단어를 선택함을 특징으로 하는 음성 다이얼링 방법.
  13. 제 10 항에 있어서, 상기 프리-선택 단계는 매 프레임마다 추출된 스펙트럼 계수의 차수를 줄이고, 프레임을 서브샘플링한 후 DTW를 수행함에 의해 비교적 유사도가 큰 소정개의 등록 단어를 선택함을 특징으로 하는 음성 다이얼링 방법.
  14. 제 10 항에 있어서, 상기 프리-선택 단계는 리니어 매칭 방법을 이용하여 비교적 유사도가 큰 소정개의 등록 단어를 선택한 후 선택된 등록 단어에 대하여 DTW를 하여 입력 음성과 가장 유사도가 큰 등록 단어를 최종 단어로 선택함을 특징으로 하는 음성 다이얼링 방법.
KR1019980015108A 1998-04-28 1998-04-28 음성다이얼링방법 KR100287842B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1019980015108A KR100287842B1 (ko) 1998-04-28 1998-04-28 음성다이얼링방법
US09/295,523 US6321195B1 (en) 1998-04-28 1999-04-21 Speech recognition method
CN99105366A CN1125437C (zh) 1998-04-28 1999-04-28 语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980015108A KR100287842B1 (ko) 1998-04-28 1998-04-28 음성다이얼링방법

Publications (2)

Publication Number Publication Date
KR19990081261A KR19990081261A (ko) 1999-11-15
KR100287842B1 true KR100287842B1 (ko) 2001-05-02

Family

ID=37517320

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980015108A KR100287842B1 (ko) 1998-04-28 1998-04-28 음성다이얼링방법

Country Status (1)

Country Link
KR (1) KR100287842B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100897553B1 (ko) 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치

Also Published As

Publication number Publication date
KR19990081261A (ko) 1999-11-15

Similar Documents

Publication Publication Date Title
US6321195B1 (en) Speech recognition method
US6260012B1 (en) Mobile phone having speaker dependent voice recognition method and apparatus
US7319960B2 (en) Speech recognition method and system
US6671669B1 (en) combined engine system and method for voice recognition
US6400805B1 (en) Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US6754629B1 (en) System and method for automatic voice recognition using mapping
US6922668B1 (en) Speaker recognition
US6836758B2 (en) System and method for hybrid voice recognition
KR100698811B1 (ko) 음성 인식 거부 방식
WO1995030222A1 (en) A multi-pulse analysis speech processing system and method
JPH0465392B2 (ko)
KR100287842B1 (ko) 음성다이얼링방법
CN111341320B (zh) 短语语音的声纹识别方法及装置
KR100811554B1 (ko) 음성 다이얼링 기능을 갖는 통신 단말기 및 음성 다이얼링방법
KR100344552B1 (ko) 음성 인식 다이얼링 전화기용 음성 인식 방법
KR100395222B1 (ko) 음성사서함서비스(브이엠에스)를 위한 음성인식시스템
US5956677A (en) Speech recognizer having a speech data memory storing speech data and a reference pattern memory storing partial symbol trains of words for recognition
JP3175667B2 (ja) ベクトル量子化法
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
KR19980046489A (ko) 음성신호처리장치의 음성인식방법
JP2000020087A (ja) 音声認識装置および記憶媒体
JP2004157919A (ja) 入力装置及び音声入力方法と装置並びにプログラム
KR20010069650A (ko) 숫자로 구성된 어휘를 인식하고 동시에 발성화자를인증하는 방법 및 그 시스템
JPH02136898A (ja) 音声ダイヤリング装置
JPH06308994A (ja) 日本語音声認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080102

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee