KR100366057B1 - 인간 청각 모델을 이용한 효율적인 음성인식 장치 - Google Patents

인간 청각 모델을 이용한 효율적인 음성인식 장치 Download PDF

Info

Publication number
KR100366057B1
KR100366057B1 KR1020000035286A KR20000035286A KR100366057B1 KR 100366057 B1 KR100366057 B1 KR 100366057B1 KR 1020000035286 A KR1020000035286 A KR 1020000035286A KR 20000035286 A KR20000035286 A KR 20000035286A KR 100366057 B1 KR100366057 B1 KR 100366057B1
Authority
KR
South Korea
Prior art keywords
feature
fir filter
voice
unit
signal
Prior art date
Application number
KR1020000035286A
Other languages
English (en)
Other versions
KR20020005205A (ko
Inventor
이수영
김창민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020000035286A priority Critical patent/KR100366057B1/ko
Priority to US09/765,650 priority patent/US6947891B2/en
Publication of KR20020005205A publication Critical patent/KR20020005205A/ko
Application granted granted Critical
Publication of KR100366057B1 publication Critical patent/KR100366057B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성인식장치에 관한 것이다.
종래의 음성 인식 장치는 ASIC 구현이 어렵기 때문에 소프트웨어만 처리하든가 아니면 DSP를 이용하여 복잡한 시스템을 구성해야 하므로 실생활에 응용하기가 어려웠다.
본 발명에서는 아날로그 음성 신호를 디지털 신호로 변환하는 A/D 변환기와 상기 A/D 변환기에서 변환된 디지털 신호를 powers-of-two 변환을 이용하여 다수의 채널로 필터링하는 FIR 필터 처리부와, FIR 필터 처리부의 출력 신호로부터 잡음에 강한 음성특징을 메모리를 추가로 사용하지 않고 빠른 시간 안에 추출하는 특징추출부, 상기 특징추출부에서 추출된 음성특징에 기초하여 음성신호의 시작점과 끝점 정보를 판별하는 워드 경계검출부, 특징추출부로 부터 제공되는 음성특징과 워드 경계검출부로부터의 음성신호의 시작과 끝점 정보에 기초하여 시간 정규화 및 RBF 신경 회로망을 이용한 분류 과정을 거쳐 최종의 결과를 코딩하여 출력하는 인식부를 구비함으로서 외부 잡음에 둔감하며, 실생활에 응용이 가능한 음성 인식 장치가 제시된다.

Description

인간 청각 모델을 이용한 효율적인 음성인식 장치{Efficient Speech Recognition System based on Auditory Model}
본 발명은 음성 인식 장치에 관한 것으로, 특히 외부 잡음에 둔감하고 효율적인 계산을 함으로서, 실생활에 응용이 가능한 음성 인식 장치에 관한 것이다.
최근 음성인식 분야가 발달하면서 그 용도가 다양화되고 있다.
도 1은 종래의 음성 인식 장치를 개략적으로 도시한 블럭 구성도이다.
도 1에 도시된 바와 같이, 음성 인식 장치는 크게 특징 추출부(2)와 인식기(4)로 구성된다. 즉, 입력 음성 신호는 기존의 특징 추출 방법으로 LPC(Linear Prediction Coding Analysis)등과 같은 방법을 이용하였고, 인식기는 HMM(Hidden Markov Model)과 같은 방법을 많이 이용하였다.
또한, 실제 전자제품 등에 응용이 가능한 음성인식장치로써, 사람의 청각 모델과 신경회로망을 이용한 것이 개발되었다. 이와 같은 종래의 음성인식장치는 특허 제10-0180651호(음성인식장치)로 1998년 12월 2일에 특허등록되어 공지되어 있다.
상기 공지된 특허 발명을 개략적으로 살펴보면, 아날로그 음성신호를 디지털신호로 변환하기 위한 A/D 변환기와, 상기 A/D 변환기에서 변환된 12비트의 디지털신호를 소정개의 채널로 필터링하는 필터처리부와, 상기 필터처리부의 출력신호로부터 잡음에 강한 음성특징을 추출하고 이 추출된 결과를 출력하는 특징 추출부와, 상기 디지털신호로 변환된 음성신호에 기초하여 이 음성신호의 시작점과 끝점 정보를 판별하는 워드 경계검출부와, 상기 특징 추출부로부터 제공되는 음성특징과 상기 워드경계 검출부로부터의 음성신호의 시작과 끝점 정보에 기초하여 시간 정규화 및 신경회로망을 이용한 분류과정을 거쳐 최종의 결과를 코딩하여 출력하는 분석처리부로 구성되어 있다.
그러나 상기 종래의 음성인식장치는 특징추출방법으로 LPC 등과 같은 방법을 사용하고, 인식기로써 HMM 방법을 사용함으로써 ASIC구현이 어렵기 때문에 소프트웨어만 처리하든가 아니면 DSP를 이용하여 복잡한 시스템을 구성해야만 함으로 실생활에 응용하기 어려웠다.
또한, 상기 종래의 공지된 특허 발명인 음성인식장치는 상기 필터처리부의 A/D변환기에서 처리된 디지털신호가 다수의 채널로 필터링되어 파워소모가 크고, 또한 단어의 경계검출을 먼저하고 음성특징을 나중에 추출함으로써 그 효율성이 떨어지는 문제점이 있다.
따라서, 본 발명은 상기한 문제점을 해결하기 위한 것으로써, 본 발명의 목적은 사람의 청각 모델과 신경회로망을 이용하여 외부 잡음에 둔감하고, 실제 생활에서도 응용이 가능하고, FIR 필터를 이용하고, powers - of - two 변환을 이용하여 덧셈과 쉬프트 연산만으로 필터뱅크를 구축한 필터링시 파워 소모가 적고, 효율성이 좋은 음성 인식 장치를 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위하여, 본 발명에 따른 음성 인식 장치는 아날로그 음성 신호를 디지털 신호로 변환하는 A/D 변환기와, A/D 변환기에서 변환된 12비트의 디지털 신호를 16개의 채널로 필터링하는 powers-of-two 변환을 이용한 FIR 필터 처리부와, 상기 FIR 필터 처리부의 출력신호로부터 잡음에 강한 음성 특징을 추출하고 이 추출된 결과를 출력하는 특징 추출부와; 상기의 특징 추출부에서 추출된 잡음에 강한 음성 특징에 기초하여 음성 신호의 시작점과 끝점 정보를 판별하는 워드경계 검출부와; 상기 특징 추출부로부터 제공되는 음성 특징과 상기 워드경계 검출부로부터의 음성 신호 시작과 끝점 정보에 기초하여 시간 정규화 및 신경 회로망을 이용한 분류과정을 거쳐 최종의 결과를 코딩하여 출력하는 정규화및 인식부를 구비하는 음성인식장치가 제시된다.
도 1은 종래의 음성 인식 장치를 개략적으로 도시한 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치를 도시한 블록 구성도이다.
도 3은 도 2의 동작을 설명하기 위한 타이밍도이다.
도 4는 특징 추출 방법의 설명을 위한 블록 구성도 이다.
< 도면의 주요 부분에 대한 부호의 설명 >
2 : 특징추출부 4 : 인식기
10 : FIR 필터 처리부 20 : 특징 추출부
30 : 워드 경계 검출부 40 : 정규화 및 인식부
이하, 본 발명의 실시예의 구성 및 그 작용에 대하여 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명에 따른 음성 인식 장치의 실시예를 도시한 블럭 구성도이다.
도 2를 참조하면, 본 발명에 따른 음성 인식 장치는 A/D 변환기로부터 신호를 입력받는 FIR 필터처리부(10)와, 상기 FIR 필터처리부(10)와 접속되어 있는 특징추출부(20)와, 상기 FIR 필터처리부(10) 및 특징추출부(20)에 클럭을 출력시키기 위한 특징추출부(20)와, 상기 특징추출부(20)와 접속되어 있는 워드경계검출부(30)와, 상기 워드경계검출부(30)와 접속되어 있는, 정규화 및 인식부(40)와, 상기 워드경계검출부(30) 및 정규화 및 인식부(40)와 접속되는 SRAM을 포함하여 구성된다.
상기 A/D 변환기는 아날로그 신호인 음성 신호를 입력받아 이를 12비트의 디지털 음성 신호로 변환하여 후술하는 필터 처리부(10)로 출력하도록 구성된다.
상기 필터 처리부(10)는 A/D 변환기에서 변환된 12비트의 디지털 신호를 16개의 채널로 필터링하여 후술하는 특징 추출부(20)에 출력하도록 이루어지며, 상기 필터 처리부(10)는 16채널을 갖는 필터 뱅크로 구성된다.
상기 각 채널의 주파수 특징은 포유류의 귀로부터 얻어지는 데이터에 기초하여 만들어진다.
상기 필터는 100단의 FIR 필터로 구현되며, powers-of-two 변환을 이용하여 덧셈과 쉬프트 연산만으로 필터 뱅크를 구현한다. 여기에서 powers-of-two 변환은수를 표현함에 있어서 다음 식과 같은 형태로 나타내는 것이다.
상기 수학식 1과 같은 특징을 이용하면 곱셈기 없이 덧셈기와 쉬프트기만을 이용하여 FIR 필터를 구현할 수 있다. 상기 수학식 1과 같은 과정에서중 '0'이 가장 많은 변환을 찾으면 면적과 동작속도를 동시에 줄일 수 있는 FIR 필터를 설계할 수 있다.
또한 본 발명의 실시예에서 필요한 상기 FIR 필터는 제한된 계수를 갖는 와우각 FIR 필터이다. 일반적인 powers-of-two 변환은 계수의 수가 증가하지만 본 발명에서 필용한 와우각 필터의 특징을 이용하여 상기 powers-of-two 변환을 사용하지 않는 필터와 유사한 수준의 계수를 차지하는 명령어를 설계 구현하였다.
상기 특징 추출부(20)는 필터 처리부(10)의 출력신호로부터 잡음에 강한 음성 특징을 추출하고, 이 추출된 결과를 후술하는 워드 경계 검출부(30)와 정규화 및 인식부(40)로 출력되도록 구성된다.
상기 특징 추출부(20)는 인간의 청각 모델링을 기초로 해서 음성 특징을 추출하였으며, 특징 벡터 자체를 버퍼링하여 실시간으로 특징 벡터를 추출하도록 구현된다.
상기 워드 경계 검출부(30)는 상기 특징 추출부로부터의 잡음에 강한 음성 특징에 기초하여 이 음성 신호의 시작점과 끝점 정보를 판별하여 후술하는 정규화및 인식부(40)로 출력되도록 구성되며, 상기 워드 경계 검출부(30)는 음성신호의 각 채널의 특징벡터로부터 신호의 시작점과 끝점 정보를 판별한다.
상기 정규화 및 인식부(40)는 특징 추출부(20)에서 추출된 50개 단어중에서 선별하며, 상기 워드 경계 검출부(30)로부터 음성 신호시작과 끝점 정보에 기초하여 시간 정규화를 수행하게 되는데, 이 때 사용되는 정규화 방법은 비선형 방법인 트레이스 세그먼트(Trace Segment) 방법을 이용한다.
정규화 블럭은 끝점 추출 블럭으로부터 시작점과 끝점의 주소를 받아 16채널 64개의 프레임으로 정규화한 후, 정해진 에너지를 갖도록 정규화 한다. 또한, 정규화된 데이타를 RBF(Radial Basis Function)라는 신경 회로망 입력으로 가해서 50개의 기준 단어에 대한 각각의 출력값을 구한 다음에 각각의 출력값중 가장 큰 값을 갖는 단어를 6비트로 코딩하여 출력하게 된다.
분류하는 음성에 따라 변하게 되는 신경회로망의 가중값 데이타는 외부 메모리를 이용하여 저장하고, 메모리 데이타를 바꿈으로서 다른 음성에 대해서도 쉽게 적용할 수 있다.
상기와 같이 구성된 본 발명의 실시예의 작용을 상세히 설명하기로 한다.
상기 필터 처리부(10)는 A/D 변환기에서 변환된 12비트의 디지털 신호를 16개 채널로 필터링하여 특징 추출(20)에 출력한다. 여기에서 FIR_out과 nOUT은 12비트 신호로 샘플링 주파수인 Clk1(11.056KHz)와 칩의 연산에 필요한 CLKin(9MHz)에 동기되며, 타이밍은 제 3도(a)와 같다.
상기 특징추출부(20)는 필터 처리부(10)의 출력 신호로부터 잡음에 강한 음성 특징을 추출한 신호를 워드 경계검출부(30)와 정규화 및 인식부(40)로 제공한다. 즉, FEX_out은 특징 추출부(20)의 출력인 주파수 빈값이 상기 워드 경계검출부(30)로 전송되는 신호이다. 이 신호는 8비트이며, 매 10ms(110샘플) 마다 clk1 에 동기되며, 타이밍은 제 3도(b)와 같다.
상기 특징추출부(20)의 신호는 FIR 필터 처리부(10)로부터의 nOUT 신호와 clk1에 동기되는 신호이다.
nOUT은 FIR 필터 처리부로부터 FIR_out이 출력될때마다 라이징 에지에서 활성화 되는 제어 신호이다.
반면 nBusy 신호는 특징추출부(20) 내부의 제어 신호로서, 폴링 에지에서 활성화 되어진다.
S0는 nBusy와 nOUT신호가 활성화 되기 전의 초기 상태를 의미한다. S1은 nOUT과 nBusy가 활성화 되었을 때 영교차점 사이의 에너지의 합을 계산하고, FIR 필터 처리부(10)로부터의 출력을 저장한다.
S2 상태에서는 영교차점을 찾아서 교차점 사이의 교차율을 계산한다.
S3는 누적될 특징 벡터 채널을 선택하고, 선택된 채널이 유효한지를 확인한다.
S4에서는 S3에서 선택된 채널에 특징을 누적한다. Case-1에서는 영교차점이 찾지 못할 경우 S2상태에서 다시 초기화 상태인 S0 상태가 됨을 보여주고 있으면, case-2는 선택된 채널에 특징 벡터를 누적하는 과정을 보여주고 있다.
도 4는 특징 추출 방법의 설명을 위한 블록 구성도 이다.
도 4에 도시한 바와 같이, 음성특징 벡터 자체를 버퍼링하여 실시간으로 특징벡터를 추출하였다. 음성특징 벡터는 각 채널의 영 교차점으로부터 시간 정보와 누적 에너지 값을 산출하여 음성 특징 벡터를 산출하게 된다. 이때 각 채널마다 영 교차점의 빈도수가 다르게 되는데 이를 일정하게 유지하기 위해 각 채널마다 다른 길이의 윈도우를 이용하여 특징벡터를 추출하게 된다.
도 4에서 종래의 방법은 각 채널에서의 필요한 FIR 필터 출력을 메모리에 저장한 후 이를 이용하여 다시 영 교차점을 검출하고 특징 벡터를 추출하게 된다. FIR 필터부의 출력을 메모리에 저장하고 이를 이용하여 특징 벡터를 추출하게 되면, 많은 메모리가 필요할 뿐아니라 많은 연산을 필요로 하게 된다.
특징 벡터를 추출하기 위해서 필요한 정보는 최대값과 영 교차점의 시간 간격이다. 이는 신호가 영점을 교차하게 될 때 바로 계산할 수 있다. 따라서 FIR 필터의 출력을 저장하지 않고 영 교차점에서의 정보를 이용하여 특징 벡터를 계속 누적해 나간다면 필요로 하는 메모리를 크게 줄일 수 있고 또한 연산 량도 대폭 줄어들게 된다.
특징 벡터를 계산하기 위해서 특징 벡터를 계속 누적 시켜서 다음 레지스터에 버퍼링하게 되며, 110샘플 사이에서 특징 벡터를 누적하기 위한 레지스터와 각 채널의 유효 시간 동안에만 특징 벡터를 누적하는 레지스터, 그리고 총 시간 구간(110 샘플)의 특징 벡터를 저장하기 위한 버퍼링 레지스터가 필요하다.
도 4에서 RR은 유효레지스터를 나타내고 R0는 다음 누적 레지스터에 버퍼링되게 될 특징 벡터 값을 누적시키는 레지스터이다. 그러므로 시간 t에서 구하는특징 벡터는 위의 레지스터에 저장된 것을 순차적으로 더해서 구할 수 있게 되어, 필터 뱅크의 출력을 저장할 수 있는 메모리를 줄일 수 있다.
특징 벡터는 110 샘플 사이마다 추출하게 되는데, 최종 특징 벡터는 유효 누적 레지스터(RR)과 버퍼링된 레지스터(R1, R2, R3)의 합으로 덧셈기를 이용하여 쉽게 계산해 낼 수 있고 RR <= 0이 되고 R3 <= R2 <= R1 <= R0의 순으로 버퍼링되게 된다.
상기 정규화 및 인식부(40)는 특징추출부(20)로부터 제공되는 음성 특징과 상기 워드 경계검출부(30)의 음성 신호 시작과 끝점 정보에 기초하여 분류 과정을 거쳐 최종의 결과를 코딩한다. 여기에서 시작 태그, 종료 태그는 워드의 시작과 끝을 찾았음을 의미하는 신호로서 이 두 신호는 항상 정규화 및 인식부(40)가 CLKin의 라이징 에지에서 체크되도록 전후 1 동기 클럭의 여유를 두면된다.
정규화 방법인 트레이스 세그먼트 방법을 이용하여 나눗셈기를 곱셈기를 이용하여 구현함으로서 메모리 연산과 클럭을 줄여 주었다.
워드 경계검출부(30)와 규준화 블록은 특징 벡터를 참조해야 하므로 메모리 연산을 하게 된다. 따라서 주로 메모리 연산을 하게 되는 RBF 네트웍과 함께 구성되어 있다.
반면, 상기 정규화 및 인식부(40)는 현재의 특징 메모리(Feature Memory)(특징 추출로부터의 FEX_out을 메모리한다.)의 위치를 CLKin 과 동기되어 있는 SRAM(Feature Memory Address) 신호를 통하여 알 수 있다. 즉, 정규화 및 인식부(40)의 내부 메모리가 완전히 차더라도, 워드 경계검출부(30)에서 주어지는신호는 계속해서 올라가므로, 정규화 및 인식부(40)는 메모리가 풀(Full) 인가를 스스로 점검해서 같은 곳에 데이터가 덮어쓰여지지 않도록 되어 있다. 그리고 워드경계 검출부(30)에서 시작태그를 넘어서는 종료 태그를 넘겨주어서는 안되며, 이때는 항상 시작 태그-1을 넘겨준다.
제 3도(c)에서 보는 바와 같이 끝점 추출후 18.7ms 후에 인식 결과가 출력되므로, 실시간 구현에 적합하다.
상기 A/D변환기로부터 인가되는 12 bit의 디지털 음성 데이터는 Clk1의 라이징 에지에서 필터 처리부(10)와 특징 추출부(20)에 의해서 읽혀진다. 그러므로 음성 신호를 디지털 신호로 변환하는 외부의 12비트 디지털 신호는 적어도 Clk1의 라이징 에지에서 한 시스템 클럭 이전에 변환을 마쳐야 한다.
본 발명의 실시예에서는 비동기 SRAM을 사용하였으며, 특징추출부(20)에서의 특징을 저장하고 있다가 정규화 및 인식부(40)에서만 읽어들인다. 읽기 동작은 계속해서 수행할 수 있지만, 쓰기 동작의 경우는 주소값을 설정한 후 쓰기 신호를 생성해 주어야 하므로 읽기와 함께 수행된다.
이상에서 본 발명의 실시예를 설명했지만, 본 발명의 보호범위는 상기 실시예에 한정되는 것이 아니고, 본 발명의 기술적 사상에 포함되는 당업자가 예측할 수 있는 다양한 실시예를 포함한다 하겠다.
이상에서 설명한 바와 같이, 본 발명에서는 보다 적은 메모리 연산에 의한 빠른 특징추출방법을 사용하여 특징추출과정에서의 파워 소모를 줄이고,
또한 음성특성을 먼저 추출한 후, 이를 이용하여 단어 경계를 검출할 수 있어서 음성인식 장치는 외부 잡음에 둔감하고 계산이 효율적이며 하드웨어 구현이 용이한 음성인식장치를 제공함으로써, 실생활에서도 응용이 가능한 효과가 있다.

Claims (8)

  1. A/D 변환기와 FIR 필터처리부와 특징추출부와 워드 경계검출부와 인식부를 포함하는 음성 인식 장치에 있어서,
    상기 특징추출부는 FIR 필터부의 출력을 저장하지 않고 FIR 필터 출력의 영교차점에서 바로 특징 벡터를 계산하여 누적하는 것을 특징으로 하는 음성인식장치.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 계산된 특징벡터를 누적하기 위해 각 채널마다 레지스터를 구비하고 있는 것을 특징으로 하는 음성인식장치.
  4. 청구항 3에 있어서,
    상기 레지스터는 총시간 구간(110 샘플) 사이에서 특징 벡터를 누적하기 위한 레지스터와, 각 채널의 유효 시간 동안에만 특징 벡터를 누적하는 레지스터와, 그리고 총 시간 구간(110 샘플)의 특징 벡터를 저장하기 위한 버퍼링 레지스터를 포함하는 것을 특징으로 하는 음성인식장치.
  5. 청구항 1에 있어서,
    상기 FIR 필터는 제한된 계수를 갖는 와우각 FIR 필터인 것을 특징으로 하는 음성인식장치.
  6. 청구항 5에 있어서,
    상기 FIR 필터는 상기 와우각 FIR 필터의 특성을 이용하여 powers-of-two 변환의 계수를 제한하는 명령어를 포함하는 것을 특징으로 하는 음성인식장치.
  7. 청구항 1에 있어서,
    상기 FIR 필터는 powers-of-two 변환을 이용하여 덧셈과 쉬프트 연산만으로 필터 뱅크를 구현하는 것을 특징으로 하는 음성인식장치.
  8. 청구항 1에 있어서,
    비동기식 SRAM을 더 포함하고,
    상기 SRAM은 상기 특징추출부에서의 특징을 저장하고 있다가 상기 정규화 및 인식부에서 읽어들이는 동작을 하는 것을 특징으로 하는 음성인식장치.
KR1020000035286A 2000-06-26 2000-06-26 인간 청각 모델을 이용한 효율적인 음성인식 장치 KR100366057B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000035286A KR100366057B1 (ko) 2000-06-26 2000-06-26 인간 청각 모델을 이용한 효율적인 음성인식 장치
US09/765,650 US6947891B2 (en) 2000-06-26 2001-01-22 Efficient speech recognition system bases on an auditory model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000035286A KR100366057B1 (ko) 2000-06-26 2000-06-26 인간 청각 모델을 이용한 효율적인 음성인식 장치

Publications (2)

Publication Number Publication Date
KR20020005205A KR20020005205A (ko) 2002-01-17
KR100366057B1 true KR100366057B1 (ko) 2002-12-27

Family

ID=19673875

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000035286A KR100366057B1 (ko) 2000-06-26 2000-06-26 인간 청각 모델을 이용한 효율적인 음성인식 장치

Country Status (2)

Country Link
US (1) US6947891B2 (ko)
KR (1) KR100366057B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445911B1 (ko) * 2002-04-17 2004-08-25 학교법인 포항공과대학교 시간차 신경망을 이용한 고립단어 인식을 위한 하드웨어구조
US6836798B1 (en) * 2002-12-31 2004-12-28 Sprint Communications Company, L.P. Network model reconciliation using state analysis
US7389345B1 (en) 2003-03-26 2008-06-17 Sprint Communications Company L.P. Filtering approach for network system alarms
US7421493B1 (en) 2003-04-28 2008-09-02 Sprint Communications Company L.P. Orphaned network resource recovery through targeted audit and reconciliation
KR100715451B1 (ko) * 2004-12-28 2007-05-09 학교법인 성균관대학 연상기능을 활용한 오감정보의 융합 및 재현 시스템
CN104361887A (zh) * 2014-11-20 2015-02-18 哈尔滨工业大学 行车噪声环境下的快速声学事件检测系统
CN104538027B (zh) * 2014-12-12 2018-07-20 复旦大学 语音社交媒体的情绪传播量化方法及系统
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN108022584A (zh) * 2017-11-29 2018-05-11 芜湖星途机器人科技有限公司 办公室语音识别优化方法
CN108288465A (zh) * 2018-01-29 2018-07-17 中译语通科技股份有限公司 智能语音切轴的方法、信息数据处理终端、计算机程序
CN110113119A (zh) * 2019-04-26 2019-08-09 国家无线电监测中心 一种基于人工智能算法的无线信道建模方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950288A (ja) * 1995-08-10 1997-02-18 Ricoh Co Ltd 音声認識装置及び音声認識方法
JPH09297596A (ja) * 1996-05-08 1997-11-18 Nec Corp 音声認識装置
KR19980014495A (ko) * 1996-08-13 1998-05-25 구자홍 음성인식장치
JPH11190998A (ja) * 1997-12-25 1999-07-13 Omron Corp 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
WO1996008005A1 (en) * 1994-09-07 1996-03-14 Motorola Inc. System for recognizing spoken sounds from continuous speech and method of using same
US6735566B1 (en) * 1998-10-09 2004-05-11 Mitsubishi Electric Research Laboratories, Inc. Generating realistic facial animation from speech
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950288A (ja) * 1995-08-10 1997-02-18 Ricoh Co Ltd 音声認識装置及び音声認識方法
JPH09297596A (ja) * 1996-05-08 1997-11-18 Nec Corp 音声認識装置
KR19980014495A (ko) * 1996-08-13 1998-05-25 구자홍 음성인식장치
JPH11190998A (ja) * 1997-12-25 1999-07-13 Omron Corp 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置

Also Published As

Publication number Publication date
US20020013702A1 (en) 2002-01-31
KR20020005205A (ko) 2002-01-17
US6947891B2 (en) 2005-09-20

Similar Documents

Publication Publication Date Title
US4811399A (en) Apparatus and method for automatic speech recognition
US4752958A (en) Device for speaker&#39;s verification
KR100366057B1 (ko) 인간 청각 모델을 이용한 효율적인 음성인식 장치
EP1335350B1 (en) Pitch extraction
EP0112717A1 (en) Continuous speech recognition apparatus
US5027407A (en) Pattern recognition apparatus using a plurality of candidates
JP3402748B2 (ja) 音声信号のピッチ周期抽出装置
EP1335349B1 (en) Pitch determination method and apparatus
US5845092A (en) Endpoint detection in a stand-alone real-time voice recognition system
EP0770254B1 (en) Transmission system and method for encoding speech with improved pitch detection
US4405838A (en) Phoneme information extracting apparatus
US4868879A (en) Apparatus and method for recognizing speech
KR0180651B1 (ko) 음성인식장치
CN111933111A (zh) 语音唤醒方法、装置、电子设备和存储介质
KR100667522B1 (ko) Lpc 계수를 이용한 이동통신 단말기 음성인식 방법
CN118155612A (zh) 一种基于麦克风阵列降噪的语音识别方法及系统
KR0128669B1 (ko) 음성 신호의 실시간 음성부 검출 방법
Mitra et al. Recognition of Isolated Speech Signals using Simplified Statistical Parameters
Varley et al. Pitch determination algorithms for speech and their implementation using a high performance single chip digital signal processor.
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPH09198077A (ja) 音声認識システム
JPH02192335A (ja) 語頭検出方式
JPS59211098A (ja) 音声認識装置
KR20000040569A (ko) Hmm 모델의 유사성을 이용한 음성 인식 장치 및 방법
JPS6260715B2 (ko)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121130

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20131129

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee