KR0173923B1 - 다층구조 신경망을 이용한 음소 분할 방법 - Google Patents

다층구조 신경망을 이용한 음소 분할 방법 Download PDF

Info

Publication number
KR0173923B1
KR0173923B1 KR1019950053941A KR19950053941A KR0173923B1 KR 0173923 B1 KR0173923 B1 KR 0173923B1 KR 1019950053941 A KR1019950053941 A KR 1019950053941A KR 19950053941 A KR19950053941 A KR 19950053941A KR 0173923 B1 KR0173923 B1 KR 0173923B1
Authority
KR
South Korea
Prior art keywords
phoneme
layer
frame
boundary
neural network
Prior art date
Application number
KR1019950053941A
Other languages
English (en)
Other versions
KR970049740A (ko
Inventor
이영직
서영주
양재우
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019950053941A priority Critical patent/KR0173923B1/ko
Priority to US08/746,981 priority patent/US5963904A/en
Publication of KR970049740A publication Critical patent/KR970049740A/ko
Application granted granted Critical
Publication of KR0173923B1 publication Critical patent/KR0173923B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 다층구조 신경망을 이용한 음소 분할 방법에 관한 것으로서, 음성 입력부(1), 전처리부(2) 다층 신경망(MLP : Multi Layer Perceptron)음소 분할부(3), 및 음소 경계 출력부(4)를 구비한 음소 분할 장치에 적용되는 다층구조 신경망을 이용한 음소 분할 방법에 있어서, 디지털화된 음성 샘플들로부터 음성을 프레임화하고, 각 음성 프레임들에 대하여 프레임별 특징 벡터를 추출한 후, 프레임별 특징 벡터들의 인접 프레임간 차이를 구한 프레임간 특징 백터를 추출하여 특징 백터들의 최대치와 최소치를 규정화하고, 학습을 통해 가중 함수와 MLP의 규격에 대한 정보를 구해 저장하고, 상기 과정에서 구한 가중 함수를 읽고, 특징 벡터를 입력받아 음소 경계 판정을 위한 연산을 수행하여 출력값에 따라 음소 경계 부분을 판정하고, 현재 분석 프레임이 입력된 음성의 최종 프레임의 2 프레임 이전에 도달하였으면, 구해진 음소의 경계를 프레임 번호로 나타낸 값을 최종 결과로 출력하는 과정을 통해 음소 자체에 대한 부가적인 지식없이 음소와 음소의 경계에서 나타나는 음성 신호상의 변화만을 이용하여 음소의 경계가 되는 지점을 정확하고도 효율적으로 포착하여 자동 음소 분할이나 음소 레이블링이 필요한 응용 분야에 유익하게 활용될 수 있는 효과가 있다.

Description

다중구조 신경망을 이용한 음소분할방법
제1도는 본 발명이 적용되는 시스템의 구성도.
제2도는 본 발명에 이용되는 다층 신경망의 구성도.
제3도는 본 발명의 일 실시예에 따른 전체 흐름도.
* 도면의 주요부분에 대한 부호의 설명
1 : 음성 입력부 2 : 전처리부
3 : MLP 음소 분할부 4 : 음소 경계 출력부
본 발명은 다층구조 신경망을 이용한 음소분할방법에 관한 것이다.
종래의 음소분할 기술은 음성 신호로부터 주파수 성분인 스펙트로그램(spectrogram)을 추출한 후, 사전에 정해진 여러 가지 음성학적 지식과 규칙을 적용한 분석을 통해 음소의 경계를 찾아내는 방법으로, 이는 시스템이 매우 복잡한 문제점이 있었다.
또한, 음소 분할을 위해 사용하는 여러 가지 지식과 규칙 상호간의 효율적이고도 최적의 결합 방법이 없기 때문에, 실제 사용시에는 시스템의 성능이 신뢰할 정도가 되지 못한다는 점과 실제 사용될 때의 상황 변화에 따라 시스템의 성능이 급격히 저하된다는 문제점이 있었다.
다른 방법으로는 음소 분할을 위해서 모든 음소들의 특징을 사전에 추출하여 패턴으로 저장한 후, 음소 분할시에 모든 음소들에 대한 특징 패턴을 번갈아가면서 입력된 음성 신호와 비교하여 음소의 경계를 찾아내는 방법을 들 수 있다. 이 방법은 모든 음소들에 대한 특징 패턴의 정보를 가지고 있어야 하므로, 시스템의 메모리 양이 커지게 되고, 수행과정에서의 계산량도 증가함으로, 경제적인 시스템을 구현할 수 없는 문제점이 있었다.
따라서, 상기의 문제점을 해결하기 위하여 안출된 본 발명은 음소 자체에 대해 부가적인 지식없이 음소와 음소의 경계에서 나타나는 음성 신호상의 변화만을 이용하여 음소의 경계가 되는 지점을 정확하고도 효율적으로 포착하여 자동 음소 분할이나 음소 레이블링이 필요한 응용 분야에 유익하게 활용할 수 있는 다층구조 신경망을 이용한 음소분할방법을 제공하는 데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 입력된 음성을 다층 신경망(MLP : Multi Layer Perceptron)을 이용해 음소 단위로 분할하는 음소분할방법에 있어서, 디지털화된 음성 샘플들을 세그먼트화하여 프레임화하는 제1 단계; 상기 음성 프레임들에 대해 프레임별 특징벡터를 구하고, 상기 프레임별 특징벡터를 이용해 인접 프레임간 차이를 나타내는 프레임간 특징 벡터를 구하는 제2 단계; 학습을 통해 상기 다층 신경망에 의해 계산되어 저장된 입력층과 은닉층, 은닉층과 출력층간의 각각의 가중함수와, 상기 프레임간 특징벡터를 입력시켜 상기 다층 신경망에 의해 계산된 출력값에 따라 음소의 경계 부분을 판정하는 제3 단계; 및 최종 음성 프레임까지 음소 경계 판정을 수행한 다음, 파정된 음소 경계 부분을 프레임 번호로 나타내 출력하는 제4 단계를 포함한 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세히 설명한다.
제1도는 본 발명이 적용되는 시스템의 구성도로서, 도면에서 1은 음성입력부, 2는 전처리부, 3은 다층 신경망(MLP : Multi Layer Perceptron) 음소 분할부, 4는 음소 경계 출력부를 각각 나타낸다.
음성입력부(1)는 공기중의 음성 파형을 전기적인 음성 신호로 변환하는 마이크와, 입력된 아날로그 음성 신호로부터 저주파 잡음과 고주파 에일리어싱(aliasing) 효과를 제거하기 위한 대역 통과 여파기(band pass filter), 및 아날로그 음성 신호를 디지털 음성 신호로 변환하는 아날로그/디지털 변환기(ADC : Analog to Digital Converter)로 구성되며, 이는 발성된 음성으로부터 디지털화된 음성 샘플을 얻어 전처리부(2)로 출력한다.
전처리부(2)는 음성 입력부(1)로부터 입력된 음성 샘플들 각각에 대해 음소 분할에 적합한 특징 벡터를 추출하여 MLP 음소 분할부(3)로 출력한다.
MLP 음소 분할부(3)는 전처리부(2)로부터 입력된 특징 벡터들을 이용하여 음소의 경계 부분을 찾아 음소 경계 출력부(4)로 출력한다.
음소 경계 출력부(4)는 MLP 음소 분할부(3)에서 자동적으로 분할된 음소의 경계에 관한 위치 정보를 프레임 위치의 형태로 출력한다.
제2도는 본 발명에 이용되는 다층 신경망의 구성도를 나타낸다.
본 발명은 종래의 지식이나 규칙 기반의 음소분할 방법의 단점을 보완하기 위하여 효과적이고도 신뢰성 있는 자동 음소 분활기(phoneme segmenter)를 신경망의 한 종류인 다층 신경망(MLP)을 사용하여 구현하였다.
MLP를 이용하는 음소 분할 방법은 종래의 음소분할 방법들의 문제점으로 알려진 음성 신호에 내재되어 있는 음소 경계에 관한 지식이나 규칙의 불완전한 모델링에서 오는 성능 저하를 해결하는데 매우 적합하다. 즉, 많은 음성 데이터에서 추출한 특징 벡터로부터 음소 분할에 필요한 기능을 학습을 통해서 스스로 배우도록 함으로써, 음소의 경계에 대한 특별한 가정이나 규칙 및 지식을 사전에 도입하지 않고도 음성신호 자체에 내재된 지식이나 규칙을 다층 신경망(MLP)으로 하여금 스스로 찾아내도록 하는 방법이다. 그러므로, 본 발명은 음성 신호의 모델링을 용이하게 하기 위하여 사전에 그 분포나 모델링을 위한 불확실한 가정의 도입이나 추가적인 처리를 할 필요가 없는 장점이 있다.
본 발명에 이용되는 다층 신경망(MLP)의 구조는 입력(input), 은닉(hidden), 출력(output)의 세 가지 층(layer)으로 구성된 다층 구조의 형태를 취하고 있다.
도면에서와 같이 하단에 위치한 입력층은 연속적인 다섯 프레임에 발생하는 4개의 인접 프레임 간 차이로부터 추출된 총 72개의 프레임간 특징 벡터들에 대한 입력 노드들과 다층 신경망(MLP)의 은닉층에서의 문턱치 비교 과정 대신에 사용되는 입력값 1을 위한 입력 노드 한 개를 포함하여 모두 73개의 입력 노드로 구성되어 있다. 출력층의 출력 노드는 음소의 경계임을 나타내는 첫 번째 노드와 그렇지 않은 경우를 나타내는 두 번째 노드를 합하여 모두 2개로 구성되어 있으며, 입력층과 출력층의 사이에 위치한 은닉층은 다층 신경망(MLP)이 실제로 구현해야 하는 비선형 분리(nonlinear discrimination)기능이 이루어지는 계층이다. 이 은닉층의 활성화 함수(activation function)로 다음과 같은 비선형의 S자 모양(sigmoid)의 함수를 사용한다.
여기서, x, y는 각각 활성화 함수의 입력과 출력을 나타낸다.
은닉층의 노드 수 N은 다층 신경망(MLP)의 최종 성능과 밀접한 관련이 있다고 알려져 있는데, 여러 가지 데이터를 사용한 실험을 통해 확인한 결과 본 발명에서는 10 내지 30이 적당한 것으로 확인되었다.
입력층과 은닉층, 은닉층과 출력층 사이에는 각 층의 노드들을 전부 연결하는 가중함수(weight)들이 존재한다. 이 가중 함수들은 층과 층 사이의 노드들을 전부 연결시키기 때문에, 입력층과 은닉층의 경우에는 그 수가 (입력노드의 수×은닉노드의 수)=(73×N)개가 있으며, 은닉층과 출력층의 경우에는 (은닉노드의 수×출력노드의 수)=(N×2)개가 있다. 이 가중 함수들은 오류 역전파 알고리즘을 이용한 학습을 통해서 사전에 구해진 다음, 메모리에 저장되어 있다가 음소 분할시에 불러내어 사용된다.
제3도는 본 발명의 일 실시예에 따른 전체 흐름도로서, 전처리부(2)와 MLP 음소분할부(3)의 내부에서 음소 분할 알고리즘의 동작 과정을 나타낸 것으로, MLP 음소 분할 알고리즘의 학습 과정과 분할 과정의 2 부분으로 구성되어 있다.
먼저, 음성 프레임화와 특징 벡터 추출 과정은 전처리부(2)에서 수행되는 과정으로서, 학습과 분할 두 과정에 공통적으로 사용된다.
본 발명에서 특징 벡터들을 선정함에 있어, 본 발명에서는 음소간의 경계에서 음성 스펙트럼의 변화가 심하다는 점을 이용하기 위하여 각 프레임간의 스펙트럼의 차이를 잘 나타내주는 인자를 유도하였다.
그 과정을 살펴보면, 먼저 디지털화된 음성 샘플들을 연속적으로 음성의 특징을 추출하기에 알맞은 길이로 세그먼트화하여 프레임화 한다(10). 음성 프레임화는 입력된 전체 음성 샘플들에 대해서 매 10 msec마다 16 msec의 길이로 해밍(Hamming) 창함수(window)를 취하여 음성 프레임화 한다.
다음은 이렇게 생성된 음성 프레임으로부터 특징 벡터를 추출하는데, 첫 단계에서는 앞에서 구해진 각 음성 프레임들에 대하여 음성의 특징을 효과적으로 잘 나타내는 프레임별 특징 벡터들을 음성학적인 지식에 근거하여 추출한다. 그리고, 두 번째 단계에서는 첫단계에서 구한 프레임별 특징 벡터들에 대하여 인접 프레임간 차이를 나타내는 프레임간 특징 벡터를 추출한다. 이렇게 추출된 프레임간 특징 벡터가 MLP 음소 분할부(3)에 입력되는 최종적인 특징 벡터가 된다(11).
상기와 같은 과정을 보다 상세히 설명하면, 1차적으로 각각의 프레임들에 대해서 구한 특징 벡터는 다음과 같다.
(1) 프레임 에너지 : 음성의 프레임별 발성강도를 나타내는 것으로, 다음과 같이 구하였다.
여기서, s(n)은 t번째 프레임에 속한 음성 샘플을 나타내고, N은 음성 프레임의 길이를 나타낸다.
(2) 16차 멜 스케일 FFT(mel-scaled Fast Fourier Transform) : 프레임별 음성의 주파수 특성인 스펙트럼을 구하기 위해 먼저 FFT(Fast Fourier Transform)를 수행한 후, 얻어진 음성의 주파수 성분을 인간의 청각 특성과 유사하게 사전에 정해진 16개의 주파수 대역으로 분류한 16차의 대역별 에너지를 구해, 이를 멜 스케일 FFT 계수로 사용한다. 프레임 인덱스 t에서 j차 멜 스케일 FFT 계수는 다음 식과 같이 구해진다.
여기서, f는 각 주파수 밴드에 포함된 주파수, j는 각 주파수 대역의 인덱스를 나타내고, s(j, t, f)는 FFT로부터 구해진 t번째 프레임의 j차 주파수 대역 진폭 스펙트럼의 주파수별 성분을 나타낸다.
(3) 대역별 에너지 비 : 음소 분할시에 유성음과 무성음으로 된 음소를 정확하게 구분하는 일이 매우 중요한데, 이 유, 무성음의 큰 차이점은 에너지의 주파수 대역별 분포이다. 따라서, 본 발명에서는 유, 무성음의 구분을 위해 0-3kHz 사이에 존재하는 저주파 에너지와 3kHz-8kHz 사이에 분포하는 고주파 에너지를 각각 구한 다음, 이들의 비를 특징 벡터의 하나로 선정하였다.
여기서, ENG_LOW(t), ENG_HIGH(t)는 각각 t번째 음성 프레임의 저주파대와 고주파대의 에너지로서, 이는 FFT에서 구한 진폭 스펙트럼에서 각 대역에 포함된 성분들의 합으로 구한다.
최종적인 MLP 음소 분할부(3)의 입력으로 사용되는 프레임간 특징 벡터는 음소 분할이 음소간의 경계에서 큰 변화를 나타낸다는 특징에 근거하여 위에서 구한 일차적인 프레임별 특징 벡터들에 대해서 인접 프레임간의 차이를 다음과 같이 구함으로써 얻는다.
(1) 프레임 에너지의 인접 프레임간 차이
(2) 16차 멜 스케일 FFT의 프레임간 차이
여기서, j는 계수들의 각 차수를 나타낸다.
(3) 대역별 에너지 비의 프레임간 차이
이렇게 특징 벡터를 추출한 후, MLP 음소 분할부(3)의 입력으로 사용하기 위해 특징 벡터들의 최대치와 최소치가 각가 1과 -1이 되도록 정규화(normalize) 한다(12).
이렇게 정규화된 특징 벡터를 이용한 MLP 음소 분할부(3)의 학습 과정을 살펴보면 다음과 같다.
MLP 음소 분할부(3)를 학습시키기 위한 초기 단계로서 입력층과 은닉층, 은닉층과 출력층 사이에 존재하는 가중 함수(weight)를 임의의 값으로 초기화한다(13). 여기서, 가중함수의 초기치는 1과 -1 사이에 분포하는 무작위의 값으로 선정한다.
그런 다음 음소의 경계 부분을 찾도록 가르치는 출력층의 출력 목표 데이터를 지정한다(14). 각 프레임별로 출력 목표 데이터는 MLP 출력 노드의 수와 같은데, 음소의 경계일 경우에는 (1, -1)의 값을, 음소의 경계가 아닐 경우에는 (-1, 1)의 값을 갖는다. 이 출력 목표 데이터는 사전에 음소 분할된 음성 데이터베이스로부터 구한 음소의 경계 정보를 이용하여 해당 특징 벡터의 프레임 위치와 일치되도록 작성된다.
이렇게 출력 목표 데이터를 지정한 후, 학습 데이터인 특징 벡터를 MLP의 입력층에 입력하여(15), MLP를 학습시킨다(16). 입력층에는 연속하는 4개의 프레임간 특징 벡터의 입력을 위한 72개의 입력 노드와 은닉층의 문턱값 비교 과정 대신에 입력되는 1을 위한 하나의 입력 노드를 합하여 전체 73개의 노드로 구성된다. 4개의 프레임간 특징 벡터들은 제2도에 나타낸 하단에서와 같이 현재 분석 프레임 t를 중심으로 전후 2프레임(t-2, t-1, t+1, t+2)씩을 포함한 5프레임으로부터 발생하는 4개의 프레임 사이에서 각각 추출된다.
음소분할 MLP의 학습 알고리즘은 일반적으로 사용하는 오류역전파(error back propagation) 알고리즘을 사용한다. 이렇게 MLP를 학습시킨 후, 평균자승오차(mean squared error)의 감소비율이 허용한계 내로 수렴하였으며(17), 학습을 통해서 구해진 가중 함수들과 MLP의 규격에 대한 정보를 저장한 후(18), 학습 과정을 종료한다.
학습 과정을 종료한 후 상기에서 설명한 바와 같이 디지털화된 음성 샘플들을 음성의 특징을 추출하기에 알맞은 길이로 세그먼트화하여 음성을 프레임화 한 후(10), 특징 벡터를 추출하고(11), 이를 정규화 한다(12).
그런 다음 상기 학습 과정에서 구해진 가중 함수들을 MLP 은닉층으로 읽어들이고(19), 상기 과정에서 구한 특징 벡터 72개를 MLP의 입력노드에 순서적으로 입력시킨 다음, 마지막 73번째 입력노드에 1을 입력한다(20).
MLP 음소 분할부(3)에서는 입력된 특징 벡터들에 대하여 다음과 같은 MLP 연산을 통해서 음소 경계 판정을 위한 출력값을 생성한다(21).
여기서, IN(i)는 i번째 입력 노드의 입력을, OUT(k)는 k번째 출력 노드의 출력을, WGT_IH(i, j)는 i번째 입력 느드와 j번째 은닉 노드를 연결하는 가중 함수를, WGT_HO(j, k)는 j번째 은닉 노드와 k번째 출력 노드를 연결하는 가중 함수를 나타내며, SGMOD는 전술한 S자 모양(sigmoid) 함수를 나타낸다. 또한, 최종 출력 노드에서의 문턱값 비교 과정을 대신하기 위해 마지막 은닉 노드에 1을 지정한다.
다음 음소 경계 부분을 판정하는데, 앞의 MLP 음소 분할부(3)에서 연산된 출력값을 비교하여 첫 번째 출력값인 OUT(0)이 양수이면, 그 분석 프레임이 음소의 경계이고, 반대로 OUT(1)이 양수이면 음소의 경계가 아닌 것으로 판정한다(22).
그런 다음, 현재의 분석 프레임이 입력된 음성의 최종 프레임의 2 프레임 이전에 도달하였나를 검사하여(23) 도달하지 않았으며 MLP 입력층에 특징 벡터를 입력하는 이하의 과정을 반복하고, 도달하였으면 구해진 음소의 경계를 프레임 변호로 나타낼 값을 최종 결과로 출력하고(24), 종료한다.
상기와 같이 동작하는 본 발명은 인간과 기계사이의 대화를 가능하게 해주는 기술인 음성 인식 시스템의 구현에 있어서, 먼저 음소 단위로 음성을 분할한 다음 분할된 음소세그먼트에 대하여 음소인식을 수행하는 음소분할 기반의 음소 인식에 필수적인 정확하고 효율적인 음소분할 전처리를 가능하게 해주며, 음소 단위의 음성 인식 및 음성합성 시스템의 구현에 필요한 다량의 음소 분할된 음성 데이터베이스를 구축할 때도 지금까지의 음성전문가에 의한 수작업을 대신하여 신뢰성과 일관성있게 자동적인 음성분할을 가능하게 함으로써, 많은 시간과 비용을 절감할 수 있는 효과가 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

Claims (4)

  1. 입력된 음성을 다층 신경망(MLP : Multi Layer Perceptron)을 이용해 음소단위로 분할하는 음소분할방법에 있어서, 디지털화된 음성 샘플들을 세그먼트화하여 프레임화하는 제1 단계; 상기 음성 프레임들에 대해 프레임별 특징 벡터를 구하고, 상기 프레임별 특징 벡터를 이용해 인접 프레임간 차이를 나타내는 프레임간 특징 벡터를 구하는 제2 단계; 학습을 통해 상기 다층 신경망에 의해 계산되어 저장된 입력층과 은닉층, 은닉층과 출력층간의 각각의 가중함수와, 상기 프레임간 특징 벡터를 입력시켜 상기 다층 신경망에 의해 계산된 출력값에 따라 음소의 경계 부분을 판정하는 제3 단계; 및 최종 음성 프레임까지 음소 경계 판정을 수행한 다음, 판정된 음소 경계 부분을 프레임 번호로 나타내 출력하는 제4 단계를 포함하여 이루어진 음소분할방법.
  2. 제1항에 있어서, 상기 제1 단계의 음성 프레임화 단계는, 입력된 전체 음성 샘플들에 대해 약 10msec마다 약 16msec의 길이로 해밍 창함수를 취하여 이루어지는 것을 특징으로 하는 음소분할방법.
  3. 제1항에 있어서, 상기 제3단계의 음소 경계 부분을 판정하는 단계는, 입력층과 은닉층, 은닉층과 출력층간의 각각의 가중함수와, 상기 프레임간 특징벡터를 입력시켜 상기 다층 신경망에 의해 계산된 첫 번째 출력값 OUT(0)이 양수이면 그 분석 프레임을 음소의 경계로 판정하고, 반대로 출력값 OUT(1)이 양수이면 음소의 경계가 아닌 것으로 판정하는 것을 특징으로 하는 음소분할방법.
  4. 제1항에 있어서, 상기 제3 단계에서의 학습을 통해 각각의 가중함수를 결정하는 단계는, 상기 다층 신경망(MLP)의 입력층과 은닉층, 은닉층와 출력층 사이에 존재하는 가중함수를 임의의 값으로 초기화하고, 상기 다층 신경망(MLP)의 출력목표 데이터를 임의의 값으로 지정하는 단계; 및 상기 프레임간 특징 벡터를 상기 다층 신경망(MLP)에 입력시켜, 평균자승오차의 감소 비율이 허용 한계내로 수렴되면 상기 다층 신경망에 의해 계산된 가중 함수를 저장하는 단계를 포함하여 이루어진 음소분할방법.
KR1019950053941A 1995-12-22 1995-12-22 다층구조 신경망을 이용한 음소 분할 방법 KR0173923B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019950053941A KR0173923B1 (ko) 1995-12-22 1995-12-22 다층구조 신경망을 이용한 음소 분할 방법
US08/746,981 US5963904A (en) 1995-12-22 1996-11-19 Phoneme dividing method using multilevel neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950053941A KR0173923B1 (ko) 1995-12-22 1995-12-22 다층구조 신경망을 이용한 음소 분할 방법

Publications (2)

Publication Number Publication Date
KR970049740A KR970049740A (ko) 1997-07-29
KR0173923B1 true KR0173923B1 (ko) 1999-04-01

Family

ID=19442766

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950053941A KR0173923B1 (ko) 1995-12-22 1995-12-22 다층구조 신경망을 이용한 음소 분할 방법

Country Status (2)

Country Link
US (1) US5963904A (ko)
KR (1) KR0173923B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100426844B1 (ko) * 2002-04-23 2004-04-13 주식회사 화음소 학습속도 개선과 학습데이터 축소를 통한 엠엘피 기반 화자증명 시스템의 등록속도 향상방법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260430B2 (en) 2010-07-01 2012-09-04 Cochlear Limited Stimulation channel selection for a stimulating medical device
EP1385417B1 (en) * 2001-04-18 2016-04-06 Cochlear Limited System for measurement of evoked neural response
FR2836386A1 (fr) * 2002-02-22 2003-08-29 Newmedic Internat Sa Appareil et procede de telemetrie de reponse neurale d'un implant cochleaire par reconnaissance de forme automatique
AUPS318202A0 (en) * 2002-06-26 2002-07-18 Cochlear Limited Parametric fitting of a cochlear implant
AU2002951218A0 (en) * 2002-09-04 2002-09-19 Cochlear Limited Method and apparatus for measurement of evoked neural response
KR100486735B1 (ko) * 2003-02-28 2005-05-03 삼성전자주식회사 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
US7801617B2 (en) 2005-10-31 2010-09-21 Cochlear Limited Automatic measurement of neural response concurrent with psychophysics measurement of stimulating device recipient
US8190268B2 (en) * 2004-06-15 2012-05-29 Cochlear Limited Automatic measurement of an evoked neural response concurrent with an indication of a psychophysics reaction
US8965520B2 (en) 2004-06-15 2015-02-24 Cochlear Limited Automatic determination of the threshold of an evoked neural response
IL162878A0 (en) * 2004-07-06 2005-11-20 Hi Tech Solutions Ltd Multi-level neural network based characters identification method and system
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8571675B2 (en) * 2006-04-21 2013-10-29 Cochlear Limited Determining operating parameters for a stimulating medical device
AU2012282707B2 (en) * 2011-07-11 2015-05-28 Med-El Elektromedizinische Geraete Gmbh Test methods for cochlear implant stimulation strategies
US20150269945A1 (en) * 2014-03-24 2015-09-24 Thomas Jason Taylor Voice-key electronic commerce
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
KR102522924B1 (ko) 2016-03-18 2023-04-19 한국전자통신연구원 음성인식을 위한 초벌학습 장치 및 방법
KR102189362B1 (ko) * 2018-06-29 2020-12-11 주식회사 디플리 자동 레이블링이 가능한 머신 러닝 방법 및 장치
US10380997B1 (en) * 2018-07-27 2019-08-13 Deepgram, Inc. Deep learning internal state index-based search and classification
US20220383850A1 (en) * 2021-05-31 2022-12-01 Brock Daily System and method for posthumous dynamic speech synthesis using neural networks and deep learning

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4956865A (en) * 1985-01-30 1990-09-11 Northern Telecom Limited Speech recognition
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100426844B1 (ko) * 2002-04-23 2004-04-13 주식회사 화음소 학습속도 개선과 학습데이터 축소를 통한 엠엘피 기반 화자증명 시스템의 등록속도 향상방법

Also Published As

Publication number Publication date
US5963904A (en) 1999-10-05
KR970049740A (ko) 1997-07-29

Similar Documents

Publication Publication Date Title
KR0173923B1 (ko) 다층구조 신경망을 이용한 음소 분할 방법
CN111261146B (zh) 语音识别及模型训练方法、装置和计算机可读存储介质
US5794194A (en) Word spotting in a variable noise level environment
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
US5185848A (en) Noise reduction system using neural network
US5459815A (en) Speech recognition method using time-frequency masking mechanism
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
El Choubassi et al. Arabic speech recognition using recurrent neural networks
CN113823264A (zh) 语音识别方法、装置、计算机可读存储介质及计算机设备
Suh et al. Phoneme segmentation of continuous speech using multi-layer perceptron
Partila et al. Speech emotions recognition using 2-d neural classifier
Ney An optimization algorithm for determining the endpoints of isolated utterances
Badran et al. Speaker recognition using artificial neural networks based on vowel phonemes
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Hussain et al. Endpoint detection of speech signal using neural network
Maruf et al. Effects of noise on RASTA-PLP and MFCC based Bangla ASR using CNN
Bhavani et al. A survey on various speech emotion recognition techniques
Nereveettil et al. Feature selection algorithm for automatic speech recognition based on fuzzy logic
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
Devi et al. Automatic speaker recognition from speech signal using principal component analysis and artificial neural network
Zebulum et al. A comparison of different spectral analysis models for speech recognition using neural networks
Voznak et al. Recognizing emotions from human speech using 2-D neural classifier and influence the selection of input parameters on its accuracy
Beritelli et al. A pattern classification proposal for object‐oriented audio coding in MPEG‐4
Adami et al. A comparison between features for a residential security prototype based on speaker identification with a model of artificial neural network
KR100211113B1 (ko) 카오스 순환신경회로망을 이용한 학습방법 및 음성인식방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121023

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20131101

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20141027

Year of fee payment: 17

FPAY Annual fee payment

Payment date: 20151028

Year of fee payment: 18

EXPY Expiration of term