KR100486735B1 - 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 - Google Patents

최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 Download PDF

Info

Publication number
KR100486735B1
KR100486735B1 KR10-2003-0012700A KR20030012700A KR100486735B1 KR 100486735 B1 KR100486735 B1 KR 100486735B1 KR 20030012700 A KR20030012700 A KR 20030012700A KR 100486735 B1 KR100486735 B1 KR 100486735B1
Authority
KR
South Korea
Prior art keywords
neural network
phoneme
optimal
classification
automatic labeling
Prior art date
Application number
KR10-2003-0012700A
Other languages
English (en)
Other versions
KR20040077227A (ko
Inventor
주기현
김정수
이재원
이기승
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2003-0012700A priority Critical patent/KR100486735B1/ko
Priority to DE602004027566T priority patent/DE602004027566D1/de
Priority to EP04251145A priority patent/EP1453037B1/en
Priority to US10/788,301 priority patent/US7444282B2/en
Priority to JP2004056726A priority patent/JP4545456B2/ja
Publication of KR20040077227A publication Critical patent/KR20040077227A/ko
Application granted granted Critical
Publication of KR100486735B1 publication Critical patent/KR100486735B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

최적구획 분류신경망 구성방법과 최적구획 분류신경망을 이용한 자동 레이블링방법 장치가 개시된다. 최적구획 분류신경망을 이용한 자동 레이블링방법은 (a) 초기에 생성되거나 갱신된 K개의 신경망 집합으로부터 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 동일한 신경망으로 탐색된 K개의 음소조합 그룹별로 상기 K개의 신경망을 학습하여 가중치를 갱신하고, 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 단계; 및 (b) 상기 (a) 단계에서 제공되는 음소조합 그룹 분류결과 및 최적구획 분류신경망 집합을 이용하여 상기 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성하는 단계를 포함한다.

Description

최적구획 분류신경망 구성방법과 최적구획 분류신경망을 이용한 자동 레이블링방법 및 장치 {Method of establishing optimum-partitioned classifed neural network and apparatus and method and apparatus for automatic labeling using optimum-partitioned classifed neural network}
본 발명은 음성인식 또는 음성합성에 사용되는 자동 레이블링에 관한 것으로서, 특히 음소경계를 다층 퍼셉트론(Multi-Layer Perceptron) 구조의 최적구획 분류신경망에 기반하여 수정함으로써 신속하고도 정확하게 자동 레이블링을 수행하기 위한 방법 및 장치에 관한 것이다.
음성 코퍼스는 컴퓨터로 읽을 수 있는 형태로 구성된 대량의 음성 데이타의 집합을 의미하며, 음성의 합성에 필요한 기본적인 합성단위의 추출 및 음운, 운율규칙을 위한 기본자료로 쓰이며, 음성인식 및 화자인식의 경우에는 인식 알고리즘의 훈련 및 평가용으로 필수적인 자원이다. 음성 코퍼스는 단순히 음성을 기록하여 보존하는 것만이 아니라 어떤 음성이 어디에 보존되어 있는가에 대한 색인정보도 가지고 있다. 따라서 지정한 단어 또는 문장을 바로 음성으로 들어 볼 수도 있고, 어떤 음소열이나 음운현상을 포함한 음성자료들만을 임의로 검색해 볼 수도 있다. 또한, 발성내용 이외에도 발성자에 관한 정보를 포함하고 있어 발성자에 따른 여러 음성현상들도 분석해 볼 수 있다. 이와 같은 검색이 가능하도록 하기 위해 음성학적인 여러 구분에 관한 부가정보를 부여하는 것을 레이블링(labeling)이라고 하며, 레이블링의 단위로는 음소, 단어, 어절, 문장 등이 있다.
일반적으로 주어진 음소열과 음성파형 데이터로부터 완전 자동화된 음소 레이블링을 수행함에 있어서 자동 레이블링의 성능이 만족할 만한 경우에는 사용자의 개입을 필요로 하지 않는다. 그러나, 실용상으로는 수동 레이블링 결과와 비교했을때 이상오차가 발생하는 경우가 부분적으로 발생하므로 자동 레이블링 결과에 대한 수정 작업이 때때로 필요하게 된다. 자동 레이블링 결과에 대한 수정 작업은 수동으로 레이블링된 결과와의 직접적인 비교가 불가능하므로, 단순히 레이블링을 수정하는 사용자의 경험과 지식을 통해서만 이루어질 수 있다. 또한, 레이블링 결과의 미세 수정(fine tuning)을 위해서는 수동 레이블링 결과와 음성신호간의 동기화된 청취가 반복적으로 이루어져야 하는데, 이는 상당한 시간이 요구되어 결과적으로 고속 레이블링이라는 자동 레이블링의 최대 장점을 희석시키는 요인이 된다.
HMM(Hidden Markov Model)을 기반으로 하는 음소 레이블링 기법에서는 확률적인 모델링 과정을 통해 음향특징변수를 분할한다. 이때 확률적인 모델링을 위한 변수는 대용량의 음성 코퍼스에서 생성되므로 전체 학습데이터에 대해서는 생성된 모델이 최적의 모델로 간주될 수 있다. 그러나, 확률적인 모델링을 기반으로 하는 음소분할기법은 음성신호의 음향특징변수와 관련된 물리적인 특성을 반영하지 못한다. 이는 HMM을 기반으로 하는 음소 레이블링이 확률적인 방법에 의해 음소분할을 수행할 뿐, 실제 음소와 음소의 경계에 존재하는 여러가지 음향적인 변동을 반영하지 못하는 것을 나타낸다. 한편, 음향학적 변동을 반영하여 음성을 분할하는 기법은 단순히 음성신호가 갖고 있는 음향특징변수의 천이특성만을 사용하여 음성을 분할하는 경우가 대부분으로, 자동 레이블링과 같은 문맥정보가 함께 고려된 경우가 거의 드물며, 따라서 음성분할기법이 자동 레이블링에 직접적으로 적용되기 어렵다.
음성분할기법을 자동 레이블링에 적용한 방법으로는, 자동 레이블링의 결과를 수정하는 후처리 기법을 들 수 있다. 이 방법은 음성분할 자체로 음소분할을 수행하는 것이 아니라, HMM을 이용한 음소분할을 먼저 수행하고, 여기서 얻어지는 음소경계를 비교적 작은 수정영역으로 이동시켜 음소분할을 수정한다. 이와 같은 후처리기법은 가우시안 모델함수를 사용한 기법, 신경망을 사용한 기법 등이 있으며, 이중 신경망을 사용한 기법은 신경망을 음소경계 검출기로 사용한다. 여기서는 MFCC(Mel Frequency Cepstral Coefficients)를 근간으로 하는 여러 개의 특징 변수를 신경망에 입력되는 변수로 사용하며, 출력노드에서는 현재 입력된 특징변수들이 음소경계에 해당하는가 아닌가를 0 또는 1의 값으로 지정하여 오차를 계산하고 역전파 알고리즘으로 신경망의 계수들을 학습시킨다. 이와 같은 방법은 신경망 자체가 확률적인 모델링을 기반으로 하지 않기 때문에 확률적인 방법에만 의존하는 HMM 레이블링의 취약점을 보상할 수 있는 장점을 가진다. 그러나, 학습된 계수들이 초기 신경망, 학습데이타의 특성에 따라 전역 최적(global optimum)이 아닌 지역 최적(local optimum)으로 수렴함으로써 신경망으로 수정된 레이블정보가 HMM 만으로 얻어진 레이블정보에 비해 더 많은 오류를 포함하는 경우가 발생할 수 있다.
이와 같은 문제를 해소하기 위해 기존의 신경망을 후처리기로 사용하는 방법에서는 먼저 모든 데이터에 대해 하나의 신경망을 구성하고, 좌, 우 음소의 특성에 따라 신경망을 사용하는 경우 오차가 감소하는가 증가하는가를 판별하여 신경망을 적응적으로 적용한다. 이 경우 좌, 우 음소의 특성을 모음과 자음, 묵음 등으로 구분하는 비교적 단순화된 방법을 사용하는데, 신경망의 사용여부를 경험적인 방법에 의해 결정하므로 신경망 학습과정에서 사용자의 개입이 필요하고, 신경망의 적용이 미리 정해진 음소의 그룹내에서만 이루어지는 단점이 있다.
이와 관련된 문헌으로는 D. T. Toledano 의 "Neural Network Boundary Refining for Automatic Speech Segmentation," Proceedings of ICASSP-2000, pp. 3438-3441, 2000과, E.-Y. Park, S.-H. Kim 및 J.-H. Chung 의 "Automatic Speech Synthesis Unit Generation with MLP based postprocessor against auto-segmented phone errors," Proceedings of International Joint Conference on Neural Networks, pp. 2985-2990, 1999 등이 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하여 L개의 음소조합을 사용자가 설정한 K개의 신경망에 해당하는 구획으로 분할하고, 각 구획별로 재학습된 다층 퍼셉트론(Multi-Layer Perceptron) 구조의 최적구획 분류신경망을 구성하기 위한 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 인접하는 좌, 우 음소의 경계를 상기 다층 퍼셉트론 구조의 최적구획 분류신경망에 기반하여 수정함으로써 신속하고도 정확하게 자동 레이블링을 수행하기 위한 방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 최적구획 분류신경망 구성방법은 (a) 좌, 우 음소의 이름으로 이루어지는 L개의 음소조합을 수동 레이블링에 의해 얻어진 음소경계를 이용하여 획득하는 단계; (b) 입력변수를 포함하는 학습데이터로부터 다층 퍼셉트론 구조의 K개의 신경망 집합을 생성하는 단계; (c) 상기 신경망 집합 또는 갱신된 신경망 집합으로부터 상기 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 상기 L개의 음소조합을 동일한 신경망으로 탐색된 K개의 음소조합 그룹으로 분류하는 단계; (d) 상기 (c) 단계에서 분류된 K개의 음소조합 그룹별로, 상기 K개의 신경망에 대하여 해당하는 학습데이터로 학습하여 가중치를 각 신경망의 개별 오차가 수렴할 때까지 갱신하는 단계; 및 (e) 상기 (d) 단계에서 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴할 때까지 상기 개별 오차가 수렴된 K개의 신경망에 대하여 상기 (c) 내지 (e) 단계를 반복수행하고, 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 단계를 포함한다.
상기 다른 기술적 과제를 달성하기 위하여 본 발명은 수동 레이블 파일에 대하여 자동 레이블링을 수행하여 생성된 1차 레이블 파일의 음소경계를 수정하기 위한 자동 레이블링방법에 있어서, (a) 초기에 생성되거나 갱신된 K개의 신경망 집합으로부터 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 동일한 신경망으로 탐색된 K개의 음소조합 그룹별로 상기 K개의 신경망을 학습하여 가중치를 갱신하고, 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 단계; 및 (b) 상기 (a) 단계에서 제공되는 음소조합 그룹 분류결과 및 최적구획 분류신경망 집합을 이용하여 상기 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성하는 단계를 포함한다.
상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 자동 레이블링장치는
수동 레이블 파일을 음향특징변수에 의거하여 HMM 훈련 및 비터비 디코딩을 이용한 자동 레이블링을 수행하여 1차 레이블 파일을 생성하는 레이블링부; K개의 다층 퍼셉트론으로 이루어지는 초기 신경망 집합으로부터, 입력변수에 대하여 좌, 우 음소의 이름으로 이루어지는 L개의 음소조합 각각에 대하여 최소오차를 갖는 최적인 신경망을 탐색하고, 동일한 신경망으로 분류된 K개의 음소조합 그룹별로 상기 K개의 다층 퍼셉트론에 대하여 해당하는 학습데이터로 학습하여 각 다층 퍼셉트론의 가중치를 갱신하고, 갱신된 가중치를 해당하는 신경망에 적용하여 전체 오차가 수렴하는 시점에서 얻어지는 K개의 다층 퍼셉트론을 최적구획 분류신경망 집합으로 구성하는 최적구획 분류신경망 구성부; 및 상기 최적구획 분류신경망 구성부로부터 제공되는 음소조합 분류결과 및 최적구획 분류신경망 집합을 이용하여 상기 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성하는 음소경계 수정부를 포함한다.
이하, 본 발명의 실시예에 대하여 첨부된 도면들을 참조하여 상세하게 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 자동 레이블링장치의 구성을 나타내는 블럭도로서, 레이블링부(11), 최적구획 분류신경망 구성부(13) 및 음소경계 수정부(15)로 이루어진다.
도 1을 참조하면, 레이블링부(11)는 수동 레이블 파일을 음향특징변수에 의거하여 HMM 훈련 및 비터비 디코딩을 이용한 자동 레이블링을 수행하고 1차 레이블 파일을 생성한다. 음향특징변수의 일예로는 멜 주파수 켑스트럼 계수(Mel Frequency Cepstral Coefficients, 이하 MFCC라 약함)를 들 수 있다. MFCC는 HMM 음소분할에 사용되는 것으로서, 바람직하게로는 총 4개의 연속된 프레임에 대한 MFCC들을 입력변수로 사용한다. 한 프레임에 대해 총 13개의 MFCC가 계산되므로 신경망에 입력되는 변수는 총 52개가 된다.
최적구획 분류신경망 구성부(13)는 음향특징변수와 부가변수를 입력변수로 하고, 수동 레이블 파일로부터 생성되는 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하여 L개의 음소조합을 사용자가 설정한 신경망의 갯수(K)에 해당하는 구획으로 분할하고, 각 구획별로 재학습된 다층 퍼셉트론(Multi-Layer Perceptron) 구조의 K개의 최적구획 분류신경망을 구성한다. 여기서, 부가변수는 단구간 영교차율(Short-Term Zero Crossing Rate, 이하 ST-ZCR이라 약함), 스펙트럼 특징변수 변화율(Spectral Feature Transition Rate, 이하 SFTR이라 약함), 대칭 Kullback-leibler 거리(Symmetrical Kullback-Leibler Distance, 이하 SKLD라 약함) 등을 포함한다. 각 변수에 대하여 좀 더 세부적으로 설명하면 다음과 같다.
ST-ZCR은 임의구간내에서 음성신호의 부호가 얼마나 자주 바뀌는가를 정량적으로 나타낸 값으로서, 유성음과 무성음에 대해 의미있게 구분되는 히스토그램을 갖기 때문에 유/무성음에 해당하는 음소가 서로 인접한 경우 음소분할에 유용한 변수이다. ST-ZCR은 변동성분이 적은 유성음 구간에서는 비교적 작은 값을 가지며, 백색잡음과 같은 성분을 많이 포함하는 무성음 구간에서는 큰 값을 가진다. SFTR은 시간에 따라 변화하는 스펙트럼 궤적을 1차 함수로 표현한 경우 각 스펙트럼 특징변수에 대한 1차 함수기울기의 유클리디안 거리를 나타낸다. 즉, 임의 시간에서 스펙트럼 특징변수가 얼마나 급격하게 혹은 천천히 변화하는가를 나타내는 변수로서, 스펙트럼이 안정적인 값을 갖는 음소 중앙부분에서는 지역 극소(local minimum) 값을 갖고, 천이구간에서는 비교적 큰 값을 가진다. 따라서, SFTR은 음소 레이블링의 경우 음소의 천이구간이나 안정구간의 표시인자로 사용된다. SKLD는 큰 에너지를 갖는 부분에서의 스펙트럼 차이를 더욱 강조하는 특성을 가지므로, 음성신호에 적용한 경우 포만트(formant)와 같이 문맥(context)과 화자(speaker)에 관한 중요한 정보가 있는 부분을 적응적으로 강조하여 스펙트럼 거리를 구할 수 있다.
한편, 최적구획 분류신경망 구성부(13)에서 다층 퍼셉트론 구조의 신경망을 사용하면 비선형 분할(nonlinear clustering)이 가능하다. 비선형 분할 특성은 입-출력 간의 관계가 비선형 셀에 의해 표현되는 경우 대응규칙을 적절히 모델링할 수 있는 이점이 있다. 다층 퍼셉트론 구조에서는 반복교정(iterative modification)에 의해 가중치를 구하며, 반복교정은 출력노드에 해당하는 최상위 노드의 오차를 아래쪽 신경망에 전파시키는 역전파(back-propagation) 알고리즘에 의해 수행된다.
음소경계 수정부(15)는 최적구획 분류신경망 구성부(13)로부터 제공되는 최적구획 분류 결과 및 최적구획 분류신경망 집합을 이용하여, 레이블링부(11)로부터 제공되는 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성한다. 즉, 음소경계 수정을 위하여, 최적구획 분류신경망 구성부(13)에서 학습이 완료되어 구성된 최적구획 분류신경망을 이용하여, 학습시와 동일한 입력변수를 신경망에 가하여 출력이 1인가 0인가에 따라 음소경계를 판정한다.
도 2는 도 1에 있어서 최적구획 분류신경망 구성부(13)의 세부적인 구성을 나타낸 블럭도로서, 훈련코퍼스(21), 최소오차 분류부(22), 재훈련부(23) 및 신경망 집합(24)으로 이루어진다.
훈련코퍼스(21)는 음향특징변수와 부가변수를 포함한 입력변수와 수동 레이블 파일을 저장한다.
최소오차 분류부(22)는 먼저 훈련코퍼스(21)에 저장된 입력변수와 수동 레이블 파일로부터 얻어지는 음소경계를 이용하여 좌, 우 음소의 이름으로 이루어지는 L개의 음소조합을 생성한다. 다음, 입력변수를 포함하는 학습데이터를 K개로 분할하고 분할된 학습데이터로부터 얻어지는 다층 퍼셉트론 구조의 K개의 신경망 집합(24)으로부터, L개의 음소조합 각각에 대하여 최소오차를 갖는 최적인 신경망을 탐색하고, L개의 음소조합을 동일한 신경망으로 분류된 K개의 음소조합 그룹으로 분류한다.
재훈련부(23)는 최소오차 분류부(22)에서 분류된 K개의 음소조합 그룹별로, 소정의 반복횟수만큼 K개의 신경망에 대하여 해당하는 학습데이터로 학습하여 각 신경망의 가중치를 갱신하고, 갱신된 가중치를 신경망집합(24)에서 해당하는 신경망에 적용하여 전체 오차가 수렴하도록 한다.
도 3은 도 1에 있어서 최적구획 분류신경망 구성부(13)의 동작을 설명하기 위한 흐름도로서, 초기화단계(31 단계), 분류단계(32 단계), 병합단계(33 단계), 신경망 훈련 및 갱신단계(34 단계), 수렴확인단계(35 단계) 및 최적구획 분류신경망 구성단계(36 단계)로 이루어진다.
그러면, 도 2에 도시된 최적구획 분류신경망 구성부(13)의 동작을 도 3의 흐름도와 결부시켜 설명하면 다음과 같다.
최적구획 분류신경망 구성부(13)에서는 주어진 학습데이터에서 최적의 K개 복수신경망을 구성한다. 이를 위하여 먼저 초기 복수신경망을 구성하고, 학습데이터에 대하여 분류와 학습이 반복적으로 수행되어 전체 오차를 점진적으로 줄여나간다. 먼저, 복수신경망을 표현하는 방법을 설명하면 다음과 같다.
1개의 은닉계층을 갖는 신경망에서, n 번째 프레임과 n+1 번째 프레임이 서로 인접하는 경우, 입력파라미터 xi(n)에 대한 출력 y(n)은 다음 수학식 1과 같이 주어진다.
여기서, vj 는 은닉계층과 출력계층간의 신경망 가중치, wij 는 입력계층에서 은닉계층으로의 가중치를 각각 나타낸다. Ni, No 는 각각 입력계층에서의 노드수와 은닉계층에서의 노드수를 나타내며, f(·)는 시그모이드 함수를 나타낸다.
한편, 출력노드에서의 오차 e(n)는 다음 수학식 2와 같이 나타낼 수 있다.
여기서, yd(n)은 목표출력값으로서 n번째 프레임과 n+1 번째 프레임 사이에 음소경계가 존재하는 경우 '1'. 그렇지 않은 경우 '0'의 값을 가진다.
한편, 를 신경망을 구성하는 모든 가중치들의 집합으로 정의하고, 으로 정의하면, 상기 수학식 1은 다음 수학식 3과 같이 나타낼 수 있다.
y(n) = F(Φ, X(n))
여기서, 입력벡터 X(n)에는 도 4에 도시된 바와 같이 (n-1) 번째, n 번째, (n+1) 번째, (n+2) 번째 프레임에 해당하는 MFCC 계수와, n 번째 프레임과 (n+1) 번째 프레임간에 계산된 SFTR, SKLD와, n 번째 프레임과 (n+1) 번째 프레임에서 계산된 ST-ZCR이 포함된다.
한편, 신경망의 가중치 갱신값(ΔΦ)는 다음 수학식 4와 같이 나타낼 수 있다.
여기서, η는 학습이득(0<η<1)을 나타낸다.
복수개의 신경망이 사용되는 경우, 이들 신경망이 포함된 집합을 C로 정의한다면 최적의 신경망 집합 C* = {Φ1, Φ2,...,Φk}는 다음 수학식 5와 같이 나타낼 수 있는 모든 음소경계에서의 오차합(D)을 최소화시킬 수 있다.
여기서, M은 전체 음소경계의 수를 나타내며, Wm 은 m 번째 음소경계에서의 경계영역을 나타내며, 다음 수학식 6과 같이 나타낼 수 있다.
여기서, tm 은 m 번째 음소경계의 위치와 가장 가까운 프레임 인덱스를 나타낸다.
상기 수학식 5로 정의되는 전체 오차합을 최소화시키는 신경망을 구성하기 위하여, 신경망의 입력변수를 미리 구획별로 분할하여 분류 및 재학습과정을 분할된 구획별로 수행하며, 이는 도 3에 있어서 31 내지 36 단계로 이루어진다.
도 3을 참조하면, 31 단계는 초기화단계로서, 신경망 학습을 위한 학습데이터 , 제1 및 제2 문턱치(ε1 , ε2)를 설정하고, 초기 신경망 집합 을 미리 준비한다. 반복횟수 인덱스(i)는 0으로, 초기 오차합(D0(C0))은 무한대로 설정하고, 수동 레이블링에 의해 얻어진 음소경계의 위치값 을 준비한다. 초기 신경망 집합의 구성은 난수를 사용하여 K개의 신경망을 구성하거나, 학습데이터를 K개의 그룹으로 임의 분할하고 분할된 각 구획에 대해 역전파 알고리즘에 의한 학습에 의해 얻는 방법을 사용할 수 있다. 학습데이터에 포함된 모든 입력변수는 도 6에 도시된 바와 같이 Np개의 음소조합 중 하나로 할당된다. 예를 들면, n 번째 입력데이터 X(n)이 j 번째 음소조합에 해당한다면, X(n)∈Pj 로 표현된다. 마찬가지로, 모든 음소경계에 대해서도 음소조합이 할당된다. 즉, Pc(m)=j 와 같이 표현할 수 있는데, Pc(m)은 m 번째 음소경계에 대한 음소조합 인덱스이며, 1≤j≤Np, 1≤n≤N, 1≤m≤M이다.
32 단계는 분류단계로서, 초기 신경망 집합으로부터 각 음소조합에 대해 최소오차를 갖는 최적의 신경망을 찾는다. j번째 음소조합(Pj)에 대한 i 번째 반복에서의 최적의 신경망 인덱스 ci(Pj) 는 다음 수학식 7과 같이 표현할 수 있다.
여기서, Wm 은 다음 수학식 8에서와 같이, m 번째 음소경계에 포함되는 입력변수들이 선택되는 구간을 나타낸다.
여기서, tm 은 m 번째 음소경계의 위치와 가장 가까운 프레임 인덱스를 나타낸다.
수학식 7를 살펴보면, k번째 신경망에 대한 전체 오차는 음소조합 Pj에 포함되는 모든 학습데이터를 k번째 신경망에 입력시킨 경우 얻어지는 출력과 목표 출력간의 자승 오차 합으로 주어짐을 알 수 있다.
33 단계는 병합단계로서, 상기 32 단계의 분류 과정을 통해 모든 음소조합이 최적의 신경망으로 분류되면, 이때 동일한 신경망으로 분류된 음소조합들을 병합시켜 새로운 구획으로 분류한다. l 번째 구획은 l 번째 신경망이 최적의 신경망으로 선택된 모든 음소조합을 포함하며, 다음 수학식 9과 같이 나타낼 수 있다.
여기서, 는 i번째 반복에서 k번째 구획을 나타내는 것으로, 구획에 포함된 모든 음소조합으로 구성된 집합을 나타낸다. 를 학습데이터에 포함된 입력변수들로 나타내는 경우 다음 수학식 10과 같이 표현할 수 있다.
다음, 새로운 구획에 대한 전체 오차는 다음 수학식 11와 같이 나타낼 수 있다.
여기서, i는 반복횟수 인덱스를 나타내며, Si는 i 번째 반복에서의 구획(partition)을 나타내며 다음 수학식 12와 같이 나타낼 수 있다.
34 단계는 개별 신경망의 갱신단계로서, 상기 32 단계와 33 단계의 분류-병합에 의해 생성된 구획에 따라 구획별로 신경망을 학습한다. 이때, k 번째 신경망에 대한 가중치 갱신값은 다음 수학식 13과 같이 나타낼 수 있다.
수학식 13을 살펴보면, 전체 학습데이터 중에 동일한 신경망으로 분류된 데이터들만으로 해당 신경망을 갱신함을 알 수 있다. 개별 신경망의 갱신은 상기 수학식 13에서 얻어지는 갱신값을 단지 1번만 적용시키는 것이 아니고 반복적으로 작용함으로써 수행된다. 즉, 수학식 13을 통해 얻어진 갱신된 신경망 파라미터 를 이용하여 다시 오차를 계산하고, 이 오차에 따라 를 갱신하는 과정을 반복한다. 갱신의 종료시점은 K개의 모든 신경망이 수렴하는 순간이다. 수렴성은 오차의 변화율이 제1 문턱치(ε1)보다 작은지 여부를 통해 판단된다. 이와 같은 과정을 통해 최종적으로 갱신된 신경망들로 새로운 신경망 집합 을 구성한다.
35 단계는 수렴확인 단계로서, 이를 위하여 상기 수학식 11에 의해 주어지는 현재 반복횟수에서 구한 전체 오차합이 이전 반복횟수에서 구한 오차합과 비교하여 어느 정도의 변화가 있는지를 확인한다. 만약 다음 수학식 14으로 주어지는 전체 오차합의 변화율이 제2 문턱치(ε2 )보다 작다면 학습을 종료시키고, 그렇지 않다면 i를 1 증가시켜 상기 32 내지 35 단계를 반복수행한다.
36 단계에서는 상기 35 단계에서 수렴성이 확인된 경우, 이때 얻어진 신경망 집합(24)을 최적구획 분류신경망 조합으로 구성한다.
상기와 같은 31 내지 36 단계에 의하여 분류, 병합 및 재훈련 과정이 반복적으로 수행되어 전체 오차가 수렴하게 되면, 33 단계에서 얻어지는 음소조합 구획결과와 36 단계에서 얻어지는 최적구획 분류신경망을 음소경계 수정부(11)에서 음소경계 수정을 위해 사용하게 된다.
상기한 방법에 의하면, i번째 반복 후에 생성된 신경망 집합 에 대하여 상기 32 및 33 단계의 최소오차 분류를 적용한 후의 오차는 를 만족한다. 즉, 주어진 신경망 집합에 대하여 Np개의 음소조합이 최적의 구획으로 분할된다. 상기 34 단계의 과정은 분할된 각 구획에 대해 최소오차를 갖는 최적의 신경망이 재학습된다. 따라서 상기 34 단계의 과정을 거친 후 전체 오차는 를 만족한다.
상기 34 단계 이후에 얻어지는 신경망들이 최소 오차면에서 최적의 신경망을 보장하지 못할 경우 반복횟수가 증가하더라도 전체 오차합이 점진적으로 감소하지 않게 되어 무한개의 반복이 일어나게 된다. 이를 방지하기 위하여 34 단계에서 학습이득(η)을 작은 값으로 설정하고, 수렴성 조사를 위한 제1 문턱치(ε1)를 비교적 작은 값으로 설정하여 충분한 반복을 통해 신경망을 갱신시킨다.
도 4는 도 2에 도시된 신경망에 있어서 입력변수와 출력값의 관계를 나타낸 것으로서, 입력변수로는 (n-1), (n), (n+1), (n+2) 번째 프레임에 해당하는 MFCC 계수들과, (n), (n+1) 번째 프레임에서 계산된 ST-ZCR, SFTR, SKLD를 포함하며, 출력값은 음소 A와 음소 B의 경계에 해당하는 부분에는 1, 그렇지 않은 부분에는 0을 설정하고, 음소경계로부터 좌, 우 1 프레임 만큼 떨어진 부분에는 0.5를 설정한다. 즉, 신경망 출력값의 급격한 변동을 억제하기 위하여 (n-1) 번째 프레임과 n 번째 프레임간의 목표 출력값을 0.5로 설정하고, n 번째 프레임과 (n+1) 번째 프레임간의 목표 출력값도 0.5로 설정한다.
도 5는 도 1에 도시된 음소경계 수정부(15)에 있어서 음소경계 수정영역을 설명하기 위한 것이다. 도 5를 참조하면, HMM을 이용하여 자동 레이블링된 음소의 경계(51) 부근에서 음소의 위치를 수정하기 위하여, 수정영역(53)은 좌, 우 음소의 지속시간을 소정 간격으로 분할한 만큼을 좌, 우로 이동하면서 계산되는 신경망의 출력들 중 1에 가까운 값을 갖는 위치를 새로운 음소경계로 지정한다. 여기서, 바람직하게로는 수정영역은 좌, 우 음소의 지속시간을 3 등분하고, HMM을 이용하여 자동 레이블링된 음소의 경계부근에서 좌, 우로 1/3 분할한 길이로 설정한다.
도 6은 도 1에 도시된 최적구획 분류신경망 구성부(13)에 있어서 신경망의 입력변수를 분할하는 방법을 설명하기 위한 것으로서, 참조부호 61, 62, 63은 수동 레이블링에 의한 음소경계를 나타낸다. 도 6을 참조하면, 모든 입력변수는 레이블링된 음소이름에 따라 해당하는 음소조합이 할당되는데, 할당되는 음소조합은 입력변수의 위치에서 가장 가까운 음소경계를 찾고, 이 경계에서 연결되는 두개의 음소이름으로 결정된다. 예를 들면, 영역 n에 가장 가까운 음소경계는 가운데에 위치한 음소경계(61)로서 음소 B 및 음소 C로 연결된다. 따라서, 영역 n에 포함되는 모든 MLP 특징벡터들은 B+C의 음소조합을 갖는다. 이와 같이 입력변수에 대한 음소조합은 음소경계에 의해 결정된다.
이러한 방법으로 입력변수를 분할하는 경우, 전체 구획수는 사용된 음소수의 제곱으로 주어진다. 예를 들어 54개의 기본 음소가 사용된 경우 54*54=2516개의 구획으로 입력벡터를 분할하게 된다. 이는 가능한 최대 구획의 수이며, 문맥적으로 의미있는 조합은 대략 1000 여개의 구획으로 구분할 수 있다. 1000 여개의 구획 중 몇개의 구획을 서로 병합시켜 미리 정해놓은 개별 신경망의 갯수만큼 새로운 구획을 생성한다. 이때 개별신경망의 갯수(K)는 음소조합에 의한 구획의 수(L)와 같거나 작은 값으로 설정하는 것이 바람직하다.
도 7은 도 3에 있어서 신경망 학습 및 갱신단계(34 단계)를 도식적으로 나타낸 것으로서, MLP 구조의 K개의 신경망으로 이루어지는 초기 신경망집합(71)을 준비하고, MLP 탐색부(72)에서는 가능한 모든 음소조합(73)에 대하여 초기 신경망집합(71)으로부터 최소 오차를 갖는 MLP 인덱스를 탐색한다. 분류부(74)에서는 MLP 탐색부(73)에서 모든 음소조합에 대하여 최소 오차를 갖는 MLP 인덱스가 탐색되면, 이때 동일한 MLP 인덱스가 탐색된 음소조합들을 병합시켜 K개의 새로운 구획(75)으로 분류한다. 각 구획에 해당하는 학습데이터는 해당하는 MLP 구조의 신경망(76)을 재훈련시켜 가중치를 갱신한다. 개별 신경망의 재훈련과정은 갱신된 가중치를 이용하여 오차를 계산하고, 오차의 변화율이 제1 문턱치(ε1)보다 작아질 때까지 재훈련을 반복한다. 한편, 현재 반복횟수에서 구한 전체 오차합이 이전 반복횟수에서 구한 오차합과 비교하여 전체 오차합의 변화율이 제2 문턱치(ε2 )보다 작아질 때까지 전체적인 과정 즉 상기 32 단계 내지 35 단계를 반복수행한다.
한편, 예를 들어 도 7의 새로운 구획(75) 중 제1 구획에 대해 음소조합 {G+e, n+o, d+a, m+o}가 포함되고, 음소경계 수정시 1차 레이블 파일의 현재 좌, 우의 음소명이 d와 a인 경우 음소경계 수정부(15)에서의 음소경계 수정시에는 제1 신경망이 선택된다.
이러한 방법은 음소조합의 구획분할이 언어학적인 지식과는 전혀 상관없이 이루어지고, 오직 전체 오차를 최소화하는 관점에서만 이루어지므로, 최종적으로 분류된 음소조합은 최소 오차면에서 최적의 음소조합 분류를 보장한다.
다음, 본 발명에 따른 학습과정에서 구획 분할을 수행하는 최적 음소 구획분류방법의 성능을 평가해 보기로 한다. 성능평가를 위해 약 476,924개의 입력벡터-출력데이터가 사용되었으며, 전체 신경망의 갯수는 29개로 설정하였으며, 구성된 신경망은 1개의 은닉계층을 갖고, 은닉계층에서의 노드 수는 15개로 설정하였다. 시그모이드 함수의 β값은 2.0, 학습시의 학습이득(η) 값은 0.5로 설정하였다. 역전파 알고리즘시의 수렴성 조사를 위한 오차 비율의 문턱치는 0.001로, 무한루프를 방지 하기 위한 반복횟수는 최대 300으로 제한하였다. 입력벡터는 4개의 13차 MFCC, SKLD, SFTR, ST-ZCR 등을 포함하고, MFCC(Mel Frequency Cepstrum Coefficients)의 분석시 프레임 길이와 프레임 간격은 각각 25msec, 10msec로 설정하였다.
다음 표 1은 상기한 바와 실험환경에서 HMM만을 사용하여 음소경계를 추정하는 경우(종래기술 1), HMM으로 얻어진 음소경계를 단일 신경망을 사용하여 수정하는 경우(종래기술 2), 및 언어학적 지식에 의거한 음소군 조합별로 신경망을 사용한 경우(종래기술 3), 최적구획 분할된 신경망을 사용한 경우(본 발명)에 대한 성능비교를 나타낸 것이다.
방 법 RMSE(msec) MAE(msec) <20msec(%)
종래기술 1 HMM 단독 12.51 8.91 91.99
종래기술 2 HMM + 단일 신경망 12.20 7.70 91.73
종래기술 3 HMM + 음소군조합별 신경망 10.50 6.68 94.37
본 발명 HMM + 최적구획 분류신경망 10.13 6.23 95.17
상기 표 1을 살펴보면, RMSE(Root Mean Square Error), MAE(Mean Absolute Error) 면에서 종래기술 3과 본 발명에서와 같이 복수개의 신경망을 사용하는 경우 종래기술 1 및 2에 비하여 현저한 성능 향상을 보임을 알 수 있다. 특히, 미리 분할된 음소군의 조합을 사용하는 종래기술 3의 경우에 비하여 학습과정에서 최적구획으로 분할된 신경망을 사용하는 본 발명의 경우 더욱 우수한 성능 향상이 있음이 입증되었다. 또한, 본 발명에서는 20 msec 백분율 누적 오차면에 있어서 20 msec 이내의 경계오차를 발생하는 음소가 95%를 초과함으로써 자동 레이블링의 실용성을 한층 더 증가시킬 수 있음이 입증되었다.
도 8은 본 발명에 따른 최적구획 분류신경망의 학습시 학습데이터에 대한 전체 오차를 반복횟수별로 나타낸 것으로서, 전체 오차는 단일 신경망을 사용한 경우와 마찬가지로 최소오차 지점으로 수렴하는 경향을 보인다. 전체 반복횟수 중에서 초기의 1~5회 부분에서 거의 수렴하는 것을 알 수 있는데, 이는 초기 신경망들이 학습데이터로부터 유래된 것에 기인하며, 랜덤 값을 이용한 초기화시에는 이보다 많은 반복횟수에 의해 수렴한다.
도 9는 음소군 조합별 신경망(종래기술 3)과 본 발명에 의한 최적구획 분류신경망의 백분율 누적 오차를 비교한 것으로서, 대체적으로 향상되었음을 알 수 있다. 특히, 레이블 오류 수정의 지표로 삼고 있는 "20 msec 이내 오차를 갖는 음소가 95%를 차지하는 경우"가 관찰됨을 알 수 있다.
한편, 상기한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
상술한 바와 같이 본 발명에 따르면, 자동 레이블링 과정후 생성된 1차 레이블 파일의 음소경계를 최적구획 분류신경망 및 최적구획 분류결과를 이용하여 수정함으로써, 20 msec 이내 오차를 갖는 음소가 95% 이상을 차지하게 되어 동일한 합성단위의 일관성을 유지할 수 있게 되어 합성단위 결합시 부정합을 감소시킬 수 있는 이점이 있다. 따라서, 궁극적으로 합성 음질을 향상시킬 수 있을 뿐 아니라, TTS(Text-To-Speech) 음성합성기 구현에 필요한 음성코퍼스의 구축시간을 획기적으로 단축시킬 수 있는 이점이 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 본 발명의 일실시예에 따른 자동 레이블링장치의 구성을 나타내는 블럭도,
도 2는 도 1에 있어서 최적구획 분류신경망 구성부의 세부적인 구성을 나타낸 블럭도,
도 3는 도 1에 있어서 최적구획 분류신경망 구성부의 동작을 설명하는 흐름도,
도 4는 신경망의 입력변수와 출력값의 관계를 설명하는 도면,
도 5는 도 1에 있어서 음소경계 수정부의 음소경계 수정영역을 설명하는 도면,
도 6은 도 1에 있어서 최적구획 분류신경망 구성부의 입력변수 분할과정을 설명하는 도면,
도 7은 도 3에 있어서 신경망 학습 및 갱신단계를 도식적으로 설명하는 도면,
도 8은 본 발명에 따른 최적구획 분류신경망의 학습시 학습데이터에 대한 전체 오차를 반복횟수별로 나타낸 그래프, 및
도 9는 종래의 음소군 조합별 신경망과 본 발명에 의한 최적구획 분류신경망의 백분율 누적 오차를 비교한 그래프이다.

Claims (18)

  1. (a) 좌, 우 음소의 이름으로 이루어지는 L개의 음소조합을 수동 레이블링에 의해 얻어진 음소경계를 이용하여 획득하는 단계;
    (b) 입력변수를 포함하는 학습데이터로부터 다층 퍼셉트론 구조의 K개의 신경망 집합을 생성하는 단계;
    (c) 상기 신경망 집합 또는 갱신된 신경망 집합으로부터 상기 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 상기 L개의 음소조합을 동일한 신경망으로 탐색된 K개의 음소조합 그룹으로 분류하는 단계;
    (d) 상기 (c) 단계에서 분류된 K개의 음소조합 그룹별로, 상기 K개의 신경망에 대하여 해당하는 학습데이터로 학습하여 가중치를 각 신경망의 개별 오차가 수렴할 때까지 갱신하는 단계; 및
    (e) 상기 (d) 단계에서 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴할 때까지 상기 개별 오차가 수렴된 K개의 신경망에 대하여 상기 (c) 내지 (e) 단계를 반복수행하고, 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 단계를 포함하는 최적구획 분류신경망 구성방법.
  2. 제1 항에 있어서, 상기 입력변수는 멜 주파수 켑스트럼 계수, 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망 구성방법.
  3. 제2 항에 있어서, 상기 입력변수는 (n-1), (n), (n+1), (n+2) 번째 프레임에 해당하는 상기 멜 주파수 켑스트럼 계수, (n), (n+1) 번째 프레임에서 계산된 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망 구성방법.
  4. 제1 항에 있어서, 상기 신경망의 출력값은 음소의 경계에 해당하는 부분에는 1, 그렇지 않은 부분에는 0을 설정하고, 음소경계로부터 좌, 우 1 프레임 만큼 떨어진 부분에는 0.5를 설정하는 최적구획 분류신경망 구성방법.
  5. 수동 레이블 파일에 대하여 자동 레이블링을 수행하여 생성된 1차 레이블 파일의 음소경계를 수정하기 위한 자동 레이블링방법에 있어서,
    (a) 초기에 생성되거나 갱신된 K개의 신경망 집합으로부터 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 동일한 신경망으로 탐색된 K개의 음소조합 그룹별로 상기 K개의 신경망을 학습하여 가중치를 갱신하고, 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 단계; 및
    (b) 상기 (a) 단계에서 제공되는 음소조합 그룹 분류결과 및 최적구획 분류신경망 집합을 이용하여 상기 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성하는 단계를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  6. 제5 항에 있어서, 상기 입력변수는 멜 주파수 켑스트럼 계수, 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  7. 제6 항에 있어서, 상기 입력변수는 (n-1), (n), (n+1), (n+2) 번째 프레임에 해당하는 상기 멜 주파수 켑스트럼 계수, (n), (n+1) 번째 프레임에서 계산된 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  8. 제5 항에 있어서, 상기 신경망의 출력값은 음소의 경계에 해당하는 부분에는 1, 그렇지 않은 부분에는 0을 설정하고, 음소경계로부터 좌, 우 1 프레임 만큼 떨어진 부분에는 0.5를 설정하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  9. 제5 항에 있어서, 상기 (b) 단계에서의 음소경계 수정영역은 상기 음소조합의 좌, 우 음소의 지속시간 중 소정 영역으로 설정하는 것을 특징으로 하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  10. 제9 항에 있어서, 상기 소정영역은 상기 좌, 우 음소의 지속시간을 각각 3 등분하고, 상기 1차 레이블 파일의 각 음소경계 부근에서 좌, 우로 1/3 분할한 길이로 설정하는 것을 특징으로 하는 최적구획 분류신경망을 이용한 자동 레이블링방법.
  11. 수동 레이블 파일에 대하여 자동 레이블링을 수행하여 1차 레이블 파일을 생성하는 레이블링부;
    초기에 생성되거나 갱신된 K개의 신경망 집합으로부터 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 동일한 신경망으로 탐색된 K개의 음소조합 그룹별로 상기 K개의 신경망을 학습하여 가중치를 갱신하고, 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴하는 시점에서 얻어지는 K개의 신경망을 최적구획 분류신경망 집합으로 구성하는 최적구획 분류신경망 구성부; 및
    상기 최적구획 분류신경망 구성부로부터 제공되는 음소조합 분류결과 및 최적구획 분류신경망 집합을 이용하여 상기 1차 레이블 파일의 음소경계를 수정하고, 수정 결과를 반영한 최종 레이블 파일을 생성하는 음소경계 수정부를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  12. 제11 항에 있어서, 상기 최적구획 분류신경망 구성부는
    음향특징변수와 부가변수를 포함한 입력변수와 수동 레이블 파일을 저장하는 훈련 코퍼스;
    상기 훈련코퍼스에 저장된 입력변수와 수동 레이블 파일로부터 얻어지는 음소경계를 이용하여 좌, 우 음소의 이름으로 이루어지는 L개의 음소조합을 생성하고, 초기에 생성되거나 갱신된 K개의 신경망 집합으로부터 상기 L개의 음소조합 각각에 대하여 최소오차를 갖는 신경망을 탐색하고, 상기 L개의 음소조합을 동일한 신경망으로 탐색된 K개의 음소조합 그룹으로 분류하는 최소오차 분류부; 및
    상기 최소오차 분류부에서 분류된 K개의 음소조합 그룹별로 상기 K개의 신경망에 대하여 해당하는 학습데이터로 학습하여 가중치를 각 신경망의 개별 오차가 수렴할 때까지 갱신하고, 개별 오차가 수렴된 K개의 신경망의 전체 오차합이 수렴하도록 재훈련시키는 재훈련부를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  13. 제11 항에 있어서, 상기 입력변수는 멜 주파수 켑스트럼 계수, 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  14. 제13 항에 있어서, 상기 입력변수는 (n-1), (n), (n+1), (n+2) 번째 프레임에 해당하는 상기 멜 주파수 켑스트럼 계수, (n), (n+1) 번째 프레임에서 계산된 단구간 영교차율, 스펙트럼 특징변수 변화율 및 대칭 Kullback-leibler 거리를 포함하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  15. 제11 항에 있어서, 상기 신경망의 출력값은 음소의 경계에 해당하는 부분에는 1, 그렇지 않은 부분에는 0을 설정하고, 음소경계로부터 좌, 우 1 만큼 떨어진 부분에는 0.5를 설정하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  16. 제11 항에 있어서, 상기 음소경계 수정부의 음소경계 수정영역은 상기 좌, 우 음소의 지속시간 중 소정 영역으로 설정하는 것을 특징으로 하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  17. 제16 항에 있어서, 상기 소정영역은 상기 좌, 우 음소의 지속시간을 각각 3 등분하고, 상기 1차 레이블 파일의 각 음소경계 부근에서 좌, 우로 1/3 분할한 길이로 설정하는 것을 특징으로 하는 최적구획 분류신경망을 이용한 자동 레이블링장치.
  18. 제1 항 내지 제10 항 중 어느 한 항에 기재된 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2003-0012700A 2003-02-28 2003-02-28 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치 KR100486735B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2003-0012700A KR100486735B1 (ko) 2003-02-28 2003-02-28 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
DE602004027566T DE602004027566D1 (de) 2003-02-28 2004-02-27 Verfahren zur Bildung eines optimal partitionierten, klassifierten neuralen Netzes, und Verfahren und Vorrichtung zur automatischen Kennzeichnung unter Verwendung eines optimal partitionierten, klassifierten neuralen Netzes
EP04251145A EP1453037B1 (en) 2003-02-28 2004-02-27 Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
US10/788,301 US7444282B2 (en) 2003-02-28 2004-03-01 Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network
JP2004056726A JP4545456B2 (ja) 2003-02-28 2004-03-01 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0012700A KR100486735B1 (ko) 2003-02-28 2003-02-28 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치

Publications (2)

Publication Number Publication Date
KR20040077227A KR20040077227A (ko) 2004-09-04
KR100486735B1 true KR100486735B1 (ko) 2005-05-03

Family

ID=32768619

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0012700A KR100486735B1 (ko) 2003-02-28 2003-02-28 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치

Country Status (5)

Country Link
US (1) US7444282B2 (ko)
EP (1) EP1453037B1 (ko)
JP (1) JP4545456B2 (ko)
KR (1) KR100486735B1 (ko)
DE (1) DE602004027566D1 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7088872B1 (en) * 2002-02-14 2006-08-08 Cogent Systems, Inc. Method and apparatus for two dimensional image processing
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US8959019B2 (en) 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US7616788B2 (en) * 2004-11-12 2009-11-10 Cogent Systems, Inc. System and method for fast biometric pattern matching
US8131477B2 (en) 2005-11-16 2012-03-06 3M Cogent, Inc. Method and device for image-based biological data quantification
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US8275179B2 (en) * 2007-05-01 2012-09-25 3M Cogent, Inc. Apparatus for capturing a high quality image of a moist finger
TWI319563B (en) * 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
EP2221805B1 (en) 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
JP5498252B2 (ja) * 2010-05-17 2014-05-21 日本電信電話株式会社 音声データ区分方法、音声データ区分装置、及びプログラム
US8494850B2 (en) 2011-06-30 2013-07-23 Google Inc. Speech recognition using variable-length context
WO2013008384A1 (ja) * 2011-07-11 2013-01-17 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9536517B2 (en) 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8700552B2 (en) 2011-11-28 2014-04-15 Microsoft Corporation Exploiting sparseness in training deep neural networks
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
WO2015057661A1 (en) * 2013-10-14 2015-04-23 The Penn State Research Foundation System and method for automated speech recognition
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
EP3192012A4 (en) 2014-09-12 2018-01-17 Microsoft Technology Licensing, LLC Learning student dnn via output distribution
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
CN105046323B (zh) * 2015-04-29 2017-03-22 西北大学 一种正则化rbf网络多标签分类方法
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
GB2543542A (en) * 2015-10-21 2017-04-26 Ford Global Tech Llc A method of controlling a motor vehicle entertainment system
EP3267438B1 (en) * 2016-07-05 2020-11-25 Nxp B.V. Speaker authentication with artificial neural networks
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10657424B2 (en) * 2016-12-07 2020-05-19 Samsung Electronics Co., Ltd. Target detection method and apparatus
US10019668B1 (en) 2017-05-19 2018-07-10 Google Llc Scheduling neural network processing
US11275996B2 (en) * 2017-06-21 2022-03-15 Arm Ltd. Systems and devices for formatting neural network parameters
US11321604B2 (en) 2017-06-21 2022-05-03 Arm Ltd. Systems and devices for compressing neural network parameters
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
KR102098461B1 (ko) * 2018-02-23 2020-04-07 창원대학교 산학협력단 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법
US11157816B2 (en) * 2018-10-17 2021-10-26 Capital One Services, Llc Systems and methods for selecting and generating log parsers using neural networks
CN109817198B (zh) * 2019-03-06 2021-03-02 广州多益网络股份有限公司 语音合成方法、装置及存储介质
CN113380238A (zh) * 2021-06-09 2021-09-10 阿波罗智联(北京)科技有限公司 处理音频信号的方法、模型训练方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188998A (ja) * 1992-01-17 1993-07-30 Meidensha Corp 音声認識方法
JPH06348291A (ja) * 1993-06-10 1994-12-22 Nippondenso Co Ltd 単語音声認識方法
JPH09319395A (ja) * 1996-03-26 1997-12-12 Meidensha Corp 離散単語音声認識システムにおける音声データ学習装置
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
KR20010003502A (ko) * 1999-06-23 2001-01-15 정선종 음소분할 후처리 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
JPH0682275B2 (ja) * 1989-09-11 1994-10-19 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識装置
JP2991752B2 (ja) * 1990-08-07 1999-12-20 シャープ株式会社 音声認識装置
JPH03201161A (ja) * 1989-12-28 1991-09-03 Sharp Corp 音声認識装置
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5461696A (en) * 1992-10-28 1995-10-24 Motorola, Inc. Decision directed adaptive neural network
ATE200590T1 (de) * 1993-07-13 2001-04-15 Theodore Austin Bordeaux Spracherkennungssystem für mehrere sprachen
CA2161540C (en) * 1994-04-28 2000-06-13 Orhan Karaali A method and apparatus for converting text into audible signals using a neural network
US5509103A (en) * 1994-06-03 1996-04-16 Motorola, Inc. Method of training neural networks used for speech recognition
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
JP3775453B2 (ja) * 1997-07-31 2006-05-17 セイコーエプソン株式会社 音声認識用ニューラルネットワークの学習方法
US6947890B1 (en) * 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
JP3779519B2 (ja) * 2000-03-07 2006-05-31 株式会社山武 データ領域の解析方法及び表現方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188998A (ja) * 1992-01-17 1993-07-30 Meidensha Corp 音声認識方法
JPH06348291A (ja) * 1993-06-10 1994-12-22 Nippondenso Co Ltd 単語音声認識方法
JPH09319395A (ja) * 1996-03-26 1997-12-12 Meidensha Corp 離散単語音声認識システムにおける音声データ学習装置
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
KR20000031935A (ko) * 1998-11-11 2000-06-05 정선종 음성인식시스템에서의 발음사전 자동생성 방법
KR20010003502A (ko) * 1999-06-23 2001-01-15 정선종 음소분할 후처리 방법

Also Published As

Publication number Publication date
EP1453037A3 (en) 2006-05-17
JP4545456B2 (ja) 2010-09-15
KR20040077227A (ko) 2004-09-04
DE602004027566D1 (de) 2010-07-22
JP2004264856A (ja) 2004-09-24
EP1453037B1 (en) 2010-06-09
US7444282B2 (en) 2008-10-28
US20040172238A1 (en) 2004-09-02
EP1453037A2 (en) 2004-09-01

Similar Documents

Publication Publication Date Title
KR100486735B1 (ko) 최적구획 분류신경망 구성방법과 최적구획 분류신경망을이용한 자동 레이블링방법 및 장치
JP5768093B2 (ja) 音声処理システム
US5839105A (en) Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood
US8321222B2 (en) Synthesis by generation and concatenation of multi-form segments
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
Wang et al. An autoregressive recurrent mixture density network for parametric speech synthesis
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
Stuttle A Gaussian mixture model spectral representation for speech recognition
Mohamed et al. HMM/ANN hybrid model for continuous Malayalam speech recognition
Deng et al. Deep dynamic models for learning hidden representations of speech features
CN102237082B (zh) 语音识别系统的自适应方法
GB2508411A (en) Speech synthesis by combining probability distributions from different linguistic levels
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Furui Generalization problem in ASR acoustic model training and adaptation
Rasipuram Probabilistic lexical modeling and grapheme-based automatic speech recognition
JPH0895592A (ja) パターン認識方法
Nock Techniques for modelling phonological processes in automatic speech recognition
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Saxena Significance of knowledge-based representation of speech for spoken term detection
Moon et al. A preliminary study on topical model for multi-domain speech recognition via word embedding vector
Cronk et al. Optimized stopping criteria for tree-based unit selection in concatenative synthesis.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130328

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee