KR102198273B1 - 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 - Google Patents

머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 Download PDF

Info

Publication number
KR102198273B1
KR102198273B1 KR1020190022350A KR20190022350A KR102198273B1 KR 102198273 B1 KR102198273 B1 KR 102198273B1 KR 1020190022350 A KR1020190022350 A KR 1020190022350A KR 20190022350 A KR20190022350 A KR 20190022350A KR 102198273 B1 KR102198273 B1 KR 102198273B1
Authority
KR
South Korea
Prior art keywords
model
verification
voice data
feature
analyzing
Prior art date
Application number
KR1020190022350A
Other languages
English (en)
Other versions
KR20200104019A (ko
Inventor
한미란
김근희
Original Assignee
한미란
김근희
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한미란, 김근희 filed Critical 한미란
Priority to KR1020190022350A priority Critical patent/KR102198273B1/ko
Publication of KR20200104019A publication Critical patent/KR20200104019A/ko
Application granted granted Critical
Publication of KR102198273B1 publication Critical patent/KR102198273B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

각종 조건들에 대하여 학습을 진행한 후 검증을 통해 최적의 조건을 산출하여 이에 대하여 딥러닝시킴으로써, 효과적으로 딥러닝을 진행하며 음성데이터에 대한 정확한 판단을 내릴 수 있는 모델을 구축할 수 있는 머신러닝 기반의 음성데이터 분석 방법에 관한 것이다.

Description

머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 {Machine learning based voice data analysis method, device and program}
본 발명은 머신러닝 기반의 음성데이터 분석 방법에 관한 것이다.
최근 들어, 인공지능의 발전에 따라서 음성 인식이 다양한 분야에 활용되고 있다.
하지만, 컴퓨터에게 음성 인식을 딥러닝시키는 방법은 종래에 비해서 크게 바뀌지 않았고, 이러한 문제점으로 인하여 음성 인식에서 일어나는 각종 오류들이 개선될 기미가 보이지 않고 있다.
본 발명의 출원인은 상술한 문제점을 해결하기 위해서 최적의 조건으로 컴퓨터에게 음성데이터 머신 러닝을 시키는 방법을 안출하였다.
대한민국 공개특허공보 제10-2007-0109314호 (2007.11.15)
상술한 바와 같은 문제점을 해결하기 위한 본 발명은 특징추출 모델을 이용하여 음성데이터 내 특징값을 추출하고 전처리한 후 특징에 따라 라벨링하여 특징선택 모델에 저장하여 분류기 모델을 딥러닝시키고, 이에 대한 검증을 수행하는 머신러닝 기반의 음성데이터 분석 방법을 제공할 수 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 머신러닝 기반의 음성데이터 분석 방법은, 컴퓨터에 의해 수행되는 머신러닝 기반의 음성데이터 분석 방법으로, 특징추출 모델이 입력된 제1음성데이터에서 미리 정해진 특징추출 방법을 이용하여 복수의 제1특징값을 추출하는 단계; 전처리 모델이 정규화 함수를 이용하여 상기 제1특징값을 전처리하는 단계; 상기 전처리된 제1특징값을 각 특징에 따라 라벨링하여 특징선택 모델에 저장하며, 분류기 모델을 학습시켜 딥러닝시키는 단계; 및 상기 분류기 모델에 대한 검증을 수행하여 성능을 측정하는, 검증 단계;를 포함하며, 상기 미리 정해진 특징추출 방법은, 음성데이터 내 음성을 소정 시간 단위로 샘플링 한뒤, 음성의 스펙트럼을 분석하여 특징을 추출하는 방법과, 음성데이터의 파형 또는 파워 스펙트로그램을 분석하여 특징을 추출하는 방법과, 음성데이터가 멜 스케일 (Mel-Scaled)된 스펙트로그램을 분석하여 특징을 추출하는 방법과, 음성데이터에 대한 음정의 최고점과 최저점의 차이를 분석하여 특징을 추출하는 방법과, 음성 데이터의의 화음간 관계를 분석하여 특징을 추출하는 방법을 포함하는 것을 특징으로 한다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
상기와 같은 본 발명에 따르면, 각종 조건들에 대하여 학습을 진행한 후 검증을 통해 최적의 조건을 산출하여 이에 대하여 딥러닝시킴으로써, 효과적으로 딥러닝을 진행하며 음성데이터에 대한 정확한 판단을 내릴 수 있는 모델을 구축할 수 있게 된다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 머신러닝 기반의 음성데이터 분석 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 학습 단계를 예시한 예시도이다.
도 3은 본 발명의 실시예에 따른 예측 단계를 예시한 예시도이다.
도 4는 본 발명의 실시예에 따른 7개의 특징추출 방법을 서술한 도면이다.
도 5는 본 발명의 실시예에 따른 활성화 함수를 예시한 도면이다.
도 6은 본 발명의 실시예에 따른 검증을 예시한 도면이다.
도 7은 본 발명의 실시예에 따른 예측 결과를 예시한 도면이다.
도 8은 본 발명의 실시예에 따른 5개의 특징 추출 시 검증 결과를 예시한 도면이다.
도 9는 본 발명의 실시예에 따른 7개의 특징 추출 시 검증 결과를 예시한 도면이다.
도 10은 본 발명의 실시예에 따른 음성데이터 머신 러닝 장치의 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.
배치 사이즈(Batch Size)는 한 번에 학습을 진행하는 것은 어려우므로, 단위로 나누어서 학습을 진행하는 묶음 단위를 의미한다.
은닉층(Hidden Layer)은 모든 입력 노드로부터 입력값을 받아 가중합을 계산하고, 이 값을 전이함수에 적용하여 출력층에 전달하는 층을 의미한다.
학습률(Learning Rate)은 최적화 시 한 번의 학습으로 얼마나 학습해야 할지 즉, 매개 변수를 얼마나 갱신하느냐를 정하는 값이다.
드롭아웃(Dropout)은 오버피팅(Overfitting)을 억제하는 방식으로, 뉴런을 임의로 삭제하면서 학습하는 방식이다. 훈련(학습) 때는 데이터를 흘릴때마다 삭제할 뉴런을 무작위로 선택하고, 시험 때는 모든 뉴런에 신호를 절달하되, 시험 때는 뉴런의 출력에 훈련때 삭제한 비율을 곱하여 출력한다.
오버피팅(Overfitting)은 하나의 데이터셋에만 지나치게 최적화된 상태를 의미한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 머신러닝 기반의 음성데이터 분석 방법의 흐름도이고, 도 2는 본 발명의 실시예에 따른 학습 단계를 예시한 예시도이며, 도 3은 본 발명의 실시예에 따른 예측 단계를 예시한 예시도이며, 도 4는 본 발명의 실시예에 따른 7개의 특징추출 방법을 서술한 도면이다.
도 1 내지 도 4를 참조하여 본 발명의 실시예에 따른 머신러닝 기반의 음성데이터 분석 방법에 대해서 설명하도록 한다.
바람직하게는, 본 발명의 실시예에서 음성데이터 머신 러닝 장치는 컴퓨터, 서버와 같은 하드웨어 장치를 의미한다.
따라서, 음성데이터 머신 러닝 장치가 입력된 음성데이터를 각 단계에 해당하는 모델을 이용하여 동작을 수행하는 것을 의미한다.
하기 S510단계 내지 S540단계는 학습 단계에 해당한다.
먼저, 특징추출 모델이 장치로 입력된 제1음성데이터에서 5개의 특징추출 방법을 이용하여 복수의 제1특징값을 추출한다. (S510단계)
이때, 5개의 특징추출 방법은 하기와 같다.
1. 음성데이터 내 음성을 소정 시간 단위로 샘플링 한뒤, 음성의 스펙트럼을 분석하여 특징소리의 벡터값을 추출하는 MFCC (Mel-Frequency Cepstral Coefficients)
2. 음성데이터의 파형 또는 파워 스펙트로그램을 분석하여 특징을 추출하는 Chroma Stft (Chromagram from a waveform or power spectrogram),
3. 멜 스케일 (Mel-Scaled)된 스펙트로그램을 분석하여 특징을 추출하는 Melspectrogram (Mel-Scaled Power Spectrogram),
4. 옥타브 기반의 스펙트럼 대비 (음정의 최고점과 최저점의 차이)를 계산한 벡터값을 추출하는 Spectral Contrast,
5. 음성의 화음간 관계에서 조성을 나타낸 벡터값을 추출하는 Tonnetz (Tonal Centroid Feature)
일 실시예로, 상술한 특징추출 방법은 아래와 같은 2개의 특징 추출방법을 더 포함할 수 있다.
6. 주파수 영역으로 변환하여 피치의 주파수 분포를 나타낸 벡터값을 추출하는 Chroma_cqt (Constant-Q Transform)
7. 오디오 신호의 단기간 고조파를 이용하여 정규화한 Chroma 벡터값을 추출하는 Chroma_cens (Chroma Energy Normailized Statistics)
S510단계 다음으로, 전처리 모델이 정규화 함수를 이용하여 제1특징값을 전처리 한다. (S520단계)
일반적으로, 분류기에 기계 학습을 수행하기 위해서는 라벨(정답)이 지정된 데이터셋이 필요하다. 사운드 파일의 경우에는 컴퓨터에 표현되는 각종 소리나 음악에 관한 정보를 담고 있는 wav, voc, mid, mp3 등이 있다.
이때, 10개의 소리를 구분하기 위해서는 각 사운드 파일을 구별하기 위해서 보통 시각화 작업을 진행하여 사람이 육안으로 확인하게 된다.
파이썬의 matplotlib의 specgraom 방법은 각 사운드 파일의 계산과 스펙트럼의 시각화를 수행하며, librosa는 파동 및 로그 전력의 스펙트럼의 시각화를 위한 방법을 제공한다.
즉, 10가지의 소리를 구분하기 위해서는 상기의 라이브러리를 사용하여 시각화하는 방법을 이용할 경우, 사람이 수동으로 구분을 해주어야 하는 문제점이 있다.
따라서, 본 발명의 실시예에서 전처리 단계는 복수 개의 소리를 구분하기 위해서 각각의 소리를 추출하는 방법으로 Librosa 라이브러리를 이용하며, 이를 통해 melspectrogram, mfcc, Chroma-Stft, spectral_contrast, tonnetz 등과 같은 방법으로 다양한 기능의 추출이 가능하게 된다.
또한, 원시 소리데이터 파일을 분류기에 입력하여 학습시키기 위해서는 각 사운드 파일의 클래스 레이블(정답)과 함께 변환하는 작업이 필요한데, 소리데이터를 변환 후에 데이터를 확인하면 약 200개 정도의 필드와 이들 각각에 해당하는 데이터들이 수치화되어 있다.
보다 나은 정확도를 위하여 데이터를 정제하는 과정이 필요한데, 이는 데이터 패턴에 맞지 않은 이상치(이상값)가 있거나 널(Null) 값이 존재하는 경우 정확도가 떨어지기 때문에, 데이터 전처리 과정에서 제거한 후에 학습을 진행시키게 된다. 이때, 전처리 과정에는 PCA, Z-score 등과 같은 방법이 이용된다.
S520단계 다음으로, 특징선택 모델이 전처리된 제1특징값을 각 특징에 따라 라벨링하여 저장하고, 분류기 모델을 학습시켜 딥러닝 한다. (S530단계)
S530단계 다음으로, 검증 모듈이 분류기 모델에 대한 검증을 수행하여 성능을 측정한다. (S540단계)
도 6은 본 발명의 실시예에 따른 검증을 예시한 도면이다.
본 발명의 실시예에 따른 검증 단계는, 검증 모듈이 N개의 검증세트를 이용하여 N회의 검증을 수행하며, 각 검증세트의 N개의 학습 그룹데이터 중 적어도 하나에 검증 데이터를 배치하되, 서로 다른 검증세트에 검증 데이터의 순서글 다르게 배치하여 상기 N개의 검증세트에 배치된 검증 데이터의 순서가 겹쳐지지 않도록 한다.
또한, 음성데이터를 딥러닝되어 구축된 분류기 모델에 입력하여 해당 음성데이터에 부합하는 조건으로 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 특징추출 모델, 전처리 모델 및 분류기 모델에 적용시키는 것을 특징으로 한다.
일 실시예로, 검증 모듈은 교차 검증(CV, Cross Validation)을 이용하여 검증을 수행하게 된다.
학습데이터를 학습용과 검증용으로 분리할 때, 분리하는 방법에 따라서 검증 결과가 달라지기 때문에, 데이터를 여러 방식으로 분리하여 학습과 검증을 수행하고, 검증 결과의 평균과 분산을 가지고 모델의 성능을 판단한다.
이때, 데이터를 분리하여 여러 번 학습과 검증을 수행하는 방법 중의 하나가 교차 검증이며, 도 6은 5-Fold 교차 검증을 수행할 때 데이터를 분리하는 것을 예시하고 있다.
모델의 검증 과정은 DNN 학습시 적절한 에포크(Epoch) 수를 찾기 위해서도 필요하다.
이때, 에포크(Epoch)는 머신러닝에서 경사하강법을 사용해 학습을 반복할 때 이 반복을 의미한다.
에포크를 크게 설정하면 학습 데이터에 대해서는 지속적으로 정확도가 증가하지만, 새로운 데이터에 대해서는 특징 포인트를 기준으로 하여 정확도가 감소하게 되는 문제점이 있다.
따라서, 에포크 수를 증가시키면서 교차검증을 수행하고, 테스트 데이터의 정확도가 최대가 되는 에포크를 실제 학습의 에포크로 사용하도록 한다.
보다 상세하게는, 검증 모듈이 N개의 검증세트를 이용하여 N회의 검증을 수행하며, 각 검증세트의 N개의 학습 그룹데이터 중 하나에 검증 데이터를 배치하되, 서로 다른 검증세트에 검증 데이터의 순서를 다르게 배치하여 상기 N개의 검증세트에 배치된 검증 데이터의 순서가 겹쳐지지 않도록 하는 것을 특징으로 한다.
이와 같이, 교차 검증 과정에서 Cross Validation을 이용하는 이유는 데이터 중에서 학습용 데이터와 테스트 데이터 중 1가지로 분류할 경우, 편향된 결과를 얻을 수 있기 때문에, 데이터의 수가 많을 경우 10 fold-cross validaiton을 사용하여 한쪽에 편향된 분류기가 아닌 전체 데이터의 평균에 맞는 분류기를 구축할 수 있게 된다.
일 실시예로, 검증 모듈은 음성데이터를 딥러닝되어 구축된 분류기 모델에 입력하여 해당 음성데이터에 최적화된 조건으로 검증을 수행하고 정확도를 산출한다.
보다 상세하게는, 검증 모듈은 훈련(학습)에 적용하지 않은 새로운 음성 데이터를 학습에 적용했던 것과 같이 특징을 추출한 후에 음성 데이터를 PCA, Z-score 등으로 전처리 한 후 딥러닝을 통해 구축된 분류기 모델에 입력하여 결과값을 측정한다.
이와 같이, 이미 딥러닝을 통해 구축된 분류기 모델에는 음성데이터에 최적화된 Drop out, Batch size, Epoch 등이 저장되어 있기 때문에 새로운 음성데이터에 대한 검증을 수행하고 정확도를 산출하며, 검증 완료 후에는 가장 높은 정확도의 조건으로 특징추출 모델, 전처리 모델 및 분류기 모델에 적용시키는 것을 특징으로 한다.
또한, 검증 모듈은 Drop out, Batch-Size(배치 사이즈), z-score(표준화), PCA(Principal Component Analysis; 주성분 분석), Epoch(에포크) 중 적어도 하나를 변경시키며 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 상기 특징추출 모델, 전처리 모델 및 분류기 모델을 학습시키는 것을 특징으로 한다.
도 8은 본 발명의 실시예에 따른 5개의 특징 추출 시 검증 결과를 예시한 도면이고, 도 9는 본 발명의 실시예에 따른 7개의 특징 추출 시 검증 결과를 예시한 도면이다.
도 8을 참조하면, 상기 검증 단계는 상기 Drop out이 0.5이고, 상기 Batch-Size가 100이며, 상기 PCA를 적용하지 않고, 상기 z-score가 적용되고, 상기 Epoch가 4,000일 때 가장 높은 정확도인 것으로 산출되었기 때문에, 상기 조건들을 상기 특징추출 모델, 전처리 모델, 및 분류기 모델에 학습시키는 것을 특징으로 한다.
도 9를 참조하면, 상기 검증 단계는 상기 Drop out이 0.5이고, 상기 Batch-Size가 100이며, 상기 PCA 및 z-score가 적용되고, 상기 Epoch가 4,000일 때 가장 높은 정확도이며, 상기 조건들을 상기 특징추출 모델, 전처리 모델, 및 분류기 모델에 학습시키는 것을 특징으로 한다.
이외에도, 음성데이터 머신 러닝 장치가 상이하여 다른 조건에서 높은 정확도가 산출되는 경우, 조건들을 다르게 적용하여 학습을 수행시킬 수 있다.
또한, 일 실시예로 본 발명의 실시예에서 분류 모델의 딥러닝에 적용되는 함수는 비용 함수(Cost Function)가 적용될 수 있다.
비용 함수는 학습을 위해 최적의 가중치 매개변수를 결정하기 위한 지표로, 주어진 데이터에서 비용 함수의 값이 가장 작아지는 모델의 파라미터를 는 과정을 훈련(Trainin) 또는 학습(Learning)이라고 한다.
대표적인 비용함수로는 평균 제곱 오차(MSE, Mean Squared Error), 교차 엔트로피 오차(CEE, Cross Entropy Error)가 있다.
평균 제곱 오차는 각 원소의 출력(추정값)과 정답 레이블(참 값)의 차를 제곱한 후 그 총합을 구하는 것으로, 2로 나눈 것을 미분했을 때 제곱과 상쇄되게 하기 위해 추가한 것이다.
이때 사용되는 수학식은 하기 수학식 1과 같다.
Figure 112019020003593-pat00001
교차 엔트로피 오차는 Log는 밑이 e인 자연로그, y는 신경망의 출력, t는 정답 레이블로 정답에 해당하는 인덱스의 원소만 1이고, 나머지는 0이며, 정답일 때의 추정(t가 1일 때의 y)의 자연로그를 계산하는 식으로, 정답일 때의 출력이 전체값을 정하게 된다.
이때 사용되는 수학식은 하기 수학식 2와 같다.
Figure 112019020003593-pat00002
또한, 일 실시예로 본 발명의 실시예에서 분류 모델의 딥러닝 시 하기와 같은 최적화 기법들이 적용될 수 있다.
이때, 최적화(Optimization)이란, 신경망 모델의 학습과 그 결과에 따른 손실함수의 값을 최소화하는 방향으로 하이퍼 파라미터의 값을 찾는 것이 목적이다.
그리고, 하이퍼 파라미터 매개변수의 수(n)만큼 가능한 매개변수의 조합이 n x n 만큼 증가하게 되므로, 이 중에서 최적의 조합을 찾는 것은 어려운 일이기 때문에, 다양한 방법으로 찾고자 하는 시도가 이루어지고 있지만 아직까지는 연구자의 주관이나 직관, 경험 등에 의존하는 경향이 있다.
본 발명의 실시예에서는 이와 같은 머신러닝의 최적화를 위해서 하기와 같은 방법들이 사용될 수 있다.
1. 경사 하강법(Gradient Descent)
해당 함수의 최소값 위치를 찾기 위해 비용 함수(손실 함수)의 Gradient 반대 방향으로 정의한 Step size를 가지고 소정값씩 조정하며 최적의 파라미터를 찾는 방법이다.
2. 아담(Adam)
모멘텀(Momentum)과 알엠에스프롭(RMSProp)을 이용하는 방법으로, 정확도와 보폭크기를 개선하게 된다.
모멘텀은 관성의 방향을 고려하여 진동과 폭을 줄이는 효과 기법이며, RMSProp은 AdaGrad의 보폭 민감도를 보완한 기법이고, AdaGrad는 변수의 업데이트가 잦으면 학습률을 적게하여 이동 보폭을 조절하는 기법이다.
일 실시예로, 본 발명의 실시예에 따른 모델의 성능을 평가하기 위해서 혼돈 행렬(Confusion Matrix)이 적용될 수 있다.
혼돈 행렬은 모델의 성능을 평가하기 위해 사용되며, 불균형 데이터셋은 정확도만으로 평가하기 곤란하므로 혼돈 행렬을 이용하여 평가를 실시하도록 한다.
이때, True인데 True로 맞춘 경우는 TP(True Positive), False인데 True로 틀린 경우는 FP(False Positive), False인데 False로 맞춘 경우는 TN(True Negative), True인데 False로 틀린 경우는 FN(False Negative)이다.
그리고, 본 발명의 실시예에 따르면, 모델의 성능에 대하여 평가를 수행할 때 혼돈 행렬을 이용하여 정확도, 오류율, 민감도, 정밀성, 특이도, F1-Score를 산출하여 출력하게 된다.
그리고, 정확도(Accuracy)는 모델이 얼마나 정확하게 분류와 예측을 하였는지를 나타내며, 하기 수학식 3이 적용된다.
Figure 112019020003593-pat00003
오류율(Error Rate)는 정확도와 반대로 전체 데이터 중에서 잘못 분류/예측된 비율을 의미하며, 하기 수학식 4가 적용된다.
Figure 112019020003593-pat00004
민감도(Sensitive or Recall)은 전체 Positive 중에서 Positive로 예측된 비율이며, 하기 수학식 5가 적용된다.
Figure 112019020003593-pat00005
정밀성(Precision)은 Positive로 예측한 내용 중에서 실제 Positive의 비율을 의미하며, 하기 수학식 6이 적용된다.
Figure 112019020003593-pat00006
특이도(Specificity)는 전체 Negitive 중에서 Negitive로 예측된 비율을 의미하며, 하기 수학식 7이 적용된다.
Figure 112019020003593-pat00007
F1-Score는 Recall과 Precision의 값을 가지고 조합 평균(Harmonic Mean)을 산출한 값으로, 하기 수학식8이 적용된다.
Figure 112019020003593-pat00008
도 5는 본 발명의 실시예에 따른 활성화 함수를 예시한 도면이다.
도 5를 참조하여 상술한 학습 단계에서 모델들을 딥러닝 시키는 방법에 대해서 설명하도록 한다.
본 발명의 실시예에서 분류 모델의 딥러닝에 적용되는 함수는 활성화 함수(Activation Function)이 적용될 수 있다.
활성화 함수는 입력값의 총합을 출력값으로 변환하는 함수로 일반적으로 비선형 함수를 사용한다.
이때, 비선형 함수를 사용하는 이유는 선형 함수를 사용하면 은닉층이 없는 신경망(선형)으로 표현되기 때문에 은닉층의 효과를 얻기 위해서 비선형 함수를 사용하게 된다.
도 5 (a)와 같은 시그모이드(Sigmoid)가 적용될 수 있다.
대표적인 Logistic 함수로, 모든 실수 입력값을 0보다 크고 1보다 작은 미분 가능한 수로 변환하는 특징이 있으며, 미분 가능한 0~1 사이의 값을 반환하기 때문에 분류 문제의 가설과 비용함수에 사용된다.
또한, 도 5 (b)와 같은 렐루(Relu)가 적용될 수 있다.
입력값이 0을 넘으면 그 입력을 그대로 출력하고, 0 이하이면 0을 출력하며, 시그모이드의 Gradient vnishing 문제를 해결하기 위해 최근에 많이 사용되고 있는 활성화 함수이다.
Gradient Vanishing: 시그모이드에서 아주 작은 값을 가질 경우 0에 매우 가까운 값을 가지게 되는데, 역전파(Back-Propagation) 시 각 Layer를 지나며 이를 지속적으로 곱해주게 되는데 Layer가 많을 경우에는 결국 0으로 수렴하는 문제가 발생한다.
본 발명의 실시예에 따른 음성데이터 머신 러닝 장치는 상술한 단계, 구성들의 방법에 의해 학습되어 딥러닝된다. 그리고, 구축된 모델을 이용하여 음성데이터에 대한 예측을 수행하게 된다.
아래에서는, 이와 같은 음성데이터에 대한 예측에 대하여 설명하도록 한다.
하기 S550단계 내지 S570단계는 학습 단계에 해당한다.
특징추출 모델이 특징추출 방법을 이용하여, 입력된 제2음성데이터에서 복수의 제2특징값을 추출한다. (S550단계)
이때, 학습 과정의 검증 단계에서 구축된 모델을 이용하여 예측 단계들을 수행하기 때문에, 특징추출 방법은 5개 또는 7개가 사용될 수 있다.
S550단계 다음으로, 전처리 모델이 정규화 함수를 이용하여 제2특징값을 전처리한다. (S560단계)
보다 상세하게는, 전처리 모듈은 S550단계에서 추출된 제2특징값에서 널(Null) 값이나 이상치가 존재하는지 여부를 검출하여 존재하는 널값, 이상치를 제외하고, PCA 또는 Z-scor 등을 이용하여 데이터를 정규화하게 된다.
S560단계 다음으로, 특징선택 모델을 이용하여 제2특징값을 각 특징에 따라 라벨링하여 분류하고, 분류기 모델을 이용하여 예측을 수행한다. (S570단계)
도 7은 본 발명의 실시예에 따른 예측 결과를 예시한 도면이다.
도 7을 참조하면, 머신러닝 기반의 음성데이터 분석 방법을 통해 딥러닝으로 구축된 모델을 이용하여 음성데이터에 대한 예측을 수행하였다.
원본 데이터에서 특징 5개를 추출하는 방법을 사용하였을 때에는 8,732 개의 음성파일 개수가 추출되었지만, 로드 에러 파일을 제거한 후에는 5,789개로 확연하게 줄어든 것을 알 수 있다.
이와 같이, 로드 에러 파일은 예측 단계를 수행할 때 방해요소로 작용하기 때문에 원본 데이터에서 로드 에러 파일을 제거하는 과정이 더 포함될 수 있다.
그리고, 도 7의 아래와 같이, 예측에 사용된 모델의 각종 스펙, 정보들이 출력되어 있는 것을 확인할 수 있다.
도 10은 본 발명의 실시예에 따른 음성데이터 머신 러닝 장치의 블록도이다.
다만, 몇몇 실시예에서 서버는 도 10에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
도 10을 참조하면, 본 발명의 실시예에 따른 음성데이터 머신 러닝 장치는, 특징추출 모델, 전처리 모델, 특징선택 모델, 분류기 모델, 검증 모델을 포함한다.
특징추출 모델은 장치에 입력된 제1음성데이터에서 5개의 특징추출 방법을 이용하여 복수의 제1특징값을 추출한다.
전처리 모델은 정규화 함수를 이용하여 제1특징값을 전처리한다.
특징선택 모델은 전처리된 제1특징값을 각 특징에 따라서 라벨링하여 저장한다.
분류기 모델은 제1특징값의 특징에 따라서 라벨링하여 분류하는 것에 대하여 학습하여 딥러닝 한다.
이상으로 설명한 본 발명의 실시예에 따른 음성데이터 머신 러닝 장치는 도 1 내지 도 9를 통해 설명한 머신러닝 기반의 음성데이터 분석 방법과 발명의 카테고리만 다를 뿐, 동일한 내용이므로 중복되는 설명, 예시는 생략하도록 한다.
이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
10: 음성데이터 머신 러닝 장치
110: 특징추출 모델
130: 전처리 모델
150: 특징선택 모델
170: 분류기 모델
190: 검증 모델

Claims (9)

  1. 컴퓨터에 의해 수행되며, 학습 단계와 예측 단계를 수행하여 머신러닝 기반으로 음성데이터를 분석하는 방법에 있어서,
    상기 학습 단계는,
    특징추출 모델이 입력된 제1음성데이터에서 특징추출 방법을 이용하여 복수의 제1특징값을 추출하는 단계;
    전처리 모델이 정규화 함수를 이용하여 상기 제1특징값을 전처리하는 단계;
    상기 전처리된 제1특징값을 각 특징에 따라 라벨링하여 특징선택 모델에 저장하며, 분류기 모델을 학습시켜 딥러닝시키는 단계; 및
    검증 모듈이 상기 분류기 모델에 대한 검증을 수행하여 성능을 측정하는 단계로, 음성데이터를 상기 딥러닝되어 구축된 분류기 모델에 입력하여 해당 음성데이터에 부합하는 조건으로 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 상기 특징추출 모델, 전처리 모델 및 분류기 모델에 적용시키는, 검증 단계를 포함하고,
    상기 예측 단계는,
    상기 가장 높은 정확도의 조건에 따라 상기 특징추출 모델이 특징추출 방법을 이용하여, 입력된 제2음성데이터에서 복수의 제2특징값을 추출하는 단계;
    상기 가장 높은 정확도의 조건에 따라 상기 전처리 모델이 정규화 함수를 이용하여 상기 제2특징값을 전처리하는 단계; 및
    상기 가장 높은 정확도의 조건에 따라 상기 특징선택 모델을 이용하여 상기 제2특징값을 특징에 따라 라벨링하여 분류하고, 상기 분류기 모델을 이용하여 예측을 수행하는 단계를 포함하고,
    상기 검증 단계에서 모델의 성능에 대하여 평가를 수행할 때 혼돈 행렬을 이용하여 정확도, 오류율, 민감도, 정밀성, 특이도, F1-Score를 산출하고,
    상기 제2특징값을 전처리하는 단계는,
    전처리 모델이 상기 제2특징값에서 널(Null)값이나 이상치가 존재하는지 여부를 검출하여 존재하는 널(null)값과 이상치를 제외하고 데이터를 정규화 하고,
    상기 검증 모듈은 드롭아웃(Drop out), Batch-Size(배치 사이즈), z-score(표준화), PCA(Principal Component Analysis; 주성분 분석), Epoch(에포크) 중 적어도 하나를 변경시키며 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 상기 특징추출 모델, 전처리 모델 및 분류기 모델을 학습시키고,
    상기 특징추출 방법은,
    음성데이터 내 음성을 소정 시간 단위로 샘플링 한뒤, 음성의 스펙트럼을 분석하여 특징을 추출하는 방법과,
    음성데이터의 파형 또는 파워 스펙트로그램을 분석하여 특징을 추출하는 방법과,
    음성데이터가 멜 스케일 (Mel-Scaled)된 스펙트로그램을 분석하여 특징을 추출하는 방법과,
    음성데이터에 대한 음정의 최고점과 최저점의 차이를 분석하여 특징을 추출하는 방법과,
    음성 데이터의의 화음간 관계를 분석하여 특징을 추출하는 방법과,
    음성데이터를 주파수 영역으로 변환하여 피치의 주파수 분포를 분석하여 특징을 추출하는 방법과,
    음성데이터에 대한 오디오 신호의 단기간 고조파를 이용하여 정규화한 후 분석하여 특징을 추출하는 방법을 포함하는 것을 특징으로 하는, 방법.
  2. 제1항에 있어서,
    상기 검증 단계는,
    검증 모듈이 N개의 검증세트를 이용하여 N회의 검증을 수행하며, 각 검증세트의 N개의 학습 그룹데이터 중 하나에 검증 데이터를 배치하되, 서로 다른 검증세트에 검증 데이터의 순서를 다르게 배치하여 상기 N개의 검증세트에 배치된 검증 데이터의 순서가 겹쳐지지 않도록 하는 것을 특징으로 하는, 방법.
  3. 제2항에 있어서,
    상기 분류기 모델의 딥러닝에 비용 함수(Cost Function)을 적용하는 것을 특징으로 하는, 방법.
  4. 제3항에 있어서,
    상기 정확도(Accuracy)는 모델이 얼마나 정확하게 분류와 예측을 하였는지를 나타내는 것으로, 하기 수학식 1을 이용하고,
    [수학식 1]
    Figure 112020065361399-pat00019


    상기 오류율(Error Rate)는 상기 정확도와 반대로 전체 데이터 중에서 잘못 분류, 예측된 비율을 나타내는 것으로, 하기 수학식 2를 이용하고,
    [수학식 2]
    Figure 112020065361399-pat00020


    상기 민감도(Sensitive)는 전체 Positive 중에서 Positive로 예측된 비율을 나타내는 것으로, 하기 수학식 3을 이용하고,
    [수학식 3]
    Figure 112020065361399-pat00021


    상기 정밀성(Precision)은 Positive로 예측된 내용 중에서 True Positive의 비율을 의미하는 것으로, 하기 수학식 4를 이용하고,
    [수학식 4]
    Figure 112020065361399-pat00022


    상기 특이도(Specificity)는 전체 Negative 중에서 True Negative로 예측된 비율을 의미하는 것으로, 하기 수학식 5를 이용하고,
    [수학식 5]
    Figure 112020065361399-pat00023


    상기 F1-Score는 재현율(Recall)과 정밀도(Precision)의 값을 가지고 조합 평균(Harmonic mean)을 산출한 값으로, 하기 수학식 6을 이용하는, 방법

    [수학식 6]
    Figure 112020065361399-pat00024


  5. 삭제
  6. 제1항에 있어서,
    상기 검증 단계는,
    Drop out이 0.5이고, Batch-Size가 100이며, PCA를 적용하지 않고, z-score가 적용되고, Epoch가 4,000일 때 가장 높은 정확도이며, 상기 조건들을 상기 특징추출 모델, 전처리 모델, 및 분류기 모델에 적용시키는 것을 특징으로 하는, 방법.
  7. 삭제
  8. 학습 과정과 예측 과정을 수행하여 머신러닝 기반으로 음성데이터를 분석하는 장치로,
    상기 장치로 입력된 제1음성데이터에서 특징추출 방법을 이용하여 복수의 제1특징값을 추출하는 특징추출 모델;
    정규화 함수를 이용하여 상기 제1특징값을 전처리하는 전처리 모델;
    상기 전처리된 제1특징값을 각 특징에 따라서 라벨링하여 저장하는 특징선택 모델; 및
    상기 제1특징값의 특징에 따라서 라벨링하여 분류하는 것에 대하여 학습하여 딥러닝하는 분류기 모델;
    상기 분류기 모델에 대한 검증을 수행하여 성능을 측정하되, 음성데이터를 상기 딥러닝되어 구축된 분류기 모델에 입력하여 해당 음성데이터에 부합하는 조건으로 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 상기 특징추출 모델, 전처리 모델 및 분류기 모델에 적용시키는 검증 모듈을 포함하며,
    상기 특징선택 모델은 상기 가장 높은 정확도의 조건에 따라 특징추출 방법을 이용하여, 입력된 제2음성데이터에서 복수의 제2특징값을 추출하고,
    상기 전처리 모델은 상기 가장 높은 정확도의 조건에 따라 정규화 함수를 이용하여 상기 제2특징값을 전처리 하고,
    상기 가장 높은 정확도의 조건에 따라 상기 특징선택 모델을 이용하여 상기 제2특징값을 특징에 따라 라벨링하여 분류하고, 상기 분류기 모델을 이용하여 예측을 수행하고,
    상기 검증 모듈은 모델의 성능에 대하여 평가를 수행할 때 혼돈 행렬을 이용하여 정확도, 오류율, 민감도, 정밀성, 특이도, F1-Score를 산출하고,
    상기 전처리 모델은 상기 제2특징값에서 널(Null)값이나 이상치가 존재하는지 여부를 검출하여 존재하는 널(Null)값과 이상치를 제외하고 데이터를 정규화 하고,
    상기 검증 모듈은
    드롭아웃(Drop out), Batch-Size(배치 사이즈), z-score(표준화), PCA(Principal Component Analysis; 주성분 분석), Epoch(에포크) 중 적어도 하나를 변경시키며 검증을 수행하고 정확도를 산출하며, 검증 완료 후에 가장 높은 정확도의 조건을 상기 특징추출 모델, 전처리 모델 및 분류기 모델을 학습시키고,
    상기 특징추출 방법은,
    음성데이터 내 음성을 소정 시간 단위로 샘플링 한뒤, 음성의 스펙트럼을 분석하여 특징을 추출하는 방법과,
    음성데이터의 파형 또는 파워 스펙트로그램을 분석하여 특징을 추출하는 방법과,
    음성데이터가 멜 스케일 (Mel-Scaled)된 스펙트로그램을 분석하여 특징을 추출하는 방법과,
    음성데이터에 대한 음정의 최고점과 최저점의 차이를 분석하여 특징을 추출하는 방법과,
    음성 데이터의의 화음간 관계를 분석하여 특징을 추출하는 방법과,
    음성데이터를 주파수 영역으로 변환하여 피치의 주파수 분포를 분석하여 특징을 추출하는 방법과,
    음성데이터에 대한 오디오 신호의 단기간 고조파를 이용하여 정규화한 후 분석하여 특징을 추출하는 방법을 포함하는 것을 특징으로 하는, 장치.
  9. 하드웨어인 컴퓨터와 결합되어, 제1항 내지 제4항 및 제6항 중 어느 한 항의 방법을 실행시키기 위하여 매체에 저장된, 음성데이터 머신 러닝 프로그램.
KR1020190022350A 2019-02-26 2019-02-26 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 KR102198273B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190022350A KR102198273B1 (ko) 2019-02-26 2019-02-26 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190022350A KR102198273B1 (ko) 2019-02-26 2019-02-26 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램

Publications (2)

Publication Number Publication Date
KR20200104019A KR20200104019A (ko) 2020-09-03
KR102198273B1 true KR102198273B1 (ko) 2021-01-04

Family

ID=72450254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190022350A KR102198273B1 (ko) 2019-02-26 2019-02-26 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램

Country Status (1)

Country Link
KR (1) KR102198273B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102285329B1 (ko) * 2021-01-15 2021-08-03 (주)알앤디비 스포츠 경기 해설자의 해설과 방송 아나운서의 경기 진행 음성 인식 기반의 실시간 경기전략 예측 시스템 및 방법
KR102391362B1 (ko) * 2021-10-20 2022-04-26 강병삼 송전탑 보호 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560344B (zh) * 2020-12-14 2023-12-08 北京云歌科技有限责任公司 一种构建模型伺服系统的方法和装置
KR102419740B1 (ko) * 2020-12-24 2022-07-13 한국기초과학지원연구원 시스템 상태 진단 장치 및 방법
KR102462387B1 (ko) * 2021-10-14 2022-11-03 김동석 노무 및 세무 정보를 활용한 기업 자문 시스템
KR102407707B1 (ko) * 2021-10-25 2022-06-10 폴텍주식회사 회전체 이상 진단 시스템
KR102376188B1 (ko) * 2021-12-15 2022-03-17 가천대학교 산학협력단 딥러닝 기반의 호흡음 분류를 위한 피쳐정보 선택방법 및 시스템
KR102453919B1 (ko) * 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901640B1 (ko) 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102285329B1 (ko) * 2021-01-15 2021-08-03 (주)알앤디비 스포츠 경기 해설자의 해설과 방송 아나운서의 경기 진행 음성 인식 기반의 실시간 경기전략 예측 시스템 및 방법
KR102391362B1 (ko) * 2021-10-20 2022-04-26 강병삼 송전탑 보호 장치

Also Published As

Publication number Publication date
KR20200104019A (ko) 2020-09-03

Similar Documents

Publication Publication Date Title
KR102198273B1 (ko) 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
Soumaya et al. The detection of Parkinson disease using the genetic algorithm and SVM classifier
Joshy et al. Automated dysarthria severity classification: A study on acoustic features and deep learning techniques
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN113488073A (zh) 一种基于多特征融合的伪造语音检测方法及装置
Liu et al. Speaker-dependent multipitch tracking using deep neural networks
Karthikeyan Adaptive boosted random forest-support vector machine based classification scheme for speaker identification
Imran et al. An analysis of audio classification techniques using deep learning architectures
Elnagar et al. Predicting quranic audio clips reciters using classical machine learning algorithms: a comparative study
Akbal et al. Development of novel automated language classification model using pyramid pattern technique with speech signals
Velayuthapandian et al. A focus module-based lightweight end-to-end CNN framework for voiceprint recognition
Zhu et al. Emotion recognition from speech to improve human-robot interaction
Cao et al. An English pronunciation error detection system based on improved random forest
Liu et al. Speech Emotion Recognition Based on Deep Learning
Bhardwaj et al. Identification of speech signal in moving objects using artificial neural network system
Langari et al. Improving of feature selection in speech emotion recognition based-on hybrid evolutionary algorithms
KR102292479B1 (ko) Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치 및 방법
Do Neural networks for automatic speaker, language, and sex identification
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
Hamza et al. Machine Learning Approaches for Automated Detection and Classification of Dysarthria Severity
Tsai et al. Bird Species Identification Based on Timbre and Pitch Features of Their Vocalization.
Nair et al. Environment sound recognition systems-a case study
KR101113770B1 (ko) 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
Deivard How accuracy of estimated glottal flow waveforms affects spoofed speech detection performance

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant