KR20190125064A - 음성 유사도 판단 장치 및 음성 유사도 판단 방법 - Google Patents
음성 유사도 판단 장치 및 음성 유사도 판단 방법 Download PDFInfo
- Publication number
- KR20190125064A KR20190125064A KR1020180049336A KR20180049336A KR20190125064A KR 20190125064 A KR20190125064 A KR 20190125064A KR 1020180049336 A KR1020180049336 A KR 1020180049336A KR 20180049336 A KR20180049336 A KR 20180049336A KR 20190125064 A KR20190125064 A KR 20190125064A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- score
- speech
- length
- module
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000013507 mapping Methods 0.000 claims abstract description 101
- 238000012360 testing method Methods 0.000 claims abstract description 95
- 238000004364 calculation method Methods 0.000 claims description 70
- 238000001514 detection method Methods 0.000 claims description 63
- 239000000284 extract Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- QSIYTPCKNAPAJY-UHFFFAOYSA-N aluminum;ethoxy-oxido-oxophosphanium;2-(trichloromethylsulfanyl)isoindole-1,3-dione Chemical compound [Al+3].CCO[P+]([O-])=O.CCO[P+]([O-])=O.CCO[P+]([O-])=O.C1=CC=C2C(=O)N(SC(Cl)(Cl)Cl)C(=O)C2=C1 QSIYTPCKNAPAJY-UHFFFAOYSA-N 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 208000037918 transfusion-transmitted disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 영상 파일 등에서 추출되는 기준 음성과 테스트 음성 사이의 유사도를 판단하여 점수화하여 제공할 수 있는 음성 유사도 판단 장치 및 음성 유사도 판단 방법에 관한 발명이다.
Description
본 발명은 음성 유사도 판단 장치 및 음성 유사도 판단 방법에 관한 것으로서, 보다 구체적으로는 기준 음성 신호와 테스트(test) 음성 신호 사이의 유사도를 판정하여 점수화하여 학습자에게 제공함으로써, 학습 결과에 대한 객관적 반영을 통하여 학습자의 학습 능률 향상에 동기를 제공할 수 있는 것을 특징으로 하는 발명이다.
들리는 소리를 거의 동시에 따라 말하거나 듣고 난 이후에 반복하여 말하여 학습하는 쉐도잉(shadowing)은 학습자가 자료의 음성을 들은 후 그것을 따라하는 자신의 음성을 듣는 두 번의 과정을 통해 단순히 듣는 것보다 더 많은 노력을 기울이게 되어 정보를 더 오래동안 기억하는 것으로 알려져 있다. 즉, 쉐도잉을 할 때 학습자는 단순 듣기보다 더 많은 집중과 정보의 처리가 가능하고, 화자의 말을 따라함으로써 발화의 부담이 적어지며, 언어 자체에 관심을 두는 것이 가능해져서 학습 효율이 증대되는 효과가 있다. 따라서, 많은 전문가들이 이해와 발화가 동시에 이루어지는 이러한 쉐도잉을 외국어 등의 학습법으로 많이 추천하고 있는 실정이다.
도면 1도는 스마트 폰의 모습을 보여주는 도면이다.
스마트 폰(smart phone)은 피씨(PC, Personal Computer)와 유사한 기능을 가지는 단말 장치(10)로써, 종래의 휴대폰 기능에 개인 정보 관리 기능과 무선 인터넷(internet) 서비스(service) 기능 등을 결합한 휴대폰을 지칭한다. 사용자는 이러한 스마트 폰에 다양한 어플리케이션(application)을 설치하여 사용할 수 있으며, 최근에는 외국어 등의 학습에도 이러한 스마트 폰을 많이 활용하고 있다. 즉, 외국어 등의 언어 학습을 위한 말하기, 듣기, 쓰기 등의 연습이 가능한 많은 어플리케이션이 제공되고 있으며, 쉐도잉 학습을 위한 녹음 기능이 구비된 어플리케이션도 제공되고 있는 실정이다.
그러나, 기존의 이러한 어플리케이션은 단순 녹음 기능만 제공하거나 또는 패스(pass), 논패스(nonpass) 등의 평가 기능만 제공하여 쉐도잉 방식의 학습에 대한 정확한 피드백(feedback)을 제공하지 못하는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 기준 음성 신호와 자신이 발화한 테스트 음성 신호 사이의 유사도를 점수화하여 제공함으로써 객관적인 학습 결과를 사용자에게 제공할 수 있는 것을 음성 유사도 판단 방법 및 음성 유사도 판단 장치를 제공하고자 한다.
또한, 발음 뿐 아니라 억양 면에서도 유사도를 판정 받을 수 있는 음성 유사도 판단 방법 및 음성 유사도 판단 장치를 제공하고자 한다.
상기한 목적을 달성하기 위해, 본 발명에서는 기준 음성 신호에서 제1 음성 길이가 계산되는 단계; 상기 기준 음성 신호에서 제1 엠에프씨씨(mfcc, mel frequency cepstal coefficient)들이 추출되는 단계; 테스트(test) 음성 신호에서 제2 음성 길이가 계산되는 단계; 상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유(dtw, dynamic time warping) 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑(mapping)되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 외부 서버(server)로부터 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들이 수신되는 단계; 테스트 음성 신호에서 제2 음성 길이가 계산되는 단계; 상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들이 수신되는 단계; 기준 음성 신호에서 제1 음성 길이가 계산되는 단계; 상기 기준 음성 신호에서 제1 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들이 수신되는 단계; 기준 음성 데이터베이스(database)로부터 제1 음성 길이와 제1 엠에프씨씨들이 수신되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑을 통하여 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 가중치 함수는 상기 발화길이비가 1일때 1의 가중치 값을 가지고, 상기 발화길이비가 0.5 이하 및 1.5 이상에서는 0의 가중치 값을 가지는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 가중치 함수는 상기 발화길이비가 0.5 이상 1 이하의 구간에서는 2의 기울기 값을 가지고, 상기 발화길이비가 1 이상 1.5 이하의 구간에서는 -2의 기울기 값을 가지는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 발음 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계 이후에, 상기 매핑 점수에 발음 가중치를 곱하여 가중치 발음 점수가 계산되는 단계; 상기 억양 점수에 억양 가중치를 곱하여 가중치 억양 점수가 계산되는 단계; 상기 가중치 발음 점수와 상기 가중치 억양 점수를 더하여 최종 유사도 점수가 산출되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 발음 가중치는 0.52 이며, 상기 억양 가중치는 0.48 인 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계에서, 상기 디티더블유 점수들은 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들을 이용하여 작성되는 디티더블유 거리 매트릭스(matrix)에서 경로상 값들을 더하여 구해지는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계는 상기 디티더블유 점수들 중 최소값을 최대점수로 하고, 상기 디티더블유 점수들 중 최대값을 최소점수로 하는
식을 이용하여 매핑 점수로 변환되며, 상기 디티더블유 스코어는 디티더블유 거리 매트릭스에서 최적 경로의 값을 더한 것을 최적 경로의 길이에 대하여 평준화하여 구해진 것이며, 상기 디티더블유 최대 점수와 상기 디티더블유 최소 점수는 기설정되어 있는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 기준 음성 신호에서 제1 음성 길이가 계산되는 단계 이전에, 상기 기준 음성 신호 및/또는 상기 테스트 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 테스트 음성 신호에서 제2 음성 길이가 계산되는 단계 이전에, 상기 테스트 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 기준 음성 신호에서 제1 음성 길이가 계산되는 단계 이전에, 상기 기준 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 잡음 및/또는 배경음의 제거는 위너(winer) 필터(filter)를 통하여 이루어지는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 상기 제1 엠에프씨씨들 및/또는 상기 제2 엠에프씨씨들은 입력되는 신호에 순차적으로 프리 엠퍼시스(pre-emphasis), 해밍(hamming) 윈도우(window), 디에프티(DFT, Discrete Fourier Transform), 멜 척도 필터 뱅크(mel scale filter bank), 디씨티(DCT, Discrete Cosine Transform)를 적용하여 구해지며, 이 중 13차 차수까지를 에너지 평준화를 위한 씨엠엔(CMN, Cepstral Mean Normalization)을 적용함으로써 추출된 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 테스트 음성 신호에서 제2 음성 길이가 계산되는 단계; 상기 제2 음성 구간 신호에서 제2 엠에프씨씨가 추출되는 단계; 상기 제2 음성 길이와 상기 제2 엠에프씨씨가 외부 서버로 전송되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈(module); 테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈; 상기 제1 음성 구간 검출 모듈로부터 상기 제1 음성 길이를 전달받고, 상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈; 상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈; 상기 제1 엠에프씨씨 추출 모듈로부터 상기 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 추출 모듈로부터 상기 제2 엠에프씨씨들을 전달받아 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 외부 서버로부터 수신하여 저장하는 저장 모듈; 테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈; 상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받고, 상기 저장 모듈로부터 제1 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈; 상기 저장 모듈로부터 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 모듈로부터 제2 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성의 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 저장하는 저장 모듈; 기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈; 상기 제1 음성 구간 검출 모듈로부터 제1 음성 길이를 전달받고, 상기 저장 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈; 상기 저장 모듈로부터 제2 엠에프씨씨들을 전달받고, 상기 제1 엠에프씨씨 모듈로부터 제1 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성의 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 저장하는 저장 모듈; 기준 음성의 제1 음성 길이와 제1 엠에프씨씨들을 저장하고 있는 기준 음성 데이터베이스; 상기 기준 음성 데이터베이스로부터 상기 제1 음성 길이를 전달받고, 상기 저장 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 기준 음성 데이터베이스로부터 상기 제1 엠에프씨씨들을 전달받고, 상기 저장 모듈로부터 상기 제2 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 가중치 함수는 상기 발화길이비가 1일때 1의 가중치 값을 가지고, 상기 발화길이비가 0.5 이하 및 1.5 이상에서는 0의 가중치 값을 가지는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 가중치 함수는 상기 발화길이비가 0.5 이상 1 이하의 구간에서는 2의 기울기 값을 가지고, 상기 발화길이비가 1 이상 1.5 이하의 구간에서는 -2의 기울기 값을 가지는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 발음 점수 계산 모듈로부터 전달받은 상기 발음 점수에 발음 가중치를 곱하여 가중치 발음 점수를 계산하고, 상기 억양 점수 계산 모듈로부터 전달받은 상기 억양 점수에 억양 가중치를 곱하여 가중치 억양 점수를 계산한 뒤, 상기 가중치 발음 점수와 상기 가중치 억양 점수를 더하여 최종 유사도 점수를 산출하는 최종 유사도 점수 산출 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 발음 가중치는 0.52 이며, 상기 억양 가중치는 0.48 인 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 디티더블유 모듈은 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들을 이용하여 작성되는 디티더블유 거리 매트릭스에서 경로상 값들을 더하여 상기 디티더블유 점수들을 계산하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 억양 점수 계산 모듈 및/또는 상기 발음 점수 산출 모듈이 사용하는 상기 매핑 점수는 상기 디티더블유 모듈로부터 전달받은 상기 디티더블유 점수들 중 최소값을 최대점수로 하고, 상기 디티더블유 점수들 중 최대값을 최소점수로 하는
식을 이용하여 상기 매핑 점수로 변환되며, 상기 디티더블유 스코어는 디티더블유 거리 매트릭스에서 최적 경로의 값을 더한 것을 최적 경로의 길이에 대하여 평준화하여 구해진 것이며, 상기 디티더블유 최대 점수와 상기 디티더블유 최소 점수는 기설정되어 있는 것을 특징으로 하는 음성 유사도 장치를 제공한다.
또한, 상기 기준 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제1 음성 구간 검출 모듈에 전달하는 제1 필터 모듈; 상기 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 기준 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 상기 제1 엠에프씨씨들 및/또는 상기 제2 엠에프씨씨들은 입력되는 신호에 순차적으로 프리 엠퍼시스(pre-emphasis), 해밍(hamming) 윈도우(window), 디에프티(DFT, Discrete Fourier Transform), 멜 척도 필터 뱅크(mel scale filter bank), 디씨티(DCT, Discrete Cosine Transform)를 적용하여 구해지며, 이 중 13차 차수까지를 에너지 평준화를 위한 씨엠엔(CMN, Cepstral Mean Normalization)을 적용함으로써 추출된 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 기준 음성 신호에서 제1 음성 길이가 계산되는 단계; 상기 기준 음성 신호에서 제1 엠에프씨씨(mfcc, mel frequency cepstal coefficient)들이 추출되는 단계; 테스트(test) 음성 신호에서 제2 음성 길이가 계산되는 단계; 상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유(dtw, dynamic time warping) 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑(mapping)되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되며, 상기 제1 음성 길이 및/또는 제2 음성 길이는 에너지, 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨(lpc, linear predictive coding) 계수, 예측오차, 미분 에너지, 에스엔알(snr, siganl to noise ratio) 중 어느 하나 이상을 이용하여 검출되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 외부 서버(server)로부터 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들이 수신되는 단계; 테스트 음성 신호에서 제2 음성 길이가 계산되는 단계; 상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되며, 상기 제1 음성 길이 및/또는 제2 음성 길이는 에너지, 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알 중 어느 하나 이상을 이용하여 검출되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들이 수신되는 단계; 기준 음성 신호에서 제1 음성 길이가 계산되는 단계; 상기 기준 음성 신호에서 제1 엠에프씨씨들이 추출되는 단계; 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계; 상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계; 상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계; 상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계; 상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되며, 상기 제1 음성 길이 및/또는 제2 음성 길이는 에너지, 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알 중 어느 하나 이상을 이용하여 검출되는 것을 특징으로 하는 음성 유사도 판단 방법을 제공한다.
또한, 본 발명은 기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈(module); 테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈; 상기 제1 음성 구간 검출 모듈로부터 상기 제1 음성 길이를 전달받고, 상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈; 상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈; 상기 제1 엠에프씨씨 추출 모듈로부터 상기 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 추출 모듈로부터 상기 제2 엠에프씨씨들을 전달받아 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하며, 상기 제1 음성 구간 검출 모듈은 에너지(energy), 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알(snr, siganl to noise ratio) 중 어느 하나 이상을 이용하여 제1 음성 길이를 계산하며, 상기 제2 음성 구간 검출 모듈은 에너지(energy), 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알(snr, siganl to noise ratio) 중 어느 하나 이상을 이용하여 제2 음성 길이를 계산하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 외부 서버로부터 수신하여 저장하는 저장 모듈; 테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈; 상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받고, 상기 저장 모듈로부터 제1 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈; 상기 저장 모듈로부터 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 모듈로부터 제2 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하며, 상기 제2 음성 구간 검출 모듈은 에너지, 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알 중 어느 하나 이상을 이용하여 제2 음성 구간 길이를 계산하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
또한, 본 발명은 단말 장치로부터 테스트 음성의 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 저장하는 저장 모듈; 기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈; 상기 제1 음성 구간 검출 모듈로부터 제1 음성 길이를 전달받고, 상기 저장 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈; 상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈; 상기 저장 모듈로부터 제2 엠에프씨씨들을 전달받고, 상기 제1 엠에프씨씨 모듈로부터 제1 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈; 상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈; 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하며, 상기 제1 음성 구간 검출 모듈은 에너지, 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨 계수, 예측오차, 미분 에너지, 에스엔알(snr, siganl to noise ratio) 중 어느 하나 이상을 이용하여 제1 음성 길이를 계산하는 것을 특징으로 하는 음성 유사도 판단 장치를 제공한다.
본 발명에 따른 음성 유사도 판단 방법 및 음성 유사도 판단 장치에 따르면 다음과 같은 효과가 있다.
첫째, 기준 음성과 자신이 듣고 따라한 테스트 음성 사이의 유사도가 점수화되어 피드백(feedback)됨으로써 학습자의 학습 능률이 향상되는 효과를 얻을 수 있다. 또한, 학습에 대한 동기가 제공되는 효과도 얻을 수 있다.
둘째, 발음 뿐만 아니라 억양에 대한 점수도 산출되어 제공되므로, 자신이 발화한 테스트 음성과 기준 음성 사이의 차이를 다양한 각도에서 비교해 볼 수 있는 효과가 있다. 즉, 사람의 발음 특성과 억양 특성 사이에는 높은 상관 관계가 있는데, 발음 특징을 나타는 엠에프씨씨들과 발화길이비를 이용하여 억양 특성에 대한 정보도 제공할 수 있는 효과가 있다.
셋째, 본 발명에 따른 기준 음성과 테스트 음성 사이의 유사도 판정 기법을 향후 음성 인식 분야로 확장하여 사용할 수 있는 효과도 있다.
넷째, 외부 서버와 단말 장치의 작업 분화가 구현된 실시 예에 따르면, 음성 신호의 전처리 및 유사도 판단 과정에서 발생하는 부하를 분산, 경감할 수 있는 효과가 있다. 또한, 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 미리 데이터베이스화하여 구현한 예에 따르면, 기준 음성 신호와 테스트 음성 신호 사이의 유사도 판단 계산을 더 빠르고 효과적으로 점수화하여 제공할 수 있는 효과를 달성할 수 있다.
다섯째, 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법은 멜 스케일 필터 뱅크를 통하여 수신되는 음성 신호를 사람의 청각 특성을 반영하여 처리함으로써 더 효율적인 유사도 분석이 가능토록 하는 효과가 있다.
여섯째, 본 발명에 따른 음성 유사도 판단 장치는 발음 또는 억양에 대한 평가를 점수화하여 제공함으로써 사용자의 발음이 향상되고 있는지 여부에 대한 객관적 근거 자료로 활용할 수도 있다. 또한, 이러한 점수 자료를 누적하여 보관함으로써, 사용자의 언어에서 어느 부분에 강점과 약점이 있는지도 분석하여 제공할 수 있는 효과가 있다.
도면 1도는 스마트 폰의 모습을 보여주는 도면이다.
도면 2도는 본 발명에 따른 음성 유사도 판단 장치의 내부 구성을 블럭도로 보여주는 도면이다.
도면 3도는 본 발명에 따른 음성 유사도 판단 장치가 변형되어 제공될 수 있는 상황을 보여주는 도면이다.
도면 4도는 본 발명에 따른 음성 유사도 판단 장치의 변형 실시 예를 보여주는 도면이다.
도면 5도는 본 발명에 따른 음성 유사도 판단 장치의 다른 변형 실시 예를 보여주는 도면이다.
도면 6도는 본 발명에 따른 음성 유사도 판단 장치의 또 다른 변형 실시 예를 보여주는 도면이다.
도면 7도는 본 발명에 따른 음성 유사도 판단 장치의 필터 모듈의 예를 블럭도로 보여주는 도면이다.
도면 8도는 위너 필터링 전 후의 음성 파형과 스펙트로그램을 보여주는 도면이다.
도면 9도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 예를 보여주는 도면이다.
도면 10도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 다른 예를 보여주는 도면이다.
도면 11도는 본 발명에 따른 음성 유사도 판단 장치의 엠에프씨씨 추출 모듈의 내부 구성을 블럭도로 보여주는 도면이다.
도면 12도는 프레임이 이동하며 음성 신호에서 특징을 추출하는 과정을 보여주는 도면이다.
도면 13도는 해밍 윈도우의 모양을 보여주는 도면이다.
도면 14도는 멜 스케일 필터 뱅크 섹션을 통하여 제공되는 삼각 필터 뱅크의 모습을 보여주는 도면이다.
도면 15도는 본 발명의 음성 유사도 판단 장치의 디티더블유 모듈을 통하여 이루어지는 디티더블유 점수들이 계산되는 과정을 보여주는 도면이다.
도면 16도는 본 발명인 음성 유사도 판단 장치의 발음 점수 계산 모듈 및/또는 억양 점수 계산 모듈을 통하여 디티더블유 스코어가 매핑 점수로 변환되는 과정을 보여주는 도면이다.
도면 17도는 본 발명인 음성 유사도 판단 장치의 억양 점수 계산 모듈에서 사용되는 가중치 함수의 모습을 보여주는 도면이다.
도면 18도는 본 발명에 따른 음성 유사도 판단 방법의 처리 과정을 순서도로 보여주는 도면이다.
도면 19도는 본 발명인 음성 유사도 판단 방법의 변형 실시 예의 순서도를 보여주는 도면이다.
도면 20도는 본 발명인 음성 유사도 판단 방법의 다른 실시 예의 순서도를 보여주는 도면이다.
도면 21도는 본 발명인 음성 유사도 판단 방법의 또 다른 실시 예의 순서도를 보여주는 도면이다.
도면 22도는 본 발명인 음성 유사도 판단 장치를 구성하는 단말 장치에서 외부 서버로 제2 음성 길이와 제2 엠에프씨씨들을 전송하는 과정을 순서도로 보여주는 도면이다.
도면 23도는 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법에 따라 산출되는 점수 결과와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
도면 24도는 본 발명을 통하여 산출된 발음 점수와 억양 점수를 선형 회귀 모델에 사용하여 산출된 점수와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
도면 2도는 본 발명에 따른 음성 유사도 판단 장치의 내부 구성을 블럭도로 보여주는 도면이다.
도면 3도는 본 발명에 따른 음성 유사도 판단 장치가 변형되어 제공될 수 있는 상황을 보여주는 도면이다.
도면 4도는 본 발명에 따른 음성 유사도 판단 장치의 변형 실시 예를 보여주는 도면이다.
도면 5도는 본 발명에 따른 음성 유사도 판단 장치의 다른 변형 실시 예를 보여주는 도면이다.
도면 6도는 본 발명에 따른 음성 유사도 판단 장치의 또 다른 변형 실시 예를 보여주는 도면이다.
도면 7도는 본 발명에 따른 음성 유사도 판단 장치의 필터 모듈의 예를 블럭도로 보여주는 도면이다.
도면 8도는 위너 필터링 전 후의 음성 파형과 스펙트로그램을 보여주는 도면이다.
도면 9도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 예를 보여주는 도면이다.
도면 10도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 다른 예를 보여주는 도면이다.
도면 11도는 본 발명에 따른 음성 유사도 판단 장치의 엠에프씨씨 추출 모듈의 내부 구성을 블럭도로 보여주는 도면이다.
도면 12도는 프레임이 이동하며 음성 신호에서 특징을 추출하는 과정을 보여주는 도면이다.
도면 13도는 해밍 윈도우의 모양을 보여주는 도면이다.
도면 14도는 멜 스케일 필터 뱅크 섹션을 통하여 제공되는 삼각 필터 뱅크의 모습을 보여주는 도면이다.
도면 15도는 본 발명의 음성 유사도 판단 장치의 디티더블유 모듈을 통하여 이루어지는 디티더블유 점수들이 계산되는 과정을 보여주는 도면이다.
도면 16도는 본 발명인 음성 유사도 판단 장치의 발음 점수 계산 모듈 및/또는 억양 점수 계산 모듈을 통하여 디티더블유 스코어가 매핑 점수로 변환되는 과정을 보여주는 도면이다.
도면 17도는 본 발명인 음성 유사도 판단 장치의 억양 점수 계산 모듈에서 사용되는 가중치 함수의 모습을 보여주는 도면이다.
도면 18도는 본 발명에 따른 음성 유사도 판단 방법의 처리 과정을 순서도로 보여주는 도면이다.
도면 19도는 본 발명인 음성 유사도 판단 방법의 변형 실시 예의 순서도를 보여주는 도면이다.
도면 20도는 본 발명인 음성 유사도 판단 방법의 다른 실시 예의 순서도를 보여주는 도면이다.
도면 21도는 본 발명인 음성 유사도 판단 방법의 또 다른 실시 예의 순서도를 보여주는 도면이다.
도면 22도는 본 발명인 음성 유사도 판단 장치를 구성하는 단말 장치에서 외부 서버로 제2 음성 길이와 제2 엠에프씨씨들을 전송하는 과정을 순서도로 보여주는 도면이다.
도면 23도는 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법에 따라 산출되는 점수 결과와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
도면 24도는 본 발명을 통하여 산출된 발음 점수와 억양 점수를 선형 회귀 모델에 사용하여 산출된 점수와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시예들에 대해 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들은 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
또한, 본 발명의 설명에서 "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되는 것이며,어떠한 의미를 한정하기 위하여 사용되는 것이 아니다. 그리고, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함하며,"포함 하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도면 2도는 본 발명에 따른 음성 유사도 판단 장치의 내부 구성을 블럭도로 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치는 크게 영상 등에 포함되어 있는 기준 음성 신호를 처리하는 부분, 사용자가 발화한 음성인 테스트 음성 신호를 처리하는 부분과 두 음성 신호 사이의 유사도를 판단하여 점수화하는 부분을 포함하여 구성될 수 있다. 보다 구체적으로는 기준 음성 신호를 처리하는 부분은 제1 필터(filter) 모듈(module)(111), 제1 음성 구간 검출 모듈(121), 제1 엠에프씨씨(mfcc, mel frequency ceptrum coefficients) 추출 모듈(131)을 포함하여 구성될 수 있으며, 테스트 음성 신호를 처리하는 부분은 제2 필터 모듈(112), 제2 음성 구간 검출 모듈(122), 제2 엠에프씨씨 추출 모듈(132)를 포함하여 구성될 수 있다. 여기서, 제1 필터 모듈(111)과 제2 필터 모듈(112), 제1 음성 구간 검출 모듈(121)과 제2 음성 구간 검출 모듈(122), 제1 엠에프씨씨 추출 모듈(131)과 제2 엠에프씨씨 추출 모듈(132)은 서로 그 내부 구성이나 역할이 동일하나, 상이한 신호를 입력받고 이를 처리하는 점에서 그 구별의 편의를 위하여 기준 음성 신호를 처리하는 모듈에는 '제1' 이라는 수식어를 붙이고, 테스트 음성 신호를 처리하는 모듈에는 '제2' 이라는 수식어를 붙이기로 한다. 그리고, 음성 신호 사이의 유사도를 판단하여 점수화하는 부분은 디티더블유(dtw, dynamic time warping) 모듈(150), 발화길이비 계산 모듈(140), 발음 점수 계산 모듈(160), 억양 점수 계산 모듈(170), 최종 유사도 점수 산출 모듈(180)을 포함하여 구성될 수 있다.
보다 구체적으로, 기준 음성 신호의 잡음 및/또는 배경음은 제1 필터 모듈(111)을 거치는 과정을 통하여 제거될 수 있으며, 기준 음성 신호에 포함된 음성 구간과 묵음 구간은 제1 음성 구간 검출 모듈(121)을 거치면서 어느 부분이 음성 구간인지 묵음 구간인지 구별하여 인식될 수 있다. 그리고, 제1 엠에프씨씨 추출 모듈(131)을 거침으로써 기준 음성 신호의 특성을 나타내는 제1 엠에프씨씨들이 추출될 수 있다. 테스트 음성 신호에 있어서도 잡음 및/또는 배경음을 제거하고, 음성 구간과 묵음 구간이 인식된 후 제2 엠에프씨씨들이 추출되는 과정은 동일한 과정을 통하여 진행될 수 있으며, 이는 제2 필터 모듈(112), 제2 음성 구간 검출 모듈(122), 제2 엠에프씨씨 추출 모듈(132)을 통하여 이루어질 수 있다. 각각의 모듈의 세부 동작은 이하 도면을 통하여 더 자세히 살펴보도록 한다.
기준 음성 신호와 테스트 음성 신호 사이의 유사도를 판단하는 과정은 다음과 같은 과정을 통하여 진행될 수 있다.
먼저, 제1 음성 구간 검출 모듈(121)을 통하여 계산된 제1 음성 길이와 제2 음성 구간 검출 모듈(122)을 통하여 계산된 제2 음성 길이는 발화길이비 계산 모듈(140)로 전달되고, 이를 전달받은 발화길이비 계산 모듈(140)은 제1 음성 길이를 제2 음성 길이로 나누어 발화길이비를 계산하는 과정을 수행할 수 있다. 그리고, 제1 엠에프씨씨 추출 모듈(131)이 추출한 제1 엠에프씨씨들과 제2 엠에프씨씨 추출 모듈(132)이 추출한 제2 엠에프씨씨들을 전달받은 디티더블유 모듈(150)은 디티더블유 점수들을 계산하는 과정을 수행할 수 있으며, 디티더블유 모듈(150)이 산출한 디티더블유 점수들은 발음 점수 계산 모듈(160)로 전달되어 매핑(mapping) 과정을 통하여 발음 점수로 변환되는 과정을 거칠 수 있다. 또한, 억양 점수 계산 모듈(170)은 발화길이비 계산 모듈(140)로부터 전달받은 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산한 뒤, 디티더블유 점수들이 매핑되어 변환된 매핑 점수에 이러한 가중치 발화길이비를 곱하여 억양 점수를 계산하는 과정을 수행할 수 있다. 이렇게 산출된 발음 점수와 억양 점수는 최종 유사도 점수 산출 모듈(180)로 전달되어 가중치가 반영되어 최종 유사도 점수로서 변환될 수 있다. 각 세부 모듈의 구체적인 동작은 이하 도면을 통하여 자세히 살펴보도록 한다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 구성을 통하여, 기준 음성과 테스트 음성 사이의 유사도를 점수화하여 제공함으로써, 학습자에게 바람직한 피드백 효과를 제공할 수 있다.
도면 3도는 본 발명에 따른 음성 유사도 판단 장치가 변형되어 제공될 수 있는 상황을 보여주는 도면이다.
앞서 살펴본 바와 같이, 본 발명에 따른 음성 유사도 판단 장치는 기준 음성 신호와 테스트 음성 신호를 모두 하나의 장치에서 통합하여 수신하고 양 음성 신호 사이의 유사도를 판정하여 점수화할 수도 있으나, 도면과 같이 스마트 폰과 같은 단말 장치(10), 외부 서버(server)(20), 기준 음성 데이터베이스(database)(190) 사이의 협업에 의하여 양 음성 신호 사이의 유사도가 판정될 수도 있다. 즉, 영화, 광고, 드라마(drama) 등의 동영상 파일에 포함되는 기준 음성 신호의 전처리나 유사도 판정과 같이 부하가 많이 걸리는 작업은 외부 서버(20)에서 이루어지고, 테스트 음성 신호의 수신이나 유사도 판정의 결과 제공 등만 스마트 폰과 같은 단말 장치(10)를 통하여 이루어지도록 작업의 분화가 이루어질 수 있다. 본 발명에 따른 음성 유사도 판단 장치가 이렇듯 두 부분으로 나누어져서 제공되는 실시 예는 이하 도면을 통하여 더 자세히 살펴보도록 한다.
도면 4도는 본 발명에 따른 음성 유사도 판단 장치의 변형 실시 예를 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치는 도면 2도와 같이 하나의 장치로 구성될 수도 있으나, 그 기능을 분할하여 기준 음성 신호에 대한 처리는 외부 서버(20)에서 실시하고, 테스트 음성 신호에 대한 처리와 기준 음성 신호와 테스트 음성 신호 사이의 유사도 판단에 대한 부분은 단말 장치(10)에서 이루어지도록 분할되어 제공될 수도 있다. 즉, 기준 음성 신호에 대한 전처리 과정은 모두 외부 서버(20)단에서 수행되고, 단말 장치(10)는 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들만 수신하여 테스트 음성 신호와의 유사도를 계산하여 점수화하여 제공할 수 있다.
이러한 작업 분화를 통하여, 본 발명에 따른 음성 유사도 판단 장치는 음성 신호의 전처리 및 유사도 판단 과정에서의 발생하는 부하를 분산, 경감할 수 있는 효과를 달성할 수 있다.
도면 5도는 본 발명에 따른 음성 유사도 판단 장치의 다른 변형 실시 예를 보여주는 도면이다.
앞서 살펴본 실시 예는 비록 부하의 분산이 이루어진다고 하나 단말 장치(10)에서 발생하는 부하가 외부 서버(20)에 비하여 상당히 높은 편에 해당한다. 통상적으로, 스마트 폰 등의 단말 장치(10)보다는 외부 서버(20)가 그 연산량이나 용량 면에서 더 뛰어나므로, 그 역할을 반대로 수행함이 더 바람직할 수 있다. 즉, 테스트 음성 신호에 대한 전처리 부분만 단말 장치(10)에서 수행하고 이에 대한 제2 음성 길이와 제2 엠에프씨씨들만 외부 서버(20)로 전송하여, 외부 서버(20)에서 기준 음성 신호와 테스트 음성 신호 사이의 유사도를 판별토록 하는 것이 더 바람직할 수 있다. 이러한 변형 실시 예를 통하여, 본 발명에 따른 음성 유사도 판단 장치는 여러 개의 단말 장치(10)들 각각에서 수행하여야 할 작업량이 상당량 감소시킬 수 있는 효과를 달성할 수 있다.
도면 6도는 본 발명에 따른 음성 유사도 판단 장치의 또 다른 변형 실시 예를 보여주는 도면이다.
앞서 살펴본 두 변형 실시 예는 그때 그때 기준 음성 신호 및/또는 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하고, 음성 구간과 묵음 구간을 인식 처리하여 음성 길이 및 엠에프씨씨들을 추출하는 전처리 과정이 수행된다. 그러나, 이중에서 기준 음성 신호의 경우에는 미리 전처리 과정을 수행하여 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 추출하여 데이터베이스화하여 저장이 가능하다. 즉, 단말 장치(10)에서 테스트 음성 신호의 제2 음성 길이 및 제2 엠에프씨씨들이 수신되면, 영화, 광고, 드라마 등에 포함되어 있는 기준 음성 신호에서 추출된 제1 음성 길이 및 제1 엠에프씨씨들을 저장하고 있는 기준 음성 데이터베이스(190)로부터 이러한 제1 음성 길이 및 제1 엠에프씨씨들을 호출하여 발화길이비 계산 모듈(140), 디티더블유 모듈(150) 등에 전달함으로써 기준 음성 신호와 테스트 음성 신호 사이의 유사도를 더 빠르게 계산하고 점수화하여 제공할 수 있다
도면 7도는 본 발명에 따른 음성 유사도 판단 장치의 필터 모듈의 예를 블럭도로 보여주는 도면이다.
앞서 살펴본 바와 같이, 기준 음성 신호에서 잡음 및/또는 배경음을 제거하는 제1 필터 모듈(111)과 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하는 제2 필터 모듈(112)은 그 구별의 편의성을 위하여 앞에 '제1', '제2'의 수식어만 붙었을 뿐 그 역할이나 구성은 동일할 수 있으며, 여기서는 필터 모듈로 통일하여 설명하기로 한다. 이는 이하 제1 음성 구간 검출 모듈(121), 제2 음성 구간 검출 모듈(122), 제1 엠에프씨씨 추출 모듈(131), 제2 엠에프씨씨 추출 모듈(132)에 있어서도 동일하다.
필터 모듈은 잡음 스펙트럼(spectrum) 추청 섹션(section)(110-2), 에프에프티(FFT, Fast Fourier Transform) 섹션(110-1), 위너(winer) 필터 섹션(110-3), 아이에프에프티(IFFT, Inverse Fast Fourier Transform) 섹션(110-4)를 포함하여 구성될 수 있으며, 이러한 구성을 통하여 음성 신호에 포함되어 있는 잡음 및/또는 배경음을 제거할 수 있다. 보다 구체적으로, 잡음 스펙트럼 추청 섹션(110-2)은 음성이 없는 구간에서 잡음 스펙트럼을 추정하여 위너 필터 섹션(110-3)으로 전달하고, 이를 수신한 위너 필터 섹션(110-3)은 에프에프티 섹션(110-1)이 푸리에 변환하여 전달하는 음성 신호와 필터링된 신호의 차이를 최소화되도록 함으로써 음성 신호에서 잡음 및/또는 배경음을 제거하는 작업을 수행할 수 있다. 그리고, 위너 필터 섹션(110-3)을 통하여 잡음이 제거된 음성 신호는 아이에프에프티 섹션(110-4)을 통하여 역변환되어 음성 구간 검출 모듈로 전달될 수 있다.
이러한 과정을 수식으로 정리하면 다음과 같다.
음성 신호는 잡음과 깨끗한 신호가 혼합된 신호로서,
으로 표기할 수 있으며, 여기서 s[n]은 깨끗한 신호이고, z[n]은 잡음 신호를 나타낸다.
이러한 음성 신호가 필터를 거쳐서 출력되는 것을 수식으로 표현하면,
으로 나타낼 수 있다.
여기서, 위너 필터 섹션(110-3)은 추정된 신호 이 깨끗한 신호 s[n]과 MSE(Mean Square Error)가 최소가 되도록 하도록 조정하며, 이는 아래 식을 따라 이루어질 수 있다.
그리고, 위 식에서 위너-호프(hopf) 방정식이 아래와 같이 유도되고,
이를 푸리에 변환하여 아래와 같은 식이 산출될 수 있다.
도면 8도는 위너 필터링 전 후의 음성 파형과 스펙트로그램을 보여주는 도면이다.
먼저, 도면 8도의 (a)는 위너 필터 섹션(110-3)을 거치기 전의 음성 신호 파형과 스펙트로그램을 보여주는 도면이고, (b)는 위너 필터 섹션(110-3)을 통과한 음성 신호 파형과 스펙트로그램을 보여주는 도면이다. 음성 신호에 포함되어 있는 잡음 등의 성분이 잘 제거된 것을 도면을 통하여 확인할 수 있다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 과정을 통하여 기준 음성 신호와 테스트 음성 신호에서 잡음 및/또는 배경음을 제거함으로써, 이후 기준 음성 신호와 테스트 음성 신호에서 음성 구간의 검출과 특징 파악이 더 수월하게 이루어지도록 하는 효과를 제공한다.
도면 9도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 예를 보여주는 도면이다.
본 발명의 음성 유사도 판단 장치는 디티더블유의 정렬 에러(error)율 감소와 신뢰성 있는 유사도 계산을 위한 전처리 작업으로써, 음성 신호에서 음성 구간을 검출하는 과정을 수행할 수 있으며, 이는 각각의 제1 음성 구간 검출 모듈(121)과 제2 음성 구간 검출 모듈(122)을 통하여 이루어질 수 있다.
음성 구간의 검출은 에너지(energy), 영교차율, 자기상관계수, 증감 계수, 1차 엘피씨(lpc, linear predictive coding) 계수, 예측오차, 미분 에너지, 에스엔알(snr, siganl to noise ratio) 중 어느 하나 이상을 이용하여 검출될 수 있다. 이를 위하여, 음성 구간 검출 모듈은 프레임(frame) 단위 처리 섹션(120-1), 제3 해밍 윈도우 섹션(120-2), 프레임 단위 에너지 계산 섹션(120-3), 영교차율 계산 섹션(120-4), 음성 구간 판별 섹션(120-5)를 포함하여 구성될 수 있다. 보다 구체적으로, 음성 구간 검출 모듈은 필터 모듈을 통하여 잡음 및/또는 배경음이 제거된 음성 신호를 프레임 단위 처리 섹션(120-1)을 통하여 프레임 단위로 처리하여 제3 해밍 윈도우 섹션(120-2), 프레임 단위 에너지 계산 섹션(120-3)로 구성되는 에너지 계산 가지와 영교차율 계산 섹션(120-4)으로 구성되는 영교차율 계산 가지로 전달하고, 제3 음성 구간 판별 섹션(120-5)은 수신되는 음성 신호의 에너지와 영교차 구간을 검출하여 음성 신호에서 음성 구간과 묵음 구간을 구별하여 인식 처리할 수 있다.
이를 통하여, 본 발명에 따른 음성 유사도 판단 장치는 이후 진행될 음성 유사도 판단에서 정렬 에러율을 감소시킬 수 있는 효과를 달성할 수 있다.
도면 10도는 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈의 다른 예를 보여주는 도면이다.
또한, 본 발명에 따른 음성 유사도 판단 장치의 음성 구간 검출 모듈은 필터 뱅크(bank) 섹션(120-6), 밴드(band) 에너지 추정 섹션(120-7), 음성 구간 검출 섹션(120-8), 배경 잡음 적응 섹션(120-9), 밴드 에스엔알(SNR) 합산 섹션(120-10), 문턱값 적응 섹션(120-11), 제4 음성 구간 판별 섹션(120-12)를 포함하여 구성될 수도 있다. 이는 유럽전기통신표준협회(etsi, european telecommunication standard institude)의 표준 VAD(Voice Activity Detection)을 구현하기 위한 구성이며, 입력 음성 신호를 9 개의 서브(sub) 밴드로 나눈 후, 각각의 서브 밴드에 대한 에스엔알 추정치를 이용하여 서브 밴드 에너지를 계산하여 음성 구간을 판별하는 것을 특징으로 한다.
도면 11도는 본 발명에 따른 음성 유사도 판단 장치의 엠에프씨씨 추출 모듈의 내부 구성을 블럭도로 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치는 기준 음성 신호와 테스트 음성 신호 각각에서 엠에프씨씨들을 추출하고 이를 디티더블유를 이용하여 유사도를 판별하는데, 이를 위하여 엠에프씨씨 추출 모듈은 프리 엠퍼시스(pre emphasis) 섹션(130-1), 제4 해밍 윈도우(window) 섹션(130-2), 디에프티(DFT, Discrete Fourier Transform) 섹션(130-3), 멜(mel) 스케일(scale) 필터 뱅크 섹션(130-4), 로그(log) 섹션(130-5), 디씨티(DCT, Discrete Cosine Transform) 섹션(130-6)을 포함하여 구성될 수 있다.
엠에프씨씨 추출 모듈의 각각의 세부 섹션의 역할을 간략히 검토하면 다음과 같다.
엠에프씨씨 추출 모듈의 프리 엠퍼시스 섹션(130-1)은 고주파 영역의 에너지를 증가시켜서 음소 검출의 정확도를 높이는 역할을 수행할 수 있으며, 제4 해밍 윈도우 섹션(130-2)은 음성에서 추출된 프레임의 경계에서의 신호의 값을 0에 가깝게 만들어 이산화시키는 역할을 수행하며, 디에프티 섹션(130-3)은 제4 해밍 윈도우 섹션(130-2)을 통하여 전달되는 윈도우된 프레임으로부터 스펙트럼(spectrum) 정보를 추출하는 역할을 수행할 수 있다. 즉, 해밍 윈도우된 프레임에서 각 주파수 밴드에서의 에너지를 추출하는 역할을 수행할 수 있다. 다음으로, 디에프티 섹션(130-3)을 통하여 추출된 각 주파수 밴드 에너지를 사람의 귀와 유사하게 모델링된 멜 스케일 필터 뱅크 섹션(130-4)과 로그 섹션(130-5)를 통하여 필터링하고, 이러한 결과를 디씨티 섹션(130-6)을 통하여 음소를 찾을 때 유용한 특징을 제공하는 계수 값들을 구한다. 특히, 본 발명에서는 13차 엠에프씨씨들을 사용하고, 이러한 13차 엠에프씨씨들의 각 차수의 평균이 전체 발화에 걸쳐서 같다고 가정하고 에너지 평준화를 위한 씨엔엠(CMN, Cepstral Mean Normalization)을 적용한다. 이를 위한 수식은 아래와 같으며, i는 엠에프씨씨의 차수, 는 i번째 엠에프씨씨 차수의 평균 값, j는 프레임 번호를 의미한다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 엠에프씨씨 모듈을 통하여 기준 음성 신호와 테스트 음성 신호의 특징을 잘 뽑아낼 수 있는 효과를 달성할 수 있다.
도면 12도는 프레임이 이동하며 음성 신호에서 특징을 추출하는 과정을 보여주는 도면이다.
음성은 비정상 신호이기 때문에 발화된 음성 신호 전체에 걸쳐서 특징을 뽑아내지 않고 도면과 같은 작은 윈도우(window) 안에서 음성 신호가 정적이라 가정하고 특징을 추출한다. 그리고, 윈도우로부터 추출된 음성 신호를 프레임이라 정의한다.
도면 13도는 해밍 윈도우의 모양을 보여주는 도면이다.
음성에서 추출된 프레임은 해밍 윈도우에 곱해지게 되며, 해밍 윈도우는 윈도의 경계에서의 음성 신호의 값을 0에 가깝게 만들며, 이러한 작업은 엠에프씨씨 추출 모듈의 제4 해밍 윈도우 섹션(130-2)을 통하여 이루어질 수 있다. 그리고, 이러한 해밍 윈도우를 식으로 표현하면 다음과 같다.
도면 14도는 멜 스케일 필터 뱅크 섹션을 통하여 제공되는 삼각 필터 뱅크의 모습을 보여주는 도면이다.
엠에프씨씨 추출 모듈의 멜 스케일 필터 뱅크 섹션(130-4)은 1 kHz 이하에서는 일정한 간격의 중심 주파수와 100 Hz의 대역폭을 가지고, 1 kHz 이상에서는 중심 주파수와 대역폭이 로그에 비례하여 급격하게 증가하는 필터 뱅크를 구비하는 섹션이며, 주파수 도메인(domain)에서 멜 스케일 주파수는 아래와 같이 정의될 수 있다.
필터 뱅크는 각, 사각, 사다리, 가우시안(gaussian) 등 다양한 방식이 있는데, 본 발명에서 사용되는 멜 스케일 필터 뱅크 섹션(130-4)은 아래와 같은 삼각 모양의 가중치를 사용하며, 이렇게 가중치를 적용되어 산출된 값을 합하는 방식으로 구현된다.
위의 식에서 는 m번째 삼각 필터 뱅크를 나타내고, f[m]은 중심 주파수를 나타내는데, 본 발명에 따른 음성 유사도 판단 장치는 이러한 멜 스케일 필터 뱅크 섹션(130-4)을 이용하여 수신되는 음성 신호에서의 특징을 사람의 귀의 특성과 유사한 방식을 이용하여 추출할 수 있다.
도면 15도는 본 발명의 음성 유사도 판단 장치의 디티더블유 모듈을 통하여 이루어지는 디티더블유 점수들이 계산되는 과정을 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치의 디티더블유 모듈(150)은 제1 엠에프씨씨 추출 모듈(131)과 제2 엠에프씨씨 추출 모듈(132)로부터 각각 제1 엠에프씨씨들과 제2 엠에프씨씨들을 전달받아서 디티더블유 점수들을 계산할 수 있으며, 이는 와핑 코스트(warping cost)를 최소화하는 최적 경로의 길이를 찾는 방식을 통하여 이루어질 수 있다. 보다 구체적으로, 디티더블유는 길이가 다른 두 데이터의 거리를 최소로 하는 경로를 찾는 알고리즘(algorithm)인데, 디티더블유 경로의 길이인 K는 아래의 식과 같은 부등식의 범위를 가질 수 있다.
그리고, 많은 와핑 패스 중에서 와핑 코스트를 최소로 하는 DTW(R,T)를 구하면 다음과 같다.
또한, 최적의 경로를 찾아내기 위한 다이내믹(dynamic) 프로그래밍(programming)을 적용하기 위한 수식은 다음과 같다.
이렇게 구해진 디티더블유 점수들을 이용하여 디티더블유 거리 매트릭스(matrix)에서 최적 경로가 구해지게 되며, 보다 구체적으로는 최적 경로상의 디티더블유 점수들이 더해진 뒤, 최적 경로의 길이에 대한 평준화를 통하여 디티더블유 스코어가 계산되게 된다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 디티더블유 모듈(150)을 통하여, 길이가 서로 다른 기준 음성 신호와 테스트 음성 신호 사이에서도 유사성을 효과적으로 파악할 수 있다.
도면 16도는 본 발명인 음성 유사도 판단 장치의 발음 점수 계산 모듈 및/또는 억양 점수 계산 모듈을 통하여 디티더블유 스코어가 매핑 점수로 변환되는 과정을 보여주는 도면이다.
디티더블유 점수는 작을수록 기준 음성 신호와 테스트 음성 신호 사이의 유사도가 높다는 의미이므로, 사용자에게 친숙한 100점 만점 단위로 디티더블유 점수로 변환할 필요가 있다. 이는 디티더블유 점수들 중 최소값을 최대점수로 하고, 디티더블유 점수들 중 최대값을 최소점수로 하는 다음의 수식을 통하여 이루어 질 수 있으며,
여기서, X는 디티더블유 스코어를 의미하며, 디티더블유(DTW) 최대 점수와 디티더블유 최소 점수는 기설정된 점수로서 본 발명의 구현에 사용된 전체 데이터로부터 얻어진 것일 수 있다.
또한, 위 식을 통하여 산출된 값 중에서 100 보다 큰 변환 점수는 100점으로 계산하며, 0 보다 작은 점수는 0으로 출력하며, 변환된 값은 발음 점수로 그대로 사용할 수 있다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 발음 점수 계산 모듈(160)을 통하여 사용자가 발화한 테스트 음성 신호와 기준 음성 신호 사이의 발음이 어느 정도 유사한지를 객관적으로 평가하여 사용자에게 제공할 수 있다. 또한, 패스, 논패스의 단순 평가 기법은 자신의 발음이 향상되고 있는지 여부에 대하여 정보를 제공할 수 없는데, 본 발명에 따른 음성 유사도 판단 장치는 발음에 대한 평가를 점수화하여 제공함으로써 사용자의 발음이 향상되고 있는지 여부에 대한 객관적 근거 자료로 활용할 수도 있다.
도면 17도는 본 발명인 음성 유사도 판단 장치의 억양 점수 계산 모듈에서 사용되는 가중치 함수의 모습을 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치의 억양 점수 계산 모듈(170)은 발화길이비 계산 모듈(140)이 제공하는 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고 이를 발음 점수에 곱하여 억양 점수를 계산하는데, 도면 17도는 이러한 과정에 사용되는 가중치 함수의 일 예를 보여주는 도면이다. 보다 구체적으로 도면의 함수는 발화길이비가 1일 때 1의 가중치를 가지고, 발화길이비가 0.5 이하 및 1.5 이상에서는 0의 가중치를 가지는 것을 특징으로 한다. 또한, 발화 길이비가 0.5 이상 1 이하의 구간에서는 2의 기울기 값을 가지고, 발화길이비가 1 이상 1.5 이하에서는 -2의 기울기 값을 가지는 것을 특징으로 한다. 그러나, 이는 하나의 예일 뿐이고 필요에 따라 다양한 가중치 함수가 적용될 수 있다.
본 발명에 따른 음성 유사도 판단 장치는 이러한 억양 점수 계산 모듈(170)을 통하여, 사용자의 발음 특성 뿐 아니라 억양 특성도 점수화하여 제공할 수 있는 효과가 있다.
도면 18도는 본 발명에 따른 음성 유사도 판단 방법의 처리 과정을 순서도로 보여주는 도면이다.
먼저, 본 발명에 따른 음성 유사도 판단 방법에서는 기준 음성 신호 및/또는 테스트 음성 신호에서 잡음 및/또는 배경음을 제거되고(S18-1), 이렇게 잡음 및/또는 배경음이 제거된 기준 음성 신호에서 제1 음성 길이를 계산된 뒤(S18-2), 제1 엠에프씨씨들을 추출되는 과정이 수행될 수 있다.(S18-3) 테스트 음성 신호에서도 이와 유사한 과정이 수행되며, 테스트 음성 신호에서 제2 음성 길이를 계산된 뒤(S18-4), 제2 엠에프씨씨들이 추출되는 과정이 수행될 수 있다.(S18-5)
이렇게 기준 음성 신호에서 제1 음성 길이와 제1 엠에프씨씨들이 추출되고 테스트 음성 신호에서 제2 음성 길이와 제2 엠에프씨씨들이 추출된 이후에는, 제1 음성 길이를 제2 음성 길이로 나누어 발화길이비를 계산하는 과정이 수행되고(S18-6), 제1엠에프씨씨들과 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되고(S18-7), 계산된 디티더블유 점수들을 매핑하여 매핑 점수로 변환되는 과정이 수행될 수 있다.(S18-8) 다음으로는 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되고(S18-9), 이러한 가중치 발화 길이비를 매핑 점수에 곱하여 억양 점수가 계산되는 과정이 수행될 수 있다(S18-10)
이렇게 억양 점수와 발음 점수의 산출이 완료되면 두 값을 더하여 최종 유사도 점수가 산출되는 과정이 수행되는데 두 값은 산술적으로 더해지는 것이 아니라, 매핑 점수를 활용하여 발음 점수가 계산되고(S18-11), 발음 가중치가 곱해져서 가중치 발음 점수가 산출되는 과정이 수행될 수 있다.(S18-12) 또한, 억양 점수에는 억양 가중치가 곱해져서 가중치 억양 점수가 계산되며(S18-13), 이러한 가중치 발음 점수와 가중치 억양 점수가 더하여져서 최종 유사도 점수로 산출되어 제공되게 된다.(S18-14)
본 발명인 음성 유사도 판단 방법은 이러한 과정을 통하여 산출된 최종 유사도 점수 제공을 통하여, 학습자 또는 이용자에게 적절한 피드백을 제공하여 학습 능률이 향상되도록 하는 효과를 달성할 수 있다.
도면 19도는 본 발명인 음성 유사도 판단 방법의 변형 실시 예의 순서도를 보여주는 도면이다.
앞서 살펴본 바와 같이 본 발명인 음성 유사도 판단 장치는 외부 서버(20)와 단말 장치(10)로 그 역할이 분할되어 구성될 수 있으며, 도면 19도는 외부 서버(20)로부터 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 수신하는 단말 장치가 이를 이용하여 기준 음성 신호와 테스트 음성 신호 사이의 유사도를 판단할 수 있다.
이러한 변형 실시 예에 따른 음성 유사도 판단 방법은 먼저, 외부 서버(20) 등으로부터 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 수신하는 과정부터 수행할 수 있다.(S19-1) 이에 병행하여, 테스트 음성 신호의 잡음 및/또는 배경음이 제거되는 과정과(S19-2), 테스트 음성 신호에서 제2 음성 길이를 계산되는 과정(S19-3)과 제2 엠에프씨씨들을 추출하는 과정이 이시 또는 동시로 수행될 수 있다.(S19-4)
테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들의 추출이 완료된 다음에는 앞서 살펴본 과정이 그대로 유사하게 단말 장치(10) 내에서 수행될 수 있으며, 보다 구체적으로는 제1 음성 길이를 제2 음성 길이로 나누어 발화길이비가 계산되고(S19-5), 제1 엠에프씨씨들과 제2 엠에프씨씨들 사이의 디티더블유 점수들이 계산되고(S19-6), 이러한 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 과정이 수행될 수 있다.(S19-7) 그리고, 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고(S19-8), 가중치 발화길이비를 매핑 점수에 적용하여 억양 점수가 계산되는 과정과(S19-9), 매핑 점수를 활용하여 발음 점수를 산출하는 고정이 수행될 수 있다.(S19-10)
이렇게 발음 점수와 억양 점수가 산출된 다음에는, 각각의 발음 점수와 억양 점수에 가중치를 적용하여 가중치 발음 점수와(S19-11), 가중치 발음 점수가 계산될 수 있으며(S19-12), 최종 유사도 점수는 이러한 가중치 발음 점수와 가중치 발음 점수의 합산을 통하여 산출되어 제공될 수 있다.(S19-13) 여기서, 발음 가중치는 0.52일 수 있으며, 억양 가중치는 0.48일 수 있다.
본 발명에 따른 음성 유사도 판단 방법은 이러한 작업 분화를 통하여 음성 신호의 전처리 및 유사도 판단 과정에서 발생하는 부하를 분산, 경감할 수 있는 효과가 있다.
도면 20도는 본 발명인 음성 유사도 판단 방법의 다른 실시 예의 순서도를 보여주는 도면이다.
도면 20도는 도면 19도와는 반대로, 외부 서버(20)가 단말 장치(10)가 전송하는 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 기준 음성 신호와 테스트 음성 신호 사이의 유사도를 판단하는 과정에 대하여 보여주는 순서도이다.
이를 위하여, 다른 실시 예에 따른 음성 유사도 판단 방법은 단말 장치(10)로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들을 수신하고(S20-1), 기준 음성 신호에서 잡음 및/또는 배경음을 제거한 후에(S20-2), 기준 음성 신호에서 제1 음성 길이를 계산하는 과정을 수행할 수 있다.(S20-3) 또한, 제1 엠에프씨씨들이 추출되는 과정이 수행될 수 있다.(S20-4) 이렇게 제1 음성 길이의 계산과 제1 엠에프씨씨들의 추출이 완료된 다음에는, 제1 음성 길이를 제2 음성 길이로 나누어 발화길이비가 계산되고(S20-5), 제1 엠에프씨씨들과 제2 엠에프씨시들 사이에서 계산된 디티더블유 점수들을 계산하고(S20-6), 매핑 점수로 변환하는 과정이 수행될 수 있다.(S20-7) 그 이후로, 가중치 발화길이비가 계산되고(S20-8), 매핑 점수에 적용하여 가중치 발화길이비를 적용하여 억양 점수가 계산되고(S20-9), 매핑 점수를 활용하여 발음 점수가 계산되는 과정이 수행될 수 있다.(S20-10)
마지막으로는, 발음 점수에 0.52의 발음 가중치를 적용하여 가중치 발음 점수를 산출하고(S20-11), 억양 점수에 0.48의 억양 가중치를 적용하여 억양 가중치 점수를 산출한 뒤(S20-12), 이 두 값을 더하여 최종 유사도 점수를 산출하는 과정이 수행될 수 있다.(S20-13)
이러한 실시 예를 통하여서는 복잡하고 연산량이 많은 과정이 외부 서버(20)에서 수행되므로 단말 장치(10)에서의 작업 부하가 줄어드는 효과가 있다.
도면 21도는 본 발명인 음성 유사도 판단 방법의 또 다른 실시 예의 순서도를 보여주는 도면이다.
테스트 음성 신호는 사용자가 발화한 음성을 그때 그때 처리해야 함에 비하여, 기준 음성 신호는 영상 등에 포함된 음성 신호이므로 미리 사전에 잡음 및/또는 배경음 등의 제거 등의 전처리 과정을 통하여 제1 음성 길이와 제1 엠에프씨씨들의 추출이 가능하다. 또한, 이러한 데이터를 미리 데이터베이스에 저장해놓고 그때 그때 호출하여 유사도 판단에 사용하는 것도 가능하다. 도면 20도는 이러한 실시 예를 보여주는 것으로써, 또 다른 실시 예에 따른 음성 유사도 판단 방법은 단말 장치(10)로부터 제2 음성 길이와 제2 엠에프씨씨들을 수신하고(S21-1), 기준 음성 데이터베이스로부터 제1 음성 길이와 제1 엠에프씨씨들을 호출하여 수신한 뒤(S21-2), 제1 음성 길이를 제2 음성 길이로 나누어 발화길이비를 계산할 수 있다.(S21-3) 그리고, 제1 엠에프씨씨들과 제2 엠에프씨씨들 사이에서 계산된 디티더블유 점수(S21-4)를 이용하여 매핑 점수로의 변환이 이루어지고(S21-5), 발화길이비에 가중치 함수를 적용하여 계산된 가중치 발화길이비를(S21-6), 매핑 점수에 적용하여 억양 점수를 계산하는 과정이 수행될 수 있다.(S21-7) 그리고, 매핑 점수를 이용하여 발음 점수가 계산되고(S21-8), 이렇게 발음 점수와 억양 점수의 산출이 완료된 다음에는 가중치를 적용하여 가중치 발음 점수와(S21-9), 가중치 억양 점수가 계산되고(S21-10), 이 두 값을 합산하여 최종 유사도 점수가 산출되는 과정이 완료될 수 있다.(S21-11)
본 발명의 또 다른 실시 예에 따른 음성 유사도 판단 방법에 의하면, 기준 음성 신호에서의 제1 음성 길이와 제1 엠에프씨씨들이 미리 데이터베이스에 저장되어 구현되어 있으므로, 양 신호 상의 유사도 판단 계산 및 제공이 더 빠르고 효과적으로 점수화되어 제공할 수 있는 효과가 있다.
도면 22도는 본 발명인 음성 유사도 판단 장치를 구성하는 단말 장치에서 외부 서버로 제2 음성 길이와 제2 엠에프씨씨들을 전송하는 과정을 순서도로 보여주는 도면이다.
본 발명에 따른 음성 유사도 판단 장치는 역할이 분담되어 있는 외부 서버(20), 단말 장치(10)를 포함하여 구성될 수 있다. 이 경우, 단말 장치(10)는 사용자가 발화하는 테스트 음성 신호에서 제2 음성 길이를 계산한 뒤(S22-1), 제2 엠에프씨씨들을 추출할 수 있다.(S22-2) 다음으로, 이렇게 추출된 제2 엠에프씨씨들과 제2 음성 길이는 외부 서버(20)로 전송될 수 있으며(S22-3), 이를 수신한 외부 서버(20)는 제2 엠에프씨씨들과 제2 음성 길이를 활용하여 테스트 음성 신호와 기준 음성 신호 사이의 유사도를 점수화하여 판정하고 그 결과를 다시 단말 장치(10)로 전송할 수 있다.
도면 23도는 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법에 따라 산출되는 점수 결과와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
먼저, 본 발명의 성능 실험을 위하여 사용된 기준 음성과 테스트 음성의 스펙은 아래와 같다.
기준 음성 신호 28개, 테스트 음성 신호 100개로 구성된 테스트 음성 신호로 구성된 웨이브(wav) 파일을 이용하여 성능 실험을 실시하였다. 여기서, 기준 음성 신호는 잡음 및 배경 음악이 존재하는 영화, 드라마에서 배우의 대사 음성을 1 내지 4초 길이로 발췌한 음성 신호가 사용되었으며, 테스트 음성 신호는 기준 음성 신호를 따라 실제 사용자가 유사하게 흉내를 내거나 고의적으로 다른 발음을 하거나 유창하지 못하게 발성한 음성 신호가 사용되었다.
도면을 통하여 확인할 수 있듯이, 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법의 개발 모듈이 산출한 점수와 채점자들이 평가한 점수의 평균 값 사이의 상관 계수의 값이 0.3823으로서, 본 발명과 가장 높은 상관계수를 가지는 채점자 3명 사이의 상관계수인 0.3795와 큰 차이가 없는 점에서 본 발명을 따라 산출된 결과가 합리적인 기준을 제공하는 값임을 알 수 있다.
도면 24도는 본 발명을 통하여 산출된 발음 점수와 억양 점수를 선형 회귀 모델에 사용하여 산출된 점수와 전문 채점자들이 평가한 점수 결과와의 상관 관계를 정리하여 표로써 보여주는 도면이다.
선형 회귀 모델(model)의 정답은 채점자 평균 채점 값으로 하였으며, 전체 데이터 100개를 10개씩 10그룹으로 나누어 9그룹은 학습에 사용하고, 1그룹은 테스트에 사용하는 방식으로 학습을 실시하였으며, 선형 회귀 모델을 통해 예측된 100개의 데이터에 대한 변환 점수와 전문 채점자들 사이의 평균 채점 값 사이의 상관계수를 구하였다. 위 과정은 100번 반복되었으며 본 발명에 따른 개발 모듈과 채점자와의 상관 계수 값을 구한 후 100개의 상관계수 값의 평균을 본 발명에 따른 개발 모듈과 채점자간의 상관계수 값으로 사용하였다. 그리고, 이 과정을 반복할 때마다 10그룹은 랜덤(random)하게 그룹 지어졌으며, 이를 그림으로 정리하면 다음과 같이 나타낼 수 있다.
도면을 통하여 정리된 값을 확인하면, 본 발명에 따른 개발 모듈을 선형 회귀 모델에 적용하여 산출한 유사도 점수와 채점자들 평균 값의 상관계수 값은 0.3313이고, 개발 모듈과 가장 높은 상관 계수를 가지는 채점자 3명 사이의 상관 계수는 0.3457인 것을 확인할 수 있으며, 그 결과로서 선형 회귀 모델을 적용하여 학습시킨 결과보다 본 발명에 따른 음성 유사도 판단 장치 및 음성 유사도 판단 방법을 직접적으로 적용하여 산출된 결과가 채점자와의 상관 관계가 더 높아 신뢰성이 더 높은 것을 확인할 수 있다.
상술한 바와 같이, 본 발명의 바람직한 실시예들을 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 단말 장치
20 : 외부 서버
110-1 : 에프에프티 섹션
110-2 : 잡음 스펙트럼 추청 섹션
110-3 : 위너 필터 섹션
110-4 : 아이에프에프티 섹션
111 : 제1 필터 모듈
112 : 제2 필터 모듈
120-1 :프레임 단위 처리 섹션
120-2 : 제3 해밍 윈도우 섹션
120-3 : 프레임 단위 에너지 계산 섹션
120-4 : 영교차율 계산 섹션
120-5 : 제3 음성 구간 판별 섹션
120-6 : 필터 뱅크 섹션
120-7 : 밴드 에너지 추정 섹션
120-8 : 음성 구간 검출 섹션
120-9 : 배경 잡음 적응 섹션
120-10 : 밴드 에스엔알 합산 섹션
120-11 : 문턱값 적응 섹션
120-12 : 제4 음성 구간 판별 섹션
121 : 제1 음성 구간 검출 모듈
122 : 제2 음성 구간 검출 모듈
130-1 : 프리 엠퍼시스 섹션
130-2 : 제4 해밍 윈도우 섹션
130-3 : 디에프티 섹션
130-4 : 멜 스케일 필터 뱅크 섹션
130-5 : 로그 섹션
130-6 : 디씨티 섹션
131 : 제1 엠에프씨씨 추출 모듈
132 : 제2 엠에프씨씨 추출 모듈
140 : 발화길이비 계산 모듈
150 : 디티더블유 모듈
160 : 발음 점수 계산 모듈
170 : 억양 점수 계산 모듈
180 : 최종 유사도 점수 산출 모듈
190 : 기준 음성 데이터베이스
20 : 외부 서버
110-1 : 에프에프티 섹션
110-2 : 잡음 스펙트럼 추청 섹션
110-3 : 위너 필터 섹션
110-4 : 아이에프에프티 섹션
111 : 제1 필터 모듈
112 : 제2 필터 모듈
120-1 :프레임 단위 처리 섹션
120-2 : 제3 해밍 윈도우 섹션
120-3 : 프레임 단위 에너지 계산 섹션
120-4 : 영교차율 계산 섹션
120-5 : 제3 음성 구간 판별 섹션
120-6 : 필터 뱅크 섹션
120-7 : 밴드 에너지 추정 섹션
120-8 : 음성 구간 검출 섹션
120-9 : 배경 잡음 적응 섹션
120-10 : 밴드 에스엔알 합산 섹션
120-11 : 문턱값 적응 섹션
120-12 : 제4 음성 구간 판별 섹션
121 : 제1 음성 구간 검출 모듈
122 : 제2 음성 구간 검출 모듈
130-1 : 프리 엠퍼시스 섹션
130-2 : 제4 해밍 윈도우 섹션
130-3 : 디에프티 섹션
130-4 : 멜 스케일 필터 뱅크 섹션
130-5 : 로그 섹션
130-6 : 디씨티 섹션
131 : 제1 엠에프씨씨 추출 모듈
132 : 제2 엠에프씨씨 추출 모듈
140 : 발화길이비 계산 모듈
150 : 디티더블유 모듈
160 : 발음 점수 계산 모듈
170 : 억양 점수 계산 모듈
180 : 최종 유사도 점수 산출 모듈
190 : 기준 음성 데이터베이스
Claims (30)
- 기준 음성 신호에서 제1 음성 길이가 계산되는 단계;
상기 기준 음성 신호에서 제1 엠에프씨씨(mfcc, mel frequency cepstal coefficient)들이 추출되는 단계;
테스트(test) 음성 신호에서 제2 음성 길이가 계산되는 단계;
상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계;
상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계;
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유(dtw, dynamic time warping) 점수들이 계산되는 단계;
상기 디티더블유 점수들이 매핑(mapping)되어 매핑 점수로 변환되는 단계;
상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계;
상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 외부 서버(server)로부터 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들이 수신되는 단계;
테스트 음성 신호에서 제2 음성 길이가 계산되는 단계;
상기 테스트 음성 신호에서 제2 엠에프씨씨들이 추출되는 단계;
상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계;
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계;
상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계;
상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계;
상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 단말 장치로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들이 수신되는 단계;
기준 음성 신호에서 제1 음성 길이가 계산되는 단계;
상기 기준 음성 신호에서 제1 엠에프씨씨들이 추출되는 단계;
상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계;
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계;
상기 디티더블유 점수들이 매핑되어 매핑 점수로 변환되는 단계;
상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계;
상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 단말 장치로부터 테스트 음성 신호의 제2 음성 길이와 제2 엠에프씨씨들이 수신되는 단계;
기준 음성 데이터베이스(database)로부터 제1 음성 길이와 제1 엠에프씨씨들이 수신되는 단계;
상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비가 계산되는 단계;
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계;
상기 디티더블유 점수들이 매핑을 통하여 매핑 점수로 변환되는 단계;
상기 발화길이비에 가중치 함수가 적용되어 가중치 발화길이비가 계산되는 단계;
상기 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 가중치 함수는
상기 발화길이비가 1일때 1의 가중치 값을 가지고,
상기 발화길이비가 0.5 이하 및 1.5 이상에서는 0의 가중치 값을 가지는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제5항에 있어서,
상기 가중치 함수는
상기 발화길이비가 0.5 이상 1 이하의 구간에서는 2의 기울기 값을 가지고,
상기 발화길이비가 1 이상 1.5 이하의 구간에서는 -2의 기울기 값을 가지는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 발음 점수에 상기 가중치 발화길이비를 곱하여 억양 점수가 계산되는 단계 이후에,
상기 매핑 점수에 발음 가중치를 곱하여 가중치 발음 점수가 계산되는 단계;
상기 억양 점수에 억양 가중치를 곱하여 가중치 억양 점수가 계산되는 단계;
상기 가중치 발음 점수와 상기 가중치 억양 점수를 더하여 최종 유사도 점수가 산출되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제7항에 있어서,
상기 발음 가중치는 0.52 이며,
상기 억양 가중치는 0.48 인 것을 특징으로 하는 음성 유사도 판단 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들 사이에서 디티더블유 점수들이 계산되는 단계에서,
상기 디티더블유 점수들은
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들을 이용하여 작성되는 디티더블유 거리 매트릭스(matrix)에서 경로상 값들을 더하여 구해지는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제1항에 있어서,
기준 음성 신호에서 제1 음성 길이가 계산되는 단계 이전에,
상기 기준 음성 신호 및/또는 상기 테스트 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제2항에 있어서,
테스트 음성 신호에서 제2 음성 길이가 계산되는 단계 이전에,
상기 테스트 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제3항에 있어서,
기준 음성 신호에서 제1 음성 길이가 계산되는 단계 이전에,
상기 기준 음성 신호에서 잡음 및/또는 배경음이 제거되는 단계;가 더 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제11항 내지 제13항 중 어느 한 항에 있어서,
잡음 및/또는 배경음의 제거는 위너(winer) 필터(filter)를 통하여 이루어지는 것을 특징으로 하는 음성 유사도 판단 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 엠에프씨씨들 및/또는 상기 제2 엠에프씨씨들은
입력되는 신호에 순차적으로 프리 엠퍼시스(pre-emphasis), 해밍(hamming) 윈도우(window), 디에프티(DFT, Discrete Fourier Transform), 멜 척도 필터 뱅크(mel scale filter bank), 디씨티(DCT, Discrete Cosine Transform)를 적용하여 구해지며,
이 중 13차 차수까지를 에너지 평준화를 위한 씨엠엔(CMN, Cepstral Mean Normalization)을 적용함으로써 추출된 것을 특징으로 하는 음성 유사도 판단 방법.
- 테스트 음성 신호에서 제2 음성 길이가 계산되는 단계;
상기 제2 음성 구간 신호에서 제2 엠에프씨씨가 추출되는 단계;
상기 제2 음성 길이와 상기 제2 엠에프씨씨가 외부 서버로 전송되는 단계;가 포함되는 것을 특징으로 하는 음성 유사도 판단 방법.
- 기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈(module);
테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈;
상기 제1 음성 구간 검출 모듈로부터 상기 제1 음성 길이를 전달받고, 상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈;
상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈;
상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈;
상기 제1 엠에프씨씨 추출 모듈로부터 상기 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 추출 모듈로부터 상기 제2 엠에프씨씨들을 전달받아 디티더블유 점수들을 계산하는 디티더블유 모듈;
상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈;
상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 기준 음성 신호의 제1 음성 길이와 제1 엠에프씨씨들을 외부 서버로부터 수신하여 저장하는 저장 모듈;
테스트 음성 신호에서 제2 음성 길이를 계산하는 제2 음성 구간 검출 모듈;
상기 제2 음성 구간 검출 모듈로부터 상기 제2 음성 길이를 전달받고, 상기 저장 모듈로부터 제1 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈;
상기 테스트 음성 신호에서 제2 엠에프씨씨들을 추출하는 제2 엠에프씨씨 추출 모듈;
상기 저장 모듈로부터 제1 엠에프씨씨들을 전달받고, 상기 제2 엠에프씨씨 모듈로부터 제2 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈;
상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈;
상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 단말 장치로부터 테스트 음성의 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 저장하는 저장 모듈;
기준 음성 신호에서 제1 음성 길이를 계산하는 제1 음성 구간 검출 모듈;
상기 제1 음성 구간 검출 모듈로부터 제1 음성 길이를 전달받고, 상기 저장 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈;
상기 기준 음성 신호에서 제1 엠에프씨씨들을 추출하는 제1 엠에프씨씨 추출 모듈;
상기 저장 모듈로부터 제2 엠에프씨씨들을 전달받고, 상기 제1 엠에프씨씨 모듈로부터 제1 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈;
상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈;
상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 단말 장치로부터 테스트 음성의 제2 음성 길이와 제2 엠에프씨씨들을 수신하여 저장하는 저장 모듈;
기준 음성의 제1 음성 길이와 제1 엠에프씨씨들을 저장하고 있는 기준 음성 데이터베이스;
상기 기준 음성 데이터베이스로부터 상기 제1 음성 길이를 전달받고, 상기 저장 모듈로부터 상기 제2 음성 길이를 전달받아, 상기 제1 음성 길이를 상기 제2 음성 길이로 나누어 발화길이비를 계산하는 발화길이비 계산 모듈;
상기 기준 음성 데이터베이스로부터 상기 제1 엠에프씨씨들을 전달받고, 상기 저장 모듈로부터 상기 제2 엠에프씨씨들을 전달받아, 디티더블유 점수들을 계산하는 디티더블유 모듈;
상기 발화 길이비 계산 모듈로부터 전달받은 상기 발화길이비에 가중치 함수를 적용하여 가중치 발화길이비를 계산하고, 상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아 매핑을 통하여 변환된 매핑 점수에 상기 가중치 발화길이비를 곱하여 억양 점수를 산출하는 억양 점수 계산 모듈;
상기 디티더블유 모듈로부터 상기 디티더블유 점수들을 전달받아, 매핑을 통하여 변환된 매핑 점수를 이용하여 발음 점수를 산출하는 발음 점수 산출 모듈;을 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서,
상기 가중치 함수는
상기 발화길이비가 1일때 1의 가중치 값을 가지고,
상기 발화길이비가 0.5 이하 및 1.5 이상에서는 0의 가중치 값을 가지는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제21항에 있어서,
상기 가중치 함수는
상기 발화길이비가 0.5 이상 1 이하의 구간에서는 2의 기울기 값을 가지고,
상기 발화길이비가 1 이상 1.5 이하의 구간에서는 -2의 기울기 값을 가지는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서,
상기 발음 점수 계산 모듈로부터 전달받은 상기 발음 점수에 발음 가중치를 곱하여 가중치 발음 점수를 계산하고, 상기 억양 점수 계산 모듈로부터 전달받은 상기 억양 점수에 억양 가중치를 곱하여 가중치 억양 점수를 계산한 뒤, 상기 가중치 발음 점수와 상기 가중치 억양 점수를 더하여 최종 유사도 점수를 산출하는 최종 유사도 점수 산출 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제23항에 있어서,
상기 발음 가중치는 0.52 이며,
상기 억양 가중치는 0.48 인 것을 특징으로 하는 음성 유사도 판단 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서,
상기 디티더블유 모듈은
상기 제1 엠에프씨씨들과 상기 제2 엠에프씨씨들을 이용하여 작성되는 디티더블유 거리 매트릭스에서 경로상 값들을 더하여 상기 디티더블유 점수들을 계산하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서,
상기 억양 점수 계산 모듈 및/또는 상기 발음 점수 산출 모듈이 사용하는 상기 매핑 점수는
상기 디티더블유 모듈로부터 전달받은
상기 디티더블유 점수들 중 최소값을 최대점수로 하고,
상기 디티더블유 점수들 중 최대값을 최소점수로 하는
식을 이용하여 상기 매핑 점수로 변환되며,
상기 디티더블유 스코어는 디티더블유 거리 매트릭스에서 최적 경로의 값을 더한 것을 최적 경로의 길이에 대하여 평준화하여 구해진 것이며,
상기 디티더블유 최대 점수와 상기 디티더블유 최소 점수는 기설정되어 있는 것을 특징으로 하는 음성 유사도 장치.
- 제17항에 있어서,
상기 기준 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제1 음성 구간 검출 모듈에 전달하는 제1 필터 모듈;
상기 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제18항에 있어서,
상기 테스트 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제19항에 있어서,
상기 기준 음성 신호에서 잡음 및/또는 배경음을 제거하여 상기 제2 음성 구간 검출 모듈에 전달하는 제2 필터 모듈;을 더 포함하는 것을 특징으로 하는 음성 유사도 판단 장치.
- 제17항 내지 제20항 중 어느 한 항에 있어서,
상기 제1 엠에프씨씨들 및/또는 상기 제2 엠에프씨씨들은
입력되는 신호에 순차적으로 프리 엠퍼시스(pre-emphasis), 해밍(hamming) 윈도우(window), 디에프티(DFT, Discrete Fourier Transform), 멜 척도 필터 뱅크(mel scale filter bank), 디씨티(DCT, Discrete Cosine Transform)를 적용하여 구해지며,
이 중 13차 차수까지를 에너지 평준화를 위한 씨엠엔(CMN, Cepstral Mean Normalization)을 적용함으로써 추출된 것을 특징으로 하는 음성 유사도 판단 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180049336A KR102042344B1 (ko) | 2018-04-27 | 2018-04-27 | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180049336A KR102042344B1 (ko) | 2018-04-27 | 2018-04-27 | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190125064A true KR20190125064A (ko) | 2019-11-06 |
KR102042344B1 KR102042344B1 (ko) | 2019-11-27 |
Family
ID=68541599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180049336A KR102042344B1 (ko) | 2018-04-27 | 2018-04-27 | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102042344B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767961A (zh) * | 2021-02-07 | 2021-05-07 | 哈尔滨琦音科技有限公司 | 一种基于云端计算的口音矫正方法 |
CN116935880A (zh) * | 2023-09-19 | 2023-10-24 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN118430566A (zh) * | 2024-07-03 | 2024-08-02 | 陕西大才科技有限公司 | 一种语音通联方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020067870A (ko) * | 2001-02-19 | 2002-08-24 | 보이스미디어텍(주) | 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
KR20050074298A (ko) * | 2004-01-08 | 2005-07-18 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 외국어 발음 평가 방법 |
JP2011065120A (ja) * | 2009-09-17 | 2011-03-31 | Tze Fen Li | すべての言語の音声識別及び音声識別を利用した単字入力の方法 |
-
2018
- 2018-04-27 KR KR1020180049336A patent/KR102042344B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020067870A (ko) * | 2001-02-19 | 2002-08-24 | 보이스미디어텍(주) | 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
KR20050074298A (ko) * | 2004-01-08 | 2005-07-18 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 외국어 발음 평가 방법 |
JP2011065120A (ja) * | 2009-09-17 | 2011-03-31 | Tze Fen Li | すべての言語の音声識別及び音声識別を利用した単字入力の方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767961A (zh) * | 2021-02-07 | 2021-05-07 | 哈尔滨琦音科技有限公司 | 一种基于云端计算的口音矫正方法 |
CN112767961B (zh) * | 2021-02-07 | 2022-06-03 | 哈尔滨琦音科技有限公司 | 一种基于云端计算的口音矫正方法 |
CN116935880A (zh) * | 2023-09-19 | 2023-10-24 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN116935880B (zh) * | 2023-09-19 | 2023-11-21 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN118430566A (zh) * | 2024-07-03 | 2024-08-02 | 陕西大才科技有限公司 | 一种语音通联方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102042344B1 (ko) | 2019-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhingra et al. | Isolated speech recognition using MFCC and DTW | |
US8825479B2 (en) | System and method for recognizing emotional state from a speech signal | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
Falk et al. | Characterization of atypical vocal source excitation, temporal dynamics and prosody for objective measurement of dysarthric word intelligibility | |
Shahnawazuddin et al. | Pitch-Adaptive Front-End Features for Robust Children's ASR. | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN107610715A (zh) | 一种基于多种声音特征的相似度计算方法 | |
KR102042344B1 (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
KR20190125078A (ko) | 음성 유사도 판단 장치 및 음성 유사도 판단 방법 | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
Dubey et al. | Non-intrusive objective speech quality assessment using a combination of MFCC, PLP and LSF features | |
Di Persia et al. | Objective quality evaluation in blind source separation for speech recognition in a real room | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
CN112712823A (zh) | 拖音的检测方法、装置、设备及存储介质 | |
Medhi et al. | Isolated assamese speech recognition using artificial neural network | |
Nguyen et al. | Vietnamese voice recognition for home automation using MFCC and DTW techniques | |
Mezghani et al. | Speaker verification using a new representation based on a combination of MFCC and formants | |
Chougule et al. | Filter bank based cepstral features for speaker recognition | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
Fan et al. | Power-normalized PLP (PNPLP) feature for robust speech recognition | |
Dutta et al. | A comparison of three spectral features for phone recognition in sub-optimal environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |