KR101499606B1 - 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 - Google Patents
음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 Download PDFInfo
- Publication number
- KR101499606B1 KR101499606B1 KR1020130053176A KR20130053176A KR101499606B1 KR 101499606 B1 KR101499606 B1 KR 101499606B1 KR 1020130053176 A KR1020130053176 A KR 1020130053176A KR 20130053176 A KR20130053176 A KR 20130053176A KR 101499606 B1 KR101499606 B1 KR 101499606B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- feature information
- speech signal
- calculating
- interest
- Prior art date
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 title claims description 25
- 230000006870 function Effects 0.000 claims abstract description 60
- 238000000611 regression analysis Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 229910052709 silver Inorganic materials 0.000 claims description 3
- 239000004332 silver Substances 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims 1
- 238000012706 support-vector machine Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명에 따르는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템에 있어서, 질의를 위한 음성신호를 입력받아 특징정보를 검출하고, 상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 제어장치; 상기 흥미점수 및 상기 흥미점수 산출함수를 저장하며, 상기 제어장치의 프로그램 수행을 위해 요구되는 저장영역을 제공하는 메모리부; 및 상기 제어장치의 제어에 따라 음성신호를 제공받아 특징정보를 생성하는 음성신호의 특징정보 검출부;를 구비함을 특징으로 한다.
Description
본 발명은 음성신호로부터 특징정보를 검출하는 기술에 관한 것으로, 더욱 상세하게는 수집된 음성신호들로부터 검출한 특징정보들을 상기 음성신호들 각각에 미리 설정된 T 점수에 대응되게 SVM(Support Vector Regression) 및 RVM(Relevance Vector Machines) 학습하고, 그 학습과정에서 추출한 흥미점수 산출함수를 기반으로 화자의 음성신호에 대해 흥미점수를 산출하는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체에 관한 것이다.
음성은 인간의 가장 자연스러운 의사소통 수단이면서 정보전달 수단이자, 언어를 구현하는 수단으로서 인간이 내는 의미있는 소리이다. 이에 음성을 통해 화자의 감정 상태의 추정이 가능하다.
좀 더 설명하면, 사람은 다른 사람의 음성만을 듣고도 그 감정 상태를 어느 정도 추정하는 것이 가능하다. 이는 감정이 격앙되고 분노한 화자의 발화는 평상시의 상태인 경우에 비해 음 높이가 높아지거나 에너지가 커지는 등의 특징이 있기 때문이다.
이에 상기한 음성신호의 특징을 검출하여 화자의 감정을 인식하는 기술이 제안되고 있다.
예를들어 대한민국 특허청에 감정 인식 장치 및 방법, 이를 이용한 콜센터 시스템을 명칭으로 하여 특허 출원된 제1020080078708호는 [음성 신호를 입력받는 입력부; 입력된 상기 음성 신호로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부; 상기 학습 음성 신호에 대하여 하나 이상의 감정 상태에 대한 특징 파라미터가 저장된 데이터베이스; 상기 음성 신호가 상기 대상 음성 신호인 경우 활성화되며, 상기 추출된 특징 벡터를 기초로 하여 상기 특징 파라미터를 HMM(Hidden Markov Models)에 적용하여 상기 감정 상태별 출력 확률값을 획득하는 HMM 인식부; 및 상기 출력 확률값을 기초로 하여 상기 음성 신호의 감정 상태를 판단하는 감정 판단부를 포함하는 감정 인식 장치]를 개시한다.
그리고 대한민국 특허청에 감정 인식 장치 및 방법을 명칭으로 하여 특허출원된 제1020090047608호는 [입력되는 음성신호를 스펙트로그램으로 변환하는 스펙트로그램 변환부와, 상기 변환된 스펙트로그램에서 모음 성분을 추출하는 제로 크로싱 검출부와, 상기 추출된 모음 성분을 시간 축 정보와 주파수 축 정보로 분리한 후 상기 주파수 축 정보의 벡터 성분을 트레이닝 데이터베이스에 저장하는 다변수 데이터 분리부와, 저장되는 주파수 축 정보의 벡터 성분에 대해 매칭 검사를 실시하고, 상기 매칭 검사의 실시 결과에 따른 감정 인식 결과 데이터를 출력하는 매칭부를 포함하는 감정 인식 장치]를 개시한다.
상술한 바와 같이 음성신호에는 언어 이외에도 감정 등 다양한 정보를 내포하고 있으므로, 상기 음성신호로부터 더욱 다양한 정보를 획득해내기 위한 노력이 계속되고 있다.
본 발명은 수집된 음성신호들로부터 검출한 특징정보들을 상기 음성신호들 각각에 미리 설정된 T 점수에 대응되게 SVM(Support Vector Regression) 및 RVM(Relevance Vector Machines) 학습하고, 그 학습과정에서 추출한 흥미점수 산출함수를 기반으로 화자의 음성신호에 대해 흥미점수를 산출하는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체를 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템에 있어서, 질의를 위한 음성신호를 입력받아 특징정보를 검출하고, 상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 제어장치; 상기 흥미점수 및 상기 흥미점수 산출함수를 저장하며, 상기 제어장치의 프로그램 수행을 위해 요구되는 저장영역을 제공하는 메모리부; 및 상기 제어장치의 제어에 따라 음성신호를 제공받아 특징정보를 생성하는 음성신호의 특징정보 검출부;를 구비함을 특징으로 한다.
상기한 본 발명은 유아나 아이 등과 같이 흥미 정도를 파악하기 힘든 화자의 흥미 정도를 용이하게 확인할 수 있게 하는 효과를 야기한다.
특히 본 발명은 상기 흥미 정도를 점수로 산출함으로써, 화자의 흥미 정도를 용이하게 이해할 수 있게 하는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따른 음성신호의 특징정보를 이용한 흥미정도 산출 시스템의 구성도.
도 2는 도 1의 음성신호의 특징정보 검출부의 상세구성도.
도 3은 본 발명에 따른 에러 함수의 형태를 도시한 도면.
도 4는 본 발명에 따른 e-무감각 손실 함수의 형태를 도시한 도면.
도 5는 본 발명의 바람직한 실시예에 따른 흥미점수 산출함수 생성방법의 흐름도.
도 6은 본 발명의 바람직한 실시예에 따른 흥미점수 산출방법의 흐름도.
도 2는 도 1의 음성신호의 특징정보 검출부의 상세구성도.
도 3은 본 발명에 따른 에러 함수의 형태를 도시한 도면.
도 4는 본 발명에 따른 e-무감각 손실 함수의 형태를 도시한 도면.
도 5는 본 발명의 바람직한 실시예에 따른 흥미점수 산출함수 생성방법의 흐름도.
도 6은 본 발명의 바람직한 실시예에 따른 흥미점수 산출방법의 흐름도.
본 발명은 유아나 아이 등과 같이 흥미 정도를 파악하기 힘든 화자의 흥미 정도를 용이하게 확인할 수 있다.
또한 본 발명은 상기 흥미 정도를 점수로 환산함으로써, 화자의 흥미 정도를 용이하게 이해할 수 있게 한다.
<음성신호의 특징정보를 이용한 흥미정도 검출 시스템의 구성>
본 발명의 바람직한 실시예에 따른 음성신호의 특징정보를 이용한 흥미정도 검출 시스템의 구성을 도 1을 참조하여 상세히 설명한다.
상기 음성신호의 특징정보를 이용한 흥미정도 검출 시스템은 제어장치(100)와 메모리부(102)와 사용자 인터페이스부(104)와 디스플레이부(106)와 음성신호 입력부(108)와 음성신호의 특징정보 검출부(110)로 구성된다.
상기 제어장치(100)는 본 발명의 바람직한 실시예에 따라 미리 수집된 음성신호들 각각에 대해 설정된 T 점수들을 입력받아 저장하고, 상기 수집된 음성신호들의 특징정보들을 검출하고, 상기 특징정보들을 상기 T 점수에 대응되게 SVM 및 RVM 학습하고, 그 학습과정에서 흥미점수 산출함수를 생성하고, 질의를 위한 음성신호를 입력받아 특징정보를 검출하고, 상기 질의를 위한 음성신호의 특징정보를 상기 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출한다.
상기 메모리부(102)는 상기 제어장치(100)의 처리 프로그램을 포함하는 다양한 정보를 저장한다. 특히, 상기 수집된 음성신호들에 대한 T 점수 설정정보, 흥미점수 산출함수 등을 저장한다.
상기 사용자 인터페이스부(104)는 사용자로부터 제공되는 각종 정보를 상기 제어장치(100)에 제공한다.
상기 디스플레이부(106)는 상기 제어장치(100)의 제어에 따라 각종 정보를 표시하여 사용자에게 안내하며, 예를들어 흥미점수 산출결과 등이 표시될 수 있다.
상기 음성신호 입력부(108)는 음성신호를 입력받아 상기 제어장치(100)에 제공한다. 상기 음성신호 입력부(108)는 직접적으로 음성을 입력받는 마이크 장치이거나, 외부저장매체로부터 음성신호를 제공받기 위한 외부기기 인터페이스 장치가 될 수도 있다.
상기 음성신호의 특징정보 검출부(110)는 상기 제어장치(100)의 제어에 따라 입력된 음성신호의 특징정보를 검출하여 출력한다.
<음성신호의 특징정보 검출부(110)의 상세>
여기서, 상기 음성신호의 특징정보 검출부(110)의 상세 구성을 도 2를 참조하여 설명한다.
상기 음성신호의 특징정보 검출부(110)는 입력되는 음성신호에 대해 윈도우를 설정하는 허밍 윈도우 설정부(200)와, 입력되는 음성신호를 시간-주파수 평면의 음성신호 로 변환하는 DFT 처리부(202)와, 상기 시간-주파수 평면의 음성신호 로부터 시간-주파수 평면에서의 에너지를 구하는 에너지 검출부(204)와, 상기 시간-주파수 평면에서의 에너지에 대해 멜 주파수 필터링을 이행하는 멜 필터링부(206)와, 상기 멜 주파수 필터링을 통과한 주파수의 로그 연산을 이행하는 로그 연산부(208)와, 상기 로그 연산부(208)를 통해 산출된 값으로 이산여현변환(discrete cosine transform)을 통해 특징정보를 산출하는 DCT(discrete cosine transform) 처리부(210)로 구성된다.
상기 멜 필터링부(206)의 출력은 수학식 1과 같다.
상기 수학식 1에서, 는 멜 필터링부(306)가 출력하는 음성신호이고, 는 시간-주파수 평면의 음성신호이고, lm는 멜 필터 윈도우 인덱스이고, l은 프레임 인덱스이고, C는 멜 필터 계수이고, k 주파수 인덱스이다.
<음성신호의 특징정보를 이용하여 흥미정도 검출을 위한 수식 정의 관련>
SVM(Support Vector Machine)을 에러 함수(Error Function)를 정의해서 회귀분석(Regression)에 응용한 것을 SVR(Support Vector Regression)이라 한다. 이 SVR를 위해 먼저 비선형 커널 함수 를 정의하며, 일반적인 경우에 RBF(Radial Basis Function) 커널을 사용한다. 그리고 상기 에러 함수(error function)는 도 3과 같이 정의된다.
상기 도 3의 에러 함수는 -무감각 손실 함수(ε-insensitive loss function)이며, 이를 이용해서 회귀 분석(regression)을 수행하면 다음과 같이 식이 전개될 수 있다.
상기 수학식 2에서 는 -무감각 손실 함수, x는 입력 벡터, y는 x에 대응하는 출력 벡터, 은 허용할 수 있는 에러 범위, f(x)는 입력 벡터를 논리니어 펑션을 통과한 값을 의미한다.
상기 수학식 2에 따른 모델을 사용한 SVR은 도 5에 도시한 바와 같이 표현된다. 상기 도 5에서 엡시론() 범위 밖을 여유 변수(slack variable) 를 이용하여 표현하면 다음과 같다.
상기 수학식 3은 도 5의 그림을 수식화한 것으로, 엡실론()의 범위 안에서는 여유변수(slack variable) 가 0이고 그 밖에서는 넌-제로(non-zero) 값을 가진다.
상기 수학식 3에서 xn은 N개의 입력정보 중 임의의 하나의 입력정보이고, tn은 해당하는 출력정보이고, y(xn)은 xn이 입력일 때 SVM을 통해서 나온 결과이고, n은 에러의 양을 의미하는 여유 변수(slack variable)를 의미한다. 이 이후의 아래첨자 n 또는 m은 N개의 데이터 중 임의의 데이터 하나를 의미한다.
이를 이용해 SVR을 하기 위한 비용 함수(cost function)는 수학식 4 및 수학식 5와 같다.
상기 수학식 5에서, 는 비용 함수이고, 나머지는 가 0보다 크거나 같다라는 제한(constraint) 및 수학식 3에 해당하는 제한(constraint) 텀을 라그랑쥬 상수인 를 이용해서 적용시킨 텀이다.
이를 다시 수학식 5에 대입하면 수학식 7과 같다. 상기 수학식 6에서 b는 yn안에 포함되어있는 바이어스 텀이다.
상기 수학식 7에 상기 수학식 8을 적용하여 이차 프로그래밍 문제(quadratic programming problem)를 풀어 , 을 구하면, 이 값이 서포트 벡터의 웨이트가 된다.
그리고 바이어스 b는 다음과 같이 구해진다.
상기 수학식 9에서 tn은 입력정보에 대응되는 출력정보, 즉 T 점수이고, am은 라그랑쥬 상수값이고, m은 am과 베타적인 라그랑쥬 상수값(둘 중 하나는 0)이고, b는 바이어스이고, 은 허용할 수 있는 에러 범위이고, k(xn,xm)는 비선형 커널 펑션이고, xn,xm는 입력정보 중 임의의 두 정보이다.
회귀분석(regression)은 수학식 10을 통해 얻어진다.
상기 SVM의 타겟값이 정규분포를 가진다고 가정하고 확장한 알고리즘이 RVM(Relevance Vector Machines)이다.
상기 수학식 11에서, x는 입력벡터, t는 x에 대응되는 출력벡터, 는 정규분포의 분산(variance)을 의미한다. 즉, RVM은 SVM에 비해서 타겟값이 정규 분포를 가진다고 정의되는 것이 다르다.
상기 수학식 11에서, y(x)는 비선형 펑션을 통과한 입력벡터, N은 정규 분포를 의미한다.
앞에서 전개한 바처럼 비선형 베이시스(basis) 펑션 파이를 이용해 상기 y(x)를 정의하면 수학식 12와 같다.
이를 바이어스 b를 분리해낸 SVM 유사형태, 즉 수학식 10과 같은 형태로 다시 정의하면 수학식 13과 같다.
이하, 본 발명에서는 상기 수학식 13을 기본 형태로 사용한다.
이를 구하기 위해 다시 N개의 입력정보 x가 있다고 가정하면, 수학식 14와 같이 정의할 수 있다.
상기 수학식 14에서, n은 입력정보의 순서, N은 입력정보의 최대 순서값, w는 웨이트, 은 입력정보, 은 에 대응되게 미리 설정된 출력정보인 T 점수, 는 분산(variance)을 의미한다.
또한 이때 상기 w를 제로-민 가우시안 프라이어(zero-mean Gaussian prior)로 정의하면 수학식 15와 같다.
상기 수학식 15를 베이지안 선형 회귀분석(bayesian linear regression) 모델에 적용시키면 수학식 16과 같다.
상기 수학식 16에서, w는 웨이트이고, X는 입력정보, t는 입력정보에 대응되게 설정된 출력정보, 는 분산(variance)을 의미하고, 은 변수이며, 는 비선형 베이시스 함수이고, A는 를 대각선(daigonal) 텀으로 가지는 정방행렬이다.
상기 수학식 17을 다시 풀어쓰면, 수학식 18과 같다.
이 값을 얻기 위한 방법이 여러 가지 있는데 베이지안 회귀분석(bayesian regression) 모델의 에비던스 근사화(Evidence Approximation)를 하면 수학식 19에 따라 구할 수 있다.
위 식에 해당하는 변수들은 모두 앞에서 언급된 변수들이다.
이를 통해 음성신호의 특징정보 x를 입력받아 그 음성신호에 대한 흥미점수를 수집된 음성신호들과 그 음성신호들 각각에 대해 미리 설정된 T 점수에 따라 회귀분석 학습된 수학식 20을 획득할 수 있다.
상기 수학식 20에서, w는 웨이트, k(x,xi)는 논리니어 커널 펑션을 의미하고, b는 바이어스를 의미하고, x는 음성신호의 특징정보, xi는 학습을 위한 음성신호들의 특징정보들이다.
<음성신호의 특징정보를 이용한 흥미정도 검출 처리 과정>
이제 상술한 함수들을 이용하여 본 발명에 따라 음성신호의 특징정보를 이용하여 흥미정도를 검출하는 과정을 상세히 설명한다.
먼저 음성신호의 특징정보를 이용하여 흥미점수를 산출하는 흥미점수 산출함수를 생성하는 과정을 도 5의 흐름도를 참조하여 설명한다.
상기 음성신호의 특징을 이용한 흥미정도 검출 시스템의 제어장치(100)는 수집된 음성신호들을 입력받아(200단계), 음성신호의 특징정보 검출부(110)를 통해 음성신호의 특징정보들을 검출한다(202단계).
상기 음성신호의 특징정보들이 검출된 후, 상기 제어장치(100)는 비선형 커널 함수 및 오차 함수를 정의한다(204단계). 상기 비선형 커널 함수는 RBF 커널을 사용하고, 오차 함수는 ε-무감각 손실함수를 사용한다.
이후 상기 제어장치(100)는 비선형 커널 함수와 오차 함수에 따라 음성신호들의 특징정보들과 그에 대응되게 미리 설정된 T 점수정보를 SVM 및 RVM 학습하여, 흥미점수 산출함수를 생성한다(206단계).
그리고 SVM 및 RVM 학습으로 생성된 흥미점수 산출함수를 이용하여 흥미점수를 산출하는 과정을 도 6의 흐름도를 참조하여 설명한다.
상기 음성신호의 특징정보를 이용한 흥미정도 검출 시스템의 제어장치(100)는 흥미검사를 위한 화자의 음성신호가 입력되면(300단계), 음성신호의 특징정보 검출부(110)를 통해 상기 음성신호의 특징정보를 검출한다(302단계).
이후 상기 제어장치(100)는 SVM 및 RVM 학습에 의해 생성된 흥미점수 산출함수를 이용하여 상기 음성신호의 특징정보에 대한 흥미점수를 산출한다(304단계).
상기한 본 발명의 바람직한 실시예에 따른 음성신호의 특징정보를 이용한 흥미점수 산출 방법은 컴퓨팅 가능한 장치에 의해 독취될 수 있는 저장매체에 기록될 수 있으며, 이는 당업자에게 자명하다.
100 : 제어장치
102 : 메모리부
104 : 사용자 인터페이스부
106 : 디스플레이부
108 : 음성신호 입력부
110 : 음성신호의 특징정보 검출부
102 : 메모리부
104 : 사용자 인터페이스부
106 : 디스플레이부
108 : 음성신호 입력부
110 : 음성신호의 특징정보 검출부
Claims (9)
- 음성신호의 특징정보를 이용한 흥미점수 산출 시스템에 있어서,
질의를 위한 음성신호를 입력받아 특징정보를 검출하고,
상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 제어장치;
상기 흥미점수 및 상기 흥미점수 산출함수를 저장하며, 상기 제어장치의 프로그램 수행을 위해 요구되는 저장영역을 제공하는 메모리부; 및
상기 제어장치의 제어에 따라 음성신호를 제공받아 특징정보를 생성하는 음성신호의 특징정보 검출부;를 구비하며,
상기 흥미점수 산출함수는 SVM 및 RVM에 따르는 수학식 21 내지 23임을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템.
수학식 21
상기 수학식 21에서, y(x)는 흥미점수 산출함수이고, w는 웨이트, k(x,)는 논리니어 커널 펑션이고, b는 바이어스이고, x는 질의를 위한 음성신호의 특징정보이고, 는 학습을 위한 음성신호들의 특징정보들임.
수학식 22
상기 수학식 22는 수학식 21의 b의 산출식으로, b는 바이어스이고, tn은 입력정보에 대응되는 출력정보, 즉 미리 설정된 점수정보이고, 은 라그랑쥬 상수값이고, 은 과 베타적인 라그랑쥬 상수값(둘 중 하나는 0)이고, 은 허용할 수 있는 에러 범위이고, 는 비선형 커널 펑션이고, 는 입력정보 중 임의의 두 정보임.
수학식 23
상기 수학식 23은 수학식 21의 w의 산출식으로, w는 웨이트이고, X는 입력정보이고, t는 입력정보에 대응되게 설정된 출력정보이고, 는 분산(variance)을 의미하고, 은 변수이며, 는 비선형 베이시스 함수이고, A는 를 대각선(daigonal) 텀으로 가지는 정방행렬임. - 제1항에 있어서,
상기 제어장치가,
수집된 음성신호들 및 그 수집된 음성신호들 각각에 대해 미리 설정된 점수정보들을 입력받아 저장하고,
상기 수집된 음성신호들의 특징정보들을 검출하고,
상기 특징정보들과 상기 미리 설정된 점수정보들을 회귀분석 학습하여, 그 학습을 통해 흥미점수 산출함수를 생성함을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템. - 제1항에 있어서,
상기 음성신호의 특징정보는 음성신호의 MFCC이며,
상기 음성신호의 특징정보 생성부는,
음성신호에 대해 윈도우를 설정하는 허밍 윈도우 설정부;
입력되는 음성신호를 시간-주파수 평면의 음성신호로 변환하는 DFT 처리부;
상기 시간-주파수 평면의 신호로부터 시간-주파수 평면에서의 에너지를 구하는 에너지 검출부;
상기 시간-주파수 평면에서의 에너지에 대해 멜 주파수 필터링을 이행하는 멜 필터링부;
상기 멜 주파수 필터링을 통과한 주파수의 로그 연산을 이행하는 로그 연산부; 및
상기 로그 연산부를 통해 산출된 값으로 이산여현변환(discrete cosine transform)을 통해 특징정보를 산출하는 DCT(discrete cosine transform) 처리부;
로 구성됨을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출 시스템. - 삭제
- 음성신호의 특징정보를 이용한 흥미점수 산출 방법에 있어서,
질의를 위한 음성신호를 입력받아 특징정보를 검출하는 단계;
상기 질의를 위한 음성신호의 특징정보를 수집된 음성신호들과 그에 대해 미리 설정된 점수정보들을 회귀분석 학습하여 생성한 흥미점수 산출함수에 따라 연산하여 흥미점수를 산출하는 단계;를 포함하며,
상기 흥미점수 산출함수는 SVM 및 RVM에 따르는 수학식 24 내지 26임을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출 방법.
수학식 24
상기 수학식 24에서, y(x)는 흥미점수 산출함수이고, w는 웨이트, k(x,)는 논리니어 커널 펑션이고, b는 바이어스이고, x는 질의를 위한 음성신호의 특징정보이고, 는 학습을 위한 음성신호들의 특징정보들임.
수학식 25
상기 수학식 25는 수학식 24의 b의 산출식으로, b는 바이어스이고, tn은 입력정보에 대응되는 출력정보, 즉 미리 설정된 점수정보이고, 은 라그랑쥬 상수값이고, 은 과 베타적인 라그랑쥬 상수값(둘 중 하나는 0)이고, 은 허용할 수 있는 에러 범위이고, 는 비선형 커널 펑션이고, 는 입력정보 중 임의의 두 정보임.
수학식 26
상기 수학식 26은 수학식 24의 w의 산출식으로, w는 웨이트이고, X는 입력정보이고, t는 입력정보에 대응되게 설정된 출력정보이고, 는 분산(variance)을 의미하고, 은 변수이며, 는 비선형 베이시스 함수이고, A는 를 대각선(daigonal) 텀으로 가지는 정방행렬임. - 제5항에 있어서,
수집된 음성신호들과 그 수집된 음성신호들 각각에 대해 미리 설정된 점수정보를 제공받는 단계;
상기 수집된 음성신호들의 특징정보들을 검출하는 단계;
상기 특징정보들과 상기 미리 설정된 점수정보들을 회귀분석 학습하고, 그 학습과정에서 흥미점수 산출함수를 생성하는 단계;를 더 구비함을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출방법. - 제5항에 있어서,
상기 음성신호의 특징정보는 음성신호의 MFCC임을 특징으로 하는 음성신호의 특징정보를 이용한 흥미점수 산출방법. - 삭제
- 제5항 내지 제7항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨팅 장치에 의해 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130053176A KR101499606B1 (ko) | 2013-05-10 | 2013-05-10 | 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130053176A KR101499606B1 (ko) | 2013-05-10 | 2013-05-10 | 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140133257A KR20140133257A (ko) | 2014-11-19 |
KR101499606B1 true KR101499606B1 (ko) | 2015-03-09 |
Family
ID=52453975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130053176A KR101499606B1 (ko) | 2013-05-10 | 2013-05-10 | 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101499606B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080019278A (ko) * | 2005-06-09 | 2008-03-03 | 미쓰요시 슌지 | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 |
JP2009037050A (ja) * | 2007-08-02 | 2009-02-19 | Toyota Motor Corp | 対話装置と対話用プログラム |
KR20090038475A (ko) * | 2006-09-13 | 2009-04-20 | 니뽄 덴신 덴와 가부시키가이샤 | 감정 검출 방법, 감정 검출 장치, 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체 |
KR20100107036A (ko) * | 2008-01-31 | 2010-10-04 | 소니 컴퓨터 엔터테인먼트 아메리카 인코포레이티드 | 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법 |
-
2013
- 2013-05-10 KR KR1020130053176A patent/KR101499606B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080019278A (ko) * | 2005-06-09 | 2008-03-03 | 미쓰요시 슌지 | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 |
KR20090038475A (ko) * | 2006-09-13 | 2009-04-20 | 니뽄 덴신 덴와 가부시키가이샤 | 감정 검출 방법, 감정 검출 장치, 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체 |
JP2009037050A (ja) * | 2007-08-02 | 2009-02-19 | Toyota Motor Corp | 対話装置と対話用プログラム |
KR20100107036A (ko) * | 2008-01-31 | 2010-10-04 | 소니 컴퓨터 엔터테인먼트 아메리카 인코포레이티드 | 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20140133257A (ko) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mencattini et al. | Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure | |
US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
EP3618063B1 (en) | Voice interaction system, voice interaction method and corresponding program | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
Das et al. | Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers | |
KR101561651B1 (ko) | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 | |
Prasomphan | Improvement of speech emotion recognition with neural network classifier by using speech spectrogram | |
JP6967197B2 (ja) | 異常検出装置、異常検出方法及びプログラム | |
JP2018072650A (ja) | 音声対話装置及び音声対話方法 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN111292763B (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
KR20200126675A (ko) | 전자 장치 및 이의 제어 방법 | |
KR20210155401A (ko) | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 | |
KR101667557B1 (ko) | 실시간 음원 분류 장치 및 방법 | |
Turan et al. | Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture. | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Arya et al. | Speech based emotion recognition using machine learning | |
Mande et al. | EMOTION DETECTION USING AUDIO DATA SAMPLES. | |
Gupta et al. | Gender specific emotion recognition through speech signals | |
CN110782916B (zh) | 一种多模态的投诉识别方法、装置和系统 | |
CN102141812A (zh) | 机器人 | |
Patil et al. | Emotion detection from speech using Mfcc & GMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180226 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190107 Year of fee payment: 5 |