KR20070121346A - 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법 - Google Patents

감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법 Download PDF

Info

Publication number
KR20070121346A
KR20070121346A KR1020060056301A KR20060056301A KR20070121346A KR 20070121346 A KR20070121346 A KR 20070121346A KR 1020060056301 A KR1020060056301 A KR 1020060056301A KR 20060056301 A KR20060056301 A KR 20060056301A KR 20070121346 A KR20070121346 A KR 20070121346A
Authority
KR
South Korea
Prior art keywords
feature set
feature
candidate
feature data
data
Prior art date
Application number
KR1020060056301A
Other languages
English (en)
Other versions
KR100790494B1 (ko
Inventor
심귀보
박창현
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020060056301A priority Critical patent/KR100790494B1/ko
Publication of KR20070121346A publication Critical patent/KR20070121346A/ko
Application granted granted Critical
Publication of KR100790494B1 publication Critical patent/KR100790494B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법이 개시된다. 데이터입력부는 사용자의 감성 신호와 특징 데이터가 포함된 후보특징집합을 순차적으로 입력받는다. 제1상관성검사부는 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 동일여부를 검사하여, 동일하면 상으로서 리워드 리턴사인을 반환하고, 상이하면 벌로서 패널티 리턴사인을을 반환한다. 제2상관성검사부는 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 대응되는 원소인 특징 데이터 사이의 차이값을 계산하고, 계산된 차이값과 제1상관성검사부의 리턴사인을 곱하여 결과값을 산출하고, 산출된 결과값을 저장되어 있는 이전의 결과값과 합산하여 저장한다. 특징데이터선정부는 입력된 후보특징집합의 원소인 특징 데이터 중에서 제2상관성검사부에 의해 산출된 결과값이 가장 높은 특징 데이터로 구성된 집합을 특징집합으로 선택한다. 평가부는 선택된 특징집합을 목적함수에 의해 평가하여 적합도를 산출한다. 본 발명에 따르면, 음성을 기초로 한 감성인식에 있어서 보다 적은 수의 특징집합을 선택하여 평가의 부담을 최소화하고, 사용자의 접촉빈도가 늘어남에 따라 성능개선이 가능하다.
감성인식, 특징집합, 선택, 목적함수, 상관성

Description

감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법{System for recognizing emotion and method for selecting feature set therein}
도 1은 종래의 특징집합 선택방법의 개념을 도시한 도면,
도 2는 종래의 특징집합의 선택과정을 도시한 도면,
도 3은 본 발명에 따른 감성인식 시스템의 바람직한 실시예의 구성을 도시한 도면,
도 4는 본 발명에 따른 특징집합 선택방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도,
도 5는 본 발명에 따른 감성인식 시스템에 입력되는 후보특징집합의 예를 도시한 도면,
도 6은 대응되는 특징 데이터 사이의 차이값과 리턴사인을 곱하여 산출한 결과값을 저장하는 과정을 도시한 도면,
도 7a는 인공신경망을 사용한 감성인식 시스템에 본 발명에 따른 특징집합 선택방법을 적용하여 측정된 시간에 대한 특징 번호와 결과값을 나타낸 그래프, 그리고,
도 7b는 본 발명에 따른 IFS 방법에 의해 선택된 집합에 대한 측정결과, 종래의 SFS 방법에 의해 선택된 집합에 대한 측정결과 및 무작위로 선택된 집합에 대 한 측정결과를 나타낸 그래프이다.
본 발명은 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법에 관한 것으로, 보다 상세하게는, 음성으로부터 추출된 특징집합 중에서 목적함수를 최적화시키는 하위특징집합을 선택하여 감성인식을 수행하는 시스템 및 그 시스템에 있어서 특징집합 선택방법에 관한 것이다.
감성인식에 대한 연구는 통상 음성, 영상, 생리신호 및 몸짓 등의 네 종류의 매체를 사용하여 이루어져 왔다. 더불어, 1990년부터 2005년까지 발행된 IEEE 조사 보고서에 따르면 음성매체를 사용한 연구가 다른 매체들보다 보다 많이 공개된 바 있다. 이러한 결과는 생리신호 또는 몸짓에 비해 음성 및 영상으로부터 특징집합을 추출하는 것이 보다 용이하기 때문인 것으로 파악된다. 특히, EEG, ECG 및 SC 센서들은 생리신호를 획득하기 위해 사용되나, 이러한 센서들로부터 출력되는 신호는 형광등 또는 가전제품으로부터 방출되는 전기신호에 의해 차단될 수 있다. 이러한 문제는 생리신호를 사용하는 감성인식에 있어서의 장애요인 중 하나이다. 영상의 경우에 이는 얼굴표정인식을 의미하며, 이 경우 가장 큰 문제는 일반적으로 자주 변화되는 조명상태, 인식성능에 영향을 주는 안경과 같은 개인 착용물이다. 몸짓인식의 문제는 영상인식이 가지고 있는 문제와 유사하며, 더 큰 문제는 몸짓은 감성 과 관련된 정보를 많이 포함하고 있지 않다는 것이다.
세가지 매체에 존재하는 상술한 문제들과 달리 음성신호는 감성과 관련된 보다 많은 정보를 보낼 수 있다. 예를 들어, 전화상의 통화시 감성을 인식할 수 있으며, 이는 감성인식을 위한 음성신호의 타당성을 보여준다. 저가의 마이크가 음성신호를 수집하기 위한 센서로 사용되기 충분하며, 신호원으로부터 나오는 것으로 분류될 수 있을 정도로 크지 않다면 잡음은 특징집합의 추출에 영향을 주지 않는다. 이러한 이유로 대부분의 연구자들이 음성신호에 촛점을 맞추어 왔다. 음성으로부터 감성인식을 위해 일반적으로 사용되는 특징집합은 피치(간격), 에너지, 포먼트(파생접사), 음성속도 등으로 구성된다. 일부 연구자들은 특징집합의 네가지 모두를 선택하며, 하나의 특징집합만을 선택하는 연구자도 존재한다. 그리고, 특징들은 일반적으로 네가지 특징집합으로부터 통계적으로 추출된다.
이때, 감성인식의 성능을 높이기 위해서는 적절한 특징집합을 선택하여야 하며, 특징집합의 선택방법에 대한 연구의 목적은 특징집합 X={xi|i=1,2,…,N}이 주어졌을 때, 목적함수인 J(Y)를 최적화시키는 하위특징집합 YM={xi1,xi2,…,xiM}(단, M < N)을 찾는 방법을 확립하는 것이다. 도 1에는 종래의 특징집합 선택방법의 개념이 도시되어 있다. 감성인식 분야에서 특징집합을 선택하는 이유는 고차원의 데이터보다 저차원의 데이터가 시각화에 용이하다는 점, 저차원의 데이터 분석이 계산의 효율성면에서 바람직하다는 점, 특징집합의 선택이 성공적일 경우에 신호대 잡음비(Signal to Noise Ratio : SNR)이 증가하므로 신호의 회복이 보다 용이하다는 점 등에 있다.
이러한 특징집합 선택은 탐색전략과 목적함수에 의한 평가라는 두 부분으로 구성되어 있다. 탐색전략은 특징집합 중에서 후보 하위특징집합을 선택하는 방법에 관한 것이다. 이 때, 하위특징집합을 모두 탐색하게 되면 (N, M)개의 조합을 살펴봐야 하고, M개가 최적화되어야 한다면 2N개의 조합을 평가해야 한다. 따라서 모든 하위특징집합을 평가하게 되면 지나치게 많은 수의 조합을 평가해야 하는 문제점이 있어, 좋은 탐색전략을 선택할 필요가 있다. 한편, 목적함수에 의한 후보 하위특징집합의 평가의 목표는 후보집합에 대한 평가결과에 따라 반환되는 점수를 기초로 좋은 후보가 선택되도록 하는 것이다. 도 2에는 종래의 특징집합의 선택과정이 도시되어 있다. 이러한 특징집합의 탐색 및 평가에 있어서의 이론적 배경은 좋은 하위특징집합은 해당 클래스와의 상관성이 높다는 것이다.
특징집합의 선택방법에는 커다랗게 선형관계측정법 및 비선형관계측정법이 있다. 선형관계측정법은 다음의 수학식에 의해 변수들 간의 선형적 관계를 얻는 방법이다.
Figure 112006044102090-PAT00001
여기서, ρic는 특징 'i'와 클래스 간의 상관계수이고, ρij는 특성 'i'와 'j'간의 상관계수이다.
한편, 선형관계를 측정하는 것보다는 상호정보를 측정하는 것이 더욱 효과적이며, 비선형관계측정법은 다음의 수학식에 의해 특징 벡터와 클래스 간의 상호정보를 클래스의 불확실성이 특징 벡터에 의해 어느 정도 감소했는지를 측정하여 얻는 방법이다.
Figure 112006044102090-PAT00002
여기서, I(YM;C)는 특징 벡터와 클래스간의 상호정보를 의미하고, H(·)는 엔트로피 함수를 의미한다.
이러한 탐색전략의 종류에는 지수 알고리즘 및 순차 알고리즘이 있다. 지수 알고리즘은 탐색공간의 차원이 증가함에 따라 기하급수적으로 늘어나는 후보집합을 평가하며, 소모 검색, 가지 및 경계 검색, 가지 및 경계에 대한 근사 검색, 빔 검색 등이 있다. 또한 순차 알고리즘은 순차적으로 특성을 더하거나 빼는 방법이나, 지역 최소점에 쉽게 빠질 수 있다. 순차 알고리즘에는 순차 순방향 선택(Sequential forward Selection : SFS), 순차 역방향 선택(Sequential Backward Selection : SBS) 등이 있으며 이들 알고리즘은 연역적인 알고리즘이다. 이중에서 순차 순방향 선택 알고리즘(SFS)은 가장 간단한 검색 알고리즘이다. SFS 알고리즘의 경우 공집합으로부터 출발하여 순차적으로 이미 선택된 특징 Yk를 결합하여 최고 차 목적함수 J(Yk+x+)로부터 유도되는 특징 x+를 더하는 과정을 반복적으로 수행하여 최적의 특징을 선택한다. SFS 알고리즘에서 최적 특징의 선택은 다음의 수학식에 의해 수행된다.
Figure 112006044102090-PAT00003
그러나 상술한 종래의 특징집합 선택방법들은 검색전략 측면에서 취약점을 가지고 있다. 즉, 선택된 특징집합에 대해 지나치게 많은 수의 조합을 평가해야 하는 문제가 있으며, 감성인식분야와 같이 목적함수가 명확하지 않은 경우에는 제대로 된 성능을 기대할 수 없다는 문제가 있다.
본 발명이 이루고자 하는 기술적 과제는 음성을 기초로 한 감성인식에 있어서 보다 적은 수의 특징집합을 선택하여 평가의 부담을 최소화하고, 사용자의 접촉빈도가 늘어남에 따라 성능개선이 가능한 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법을 제공하는 데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 음성을 기초로 한 감성인식에 있어서 보다 적은 수의 특징집합을 선택하여 평가의 부담을 최소화하고, 사용자의 접촉빈도가 늘어남에 따라 성능개선이 가능한 특징집합 선택방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 감성인식 시스템은, 사용자의 감성 신호와 특징 데이터가 포함된 후보특징집합을 순차적으로 입력받는 데이터입력부; 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 동일여부를 검사하여, 새롭게 입력된 후보특징집합이 직전에 입력된 후보특징집합과 동일하면 상으로서 리워드 리턴사인을 반환하고, 상이하면 벌로서 패널티 리턴사인을을 반환하는 제1상관성검사부; 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 대응되는 원소인 특징 데이터 사이의 차이값을 계산하고, 계산된 차이값과 상기 제1상관성검사부의 리턴사인을 곱하여 결과값을 산출하고, 상기 산출된 결과값을 저장되어 있는 이전의 결과값과 합산하여 저장하는 제2상관성검사부; 입력된 후보특징집합의 원소인 특징 데이터 중에서 상기 제2상관성검사부에 의해 산출된 상기 결과값이 가장 높은 특징 데이터로 구성된 집합을 특징집합으로 선택하는 특징데이터선정부; 및 상기 선택된 특징집합을 목적함수에 의해 평가하여 적합도를 산출하는 평가부;를 구비한다.
상기의 다른 기술적 과제를 달성하기 위한, 본 발명에 따른 감성인식 시스템에서의 특징집합 선택방법은, (a) 사용자의 감성 신호와 특징 데이터가 포함된 복수의 후보특징집합들을 순차적으로 입력받는 단계; (b) 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 동일여부를 검사하여 동일하면 상으로서 리워드 리턴사인을 반환하고, 상이하면 벌로서 패널티 리턴사인을을 반환하는 단계; (c) 상기 새롭게 입력된 후보특징집합과 상기 직전에 입력된 후보특징집합의 원소인 특징 데이터 중에서 서로 대응되는 특징 데이터 사이의 차이값을 산출하고, 상기 산출된 차이값과 상기 새롭게 입력된 후보특징집합과 상기 직전에 입력된 후보특징집합에 대응하는 리턴사인을 곱하여 결과값을 산출하는 단계; (d) 산출된 결과값과 상기 제1후보특징집합의 입력전에 산출된 결과값을 합산하는 단계; 및 (e) 입력된 후보특징집합의 원소인 특징 데이터 중에서 상기 산출된 결과값이 가장 높은 특징 데이터로 구성된 집합을 특징집합으로 선택하고, 상기 선택된 특징집합을 목적함수에 의해 평가하여 적합도를 산출하는 단계;를 가지며, 상기 (b)단계 내지 상기 (d)단계는 상기 후보특징집합의 입력이 종료될 때까지 반복적으로 수행된다.
이에 의해, 음성을 기초로 한 감성인식에 있어서 보다 적은 수의 특징집합을 선택하여 평가의 부담을 최소화하고, 사용자의 접촉빈도가 늘어남에 따라 성능개선이 가능하다.
음성과 관련된 감성인식은 크게 청각적인 정보와 언어 또는 화법 정보를 사용하는 경우로 나뉜다. 전자는 피치, 포먼트, 음성속도, 음색 등과 같은 일부 특징집합을 사용하며, 후자는 단어의 의미를 사용한다. 즉, 단어가 행복을 표현하는지 또는 슬픔을 표현하는지에 대 긍정 또는 부정인지를 파악한다. 감성인식은 감성적인 언어의 수집, 청각적인 분석, 데이터베이스 구현 및 특징집합추출로 구성되며, 그러한 특징들은 패턴분류방법을 사용하여 감성과 관련하여 훈련되며 분류된다.
본 발명에 따른 쌍방향 특징선택 알고리즘(Interactive Feature Selection Algorithm : IFS)은 검색전략과 목적함수에 의한 평가에 모두 초점을 둔다. 이러한 IFS 알고리즘은 상관성과 강화학습에 기반한 알고리즘이다. 강화학습은 에이전트와 환경이 존재하는 구조에서 에이전트를 사용자가 원하는 목적을 이루도록 학습하는 방법이다. 학습방법은 주어진 환경에서 에이전트가 동작을 취하고 취한 동작에 대해 환경이 보상을 취하는 형태로 이루어진다. 이 때, 각 시간은 t, 각 단계에서 에이전트가 받게되는 환경의 상태는 st∈S(여기서, S는 가능한 환경상태의 집합)으로 표현되고, 동작은 at∈A(st)(여기서, A(st)는 어떤 상태에서의 '동작들의 집합')으로 표현된다. 동작에 대한 보상을 γt라 하고, γt는 하나의 에피소드가 끝나면 다음과 같은 식으로 표현된다.
Figure 112006044102090-PAT00004
수학식 4에서
Figure 112006044102090-PAT00005
는 감쇠계수로서 연속작업의 경우 t=∞까지 정의가 되므로 보상값의 합이 무한대가 되지 않도록 하기 위한 계수이다. 또한, 감쇠계수를 0으로 하면 현재 발생한 보상값만을 인정한다는 의미이므로, 감쇠계수에 따라 미래의 값에 대한 가중치를 다르게 줄 수 있다. 결론적으로, 강화학습은 수학식 4를 최대화하는 방향으로 정책을 결정하는 방법이다.
이하에서 첨부의 도면들을 참조하여 본 발명에 따른 본 발명은 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 3은 본 발명에 따른 감성인식 시스템의 바람직한 실시예의 구성을 도시한 도면이다.
도 3을 참조하면, 본 발명에 따른 감성인식 시스템(300)은 저장부(310), 데이터입력부(320), 제1상관성검사부(330), 제2상관성검사부(340), 특징데이터선정부(350), 평가부(360) 및 제어부(370)를 갖는다.
저장부(310)에는 감성인식 시스템(300)에 의한 감성인식과정에서 발생하는 데이터, 훈련데이터 등 감성인식에 필요한 데이터가 저장된다. 데이터입력부(320)는 외부로부터 데이터를 입력받는 수단이다. 데이터입력부(320)를 통해 사용자의 감성신호와 특징 데이터가 포함된 후보특징집합이 순차적으로 입력된다.
제1상관성검사부(330)는 새롭게 입력된 후보특징집합이 직전에 입력된 후보특징집합과 동일한지 여부를 검사한다. 이때, 제1상관성검사부(330)는 새롭게 입력된 후보특징집합의 감성식별자인 Ei+1와 직전에 입력된 후보특징집합의 감성식별자인 Ei가 동일하면 리턴사인으로 '-1'을 반환하고, 상이하면 리턴사인으로 '+1'을 반환한다.
제2상관성검사부(340)는 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 대응되는 원소인 특징 데이터 사이의 차이값을 계산하고, 계산된 차이값과 제1상관성검사부(330)의 리턴사인을 곱하여 산출된 결과값을 저장부(310)에 저장되어 있는 이전 결과값과 합산하여 저장부(310)에 저장한다. 이 때, 제1상관성검사부(330)와 제2상관성검사부(340)의 동작은 추가적인 후보특징집합의 입력이 없 을 때까지 반복적으로 수행된다.
특징데이터선정부(350)는 입력된 후보특징집합의 원소인 특징 데이터 중에서 저장부(310)에 저장되어 있는 결과값이 가장 높은 것을 선정한다. 따라서, 특징데이터선정부(350)는 도 5에 도시된 바와 같은 각각의 후보특징집합의 원소 중에서 네번째 특징 데이터들로 이루어진 집합(즉, f(1)4, f(2)4, …, f(i)4, …, f(i+k)4)에 대한 결과값이 가장 높다면, 이러한 특징 데이터들로 구성된 특징집합을 목적함수에 의해 평가받을 집합으로 결정한다.
평가부(360)는 선택된 특징집합을 목적함수에 의해 평가한다. 이러한 평가부(360)는 인공신경망으로 구성될 수 있으며, 목적함수는 해당 특징집합을 인공신경망으로 학습하였을 때의 인식율로 정의된다. 평가부(360)는 특징집합을 구성하는 각각의 특징 데이터를 목적함수의 입력으로 하여 성능을 평가한다. 이때, 평가부(360)는 평가결과 이전의 적합도와 현재의 적합도의 차이가 기준치 이하이면 선정된 후보집합을 차선의 후보집합으로 대체하여 평가하고, 이러한 과정을 종료조건이 만족될 때까지 반복하여 수행한다. 만약, 두번 이상의 평가 이후 성능이 저하되면, 처음의 평가시 일정한 순위에 들지 못했던 특징집합의 원소인 특징 데이터들 중에서 점수가 높은 특징 데이터로 이루어진 특징집합을 입력으로 하여 재평가를 수행한다. 이러한 재평가는 성능이 향상될 때까지 반복적으로 수행된다.
제어부(370)는 각각의 구성요소의 동작을 제어한다. 따라서, 제어부(370)는 추가적인 후보특징집합의 입력시마다 제1상관성검사부(330) 및 제2상관성검사 부(340)로 상관성검사를 수행하도록 하는 제어신호를 출력하며, 마지막 후보특징집합이 입력된 후 제2상관성검사부(340)에 의한 연산이 완료되면 특징집합선정부(350) 및 평가부(360)에 특징집합의 선정동작 및 성능평가동작을 수행하도록 하는 제어신호를 출력한다.
한편, 본 발명에 따른 감성인식 시스템(300)은 표정인식수단과 같은 다른 감성인식수단을 구비하여 음성인식과 함께 복합적인 감성인식을 수행할 수 있으며, 감성인식의 결과를 출력하는 출력수단, 감성인식과정을 모니터링하는 모니터링 수단 등을 구비할 수 있다. 이러한 수단들의 구성 및 동작은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 익히 알 수 있는 사항이므로 상세한 설명은 생략한다.
도 4는 본 발명에 따른 특징집합 선택방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다. 이러한 특징집합 선택방법이 적용된 감성인식 시스템은 가정용 로봇이나 가정용 전기/전자 기계에 적용된다. 이하에서는 본 발명에 따른 특징집합 선택방법을 IFS 알고리즘이라 칭한다.
도 4를 참조하면, 감성인식 시스템(300)은 사용자로부터 사용자의 감성 신호와 특징 데이터가 포함된 후보특징집합을 순차적으로 입력받는다(S400). 특징집합으로는 피치(간격), 에너지, 포먼트(파생접사), 음성속도 등이 사용된다. 도 5에는 입력되는 후보특징집합의 예가 도시되어 있다. 도 5를 참조하면, 각각의 후보특징집합(510-1 내지 510-n)은 집합의 감성식별자(즉, Ei, Ei+1, …, Ei+t 등; 여기서, i 는 i번째 후보특징집합을 의미하며, t는 i번째 후보특징집합으로부터 t번째에 입력된 후보특징집합을 의미)(520-1 내지 520-n)와 특징 데이터(즉, f(i)1, f(i)2, …, f(i+t)N 등; 여기서, f(i)1은 i번째 후보특징집합의 첫번째 특징 데이터를 의미하고, f(i+t)N은 i+t번째 후보특징집합의 N번째 특징 데이터를 의미)로 구성된다.
다음으로, 감성인식 시스템(300)은 입력된 후보특징집합의 감성식별자인 Ei+1과 Ei가 동일한지 검사하여 동일하면 '-1'을 반환하고 상이하면 '+1'을 반환한다(S410). 따라서, Ei와 Ei+1이 동일한 감정이면, 본 발명에 따른 감성인식 시스템(300)은 '-1'을 리턴사인으로 반환한다. 이와 달리, Ei와 Ei+1이 상이한 특징집합에 속하면(예를 들어, Ei은 피치에 관한 특징집합인 반면, Ei+1은 에너지에 관한 특징집합이면), 본 발명에 따른 감성인식 시스템(300)은 '+1'을 리턴사인으로 반환한다. 종래의 SBS 알고리즘의 경우 순차적으로 특징을 감하는 것과는 달리 본 발명에 따른 IFS 알고리즘은 단지 동일 클래스에 대해 높은 상관성을 갖는지 또는 서로 다른 클래스에 대해 어느 정도의 낮은 상관성을 갖는지를 측정한다. 이 과정에서 동일 클래스인 경우에는 '-'를 부여함으로써 '상(reward)'을 적용하여 상관정도가 평가에 반영되도록 하고, 다른 클래스인 경우에는 '+'를 부여함으로써 '벌(penalty)'을 적용한다. 이러한 과정은 감정천이에 기초하여 새롭게 입력된 후보 특징 집합과 이전에 입력된 후보 특징 집합과의 상관성을 평가하는 과정이다.
다음으로, 감성인식 시스템(300)은 i번째 후보 특징 집합과 i+1번째 후보 특징 집합의 대응되는 원소인 특징 데이터 사이의 차이를 계산하고, 각각의 차이에 S410단계에서 얻어진 부호를 붙여 결과값을 산출한다(S420). 이러한 과정은 각각의 후보 특징 집합의 대응되는 특징 데이터의 상관성을 평가하는 과정이다. 이때, 각각의 특징 데이터는 피치(간격), 에너지, 포먼트(파생접사), 음성속도 등의 특징집합 각각에 대해 추출된 수치화된 감성 데이터이다.
다음으로, 감성인식시스템(300)은 각각의 대응되는 특징 데이터의 차이값과 리턴사인을 곱하여 산출한 결과값을 저장수단에 저장되어 있는 이전의 결과값에 누적한 후 저장수단에 저장한다(S430). 도 6에는 대응되는 특징 데이터 사이의 차이값과 리턴사인을 곱하여 산출한 결과값을 저장하는 과정이 도시되어 있다. 이때, 각각의 후보특징집합의 첫번째 특징 데이터에 대한 결과값은 첫번째 저장공간에 누적적으로 저장되며, N번째 특징 데이터에 대한 결과값은 N번째 저장공간에 누적적으로 저장된다. 따라서, 각각의 후보특징집합의 입력에 따라 산출된 결과값을 Ri라하면, N번째 저장공간에 저장된 데이터 RDn은 다음과 같이 나타낼 수 있다. 이때, 최초의 결과값 R1은 두번째 후보특징집합이 입력된 시점 이후에 산출된다.
Figure 112006044102090-PAT00006
상술한 바와 같은 S410단계 내지 S430단계는 마지막 후보특징집합(즉, Ei+t)이 입력될 때까지 반복적으로 수행된다(S440).
다음으로, 감성인식 시스템(300)은 입력된 후보특징집합의 원소인 특징들 중에서 점수가 가장 높은 것을 선택하여 목적함수에 의해 평가하여 적합도를 산출한다(S450). 따라서 감성인식 시스템(100)은 저장수단에 저장되어 있는 RDi의 값 중에서 최대값에 해당하는 특징 데이터들을 목적함수에 의해 평가할 특징 데이터로 선택한다. 예를 들어, RD4의 값이 최대값이라면, 감성인식 시스템(300)은 각각의 후보특징집합의 원소 중에서 네번째 특징 데이터들로 이루어진 집합(즉, f(1)4, f(2)4, …, f(i)4, …, f(i+k)4)가 목적함수에 의해 펑가받을 특징 데이터들의 집합으로 결정된다.
목적함수에 의한 특징 데이터의 평가에 있어서는 성능이 양호하고 신호대 잡음에 강한 패턴 분류를 위한 인공신경망이 사용된다. 이는 패턴인식분야에서 사용되는 가장 일반적인 방법이다. 이러한 방법은 대개 네트워크 파라미터를 조정하기 위해 역전파 알고리즘(Back Propagation Algorithm)을 사용한다. 본 발명에 따른 특징 집합 선택방법에 있어서 인공신경망의 설정값인 입력단의 수, 은폐단의 수, 출력단의 수, 학습율, 허용오차 및 S자형 함수(Sigmoid Function)는 각각 3~5, 11, 2, 0.003, 0.25 및
Figure 112006044102090-PAT00007
로 설정될 수 있다. 이와 같은 특징 데이터를 인공신경망에 의해 평가하는 과정은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 용이하게 알 수 있는 사항이므로 보다 상세한 설명은 생략한다.
한편, 이러한 목적함수에 의한 평가결과, 이전의 적합도와 현재의 적합도의 차이가 기준치 이하이면 선정된 후보집합을 차선의 후보집합으로 대체하여 평가하고, 이러한 과정을 종료조건이 만족될 때까지 반복하여 수행한다(S460). 만약, 두번 이상의 평가 이후 성능이 저하되면, 처음의 평가시 일정한 순위에 들지 못했던 특징집합의 원소인 특징 데이터들 중에서 점수가 높은 특징 데이터로 이루어진 특징집합을 입력으로 하여 재평가를 수행한다(S470). 이러한 재평가는 성능이 향상될 때까지 반복적으로 수행된다.
이때의 평가 결과는 인식율로써, 일예로, 임의의 후보집합을 이용하여 신경망으로 인식실험을 한 결과가 70%인 반면에 다른 후보집합을 사용하여 인식 실험을 한 결과가 68%로 감소된다면, 다른 후보집합을 이용하여 재평가하는 과정을 반복하게 된다. 특히, 재평가를 위한 기준치는 인식과제에 따라 달라지는데, 감성인식의 경우 약 70%의 인식율을 기준으로 한다.
이하에서는 본 발명에 따른 특징집합 선택방법이 적용된 감성인식 시스템의 성능에 대한 실험결과를 기술한다.
실험을 위해 감성적인 언어들은 10명의 남성 대학졸업자로부터 수집되었다. 이들의 연령은 24세부터 31세 사이이며, 이들에게 10개의 짧은 문장을 감성을 넣어 말하도록 했다. 10개의 문장(즉, 원고)은 또다른 조사 또는 실험결과를 기초로 선택되었다. 첫번째 단계에서, 30개의 문장을 준비하였으며, 피시험자들에게 30개의 문장을 모두 말하도록 하였다. 피시험자들의 음성을 녹음한 후 다른 사람들에게 들려주어 어떠한 감성을 느끼는지 질문하였다. 실험에서 10개의 문장에 의해 전달된 감성과 응답은 당시 90%의 일치가 있었다. 또한, 준비된 원고의 길이는 6에서 10개 의 음절로 제한하였다. 녹음은 11KHz, 16비트, 모노로 수행되었으며, 피시험자들에게 마이크로부터 10cm 떨어지도록 하였다. 마이크로부터의 거리가 크기 또는 강도에 영향을 주기 때문에 필요한 거리를 유지하는 것이 중요하다. 녹음된 파일은 음향처리과정을 거쳐 MS 엑세스로 만들어진 데이터베이스에 저장하였다. 다음 단계에서, 이를 고속 푸리에 변환(Fast Fourier Transform : FFT), 자기상관법에 의한 피치추출, 피치율 증가(Increasing Rate : IR), 교차율(Crossing Rate : CR), 분산(Variance : VR) 및 통계적인 값들과 같은 신호로 처리하였다. 또한, 11개의 원특징-피치 특징(최대값, 최소값, 평균값, 중간값, 교차율, 증가율), 크기(Loudness), 강도(최대값, 최소값, 평균값), 섹션번호 및 음성속도-을 IFS 시뮬레이터에 입력하였다.
도 7a는 인공신경망을 사용한 감성인식 시스템에 본 발명에 따른 특징집합 선택방법을 적용하여 측정된 시간에 대한 특징 번호와 결과값을 나타낸 그래프이고, 도 7b는 본 발명에 따른 IFS 방법에 의해 선택된 집합에 대한 측정결과, 종래의 SFS 방법에 의해 선택된 집합에 대한 측정결과 및 무작위로 선택된 집합에 대한 측정결과를 나타낸 그래프이다.
도 7a를 참조하면, 본 발명에 따른 IFS 방법이 적용된 감성인식 시스템은 점차적으로 향상된 검색 결과를 보인다. 여기서 아래의 그래프는 각각의 시점에서 사용된 특징 번호를 나타내고, 위의 그래프는 각각의 시점에서의 결과값을 나타낸다. 또한, 검색작업은 새로운 평가결과가 이전의 평가결과보다 저조할 때 다시 수행되며, 그래프를 살펴보면 시간축 상의 측정시점 3~5 및 6~8에서 평가결과의 변화가 없음을 알 수 있다. 한편, 도 7b에는 특징번호를 변경하면서 3가지 방법에 의해 측정한 결과가 도시되어 있다. 여기서, 무작위로 특징 집합을 선택하여 측정한 결과가 가장 저조하다. 반면에, IFS 방법 및 SFS 방법에 의해 특징 집합을 선택하여 측정하면, 비슷한 정도의 양호한 결과를 얻을 수 있다. 또한, 특징 번호 1, 2 및 3번에 대해서는 IFS 방법이 SFS 방법에 비해 보다 좋은 결과를 보이는 반면, 특징 번호 4 및 5번에 대해서는 SFS 방법이 IFS 방법에 비해 보다 좋은 결과를 보인다.
표 1에는 본 발명에 따른 특징집합 선택방법에 의해 선택된 특징 집합이 기재되어 있다. 표 1에 기재된 바와 같이 본 발명에 다른 특징집합 선택방법에 의해 선택된 특징 집합들은 널리 알려지고 자주 사용되는 특징 집합들이다.
특징 번호 특징 데이터
1 피치 평균
2 피치 평균, 음성속도
3 피치 평균, 음성속도, 크기
4 피치 평균, 음성속도, 크기, 섹션번호
상술한 측정결과에서 알 수 있는 바와 같이 본 발명에 따른 특징집합 선택방법은 SFS 방법보다 성능의 측면에서 약간의 우위를 보인다. 그러나, 본 발명에 따른 특징집합 선택방법은 훈련데이터의 양이 지나치게 적을 경우에 선택결과들이 양호하지 않을 가능성이 있다. 이에 반해 SFS 방법은 많은 수의 훈련데이터가 필요하지는 않으며, 단지 하나의 특징 집합만으로 충분하다. 만약 목적함수가 명확하면 SFS 방법이 보다 적당하다. 그러나, 감성인식의 경우 SFS 방법은 자체가 가지고 있는 성능을 그대로 보이기 어렵다. 따라서 감성인식의 경우에는 본 발명에 따른 특징집합 선택방법과 같이 상관성에 기초한 방법이 보다 양호한 성능을 보인다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
본 발명에 따른 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법에 의하면, 음성을 기초로 한 감성인식에 있어서 보다 적은 수의 특징집합을 선택하여 평가의 부담을 최소화하고, 사용자의 접촉빈도가 늘어남에 따라 성능개선이 가능하다.

Claims (10)

  1. 사용자의 감성 신호와 특징 데이터가 포함된 후보특징집합을 순차적으로 입력받는 데이터입력부;
    새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 동일여부를 검사하여, 새롭게 입력된 후보특징집합이 직전에 입력된 후보특징집합과 동일하면 상으로서 리워드 리턴사인을 반환하고, 상이하면 벌로서 패널티 리턴사인을을 반환하는 제1상관성검사부;
    새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 대응되는 원소인 특징 데이터 사이의 차이값을 계산하고, 계산된 차이값과 상기 제1상관성검사부의 리턴사인을 곱하여 결과값을 산출하고, 상기 산출된 결과값을 저장되어 있는 이전의 결과값과 합산하여 저장하는 제2상관성검사부;
    입력된 후보특징집합의 원소인 특징 데이터 중에서 상기 제2상관성검사부에 의해 산출된 상기 결과값이 가장 높은 특징 데이터로 구성된 집합을 특징집합으로 선택하는 특징데이터선정부; 및
    상기 선택된 특징집합을 목적함수에 의해 평가하여 적합도를 산출하는 평가부;를 포함하는 것을 특징으로 하는 감성인식 시스템.
  2. 제 1항에 있어서,
    상기 목적함수는 다음의 수학식으로 정의되는 것을 특징으로 하는 감성인식 시스템:
    Figure 112006044102090-PAT00008
    ,
    여기서, t는 각각의 특징 데이터의 입력시점,
    Figure 112006044102090-PAT00009
    는 보상값의 합이 무한대가 되지 않도록 하기 위한 감쇠계수, γt+k+1은 동작에 대한 보상을 의미한다.
  3. 제 1항 또는 제 2항에 있어서,
    상기 평가부는 두번 이상의 평가 이후 성능이 저하되면, 처음의 평가시 일정한 순위에 들지 못했던 특징집합의 원소인 특징 데이터들 중에서 점수가 높은 특징 데이터로 이루어진 특징집합에 대해 산출된 결과값에 의해 재평가를 수행하는 것을 특징으로 하는 감성인식 시스템.
  4. 제 1항 또는 제 2항에 있어서,
    상기 리워드 리턴사인은 '-1'이고, 상기 패널티 리턴사인은 '+1'인 것을 특징으로 하는 감성인식 시스템.
  5. 제 1항 또는 제 2항에 있어서,
    상기 평가부는 상기 산출된 적합도와 이전의 적합도의 차이가 기준치 이하이면 선정된 후보집합을 차선의 후보집합으로 대체하여 평가하는 것을 특징으로 하는 감성인식 시스템.
  6. (a) 사용자의 감성 신호와 특징 데이터가 포함된 복수의 후보특징집합들을 순차적으로 입력받는 단계;
    (b) 새롭게 입력된 후보특징집합과 직전에 입력된 후보특징집합의 동일여부를 검사하여 동일하면 상으로서 리워드 리턴사인을 반환하고, 상이하면 벌로서 패널티 리턴사인을을 반환하는 단계;
    (c) 상기 새롭게 입력된 후보특징집합과 상기 직전에 입력된 후보특징집합의 원소인 특징 데이터 중에서 서로 대응되는 특징 데이터 사이의 차이값을 산출하고, 상기 산출된 차이값과 상기 새롭게 입력된 후보특징집합과 상기 직전에 입력된 후보특징집합에 대응하는 리턴사인을 곱하여 결과값을 산출하는 단계;
    (d) 산출된 결과값과 상기 제1후보특징집합의 입력전에 산출된 결과값을 합산하는 단계; 및
    (e) 입력된 후보특징집합의 원소인 특징 데이터 중에서 상기 산출된 결과값이 가장 높은 특징 데이터로 구성된 집합을 특징집합으로 선택하고, 상기 선택된 특징집합을 목적함수에 의해 평가하여 적합도를 산출하는 단계;를 포함하며,
    상기 (b)단계 내지 상기 (d)단계는 상기 후보특징집합의 입력이 종료될 때까지 반복적으로 수행되는 것을 특징으로 하는 감성인식 시스템의 특징집합 선택방법.
  7. 제 6항에 있어서,
    상기 목적함수는 다음의 수학식으로 정의되는 것을 특징으로 하는 감성인식 시스템:
    Figure 112006044102090-PAT00010
    ,
    여기서, t는 각각의 특징 데이터의 입력시점,
    Figure 112006044102090-PAT00011
    는 보상값의 합이 무한대가 되지 않도록 하기 위한 감쇠계수, γt+k+1은 동작에 대한 보상을 의미한다.
  8. 제 6항 또는 제 7항에 있어서,
    상기 산출된 적합도와 이전의 적합도의 차이가 기준치 이하이면 선정된 후보집합을 차선의 후보집합으로 대체하여 평가하는 단계를 더 포함하는 것을 특징으로 하는 감성인식 시스템의 특징집합 선택방법.
  9. 제 6항 또는 제 7항에 있어서,
    상기 리워드 리턴사인은 '-1'이고, 상기 패널티 리턴사인은 '+1'인 것을 특징으로 하는 감성인식 시스템의 특징집합 선택방법.
  10. 제 6항에 기재된 감성인식 시스템의 특징집합 선택방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060056301A 2006-06-22 2006-06-22 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법 KR100790494B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060056301A KR100790494B1 (ko) 2006-06-22 2006-06-22 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060056301A KR100790494B1 (ko) 2006-06-22 2006-06-22 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법

Publications (2)

Publication Number Publication Date
KR20070121346A true KR20070121346A (ko) 2007-12-27
KR100790494B1 KR100790494B1 (ko) 2008-01-02

Family

ID=39138756

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060056301A KR100790494B1 (ko) 2006-06-22 2006-06-22 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법

Country Status (1)

Country Link
KR (1) KR100790494B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009108549A2 (en) * 2008-02-26 2009-09-03 Welch Allyn, Inc. Method and apparatus for spectrum estimation
CN112488188A (zh) * 2020-11-30 2021-03-12 浙江理工大学 一种基于深度强化学习的特征选择方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3676969B2 (ja) 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
KR20030033890A (ko) * 2001-10-25 2003-05-01 (주)인터루션 사용자의 음성정보 분석을 통한 사이버 비서 시스템 및 그방법
KR20040038419A (ko) * 2002-11-01 2004-05-08 에스엘투(주) 음성을 이용한 감정인식 시스템 및 감정인식 방법
JP4580190B2 (ja) 2004-05-31 2010-11-10 日本電信電話株式会社 音声処理装置、音声処理方法およびそのプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009108549A2 (en) * 2008-02-26 2009-09-03 Welch Allyn, Inc. Method and apparatus for spectrum estimation
WO2009108549A3 (en) * 2008-02-26 2009-10-22 Welch Allyn, Inc. Method and apparatus for spectrum estimation
US7738949B2 (en) 2008-02-26 2010-06-15 Welch Allyn, Inc. Method and apparatus for spectrum estimation
CN112488188A (zh) * 2020-11-30 2021-03-12 浙江理工大学 一种基于深度强化学习的特征选择方法
CN112488188B (zh) * 2020-11-30 2023-12-19 浙江理工大学 一种基于深度强化学习的特征选择方法

Also Published As

Publication number Publication date
KR100790494B1 (ko) 2008-01-02

Similar Documents

Publication Publication Date Title
Pfister et al. Real-time recognition of affective states from nonverbal features of speech and its application for public speaking skill analysis
CN111798874A (zh) 一种语音情绪识别方法及系统
Wu et al. Speech emotion estimation in 3D space
CN110047517A (zh) 语音情感识别方法、问答方法及计算机设备
CN113609264B (zh) 电力系统节点的数据查询方法、装置
Yasmin et al. A rough set theory and deep learning-based predictive system for gender recognition using audio speech
da Silva et al. Evaluation of a sliding window mechanism as DataAugmentation over emotion detection on speech
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Liu et al. Learning salient features for speech emotion recognition using CNN
Riera et al. No sample left behind: Towards a comprehensive evaluation of speech emotion recognition system
KR100790494B1 (ko) 감성인식 시스템 및 그 시스템에 있어서 특징집합 선택방법
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
Sato et al. Creation and analysis of emotional speech database for multiple emotions recognition
Sidorov et al. Contemporary stochastic feature selection algorithms for speech-based emotion recognition.
Fu et al. Composite feature extraction for speech emotion recognition
Gupta et al. Speech based Emotion Recognition using Machine Learning
Rennie et al. Which Model is Best: Comparing Methods and Metrics for Automatic Laughter Detection in a Naturalistic Conversational Dataset.
Huang et al. A dual-complementary acoustic embedding network learned from raw waveform for speech emotion recognition
Cai et al. Feature selection approaches for optimising music emotion recognition methods
Parvej et al. Machine Learning Classifiers for Predicting Influence of Digital Technology on Academic Performance of University Students
Nayal et al. Emotion recognition in songs via Bayesian deep learning
Park et al. The novel feature selection method based on emotion recognition system
CN118692132B (zh) 一种基于人工智能的情绪识别方法
Mishra et al. Bird Call Recognition using Acoustic based Feature Selection approach in Machine Learning
CN111710349B (zh) 一种语音情感识别方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151028

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee