KR20240042796A - 음성 기반 스트레스 판별 방법 및 장치 - Google Patents

음성 기반 스트레스 판별 방법 및 장치 Download PDF

Info

Publication number
KR20240042796A
KR20240042796A KR1020220121522A KR20220121522A KR20240042796A KR 20240042796 A KR20240042796 A KR 20240042796A KR 1020220121522 A KR1020220121522 A KR 1020220121522A KR 20220121522 A KR20220121522 A KR 20220121522A KR 20240042796 A KR20240042796 A KR 20240042796A
Authority
KR
South Korea
Prior art keywords
stress
voice
user
score
target voice
Prior art date
Application number
KR1020220121522A
Other languages
English (en)
Inventor
남궁정현
김남수
이상율
Original Assignee
에스케이텔레콤 주식회사
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사, 서울대학교산학협력단 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020220121522A priority Critical patent/KR20240042796A/ko
Publication of KR20240042796A publication Critical patent/KR20240042796A/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Psychiatry (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Hospice & Palliative Care (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Veterinary Medicine (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Developmental Disabilities (AREA)
  • Signal Processing (AREA)
  • Psychology (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)

Abstract

음성 기반 스트레스 판별 방법 및 장치를 개시한다.
본 개시의 일 측면에 의하면, 사용자의 스트레스 판별을 위한 대상 음성을 획득하는 음성 획득부; 복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 상태 판별을 위한 특성점수를 출력하도록 훈련된 머신러닝 모델을 이용하여, 상기 대상 음성에 대한 특성점수를 획득하는 추론부; 및 상기 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 상기 사용자의 스트레스 유무를 판별하는 판별부를 포함하는 것을 특징으로 하는 스트레스 판별장치를 제공한다.

Description

음성 기반 스트레스 판별 방법 및 장치{Apparatus And Method for Stress Detection Based on Speech Signal}
본 개시는 음성 기반 스트레스 판별 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
머신러닝을 이용하여 사용자의 음성으로부터 스트레스 유무를 판별하고자 하는 노력이 시도되고 있다. 개인별로 스트레스 유무가 음성에 영향을 주는 정도가 상이할 수 있기 때문에, 개인화된 스트레스 판별 기술이 필요하다. 머신러닝 모델을 개인화하는 기술의 일 예로는, 개별 사용자의 데이터를 이용하여 훈련된 모델의 파라미터를 조정하는 방식이 있다. 그러나 이러한 방식은, 개인별 특징을 학습하기 위한 연산량이 많아 휴대폰 등과 같은 에지 디바이스(edge device)에 적용하기 어렵다. 또한, 음성 기반 스트레스 판별에 적용하기 위해서는, 개별 사용자의 스트레스 상태의 음성 데이터를 미리 수집해야 한다는 단점이 있다.
한편, 머신러닝 모델을 훈련시키기 위해서는, 스트레스 유무에 대한 레이블이 주어진 음성 데이터들이 필요하다. 종래에는 복수의 청자들이 미리 수집된 음성 데이터를 청취하여 스트레스 유무를 레이블링하고, 레이블링 결과가 일치되는 음성 데이터를 선별하여 데이터셋을 구축하였다. 그러나 이러한 방식에서는, 제3자가 발화자의 스트레스 유무를 평가하므로, 레이블링 결과가 실제 발화자의 스트레스 유무와 일치하는지를 알 수 없다는 문제가 있다.
본 개시는, 개별 사용자의 스트레스 상태의 음성 데이터를 사전에 학습하지 않고도, 사용자의 음성으로부터 스트레스 유무를 판별할 수 있는 방법 및 장치를 제공하는 데 주된 목적이 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 측면에 의하면, 사용자의 스트레스 판별을 위한 대상 음성을 획득하는 음성 획득부; 복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 상태 판별을 위한 특성점수를 출력하도록 훈련된 머신러닝 모델을 이용하여, 상기 대상 음성에 대한 특성점수를 획득하는 추론부; 및 상기 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 상기 사용자의 스트레스 유무를 판별하는 판별부를 포함하는 것을 특징으로 하는 스트레스 판별장치를 제공한다.
본 개시의 다른 측면에 의하면, 전자장치에 의해 수행되는 방법으로서, 사용자의 스트레스 판별을 위한 대상 음성을 획득하는 과정; 복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 유무 판별을 위한 특성점수를 출력하도록 훈련된 머신러닝 모델을 이용하여, 상기 대상 음성에 대한 특성점수를 획득하는 과정; 및 상기 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 상기 사용자의 스트레스 유무를 판별하는 과정을 포함하는 것을 특징으로 하는, 방법을 제공한다.
본 개시의 다른 측면에 의하면, 전술한 방법이 포함하는 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
본 개시의 일 실시예에 의하면, 개별 사용자의 스트레스 상태의 음성 데이터를 사전에 학습하지 않고도, 사용자의 음성으로부터 스트레스 유무를 판별할 수 있다. 머신러닝 모델을 개인별로 훈련시키지 않고, 훈련이 완료된 머신러닝 모델을 이용한 예측 함수(prediction function)만을 계산하면 되므로, 휴대폰 등과 같은 에지 디바이스에 쉽게 적용 가능하다. 또한, 사용자 측면에서는, 최초 서비스 사용 시 스트레스가 없는 편안한 일상 상태에서 일정 길이 이상의 음성 녹음을 통해 안정 상태의 특성점수만 설정하면 향후 스트레스 판별이 가능하므로, 사용 편의성을 향상시킬 수 있다.
본 개시의 일 실시예에 의하면, 휴대폰 등과 같은 휴대기기를 이용하여 일상적인 질문에 대한 응답을 녹음하여 스트레스 유무를 진단함으로써, 개인의 상태를 지속적으로 점검하고 관리할 수 있다. 궁극적으로 개인의 정신건강과 스트레스 누적으로 인한 신체 질병을 예방할 수 있는 능동적인 관리가 가능하며, 일반인 및 관리가 필요한 만성질환자의 건강증진에 기여할 수 있다. 또한, 그동안 객관적인 측정방법이 부재하여 일상생활 중의 스트레스와의 질환과의 인과관계를 과학적으로 증명하는데 한계가 있었는데, 휴대기기를 이용한 지속적인 스트레스 상태를 기록할 수 있는 생체지표를 기반기술로 제공함으로써 정량적인 관계 연구를 가능하게 할 수 있다.
본 개시의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 스트레스 판별장치를 개략적으로 나타낸 블록구성도이다.
도 2는 본 개시의 일 실시예에 따른 모델 구축방법을 설명하기 위한 예시도이다.
도 3은 본 개시의 일 실시예에 따라 훈련된 모델을 이용하여 산출된 특성 스코어의 분포를 나타내는 예시도이다.
도 4는 본 개시의 일 실시예에 따른 스트레스 판별방법을 나타내는 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 스트레스 판별장치를 이용한 서비스 시나리오를 나타내는 흐름도이다.
도 6은 본 개시의 일 실시예에 따른 전자장치의 구성도이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 이용해 상세하게 설명한다. 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면 상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 개시에 따른 실시예의 구성요소를 설명하는 데 있어서, 제1, 제2, i), ii), a), b) 등의 부호를 사용할 수 있다. 이러한 부호는 그 구성요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 부호에 의해 해당 구성요소의 본질 또는 차례나 순서 등이 한정되지 않는다. 명세서에서 어떤 부분이 어떤 구성요소를 '포함' 또는 '구비'한다고 할 때, 이는 명시적으로 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 개시의 예시적인 실시형태를 설명하고자 하는 것이며, 본 개시가 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
도 1은 본 개시의 일 실시예에 따른 스트레스 판별장치를 개략적으로 나타낸 블록구성도이다.
도 1에 도시되듯이, 본 개시의 일 실시예에 따른 스트레스 판별장치(10)는 음성 획득부(100), 전처리부(120), 추론부(140), 판별부(160) 및 저장부(180)의 전부 또는 일부 포함할 수 있다. 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 스트레스 판별장치(10)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 도 1에 도시된 스트레스 판별장치(10)의 구성요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 적어도 하나의 구성요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있다.
음성 획득부(100)는 사용자의 음성을 획득할 수 있다. 음성 획득부(100)는 저장부(180)에 미리 저장된 복수의 중성적 질문들 중에서 임의로 선택된 질문을 사용자에게 제시하고, 이에 대한 응답 음성을 획득할 수 있다. 중성적 질문은, 예컨대 "평소 출퇴근 일상을 말씀해주세요." 등과 같이 사용자가 일상에서 쉽게 답할 수 있는 질문을 의미할 수 있다. 음성 획득부(100)는 사용자가 일정 길이 이상의 음성을 발화하도록 유도할 수 있다.
전처리부(120)는 사용자의 음성을 머신러닝 모델에서 처리하기에 적합한 형태로 가공하여 입력 데이터를 생성할 수 있다. 실시예들에 따라, 전처리부(120)는 사용자의 음성을 일정 구간이 겹치는 복수의 음성들로 분할하고, 분할된 음성들로부터 복수의 입력 데이터를 생성할 수 있다. 예를 들어, 전처리부(120)는 사용자의 음성을 75%(3초) 오버랩(overlap)을 주고 4초씩 자른 복수의 음성들로부터 복수의 입력 데이터를 생성할 수 있다.
전처리부(120)는 음성으로부터 주파수에 대한 정보를 추출하여, 스펙트럼 계열의 입력 데이터를 생성할 수 있다. 스펙트럼 계열의 입력 데이터는, 예컨대, 멜 주파수 켑스트럴 계수(MFCC, Mel Frequency Cepstral Coefficients) 및/또는 멜-스펙트로그램(mel-spectrogram)을 포함할 수 있다. 일 예로, 전처리부(120)는 24,000Hz의 샘플링 주파수(sampling frequency)로 샘플링된 4초 길이의 음성으로부터 13차 MFCC, 13차 델타(delta) MFCC 및 13차 델타-델타 MFCC를 추출하여, 총 39차의 MFCC를 생성할 수 있다. 다른 예로, 전처리부(120)는 16,000Hz로 리샘플링(resampling)된 4초 길이의 음성으로부터 80차 멜-스펙트로그램을 생성할 수 있다.
추론부(140)는 입력 데이터를 훈련된 머신러닝 모델에 입력하여, 사용자의 음성에 대한 특성점수를 획득할 수 있다. 이를 위해, 저장부(180)는 훈련된 머신러닝 모델을 저장하고 있을 수 있다. 훈련된 머신러닝 모델을 저장하는 것은, 머신러닝 모델의 파라미터의 값을 저장하는 것을 포함할 수 있다. 일부 실시예에서, 머신러닝 모델은 복수의 레이어들을 포함하는 심층 신경망(deep neural network, DNN)으로 구현될 수 있다.
일 예로, 머신러닝 모델은 합성곱 신경망(Convolutional Neural Network, CNN)모델일 수 있다. 합성곱 신경망 모델은, MFCC를 입력 데이터로 사용할 수 있다. 합성곱 신경망 모델은, 입력 데이터에 대해 컨볼루션 연산을 순차적으로 수행하여 특징맵을 추출하는 복수의 합성곱 레이어, 다차원 형태의 특징맵을 배열 형태의 데이터로 변환하는 플래튼 레이어(flatten layer) 및 변환된 특징맵에 대해 가중 연산을 수행하여 특성점수를 산출하는 완전연결 레이어(fully connected layer)의 전부 또는 일부를 포함할 수 있다.
다른 예로, 머신러닝 모델은 트랜스포머(Transformer) 구조에 합성곱 신경망을 결합한 구조를 갖는, 콘포머(Conformer) 모델일 수 있다. 또 다른 예로, 머신러닝 모델은 TDNN(Time Delay Neural Network)의 확장 방법으로서 화자인식에서 좋은 성능을 나타낸 딥러닝 아키텍처(architecture)인, ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in TDNN) 모델일 수 있다. ECAPA-TDNN 모델은, 프레임 레벨 특성(Frame-level feature)의 크기를 조정하기 위해 Res2Net에 Squeeze-Excitation 블록을 결합한 SE-Res2 네트워크, 템퍼럴 어텐션 메커니즘(Temporal attention mechanism)을 채널 차원으로 확장시키기 위한 채널-의존 주의 통계적 풀링(channel-dependent attentive statistics pooling) 및 계층적인 정보를 추가하기 위한 멀티 레벨 특성 결합(multi-layer feature aggregation)을 사용할 수 있다. 콘포머 모델 또는 ECAPA-TDNN 모델은, 멜 스펙트로그램을 입력 데이터로 사용할 수 있다.
본 개시의 일 실시예에 따른 머신러닝 모델은, 복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 유무 판별을 위한 특성점수를 출력하도록 훈련된 모델일 수 있다. 본 개시의 일 실시예에 따른 머신러닝 모델의 훈련 방법은 도 2를 참조하여 후술하도록 한다.
판별부(160)는 특성점수를 미리 설정된 기준점수와 비교하여, 사용자의 스트레스 유무를 판별할 수 있다.
기준점수는, 사용자가 안정 상태에서 발화한 음성으로부터 산출된 점수로, 저장부(180)에 미리 저장된 값일 수 있다. 일 예로, 기준점수는, 사용자가 안정 상태에서 발화한 음성으로부터 획득한 복수의 특성점수들 간의 평균일 수 있다. 이를 위해, 음성 획득부(100)는 스트레스 판별대상이 되는 음성을 획득하기 이전에 사용자로부터 안정 상태의 음성을 획득할 수 있고, 전처리부(120)는 안정 상태의 음성으로부터 복수의 입력 데이터를 생성할 수 있다. 추론부(140)는 각 입력 데이터를 훈련된 머신러닝 모델에 입력하여, 각 입력 데이터에 대응하는 특성점수를 획득할 수 있다. 추론부(140)는 획득한 특성점수들 또는 특성점수의 평균을 저장부(180)에 저장할 수 있다.
판별부(160)는 스트레스 판별대상이 되는 음성으로부터 획득한 복수의 특성점수들 간의 평균과 기준점수를 비교할 수 있다. 판별부(160)는 스트레스 판별대상이 되는 음성으로부터 산출된 특성점수의 평균이 기준점수보다 높으면, 사용자의 상태를 안정 상태 대비 스트레스가 높은 상태, 즉 스트레스 상태로 판별할 수 있다. 즉, 판별부(160)는 스트레스 판별대상이 되는 음성으로부터 산출된 특성점수(이하, 제1 특성점수)의 분포와 안정 상태의 음성으로부터 산출된 특성점수의 분포(이하, 제2 특성점수)를 비교하여, 제1 특성점수의 분포가 제2 특성점수의 분포 대비 상향으로 벗어난 경우 사용자의 상태를 스트레스 상태로 판별할 수 있다.
도 2는 본 개시의 일 실시예에 따른 모델 구축방법을 설명하기 위한 예시도이다.
본 개시의 일 실시예에 따른 모델 구축방법은, 학습장치에 의해 실행되고, 학습장치는 컴퓨팅 디바이스 상에서 실행될 수 있다. 학습장치는, 컴퓨팅 디바이스가 가용할 수 있는 하나 이상의 프로세서에 의해 각 기능을 수행하고, 이러한 프로세서와 연결되어 내부에 저장된 명령어들을 가지는 컴퓨터 판독가능 스토리지를 포함할 수 있으나, 이에 한정되는 것은 아니다.
학습장치는 복수의 피실험자들로부터 안정 상태의 음성 및 스트레스 상태의 음성을 수집할 수 있다. 학습장치는 일상에서 쉽게 답할 수 있는 형태의 질문을 피실험자들에게 제시하고 이에 대한 피실험자들 응답 음성을 수집할 수 있다. 여기서, 안정 상태의 음성은 스트레스가 유도되기 전에 발화한 음성이고, 스트레스 상태의 음성은 스트레스가 유도된 상태에서 발화한 음성일 수 있다. 이를 위해, 공지의 콜드 프레스 테스트(Cold pressor test)를 통해 피실험자에게 스트레스를 유도할 수 있다. 다른 예에서, 학습장치는 랜덤하게 추출된 임의의 질문을 피실험자에게 제시함으로써 피실험자에게 스트레스를 유도할 수도 있다.
수집된 음성에는, 스트레스가 유도된 상태에서 발화한 음성인지를 나타내는 레이블이 부여될 수 있다. 예를 들어, 피실험자가 스트레스가 유도되기 전에 발화한 음성에는 '0'의 값을 가지는 레이블이 부여되고, 피실험자가 스트레스가 유도된 상태에서 발화한 음성에는 '1'의 값을 가지는 레이블이 부여될 수 있으나, 이러한 예시에 한정되는 것은 아니다.
구현예에 따라, 학습장치는 피실험자들의 성별 및/또는 나이 등과 같은 기본정보를 추가로 수집할 수도 있다. 학습장치는 피실험자들의 기본정보를 이용하여, 전체 데이터셋을 훈련 데이터셋, 검증 데이터셋 및 테스트 데이터셋으로 분리할 수 있다. 예를 들어, 학습장치는, 각 데이터셋에서의 성별 분포와 연령대 분포가 유사하도록 훈련 데이터셋, 검증 데이터셋 및 테스트 데이터셋을 분리할 수 있다.
학습장치는 훈련 데이터셋을 이용하여, 모델이 피실험자의 스트레스 유무 판별을 위한 특성점수를 출력하도록 훈련시킬 수 있다. 특성점수는, 특정 음성이 스트레스 상태에서 발화한 음성 또는 안정 상태에서 발화한 음성 중 어느 하나의 범주에 속할 확률일 수 있다. 즉, 학습장치는, 전처리된 음성 입력으로부터 피실험자들의 스트레스 유무를 분류하도록 모델을 훈련시킬 수 있다. 예를 들어, 학습장치는 훈련 데이터셋 내의 음성에 대해 전처리를 수행하여 모델에 입력하고, 모델이 출력하는 특성점수와 해당 음성에 부여된 레이블을 기초로 손실함수를 산출하여 모델의 파라미터를 갱신할 수 있다. 학습장치에 의해 수행되는 전처리는, 전술한 전처리부(120)의 동작과 동일하거나 상응할 수 있으므로, 자세한 내용은 생략하도록 한다.
학습장치는 테스트 데이터셋을 이용하여, 훈련된 모델의 성능을 테스트할 수 있다.
본 개시에서는, 훈련된 모델이 출력하는 특성점수들의 분포 차이에 대한 판단을 위해, 만-위트니 U 단측 검정(Mann Whitney U one-side test)을 수행하였다. 구체적으로, 안정 상태에서 발화한 음성으로부터 산출된 특성점수들과 스트레스 상태에서 발화한 음성으로부터 산출된 특성점수들 간에 유의미한 분포 차이가 있는지를 판단하기 위해, 표 1과 같이 귀무가설(H0)은 '스트레스 상태에서 발화한 음성으로부터 산출된 특성점수의 평균은 안정 상태에서 발화한 음성으로부터 산출된 특성점수들의 평균보다 작거나 같다.'로 설정하였으며, 대립가설(H1)은 '스트레스 상태에서 발화한 음성으로부터 산출된 특성점수의 평균이 안정 상태에서 발화한 음성으로부터 산출된 특성점수들의 평균보다 크다.'로 설정하였다.
H0 스트레스 상태 특성점수 평균 ≤ 안정 상태 특성점수 평균
H1 스트레스 상태 특성점수 평균 > 안정 상태 특성점수 평균
만-위트니 U 단측 검정방식에 따라 산출된 p-값(p-value, probability value)이 유의수준(significance level, 0.05) 미만인 경우, 귀무가설이 기각될 수 있다. 즉, '스트레스 상태에서 발화한 음성으로부터 산출된 특성점수의 평균이 안정 상태에서 발화한 음성으로부터 산출된 특성점수들의 평균보다 크다.'라는 결론을 내릴 수 있다.
이하에서는, 도 3을 참조하여 일 실험예에서의 훈련된 모델에 대한 테스트결과를 설명하도록 한다.
도 3은 본 개시의 일 실시예에 따라 훈련된 모델을 이용하여 산출된 특성 스코어의 분포를 나타내는 예시도이다.
도 3은 테스트 데이터셋을 이용하여 각 피실험자의 스트레스 유도 전의 음성에 대한 특성 스코어(t0) 및 스트레스 유도 후의 음성에 대한 특성 스코어(t1)를 산출한 결과를 보여준다. 본 실험예에서는, 115명의 피실험자를 대상으로 스트레스 유도 전의 음성 데이터 및 스트레스 유도 후의 음성 데이터를 수집하였다. 전체 피실험자들 중 75명의 음성 데이터를 이용하여 훈련 데이터셋을 구축하였고, 20명의 음성 데이터를 이용하여 검증 데이터셋 구축하였으며, 나머지 20명의 음성 데이터를 이용하여 테스트 데이터셋을 구축하였다. 각 음성 데이터는 75%(3초) 오버랩(overlap)을 주고 4초씩 잘라 사용하였다. 머신러닝 모델의 아키텍처로는 ECAPA-TDNN을 이용하였다.
표 2는 테스트 데이터셋으로부터 산출된 특성 스코어에 대해 만-위트니 U 검정을 수행한 결과를 보여준다. 여기서, 'stat'는 만-위트니 U 검정 통계량으로 p-값 산출의 근거가 되는 값이며, 'correct'는 p-값이 유의수준(0.05)보다 낮은 경우를 '1'로 표시하였다.
피실험자 stat p-val correct
01 2222.0 1.405552e-07 1
02 1488.8 4.050780e-03 1
03 1563.0 1.422548e-09 1
04 2721.0 1.175690e-03 1
05 327.0 7.338944e-11 1
06 171.0 6.267880e-06 1
07 1072.0 3.903125e-01 0
08 2951.0 8.340984e-01 0
09 1732.0 7.281443e-14 1
10 927.0 1.209912e-04 1
11 19554.0 6.443554e-06 1
12 1823.0 6.878442e-13 1
13 3701.0 7.111982e-01 0
14 2913.0 8.986128e-01 0
15 1357.0 7.794794e-02 0
16 4167.0 4.504201e-07 1
17 1687.0 1.376231e-15 1
18 28052.0 8.904338e-01 0
19 5429.0 9.123843e-29 1
20 13575.0 3.408177e-08 1
도 3 및 표 2를 참조하면, 20명의 피실험자의 스트레스 유도 전의 음성에 대한 특성 스코어들과 스트레스 유도 후의 음성에 대한 특성 스코어들을 비교 테스트한 결과, 14명의 피실험자에 대해 산출된 p-값이 유의수준(0.05)보다 낮아, 70%의 정확도를 나타내는 것을 확인할 수 있다.
도 4는 본 개시의 일 실시예에 따른 스트레스 판별방법을 나타내는 흐름도이다.
도 4에 도시된 방법은, 전술한 스트레스 판별장치(10)에 의해 수행될 수 있으므로, 중복되는 설명에 대해서는 자세한 내용을 생략한다.
스트레스 판별장치(10)는 사용자의 스트레스 유무 판별을 위한 대상 음성을 획득할 수 있다(S400). 예컨대, 스트레스 판별장치(10)는 복수의 중성적 질문들 중에서 임의로 선택된 질문을 사용자에게 제공하고, 질문에 대한 사용자의 응답 음성을 대상 음성으로 획득할 수 있다.
스트레스 판별장치(10)는 훈련된 머신러닝 모델을 이용하여, 대상 음성에 대한 특성점수를 획득할 수 있다(S420). 스트레스 판별장치(10)는 대상 음성으로부터 주파수에 대한 정보를 추출하여 입력 데이터를 생성하고, 생성된 입력 데이터를 머신러닝 모델에 입력하여 대상 음성에 대한 특성점수를 획득할 수 있다. 실시예들에 따라, 스트레스 판별장치(10)는 대상 음성을 일정 구간이 겹치는 복수의 음성으로 분할하고, 분할된 음성들로부터 생성된 복수의 입력 데이터를 머신러닝 모델에 각각 입력하여, 대상 음성에 대한 복수의 특성점수를 획득할 수 있다.
여기서, 머신러닝 모델은, 복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 유무 판별을 위한 특성점수를 출력하도록 훈련된 모델일 수 있다. 머신러닝 모델은, 입력 음성이 스트레스가 유도된 상태에서 발화한 음성인지를 나타내는 타겟 레이블을 기초로, 입력 음성의 발화자의 스트레스 유무를 분류하도록 훈련된 모델일 수 있다.
스트레스 판별장치(10)는 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 사용자의 스트레스 유무를 판별할 수 있다(S440). 여기서, 기준점수는, 사용자가 안정 상태에서 발화한 음성으로부터 산출된 점수일 수 있다. 예를 들어, 기준점수는, 사용자가 안정 상태에서 발화한 음성으로부터 획득한 복수의 특성점수들 간의 평균일 수 있다. 이를 위해, 스트레스 판별장치(10)는 대상 음성을 획득하기 이전에 사용자로부터 안정 상태의 음성을 획득하고, 훈련된 머신러닝 모델을 이용하여 안정 상태의 음성에 대한 특성점수들을 획득할 수 있다. 스트레스 판별장치(10)는 대상 음성으로부터 획득한 복수의 제1 특성점수들 간의 평균과 사용자가 안정 상태에서 발화한 음성으로부터 획득한 복수의 제2 특성점수들 간의 평균을 비교할 수 있다. 스트레스 판별장치(10)는 복수의 제1 특성점수들 간의 평균이 복수의 제2 특성점수들 간의 평균보다 높으면, 사용자의 상태를 안정 상태 대비 스트레스가 높은 상태로 판별할 수 있다.
도 5는 본 개시의 일 실시예에 따른 스트레스 판별장치를 이용한 서비스 시나리오를 나타내는 흐름도이다.
스트레스 판별장치(10)에 설치된 어플리케이션(또는 프로그램)이 실행되면, 스트레스 판별장치(10)는 기준점수가 기저장되어 있는지 확인할 수 있다(S500).
기준점수가 기저장되어 있지 않으면, 스트레스 판별장치(10)는 사용자로부터 안정 상태 음성 기록요청을 입력받을 수 있다(S510). 이를 위해, 스트레스 판별장치(10)는 안정 상태의 음성이 미리 기록되어 있어야 스트레스 판별이 가능함을 사용자에게 안내할 수 있다.
스트레스 판별장치(10)는 사용자에게 중성적 질문을 제시할 수 있다(S520).
스트레스 판별장치(10)는 사용자의 음성 응답을 녹음하여(S530), 안정 상태의 음성으로 이용할 수 있다.
스트레스 판별장치(10)는 훈련된 머신러닝 모델을 이용하여 안정 상태의 음성에 대한 특성점수를 획득하고, 획득한 특성점수를 기준점수로서 저장할 수 있다(S540). 예를 들어, 스트레스 판별장치(10)는 안정 상태의 음성으로부터 복수의 입력 데이터를 생성하고, 각 입력 데이터를 훈련된 머신러닝 모델에 입력하여 각 입력 데이터에 대응하는 특성점수를 획득하고, 획득한 특성점수들의 평균을 기준점수로서 저장할 수 있다.
스트레스 판별장치(10)는 사용자로부터 스트레스 진단 요청을 입력받을 수 있다(S550).
스트레스 판별장치(10)는 사용자에게 중성적 질문을 제시할 수 있다(S560).
스트레스 판별장치(10)는 사용자의 음성 응답을 녹음하여(S570), 판별대상 음성으로 이용할 수 있다.
스트레스 판별장치(10)는 훈련된 머신러닝 모델을 이용하여 판별대상 음성에 대한 특성점수를 획득하고, 획득한 특성점수를 기준점수와 비교하여 사용자의 스트레스 유무를 판별할 수 있다(S580). 예를 들어, 스트레스 판별장치(10)는 판별대상 음성으로부터 복수의 입력 데이터를 생성하고, 각 입력 데이터를 훈련된 머신러닝 모델에 입력하여 각 입력 데이터에 대응하는 특성점수를 획득하고, 획득한 특성점수들의 평균을 기준점수와 비교할 수 있다.
스트레스 판별장치(10)는 사용자에게 판별결과를 제시할 수 있다(S590).
도 6은 본 개시의 일 실시예에 따른 전자장치의 구성도이다.
도 6을 참조하면, 전자장치(60)는 메모리(600), 프로세서(620), 스토리지(640), 입출력 인터페이스(660) 및 통신 인터페이스(680) 중 일부 또는 전부를 포함할 수 있다. 전자장치(60)는 전술한 스트레스 판별장치(10) 및/또는 학습장치의 적어도 하나의 기능을 수행하는 장치일 수 있다. 전자장치(60)는 데스크탑 컴퓨터, 서버, AI 가속기 등과 같은 고정형(stationary) 컴퓨팅 장치뿐만 아니라, 랩탑 컴퓨터, 스마트 폰 등과 같은 휴대용(mobile) 컴퓨팅 장치일 수도 있다.
메모리(600)는 프로세서(620)로 하여금 본 발명의 일 실시예에 따른 훈련방법 및/또는 추론방법을 수행하도록 하는 프로그램을 저장할 수 있다. 예를 들면, 프로그램은 프로세서(620)에 의해서 실행 가능한(executable) 복수의 명령어들을 포함할 수 있고, 복수의 명령어들이 프로세서(620)에 의해서 실행됨으로써 데이터 생성 방법이 수행될 수 있다.
메모리(600)는 단일 메모리 또는 복수의 메모리들일 수 있다. 머신러닝 모델의 훈련 또는 훈련된 모델을 이용한 스트레스 판별에 필요한 정보는 단일 메모리에 저장되거나 복수의 메모리들에 나뉘어 저장될 수 있다. 메모리(600)가 복수의 메모리들로 구성된 경우, 복수의 메모리들은 물리적으로 분리될 수 있다. 메모리(600)는 휘발성 메모리 및 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는 SRAM(Static Random Access Memory) 또는 DRAM(Dynamic Random Access Memory) 등을 포함하고, 비휘발성 메모리는 플래시 메모리(flash memory) 등을 포함한다.
프로세서(620)는 적어도 하나의 명령어들을 실행할 수 있는 적어도 하나의 코어를 포함할 수 있다. 프로세서(620)는 메모리(600)에 저장된 명령어들을 실행할 수 있다. 프로세서(620)는 단일 프로세서 또는 복수의 프로세서들일 수 있다.
스토리지(640)는 전자장치(60)에 공급되는 전력이 차단되더라도 저장된 데이터를 유지한다. 예를 들면, 스토리지(640)는 비휘발성 메모리를 포함할 수도 있고, 자기 테이프, 광학 디스크, 자기 디스크와 같은 저장 매체를 포함할 수도 있다.
스토리지(640)는 프로세서(620)에 의해서 처리될 데이터 및 프로세서(620)에 의해서 처리된 데이터를 저장할 수 있다. 본 발명의 일 실시예에 의하면, 스토리지(640)는 데이터 셋, 데이터셋을 이용하여 머신러닝 모델을 훈련시키는 프로그램, 훈련된 모델을 이용하여 산출된 특성점수의 분포를 분석하는 프로그램, 훈련된 머신러닝 모델의 파라미터, 및/또는 개별 사용자의 기준점수 등을 저장할 수 있다. 스토리지(640)에 저장된 프로그램 또는 데이터는, 프로세서(620)에 의해서 실행되기 이전에 메모리(600)로 로딩될 수 있다. 스토리지(640)는 프로그램 언어로 작성된 파일을 저장할 수 있고, 파일로부터 컴파일러 등에 의해서 생성된 프로그램은 메모리(600)로 로딩될 수 있다.
입출력 인터페이스(660)는 키보드, 마우스, 터치 인터페이스 및/또는 마이크 등과 같은 입력 장치를 포함할 수 있고, 디스플레이 및/또는 스피커 등과 같은 출력 장치를 포함할 수 있다. 사용자는 입출력 인터페이스(660)를 통해 프로세서(620)에 의한 프로그램의 실행을 트리거하고/거나 학습 또는 추론을 위한 음성을 입력할 수 있다.
통신 인터페이스(680)는 외부 네트워크에 대한 액세스를 제공한다. 예를 들면, 전자장치(60)는 통신 인터페이스(680)를 통해 다른 장치들과 통신할 수 있다.
본 발명에 따른 장치 또는 방법의 각 구성요소는 하드웨어 또는 소프트웨어로 구현되거나, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 각 구성요소의 기능이 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행 가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
본 명세서의 흐름도/타이밍도에서는 각 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 흐름도/타이밍도에 기재된 순서를 변경하여 실행하거나 각 과정들 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 흐름도/타이밍도는 시계열적인 순서로 한정되는 것은 아니다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10: 스트레스 판별장치

Claims (8)

  1. 사용자의 스트레스 판별을 위한 대상 음성을 획득하는 음성 획득부;
    복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 유무 판별을 위한 특성점수를 출력하도록 훈련된 머신러닝 모델을 이용하여, 상기 대상 음성에 대한 특성점수를 획득하는 추론부; 및
    상기 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 상기 사용자의 스트레스 유무를 판별하는 판별부
    를 포함하는 것을 특징으로 하는 스트레스 판별장치.
  2. 제1항에 있어서,
    상기 기준점수는,
    상기 사용자가 안정 상태에서 발화한 음성으로부터 산출된 것을 특징으로 하는, 스트레스 판별장치.
  3. 제2항에 있어서,
    상기 판별부는,
    상기 대상 음성으로부터 획득한 복수의 제1 특성점수들 간의 평균과 상기 사용자가 안정 상태에서 발화한 음성으로부터 획득한 복수의 제2 특성점수들 간의 평균을 비교하는 것을 특징으로 하는, 스트레스 판별장치.
  4. 제1항에 있어서,
    상기 대상 음성으로부터 주파수에 대한 정보를 추출하여 입력 데이터를 생성하는 전처리부를 더 포함하고,
    상기 추론부는, 상기 입력 데이터를 상기 머신러닝 모델에 입력하여 상기 대상 음성에 대한 특성점수를 획득하는 것을 특징으로 하는, 스트레스 판별장치.
  5. 제4항에 있어서,
    상기 전처리부는, 대상 음성을 일정 구간이 겹치는 복수의 음성으로 분할하여 복수의 입력 데이터를 생성하고,
    상기 추론부는, 상기 복수의 입력 데이터를 상기 머신러닝 모델에 각각 입력하여, 상기 대상 음성에 대한 복수의 특성점수를 획득하는 것을 특징으로 하는, 스트레스 판별장치.
  6. 제1항에 있어서,
    상기 음성 획득부는,
    복수의 중성적 질문들 중에서 임의로 선택된 질문을 상기 사용자에게 제공하고, 상기 질문에 대한 상기 사용자의 응답 음성을 상기 대상 음성으로 획득하는 것을 특징으로 하는, 스트레스 판별장치.
  7. 전자장치에 의해 수행되는 방법으로서,
    사용자의 스트레스 상태 판별을 위한 대상 음성을 획득하는 과정;
    복수의 피실험자들이 스트레스가 유도되기 전에 발화한 음성들 및 스트레스가 유도된 상태에서 발화한 음성들을 포함하는 데이터셋을 기반으로 스트레스 상태 판별을 위한 특성점수를 출력하도록 훈련된 머신러닝 모델을 이용하여, 상기 대상 음성에 대한 특성점수를 획득하는 과정; 및
    상기 대상 음성에 대한 특성점수를 미리 설정된 기준점수와 비교하여, 상기 사용자의 스트레스 유무를 판별하는 과정
    을 포함하는 것을 특징으로 하는, 방법.
  8. 제7항에 따른 방법이 포함하는 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
KR1020220121522A 2022-09-26 2022-09-26 음성 기반 스트레스 판별 방법 및 장치 KR20240042796A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220121522A KR20240042796A (ko) 2022-09-26 2022-09-26 음성 기반 스트레스 판별 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220121522A KR20240042796A (ko) 2022-09-26 2022-09-26 음성 기반 스트레스 판별 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20240042796A true KR20240042796A (ko) 2024-04-02

Family

ID=90714813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220121522A KR20240042796A (ko) 2022-09-26 2022-09-26 음성 기반 스트레스 판별 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20240042796A (ko)

Similar Documents

Publication Publication Date Title
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US20190102381A1 (en) Exemplar-based natural language processing
CN109964265B (zh) 使用标准化的分数标度和自适应评估引擎测量语言学习
Schädler et al. Matrix sentence intelligibility prediction using an automatic speech recognition system
CN111311327A (zh) 基于人工智能的服务评价方法、装置、设备及存储介质
US11354754B2 (en) Generating self-support metrics based on paralinguistic information
Pan et al. Re-examining the robustness of voice features in predicting depression: Compared with baseline of confounders
Yoshimura et al. A hierarchical predictor of synthetic speech naturalness using neural networks
Barreda Perceptual validation of vowel normalization methods for variationist research
Ismail et al. Development of a regional voice dataset and speaker classification based on machine learning
Kulikov Voice and emphasis in Arabic coronal stops: Evidence for phonological compensation
Ooi et al. Probably pleasant? A neural-probabilistic approach to automatic masker selection for urban soundscape augmentation
WO2020052135A1 (zh) 音乐推荐的方法、装置、计算装置和存储介质
Braber et al. Assessing the specificity and accuracy of accent judgments by lay listeners
US20210330241A1 (en) A computer-implemented method, an apparatus and a computer program product for determining an updated set of words for use in an auditory verbal learning test
AU2018102038A4 (en) A Speaker Identification Method Based on DTW Algorithm
KR20240042796A (ko) 음성 기반 스트레스 판별 방법 및 장치
KR102583434B1 (ko) 음성 상담의 품질 평가 방법 및 시스템
Lopez‐Otero et al. Influence of speaker de‐identification in depression detection
CN114694680A (zh) 话务员的服务评估方法、装置、存储介质及电子设备
Saukh et al. Quantle: fair and honest presentation coach in your pocket
Shinde et al. Breaking the silence: Innovation in wake word activation
RU2744063C1 (ru) Способ и система определения говорящего пользователя управляемого голосом устройства
WO2022236453A1 (zh) 一种声纹识别方法、歌手认证方法、电子设备及存储介质
CN113366567B (zh) 一种声纹识别方法、歌手认证方法、电子设备及存储介质