KR102475750B1 - Device and method for trauma screening in voice based on deep-learning - Google Patents

Device and method for trauma screening in voice based on deep-learning Download PDF

Info

Publication number
KR102475750B1
KR102475750B1 KR1020210132219A KR20210132219A KR102475750B1 KR 102475750 B1 KR102475750 B1 KR 102475750B1 KR 1020210132219 A KR1020210132219 A KR 1020210132219A KR 20210132219 A KR20210132219 A KR 20210132219A KR 102475750 B1 KR102475750 B1 KR 102475750B1
Authority
KR
South Korea
Prior art keywords
trauma
deep learning
data
emotion
voice
Prior art date
Application number
KR1020210132219A
Other languages
Korean (ko)
Other versions
KR20220066827A (en
Inventor
노유헌
이의철
김나혜
김소의
목지원
유수경
한나연
Original Assignee
주식회사 이모코그
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이모코그 filed Critical 주식회사 이모코그
Priority to EP21208181.4A priority Critical patent/EP4002384A1/en
Priority to US17/455,110 priority patent/US12087323B2/en
Priority to CN202111369746.6A priority patent/CN114512146A/en
Priority to JP2021186529A priority patent/JP7230156B2/en
Publication of KR20220066827A publication Critical patent/KR20220066827A/en
Priority to KR1020220167419A priority patent/KR20230006623A/en
Application granted granted Critical
Publication of KR102475750B1 publication Critical patent/KR102475750B1/en
Priority to JP2023021617A priority patent/JP2023065466A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 딥 러닝을 활용한 음성 기반 스크리닝 장치 및 방법은 비접촉식으로 공간이나 상황의 제약없이 획득할 수 있는 음성을 통해 트라우마를 스크리닝할 수 있다.The present invention relates to an apparatus and method for voice-based trauma screening using deep learning. According to an embodiment of the present invention, a voice-based screening apparatus and method using deep learning can screen trauma through a voice that can be obtained in a non-contact manner without restrictions of space or situation.

Description

딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법{DEVICE AND METHOD FOR TRAUMA SCREENING IN VOICE BASED ON DEEP-LEARNING}Voice-based trauma screening apparatus and method using deep learning {DEVICE AND METHOD FOR TRAUMA SCREENING IN VOICE BASED ON DEEP-LEARNING}

본 발명은 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법에 관한 것으로, 보다 상세하게는 음성 데이터를 딥 러닝하여 감정을 인식하고 트라우마 가능성을 추측하는 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for voice-based trauma screening using deep learning, and more particularly, to an apparatus and method for voice-based trauma screening using deep learning that recognizes emotions and infers the possibility of trauma by deep learning voice data. It is about.

오늘날 현대인은 공부, 취업 등 일상적인 사건부터 교통 사고, 범죄 등 심각한 사건에 이르기까지 다양한 스트레스에 노출되어 있다. 의학적 용어로 트라우마는 외상 후 스트레스 장애 (PTSD)라고 하며, 외부 외상 사건으로 인한 정신적 부상을 의미한다. 트라우마를 경험하는 사람들은 감정을 조절하고 안정시키는 데 어려움을 겪으며, 자발적 회복률은 트라우마 발생 후 1 년 이내에 60 % 이상으로 높지만 그 이후에는 급격히 떨어진다. 따라서 외상을 경험한 후 1 년 이내의 초기 치료는 외상 후유증에서 회복하는 데 매우 중요하다. 초기 치료를 위해서는 외상을 진단하기 위해 병원을 방문하고 상담하는 것이 필수적이지만, 정신 질환에 대한 사회적 편견으로 치료를 미루거나 외상을 인지하지 못해 진단 및 치료에 실패하는 경우가 많다.Today, modern people are exposed to various stresses ranging from everyday events such as study and employment to serious events such as traffic accidents and crimes. In medical terms, trauma is called post-traumatic stress disorder (PTSD), and it refers to psychological injuries caused by external traumatic events. People who experience trauma have difficulty regulating and stabilizing their emotions, and spontaneous recovery rates are as high as 60% or more within one year of trauma, but drop rapidly thereafter. Therefore, early treatment within 1 year after experiencing trauma is very important for recovery from traumatic sequelae. For initial treatment, it is essential to visit a hospital and consult to diagnose trauma, but diagnosis and treatment often fail because social prejudice against mental illness delays treatment or fails to recognize trauma.

최근 몇 년 동안 딥 러닝은 의사의 조기 진단을 돕기 위해 엔지니어링 기술과 의료 분야를 결합하는 데 사용되고 있다. 특히 음성은 환자의 감정을 파악하는 데 효과적인 감정과 의도를 담고 있고 환자가 거부감을 느끼지 않고 자연 환경에서 비접촉 방식으로 얻을 수 있어 널리 사용되고 있다. 더불어 연령 분류, 감정 인식 등 음성을 이용한 연구가 많이 진행되고 있지만 음성 분석을 이용한 외상 선별 연구는 진행되지 않고 있다.In recent years, deep learning is being used to combine engineering techniques with the medical field to help doctors make early diagnoses. In particular, voice is widely used because it contains emotions and intentions that are effective in identifying the patient's emotions and can be obtained in a non-contact manner in a natural environment without the patient feeling repulsive. In addition, many studies using voice, such as age classification and emotion recognition, are being conducted, but trauma screening studies using voice analysis have not been conducted.

본 발명의 배경기술은 대한민국 등록특허 제10-189765호에 게시되어 있다.The background art of the present invention is published in Korean Patent Registration No. 10-189765.

본 발명은 비접촉식으로 영상에 비해 상대적으로 거부감 없이 획득할 수 있는 음성을 이용해 트라우마를 스크리닝하는 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법을 제공한다.The present invention provides a voice-based trauma screening apparatus and method using deep learning that screens trauma using voice, which can be acquired relatively without objection compared to images in a non-contact manner.

본 발명은 음성 데이터를 이미지 데이터로 변환하여 트라우마를 스크리닝하는 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법을 제공한다.The present invention provides a voice-based trauma screening apparatus and method using deep learning for trauma screening by converting voice data into image data.

본 발명은 딥 러닝으로 음성의 감정을 인식한 후 후처리를 통해 인식의 정확도를 높인 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법을 제공한다.The present invention provides a voice-based trauma screening apparatus and method using deep learning in which the emotion of voice is recognized through deep learning and then the accuracy of recognition is increased through post-processing.

본 발명은 특정 상황이나 공간이 아니어도 편리하게 음성 하나만으로 감정을 인식할 수 있는 트라우마 진단에 도움이 되는 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법을 제공한다.The present invention provides an apparatus and method for voice-based trauma screening using deep learning, which is helpful in trauma diagnosis, in which emotions can be conveniently recognized with only voice, even if it is not in a specific situation or space.

본 발명의 일 측면에 따르면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치를 제공한다. According to one aspect of the present invention, a voice-based trauma screening device using deep learning is provided.

본 발명의 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치는 음성 데이터를 획득하는 입력부, 음성 데이터를 편집하는 전처리부, 편집된 음성 데이터를 이미지 데이터로 변환하는 변환부, 이미지 데이터로 감정을 인식하는 딥 러닝부 및 딥 러닝부의 결과값을 후처리하는 판단부를 포함할 수 있다.An audio-based trauma screening apparatus using deep learning according to an embodiment of the present invention includes an input unit for acquiring audio data, a pre-processing unit for editing audio data, a conversion unit for converting edited audio data into image data, and image data. It may include a deep learning unit that recognizes emotion and a determination unit that post-processes the result value of the deep learning unit.

본 발명의 다른 일 측면에 따르면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법 및 이를 실행하는 컴퓨터 프로그램이 기록된 컴퓨터가 판독 가능한 기록매체를 제공한다.According to another aspect of the present invention, a voice-based trauma screening method using deep learning and a computer-readable recording medium on which a computer program executing the method is recorded are provided.

본 발명의 일 실시 예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법 및 이를 실행하는 컴퓨터 프로그램이 저장된 기록매체는 음성 데이터를 획득하는 단계, 음성 데이터를 전처리하는 단계, 전처리된 음성 데이터를 이미지 데이터로 변환하는 단계, 이미지 데이터를 딥 러닝하는 단계 및 딥 러닝의 결과값을 후처리하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a voice-based trauma screening method using deep learning and a recording medium storing a computer program executing the same include steps of acquiring voice data, preprocessing the voice data, and converting the preprocessed voice data into image data. It may include converting to , performing deep learning on image data, and post-processing the result of deep learning.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.Other aspects, features and advantages other than those described above will become apparent from the following drawings, claims and detailed description of the invention.

본 발명의 일 실시 예에 따르면, 딥 러닝을 활용한 음성 기반 스크리닝 장치 및 방법은 비접촉식으로 공간이나 상황의 제약없이 획득할 수 있는 음성을 통해 트라우마를 스크리닝할 수 있다.According to an embodiment of the present invention, a voice-based screening apparatus and method using deep learning can screen trauma through a voice that can be obtained in a non-contact manner without restrictions of space or situation.

본 발명의 일 실시 예에 따르면, 음성 데이터를 이미지 데이터로 변환하여 딥 러닝으로 감정을 인식하고, 후처리하여 트라우마 스크리닝의 정확도를 높일 수 있다.According to an embodiment of the present invention, emotion can be recognized by deep learning by converting voice data into image data, and post-processing can increase the accuracy of trauma screening.

도 1은 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치의 블록도이다.
도 2는 일 실시예에 따른 음성 데이터를 이미지 데이터로 변환하는 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 이미지 데이터의 예시를 도시한 도면이다.
도 4는 일 실시예에 따른 딥 러닝 모델의 예시를 도시한 도면이다.
도 5는 일 실시예에 따른 윈도우 크기에 따른 딥 러닝 모델의 결과값을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법의 흐름도이다.
1 is a block diagram of an apparatus for voice-based trauma screening using deep learning according to an embodiment.
2 is a diagram for explaining a method of converting voice data into image data according to an exemplary embodiment.
3 is a diagram illustrating an example of image data according to an exemplary embodiment.
4 is a diagram illustrating an example of a deep learning model according to an embodiment.
5 is a diagram for explaining a result value of a deep learning model according to a window size according to an embodiment.
6 is a diagram for explaining a voice-based trauma screening method using deep learning according to an embodiment.
7 is a flowchart of a voice-based trauma screening method using deep learning according to an embodiment.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail through detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the present invention, if it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. Also, as used in this specification and claims, the terms "a" and "an" are generally to be construed to mean "one or more" unless stated otherwise.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. do it with

도 1 내지 도 5는 본 발명의 일 실시 예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치를 설명하기 위한 도면들이다.1 to 5 are diagrams for explaining an apparatus for voice-based trauma screening using deep learning according to an embodiment of the present invention.

도 1은 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치의 블록도이다.1 is a block diagram of an apparatus for voice-based trauma screening using deep learning according to an embodiment.

도 1을 참조하면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 입력부(100), 전처리부(200), 변환부(300), 딥 러닝부(400) 및 판단부(400)를 포함한다.Referring to FIG. 1 , the speech-based trauma screening apparatus 10 using deep learning includes an input unit 100, a pre-processing unit 200, a conversion unit 300, a deep learning unit 400, and a determination unit 400. include

딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 음성 데이터로 트라우마를 스크리닝한다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 트라우마의 유무를 판별하는 것이 아닌 트라우마를 스크리닝하는 것으로 비접촉식으로 자연스러운 환경에서 거부감없이 음성을 획득할 수 있다.The voice-based trauma screening device 10 using deep learning screens trauma with voice data. The voice-based trauma screening device 10 using deep learning screens for trauma rather than determining the presence or absence of trauma, and can acquire voice without feeling repulsive in a natural environment in a non-contact manner.

딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 행복, 중립, 슬픔 및 공포의 4가지 감정을 음성 데이터에서 인식하여 트라우마를 스크리닝한다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)가 4가지 감정을 이용하는 이유는 많은 사람들이 트라우마가 생긴 경우 많은 두려움을 느끼고 트라우마 후 시간이 지남에 따라 슬픔의 강도가 강해지고 종종 우울증으로 발전하기 때문이다. 트라우마 초기에는 두려움, 슬픔, 놀라움, 분노의 느낌이 눈에 띄고, 시간에 지남에 따라 분노가 약해지고 두려움과 슬픔이 강해진다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 음성 데이터에서 공포와 슬픈 감정이 인식되면 트라우마 확률이 높고, 중립적이고 행복한 감정이 나타날 때 트라우마 확률이 낮은 것으로 가정하고 트라우마를 스크리닝한다.The voice-based trauma screening device 10 using deep learning recognizes four emotions of happiness, neutrality, sadness, and fear from voice data and screens trauma. The reason why the voice-based trauma screening device using deep learning (10) uses 4 emotions is that many people feel a lot of fear when trauma occurs, and the intensity of sadness increases over time after trauma and often develops into depression. Because. At the beginning of the trauma, feelings of fear, sadness, surprise, and anger are prominent, and over time, the anger weakens and the fear and sadness intensify. The voice-based trauma screening apparatus 10 using deep learning assumes that the trauma probability is high when fear and sad emotions are recognized in voice data, and the trauma probability is low when neutral and happy emotions appear, and screens for trauma.

입력부(100)는 음성을 입력받아 음성 데이터를 생성하거나 음성 데이터를 입력받아 획득한다.The input unit 100 receives voice and generates voice data or receives and obtains voice data.

도 2는 일 실시예에 따른 음성 데이터를 이미지 데이터로 변환하는 방법을 설명하기 위한 도면이다.2 is a diagram for explaining a method of converting voice data into image data according to an exemplary embodiment.

도 2를 참조하면, 전처리부(200)는 획득된 음성 데이터를 이미지 데이터로 변환하기 위해 데이터 간의 길이 차를 없애고 음성 데이터의 수를 증가시킨다. 예를 들면 전처리부(200)는 0.1초 단위로 이동(shift)하면 2초 단위로 편집한다.Referring to FIG. 2 , the preprocessor 200 eliminates a length difference between data and increases the number of audio data in order to convert acquired audio data into image data. For example, if the pre-processing unit 200 shifts by 0.1 second units, it edits by 2 second units.

변환부(300)는 음성 데이터를 이미지 데이터로 변환한다. 자세히 설명하면 변환부(300)는 단시간 푸리에 변환(STFT, Short-Time Fourier Transform) 스펙트로그램(Spectrogram)을 이용하여 1차원 음성 데이터를 2차원 스펙트로그램(Spectrogram) 이미지 데이터로 변환한다. 예를 들면, 변환부(300)는 전처리된 음성 데이터를 초당 샘플링 수를 1024로 지정하여 빠른 푸리에 변환(FFT, Fast Fourier Transform)을 수행하고, 512 샘플만큼 오버 랩(Over-lap)하여 이동(shift)한다.The conversion unit 300 converts audio data into image data. In detail, the transform unit 300 converts one-dimensional audio data into two-dimensional spectrogram image data using a short-time Fourier transform (STFT) spectrogram. For example, the transform unit 300 designates the number of samples per second as 1024 for the preprocessed voice data, performs Fast Fourier Transform (FFT, Fast Fourier Transform), overlaps by 512 samples, and moves ( shift).

변환부(300)는 최소값-최대값 스케일러(min-max scaler)를 사용해 모든 이미지 데이터의 값이 0~1 사이에 있도록 스케일링한다. 최소값-최대값 스케일러(min-max scaler)는 최소값(Min)과 최대값(Max)을 사용해서 '0~1' 사이의 범위(range)로 데이터를 표준화한다.The conversion unit 300 scales all image data values to be between 0 and 1 using a min-max scaler. The min-max scaler standardizes data to a range between '0 and 1' using the minimum value (Min) and maximum value (Max).

도 3은 일 실시예에 따른 이미지 데이터의 예시를 도시한 도면이다.3 is a diagram illustrating an example of image data according to an exemplary embodiment.

도 3을 참조하면, 변화부(300)가 음성 데이터를 스펙트로그램 이미지 데이터로 변환한 결과를 확인할 수 있다.Referring to FIG. 3 , a result of the transformation unit 300 converting audio data into spectrogram image data can be confirmed.

딥 러닝부(400)는 스펙트로그램 이미지 데이터를 딥 러닝 모델의 입력값으로 하고 감정을 인식하도록 학습한다.The deep learning unit 400 uses the spectrogram image data as an input value of the deep learning model and learns to recognize emotions.

딥 러닝부(400)는 컨볼루션 신경망(CNN) 모델 중 시각적 형상 그룹-13(VGG-13, Visual Geometry Group-13)모델을 이용해 학습한다. 딥 러닝부(400)는 국내 방송과 영화에서 6가지 기본 감정(행복, 슬픔, 혐오감, 분노, 두려움, 놀라움)을 담은 음성을 추출하여 만든 한국어 음성 데이터 셋(dataset)을 이용한다. 한국어 음성 데이터 셋(dataset)에서 각 음성 데이터의 길이는 2~11초로 각 감정에 대해 총 600여개의 음성 데이터가 있다. 딥 러닝부(400)는 한국어 음성 데이터 셋 중에서 두려움, 슬픔, 중립 및 행복의 4가지 감정의 음성 데이터만을 이용하여 학습한다.The deep learning unit 400 learns using a Visual Geometry Group-13 (VGG-13) model among convolutional neural network (CNN) models. The deep learning unit 400 uses a Korean voice data set created by extracting voices containing six basic emotions (happiness, sadness, disgust, anger, fear, and surprise) from domestic broadcasting and movies. In the Korean voice data set, each voice data has a length of 2 to 11 seconds, and there are a total of about 600 voice data for each emotion. The deep learning unit 400 learns using only voice data of four emotions of fear, sadness, neutral, and happiness among Korean voice data sets.

도 4는 일 실시예에 따른 딥 러닝 모델의 예시를 도시한 도면이다.4 is a diagram illustrating an example of a deep learning model according to an embodiment.

도 4를 참조하면, 딥 러닝부(400)는 3*3 커널의 10개의 컨볼루션 계층(Conv-layer, convolutional layer), 5개의 최대 풀링 계층(Max pooling Layer) 및 3개의 전체 연결 계층(Fully connected layer)를 포함한다. 예를 들면, 딥 러닝부(400)는 288*432*3 크기의 스펙트로그램 이미지 데이터를 입력값으로 사용한다. 딥 러닝부(400)는 2개의 3*3 컨볼루션 계층(Conv-layer, convolutional layer) 다음에 2*2 커널의 최대 풀링 계층(Max pooling Layer)을 수행할 수 있다. 그런 다음 딥 러닝부(400)는 완전 연결 계층(Fully connected layer)을 통해 트라우마 스크리닝 값을 이진 분류인 0또는 1의 값으로 출력한다. 즉, 딥 러닝부(400)는 이진 분류로 트라우마가 있을 확률이 높은 경우 또는 없을 확률이 높은 경우를 출력한다.Referring to FIG. 4, the deep learning unit 400 includes 10 convolutional layers (Conv-layer, convolutional layer) of a 3 * 3 kernel, 5 max pooling layers, and 3 fully connected layers (Fully connected layer). For example, the deep learning unit 400 uses spectrogram image data having a size of 288*432*3 as an input value. The deep learning unit 400 may perform a maximum pooling layer of a 2*2 kernel after two 3*3 convolutional layers (Conv-layer, convolutional layer). Then, the deep learning unit 400 outputs the trauma screening value as a binary classification value of 0 or 1 through a fully connected layer. That is, the deep learning unit 400 outputs a case in which there is a high probability of trauma or a case in which there is no trauma by binary classification.

판단부(500)는 딥 러닝부(400)의 결과를 후저리하여 정확도를 높인다. 판단부(500)는 딥 러닝부(400)의 결과가 일정기간 일정하게 유지될 때 트라우마 여부를 스크리닝하여 최종 결과의 신뢰성을 향상시킨다. 예를 들면 판단부(500)는 윈도우 크기(window size)를 2-10으로 미리 설정할 수 있다. 판단부(500)는 딥 러닝부(400)의 결과가 설정된 윈도우 크기만큼 0 또는 1로 유지되면 최종적으로 트라우마 유무를 스크리닝한다.The determination unit 500 increases accuracy by processing the result of the deep learning unit 400 later. When the result of the deep learning unit 400 is maintained constant for a certain period of time, the determination unit 500 screens for trauma to improve the reliability of the final result. For example, the determination unit 500 may preset a window size of 2-10. When the result of the deep learning unit 400 is maintained at 0 or 1 as much as the set window size, the determination unit 500 finally screens for trauma.

도 5는 일 실시예에 따른 윈도우 크기에 따른 딥 러닝 모델의 결과값을 설명하기 위한 도면이다.5 is a diagram for explaining a result value of a deep learning model according to a window size according to an embodiment.

도 5를 참조하면, 판단부(500)는 윈도우 크기를 4~8로 설정하고, 설정된 윈도우 크기만큼 값이 유지되는 경우의 결과값만을 추출한다. 이렇게 하면 판단부(500)가 음성 데이터에서 인식한 감정의 정확도가 100%인 것을 확인할 수 있다. 윈도우 크기 1은 판단부(500)가 후처리를 수행하지 않는 경우로 정확도는 99.03 이지만, 윈도우 크기가 4~8로 선정하여 판단부(500)가 후처리한 경우 정확도가 100%인 것을 확인할 수 있다. 자세히 설명하면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)가 음성 데이터에서 정확한 감정을 인식하기 위해 100ms의 음성이 아닌 400~800ms 동안 음성을 이용하는 것이 정확도를 높이는 것이다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 음성 데이터가 400~800ms 동안 동일한 감정을 유지하면 해당 감정으로 판단할 수 있다. 따라서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 윈도우 크기가 4~8인 경우의 결과값만을 이용한다.Referring to FIG. 5 , the determination unit 500 sets the window size to 4 to 8 and extracts only the resultant value when the value is maintained as much as the set window size. In this way, it can be confirmed that the accuracy of the emotion recognized by the determination unit 500 in the voice data is 100%. A window size of 1 is a case where the determination unit 500 does not perform post-processing, and the accuracy is 99.03. However, when the window size is set to 4 to 8 and the determination unit 500 performs post-processing, it can be confirmed that the accuracy is 100%. have. In detail, the voice-based trauma screening device 10 using deep learning uses voice for 400 to 800 ms instead of 100 ms voice to increase accuracy in recognizing accurate emotions from voice data. The voice-based trauma screening device 10 using deep learning may determine the corresponding emotion when the voice data maintains the same emotion for 400 to 800 ms. Therefore, the voice-based trauma screening apparatus 10 using deep learning uses only the resultant value when the window size is 4 to 8.

도 6은 일 실시 예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법을 설명한 도면이다. 6 is a diagram illustrating a voice-based trauma screening method using deep learning according to an embodiment.

이하 설명하는 각 과정은 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치를 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치로 통칭하도록 한다.Each process described below is a process performed by each functional unit constituting a voice-based trauma screening device using deep learning, but for a concise and clear description of the present invention, the subject of each step is voice-based trauma screening using deep learning Let's call it a device.

단계 S610에서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 감정 인식일 필요한 음성 데이터를 획득한다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 음성을 직접 입력받아 음성 데이터를 생성하거나 생성된 음성 데이터를 입력받아 음성 데이터를 획득한다.In step S610, the voice-based trauma screening apparatus 10 using deep learning acquires voice data required for emotion recognition. The voice-based trauma screening apparatus 10 using deep learning receives voice directly and generates voice data or receives voice data and acquires voice data.

단계 S620에서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 감정 인식에 적합하도록 입력된 음성 데이터를 전처리한다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 음성 데이터의 길이를 동일하게 편집하고, 음성 데이터의 수를 증가(Augmentation)시킨다. 예를 들면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 0.1s 단위로 이동(shift)하면서 2s 단위로 음성 데이터를 자른다.In step S620, the voice-based trauma screening apparatus 10 using deep learning pre-processes the input voice data to be suitable for emotion recognition. The voice-based trauma screening apparatus 10 using deep learning edits the length of voice data to be the same and increases the number of voice data (augmentation). For example, the voice-based trauma screening apparatus 10 using deep learning cuts voice data in 2s units while shifting in units of 0.1s.

단계 S630에서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 전처리된 음성 데이터를 이미지 데이터로 변환한다. 자세히 설명하면, 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 이용해 2s 단위로 편집된 1차원 음성 데이터를 2차원 스펙트로그램(Spectrogram) 이미지 데이터로 변환한다. 예를 들면 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 전처리된 음성 데이터를 초당 샘플링 수를 1024로 지정하여 고속 푸리에 변환(FFT, Fast Fourier Transform)을 수행하고, 512 샘플만큼 오버랩(overlap)하며 이동(shift)시킨다. 그런 다음 모든 데이터의 값이 0~1사이이 있도록 최소값-최대값 스케일러(min-max scaler)를 통해 스케일링한다.In step S630, the voice-based trauma screening apparatus 10 using deep learning converts the pre-processed voice data into image data. In detail, the voice-based trauma screening device 10 using deep learning converts one-dimensional voice data edited in 2s units to two-dimensional spectrogram image data using Short Time Fourier Transform (STFT). convert to For example, the voice-based trauma screening device 10 using deep learning specifies the number of samples per second as 1024 for preprocessed voice data, performs Fast Fourier Transform (FFT), and overlaps by 512 samples. ) and shift. Then, scaling is performed through a min-max scaler so that all data values are between 0 and 1.

단계 S640에서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 스케일링된 스펙트로그램 이미지 데이터를 딥 러닝한다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 컨볼루션 신경망(CNN) 모델 중시각적 형상 그룹-13(VGG-13, Visual Geometry Group-13) 모델을 이용하여 감정 인식을 수행한다. 딥 러닝 모델에 관해서는 도4에 설명하고 있다.In step S640, the voice-based trauma screening apparatus 10 using deep learning deep-learns the scaled spectrogram image data. The speech-based trauma screening apparatus 10 using deep learning performs emotion recognition using a convolutional neural network (CNN) model, a Visual Geometry Group-13 (VGG-13) model. The deep learning model is described in FIG. 4 .

단계 S650에서 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 딥 러닝 모델을 사용해 나온 결과값을 후 처리하여 음성 기반 감정 인식의 정확도를 상승시킨다. 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치(10)는 윈도우 크기(window size)가 4~8인 경우 음성 기반 감정 인식의 정확도가 100%이므로 딥 러닝의 결과값이 윈도우 크기 4~8에 해당하는 경우에 그 결과값을 트라우마 스크리닝의 결과로 사용한다. In step S650, the speech-based trauma screening apparatus 10 using deep learning increases the accuracy of speech-based emotion recognition by post-processing the result value obtained using the deep learning model. In the voice-based trauma screening device 10 using deep learning, when the window size is 4 to 8, the accuracy of voice-based emotion recognition is 100%, so the deep learning result value corresponds to the window size 4 to 8 In this case, the result is used as the result of trauma screening.

도 7은 일 실시예에 따른 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법의 흐름도이다.7 is a flowchart of a voice-based trauma screening method using deep learning according to an embodiment.

도 7에 도시된 방법은 앞서 설명된 도면들에서 설명된 실시예들에 관련되므로, 이하 생략된 내용이라 할지라도, 앞서 도면들에서 설명된 내용들은 도 10의 방법에도 적용될 수 있다.Since the method shown in FIG. 7 is related to the embodiments described in the drawings described above, even if the content is omitted below, the content described in the drawings may also be applied to the method of FIG. 10 .

도 7을 참조하면, 단계 710에서 프로세서는 음성 데이터를 획득할 수 있다. Referring to FIG. 7 , in step 710, the processor may acquire voice data.

음성 데이터에는 컨텐츠 정보뿐만 아니라, 발화자의 감정이 반영될 수 있다.In the voice data, not only content information but also emotions of the speaker may be reflected.

단계 720에서 프로세서는 음성 데이터를 전처리할 수 있다.In step 720, the processor may pre-process the voice data.

일 실시예에서, 음성 데이터가 소정의 길이를 갖는 데이터가 되도록, 소정의 시간 단위로 시프트(shift)함으로써 상기 음성 데이터를 전처리할 수 있다. 프로세서는 전처리 과정을 통해 음성 데이터 간 길이 차이를 없애고 음성 데이터의 개수를 늘릴 수 있다.In one embodiment, the voice data may be pre-processed by shifting the voice data by a predetermined time unit so that the voice data becomes data having a predetermined length. The processor may eliminate a length difference between voice data and increase the number of voice data through a preprocessing process.

단계 730에서 프로세서는 전처리된 음성 데이터를 이미지 데이터로 변환할 수 있다.In step 730, the processor may convert the preprocessed voice data into image data.

프로세서는 전처리된 음성 데이터를 단시간 푸리에 변환하여 2차원 데이터를 생성하고, 생성된 2차원 데이터를 이미지 데이터로 활용할 수 있다.The processor may perform short-time Fourier transform on the preprocessed voice data to generate 2D data and utilize the generated 2D data as image data.

단계 740에서 프로세서는 이미지 데이터를 딥 러닝 모델에 입력하고, 딥러닝 모델의 출력값으로 트라우마 결과값을 획득할 수 있다. In step 740, the processor may input the image data to the deep learning model and obtain a trauma result value as an output value of the deep learning model.

트라우마 결과값이 1인 경우 해당 음성 데이터의 발화자가 트라우마를 갖고 있을 확률이 높고, 트라우마 결과값이 0인 경우 해당 음성 데이터의 발화자가 트라우마를 갖고 있을 확률이 낮을 수 있다.If the trauma result value is 1, the probability that the speaker of the corresponding voice data has trauma is high, and if the trauma result value is 0, the probability that the speaker of the corresponding voice data has trauma may be low.

일 실시예에서, 프로세서는 이미지 데이터를 딥 러닝 모델에 입력하고, 딥러닝 모델의 출력값으로 감정 결과값을 획득할 수 있다. 감정 결과값은 제1 감정 분류 또는 제2 감정 분류로 구분될 수 있다. 예를 들어, 제1 감정 분류는 트라우마와 연관도가 낮은 중립(neutral) 및 행복(happy)을 포함할 수 있고, 제2 감정 분류는 트라우마와 연관도가 높은 두려움(fear), 슬픔(sad), 분노(angry), 놀람(surprise)을 포함할 수 있으나, 제1 감정 분류 및 제2 감정 분류는 상술한 예로 제한되지 않는다.In one embodiment, the processor may input image data to a deep learning model and obtain an emotion result value as an output value of the deep learning model. Emotion result values may be classified into a first emotion classification or a second emotion classification. For example, the first emotion classification may include neutral and happy, which have a low relationship with trauma, and the second emotion classification may include fear and sadness, which have a high relationship with trauma. , anger, and surprise, but the first emotion classification and the second emotion classification are not limited to the above example.

일 실시예에서, 프로세서는 딥러닝 모델의 출력값으로 획득한 감정 결과값에 기초하여 트라우마의 단계를 결정할 수 있다. 감정 결과값은 제1 감정 분류, 제2 감정 분류 및 제3 감정 분류로 구분될 수 있다.In one embodiment, the processor may determine the stage of trauma based on the emotional result value obtained as the output value of the deep learning model. Emotion result values may be classified into a first emotion classification, a second emotion classification, and a third emotion classification.

예를 들어, 제1 감정 분류는 트라우마와 연관도가 낮은 중립(neutral) 및 행복(happy)을 포함할 수 있고, 제2 감정 분류는 트라우마가 발생한 초기에 갖게 되는 감정인 두려움(fear), 놀람(surprise)을 포함할 수 있고, 제3 감정 분류는 트라우마가 발생한 후 소정의 시간이 지난 이후 두드러지게 갖게 되는 슬픔(sad), 분노(angry)를 포함할 수 있다.For example, the first emotion classification may include neutral and happy, which are not related to trauma, and the second emotion classification includes fear, surprise ( surprise), and the third emotion classification may include sadness and anger that become prominent after a predetermined period of time has elapsed after the occurrence of trauma.

예를 들어, 프로세서는 딥러닝 모델의 출력값으로 획득한 감정 결과값이 제2 감정 분류인 경우 음성 데이터의 발화자의 트라우마 단계가 초기인 것으로 결정할 수 있다.For example, when the emotion result obtained as the output value of the deep learning model is the second emotion classification, the processor may determine that the trauma stage of the speaker of the voice data is an initial stage.

도 8은 일 실시예에 따른 장치의 블록도이다.8 is a block diagram of a device according to an embodiment.

도 8을 참조하면, 장치(1100)는 통신부(1110), 프로세서(1120) 및 DB(1130)를 포함할 수 있다. 도 8의 장치(1100)에는 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 8에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.Referring to FIG. 8 , the device 1100 may include a communication unit 1110, a processor 1120, and a DB 1130. In the device 1100 of FIG. 8 , only components related to the embodiment are shown. Accordingly, those skilled in the art can understand that other general-purpose components may be further included in addition to the components shown in FIG. 8 .

통신부(810)는 외부 서버 또는 외부 장치와 유선/무선 통신을 하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신부(810)는, 근거리 통신부(미도시), 이동 통신부(미도시) 및 방송 수신부(미도시) 중 적어도 하나를 포함할 수 있다.The communication unit 810 may include one or more components that enable wired/wireless communication with an external server or external device. For example, the communication unit 810 may include at least one of a short-range communication unit (not shown), a mobile communication unit (not shown), and a broadcast reception unit (not shown).

DB(830)는 장치(800) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 프로세서(820)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. The DB 830 is hardware for storing various data processed in the device 800, and may store programs for processing and controlling the processor 820.

DB(830)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.The DB 830 includes random access memory (RAM) such as dynamic random access memory (DRAM) and static random access memory (SRAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), and CD-ROM. ROM, Blu-ray or other optical disk storage, hard disk drive (HDD), solid state drive (SSD), or flash memory.

프로세서(820)는 장치(800)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(820)는 DB(830)에 저장된 프로그램들을 실행함으로써, 입력부(미도시), 디스플레이(미도시), 통신부(810), DB(830) 등을 전반적으로 제어할 수 있다. 프로세서(820)는, DB(830)에 저장된 프로그램들을 실행함으로써, 차선 결정 장치(800)의 동작을 제어할 수 있다.The processor 820 controls the overall operation of the device 800. For example, the processor 820 may generally control an input unit (not shown), a display (not shown), a communication unit 810, and the DB 830 by executing programs stored in the DB 830. The processor 820 may control the operation of the lane determining device 800 by executing programs stored in the DB 830 .

프로세서(820)는 도 1 내지 도 7에서 상술한 차선 결정 장치의 동작 중 적어도 일부를 제어할 수 있다.The processor 820 may control at least some of the operations of the lane determining device described above with reference to FIGS. 1 to 7 .

프로세서(820)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 이용하여 구현될 수 있다.The processor 820 may include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), controllers, and microcontrollers. It may be implemented using at least one of micro-controllers, microprocessors, and electrical units for performing other functions.

한편, 프로세서(820)는 딥 러닝 모델의 학습 및 추론을 수행하는 데이터 학습부 및 데이터 인식부를 포함할 수 있다.Meanwhile, the processor 820 may include a data learning unit and a data recognizing unit that perform learning and inference of a deep learning model.

데이터 학습부는 상황 판단을 위한 기준을 학습할 수 있다. 데이터 학습부는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 학습부는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.The data learning unit may learn criteria for determining a situation. The data learning unit may learn criteria for what kind of data to use to determine a predetermined situation and how to determine a situation using the data. The data learning unit may acquire data to be used for learning and learn criteria for determining a situation by applying the obtained data to a data recognition model to be described later.

데이터 인식부는 데이터에 기초한 상황을 판단할 수 있다. 데이터 인식부는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.The data recognizing unit may determine a situation based on the data. The data recognizer may recognize a situation from predetermined data using the learned data recognition model. The data recognizing unit may acquire predetermined data according to a predetermined criterion by learning, and determine a predetermined situation based on the predetermined data by using a data recognition model using the acquired data as an input value. In addition, result values output by the data recognition model using the acquired data as input values may be used to update the data recognition model.

데이터 학습부 및 데이터 인식부 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부 및 데이터 인식부 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data learning unit and the data recognizing unit may be manufactured in the form of at least one hardware chip and mounted in an electronic device. For example, at least one of the data learning unit and the data recognizing unit may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or a conventional general-purpose processor (eg, CPU or application processor) or graphics It may be manufactured as a part of a dedicated processor (eg GPU) and mounted in various electronic devices described above.

이 경우, 데이터 학습부 및 데이터 인식부는 하나의 전자 장치(예를 들어, 차선 결정 장치)에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부 및 데이터 인식부 중 하나는 차선 결정 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 유선 또는 무선으로 통하여, 데이터 학습부가 구축한 모델 정보를 데이터 인식부로 제공할 수도 있고, 데이터 인식부로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부로 제공될 수도 있다.In this case, the data learning unit and the data recognizing unit may be mounted on one electronic device (eg, lane determining device) or may be mounted on separate electronic devices. For example, one of the data learning unit and the data recognizing unit may be included in the lane determining device, and the other may be included in the server. In addition, the data learning unit and the data recognizing unit may provide model information built by the data learning unit to the data recognizing unit through wired or wireless communication, and data input to the data recognizing unit may be provided to the data learning unit as additional learning data.

본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.Embodiments according to the present invention may be implemented in the form of a computer program that can be executed on a computer through various components, and such a computer program may be recorded on a computer-readable medium. At this time, the medium is a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, an optical recording medium such as a CD-ROM and a DVD, a magneto-optical medium such as a floptical disk, and a ROM hardware devices specially configured to store and execute program instructions, such as RAM, flash memory, and the like.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.Meanwhile, the computer program may be specially designed and configured for the present invention, or may be known and usable to those skilled in the art of computer software. An example of a computer program may include not only machine language code generated by a compiler but also high-level language code that can be executed by a computer using an interpreter or the like.

일 실시예에 따르면, 본 개시의 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, the method according to various embodiments of the present disclosure may be included and provided in a computer program product. Computer program products may be traded between sellers and buyers as commodities. A computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play Store™) or between two user devices. It can be distributed (e.g., downloaded or uploaded) directly or online. In the case of online distribution, at least part of the computer program product may be temporarily stored or temporarily created in a device-readable storage medium such as a manufacturer's server, an application store server, or a relay server's memory.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.The steps constituting the method according to the present invention may be performed in any suitable order unless an order is explicitly stated or stated to the contrary. The present invention is not necessarily limited according to the order of description of the steps. The use of all examples or exemplary terms (eg, etc.) in the present invention is simply to explain the present invention in detail, and the scope of the present invention is limited due to the examples or exemplary terms unless limited by the claims. it is not going to be In addition, those skilled in the art can appreciate that various modifications, combinations and changes can be made according to design conditions and factors within the scope of the appended claims or equivalents thereof.

따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments and should not be determined, and all scopes equivalent to or equivalently changed from the claims as well as the claims described below are within the scope of the spirit of the present invention. will be said to belong to

10: 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치
100: 입력부
200: 전처리부
300: 변환부
400: 딥 러닝부
500: 판단부
10: Voice-based trauma screening device using deep learning
100: input unit
200: pre-processing unit
300: conversion unit
400: deep learning unit
500: judgment unit

Claims (5)

딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치에 있어서,
적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써 연산을 수행하는 프로세서를 포함하고,
상기 프로세서는,
음성 데이터를 획득하고,
상기 음성 데이터를 전처리하고,
상기 전처리된 음성 데이터를 이미지 데이터로 변환하며,
상기 이미지 데이터를 딥 러닝 모델에 입력하고, 상기 딥 러닝 모델의 출력값으로 트라우마 결과값을 획득하며,
상기 프로세서는,
상기 딥 러닝 모델의 출력값으로, 제 1 감정 분류, 제 2 감정 분류 및 제 3 감정 분류를 포함하는 감정 결과값을 획득하되, 소정의 감정 분류가 기설정된 윈도우 크기 이상으로 유지되는 경우에만 감정 결과값을 획득하고,
상기 감정 결과값이 제 2 감정 분류 및 제 3 감정 분류 중 적어도 하나를 나타내는 경우, 트라우마가 존재하는 것으로 결정하며,
상기 감정 결과값이 제2 감정 분류인 경우 트라우마의 단계가 초기이고, 상기 감정 결과값이 제 3 감정 분류인 경우 트라우마의 단계가 초기 이후인 것으로 결정하는 것인, 장치.
In the voice-based trauma screening device using deep learning,
a memory in which at least one program is stored; and
a processor that performs calculations by executing the at least one program;
the processor,
Acquiring voice data;
pre-processing the voice data;
converting the preprocessed audio data into image data;
Inputting the image data to a deep learning model, obtaining a trauma result value as an output value of the deep learning model,
the processor,
As the output value of the deep learning model, an emotion result value including a first emotion classification, a second emotion classification, and a third emotion classification is obtained, and the emotion result value is obtained only when a predetermined emotion classification is maintained over a predetermined window size. to obtain,
When the emotion result value indicates at least one of a second emotion classification and a third emotion classification, it is determined that trauma exists;
and determining that the stage of trauma is an initial stage when the emotional result value is a second emotion classification, and that the stage of trauma is an initial stage or later when the emotional result value is a third emotion classification.
제 1 항에 있어서,
상기 프로세서는,
상기 음성 데이터가 소정의 길이를 갖는 데이터가 되도록, 소정의 시간 단위로 시프트(shift)함으로써 상기 음성 데이터를 전처리하는 것인, 장치.
According to claim 1,
the processor,
and pre-processing the voice data by shifting the voice data by a predetermined time unit so that the voice data becomes data having a predetermined length.
제 1 항에 있어서,
상기 프로세서는,
상기 전처리된 음성 데이터를 단시간 푸리에 변환하여 2차원 데이터를 생성하고,
상기 2차원 데이터를 이미지 데이터로 활용하여 상기 딥 러닝 모델에 입력하는 것인, 장치.
According to claim 1,
the processor,
generating two-dimensional data by short-time Fourier transforming the preprocessed voice data;
Utilizing the two-dimensional data as image data and inputting the deep learning model to the apparatus.
딥 러닝을 활용한 음성 기반 트라우마 스크리닝 방법에 있어서,
음성 데이터를 획득하는 단계;,
상기 음성 데이터를 전처리하는 단계;
상기 전처리된 음성 데이터를 이미지 데이터로 변환하는 단계; 및
상기 이미지 데이터를 딥 러닝 모델에 입력하고, 상기 딥 러닝 모델의 출력값으로 트라우마 결과값을 획득하는 단계;
를 포함하며,
상기 획득하는 단계는,
상기 딥 러닝 모델의 출력값으로, 제 1 감정 분류, 제 2 감정 분류 및 제 3 감정 분류를 포함하는 감정 결과값을 획득하되, 소정의 감정 분류가 기설정된 윈도우 크기 이상으로 유지되는 경우에만 감정 결과값을 획득하는 단계;
상기 감정 결과값이 제 2 감정 분류 및 제 3 감정 분류 중 적어도 하나를 나타내는 경우, 트라우마가 존재하는 것으로 결정하는 단계 및
상기 감정 결과값이 제 2 감정 분류인 경우 트라우마의 단계가 초기이고, 상기 감정 결과값이 제 3 감정 분류인 경우 트라우마의 단계가 초기 이후인 것으로 결정하는 단계;
를 포함하는, 방법.
In the voice-based trauma screening method using deep learning,
acquiring voice data;
pre-processing the voice data;
converting the preprocessed audio data into image data; and
inputting the image data to a deep learning model, and obtaining a trauma result value as an output value of the deep learning model;
Including,
The obtaining step is
As the output value of the deep learning model, an emotion result value including a first emotion classification, a second emotion classification, and a third emotion classification is obtained, and the emotion result value is obtained only when a predetermined emotion classification is maintained over a predetermined window size. obtaining;
determining that trauma exists when the emotion result value indicates at least one of a second emotion classification and a third emotion classification; and
determining that the trauma stage is initial when the emotion result value is a second emotion classification, and that the trauma stage is an initial or later trauma stage when the emotion result value is a third emotion classification;
Including, method.
제 4 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium recording a program for executing the method of claim 4 on a computer.
KR1020210132219A 2020-11-16 2021-10-06 Device and method for trauma screening in voice based on deep-learning KR102475750B1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP21208181.4A EP4002384A1 (en) 2020-11-16 2021-11-15 Device and method for voice-based trauma screening using deep-learning
US17/455,110 US12087323B2 (en) 2020-11-16 2021-11-16 Device and method for voice-based trauma screening using deep-learning
CN202111369746.6A CN114512146A (en) 2020-11-16 2021-11-16 Voice-based wound screening device and method using deep learning
JP2021186529A JP7230156B2 (en) 2020-11-16 2021-11-16 Voice-based trauma screening device and method using deep learning
KR1020220167419A KR20230006623A (en) 2020-11-16 2022-12-05 Device and method for trauma screening in voice based on deep-learning
JP2023021617A JP2023065466A (en) 2020-11-16 2023-02-15 Voice-based trauma screening device and method using deep learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200152939 2020-11-16
KR20200152939 2020-11-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220167419A Division KR20230006623A (en) 2020-11-16 2022-12-05 Device and method for trauma screening in voice based on deep-learning

Publications (2)

Publication Number Publication Date
KR20220066827A KR20220066827A (en) 2022-05-24
KR102475750B1 true KR102475750B1 (en) 2022-12-08

Family

ID=81805833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210132219A KR102475750B1 (en) 2020-11-16 2021-10-06 Device and method for trauma screening in voice based on deep-learning

Country Status (1)

Country Link
KR (1) KR102475750B1 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102221513B1 (en) * 2019-02-28 2021-03-03 전남대학교산학협력단 Voice emotion recognition method and system
KR102195246B1 (en) * 2019-03-15 2020-12-24 숭실대학교산학협력단 Method of emotion recognition using audio signal, computer readable medium and apparatus for performing the method
KR20190087353A (en) * 2019-07-05 2019-07-24 엘지전자 주식회사 Apparatus and method for inspecting speech recognition

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
김나혜 외, ‘트라우마 초기 진단을 위한 음성 기반 감정 분류 방법’, 차세대융합기술학회 논문지, 제4권제5호, 2020.10.*
이지은 외, '다중 모달 생체신호를 이용한 딥러닝 기반 감정 분류', 멀티미디어학회 논문지, 2020.02.
최희원 외, ‘CNN 기반 전이학습을 이용한 음성 감정 인식’, 한국지능시스템학회 논문지, 2019.*

Also Published As

Publication number Publication date
KR20220066827A (en) 2022-05-24

Similar Documents

Publication Publication Date Title
CN112771607B (en) Electronic apparatus and control method thereof
US20200394998A1 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
CN106773923B (en) Multi-mode emotion data interaction method and device for robot
US11289083B2 (en) Electronic apparatus and method for controlling thereof
WO2023124933A1 (en) Virtual digital person video generation method and device, storage medium, and terminal
Kamińska et al. Recognition of human emotion from a speech signal based on Plutchik's model
Fang et al. Facial expression GAN for voice-driven face generation
US20220165247A1 (en) Method for generating synthetic speech and speech synthesis system
CN114387946A (en) Training method of speech synthesis model and speech synthesis method
CN117352000A (en) Speech classification method, device, electronic equipment and computer readable medium
Iskhakova et al. Method for reducing the feature space dimension in speech emotion recognition using convolutional neural networks
US11600263B1 (en) Natural language configuration and operation for tangible games
KR102475750B1 (en) Device and method for trauma screening in voice based on deep-learning
US12087323B2 (en) Device and method for voice-based trauma screening using deep-learning
WO2023159536A1 (en) Human-computer interaction method and apparatus, and terminal device
Jaiswal et al. A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech
US11645947B1 (en) Natural language configuration and operation for tangible games
Kumar et al. Efficient speech to emotion recognition using convolutional neural network
Schuller et al. Speech communication and multimodal interfaces
Yang et al. Speech emotion recognition based on multi-feature speed rate and LSTM
Ivanko et al. Developing of a software–hardware complex for automatic audio–Visual speech recognition in human–robot interfaces
Paraskevopoulou et al. A Data Augmentation Approach for Improving the Performance of Speech Emotion Recognition.
KR102463589B1 (en) Method and tts system for determining the reference section of speech data based on the length of the mel-spectrogram
US20240320519A1 (en) Systems and methods for providing a digital human in a virtual environment
Reddy et al. Fusion Based AER System Using Deep Learning Approach for Amplitude and Frequency Analysis

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant