KR102495725B1 - 자기 대화 장치 및 그 방법 - Google Patents

자기 대화 장치 및 그 방법 Download PDF

Info

Publication number
KR102495725B1
KR102495725B1 KR1020220037415A KR20220037415A KR102495725B1 KR 102495725 B1 KR102495725 B1 KR 102495725B1 KR 1020220037415 A KR1020220037415 A KR 1020220037415A KR 20220037415 A KR20220037415 A KR 20220037415A KR 102495725 B1 KR102495725 B1 KR 102495725B1
Authority
KR
South Korea
Prior art keywords
user
self
talk
processor
voice
Prior art date
Application number
KR1020220037415A
Other languages
English (en)
Inventor
정훈엽
이지항
안정환
진상호
박찬미
문수현
Original Assignee
주식회사 하이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하이 filed Critical 주식회사 하이
Priority to KR1020220037415A priority Critical patent/KR102495725B1/ko
Application granted granted Critical
Publication of KR102495725B1 publication Critical patent/KR102495725B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02405Determining heart rate variability
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Psychiatry (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

상기 사용자의 음성을 수집하는 마이크; 상기 사용자에게 청각 정보를 전달하도록 구성된 스피커; 상기 사용자의 얼굴 이미지를 획득하는 카메라; 상기 마이크, 상기 스피커 및 상기 카메라를 제어하는 프로세서; 및 상기 프로세서에 의해 액세스될 수 있고 실행 가능 명령어를 저장하도록 구성되는 메모리를 포함하는 장치를 이용한 자기 대화 방법이 제공된다. 자기 대화 방법은 상기 프로세서에 의해 상기 메모리에 저장된 텍스트를 상기 사용자에게 제공하는 단계; 상기 프로세서에 의해 상기 사용자가 상기 텍스트를 발화하는 음성을 수신하여 음성 데이터로 상기 메모리에 저장하는 단계; 및 상기 프로세서에 의해 상기 음성 데이터를 변환하여 변조된 음성을 상기 사용자에게 제공하는 단계를 포함하는 태스크 제공 단계; 및 상기 프로세서에 의해 상기 사용자의 얼굴 이미지로부터 상기 사용자의 심박변이도를 측정하는 단계; 상기 프로세서에 의해 상기 심박변이도를 분석하여 상기 사용자의 심리 상태를 나타내는 수치들을 획득하는 단계; 및 상기 사용자에게 상기 수치에 기초한 피드백을 제공하는 단계를 포함하는 피드백 제공 단계를 포함한다.

Description

자기 대화 장치 및 그 방법{SELF-TALK DEVICE AND METHOD THEREFOR}
본 개시는 사람의 불안한 심리 상태를 완화하기 위해 자기 대화를 제공하는 장치 및 방법에 관한 것으로, 보다 구체적으로는, 사용자 별로 적합한 콘텐츠를 제공하여 자기 대화 방식으로 사용자의 심리적 유연성을 증진시키는 자기 대화 장치 및 방법에 관한 것이다.
세계보건기구가 2018년에 발표한 자료에 따르면 전 세계적으로 우울과 불안감으로 고통받고 있는 사람의 수가 각 3억 명을 넘었으며, 특히 최근 COVID-19 바이러스에 따른 팬데믹 상황으로 인해 우울증과 불안감을 경험하고 있는 인구수는 더욱 급증하고 있다. 우울증 또는 불안감이 진행되면 개인의 신체 기능 및 수행 능력에 영향을 줄 수 있다. 이러한 정신적. 신체적 활동을 제한하는 우울, 불안을 완화해야 할 필요성은 크게 요구되고 있지만, 사람들의 부정적 시각과 사회적 낙인에 대한 두려움, 그리고 금전적 부담 등과 같은 다양한 이유로 인해 우울과 불안으로 고통받는 사람들의 적극적인 치료 참여가 어렵다.
최근 심리적 해결을 위해 접근성이 높고, 금전적 부담이 적은 스마트폰 애플리케이션을 통한 자기 대화 서비스, 마음챙김(mindfulness)이 많이 소개되고 있으며, 이에 대한 사용자들의 니즈와 관심이 점점 커지고 있다. 하지만, 애플리케이션을 통한 자기 대화의 경우 실시간 제공이 어렵다는 점과 비대면으로 진행되는 상담일지라도 타인에게 사용자가 자신의 정보를 드러내는 것에 대한 우려가 있다는 것에 한계점이 있다.
또한, 마음챙김과 같은 웰니스 서비스의 경우, 사용자들에게 제공되는 콘텐츠의 경우 구체적으로 우울과 불안을 겪는 사람들이 부적응적 자기초점주의를 탈피할 수 있도록 자신에게 주의의 초점을 자신과 관련되지 않은 외부의 정보로 이동시키는 주의전환 기법을 제시하는 경우가 많다. 그러나 이러한 외부 정보로의 주의전환 방법은 우울과 불안 등의 심리적 어려움을 겪는 사람들에게 너무나 많은 어려움을 요하고 자신에 대한 사고 억압성과 회피성을 증가시킴으로써 우울과 불안이 재발될 수 있으며, 이에 따라 장기적이고 지속적인 해결에는 한계가 있음이 지적되었다.
즉, 현재로는 애플리케이션을 통한 우울, 불안 완화 방법이 비대면 상담과 마음챙김과 같은 웰니스 서비스를 단방향적으로 소비하는 방법은 제한적이고 효과 높은 해결책을 제시하지 못한다.
국특허 등록번호 제10-1683310호 한국특허 등록번호 제10-1689021호 한국특허 등록번호 제10-1706123호 한국특허 공개번호 제2020-0065248호 한국특허 공개번호 제2018-0060060호 한국특허 공개번호 제2019-0125154호 한국특허 공개번호 제2020-0113775호
본 개시는 우울증이나 불안 증상을 경험하는 사용자가 스스로 감정 정보를 모니터링할 수 있는 자기 대화 장치 및 그 방법을 제공한다. 또, 본 개시는 우울증이나 불안 증상을 경험하는 사용자 각각에게 맞춤 콘텐츠를 제공하고, 사용자 스스로의 목소리를 듣는 자기 대화를 통해 자기 대화를 제공하는 장치 및 방법을 제공한다. 본 개시에 따른 방법 및 장치는 자기 대화를 통해 자기 대화를 하는 경우 사용자의 심리 상태가 어느 정도 개선되고 있는지에 대한 피드백을 통지한다. 따라서, 사용자는 자신의 심리 상태를 수치로 확인할 수 있고 자기 대화를 통한 자기 대화의 목표를 설정하거나 본 개시의 방법에 따라 성취감을 느낄 수 있다.
본 개시의 일 형태는 상기 사용자의 음성을 수집하는 마이크; 상기 사용자에게 청각 정보를 전달하도록 구성된 스피커; 상기 사용자의 얼굴 이미지를 획득하는 카메라; 상기 마이크, 상기 스피커 및 상기 카메라를 제어하는 프로세서; 및 상기 프로세서에 의해 액세스될 수 있고 실행 가능 명령어를 저장하도록 구성되는 메모리를 포함하는 장치를 이용한 자기 대화 방법을 제공한다. 자기 대화 방법은 상기 프로세서에 의해 상기 메모리에 저장된 텍스트를 상기 사용자에게 제공하는 단계; 상기 프로세서에 의해 상기 사용자가 상기 텍스트를 발화하는 음성을 수신하여 음성 데이터로 상기 메모리에 저장하는 단계; 및 상기 프로세서에 의해 상기 음성 데이터를 변환하여 변조된 음성을 상기 사용자에게 제공하는 단계를 포함하는 태스크 제공 단계; 및 상기 프로세서에 의해 상기 사용자의 얼굴 이미지로부터 상기 사용자의 심박변이도를 측정하는 단계; 상기 프로세서에 의해 상기 심박변이도를 분석하여 상기 사용자의 심리 상태를 나타내는 수치들을 획득하는 단계; 및 상기 사용자에게 상기 수치에 기초한 피드백을 제공하는 단계를 포함하는 피드백 제공 단계를 포함한다.
일 실시예에서, 상기 피드백 제공 단계의 상기 사용자의 심박변이도를 측정하는 단계는 상기 태스크 제공 단계가 제공되기 전에 상기 사용자에게 제공될 수 있다.
일 실시예에서, 상기 피드백 제공 단계의 상기 심박변이도를 분석하여 상기 사용자의 심리 상태를 나타내는 수치들을 획득하는 단계는 RMSSD(Root mean square of the differences between adjacent RR intervals), TP(Total Power), 표준 저주파 전력(Low frequency, LF), 표준 고주파 전력(High frequency, HF) 및 고주파와 저주파의 비율(LF/HF ratio) 중 적어도 하나에 기초하여 수행될 수 있다.
일 실시예에서, 상기 피드백 제공 단계의 상기 사용자에게 상기 수치에 기초한 피드백을 제공하는 단계는 심박변이도의 항목별 용어 및 심박변이도 항목별에 대한 상태 안내 용어를 제공하는 단계를 포함할 수 있다.
일 실시예에서, 상기 태스크 제공 단계는 제1 시점에 수행되는 제1 태스크 제공 단계 및 상기 제1 시점 이후인 제2 시점에 수행되는 제2 태스크 제공 단계를 포함할 수 있다. 상기 피드백 제공 단계는 상기 제1 태스크 제공 단계에 대응하는 제1 피드백 제공 단계 및 상기 제2 태스크 제공 단계에 대응하는 제2 피드백 제공 단계를 포함할 수 있다. 상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 비교하여 비교 결과를 제공하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 태스크 제공 단계는 제1 시점에 수행되는 제1 태스크 제공 단계 및 상기 제1 시점 이후인 제2 시점에 수행되는 제2 태스크 제공 단계를 포함할 수 있다. 상기 피드백 제공 단계는 상기 제1 태스크 제공 단계에 대응하는 제1 피드백 제공 단계 및 상기 제2 태스크 제공 단계에 대응하는 제2 피드백 제공 단계를 포함할 수 있다. 상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 시계열 적으로 제공할 수 있다.
일 실시예에서, 상기 태스크 제공 단계 이전에, 상기 프로세서에 의해 상기 사용자에게 상기 사용자의 심박변이도를 측정의 가이드를 통지하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 태스크 제공 단계는 제1 시점에 수행되는 제1 태스크 제공 단계 및 상기 제1 시점 이후인 제2 시점에 수행되는 제2 태스크 제공 단계를 포함할 수 있다. 상기 피드백 제공 단계는 상기 제1 태스크 제공 단계에 대응하는 제1 피드백 제공 단계 및 상기 제2 태스크 제공 단계에 대응하는 제2 피드백 제공 단계를 포함할 수 있다. 상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 비교하여 비교 결과에 따라 사용자에게 코멘트와 이미지를 제공하는 단계를 더 포함할 수 있다.
본 개시의 일 형태에 따르면, 메모리, 마이크, 스피커, 카메라, 및 상기 메모리, 상기 마이크, 상기 스피커 및 상기 통신 모듈을 제어하는 프로세서를 포함하는 장치가 제공된다. 장치는 상술한 자기 대화 방법을 수행하도록 구성된다.
사용자 맞춤 콘텐츠를 녹음하고, 이를 사용자의 목소리 또는 이상적인 음색으로 청취함으로써 편안하고 이상적인 자기 대화를 진행할 수 있다. 사용자에게 긍정적 감정과 관련 경험에 대해서 자기 자신에 대해 더욱 집중하고 사고할 수 있도록 '자기참조' (self-referencing) 활동에 도움을 주며, 부정적 감정과 연관된 사건 및 경험에 대해서는 자기 몰입을 과도하게 하지 않도록 도와주는 '나와 거리두기' (self-distancing)를 가능하게 한다. 이를 구현하기 위해, 효과적인 자기초점주의 전환과 균형을 맞추는 자기대화(self-talk)를 결합하여 제공한다. 사용자는 자기 대화의 효과를 수치로 확인할 수 있어 자기 대화의 효과에 대해 만족감을 느낄 수 있다. 또한, 자기 대화를 통한 자기 대화 방법에 확신을 가지고 성취감을 얻을 수 있다.
도 1은 본 개시의 일 실시예에 따른 자기 대화 장치의 블록도이다.
도 2는 본 개시의 일 실시예에 따른 자기 대화의 순서도이다.
도 3a 내지 3c는 본 개시의 일 실시예에 따른 긍정의 자기 대화에 기초한 텍스트이다.
도 4a 내지 4c는 본 개시의 일 실시예에 따른 수용 전념 치료를 기반으로 한 텍스트이다.
도 5a 내지 5c는 본 개시의 일 실시예에 따른 마음챙김과 호흡을 기반으로 하는 텍스트이다.
도 6은 본 개시의 일 실시예에 따른 자기 대화를 이상적인 음색으로 제공하는 방법의 순서도이다.
도 7 및 도 8는 본 개시의 일 실시예에 따른 이상적인 음색을 제공하는 방법을 설명하기 위한 도면들이다.
도 9은 본 개시의 일 실시예에 따른, 음색 조절 분류를 위한 목소리 표현 형용사의 예시들이다.
도 10 및 도 11은 본 개시의 일 실시예에 따른 사용자에게 제공되는 화면의 일 예이다.
도 12는 본 개시의 일 실시예에 따른 조절된 음색을 제공하는 방법을 설명하기 위한 논리적 트리이다.
도 13 및 14는 본 개시의 일 실시예에 따른 자기 대화 방법의 순서도이다.
도 15 내지 도 18은 본 개시의 일 실시예에 따른 피드백의 예시이다.
아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서," A, B, 및 C를 수행하도록 구성된(또는 설정된) 모듈"은 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시에 기재된 선행 문헌은 그 전체가 참조로써 본 명세서에 결합되며, 선행 문헌에 기재된 내용을 본 기술 분야의 일반적인 지식을 가진 사람이 본 개시에 간략히 설명된 부분에 적용할 수 있음이 이해될 것이다.
이하, 도면을 참조하여 본 개시의 실시예에 따른 자기 대화 장치 및 그 방법에 대하여 설명한다.
도 1은 본 개시의 일 실시예에 따른 자기 대화 장치(1000)의 블록도이다. 자기 대화 장치(1000)는 IPTV(Internet Protocol Television), 스마트 TV(Smart TV) 및 커넥티드 TV(Connected TV), 셋톱 박스(set-top box, STB), 스마트폰, 태블릿 PC 등과 같이 인터넷 회선을 이용하는 모든 종류의 장치를 포함할 수 있다. 자기 대화 장치(1000)는 자기 대화 장치(1000)에 설치된 어플리케이션을 통해 본 개시에 따른 자기 대화 방법을 제공할 수 있다.
본 개시의 일 실시예에서, 자기 대화 장치(1000)는 사용자 인터페이스(1002), 메모리(1004), 마이크(1006), 프로세서(1008), 스피커(1010) 및 통신 모듈(1012)을 포함한다.
사용자 인터페이스(1002)는 사용자에게 콘텐츠를 제공하는 인터페이스를 제공할 수 있다. 사용자 인터페이스(1002)는 사용자로부터 입력을 수신하고 사용자에게 콘텐츠를 제공한다. 사용자 인터페이스(1002)는 디스플레이(도시되지 않음)를 포함할 수 있다. 사용자 인터페이스(1002)는 터치 스크린을 포함할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 콘텐츠 수행을 위한 정보를 출력할 수 있다. 예를 들어, 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자의 감정을 파악하기 위해 생태 순간 평가(Ecological Momentary Assessment) 기반의 설문 조사를 제공할 수 있다. 또, 자기 대화 장치(1000)는 사용자에게 자기 대화를 위한 콘텐츠를 제공할 수 있다.
메모리(1004)는 컴퓨팅 디바이스에 의해 액세스될 수 있고 데이터 및 실행가능 명령어들(예를 들어, 소프트웨어 애플리케이션들, 프로그램들, 함수들 등)의 영구적 저장을 제공하는 데이터 저장 디바이스들과 같은 컴퓨터 판독가능 저장 매체이다. 메모리(1004)의 예들은 휘발성 메모리 및 비휘발성 메모리, 고정식 및 착탈식 매체 디바이스들, 및 컴퓨팅 디바이스 액세스를 위한 데이터를 유지하는 임의의 적절한 메모리 디바이스 또는 전자 데이터 저장소를 포함한다. 메모리(1004)는 랜덤 액세스 메모리(RAM, random access memory), 판독 전용 메모리(ROM, read-only memory), 플래시 메모리 및 다양한 메모리 디바이스 구성의 다른 타입의 저장 매체의 다양한 구현예들을 포함할 수 있다. 메모리(1004)는 프로세서(1008)와 함께 실행가능한 실행가능 소프트웨어 명령어들(예를 들어, 컴퓨터 실행가능 명령어들) 또는 모듈로서 구현될 수 있는 같은 소프트웨어 애플리케이션을 저장하도록 구성된다.
일 실시예에서, 메모리(1004)는 사용자로 하여금 맥락 정보를 파악하거나 자기대화를 수행하도록(또는 돕도록) 하는 명령어를 저장할 수 있다. 메모리(1004)는 생태 순간 평가 및 자기 대화 제공을 위한 정보를 저장할 수 있다. 또한 메모리(1004)는 수신한 사용자의 음성을 변조하는데 필요한 명령어를 저장할 수 있다. 예를 들어, 목소리의 변조란 소리의 피치(pitch), 포먼트(formant), 음성의 속도(speed), 음운(Phonatory setting), 운율-억양, 강세(Prosodic settings), 발성/구음(Articulatory settings) 등을 변화시켜 다른 목소리로 동일한 텍스트를 복수 개의 변화된 목소리로 생성하는 것을 의미할 수 있다.
메모리(1004)는 사용자에게 제공할 콘텐츠를 저장한다. 일 실시예에서, 콘텐츠는 텍스트, 배경 음악, 이미지 중 적어도 하나를 포함할 수 있다. 예를 들어, 메모리(1004)는 사용자에게 제공할 텍스트 및 상기 텍스트의 핵심 단어에 해당하는 단어를 저장한다. 일 실시예에서, 사용자에게 제공할 콘텐츠 및 핵심 단어는 쌍을 이루어 저장될 수 있다. 예를 들어, 부정 감정의 단어들과 부정 감정의 콘텐츠(텍스트)가 쌍을 이루어 메모리에 저장되면 사용자가 부정 감정의 단어를 선택했을 때, 쌍을 이루는 부정 감정의 콘텐츠(텍스트)가 사용자에게 사용자 인터페이스(1002)를 통해 제공될 수 있다.
일 실시예에서, 콘텐츠는 긍정의 자기 대화(Positive Self Talk, PST)에 기초한 텍스트, 용서, 수용, 존중(self-respect, other respect), 감사, 연민(self-compassion), 자애(love kindness)의 개념을 바탕으로 구성된 텍스트, 불안 및 우울 장애를 치료하는 인지행동치료(Cognitive Behavior Therapy, CBT) 방법 중 수용 전념 치료(Acceptance and Commitment Therapy)를 기반으로 한 텍스트를 포함할 수 있다.
마이크(1006)는 사용자의 음성을 수신할 수 있다. 사용자는 마이크(156)를 통해 자기 대화 장치(1000)가 제공하는 문장을 녹음할 수 있다. 자기 대화 장치(1000)는 마이크(1006)를 통해 사용자의 음성을 수집하고, 사용자 음성을 분석하여 사용자의 의도를 감정을 파악할 수 있다. 예를 들어, 사용자는 사용자 인터페이스(1002)를 통해 제공되는 텍스트를 발화할 수 있다. 마이크(1006)는 사용자의 발화를 인식하고 자기 대화 장치(1000)는 사용자의 발화를 메모리(1004)에 저장할 수 있다.
프로세서(1008)는 집적 회로, 프로그램가능 로직 디바이스, 하나 이상의 반도체들을 사용하여 형성된 로직 디바이스, 및 시스템-온-칩(SoC)으로서 구현된 프로세서 및 메모리 시스템과 같은 실리콘 및/또는 하드웨어의 다른 구현예들의 컴포넌트들을 포함할 수 있다. 프로세서(1008)는 메모리(1004)에 저장된 음성을 분석하도록 구성될 수 있다. 또한, 프로세서(1008)는 자기 대화 장치(1000)의 구성 요소를 제어하도록 구성되며, 메모리(1004)에 저장된 정보를 사용자에게 제공하거나, 메모리(1004)에 저장된 정보를 분석하도록 구성될 수 있다.
자기 대화 장치(1000)는 자기 대화 장치(1000) 내의 다양한 컴포넌트들을 결합하는 임의의 타입의 시스템 버스 또는 다른 데이터 및 명령 전달 시스템을 더 포함할 수 있다. 시스템 버스는 제어 및 데이터 라인들뿐만 아니라 상이한 버스 구조들 및 아키텍처들 중 임의의 하나 또는 그들의 조합을 포함할 수 있다.
스피커(1010)는 콘텐츠를 사용자에게 청각적 정보로 전달한다. 일 실시예에서, 스피커(1010)는 사용자가 녹음한 문장을 사용자가 녹음한 목소리 및 사용자 목소리를 변조한 소리로 사용자에게 전달할 수 있다.
통신 모듈(1012)은 자기 대화 장치(1000)가 외부 기기와 통신하여 정보를 수신하도록 구성된다. 통신 모듈(1012)의 통신 방식은 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access)에 따라 구축된 네트워크를 이용할 수 있으나, 이에 한정하는 것은 아니며 향후 개발될 모든 전송 방식 표준을 포함할 수 있다. 유/무선을 통하여 데이터를 주고받을 수 있는 것을 모두 포함할 수 있다. 통신 모듈(1012)를 통하여 메모리에 저장되는 콘텐츠 등이 업데이트 될 수 있다.
자기 대화 장치(1000)는 음성을 문장으로(Speech To Text, STT) 및 문장을 음성으로(Text To Speech, TTS) 변환하도록 구성된다. STT 및 TTS의 기능은 스마트 장치가 기본적으로 제공하는 기능이므로 자세한 설명은 생략한다.
자기 대화 장치(1000)는 인공 지능 모델을 구현하도록 구성될 수 있다. 본 개시의 인공 지능 모델은 사용자의 발언에 대한 자연어 처리를 하도록 구성된다. 인공 지능 모델은 후술하는 것과 같이, 인공 신경망(Artificial Neural Network, ANN)을 포함하는 학습 모델을 학습시킨 인공 지능 모델일 수 있다. 예를 들어, 자연어 처리기는 구글의 BERT((Bidirectional Encoder Representation from Transformers), 및 이를 응용한 모델), GPT((Generative Pre-Training), 및 이를 응용한 모델), XLNET, RoBERTa, ALBERT 등을 포함할 수 있다. 본 개시에서, 인공 지능 모델은 대량의 학습 데이터를 통해 인공 신경망(Artificial Neural Network, ANN)을 포함하는 학습 모델을 학습시켜 인공 신경망 내부의 파라미터를 최적화하고, 학습된 학습 모델을 이용하여 새로운 입력에 대한 응답을 구할 수 있다. 인공 신경망은 합성곱 신경망(Convolutional Neural Network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), 제한적 볼츠만 머신(Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망(Deep Belief Network, DBN), 양방향 순환 신경망(Bidirectional Recurrent Deep Neural Network, BRDNN) 또는 심층 Q-네트워크(Deep Q-Networks) 등 중 적어도 어느 하나 또는 이들의 조합이 있으나, 전술한 예에 한정되지 않는다.
도 2는 본 개시의 일 실시예에 따른 자기 대화의 순서도이다. 자기 대화 장치(1000)는 사용자의 감정을 인식한다(S210). 일 실시예에 있어서, 자기 대화 장치는 사용자 인터페이스(1002)를 통해 사용자의 감정을 인식할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사람의 감정을 나타내는 지표(예를 들어, 아이콘, 문자, 등)를 표시할 수 있다. 예를 들어, 두려움, 화남, 행복, 기쁨, 슬픔, 우울, 불안, 또는 이런 감정들에 대한 긍정, 중립, 부정을 나타내는 아이콘 또는 단어를 표시할 수 있다.
일 실시예에서, 감정은 복수 개의 다른 색 및 아이콘으로 제시될 수 있다. 예를 들어, 감정은 총 7개의 각각 다른 색깔과 표정의 아이콘으로 제시될 수 있다. 긍정 콘텐츠로 연결되는 2개의 아이콘 (Smily, 노란색) (Happy, 초록색), 부정 콘텐츠로 연결되는 3개의 아이콘 (Depressed, 파란색) (Sad, 보라색) (Angry, 빨간색)과 중립 콘텐츠로 연결되는 2개의 아이콘 (Distracted, 하늘색) (Neutral, 주황색)이 제공된다. 자기 대화 장치(1000)는 사용자가 선택한 상기 감정 아이콘 또는 단어에 기초하여 사용자의 감정 상태를 인식할 수 있다. 일 실시예에서, 자기 대화 장치(1000)가 사용자의 감정 상태를 인식한다는 것은 기계가 사람의 감정을 이해한다는 의미가 아니고, 장치가 사용자의 입력으로부터 사용자의 현재 상태를 파악하는 것을 의미하며, 자기 대화 장치(1000)에 기 저장된 복수의 상태 중 어느 하나에 해당하는지 파악하여 사용자에게 제공하는 텍스트를 선정하기 위한 준비 단계를 포함할 수 있다.
자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 질문을 제공하고 이에 대한 응답을 수신하여, 이로부터 사용자의 감정 상태를 인식할 수 있다. 일 실시예에서, 상기 질문-응답은 순간 평가(Momentary Assessment) 질문-응답일 수 있다. 순간 평가의 질문 예로 '지금 기분이 어때요? 지금 느껴지는 감정을 선택해봐요.' 라는 질문을 하여 사용자가 느끼는 감정에 대한 답변을 하게 하여 감정 상태를 인식한다.
일 실시예에서, 자기 대화 장치(1000)는 사용자의 음성 정보를 통해 사용자의 감정 상태를 인식할 수 있다. 예를 들어, 사용자에게 임의의 문장을 제공하고 사용자가 임의의 문장을 발화하는 것에 대응하여, 발화의 음성 정보로부터 사용자의 감정 상태를 인식할 수 있다. 일 예로, 목소리 떨림, 목소리 세기의 변화 및 변화 정도, 질문에 대한 답변 시간, 등에 기초하여 사용자의 감정 상태를 인식할 수 있다. 음성 정보로부터 감정 상태를 인식하는 방법은 본 명세서에 선행 문헌으로 기재된 문헌에 개시된 내용에 기초하여 수행될 수 있음이 이해될 것이다.
자기 대화 장치(1000)는 사용자에게 콘텐츠를 제공한다(S215). 일 실시예에서, 콘텐츠는 텍스트, 이미지, 배경음악 중 적어도 하나를 포함할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 콘텐츠를 제공할 수 있다. 일 실시예에서 자기 대화 장치(1000)는 S210단계에서 인식한 사용자의 감정에 근거하여 텍스트를 제공할 수 있다. 예를 들어, 행복, 기쁨, 슬픔, 우울, 불안, 또는 이런 감정들에 대한 긍정, 중립, 부정 등에 기초하여 각각 다른 텍스트를 제공할 수 있다.
즉, 자기 대화 장치(1000)는 메모리(1004)에 사용자의 감정에 해당하는 아이콘 각각에 대응하는 콘텐츠를 저장하도록 구성되고, 사용자의 감정을 인식(예를 들어, 사용자가 아이콘을 선택함을 입력으로 수신)하여, 사용자의 감정에 해당하는 아이콘 각각에 대응하는 콘텐츠를 사용자에게 제공하도록 구성된다.
일 실시예에서, 자기 대화 장치(1000)는 사용자의 감정이 긍정이라고 인식하는 것에 대응하여 긍정의 자기 대화(Positive Self Talk, PST)에 기초한 텍스트를 제공할 수 있다. 예를 들어, 긍정의 자기 대화는 사용자 자신에 대해 긍정적인 감정을 갖게 하고 격려하는 발언을 포함할 수 있다. 긍정의 자기 대화에 기초한 긍정 텍스트는 긍정 심리학에서 우울, 불안에 효과가 있다고 얘기하는 용서, 수용, 존중(self-respect, other respect), 감사, 연민(self-compassion), 자애(love kindness)의 개념을 바탕으로 구성된 텍스트가 제공된다. 도 3a 내지 3c는 본 개시의 일 실시예에 따른 긍정의 자기 대화에 기초한 텍스트이다.
자기 대화 장치(1000)는 사용자의 감정이 부정이라고 인식하는 것에 대응하여 불안 및 우울 장애를 치료하는 인지 행동 치료(Cognitive Behavior Therapy, CBT) 방법 중 수용 전념 치료(Acceptance and Commitment Therapy, 이하 ACT)를 기반으로 한 텍스트를 제공할 수 있다. ACT는 수용(acceptance), 인지적 탈융합(cognitive defusion), 맥락으로서의 자기(self as context), 현재에 존재하기(being present), 가치(value), 전념적 행동(committed action)의 내용으로 구성되어 있으며 은유적인 기법으로 그 내용들을 전달하고 실생활에 적용할 수 있도록 응용할 수 있는 내용을 제공한다. 도 4a 내지 4c는 본 개시의 일 실시예에 따른 수용 전념 치료를 기반으로 한 텍스트이다.
자기 대화 장치(1000)는 사용자의 감정이 중립 감정이라고 인식하는 것에 대응하여, 사용자에게 마음챙김과 호흡을 기반으로 하는 텍스트를 제공할 수 있다. 도 5a 내지 5c는 본 개시의 일 실시예에 따른 마음챙김과 호흡을 기반으로 하는 텍스트이다.
일 실시예에 있어서, 사용자에게 텍스트를 제공하는 것은 인공 지능 모델을 통해 수행될 수 있다. 인공 지능 모델은 아이콘, 문자, 음성, 질문-응답을 입력으로 하고, 상기 입력에 대한 출력을 텍스트로 하여 학습될 수 있다. 즉, 사용자가 선택한 아이콘, 문자, 사용자의 음성, 질문에 대한 사용자의 응답 중 적어도 하나의 조합에 대해 결과를 분류하여, 해당 분류에 적합한 텍스트를 사용자에게 제공할 수 있다.
자기 대화 장치(1000)는 텍스트에 대응하는 사용자의 발화를 메모리(1004)에 저장한다(S220). 사용자는 제공된 텍스트를 인식하고 이를 읽는다(발화한다). 일 실시예에서, 자기 대화 장치(1000)는 사용자의 발화 중에 텍스트의 핵심 단어가 있는지 판단한다. 사용자의 발화 중 텍스트의 핵심 단어가 있다고 판단하는 것에 대응하여 자기 대화 장치(1000)는 사용자의 전체 발화를 저장한다.
일 실시예에서, 자기 대화 장치(1000)는 사용자가 별도의 녹화 버튼을 누르지 않아도 사용자의 발화를 인식하고 저장할 수 있다. 예를 들어, 자기 대화 장치(1000)는 사용자에게 텍스트를 제공함과 동시에 또는 미리 정해진 시간 이후에 자동으로 사용자의 발화를 저장하는 기능을 시작할 수 있다. 따라서, 사용자가 별도의 녹화 버튼을 누르지 않고 단지 사용자 인터페이스(1002)에 제공된 텍스트를 발화함으로써 자기 대화 장치(1000)는 사용자의 발화를 저장할 수 있다.
자기 대화 장치(1000)는 녹음된 발화 및 콘텐츠를 사용자에게 제공한다(S225). 일 실시예에서, 텍스트가 발화한 콘텐츠가 텍스트로 제공될 수 있다.
도 6은 본 개시의 일 실시예에 따른 자기 대화를 이상적인 음색으로 제공하는 방법의 순서도이다.
도 6을 참조하면, 자기 대화 장치(1000)는 사용자에게 텍스트를 제공한다(S305). 일 실시예에서, 텍스트의 제공은 도 2의 텍스트 제공 단계(S215)와 유사하게 수행될 수 있다. 즉, 자기 대화 장치(1000)는 사용자의 감정을 인식하고 이에 대응하여 텍스트를 제공할 수 있다. 이와 다르게, 자기 대화 장치(1000)는 사용자의 메뉴 선택에 따라 정해진 텍스트를 제공할 수 있다. 예를 들어, 자기 대화 장치(1000)가 제공하는 사용자에게 제공하는 메뉴는 “음색 조절,” “체험 코스” 등을 포함하고, 사용자가 상기 메뉴를 선택하는 것에 대응하여 텍스트를 제공할 수 있다.
자기 대화 장치(1000)는 사용자의 텍스트 발화를 저장한다(S310). 사용자의 발화는 음성 데이터 형태로 저장될 수 있다. 사용자는 제공된 텍스트를 인식하고 이를 읽는다(발화한다). 일 실시예에서, 자기 대화 장치(1000)는 사용자의 발화 중에 텍스트의 핵심 단어가 있는지 판단한다. 사용자의 발화 중 텍스트의 핵심 단어가 있다고 판단하는 것에 대응하여 자기 대화 장치(1000)는 사용자의 전체 발화를 저장한다.
자기 대화 장치(1000)는 저장된 사용자의 음성 및 사용자의 음성을 변조한 음성을 저장한다(S315). 자기 대화 장치(1000)는 저장된 사용자의 음성 및 사용자의 음성을 변조한 음성을 N개 저장할 수 있다.
사람의 목소리에 대해 말하면, 본인이 말하면서 듣는 소리와 녹음해서 듣는 소리는 전달 경로가 상이하다. 본인의 목소리는 성대에서 울린 소리가 뼈와 근육을 통해 내이로 직접 전달되지만, 녹음된 목소리는 폐에서 나온 공기가 후두안의 성대를 통과하면서 발생하기 때문이다. 이에 따라, 사람은 본인이 말하면서 듣는 소리와 녹음해서 듣는 소리는 상이하다고 느끼게 된다. 보다 자세히, 본인의 목소리가 내이로 직접 전달되는 경우 저음부가 강조되고, 성대의 진동을 통해 만들어진 소리는 중음과 고음이 강조되는 경향이 있다. 자기 대화를 통해 자기 대화를 수행하는 경우, 녹음된 목소리를 사용자에게 들려주므로 사용자가 어색함을 느낄 수 있다.
일 실시예에서, 본 개시의 자기 대화 장치(1000)는 저장된 음성을 변조하여 본인의 목소리가 내이로 직접 전달되는 소리와 유사하게 변조할 수 있다. 또, 자기 대화 장치(1000)는 사용자의 음성을 다양하게 변조할 수 있다.
일 실시예에서, 자기 대화 장치(1000)는 저장된 음성 데이터로부터 피치, 특성 파형, 포먼트 등의 특징을 추출하고 이를 변형하여 사용자의 음성이 변조된 음성 데이터를 저장할 수 있다. 이에 따라, 동일 텍스트의 발화가 상이한 음성으로 복수 개 저장될 수 있다. 자기 대화 장치(1000)는 음성 데이터가 저장되면 음성 데이터로부터 추출된 피치, 파형 및 포먼트 중 적어도 하나를 증/감하여 사용자의 음성을 자동으로 변조할 수 있다. 이때, 피치, 파형 및 포먼트 중 적어도 하나가 증/감되는 양은 규칙으로 미리 정해져 자기 대화 장치(1000)의 메모리(1004)에 저장되어 있을 수 있다. 일 실시예에서, 녹음된 음성(raw voice)을 기준으로 피치(pitch)는 +, - 2를 조절하고 포먼트(formant)는 +, - 1을 조절하여 녹음된 음성(raw voice)를 제외한 총 14개의 음색 변조된 타입을 만들 수 있다. 피치(Pitch)는 음의 높낮이를 가리키는 용어로, 물리적으로는 진동수의 차이를 의미하며, 진동수가 많을수록 음높이가 높다. 일 실시예에서, 1Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다. 피치를 조절하는 단위는 자유롭게 설정 가능하다. 포먼트(Formant)는 사람이 음성을 낼 때 주파수가 공명이 되면서 진폭이 커지게 되는데 이때 공명이 일어난 주파수 진폭 혹은 주파수 대역을 뜻한다. 포먼트 조절이란 공명 주파수의 진폭 또는 대역을 조절, 이동시키는 것을 의미할 수 있다.
상기 변조에 관한 규칙은 반복된 테스트를 통해 정해질 수 있다. 예를 들어, 자기 대화 장치(1000)의 관리자는 사용자의 음성 데이터를 저장하고 이를 다양하게 변조하는 테스트를 수행하여 원하는 변조 음성을 획득하고, 원하는 변조 음성 획득을 위한 변조 규칙을 정할 수 있다.
자기 대화 장치(1000)의 메모리(1004)는 사용자의 음성을 변조하는 복수의 일정 규칙을 저장할 수 있다. 자기 대화 장치(1000)는 상기 규칙에 따라 자동으로 사용자의 저장된 음성데이터를 변조하여 저장할 수 있다. 복수의 일정 규칙 각각은 키워드에 대응하여 저장되어 있을 수 있다. 이에 따라, 사용자가 특정 키워드를 선택하는 경우, 자기 대화 장치(1000)는 선택된 키워드에 대응하는 규칙에 따라 변조된 음성을 사용자에게 들려줄 수 있다.
다른 실시예에서, 사용자는 자기 대화 장치(1000)의 사용자 인터페이스(1002)를 통해 피치, 파형 및 포먼트 중 적어도 하나를 변조하는 입력을 입력하고, 이에 따라 저장된 음성 데이터가 변조될 수 있다. 즉, 사용자는 본인이 원하는 변조 음성을 수동으로 설정하여 저장할 수 있다.
다른 실시예에서, 자기 대화 장치(1000)의 메모리(1004)는 사용자의 음성을 변조하는 복수의 일정 규칙을 저장할 수 있다. 복수의 일정 규칙 각각은 키워드에 대응하여 저장되어 있을 수 있다. 사용자가 특정 키워드를 선택하는 경우, 자기 대화 장치(1000)는 선택된 키워드에 대응하는 규칙에 따라 음성 데이터를 변조하고, 이를 사용자에게 들려줄 수 있다.
또 다른 실시예에서, 자기 대화 장치(1000)의 메모리(1004)에는 샘플 음성이 저장되어 있을 수 있다. 샘플 음성은 동일한 발화를 상이한 복수의 음성으로 발화하여 저장된 음성을 포함한다. 사용자는 샘플 음성을 듣고 원하는 음성과 비슷한 음성을 선택할 수 있다. 자기 대화 장치(1000)는 사용자의 음성이 사용자가 선택한 음성과 유사해지도록 사용자가 발화하여 저장된 음성 데이터를 변조할 수 있다.
자기 대화 장치(1000)는 사용자에게 녹음된 발화를 제공한다(S320). 일 실시예에서, 자기 대화 장치(1000)는 복수의 저장한 음성 및 변조된 음성을 제공한다(S320). 예를 들어, 자기 대화 장치(1000)는 사용자에게 4개의 상이한 음성을 제공할 수 있다. 사용자는 복수의 음성을 듣고 원하는 음성을 선택할 수 있다.
자기 대화 장치(1000)는 키워드를 사용자에게 제공할 수 있다(S325). 키워드는 감정을 나타내는 키워드를 포함할 수 있다. 사용자는 원하는 키워드를 선택할 수 있다.
자기 대화 장치(1000)는 사용자가 선택하는 키워드에 대응하여 S320에서 선택된 음성을 재 변조하여 사용자에게 제공할 수 있다(S330). 예를 들어, 자기 대화 장치(1000)의 메모리(1004)에 음성 데이터를 변조하는 규칙이 키워드에 대응하여 저장되어 있으므로, 자기 대화 장치(1000)는 선택된 키워드에 기초하여 음성 데이터를 변조하는 규칙을 메모리(1004)에서 불러들이고 이에 기초해 음성 데이터를 변조할 수 있다. 자기 대화 장치(1000)는 재 변조한 음성을 사용자에게 제공할 수 있다. 사용자는 제공받은 음성들을 근거로 원하는 음성을 선택할 수 있다.
자기 대화 장치는 사용자의 음성 선택을 수신한다(S335). 자기 대화 장치는 사용자의 음성 선택 수신에 대응하여 아이템을 사용자에게 제공한다(S340). 아이템은 사용자 인터페이스(1002)에서 출력되는 화면의 일부를 꾸미는데 사용할 수 있다. 아이템 제공 단계는 생략될 수 있다.
자기 대화 장치는 사용자의 음성 선택 수신에 대응하여 최종 선택된 음성을 사용자에게 제공한다(S345).
일 실시예에서, 도 5 및 도 6의 단계는 조합하여 제공될 수 있다.
도 7 및 도 8는 본 개시의 일 실시예에 따른 이상적인 음색을 제공하는 방법을 설명하기 위한 도면들이다.
도 7를 참조하면, 포먼트 축(x 축)과 피치 축(y 축)이 교차하는 중심점('raw'라고 표시함)이 변화를 주지 않은 사용자의 음색이다. 포먼트와 피치가 증가된 음색을 타입 A(제1 사분면), 포먼트는 증가되고 피치가 감소된 음색을 타입 B(제4 사분면), 포먼트와 피치가 감소된 음색을 타입 C(제3 사분면), 포먼트가 감소되고 피치가 증가된 음색을 타입 D(제2 사분면)이라고 한다. 일 실시예에서, 포먼트와 피치의 조절 정도에 따라, 도 7에 도시된 것과 같이, A, AB, AA, AD, AADD, B, BB, BC, BBCC, C, CC, CD, D, DD의 총 14개의 포먼트와 피치가 조절된 음색을 제공할 수 있다. 14개의 음색은 예시적인 숫자이며, 포먼트와 피치의 조절에 따라 다양한 개수의 음색이 생성되어 제공될 수 있음이 이해될 것이다. 피치(Pitch)는 음의 높낮이를 가리키는 용어로, 물리적으로는 진동수의 차이를 의미하며, 진동수가 많을수록 음높이가 높다. 일 실시예에서, 1Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다. 피치를 조절하는 단위는 자유롭게 설정 가능하다. 포먼트(Formant)는 사람이 음성을 낼 때 주파수가 공명이 되면서 진폭이 커지게 되는데 이때 공명 주파수의 진폭 혹은 대역을 뜻한다. 포먼트 조절이란 공명 주파수의 진폭 또는 대역을 조절, 이동시키는 것을 의미할 수 있다. 일 실시예에서, 1Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다.
일 실시예에서, 자기 대화 장치(1000)는 도 7와 같이 사용자의 원래 목소리를 중심으로, 포먼트와 피치를 각각의 축으로 하여 음색을 조절하는 화면을 사용자에게 제공하고, 사용자가 포먼트와 피치를 선택하도록 할 수 있다. 예를 들어, 사용자는 사용자 인터페이스(1002), 예를 들어, 터치 화면을 통해 원하는 지점을 선택할 수 있다. 자기 대화 장치(1000)는 사용자의 선택을 수신하여 사용자의 목소리의 음색을 조절할 수 있다.
도 8를 참조하면, 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 형용사(또는 키워드)가 개시된다. 이러한 형용사는 도 9에 도시된 것과 같이, 손진훈 (청각 감성측정 기술 및 DB 개발에 관한 연구, 1998), 박미자, 신수길, 한광희, 및 황상민 (감성 측정을 위한 우리말 형용사의 의미구조. 감성과학, 1(2), 1-11, 1998), 및 박용국, 김재국, 전용웅, 및 조암. (감성 평가를 이용한 듣기 좋은 음성 합성음에 대한 연구. 대한인간공학회지, 21(1), 51-65, 2002)를 참조하여 추출된다. 일 실시예에서, 자기 대화 장치(1000)는 사용자에게 도 8에 도시된 형용사를 제공하고, 사용자에 의해 선택된 형용사를 입력으로 하여 사용자의 목소리의 음색을 조절할 수 있다. 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 형용사는 자기 대화 장치(1000)의 메모리(1004)에는 저장되어 있을 수 있다. 또, 각 형용사에 따라 음색을 조절하는 정도, 예를 들어 피치와 포먼트의 조절 정도가 각각 매치되어 메모리(1004)에 저장되어 있을 수 있다.
도 10 및 도 11은 본 개시의 일 실시예에 따른 사용자에게 제공되는 화면의 일 예이다. 도 10을 참조하면, 사용자 인터페이스(1002)를 통해 제공되는 화면(702)을 통해 사용자는 제공된 콘텐츠(예를 들어, 텍스트)를 제공받는다. 사용자는 녹음 버튼(702a)을 이용하여 발화된 텍스트를 저장할 수 있다. 자기 대화 장치(1000)는 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 단어(704a)를 화면(704)을 통해 사용자에게 제공한다. 사용자가 단어(704a) 중 어느 하나를 선택하면, 타입 A, 타입 B, 타입 C, 타입 D에 해당하는 피치와 포먼트가 조절된 음색으로 사용자의 발화가 조절되어 사용자에게 제공될 수 있다. 예를 들어, 사용자가 타입 A에 해당하는 단어를 선택하는 것에 대응하여 도 7의 A 또는 AA에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 B에 해당하는 단어를 선택하는 것에 대응하여 도 7의 B 또는 BB에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 C에 해당하는 단어를 선택하는 것에 대응하여 도 7의 C 또는 CC에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 D에 해당하는 단어를 선택하는 것에 대응하여 도 7의 D 또는 DD에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다.
도 11을 참조하면, 사용자 인터페이스(1002)를 통해 제공되는 화면(802)을 통해 사용자는 좀 더 세분화된 내가 선호하는 목소리의 음색조절을 진행하기 위해 목소리를 나타내는 형용사 또는 키워드(802a)를 제공받는다. 즉, 자기 대화 장치(1000)는 메모리(1004)에 저장된 형용사를 불러들여 사용자 인터페이스(1002)를 통해 사용자에게 제공할 수 있다. 각 형용사는 도 8와 같이, 각각 A 내지 D타입에 속한다. 사용자는 선택된 개수, 예를 들어 3개의 형용사를 선택할 수 있다. 사용자가 선택한 형용사에 따라 사용자 발화의 음색이 조절(예를 들어 피치와 포먼트)될 수 있다. 자기 대화 장치(1000)는 사용자가 선택한 형용사에 기초하여 사용자가 원하는 목소리의 방향성(또는 경향성)을 인식할 수 있다.
사용자는 사용자 인터페이스(1002)를 통해 제공되는 화면(804)을 통해 더 많이 선택한 방향성(또는 경향성)에 해당하는 두가지의 음색 조절된 목소리 타입(804a)을 제공받을 수 있다. 예를 들어, B방향의 A타입을 선호하면 A 타입 카테고리에서 AA를 제외한 B방향에 있는 A와 AB의 음색 조절된 목소리 타입을 제공하여 선택하게 할 수 있다. 사용자는 두가지의 음색 조절된 목소리 타입(804a) 중 어느 하나를 선택할 수 있다.
사용자는 사용자 인터페이스(1002)를 통해 제공되는 화면(806)을 통해, 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a)을 제공받을 수 있다. 사용자는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a) 중 어느 하나를 선택할 수 있다. 다른 실시예에서, 자기 대화 장치(1000)는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a)과 함께 음색 조절이 되지 않은, 최초에 사용자가 발화한 음성을 사용자에게 제공할 수도 있다.
자기 대화 장치(1000)는 최종적으로 선택된 목소리를 사용자에게 제공하는 화면(808)을 제공한다.
도 12는 본 개시의 일 실시예에 따른 조절된 음색을 제공하는 방법을 설명하기 위한 논리적 트리이다. 도 10, 도 11 및 도 12를 참조하여 조절된 음색을 제공하는 방법을 설명한다. 자기 대화 장치(1000)는 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 단어(704a)를 화면(704)을 통해 사용자에게 제공한다. 사용자가 단어(704a) 중 어느 하나를 선택하면, 타입 A, 타입 B, 타입 C, 타입 D에 해당하는 피치와 포먼트가 조절된 음색으로 사용자의 발화가 극단적으로 조절되어 사용자에게 제공될 수 있다. 일 실시예에서, 사용자가 타입 A에 해당하는 단어를 선택하면 도 7의 AA에 해당하도록, 타입 B에 해당하는 단어를 선택하면 도 7의 BB에 해당하도록, 타입 C에 해당하는 단어를 선택하면 도 7의 CC에 해당하도록, 타입 D에 해당하는 단어를 선택하면 도 7의 DD에 해당하도록 피치와 포먼트가 조절될 수 있다. 자기 대화 장치(1000)는 AA, BB, CC, DD 타입으로 조절된 사용자 발화를 사용자에게 제공할 수 있다. (1단계).
도 11의 화면(802)에 개시된 것과 같이, 자기 대화 장치(1000)는 A 내지 D 타입에 대응하는 형용사(802a)를 메모리(1004)로부터 불러들여 사용자 인터페이스(1002)를 통해 사용자에게 제공할 수 있다. 일 실시예에서, 사용자가 선택한 4개의 A, B, C, D타입 중 도 7에 도시된 것과 같이, 인접해 있는 타입의 형용사들을 사용자에게 제공할 수 있다. 사용자는 선택된 개수, 예를 들어 3개의 형용사를 선택할 수 있다. 자기 대화 장치(1000)는 사용자가 선택한 형용사에 기초하여 사용자가 원하는 목소리의 방향성(또는 경향성)을 인식할 수 있다. 예를 들어, 사용자가 AA타입의 목소리를 선택하는 것에 대응하여 A타입의 목소리 중 사분면에서 인접한 타입 B, D에 대한 형용사를 제공할 수 있다. 사용자의 선택으로부터 사용자가 A타입에서의 B쪽의 목소리(B방향 A타입)를 선호하는지, A타입에서 D쪽의 목소리(D방향 A타입)를 선호하는지를 인식할 수 있다. (2 단계).
자기 대화 장치(1000)는 사용자가 선택한 형용사들 중 더 많이 선택한 경향성의 방향에 해당하는 두가지의 음색조절 된 목소리(804a)를 제공할 수 있다. 예를 들어, B방향의 A타입을 선호하면 A 타입 카테고리에서 AA를 제외한 B방향에 있는 A와 AB의 음색 조절된 목소리 타입을 제공할 수 있다. 사용자는 두가지 목소리(804a) 중 어느 하나를 선택할 수 있다. (3단계).
자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 제공되는 화면(806)을 통해 최초 골랐던 타입(예를 들어, AA, BB, CC, DD)과 세부적으로 음색 조절된 타입(806a)을 제공할 수 있다. 사용자는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a) 중 어느 하나를 선택할 수 있다. (4단계).
도 13 및 14는 본 개시의 일 실시예에 따른 자기 대화 방법의 순서도이다.
도 13을 참조하면, S1305에서 사용자에게 심박변이도(Heart Rate Variability, HRV)를 측정함을 통지한다. 일 실시예에서, 어떠한 이유로 HRV를 측정하는지 목적과 기능에 대한 설명, 프라이버시에 대한 비밀 보장 안내를 제공할 수 있다. 또, 측정에 앞서 심박변이도를 측정하는 올바른 자세와 권장하는 주변 환경에 대한 안내를 챗봇을 통한 대화 형식으로 전달할 수 있다. 일 실시예에서, 챗봇을 통해 올바른 기능 사용에 대한 가이드 이미지를 제공할 수 있다. 사용자는 가이드 이미지를 따라 심박변이도 측정 기능을 사용할 수 있다. 이와 다르게, 장치(1000)는 심박변이도를 측정함을 통지하지 않고 사용자의 심박변이도를 측정할 수 있다.
도 13을 참조하면, S1310에서, S1315 내지 S1330 중 적어도 하나를 진행하는 동안 심박변이도를 측정할 수 있다. 도 14를 참조하면, 자기 대화의 시작 전에, 예를 들어, S1315전에 심박 변이도를 측정할 수 있다. 일 실시예에서, 심박 변이도의 측정은 1일 1회 수행될 수 잇다. 이에 따라, 일별 심박변이도 측정 결과가 장치(1000)에 저장될 수 있다.
심박변이도는, 하나의 심장 주기로부터 다음 심장 주기 사이의 미세한 변이를 의미한다. 심박수는 동방결절의 고유의 자발성에 자율신경계가 영향을 미쳐 결정되는데 교감신경과 부교감 신경 사이의 상호 작용과 관련이 있다. 이런 상호 작용은 체내/외부환경의 변화에 따라 시시각각으로 변하며 이로 인해 심박수의 변화가 생기게 된다. 또한, 상기 사용자의 얼굴 이미지에 기초하여 심박변이도 데이터를 추출해내는 방법은, 카메라(도시하지 않음)로 촬영된 얼굴 이미지로부터 시간에 따른 얼굴의 색상 변화를 분석하여 심장(Heart) 반응을 예측하는 방법을 포함할 수 있다.
일 실시예에서, 심박변이도는 사용자의 얼굴 이미지를 이용하여 추출할 수 있다. 얼굴에서 측정 영역을 정의하는 단계, 미세 움직임에 의한 머리 움직임을 추적하고 그에 따른 색상의 미세한 변화를 추출하여 색상 기반 미동 신호를 추출하는 단계, 상기 추출된 얼굴 미동 신호를 FFT(fast Fourier transform)를 통해 주파수 대역으로 변환하여 파워 스펙트럼을 추출하고 이를 정규화 하여 상대 주파수를 추출하는 단계, 얼굴 이미지에서 추출된 얼굴 미동 신호의 상대 주파수와 구축된 룰 베이스 간에 유사도를 비교하여 K개의 심박 후보군을 선정하는 단계, 유사도 비교를 통해 K-최근접 이웃 알고리즘을 기반으로 룰 베이스로부터 추출된 K개의 심박 후보군들의 평균 심박을 최종 심박으로 인식하는 단계, 및 최종 인식된 심박으로부터 심박변이도 변수의 수식을 통해 계산하여 심박변이도 변수(심박변이도 데이터)를 추출하는 단계를 포함할 수 있다. 상기 심박변이도 변수의 예시를 하기 표 1에 나타냈다. 상기 색상 기반 미동을 추출하는 단계에서는 심박 성분 외의 노이즈를 제거하기 위해 각 미동 신호를 정규화하고 심박 대역에 대한 밴드패스(Bandpass) 필터를 적용할 수 있다.
<HRV 변수에 대한 설명>
No. Domain HRV 변수 설명
1 Time Domain HR 분당 평균 심박수 (bpm)
2 SDNN 모든 Peak과 Peak 사이 간격의 표준 편차
3 RMSSD 인접한 Peak과 Peak 사이의 차이의 제곱의 합의 평균의 제곱근
4 pNN50 50 msec 보다 큰 인접한 Peak과 Peak 사이의 차이의 비율 (%)
5 Frequency Domain VLF 주파수 도메인에서 0.0033~0.04Hz 대역의 파워 값
6 LF 주파수 도메인에서 0.04~0.15Hz 대역의 파워 값
7 HF 주파수 도메인에서 0.15~0.4Hz 대역의 파워 값
8 VLF(%) VLF를 전체 파워 값 (0.0033~0.4Hz 대역의 파워 값)으로 나눈 값
9 Frequency Domain LF(%) LF를 전체 파워 값 (0.0033~0.4Hz 대역의 파워 값)으로 나눈 값
10 HF(%) HF를 전체 파워 값 (0.0033~0.4Hz 대역의 파워 값)으로 나눈 값
11 lnVLF VLF에 자연 로그를 취한 값
12 lnLF LF에 자연 로그를 취한 값
13 lnHF HF에 자연 로그를 취한 값
14 LF/HF LF를 HF로 나눈 값
15 VLF/HF VLF를 HF로 나눈 값
16 Total Power 0.0033~0.4Hz 사이의 파워 스펙트럼 대역
17 Dominant Power 파워 스펙트럼에서 가장 높은 peak의 파워 값
18 Dominant Hz 파워 스펙트럼에서 가장 높은 peak의 주파수 값 (Hz)
19 Peak power Peak Hz를 중심으로 -0.015 Hz 부터 +0.015 Hz 사이의 파워 스펙트럼 대역
20 Peak Hz 0.04~0.26 Hz 사이의 파워 스펙트럼 대역에서 가장 높은 Peak의 주파수 값 (Hz)
21 Coherence ratio Peak Power를 Total Power와 Peak Power의 차이 값으로 나눈 값
이와 관련하여, 정기삼(정기삼(2004), HRV의 개요, 가정의학회지, 25(11), 528-532.)에 따르면, 자율신경계 기능 부전은 우울증, 불안, 불면증 등의 많은 임상 질환 및 증상과 관련이 있는 것으로, HRV 분석은 자율신경계 기능을 측정할 수 있는 비침습적이고 신뢰성 있는 검사법으로, 자율신경과 관련된 다양한 질환과 병증에 폭넓게 적용될 수 있고 설명하고 있다. 연구 논문(Tiwari, A., Narayanan, S., & Falk, T. H. (2019, July). Stress and anxiety measurement" in-the-wild" using quality-aware multi-scale hrv features. In 2019 41st Annual International Conference of the IEEE)에 따르면, 심박변이도는 정신적 및 사회적 직무 스트레스 요인, 정신적 직무 스트레스와 불안, 정신적 피로와 같은 삶의 질을 측정하는 요인들과도 주요한 상관관계가 있다고 밝혀졌으며, 직업 스트레스 요인, 및 불안, 정신적 피로는 일의 성과와 관련이 있는 것으로 나타났다.
일 실시예에서 상기 표 1의 지표 중, 시간 영역의 지표이고 심장안정도라고 불리는 RMSSD(Root mean square of the differences between adjacent RR intervals), 주파수 영역의 지표인 TP(Total Power), 표준 저주파 전력(Low frequency, LF), 표준 고주파 전력(High frequency, HF), 고주파와 저주파의 비율(LF/HF ratio) 중 적어도 하나를 사용하여 불안 증상 및 스트레스의 정도를 측정할 수 있다. 이러한 지표는 선택적인 것으로, 본 개시의 실시예가 위의 지표에 한정되지 않음이 이해될 것이다.
S1315 내지 S1330은 상술한 S215, S220 및 S225와 실질적으로 동일 또는 유사하여 자세한 설명은 생략한다. 장치(1000)에서 제공하는 콘텐츠를 사용자가 소리 내어 읽으며 심박변이도를 측정하는 경우 불안감이 완화됨을 확인하였다. 또한, 소리 내어 읽을 때의 호흡이 심박변이도 측정 데이터 항목에 영향을 주지 않는다는 것을 확인했다.
S1340에서 사용자에게 심박변이도의 측정 데이터 결과와 본 개시의 자기 대화 방법을 기반으로 한 바이오피드백을 제공한다. 표 2는 본 개시의 장치(1000)가 제공하는 바이오피드백의 일 예이다.
HRV 지표 측정 항목 HRV 항목별 용어 HRV 수치 분류 기준 HRV 항목에 대한 단계별 상태 안내 용어
RMSSD 불안감 완화 1단계: 40이상2단계: 20~39.99
3단계: 10~19.99
4단계: 0~9.99
1단계: 매우 좋음
2단계: 좋음
3단계: 보통
4단계: 낮음
TP 스트레스 조절 능력 6.1 이상
60 이하
좋음/낮음
LF 정신적 스트레스 해소력 4.6 이상4.5 이하 좋음/낮음
HF 신체적 스트레스 해소력 4.6 이상4.5 이하 좋음/낮음
LF/HF ratio 에너지 0.4 이하0.5~2
2.1이상
부족/충분/부족
일 실시예에서, 5가지의 지표(RMSSD, TP, 표준 저주파 전력(LF), 표준 고주파 전력(HF), 고주파와 저주파의 비율(LF/HF ratio))를 사용자가 이해하기 쉬운 용어, 예를 들어 불안감 완화, 스트레스 조절, 정신 스트레스 해소력, 신체적 스트레스 해소력, 에너지와 같은 용어로 변경하여 사용자에게 제공할 수 있다.
도 15 내지 18은 본 개시의 일 실시예에 따른 피드백의 예시이다.
도 15 및 16을 참조하면, 수치 분류 기준에 따라 오각형 그래프의 어느 단계에 점을 찍어 그래프를 생성하여 제공할 수 있다. 각각의 심박변이도 측정 결과에 대한 현재 상태를 알려줄 수 있도록 사용자에게 보여주는 용어를 결정하고, 단계별 용어는 불안 증상을 느끼는 사용자에게 부정적인 영향을 주지 않기 위해 부정적인 의미를 가진 단어를 최소화하며 긍정적인 단어들로 측정결과에 대해 안내할 수 있다.
일 실시예에서, 피드백 화면으로 넘어가면 사용자는 현재 이용 시간, 예를 들어 몇 주차 동안 본 개시의 방법을 사용하고 있고 사용을 시작한 기간에 대한 정보를 확인할 수 있다. 장치(1000)는 오각형 그래프를 통해 이전에 측정한 심박변이도 결과와 현재 상태를 시각적으로 비교하여 제공할 수 있다.
일 실시예에서, S1315 내지 S1330를 수행하는 것을 하나의 태스크를 수행하는 것이라고 할 수 있다. 제1 시점에 하나의 태스크를 수행하는 것을 제1 태스크 수행, 시점 이후인 제2 시점에 하나의 태스크를 수행하는 것을 제2 태스크 수행이라고 할 수 있다. 장치(1000)는 제1 태스크 수행에 대응하여 제공되는 제1 피드백 및 제2 태스크 수행에 대응하여 제공되는 제2 피드백을 비교하여 사용자에게 제공할 수 있다. 장치(1000)는 사용자에게 제1 피드백에서 측정된 측정 결과와 제2 피드백에서 측정된 측정결과를 비교하여 불안감과 스트레스 수치 등이 몇 퍼센트 낮아졌는지, 높아졌는지에 대한 정보를 사용자에게 제공할 수 있다. 장치(1000)는 사용자에게 복수의 심박변이도 측정 결과를 시계열적으로 제공할 수 있다.
장치(1000)는 사용자가 구체적인 심박변이도 지표 항목의 수치를 확인하고 정상범위 수치를 확인하도록 정보를 제공할 수 있다. 심박변이도 결과 그래프와 함께, 장치는 사용자의 현재 상태에 적합한 코멘트와 이미지를 랜덤으로 제공할 수 있다. 도 18에 사용자의 현재 상태에 적합한 코멘트와 이미지의 일 예가 도시된다. 일 실시예에서, 코멘트 및 이미지 제공은 총 4가지 경우로 나뉘며, 이전날에 대비하여 불안감 완화의 RMSSD 데이터 분류 단계를 기준으로 결과가 어떻게 변화했는지에 대한 각 상황마다 랜덤으로 이미지와 코멘트가 제공될 수 있다. 예를 들어, 장치(1000)는 결과가 이전보다 좋아짐, 결과가 이전과 동일함, 결과가 이전보다 나빠짐 및 결과 측정이 되지 않음 4가지 경우로 나누어 코멘트 및 이미지를 제공할 수 있다.
장치(1000)는 이때 코멘트와 이미지는 RMSSD 데이터 분류 단계를 기준으로 측정 결과가 이전에 비해 좋아졌을 때, 이전과 동일한 단계일 때, 이전에 비해 안 좋아졌을 때, 결과 측정이 잘 안 되었을 때로 나뉘어 제공될 수 있다. 그리고 심박변이도 측정 결과가 이전에 비해 안 좋을 때와 심박변이도 결과가 측정이 잘 안되었을 때는 장치(1000)는 본 개시에 따른 방법을 다시 제공하도록 구성될 수 있다. 장치(1000)는 측정 결과에 따른 맞춤형 피드백 코멘트를 제공하여 현재 사용자의 상태에 대한 이해를 돕고 긍정적인 피드백을 통해 지속적으로 측정 결과를 개선 및 유지할 수 있도록 독려하고 동기 부여할 수 있다.
일 실시예에서, 프로세서(1008)는 치료 순응도를 계산할 수 있다. 프로세서(1008)는 사용자의 사용 횟수를 사용하여 치료 순응도를 계산할 수 있다. 사용자의 사용 횟수는 사용자가 처음부터 끝까지 올바르게 앱 사용을 완료한 횟수일 수 있다. 프로세서(1008)는 사용자의 사용횟수와 사용시간의 로그데이터를 수집하여 분석할 수 있다. 예를 들어, 치료 순응도는 실제 사용 횟수를 처방 사용 횟수로 나누고 100을 곱해 비율을 계산할 수 있다. 또, 프로세서(1008)는 사용자 인터페이스(1002)를 통해 사용자의 사용 횟수를 사용자에게 제공할 수 있다.
일 실시예에서, 심박변이도 측정은 사용자의 선택에 의해 수행될 수 있다.
일 실시예에서, 심박변이도 측정은 사용자가 모르게 수행될 수 있다.
일 실시예에서, 심박변이도 측정은 사용자가 하나의 태스크를 수행하기 이전과 수행한 이후에 수행될 수 있다. 이에 따라, 장치(1000)은 사용자가 태스크를 수행하기 이전과 이후의 심박변이도 측정 결과의 변화를 사용자에게 제공할 수 있다.
일 실시예에서, 장치(1000)는 피드백 결과를 수집하고, 어떤 음색으로 사용자에게 자기 대화를 제공하였는지에 따라 심박변이도가 어떻게 달라지는지 제공할 수 있다. 이에 따라, 사용자 또는 장치(1000)는 가장 효과적인 음색을 찾아낼 수 있다.
이상에서 설명된 장치 및 방법은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.
본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
1000: 자기 대화 장치 1002: 사용자 인터페이스
1004: 메모리 1006: 마이크
1008: 프로세서 1010: 스피커
1012: 통신 모듈

Claims (9)

  1. 사용자의 음성을 수집하는 마이크; 상기 사용자에게 청각 정보를 전달하도록 구성된 스피커; 상기 사용자의 얼굴 이미지를 획득하는 카메라; 상기 마이크, 상기 스피커 및 상기 카메라를 제어하는 프로세서; 및 상기 프로세서에 의해 액세스될 수 있고 실행 가능 명령어를 저장하도록 구성되는 메모리를 포함하는 장치를 이용하여 상기 사용자가 자기 목소리를 듣는 자기 대화를 제공하는 자기 대화 방법으로,
    상기 프로세서에 의해 상기 메모리에 저장된 텍스트를 상기 사용자에게 제공하는 단계; 상기 프로세서에 의해 상기 사용자가 상기 텍스트를 발화하는 음성을 수신하여 음성 데이터로 상기 메모리에 저장하는 단계; 및 상기 프로세서에 의해 상기 음성 데이터를 변환하여 변조된 음성을 상기 사용자에게 제공하는 단계를 포함하는 태스크 제공 단계; 및
    상기 프로세서에 의해 상기 사용자의 얼굴 이미지로부터 상기 사용자의 심박변이도를 측정하는 단계; 상기 프로세서에 의해 상기 심박변이도를 분석하여 상기 사용자의 심리 상태를 나타내는 수치들을 획득하는 단계; 및 상기 사용자에게 상기 수치에 기초한 피드백을 제공하는 단계를 포함하는 피드백 제공 단계를 포함하고,
    상기 태스크 제공 단계는 제1 시점에 수행되는 제1 태스크 제공 단계 및 상기 제1 시점 이후인 제2 시점에 수행되는 제2 태스크 제공 단계를 포함하고,
    상기 피드백 제공 단계는 상기 제1 태스크 제공 단계에 대응하는 제1 피드백 제공 단계 및 상기 제2 태스크 제공 단계에 대응하는 제2 피드백 제공 단계를 포함하고,
    상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 비교하여 비교 결과를 제공하는 단계를 더 포함하는,
    자기 대화 방법.
  2. 제1항에 있어서,
    상기 피드백 제공 단계의 상기 사용자의 심박변이도를 측정하는 단계는 상기 태스크 제공 단계가 제공되기 전에 상기 사용자에게 제공되는,
    자기 대화 방법.
  3. 제1항에 있어서,
    상기 피드백 제공 단계의 상기 심박변이도를 분석하여 상기 사용자의 심리 상태를 나타내는 수치들을 획득하는 단계는 RMSSD(Root mean square of the differences between adjacent RR intervals), TP(Total Power), 표준 저주파 전력(Low frequency, LF), 표준 고주파 전력(High frequency, HF) 및 고주파와 저주파의 비율(LF/HF ratio) 중 적어도 하나에 기초하여 수행되는,
    자기 대화 방법.
  4. 제1항에 있어서,
    상기 피드백 제공 단계의 상기 사용자에게 상기 수치에 기초한 피드백을 제공하는 단계는 심박변이도의 항목별 용어 및 심박변이도 항목별에 대한 상태 안내 용어를 제공하는 단계를 포함하는,
    자기 대화 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 시계열 적으로 제공하는,
    자기 대화 방법.
  7. 제1항에 있어서,
    상기 태스크 제공 단계 이전에, 상기 프로세서에 의해 상기 사용자에게 상기 사용자의 심박변이도를 측정의 가이드를 통지하는 단계를 더 포함하는,
    자기 대화 방법.
  8. 제1항에 있어서,
    상기 자기 대화 방법은, 상기 프로세서에 의해 상기 제1 피드백 제공 단계에서 획득된 수치와 상기 제2 피드백 제공 단계에서 획득된 수치를 비교하여 비교 결과에 따라 사용자에게 코멘트와 이미지를 제공하는 단계를 더 포함하는,
    자기 대화 방법.
  9. 메모리, 마이크, 스피커, 카메라, 및 상기 메모리, 상기 마이크, 상기 스피커 및 상기 카메라를 제어하는 프로세서를 포함하는 장치로, 제1항 내지 제3항, 제4항 및 제6항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하는 장치.
KR1020220037415A 2022-03-25 2022-03-25 자기 대화 장치 및 그 방법 KR102495725B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220037415A KR102495725B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220037415A KR102495725B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR102495725B1 true KR102495725B1 (ko) 2023-02-07

Family

ID=85221538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220037415A KR102495725B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102495725B1 (ko)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950286A (ja) * 1995-05-29 1997-02-18 Sanyo Electric Co Ltd 音声合成装置及びこれに使用する記録媒体
KR101683310B1 (ko) 2008-06-17 2016-12-06 보이스센스 리미티드 화법분석을 통한 화자의 특성분석 방법
KR101689021B1 (ko) 2015-09-16 2016-12-23 주식회사 인포쉐어 센싱장비를 이용한 심리상태 판단 시스템 및 그 방법
KR101706123B1 (ko) 2015-04-29 2017-02-13 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR20180060060A (ko) 2016-11-28 2018-06-07 주식회사 디맨드 추억 회상을 통한 인지능력 향상 서비스를 제공하는 액티브 시니어 자립 생활 지원 시스템
KR20190125154A (ko) 2018-04-27 2019-11-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
KR20200113775A (ko) 2019-03-26 2020-10-07 한국과학기술원 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950286A (ja) * 1995-05-29 1997-02-18 Sanyo Electric Co Ltd 音声合成装置及びこれに使用する記録媒体
KR101683310B1 (ko) 2008-06-17 2016-12-06 보이스센스 리미티드 화법분석을 통한 화자의 특성분석 방법
KR101706123B1 (ko) 2015-04-29 2017-02-13 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR101689021B1 (ko) 2015-09-16 2016-12-23 주식회사 인포쉐어 센싱장비를 이용한 심리상태 판단 시스템 및 그 방법
KR20180060060A (ko) 2016-11-28 2018-06-07 주식회사 디맨드 추억 회상을 통한 인지능력 향상 서비스를 제공하는 액티브 시니어 자립 생활 지원 시스템
KR20190125154A (ko) 2018-04-27 2019-11-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
KR20200113775A (ko) 2019-03-26 2020-10-07 한국과학기술원 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김대열 외, ‘안면 이미지 데이터를 이용한 실시간 생체 징후 측정 시스템’, 방송공학회논문지 제26권 제2호, 2021.03.* *

Similar Documents

Publication Publication Date Title
Ben-David et al. Prosody and semantics are separate but not separable channels in the perception of emotional speech: Test for rating of emotions in speech
KR102385176B1 (ko) 심리 상담 장치 및 그 방법
Ballati et al. Assessing virtual assistant capabilities with Italian dysarthric speech
US20190279656A1 (en) Information presentation apparatus, information presentation method, and non-transitory computer readable medium
CN116578731B (zh) 多媒体信息处理方法、系统、计算机设备和存储介质
Turcott et al. Efficient evaluation of coding strategies for transcutaneous language communication
CN117959592A (zh) 高级听力假体接受者康复和/或恢复
MacIntyre et al. Pushing the envelope: Evaluating speech rhythm with different envelope extraction techniques
US20220036878A1 (en) Speech assessment using data from ear-wearable devices
Zainab et al. Emotion recognition based on EEG signals in response to bilingual music tracks.
Miranda Plymouth brain-computer music interfacing project: from EEG audio mixers to composition informed by cognitive neuroscience
KR102495725B1 (ko) 자기 대화 장치 및 그 방법
Kasinathan et al. Heartbeats: music recommendation system with fuzzy inference engine
CN113687744B (zh) 一种用于情绪调节的人机交互设备
KR102481216B1 (ko) 자기 대화 장치 및 방법
Choi et al. Development of an auditory emotion recognition function using psychoacoustic parameters based on the International Affective Digitized Sounds
KR20230148166A (ko) 사용자의 감정 상태를 수정하는 장치 및 방법
Barkmeier-Kraemer et al. Conceptual and clinical updates on vocal tremor
Rodriguez et al. Prediction of inter-personal trust and team familiarity from speech: A double transfer learning approach
Ramdinmawii et al. Effect of different music genre: Attention vs. meditation
CN106473699A (zh) 一种汉语声调双耳分听测试系统及其测试方法
CN117539356B (zh) 一种基于冥想的交互式用户情绪感知方法及系统
Sun Study on Antidepressant Emotion Regulation Based on Feedback Analysis of Music Therapy with Brain‐Computer Interface
Zieliński et al. Post-laryngectomy interaction restoration system
Sehgal et al. Smart and Context-Aware System employing Emotions Recognition

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant