KR102481216B1 - 자기 대화 장치 및 방법 - Google Patents

자기 대화 장치 및 방법 Download PDF

Info

Publication number
KR102481216B1
KR102481216B1 KR1020220037412A KR20220037412A KR102481216B1 KR 102481216 B1 KR102481216 B1 KR 102481216B1 KR 1020220037412 A KR1020220037412 A KR 1020220037412A KR 20220037412 A KR20220037412 A KR 20220037412A KR 102481216 B1 KR102481216 B1 KR 102481216B1
Authority
KR
South Korea
Prior art keywords
voice
memory
user
text
self
Prior art date
Application number
KR1020220037412A
Other languages
English (en)
Inventor
정훈엽
이지항
안정환
진상호
박찬미
문수현
Original Assignee
주식회사 하이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하이 filed Critical 주식회사 하이
Priority to KR1020220037412A priority Critical patent/KR102481216B1/ko
Application granted granted Critical
Publication of KR102481216B1 publication Critical patent/KR102481216B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)

Abstract

자기 대화 방법은 프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 임산부에게 제공하는 단계; 상기 임산부가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계; 상기 프로세서에 의해, 상기 메모리에 저장된 제1 규칙을 적용하여 상기 제1 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제1 변조 음성을 생성하여 상기 임산부에게 상기 제1 변조 음성으로 상기 제1 텍스트를 제공하는 단계; 상기 프로세서에 의해 상기 제1 시점 이후의 제2 시점에서 제2 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계; 상기 임산부가 상기 제2 텍스트를 발화하는 제2 음성을 상기 마이크로 수신하여 상기 메모리에 제2 음성 데이터로 저장하는 단계; 및 상기 프로세서에 의해, 상기 메모리에 저장된 제2 규칙을 적용하여 상기 제2 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제2 변조 음성을 생성하여 상기 임산부에게 상기 제2 변조 음성으로 상기 제2 텍스트를 제공하는 단계를 포함한다.

Description

자기 대화 장치 및 방법 {SELF-TALK DEVICE AND METHOD THEREFOR}
본 개시는 자기 대화를 제공하는 장치 및 방법에 관한 것으로, 보다 구체적으로는, 임산부의 심리를 안정시켜 태아의 감각 발달에 좋은 영향을 줄 수 있는 장치 및 방법에 관한 것이다.
세계보건기구가 2018년에 발표한 자료에 따르면 전 세계적으로 우울과 불안감으로 고통받고 있는 사람의 수가 각 3억 명을 넘었으며, 특히 최근 COVID-19 바이러스에 따른 팬데믹 상황으로 인해 우울증과 불안감을 경험하고 있는 인구수는 더욱 급증하고 있다. 우울증 또는 불안감이 진행되면 개인의 신체 기능 및 수행 능력에 영향을 줄 수 있다. 이러한 정신적. 신체적 활동을 제한하는 우울, 불안을 완화해야 할 필요성은 크게 요구되고 있지만, 사람들의 부정적 시각과 사회적 낙인에 대한 두려움, 그리고 금전적 부담 등과 같은 다양한 이유로 인해 우울과 불안으로 고통받는 사람들의 적극적인 치료 참여가 어렵다.
특히 임산부의 경우 호르몬의 변화에 따라 불안감을 느끼는 경우가 있고, 이러한 임산부의 감정 변화는 태아의 발달에 영향을 줄 수 있다.
한국특허 등록번호 제10-1683310호 한국특허 등록번호 제10-1689021호 한국특허 등록번호 제10-1706123호 한국특허 공개번호 제2020-0065248호 한국특허 공개번호 제2018-0060060호 한국특허 공개번호 제2019-0125154호 한국특허 공개번호 제2020-0113775호
본 개시는 임산부가 스스로 감정 정보를 모니터링할 수 있는 자기 대화 장치 및 그 방법을 제공한다. 또, 본 개시는 임산부가 스스로의 목소리를 듣는 자기 대화를 통해 자기 대화를 제공하는 장치 및 방법을 제공한다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치를 이용한 자기 대화 방법이 제공된다. 자기 대화 방법은 프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 임산부에게 제공하는 단계; 상기 임산부가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계; 상기 프로세서에 의해, 상기 메모리에 저장된 제1 규칙을 적용하여 상기 제1 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제1 변조 음성을 생성하여 상기 임산부에게 상기 제1 변조 음성으로 상기 제1 텍스트를 제공하는 단계; 상기 프로세서에 의해 상기 제1 시점 이후의 제2 시점에서 제2 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계; 상기 임산부가 상기 제2 텍스트를 발화하는 제2 음성을 상기 마이크로 수신하여 상기 메모리에 제2 음성 데이터로 저장하는 단계; 및 상기 프로세서에 의해, 상기 메모리에 저장된 제2 규칙을 적용하여 상기 제2 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제2 변조 음성을 생성하여 상기 임산부에게 상기 제2 변조 음성으로 상기 제2 텍스트를 제공하는 단계를 포함한다.
일 실시예에서, 자기 대화 방법은 상기 프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 임산부에게 제공하는 단계 이전에, 상기 프로세서에 의해, 상기 임산부의 입력에 기초하여 상기 임산부의 임신 시기를 상기 메모리에 저장하는 단계를 더 포함할 수 있다. 또. 상기 임산부가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계 이후에, 상기 프로세서에 의해 상기 임산부의 임신 시기로부터 상기 제1 시점 및 제2 시점이 얼마나 진행되었는지를 계산하는 단계; 및 상기 진행된 시기에 기초하여, 상기 제1 규칙 및 상기 제2 규칙을 상기 메모리로부터 읽어 들이는 단계를 더 포함할 수 있다.
일 실시예에서, 자기 대화 방법은 상기 임산부에게 상기 제2 변조 음성으로 상기 제2 텍스트를 제공하는 단계 이후에, 상기 프로세서에 의해 상기 제2 시점 이후의 제3 시점에서 제3 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계; 상기 임산부가 상기 제3 텍스트를 발화하는 제3 음성을 상기 마이크로 수신하여 상기 메모리에 제3 음성 데이터로 저장하는 단계; 및 상기 프로세서에 의해, 상기 메모리에 저장된 제3 규칙을 적용하여 상기 제3 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제3 변조 음성을 생성하여 상기 임산부에게 상기 제3 변조 음성으로 상기 제2 텍스트를 제공하는 단계를 더 포함할 수 있다. 여기서, 상기 제1 시점은 임신 0주 내지 12주, 상기 제2 시점은 임신 13주 내지 26주, 상기 제3 시점은 임신 27주 이후일 수 있다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치는 상술한 자기 대화 방법을 제공할 수 있다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치를 이용한 자기 대화 방법이 제공된다. 자기 대화 방법은. 프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 사용자에게 제공하는 단계; 상기 사용자가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계; 상기 프로세서에 의해 상기 제1 음성 데이터를 분석하여 상기 제1 음성 데이터에 포함된 제1 특징을 추출하는 단계; 상기 프로세서에 의해 제1 시점 이후인 제2 시점에서 제2 텍스트를 상기 메모리로부터 읽어 들여 상기 사용자에게 제공하는 단계; 상기 프로세서에 의해 상기 사용자가 상기 제2 텍스트를 발화하는 제2 음성을 상기 마이크로 수신하여 상기 메모리에 제2 음성 데이터로 저장하는 단계; 상기 제2 음성 데이터를 상기 제1 특징에 기초하여 변조하여 상기 제1 음성 특징과 유사 또는 동일한 음성 특징을 갖는 제3 음성 데이터를 생성하는 단계; 및 상기 제3 음성 데이터에 기초한 제3 음성으로 상기 제2 텍스트를 상기 사용자에게 상기 스피커를 통해 들려주는 단계를 포함할 수 있다.
일 실시예에서, 자기 대화 방법은 상기 제1 특징은 상기 사용자가 상기 사용자 자신에게 들리는 음성을 구현하도록 할 수 있다.
일 실시예에서, 자기 대화 방법은 상기 사용자는 임산부이고, 상기 제1 시점은 상기 사용자가 임신하기 이전의 시점이고 상기 제2 시점은 상기 사용자가 임신한 이후의 시점일 수 있다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치는 상술한 자기 대화 방법을 제공할 수 있다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 통신 모듈, 및 상기 메모리, 상기 마이크, 상기 스피커 및 상기 통신 모듈을 제어하는 프로세서를 포함하는 장치를 이용한 자기 대화 방법이 제공된다. 자기 대화 방법은
상기 프로세서에 의해, 임산부의 목소리를 상기 마이크를 통해 수신하여 상기 메모리에 저장하는 단계; 상기 프로세서에 의해 상기 임산부의 목소리의 특성을 추출하는 단계; 상기 통신 모듈을 통해 음성이 포함된 콘텐츠를 수신하는 단계; 상기 프로세서에 의해 상기 콘텐츠에 포함된 음성을 상기 추출한 임산부의 목소리의 특성에 기초하여, 상기 임산부의 목소리로 변조하는 단계; 상기 프로세서에 의해 상기 콘텐츠와 상기 임산부의 목소리로 변조된 음성을 결합하여 상기 메모리에 저장하는 단계; 및 상기 프로세서에 의해 상기 임산부의 목소리로 변조된 음성과 결합된 콘텐츠를 사용자에게 제공하는 단계를 포함할 수 있다.
일 실시예에서, 자기 대화 방법은 상기 프로세서에 의해, 임산부의 목소리를 상기 마이크를 통해 수신하여 상기 메모리에 저장하는 단계는, 상기 임산부가 임신하기 이전에 수행되는 단계를 포함할 수 있다.
본 개시의 일 형태에서, 메모리, 마이크, 스피커, 통신 모듈, 및 상기 메모리, 상기 마이크, 상기 스피커 및 상기 통신 모듈을 제어하는 프로세서를 포함하는 장치는 상술한 자기 대화 방법을 제공한다.
임산부는 맞춤 콘텐츠를 녹음하고, 이를 임산부의 목소리 또는 이상적인 음색으로 청취함으로써 편안하고 이상적인 자기 대화를 진행할 수 있다. 임산부에게 긍정적 감정과 관련 경험에 대해서 자기 자신에 대해 더욱 집중하고 사고할 수 있도록 '자기참조' (self-referencing) 활동에 도움을 주며, 부정적 감정과 연관된 사건 및 경험에 대해서는 자기 몰입을 과도하게 하지 않도록 도와주는 '나와 거리두기' (self-distancing)를 가능하게 한다. 이를 구현하기 위해, 효과적인 자기초점주의 전환과 균형을 맞추는 자기대화 (self-talk)을 결합하여 제공한다. 임산부의 심리 안정은 결국 태아의 감각 발달에 좋은 영향을 준다.
도 1은 본 개시의 일 실시예에 따른 자기 대화 장치의 블록도이다.
도 2는 본 개시의 일 실시예에 따른 자기 대화의 순서도이다.
도 3a 내지 3c는 본 개시의 일 실시예에 따른 긍정의 자기 대화에 기초한 텍스트이다.
도 4a 내지 4c는 본 개시의 일 실시예에 따른 수용 전념 치료를 기반으로 한 텍스트이다.
도 5a 내지 5c는 본 개시의 일 실시예에 따른 마음챙김과 호흡을 기반으로 하는 텍스트이다.
도 6은 본 개시의 일 실시예에 따른 자기 대화를 이상적인 음색으로 제공하는 방법의 순서도이다.
도 7 및 도 8는 본 개시의 일 실시예에 따른 이상적인 음색을 제공하는 방법을 설명하기 위한 도면들이다.
도 9은 본 개시의 일 실시예에 따른, 음색 조절 분류를 위한 목소리 표현 형용사의 예시들이다.
도 10 및 도 11은 본 개시의 일 실시예에 따른 사용자에게 제공되는 화면의 일 예이다.
도 12는 본 개시의 일 실시예에 따른 조절된 음색을 제공하는 방법을 설명하기 위한 논리적 트리이다.
아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서," A, B, 및 C를 수행하도록 구성된(또는 설정된) 모듈"은 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시에 기재된 선행 문헌은 그 전체가 참조로써 본 명세서에 결합되며, 선행 문헌에 기재된 내용을 본 기술 분야의 일반적인 지식을 가진 사람이 본 개시에 간략히 설명된 부분에 적용할 수 있음이 이해될 것이다.
이하, 도면을 참조하여 본 개시의 실시예에 따른 자기 대화 장치 및 그 방법에 대하여 설명한다.
도 1은 본 개시의 일 실시예에 따른 자기 대화 장치(1000)의 블록도이다. 자기 대화 장치(1000)는 IPTV(Internet Protocol Television), 스마트 TV(Smart TV) 및 커넥티드 TV(Connected TV), 셋톱 박스(set-top box, STB), 스마트폰, 태블릿 PC 등과 같이 인터넷 회선을 이용하는 모든 종류의 장치를 포함할 수 있다. 자기 대화 장치(1000)는 자기 대화 장치(1000)에 설치된 어플리케이션을 통해 본 개시에 따른 자기 대화 방법을 제공할 수 있다.
본 개시의 일 실시예에서, 자기 대화 장치(1000)는 사용자 인터페이스(1002), 메모리(1004), 마이크(1006), 프로세서(1008), 스피커(1010) 및 통신 모듈(1012)을 포함한다.
사용자 인터페이스(1002)는 사용자에게 콘텐츠를 제공하는 인터페이스를 제공할 수 있다. 사용자 인터페이스(1002)는 사용자로부터 입력을 수신하고 사용자에게 콘텐츠를 제공한다. 사용자 인터페이스(1002)는 디스플레이(도시되지 않음)를 포함할 수 있다. 사용자 인터페이스(1002)는 터치 스크린을 포함할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 콘텐츠 수행을 위한 정보를 출력할 수 있다. 예를 들어, 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자의 감정을 파악하기 위해 생태 순간 평가(Ecological Momentary Assessment) 기반의 설문 조사를 제공할 수 있다. 또, 자기 대화 장치(1000)는 사용자에게 자기 대화를 위한 콘텐츠를 제공할 수 있다.
메모리(1004)는 컴퓨팅 디바이스에 의해 액세스될 수 있고 데이터 및 실행가능 명령어들(예를 들어, 소프트웨어 애플리케이션들, 프로그램들, 함수들 등)의 영구적 저장을 제공하는 데이터 저장 디바이스들과 같은 컴퓨터 판독가능 저장 매체이다. 메모리(1004)의 예들은 휘발성 메모리 및 비휘발성 메모리, 고정식 및 착탈식 매체 디바이스들, 및 컴퓨팅 디바이스 액세스를 위한 데이터를 유지하는 임의의 적절한 메모리 디바이스 또는 전자 데이터 저장소를 포함한다. 메모리(1004)는 랜덤 액세스 메모리(RAM, random access memory), 판독 전용 메모리(ROM, read-only memory), 플래시 메모리 및 다양한 메모리 디바이스 구성의 다른 타입의 저장 매체의 다양한 구현예들을 포함할 수 있다. 메모리(1004)는 프로세서(1008)와 함께 실행가능한 실행가능 소프트웨어 명령어들(예를 들어, 컴퓨터 실행가능 명령어들) 또는 모듈로서 구현될 수 있는 같은 소프트웨어 애플리케이션을 저장하도록 구성된다.
일 실시예에서, 메모리(1004)는 사용자로 하여금 맥락 정보를 파악하거나 자기대화를 수행하도록(또는 돕도록) 하는 명령어를 저장할 수 있다. 메모리(1004)는 생태 순간 평가 및 자기 대화 제공을 위한 정보를 저장할 수 있다. 또한 메모리(1004)는 수신한 사용자의 음성을 변조하는데 필요한 명령어를 저장할 수 있다. 예를 들어, 목소리의 변조란 소리의 피치(pitch), 포먼트(formant), 음성의 속도(speed), 음운(Phonatory setting), 운율-억양, 강세(Prosodic settings), 발성/구음(Articulatory settings) 등을 변화시켜 다른 목소리로 동일한 텍스트를 복수 개의 변화된 목소리로 생성하는 것을 의미할 수 있다.
메모리(1004)는 사용자에게 제공할 콘텐츠를 저장한다. 일 실시예에서, 콘텐츠는 텍스트, 배경 음악, 이미지 중 적어도 하나를 포함할 수 있다. 예를 들어, 메모리(1004)는 사용자에게 제공할 텍스트 및 상기 텍스트의 핵심 단어에 해당하는 단어를 저장한다. 일 실시예에서, 사용자에게 제공할 콘텐츠 및 핵심 단어는 쌍을 이루어 저장될 수 있다. 예를 들어, 부정 감정의 단어들과 부정 감정의 콘텐츠(텍스트)가 쌍을 이루어 메모리에 저장되면 사용자가 부정 감정의 단어를 선택했을 때, 쌍을 이루는 부정 감정의 콘텐츠(텍스트)가 사용자에게 사용자 인터페이스(1002)를 통해 제공될 수 있다.
일 실시예에서, 콘텐츠는 긍정의 자기 대화(Positive Self Talk, PST)에 기초한 텍스트, 용서, 수용, 존중(self-respect, other respect), 감사, 연민(self-compassion), 자애(love kindness)의 개념을 바탕으로 구성된 텍스트, 불안 및 우울 장애를 치료하는 인지행동치료(Cognitive Behavior Therapy, CBT) 방법 중 수용 전념 치료(Acceptance and Commitment Therapy)를 기반으로 한 텍스트를 포함할 수 있다.
마이크(1006)는 사용자의 음성을 수신할 수 있다. 사용자는 마이크(156)를 통해 자기 대화 장치(1000)가 제공하는 문장을 녹음할 수 있다. 자기 대화 장치(1000)는 마이크(1006)을 통해 사용자의 음성을 수집하고, 사용자 음성을 분석하여 사용자의 의도를 감정을 파악할 수 있다. 예를 들어, 사용자는 사용자 인터페이스(1002)를 통해 제공되는 텍스트를 발화할 수 있다. 마이크(1006)는 사용자의 발화를 인식하고 자기 대화 장치(1000)는 사용자의 발화를 메모리(1004)에 저장할 수 있다.
프로세서(1008)는 집적 회로, 프로그램가능 로직 디바이스, 하나 이상의 반도체들을 사용하여 형성된 로직 디바이스, 및 시스템-온-칩(SoC)으로서 구현된 프로세서 및 메모리 시스템과 같은 실리콘 및/또는 하드웨어의 다른 구현예들의 컴포넌트들을 포함할 수 있다. 프로세서(1008)는 메모리(1004)에 저장된 음성을 분석하도록 구성될 수 있다. 또한, 프로세서(1008)는 자기 대화 장치(1000)의 구성 요소를 제어하도록 구성되며, 메모리(1004)에 저장된 정보를 사용자에게 제공하거나, 메모리(1004)에 저장된 정보를 분석하도록 구성될 수 있다.
자기 대화 장치(1000)는 자기 대화 장치(1000) 내의 다양한 컴포넌트들을 결합하는 임의의 타입의 시스템 버스 또는 다른 데이터 및 명령 전달 시스템을 더 포함할 수 있다. 시스템 버스는 제어 및 데이터 라인들뿐만 아니라 상이한 버스 구조들 및 아키텍처들 중 임의의 하나 또는 그들의 조합을 포함할 수 있다.
스피커(1010)는 콘텐츠를 사용자에게 청각적 정보로 전달한다. 일 실시예에서, 스피커(1010)는 사용자가 녹음한 문장을 사용자가 녹음한 목소리 및 사용자 목소리를 변조한 소리로 사용자에게 전달할 수 있다.
통신 모듈(1012)은 자기 대화 장치(1000)가 외부 기기와 통신하여 정보를 수신하도록 구성된다. 통신 모듈(1012)의 통신 방식은 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access)에 따라 구축된 네트워크를 이용할 수 있으나, 이에 한정하는 것은 아니며 향후 개발될 모든 전송 방식 표준을 포함할 수 있다. 유/무선을 통하여 데이터를 주고받을 수 있는 것을 모두 포함할 수 있다. 통신 모듈(1012)를 통하여 메모리에 저장되는 콘텐츠 등이 업데이트 될 수 있다.
자기 대화 장치(1000)는 음성을 문장으로(Speech To Text, STT) 및 문장을 음성으로(Text To Speech, TTS) 변환하도록 구성된다. STT 및 TTS의 기능은 스마트 장치가 기본적으로 제공하는 기능이므로 자세한 설명은 생략한다.
자기 대화 장치(1000)는 인공 지능 모델을 구현하도록 구성될 수 있다. 본 개시의 인공 지능 모델은 사용자의 발언에 대한 자연어 처리를 하도록 구성된다. 인공 지능 모델은 후술하는 것과 같이, 인공 신경망(Artificial Neural Network, ANN)을 포함하는 학습 모델을 학습시킨 인공 지능 모델일 수 있다. 예를 들어, 자연어 처리기는 구글의 BERT((Bidirectional Encoder Representation from Transformers), 및 이를 응용한 모델), GPT((Generative Pre-Training), 및 이를 응용한 모델), XLNET, RoBERTa, ALBERT 등을 포함할 수 있다. 본 개시에서, 인공 지능 모델은 대량의 학습 데이터를 통해 인공 신경망(Artificial Neural Network, ANN)을 포함하는 학습 모델을 학습시켜 인공 신경망 내부의 파라미터를 최적화하고, 학습된 학습 모델을 이용하여 새로운 입력에 대한 응답을 구할 수 있다. 인공 신경망은 합성곱 신경망(Convolutional Neural Network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), 제한적 볼츠만 머신(Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망(Deep Belief Network, DBN), 양방향 순환 신경망(Bidirectional Recurrent Deep Neural Network, BRDNN) 또는 심층 Q-네트워크(Deep Q-Networks) 등 중 적어도 어느 하나 또는 이들의 조합이 있으나, 전술한 예에 한정되지 않는다.
도 2는 본 개시의 일 실시예에 따른 자기 대화의 순서도이다. 자기 대화 장치(1000)는 사용자의 감정을 인식한다(S210). 일 실시예에 있어서, 자기 대화 장치는 사용자 인터페이스(1002)를 통해 사용자의 감정을 인식할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사람의 감정을 나타내는 지표(예를 들어, 아이콘, 문자, 등)를 표시할 수 있다. 예를 들어, 두려움, 화남, 행복, 기쁨, 슬픔, 우울, 불안, 또는 이런 감정들에 대한 긍정, 중립, 부정을 나타내는 아이콘 또는 단어를 표시할 수 있다.
일 실시예에서, 감정은 복수 개의 다른 색 및 아이콘으로 제시될 수 있다. 예를 들어, 감정은 총 7개의 각각 다른 색깔과 표정의 아이콘으로 제시될 수 있다. 긍정 콘텐츠로 연결되는 2개의 아이콘 (Smily, 노란색) (Happy, 초록색), 부정 콘텐츠로 연결되는 3개의 아이콘 (Depressed, 파란색) (Sad, 보라색) (Angry, 빨간색)과 중립 콘텐츠로 연결되는 2개의 아이콘 (Distracted, 하늘색) (Neutral, 주황색)이 제공된다. 자기 대화 장치(1000)는 사용자가 선택한 상기 감정 아이콘 또는 단어에 기초하여 사용자의 감정 상태를 인식할 수 있다. 일 실시예에서, 자기 대화 장치(1000)가 사용자의 감정 상태를 인식한다는 것은 기계가 사람의 감정을 이해한다는 의미가 아니고, 장치가 사용자의 입력으로부터 사용자의 현재 상태를 파악하는 것을 의미하며, 자기 대화 장치(1000)에 기 저장된 복수의 상태 중 어느 하나에 해당하는지 파악하여 사용자에게 제공하는 텍스트를 선정하기 위한 준비 단계를 포함할 수 있다.
자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 질문을 제공하고 이에 대한 응답을 수신하여, 이로부터 사용자의 감정 상태를 인식할 수 있다. 일 실시예에서, 상기 질문-응답은 순간 평가(Momentary Assessment) 질문-응답일 수 있다. 순간 평가의 질문 예로 '지금 기분이 어때요? 지금 느껴지는 감정을 선택해봐요.' 라는 질문을 하여 사용자가 느끼는 감정에 대한 답변을 하게 하여 감정 상태를 인식한다.
일 실시예에서, 자기 대화 장치(1000)는 사용자의 음성 정보를 통해 사용자의 감정 상태를 인식할 수 있다. 예를 들어, 사용자에게 임의의 문장을 제공하고 사용자가 임의의 문장을 발화하는 것에 대응하여, 발화의 음성 정보로부터 사용자의 감정 상태를 인식할 수 있다. 일 예로, 목소리 떨림, 목소리 세기의 변화 및 변화 정도, 질문에 대한 답변 시간, 등에 기초하여 사용자의 감정 상태를 인식할 수 있다. 음성 정보로부터 감정 상태를 인식하는 방법은 본 명세서에 선행 문헌으로 기재된 문헌에 개시된 내용에 기초하여 수행될 수 있음이 이해될 것이다.
자기 대화 장치(1000)는 사용자에게 콘텐츠를 제공한다(S215). 일 실시예에서, 콘텐츠는 텍스트, 이미지, 배경음악 중 적어도 하나를 포함할 수 있다. 자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 사용자에게 콘텐츠를 제공할 수 있다. 일 실시예에서 자기 대화 장치(1000)는 S210단계에서 인식한 사용자의 감정에 근거하여 텍스트를 제공할 수 있다. 예를 들어, 행복, 기쁨, 슬픔, 우울, 불안, 또는 이런 감정들에 대한 긍정, 중립, 부정 등에 기초하여 각각 다른 텍스트를 제공할 수 있다.
즉, 자기 대화 장치(1000)는 메모리(1004)에 사용자의 감정에 해당하는 아이콘 각각에 대응하는 콘텐츠를 저장하도록 구성되고, 사용자의 감정을 인식(예를 들어, 사용자가 아이콘을 선택함을 입력으로 수신)하여, 사용자의 감정에 해당하는 아이콘 각각에 대응하는 콘텐츠를 사용자에게 제공하도록 구성된다.
일 실시예에서, 자기 대화 장치(1000)는 사용자의 감정이 긍정이라고 인식하는 것에 대응하여 긍정의 자기 대화(Positive Self Talk, PST)에 기초한 텍스트를 제공할 수 있다. 예를 들어, 긍정의 자기 대화는 사용자 자신에 대해 긍정적인 감정을 갖게 하고 격려하는 발언을 포함할 수 있다. 긍정의 자기 대화에 기초한 긍정 텍스트는 긍정 심리학에서 우울, 불안에 효과가 있다고 얘기하는 용서, 수용, 존중(self-respect, other respect), 감사, 연민(self-compassion), 자애(love kindness)의 개념을 바탕으로 구성된 텍스트가 제공된다. 도 3a 내지 3c는 본 개시의 일 실시예에 따른 긍정의 자기 대화에 기초한 텍스트이다.
자기 대화 장치(1000)는 사용자의 감정이 부정이라고 인식하는 것에 대응하여 불안 및 우울 장애를 치료하는 인지 행동 치료(Cognitive Behavior Therapy, CBT) 방법 중 수용 전념 치료(Acceptance and Commitment Therapy, 이하 ACT)를 기반으로 한 텍스트를 제공할 수 있다. ACT는 수용(acceptance), 인지적 탈융합(cognitive defusion), 맥락으로서의 자기(self as context), 현재에 존재하기(being present), 가치(value), 전념적 행동(committed action)의 내용으로 구성되어 있으며 은유적인 기법으로 그 내용들을 전달하고 실 생활에 적용할 수 있도록 응용할 수 있는 내용을 제공한다. 도 4a 내지 4c는 본 개시의 일 실시예에 따른 수용 전념 치료를 기반으로 한 텍스트이다.
자기 대화 장치(1000)는 사용자의 감정이 중립 감정이라고 인식하는 것에 대응하여, 사용자에게 마음챙김과 호흡을 기반으로 하는 텍스트를 제공할 수 있다. 도 5a 내지 5c는 본 개시의 일 실시예에 따른 마음챙김과 호흡을 기반으로 하는 텍스트이다.
일 실시예에 있어서, 사용자에게 텍스트를 제공하는 것은 인공 지능 모델을 통해 수행될 수 있다. 인공 지능 모델은 아이콘, 문자, 음성, 질문-응답을 입력으로 하고, 상기 입력에 대한 출력을 텍스트로 하여 학습될 수 있다. 즉, 사용자가 선택한 아이콘, 문자, 사용자의 음성, 질문에 대한 사용자의 응답 중 적어도 하나의 조합에 대해 결과를 분류하여, 해당 분류에 적합한 텍스트를 사용자에게 제공할 수 있다.
자기 대화 장치(1000)는 텍스트에 대응하는 사용자의 발화를 메모리(1004)에 저장한다(S220). 사용자는 제공된 텍스트를 인식하고 이를 읽는다(발화한다). 일 실시예에서, 자기 대화 장치(1000)는 사용자의 발화 중에 텍스트의 핵심 단어가 있는지 판단한다. 사용자의 발화 중 텍스트의 핵심 단어가 있다고 판단하는 것에 대응하여 자기 대화 장치(1000)는 사용자의 전체 발화를 저장한다.
일 실시예에서, 자기 대화 장치(1000)는 사용자가 별도의 녹화 버튼을 누르지 않아도 사용자의 발화를 인식하고 저장할 수 있다. 예를 들어, 자기 대화 장치(1000)는 사용자에게 텍스트를 제공함과 동시에 또는 미리 정해진 시간 이후에 자동으로 사용자의 발화를 저장하는 기능을 시작할 수 있다. 따라서, 사용자가 별도의 녹화 버튼을 누르지 않고 단지 사용자 인터페이스(1002)에 제공된 텍스트를 발화함으로써 자기 대화 장치(1000)는 사용자의 발화를 저장할 수 있다.
자기 대화 장치(1000)는 녹음된 발화 및 콘텐츠를 사용자에게 제공한다(S225). 일 실시예에서, 텍스트가 발화한 콘텐츠가 텍스트로 제공될 수 있다.
도 6은 본 개시의 일 실시예에 따른 자기 대화를 이상적인 음색으로 제공하는 방법의 순서도이다.
도 6을 참조하면, 자기 대화 장치(1000)는 사용자에게 텍스트를 제공한다(S305). 일 실시예에서, 텍스트의 제공은 도 2의 텍스트 제공 단계(S215)와 유사하게 수행될 수 있다. 즉, 자기 대화 장치(1000)는 사용자의 감정을 인식하고 이에 대응하여 텍스트를 제공할 수 있다. 이와 다르게, 자기 대화 장치(1000)는 사용자의 메뉴 선택에 따라 정해진 텍스트를 제공할 수 있다. 예를 들어, 자기 대화 장치(1000)가 제공하는 사용자에게 제공하는 메뉴는 “음색 조절,” “체험 코스” 등을 포함하고, 사용자가 상기 메뉴를 선택하는 것에 대응하여 텍스트를 제공할 수 있다.
자기 대화 장치(1000)는 사용자의 텍스트 발화를 저장한다(S310). 사용자의 발화는 음성 데이터 형태로 저장될 수 있다. 사용자는 제공된 텍스트를 인식하고 이를 읽는다(발화한다). 일 실시예에서, 자기 대화 장치(1000)는 사용자의 발화 중에 텍스트의 핵심 단어가 있는지 판단한다. 사용자의 발화 중 텍스트의 핵심 단어가 있다고 판단하는 것에 대응하여 자기 대화 장치(1000)는 사용자의 전체 발화를 저장한다.
자기 대화 장치(1000)는 저장된 사용자의 음성 및 사용자의 음성을 변조한 음성을 저장한다(S315). 자기 대화 장치(1000)는 저장된 사용자의 음성 및 사용자의 음성을 변조한 음성을 N개 저장할 수 있다.
사람의 목소리에 대해 말하면, 본인이 말하면서 듣는 소리와 녹음해서 듣는 소리는 전달 경로가 상이하다. 본인의 목소리는 성대에서 울린 소리가 뼈와 근육을 통해 내이로 직접 전달되지만, 녹음된 목소리는 폐에서 나온 공기가 후두안의 성대를 통과하면서 발생하기 때문이다. 이에 따라, 사람은 본인이 말하면서 듣는 소리와 녹음해서 듣는 소리는 상이하다고 느끼게 된다. 보다 자세히, 본인의 목소리가 내이로 직접 전달되는 경우 저음부가 강조되고, 성대의 진동을 통해 만들어진 소리는 중음과 고음이 강조되는 경향이 있다. 자기 대화를 통해 자기 대화를 수행하는 경우, 녹음된 목소리를 사용자에게 들려주므로 사용자가 어색함을 느낄 수 있다.
일 실시예에서, 본 개시의 자기 대화 장치(1000)는 저장된 음성을 변조하여 본인의 목소리가 내이로 직접 전달되는 소리와 유사하게 변조할 수 있다. 또, 자기 대화 장치(1000)는 사용자의 음성을 다양하게 변조할 수 있다.
일 실시예에서, 자기 대화 장치(1000)는 저장된 음성 데이터로부터 피치, 특성 파형, 포먼트 등의 특징을 추출하고 이를 변형하여 사용자의 음성이 변조된 음성 데이터를 저장할 수 있다. 이에 따라, 동일 텍스트의 발화가 상이한 음성으로 복수 개 저장될 수 있다. 자기 대화 장치(1000)는 음성 데이터가 저장되면 음성 데이터로부터 추출된 피치, 파형 및 포먼트 중 적어도 하나를 증/감하여 사용자의 음성을 자동으로 변조할 수 있다. 이때, 피치, 파형 및 포먼트 중 적어도 하나가 증/감되는 양은 규칙으로 미리 정해져 자기 대화 장치(1000)의 메모리(1004)에 저장되어 있을 수 있다. 일 실시예에서, 녹음된 음성(raw voice)을 기준으로 피치(pitch)는 +, - 2를 조절하고 포먼트(formant)는 +,- 1을 조절하여 녹음된 음성(raw voice)를 제외한 총 14개의 음색 변조된 타입을 만들 수 있다. 피치(Pitch)는 음의 높낮이를 가리키는 용어로, 물리적으로는 진동수의 차이를 의미하며, 진동수가 많을수록 음높이가 높다. 일 실시예에서, 1, Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다. 피치를 조절하는 단위는 자유롭게 설정 가능하다. 포먼트(Formant)는 사람이 음성을 낼 때 주파수가 공명이 되면서 진폭이 커지게 되는데 이때 공명이 일어난 주파수 진폭 혹은 주파수 대역을 뜻한다. 포먼트 조절이란 공명 주파수의 진폭 또는 대역을 조절, 이동시키는 것을 의미할 수 있다.
상기 변조에 관한 규칙은 반복된 테스트를 통해 정해질 수 있다. 예를 들어, 자기 대화 장치(1000)의 관리자는 사용자의 음성 데이터를 저장하고 이를 다양하게 변조하는 테스트를 수행하여 원하는 변조 음성을 획득하고, 원하는 변조 음성 획득을 위한 변조 규칙을 정할 수 있다.
자기 대화 장치(1000)의 메모리(1004)는 사용자의 음성을 변조하는 복수의 일정 규칙을 저장할 수 있다. 자기 대화 장치(1000)는 상기 규칙에 따라 자동으로 사용자의 저장된 음성데이터를 변조하여 저장할 수 있다. 복수의 일정 규칙 각각은 키워드에 대응하여 저장되어 있을 수 있다. 이에 따라, 사용자가 특정 키워드를 선택하는 경우, 자기 대화 장치(1000)는 선택된 키워드에 대응하는 규칙에 따라 변조된 음성을 사용자에게 들려줄 수 있다.
다른 실시예에서, 사용자는 자기 대화 장치(1000)의 사용자 인터페이스(1002)를 통해 피치, 파형 및 포먼트 중 적어도 하나를 변조하는 입력을 입력하고, 이에 따라 저장된 음성 데이터가 변조될 수 있다. 즉, 사용자는 본인이 원하는 변조 음성을 수동으로 설정하여 저장할 수 있다.
다른 실시예에서, 자기 대화 장치(1000)의 메모리(1004)는 사용자의 음성을 변조하는 복수의 일정 규칙을 저장할 수 있다. 복수의 일정 규칙 각각은 키워드에 대응하여 저장되어 있을 수 있다. 사용자가 특정 키워드를 선택하는 경우, 자기 대화 장치(1000)는 선택된 키워드에 대응하는 규칙에 따라 음성 데이터를 변조하고, 이를 사용자에게 들려줄 수 있다.
또 다른 실시예에서, 자기 대화 장치(1000)의 메모리(1004)에는 샘플 음성이 저장되어 있을 수 있다. 샘플 음성은 동일한 발화를 상이한 복수의 음성으로 발화하여 저장된 음성을 포함한다. 사용자는 샘플 음성을 듣고 원하는 음성과 비슷한 음성을 선택할 수 있다. 자기 대화 장치(1000)는 사용자의 음성이 사용자가 선택한 음성과 유사해지도록 사용자가 발화하여 저장된 음성 데이터를 변조할 수 있다.
자기 대화 장치(1000)는 사용자에게 녹음된 발화를 제공한다(S320). 일 실시예에서, 자기 대화 장치(1000)는 복수의 저장한 음성 및 변조된 음성을 제공한다(S320). 예를 들어, 자기 대화 장치(1000)는 사용자에게 4개의 상이한 음성을 제공할 수 있다. 사용자는 복수의 음성을 듣고 원하는 음성을 선택할 수 있다.
자기 대화 장치(1000)는 키워드를 사용자에게 제공할 수 있다(S325). 키워드는 감정을 나타내는 키워드를 포함할 수 있다. 사용자는 원하는 키워드를 선택할 수 있다.
자기 대화 장치(1000)는 사용자가 선택하는 키워드에 대응하여 S320에서 선택된 음성을 재 변조하여 사용자에게 제공할 수 있다(S330). 예를 들어, 자기 대화 장치(1000)의 메모리(1004)에 음성 데이터를 변조하는 규칙이 키워드에 대응하여 저장되어 있으므로, 자기 대화 장치(1000)는 선택된 키워드에 기초하여 음성 데이터를 변조하는 규칙을 메모리(1004)에서 불러들이고 이에 기초해 음성 데이터를 변조할 수 있다. 자기 대화 장치(1000)는 재 변조한 음성을 사용자에게 제공할 수 있다. 사용자는 제공받은 음성들을 근거로 원하는 음성을 선택할 수 있다.
자기 대화 장치(1000)는 사용자의 음성 선택을 수신한다(S335). 자기 대화 장치(1000)는 사용자의 음성 선택 수신에 대응하여 아이템을 사용자에게 제공한다(S340). 아이템은 사용자 인터페이스(1002)에서 출력되는 화면의 일부를 꾸미는데 사용할 수 있다. 아이템 제공 단계는 생략될 수 있다.
자기 대화 장치(1000)는 사용자의 음성 선택 수신에 대응하여 최종 선택된 음성을 사용자에게 제공한다(S345).
일 실시예에서, 도 5 및 도 6의 단계는 조합하여 제공될 수 있다.
도 7 및 도 8는 본 개시의 일 실시예에 따른 이상적인 음색을 제공하는 방법을 설명하기 위한 도면들이다.
도 7를 참조하면, 포먼트 축(x 축)과 피치 축(y 축)이 교차하는 중심점('raw'라고 표시함)이 변화를 주지 않은 사용자의 음색이다. 포먼트와 피치가 증가된 음색을 타입 A(제1 사분면), 포먼트는 증가되고 피치가 감소된 음색을 타입 B(제4 사분면), 포먼트와 피치가 감소된 음색을 타입 C(제3 사분면), 포먼트가 감소되고 피치가 증가된 음색을 타입 D(제2 사분면)이라고 한다. 일 실시예에서, 포먼트와 피치의 조절 정도에 따라, 도 7에 도시된 것과 같이, A, AB, AA, AD, AADD, B, BB, BC, BBCC, C, CC, CD, D, DD의 총 14개의 포먼트와 피치가 조절된 음색을 제공할 수 있다. 14개의 음색은 예시적인 숫자이며, 포먼트와 피치의 조절에 따라 다양한 개수의 음색이 생성되어 제공될 수 있음이 이해될 것이다. 피치(Pitch)는 음의 높낮이를 가리키는 용어로, 물리적으로는 진동수의 차이를 의미하며, 진동수가 많을수록 음높이가 높다. 일 실시예에서, 1, Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다. 피치를 조절하는 단위는 자유롭게 설정 가능하다. 포먼트(Formant)는 사람이 음성을 낼 때 주파수가 공명이 되면서 진폭이 커지게 되는데 이때 공명 주파수의 진폭 혹은 대역을 뜻한다. 포먼트 조절이란 공명 주파수의 진폭 또는 대역을 조절, 이동시키는 것을 의미할 수 있다. 일 실시예에서, 1, Hz, 2Hz, 3Hz, 4Hz 단위로 조절할 수 있다.
일 실시예에서, 자기 대화 장치(1000)는 도 7와 같이 사용자의 원래 목소리를 중심으로, 포먼트와 피치를 각각의 축으로 하여 음색을 조절하는 화면을 사용자에게 제공하고, 사용자가 포먼트와 피치를 선택하도록 할 수 있다. 예를 들어, 사용자는 사용자 인터페이스(1002), 예를 들어, 터치 화면을 통해 원하는 지점을 선택할 수 있다. 자기 대화 장치(1000)는 사용자의 선택을 수신하여 사용자의 목소리의 음색을 조절할 수 있다.
도 8를 참조하면, 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 형용사(또는 키워드)가 개시된다. 이러한 형용사는 도 9에 도시된 것과 같이, 손진훈 (청각 감성측정 기술 및 DB 개발에 관한 연구, 1998), 박미자, 신수길, 한광희, 및 황상민 (감성 측정을 위한 우리말 형용사의 의미구조. 감성과학, 1(2), 1-11, 1998), 및 박용국, 김재국, 전용웅, 및 조암. (감성 평가를 이용한 듣기 좋은 음성 합성음에 대한 연구. 대한인간공학회지, 21(1), 51-65, 2002)를 참조하여 추출된다. 일 실시예에서, 자기 대화 장치(1000)는 사용자에게 도 8에 도시된 형용사를 제공하고, 사용자에 의해 선택된 형용사를 입력으로 하여 사용자의 목소리의 음색을 조절할 수 있다. 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 형용사는 자기 대화 장치(1000)의 메모리(1004)에는 저장되어 있을 수 있다. 또, 각 형용사에 따라 음색을 조절하는 정도, 예를 들어 피치와 포먼트의 조절 정도가 각각 매치되어 메모리(1004)에 저장되어 있을 수 있다.
도 10 및 도 11은 본 개시의 일 실시예에 따른 사용자에게 제공되는 화면의 일 예이다. 도 10을 참조하면, 사용자 인터페이스(1002)를 통해 제공되는 화면(702)을 통해 사용자는 제공된 콘텐츠(예를 들어, 텍스트)를 제공받는다. 사용자는 녹음 버튼(702a)을 이용하여 발화된 텍스트를 저장할 수 있다. 자기 대화 장치(1000)는 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 단어(704a)를 화면(704)을 통해 사용자에게 제공한다. 사용자가 단어(704a) 중 어느 하나를 선택하면, 타입 A, 타입 B, 타입 C, 타입 D에 해당하는 피치와 포먼트가 조절된 음색으로 사용자의 발화가 조절되어 사용자에게 제공될 수 있다. 예를 들어, 사용자가 타입 A에 해당하는 단어를 선택하는 것에 대응하여 도 7의 A 또는 AA에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 B에 해당하는 단어를 선택하는 것에 대응하여 도 7의 B 또는 BB에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 C에 해당하는 단어를 선택하는 것에 대응하여 도 7의 C 또는 CC에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다. 사용자가 타입 D에 해당하는 단어를 선택하는 것에 대응하여 도 7의 D 또는 DD에 해당하도록 저장된 사용자의 발화의 피치와 포먼트가 조절될 수 있다.
도 11을 참조하면, 사용자 인터페이스(1002)를 통해 제공되는 화면(802)을 통해 사용자는 좀 더 세분화된 내가 선호하는 목소리의 음색조절을 진행하기 위해 목소리를 나타내는 형용사 또는 키워드(802a)를 제공받는다. 즉, 자기 대화 장치(1000)는 메모리(1004)에 저장된 형용사를 불러들여 사용자 인터페이스(1002)를 통해 사용자에게 제공할 수 있다. 각 형용사는 도 8과 같이, 각각 A 내지 D타입에 속한다. 사용자는 선택된 개수, 예를 들어 3개의 형용사를 선택할 수 있다. 사용자가 선택한 형용사에 따라 사용자 발화의 음색이 조절(예를 들어 피치와 포먼트)될 수 있다. 자기 대화 장치(1000)는 사용자가 선택한 형용사에 기초하여 사용자가 원하는 목소리의 방향성(또는 경향성)을 인식할 수 있다.
사용자는 사용자 인터페이스(1002)를 통해 제공되는 화면(804)을 통해 더 많이 선택한 방향성(또는 경향성)에 해당하는 두가지의 음색 조절된 목소리 타입(804a)을 제공받을 수 있다. 예를 들어, B방향의 A타입을 선호하면 A 타입 카테고리에서 AA를 제외한 B방향에 있는 A와 AB의 음색 조절된 목소리 타입을 제공하여 선택하게 할 수 있다. 사용자는 두가지의 음색 조절된 목소리 타입(804a) 중 어느 하나를 선택할 수 있다.
사용자는 사용자 인터페이스(1002)를 통해 제공되는 화면(806)을 통해, 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a)을 제공받을 수 있다. 사용자는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a) 중 어느 하나를 선택할 수 있다. 다른 실시예에서, 자기 대화 장치(1000)는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a)과 함께 음색 조절이 되지 않은, 최초에 사용자가 발화한 음성을 사용자에게 제공할 수도 있다.
자기 대화 장치(1000)는 최종적으로 선택된 목소리를 사용자에게 제공하는 화면(808)을 제공한다.
도 12는 본 개시의 일 실시예에 따른 조절된 음색을 제공하는 방법을 설명하기 위한 논리적 트리이다. 도 10, 11 및 도 12를 참조하여 조절된 음색을 제공하는 방법을 설명한다. 자기 대화 장치(1000)는 타입 A, 타입 B, 타입 C, 타입 D에 대응하는 단어(704a)를 화면(704)을 통해 사용자에게 제공한다. 사용자가 단어(704a) 중 어느 하나를 선택하면, 타입 A, 타입 B, 타입 C, 타입 D에 해당하는 피치와 포먼트가 조절된 음색으로 사용자의 발화가 극단적으로 조절되어 사용자에게 제공될 수 있다. 일 실시예에서, 사용자가 타입 A에 해당하는 단어를 선택하면 도 7의 AA에 해당하도록, 타입 B에 해당하는 단어를 선택하면 도 7의 BB에 해당하도록, 타입 C에 해당하는 단어를 선택하면 도 7의 CC에 해당하도록, 타입 D에 해당하는 단어를 선택하면 도 7의 DD에 해당하도록 피치와 포먼트가 조절될 수 있다. 자기 대화 장치(1000)는 AA, BB, CC, DD 타입으로 조절된 사용자 발화를 사용자에게 제공할 수 있다. (1단계).
도 11의 화면(802)에 개시된 것과 같이, 자기 대화 장치(1000)는 A 내지 D 타입에 대응하는 형용사(802a)를 메모리(1004)로부터 불러들여 사용자 인터페이스(1002)를 통해 사용자에게 제공할 수 있다. 일 실시예에서, 사용자가 선택한 4개의 A, B, C, D타입 중 도 7에 도시된 것과 같이, 인접해 있는 타입의 형용사들을 사용자에게 제공할 수 있다. 사용자는 선택된 개수, 예를 들어 3개의 형용사를 선택할 수 있다. 자기 대화 장치(1000)는 사용자가 선택한 형용사에 기초하여 사용자가 원하는 목소리의 방향성(또는 경향성)을 인식할 수 있다. 예를 들어, 사용자가 AA타입의 목소리를 선택하는 것에 대응하여 A타입의 목소리 중 사분면에서 인접한 타입 B, D에 대한 형용사를 제공할 수 있다. 사용자의 선택으로부터 사용자가 A타입에서의 B쪽의 목소리(B방향 A타입)를 선호하는지, A타입에서 D쪽의 목소리(D방향 A타입)를 선호하는지를 인식할 수 있다. (2 단계).
자기 대화 장치(1000)는 사용자가 선택한 형용사들 중 더 많이 선택한 경향성의 방향에 해당하는 두가지의 음색조절 된 목소리(804a)를 제공할 수 있다. 예를 들어, B방향의 A타입을 선호하면 A 타입 카테고리에서 AA를 제외한 B방향에 있는 A와 AB의 음색 조절된 목소리 타입을 제공할 수 있다. 사용자는 두가지 목소리(804a) 중 어느 하나를 선택할 수 있다. (3단계).
자기 대화 장치(1000)는 사용자 인터페이스(1002)를 통해 제공되는 화면(806)을 통해 최초 골랐던 타입(예를 들어, AA, BB, CC, DD)과 세부적으로 음색 조절된 타입(806a)을 제공할 수 있다. 사용자는 최초 골랐던 타입과 세부적으로 음색 조절된 타입(806a) 중 어느 하나를 선택할 수 있다. (4단계).
일 실시예에서, 사용자는 임산부를 포함할 수 있다. 임산부는 본 개시의 장치(1000)를 이용하여 임신의 진행에 따라 목소리를 변환할 수 있다. 예를 들어, 임산부는 메모리(1004)에 임신의 시작 시기를 입력하거나 임신 주수를 저장할 수 있다. 또, 임산부는 메모리(1004)에 자신의 목소리를 저장시킬 수 있다. 임산부는 메모리(1004)에 임신 전의 목소리를 저장시킬 수 있다. 메모리(1004)는 임신 주차 별로 태아가 듣는 소리 환경을 고려하여 반응이 가장 좋은 주파수를 저장할 수 있다. 또한, 메모리(1004)는 임신 주기 또는 임신 진행 시기(예를 들어 임신 주차)에 해당하는 변조 특성(예를 들어, 주파수, 음색, 파형, 음량, 포먼트 등 중 적어도 하나)을 저장할 수 있다.
프로세서(1008)는 본 개시 및 선행 문헌에 개시된 방법을 이용하여 임산부의 목소리를 변환할 수 있다. 프로세서(1008)는 임신이 진행됨에 따라, 임산부의 목소리를 다른 변조 특성, 예를 들어 다른 주파수를 갖도록 변환할 수 있다. 프로세서(1008)는 임산부의 목소리를 상대적으로 낮은 주파수로 변환할 수 있다. 예를 들어, 프로세서(1008)는 임신 27주차에는 임산부의 목소리를 0.25에서 0.5kHz 사이의 주파수로 변환할 수 있다. 임신 33주 내지 35주차에는 임산부의 목소리를 1.0에서 3.0kHz 사이의 주파수로 변환할 수 있다. 이러한 주수와 주파수는 설정 가능함이 이해될 것이다.
이에 따라, 본 개시의 장치(1000)는 임산부의 목소리를 본래의 목소리보다 저 주파수로 변환하여 자기 대화를 제공하고, 제공된 자기 대화는 태아의 발달에 좋은 영향을 줄 수 있다.
일 실시예에서, 프로세서(1008)는 메모리(1004)에 저장된 임신 시작 시기 또는 임신 주수에 기초하여 자동으로 임신 진행에 따라 임산부의 목소리를 변조할 수 있다. 예를 들어, 프로세서(1008)는 임산부가 별도로 임산부의 목소리를 변조하기 위한 입력을 하지 않더라도, 시간이 지남에 따라 임신 주기 또는 임신 주수가 진행되는 것을 계산하여 임산부의 목소리를 변조하여 임산부에게 제공할 수 있다. 프로세서(1008)는 임신 주기 또는 임신 진행 시점을 계산하고, 임신 주기 또는 임신 진행 시점에 해당하는 변조 특성(예를 들어, 주파수, 음색, 파형, 포먼트, 음량 등 중 적어도 하나)을 메모리(1004)로부터 불러들이고 이용하여, 임산부의 목소리를 변조하여 임산부에게 제공할 수 있다. 예를 들어, 임신 주기를 초기(0주~12주), 중기(13주~26주), 후기(27주 이후)로 나누어 각각 해당하는 제1 변조 특성, 제2 변조 특성, 제3 변조 특성이 메모리(1004)에 저장되어 있을 수 있다. 또는 임신 주수 또는 임신 개월 수 각각의 변조 특성이 메모리(1004)에 저장되어 있을 수 있다. 프로세서(1008)는 각 시기에 맞추어 해당하는 변조 특성을 메모리(1004)로부터 읽어들여 임산부의 목소리를 변조하여 임산부에게 제공할 수 있다. 또, 메모리(1004)는 사용자 또는 서비스 프로바이더에 의해 설정된 임신 주수에 따라 다른 변조 특성을 저장할 수 있다. 이에 따라, 프로세서(1008)는 메모리(1004)에 저장된 사용자 또는 서비스 프로바이더의 설정에 기초하여 임신이 진행됨에 따라 다른 변조 특성을 적용하여 임산부의 목소리를 변조하여 사용자에게 제공할 수 있다.
상술한 임신 시기에 따라 임산부의 목소리의 주파수를 변조하는 것은 일 실시예이고, 주파수 변조에 본 개시의 실시예가 제한되지 않는다. 예를 들어, 임신 시기의 진행에 따라, 피치, 주파수, 포먼트, 파형 등 중 적어도 하나를 자동으로 변조하여 임산부에게 변조한 목소리로 자기 대화를 제공할 수 있다. 이러한 목소리 변조는 음성 필터에 의해 구현될 수 있다.
임산부는 임신 이후에 임신 전과 상이하게 목소리가 변할 수 있다. 또한, 임신이 진행됨에 따라 임산부의 목소리는 계속 변화할 수 있다. 임산부는 임신 이후에 변화한 목소리를 듣는 경우 스트레스를 받을 수 있고, 이는 태아에게 악영향을 줄 수 있다. 따라서, 본 개시의 장치(1000)는 임산부의 목소리를 변조시켜 임신 전 임산부의 목소리를 임산부에게 제공하도록 구성될 수 있다. 본 개시에 따른 장치(1000)는 자신의 목소리 구현 기능(Own Voice 기능)을 구비하고 음성을 변조하여 본인의 목소리가 내이로 직접 전달되는 소리와 유사하게 변조할 수 있다. 자신의 목소리 구현 기능은 피치, 주파수, 포먼트, 파형 등의 변조 특성을 적용하여 구현가능함이 이해될 것이다.
일 실시예에서, 장치(1000)는 마이크(1006)를 통해 임산부의 목소리를 수신할 수 있다. 메모리(1004)는 임신 전 임산부의 목소리를 저장할 수 있다. 프로세서(1008)는 저장된 임신 전 임산부의 목소리에 기초하여 수신한 임산부의 목소리를 자동으로 임신 전의 목소리와 유사 또는 동일하게 변조할 수 있다. 예를 들어, 프로세서(1008)은 임신 전 저장된 임산부의 목소리를 분석하여 목소리의 특징이 되는 음성 특징, 예를 들어 피치, 포먼트, 파형 등을 추출할 수 있다. 프로세서(1008)는 피치, 포먼트, 파형 중 적어도 하나의 최대값, 최소값, 평균값, 표준편차, 변이계수를 측정하고 프랫 자동 보정 프로그램을 사용하여 목소리 변조를 수행할 수 있다. 연구(예를 들어, Pisanski, K., Bhardwaj, K., & Reby, D. (2018). Women's voice pitch lowers after pregnancy. Evolution and Human Behavior, 39(4), 457-463.)에 따르면, 임신 후에는 목소리의 피치가 낮아지고 단조로워 질 수 있다. 따라서, 이러한 연구 결과를 참조하여 임산부의 목소리를 분석하고 변조할 수 있다.
프로세서(1008)는 목소리의 특징이 되는 피치, 포먼트, 파형의 기준을 결정할 수 있다. 프로세서(1008)는 임신 이후에 임산부의 목소리의 피치, 포먼트, 파형 등을 상기 결정된 기준에 맞도록 보정하여, 임산부의 목소리를 임신 전의 목소리와 유사 또는 동일하게 변조할 수 있다. 이와 다르게, 프로세서(1008)는 임산부의 입력을 수신하여 임산부의 목소리를 임신 전의 목소리와 유사 또는 동일하게 변조할 수 있다.
일 실시예에서, 프로세서(1008)는 임신 전 저장된 임산부의 목소리를 분석하여 목소리의 특징이 되는 음성 특징을 추출하고 이를 이용해 음성 변조의 실시의 기준을 결정할 수 있다. 음성 변조의 실시 기준에 따라, 프로세서(1008)는 임산부의 목소리를 변조할 것인지 변조하지 않을 것인지를 결정할 수 있다. 예를 들어, 임산부의 목소리가 임신 전 음성 특징의 0-5%, 5-10% 또는 0-10%의 범위내에 있다는 결정에 대응하여 프로세서(1008)는 임산부의 목소리를 변조하지 않을 것인지를 결정할 수 있다. 이러한 수치는 예시적인 것으로 변경 또는 설정이 가능함이 이해될 것이다.
도 2를 다시 참조하면, 장치(1000)가 임산부에게 콘텐츠를 제공한다(S215). 장치(1000)가 임산부에게 제공하는 콘텐츠는 아기를 위한 교육 콘텐츠 또는 동화의 텍스트를 포함할 수 있다. 장치(1000)는 텍스트에 대응하는 임산부의 발화를 메모리(1004)에 저장한다(S220). 이 때 장치(1000)는 임산부의 목소리를 변조하여 임신 전의 목소리와 유사 또는 동일하게 변조하여 저장할 수 있다. 이와 다르게, 장치(1000)는 임산부의 목소리의 변조 없이 임산부의 목소리를 저장할 수도 있다. 임산부의 목소리로 제공되는 콘텐츠를 나중에 출산 후 아기에게 제공할 수 있다.
일 실시예에서, 임산부에게 제공하는 콘텐츠는 통신 모듈(1012)을 통해 수신할 수 있다. 예를 들어, 장치(1000)는 외부의 서버로부터 동영상, 오디오 북 등 음성을 포함하는 콘텐츠를 통신 모듈(1012)을 통해 수신할 수 있다.
콘텐츠가 음성을 포함하는 음원, 예를 들어 자장가나 오디오 북인 경우, 프로세서(1008)는 음성 변조 기능을 수행하여 자동으로 음원을 임산부의 목소리로 변경하여 메모리(1004)에 저장할 수 있다. 이에 따라 예를 들어, 책을 읽어주는 동영상의 경우, 임산부의 목소리로 책을 읽어주는 동영상으로 변경될 수 있다. 동영상으로부터 음성을 추출하고 새로운 음성을 동영상과 결합하는 기술은 본 개시에 선행문헌으로 기재된 문헌 및 본 개시가 출원되는 시점에서 웹에서 검색가능한 기술로 구현 가능함이 이해될 것이다.
이렇게 임산부의 목소리로 변환된 콘텐츠는 태교나 아기가 태어난 후, 아이의 교육용으로 활용할 수 있다. 이를 위해, 임산부의 목소리로 변환된 콘텐츠는 메모리(1004)에 저장될 수 있다.
일 실시예에서, 콘텐츠는 임산부의 임신 진행 시점, 예를 들어 임신 초기, 중기, 후기, 임신 주차 등에 따라 다르게 제공될 수 있다.
콘텐츠가 음성을 포함하는 음원, 예를 들어 자장가나 오디오 북인 경우, 프로세서(1008)는 음성 변조 기능을 수행하여 자동으로 음원을 임산부의 목소리로 변경하여 메모리(1004)에 저장할 수 있다. 음성 변조 기능은 본 개시에 상술한 방법 및 본 개시가 출원되는 시점에서 웹에서 검색가능한 기술로 구현 가능함이 이해될 것이다.
일 실시예에 따르면, 장치(1000)는 사용자의 음성을 변조하는 복수의 일정 규칙을 저장할 수 있기 때문에, 임산부 또는 엄마의 목소리 필터 규칙을 생성하여 저장할 수 있다. 메모리(1004)는 콘텐츠 발화를 저장할 수 있다. 따라서, 장치(1000)는 임산부 또는 엄마의 목소리 필터 규칙을 사용하여 저장된 콘텐츠 발화를 엄마의 목소리로 변조하여 저장할 수 있다.
이상에서 설명된 장치 및 방법은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.
본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
1000: 자기 대화 장치 1002: 사용자 인터페이스
1004: 메모리 1006: 마이크
1008: 프로세서 1010: 스피커
1012: 통신 모듈

Claims (11)

  1. 삭제
  2. 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치를 이용한 자기 대화 방법으로,
    상기 프로세서에 의해, 임산부의 입력에 기초하여 상기 임산부의 임신 시기를 상기 메모리에 저장하는 단계;
    프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계;
    상기 임산부가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계;
    상기 프로세서에 의해 상기 임산부의 임신 시기로부터 상기 제1 시점이 얼마나 진행되었는지를 계산하는 단계;
    상기 임신 시기로부터 상기 제1 시점이 진행된 시기에 기초하여, 제1 규칙을 상기 메모리로부터 읽어 들이는 단계;
    상기 프로세서에 의해, 상기 메모리에 저장된 제1 규칙을 적용하여 상기 제1 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제1 변조 음성을 생성하여 상기 임산부에게 상기 제1 변조 음성으로 상기 제1 텍스트를 제공하는 단계;
    상기 프로세서에 의해 상기 제1 시점 이후의 제2 시점에서 제2 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계;
    상기 임산부가 상기 제2 텍스트를 발화하는 제2 음성을 상기 마이크로 수신하여 상기 메모리에 제2 음성 데이터로 저장하는 단계;
    상기 프로세서에 의해 상기 임산부의 임신 시기로부터 상기 제2 시점이 얼마나 진행되었는지를 계산하는 단계;
    상기 임신 시기로부터 상기 제2 시점이 진행된 시기에 기초하여, 제2 규칙을 상기 메모리로부터 읽어 들이는 단계; 및
    상기 프로세서에 의해, 상기 메모리에 저장된 제2 규칙을 적용하여 상기 제2 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제2 변조 음성을 생성하여 상기 임산부에게 상기 제2 변조 음성으로 상기 제2 텍스트를 제공하는 단계를 포함하는,
    자기 대화 방법.
  3. 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치를 이용한 자기 대화 방법으로,
    프로세서에 의해 제1 시점에서 제1 텍스트를 상기 메모리로부터 읽어 들여, 임산부에게 제공하는 단계;
    상기 임산부가 상기 제1 텍스트를 발화하는 제1 음성을 상기 마이크로 수신하여 상기 메모리에 제1 음성 데이터로 저장하는 단계;
    상기 프로세서에 의해, 상기 메모리에 저장된 제1 규칙을 적용하여 상기 제1 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제1 변조 음성을 생성하여 상기 임산부에게 상기 제1 변조 음성으로 상기 제1 텍스트를 제공하는 단계;
    상기 프로세서에 의해 상기 제1 시점 이후의 제2 시점에서 제2 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계;
    상기 임산부가 상기 제2 텍스트를 발화하는 제2 음성을 상기 마이크로 수신하여 상기 메모리에 제2 음성 데이터로 저장하는 단계; 및
    상기 프로세서에 의해, 상기 메모리에 저장된 제2 규칙을 적용하여 상기 제2 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제2 변조 음성을 생성하여 상기 임산부에게 상기 제2 변조 음성으로 상기 제2 텍스트를 제공하는 단계;
    상기 프로세서에 의해 상기 제2 시점 이후의 제3 시점에서 제3 텍스트를 상기 메모리로부터 읽어 들여, 상기 임산부에게 제공하는 단계;
    상기 임산부가 상기 제3 텍스트를 발화하는 제3 음성을 상기 마이크로 수신하여 상기 메모리에 제3 음성 데이터로 저장하는 단계; 및
    상기 프로세서에 의해, 상기 메모리에 저장된 제3 규칙을 적용하여 상기 제3 음성 데이터의 주파수, 음도, 포먼트 중 적어도 하나를 변조하여 제3 변조 음성을 생성하여 상기 임산부에게 상기 제3 변조 음성으로 상기 제2 텍스트를 제공하는 단계를 포함하고,
    상기 제1 시점은 임신 0주 내지 12주, 상기 제2 시점은 임신 13주 내지 26주, 상기 제3 시점은 임신 27주 이후인,
    자기 대화 방법.
  4. 메모리, 마이크, 스피커, 및 상기 메모리, 상기 마이크, 상기 스피커를 제어하는 프로세서를 포함하는 장치로, 제2항 또는 제3항에 기재된 방법을 수행하는 장치.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1020220037412A 2022-03-25 2022-03-25 자기 대화 장치 및 방법 KR102481216B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220037412A KR102481216B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220037412A KR102481216B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102481216B1 true KR102481216B1 (ko) 2022-12-28

Family

ID=84538213

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220037412A KR102481216B1 (ko) 2022-03-25 2022-03-25 자기 대화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102481216B1 (ko)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960042519A (ko) * 1995-05-29 1996-12-21 다까노 야스아끼 음성 합성 장치
JPH0950286A (ja) * 1995-05-29 1997-02-18 Sanyo Electric Co Ltd 音声合成装置及びこれに使用する記録媒体
KR101683310B1 (ko) 2008-06-17 2016-12-06 보이스센스 리미티드 화법분석을 통한 화자의 특성분석 방법
KR101689021B1 (ko) 2015-09-16 2016-12-23 주식회사 인포쉐어 센싱장비를 이용한 심리상태 판단 시스템 및 그 방법
KR101706123B1 (ko) 2015-04-29 2017-02-13 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR20180060060A (ko) 2016-11-28 2018-06-07 주식회사 디맨드 추억 회상을 통한 인지능력 향상 서비스를 제공하는 액티브 시니어 자립 생활 지원 시스템
KR20190125154A (ko) 2018-04-27 2019-11-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
KR20200113775A (ko) 2019-03-26 2020-10-07 한국과학기술원 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960042519A (ko) * 1995-05-29 1996-12-21 다까노 야스아끼 음성 합성 장치
JPH0950286A (ja) * 1995-05-29 1997-02-18 Sanyo Electric Co Ltd 音声合成装置及びこれに使用する記録媒体
KR101683310B1 (ko) 2008-06-17 2016-12-06 보이스센스 리미티드 화법분석을 통한 화자의 특성분석 방법
KR101706123B1 (ko) 2015-04-29 2017-02-13 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR101689021B1 (ko) 2015-09-16 2016-12-23 주식회사 인포쉐어 센싱장비를 이용한 심리상태 판단 시스템 및 그 방법
KR20180060060A (ko) 2016-11-28 2018-06-07 주식회사 디맨드 추억 회상을 통한 인지능력 향상 서비스를 제공하는 액티브 시니어 자립 생활 지원 시스템
KR20190125154A (ko) 2018-04-27 2019-11-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
KR20200113775A (ko) 2019-03-26 2020-10-07 한국과학기술원 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102385176B1 (ko) 심리 상담 장치 및 그 방법
Başkent et al. Musician advantage for speech-on-speech perception
WO2017168870A1 (ja) 情報処理装置及び情報処理方法
CN109272984A (zh) 用于语音交互的方法和装置
James et al. Empathetic speech synthesis and testing for healthcare robots
WO2020213468A1 (ja) 情報処理システム、情報処理方法、及びプログラム
Cartei et al. Children can control the expression of masculinity and femininity through the voice
Pullin et al. 17 ways to say yes: Toward nuanced tone of voice in AAC and speech technology
CN109215629B (zh) 语音处理方法、装置及终端
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
US20220036878A1 (en) Speech assessment using data from ear-wearable devices
Martín et al. Sound synthesis for communicating nonverbal expressive cues
CN117959592A (zh) 高级听力假体接受者康复和/或恢复
Niebuhr et al. Virtual reality as a digital learning tool in entrepreneurship: How virtual environments help entrepreneurs give more charismatic investor pitches
JP2024123237A (ja) 会話ベースの精神障害選別方法及びその装置
KR102481216B1 (ko) 자기 대화 장치 및 방법
CN106471569A (zh) 语音合成设备、语音合成方法及其程序
Ondáš et al. Towards robot-assisted children speech audiometry
Volín et al. The impact of rhythmic distortions in speech on personality assessment
KR102495725B1 (ko) 자기 대화 장치 및 그 방법
US11457313B2 (en) Acoustic and visual enhancement methods for training and learning
Hönemann et al. Adaptive speech synthesis in a cognitive robotic service apartment: An overview and first steps towards voice selection
Sadanobu et al. Japanese “street seller’s voice”
Kowalchuk What Trans* Folks Talk About When They Talk About Voice: Learning About Voice Feminization on Reddit
Babel et al. The Role of Voice Evaluation in Voice Recall

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant