KR102658445B1 - 음성 정동 변조 - Google Patents

음성 정동 변조 Download PDF

Info

Publication number
KR102658445B1
KR102658445B1 KR1020170008407A KR20170008407A KR102658445B1 KR 102658445 B1 KR102658445 B1 KR 102658445B1 KR 1020170008407 A KR1020170008407 A KR 1020170008407A KR 20170008407 A KR20170008407 A KR 20170008407A KR 102658445 B1 KR102658445 B1 KR 102658445B1
Authority
KR
South Korea
Prior art keywords
emotional state
speech
voice
user
person
Prior art date
Application number
KR1020170008407A
Other languages
English (en)
Other versions
KR20170087416A (ko
Inventor
제이미 엘리엇 나만
스테판 마티
다비드 디 센소
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20170087416A publication Critical patent/KR20170087416A/ko
Application granted granted Critical
Publication of KR102658445B1 publication Critical patent/KR102658445B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0075Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence by spectroscopy, i.e. measuring spectra, e.g. Raman spectroscopy, infrared absorption spectroscopy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response or playback speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Image Analysis (AREA)

Abstract

음성의 정동을 변조하기 위한 기술. 기술은 사람과 연관된 감정 상태를 결정하는 것, 및 음성 샘플과 연관된 정동을 변경하기 위해 감정 상태에 기초하여 사람으로부터 획득된 음성 샘플의 하나 이상의 음향 특성들을 변조하는 것을 포함한다. 기술은 변조된 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 것, 및 제 2 음성 샘플을 송신하는 것을 추가로 포함한다.

Description

음성 정동 변조{VOICE AFFECT MODIFICATION}
다양한 실시예들은 전반적으로 오디오 신호 프로세싱에 관한 것이며, 보다 구체적으로, 음성 정동 변조(voice affect modification)를 위한 기술들에 관한 것이다.
효과적인 통신은 건강한 사회적 연결들 및 비즈니스 관계들을 발전시키며 유지하는데 중요한 역할을 한다. 그럼에도 불구하고, 대화들에 관련될 때, 많은 사람들은 그들의 감정 상태를 정확하게 전달하고 및/또는 그들 주위에서의 사람들의 또는 대화들에 직접 관련된 사람들의 감정 상태들을 정확하게 결정하는데 어려움을 가진다. 예를 들면, 상이한 문화들은 일반적으로 상이한 유형들의 얼굴 표정들, 손 제스처들, 신체 제스처들 등을 통해 감정을 표현한다. 결과적으로, 이들 문화적 차이들로 인해, 상이한 문화적 배경들로부터의 사람들은 대화 동안 서로에 그들의 감정들을 효과적으로 전달하는데 어려움을 가질 수 있다. 또 다른 예로서, 자폐 스펙트럼 장애들을 가진 사람들은 일반적으로 다른 사람들과 대화하거나 또는 상호 작용할 때 그들의 감정들을 정확하게 전달하고 다른 사람들의 감정들을 해석하는데 어려움을 가진다.
사람들이 대화할 때 그들의 감정 상태를 보다 효과적으로 전달할 수 있게 하기 위한 노력으로, 몇몇 형태들의 전자 통신이 사용자들로 하여금 그래픽 심볼들을 통해 그들의 감정들을 명확하게 표시할 수 있게 한다. 예를 들면, 많은 텍스트 메시징 플랫폼들은 사용자가 그 또는 그녀의 감정 상태를 또 다른 사용자에게 그래픽으로 전달하기 위해 선택할 수 있는 그래픽 얼굴 표정들(즉, 이모티콘들)을 포함한다. 이들 유형들의 플랫폼들 외에, 그러나, 현재 라이브 및/또는 직접 상호 작용들 동안 감정 상태들을 전달하며 해석하도록 사용자들을 자동으로 돕는 이용 가능한 시스템들이 없다. 결과적으로, 감정 상태들을 효과적으로 전달하며 해석하기 위한 그들의 무능으로 인해, 많은 사람들은 대화들 및 사회적 상호 작용들로 계속해서 고심하며, 이것은 건강한 관계들을 발전시키며 유지하기 위한 그들의 능력을 억제한다.
앞서 말한 것이 예시하는 바와 같이, 서로 대화하거나 또는 상호 작용할 때 사람들의 감정 상태들을 전달하며 해석하기 위한 보다 효과적인 기술들이 유용할 것이다.
본 개시의 실시예들은 음성의 정동을 변조하기 위한 방법을 제시한다. 상기 방법은 사람과 연관된 감정 상태를 결정하는 단계, 및 음성 샘플과 연관된 정동을 변경하기 위해 상기 감정 상태에 기초하여 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하는 단계를 포함한다. 상기 방법은 변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 단계, 및 상기 제 2 음성 샘플을 송신하는 단계를 추가로 포함한다.
추가 실시예들은, 다른 것들 중에서, 상기 제시된 기술들을 구현하도록 구성된 시스템 및 비-일시적 컴퓨터-판독 가능한 저장 매체를 제공한다.
개시된 기술들의 적어도 하나의 이점은 화자의 음성의 정동이 상기 화자로 하여금 그들의 감정 상태를 보다 효과적으로 전달하고 및/또는 청취자가 상기 화자의 감정 상태를 보다 효과적으로 결정하는 것을 도울 수 있게 하기 위해 강화될 수 있다는 것이다. 또한, 화자의 음성에서의 정동은 화자의 감정 상태를 마스킹하기 위해, 예를 들면, 제한 없이, 감소되고 및/또는 변경될 수 있다. 게다가, 화자의 감정 상태는 화자 또는 청취자로부터의 상호 작용을 요구하지 않고, 하나 이상의 유형들의 센서 데이터를 통해 자동으로 결정될 수 있다.
하나 이상의 실시예들의 나열된 특징들이 상기에서 제시한 방식이 상세히 이해될 수 있도록, 상기 간결하게 요약된, 하나 이상의 실시예들에 대한 보다 특정한 설명이, 그 일부가 첨부된 도면들에서 예시되는, 특정한 특정 실시예들에 대한 참조에 의해 이루어질 수 있다. 그러나, 첨부된 도면들은 다른 실시예들을 또한 포함하기 위해 다양한 실시예들의 범위에 대해, 단지 통상적인 실시예들만을 예시하며 그러므로 임의의 방식으로 그것의 범위를 제한하는 것으로 고려되지 않는다는 것이 주의될 것이다.
도 1은 다양한 실시예들에 따라, 음성 정동 변조 시스템이 어떻게 대화 동안 사용자의 음성의 정동을 변조할 수 있는지에 대한 개념적 예시이다;
도 2는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템의 하나 이상의 양상들을 구현하도록 구성된 컴퓨팅 시스템의 예시이다;
도 3a 및 도 3b는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템을 통해 변조된 음성 샘플들을 생성하기 위한 상이한 기술들을 예시한다; 및
도 4는 다양한 실시예들에 따라, 음성의 정동을 변조하기 위한 방법 단계들의 흐름도이다.
다음의 설명에서, 다수의 특정 상세들이 본 개시의 실시예들의 보다 철저한 이해를 제공하기 위해 제시된다. 그러나, 본 개시의 실시예들은 이들 특정 상세들 중 하나 이상 없이 실시될 수 있다는 것이 이 기술분야의 숙련자에게 명백할 것이다.
상기 설명된 바와 같이, 많은 사람들은 그들의 감정 상태를 정확하게 전달하고 및/또는 그들이 대화하는 사람의 감정 상태를 정확하게 해석하는데 어려움을 가진다. 예를 들면, 및 제한 없이, 문화적 차이들, 불안, 신경 장애들, 취약한 대화 기술들 등은 화자가 그 또는 그녀의 감정들을 전달하기 위해 언어적 및/또는 비-언어적 큐들을 효과적으로 이용하는 것을 막을 수 있다. 유사하게, 이러한 이슈들은 청취자가 다른 사람들에 의해 전달된 감정들을 정확하게 해석하는 것을 막을 수 있다.
따라서, 대화자들 사이에서 감정들의 보다 효과적인 통신을 가능하게 하기 위해, 음성 정동 변조 시스템(이후, "음성 시스템")이 사용자와 연관된 감정 상태를 결정하며 그 후 감정 상태에 기초하여 사용자로부터 획득된 음성 샘플의 하나 이상의 음향 특성들을 변조할 수 있다. 보다 구체적으로, 음성 샘플의 피치, 음성 질, 음색, 음성 섭동, 음성 억양, 음량, 운율, 스피치 패턴, 및/또는 말 속도와 같은, 음성 샘플의 음향 특성들은 음성 샘플의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 변조될 수 있다. 변조된 음성 샘플은 그 후 사용자가 대화하고 있는 사람에게 출력되어, 사용자의 의도된 감정 상태(들)가 보다 효과적으로 전달되고 해석될 수 있게 한다. 다양한 실시예들에서, 음성 시스템은 대화 당사자들이 음성 시스템의 동작에 의해 방해받지 않도록 정동을 변조할 때 음성 샘플들의 음향 특성들에 대한 단지 미묘한 변화들만을 만든다.
도 1은 다양한 실시예들에 따라, 음성 시스템(100)이 어떻게 대화 동안 사용자의 음성의 정동을 변조할 수 있는지에 대한 개념적 예시이다. 음성 시스템(100)은, 제한 없이, 마이크로폰(110) 및 스피커(120)를 포함할 수 있다.
도시된 바와 같이, 음성 샘플(112)은 하나 이상의 마이크로폰들(110)을 통해 사용자로부터 획득된다. 음성 샘플(112)은 그 후 의도된 감정(들)을 보다 정확하게 전달하는 변조된 음성 샘플(114)을 생성하기 위해 음성 샘플(112)의 하나 이상의 음향 특성들을 변조함으로써 프로세싱된다. 예를 들면, 및 제한 없이, 사용자가 그 또는 그녀의 음성에서 전달된 흥분의 정도를 증가시키길 원한다면, 음성 시스템(100)은 음성 샘플(112)의 피치 및 음량를 증가시키도록 및/또는 피치, 음량, 및/또는 말 속도 또는 음성 샘플(112)에 포함된 특정 단어들 또는 구절들을 변조함으로써와 같이, 음성 샘플(112)의 운율적 특성들을 변조하도록 음성 샘플(112)을 프로세싱할 수 있다. 반대로, 사용자가 그 또는 그녀의 음성에서 전달된 슬픔 또는 연민의 정도를 증가시키기를 원한다면, 음성 시스템(100)은 이들 특정한 감정들을 강조하기 위해 음성 샘플(112)의 운율적 특성들을 변조하도록 및/또는 음성 샘플(112)의 피치 및 말 속도를 감소시키도록 음성 샘플(112)을 프로세싱할 수 있다. 음성 시스템(100)은 그 후 화자(들)(120)를 통해 청취자에게 변조된 음성 샘플(114)을 출력할 것이다.
다양한 실시예들에서, 음성 시스템(100)과 연관된 하나 이상의 센서들을 사용자의 감정 상태를 자동으로 검출한다. 음성 시스템(100)은 그 후 음성 샘플(112)의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 감정 상태에 기초하여 사용자로부터 획득된 음성 샘플(112)을 변조한다. 예를 들면, 및 제한 없이, 사용자가 행복 또는 감사를 전달하는데 어려움을 겪는다면, 음성 시스템(100)과 연관된 하나 이상의 센서들은 사용자가 행복하거나 또는 고마워함을 표시하는 언어적 및/또는 비-언어적 큐들을 검출할 수 있다. 음성 시스템(100)은 그 후 음성 샘플(112)의 피치 및/또는 말 속도를 증가시킴으로써와 같이, 음성 샘플(112)에 반영된 행복 또는 감사의 정도를 증가시키기 위해 사용자로부터 획득된 음성 샘플(112)을 변조할 것이다. 따라서, 사용자가 대화하고 있는 사람이 사용자에 의해 나타내어진 특정한 언어적 및/또는 비-언어적 큐들이 사용자가 행복하거나 또는 고마워함을 표시한다고 이해할 수 없을지라도, 음성 시스템(100)은 사용자의 행복 또는 감사를 보다 효과적으로 전달하기 위해 이들 큐들을 검출하며 음성 샘플(112)의 정동을 변조할 수 있다.
또 다른 비-제한적 예에서, 음성 시스템(100)과 연관된 하나 이상의 센서들은 사용자가 화나거나 또는 좌절감을 느낌을 표시하는 언어적 및/또는 비-언어적 큐들을 검출할 수 있다. 음성 시스템(100)은 그 후 말 속도를 감소시키는 것, 피치를 낮추는 것, 및/또는 음성 샘플(112)의 톤을 중립화하는 것에 의해서와 같이, 음성 샘플(112)에 반영된 분노 및/또는 좌절의 정도를 감소시키기 위해 사용자로부터 획득된 음성 샘플(112)을 변조할 수 있다. 결과적으로, 이러한 실시예들에서, 음성 시스템(100)은 화나거나 또는 좌절감을 느끼고 있는 사용자가 음성의 공격적인 톤을 사용하지 않고 다른 사람들과 보다 공손히 대화할 수 있게 할 수 있다. 대안적으로, 음성 시스템(100)이 사용자가 화나거나 또는 좌절감을 느끼고 있음을 검출할 때, 음성 시스템(100)은 음성 샘플(112)에 저조파 주파수들을 부가하는 것에 의해서와 같이, 음성 샘플(112)에 반영된 분노 및/또는 좌절의 정도를 증가시키기 위해 음성 샘플(112)에서 정동을 강화할 수 있다. 이러한 실시예들에서, 음성 시스템(100)은 화나거나 또는 좌절감을 느끼지만, 상기 분노 또는 좌절을 효과적으로 전달할 수 없는 사용자가 다른 사람들에 의해 보다 정확하게 이해될 수 있게 할 것이다.
따라서, 몇몇 실시예들에서, 음성 시스템(100)은 음성 시스템(100)이 하나 이상의 센서들을 통해, 사용자가 제 1 세트의 감정 상태들(예로서, 행복한, 흥분한, 다정한)에 있음을 결정할 때 음성 샘플(112)의 정동을 강화할 수 있으며 사용자가 제 2 세트의 감정 상태들(예로서, 화난, 좌절감을 느끼는, 슬픈)에 있을 때 음성 샘플(112)의 정동을 감소시키거나 또는 변경할 수 있다. 하나 이상의 센서들을 통해 사용자의 감정 상태를 검출하기 위한 부가적인 기술들이 도 2와 함께 이하에서 추가로 상세히 설명된다.
다양한 실시예들에서, 사용자는 그 또는 그녀가 음성 샘플(100)에서 강화하고, 감소시키고, 및/또는 변경하고 싶어하는 하나 이상의 감정들을 선택할 수 있다. 사용자는 각각의 감정이 음성 시스템(100)에 의해 강화되고, 감소되고, 및/또는 변경되어야 하는 정도를 추가로 선택할 수 있다. 일반적으로, 사용자는 그 또는 그녀 자신의 음성 샘플들(112)에서 정동을 강화하고, 감소시키며, 및/또는 변경하도록 선택할 수 있거나, 또는 사용자는 사용자가 대화하고 있는 사람으로부터 획득된 음성 샘플들(112)에서의 정동을 강화하고, 감소시키며, 및/또는 변경하도록 선택할 수 있다. 예를 들면, 및 제한 없이, 사용자는 음성 시스템(100)과 연관된 그래픽 사용자 인터페이스(GUI)를 통해 제 1 감정(예로서, "흥분")을 선택하며 이러한 감정이 강화되어야 함을 표시할 수 있다. 이에 응답하여, 음성 시스템(100)이 사용자 및/또는 사용자가 대화 중인 사람이 흥분하였음을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 음성 샘플(112)의 음량, 피치, 및/또는 말 속도를 증가시킴으로써와 같이, 흥분을 강조하기 위해 변조될 것이다.
뿐만 아니라, 사용자는 음성 시스템(100)과 연관된 GUI를 통해 제 2 감정(예로서, "화난")을 선택하며 이러한 감정이 감소되어야 함을 표시할 수 있다. 그 후, 음성 시스템(100)이 사용자 및/또는 사용자가 대화하고 있는 사람이 화가 났음을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 음성 샘플(112)의 말 속도 및 음량를 감소시키는 것에 의해서와 같이, 음성 샘플(112)에서 분노를 감소시키기 위해 변조될 것이다. 또 다른 비-제한적인 예에서, 사용자는 음성 시스템(100)과 연관된 GUI를 통해 제 3 감정(예로서, "불안한")을 선택하며 이러한 감정이 변경되어야 함을 표시할 수 있다. 그 후, 음성 시스템(100)이 사용자 및/또는 사용자가 대화하고 있는 사람이 불안해함을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 변경되며, 확신과 같은, 상이한 감정으로 대체될 것이다.
몇몇 실시예들에서, GUI는 음성 시스템(100)과 연관된 스마트폰 또는 이동 컴퓨터 디스플레이상에서 구현될 수 있다. 부가적으로, 몇몇 실시예들에서, 여기에서 설명된 기능 중 임의의 것(예로서, 강화, 감소, 변경 등)은 GUI를 통한 명시적 상호 작용 없이, 음성 시스템(100)에 의해 자동으로 구현될 수 있다.
도 2는 다양한 실시예들에 따라, 도 1의 음성 시스템(100)의 하나 이상의 양상들을 구현하도록 구성된 컴퓨팅 시스템의 예시이다. 도시된 바와 같이, 음성 시스템(100)은, 제한 없이, 하나 이상의 마이크로폰들(110), 하나 이상의 스피커들(120), 컴퓨팅 디바이스(200), 카메라(220), 및 전극들(222)을 포함할 수 있다. 컴퓨팅 디바이스(200)는 프로세서(202), 입력/출력(I/O) 디바이스들(204), 및 메모리(210)를 포함한다. 메모리(210)는 데이터베이스(214)와 상호 작용하도록 구성된 음성 변조 애플리케이션(212)을 포함한다.
마이크로폰(들)(110)은 무선 또는 유선 음향 트랜듀서들을 포함할 수 있다. 예를 들면, 및 제한 없이, 마이크로폰(들)(110)은 동적 빔 형성을 허용하는 단일 트랜듀서들, 전방향 트랜듀서들, 지향성 트랜듀서들, 및/또는 마이크로폰 어레이들을 포함할 수 있다.
다양한 실시예들에서, 음성 변조 애플리케이션(212)은 마이크로폰(들)(110)을 통해 획득된 하나 이상의 음성 샘플들(112)로부터 사용자의 감정 상태를 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 감정 상태를 나타내는 음성 샘플(112)에서의 하나 이상의 음향 특성들을 검출할 수 있다. 음성 변조 애플리케이션(212)은 그 후 음성 샘플(112)에서 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 실시간으로 다른 감정 상태들에 관련된 음향 특성(들) 및/또는 음향 특성들을 변조할 것이다.
다양한 실시예들에서, 카메라(들)(220)는 사용자의 얼굴 표정들, 사용자에 의해 수행된 제스처들, 산동 검사, 사용자의 자세, 및/또는 사용자의 신체 언어를 검출하도록 구성된다. 예를 들면, 및 제한 없이, 카메라(들)(220)에 의해 획득된 이미지들은 사용자의 눈, 눈썹, 입, 코, 이마, 볼, 손가락끝, 관절, 손, 손목, 팔, 어깨, 등, 다리 등의 위치들 및/또는 외형을 결정하기 위해 분석될 수 있다. 이들 신체 부분들의 보다 많은 것 중 하나의 위치들 및/또는 외형은 그 후 사용자의 감정 상태를 결정하기 위해 사용될 수 있다. 예를 들면, 및 제한 없이, 사용자의 얼굴 및/또는 신체의 이미지들은 카메라(들)(220)에 의해 획득되며 사용자의 눈썹 및 입의 형태 및/또는 사용자의 자세를 결정하기 위해 음성 변조 애플리케이션(212)에 의해 프로세싱될 수 있다. 사용자의 눈썹 및 입의 형태 및/또는 사용자의 자세는 그 후 사용자의 감정 상태를 결정하기 위해 분석될 수 있다. 단지 하나의 카메라(220)만이 도 2에 도시되지만, 사용자에 대해 임의의 위치들에 위치된 임의의 수의 카메라들(220)이 사용자의 감정 상태 및/또는 사용자가 대화하고 있는 사람의 감정 상태를 검출하기 위해 사용될 수 있다.
전극(들)(222)은 뇌파 검사(EEG) 전극들, 피부 전도 전극들, 심박 센서 전극들, 및/또는 근전도 검사(EMG) 전극들을 포함할 수 있다. 일반적으로, 전극들(222)은 사용자의 감정 상태와 연관된 센서 데이터를 획득한다. 예를 들면, 및 제한 없이, EEG 전극들을 통해 획득된 센서 데이터는 사용자의 두뇌 활동을 검출하기 위해 음성 변조 애플리케이션(212)에 의해 분석될 수 있다. 음성 변조 애플리케이션(212)은 그 후 두뇌 활동에 기초하여 사용자의 감정 상태를 결정하며 상기 감정 상태에 기초하여 하나 이상의 음성 샘플들(112)을 변조할 수 있다. 부가적으로, 사용자의 감정 상태를 표시한 두뇌 활동은 기능적 자기 공명 영상법(fMRI) 및 기능적 근적외 분광 분석법(fNIRS)을 통해 획득된 센서 데이터와 같은, 다른 유형들의 센서 데이터를 통해 결정될 수 있다.
몇몇 실시예들에서, 피부 전도 전극들 및/또는 심박수 센서 전극들을 통해 획득된 센서 데이터는 사용자의 감정 상태를 결정하기 위해 사용될 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 사용자가 땀을 흘리고 있다고 결정하기 위해 하나 이상의 피부 전도 전극들을 통해 획득된 센서 데이터를 프로세싱할 수 있다. 이러한 센서 데이터에 기초하여 및 선택적으로 다른 센서 데이터(예로서, 카메라(220)를 통해 획득된 사용자의 얼굴의 이미지들)와 함께, 음성 변조 애플리케이션(212)은 그 후 사용자가 불안해하고 있다고 결정할 수 있다. 또 다른 비-제한적인 예에서, 음성 변조 애플리케이션(212)은 사용자가 증가된 심박수를 갖는다고 결정하기 위해 심박수 센서 전극을 통해 획득된 센서 데이터를 프로세싱할 수 있다. 그 후, 이러한 센서 데이터에 기초하여 및 선택적으로 다른 센서 데이터(예로서, 사용자의 음성 샘플(112)의 스펙트럼 분석)와 함께, 음성 변조 애플리케이션(212)은 사용자가 행복하고 및/또는 흥분하였음을 결정할 수 있다.
음성 시스템(100)은 사용자의 두피, 외이도, 및/또는 사용자의 머리 또는 신체의 다른 부분들과 접촉하여 위치되도록 구성된 임의의 수의 전극들(222)을 포함할 수 있다. 몇몇 실시예들에서, 여기에서 설명된 하나 이상의 유형들의 전극들(222)은 스마트폰, 헤드셋, 팔찌, 암밴드, 가슴 스트랩, 이어버드들, 또는 헤드폰들(230)의 쌍에서와 같은, 사용자에 의해 착용되거나 또는 유지되는 디바이스에 포함된다. 계속해서 다른 실시예들에서, 음성 변조 애플리케이션(212)은 산소 포화도 센서를 통해 사용자에서의 생리적 변화들을 검출함으로써, 또는 가속도계, 자이로스코프, 또는 자력계를 통해 사용자의 움직임을 검출함으로써 사용자의 감정 상태를 결정할 수 있다.
I/O 디바이스들(204)은 입력 디바이스들, 출력 디바이스들, 및 입력을 수신하고 출력을 제공하는 것 양쪽 모두가 가능한 디바이스들을 포함할 수 있다. 예를 들면, 및 제한 없이, I/O 디바이스들(204)은 음성 시스템(100)에 포함된 마이크로폰(들)(110), 스피커(들)(120), 카메라(220), 및/또는 전극들(222)로 데이터를 전송하고 및/또는 그로부터 데이터를 수신하는 유선 및/또는 무선 통신 디바이스들을 포함할 수 있다. 부가적으로, I/O 디바이스들(204)은 사용자의 감정 상태를 표시하는 다른 유형들의 센서 데이터를 수신하는 하나 이상의 유선 또는 무선 통신 디바이스들을 포함할 수 있다.
다양한 실시예들에서, 음성 시스템(100)은 개인 오디오 디바이스, 이동 컴퓨터, 개인용 디지털 보조기, 이동 전화, 데스크탑 컴퓨터, 또는 여기에서 설명된 하나 이상의 실시예들을 실시하기에 적합한 임의의 다른 디바이스를 포함할 수 있다. 몇몇 실시예들에서, 음성 시스템(100)은 도 2에 도시된 오버-더-이어(over-the-ear) 헤드폰들과 같은, 한 쌍의 헤드폰들(230)을 포함하며, 여기에서 하나 이상의 마이크로폰들(110)은 선택적으로 배치된다. 일반적으로, 그러나, 타원형 덮개형(circumaural) 헤드폰들, 귀 위를 살짝 덮는(supra-aural) 헤드폰들, 및 인-이어 헤드폰들을 포함한, 임의의 유형의 유선 또는 무선 헤드폰들이 여기에서 설명된 기술들을 수행하기 위해 사용될 수 있다. 다른 실시예들에서, 음성 시스템(100)은 보청기와 같은 보조적 의료 디바이스, 또는 블루투스® 헤드셋과 같은, 이동 통신 디바이스를 포함하여, 사용자를 위해 사운드를 캡처하며 재생할 수 있는 임의의 음향 디바이스일 수 있다.
일반적으로, 컴퓨팅 디바이스(200)는 음성 시스템(100)의 전체 동작을 조정하도록 구성된다. 다른 실시예들에서, 컴퓨팅 디바이스(200)는 음성 시스템(100)의 다른 구성요소들에 결합되지만, 그로부터 분리될 수 있다. 이러한 실시예들에서, 음성 시스템(100)은 사용자의 감정 상태를 표시하는 센서 데이터 및/또는 음성 샘플들(112)을 수신하며 데이터(예로서, 센서 데이터 및/또는 변조된 음성 샘플들(114))를 컴퓨팅 디바이스(200)에 송신하는 별개의 프로세서를 포함할 수 있으며, 이것은 개인용 컴퓨터, 착용 가능한 디바이스, 스마트폰, 휴대용 미디어 플레이어 등과 같은, 별개의 디바이스에 포함될 수 있다. 그러나, 여기에서 개시된 실시예들은 음성 시스템(100)의 기능을 구현하도록 구성된 임의의 기술적으로 실현 가능한 시스템을 고려한다.
프로세서(202)는 데이터를 프로세싱하며 프로그램 코드를 실행하도록 구성된 임의의 기술적으로 실현 가능한 형태의 프로세싱 디바이스일 수 있다. 프로세서(202)는, 예를 들면, 및 제한 없이, 중앙 프로세싱 유닛(CPU), 그래픽스 프로세싱 유닛(GPU), 애플리케이션-특정 집적 회로(ASIC), 필드-프로그램 가능한 게이트 어레이(FPGA) 등일 수 있다. 메모리(210)는 메모리 모듈 또는 메모리 모듈들의 모음을 포함할 수 있다. 메모리(210) 내에서의 음성 변조 애플리케이션(212)은 컴퓨팅 디바이스(200)의 전체 기능을 구현하기 위해, 및 그에 따라 전체로서 음성 시스템(100)의 동작을 조정하기 위해 프로세서(202)에 의해 실행된다. 예를 들면, 및 제한 없이, 음성 샘플들(112) 및/또는 마이크로폰(들)(110), 카메라(220), 및 전극들(222)을 통해 획득된 센서 데이터는 변조된 음성 샘플들(114) 및/또는 사용자의 감정 상태를 표시하는 데이터를 생성하기 위해 음성 변조 애플리케이션(212)에 의해 프로세싱될 수 있다. 몇몇 실시예들에서, 데이터베이스(214)는 음성 샘플들(112), 변조된 음성 샘플들(114), 오디오 파라미터들, 센서 데이터, 알고리즘들, 통계들, 및 사용자 선호들을 저장한다.
음성 시스템(100)이 헤드폰들(230) 또는 이어버드들과 함께 구현되는 실시예들에서, 헤드폰들(230) 또는 이어버드들은 사용자가 주변 환경에서 주위의 사운드들을 들을 수 있는 음향적 투명 모드에서 동작할 수 있다. 음향적 투명 모드에서, 음성 변조 애플리케이션(212)은 사용자가 대화하고 있는 한 명 이상의 사람들과 연관된 음성 샘플들(112)을 검출하며(예로서, 선택적 음성 강화를 통해) 음성 샘플들(112)의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 음성 샘플들(112)을 변조할 수 있다. 변조된 음성 샘플들(114)은 그 후 헤드폰들(230) 또는 이어버드들에 포함된 스피커들(120)을 통해 사용자에게 출력될 것이다.
부가적으로, 음성 시스템(100)은 음성 샘플(112)에서 특정 사운드 주파수들을 소거하기 위해 스피커들(120)을 통해 반전된 신호들을 출력함으로써와 같은, 활성 잡음 소거 기술들을 통해 음성 샘플(112)에서의 정동을 변조할 수 있다. 예를 들면, 및 제한 없이, 사용자의 음성에서 특정한 주파수들은 사용자의 음성의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 하나 이상의 반전된 신호들을 통해 소거될 수 있다. 뿐만 아니라, 음성 시스템(100)은 직접 통신들 동안 변조된 음성 샘플들(114) 및/또는 잡음 소거 신호들을 출력하는 외부 스피커들(120)(예로서, 라우드스피커들)과 함께 이러한 기술들을 구현할 수 있다. 이러한 실시예들에서, 음성 변조 애플리케이션(212)은 음성 샘플(112)의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 음성 샘플(112)을 변조하며 사용자 자신의 음성과 유사하거나 또는 그보다 큰 볼륨에서 변조된 음성 샘플(114)을 출력할 수 있어서, 사용자가 대화하고 있는 사람이 사용자의 감정 상태를 보다 정확하게 지각하도록 허용한다.
일반적으로, 음성 변조 애플리케이션(212)은 음성 샘플(112)과 연관된 정동을 강화하고, 감소시키거나, 또는 변경하도록 음성 샘플(112)을 변조하기 위해 임의의 기술적으로 실현 가능한 알고리즘들 또는 기술들을 사용할 수 있다. 몇몇 실시예들에서, 음성 변조 애플리케이션(212)은 푸리에 변환들, 고조파 스케일링, 피치 스케일링, 피치 시프팅, 시간 스트레칭, 시간 압축, 및 재샘플링과 같은 오디오 프로세싱 기술들을 통해 음성 샘플들(112)의 음향 특성들을 변조한다. 부가적으로, 오토-튠(Auto-Tune) 또는 유사한 오디오 프로세싱 기술들과 같은, 상업적 기술들이 다양한 실시예들에서 구현될 수 있다.
상이한 사용자들이 감정들을 상이하게 표현할 수 있기 때문에(예로서, 문화적 또는 개인적 이유들로 인해), 음성 시스템(100)은 트레이닝 모드를 포함할 수 있다. 트레이닝 모드에서, 음성 시스템(100)은 사용자의 감정 상태들을 학습하기 위해 특정 감성 상태들과 연관된 센서 데이터를 프로세싱하여, 감정 상태들이 음성 시스템(100)의 동작 동안 보다 정확하게 결정될 수 있게 한다. 몇몇 실시예들에서, 음성 시스템(100)은 음성 시스템(100)이 감정 상태들을 결정하기 위해 구현할 수 있는 사용자 휴리스틱을 생성하도록 기계 학습 알고리즘들을 구현한다. 이러한 휴리스틱은 그 후 데이터베이스(214)에 저장되며 음성 변조 애플리케이션(212)에 의해 액세스될 수 있다.
다수의 유형들의 센서 데이터가 사용자의 감정 상태를 결정하기 위해 음성 변조 애플리케이션(212)에 의해 획득되는 실시예들에서, 가중치가 각각의 유형의 센서 데이터에 할당될 수 있다. 사용자의 감정 상태(들)는 그 후 각각의 센서 유형에 대해 결정된 감정 상태 및 센서 유형들의 각각에 할당된 가중치에 기초하여 결정될 수 있다. 예를 들면, 및 제한 없이, 사용자는 두뇌 활동과 연관된 센서 데이터에 제 1 가중치를, 얼굴 표정들과 연관된 센서 활동에 제 2 가중치를, 및 음향 특성 획득 음성 샘플들(112)과 연관된 센서 데이터에 제 3 가중치를 할당하기 위해 GUI와 상호 작용할 수 있다. 음성 변조 애플리케이션(212)은 그 후 각각의 유형의 센서 데이터에 의해 표시된 감정 상태를 결정하고, 각각의 감정 상태에 가중치를 적용하며, 상기 가중들에 기초하여 우세한 감정 상태를 결정할 것이다. 몇몇 실시예들에서, 특정 유형들의 센서 데이터에 가중치들을 할당하는 것은 애매모호한 언어적 및 비-언어적 큐들이 검출될 때 음성 변조 애플리케이션(212)이 정확한 감정 상태(들)를 보다 정확하게 결정할 수 있게 할 것이다. 부가적으로, 특정 유형들의 센서 데이터에 가중치들을 할당하는 것은, 이들 유형들의 센서 데이터를 완전히 무시하지 않고, 음성 변조 애플리케이션(212)이 사용자의 감정 상태를 보다 덜 정확하게 반영할 수 있는 센서 데이터의 유형들에 덜 강조를 둘 수 있게 할 것이다.
도 3a 및 도 3b는 다양한 실시예들에 따라, 도 1의 음성 시스템(100)을 통해 변조된 음성 샘플들(114)을 생성하기 위한 상이한 기술들을 예시한다. 도 3a에 도시된 바와 같이, 몇몇 실시예들에서, 화자와 연관된 디바이스(310)(예로서, 스마트폰) 상에서 실행하는 음성 변조 애플리케이션(212)은 음성 샘플(112)을 획득하고, 화자의 감정 상태(들)를 결정하며, 음성 샘플(112) 및 감정 상태(들) 양쪽 모두를 청취자에게 송신한다. 그 후, 청취자와 연관된 디바이스(320)는 음성 샘플(112) 및 감정 상태(들)를 수신하며, 청취자 디바이스(320) 상에서 실행하는 음성 변조 애플리케이션(212)은 청취자에게 출력되는 변조된 음성 샘플(114)을 생성한다. 따라서, 이러한 실시예들에서, 음성 샘플(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하도록 프로세싱되는 방식은 청취자 디바이스(320) 상에서 실행하는 음성 변조 애플리케이션(212)에 의해 구현된 GUI를 통해서와 같이, 청취자에 의해 제어될 수 있다.
도 3b에 도시된 바와 같이, 몇몇 실시예들에서, 화자와 연관된 디바이스(310) 상에서 실행하는 음성 변조 애플리케이션(212)은 음성 샘플(112)을 획득하고, 화자의 감정 상태(들)를 결정하며, 변조된 음성 샘플(114)을 생성하기 위해 음성 샘플(112)을 로컬에서 변조한다. 변조된 음성 샘플(114)은 그 후 청취자와 연관된 디바이스(320)로 송신되며 청취자에게 출력된다. 따라서, 이러한 실시예들에서, 음성 샘플(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 프로세싱되는 방식은 상기 설명된 GUI 구현들 중 임의의 것을 통해서와 같은, 화자에 의해 제어될 수 있다.
부가적으로, 도 3a 및 도 3b에 예시된 실시예들에서, 화자 및 청취자는 음성 샘플들(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 변조되는 정도를 협상할 수 있다. 이러한 실시예들에서, 청취자 및 화자의 각각은 하나 이상의 감정 상태들에 대한 강화, 감소, 및/또는 변화의 선호 정도를 선택할 수 있다. 음성 변조 애플리케이션(212)은 그 후 당사자들에 의해 선택된 강화, 감소, 및/또는 변화의 보다 낮은 정도를 선택함으로써와 같은, 화자 및 청취자에 의해 이루어진 선택들에 기초하여 음성 샘플들(112)을 변조할 수 있다.
도 4는 다양한 실시예들에 따라, 음성의 정동을 변조하기 위한 방법 단계들의 흐름도이다. 방법 단계들은 도 1 내지 도 3b의 시스템들과 함께 설명되지만, 이 기술분야의 숙련자는 임의의 순서로, 방법 단계들을 수행하도록 구성된 임의의 시스템이 다양한 실시예들의 범위 내에 있다는 것을 이해할 것이다.
도시된 바와 같이, 방법(400)은 단계(410)에서 시작하며, 여기에서 음성 변조 애플리케이션(212)은 사용자의 감정 상태를 결정하기 위해, 마이크로폰(들)(110), I/O 디바이스들(204), 카메라(들)(220), 전극(들)(222) 등을 통해 수신된 센서 데이터를 분석한다. 예를 들면, 및 제한 없이, 상기 설명된 바와 같이, 음성 변조 애플리케이션(212)은 사용자의 감정 상태를 표시한 언어적 및/또는 비-언어적 큐들을 검출하기 위해 센서 데이터를 분석할 수 있다. 그 후, 단계(420)에서, 음성 변조 애플리케이션(212)은 부가적인 유형의 센서 데이터가 분석되어야 하는지를 결정한다. 부가적인 유형의 센서 데이터가 분석되어야 한다면, 방법(400)은 단계(410)로 리턴한다.
어떤 부가적인 유형의 센서 데이터도 분석되지 않아야 한다면, 방법(400)은 단계(430)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 가중치를 선택적으로 적용한다. 상기 설명된 바와 같이, 몇몇 실시예들에서, 음성 시스템(100)의 사용자는 각각의 유형의 센서 데이터에 적용할 가중치들을 선택할 수 있다. 부가적으로, 몇몇 실시예들에서, 음성 변조 애플리케이션(212)은 하나 이상의 유형들의 센서 데이터에 가중치들을 자동으로 적용할 수 있다.
단계(440)에서, 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 대해 결정된 감정 상태를 분석하며 센서 데이터에 의해 표시된 우세한 감정 상태를 결정한다. 가중치들이 하나 이상의 유형들의 센서 데이터에 적용되는 실시예들에서, 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 대해 결정된 감정 상태에 대응하는 가중치를 적용하며 어떤 감정 상태가 최고 값을 갖는지를 결정함으로써 우세한 감정 상태를 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 제 1 유형의 센서 데이터(예로서, 마이크로폰(110)을 통해 획득된 음성 샘플(112))에 40%의 제 1 가중치를, 제 2 유형의 센서 데이터(예로서, 카메라(220)를 통해 획득된 얼굴 이미지들)에 30%의 제 2 가중치를, 및 제 3 유형의 센서 데이터(예로서, 전극들(222)을 통해 획득된 두뇌 활동)에 30%의 제 3 가중치를 할당할 수 있다. 그 후, 음성 변조 애플리케이션(212)이 제 1 유형의 센서 데이터 및 제 2 유형의 센서 데이터 양쪽 모두에 대해 "행복한" 감정 상태를 결정하였지만, 제 3 유형의 센서 데이터에 대해 "화난" 감정 상태를 결정하였다면, 단계(440)에서, 음성 변조 애플리케이션(212)은 "행복한" 감정 상태가 우세한 감정 상태임을 결정할 것이다(예로서, 70%의 총 가중치에 기초하여).
몇몇 실시예들에서, 단계(440)에서, 음성 변조 애플리케이션(212)은 사용자에 의해 보여진 다수의 우세한 감정 상태들을 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 제 1 감정 상태를 결정하기 위해 언어적 큐들을 분석할 수 있으며(예로서, 음성 샘플(112)에 기초하여) 제 2 감정 상태를 결정하기 위해 비-언어적 큐들을 분석할 수 있다(예로서, 얼굴 표정들에 기초하여). 그 후, 음성 변조 애플리케이션(212)이 제 1 감정 상태가 제 2 감정 상태와 충돌하지 않는다고 결정하면, 제 1 감정 상태 및 제 2 감정 상태 양쪽 모두는 우세한 감정 상태들로서 지정될 수 있다. 충돌하는 감정 상태들의 비-제한적인 예는 행복한 감정 상태 및 슬픈 감정 상태를 포함한다. 충돌하지 않는 감정 상태들의 비-제한적인 예는 행복한 감정 상태 및 불안한 감정 상태, 또는 화난 감정 상태 및 슬픈 감정 상태를 포함한다.
다음으로, 단계(450)에서, 음성 변조 애플리케이션(212)은 사용자로부터 획득된 음성 샘플들(112)이 로컬에서(예로서, 화자 디바이스(310)를 통해) 또는 원격에서(예로서, 청취자 디바이스(320)를 통해) 변조될 것인지를 결정한다. 음성 변조 애플리케이션(212)이 음성 샘플들(112)이 로컬에서 변조될 것이라고 결정하면, 방법(400)은 단계(460)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 우세한 감정 상태(들)에 기초하여 음성 샘플(112)의 하나 이상의 음향 특성들을 변조한다. 부가적으로, 단계(460)에서, 음성 변조 애플리케이션(212)은 음성 샘플(112)의 양상들(예로서, 특정 주파수들)을 소거하기 위해 우세한 감정 상태(들)에 기초하여 하나 이상의 잡음 소거 신호들을 발생시킬 수 있다. 그 후, 단계(465)에서, 음성 변조 애플리케이션(212)은 변조된 음성 샘플(114)을 청취자 디바이스(320)에 송신함으로써 및/또는 스피커(120)를 통해 변조된 음성 샘플(114)을 출력함으로써와 같이, 변조된 음성 샘플(114)을 출력한다. 방법(400)은 그 후 단계(410)로 리턴한다.
단계(450)로 돌아가면, 음성 변조 애플리케이션(212)이 음성 샘플들(112)이 원격으로 변조될 것이라고 결정하면, 방법(400)은 단계(470)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 하나 이상의 음성 샘플들(112) 및 우세한 감정 상태(들)를 표시한 데이터를, 청취자 디바이스(320)와 같은, 원격 디바이스로 송신한다. 상기 설명된 바와 같이, 음성 샘플(들)(112) 및 우세한 감정 상태(들)를 표시한 데이터를 원격 디바이스로 송신하는 것은 원격 사용자로 하여금 음성 샘플들(112)이 어떻게 음성 샘플(들)(112)에서의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 프로세싱될지를 결정할 수 있게 한다. 방법(400)은 그 후 단계(410)로 리턴한다.
요컨대, 음성 변조 애플리케이션은 하나 이상의 유형들의 센서 데이터에 기초하여 사용자의 감정 상태를 결정한다. 다음으로, 음성 변조 애플리케이션은 감정 상태에 기초하여 음성 샘플의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 사용자로부터 획득된 음성 샘플을 변조한다. 음성 변조 애플리케이션은 그 후 변조된 음성 샘플을 청취자에게 출력한다.
여기에서 설명된 기술들의 적어도 하나의 이점은 화자의 음성에서의 정동이 화자로 하여금 그들의 감정 상태를 보다 효과적으로 전달하며 및/또는 청취자가 화자의 감정 상태를 보다 효과적으로 결정하는 것을 돕게 할 수 있도록 강화될 수 있다는 것이다. 또한, 화자의 음성에서의 정동은, 예를 들면, 및 제한 없이, 화자의 감정 상태를 마스킹하기 위해 감소되고 및/또는 변경될 수 있다. 게다가, 화자의 감정 상태는 화자 또는 청취자로부터의 상호 작용을 요구하지 않고, 하나 이상의 유형들의 센서 데이터를 통해 자동으로 결정될 수 있다.
다양한 실시예들의 설명들은 예시의 목적들을 위해 제공되지만, 철저하거나 또는 개시된 실시예들에 제한되도록 의도되지 않는다. 많은 변조들 및 변형들은 설명된 실시예들의 범위 및 사상으로부터 벗어나지 않고 이 기술분야의 숙련자들에게 명백할 것이다.
본 실시예들의 양상들은 시스템, 방법, 또는 컴퓨터 프로그램 제품으로서 구체화될 수 있다. 따라서, 본 개시의 양상들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함한) 또는 모두 일반적으로 여기에서 "회로", "모듈" 또는 "시스템"으로서 불리울 수 있는 소프트웨어 및 하드웨어 양상들을 조합한 실시예의 형태를 취할 수 있다. 더욱이, 본 개시의 양상들은 그것 상에 구체화된 컴퓨터 판독 가능한 프로그램 코드를 가진 하나 이상의 컴퓨터 판독 가능한 매체(들)에 구체화된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터 판독 가능한 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 컴퓨터 판독 가능한 저장 매체는, 예를 들면, 이에 제한되지 않지만, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 앞서 말한 것의 임의의 적절한 조합일 수 있다. 컴퓨터 판독 가능한 저장 매체의 보다 특정한 예들(비-철저한 리스트)은 다음을 포함할 것이다: 하나 이상의 와이어들을 가진 전기적 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독-전용 메모리(ROM), 삭제 가능한 프로그램 가능 판독-전용 메모리(EPROM 또는 플래시 메모리), 광 섬유, 휴대용 컴팩트 디스크 판독-전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 앞서 말한 것의 임의의 적절한 조합. 본 문서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 지시 실행 시스템, 장치, 또는 디바이스에 의한 사용을 위해 또는 그것에 관련하여 프로그램을 포함하거나 또는 저장할 수 있는 임의의 유형의 매체일 수 있다.
본 개시의 양상들은 개시의 실시예들에 따른 방법들, 장치(시스템들) 및 컴퓨터 프로그램 제품들의 흐름도 예시들 및/또는 블록도들을 참조하여 상기에서 설명된다. 흐름도 예시들 및/또는 블록도들의 각각의 블록, 및 흐름도 예시들 및/또는 블록도들에서의 블록들의 조합들은 컴퓨터 프로그램 지시들에 의해 구현될 수 있다는 것이 이해될 것이다. 이들 컴퓨터 프로그램 지시들은 기계를 생성하기 위해 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그램 가능한 데이터 프로세싱 장치의 프로세서에 제공될 수 있으며, 따라서 컴퓨터 또는 다른 프로그램 가능한 데이터 프로세싱 장치의 프로세서를 통해 실행하는, 지시들은 흐름도 및/또는 블록도 블록 또는 블록들에서 특정된 기능들/동작들의 구현을 가능하게 한다. 이러한 프로세서들은, 제한 없이, 범용 프로세서들, 특수-목적 프로세서들, 애플리케이션-특정 프로세서들, 또는 필드-프로그램 가능한 프로세서들 또는 게이트 어레이들일 수 있다.
도면들에서 흐름도 및 블록도들은 본 개시의 다양한 실시예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능, 및 동작을 예시한다. 이것과 관련하여, 흐름도 또는 블록도들에서의 각각의 블록은 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있으며, 이것은 특정된 로직 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 지시들을 포함한다. 몇몇 대안적인 구현들에서, 블록에서 주지된 기능들은 도면들에서 주지된 순서 외로 발생할 수 있다는 것이 또한 주의되어야 한다. 예를 들면, 연속하여 도시된 두 개의 블록들은, 사실상 실질적으로 동시에 실행될 수 있거나, 또는 블록들은 때때로 수반된 기능에 의존하여, 역순으로 실행될 수 있다. 블록도들 및/또는 흐름도 예시의 각각의 블록, 및 블록도들 및/또는 흐름도 예시에서의 블록들의 조합들은 특정된 기능들 또는 동작들을 수행하는 특수 목적 하드웨어-기반 시스템들, 또는 특수 목적 하드웨어 및 컴퓨터 지시들의 조합들에 의해 구현될 수 있다는 것이 또한 주의될 것이다.
상술한 것은 본 개시의 실시예들에 관한 것이지만, 본 개시의 다른 및 추가 실시예들이 그것의 기본 범위로부터 벗어나지 않고 고안될 수 있으며, 그것의 범위는 이어지는 청구항들에 의해 결정된다.

Claims (20)

  1. 프로세서에 의해 실행될 때, 음성의 정동(affect of a voice)을 변조하도록 상기 프로세서를 구성하는 지시들을 포함하는 비-일시적 컴퓨터-판독 가능한 저장 매체로서,
    사람과 연관된 제 1 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 1 감정 상태를 결정하는 단계;
    상기 사람과 연관된 제 2 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 2 감정 상태를 결정하는 단계;
    상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하는 단계;
    상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하는 단계;
    상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여 :
    음성 샘플과 연관된 정동을 변경하기 위해, 상기 제 1 감정 상태에 기초하여 상기 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성(acoustic characteristic)들을 변조하며 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성(acoustic characteristic)들을 변조하는 단계;
    변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 단계; 및
    상기 제 2 음성 샘플을 송신하는 단계 수행에 의한, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  2. 청구항 1에 있어서,
    상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는 상기 사람의 하나 이상의 얼굴 특성들을 결정하기 위해 시각적 센서 데이터를 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  3. 청구항 1에 있어서,
    상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는, 상기 제 1 감정 상태를 반영한 적어도 하나의 음향 특성을 검출하기 위해 상기 음성 샘플을 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  4. 청구항 3에 있어서,
    상기 적어도 하나의 음향 특성은, 피치(pitch), 음성 섭동(vocal perturbation), 음량(loudness), 또는 말 속도(speech rate) 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  5. 청구항 1에 있어서,
    상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태를 결정하는 단계는, 상기 사람의 두뇌 활동을 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  6. 청구항 1에 있어서,
    상기 음성 샘플의 상기 하나 이상의 음향 특성들을 변조하는 단계는, 상기 음성 샘플과 연관된 피치를 증가시키는 것 또는 상기 음성 샘플과 연관된 상기 피치를 감소시키는 것 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  7. 청구항 1에 있어서,
    상기 음성 샘플의 상기 하나 이상의 음향 특성들을 변조하는 단계는, 상기 음성 샘플과 연관된 속도를 증가시키는 것, 상기 음성 샘플과 연관된 상기 속도를 감소시키는 것, 상기 음성 샘플과 연관된 음량을 증가시키는 것, 또는 상기 음성 샘플과 연관된 상기 음량를 감소시키는 것 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  8. 삭제
  9. 청구항 1에 있어서,
    상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는, 그래픽 사용자 인터페이스를 통해 상기 제 1 감정 상태의 선택을 수신하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체.
  10. 음성의 정동을 변조하기 위한 시스템으로서,
    사용자로부터 음성 샘플을 획득하도록 구성된 마이크로폰;
    상기 사용자와 연관된 센서 데이터를 획득하도록 구성된 하나 이상의 센서들;
    음성 변조 애플리케이션을 저장한 메모리; 및
    상기 마이크로폰, 상기 하나 이상의 센서들, 및 상기 메모리에 연결된 프로세서를 포함하고, 상기 프로세서에 의해 실행될 때, 상기 음성 변조 애플리케이션은 상기 프로세서가:
    상기 센서 데이터의 제 1 유형의 센서 데이터를 분석함으로써 상기 사용자와 연관된 제 1 감정 상태를 결정하고;
    상기 센서 데이터의 제 2 유형의 센서 데이터를 분석함으로써 상기 사용자와 연관된 제 2 감정 상태를 결정하고;
    상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사용자와 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하고;
    상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하고;
    상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여 :
    상기 음성 샘플과 연관된 정동을 변경하기 위해, 상기 제 1 감정 상태에 기초하여 상기 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하며 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하고;
    변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하며;
    상기 제 2 음성 샘플을 송신하도록 구성하는, 음성의 정동을 변조하기 위한 시스템.
  11. 청구항 10에 있어서,
    상기 프로세서는 상기 제 1 감정 상태와 연관된 적어도 하나의 음향 특성을 검출하기 위해 상기 음성 샘플을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템.
  12. 청구항 10에 있어서,
    상기 하나 이상의 센서들은 카메라를 포함하며, 상기 프로세서는 상기 사용자의 하나 이상의 얼굴 특성들을 결정하기 위해 상기 카메라를 통해 획득된 하나 이상의 이미지들을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템.
  13. 청구항 10에 있어서,
    상기 하나 이상의 센서들은 카메라를 포함하며, 상기 프로세서는 상기 사용자에 의해 수행된 제스처 또는 상기 사용자의 신체 자세 중 적어도 하나를 결정하기 위해 상기 카메라를 통해 획득된 하나 이상의 이미지들을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템.
  14. 청구항 10에 있어서,
    상기 센서 데이터는 상기 사용자의 두뇌 활동을 나타내는 신호들을 포함하며, 상기 프로세서는 상기 두뇌 활동에 기초하여 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템.
  15. 청구항 14에 있어서,
    상기 사용자의 두뇌 활동을 나타내는 상기 신호들은 뇌파 검사(EEG) 신호들, 기능적 자기 공명 영상법(fMRI) 신호들, 또는 기능적 근적외 분광 분석법(fNIRS) 신호들 중 적어도 하나를 포함하는, 음성의 정동을 변조하기 위한 시스템.
  16. 삭제
  17. 청구항 10에 있어서,
    상기 제 2 음성 샘플은 잡음 소거 신호를 포함하며, 상기 프로세서에 의해 실행될 때, 상기 음성 변조 애플리케이션은 상기 사용자의 음성을 변조하기 위해 스피커를 통해 상기 잡음 소거 신호를 출력함으로써 상기 제 2 음성 샘플을 송신하도록 상기 프로세서를 구성하는, 음성의 정동을 변조하기 위한 시스템.
  18. 음성의 정동을 변조하기 위한 방법으로서,
    사람과 연관된 센서 데이터 및 상기 사람으로부터의 음성 샘플을 획득하는 단계;
    상기 센서 데이터의 제 1 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 1 감정 상태를 결정하는 단계;
    상기 센서 데이터의 제 2 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 2 감정 상태를 결정하는 단계;
    상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하는 단계;
    상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하는 단계; 그리고
    상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 및 상기 음성 샘플을 나타내는 데이터를 원격 디바이스에 송신하는 것을 포함하는, 음성의 정동을 변조하기 위한 방법.
  19. 청구항 18에 있어서,
    상기 센서 데이터는, 상기 사람의 음성의 음향 특성, 상기 사람의 얼굴 표정, 또는 상기 사람의 두뇌 활동 중 적어도 하나를 포함하는, 음성의 정동을 변조하기 위한 방법.
  20. 청구항 18에 있어서,
    상기 원격 디바이스는,
    상기 음성 샘플과 연관된 정동이 변경된 제 2 음성 샘플을 생성하기 위해, 상기 사람과 연관된 상기 제 1 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하고 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하며,
    상기 제 2 음성 샘플을 출력하도록 구성되는, 음성의 정동을 변조하기 위한 방법.
KR1020170008407A 2016-01-20 2017-01-18 음성 정동 변조 KR102658445B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/002,320 US10157626B2 (en) 2016-01-20 2016-01-20 Voice affect modification
US15/002,320 2016-01-20

Publications (2)

Publication Number Publication Date
KR20170087416A KR20170087416A (ko) 2017-07-28
KR102658445B1 true KR102658445B1 (ko) 2024-04-17

Family

ID=57758524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170008407A KR102658445B1 (ko) 2016-01-20 2017-01-18 음성 정동 변조

Country Status (6)

Country Link
US (1) US10157626B2 (ko)
EP (1) EP3196879A1 (ko)
JP (1) JP6863733B2 (ko)
KR (1) KR102658445B1 (ko)
CN (1) CN106992013B (ko)
CA (1) CA2953539C (ko)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304447B2 (en) 2017-01-25 2019-05-28 International Business Machines Corporation Conflict resolution enhancement system
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10845956B2 (en) 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
EP3684463A4 (en) 2017-09-19 2021-06-23 Neuroenhancement Lab, LLC NEURO-ACTIVATION PROCESS AND APPARATUS
CN107818787B (zh) * 2017-10-31 2021-02-05 努比亚技术有限公司 一种语音信息的处理方法、终端及计算机可读存储介质
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN107919138B (zh) * 2017-11-30 2021-01-08 维沃移动通信有限公司 一种语音中的情绪处理方法及移动终端
US11717686B2 (en) 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
US11478603B2 (en) 2017-12-31 2022-10-25 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to enhance emotional response
US11919531B2 (en) * 2018-01-31 2024-03-05 Direct Current Capital LLC Method for customizing motion characteristics of an autonomous vehicle for a user
CN108404274A (zh) * 2018-02-09 2018-08-17 上海康斐信息技术有限公司 一种声音自动调整方法和设备
CN108682434B (zh) * 2018-03-26 2020-08-21 Oppo广东移动通信有限公司 电子装置、数据处理方法及相关产品
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11364361B2 (en) 2018-04-20 2022-06-21 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10869128B2 (en) 2018-08-07 2020-12-15 Pangissimo Llc Modular speaker system
US20200053223A1 (en) * 2018-08-07 2020-02-13 International Business Machines Corporation Adjusting of communication mode
WO2020056418A1 (en) 2018-09-14 2020-03-19 Neuroenhancement Lab, LLC System and method of improving sleep
US10861483B2 (en) 2018-11-29 2020-12-08 i2x GmbH Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person
US10839788B2 (en) 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US11450311B2 (en) 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
US11514924B2 (en) * 2020-02-21 2022-11-29 International Business Machines Corporation Dynamic creation and insertion of content
CN113327620B (zh) * 2020-02-29 2024-10-11 华为技术有限公司 声纹识别的方法和装置
US11735206B2 (en) 2020-03-27 2023-08-22 Harman International Industries, Incorporated Emotionally responsive virtual personal assistant
CN111899765B (zh) * 2020-07-27 2023-05-30 中国平安人寿保险股份有限公司 基于情绪预测模型的语音发送方法、装置和计算机设备
USD940191S1 (en) * 2020-08-31 2022-01-04 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD940188S1 (en) * 2020-09-28 2022-01-04 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD964377S1 (en) * 2020-09-28 2022-09-20 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법
CN112398952A (zh) * 2020-12-09 2021-02-23 英华达(上海)科技有限公司 电子资源推送方法、系统、设备及存储介质
US20220293122A1 (en) * 2021-03-15 2022-09-15 Avaya Management L.P. System and method for content focused conversation
CN113077783B (zh) * 2021-03-26 2023-07-21 联想(北京)有限公司 小语种语音语料扩增方法、装置及电子设备和存储介质
DE102021208344A1 (de) 2021-08-02 2023-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Sprachsignalbearbeitungsvorrichtung, Sprachsignalwiedergabesystem und Verfahren zum Ausgeben eines entemotionalisierten Sprachsignals
US20230343349A1 (en) * 2022-04-20 2023-10-26 Sony Interactive Entertainment Inc. Digital audio emotional response filter
CN118427777B (zh) * 2024-07-02 2024-09-13 广州美术学院 基于人工智能的心理语言学数据挖掘集成平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002034936A (ja) * 2000-07-24 2002-02-05 Sharp Corp 通信装置および通信方法
US20080147413A1 (en) * 2006-10-20 2008-06-19 Tal Sobol-Shikler Speech Affect Editing Systems
US20140112556A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
US9070282B2 (en) * 2009-01-30 2015-06-30 Altorr Corp. Smartphone control of electrical devices
US9767470B2 (en) * 2010-02-26 2017-09-19 Forbes Consulting Group, Llc Emotional survey
US20120016674A1 (en) 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US9762719B2 (en) * 2011-09-09 2017-09-12 Qualcomm Incorporated Systems and methods to enhance electronic communications with emotional context
US8903176B2 (en) * 2011-11-14 2014-12-02 Sensory Logic, Inc. Systems and methods using observed emotional data
US9418390B2 (en) 2012-09-24 2016-08-16 Intel Corporation Determining and communicating user's emotional state related to user's physiological and non-physiological data
WO2014085910A1 (en) * 2012-12-04 2014-06-12 Interaxon Inc. System and method for enhancing content using brain-state data
CN103903627B (zh) * 2012-12-27 2018-06-19 中兴通讯股份有限公司 一种语音数据的传输方法及装置
JP2015106387A (ja) * 2013-12-02 2015-06-08 株式会社東芝 表示制御方法、情報処理装置およびプログラム
US20160191958A1 (en) * 2014-12-26 2016-06-30 Krush Technologies, Llc Systems and methods of providing contextual features for digital communication
US9431003B1 (en) * 2015-03-27 2016-08-30 International Business Machines Corporation Imbuing artificial intelligence systems with idiomatic traits

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002034936A (ja) * 2000-07-24 2002-02-05 Sharp Corp 通信装置および通信方法
US20080147413A1 (en) * 2006-10-20 2008-06-19 Tal Sobol-Shikler Speech Affect Editing Systems
US20140112556A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EVA SZEKELY et al., ‘Facial expression-based Effective speech translation’, Journal on Multimodal User Interfaces, vol. 8, pp.87~96, 2014.*
Hatice Gunes et al., ‘Bi-modal emotion recognition from expressive face and body gestures’, Journal of Network and Computer Applications, Vol.30, Issue 4, November 2007.*

Also Published As

Publication number Publication date
US10157626B2 (en) 2018-12-18
US20170206913A1 (en) 2017-07-20
CA2953539A1 (en) 2017-07-20
KR20170087416A (ko) 2017-07-28
CN106992013B (zh) 2023-09-19
CN106992013A (zh) 2017-07-28
JP2017129853A (ja) 2017-07-27
EP3196879A1 (en) 2017-07-26
JP6863733B2 (ja) 2021-04-21
CA2953539C (en) 2024-03-19

Similar Documents

Publication Publication Date Title
KR102658445B1 (ko) 음성 정동 변조
JP6992870B2 (ja) 情報処理システム、制御方法、およびプログラム
JP2016126500A (ja) ウェアラブル端末装置およびプログラム
US20200329322A1 (en) Methods and Apparatus for Auditory Attention Tracking Through Source Modification
JP2012059107A (ja) 感情推定装置、感情推定方法およびプログラム
US11539762B2 (en) Conferencing based on driver state and context
US20240212388A1 (en) Wearable devices to determine facial outputs using acoustic sensing
US20240251121A1 (en) Focus group apparatus and system
US11853472B2 (en) Modify audio based on physiological observations
CN114432565A (zh) 空想意识信息恢复系统
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US11276420B2 (en) Interaction system, apparatus, and non-transitory computer readable storage medium
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
US10635665B2 (en) Systems and methods to facilitate bi-directional artificial intelligence communications
JP2021114004A (ja) 情報処理装置及び情報処理方法
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
US11657814B2 (en) Techniques for dynamic auditory phrase completion
US20220101873A1 (en) Techniques for providing feedback on the veracity of spoken statements
US20230277130A1 (en) In-ear microphones for ar/vr applications and devices
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
Das A novel Emotion Recognition Model for the Visually Impaired
JP2018149626A (ja) コミュニケーションロボット、プログラム及びシステム
Marpaung et al. Toward building automatic affect recognition machine using acoustics features
JP2024059525A (ja) 聴覚支援装置、聴覚支援システム、及び聴覚支援プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right