KR102658445B1 - 음성 정동 변조 - Google Patents
음성 정동 변조 Download PDFInfo
- Publication number
- KR102658445B1 KR102658445B1 KR1020170008407A KR20170008407A KR102658445B1 KR 102658445 B1 KR102658445 B1 KR 102658445B1 KR 1020170008407 A KR1020170008407 A KR 1020170008407A KR 20170008407 A KR20170008407 A KR 20170008407A KR 102658445 B1 KR102658445 B1 KR 102658445B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotional state
- speech
- voice
- user
- person
- Prior art date
Links
- 230000004048 modification Effects 0.000 title description 5
- 238000012986 modification Methods 0.000 title description 5
- 230000002996 emotional effect Effects 0.000 claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000008859 change Effects 0.000 claims abstract description 18
- 230000001755 vocal effect Effects 0.000 claims description 18
- 230000007177 brain activity Effects 0.000 claims description 9
- 230000008921 facial expression Effects 0.000 claims description 6
- 238000002599 functional magnetic resonance imaging Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000000537 electroencephalography Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000004497 NIR spectroscopy Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 2
- 230000000007 visual effect Effects 0.000 claims 1
- 230000008451 emotion Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 208000006550 Mydriasis Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 210000000617 arm Anatomy 0.000 description 1
- 208000029560 autism spectrum disease Diseases 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003472 neutralizing effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000002106 pulse oximetry Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000004761 scalp Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0075—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence by spectroscopy, i.e. measuring spectra, e.g. Raman spectroscopy, infrared absorption spectroscopy
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/155—Musical effects
- G10H2210/195—Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response or playback speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Theoretical Computer Science (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Image Analysis (AREA)
Abstract
음성의 정동을 변조하기 위한 기술. 기술은 사람과 연관된 감정 상태를 결정하는 것, 및 음성 샘플과 연관된 정동을 변경하기 위해 감정 상태에 기초하여 사람으로부터 획득된 음성 샘플의 하나 이상의 음향 특성들을 변조하는 것을 포함한다. 기술은 변조된 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 것, 및 제 2 음성 샘플을 송신하는 것을 추가로 포함한다.
Description
다양한 실시예들은 전반적으로 오디오 신호 프로세싱에 관한 것이며, 보다 구체적으로, 음성 정동 변조(voice affect modification)를 위한 기술들에 관한 것이다.
효과적인 통신은 건강한 사회적 연결들 및 비즈니스 관계들을 발전시키며 유지하는데 중요한 역할을 한다. 그럼에도 불구하고, 대화들에 관련될 때, 많은 사람들은 그들의 감정 상태를 정확하게 전달하고 및/또는 그들 주위에서의 사람들의 또는 대화들에 직접 관련된 사람들의 감정 상태들을 정확하게 결정하는데 어려움을 가진다. 예를 들면, 상이한 문화들은 일반적으로 상이한 유형들의 얼굴 표정들, 손 제스처들, 신체 제스처들 등을 통해 감정을 표현한다. 결과적으로, 이들 문화적 차이들로 인해, 상이한 문화적 배경들로부터의 사람들은 대화 동안 서로에 그들의 감정들을 효과적으로 전달하는데 어려움을 가질 수 있다. 또 다른 예로서, 자폐 스펙트럼 장애들을 가진 사람들은 일반적으로 다른 사람들과 대화하거나 또는 상호 작용할 때 그들의 감정들을 정확하게 전달하고 다른 사람들의 감정들을 해석하는데 어려움을 가진다.
사람들이 대화할 때 그들의 감정 상태를 보다 효과적으로 전달할 수 있게 하기 위한 노력으로, 몇몇 형태들의 전자 통신이 사용자들로 하여금 그래픽 심볼들을 통해 그들의 감정들을 명확하게 표시할 수 있게 한다. 예를 들면, 많은 텍스트 메시징 플랫폼들은 사용자가 그 또는 그녀의 감정 상태를 또 다른 사용자에게 그래픽으로 전달하기 위해 선택할 수 있는 그래픽 얼굴 표정들(즉, 이모티콘들)을 포함한다. 이들 유형들의 플랫폼들 외에, 그러나, 현재 라이브 및/또는 직접 상호 작용들 동안 감정 상태들을 전달하며 해석하도록 사용자들을 자동으로 돕는 이용 가능한 시스템들이 없다. 결과적으로, 감정 상태들을 효과적으로 전달하며 해석하기 위한 그들의 무능으로 인해, 많은 사람들은 대화들 및 사회적 상호 작용들로 계속해서 고심하며, 이것은 건강한 관계들을 발전시키며 유지하기 위한 그들의 능력을 억제한다.
앞서 말한 것이 예시하는 바와 같이, 서로 대화하거나 또는 상호 작용할 때 사람들의 감정 상태들을 전달하며 해석하기 위한 보다 효과적인 기술들이 유용할 것이다.
본 개시의 실시예들은 음성의 정동을 변조하기 위한 방법을 제시한다. 상기 방법은 사람과 연관된 감정 상태를 결정하는 단계, 및 음성 샘플과 연관된 정동을 변경하기 위해 상기 감정 상태에 기초하여 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하는 단계를 포함한다. 상기 방법은 변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 단계, 및 상기 제 2 음성 샘플을 송신하는 단계를 추가로 포함한다.
추가 실시예들은, 다른 것들 중에서, 상기 제시된 기술들을 구현하도록 구성된 시스템 및 비-일시적 컴퓨터-판독 가능한 저장 매체를 제공한다.
개시된 기술들의 적어도 하나의 이점은 화자의 음성의 정동이 상기 화자로 하여금 그들의 감정 상태를 보다 효과적으로 전달하고 및/또는 청취자가 상기 화자의 감정 상태를 보다 효과적으로 결정하는 것을 도울 수 있게 하기 위해 강화될 수 있다는 것이다. 또한, 화자의 음성에서의 정동은 화자의 감정 상태를 마스킹하기 위해, 예를 들면, 제한 없이, 감소되고 및/또는 변경될 수 있다. 게다가, 화자의 감정 상태는 화자 또는 청취자로부터의 상호 작용을 요구하지 않고, 하나 이상의 유형들의 센서 데이터를 통해 자동으로 결정될 수 있다.
하나 이상의 실시예들의 나열된 특징들이 상기에서 제시한 방식이 상세히 이해될 수 있도록, 상기 간결하게 요약된, 하나 이상의 실시예들에 대한 보다 특정한 설명이, 그 일부가 첨부된 도면들에서 예시되는, 특정한 특정 실시예들에 대한 참조에 의해 이루어질 수 있다. 그러나, 첨부된 도면들은 다른 실시예들을 또한 포함하기 위해 다양한 실시예들의 범위에 대해, 단지 통상적인 실시예들만을 예시하며 그러므로 임의의 방식으로 그것의 범위를 제한하는 것으로 고려되지 않는다는 것이 주의될 것이다.
도 1은 다양한 실시예들에 따라, 음성 정동 변조 시스템이 어떻게 대화 동안 사용자의 음성의 정동을 변조할 수 있는지에 대한 개념적 예시이다;
도 2는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템의 하나 이상의 양상들을 구현하도록 구성된 컴퓨팅 시스템의 예시이다;
도 3a 및 도 3b는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템을 통해 변조된 음성 샘플들을 생성하기 위한 상이한 기술들을 예시한다; 및
도 4는 다양한 실시예들에 따라, 음성의 정동을 변조하기 위한 방법 단계들의 흐름도이다.
도 1은 다양한 실시예들에 따라, 음성 정동 변조 시스템이 어떻게 대화 동안 사용자의 음성의 정동을 변조할 수 있는지에 대한 개념적 예시이다;
도 2는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템의 하나 이상의 양상들을 구현하도록 구성된 컴퓨팅 시스템의 예시이다;
도 3a 및 도 3b는 다양한 실시예들에 따라, 도 1의 음성 정동 변조 시스템을 통해 변조된 음성 샘플들을 생성하기 위한 상이한 기술들을 예시한다; 및
도 4는 다양한 실시예들에 따라, 음성의 정동을 변조하기 위한 방법 단계들의 흐름도이다.
다음의 설명에서, 다수의 특정 상세들이 본 개시의 실시예들의 보다 철저한 이해를 제공하기 위해 제시된다. 그러나, 본 개시의 실시예들은 이들 특정 상세들 중 하나 이상 없이 실시될 수 있다는 것이 이 기술분야의 숙련자에게 명백할 것이다.
상기 설명된 바와 같이, 많은 사람들은 그들의 감정 상태를 정확하게 전달하고 및/또는 그들이 대화하는 사람의 감정 상태를 정확하게 해석하는데 어려움을 가진다. 예를 들면, 및 제한 없이, 문화적 차이들, 불안, 신경 장애들, 취약한 대화 기술들 등은 화자가 그 또는 그녀의 감정들을 전달하기 위해 언어적 및/또는 비-언어적 큐들을 효과적으로 이용하는 것을 막을 수 있다. 유사하게, 이러한 이슈들은 청취자가 다른 사람들에 의해 전달된 감정들을 정확하게 해석하는 것을 막을 수 있다.
따라서, 대화자들 사이에서 감정들의 보다 효과적인 통신을 가능하게 하기 위해, 음성 정동 변조 시스템(이후, "음성 시스템")이 사용자와 연관된 감정 상태를 결정하며 그 후 감정 상태에 기초하여 사용자로부터 획득된 음성 샘플의 하나 이상의 음향 특성들을 변조할 수 있다. 보다 구체적으로, 음성 샘플의 피치, 음성 질, 음색, 음성 섭동, 음성 억양, 음량, 운율, 스피치 패턴, 및/또는 말 속도와 같은, 음성 샘플의 음향 특성들은 음성 샘플의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 변조될 수 있다. 변조된 음성 샘플은 그 후 사용자가 대화하고 있는 사람에게 출력되어, 사용자의 의도된 감정 상태(들)가 보다 효과적으로 전달되고 해석될 수 있게 한다. 다양한 실시예들에서, 음성 시스템은 대화 당사자들이 음성 시스템의 동작에 의해 방해받지 않도록 정동을 변조할 때 음성 샘플들의 음향 특성들에 대한 단지 미묘한 변화들만을 만든다.
도 1은 다양한 실시예들에 따라, 음성 시스템(100)이 어떻게 대화 동안 사용자의 음성의 정동을 변조할 수 있는지에 대한 개념적 예시이다. 음성 시스템(100)은, 제한 없이, 마이크로폰(110) 및 스피커(120)를 포함할 수 있다.
도시된 바와 같이, 음성 샘플(112)은 하나 이상의 마이크로폰들(110)을 통해 사용자로부터 획득된다. 음성 샘플(112)은 그 후 의도된 감정(들)을 보다 정확하게 전달하는 변조된 음성 샘플(114)을 생성하기 위해 음성 샘플(112)의 하나 이상의 음향 특성들을 변조함으로써 프로세싱된다. 예를 들면, 및 제한 없이, 사용자가 그 또는 그녀의 음성에서 전달된 흥분의 정도를 증가시키길 원한다면, 음성 시스템(100)은 음성 샘플(112)의 피치 및 음량를 증가시키도록 및/또는 피치, 음량, 및/또는 말 속도 또는 음성 샘플(112)에 포함된 특정 단어들 또는 구절들을 변조함으로써와 같이, 음성 샘플(112)의 운율적 특성들을 변조하도록 음성 샘플(112)을 프로세싱할 수 있다. 반대로, 사용자가 그 또는 그녀의 음성에서 전달된 슬픔 또는 연민의 정도를 증가시키기를 원한다면, 음성 시스템(100)은 이들 특정한 감정들을 강조하기 위해 음성 샘플(112)의 운율적 특성들을 변조하도록 및/또는 음성 샘플(112)의 피치 및 말 속도를 감소시키도록 음성 샘플(112)을 프로세싱할 수 있다. 음성 시스템(100)은 그 후 화자(들)(120)를 통해 청취자에게 변조된 음성 샘플(114)을 출력할 것이다.
다양한 실시예들에서, 음성 시스템(100)과 연관된 하나 이상의 센서들을 사용자의 감정 상태를 자동으로 검출한다. 음성 시스템(100)은 그 후 음성 샘플(112)의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 감정 상태에 기초하여 사용자로부터 획득된 음성 샘플(112)을 변조한다. 예를 들면, 및 제한 없이, 사용자가 행복 또는 감사를 전달하는데 어려움을 겪는다면, 음성 시스템(100)과 연관된 하나 이상의 센서들은 사용자가 행복하거나 또는 고마워함을 표시하는 언어적 및/또는 비-언어적 큐들을 검출할 수 있다. 음성 시스템(100)은 그 후 음성 샘플(112)의 피치 및/또는 말 속도를 증가시킴으로써와 같이, 음성 샘플(112)에 반영된 행복 또는 감사의 정도를 증가시키기 위해 사용자로부터 획득된 음성 샘플(112)을 변조할 것이다. 따라서, 사용자가 대화하고 있는 사람이 사용자에 의해 나타내어진 특정한 언어적 및/또는 비-언어적 큐들이 사용자가 행복하거나 또는 고마워함을 표시한다고 이해할 수 없을지라도, 음성 시스템(100)은 사용자의 행복 또는 감사를 보다 효과적으로 전달하기 위해 이들 큐들을 검출하며 음성 샘플(112)의 정동을 변조할 수 있다.
또 다른 비-제한적 예에서, 음성 시스템(100)과 연관된 하나 이상의 센서들은 사용자가 화나거나 또는 좌절감을 느낌을 표시하는 언어적 및/또는 비-언어적 큐들을 검출할 수 있다. 음성 시스템(100)은 그 후 말 속도를 감소시키는 것, 피치를 낮추는 것, 및/또는 음성 샘플(112)의 톤을 중립화하는 것에 의해서와 같이, 음성 샘플(112)에 반영된 분노 및/또는 좌절의 정도를 감소시키기 위해 사용자로부터 획득된 음성 샘플(112)을 변조할 수 있다. 결과적으로, 이러한 실시예들에서, 음성 시스템(100)은 화나거나 또는 좌절감을 느끼고 있는 사용자가 음성의 공격적인 톤을 사용하지 않고 다른 사람들과 보다 공손히 대화할 수 있게 할 수 있다. 대안적으로, 음성 시스템(100)이 사용자가 화나거나 또는 좌절감을 느끼고 있음을 검출할 때, 음성 시스템(100)은 음성 샘플(112)에 저조파 주파수들을 부가하는 것에 의해서와 같이, 음성 샘플(112)에 반영된 분노 및/또는 좌절의 정도를 증가시키기 위해 음성 샘플(112)에서 정동을 강화할 수 있다. 이러한 실시예들에서, 음성 시스템(100)은 화나거나 또는 좌절감을 느끼지만, 상기 분노 또는 좌절을 효과적으로 전달할 수 없는 사용자가 다른 사람들에 의해 보다 정확하게 이해될 수 있게 할 것이다.
따라서, 몇몇 실시예들에서, 음성 시스템(100)은 음성 시스템(100)이 하나 이상의 센서들을 통해, 사용자가 제 1 세트의 감정 상태들(예로서, 행복한, 흥분한, 다정한)에 있음을 결정할 때 음성 샘플(112)의 정동을 강화할 수 있으며 사용자가 제 2 세트의 감정 상태들(예로서, 화난, 좌절감을 느끼는, 슬픈)에 있을 때 음성 샘플(112)의 정동을 감소시키거나 또는 변경할 수 있다. 하나 이상의 센서들을 통해 사용자의 감정 상태를 검출하기 위한 부가적인 기술들이 도 2와 함께 이하에서 추가로 상세히 설명된다.
다양한 실시예들에서, 사용자는 그 또는 그녀가 음성 샘플(100)에서 강화하고, 감소시키고, 및/또는 변경하고 싶어하는 하나 이상의 감정들을 선택할 수 있다. 사용자는 각각의 감정이 음성 시스템(100)에 의해 강화되고, 감소되고, 및/또는 변경되어야 하는 정도를 추가로 선택할 수 있다. 일반적으로, 사용자는 그 또는 그녀 자신의 음성 샘플들(112)에서 정동을 강화하고, 감소시키며, 및/또는 변경하도록 선택할 수 있거나, 또는 사용자는 사용자가 대화하고 있는 사람으로부터 획득된 음성 샘플들(112)에서의 정동을 강화하고, 감소시키며, 및/또는 변경하도록 선택할 수 있다. 예를 들면, 및 제한 없이, 사용자는 음성 시스템(100)과 연관된 그래픽 사용자 인터페이스(GUI)를 통해 제 1 감정(예로서, "흥분")을 선택하며 이러한 감정이 강화되어야 함을 표시할 수 있다. 이에 응답하여, 음성 시스템(100)이 사용자 및/또는 사용자가 대화 중인 사람이 흥분하였음을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 음성 샘플(112)의 음량, 피치, 및/또는 말 속도를 증가시킴으로써와 같이, 흥분을 강조하기 위해 변조될 것이다.
뿐만 아니라, 사용자는 음성 시스템(100)과 연관된 GUI를 통해 제 2 감정(예로서, "화난")을 선택하며 이러한 감정이 감소되어야 함을 표시할 수 있다. 그 후, 음성 시스템(100)이 사용자 및/또는 사용자가 대화하고 있는 사람이 화가 났음을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 음성 샘플(112)의 말 속도 및 음량를 감소시키는 것에 의해서와 같이, 음성 샘플(112)에서 분노를 감소시키기 위해 변조될 것이다. 또 다른 비-제한적인 예에서, 사용자는 음성 시스템(100)과 연관된 GUI를 통해 제 3 감정(예로서, "불안한")을 선택하며 이러한 감정이 변경되어야 함을 표시할 수 있다. 그 후, 음성 시스템(100)이 사용자 및/또는 사용자가 대화하고 있는 사람이 불안해함을 검출할 때, 마이크로폰(들)(110)을 통해 획득된 음성 샘플들(112)의 정동은 변경되며, 확신과 같은, 상이한 감정으로 대체될 것이다.
몇몇 실시예들에서, GUI는 음성 시스템(100)과 연관된 스마트폰 또는 이동 컴퓨터 디스플레이상에서 구현될 수 있다. 부가적으로, 몇몇 실시예들에서, 여기에서 설명된 기능 중 임의의 것(예로서, 강화, 감소, 변경 등)은 GUI를 통한 명시적 상호 작용 없이, 음성 시스템(100)에 의해 자동으로 구현될 수 있다.
도 2는 다양한 실시예들에 따라, 도 1의 음성 시스템(100)의 하나 이상의 양상들을 구현하도록 구성된 컴퓨팅 시스템의 예시이다. 도시된 바와 같이, 음성 시스템(100)은, 제한 없이, 하나 이상의 마이크로폰들(110), 하나 이상의 스피커들(120), 컴퓨팅 디바이스(200), 카메라(220), 및 전극들(222)을 포함할 수 있다. 컴퓨팅 디바이스(200)는 프로세서(202), 입력/출력(I/O) 디바이스들(204), 및 메모리(210)를 포함한다. 메모리(210)는 데이터베이스(214)와 상호 작용하도록 구성된 음성 변조 애플리케이션(212)을 포함한다.
마이크로폰(들)(110)은 무선 또는 유선 음향 트랜듀서들을 포함할 수 있다. 예를 들면, 및 제한 없이, 마이크로폰(들)(110)은 동적 빔 형성을 허용하는 단일 트랜듀서들, 전방향 트랜듀서들, 지향성 트랜듀서들, 및/또는 마이크로폰 어레이들을 포함할 수 있다.
다양한 실시예들에서, 음성 변조 애플리케이션(212)은 마이크로폰(들)(110)을 통해 획득된 하나 이상의 음성 샘플들(112)로부터 사용자의 감정 상태를 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 감정 상태를 나타내는 음성 샘플(112)에서의 하나 이상의 음향 특성들을 검출할 수 있다. 음성 변조 애플리케이션(212)은 그 후 음성 샘플(112)에서 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 실시간으로 다른 감정 상태들에 관련된 음향 특성(들) 및/또는 음향 특성들을 변조할 것이다.
다양한 실시예들에서, 카메라(들)(220)는 사용자의 얼굴 표정들, 사용자에 의해 수행된 제스처들, 산동 검사, 사용자의 자세, 및/또는 사용자의 신체 언어를 검출하도록 구성된다. 예를 들면, 및 제한 없이, 카메라(들)(220)에 의해 획득된 이미지들은 사용자의 눈, 눈썹, 입, 코, 이마, 볼, 손가락끝, 관절, 손, 손목, 팔, 어깨, 등, 다리 등의 위치들 및/또는 외형을 결정하기 위해 분석될 수 있다. 이들 신체 부분들의 보다 많은 것 중 하나의 위치들 및/또는 외형은 그 후 사용자의 감정 상태를 결정하기 위해 사용될 수 있다. 예를 들면, 및 제한 없이, 사용자의 얼굴 및/또는 신체의 이미지들은 카메라(들)(220)에 의해 획득되며 사용자의 눈썹 및 입의 형태 및/또는 사용자의 자세를 결정하기 위해 음성 변조 애플리케이션(212)에 의해 프로세싱될 수 있다. 사용자의 눈썹 및 입의 형태 및/또는 사용자의 자세는 그 후 사용자의 감정 상태를 결정하기 위해 분석될 수 있다. 단지 하나의 카메라(220)만이 도 2에 도시되지만, 사용자에 대해 임의의 위치들에 위치된 임의의 수의 카메라들(220)이 사용자의 감정 상태 및/또는 사용자가 대화하고 있는 사람의 감정 상태를 검출하기 위해 사용될 수 있다.
전극(들)(222)은 뇌파 검사(EEG) 전극들, 피부 전도 전극들, 심박 센서 전극들, 및/또는 근전도 검사(EMG) 전극들을 포함할 수 있다. 일반적으로, 전극들(222)은 사용자의 감정 상태와 연관된 센서 데이터를 획득한다. 예를 들면, 및 제한 없이, EEG 전극들을 통해 획득된 센서 데이터는 사용자의 두뇌 활동을 검출하기 위해 음성 변조 애플리케이션(212)에 의해 분석될 수 있다. 음성 변조 애플리케이션(212)은 그 후 두뇌 활동에 기초하여 사용자의 감정 상태를 결정하며 상기 감정 상태에 기초하여 하나 이상의 음성 샘플들(112)을 변조할 수 있다. 부가적으로, 사용자의 감정 상태를 표시한 두뇌 활동은 기능적 자기 공명 영상법(fMRI) 및 기능적 근적외 분광 분석법(fNIRS)을 통해 획득된 센서 데이터와 같은, 다른 유형들의 센서 데이터를 통해 결정될 수 있다.
몇몇 실시예들에서, 피부 전도 전극들 및/또는 심박수 센서 전극들을 통해 획득된 센서 데이터는 사용자의 감정 상태를 결정하기 위해 사용될 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 사용자가 땀을 흘리고 있다고 결정하기 위해 하나 이상의 피부 전도 전극들을 통해 획득된 센서 데이터를 프로세싱할 수 있다. 이러한 센서 데이터에 기초하여 및 선택적으로 다른 센서 데이터(예로서, 카메라(220)를 통해 획득된 사용자의 얼굴의 이미지들)와 함께, 음성 변조 애플리케이션(212)은 그 후 사용자가 불안해하고 있다고 결정할 수 있다. 또 다른 비-제한적인 예에서, 음성 변조 애플리케이션(212)은 사용자가 증가된 심박수를 갖는다고 결정하기 위해 심박수 센서 전극을 통해 획득된 센서 데이터를 프로세싱할 수 있다. 그 후, 이러한 센서 데이터에 기초하여 및 선택적으로 다른 센서 데이터(예로서, 사용자의 음성 샘플(112)의 스펙트럼 분석)와 함께, 음성 변조 애플리케이션(212)은 사용자가 행복하고 및/또는 흥분하였음을 결정할 수 있다.
음성 시스템(100)은 사용자의 두피, 외이도, 및/또는 사용자의 머리 또는 신체의 다른 부분들과 접촉하여 위치되도록 구성된 임의의 수의 전극들(222)을 포함할 수 있다. 몇몇 실시예들에서, 여기에서 설명된 하나 이상의 유형들의 전극들(222)은 스마트폰, 헤드셋, 팔찌, 암밴드, 가슴 스트랩, 이어버드들, 또는 헤드폰들(230)의 쌍에서와 같은, 사용자에 의해 착용되거나 또는 유지되는 디바이스에 포함된다. 계속해서 다른 실시예들에서, 음성 변조 애플리케이션(212)은 산소 포화도 센서를 통해 사용자에서의 생리적 변화들을 검출함으로써, 또는 가속도계, 자이로스코프, 또는 자력계를 통해 사용자의 움직임을 검출함으로써 사용자의 감정 상태를 결정할 수 있다.
I/O 디바이스들(204)은 입력 디바이스들, 출력 디바이스들, 및 입력을 수신하고 출력을 제공하는 것 양쪽 모두가 가능한 디바이스들을 포함할 수 있다. 예를 들면, 및 제한 없이, I/O 디바이스들(204)은 음성 시스템(100)에 포함된 마이크로폰(들)(110), 스피커(들)(120), 카메라(220), 및/또는 전극들(222)로 데이터를 전송하고 및/또는 그로부터 데이터를 수신하는 유선 및/또는 무선 통신 디바이스들을 포함할 수 있다. 부가적으로, I/O 디바이스들(204)은 사용자의 감정 상태를 표시하는 다른 유형들의 센서 데이터를 수신하는 하나 이상의 유선 또는 무선 통신 디바이스들을 포함할 수 있다.
다양한 실시예들에서, 음성 시스템(100)은 개인 오디오 디바이스, 이동 컴퓨터, 개인용 디지털 보조기, 이동 전화, 데스크탑 컴퓨터, 또는 여기에서 설명된 하나 이상의 실시예들을 실시하기에 적합한 임의의 다른 디바이스를 포함할 수 있다. 몇몇 실시예들에서, 음성 시스템(100)은 도 2에 도시된 오버-더-이어(over-the-ear) 헤드폰들과 같은, 한 쌍의 헤드폰들(230)을 포함하며, 여기에서 하나 이상의 마이크로폰들(110)은 선택적으로 배치된다. 일반적으로, 그러나, 타원형 덮개형(circumaural) 헤드폰들, 귀 위를 살짝 덮는(supra-aural) 헤드폰들, 및 인-이어 헤드폰들을 포함한, 임의의 유형의 유선 또는 무선 헤드폰들이 여기에서 설명된 기술들을 수행하기 위해 사용될 수 있다. 다른 실시예들에서, 음성 시스템(100)은 보청기와 같은 보조적 의료 디바이스, 또는 블루투스® 헤드셋과 같은, 이동 통신 디바이스를 포함하여, 사용자를 위해 사운드를 캡처하며 재생할 수 있는 임의의 음향 디바이스일 수 있다.
일반적으로, 컴퓨팅 디바이스(200)는 음성 시스템(100)의 전체 동작을 조정하도록 구성된다. 다른 실시예들에서, 컴퓨팅 디바이스(200)는 음성 시스템(100)의 다른 구성요소들에 결합되지만, 그로부터 분리될 수 있다. 이러한 실시예들에서, 음성 시스템(100)은 사용자의 감정 상태를 표시하는 센서 데이터 및/또는 음성 샘플들(112)을 수신하며 데이터(예로서, 센서 데이터 및/또는 변조된 음성 샘플들(114))를 컴퓨팅 디바이스(200)에 송신하는 별개의 프로세서를 포함할 수 있으며, 이것은 개인용 컴퓨터, 착용 가능한 디바이스, 스마트폰, 휴대용 미디어 플레이어 등과 같은, 별개의 디바이스에 포함될 수 있다. 그러나, 여기에서 개시된 실시예들은 음성 시스템(100)의 기능을 구현하도록 구성된 임의의 기술적으로 실현 가능한 시스템을 고려한다.
프로세서(202)는 데이터를 프로세싱하며 프로그램 코드를 실행하도록 구성된 임의의 기술적으로 실현 가능한 형태의 프로세싱 디바이스일 수 있다. 프로세서(202)는, 예를 들면, 및 제한 없이, 중앙 프로세싱 유닛(CPU), 그래픽스 프로세싱 유닛(GPU), 애플리케이션-특정 집적 회로(ASIC), 필드-프로그램 가능한 게이트 어레이(FPGA) 등일 수 있다. 메모리(210)는 메모리 모듈 또는 메모리 모듈들의 모음을 포함할 수 있다. 메모리(210) 내에서의 음성 변조 애플리케이션(212)은 컴퓨팅 디바이스(200)의 전체 기능을 구현하기 위해, 및 그에 따라 전체로서 음성 시스템(100)의 동작을 조정하기 위해 프로세서(202)에 의해 실행된다. 예를 들면, 및 제한 없이, 음성 샘플들(112) 및/또는 마이크로폰(들)(110), 카메라(220), 및 전극들(222)을 통해 획득된 센서 데이터는 변조된 음성 샘플들(114) 및/또는 사용자의 감정 상태를 표시하는 데이터를 생성하기 위해 음성 변조 애플리케이션(212)에 의해 프로세싱될 수 있다. 몇몇 실시예들에서, 데이터베이스(214)는 음성 샘플들(112), 변조된 음성 샘플들(114), 오디오 파라미터들, 센서 데이터, 알고리즘들, 통계들, 및 사용자 선호들을 저장한다.
음성 시스템(100)이 헤드폰들(230) 또는 이어버드들과 함께 구현되는 실시예들에서, 헤드폰들(230) 또는 이어버드들은 사용자가 주변 환경에서 주위의 사운드들을 들을 수 있는 음향적 투명 모드에서 동작할 수 있다. 음향적 투명 모드에서, 음성 변조 애플리케이션(212)은 사용자가 대화하고 있는 한 명 이상의 사람들과 연관된 음성 샘플들(112)을 검출하며(예로서, 선택적 음성 강화를 통해) 음성 샘플들(112)의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 음성 샘플들(112)을 변조할 수 있다. 변조된 음성 샘플들(114)은 그 후 헤드폰들(230) 또는 이어버드들에 포함된 스피커들(120)을 통해 사용자에게 출력될 것이다.
부가적으로, 음성 시스템(100)은 음성 샘플(112)에서 특정 사운드 주파수들을 소거하기 위해 스피커들(120)을 통해 반전된 신호들을 출력함으로써와 같은, 활성 잡음 소거 기술들을 통해 음성 샘플(112)에서의 정동을 변조할 수 있다. 예를 들면, 및 제한 없이, 사용자의 음성에서 특정한 주파수들은 사용자의 음성의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 하나 이상의 반전된 신호들을 통해 소거될 수 있다. 뿐만 아니라, 음성 시스템(100)은 직접 통신들 동안 변조된 음성 샘플들(114) 및/또는 잡음 소거 신호들을 출력하는 외부 스피커들(120)(예로서, 라우드스피커들)과 함께 이러한 기술들을 구현할 수 있다. 이러한 실시예들에서, 음성 변조 애플리케이션(212)은 음성 샘플(112)의 정동을 강화하고, 감소시키거나, 또는 변경하기 위해 음성 샘플(112)을 변조하며 사용자 자신의 음성과 유사하거나 또는 그보다 큰 볼륨에서 변조된 음성 샘플(114)을 출력할 수 있어서, 사용자가 대화하고 있는 사람이 사용자의 감정 상태를 보다 정확하게 지각하도록 허용한다.
일반적으로, 음성 변조 애플리케이션(212)은 음성 샘플(112)과 연관된 정동을 강화하고, 감소시키거나, 또는 변경하도록 음성 샘플(112)을 변조하기 위해 임의의 기술적으로 실현 가능한 알고리즘들 또는 기술들을 사용할 수 있다. 몇몇 실시예들에서, 음성 변조 애플리케이션(212)은 푸리에 변환들, 고조파 스케일링, 피치 스케일링, 피치 시프팅, 시간 스트레칭, 시간 압축, 및 재샘플링과 같은 오디오 프로세싱 기술들을 통해 음성 샘플들(112)의 음향 특성들을 변조한다. 부가적으로, 오토-튠(Auto-Tune) 또는 유사한 오디오 프로세싱 기술들과 같은, 상업적 기술들이 다양한 실시예들에서 구현될 수 있다.
상이한 사용자들이 감정들을 상이하게 표현할 수 있기 때문에(예로서, 문화적 또는 개인적 이유들로 인해), 음성 시스템(100)은 트레이닝 모드를 포함할 수 있다. 트레이닝 모드에서, 음성 시스템(100)은 사용자의 감정 상태들을 학습하기 위해 특정 감성 상태들과 연관된 센서 데이터를 프로세싱하여, 감정 상태들이 음성 시스템(100)의 동작 동안 보다 정확하게 결정될 수 있게 한다. 몇몇 실시예들에서, 음성 시스템(100)은 음성 시스템(100)이 감정 상태들을 결정하기 위해 구현할 수 있는 사용자 휴리스틱을 생성하도록 기계 학습 알고리즘들을 구현한다. 이러한 휴리스틱은 그 후 데이터베이스(214)에 저장되며 음성 변조 애플리케이션(212)에 의해 액세스될 수 있다.
다수의 유형들의 센서 데이터가 사용자의 감정 상태를 결정하기 위해 음성 변조 애플리케이션(212)에 의해 획득되는 실시예들에서, 가중치가 각각의 유형의 센서 데이터에 할당될 수 있다. 사용자의 감정 상태(들)는 그 후 각각의 센서 유형에 대해 결정된 감정 상태 및 센서 유형들의 각각에 할당된 가중치에 기초하여 결정될 수 있다. 예를 들면, 및 제한 없이, 사용자는 두뇌 활동과 연관된 센서 데이터에 제 1 가중치를, 얼굴 표정들과 연관된 센서 활동에 제 2 가중치를, 및 음향 특성 획득 음성 샘플들(112)과 연관된 센서 데이터에 제 3 가중치를 할당하기 위해 GUI와 상호 작용할 수 있다. 음성 변조 애플리케이션(212)은 그 후 각각의 유형의 센서 데이터에 의해 표시된 감정 상태를 결정하고, 각각의 감정 상태에 가중치를 적용하며, 상기 가중들에 기초하여 우세한 감정 상태를 결정할 것이다. 몇몇 실시예들에서, 특정 유형들의 센서 데이터에 가중치들을 할당하는 것은 애매모호한 언어적 및 비-언어적 큐들이 검출될 때 음성 변조 애플리케이션(212)이 정확한 감정 상태(들)를 보다 정확하게 결정할 수 있게 할 것이다. 부가적으로, 특정 유형들의 센서 데이터에 가중치들을 할당하는 것은, 이들 유형들의 센서 데이터를 완전히 무시하지 않고, 음성 변조 애플리케이션(212)이 사용자의 감정 상태를 보다 덜 정확하게 반영할 수 있는 센서 데이터의 유형들에 덜 강조를 둘 수 있게 할 것이다.
도 3a 및 도 3b는 다양한 실시예들에 따라, 도 1의 음성 시스템(100)을 통해 변조된 음성 샘플들(114)을 생성하기 위한 상이한 기술들을 예시한다. 도 3a에 도시된 바와 같이, 몇몇 실시예들에서, 화자와 연관된 디바이스(310)(예로서, 스마트폰) 상에서 실행하는 음성 변조 애플리케이션(212)은 음성 샘플(112)을 획득하고, 화자의 감정 상태(들)를 결정하며, 음성 샘플(112) 및 감정 상태(들) 양쪽 모두를 청취자에게 송신한다. 그 후, 청취자와 연관된 디바이스(320)는 음성 샘플(112) 및 감정 상태(들)를 수신하며, 청취자 디바이스(320) 상에서 실행하는 음성 변조 애플리케이션(212)은 청취자에게 출력되는 변조된 음성 샘플(114)을 생성한다. 따라서, 이러한 실시예들에서, 음성 샘플(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하도록 프로세싱되는 방식은 청취자 디바이스(320) 상에서 실행하는 음성 변조 애플리케이션(212)에 의해 구현된 GUI를 통해서와 같이, 청취자에 의해 제어될 수 있다.
도 3b에 도시된 바와 같이, 몇몇 실시예들에서, 화자와 연관된 디바이스(310) 상에서 실행하는 음성 변조 애플리케이션(212)은 음성 샘플(112)을 획득하고, 화자의 감정 상태(들)를 결정하며, 변조된 음성 샘플(114)을 생성하기 위해 음성 샘플(112)을 로컬에서 변조한다. 변조된 음성 샘플(114)은 그 후 청취자와 연관된 디바이스(320)로 송신되며 청취자에게 출력된다. 따라서, 이러한 실시예들에서, 음성 샘플(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 프로세싱되는 방식은 상기 설명된 GUI 구현들 중 임의의 것을 통해서와 같은, 화자에 의해 제어될 수 있다.
부가적으로, 도 3a 및 도 3b에 예시된 실시예들에서, 화자 및 청취자는 음성 샘플들(112)이 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 변조되는 정도를 협상할 수 있다. 이러한 실시예들에서, 청취자 및 화자의 각각은 하나 이상의 감정 상태들에 대한 강화, 감소, 및/또는 변화의 선호 정도를 선택할 수 있다. 음성 변조 애플리케이션(212)은 그 후 당사자들에 의해 선택된 강화, 감소, 및/또는 변화의 보다 낮은 정도를 선택함으로써와 같은, 화자 및 청취자에 의해 이루어진 선택들에 기초하여 음성 샘플들(112)을 변조할 수 있다.
도 4는 다양한 실시예들에 따라, 음성의 정동을 변조하기 위한 방법 단계들의 흐름도이다. 방법 단계들은 도 1 내지 도 3b의 시스템들과 함께 설명되지만, 이 기술분야의 숙련자는 임의의 순서로, 방법 단계들을 수행하도록 구성된 임의의 시스템이 다양한 실시예들의 범위 내에 있다는 것을 이해할 것이다.
도시된 바와 같이, 방법(400)은 단계(410)에서 시작하며, 여기에서 음성 변조 애플리케이션(212)은 사용자의 감정 상태를 결정하기 위해, 마이크로폰(들)(110), I/O 디바이스들(204), 카메라(들)(220), 전극(들)(222) 등을 통해 수신된 센서 데이터를 분석한다. 예를 들면, 및 제한 없이, 상기 설명된 바와 같이, 음성 변조 애플리케이션(212)은 사용자의 감정 상태를 표시한 언어적 및/또는 비-언어적 큐들을 검출하기 위해 센서 데이터를 분석할 수 있다. 그 후, 단계(420)에서, 음성 변조 애플리케이션(212)은 부가적인 유형의 센서 데이터가 분석되어야 하는지를 결정한다. 부가적인 유형의 센서 데이터가 분석되어야 한다면, 방법(400)은 단계(410)로 리턴한다.
어떤 부가적인 유형의 센서 데이터도 분석되지 않아야 한다면, 방법(400)은 단계(430)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 가중치를 선택적으로 적용한다. 상기 설명된 바와 같이, 몇몇 실시예들에서, 음성 시스템(100)의 사용자는 각각의 유형의 센서 데이터에 적용할 가중치들을 선택할 수 있다. 부가적으로, 몇몇 실시예들에서, 음성 변조 애플리케이션(212)은 하나 이상의 유형들의 센서 데이터에 가중치들을 자동으로 적용할 수 있다.
단계(440)에서, 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 대해 결정된 감정 상태를 분석하며 센서 데이터에 의해 표시된 우세한 감정 상태를 결정한다. 가중치들이 하나 이상의 유형들의 센서 데이터에 적용되는 실시예들에서, 음성 변조 애플리케이션(212)은 각각의 유형의 센서 데이터에 대해 결정된 감정 상태에 대응하는 가중치를 적용하며 어떤 감정 상태가 최고 값을 갖는지를 결정함으로써 우세한 감정 상태를 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 제 1 유형의 센서 데이터(예로서, 마이크로폰(110)을 통해 획득된 음성 샘플(112))에 40%의 제 1 가중치를, 제 2 유형의 센서 데이터(예로서, 카메라(220)를 통해 획득된 얼굴 이미지들)에 30%의 제 2 가중치를, 및 제 3 유형의 센서 데이터(예로서, 전극들(222)을 통해 획득된 두뇌 활동)에 30%의 제 3 가중치를 할당할 수 있다. 그 후, 음성 변조 애플리케이션(212)이 제 1 유형의 센서 데이터 및 제 2 유형의 센서 데이터 양쪽 모두에 대해 "행복한" 감정 상태를 결정하였지만, 제 3 유형의 센서 데이터에 대해 "화난" 감정 상태를 결정하였다면, 단계(440)에서, 음성 변조 애플리케이션(212)은 "행복한" 감정 상태가 우세한 감정 상태임을 결정할 것이다(예로서, 70%의 총 가중치에 기초하여).
몇몇 실시예들에서, 단계(440)에서, 음성 변조 애플리케이션(212)은 사용자에 의해 보여진 다수의 우세한 감정 상태들을 결정할 수 있다. 예를 들면, 및 제한 없이, 음성 변조 애플리케이션(212)은 제 1 감정 상태를 결정하기 위해 언어적 큐들을 분석할 수 있으며(예로서, 음성 샘플(112)에 기초하여) 제 2 감정 상태를 결정하기 위해 비-언어적 큐들을 분석할 수 있다(예로서, 얼굴 표정들에 기초하여). 그 후, 음성 변조 애플리케이션(212)이 제 1 감정 상태가 제 2 감정 상태와 충돌하지 않는다고 결정하면, 제 1 감정 상태 및 제 2 감정 상태 양쪽 모두는 우세한 감정 상태들로서 지정될 수 있다. 충돌하는 감정 상태들의 비-제한적인 예는 행복한 감정 상태 및 슬픈 감정 상태를 포함한다. 충돌하지 않는 감정 상태들의 비-제한적인 예는 행복한 감정 상태 및 불안한 감정 상태, 또는 화난 감정 상태 및 슬픈 감정 상태를 포함한다.
다음으로, 단계(450)에서, 음성 변조 애플리케이션(212)은 사용자로부터 획득된 음성 샘플들(112)이 로컬에서(예로서, 화자 디바이스(310)를 통해) 또는 원격에서(예로서, 청취자 디바이스(320)를 통해) 변조될 것인지를 결정한다. 음성 변조 애플리케이션(212)이 음성 샘플들(112)이 로컬에서 변조될 것이라고 결정하면, 방법(400)은 단계(460)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 우세한 감정 상태(들)에 기초하여 음성 샘플(112)의 하나 이상의 음향 특성들을 변조한다. 부가적으로, 단계(460)에서, 음성 변조 애플리케이션(212)은 음성 샘플(112)의 양상들(예로서, 특정 주파수들)을 소거하기 위해 우세한 감정 상태(들)에 기초하여 하나 이상의 잡음 소거 신호들을 발생시킬 수 있다. 그 후, 단계(465)에서, 음성 변조 애플리케이션(212)은 변조된 음성 샘플(114)을 청취자 디바이스(320)에 송신함으로써 및/또는 스피커(120)를 통해 변조된 음성 샘플(114)을 출력함으로써와 같이, 변조된 음성 샘플(114)을 출력한다. 방법(400)은 그 후 단계(410)로 리턴한다.
단계(450)로 돌아가면, 음성 변조 애플리케이션(212)이 음성 샘플들(112)이 원격으로 변조될 것이라고 결정하면, 방법(400)은 단계(470)로 진행하며, 여기에서 음성 변조 애플리케이션(212)은 하나 이상의 음성 샘플들(112) 및 우세한 감정 상태(들)를 표시한 데이터를, 청취자 디바이스(320)와 같은, 원격 디바이스로 송신한다. 상기 설명된 바와 같이, 음성 샘플(들)(112) 및 우세한 감정 상태(들)를 표시한 데이터를 원격 디바이스로 송신하는 것은 원격 사용자로 하여금 음성 샘플들(112)이 어떻게 음성 샘플(들)(112)에서의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 프로세싱될지를 결정할 수 있게 한다. 방법(400)은 그 후 단계(410)로 리턴한다.
요컨대, 음성 변조 애플리케이션은 하나 이상의 유형들의 센서 데이터에 기초하여 사용자의 감정 상태를 결정한다. 다음으로, 음성 변조 애플리케이션은 감정 상태에 기초하여 음성 샘플의 정동을 강화하고, 감소시키며, 및/또는 변경하기 위해 사용자로부터 획득된 음성 샘플을 변조한다. 음성 변조 애플리케이션은 그 후 변조된 음성 샘플을 청취자에게 출력한다.
여기에서 설명된 기술들의 적어도 하나의 이점은 화자의 음성에서의 정동이 화자로 하여금 그들의 감정 상태를 보다 효과적으로 전달하며 및/또는 청취자가 화자의 감정 상태를 보다 효과적으로 결정하는 것을 돕게 할 수 있도록 강화될 수 있다는 것이다. 또한, 화자의 음성에서의 정동은, 예를 들면, 및 제한 없이, 화자의 감정 상태를 마스킹하기 위해 감소되고 및/또는 변경될 수 있다. 게다가, 화자의 감정 상태는 화자 또는 청취자로부터의 상호 작용을 요구하지 않고, 하나 이상의 유형들의 센서 데이터를 통해 자동으로 결정될 수 있다.
다양한 실시예들의 설명들은 예시의 목적들을 위해 제공되지만, 철저하거나 또는 개시된 실시예들에 제한되도록 의도되지 않는다. 많은 변조들 및 변형들은 설명된 실시예들의 범위 및 사상으로부터 벗어나지 않고 이 기술분야의 숙련자들에게 명백할 것이다.
본 실시예들의 양상들은 시스템, 방법, 또는 컴퓨터 프로그램 제품으로서 구체화될 수 있다. 따라서, 본 개시의 양상들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드 등을 포함한) 또는 모두 일반적으로 여기에서 "회로", "모듈" 또는 "시스템"으로서 불리울 수 있는 소프트웨어 및 하드웨어 양상들을 조합한 실시예의 형태를 취할 수 있다. 더욱이, 본 개시의 양상들은 그것 상에 구체화된 컴퓨터 판독 가능한 프로그램 코드를 가진 하나 이상의 컴퓨터 판독 가능한 매체(들)에 구체화된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터 판독 가능한 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 컴퓨터 판독 가능한 저장 매체는, 예를 들면, 이에 제한되지 않지만, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 앞서 말한 것의 임의의 적절한 조합일 수 있다. 컴퓨터 판독 가능한 저장 매체의 보다 특정한 예들(비-철저한 리스트)은 다음을 포함할 것이다: 하나 이상의 와이어들을 가진 전기적 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독-전용 메모리(ROM), 삭제 가능한 프로그램 가능 판독-전용 메모리(EPROM 또는 플래시 메모리), 광 섬유, 휴대용 컴팩트 디스크 판독-전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 앞서 말한 것의 임의의 적절한 조합. 본 문서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 지시 실행 시스템, 장치, 또는 디바이스에 의한 사용을 위해 또는 그것에 관련하여 프로그램을 포함하거나 또는 저장할 수 있는 임의의 유형의 매체일 수 있다.
본 개시의 양상들은 개시의 실시예들에 따른 방법들, 장치(시스템들) 및 컴퓨터 프로그램 제품들의 흐름도 예시들 및/또는 블록도들을 참조하여 상기에서 설명된다. 흐름도 예시들 및/또는 블록도들의 각각의 블록, 및 흐름도 예시들 및/또는 블록도들에서의 블록들의 조합들은 컴퓨터 프로그램 지시들에 의해 구현될 수 있다는 것이 이해될 것이다. 이들 컴퓨터 프로그램 지시들은 기계를 생성하기 위해 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그램 가능한 데이터 프로세싱 장치의 프로세서에 제공될 수 있으며, 따라서 컴퓨터 또는 다른 프로그램 가능한 데이터 프로세싱 장치의 프로세서를 통해 실행하는, 지시들은 흐름도 및/또는 블록도 블록 또는 블록들에서 특정된 기능들/동작들의 구현을 가능하게 한다. 이러한 프로세서들은, 제한 없이, 범용 프로세서들, 특수-목적 프로세서들, 애플리케이션-특정 프로세서들, 또는 필드-프로그램 가능한 프로세서들 또는 게이트 어레이들일 수 있다.
도면들에서 흐름도 및 블록도들은 본 개시의 다양한 실시예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능, 및 동작을 예시한다. 이것과 관련하여, 흐름도 또는 블록도들에서의 각각의 블록은 모듈, 세그먼트, 또는 코드의 부분을 나타낼 수 있으며, 이것은 특정된 로직 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 지시들을 포함한다. 몇몇 대안적인 구현들에서, 블록에서 주지된 기능들은 도면들에서 주지된 순서 외로 발생할 수 있다는 것이 또한 주의되어야 한다. 예를 들면, 연속하여 도시된 두 개의 블록들은, 사실상 실질적으로 동시에 실행될 수 있거나, 또는 블록들은 때때로 수반된 기능에 의존하여, 역순으로 실행될 수 있다. 블록도들 및/또는 흐름도 예시의 각각의 블록, 및 블록도들 및/또는 흐름도 예시에서의 블록들의 조합들은 특정된 기능들 또는 동작들을 수행하는 특수 목적 하드웨어-기반 시스템들, 또는 특수 목적 하드웨어 및 컴퓨터 지시들의 조합들에 의해 구현될 수 있다는 것이 또한 주의될 것이다.
상술한 것은 본 개시의 실시예들에 관한 것이지만, 본 개시의 다른 및 추가 실시예들이 그것의 기본 범위로부터 벗어나지 않고 고안될 수 있으며, 그것의 범위는 이어지는 청구항들에 의해 결정된다.
Claims (20)
- 프로세서에 의해 실행될 때, 음성의 정동(affect of a voice)을 변조하도록 상기 프로세서를 구성하는 지시들을 포함하는 비-일시적 컴퓨터-판독 가능한 저장 매체로서,
사람과 연관된 제 1 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 1 감정 상태를 결정하는 단계;
상기 사람과 연관된 제 2 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 2 감정 상태를 결정하는 단계;
상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하는 단계;
상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하는 단계;
상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여 :
음성 샘플과 연관된 정동을 변경하기 위해, 상기 제 1 감정 상태에 기초하여 상기 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성(acoustic characteristic)들을 변조하며 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성(acoustic characteristic)들을 변조하는 단계;
변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하는 단계; 및
상기 제 2 음성 샘플을 송신하는 단계 수행에 의한, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 1에 있어서,
상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는 상기 사람의 하나 이상의 얼굴 특성들을 결정하기 위해 시각적 센서 데이터를 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 1에 있어서,
상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는, 상기 제 1 감정 상태를 반영한 적어도 하나의 음향 특성을 검출하기 위해 상기 음성 샘플을 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 3에 있어서,
상기 적어도 하나의 음향 특성은, 피치(pitch), 음성 섭동(vocal perturbation), 음량(loudness), 또는 말 속도(speech rate) 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 1에 있어서,
상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태를 결정하는 단계는, 상기 사람의 두뇌 활동을 분석하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 1에 있어서,
상기 음성 샘플의 상기 하나 이상의 음향 특성들을 변조하는 단계는, 상기 음성 샘플과 연관된 피치를 증가시키는 것 또는 상기 음성 샘플과 연관된 상기 피치를 감소시키는 것 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 청구항 1에 있어서,
상기 음성 샘플의 상기 하나 이상의 음향 특성들을 변조하는 단계는, 상기 음성 샘플과 연관된 속도를 증가시키는 것, 상기 음성 샘플과 연관된 상기 속도를 감소시키는 것, 상기 음성 샘플과 연관된 음량을 증가시키는 것, 또는 상기 음성 샘플과 연관된 상기 음량를 감소시키는 것 중 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 삭제
- 청구항 1에 있어서,
상기 사람과 연관된 상기 제 1 감정 상태를 결정하는 단계는, 그래픽 사용자 인터페이스를 통해 상기 제 1 감정 상태의 선택을 수신하는 것을 포함하는, 비-일시적 컴퓨터-판독 가능한 저장 매체. - 음성의 정동을 변조하기 위한 시스템으로서,
사용자로부터 음성 샘플을 획득하도록 구성된 마이크로폰;
상기 사용자와 연관된 센서 데이터를 획득하도록 구성된 하나 이상의 센서들;
음성 변조 애플리케이션을 저장한 메모리; 및
상기 마이크로폰, 상기 하나 이상의 센서들, 및 상기 메모리에 연결된 프로세서를 포함하고, 상기 프로세서에 의해 실행될 때, 상기 음성 변조 애플리케이션은 상기 프로세서가:
상기 센서 데이터의 제 1 유형의 센서 데이터를 분석함으로써 상기 사용자와 연관된 제 1 감정 상태를 결정하고;
상기 센서 데이터의 제 2 유형의 센서 데이터를 분석함으로써 상기 사용자와 연관된 제 2 감정 상태를 결정하고;
상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사용자와 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하고;
상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하고;
상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여 :
상기 음성 샘플과 연관된 정동을 변경하기 위해, 상기 제 1 감정 상태에 기초하여 상기 사람으로부터 획득된 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하며 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하고;
변조된 상기 하나 이상의 음향 특성들에 기초하여 제 2 음성 샘플을 생성하며;
상기 제 2 음성 샘플을 송신하도록 구성하는, 음성의 정동을 변조하기 위한 시스템. - 청구항 10에 있어서,
상기 프로세서는 상기 제 1 감정 상태와 연관된 적어도 하나의 음향 특성을 검출하기 위해 상기 음성 샘플을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템. - 청구항 10에 있어서,
상기 하나 이상의 센서들은 카메라를 포함하며, 상기 프로세서는 상기 사용자의 하나 이상의 얼굴 특성들을 결정하기 위해 상기 카메라를 통해 획득된 하나 이상의 이미지들을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템. - 청구항 10에 있어서,
상기 하나 이상의 센서들은 카메라를 포함하며, 상기 프로세서는 상기 사용자에 의해 수행된 제스처 또는 상기 사용자의 신체 자세 중 적어도 하나를 결정하기 위해 상기 카메라를 통해 획득된 하나 이상의 이미지들을 분석함으로써 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템. - 청구항 10에 있어서,
상기 센서 데이터는 상기 사용자의 두뇌 활동을 나타내는 신호들을 포함하며, 상기 프로세서는 상기 두뇌 활동에 기초하여 상기 사용자와 연관된 상기 제 1 감정 상태를 결정하도록 구성되는, 음성의 정동을 변조하기 위한 시스템. - 청구항 14에 있어서,
상기 사용자의 두뇌 활동을 나타내는 상기 신호들은 뇌파 검사(EEG) 신호들, 기능적 자기 공명 영상법(fMRI) 신호들, 또는 기능적 근적외 분광 분석법(fNIRS) 신호들 중 적어도 하나를 포함하는, 음성의 정동을 변조하기 위한 시스템. - 삭제
- 청구항 10에 있어서,
상기 제 2 음성 샘플은 잡음 소거 신호를 포함하며, 상기 프로세서에 의해 실행될 때, 상기 음성 변조 애플리케이션은 상기 사용자의 음성을 변조하기 위해 스피커를 통해 상기 잡음 소거 신호를 출력함으로써 상기 제 2 음성 샘플을 송신하도록 상기 프로세서를 구성하는, 음성의 정동을 변조하기 위한 시스템. - 음성의 정동을 변조하기 위한 방법으로서,
사람과 연관된 센서 데이터 및 상기 사람으로부터의 음성 샘플을 획득하는 단계;
상기 센서 데이터의 제 1 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 1 감정 상태를 결정하는 단계;
상기 센서 데이터의 제 2 유형의 센서 데이터를 분석함으로써 상기 사람과 연관된 제 2 감정 상태를 결정하는 단계;
상기 제1 감정 상태 및 제2 감정 상태가 각각, 미리정해진 제1 세트의 감정 상태들과 미리정해진 제2 세트의 감정 상태들 중 어느 것에 속하는지 결정하는 것에 의해 상기 사람과 연관된 상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는지 여부를 결정하는 단계;
상기 제 1 감정 상태 및 상기 제 2 감정 상태가 서로 충돌하지 않는다는 결정에 기초하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 각각을 우세한 감정 상태로 분류하는 단계; 그리고
상기 제 1 감정 상태 및 상기 제 2 감정 상태를 우세한 감정 상태로 분류하는 것에 응답하여, 상기 제 1 감정 상태 및 상기 제 2 감정 상태 및 상기 음성 샘플을 나타내는 데이터를 원격 디바이스에 송신하는 것을 포함하는, 음성의 정동을 변조하기 위한 방법. - 청구항 18에 있어서,
상기 센서 데이터는, 상기 사람의 음성의 음향 특성, 상기 사람의 얼굴 표정, 또는 상기 사람의 두뇌 활동 중 적어도 하나를 포함하는, 음성의 정동을 변조하기 위한 방법. - 청구항 18에 있어서,
상기 원격 디바이스는,
상기 음성 샘플과 연관된 정동이 변경된 제 2 음성 샘플을 생성하기 위해, 상기 사람과 연관된 상기 제 1 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하고 상기 제 2 감정 상태에 기초하여 상기 음성 샘플의 하나 이상의 음향 특성들을 변조하며,
상기 제 2 음성 샘플을 출력하도록 구성되는, 음성의 정동을 변조하기 위한 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/002,320 US10157626B2 (en) | 2016-01-20 | 2016-01-20 | Voice affect modification |
US15/002,320 | 2016-01-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170087416A KR20170087416A (ko) | 2017-07-28 |
KR102658445B1 true KR102658445B1 (ko) | 2024-04-17 |
Family
ID=57758524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170008407A KR102658445B1 (ko) | 2016-01-20 | 2017-01-18 | 음성 정동 변조 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10157626B2 (ko) |
EP (1) | EP3196879A1 (ko) |
JP (1) | JP6863733B2 (ko) |
KR (1) | KR102658445B1 (ko) |
CN (1) | CN106992013B (ko) |
CA (1) | CA2953539C (ko) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304447B2 (en) | 2017-01-25 | 2019-05-28 | International Business Machines Corporation | Conflict resolution enhancement system |
EP3392884A1 (en) * | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
US10845956B2 (en) | 2017-05-31 | 2020-11-24 | Snap Inc. | Methods and systems for voice driven dynamic menus |
EP3684463A4 (en) | 2017-09-19 | 2021-06-23 | Neuroenhancement Lab, LLC | NEURO-ACTIVATION PROCESS AND APPARATUS |
CN107818787B (zh) * | 2017-10-31 | 2021-02-05 | 努比亚技术有限公司 | 一种语音信息的处理方法、终端及计算机可读存储介质 |
CN107863095A (zh) * | 2017-11-21 | 2018-03-30 | 广州酷狗计算机科技有限公司 | 音频信号处理方法、装置和存储介质 |
CN107919138B (zh) * | 2017-11-30 | 2021-01-08 | 维沃移动通信有限公司 | 一种语音中的情绪处理方法及移动终端 |
US11717686B2 (en) | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
US11478603B2 (en) | 2017-12-31 | 2022-10-25 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to enhance emotional response |
US11919531B2 (en) * | 2018-01-31 | 2024-03-05 | Direct Current Capital LLC | Method for customizing motion characteristics of an autonomous vehicle for a user |
CN108404274A (zh) * | 2018-02-09 | 2018-08-17 | 上海康斐信息技术有限公司 | 一种声音自动调整方法和设备 |
CN108682434B (zh) * | 2018-03-26 | 2020-08-21 | Oppo广东移动通信有限公司 | 电子装置、数据处理方法及相关产品 |
US10622007B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US11364361B2 (en) | 2018-04-20 | 2022-06-21 | Neuroenhancement Lab, LLC | System and method for inducing sleep by transplanting mental states |
US10621983B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US11172293B2 (en) * | 2018-07-11 | 2021-11-09 | Ambiq Micro, Inc. | Power efficient context-based audio processing |
JP2020021025A (ja) * | 2018-08-03 | 2020-02-06 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US10869128B2 (en) | 2018-08-07 | 2020-12-15 | Pangissimo Llc | Modular speaker system |
US20200053223A1 (en) * | 2018-08-07 | 2020-02-13 | International Business Machines Corporation | Adjusting of communication mode |
WO2020056418A1 (en) | 2018-09-14 | 2020-03-19 | Neuroenhancement Lab, LLC | System and method of improving sleep |
US10861483B2 (en) | 2018-11-29 | 2020-12-08 | i2x GmbH | Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person |
US10839788B2 (en) | 2018-12-13 | 2020-11-17 | i2x GmbH | Systems and methods for selecting accent and dialect based on context |
US11450311B2 (en) | 2018-12-13 | 2022-09-20 | i2x GmbH | System and methods for accent and dialect modification |
US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
US10878800B2 (en) * | 2019-05-29 | 2020-12-29 | Capital One Services, Llc | Methods and systems for providing changes to a voice interacting with a user |
US10896686B2 (en) | 2019-05-29 | 2021-01-19 | Capital One Services, Llc | Methods and systems for providing images for facilitating communication |
US11514924B2 (en) * | 2020-02-21 | 2022-11-29 | International Business Machines Corporation | Dynamic creation and insertion of content |
CN113327620B (zh) * | 2020-02-29 | 2024-10-11 | 华为技术有限公司 | 声纹识别的方法和装置 |
US11735206B2 (en) | 2020-03-27 | 2023-08-22 | Harman International Industries, Incorporated | Emotionally responsive virtual personal assistant |
CN111899765B (zh) * | 2020-07-27 | 2023-05-30 | 中国平安人寿保险股份有限公司 | 基于情绪预测模型的语音发送方法、装置和计算机设备 |
USD940191S1 (en) * | 2020-08-31 | 2022-01-04 | Snap Inc. | Display screen or portion thereof with a transitional graphical user interface |
USD940188S1 (en) * | 2020-09-28 | 2022-01-04 | Snap Inc. | Display screen or portion thereof with a transitional graphical user interface |
USD964377S1 (en) * | 2020-09-28 | 2022-09-20 | Snap Inc. | Display screen or portion thereof with a transitional graphical user interface |
KR20220061505A (ko) * | 2020-11-06 | 2022-05-13 | 현대자동차주식회사 | 감정 조절 시스템 및 감정 조절 방법 |
CN112398952A (zh) * | 2020-12-09 | 2021-02-23 | 英华达(上海)科技有限公司 | 电子资源推送方法、系统、设备及存储介质 |
US20220293122A1 (en) * | 2021-03-15 | 2022-09-15 | Avaya Management L.P. | System and method for content focused conversation |
CN113077783B (zh) * | 2021-03-26 | 2023-07-21 | 联想(北京)有限公司 | 小语种语音语料扩增方法、装置及电子设备和存储介质 |
DE102021208344A1 (de) | 2021-08-02 | 2023-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Sprachsignalbearbeitungsvorrichtung, Sprachsignalwiedergabesystem und Verfahren zum Ausgeben eines entemotionalisierten Sprachsignals |
US20230343349A1 (en) * | 2022-04-20 | 2023-10-26 | Sony Interactive Entertainment Inc. | Digital audio emotional response filter |
CN118427777B (zh) * | 2024-07-02 | 2024-09-13 | 广州美术学院 | 基于人工智能的心理语言学数据挖掘集成平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002034936A (ja) * | 2000-07-24 | 2002-02-05 | Sharp Corp | 通信装置および通信方法 |
US20080147413A1 (en) * | 2006-10-20 | 2008-06-19 | Tal Sobol-Shikler | Speech Affect Editing Systems |
US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60215296T2 (de) * | 2002-03-15 | 2007-04-05 | Sony France S.A. | Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung |
US9070282B2 (en) * | 2009-01-30 | 2015-06-30 | Altorr Corp. | Smartphone control of electrical devices |
US9767470B2 (en) * | 2010-02-26 | 2017-09-19 | Forbes Consulting Group, Llc | Emotional survey |
US20120016674A1 (en) | 2010-07-16 | 2012-01-19 | International Business Machines Corporation | Modification of Speech Quality in Conversations Over Voice Channels |
US9762719B2 (en) * | 2011-09-09 | 2017-09-12 | Qualcomm Incorporated | Systems and methods to enhance electronic communications with emotional context |
US8903176B2 (en) * | 2011-11-14 | 2014-12-02 | Sensory Logic, Inc. | Systems and methods using observed emotional data |
US9418390B2 (en) | 2012-09-24 | 2016-08-16 | Intel Corporation | Determining and communicating user's emotional state related to user's physiological and non-physiological data |
WO2014085910A1 (en) * | 2012-12-04 | 2014-06-12 | Interaxon Inc. | System and method for enhancing content using brain-state data |
CN103903627B (zh) * | 2012-12-27 | 2018-06-19 | 中兴通讯股份有限公司 | 一种语音数据的传输方法及装置 |
JP2015106387A (ja) * | 2013-12-02 | 2015-06-08 | 株式会社東芝 | 表示制御方法、情報処理装置およびプログラム |
US20160191958A1 (en) * | 2014-12-26 | 2016-06-30 | Krush Technologies, Llc | Systems and methods of providing contextual features for digital communication |
US9431003B1 (en) * | 2015-03-27 | 2016-08-30 | International Business Machines Corporation | Imbuing artificial intelligence systems with idiomatic traits |
-
2016
- 2016-01-20 US US15/002,320 patent/US10157626B2/en active Active
- 2016-12-27 JP JP2016252683A patent/JP6863733B2/ja active Active
-
2017
- 2017-01-03 CA CA2953539A patent/CA2953539C/en active Active
- 2017-01-10 EP EP17150747.8A patent/EP3196879A1/en not_active Ceased
- 2017-01-18 KR KR1020170008407A patent/KR102658445B1/ko active IP Right Grant
- 2017-01-18 CN CN201710036873.1A patent/CN106992013B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002034936A (ja) * | 2000-07-24 | 2002-02-05 | Sharp Corp | 通信装置および通信方法 |
US20080147413A1 (en) * | 2006-10-20 | 2008-06-19 | Tal Sobol-Shikler | Speech Affect Editing Systems |
US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
Non-Patent Citations (2)
Title |
---|
EVA SZEKELY et al., ‘Facial expression-based Effective speech translation’, Journal on Multimodal User Interfaces, vol. 8, pp.87~96, 2014.* |
Hatice Gunes et al., ‘Bi-modal emotion recognition from expressive face and body gestures’, Journal of Network and Computer Applications, Vol.30, Issue 4, November 2007.* |
Also Published As
Publication number | Publication date |
---|---|
US10157626B2 (en) | 2018-12-18 |
US20170206913A1 (en) | 2017-07-20 |
CA2953539A1 (en) | 2017-07-20 |
KR20170087416A (ko) | 2017-07-28 |
CN106992013B (zh) | 2023-09-19 |
CN106992013A (zh) | 2017-07-28 |
JP2017129853A (ja) | 2017-07-27 |
EP3196879A1 (en) | 2017-07-26 |
JP6863733B2 (ja) | 2021-04-21 |
CA2953539C (en) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102658445B1 (ko) | 음성 정동 변조 | |
JP6992870B2 (ja) | 情報処理システム、制御方法、およびプログラム | |
JP2016126500A (ja) | ウェアラブル端末装置およびプログラム | |
US20200329322A1 (en) | Methods and Apparatus for Auditory Attention Tracking Through Source Modification | |
JP2012059107A (ja) | 感情推定装置、感情推定方法およびプログラム | |
US11539762B2 (en) | Conferencing based on driver state and context | |
US20240212388A1 (en) | Wearable devices to determine facial outputs using acoustic sensing | |
US20240251121A1 (en) | Focus group apparatus and system | |
US11853472B2 (en) | Modify audio based on physiological observations | |
CN114432565A (zh) | 空想意识信息恢复系统 | |
WO2021153101A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
US11276420B2 (en) | Interaction system, apparatus, and non-transitory computer readable storage medium | |
JP2018149625A (ja) | コミュニケーションロボット、プログラム及びシステム | |
KR20210100831A (ko) | 인공지능 기반 수어통역 서비스 제공 시스템 및 방법 | |
US10635665B2 (en) | Systems and methods to facilitate bi-directional artificial intelligence communications | |
JP2021114004A (ja) | 情報処理装置及び情報処理方法 | |
KR20210100832A (ko) | 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법 | |
US11657814B2 (en) | Techniques for dynamic auditory phrase completion | |
US20220101873A1 (en) | Techniques for providing feedback on the veracity of spoken statements | |
US20230277130A1 (en) | In-ear microphones for ar/vr applications and devices | |
US11935557B2 (en) | Techniques for detecting and processing domain-specific terminology | |
Das | A novel Emotion Recognition Model for the Visually Impaired | |
JP2018149626A (ja) | コミュニケーションロボット、プログラム及びシステム | |
Marpaung et al. | Toward building automatic affect recognition machine using acoustics features | |
JP2024059525A (ja) | 聴覚支援装置、聴覚支援システム、及び聴覚支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right |