KR20210046334A - 전자 장치 및 그의 제어 방법 - Google Patents

전자 장치 및 그의 제어 방법 Download PDF

Info

Publication number
KR20210046334A
KR20210046334A KR1020190129937A KR20190129937A KR20210046334A KR 20210046334 A KR20210046334 A KR 20210046334A KR 1020190129937 A KR1020190129937 A KR 1020190129937A KR 20190129937 A KR20190129937 A KR 20190129937A KR 20210046334 A KR20210046334 A KR 20210046334A
Authority
KR
South Korea
Prior art keywords
atmosphere
user
sound
voice
keyword
Prior art date
Application number
KR1020190129937A
Other languages
English (en)
Inventor
김대웅
이영아
문지범
마지연
심다혜
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190129937A priority Critical patent/KR20210046334A/ko
Priority to PCT/KR2020/011451 priority patent/WO2021075705A1/ko
Publication of KR20210046334A publication Critical patent/KR20210046334A/ko
Priority to US17/721,202 priority patent/US20220238111A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 수신부, 스피커, 디스플레이 및 사용자 음성이 수신부를 통해 수신되면, 기설정된 복수의 분위기 키워드 중 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하고, 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 사용자 음성에 대응되는 영상 및 사운드를 생성하고, 생성된 영상을 디스플레이에 표시하고, 생성된 사운드를 상기 스피커를 통해 출력하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법 { ELECTRONIC APPARATUS AND METHOD FOR CONTROLLING THE ELECTRONIC APPARATUS }
본 개시는 전자 장치 및 그의 제어 방법에 대한 것으로, 보다 구체적으로, 사용자 음성에 대응되는 영상 및 사운드를 출력하는 전자 장치 및 그의 제어 방법에 대한 것이다.
최근에, 전자 장치는 사용자가 발화한 음성을 이용하여 다양한 기능을 수행할 수 있다. 예를 들어, 전자 장치는 사용자 음성에 따라 컨텐츠를 재생할 수 있다.
이와 관련하여, 사용자가 전자 장치를 통해 주변 환경을 자신이 원하는 분위기를 만들 수 있는 방안의 모색이 요청된다.
본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 사용자가 요청한 분위기를 만들 수 있는 영상 및 컨텐츠를 생성하여 출력하는 전자 장치 및 그의 제어 방법을 제공함에 있다.
본 개시의 일 실시예에 따른 전자 장치는 수신부, 스피커, 디스플레이 및 사용자 음성이 상기 수신부를 통해 수신되면, 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하고, 상기 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하고, 상기 생성된 영상을 상기 디스플레이에 표시하고, 상기 생성된 사운드를 상기 스피커를 통해 출력하는 프로세서를 포함한다.
그리고, 상기 프로세서는 상기 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 상기 분위기에 대응되는 단어를 수식하는 상기 분위기 관련 단어가 포함된 경우, 상기 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
또한, 상기 프로세서는 상기 분위기 관련 단어가 상기 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 상기 매칭되는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드에서 상기 분위기 관련 단어와 매칭되는 분위기 키워드가 없는 경우, 상기 기설정된 복수의 분위기 키워드 중 상기 분위기 관련 단어와 가장 유사한 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
그리고, 상기 프로세서는 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 상기 분위기 관련 단어에 대응되는 벡터 값을 판단하고, 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 중 상기 분위기 관련 단어에 대응되는 벡터 값과의 거리가 가장 가까운 벡터 값을 갖는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
또한, 상기 GUI 컴포넌트는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함하고, 상기 프로세서는 상기 복수의 영상 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 영상에 오버레이하여, 상기 사용자 음성에 대응되는 영상을 생성할 수 있다.
그리고, 상기 사운드 컴포넌트는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함하고, 상기 프로세서는 상기 복수의 사운드 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 사운드와 믹싱하여, 상기 사용자 음성에 대응되는 사운드를 생성할 수 있다.
또한, 상기 프로세서는 복수의 사용자 별 GUI 컴포넌트 및 사운드 컴포넌트 중 상기 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 사용자 음성이 수신되면, 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하는 단계, 상기 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하는 단계 및 상기 생성된 영상을 표시하고, 상기 생성된 사운드를 출력하는 단계를 포함한다.
그리고, 상기 판단하는 단계는 상기 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 상기 분위기에 대응되는 단어를 수식하는 상기 분위기 관련 단어가 포함된 경우, 상기 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
또한, 상기 판단하는 단계는 상기 분위기 관련 단어가 상기 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 상기 매칭되는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드에서 상기 분위기 관련 단어와 매칭되는 분위기 키워드가 없는 경우, 상기 기설정된 복수의 분위기 키워드 중 상기 분위기 관련 단어와 가장 유사한 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
그리고, 상기 판단하는 단계는 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 상기 분위기 관련 단어에 대응되는 벡터 값을 판단하고, 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 중 상기 분위기 관련 단어에 대응되는 벡터 값과의 거리가 가장 가까운 벡터 값을 갖는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
또한, 상기 GUI 컴포넌트는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함하고, 상기 생성하는 단계는 상기 복수의 영상 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 영상에 오버레이하여, 상기 사용자 음성에 대응되는 영상을 생성할 수 있다.
그리고, 상기 사운드 컴포넌트는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함하고, 상기 생성하는 단계는 상기 복수의 사운드 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 사운드와 믹싱하여, 상기 사용자 음성에 대응되는 사운드를 생성할 수 있다.
또한, 상기 생성하는 단계는 복수의 사용자 별 GUI 컴포넌트 및 사운드 컴포넌트 중 상기 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성할 수 있다.
이와 같이, 본 개시의 다양한 실시 예에 따르면, 전자 장치는 사용자가 원하는 분위기를 만들 수 있는 영상 및 사운드를 실시간으로 제공할 수 있다는 점에서, 사용자의 주변 환경을 사용자가 원하는 분위기로 꾸밀 수 있게 된다.
도 1은 본 개시의 일 실시 예에 따른 사용자가 요청하는 분위기에 맞는 컨텐츠를 제공하는 전자 장치를 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 일 실시 예에 따라 사용자 음성에 대응되는 영상을 생성하는 방법을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따라 사용자 음성에 대응되는 사운드를 생성하는 방법을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따라 사용자 음성에 대응되는 영상 및 사운드를 출력하는 방법을 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 백그라운드 영상의 리스트를 편집하는 방법을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도, 그리고
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 사용자가 요청하는 분위기에 맞는 컨텐츠를 제공하는 전자 장치를 설명하기 위한 도면이다.
도 1a 및 도 1b에서는 전자 장치(100)를 TV로 도시하였으나, 이는 일 예일 뿐이고, 전자 장치(100)는 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기 또는 전자 액자 및 웨어러블 장치 등과 같이 다양한 디스플레이 및 스피커를 구비한 다양한 타입의 디바이스로 구현될 수 있다.
도 1a를 참조하면, 전자 장치(100)는 사용자가 원하는 분위기에 맞는 컨텐츠를 제공할 수 있다.
전자 장치(100)는 사용자 음성을 획득할 수 있다. 이 경우, 사용자 음성은 전자 장치(100)에 구비된 마이크(미도시)를 통해 수신될 수 있다. 또는, 전자 장치(100)는 마이크(미도시)를 구비한 다른 전자 장치 가령, 전자 장치(100)를 제어하기 위한 리모컨(미도시) 등에서 획득한 사용자 음성을 해당 전자 장치로부터 수신할 수 있다.
그리고, 전자 장치(100)는 사용자 음성을 텍스트로 변환하고, 텍스트를 이용하여 사용자 음성이 특정한 분위기를 요청하는 음성에 해당하는지를 판단할 수 있다.
이에 따라, 전자 장치(100)는 사용자 음성이 특정한 분위기를 요청하는 음성에 해당하는 경우, 사용자가 요청하는 분위기를 만들 수 있는 컨텐츠를 생성하여 출력할 수 있다.
예를 들어, 도 1a와 같이, 사용자(10)가 "차분한 분위기 만들어 줘"라고 발화한 경우를 가정한다.
이 경우, 전자 장치(100)는 사용자가 요청한 차분한 분위기를 만들 수 있는 영상 및 사운드를 생성하고, 생성된 영상 및 사운드를 출력할 수 있다. 예를 들어, 도 1a와 같이, 전자 장치(100)는 파란색의 백그라운드 화면에 비와 구름이 오버레이된 영상을 표시하고, 새가 지저귀는 사운드를 출력할 수 있다.
이와 같이, 본 개시의 다양한 실시 예에 따르면, 전자 장치(100)는 사용자가 원하는 분위기를 만들 수 있는 영상 및 사운드를 실시간으로 제공할 수 있다는 점에서, 사용자의 주변 환경을 사용자가 원하는 분위기로 꾸밀 수 있게 된다.
한편, 도 1a에서는 전자 장치(100)가 사용자 음성을 텍스트로 변환하는 것으로 설명하였으나, 이는 일 예에 불과하다.
예를 들어, 도 1b와 같이, 전자 장치(100)는 사용자 음성을 서버(200)로 전송할 수 있다. 이 경우, 서버(200)는 사용자 음성을 텍스트로 변환하고, 변환된 텍스트를 전자 장치(100)로 전송할 수 있다.
이와 같이, 전자 장치(100)가 아닌 외부의 다른 전자 장치 가령, 서버(200)가 사용자 음성을 텍스트로 변환하여 전자 장치(100)로 전송할 수도 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 수신부(110), 스피커(120), 디스플레이(130) 및 프로세서(140)를 포함할 수 있다.
수신부(110)는 사용자 음성을 수신할 수 있다. 이를 위해, 수신부(110)는 마이크(미도시)를 포함할 수 있다. 또한, 수신부(110)는 마이크(미도시)를 구비한 외부 전자 장치 가령, 전자 장치(100)를 제어하기 위한 리모컨 등과 통신을 수행하기 위한 통신 인터페이스(미도시)을 포함하고, 이를 통해 외부 전자 장치와 통신을 수행하여, 외부 전자 장치가 마이크를 통해 획득한 사용자 음성을 외부 전자 장치로부터 수신할 수 있다.
스피커(120)는 다양한 사운드를 출력할 수 있다. 예를 들어, 스피커(120)는 사용자가 요청한 분위기를 만들 수 있는 사운드를 출력할 수 있다.
디스플레이(130)는 다양한 영상을 표시할 수 있다. 예를 들어, 디스플레이(130)는 사용자가 요청한 분위기를 만들 수 있는 영상을 표시할 수 있다.
프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 구체적으로, 프로세서(140)는 수신부(110), 스피커(120) 및 디스플레이(130)와 전기적으로 연결되어, 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다.
먼저, 프로세서(140)는 사용자 음성이 수신부(110)를 통해 수신되면, 기설정된 복수의 분위기 키워드 중 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
이 경우, 프로세서(140)는 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 분위기에 대응되는 단어를 수식하는 분위기 관련 단어가 포함된 경우, 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 기설정된 복수의 분위기 키워드 중 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
여기에서, 분위기에 대응되는 단어는 "분위기"라는 명사이고, 분위기 관련 단어는 "분위기"라는 명사를 수식하는 형용사가 될 수 있다.
이를 위해, 프로세서(140)는 수신부(110)를 통해 사용자 음성이 수신되면, 사용자 음성을 텍스트로 변환할 수 있다.
또한, 프로세서(140)는 수신부(110)를 통해 사용자 음성이 수신되면, 수신된 사용자 음성을 통신 인터페이스(미도시)를 통해 서버(도 1의 200)로 전송할 수 있다. 이 경우, 서버(200)는 전자 장치(100)로부터 수신된 사용자 음성을 텍스트로 변환하고, 전자 장치(100)로 전송할 수 있고, 프로세서(140)는 통신 인터페이스(미도시)를 통해 서버(200)가 전송한 텍스트를 수신할 수 있다.
그리고, 프로세서(140)는 사용자 음성이 변환된 텍스트에 "분위기"라는 단어 및 "분위기"라는 단어를 기준으로 해당 단어 주변(가령, 앞 또는 뒤)에 위치하며 "분위기"라는 단어를 수식하는 형용사가 존재하는지를 판단할 수 있다.
이를 위해, 전자 장치(100)는 "분위기"에 대한 정보 및 및 "분위기"라는 명사를 수식하는 다양한 형용사들에 대한 정보를 기저장하고 있을 수 있다.
이에 따라, 프로세서(140)는 사용자 음성이 변환된 텍스트에 "분위기"라는 단어 및 "분위기"라는 단어를 기준으로 해당 단어 주변에 위치한 형용사가 존재하는 경우, 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단할 수 있다.
예를 들어, "차분한 분위기 만들어 줘"라는 텍스트에는 "분위기"라는 단어가 존재하고, 또한, "분위기"라는 단어를 수식하는 형용사 즉, 분위기 관련 단어인 "차분한"이 존재한다. 이 경우, 프로세서(140)는 "차분한 분위기 만들어 줘"라는 사용자 음성을 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단할 수 있다.
그리고, 프로세서(140)는 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 경우, 사용자가 요청한 분위기에 대응되는 분위기 키워드를 판단할 수 있다.
구체적으로, 프로세서(140)는 기설정된 복수의 분위기 키워드 중 하나의 분위기 키워드를 사용자가 요청한 분위기에 대응되는 분위기 키워드로 판단할 수 있다.
여기에서, 복수의 분위기 키워드는 미리 정의되어 있을 수 있으며, 일 예로, "신나는", "행복한", "편안한", "차분한", "몽환적인", "로맨틱한"을 포함할 수 있다.
구체적으로, 프로세서(140)는 분위기 관련 단어가 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 매칭되는 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
예를 들어, "차분한 분위기 만들어 줘"라는 텍스트에서 분위기 관련 단어인 "차분한"은 기설정된 복수의 분위기 키워드 중 "차분한"과 매칭(또는, 일치)된다는 점에서, 프로세서(140)는 "차분한 분위기 만들어 줘"라는 사용자 음성에 대해, 분위기 키워드는 기설정된 복수의 분위기 키워드 중 "차분한"인 것으로 판단할 수 있다.
한편, 프로세서(140)는 기설정된 복수의 분위기 키워드에서 분위기 관련 단어와 매칭되는 키워드가 없는 경우, 기설정된 복수의 분위기 키워드 중 분위기 관련 단어와 가장 유사한 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
이를 위해, 프로세서(140)는 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 분위기 관련 단어에 대응되는 벡터 값을 판단할 수 있다.
이 경우, 프로세서(140)는 복수의 형용사 각각의 벡터 값을 포함하는 사전을 이용하여, 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 분위기 관련 단어에 대응되는 벡터 값을 판단할 수 있다.
여기에서, 사전은 단어의 의미를 고려하여, 단어를 k 차원에서 백터화하여 나타낸 벡터 값을 포함하는 word2vec 사전일 수 있으며, 전자 장치(100)는 복수의 형용사 각각의 벡터 값을 포함하는 word2vec 사전을 기저장하고 있을 수 있다.
그리고, 프로세서(140)는 기설정된 분위기 키워드 각각에 대응되는 벡터 값 중 분위기 관련 단어에 대응되는 벡터 값과 거리(가령, Euclidean distance)가 가장 가까운 벡터 값을 갖는 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
예를 들어, 사용자 음성이 "즐거운 분위기 만들어 줘"인 경우를 가정한다. 이 경우, 프로세서(140)는 "즐거운 분위기 만들어 줘"에서 "즐거운"을 분위기 관련 단어인 것으로 판단하고, word2vec 사전을 이용하여 "즐거운"의 벡터 값을 판단할 수 있다.
또한, 복수의 분위기 키워드가 "신나는", "행복한", "편안한", "차분한", "몽환적인", "로맨틱한"인 경우, 프로세서(140)는 word2vec 사전을 이용하여 "신나는"의 벡터 값, "행복한"의 벡터 값, "편안한"의 벡터 값, "차분한"의 벡터 값, "몽환적인"의 벡터 값 및 "로맨틱한"의 벡터 값을 판단할 수 있다.
그리고, 프로세서(140)는 "신나는"의 벡터 값, "행복한"의 벡터 값, "편안한"의 벡터 값, "차분한"의 벡터 값, "몽환적인"의 벡터 값, "로맨틱한"의 벡터 값 중 "즐거운"의 벡터 값과 가장 거리가 가까운 벡터 값을 판단할 수 있다.
이 경우, "신나는"의 벡터 값과 "즐거운"의 벡터 값 간의 거리가 다른 벡터 값과의 거리보다 가까운 경우, 프로세서(140)는 "즐거운 분위기 만들어 줘"라는 사용자 음성에 대해, 분위기 키워드는 기설정된 복수의 분위기 키워드 중 "신나는"인 것으로 판단할 수 있다.
한편, 프로세서(140)는 사용자 음성에 복수의 분위기 관련 단어가 존재하는 경우, 기설정된 복수의 분위기 키워드 중 복수의 분위기 키워드와 가장 유사한 분위기 키워드를 복수의 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
구체적으로, 프로세서(140)는 복수의 형용사 각각의 벡터 값을 포함하는 사전을 이용하여, 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 복수의 분위기 관련 단어 각각에 대응되는 벡터 값을 판단할 수 있다.
그리고, 프로세서(140)는 복수의 분위기 관련 단어의 벡터 값들을 합산하고, 기설정된 복수의 분위기 키워드 각각의 벡터 값 중 합산된 벡터 값과 가장 거리가 가까운 벡터 값을 갖는 분위기 키워드를 복수의 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
예를 들어, 사용자 음성이 "재밌고 신나는 분위기 만들어 줘"인 경우를 가정한다. 이 경우, 프로세서(140)는 "재밌고 신나는 분위기 만들어 줘"에서 "재밌고", "신나는"을 분위기 관련 단어인 것으로 판단하고, word2vec 사전을 이용하여 "재밌고"의 벡터 값 및 "신나는"의 벡터 값을 판단할 수 있다.
또한, 복수의 분위기 키워드가 "신나는", "행복한", "편안한", "차분한", "몽환적인", "로맨틱한"인 경우, 프로세서(140)는 word2vec 사전을 이용하여 "신나는"의 벡터 값, "행복한"의 벡터 값, "편안한"의 벡터 값, "차분한"의 벡터 값, "몽환적인"의 벡터 값 및 "로맨틱한"의 벡터 값을 판단할 수 있다.
그리고, 프로세서(140)는 "신나는"의 벡터 값, "행복한"의 벡터 값, "편안한"의 벡터 값, "차분한"의 벡터 값, "몽환적인"의 벡터 값, "로맨틱한"의 벡터 값 중 "재밌고"의 벡터 값 및 "신나는"의 벡터 값을 합산한 벡터 값과 가장 거리가 가까운 벡터 값을 판단할 수 있다.
이 경우, "재밌고"의 벡터 값 및 "신나는"의 벡터 값을 합산한 벡터 값과 "신나는"의 벡터 값 간의 거리가 다른 벡터 값과의 거리보다 가까운 경우, 프로세서(140)는 "재밌고 신나는 분위기 만들어 줘"라는 사용자 음성에 대해, 분위기 키워드는 기설정된 복수의 분위기 키워드 중 "신나는"인 것으로 판단할 수 있다.
한편, 이러한 과정은 다음과 같은 수학식 1과 같이 나타낼 수 있다.
Figure pat00001
여기에서,
Figure pat00002
는 분위기 관련 단어의 벡터 값이고,
Figure pat00003
은 기설정된 복수의 분위기 키워드를 나타낸다. wi
Figure pat00004
{분위기 관련 단어}, wj
Figure pat00005
{기설정된 분위기 키워드}이다. 이에 따라, 프로세서(140)는 수학식 1을 이용하여, 기설정된 복수의 분위기 키워드 중 사용자 음성에 대응되는 분위기 키워드 vibe keyword를 판단할 수 있다.
한편, 프로세서(140)는 판단된 분위기 키워드에 대응되는 GUI(graphical user interface) 컴포넌트에 기초하여 사용자 음성에 대응되는 영상을 생성하고, 생성된 영상을 디스플레이(130)에 표시할 수 있다.
여기에서, GUI 컴포넌트는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함할 수 있다.
이때, 복수의 백그라운드 영상은 녹색, 노란색, 파란색, 검은색, 분홍색 등과 같은 단색의 영상일 수 있고, 복수의 영상 컨텐츠는 태양, 행성, 비, 구름, 안개, 별, 성운, 은하수, 별똥별, 각종 동물, 각종 식물 등과 같은 다양한 자연 현상 및 자연에 존재하는 다양한 생물 및 물체, 그래픽 객체 등을 포함할 수 있다.
구체적으로, 프로세서(140)는 전자 장치(100)에 저장된 복수의 백그라운드 영상 및 복수의 영상 컨텐츠 중에서, 판단된 분위기 키워드에 대응되는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 판단할 수 있다.
이를 위해, 전자 장치(100)에는 기설정된 복수의 분위기 키워드 별로, 각 분위기 키워드에 대해 미리 정의된 백그라운드 영상에 대한 리스트 및 영상 컨텐츠에 대한 리스트가 기저장되어 있을 수 있다.
이에 따라, 프로세서(140)는 전자 장치(100)에 기저장된 복수의 백그라운드 영상 및 복수의 영상 컨텐츠 중에서, 판단된 분위기 키워드에 대해 미리 정의된 리스트에 포함된 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 판단된 분위기 키워드에 대응되는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠인 것으로 판단할 수 있다.
그리고, 프로세서(140)는 판단된 분위기 키워드에 대응되는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 이용하여 사용자 음성에 대응되는 영상을 생성할 수 있다.
구체적으로, 프로세서(140)는 복수의 영상 컨텐츠를 순차적으로 변경되는 복수의 백그라운드 영상에 오버레이하여, 사용자 음성에 대응되는 영상을 생성할 수 있다.
즉, 프로세서(140)는 시간에 따라 복수의 백그라운드 영상을 순차적으로 트랜지션시키고, 백그라운드 영상에 복수의 영상 컨텐츠를 오버레이하여, 사용자 음성에 대응되는 영상을 생성할 수 있다. 이때, 프로세서(140)는 그라데이션 효과를 통해, 하나의 백그라운드 영상에서 다른 백그라운드 영상으로 점진적으로 트랜지션할 수 있다.
또한, 프로세서(140)는 일정한 시간 주기마다 복수의 영상 컨텐츠 중 적어도 2 개를 랜덤하게 선택하고, 선택된 영상 컨텐츠를 조합하여 백그라운드 영상에 오버레이할 수 있다. 이에 따라, 백그라운드 영상에 오버레이되는 영상 컨텐츠의 조합은 일정한 시간 주기마다 랜덤하게 변경될 수 있다. 다만, 이는 일 예일 뿐이고, 프로세서(140)는 복수의 영상 컨텐츠 중 하나의 영상 컨텐츠를 랜덤하게 선택하고, 선택된 영상 컨텐츠를 백그라운드 영상에 오버레이할 수도 있다.
예를 들어, 도 3과 같이, 사용자 음성이 "차분한 분위기 만들어 줘"(310)인 경우, 프로세서(140)는 사용자 음성에 포함된 분위기 키워드는 기설정된 복수의 분위기 키워드(320) 중 "차분한"(325)인 것으로 판단할 수 있다.
그리고, 프로세서(140)는 "차분한"(325)에 대해 미리 정의된 백그라운드 영상에 대한 리스트(330)를 참조하여, 녹색 백그라운드 영상, 노란색 백그라운드 영상 및 파란색 백그라운드 영상이 "차분한"(325)에 대해 미리 정의된 백그라운드 영상에 해당하는 것으로 판단할 수 있다.
이어서, 프로세서(140)는 녹색 백그라운드 영상, 노란색 백그라운드 영상 및 파란색 백그라운드 영상 중 하나의 백그라운드 영상 가령, 녹색 백그라운드 영상(340)을 선택할 수 있다.
그리고, 프로세서(140)는 "차분한"(325)에 대해 미리 정의된 영상 컨텐츠에 대한 리스트(350)를 참조하여, 비 영상, 구름 영상, 안개 영상, 별 영상, 성운 영상이 "차분한"(325)에 대해 미리 정의된 영상 컨텐츠에 해당하는 것으로 판단할 수 있다.
이어서, 프로세서(140)는 비 영상, 구름 영상, 안개 영상, 별 영상, 성운 영상 중 비 영상과 안개 영상을 랜덤하게 선택하고, 선택된 영상 컨텐츠를 조합하여 녹색 백드라운드 영상(340)에 오버레이될 영상 컨텐츠(360)를 생성할 수 있다.
그리고, 프로세서(140)는 영상 컨텐츠(360)를 녹색 백그라운드 영상(340)에 오버레이하여, 영상(370)를 생성할 수 있다.
이후, 프로세서(140)는 시간에 따라, 녹색 백그라운드 영상을 노란색 백그라운드 영상으로 트랜지션하고 노란색 백그라운드 영상을 파란색 백그라운드 영상으로 순차적으로 트랜지션할 수 있다.
또한, 프로세서(140)는 비 영상, 구름 영상, 안개 영상, 별 영상, 성운 영상 중에서 2 개의 영상을 랜덤하게 선택하고, 선택된 영상 컨텐츠의 조합을 백그라운드 영상에 오버레이하여, 시간에 따라 영상 컨텐츠를 변경할 수 있다.
이와 같이, 프로세서(140)는 사용자 음성인 "차분한 분위기 만들어 줘"(310)에 대응되는 영상을 생성할 수 있다.
한편, 프로세서(140)는 판단된 분위기 키워드에 대응되는 사운드 컴포넌트에 기초하여 사용자 음성에 대응되는 사운드를 생성하고, 생성된 사운드를 스피커(120)를 통해 출력할 수 있다.
여기에서, 사운드 컴포넌트는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함할 수 있다.
이때, 복수의 백그라운드 사운드는 다양한 장르의 백드라운드 음악일 수 있고, 복수의 사운드 컨텐츠는 새 소리, 빗소리, 바람 소리, 바람에 나뭇잎이 흔들리는 소리, 각종 동물 소리, 아이 웃음 소리, 기차 소리, 비행기 소리 등과 같은 자연 현상에 따라 발생하는 소리 및 자연에 존재하는 다양한 생물 및 물체의 소리 등을 포함할 수 있다.
구체적으로, 프로세서(140)는 전자 장치(100)에 저장된 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠 중에서, 판단된 분위기 키워드에 대응되는 복수의 백그라운드 사운드 및 복수의 영상 사운드를 판단할 수 있다.
이를 위해, 전자 장치(100)에는 기설정된 복수의 분위기 키워드 별로, 각 분위기 키워드에 대해 미리 정의된 백그라운드 사운드에 대한 리스트 및 사운드 컨텐츠에 대한 리스트가 기저장되어 있을 수 있다.
이에 따라, 프로세서(140)는 전자 장치(100)에 기저장된 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠 중에서, 판단된 분위기 키워드에 대해 미리 정의된 리스트에 포함된 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 판단된 분위기 키워드에 대응되는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠로 판단할 수 있다.
그리고, 프로세서(140)는 판단된 분위기 키워드에 대응되는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 이용하여 사용자 음성에 대응되는 사운드를 생성할 수 있다.
구체적으로, 프로세서(140)는 복수의 사운드 컨텐츠를 순차적으로 변경되는 복수의 백그라운드 사운드와 믹싱하여, 사용자 음성에 대응되는 사운드를 생성할 수 있다.
즉, 프로세서(140)는 시간에 따라 복수의 백그라운드 사운드를 순차적으로 트랜지션시키고, 백그라운드 사운드에 복수의 사운드 컨텐츠와 믹싱하여, 사용자 음성에 대응되는 사운드를 생성할 수 있다.
이 경우, 프로세서(140)는 복수의 사운드 컨텐츠 중 적어도 2 개를 랜덤하게 선택하고, 선택된 사운드 컨텐츠를 조합하여 백그라운드 사운드와 믹싱할 수 있다. 이때, 프로세서(140)는 시간에 따라 사운드 컨텐츠의 볼륨을 랜덤하게 변경할 수 있다. 이에 따라, 백그라운드 사운드와 함께 출력되는 사운드 컨텐츠의 볼륨은 랜덤하게 변경될 수 있다.
또한, 경우에 따라, 프로세서(140)는 일정한 시간 주기마다 복수의 사운드 컨텐츠 중 적어도 2 개를 랜덤하게 선택하고, 선택된 사운드 컨텐츠를 조합하여 백그라운드 사운드와 믹싱할 수 있다. 이에 따라, 백그라운드 사운드에 믹싱되는 사운드 컨텐츠의 조합은 일정한 시간 주기마다 랜덤하게 변경될 수 있다. 다만, 이는 일 예일 뿐이고, 프로세서(140)는 복수의 사운드 컨텐츠 중 하나의 사운드 컨텐츠를 랜덤하게 선택하고, 선택된 영상 컨텐츠를 백그라운드 사운드와 믹싱할 수도 있다.
예를 들어, 도 4와 같이, 사용자 음성이 "차분한 분위기 만들어 줘"(410)인 경우, 프로세서(140)는 사용자 음성에 포함된 분위기 키워드는 기설정된 복수의 분위기 키워드(420) 중 "차분한"(425)인 것으로 판단할 수 있다.
그리고, 프로세서(140)는 "차분한"(425)에 대해 미리 정의된 백그라운드 사운드에 대한 리스트(430)를 참조하여, bgm1, bgm2, bgm3, bgm4가 "차분한"(425)에 대해 미리 정의된 백그라운드 사운드에 해당하는 것으로 판단할 수 있다.
이어서, 프로세서(140)는 bgm1, bgm2, bgm3, bgm4 중 하나의 백그라운드 사운드 가령, bgm1(440)을 선택할 수 있다.
그리고, 프로세서(140)는 분위기 키워드 "차분한"(425)에 대해 미리 정의된 사운드 컨텐츠에 대한 리스트(450)를 참조하여, 새 소리, 빗소리, 바람 소리, 아기 웃음 소리, 폭포 소리 및 귀뚜라미 소리가 "차분한"(425)에 대해 미리 정의된 사운드 컨텐츠에 해당하는 것으로 판단할 수 있다.
이어서, 프로세서(140)는 새 소리, 빗소리, 바람 소리, 아기 웃음 소리, 폭포 소리 및 귀뚜라미 소리 중 빗소리와 폭포 소리를 랜덤하게 선택하고, 선택된 사운드 컨텐츠를 조합하여 bgm1(440)과 믹싱될 사운드 컨텐츠(460)를 생성할 수 있다.
그리고, 프로세서(140)는 사운드 컨텐츠(460)를 bgm1(440)과 믹싱하여, 사운드(470)를 생성할 수 있다.
이후, 프로세서(140)는 시간에 따라, bgm1을 bgm4로 트랜지션하고, bgm4를 bgm2로 트랜지션하고, bgm2를 bgm3으로 트랜지션할 수 있다. 또한, 프로세서(140)는 백그라운드 사운드에 믹싱되는 빗소리와 폭포 소리의 볼륨을 시간에 따라 랜덤하게 변경할 수 있다.
이와 같이, 프로세서(140)는 사용자 음성인 "차분한 분위기 만들어 줘"(410)에 대응되는 사운드를 생성할 수 있다.
한편, 프로세서(140)는 생성된 영상을 디스플레이(130)에 표시하고, 생성된 사운드를 스피커(120)를 통해 출력할 수 있다.
예를 들어, 도 5와 같이, 사용자가 "신나는 분위기 만들어 줘"라고 발화한 경우를 가정한다.
이 경우, 프로세서(140)는 "신나는"에 대응되는 분위기 키워드에 대응되는 영상 및 사운드를 생성하고, 생성된 영상을 디스플레이(130)에 표시하고, 생성된 사운드를 스피커(120)를 통해 출력할 수 있다.
예를 들어, 도 5의 (a)와 같이, 프로세서(140)는 파란색의 백그라운드 영상에 풍선 및 폭죽 영상이 오버랩된 영상(510)을 디스플레이(130)에 표시하고, bgm1에 아기 웃음 소리와 새 소리가 믹싱된 사운드(520)를 스피커(120)를 통해 출력할 수 있다.
한편, 일정 시간이 경과되면, 도 5의 (b)와 같이, 프로세서(140)는 파란색의 백그라운드 영상을 노란색의 백그라운드 영상으로 트랜지션하고, 노란색의 백그라운드 영상에 별 및 불꽃 영상이 오버랩된 영상(530)을 디스플레이(130)에 표시할 수 있다. 그리고, 프로세서(140)는 백그라운드 사운드를 bgm1에서 bgm2로 트랜지션하고, bgm2에 아기 웃음 소리와 새 소리가 믹싱된 사운드(540)를 스피커(120)를 통해 출력할 수 있다.
한편, 전술한 예에서는, 기설정된 복수의 분위기 키워드는 "신나는", "행복한", "편안한", "차분한", "몽환적인", "로맨틱한" 등과 같은 형용사인 것을 가정하였으나, 이는 일 예에 불과하며, 본 개시의 다양한 실시 예에 따르면, 다양한 단어가 분위기 관련 단어로 기설정되어 있을 수 있다.
예를 들어, 분위기 관련 단어는 "오늘 날씨에 어울리는"를 포함할 수 있다.
즉, 프로세서(140)는 사용자 음성이 변환된 텍스트에, "분위기"라는 단어가 포함되어 있고 또한, "분위기"라는 단어 앞에 "오늘 날씨에 어울리는"가 존재하는 경우, 사용자 음성이 특정한 분위기를 요청하는 음성에 해당하는 것으로 판단할 수 있다.
이 경우, 프로세서(140)는 기설정된 복수의 분위기 키워드 중에서 하나의 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드로 판단할 수 있다.
예를 들어, 프로세서(140)는 "오늘 날씨에 어울리는"에 대해, 웹 검색 등을 통해 날씨를 검색하고, 검색된 날씨를 이용하여 분위기 키워드를 판단할 수 있다.
이를 위해, 전자 장치(100)는 날씨 별로 그에 매칭되는 분위기 키워드에 대한 정보를 저장하고 있을 수 있다.
예를 들어, 화창한 날씨인 경우, 이에 매칭된 분위기 키워드는 "신나는"이 될 수 있고, 안개낀 날씨인 경우, 이에 매칭된 분위기 키워드는 "몽환적인"이 될 수 있고, 따뜻한 날씨인 경우, 이에 매칭된 분위기 키워드는 "행복한"이 될 수 있다. 다만, 이는 일 예일 뿐이고, 다양한 날씨 별로, 이와 가장 어울리는 분위기 키워드가 매칭되어 있을 수 있다.
이에 따라, 프로세서(140)는 검색된 날씨에 대한 정보에 기초하여 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
예를 들어, 사용자 음성이 "오늘 날씨에 어울리는 분위기 만들어 줘"인 경우를 가정한다.
이 경우, 프로세서(140)는 사용자 음성이 변환된 텍스트에서 "오늘 날씨에 어울리는"를 분위기 관련 단어인 것으로 판단할 수 있다. 그리고, 현재 날씨가 화창한 날씨인 경우, 프로세서(140)는 "오늘 날씨에 어울리는"에 대한 분위기 키워드를 "신나는"인 것으로 판단할 수 있다.
다른 예로, 분위기 관련 단어는 "지금 어울리는"를 포함할 수 있다.
즉, 프로세서(140)는 사용자 음성이 변환된 텍스트에, "분위기"라는 단어가 포함되어 있고 또한, "분위기"라는 단어 앞에 "지금 어울리는"가 존재하는 경우, 사용자 음성이 특정한 분위기를 요청하는 음성에 해당하는 것으로 판단할 수 있다.
이 경우, 프로세서(140)는 기설정된 복수의 분위기 키워드 중에서 하나의 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드로 판단할 수 있다.
예를 들어, 프로세서(140)는 "지금 어울리는"에 대해, 웹 검색 등을 통해 날씨를 검색하고, 검색된 날씨, 현재 시간 및/또는 계절 등을 이용하여 분위기 키워드를 판단할 수 있다.
이를 위해, 전자 장치(100)는 날씨, 시간 및/또는 계절 별로, 그에 매칭되는 분위기 키워드에 대한 정보를 저장하고 있을 수 있다.
예를 들어, 밤 시간에 안개낀 날씨인 경우, 이에 매칭된 분워기 키워드는 "몽환적인"이 될 수 있고, 가을의 선선한 날씨인 경우, 이에 매칭된 분워기 키워드는 "편안한"이 될 수 있고, 낮 시간에 봄의 화창한 날씨인 경우, 이에 매칭된 분위기 키워드는 "행복한"이 될 수 있다. 다만, 이는 일 예일 뿐이고, 다양한 날씨, 시간 및/또는 계절 별로, 이와 가장 어울리는 분위기 키워드가 매칭되어 있을 수 있다.
이에 따라, 프로세서(140)는 검색된 날씨, 현재 시간 및/또는 계절 등을 이용하여 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
예를 들어, 사용자 음성이 "지금 어울리는 분위기 만들어 줘"인 경우를 가정한다.
이 경우, 프로세서(140)는 사용자 음성이 변환된 텍스트에서 "지금 어울리는"를 분위기 관련 단어인 것으로 판단할 수 있다. 그리고, 지금 상황이 낮 시간에 봄의 화창한 날씨인 경우, 프로세서(140)는 "지금 어울리는"에 대한 분위기 키워드는 "행복한"인 것으로 판단할 수 있다.
이와 같이, 본 개시의 일 실시 예에 따르면, 기설정된 복수의 분위기 키워드는 "신나는", "행복한", "편안한", "차분한", "몽환적인", "로맨틱한" 뿐만 아니라, "지금 어울리는" 및 "오늘 날씨에 어울리는"를 더 포함할 수 있다.
한편, 전술한 바와 같이, 본 개시의 일 실시 예에 따르면, 기설정된 복수의 분위기 키워드 별로, 각 분위기 키워드에 대해 미리 정의된 백그라운드 영상에 대한 리스트, 영상 컨텐츠에 대한 리스트, 백그라운드 사운에 대한 리스트 및 사운드 컨텐츠에 대한 리스트가 전자 장치(100)에 기저장되어 있을 수 있다.
이 경우, 프로세서(140)는 사용자 명령에 기초하여, 해당 리스트에 새로운 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠를 추가하거나, 리스트에서 일부를 삭제할 수 있다.
이때, 이러한 사용자 명령은 사용자 음성을 통해 입력되거나(가령, "빗소리 추가해 줘"와 같은 사용자 음성), 또는 전자 장치(100)에 표시된 메뉴를 통해 입력될 수 있다.
예를 들어, 도 6의 (a)와 같이, 프로세서(140)는 "편안한"에 대해 미리 정의된 백그라운드 영상에 대한 리스트를 편집하기 위한 사용자 명령이 입력되면, "편안한"에 대해 미리 정의된 백그라운드 영상에 대한 리스트(610)를 디스플레이(130)에 표시할 수 있다.
이 경우, 프로세서(140)는 리스트(610)에 새로운 백그라운드 영상을 추가하기 위한 메뉴 항목(620) 및 리스트(610)에 포함된 백그라운드 영상을 삭제하기 위한 메뉴 항목(630)을 디스플레이(130)에 표시할 수 있다.
이때, 메뉴 항목(620)을 선택하는 사용자 명령이 입력되면, 프로세서(140)는 도 6의 (b)와 같이, 전자 장치(100)에 저장된 복수의 백그라운드 영상에 대한 정보(640)를 디스플레이(130)에 표시할 수 있다.
이에 따라, 프로세서(140)는 이들 중 하나의 백그라운드 영상을 선택하는 사용자 명령이 입력되면, 선택된 백그라운드 영상을 "편안한"의 백그라운드 영상에 대한 리스트에 추가할 수 있다.
한편, 도 6의 (c)와 같이, 프로세서(140)는 리스트(610)에서 흰색의 백그라운드 영상(650)을 선택하고 메뉴 항목(630)을 선택하는 사용자 명령이 입력되면, 선택된 흰색의 백그라운드 영상을 "편안한"의 백그라운드 영상에 대한 리스트에서 삭제할 수도 있다.
한편, 도 6에서는 사용자 명령에 기초하여 백그라운드 영상에 대한 리스트에 새로운 백그라운드 영상을 추가하거나, 리스트에서 백그라운드 영상을 삭제하는 것으로 설명하였으나, 이는 일 예에 불과하고, 프로세서(140)는 이와 동일한 방법을 이용하여, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠 각각의 리스트에 대한 추가 및 삭제를 할 수 있음은 물론이다.
한편, 전자 장치(100)에는 사용자 별로, 분위기 키워드에 대응되는 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠 각각의 리스트가 저장될 수 있다.
이에 따라, 프로세서(140)는 복수의 사용자 별, GUI 컴포넌트 및 사운드 컴포넌트 중 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 사용자 음성에 대응되는 영상 및 사운드를 생성할 수 있다.
이를 위해, 프로세서(140)는 사용자 음성을 발화한 사용자를 인식할 수 있다. 예를 들어, 프로세서(140)는 사용자 음성에 기초하여 사용자를 인식하거나, 전자 장치(100)에 입력된 지문 또는 아이디/패스워드 등을 이용하여 사용자를 인식할 수 있다.
그리고, 프로세서(140)는 인식된 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트를 판단할 수 있다.
즉, 프로세서(140)는 복수의 사용자 별로 기저장된 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠의 리스트 중에서, 인식된 사용자의 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠의 리스트를 판단할 수 있다. 그리고, 프로세서(140)는 인식된 사용자에 대한 리스트를 이용하여, 사용자 음성에 대응되는 영상 및 사운드를 생성할 수 있다.
한편, 이와 같은, 프로세서(140)는 사용자 별 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠의 리스트를 외부 서버(미도시)에 저장할 수도 있으며, 외부 서버(미도시)에 저장된 리스트를 외부 서버(미도시)로부터 수신할 수도 있다. 이에 따라, 다양한 사용자들은 외부 서버(미도시)를 통해 리스트를 공유할 수 있게 된다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세한 설명하기 위한 블록도이다.
도 7을 참조하면, 전자 장치(100)는 수신부(110), 스피커(120), 디스플레이(130), 프로세서(140), 메모리(150), 통신 인터페이스(160) 및 사용자 입력부(180)를 포함할 수 있다. 이들 구성요소는 프로세서(140)에 의해 제어될 수 있다.
한편, 수신부(110), 스피커(120), 디스플레이(130) 및 프로세서(140)는 도 2에서와 동일한 기능을 수행하므로, 이들 구성요소에 대한 중복된 설명은 생략하도록 한다.
메모리(150)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 메모리(150)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(150)는 프로세서(120)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 문서에서 메모리라는 용어는 메모리(150), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.
또한, 메모리(150)에는 사용자가 요청한 분위기에 대응되는 영상 및 사운드를 생성하기 위한 다양한 데이터가 저장될 수 있다.
예를 들어, 메모리(150)에는 복수의 백그라운드 영상, 복수의 영상 컨텐츠, 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠 등이 저장될 수 있고, 분위기 키워드 별로 각 분위기 키워드에 대응되는 백그라운드 영상, 영상 컨텐츠, 백그라운드 사운드 및 사운드 컨텐츠에 대한 리스트 등이 저장될 수 있다.
통신 인터페이스(160)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 기기와 통신을 수행할 수 있다. 통신 인터페이스(160)는 블루투스 칩, 무선 통신 칩, NFC 칩 및 이더넷 칩 중 적어도 하나를 포함할 수 있다.
이 경우, 프로세서(140)는 통신 인터페이스(160)를 통해 서버 또는 각종 외부 기기와 통신을 수행할 수 있다.
한편, 통신 인터페이스(160)를 수신부(110)와 별도의 구성으로 도시하였는데, 이는 설명의 편의를 위한 것이고, 통신 인터페이스(160)는 마이크(미도시)를 구비한 전자 장치 등과 통신을 수행하여, 해당 전자 장치에서 획득한 사용자 음성을 해당 전자 장치로부터 수신할 수 있다.
사용자 입력부(170)는 다양한 사용자 명령을 입력받고, 입력된 사용자 명령을 프로세서(140)로 전달할 수 있다. 사용자 입력부(170)는, 예를 들면, 터치 패널(171), 또는 키(172)를 포함할 수 있다. 터치 패널(171)은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널(171)은 제어 회로를 더 포함할 수도 있다. 터치 패널(171)은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다. 키(192)는 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다.
이 경우, 프로세서(120)는 사용자 입력부(170)를 통해 입력된 사용자 명령에 대응되는 각종 기능을 실행하도록 다른 구성요소를 제어할 수 있다.
또한, 도 7에 도시하지 않았지만, 전자 장치(100)는 리모컨 신호 수신부(미도시)를 더 포함할 수 있다. 이 경우, 리모컨 신호 수신부(미도시)는 전자 장치(100)를 제어하기 위한 리모컨에서 전송되는 리모컨 신호를 수신하기 위한 IR 수신부(미도시)로 구현될 수 있다.
이 경우, 프로세서(140)는 리모컨 신호 수신부(미도시)를 통해 수신된 리모컨 신호에 대응되는 각종 기능을 실행하도록 다른 구성요소를 제어할 수 있다.
프로세서(140)는 메모리(150)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 사용자 음성이 수신되면, 기설정된 복수의 분위기 키워드 중 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단한다(S810).
이후, 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성한다(S820).
그리고, 생성된 영상을 표시하고, 생성된 사운드를 출력한다(S830).
한편, S810 단계는, 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 분위기에 대응되는 단어를 수식하는 분위기 관련 단어가 포함된 경우, 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 기설정된 복수의 분위기 키워드 중 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단할 수 있다.
또한, S810 단계는 분위기 관련 단어가 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 매칭되는 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하고, 기설정된 복수의 분위기 키워드에서 분위기 관련 단어와 매칭되는 분위기 키워드가 없는 경우, 기설정된 복수의 분위기 키워드 중 분위기 관련 단어와 유사한 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
이 경우, S810 단계는 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 분위기 관련 단어에 대응되는 벡터 값을 판단하고, 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 중 분위기 관련 단어에 대응되는 벡터 값과의 거리가 가장 가까운 벡터 값을 갖는 분위기 키워드를 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단할 수 있다.
또한, GUI 컴포넌트는 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함하고, S820 단계는 복수의 영상 컨텐츠를 순차적으로 변경되는 복수의 백그라운드 영상에 오버레이하여, 사용자 음성에 대응되는 영상을 생성할 수 있다.
또한, 사운드 컴포넌트는 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함하고, S820 단계는 복수의 사운드 컨텐츠를 순차적으로 변경되는 복수의 백그라운드 사운드와 믹싱하여, 사용자 음성에 대응되는 사운드를 생성할 수 있다.
한편, S820 단계는 복수의 사용자 별 GUI 컴포넌트 및 사운드 컴포넌트 중 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 사용자 음성에 대응되는 영상 및 사운드를 생성할 수 있다.
한편, 사용자가 요청한 분위기에 대응되는 영상 사운드를 생성하는 구체적인 방법에 대해서는 전술한 바 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
100 : 전자 장치 110 : 수신부
120 : 스피커 130 : 디스플레이
140 : 프로세서

Claims (14)

  1. 전자 장치에 있어서,
    수신부;
    스피커;
    디스플레이; 및
    사용자 음성이 상기 수신부를 통해 수신되면, 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하고,
    상기 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하고,
    상기 생성된 영상을 상기 디스플레이에 표시하고, 상기 생성된 사운드를 상기 스피커를 통해 출력하는 프로세서;를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 상기 분위기에 대응되는 단어를 수식하는 상기 분위기 관련 단어가 포함된 경우, 상기 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 분위기 관련 단어가 상기 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 상기 매칭되는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하고,
    상기 기설정된 복수의 분위기 키워드에서 상기 분위기 관련 단어와 매칭되는 분위기 키워드가 없는 경우, 상기 기설정된 복수의 분위기 키워드 중 상기 분위기 관련 단어와 가장 유사한 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하는, 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 상기 분위기 관련 단어에 대응되는 벡터 값을 판단하고, 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 중 상기 분위기 관련 단어에 대응되는 벡터 값과의 거리가 가장 가까운 벡터 값을 갖는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하는, 전자 장치.
  5. 제1항에 있어서,
    상기 GUI 컴포넌트는, 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함하고,
    상기 프로세서는,
    상기 복수의 영상 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 영상에 오버레이하여, 상기 사용자 음성에 대응되는 영상을 생성하는, 전자 장치.
  6. 제1항에 있어서,
    상기 사운드 컴포넌트는, 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함하고,
    상기 프로세서는,
    상기 복수의 사운드 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 사운드와 믹싱하여, 상기 사용자 음성에 대응되는 사운드를 생성하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    복수의 사용자 별 GUI 컴포넌트 및 사운드 컴포넌트 중 상기 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하는, 전자 장치.
  8. 전자 장치의 제어 방법에 있어서,
    사용자 음성이 수신되면, 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하는 단계;
    상기 판단된 분위기 키워드에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하는 단계; 및
    상기 생성된 영상을 표시하고, 상기 생성된 사운드를 출력하는 단계;를 포함하는, 제어 방법.
  9. 제8항에 있어서,
    상기 판단하는 단계는,
    상기 사용자 음성이 변환된 텍스트에 분위기에 대응되는 단어 및 상기 분위기에 대응되는 단어를 수식하는 상기 분위기 관련 단어가 포함된 경우, 상기 사용자 음성이 특정한 분위기를 요청하는 사용자 음성에 해당하는 것으로 판단하고, 상기 기설정된 복수의 분위기 키워드 중 상기 사용자 음성에 포함된 분위기 관련 단어에 대응되는 분위기 키워드를 판단하는, 제어 방법.
  10. 제9항에 있어서,
    상기 판단하는 단계는,
    상기 분위기 관련 단어가 상기 기설정된 복수의 분위기 키워드 중 하나와 매칭되는 경우, 상기 매칭되는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하고,
    상기 기설정된 복수의 분위기 키워드에서 상기 분위기 관련 단어와 매칭되는 분위기 키워드가 없는 경우, 상기 기설정된 복수의 분위기 키워드 중 상기 분위기 관련 단어와 가장 유사한 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하는, 제어 방법.
  11. 제10항에 있어서,
    상기 판단하는 단계는,
    상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 및 상기 분위기 관련 단어에 대응되는 벡터 값을 판단하고, 상기 기설정된 복수의 분위기 키워드 각각에 대응되는 벡터 값 중 상기 분위기 관련 단어에 대응되는 벡터 값과의 거리가 가장 가까운 벡터 값을 갖는 분위기 키워드를 상기 분위기 관련 단어에 대응되는 분위기 키워드인 것으로 판단하는, 제어 방법.
  12. 제8항에 있어서,
    상기 GUI 컴포넌트는, 복수의 백그라운드 영상 및 복수의 영상 컨텐츠를 포함하고,
    상기 생성하는 단계는,
    상기 복수의 영상 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 영상에 오버레이하여, 상기 사용자 음성에 대응되는 영상을 생성하는, 제어 방법.
  13. 제8항에 있어서,
    상기 사운드 컴포넌트는, 복수의 백그라운드 사운드 및 복수의 사운드 컨텐츠를 포함하고,
    상기 생성하는 단계는,
    상기 복수의 사운드 컨텐츠를 순차적으로 변경되는 상기 복수의 백그라운드 사운드와 믹싱하여, 상기 사용자 음성에 대응되는 사운드를 생성하는, 제어 방법.
  14. 제8항에 있어서,
    상기 생성하는 단계는,
    복수의 사용자 별 GUI 컴포넌트 및 사운드 컴포넌트 중 상기 사용자 음성을 발화한 사용자에 대응되는 GUI 컴포넌트 및 사운드 컴포넌트에 기초하여 상기 사용자 음성에 대응되는 영상 및 사운드를 생성하는, 제어 방법.

KR1020190129937A 2019-10-18 2019-10-18 전자 장치 및 그의 제어 방법 KR20210046334A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190129937A KR20210046334A (ko) 2019-10-18 2019-10-18 전자 장치 및 그의 제어 방법
PCT/KR2020/011451 WO2021075705A1 (ko) 2019-10-18 2020-08-27 전자 장치 및 그의 제어 방법
US17/721,202 US20220238111A1 (en) 2019-10-18 2022-04-14 Electronic device and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190129937A KR20210046334A (ko) 2019-10-18 2019-10-18 전자 장치 및 그의 제어 방법

Publications (1)

Publication Number Publication Date
KR20210046334A true KR20210046334A (ko) 2021-04-28

Family

ID=75538734

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190129937A KR20210046334A (ko) 2019-10-18 2019-10-18 전자 장치 및 그의 제어 방법

Country Status (3)

Country Link
US (1) US20220238111A1 (ko)
KR (1) KR20210046334A (ko)
WO (1) WO2021075705A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230090604A (ko) 2021-12-15 2023-06-22 이득민 건조실용 건조장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674374B (zh) * 2021-07-20 2022-07-01 广东技术师范大学 基于生成式对抗网络的中文文本生成图像方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244902A1 (en) * 2006-04-17 2007-10-18 Microsoft Corporation Internet search-based television
KR101775532B1 (ko) * 2011-01-17 2017-09-06 엘지전자 주식회사 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
KR101804679B1 (ko) * 2016-05-31 2017-12-05 박제현 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법
EP3678130A4 (en) * 2017-10-13 2020-11-25 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN108877794A (zh) * 2018-06-04 2018-11-23 百度在线网络技术(北京)有限公司 用于人机交互的方法、装置、电子设备和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230090604A (ko) 2021-12-15 2023-06-22 이득민 건조실용 건조장치

Also Published As

Publication number Publication date
US20220238111A1 (en) 2022-07-28
WO2021075705A1 (ko) 2021-04-22

Similar Documents

Publication Publication Date Title
US11450353B2 (en) Video tagging by correlating visual features to sound tags
US11435980B2 (en) System for processing user utterance and controlling method thereof
CN109102802B (zh) 用于处理用户话语的系统
US11527233B2 (en) Method, apparatus, device and computer storage medium for generating speech packet
CN108876927B (zh) 通过基于故事的增强和/或混合现实体验引导的物理航行
US11972761B2 (en) Electronic device for sharing user-specific voice command and method for controlling same
CN109410297A (zh) 一种用于生成虚拟化身形象的方法与装置
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
US20220238111A1 (en) Electronic device and control method therefor
US11151995B2 (en) Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command
KR102545666B1 (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
KR20210156742A (ko) 인공지능 캐릭터와의 대화 서비스 제공 방법 및 그 시스템
US11030479B2 (en) Mapping visual tags to sound tags using text similarity
KR20190134975A (ko) 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법
CN110413834B (zh) 语音评论修饰方法、系统、介质和电子设备
US11183219B2 (en) Movies with user defined alternate endings
Marques et al. Adaptive augmented reality user interfaces using face recognition for smart home control
US20200234187A1 (en) Information processing apparatus, information processing method, and program
CN114816038A (zh) 虚拟现实内容生成方法、装置及计算机可读存储介质
KR20200077936A (ko) 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법
US11778261B2 (en) Electronic content glossary
CN111768756B (zh) 信息处理方法、装置、车辆和计算机存储介质
KR102685523B1 (ko) 사용자 음성 입력을 처리하는 장치
CN110785982B (zh) 用于使第三方能够将效果添加到应用的方法、介质和系统
KR20210042277A (ko) 음성 처리 방법 및 장치