WO2020145428A1 - Terminal - Google Patents

Terminal Download PDF

Info

Publication number
WO2020145428A1
WO2020145428A1 PCT/KR2019/000304 KR2019000304W WO2020145428A1 WO 2020145428 A1 WO2020145428 A1 WO 2020145428A1 KR 2019000304 W KR2019000304 W KR 2019000304W WO 2020145428 A1 WO2020145428 A1 WO 2020145428A1
Authority
WO
WIPO (PCT)
Prior art keywords
terminal
message
processor
voice
key
Prior art date
Application number
PCT/KR2019/000304
Other languages
French (fr)
Korean (ko)
Inventor
양시영
박용철
장주영
채종훈
한성민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2019/000304 priority Critical patent/WO2020145428A1/en
Publication of WO2020145428A1 publication Critical patent/WO2020145428A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords

Definitions

  • the present invention relates to a terminal for outputting a synthesized voice to which a voice characteristic of a user who transmitted a message is applied.
  • Artificial intelligence is a field of computer science and information technology that studies how computers can do thinking, learning, and self-development that human intelligence can do. It means to be able to imitate.
  • artificial intelligence does not exist by itself, but is directly or indirectly associated with other fields of computer science.
  • attempts have been made to actively utilize artificial intelligence elements in various fields of information technology to solve problems in those fields.
  • the present invention is to solve the above-described problems, and an object of the present invention is to provide a terminal that outputs a synthesized voice to which a voice characteristic of a user who has transmitted a message is applied.
  • the terminal according to an embodiment of the present invention, a communication unit for communicating with an external device, a sound output unit for outputting a voice, and receiving a message from a transmitting device, the voice characteristics of the user of the transmitting device is applied to the message And a processor that receives the synthesized voice and outputs the synthesized voice.
  • the terminal reads the message in the voice of a voice actor or an entertainer.
  • the terminal since the terminal reads the message with the voice of the person who sent the message, the user can generate an effect such as directly hearing the voice of the sender of the message.
  • the user has the advantage of being able to distinguish who the originator of the message is only with the synthetic voice.
  • the processor can output a synthesized voice without outputting a guide as to who the message was received from, the user can generate an effect such as a user directly hearing the voice of the sender of the message.
  • the terminal since the terminal receives the synthesized voice in advance and stores it in the memory and outputs the stored synthesized voice when a user input is received, there is an advantage in that the synthesized voice can be output without delay.
  • the message includes symbols and emoticons as well as letters and numbers, there is an advantage that only text that can be converted into speech can be extracted and output in the voice of the user of the transmitting device.
  • the present invention even when the power of the transmitting side device is off or the communication with the transmitting side device is poor, there is an advantage of being able to output the synthesized voice to which the voice characteristics of the user of the transmitting side device are applied.
  • the transmission-side device can determine whether the user who received the message requests the synthesized voice using the key corresponding to the transmission-side device 1100, thereby countering the synthetic voice hacking of the third party. can do.
  • the terminal when the second message is output while the synthesized voice is being output, the terminal outputs the synthesized voice and the second synthesized voice together. Accordingly, according to the present invention, since it is possible to respond to messages input at a high speed, and synthesized voice is output according to the speed at which the actual message is received, it is possible to give the user the effect of participating in a real conversation.
  • the transmission side device may set the access authority for the synthesized voice, and the terminal for which the access authority is not set cannot receive the synthesized voice. Accordingly, according to the present invention, the user of the transmission-side device has an advantage of selecting a user to provide characteristics of his/her voice.
  • FIG. 1 is a block diagram illustrating a terminal related to the present invention.
  • FIG. 2 is a flowchart illustrating a method of operating a terminal according to an embodiment of the present invention.
  • 3 to 4 are diagrams for explaining a method of outputting a synthesized voice in which a user's voice characteristics are applied to a message according to an embodiment of the present invention.
  • FIG. 5 is a view for explaining a method of receiving a synthesized voice together with a message from a transmitting device.
  • 6 to 7 are diagrams for explaining a method for a terminal to receive a synthesized voice after extracting and transmitting text from a message.
  • 8 to 9 are diagrams for describing an operation method when a message is received from a plurality of transmission-side devices.
  • FIG. 10 is a diagram for explaining a method of delivering different messages to a plurality of different users from a transmission-side device perspective according to an embodiment of the present invention.
  • FIG. 11 is a diagram for describing an operation in which a synthesized voice is not provided to a terminal according to an embodiment of the present invention.
  • the terminals described herein include mobile phones, smart phones, laptop computers, digital broadcasting terminals, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, and slate PCs. It may include a tablet PC (tablet PC), ultrabook (ultrabook), wearable device (wearable device, for example, a watch-type terminal (smartwatch), glass-type terminal (smart glass), HMD (head mounted display), etc. .
  • PDAs personal digital assistants
  • PMPs portable multimedia players
  • slate PCs slate PC
  • It may include a tablet PC (tablet PC), ultrabook (ultrabook), wearable device (wearable device, for example, a watch-type terminal (smartwatch), glass-type terminal (smart glass), HMD (head mounted display), etc.
  • FIG. 1 is a block diagram illustrating a terminal related to the present invention.
  • the terminal 100 may also be applied to a fixed terminal such as a smart TV, a desktop computer, and a digital signage.
  • the terminal 100 may be applied to a fixed or movable robot.
  • the terminal 100 may perform the function of a voice agent.
  • the voice agent may be a program that recognizes a user's voice and outputs a response suitable for the recognized user's voice as a voice.
  • the terminal 100 includes a wireless communication unit 110, an input unit 120, a running processor 130, a sensing unit 140, an output unit 150, an interface unit 160, a memory 170, a processor 180, and It may include a power supply 190.
  • the wireless communication unit 110 may include at least one of a broadcast reception module 111, a mobile communication module 112, a wireless Internet module 113, a short-range communication module 114, and a location information module 115.
  • the broadcast receiving module 111 receives a broadcast signal and/or broadcast related information from an external broadcast management server through a broadcast channel.
  • the mobile communication module 112 includes technical standards or communication methods for mobile communication (eg, Global System for Mobile Communication (GSM), Code Division Multi Access (CDMA), Code Division Multi Access 2000 (CDMA2000), EV -Enhanced Voice-Data Optimized or Enhanced Voice-Data Only (DO), Wideband CDMA (WCDMA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), LTE-A (Long Term Evolution-Advanced) transmits and receives wireless signals to and from at least one of a base station, an external terminal, and a server on a mobile communication network constructed according to (Long Term Evolution-Advanced).
  • GSM Global System for Mobile Communication
  • CDMA Code Division Multi Access
  • CDMA2000 Code Division Multi Access 2000
  • WCDMA Wideband CDMA
  • HSDPA High Speed Downlink Packet Access
  • HSUPA High Speed Uplink Packet Access
  • the wireless Internet module 113 refers to a module for wireless Internet access, and may be built in or external to the terminal 100.
  • the wireless Internet module 113 is configured to transmit and receive wireless signals in a communication network according to wireless Internet technologies.
  • Wireless Internet technologies include, for example, WLAN (Wireless LAN), Wi-Fi (Wireless-Fidelity), Wi-Fi (Wireless Fidelity) Direct, DLNA (Digital Living Network Alliance), WiBro (Wireless Broadband), WiMAX (World) Interoperability for Microwave Access (HSDPA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), and Long Term Evolution-Advanced (LTE-A).
  • WLAN Wireless LAN
  • Wi-Fi Wireless-Fidelity
  • Wi-Fi Wireless Fidelity
  • Direct Wireless Internet technologies
  • DLNA Digital Living Network Alliance
  • WiBro Wireless Broadband
  • WiMAX Worldwide Interoperability for Microwave Access
  • HSDPA High Speed Downlink Packet Access
  • HSUPA High Speed Uplink Packet Access
  • LTE Long Term Evolution
  • LTE-A Long Term Evolution-Advanced
  • the short-range communication module 114 is for short-range communication, BluetoothTM, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, NFC (Near Field Communication), by using at least one of Wi-Fi (Wireless-Fidelity), Wi-Fi Direct, Wireless USB (Wireless Universal Serial Bus) technology, it can support short-range communication.
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • NFC Near Field Communication
  • the location information module 115 is a module for acquiring a location (or current location) of a mobile terminal, and typical examples thereof include a Global Positioning System (GPS) module or a Wireless Fidelity (WiFi) module.
  • GPS Global Positioning System
  • WiFi Wireless Fidelity
  • the terminal utilizes a GPS module, the location of the mobile terminal can be obtained by using a signal from a GPS satellite.
  • the input unit 120 may include a camera 121 for inputting a video signal, a microphone 122 for receiving an audio signal, and a user input unit 123 for receiving information from a user.
  • the voice data or image data collected by the input unit 120 may be analyzed and processed by a user's control command.
  • the input unit 120 is for input of image information (or signals), audio information (or signals), data, or information input from a user.
  • the terminal 100 includes one or more cameras It may be provided with (121).
  • the camera 121 processes image frames such as still images or moving pictures obtained by an image sensor in a video call mode or a shooting mode.
  • the processed image frame may be displayed on the display unit 151 or stored in the memory 170.
  • the microphone 122 processes external sound signals as electrical voice data.
  • the processed voice data may be used in various ways according to a function (or a running application program) being performed by the terminal 100. Meanwhile, various noise reduction algorithms for removing noise generated in the process of receiving an external sound signal may be implemented in the microphone 122.
  • the user input unit 123 is for receiving information from a user. When information is input through the user input unit 123,
  • the processor 180 may control the operation of the terminal 100 to correspond to the inputted information.
  • the user input unit 123 is a mechanical input means (or a mechanical key, for example, a button located on the front or rear or side of the terminal 100, a dome switch, a jog wheel, a jog switch, etc.) ) And a touch-type input means.
  • the touch-type input means is made of a virtual key, a soft key or a visual key displayed on the touch screen through software processing, or a part other than the touch screen It may be made of a touch key (touch key) disposed on.
  • the learning processor 130 may be configured to receive, classify, store, and output information to be used for data mining, data analysis, intelligent decision making, and machine learning algorithms and techniques.
  • the learning processor 130 may be received, detected, detected, generated, predefined, or otherwise output by the terminal, or communicated with other components, devices, terminals, or terminals in a received, detected, detected, generated, predefined, or otherwise manner It may include one or more memory units configured to store data output by the device.
  • the learning processor 130 may include a memory integrated or implemented in a terminal. In some embodiments, the learning processor 130 may be implemented using the memory 170.
  • the learning processor 130 may be implemented using memory associated with the terminal, such as external memory coupled directly to the terminal or memory maintained in a server communicating with the terminal.
  • the learning processor 130 may be implemented using memory maintained in a cloud computing environment, or other remote memory location accessible by a terminal through a communication method such as a network.
  • the learning processor 130 typically includes one or more databases for identifying, indexing, categorizing, manipulating, storing, retrieving, and outputting data for use in supervised or unsupervised learning, data mining, predictive analytics, or other machines. It can be configured to store on.
  • the information stored in the learning processor 130 can be utilized by one or more other controllers of the processor 180 or terminal using any of a variety of different types of data analysis algorithms and machine learning algorithms.
  • fuzzy logic eg probability theory
  • neural networks e.g. probability theory
  • Boltzmann machines e.g. probability theory
  • vector quantization e.g., pulse neural networks
  • support vector machines maximum margin classifier
  • hill climbing inductive logic system Bayesian network
  • Peritnet e.g. finite state machine, milli machine, moore finite state machine
  • classifier tree e.g.
  • the processor 180 may determine or predict at least one executable action of the terminal based on the generated information, or determined using data analysis and machine learning algorithms. To this end, the processor 180 may request, search, receive, or utilize data of the learning processor 130, and may use the terminal to perform a predicted operation or an operation determined to be preferable among the at least one executable operation. Can be controlled.
  • the processor 180 may perform various functions for implementing intelligent emulation (ie, a knowledge-based system, a reasoning system, and a knowledge acquisition system). It can be applied to various types of systems (eg, fuzzy logic systems), including adaptive systems, machine learning systems, artificial neural networks, and the like.
  • intelligent emulation ie, a knowledge-based system, a reasoning system, and a knowledge acquisition system. It can be applied to various types of systems (eg, fuzzy logic systems), including adaptive systems, machine learning systems, artificial neural networks, and the like.
  • the processor 180 also involves speech and natural language speech processing, such as an I/O processing module, an environmental condition module, a speech-to-text (STT) processing module, a natural language processing module, a work flow processing module, and a service processing module. It may include sub-modules that enable calculation.
  • speech and natural language speech processing such as an I/O processing module, an environmental condition module, a speech-to-text (STT) processing module, a natural language processing module, a work flow processing module, and a service processing module. It may include sub-modules that enable calculation.
  • Each of these sub-modules can have access to one or more systems or data and models at the terminal, or a subset or superset thereof.
  • each of these sub-modules can provide various functions, including vocabulary index, user data, work flow model, service model, and automatic speech recognition (ASR) system.
  • ASR automatic speech recognition
  • processor 180 or terminal may be implemented with the submodules, systems, or data and models.
  • the processor 180 may be configured to detect and detect requirements based on the user's intention or contextual conditions expressed in user input or natural language input.
  • the processor 180 may actively derive and acquire information necessary to completely determine a requirement based on a context condition or a user's intention. For example, the processor 180 may actively derive information necessary to determine a requirement by analyzing historical data including historical input and output, pattern matching, unambiguous words, and input intention.
  • the processor 180 may determine a task flow for executing a function that responds to a requirement based on a context condition or a user's intention.
  • the processor 180 collects, detects, extracts, and detects signals or data used in data analysis and machine learning operations through one or more sensing components in the terminal, in order to collect information for processing and storage in the learning processor 130 And/or receive.
  • Collecting information may include sensing information through a sensor, extracting information stored in the memory 170, or receiving information from another terminal, entity, or external storage device through communication means.
  • the processor 180 may collect and store usage history information in the terminal.
  • the processor 180 may use the stored usage history information and predictive modeling to determine the best match for executing a specific function.
  • the processor 180 may receive or sense surrounding environment information or other information through the sensing unit 140.
  • the processor 180 may receive a broadcast signal and/or broadcast-related information, a radio signal, and radio data through the radio communication unit 110.
  • the processor 180 may receive image information (or a corresponding signal), audio information (or a corresponding signal), data, or user input information from the input unit 120.
  • the processor 180 collects information in real time, processes or classifies information (for example, a knowledge graph, command policy, personalization database, conversation engine, etc.), and processes the processed information in the memory 170 or the learning processor 130 ).
  • information for example, a knowledge graph, command policy, personalization database, conversation engine, etc.
  • the processor 180 can control the components of the terminal to perform the determined operation. In addition, the processor 180 may perform the determined operation by controlling the terminal according to the control command.
  • the processor 180 analyzes historical information indicating execution of a specific operation through data analysis and machine learning algorithms and techniques, and performs updating of previously learned information based on the analyzed information. Can.
  • the processor 180 may improve the accuracy of future performance of data analysis and machine learning algorithms and techniques based on the updated information along with the learning processor 130.
  • the sensing unit 140 may include one or more sensors for sensing at least one of information in the mobile terminal, surrounding environment information surrounding the mobile terminal, and user information.
  • the sensing unit 140 includes a proximity sensor 141, an illumination sensor 142, a touch sensor, an acceleration sensor, a magnetic sensor, and gravity G-sensor, gyroscope sensor, motion sensor, RGB sensor, infrared sensor (IR sensor), fingerprint scan sensor, ultrasonic sensor , Optical sensor (e.g., camera (see 121)), microphone (see 122, battery), battery gauge, environmental sensor (e.g. barometer, hygrometer, thermometer, radioactivity sensor, Thermal sensor, gas sensor, etc.), chemical sensors (for example, electronic nose, health care sensor, biometric sensor, etc.).
  • the mobile terminal disclosed in the present specification may combine and use information sensed by at least two or more of these sensors.
  • the output unit 150 is for generating output related to vision, hearing, or tactile sense, and includes at least one of a display unit 151, an audio output unit 152, a hap tip module 153, and an optical output unit 154 can do.
  • the display unit 151 displays (outputs) information processed by the terminal 100.
  • the display unit 151 may display execution screen information of an application program driven by the terminal 100, or UI (User Interface) or GUI (Graphic User Interface) information according to the execution screen information.
  • UI User Interface
  • GUI Graphic User Interface
  • the display unit 151 may form a mutual layer structure with the touch sensor or may be integrally formed, thereby realizing a touch screen.
  • the touch screen may function as a user input unit 123 that provides an input interface between the terminal 100 and the user, and at the same time, provide an output interface between the terminal 100 and the user.
  • the audio output unit 152 may output audio data received from the wireless communication unit 110 or stored in the memory 170 in a call signal reception, call mode or recording mode, voice recognition mode, broadcast reception mode, or the like.
  • the audio output unit 152 may include at least one of a receiver, a speaker, and a buzzer.
  • the haptic module 153 generates various tactile effects that the user can feel.
  • a typical example of the tactile effect generated by the haptic module 153 may be vibration.
  • the light output unit 154 outputs a signal for notifying the occurrence of an event using the light of the light source of the terminal 100.
  • Examples of events generated in the terminal 100 may include receiving messages, receiving call signals, missed calls, alarms, schedule notifications, receiving emails, and receiving information through applications.
  • the interface unit 160 serves as a passage with various types of external devices connected to the terminal 100.
  • the interface unit 160 connects a device equipped with a wired/wireless headset port, an external charger port, a wired/wireless data port, a memory card port, and an identification module. It may include at least one of a port, an audio input/output (I/O) port, a video input/output (I/O) port, and an earphone port.
  • I/O audio input/output
  • I/O video input/output
  • earphone port an earphone port
  • the identification module is a chip that stores various information for authenticating the usage rights of the terminal 100, a user identification module (UIM), a subscriber identity module (SIM), and a universal user authentication module (universal subscriber identity module; USIM).
  • the device provided with the identification module (hereinafter referred to as an'identification device') may be manufactured in a smart card format. Therefore, the identification device may be connected to the terminal 100 through the interface unit 160.
  • the memory 170 stores data supporting various functions of the terminal 100.
  • the memory 170 is a plurality of application programs (application programs or applications) running in the terminal 100, data for the operation of the terminal 100, instructions, data for the operation of the running processor 130 Fields (eg, at least one algorithm information for machine learning, etc.).
  • the processor 180 controls the overall operation of the terminal 100 in addition to the operations related to the application program.
  • the processor 180 may provide or process appropriate information or functions to the user by processing signals, data, and information input or output through the above-described components or by driving an application program stored in the memory 170.
  • the processor 180 may control at least some of the components described with reference to FIG. 1A in order to drive an application program stored in the memory 170. Furthermore, the processor 180 may operate by combining at least two or more of the components included in the terminal 100 for driving the application program.
  • the power supply unit 190 receives external power and internal power to supply power to each component included in the terminal 100.
  • the power supply unit 190 includes a battery, and the battery may be a built-in battery or a replaceable battery.
  • the processor 180 controls the operation related to the application program and generally the overall operation of the terminal 100. For example, when the state of the mobile terminal satisfies a set condition, the processor 180 may execute or release a lock state that restricts input of a user's control command to applications.
  • the input unit 120 of the terminal 100 may include the sensing unit 140, and may perform all functions performed by the sensing unit 140.
  • the input unit 120 may detect a user touch input.
  • wireless communication unit 110 may be used interchangeably with the term communication unit 110.
  • FIG. 2 is a flowchart illustrating a method of operating a terminal according to an embodiment of the present invention.
  • the method of operation of a terminal includes receiving a message from a transmitting device (S210), receiving a synthesized voice with a voice characteristic of a user of the transmitting device applied to the message (S230), and synthesized voice It may include the step of outputting (S250).
  • the synthesized voice in the present specification may be a voice whose voice characteristics are applied to a message.
  • the message can be converted into speech.
  • a text-to-speech (TTS) technique can be used to convert the message to speech.
  • the voice characteristics of a specific person can be applied to the message.
  • the device may extract a characteristic of a specific person's voice from a specific person's voice, and convert the message to voice by applying the extracted characteristic.
  • the terminal can utter the message in the voice of a specific person.
  • the converted voice when a message is converted into voice by applying a voice characteristic of a specific person, the converted voice may be referred to as a synthesized voice.
  • the synthesized voice in which the voice characteristic of the user of the transmitting side device is applied to the message may mean that the message is converted into voice by applying the voice characteristic of the user of the transmitting side device.
  • 3 to 4 are diagrams for explaining a method of outputting a synthesized voice in which a user's voice characteristics are applied to a message according to an embodiment of the present invention.
  • the transmission-side device may be a terminal, and in this case, description of the configuration and function of the terminal 100 described in FIG. 1 may be applied to all of the transmission-side devices.
  • the processor 180 of the terminal 100 may receive a message from the transmitting device.
  • the processor of the transmitting side device may receive an input of a message from a user of the transmitting side device. In this case, the processor of the transmitting side device may transmit a message to the terminal 100.
  • the processor 180 of the terminal 100 may receive a message through the communication unit 110.
  • the meaning that the processor 180 of the terminal 100 receives the message from the transmitting device is not only receiving the message directly from the transmitting device, but also receiving the message sent by the transmitting device to the server from the server. Can include up to.
  • the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of the user of the transmitting side device is applied to the message.
  • the processor 180 of the terminal 100 may receive, from a transmitting device or a server, a synthesized voice in which a voice characteristic of a user of the transmitting device is applied to a message.
  • the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting device is applied to the message.
  • the terminal of Hong Gil-dong may receive a message “hungry” from Hong Gil-dong and transmit a message “hungry” to the terminal 100.
  • the processor 180 of the terminal 100 may receive a message “hungry” from the terminal of Hong Gil-dong.
  • the processor 180 of the terminal 100 may receive the synthesized voice applied to the message that the voice characteristic of Hong Gil-dong is “hungry” from the terminal or server of Hong Gil-dong.
  • the processor 180 of the terminal 100 may output a voice of “hungry” as the voice of Hong Gil-dong.
  • the terminal of Sung Chun-hyang can receive the message “I am hungry” from Sung Chun-Hyang, and transmit the message “I am hungry” to the terminal 100.
  • the processor 180 of the terminal 100 may receive the message “I am hungry” from the terminal of Sungchunhyang.
  • the processor 180 of the terminal 100 may receive the synthesized voice applied to the message “I am hungry” for the voice characteristic of Sung Chun-Hyang from the terminal or server of the Sung Chun-Hyang.
  • the processor 180 of the terminal 100 may output the voice “I'm not hungry” as the voice of Sungchunhyang.
  • the processor 180 of the terminal 100 may store the received synthesized voice in a memory.
  • the processor 180 may output the stored synthesized voice 320.
  • the processor 180 may output the synthesized voice 320 stored in the memory through the sound output unit.
  • the processor 180 may receive a voice input of “Please read the received message”. In this case, the processor 180 may output the synthesized voice stored in the memory.
  • the processor 180 may output a synthesized voice before displaying a message.
  • the terminal 100 displays a message after executing an application for display. For example, when the message is a message input into a chat room of the messenger application, the terminal 100 displays the message by executing the messenger application.
  • the processor 180 when an input for outputting a synthesized voice is received through the input unit without executing an application for displaying a message, the processor 180 can output the synthesized voice 320 stored in the memory through the sound output unit. have.
  • the processor 180 may output a synthesized voice stored in a memory in a state where the standby screen 310 is displayed, that is, in a standby mode.
  • the processor may display the execution screen 410 of the message application.
  • the processor may display the message 420 received from the transmission-side device on the execution screen 410 of the message application.
  • the terminal reads the message in the voice of a voice actor or an entertainer.
  • the terminal since the terminal reads the message with the voice of the person who sent the message, the user can generate an effect such as directly hearing the voice of the sender of the message.
  • the user has the advantage of being able to distinguish who the originator of the message is only with the synthetic voice.
  • the terminal when a message is read with a voice of a voice actor or a celebrity, the user cannot know who the message was from. Therefore, according to the prior art, when a message is read with a voice of a voice actor or a celebrity, the terminal outputs a voice “It is a message received from Hong Gil-dong” and then outputs a voice corresponding to the message.
  • the processor 180 can output a synthesized voice without outputting a guide about who the message was received from, the processor 180 can generate an effect such as a user directly listening to the voice of the sender of the message. .
  • the terminal 100 since the terminal 100 receives the synthesized voice in advance and stores it in the memory and outputs the stored synthesized voice when a user input is received, there is an advantage that the synthesized voice can be output without delay.
  • the processor 180 may receive a synthesized voice applied to text included in the message of the voice characteristic of the user of the transmitting device.
  • the message may include'character or number' and'emoticon or symbol'.
  • the message 420 may include a text 421 and a sign 422.
  • the text corresponding to the message may include letters or numbers.
  • text included in the message 420 may include a character 421.
  • the processor 180 may receive the message 420 from the transmitting side device, and receive a synthesized voice applied to text included in the message 420 with the voice characteristic of the user of the transmitting side device.
  • the processor 180 may receive a message “I just came home ⁇ ⁇ ;;” from the transmitting device. Also, the processor 180 may receive the synthesized voice applied to the text “I just came home” for the voice characteristics of the user of the transmitting device.
  • 5 to 7 illustrate a method for generating and receiving synthetic speech according to various embodiments of the present invention.
  • the text is converted to speech by applying the voice characteristics of the user of the transmitting device.
  • the speech synthesis engine may generate a speech synthesized by converting text into speech by applying the speech characteristics of the user of the transmitting device.
  • the speech synthesis engine may retain speech characteristics extracted from the speech of the user of the transmitting-side device, and convert text to speech using speech characteristics of the user of the transmitting-side device.
  • the speech synthesis engine may be a learning model generated by training a neural network based on a Hidden Markov Model (HMM) or deep learning.
  • HMM Hidden Markov Model
  • the neural network may be trained by training data including voice and text of the user of the transmitting device based on a hidden Markov Model (HMM) or deep learning.
  • HMM hidden Markov Model
  • the parameters of the neural network are updated, and the neural network in which the parameters are set by repeating the above process may be referred to as a learning model.
  • the learning model may output a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the new text.
  • FIG. 5 is a view for explaining a method of receiving a synthesized voice together with a message from a transmitting device.
  • the processor of the terminal 100 may receive the synthesized voice applied to the text included in the message, the voice characteristics of the user of the transmitting side device 1100 together with the message, from the transmitting side device 1100.
  • the meaning of receiving the synthesized voice together with the message means that the terminal 100 receiving the message does not send a request to the transmitting device 1100 (for example, does not transmit text or a key), and the transmitting device 1100 may mean that the synthesized voice is transmitted and the terminal 100 receives the synthesized voice.
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through the input unit (S505).
  • the processor of the transmission-side device 1100 may extract text from the received message (S510) and input the extracted text into the speech synthesis engine.
  • the voice synthesis engine may generate a synthesized voice in which the voice characteristics of the user of the transmitting side device are applied to the text (S515).
  • the processor of the transmitting side device 1100 may transmit a message to the terminal 100.
  • the processor of the transmitting-side device 1100 may transmit a synthesized voice in which the voice characteristics of the user of the transmitting-side device 1100 are applied to the text together with the message (S520).
  • the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
  • the processor 180 of the terminal 100 may output the received synthesized voice (S520).
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through the input unit (S555).
  • the processor of the transmitting-side device 1100 may extract text from the received message and transmit the extracted text to the server 2100 (S560).
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • the server 2100 may transmit the synthesized voice in which the voice characteristics of the user of the transmitting side device is applied to the text to the transmitting side device 1100 (S565).
  • the processor of the transmitting side device 1100 may transmit a message to the terminal 100.
  • the processor of the transmission-side device 1100 may transmit a synthesized voice in which a voice characteristic of the user of the transmission-side device 1100 is applied to text together with a message (S570).
  • the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
  • the processor 180 of the terminal 100 may output the received synthesized voice (S575).
  • 6 to 7 are diagrams for explaining a method for a terminal to receive a synthesized voice after extracting and transmitting text from a message.
  • the processor 180 of the terminal 100 may transmit text to a transmitting device or a server, and receive a synthesized voice in which a user's voice characteristics of the transmitting device are applied to the text from the transmitting device or server. have.
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
  • the processor of the transmitting side device 1100 may transmit a message to the terminal 100 (S605).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may transmit the extracted text to the transmission side device 1100 (S610).
  • the processor of the transmission-side device 1100 may receive text and input the received text into a speech synthesis engine.
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
  • the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
  • the processor 180 of the terminal 100 may output the received synthesized voice (S620).
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
  • the processor of the transmitting side device 1100 may transmit a message to the terminal 100 (S655).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may transmit the extracted text to the transmission side device 1100 (S660).
  • the processor of the transmitting side device 1100 may receive text and transmit the received text to the server 2100 (S665).
  • the server 2100 may receive text and input the received text into a speech synthesis engine.
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • the server 2100 may transmit the synthesized voice to the transmitting device 1100 (S670).
  • the processor of the transmitting side device 1100 may receive the synthesized voice and transmit the synthesized voice to the terminal 100 (S675).
  • the processor 180 of the terminal 100 may output the received synthesized voice (S680).
  • the terminal 100 may fail to receive the synthesized voice. Examples are when the power of the transmitting device 1100 is off or when communication with the transmitting device 1100 is poor.
  • the terminal 100 may output a synthesized voice in which a predetermined voice characteristic (celebrity, voice actor, machine sound, etc.) is applied to the message.
  • a predetermined voice characteristic such as voice, voice actor, machine sound, etc.
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
  • the processor of the transmission-side device 1100 may transmit a message to the terminal 100 (S710).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may transmit the extracted text to the server 2100 (S715).
  • the server 2100 may receive text and input it into a speech synthesis engine.
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • server 2100 may transmit the synthesized voice to the terminal 100 (S720).
  • the processor 180 of the terminal 100 may receive the synthesized voice and output the synthesized voice (S725).
  • the synthesized voice to which the voice characteristics of the user of the transmitting device 1100 is applied is output. There is an advantage to do.
  • FIGS. 6A to 7 may be implemented using a key (S_key) corresponding to a transmission-side device and a key (R_key) corresponding to a terminal.
  • the key S_key corresponding to the transmission-side device may mean identification information unique to the transmission-side device 1100.
  • a key (R_key) corresponding to the receiving device may mean identification information unique to the terminal 100.
  • the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
  • the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S605).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
  • the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the transmission-side device 1100. There is (S610). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the processor of the transmission-side device 1100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
  • the processor of the transmission-side device 1100 may input the received text into the speech synthesis engine.
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
  • the processor of the transmission device 1100 when a key (S_key) corresponding to the transmission device 1100 and a key (R_key) corresponding to the terminal 100 are received, the processor of the transmission device 1100, the key received from the terminal 100 It may be determined whether is the same as the key (S_key) corresponding to the transmitting device (1100). Also, the processor of the transmitting side device 1100 may determine whether the terminal 100 has the authority to receive the synthesized voice based on the key R_key corresponding to the received terminal 100.
  • the memory of the transmitting side device 1100 may store information about whether a right to receive the synthesized voice exists for each of a plurality of terminals. For example, when the terminal 100 has the authority to receive the synthesized voice, a key R_key corresponding to the terminal 100 may be stored in the memory of the transmitting device 1100.
  • the processor of the transmitting side device 1100 may determine whether the terminal 100 is authorized to receive the synthesized voice based on the key R_key corresponding to the received terminal 100 and information stored in the memory.
  • the processor of the transmitting device 1100 Can input the received text into the speech synthesis engine.
  • the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
  • the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
  • the transmission-side device 1100 may store a key R_key corresponding to the received terminal 100 in a memory.
  • the processor of the transmitting device 1100 may receive an input of a message from a user of the transmitting device through an input unit.
  • the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S655).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
  • the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the transmission-side device 1100. Yes (S660).
  • the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the processor of the transmission-side device 1100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
  • the processor of the transmission-side device 1100 may transmit the received text to the server (S665).
  • the server 2100 transmits the synthesized voice to the transmitting device 1100 (S670), and the processor of the transmitting device 1100 can transmit the synthesized voice to the terminal 100 (S675).
  • the processor of the transmission device 1100 when a key (S_key) corresponding to the transmission device 1100 and a key (R_key) corresponding to the terminal 100 are received, the processor of the transmission device 1100, the key received from the terminal 100 It may be determined whether is the same as the key (S_key) corresponding to the transmitting device (1100). Also, the processor of the transmitting side device 1100 may determine whether the terminal 100 has the authority to receive the synthesized voice based on the key R_key corresponding to the received terminal 100.
  • the processor of the transmitting device 1100 Can transmit the received text to the server (S665).
  • the server 2100 transmits the synthesized voice to the transmitting device 1100 (S670), and the processor of the transmitting device 1100 can transmit the synthesized voice to the terminal 100 (S675).
  • the transmission-side device 1100 may store a key R_key corresponding to the received terminal 100 in a memory.
  • the transmission-side device 1100 may share a key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance (S705).
  • the transmission-side device 1100 may transmit a key S_key corresponding to the transmission-side device 1100 to the server 2100 in advance.
  • the server 2100 may store a key S_key corresponding to the transmission-side device 1100 in a memory in the server.
  • the processor of the transmitting device 1100 may receive an input of a message from a user of the transmitting device through the input unit.
  • the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S710).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
  • the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the server 2100 ( S715).
  • the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the server 2100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
  • the server 2100 may input the received text into the speech synthesis engine.
  • the server 2100 transmits the synthesized voice to the terminal 100 (S720), and the processor of the terminal 100 may adopt the synthesized voice (S725).
  • the server 2100 receives a key (R_key) corresponding to the received terminal 100 Can be stored in memory on the server.
  • the server 2100 may transmit a key R_key corresponding to the received terminal 100 to the transmitting device 1100.
  • Synthetic speech should not be given to anyone, because it concerns personal privacy.
  • the transmitting device 1100 may determine whether the user who received the message requests the synthesized voice using the key (S_key) corresponding to the transmitting device 1100, and accordingly, the third It can fight against synthetic speech hacking.
  • R_key a key corresponding to the terminal 100 has the advantage that can be provided only to other people who are authorized to receive the synthesized voice.
  • 8 to 9 are diagrams for describing an operation method when a message is received from a plurality of transmission-side devices.
  • the processor 180 of the terminal 100 receives the message 920 from the transmission-side device 1100, receives the synthesized voice applied to the text in which the voice characteristics of the user of the transmission-side device 1100 are included in the message, Synthetic voice can be output.
  • the processor 180 of the terminal 100 receives the second message 930 from the second transmission-side device 1200, and the voice characteristics of the user of the second transmission-side device 1200 are included in the second message.
  • the second synthesized voice applied to the text may be received and the synthesized voice may be output.
  • the processor 180 of the terminal 100 receives the third message 940 from the third transmission-side device 1300, and the voice characteristic of the user of the third transmission-side device 1300 is included in the third message
  • the third synthesized voice applied to the text may be received, and the third synthesized voice may be output.
  • the transmission-side device 1100 may share the first key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance.
  • the server 2100 may be equipped with a first speech synthesis engine that generates synthesized speech by applying the speech characteristics of the transmission-side device 1100 to text.
  • the processor of the transmission-side device 1100 may transmit a message and a first key S_key corresponding to the transmission-side device 1100 to the terminal 100 (S805).
  • the processor 180 of the terminal 100 may receive a message and extract text from the received message.
  • the processor 180 of the terminal 100 may receive a first key S_key corresponding to the transmission-side device 100 together with a message.
  • the processor 180 of the terminal 100 may transmit the extracted text, a first key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the server 2100. Yes (S810).
  • the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the server 2100 may determine whether the key received from the terminal 100 is the same as the first key S_key corresponding to the transmission-side device 1100.
  • the server 2100 may input the received text into the speech synthesis engine.
  • the server 2100 may transmit the synthesized voice to the terminal 100 (S815).
  • the second transmission-side device 1200 may share the second key S_key corresponding to the second transmission-side device 1200 with the second server 2200 in advance.
  • the second server 2200 may be equipped with a second speech synthesis engine that generates synthesized speech by applying speech characteristics of the second transmission-side device 1200 to text.
  • the processor of the second transmission-side device 1200 may transmit the second message and the second key S_key corresponding to the second transmission-side device 1200 to the terminal 100 (S820).
  • the processor 180 of the terminal 100 may receive the second message and extract the second text from the received second message. Also, the processor 180 of the terminal 100 may receive a second key S_key corresponding to the second transmission-side device 100 together with the second message.
  • the processor 180 of the terminal 100 extracts the extracted second text, the second key (S_key) corresponding to the second transmission-side device 1200, and the key (R_key) corresponding to the terminal 100 as the second server. It can be transmitted to (2200) (S825). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the second server 2200 may determine whether the key received from the terminal 100 is the same as the second key S_key corresponding to the second transmission-side device 1200.
  • the second server 2200 transmits the received second text to the second speech synthesis engine. You can type.
  • the second server 2200 may transmit the second synthesis speech to the terminal 100 (S830).
  • the third transmission-side device 1300 may share a third key S_key corresponding to the third transmission-side device 1300 with the third server 2300 in advance.
  • the third server 2300 may be equipped with a third speech synthesis engine that generates synthesized speech by applying speech characteristics of the third transmission-side device 1300 to text.
  • the processor of the third transmission side device 1300 may transmit the third message (S_key) corresponding to the third message and the third transmission side device 1300 to the terminal 100 (S835).
  • the processor 180 of the terminal 100 may receive the third message and extract the third text from the received third message. Also, the processor 180 of the terminal 100 may receive a third key S_key corresponding to the third transmission-side device 100 together with the third message.
  • the processor 180 of the terminal 100 extracts the extracted third text, the third key (S_key) corresponding to the third transmission-side device 1300, and the key (R_key) corresponding to the terminal 100 to the third server. It can be transmitted to (2300) (S840). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
  • the third server 2200 may determine whether the key received from the terminal 100 is the same as the third key S_key corresponding to the third transmission-side device 1300.
  • the third server 2300 sends the received third text to the third speech synthesis engine. You can type.
  • the third server 2300 may transmit the third speech synthesis to the terminal 100 (S845).
  • the user of the transmission side device 1100, the user of the second transmission side device 1200 and the user of the third transmission side device 1300 are users who participated in one chat room 910 of the messenger application Can be
  • the message 920, the second message 930, and the third message 940 may be messages input to one chat room 910.
  • the processor 180 of the terminal 100 includes a message 920 received from the transmitting device 1100, a second message 930 received from the second transmitting device 1200, and a third transmitting device 1300. ) May display the third message 940 received from one chat room 910.
  • the processor 180 may output a plurality of synthesized voices corresponding to a plurality of messages inputted into one chat room by a plurality of transmission-side devices.
  • the processor 180 of the terminal 100 when an input for outputting the synthesized voice is received, the processor 180 of the terminal 100 outputs the synthesized voice corresponding to the message 920 received from the transmitting device 1100, and the second without the additional input.
  • the synthesized voice corresponding to the message 930 received from the transmitting device 1200 may be output.
  • the processor 180 of the terminal 100 may output synthesized voices in the order in which the messages are received.
  • the processor of the terminal 100 May output the synthesized voice in which the voice characteristic of the user of the transmitting side device 1100 is applied to the text included in the message 920 received from the device 1100.
  • the processor of the terminal 100 receives the message received from the second device 1200 ( The output of the second synthesized voice in which the voice characteristics of the user of the second transmission side device 1200 is applied to the text included in 930 may be started.
  • the processor of the terminal 100 may start outputting the second synthesized voice when the output of the synthesized voice is finished.
  • the processor of the terminal 100 may output a voice saying “I just came home”. And when the output of the voice “I just came home” is finished, the processor of the terminal 100 may output the voice “I am still going home”.
  • the processor of the terminal 100 may start outputting the second synthesized voice while the synthesized voice is being output.
  • the processor of the terminal 100 transmits the second transmission-side device to the text included in the second message 930 ( 1200) may receive a second synthesized voice to which the user's voice characteristics are applied.
  • the processor of the terminal 100 may start outputting the second synthesized voice while the synthesized voice is being output.
  • the processor of the terminal 100 may output the synthesized voice and the second second synthesized voice together.
  • the processor of the terminal 100 may output a voice saying “I just came home”. Then, in the state of outputting “I just”, the processor of the terminal 100 may output a voice of “I am at home” and a voice of “I am still at home”. In addition, the processor of the terminal 100 may output a voice of “going” while the output of the voice of “I just came home” is finished.
  • the user has the advantage of being able to distinguish who the originator of the message is using only synthetic speech. For example, if a message is read with a voice of a voice actor or a celebrity, the user cannot know who the message was from.
  • the user even when a message is received from a plurality of senders, the user has an advantage of quickly grasping who the sender of the message is only by voice output.
  • the terminal when the second message is output while the synthesized voice is being output, the terminal outputs the synthesized voice and the second synthesized voice together. Accordingly, according to the present invention, since it is possible to respond to messages input at a high speed, and synthesized voice is output according to the speed at which the actual message is received, it is possible to give the user the effect of participating in a real conversation.
  • FIG. 10 is a diagram for explaining a method of delivering different messages to a plurality of different users from a transmission-side device perspective according to an embodiment of the present invention.
  • the transmission-side device 1100 may share the first-first key S_key and the first-second key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance. .
  • the first-first key S_key is identification information unique to the transmission-side device 1100 and may be a key for authorizing access to the synthesized voice.
  • the 1-2 key may be a key that does not approve access to the synthesized voice as identification information unique to the transmitting device 1100.
  • the processor of the transmission-side device 1100 may set the access authority for the synthesized voice according to the time zone.
  • the processor of the transmission-side device 1100 transmits the 1-1 key (S_key) to the terminal from 8 am to 9 pm, and the 1-2 key (S_key) from 9 pm to 8 am To the terminal.
  • the processor of the transmission-side device 1100 may set access authority for a preset time.
  • the processor of the transmitting device 1100 grants access to the terminal for three hours
  • the first-1 key (S_key) may be transmitted to the terminal.
  • the processor or server of the transmitting-side device 1100 provides the synthesized voice to the terminal. can do.
  • the processor or server of the transmitting-side device 1100 sends the synthesized voice to the terminal. May not be provided.
  • the processor of the transmission-side device 1100 may set access rights to the synthesized voice for each of a plurality of terminals 100, 3200, 3300, and 3400 based on an input received from a user.
  • the processor of the transmitting side device 1100 may set the access authority in advance based on the user input, or may set the access authority at the time of sending the message based on the user input.
  • the processor of the transmission-side device 1100 may set the terminal 100 to not allow access to the synthesized voice, and to allow other terminals 3200, 3300, and 3400 to access the synthesized voice.
  • the processor of the transmission-side device 1100 may transmit the message and the 1-1 key S_key corresponding to the transmission-side device 1100 to the second terminal 3200.
  • the second terminal 3200 may transmit the text and the first-first key (S_key) to the server 2100 and receive the synthesized voice from the server 2100.
  • the processor of the transmission-side device 1100 may transmit the message and the 1-1 key S_key corresponding to the transmission-side device 1100 to the third terminal 3300.
  • the third terminal 3300 may transmit the text and the first-first key (S_key) to the server 2100 and receive the synthesized voice from the server 2100.
  • the processor of the transmission-side device 1100 may transmit a message and a 1-2 key (S_key) corresponding to the transmission-side device 1100 to the terminal 100.
  • the terminal 100 may transmit the text and the 1-2 key (S_key) to the server 2100.
  • the server 2100 does not provide the synthesized voice to the terminal 100.
  • FIG. 11 is a diagram for describing an operation in which a synthesized voice is not provided to a terminal according to an embodiment of the present invention.
  • the processor 180 of the terminal 100 may receive the 1-2 key (S_key) and the first message from the transmitting device 1100 (S1105).
  • the 1-2 key S_key is identification information unique to the transmission-side device 1100 and may be a key that does not approve access to the synthesized voice.
  • the processor 180 of the terminal 100 may extract the first text from the received first message.
  • the processor 180 of the terminal 100 may transmit the extracted first text and the received 1-2 key (S_key) to the server 2100 (S1110).
  • information on the first-first key S_key and the first-second key S_key may be stored in the memory of the server 2100.
  • the server 2100 may not provide the synthesized voice to the terminal 100 (S1115).
  • the terminal 100 may output a synthesized voice in which a predetermined voice characteristic (celebrity, voice actor, machine sound, etc.) is applied to the first message.
  • a predetermined voice characteristic such as voice, voice actor, machine sound, etc.
  • the following describes a case in which the terminal 100 receives the first-first key (S_key) (the key for authorizing access to the synthesized voice).
  • the processor 180 of the terminal 100 may receive the first-first key (S_key) and the first message from the transmission-side device 1100.
  • the first-first key S_key is identification information unique to the transmission-side device 1100 and may be a key for authorizing access to the synthesized voice.
  • the processor 180 of the terminal 100 if the key (key 1) to approve access to the synthesized voice (key 1-1) corresponding to the transmitting device 1100, the transmitting device 1100 The user's voice characteristics may receive the synthesized voice applied to the text.
  • the processor 180 of the terminal 100 may extract the first text from the received first message.
  • the processor 180 of the terminal 100 may transmit the extracted first text and the received first-1 key (S_key) to the server 2100.
  • the server 2100 may determine whether the key received from the terminal 100 is a key that authorizes access to the synthesized voice.
  • the server 2100 may transmit the synthesized voice to the terminal 100 when the key received from the terminal 100 is a 1-1 key (S_key) that authorizes access to the synthesized voice.
  • S_key 1-1 key
  • the processor of the terminal 100 may receive the synthesized voice with the voice characteristic of the transmitting device 1100 applied to the first message, and output the received synthesized voice.
  • Synthetic speech should not be given to anyone, because it concerns personal privacy.
  • the transmission side device 1100 may set the access authority for the synthesized voice, and the terminal for which the access authority is not set cannot receive the synthesized voice.
  • the user of the transmission-side device has an advantage of selecting a user to provide characteristics of his/her voice.
  • the processor 180 is a configuration in charge of controlling a device in general, and may be used interchangeably with terms such as a central processing unit, a microprocessor, and a control unit.
  • the terminal 100 may be an audio book.
  • the processor 180 may output a plurality of synthesized voices by applying voice characteristics of a plurality of people to each of the plurality of texts.
  • the above-described present invention can be embodied as computer readable codes on a medium on which a program is recorded.
  • the computer-readable medium includes all kinds of recording devices in which data readable by a computer system is stored. Examples of computer-readable media include a hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. This includes, and is also implemented in the form of a carrier wave (eg, transmission over the Internet).
  • the computer may include a control unit 180 of the terminal. Accordingly, the above detailed description should not be construed as limiting in all respects, but should be considered illustrative. The scope of the invention should be determined by rational interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A terminal is disclosed. A terminal according to an embodiment of the present invention comprises: a communication unit for communicating with an external device; a sound output unit for outputting a voice; and a processor for receiving a message from a transmitting-side device, receiving a synthetic voice to which voice characteristics of a user of the transmitting-side device are applied, and outputting the synthetic voice.

Description

단말기terminal
본 발명은, 메시지를 전송한 사용자의 음성 특성을 적용한 합성 음성을 출력하는 단말기에 관한 것이다.The present invention relates to a terminal for outputting a synthesized voice to which a voice characteristic of a user who transmitted a message is applied.
인공 지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다. Artificial intelligence is a field of computer science and information technology that studies how computers can do thinking, learning, and self-development that human intelligence can do. It means to be able to imitate.
또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.In addition, artificial intelligence does not exist by itself, but is directly or indirectly associated with other fields of computer science. In particular, in recent years, attempts have been made to actively utilize artificial intelligence elements in various fields of information technology to solve problems in those fields.
한편 최근에는 특정 사람의 목소리의 특성을 추출하고 추출된 특성을 적용하여 텍스트를 음성으로 변환함으로써, 텍스트를 특정 사람의 목소리로 읽어주는 기술이 등장하고 있다.On the other hand, recently, a technology for reading text into a specific human voice by extracting the characteristics of the voice of a specific person and applying the extracted properties to convert the text into voice has emerged.
다만 이러한 기술들은 자신의 목소리나 일부 유명인 또는 성우의 목소리로 텍스트를 읽어주는 것에 그칠 뿐이라는 한계가 있다.However, these techniques are limited to reading texts in the voice of one's own voice or some celebrities or voice actors.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 메시지를 전송한 사용자의 음성 특성을 적용한 합성 음성을 출력하는 단말기를 제공하기 위함이다.The present invention is to solve the above-described problems, and an object of the present invention is to provide a terminal that outputs a synthesized voice to which a voice characteristic of a user who has transmitted a message is applied.
본 발명의 실시 예에 따른 단말기는, 외부 장치와 통신하는 통신부, 음성을 출력하는 음향 출력부, 및, 전송 측 디바이스로부터 메시지를 수신하고, 상기 전송 측 디바이스의 사용자의 음성 특성이 상기 메시지에 적용된 합성 음성을 수신하고, 상기 합성 음성을 출력하는 프로세서를 포함한다.The terminal according to an embodiment of the present invention, a communication unit for communicating with an external device, a sound output unit for outputting a voice, and receiving a message from a transmitting device, the voice characteristics of the user of the transmitting device is applied to the message And a processor that receives the synthesized voice and outputs the synthesized voice.
종래 기술에 따르면, 단말기는 메시지를 성우나 연예인 등의 목소리로 읽어준다. 다만 본 발명에 따르면 단말기가 메시지를 발신한 사람의 음성으로 메시지를 읽어주기 때문에, 사용자가 메시지의 발신자의 음성을 직접 듣는 것 같은 효과를 발생시킬 수 있다.According to the prior art, the terminal reads the message in the voice of a voice actor or an entertainer. However, according to the present invention, since the terminal reads the message with the voice of the person who sent the message, the user can generate an effect such as directly hearing the voice of the sender of the message.
또한 본 발명에 따르면, 사용자는 합성 음성 만으로도 메시지의 발신자가 누구인지 구별할 수 있는 장점이 있다. In addition, according to the present invention, the user has the advantage of being able to distinguish who the originator of the message is only with the synthetic voice.
본 발명에서 프로세서는 누구로부터 메시지가 수신되었는지에 대한 안내를 출력하는 것 없이 합성 음성을 출력할 수 있기 때문에, 사용자가 메시지의 발신자의 음성을 직접 듣는 것 같은 효과를 발생시킬 수 있다.In the present invention, since the processor can output a synthesized voice without outputting a guide as to who the message was received from, the user can generate an effect such as a user directly hearing the voice of the sender of the message.
본 발명에 따르면, 단말기는 합성 음성을 미리 수신하여 메모리에 저장해놓고 사용자 입력이 수신되는 경우 저장된 합성 음성을 출력하기 때문에, 합성 음성을 딜레이 없이 출력할 수 있는 장점이 있다.According to the present invention, since the terminal receives the synthesized voice in advance and stores it in the memory and outputs the stored synthesized voice when a user input is received, there is an advantage in that the synthesized voice can be output without delay.
본 발명에 따르면, 메시지가 문자나 숫자뿐만 아니라 기호 및 이모티콘을 포함하는 경우에도, 음성으로 변환이 가능한 텍스트만을 추출하여 전송 측 디바이스의 사용자의 목소리로 출력할 수 있는 장점이 있다.According to the present invention, even when the message includes symbols and emoticons as well as letters and numbers, there is an advantage that only text that can be converted into speech can be extracted and output in the voice of the user of the transmitting device.
본 발명에 따르면, 전송 측 디바이스의 전원이 오프되어 있거나 전송 측 디바이스와의 통신이 불량한 경우에도, 전송 측 디바이스의 사용자의 음성 특성을 적용한 합성 음성을 출력할 수 있는 장점이 있다.According to the present invention, even when the power of the transmitting side device is off or the communication with the transmitting side device is poor, there is an advantage of being able to output the synthesized voice to which the voice characteristics of the user of the transmitting side device are applied.
합성 음성은 개인의 프라이버시에 관련된 것이기 때문에 누구에게나 제공되서는 안된다. 따라서 본 발명에 따르면, 전송 측 디바이스는 전송 측 디바이스(1100)에 대응하는 키를 이용하여 메시지를 수신한 사용자가 합성 음성을 요청한 것인지를 판단할 수 있으며, 이에 따라 제 3자의 합성 음성 해킹에 대항할 수 있다.Synthetic speech should not be given to anyone, because it concerns personal privacy. Therefore, according to the present invention, the transmission-side device can determine whether the user who received the message requests the synthesized voice using the key corresponding to the transmission-side device 1100, thereby countering the synthetic voice hacking of the third party. can do.
또한 본 발명에 따르면, 단말기에 대응하는 키(R_key)를 이용함으로써 합성 음성을 수신할 권한이 있는 타인에게만 합성 음성을 제공할 수 있는 장점이 있다.In addition, according to the present invention, by using a key corresponding to the terminal (R_key), there is an advantage that can be provided only to other people who are authorized to receive the synthesized voice.
또한 본 발명에 따르면, 단말기에 대응하는 키(R_key)를 저장함으로써, 추후에 사용자에게 합성 음성을 수신한 타인의 목록을 제공할 수 있는 장점이 있다.In addition, according to the present invention, by storing a key (R_key) corresponding to the terminal, there is an advantage that can provide a list of others who received the synthesized voice to the user later.
복수의 사용자가 대화에 참여하는 경우 대화방을 보지 않는 상태에서는 누가 보낸 메시지인지 알 수 없으며, 누가 보낸 메시지인지 안내하는 음성을 일일히 출력하는 경우에는 빠른 속도로 입력되는 메시지들에 대하여 대응할 수 없다. 다만 본 발명에 따르면, 복수의 발신자로부터 메시지가 수신되는 경우에도, 사용자는 음성 출력 만으로도 메시지의 발신자가 누구인지를 신속하게 파악할 수 있는 장점이 있다.When a plurality of users participate in a conversation, it is not possible to know who sent the message without looking at the chat room, and when the voice prompts to guide who sent the message are outputted, it is not possible to respond to messages input at a high speed. However, according to the present invention, even when a message is received from a plurality of senders, the user has an advantage of quickly grasping who the sender of the message is only by voice output.
또한 본 발명에 따르면, 특정 합성 음성의 출력이 완료된 후 다름 합성 음성을 출력함으로써, 메시지의 내용을 사용자에게 명확하게 전달할 수 있는 장점이 있다.In addition, according to the present invention, after the output of a specific synthesized voice is completed, by outputting another synthesized voice, there is an advantage that the content of the message can be clearly transmitted to the user.
또한 본 발명에 따르면, 단말기는 합성 음성이 출력되는 중 제2 메시지가 출력되면, 합성 음성과 제2 합성 음성을 함께 출력한다. 이에 따라 본 발명에 따르면, 빠른 속도로 입력되는 메시지들에 대응이 가능하고, 실제 메시지가 수신되는 속도에 따라 합성 음성이 출력되기 때문에 사용자에게 실제 대화에 참여한 듯한 효과를 줄 수 있다.Further, according to the present invention, when the second message is output while the synthesized voice is being output, the terminal outputs the synthesized voice and the second synthesized voice together. Accordingly, according to the present invention, since it is possible to respond to messages input at a high speed, and synthesized voice is output according to the speed at which the actual message is received, it is possible to give the user the effect of participating in a real conversation.
본 발명에 따르면, 전송 측 디바이스에서는 합성 음성에 대한 접근 권한을 설정할 수 있으며, 접근 권한이 설정되지 않은 단말기는 합성 음성을 수신할 수 없다. 이에 따라 본 발명에 따르면, 전송 측 디바이스의 사용자는 자신의 목소리의 특성을 제공할 사용자를 선택할 수 있는 장점이 있다.According to the present invention, the transmission side device may set the access authority for the synthesized voice, and the terminal for which the access authority is not set cannot receive the synthesized voice. Accordingly, according to the present invention, the user of the transmission-side device has an advantage of selecting a user to provide characteristics of his/her voice.
도 1은 본 발명과 관련된 단말기를 설명하기 위한 블록도이다.1 is a block diagram illustrating a terminal related to the present invention.
도 2는 본 발명의 실시 예에 따른 단말기의 동작 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a method of operating a terminal according to an embodiment of the present invention.
도 3 내지 도 4는 본 발명의 실시 예에 따른, 사용자의 음성 특성이 메시지에 적용된 합성 음성을 출력하는 방법을 설명하기 위한 도면이다.3 to 4 are diagrams for explaining a method of outputting a synthesized voice in which a user's voice characteristics are applied to a message according to an embodiment of the present invention.
도 5는 전송 측 디바이스로부터 메시지와 함께 합성 음성을 수신하는 방법을 설명하기 위한 도면이다.5 is a view for explaining a method of receiving a synthesized voice together with a message from a transmitting device.
도 6 내지 도 7은 단말기가 메시지로부터 텍스트를 추출하여 전송한 후 합성 음성을 수신하는 방법을 설명하기 위한 도면이다.6 to 7 are diagrams for explaining a method for a terminal to receive a synthesized voice after extracting and transmitting text from a message.
도 8 내지 도 9는 복수의 전송 측 디바이스로부터 메시지가 수신되는 경우의 동작 방법을 설명하기 위한 도면이다.8 to 9 are diagrams for describing an operation method when a message is received from a plurality of transmission-side devices.
도 10은 본 발명의 실시 예에 따른, 전송 측 디바이스 입장에서 복수의 다른 사용자들에게 다른 메시지를 전달하는 방법을 설명하기 위한 도면이다.10 is a diagram for explaining a method of delivering different messages to a plurality of different users from a transmission-side device perspective according to an embodiment of the present invention.
도 11은 본 발명의 실시 예에 따른, 단말기에 합성 음성이 제공되지 않는 동작을 설명하기 위한 도면이다.11 is a diagram for describing an operation in which a synthesized voice is not provided to a terminal according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. Hereinafter, exemplary embodiments disclosed in the present specification will be described in detail with reference to the accompanying drawings, but the same or similar elements are assigned the same reference numbers regardless of the reference numerals, and overlapping descriptions thereof will be omitted. The suffixes "modules" and "parts" for components used in the following description are given or mixed only considering the ease of writing the specification, and do not have meanings or roles distinguished from each other in themselves. In addition, in the description of the embodiments disclosed herein, when it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed herein, detailed descriptions thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in the present specification, and the technical spirit disclosed in the specification is not limited by the accompanying drawings, and all modifications included in the spirit and technical scope of the present invention , It should be understood to include equivalents or substitutes.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from other components.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When an element is said to be "connected" or "connected" to another component, it is understood that other components may be directly connected to or connected to the other component, but there may be other components in between. It should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that no other component exists in the middle.
본 명세서에서 설명되는 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다. The terminals described herein include mobile phones, smart phones, laptop computers, digital broadcasting terminals, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, and slate PCs. It may include a tablet PC (tablet PC), ultrabook (ultrabook), wearable device (wearable device, for example, a watch-type terminal (smartwatch), glass-type terminal (smart glass), HMD (head mounted display), etc. .
도 1은 본 발명과 관련된 단말기를 설명하기 위한 블록도이다.1 is a block diagram illustrating a terminal related to the present invention.
본 명세서에 기재된 실시 예에 따른 단말기(100)는 스마트 TV, 데스크탑 컴퓨터, 디지털사이니지 등과 같은 고정 단말기에도 적용될 수도 있다.The terminal 100 according to the embodiment described in this specification may also be applied to a fixed terminal such as a smart TV, a desktop computer, and a digital signage.
또한, 본 발명의 실시 예에 따른 단말기(100)는 고정 또는 이동 가능한 로봇에도 적용될 수 있다.In addition, the terminal 100 according to an embodiment of the present invention may be applied to a fixed or movable robot.
또한, 본 발명의 실시 예에 따른 단말기(100)는 음성 에이전트의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.In addition, the terminal 100 according to an embodiment of the present invention may perform the function of a voice agent. The voice agent may be a program that recognizes a user's voice and outputs a response suitable for the recognized user's voice as a voice.
단말기(100)는 무선 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 인터페이스부(160), 메모리(170), 프로세서(180) 및 전원 공급부(190)를 포함할 수 있다. The terminal 100 includes a wireless communication unit 110, an input unit 120, a running processor 130, a sensing unit 140, an output unit 150, an interface unit 160, a memory 170, a processor 180, and It may include a power supply 190.
무선 통신부(110)는, 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.The wireless communication unit 110 may include at least one of a broadcast reception module 111, a mobile communication module 112, a wireless Internet module 113, a short-range communication module 114, and a location information module 115.
방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다.The broadcast receiving module 111 receives a broadcast signal and/or broadcast related information from an external broadcast management server through a broadcast channel.
이동통신 모듈(112)은, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. The mobile communication module 112 includes technical standards or communication methods for mobile communication (eg, Global System for Mobile Communication (GSM), Code Division Multi Access (CDMA), Code Division Multi Access 2000 (CDMA2000), EV -Enhanced Voice-Data Optimized or Enhanced Voice-Data Only (DO), Wideband CDMA (WCDMA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), LTE-A (Long Term Evolution-Advanced) transmits and receives wireless signals to and from at least one of a base station, an external terminal, and a server on a mobile communication network constructed according to (Long Term Evolution-Advanced).
무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(113)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.The wireless Internet module 113 refers to a module for wireless Internet access, and may be built in or external to the terminal 100. The wireless Internet module 113 is configured to transmit and receive wireless signals in a communication network according to wireless Internet technologies.
무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있다.Wireless Internet technologies include, for example, WLAN (Wireless LAN), Wi-Fi (Wireless-Fidelity), Wi-Fi (Wireless Fidelity) Direct, DLNA (Digital Living Network Alliance), WiBro (Wireless Broadband), WiMAX (World) Interoperability for Microwave Access (HSDPA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), and Long Term Evolution-Advanced (LTE-A).
근거리 통신 모듈(114)은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.The short-range communication module 114 is for short-range communication, Bluetooth™, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, NFC (Near Field Communication), by using at least one of Wi-Fi (Wireless-Fidelity), Wi-Fi Direct, Wireless USB (Wireless Universal Serial Bus) technology, it can support short-range communication.
위치정보 모듈(115)은 이동 단말기의 위치(또는 현재 위치)를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Positioning System) 모듈 또는 WiFi(Wireless Fidelity) 모듈이 있다. 예를 들어, 단말기는 GPS모듈을 활용하면, GPS 위성에서 보내는 신호를 이용하여 이동 단말기의 위치를 획득할 수 있다. The location information module 115 is a module for acquiring a location (or current location) of a mobile terminal, and typical examples thereof include a Global Positioning System (GPS) module or a Wireless Fidelity (WiFi) module. For example, if the terminal utilizes a GPS module, the location of the mobile terminal can be obtained by using a signal from a GPS satellite.
입력부(120)는 영상 신호 입력을 위한 카메라(121), 오디오 신호를 수신하기 위한 마이크로폰(122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(123)를 포함할 수 있다. The input unit 120 may include a camera 121 for inputting a video signal, a microphone 122 for receiving an audio signal, and a user input unit 123 for receiving information from a user.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.The voice data or image data collected by the input unit 120 may be analyzed and processed by a user's control command.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 단말기(100)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.The input unit 120 is for input of image information (or signals), audio information (or signals), data, or information input from a user. For input of image information, the terminal 100 includes one or more cameras It may be provided with (121).
카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다. The camera 121 processes image frames such as still images or moving pictures obtained by an image sensor in a video call mode or a shooting mode. The processed image frame may be displayed on the display unit 151 or stored in the memory 170.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 단말기(100)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.The microphone 122 processes external sound signals as electrical voice data. The processed voice data may be used in various ways according to a function (or a running application program) being performed by the terminal 100. Meanwhile, various noise reduction algorithms for removing noise generated in the process of receiving an external sound signal may be implemented in the microphone 122.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, The user input unit 123 is for receiving information from a user. When information is input through the user input unit 123,
프로세서(180)는 입력된 정보에 대응되도록 단말기(100)의 동작을 제어할 수 있다. The processor 180 may control the operation of the terminal 100 to correspond to the inputted information.
사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예를 들어, 단말기(100)의 전?후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.The user input unit 123 is a mechanical input means (or a mechanical key, for example, a button located on the front or rear or side of the terminal 100, a dome switch, a jog wheel, a jog switch, etc.) ) And a touch-type input means. As an example, the touch-type input means is made of a virtual key, a soft key or a visual key displayed on the touch screen through software processing, or a part other than the touch screen It may be made of a touch key (touch key) disposed on.
러닝 프로세서(130)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정, 및 기계 학습 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성 될 수 있다.The learning processor 130 may be configured to receive, classify, store, and output information to be used for data mining, data analysis, intelligent decision making, and machine learning algorithms and techniques.
러닝 프로세서(130)는 단말기에 의해 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 출력되거나 수신, 검출, 감지, 생성, 사전 정의 또는 다른 방식으로 다른 컴포넌트, 디바이스, 단말기 또는 단말기와 통신하는 장치에 의해 출력되는 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함 할 수 있다.The learning processor 130 may be received, detected, detected, generated, predefined, or otherwise output by the terminal, or communicated with other components, devices, terminals, or terminals in a received, detected, detected, generated, predefined, or otherwise manner It may include one or more memory units configured to store data output by the device.
러닝 프로세서(130)는 단말기에 통합되거나 구현된 메모리를 포함 할 수 있다. 일부 실시 예에서, 러닝 프로세서(130)는 메모리(170)를 사용하여 구현 될 수 있다.The learning processor 130 may include a memory integrated or implemented in a terminal. In some embodiments, the learning processor 130 may be implemented using the memory 170.
선택적으로 또는 부가 적으로, 러닝 프로세서(130)는 단말기에 직접 결합된 외부 메모리 또는 단말기와 통신하는 서버에서 유지되는 메모리와 같이 단말기와 관련된 메모리를 사용하여 구현 될 수 있다.Alternatively or additionally, the learning processor 130 may be implemented using memory associated with the terminal, such as external memory coupled directly to the terminal or memory maintained in a server communicating with the terminal.
다른 실시 예에서, 러닝 프로세서(130)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 단말기에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현 될 수 있다. In another embodiment, the learning processor 130 may be implemented using memory maintained in a cloud computing environment, or other remote memory location accessible by a terminal through a communication method such as a network.
러닝 프로세서(130)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신에서 사용하기 위해 데이터를 식별, 색인화, 카테고리화, 조작, 저장, 검색 및 출력하기 위해 데이터를 하나 이상의 데이터베이스에 저장하도록 구성될 수 있다.The learning processor 130 typically includes one or more databases for identifying, indexing, categorizing, manipulating, storing, retrieving, and outputting data for use in supervised or unsupervised learning, data mining, predictive analytics, or other machines. It can be configured to store on.
러닝 프로세서(130)에 저장된 정보는 다양한 상이한 유형의 데이터 분석 알고리즘 및 기계 학습 알고리즘 중 임의의 것을 사용하여 프로세서(180) 또는 단말기의 하나 이상의 다른 제어기에 의해 이용될 수 있다.The information stored in the learning processor 130 can be utilized by one or more other controllers of the processor 180 or terminal using any of a variety of different types of data analysis algorithms and machine learning algorithms.
이러한, 알고리즘의 예로는, k-최근 인접 시스템, 퍼지 논리 (예: 가능성 이론), 신경 회로망, 볼츠만 기계, 벡터 양자화, 펄스 신경망, 지원 벡터 기계, 최대 마진 분류기, 힐 클라이밍, 유도 논리 시스템 베이지안 네트워크, 페리트넷 (예: 유한 상태 머신, 밀리 머신, 무어 유한 상태 머신), 분류기 트리 (예: 퍼셉트론 트리, 지원 벡터 트리, 마코프 트리, 의사 결정 트리 포리스트, 임의의 포리스트), 판돈 모델 및 시스템, 인공 융합, 센서 융합, 이미지 융합, 보강 학습, 증강 현실, 패턴 인식, 자동화 된 계획 등을 포함한다. Examples of these, algorithms, k-near neighbor systems, fuzzy logic (eg probability theory), neural networks, Boltzmann machines, vector quantization, pulse neural networks, support vector machines, maximum margin classifier, hill climbing, inductive logic system Bayesian network , Peritnet (e.g. finite state machine, milli machine, moore finite state machine), classifier tree (e.g. perceptron tree, support vector tree, Markov tree, decision tree forest, random forest), stake model and system, artificial Convergence, sensor fusion, image fusion, reinforcement learning, augmented reality, pattern recognition, automated planning, and more.
프로세서(180)는 데이터 분석 및 기계 학습 알고리즘을 사용하여 결정되거나, 생성된 정보에 기초하여 단말기의 적어도 하나의 실행 가능한 동작을 결정 또는 예측할 수 있다. 이를 위해, 프로세서(180)는 러닝 프로세서(130)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 상기 단말기를 제어할 수 있다.The processor 180 may determine or predict at least one executable action of the terminal based on the generated information, or determined using data analysis and machine learning algorithms. To this end, the processor 180 may request, search, receive, or utilize data of the learning processor 130, and may use the terminal to perform a predicted operation or an operation determined to be preferable among the at least one executable operation. Can be controlled.
프로세서(180)는 지능적 에뮬레이션(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)을 구현하는 다양한 기능을 수행 할 수 있다. 이는 적응 시스템, 기계 학습 시스템, 인공 신경망 등을 포함하는, 다양한 유형의 시스템(예컨대, 퍼지 논리 시스템)에 적용될 수 있다.The processor 180 may perform various functions for implementing intelligent emulation (ie, a knowledge-based system, a reasoning system, and a knowledge acquisition system). It can be applied to various types of systems (eg, fuzzy logic systems), including adaptive systems, machine learning systems, artificial neural networks, and the like.
프로세서(180)는, 또한 I/O 처리 모듈, 환경 조건 모듈, 음성 - 텍스트 (STT) 처리 모듈, 자연어 처리 모듈, 작업 흐름 처리 모듈 및 서비스 처리 모듈과 같이, 음성 및 자연 언어 음성 처리를 수반하는 연산을 가능하게 하는 서브 모듈을 포함할 수 있다.The processor 180 also involves speech and natural language speech processing, such as an I/O processing module, an environmental condition module, a speech-to-text (STT) processing module, a natural language processing module, a work flow processing module, and a service processing module. It may include sub-modules that enable calculation.
이들 서브 모듈들 각각은, 단말기에서의 하나 이상의 시스템 또는 데이터 및 모델, 또는 이들의 서브셋 또는 수퍼 셋에 대한 액세스를 가질 수 있다. 또한, 이들 서브 모듈들 각각은, 어휘 색인, 사용자 데이터, 작업 흐름 모델, 서비스 모델 및 자동 음성 인식 (ASR) 시스템을 비롯한 다양한 기능을 제공할 수 있다.Each of these sub-modules can have access to one or more systems or data and models at the terminal, or a subset or superset thereof. In addition, each of these sub-modules can provide various functions, including vocabulary index, user data, work flow model, service model, and automatic speech recognition (ASR) system.
다른 실시 예에서, 프로세서(180) 또는 단말기의 다른 양태는 상기 서브 모듈, 시스템, 또는 데이터 및 모델로 구현 될 수 있다.In other embodiments, other aspects of the processor 180 or terminal may be implemented with the submodules, systems, or data and models.
일부 예에서, 러닝 프로세서(130)의 데이터에 기초하여, 프로세서(180)는 사용자 입력 또는 자연 언어 입력으로 표현된 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 검출하고 감지하도록 구성 될 수 있다.In some examples, based on data from the learning processor 130, the processor 180 may be configured to detect and detect requirements based on the user's intention or contextual conditions expressed in user input or natural language input.
프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항을 완전히 결정하는데 필요한 정보를 능동적으로 이끌어 내고, 획득할 수 있다. 예를 들어, 프로세서(180)는 역사적 입력 및 출력, 패턴 매칭, 모호하지 않은 단어, 입력 의도 등을 포함하는 과거 데이터를 분석함으로써 요구 사항을 결정하는데, 필요한 정보를 능동적으로 이끌어낼 수 있다.The processor 180 may actively derive and acquire information necessary to completely determine a requirement based on a context condition or a user's intention. For example, the processor 180 may actively derive information necessary to determine a requirement by analyzing historical data including historical input and output, pattern matching, unambiguous words, and input intention.
프로세서(180)는 문맥 조건 또는 사용자의 의도에 기초하여 요구 사항에 응답하는 기능을 실행하기 위한 태스크 흐름을 결정할 수 있다.The processor 180 may determine a task flow for executing a function that responds to a requirement based on a context condition or a user's intention.
프로세서(180)는 러닝 프로세서(130)에서 프로세싱 및 저장을 위한 정보를 수집하기 위해, 단말기에서 하나 이상의 감지 컴포넌트를 통해 데이터 분석 및 기계 학습 작업에 사용되는 신호 또는 데이터를 수집, 감지, 추출, 검출 및/또는 수신하도록 구성 될 수 있다.The processor 180 collects, detects, extracts, and detects signals or data used in data analysis and machine learning operations through one or more sensing components in the terminal, in order to collect information for processing and storage in the learning processor 130 And/or receive.
정보 수집은 센서를 통해 정보를 감지하는 것, 메모리(170)에 저장된 정보를 추출하는 것 또는 통신 수단을 통해 다른 단말기, 엔티티 또는 외부 저장 장치로부터 정보를 수신하는 것을 포함 할 수 있다.Collecting information may include sensing information through a sensor, extracting information stored in the memory 170, or receiving information from another terminal, entity, or external storage device through communication means.
프로세서(180)는 단말기에서 사용 히스토리 정보를 수집하여, 저장할 수 있다.The processor 180 may collect and store usage history information in the terminal.
프로세서(180)는 저장된 사용 히스토리 정보 및 예측 모델링을 사용하여 특정 기능을 실행하기 위한 최상의 매치를 결정할 수 있다.The processor 180 may use the stored usage history information and predictive modeling to determine the best match for executing a specific function.
프로세서(180)는 센싱부(140)를 통해 주변 환경 정보 또는 기타 정보를 수신하거나 감지 할 수 있다. The processor 180 may receive or sense surrounding environment information or other information through the sensing unit 140.
프로세서(180)는 무선 통신부(110)을 통해 방송 신호 및/또는 방송 관련 정보, 무선 신호, 무선 데이터를 수신할 수 있다.The processor 180 may receive a broadcast signal and/or broadcast-related information, a radio signal, and radio data through the radio communication unit 110.
프로세서(180)는 입력부(120)로부터 이미지 정보 (또는 해당 신호), 오디오 정보 (또는 해당 신호), 데이터 또는 사용자 입력 정보를 수신 할 수 있다.The processor 180 may receive image information (or a corresponding signal), audio information (or a corresponding signal), data, or user input information from the input unit 120.
프로세서(180)는 정보를 실시간으로 수집하고, 정보 (예를 들어, 지식 그래프, 명령 정책, 개인화 데이터베이스, 대화 엔진 등)를 처리 또는 분류하고, 처리 된 정보를 메모리(170) 또는 러닝 프로세서(130)에 저장할 수 있다.The processor 180 collects information in real time, processes or classifies information (for example, a knowledge graph, command policy, personalization database, conversation engine, etc.), and processes the processed information in the memory 170 or the learning processor 130 ).
단말기의 동작이 데이터 분석 및 기계 학습 알고리즘 및 기술에 기초하여 결정될 때, 프로세서(180)는 결정된 동작을 실행하기 위해 단말기의 구성 요소를 제어 할 수 있다. 그리고 프로세서(180)는 제어 명령에 따라 단말을 제어하여 결정된 동작을 수행 할 수 있다.When the operation of the terminal is determined based on data analysis and machine learning algorithms and techniques, the processor 180 can control the components of the terminal to perform the determined operation. In addition, the processor 180 may perform the determined operation by controlling the terminal according to the control command.
프로세서(180)는 특정 동작이 수행되는 경우, 데이터 분석 및 기계 학습 알고리즘 및 기법을 통해 특정 동작의 실행을 나타내는 이력 정보를 분석하고, 분석된 정보에 기초하여 이전에 학습 한 정보의 업데이트를 수행 할 수 있다.When a specific operation is performed, the processor 180 analyzes historical information indicating execution of a specific operation through data analysis and machine learning algorithms and techniques, and performs updating of previously learned information based on the analyzed information. Can.
따라서, 프로세서(180)는 러닝 프로세서(130)과 함께, 업데이트 된 정보에 기초하여 데이터 분석 및 기계 학습 알고리즘 및 기법의 미래 성능의 정확성을 향상시킬 수 있다.Accordingly, the processor 180 may improve the accuracy of future performance of data analysis and machine learning algorithms and techniques based on the updated information along with the learning processor 130.
센싱부(140)는 이동 단말기 내 정보, 이동 단말기를 둘러싼 주변 환경 정보 및 사용자 정보 중 적어도 하나를 센싱 하기 위한 하나 이상의 센서를 포함할 수 있다. The sensing unit 140 may include one or more sensors for sensing at least one of information in the mobile terminal, surrounding environment information surrounding the mobile terminal, and user information.
예를 들어, 센싱부(140)는 근접센서(141, proximity sensor), 조도 센서(142, illumination sensor), 터치 센서(touch sensor), 가속도 센서(acceleration sensor), 자기 센서(magnetic sensor), 중력 센서(G-sensor), 자이로스코프 센서(gyroscope sensor), 모션 센서(motion sensor), RGB 센서, 적외선 센서(IR 센서: infrared sensor), 지문인식 센서(finger scan sensor), 초음파 센서(ultrasonic sensor), 광 센서(optical sensor, 예를 들어, 카메라(121 참조)), 마이크로폰(microphone, 122 참조), 배터리 게이지(battery gauge), 환경 센서(예를 들어, 기압계, 습도계, 온도계, 방사능 감지 센서, 열 감지 센서, 가스 감지 센서 등), 화학 센서(예를 들어, 전자 코, 헬스케어 센서, 생체 인식 센서 등) 중 적어도 하나를 포함할 수 있다. 한편, 본 명세서에 개시된 이동 단말기는, 이러한 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.For example, the sensing unit 140 includes a proximity sensor 141, an illumination sensor 142, a touch sensor, an acceleration sensor, a magnetic sensor, and gravity G-sensor, gyroscope sensor, motion sensor, RGB sensor, infrared sensor (IR sensor), fingerprint scan sensor, ultrasonic sensor , Optical sensor (e.g., camera (see 121)), microphone (see 122, battery), battery gauge, environmental sensor (e.g. barometer, hygrometer, thermometer, radioactivity sensor, Thermal sensor, gas sensor, etc.), chemical sensors (for example, electronic nose, health care sensor, biometric sensor, etc.). Meanwhile, the mobile terminal disclosed in the present specification may combine and use information sensed by at least two or more of these sensors.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향 출력부(152), 햅팁 모듈(153), 광 출력부(154) 중 적어도 하나를 포함할 수 있다. The output unit 150 is for generating output related to vision, hearing, or tactile sense, and includes at least one of a display unit 151, an audio output unit 152, a hap tip module 153, and an optical output unit 154 can do.
디스플레이부(151)는 단말기(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 디스플레이부(151)는 단말기(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다. The display unit 151 displays (outputs) information processed by the terminal 100. For example, the display unit 151 may display execution screen information of an application program driven by the terminal 100, or UI (User Interface) or GUI (Graphic User Interface) information according to the execution screen information.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 단말기(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.The display unit 151 may form a mutual layer structure with the touch sensor or may be integrally formed, thereby realizing a touch screen. The touch screen may function as a user input unit 123 that provides an input interface between the terminal 100 and the user, and at the same time, provide an output interface between the terminal 100 and the user.
음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다. The audio output unit 152 may output audio data received from the wireless communication unit 110 or stored in the memory 170 in a call signal reception, call mode or recording mode, voice recognition mode, broadcast reception mode, or the like.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.The audio output unit 152 may include at least one of a receiver, a speaker, and a buzzer.
햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.The haptic module 153 generates various tactile effects that the user can feel. A typical example of the tactile effect generated by the haptic module 153 may be vibration.
광출력부(154)는 단말기(100)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 단말기(100)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.The light output unit 154 outputs a signal for notifying the occurrence of an event using the light of the light source of the terminal 100. Examples of events generated in the terminal 100 may include receiving messages, receiving call signals, missed calls, alarms, schedule notifications, receiving emails, and receiving information through applications.
인터페이스부(160)는 단말기(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다. 이러한 인터페이스부(160)는, 유/무선 헤드셋 포트(port), 외부 충전기 포트(port), 유/무선 데이터 포트(port), 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 I/O(Input/Output) 포트(port), 비디오 I/O(Input/Output) 포트(port), 이어폰 포트(port)중 적어도 하나를 포함할 수 있다. 단말기(100)에서는, 상기 인터페이스부(160)에 외부 기기가 연결되는 것에 대응하여, 연결된 외부 기기와 관련된 적절할 제어를 수행할 수 있다.The interface unit 160 serves as a passage with various types of external devices connected to the terminal 100. The interface unit 160 connects a device equipped with a wired/wireless headset port, an external charger port, a wired/wireless data port, a memory card port, and an identification module. It may include at least one of a port, an audio input/output (I/O) port, a video input/output (I/O) port, and an earphone port. In the terminal 100, in response to an external device being connected to the interface unit 160, appropriate control related to the connected external device may be performed.
한편, 식별 모듈은 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(user identify module; UIM), 가입자 인증 모듈(subscriber identity module; SIM), 범용 사용자 인증 모듈(universal subscriber identity module; USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 상기 인터페이스부(160)를 통하여 단말기(100)와 연결될 수 있다.Meanwhile, the identification module is a chip that stores various information for authenticating the usage rights of the terminal 100, a user identification module (UIM), a subscriber identity module (SIM), and a universal user authentication module (universal subscriber identity module; USIM). The device provided with the identification module (hereinafter referred to as an'identification device') may be manufactured in a smart card format. Therefore, the identification device may be connected to the terminal 100 through the interface unit 160.
메모리(170)는 단말기(100)의 다양한 기능을 지원하는 데이터를 저장한다. The memory 170 stores data supporting various functions of the terminal 100.
메모리(170)는 단말기(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 단말기(100)의 동작을 위한 데이터들, 명령어들을, 러닝 프로세서(130)의 동작을 위한 데이터들(예를 들어, 머신 러닝을 위한 적어도 하나의 알고리즘 정보 등)을 저장할 수 있다. The memory 170 is a plurality of application programs (application programs or applications) running in the terminal 100, data for the operation of the terminal 100, instructions, data for the operation of the running processor 130 Fields (eg, at least one algorithm information for machine learning, etc.).
프로세서(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 단말기(100)의 전반적인 동작을 제어한다. 프로세서(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(170)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.The processor 180 controls the overall operation of the terminal 100 in addition to the operations related to the application program. The processor 180 may provide or process appropriate information or functions to the user by processing signals, data, and information input or output through the above-described components or by driving an application program stored in the memory 170.
또한, 프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 도 1a와 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용프로그램의 구동을 위하여, 단말기(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.In addition, the processor 180 may control at least some of the components described with reference to FIG. 1A in order to drive an application program stored in the memory 170. Furthermore, the processor 180 may operate by combining at least two or more of the components included in the terminal 100 for driving the application program.
전원공급부(190)는 프로세서(180)의 제어 하에서, 외부의 전원, 내부의 전원을 인가 받아 단말기(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(190)는 배터리를 포함하며, 상기 배터리는 내장형 배터리 또는 교체 가능한 형태의 배터리가 될 수 있다.Under the control of the processor 180, the power supply unit 190 receives external power and internal power to supply power to each component included in the terminal 100. The power supply unit 190 includes a battery, and the battery may be a built-in battery or a replaceable battery.
한편, 앞서 살펴본 것과 같이, 프로세서(180)는 응용 프로그램과 관련된 동작과, 통상적으로 단말기(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(180)는 상기 이동 단말기의 상태가 설정된 조건을 만족하면, 애플리케이션들에 대한 사용자의 제어 명령의 입력을 제한하는 잠금 상태를 실행하거나, 해제할 수 있다.Meanwhile, as described above, the processor 180 controls the operation related to the application program and generally the overall operation of the terminal 100. For example, when the state of the mobile terminal satisfies a set condition, the processor 180 may execute or release a lock state that restricts input of a user's control command to applications.
한편, 단말기(100)의 입력부(120)는 센싱부(140)를 포함할 수 있으며, 센싱부(140)가 수행하는 모든 기능을 수행할 수 있다. 예를 들어 입력부(120)는 사용자 터치 입력을 감지할 수 있다.Meanwhile, the input unit 120 of the terminal 100 may include the sensing unit 140, and may perform all functions performed by the sensing unit 140. For example, the input unit 120 may detect a user touch input.
한편 용어 무선 통신부(110)는 용어 통신부(110)와 혼용되어 사용될 수 있다.Meanwhile, the term wireless communication unit 110 may be used interchangeably with the term communication unit 110.
도 2는 본 발명의 실시 예에 따른 단말기의 동작 방법을 설명하기 위한 흐름도이다.2 is a flowchart illustrating a method of operating a terminal according to an embodiment of the present invention.
본 발명의 실시 예에 따른 단말기의 동작 방법은, 전송 측 디바이스로부터 메시지를 수신하는 단계(S210), 전송 측 디바이스의 사용자의 음성 특성이 메시지에 적용된 합성 음성을 수신하는 단계(S230) 및 합성 음성을 출력하는 단계(S250)를 포함할 수 있다.The method of operation of a terminal according to an embodiment of the present invention includes receiving a message from a transmitting device (S210), receiving a synthesized voice with a voice characteristic of a user of the transmitting device applied to the message (S230), and synthesized voice It may include the step of outputting (S250).
먼저 합성 음성에 대하여 설명한다.First, synthetic speech will be described.
본 명세서에서의 합성 음성은 음성 특성이 메시지에 적용된 음성일 수 있다.The synthesized voice in the present specification may be a voice whose voice characteristics are applied to a message.
구체적으로 메시지는 음성으로 변환될 수 있다. 이 경우 메시지를 음성으로 변환하기 위하여 텍스트 음성 변환(Test to speech, TTS) 기술이 사용될 수 있다.Specifically, the message can be converted into speech. In this case, a text-to-speech (TTS) technique can be used to convert the message to speech.
이 경우 특정 사람의 음성 특성이 메시지에 적용될 수 있다. 구체적으로 장치는 특정 사람의 음성으로부터 특정 사람의 음성의 특성을 추출하고, 추출된 특성을 적용하여 메시지를 음성으로 변환할 수 있다. 이 경우 단말기는 메시지를 특정 사람의 목소리로 발화할 수 있다.In this case, the voice characteristics of a specific person can be applied to the message. Specifically, the device may extract a characteristic of a specific person's voice from a specific person's voice, and convert the message to voice by applying the extracted characteristic. In this case, the terminal can utter the message in the voice of a specific person.
이와 같이, 특정 사람의 음성 특성을 적용하여 메시지가 음성으로 변환된 경우, 변환된 음성을 합성 음성이라 지칭할 수 있다.As described above, when a message is converted into voice by applying a voice characteristic of a specific person, the converted voice may be referred to as a synthesized voice.
한편 본 명세서에서 전송 측 디바이스의 사용자의 음성 특성이 메시지에 적용된 합성 음성은, 전송 측 디바이스의 사용자의 음성 특성을 적용하여 메시지가 음성으로 변환된 것을 의미할 수 있다.Meanwhile, in the present specification, the synthesized voice in which the voice characteristic of the user of the transmitting side device is applied to the message may mean that the message is converted into voice by applying the voice characteristic of the user of the transmitting side device.
본 발명의 구체적인 동작에 대해서 도 3 및 도 4를 참고하여 설명한다.The specific operation of the present invention will be described with reference to FIGS. 3 and 4.
도 3 내지 도 4는 본 발명의 실시 예에 따른, 사용자의 음성 특성이 메시지에 적용된 합성 음성을 출력하는 방법을 설명하기 위한 도면이다.3 to 4 are diagrams for explaining a method of outputting a synthesized voice in which a user's voice characteristics are applied to a message according to an embodiment of the present invention.
전송 측 디바이스는 단말기일 수 있으며, 이 경우 도 1에서 설명한 단말기(100)의 구성 및 기능에 대한 설명이 전송 측 디바이스에 모두 적용될 수 있다.The transmission-side device may be a terminal, and in this case, description of the configuration and function of the terminal 100 described in FIG. 1 may be applied to all of the transmission-side devices.
단말기(100)의 프로세서(180)는 전송 측 디바이스로부터 메시지를 수신할 수 있다.The processor 180 of the terminal 100 may receive a message from the transmitting device.
구체적으로 전송 측 디바이스의 프로세서는 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다. 이 경우 전송 측 디바이스의 프로세서는 메시지를 단말기(100)에 전송할 수 있다.Specifically, the processor of the transmitting side device may receive an input of a message from a user of the transmitting side device. In this case, the processor of the transmitting side device may transmit a message to the terminal 100.
이 경우 단말기(100)의 프로세서(180)는 통신부(110)를 통하여 메시지를 수신할 수 있다.In this case, the processor 180 of the terminal 100 may receive a message through the communication unit 110.
한편 단말기(100)의 프로세서(180)가 전송 측 디바이스로부터 메시지를 수신한다는 의미는, 전송 측 디바이스로부터 메시지를 직접 수신하는 것뿐만 아니라, 전송 측 디바이스가 서버에 전송한 메시지를 서버로부터 수신하는 것까지 포함할 수 있다.On the other hand, the meaning that the processor 180 of the terminal 100 receives the message from the transmitting device is not only receiving the message directly from the transmitting device, but also receiving the message sent by the transmitting device to the server from the server. Can include up to.
한편 단말기(100)의 프로세서(180)는 전송 측 디바이스의 사용자의 음성 특성이 메시지에 적용된 합성 음성을 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of the user of the transmitting side device is applied to the message.
구체적으로, 단말기(100)의 프로세서(180)는, 전송 측 디바이스 또는 서버로부터, 전송 측 디바이스의 사용자의 음성 특성이 메시지에 적용된 합성 음성을 수신할 수 있다.Specifically, the processor 180 of the terminal 100 may receive, from a transmitting device or a server, a synthesized voice in which a voice characteristic of a user of the transmitting device is applied to a message.
한편 전송 측 디바이스로부터 메시지가 수신되는 경우, 단말기(100)의 프로세서(180)는 전송 측 디바이스의 사용자의 음성 특성이 메시지에 적용된 합성 음성을 수신할 수 있다.On the other hand, when a message is received from the transmitting device, the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting device is applied to the message.
예를 들어, 홍길동이 자신이 소유하는 단말기에 “배고파”라는 메시지를 입력했다고 가정한다.For example, suppose that Hong Gil-dong entered the message "hungry" on his terminal.
이 경우 홍길동의 단말기는 홍길동으로부터 “배고파”라는 메시지를 수신하고, “배고파”라는 메시지를 단말기(100)로 전송할 수 있다.In this case, the terminal of Hong Gil-dong may receive a message “hungry” from Hong Gil-dong and transmit a message “hungry” to the terminal 100.
한편 단말기(100)의 프로세서(180)는 “배고파”라는 메시지를 홍길동의 단말기로부터 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message “hungry” from the terminal of Hong Gil-dong.
또한 단말기(100)의 프로세서(180)는 홍길동의 음성 특성이 “배고파”라는 메시지에 적용된 합성 음성을, 홍길동의 단말기 또는 서버로부터 수신할 수 있다.In addition, the processor 180 of the terminal 100 may receive the synthesized voice applied to the message that the voice characteristic of Hong Gil-dong is “hungry” from the terminal or server of Hong Gil-dong.
이 경우 단말기(100)의 프로세서(180)는 “배고파”라는 음성을 홍길동의 목소리로 출력할 수 있다.In this case, the processor 180 of the terminal 100 may output a voice of “hungry” as the voice of Hong Gil-dong.
다른 예를 들어, 성춘향이 자신이 소유하는 단말기에 “나는 배 안고픈데”라는 메시지를 입력했다고 가정한다.For another example, suppose Sung Chun-hyang entered the message "I'm hungry" on his terminal.
이 경우 성춘향의 단말기는 성춘향으로부터 “나는 배 안고픈데”라는 메시지를 수신하고, “나는 배 안고픈데”라는 메시지를 단말기(100)로 전송할 수 있다.In this case, the terminal of Sung Chun-hyang can receive the message “I am hungry” from Sung Chun-Hyang, and transmit the message “I am hungry” to the terminal 100.
한편 단말기(100)의 프로세서(180)는 “나는 배 안고픈데”라는 메시지를 성춘향의 단말기로부터 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive the message “I am hungry” from the terminal of Sungchunhyang.
또한 단말기(100)의 프로세서(180)는 성춘향의 음성 특성이 “나는 배 안고픈데”라는 메시지에 적용된 합성 음성을, 성춘향의 단말기 또는 서버로부터 수신할 수 있다.In addition, the processor 180 of the terminal 100 may receive the synthesized voice applied to the message “I am hungry” for the voice characteristic of Sung Chun-Hyang from the terminal or server of the Sung Chun-Hyang.
이 경우 단말기(100)의 프로세서(180)는 “나는 배 안고픈데”라는 음성을 성춘향의 목소리로 출력할 수 있다.In this case, the processor 180 of the terminal 100 may output the voice “I'm not hungry” as the voice of Sungchunhyang.
한편 단말기(100)의 프로세서(180)는 수신된 합성 음성을 메모리에 저장할 수 있다.Meanwhile, the processor 180 of the terminal 100 may store the received synthesized voice in a memory.
그리고 도 3에서 도시하는 바와 같이, 프로세서(180)는 저장된 합성 음성(320)을 출력할 수 있다.In addition, as illustrated in FIG. 3, the processor 180 may output the stored synthesized voice 320.
한편, 합성 음성을 출력하기 위한 입력이 입력부를 통하여 수신되면, 프로세서(180)는 메모리에 저장된 합성 음성(320)을 음향 출력부를 통하여 출력할 수 있다.Meanwhile, when an input for outputting the synthesized voice is received through the input unit, the processor 180 may output the synthesized voice 320 stored in the memory through the sound output unit.
예를 들어 프로세서(180)는 “수신된 메시지 읽어줘”라는 음성 입력을 수신할 수 있다. 이 경우 프로세서(180)는 메모리에 저장된 합성 음성을 출력할 수 있다.For example, the processor 180 may receive a voice input of “Please read the received message”. In this case, the processor 180 may output the synthesized voice stored in the memory.
한편 프로세서(180)는 메시지를 디스플레이 하기 이전에 합성 음성을 출력할 수 있다.Meanwhile, the processor 180 may output a synthesized voice before displaying a message.
일반적인 경우, 단말기(100)는 디스플레이 하기 위한 애플리케이션을 실행한 후 메시지를 디스플레이 하게 된다. 예를 들어 메시지가 메신저 애플리케이션의 대화방에 입력된 메시지인 경우, 단말기(100)는 메신저 애플리케이션을 실행함으로서 메시지를 디스플레이 한다.In the general case, the terminal 100 displays a message after executing an application for display. For example, when the message is a message input into a chat room of the messenger application, the terminal 100 displays the message by executing the messenger application.
다만 본 발명에서는, 메시지를 디스플레이 하기 위한 애플리케이션의 실행 없이, 합성 음성을 출력하기 위한 입력이 입력부를 통하여 수신되면, 프로세서(180)는 메모리에 저장된 합성 음성(320)을 음향 출력부를 통하여 출력할 수 있다.However, in the present invention, when an input for outputting a synthesized voice is received through the input unit without executing an application for displaying a message, the processor 180 can output the synthesized voice 320 stored in the memory through the sound output unit. have.
예를 들어 도 3에서 도시하는 바와 같이, 프로세서(180)는 대기 화면(310)이 디스플레이 된 상태, 즉 대기 모드에서 메모리에 저장된 합성 음성을 출력할 수 있다.For example, as illustrated in FIG. 3, the processor 180 may output a synthesized voice stored in a memory in a state where the standby screen 310 is displayed, that is, in a standby mode.
그리고 도 4에서 도시하는 바와 같이 메시지를 디스플레이 하기 위한 애플리케이션이 실행되면, 프로세서는 메시지 애플리케이션의 실행 화면(410)을 디스플레이 할 수 있다. 또한 프로세서는 메시지 애플리케이션의 실행 화면(410)에 전송 측 디바이스로부터 수신된 메시지(420)를 디스플레이 할 수 있다.In addition, when an application for displaying a message is executed as shown in FIG. 4, the processor may display the execution screen 410 of the message application. In addition, the processor may display the message 420 received from the transmission-side device on the execution screen 410 of the message application.
종래 기술에 따르면, 단말기는 메시지를 성우나 연예인 등의 목소리로 읽어준다. 다만 본 발명에 따르면 단말기가 메시지를 발신한 사람의 음성으로 메시지를 읽어주기 때문에, 사용자가 메시지의 발신자의 음성을 직접 듣는 것 같은 효과를 발생시킬 수 있다.According to the prior art, the terminal reads the message in the voice of a voice actor or an entertainer. However, according to the present invention, since the terminal reads the message with the voice of the person who sent the message, the user can generate an effect such as directly hearing the voice of the sender of the message.
또한 본 발명에 따르면, 사용자는 합성 음성 만으로도 메시지의 발신자가 누구인지 구별할 수 있는 장점이 있다. In addition, according to the present invention, the user has the advantage of being able to distinguish who the originator of the message is only with the synthetic voice.
예를 들어 메시지를 성우나 연예인 등의 목소리로 읽는 경우, 사용자로서는 누구로부터 발신된 메시지인지를 알 수 없다. 따라서 종래 기술에 따르면, 메시지를 성우나 연예인 등의 목소리로 읽은 경우, 단말기는 “홍길동 님으로부터 수신된 메시지입니다”라는 음성을 출력한 후 메시지에 대응하는 음성을 출력한다.For example, when a message is read with a voice of a voice actor or a celebrity, the user cannot know who the message was from. Therefore, according to the prior art, when a message is read with a voice of a voice actor or a celebrity, the terminal outputs a voice “It is a message received from Hong Gil-dong” and then outputs a voice corresponding to the message.
다만 본 발명에서 프로세서(180)는 누구로부터 메시지가 수신되었는지에 대한 안내를 출력하는 것 없이 합성 음성을 출력할 수 있기 때문에, 사용자가 메시지의 발신자의 음성을 직접 듣는 것 같은 효과를 발생시킬 수 있다.However, in the present invention, since the processor 180 can output a synthesized voice without outputting a guide about who the message was received from, the processor 180 can generate an effect such as a user directly listening to the voice of the sender of the message. .
또한 본 발명에 따르면, 단말기(100)는 합성 음성을 미리 수신하여 메모리에 저장해놓고 사용자 입력이 수신되는 경우 저장된 합성 음성을 출력하기 때문에, 합성 음성을 딜레이 없이 출력할 수 있는 장점이 있다.In addition, according to the present invention, since the terminal 100 receives the synthesized voice in advance and stores it in the memory and outputs the stored synthesized voice when a user input is received, there is an advantage that the synthesized voice can be output without delay.
한편 프로세서(180)는 전송 측 디바이스의 사용자의 음성 특성이 메시지에 포함되는 텍스트에 적용된 합성 음성을 수신할 수 있다.Meanwhile, the processor 180 may receive a synthesized voice applied to text included in the message of the voice characteristic of the user of the transmitting device.
여기서 메시지는 ‘문자 또는 숫자’ 및 ‘이모티콘 또는 기호’를 포함할 수 있다.Here, the message may include'character or number' and'emoticon or symbol'.
예를 들어 도 4를 참고하면, 메시지(420)는 문자(421) 및 기호(422)를 포함할 수 있다.For example, referring to FIG. 4, the message 420 may include a text 421 and a sign 422.
한편 메시지에 대응하는 텍스트는 문자 또는 숫자를 포함할 수 있다.Meanwhile, the text corresponding to the message may include letters or numbers.
예를 들어 도 4를 참고하면, 메시지(420)에 포함되는 텍스트는 문자(421)를 포함할 수 있다.For example, referring to FIG. 4, text included in the message 420 may include a character 421.
한편 프로세서(180)는 전송 측 디바이스로부터 메시지(420)를 수신하고, 전송 측 디바이스의 사용자의 음성 특성이 메시지(420)에 포함되는 텍스트에 적용된 합성 음성을 수신할 수 있다.Meanwhile, the processor 180 may receive the message 420 from the transmitting side device, and receive a synthesized voice applied to text included in the message 420 with the voice characteristic of the user of the transmitting side device.
예를 들어 프로세서(180)는 전송 측 디바이스로부터 “나 방금 집에 왔어~ ^^;;”라는 메시지를 수신할 수 있다. 또한 프로세서(180)는 전송 측 디바이스의 사용자의 음성 특성이 “나 방금 집에 왔어”라는 텍스트에 적용된 합성 음성을 수신할 수 있다.For example, the processor 180 may receive a message “I just came home~ ^^;;” from the transmitting device. Also, the processor 180 may receive the synthesized voice applied to the text “I just came home” for the voice characteristics of the user of the transmitting device.
이와 같이 본 발명에 따르면, 메시지가 문자나 숫자뿐만 아니라 기호 및 이모티콘을 포함하는 경우에도, 음성으로 변환이 가능한 텍스트만을 추출하여 전송 측 디바이스의 사용자의 목소리로 출력할 수 있는 장점이 있다.As described above, according to the present invention, even when the message includes symbols and emoticons as well as letters and numbers, there is an advantage that only text that can be converted into speech can be extracted and output in the voice of the user of the transmitting device.
도 5 내지 도 7에서는 본 발명의 다양한 실시 예에 따른, 합성 음성을 생성 및 수신하는 방법을 설명한다.5 to 7 illustrate a method for generating and receiving synthetic speech according to various embodiments of the present invention.
앞서, 전송 측 디바이스의 사용자의 음성 특성을 적용하여 텍스트를 음성으로 변환한 것이 합성 음성이라 설명한 바 있다.Previously, it has been described that the text is converted to speech by applying the voice characteristics of the user of the transmitting device.
그리고 음성 합성 엔진은, 전송 측 디바이스의 사용자의 음성 특성을 적용하여 텍스트를 음성으로 변환한 합성 음성을 생성할 수 있다.In addition, the speech synthesis engine may generate a speech synthesized by converting text into speech by applying the speech characteristics of the user of the transmitting device.
구체적으로 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성으로부터 추출된 음성 특성을 보유하고, 전송 측 디바이스의 사용자의 음성 특성을 이용하여 텍스트를 음성으로 변환할 수 있다.Specifically, the speech synthesis engine may retain speech characteristics extracted from the speech of the user of the transmitting-side device, and convert text to speech using speech characteristics of the user of the transmitting-side device.
음성 변환이 인공 지능 기술에 의해 구현되는 경우, 음성 합성 엔진은 은닉 마르코프 모델(Hidden Markov Model, HMM)이나 딥 러닝(deep learning) 등에 기반하여 뉴럴 네트워크를 트레이닝 하여 생성된 학습 모델일 수 있다.When speech conversion is implemented by artificial intelligence technology, the speech synthesis engine may be a learning model generated by training a neural network based on a Hidden Markov Model (HMM) or deep learning.
구체적으로 뉴럴 네트워크는 은닉 마르코프 모델(Hidden Markov Model, HMM)이나 딥 러닝(deep learning) 등에 기반하여 전송 측 디바이스의 사용자의 음성 및 텍스트를 포함하는 훈련 데이터에 의해 트레이닝될 수 있다. 이 경우 뉴럴 네트워크의 파라미터가 업데이트 되는데, 이와 같은 과정을 반복하여 파라미터가 설정된 뉴럴 네트워크를 학습 모델이라고 지칭할 수 있다.Specifically, the neural network may be trained by training data including voice and text of the user of the transmitting device based on a hidden Markov Model (HMM) or deep learning. In this case, the parameters of the neural network are updated, and the neural network in which the parameters are set by repeating the above process may be referred to as a learning model.
그리고 학습 모델에 새로운 텍스트가 입력되는 경우, 학습 모델은 전송 측 디바이스의 사용자의 음성 특성이 새로운 텍스트에 적용된 합성 음성을 출력할 수 있다.In addition, when new text is input to the learning model, the learning model may output a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the new text.
도 5는 전송 측 디바이스로부터 메시지와 함께 합성 음성을 수신하는 방법을 설명하기 위한 도면이다.5 is a view for explaining a method of receiving a synthesized voice together with a message from a transmitting device.
단말기(100)의 프로세서는 전송 측 디바이스(1100)로부터, 메시지와 함께 전송 측 디바이스(1100)의 사용자의 음성 특성이 메시지에 포함되는 텍스트에 적용된 합성 음성을 수신할 수 있다.The processor of the terminal 100 may receive the synthesized voice applied to the text included in the message, the voice characteristics of the user of the transmitting side device 1100 together with the message, from the transmitting side device 1100.
여기서 메시지와 함께 합성 음성을 수신한 다는 의미는, 메시지를 수신한 단말기(100)가 전송 측 디바이스(1100)에 요청을 전송하지 않아도(예를 들어 텍스트나 키를 전송하지 않아도), 전송 측 디바이스(1100)는 합성 음성을 전송하고 단말기(100)는 합성 음성을 수신하는 것을 뜻할 수 있다.Here, the meaning of receiving the synthesized voice together with the message means that the terminal 100 receiving the message does not send a request to the transmitting device 1100 (for example, does not transmit text or a key), and the transmitting device 1100 may mean that the synthesized voice is transmitted and the terminal 100 receives the synthesized voice.
먼저 음성 합성 엔진이 전송 측 디바이스(1100)에 탑재되는 실시 예에 대하여 도 5a를 참고하여 설명한다.First, an embodiment in which the speech synthesis engine is mounted on the transmission-side device 1100 will be described with reference to FIG. 5A.
전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다(S505).The processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through the input unit (S505).
이 경우 전송측 디바이스(1100)의 프로세서는 수신된 메시지로부터 텍스트를 추출하고(S510), 추출된 텍스트를 음성 합성 엔진에 입력할 수 있다.In this case, the processor of the transmission-side device 1100 may extract text from the received message (S510) and input the extracted text into the speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다(S515).In this case, the voice synthesis engine may generate a synthesized voice in which the voice characteristics of the user of the transmitting side device are applied to the text (S515).
그리고 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 메시지를 전송할 수 있다. 이 경우 전송 측 디바이스(1100)의 프로세서는 메시지와 함께 전송 측 디바이스(1100)의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 전송할 수 있다(S520).In addition, the processor of the transmitting side device 1100 may transmit a message to the terminal 100. In this case, the processor of the transmitting-side device 1100 may transmit a synthesized voice in which the voice characteristics of the user of the transmitting-side device 1100 are applied to the text together with the message (S520).
이 경우 단말기(100)의 프로세서(180)는 전송 측 디바이스로부터, 메시지와 함께 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 수신할 수 있다.In this case, the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
그리고 단말기(100)의 프로세서(180)는 수신된 합성 음성을 출력할 수 있다(S520).In addition, the processor 180 of the terminal 100 may output the received synthesized voice (S520).
다음은 음성 합성 엔진이 전송 측 디바이스(1100)와 통신하는 서버(2100)에 탑재되는 실시 예에 대하여 도 5b를 참고하여 설명한다.Next, an embodiment in which the speech synthesis engine is mounted on the server 2100 communicating with the transmission-side device 1100 will be described with reference to FIG. 5B.
전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다(S555).The processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through the input unit (S555).
이 경우 전송측 디바이스(1100)의 프로세서는 수신된 메시지로부터 텍스트를 추출하고, 추출된 텍스트를 서버(2100)에 전송할 수 있다(S560).In this case, the processor of the transmitting-side device 1100 may extract text from the received message and transmit the extracted text to the server 2100 (S560).
그리고 서버(2100)가 수신된 텍스트를 음성 합성 엔진에 입력하면, 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.Then, when the server 2100 inputs the received text into the speech synthesis engine, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
이 경우 서버(2100)는 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 전송 측 디바이스(1100)에 전송할 수 있다(S565).In this case, the server 2100 may transmit the synthesized voice in which the voice characteristics of the user of the transmitting side device is applied to the text to the transmitting side device 1100 (S565).
그리고 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 메시지를 전송할 수 있다. 이 경우 전송 측 디바이스(1100)의 프로세서는 메시지와 함께 전송 측 디바이스(1100)의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 전송할 수 있다(S570).In addition, the processor of the transmitting side device 1100 may transmit a message to the terminal 100. In this case, the processor of the transmission-side device 1100 may transmit a synthesized voice in which a voice characteristic of the user of the transmission-side device 1100 is applied to text together with a message (S570).
이 경우 단말기(100)의 프로세서(180)는 전송 측 디바이스로부터, 메시지와 함께 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 수신할 수 있다.In this case, the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
그리고 단말기(100)의 프로세서(180)는 수신된 합성 음성을 출력할 수 있다(S575).Then, the processor 180 of the terminal 100 may output the received synthesized voice (S575).
도 6 내지 도 7은 단말기가 메시지로부터 텍스트를 추출하여 전송한 후 합성 음성을 수신하는 방법을 설명하기 위한 도면이다.6 to 7 are diagrams for explaining a method for a terminal to receive a synthesized voice after extracting and transmitting text from a message.
단말기(100)의 프로세서(180)는, 메시지가 수신되면 텍스트를 전송 측 디바이스 또는 서버로 전송하고, 전송 측 디바이스 또는 서버로부터 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 수신할 수 있다.When the message is received, the processor 180 of the terminal 100 may transmit text to a transmitting device or a server, and receive a synthesized voice in which a user's voice characteristics of the transmitting device are applied to the text from the transmitting device or server. have.
먼저 텍스트를 전송 측 디바이스에 전송하고, 음성 합성 엔진이 전송 측 디바이스에 탑재되는 실시 예에 대하여 도 6a를 참고하여 설명한다.First, an embodiment in which text is transmitted to a transmission-side device and a speech synthesis engine is mounted on the transmission-side device will be described with reference to FIG. 6A.
전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.The processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
이 경우 전송측 디바이스(1100)의 프로세서는 메시지를 단말기(100)에 전송할 수 있다(S605).In this case, the processor of the transmitting side device 1100 may transmit a message to the terminal 100 (S605).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트를 전송 측 디바이스(1100)에 전송할 수 있다(S610).Then, the processor 180 of the terminal 100 may transmit the extracted text to the transmission side device 1100 (S610).
이 경우 전송 측 디바이스(1100)의 프로세서는 텍스트를 수신하고, 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.In this case, the processor of the transmission-side device 1100 may receive text and input the received text into a speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.In this case, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
그리고 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 합성 음성을 전송할 수 있다(S615).Then, the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
이 경우 단말기(100)의 프로세서(180)는 전송 측 디바이스로부터, 메시지와 함께 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 수신할 수 있다.In this case, the processor 180 of the terminal 100 may receive a synthesized voice in which a voice characteristic of a user of the transmitting side device is applied to text together with a message from the transmitting side device.
그리고 단말기(100)의 프로세서(180)는 수신된 합성 음성을 출력할 수 있다(S620).In addition, the processor 180 of the terminal 100 may output the received synthesized voice (S620).
다음은 텍스트를 전송 측 디바이스에 전송하고, 음성 합성 엔진이 서버에 탑재되는 실시 예에 대하여 도 6b를 참고하여 설명한다.Next, an embodiment in which text is transmitted to a device on a transmission side and a speech synthesis engine is mounted on a server will be described with reference to FIG. 6B.
전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.The processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
이 경우 전송 측 디바이스(1100)의 프로세서는 메시지를 단말기(100)에 전송할 수 있다(S655).In this case, the processor of the transmitting side device 1100 may transmit a message to the terminal 100 (S655).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트를 전송 측 디바이스(1100)에 전송할 수 있다(S660).In addition, the processor 180 of the terminal 100 may transmit the extracted text to the transmission side device 1100 (S660).
이 경우 전송 측 디바이스(1100)의 프로세서는 텍스트를 수신하고, 수신된 텍스트를 서버(2100)에 전송할 수 있다(S665).In this case, the processor of the transmitting side device 1100 may receive text and transmit the received text to the server 2100 (S665).
이 경우 서버(2100)는 텍스트를 수신하고, 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.In this case, the server 2100 may receive text and input the received text into a speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.In this case, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
그리고 서버(2100)는 전송 측 디바이스(1100)에 합성 음성을 전송할 수 있다(S670).In addition, the server 2100 may transmit the synthesized voice to the transmitting device 1100 (S670).
이 경우 전송 측 디바이스(1100)의 프로세서는 합성 음성을 수신하고, 합성 음성을 단말기(100)에 전송할 수 있다(S675).In this case, the processor of the transmitting side device 1100 may receive the synthesized voice and transmit the synthesized voice to the terminal 100 (S675).
그리고 단말기(100)의 프로세서(180)는 수신된 합성 음성을 출력할 수 있다(S680).Then, the processor 180 of the terminal 100 may output the received synthesized voice (S680).
단말기(100)는 합성 음성의 수신에 실패하는 경우가 발생할 수 있다. 전송 측 디바이스(1100)의 전원이 오프되어 있는 경우나 전송 측 디바이스(1100)와의 통신이 불량한 경우가 그 예이다.The terminal 100 may fail to receive the synthesized voice. Examples are when the power of the transmitting device 1100 is off or when communication with the transmitting device 1100 is poor.
이 경우 단말기(100)는 기 설정된 음성 특성(연예인, 성우, 기계음 등)이 메시지에 적용된 합성 음성을 출력할 수 있다.In this case, the terminal 100 may output a synthesized voice in which a predetermined voice characteristic (celebrity, voice actor, machine sound, etc.) is applied to the message.
다음은 텍스트를 서버에 전송하고, 음성 합성 엔진이 서버에 탑재되는 실시 예에 대하여 도 7을 참고하여 설명한다.Next, an embodiment in which a text is transmitted to a server and a speech synthesis engine is mounted on the server will be described with reference to FIG. 7.
전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.The processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
이 경우 전송측 디바이스(1100)의 프로세서는 메시지를 단말기(100)에 전송할 수 있다(S710).In this case, the processor of the transmission-side device 1100 may transmit a message to the terminal 100 (S710).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트를 서버(2100)에 전송할 수 있다 (S715).Then, the processor 180 of the terminal 100 may transmit the extracted text to the server 2100 (S715).
이 경우 서버(2100)는 텍스트를 수신하고, 음성 합성 엔진에 입력할 수 있다.In this case, the server 2100 may receive text and input it into a speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.In this case, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
그리고 서버(2100)는 단말기(100)에 합성 음성을 전송할 수 있다(S720).And the server 2100 may transmit the synthesized voice to the terminal 100 (S720).
이 경우 단말기(100)의 프로세서(180)는 합성 음성을 수신하고, 수신된 합성 음성을 출력할 수 있다(S725).In this case, the processor 180 of the terminal 100 may receive the synthesized voice and output the synthesized voice (S725).
도 7의 실시 예에 따르면, 전송 측 디바이스(1100)의 전원이 오프되어 있거나 전송 측 디바이스(1100)와의 통신이 불량한 경우에도, 전송 측 디바이스(1100)의 사용자의 음성 특성을 적용한 합성 음성을 출력할 수 있는 장점이 있다.According to the embodiment of FIG. 7, even when the power of the transmitting device 1100 is off or the communication with the transmitting device 1100 is poor, the synthesized voice to which the voice characteristics of the user of the transmitting device 1100 is applied is output. There is an advantage to do.
한편 도 6a 내지 도 7의 과정은, 전송 측 디바이스에 대응하는 키(S_key) 및 단말기에 대응하는 키(R_key)를 이용하여 구현될 수 있다.Meanwhile, the process of FIGS. 6A to 7 may be implemented using a key (S_key) corresponding to a transmission-side device and a key (R_key) corresponding to a terminal.
여기서 전송 측 디바이스에 대응하는 키(S_key)는 전송 측 디바이스(1100) 고유의 식별 정보를 의미할 수 있다.Here, the key S_key corresponding to the transmission-side device may mean identification information unique to the transmission-side device 1100.
또한 수신 측 디바이스에 대응하는 키(R_key)는 단말기(100) 고유의 식별 정보를 의미할 수 있다.In addition, a key (R_key) corresponding to the receiving device may mean identification information unique to the terminal 100.
이와 관련해서는 도 6a 내지 도 7을 다시 참고하여 설명한다.This will be described with reference to FIGS. 6A to 7 again.
도 6a를 참고하면, 전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.Referring to FIG. 6A, the processor of the transmission-side device 1100 may receive an input of a message from a user of the transmission-side device through an input unit.
이 경우 전송측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 키(S_key)를 단말기(100)에 전송할 수 있다(S605).In this case, the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S605).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message.
또한 단말기(100)의 프로세서(180)는 메시지와 함께 전송 측 디바이스(100)에 대응하는 키(S_key)를 수신할 수 있다.In addition, the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트, 전송 측 디바이스(100)에 대응하는 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 전송 측 디바이스(1100)에 전송할 수 있다(S610). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.In addition, the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the transmission-side device 1100. There is (S610). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 전송 측 디바이스(1100)의 프로세서는, 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한지 판단할 수 있다.In this case, the processor of the transmission-side device 1100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한 경우, 전송 측 디바이스(1100)의 프로세서는 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.In addition, when the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100, the processor of the transmission-side device 1100 may input the received text into the speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.In this case, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
그리고 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 합성 음성을 전송할 수 있다(S615).Then, the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
한편 전송 측 디바이스(1100)에 대응하는 키(S_key)와 함께 단말기(100)에 대응하는 키(R_key)가 수신된 경우, 전송 측 디바이스(1100)의 프로세서는, 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한지 판단할 수 있다. 또한 전송 측 디바이스(1100)의 프로세서는 수신된 단말기(100)에 대응하는 키(R_key)에 기초하여 단말기(100)에 합성 음성을 수신할 권한이 존재하는지 판단할 수 있다.On the other hand, when a key (S_key) corresponding to the transmission device 1100 and a key (R_key) corresponding to the terminal 100 are received, the processor of the transmission device 1100, the key received from the terminal 100 It may be determined whether is the same as the key (S_key) corresponding to the transmitting device (1100). Also, the processor of the transmitting side device 1100 may determine whether the terminal 100 has the authority to receive the synthesized voice based on the key R_key corresponding to the received terminal 100.
구체적으로 전송 측 디바이스(1100)의 메모리에는 복수의 단말기 각각에 대하여 합성 음성을 수신할 권한이 존재하는지 여부에 대한 정보가 저장될 수 있다. 예를 들어 단말기(100)에 합성 음성을 수신할 권한이 존재하는 경우, 전송 측 디바이스(1100)의 메모리에는 단말기(100)에 대응하는 키(R_key)가 저장될 수 있다.Specifically, the memory of the transmitting side device 1100 may store information about whether a right to receive the synthesized voice exists for each of a plurality of terminals. For example, when the terminal 100 has the authority to receive the synthesized voice, a key R_key corresponding to the terminal 100 may be stored in the memory of the transmitting device 1100.
그리고 전송 측 디바이스(1100)의 프로세서는 수신된 단말기(100)에 대응하는 키(R_key) 및 메모리에 저장된 정보에 기초하여 단말기(100)이 합성 음성을 수신할 권한이 존재하는지 판단할 수 있다.In addition, the processor of the transmitting side device 1100 may determine whether the terminal 100 is authorized to receive the synthesized voice based on the key R_key corresponding to the received terminal 100 and information stored in the memory.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일하고 단말기(100)에 합성 음성을 수신할 권한이 존재하는 경우, 전송 측 디바이스(1100)의 프로세서는 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.And if the key received from the terminal 100 is the same as the key (S_key) corresponding to the transmitting device 1100, and the terminal 100 has the authority to receive the synthesized voice, the processor of the transmitting device 1100 Can input the received text into the speech synthesis engine.
이 경우 음성 합성 엔진은 전송 측 디바이스의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 생성할 수 있다.In this case, the speech synthesis engine may generate a synthesized speech in which the voice characteristics of the user of the transmitting device are applied to the text.
그리고 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 합성 음성을 전송할 수 있다(S615).Then, the processor of the transmitting side device 1100 may transmit the synthesized voice to the terminal 100 (S615).
한편 전송 측 디바이스(1100)는 수신된 단말기(100)에 대응하는 키(R_key)를 메모리에 저장할 수 있다.Meanwhile, the transmission-side device 1100 may store a key R_key corresponding to the received terminal 100 in a memory.
도 6b를 참고하면, 전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.Referring to FIG. 6B, the processor of the transmitting device 1100 may receive an input of a message from a user of the transmitting device through an input unit.
이 경우 전송측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 키(S_key)를 단말기(100)에 전송할 수 있다(S655).In this case, the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S655).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다. 또한 단말기(100)의 프로세서(180)는 메시지와 함께 전송 측 디바이스(100)에 대응하는 키(S_key)를 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message. In addition, the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트, 전송 측 디바이스(100)에 대응하는 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 전송 측 디바이스(1100)에 전송할 수 있다(S660). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.In addition, the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the transmission-side device 1100. Yes (S660). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 전송 측 디바이스(1100)의 프로세서는, 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한지 판단할 수 있다.In this case, the processor of the transmission-side device 1100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한 경우, 전송 측 디바이스(1100)의 프로세서는 수신된 텍스트를 서버에 전송할 수 있다(S665).In addition, when the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100, the processor of the transmission-side device 1100 may transmit the received text to the server (S665).
이 경우 서버(2100)는 합성 음성을 전송 측 디바이스(1100)에 전송하고(S670), 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 합성 음성을 전송할 수 있다(S675).In this case, the server 2100 transmits the synthesized voice to the transmitting device 1100 (S670), and the processor of the transmitting device 1100 can transmit the synthesized voice to the terminal 100 (S675).
한편 전송 측 디바이스(1100)에 대응하는 키(S_key)와 함께 단말기(100)에 대응하는 키(R_key)가 수신된 경우, 전송 측 디바이스(1100)의 프로세서는, 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한지 판단할 수 있다. 또한 전송 측 디바이스(1100)의 프로세서는 수신된 단말기(100)에 대응하는 키(R_key)에 기초하여 단말기(100)에 합성 음성을 수신할 권한이 존재하는지 판단할 수 있다.On the other hand, when a key (S_key) corresponding to the transmission device 1100 and a key (R_key) corresponding to the terminal 100 are received, the processor of the transmission device 1100, the key received from the terminal 100 It may be determined whether is the same as the key (S_key) corresponding to the transmitting device (1100). Also, the processor of the transmitting side device 1100 may determine whether the terminal 100 has the authority to receive the synthesized voice based on the key R_key corresponding to the received terminal 100.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일하고 단말기(100)에 합성 음성을 수신할 권한이 존재하는 경우, 전송 측 디바이스(1100)의 프로세서는 수신된 텍스트를 서버에 전송할 수 있다(S665).And if the key received from the terminal 100 is the same as the key (S_key) corresponding to the transmitting device 1100, and the terminal 100 has the authority to receive the synthesized voice, the processor of the transmitting device 1100 Can transmit the received text to the server (S665).
이 경우 서버(2100)는 합성 음성을 전송 측 디바이스(1100)에 전송하고(S670), 전송 측 디바이스(1100)의 프로세서는 단말기(100)에 합성 음성을 전송할 수 있다(S675).In this case, the server 2100 transmits the synthesized voice to the transmitting device 1100 (S670), and the processor of the transmitting device 1100 can transmit the synthesized voice to the terminal 100 (S675).
한편 전송 측 디바이스(1100)는 수신된 단말기(100)에 대응하는 키(R_key)를 메모리에 저장할 수 있다.Meanwhile, the transmission-side device 1100 may store a key R_key corresponding to the received terminal 100 in a memory.
도 7을 참고하면, 전송 측 디바이스(1100)는 전송 측 디바이스(1100)에 대응하는 키(S_key)를 미리 서버(2100)와 공유할 수 있다(S705).Referring to FIG. 7, the transmission-side device 1100 may share a key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance (S705).
구체적으로 전송 측 디바이스(1100)는 전송 측 디바이스(1100)에 대응하는 키(S_key)를 미리 서버(2100)에 전송할 수 있다. 이 경우 서버(2100)는 전송 측 디바이스(1100)에 대응하는 키(S_key)를 서버 내 메모리에 저장할 수 있다.Specifically, the transmission-side device 1100 may transmit a key S_key corresponding to the transmission-side device 1100 to the server 2100 in advance. In this case, the server 2100 may store a key S_key corresponding to the transmission-side device 1100 in a memory in the server.
한편 전송 측 디바이스(1100)의 프로세서는 입력부를 통하여 전송 측 디바이스의 사용자로부터 메시지의 입력을 수신할 수 있다.Meanwhile, the processor of the transmitting device 1100 may receive an input of a message from a user of the transmitting device through the input unit.
이 경우 전송측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 키(S_key)를 단말기(100)에 전송할 수 있다(S710).In this case, the processor of the transmission-side device 1100 may transmit a message and a key (S_key) corresponding to the transmission-side device 1100 to the terminal 100 (S710).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다. 또한 단말기(100)의 프로세서(180)는 메시지와 함께 전송 측 디바이스(100)에 대응하는 키(S_key)를 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message. In addition, the processor 180 of the terminal 100 may receive a key S_key corresponding to the transmission-side device 100 together with a message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트, 전송 측 디바이스(100)에 대응하는 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 서버(2100)에 전송할 수 있다(S715). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.In addition, the processor 180 of the terminal 100 may transmit the extracted text, a key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the server 2100 ( S715). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 서버(2100)는 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한지 판단할 수 있다.In this case, the server 2100 may determine whether the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 키(S_key)와 동일한 경우, 서버(2100)는 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.In addition, when the key received from the terminal 100 is the same as the key S_key corresponding to the transmission-side device 1100, the server 2100 may input the received text into the speech synthesis engine.
음성 합성 엔진이 합성 음성을 출력하는 경우 서버(2100)는 합성 음성을 단말기(100)에 전송하고(S720), 단말기(100)의 프로세서는 합성 음성을 출혁할 수 있다(S725).When the voice synthesis engine outputs the synthesized voice, the server 2100 transmits the synthesized voice to the terminal 100 (S720), and the processor of the terminal 100 may reinvent the synthesized voice (S725).
한편 전송 측 디바이스(1100)에 대응하는 키(S_key)와 함께 단말기(100)에 대응하는 키(R_key)가 수신된 경우, 서버(2100)는 수신된 단말기(100)에 대응하는 키(R_key)를 서버 내 메모리에 저장할 수 있다.On the other hand, when a key (S_key) corresponding to the device 1100 of the transmitting side and a key (R_key) corresponding to the terminal 100 are received, the server 2100 receives a key (R_key) corresponding to the received terminal 100 Can be stored in memory on the server.
그리고 전송 측 디바이스(1100)로부터 로그 요청이 수신되면, 서버(2100)는 수신된 단말기(100)에 대응하는 키(R_key)를 전송 측 디바이스(1100)에 전송할 수 있다.Also, when a log request is received from the transmitting device 1100, the server 2100 may transmit a key R_key corresponding to the received terminal 100 to the transmitting device 1100.
합성 음성은 개인의 프라이버시에 관련된 것이기 때문에 누구에게나 제공되서는 안된다.Synthetic speech should not be given to anyone, because it concerns personal privacy.
따라서 본 발명에 따르면, 전송 측 디바이스(1100)는 전송 측 디바이스(1100)에 대응하는 키(S_key)를 이용하여 메시지를 수신한 사용자가 합성 음성을 요청한 것인지를 판단할 수 있으며, 이에 따라 제 3자의 합성 음성 해킹에 대항할 수 있다.Therefore, according to the present invention, the transmitting device 1100 may determine whether the user who received the message requests the synthesized voice using the key (S_key) corresponding to the transmitting device 1100, and accordingly, the third It can fight against synthetic speech hacking.
또한 본 발명에 따르면, 단말기(100)에 대응하는 키(R_key)를 이용함으로써 합성 음성을 수신할 권한이 있는 타인에게만 합성 음성을 제공할 수 있는 장점이 있다.In addition, according to the present invention, by using a key (R_key) corresponding to the terminal 100 has the advantage that can be provided only to other people who are authorized to receive the synthesized voice.
또한 본 발명에 따르면, 단말기(100)에 대응하는 키(R_key)를 저장함으로써, 추후에 사용자에게 합성 음성을 수신한 타인의 목록을 제공할 수 있는 장점이 있다.In addition, according to the present invention, by storing the key (R_key) corresponding to the terminal 100, there is an advantage that can provide a list of others who received the synthesized voice to the user later.
도 8 내지 도 9는 복수의 전송 측 디바이스로부터 메시지가 수신되는 경우의 동작 방법을 설명하기 위한 도면이다.8 to 9 are diagrams for describing an operation method when a message is received from a plurality of transmission-side devices.
단말기(100)의 프로세서(180)는 전송 측 디바이스(1100)로부터 메시지(920)를 수신하고, 전송 측 디바이스(1100)의 사용자의 음성 특성이 메시지에 포함되는 텍스트에 적용된 합성 음성을 수신하고, 합성 음성을 출력할 수 있다.The processor 180 of the terminal 100 receives the message 920 from the transmission-side device 1100, receives the synthesized voice applied to the text in which the voice characteristics of the user of the transmission-side device 1100 are included in the message, Synthetic voice can be output.
또한 단말기(100)의 프로세서(180)는 제2 전송 측 디바이스(1200)로부터 제2 메시지(930)를 수신하고, 제2 전송 측 디바이스(1200)의 사용자의 음성 특성이 제2 메시지에 포함되는 텍스트에 적용된 제2 합성 음성을 수신하고, 합성 음성을 출력할 수 있다.In addition, the processor 180 of the terminal 100 receives the second message 930 from the second transmission-side device 1200, and the voice characteristics of the user of the second transmission-side device 1200 are included in the second message. The second synthesized voice applied to the text may be received and the synthesized voice may be output.
또한 단말기(100)의 프로세서(180)는 제3 전송 측 디바이스(1300)로부터 제3 메시지(940)를 수신하고, 제3 전송 측 디바이스(1300)의 사용자의 음성 특성이 제3 메시지에 포함되는 텍스트에 적용된 제3 합성 음성을 수신하고, 제3 합성 음성을 출력할 수 있다.In addition, the processor 180 of the terminal 100 receives the third message 940 from the third transmission-side device 1300, and the voice characteristic of the user of the third transmission-side device 1300 is included in the third message The third synthesized voice applied to the text may be received, and the third synthesized voice may be output.
이와 관련된 동작을, 텍스트를 서버에 전송하고 음성 합성 엔진이 서버에 탑재되는 실시 예를 들어 간단하게 설명한다. An operation related to this will be briefly described with an example in which text is transmitted to a server and a speech synthesis engine is mounted on the server.
도 8을 참고하면, 전송 측 디바이스(1100)는 전송 측 디바이스(1100)에 대응하는 제1 키(S_key)를 미리 서버(2100)와 공유할 수 있다.Referring to FIG. 8, the transmission-side device 1100 may share the first key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance.
또한 서버(2100)에는 텍스트에 전송 측 디바이스(1100)의 음성 특성을 적용한 합성 음성을 생성하는 제1 음성 합성 엔진이 탑재될 수 있다.In addition, the server 2100 may be equipped with a first speech synthesis engine that generates synthesized speech by applying the speech characteristics of the transmission-side device 1100 to text.
한편 전송 측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 제1 키(S_key)를 단말기(100)에 전송할 수 있다(S805).Meanwhile, the processor of the transmission-side device 1100 may transmit a message and a first key S_key corresponding to the transmission-side device 1100 to the terminal 100 (S805).
한편 단말기(100)의 프로세서(180)는 메시지를 수신하고, 수신된 메시지로부터 텍스트를 추출할 수 있다. 또한 단말기(100)의 프로세서(180)는 메시지와 함께 전송 측 디바이스(100)에 대응하는 제1 키(S_key)를 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive a message and extract text from the received message. In addition, the processor 180 of the terminal 100 may receive a first key S_key corresponding to the transmission-side device 100 together with a message.
그리고 단말기(100)의 프로세서(180)는 추출된 텍스트, 전송 측 디바이스(100)에 대응하는 제1 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 서버(2100)에 전송할 수 있다(S810). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.In addition, the processor 180 of the terminal 100 may transmit the extracted text, a first key (S_key) corresponding to the transmission-side device 100, and a key (R_key) corresponding to the terminal 100 to the server 2100. Yes (S810). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 서버(2100)는 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 제1 키(S_key)와 동일한지 판단할 수 있다.In this case, the server 2100 may determine whether the key received from the terminal 100 is the same as the first key S_key corresponding to the transmission-side device 1100.
그리고 단말기(100)로부터 수신된 키가 전송 측 디바이스(1100)에 대응하는 제1 키(S_key)와 동일한 경우, 서버(2100)는 수신된 텍스트를 음성 합성 엔진에 입력할 수 있다.In addition, when the key received from the terminal 100 is the same as the first key S_key corresponding to the transmission-side device 1100, the server 2100 may input the received text into the speech synthesis engine.
음성 합성 엔진이 합성 음성을 출력하는 경우 서버(2100)는 합성 음성을 단말기(100)에 전송할 수 있다(S815).When the voice synthesis engine outputs the synthesized voice, the server 2100 may transmit the synthesized voice to the terminal 100 (S815).
또한 도 8을 참고하면, 제2 전송 측 디바이스(1200)는 제2 전송 측 디바이스(1200)에 대응하는 제2 키(S_key)를 미리 제2 서버(2200)와 공유할 수 있다.Also, referring to FIG. 8, the second transmission-side device 1200 may share the second key S_key corresponding to the second transmission-side device 1200 with the second server 2200 in advance.
또한 제2 서버(2200)에는 텍스트에 제2 전송 측 디바이스(1200)의 음성 특성을 적용한 합성 음성을 생성하는 제2 음성 합성 엔진이 탑재될 수 있다.In addition, the second server 2200 may be equipped with a second speech synthesis engine that generates synthesized speech by applying speech characteristics of the second transmission-side device 1200 to text.
한편 제2 전송 측 디바이스(1200)의 프로세서는 제2 메시지 및 제2 전송 측 디바이스(1200)에 대응하는 제2 키(S_key)를 단말기(100)에 전송할 수 있다(S820).Meanwhile, the processor of the second transmission-side device 1200 may transmit the second message and the second key S_key corresponding to the second transmission-side device 1200 to the terminal 100 (S820).
한편 단말기(100)의 프로세서(180)는 제2 메시지를 수신하고, 수신된 제2 메시지로부터 제2 텍스트를 추출할 수 있다. 또한 단말기(100)의 프로세서(180)는 제2 메시지와 함께 제2 전송 측 디바이스(100)에 대응하는 제2 키(S_key)를 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive the second message and extract the second text from the received second message. Also, the processor 180 of the terminal 100 may receive a second key S_key corresponding to the second transmission-side device 100 together with the second message.
그리고 단말기(100)의 프로세서(180)는 추출된 제2 텍스트, 제2 전송 측 디바이스(1200)에 대응하는 제2 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 제2 서버(2200)에 전송할 수 있다(S825). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.Then, the processor 180 of the terminal 100 extracts the extracted second text, the second key (S_key) corresponding to the second transmission-side device 1200, and the key (R_key) corresponding to the terminal 100 as the second server. It can be transmitted to (2200) (S825). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 제2 서버(2200)는 단말기(100)로부터 수신된 키가 제2 전송 측 디바이스(1200)에 대응하는 제2 키(S_key)와 동일한지 판단할 수 있다.In this case, the second server 2200 may determine whether the key received from the terminal 100 is the same as the second key S_key corresponding to the second transmission-side device 1200.
그리고 단말기(100)로부터 수신된 키가 제2 전송 측 디바이스(1200)에 대응하는 제2 키(S_key)와 동일한 경우, 제2 서버(2200)는 수신된 제2 텍스트를 제2 음성 합성 엔진에 입력할 수 있다.And when the key received from the terminal 100 is the same as the second key (S_key) corresponding to the second transmission-side device 1200, the second server 2200 transmits the received second text to the second speech synthesis engine. You can type.
제2 음성 합성 엔진이 제2 합성 음성을 출력하는 경우 제2 서버(2200)는 제2 합성 음성을 단말기(100)에 전송할 수 있다(S830).When the second speech synthesis engine outputs the second synthesis speech, the second server 2200 may transmit the second synthesis speech to the terminal 100 (S830).
또한 도 8을 참고하면, 제3 전송 측 디바이스(1300)는 제3 전송 측 디바이스(1300)에 대응하는 제3 키(S_key)를 미리 제3 서버(2300)와 공유할 수 있다.Also, referring to FIG. 8, the third transmission-side device 1300 may share a third key S_key corresponding to the third transmission-side device 1300 with the third server 2300 in advance.
또한 제3 서버(2300)에는 텍스트에 제3 전송 측 디바이스(1300)의 음성 특성을 적용한 합성 음성을 생성하는 제3 음성 합성 엔진이 탑재될 수 있다.In addition, the third server 2300 may be equipped with a third speech synthesis engine that generates synthesized speech by applying speech characteristics of the third transmission-side device 1300 to text.
한편 제3 전송 측 디바이스(1300)의 프로세서는 제3 메시지 및 제3 전송 측 디바이스(1300)에 대응하는 제3 키(S_key)를 단말기(100)에 전송할 수 있다(S835).Meanwhile, the processor of the third transmission side device 1300 may transmit the third message (S_key) corresponding to the third message and the third transmission side device 1300 to the terminal 100 (S835).
한편 단말기(100)의 프로세서(180)는 제3 메시지를 수신하고, 수신된 제3 메시지로부터 제3 텍스트를 추출할 수 있다. 또한 단말기(100)의 프로세서(180)는 제3 메시지와 함께 제3 전송 측 디바이스(100)에 대응하는 제3 키(S_key)를 수신할 수 있다.Meanwhile, the processor 180 of the terminal 100 may receive the third message and extract the third text from the received third message. Also, the processor 180 of the terminal 100 may receive a third key S_key corresponding to the third transmission-side device 100 together with the third message.
그리고 단말기(100)의 프로세서(180)는 추출된 제3 텍스트, 제3 전송 측 디바이스(1300)에 대응하는 제3 키(S_key) 및 단말기(100)에 대응하는 키(R_key)를 제3 서버(2300)에 전송할 수 있다(S840). 여기서 단말기(100)에 대응하는 키(R_key)가 전송되는 과정은 생략이 가능하다.Then, the processor 180 of the terminal 100 extracts the extracted third text, the third key (S_key) corresponding to the third transmission-side device 1300, and the key (R_key) corresponding to the terminal 100 to the third server. It can be transmitted to (2300) (S840). Here, the process of transmitting the key R_key corresponding to the terminal 100 may be omitted.
이 경우 제3 서버(2200)는 단말기(100)로부터 수신된 키가 제3 전송 측 디바이스(1300)에 대응하는 제3 키(S_key)와 동일한지 판단할 수 있다.In this case, the third server 2200 may determine whether the key received from the terminal 100 is the same as the third key S_key corresponding to the third transmission-side device 1300.
그리고 단말기(100)로부터 수신된 키가 제3 전송 측 디바이스(1300)에 대응하는 제3 키(S_key)와 동일한 경우, 제3 서버(2300)는 수신된 제3 텍스트를 제3 음성 합성 엔진에 입력할 수 있다.And when the key received from the terminal 100 is the same as the third key (S_key) corresponding to the third transmission-side device 1300, the third server 2300 sends the received third text to the third speech synthesis engine. You can type.
제3 음성 합성 엔진이 제3 합성 음성을 출력하는 경우 제3 서버(2300)는 제3 합성 음성을 단말기(100)에 전송할 수 있다(S845).When the third speech synthesis engine outputs the third speech synthesis, the third server 2300 may transmit the third speech synthesis to the terminal 100 (S845).
한편 도 9를 참고하면, 전송 측 디바이스(1100)의 사용자, 제2 전송 측 디바이스(1200)의 사용자 및 제3 전송 측 디바이스(1300)의 사용자는 메신저 애플리케이션의 하나의 대화방(910)에 참여한 사용자 들일 수 있다.On the other hand, referring to Figure 9, the user of the transmission side device 1100, the user of the second transmission side device 1200 and the user of the third transmission side device 1300 are users who participated in one chat room 910 of the messenger application Can be
이 경우 메시지(920), 제2 메시지(930) 및 제3 메시지(940)는 하나의 대화방(910)에 입력되는 메시지일 수 있다.In this case, the message 920, the second message 930, and the third message 940 may be messages input to one chat room 910.
그리고 단말기(100)의 프로세서(180)는 전송 측 디바이스(1100)로부터 수신된 메시지(920), 제2 전송 측 디바이스(1200)로부터 수신된 제2 메시지(930) 및 제3 전송 측 디바이스(1300)로부터 수신된 제3메시지(940)를 하나의 대화 방(910)에 디스플레이 할 수 있다.In addition, the processor 180 of the terminal 100 includes a message 920 received from the transmitting device 1100, a second message 930 received from the second transmitting device 1200, and a third transmitting device 1300. ) May display the third message 940 received from one chat room 910.
한편 합성 음성을 출력하기 위한 입력이 입력부를 통하여 수신되면, 프로세서(180)는 복수의 전송 측 디바이스에 의해 하나의 대화방에 입력된 복수의 메시지에 대응하는 복수의 합성 음성을 출력할 수 있다.Meanwhile, when an input for outputting a synthesized voice is received through the input unit, the processor 180 may output a plurality of synthesized voices corresponding to a plurality of messages inputted into one chat room by a plurality of transmission-side devices.
구체적으로 합성 음성을 출력하기 위한 입력이 수신되면, 단말기(100)의 프로세서(180)는 전송 측 디바이스(1100)로부터 수신된 메시지(920)에 대응하는 합성 음성을 출력하고, 추가적인 입력 없이도 제2 전송 측 디바이스(1200)로부터 수신된 메시지(930)에 대응하는 합성 음성을 출력할 수 있다.Specifically, when an input for outputting the synthesized voice is received, the processor 180 of the terminal 100 outputs the synthesized voice corresponding to the message 920 received from the transmitting device 1100, and the second without the additional input. The synthesized voice corresponding to the message 930 received from the transmitting device 1200 may be output.
한편 단말기(100)의 프로세서(180)는 메시지가 수신된 순서대로 합성 음성을 출력할 수 있다.Meanwhile, the processor 180 of the terminal 100 may output synthesized voices in the order in which the messages are received.
구체적으로 전송 측 디바이스(1100)로부터 수신된 메시지(920) 및 제2 전송 측 디바이스(1200)로부터 수신된 제2 메시지(930) 중 메시지(920)가 먼저 수신된 경우, 단말기(100)의 프로세서는 디바이스(1100)로부터 수신된 메시지(920)에 포함되는 텍스트에 전송 측 디바이스(1100)의 사용자의 음성 특성을 적용한 합성 음성을 먼저 출력할 수 있다.Specifically, when the message 920 is first received among the message 920 received from the transmission-side device 1100 and the second message 930 received from the second transmission-side device 1200, the processor of the terminal 100 May output the synthesized voice in which the voice characteristic of the user of the transmitting side device 1100 is applied to the text included in the message 920 received from the device 1100.
그리고 메시지(920)에 포함되는 텍스트에 전송 측 디바이스(1100)의 사용자의 음성 특성을 적용한 합성 음성을 먼저 출력하기 시작한 이후, 단말기(100)의 프로세서는 제2 디바이스(1200)로부터 수신된 메시지(930)에 포함되는 텍스트에 제2 전송 측 디바이스(1200)의 사용자의 음성 특성을 적용한 제2 합성 음성의 출력을 시작할 수 있다.Then, after starting to output the synthesized voice that applies the voice characteristics of the user of the transmitting device 1100 to the text included in the message 920, the processor of the terminal 100 receives the message received from the second device 1200 ( The output of the second synthesized voice in which the voice characteristics of the user of the second transmission side device 1200 is applied to the text included in 930 may be started.
한편 단말기(100)의 프로세서는 합성 음성의 출력이 종료되면 제2 합성 음성의 출력을 시작할 수 있다.Meanwhile, the processor of the terminal 100 may start outputting the second synthesized voice when the output of the synthesized voice is finished.
예를 들어 단말기(100)의 프로세서는 “나 방금 집에 왔어”라는 음성을 출력할 수 있다. 그리고 “나 방금 집에 왔어”라는 음성의 출력이 종료되면, 단말기(100)의 프로세서는 “나는 아직 집에 가는 중”이라는 음성을 출력할 수 있다.For example, the processor of the terminal 100 may output a voice saying “I just came home”. And when the output of the voice “I just came home” is finished, the processor of the terminal 100 may output the voice “I am still going home”.
한편 단말기(100)의 프로세서는 합성 음성이 출력되는 중 제2 합성 음성의 출력을 시작할 수 있다.Meanwhile, the processor of the terminal 100 may start outputting the second synthesized voice while the synthesized voice is being output.
구체적으로 메시지(920)가 수신되어 합성 음성이 출력되는 중 제2 메시지(930)가 수신된 경우, 단말기(100)의 프로세서는 제2 메시지(930)에 포함되는 텍스트에 제2 전송 측 디바이스(1200)의 사용자의 음성 특성을 적용한 제2 합성 음성을 수신할 수 있다.Specifically, when the second message 930 is received while the message 920 is received and the synthesized voice is being output, the processor of the terminal 100 transmits the second transmission-side device to the text included in the second message 930 ( 1200) may receive a second synthesized voice to which the user's voice characteristics are applied.
그리고 단말기(100)의 프로세서는 합성 음성이 출력되는 중 제2 합성 음성의 출력을 시작할 수 있다.In addition, the processor of the terminal 100 may start outputting the second synthesized voice while the synthesized voice is being output.
즉 단말기(100)의 프로세서는 합성 음성과 제2 제2 합성 음성을 함께 출력할 수 있다.That is, the processor of the terminal 100 may output the synthesized voice and the second second synthesized voice together.
예를 들어 단말기(100)의 프로세서는 “나 방금 집에 왔어”라는 음성을 출력할 수 있다. 그리고 “나 방금”까지 출력된 상태에서, 단말기(100)의 프로세서는 “집에 왔어”라는 음성과 “나는 아직 집에”라는 음성을 함께 출력할 수 있다. 그리고 “나 방금 집에 왔어”라는 음성의 출력이 종료된 상태에서 단말기(100)의 프로세서는 “가는 중”이라는 음성을 출력할 수 있다.For example, the processor of the terminal 100 may output a voice saying “I just came home”. Then, in the state of outputting “I just”, the processor of the terminal 100 may output a voice of “I am at home” and a voice of “I am still at home”. In addition, the processor of the terminal 100 may output a voice of “going” while the output of the voice of “I just came home” is finished.
이와 같이 본 발명에 따르면, 사용자는 합성 음성 만으로도 메시지의 발신자가 누구인지 구별할 수 있는 장점이 있다. 예를 들어 메시지를 성우나 연예인 등의 목소리로 읽는 경우, 사용자로서는 누구로부터 발신된 메시지인지를 알 수 없다As described above, according to the present invention, the user has the advantage of being able to distinguish who the originator of the message is using only synthetic speech. For example, if a message is read with a voice of a voice actor or a celebrity, the user cannot know who the message was from.
특히 복수의 사용자가 대화에 참여하는 경우 대화방을 보지 않는 상태에서는 누가 보낸 메시지인지 알 수 없으며, 누가 보낸 메시지인지 안내하는 음성을 일일히 출력하는 경우에는 빠른 속도로 입력되는 메시지들에 대하여 대응할 수 없다.In particular, when a plurality of users participate in a conversation, it is not possible to know who sent the message without looking at the chat room, and when outputting a voice prompting who is sending the message, it is not possible to respond to messages input at a high speed. .
다만 본 발명에 따르면, 복수의 발신자로부터 메시지가 수신되는 경우에도, 사용자는 음성 출력 만으로도 메시지의 발신자가 누구인지를 신속하게 파악할 수 있는 장점이 있다.However, according to the present invention, even when a message is received from a plurality of senders, the user has an advantage of quickly grasping who the sender of the message is only by voice output.
또한 본 발명에 따르면, 특정 합성 음성의 출력이 완료된 후 다름 합성 음성을 출력함으로써, 메시지의 내용을 사용자에게 명확하게 전달할 수 있는 장점이 있다.In addition, according to the present invention, after the output of a specific synthesized voice is completed, by outputting another synthesized voice, there is an advantage that the content of the message can be clearly transmitted to the user.
또한 본 발명에 따르면, 단말기는 합성 음성이 출력되는 중 제2 메시지가 출력되면, 합성 음성과 제2 합성 음성을 함께 출력한다. 이에 따라 본 발명에 따르면, 빠른 속도로 입력되는 메시지들에 대응이 가능하고, 실제 메시지가 수신되는 속도에 따라 합성 음성이 출력되기 때문에 사용자에게 실제 대화에 참여한 듯한 효과를 줄 수 있다.Further, according to the present invention, when the second message is output while the synthesized voice is being output, the terminal outputs the synthesized voice and the second synthesized voice together. Accordingly, according to the present invention, since it is possible to respond to messages input at a high speed, and synthesized voice is output according to the speed at which the actual message is received, it is possible to give the user the effect of participating in a real conversation.
도 10은 본 발명의 실시 예에 따른, 전송 측 디바이스 입장에서 복수의 다른 사용자들에게 다른 메시지를 전달하는 방법을 설명하기 위한 도면이다.10 is a diagram for explaining a method of delivering different messages to a plurality of different users from a transmission-side device perspective according to an embodiment of the present invention.
도 10을 참고하면, 전송 측 디바이스(1100)는 전송 측 디바이스(1100)에 대응하는 제1-1 키(S_key) 및 제1-2 키(S_key)를 미리 서버(2100)와 공유할 수 있다.Referring to FIG. 10, the transmission-side device 1100 may share the first-first key S_key and the first-second key S_key corresponding to the transmission-side device 1100 with the server 2100 in advance. .
여기서 제1-1 키(S_key)는 전송 측 디바이스(1100) 고유의 식별 정보로써 합성 음성에 대한 접근을 승인하는 키 일 수 있다.Here, the first-first key S_key is identification information unique to the transmission-side device 1100 and may be a key for authorizing access to the synthesized voice.
반면에 제1-2 키(S_key)는 전송 측 디바이스(1100) 고유의 식별 정보로써 합성 음성에 대한 접근을 미 승인하는 키 일 수 있다.On the other hand, the 1-2 key (S_key) may be a key that does not approve access to the synthesized voice as identification information unique to the transmitting device 1100.
한편 전송 측 디바이스(1100)의 프로세서는 시간 대에 따라 합성 음성에 대한 접근 권한을 설정할 수 있다.Meanwhile, the processor of the transmission-side device 1100 may set the access authority for the synthesized voice according to the time zone.
예를 들어 전송 측 디바이스(1100)의 프로세서는 오전 8시부터 오후 9시까지는 제1-1 키(S_key)를 단말기에 전송하고, 오후 9시부터 오전 8시까지는 제1-2 키(S_key)를 단말기에 전송할 수 있다.For example, the processor of the transmission-side device 1100 transmits the 1-1 key (S_key) to the terminal from 8 am to 9 pm, and the 1-2 key (S_key) from 9 pm to 8 am To the terminal.
한편 전송 측 디바이스(1100)의 프로세서는 기 설정된 시간에 대하여 접근 권한을 설정할 수 있다.Meanwhile, the processor of the transmission-side device 1100 may set access authority for a preset time.
예를 들어 전송 측 디바이스(1100)의 프로세서가 단말기에 세시간 동안 접근 권한을 부여한 경우, 제1-1 키(S_key)를 단말기에 전송할 수 있다. 그리고 제1-1 키(S_key)를 단말기에 전송한 이후 세시 간 이내에 단말기로부터 제1-1 키(S_key)가 수신되는 경우, 전송 측 디바이스(1100)의 프로세서 또는 서버는 합성 음성을 단말기에 제공할 수 있다. 또한 제1-1 키(S_key)를 단말기에 전송한 이후 세시 간이 경과한 후에 단말기로부터 제1-1 키(S_key)가 수신되는 경우, 전송 측 디바이스(1100)의 프로세서 또는 서버는 합성 음성을 단말기에 제공하지 않을 수 있다.For example, when the processor of the transmitting device 1100 grants access to the terminal for three hours, the first-1 key (S_key) may be transmitted to the terminal. In addition, if the first-first key (S_key) is received from the terminal within three hours after transmitting the first-first key (S_key) to the terminal, the processor or server of the transmitting-side device 1100 provides the synthesized voice to the terminal. can do. In addition, when the first-first key (S_key) is received from the terminal after three hours have elapsed since the first-first key (S_key) was transmitted to the terminal, the processor or server of the transmitting-side device 1100 sends the synthesized voice to the terminal. May not be provided.
한편 전송 측 디바이스(1100)의 프로세서는 사용자로부터 수신되는 입력에 기초하여 복수의 단말기(100, 3200, 3300, 3400) 별로 합성 음성에 대한 접근 권한을 설정할 수 있다. 이 경우 전송 측 디바이스(1100)의 프로세서는 사용자 입력에 기초하여 접근 권한을 미리 설정할 수도 있으며, 사용자 입력에 기초하여 메시지를 보내는 시점에 접근 권한을 설정할 수도 있다.Meanwhile, the processor of the transmission-side device 1100 may set access rights to the synthesized voice for each of a plurality of terminals 100, 3200, 3300, and 3400 based on an input received from a user. In this case, the processor of the transmitting side device 1100 may set the access authority in advance based on the user input, or may set the access authority at the time of sending the message based on the user input.
예를 들어 전송 측 디바이스(1100)의 프로세서는, 단말기(100)에는 합성 음성에 대한 접근을 허가하지 않고, 다른 단말기(3200, 3300, 3400)에는 합성 음성에 대한 접근을 허가하도록 설정할 수 있다.For example, the processor of the transmission-side device 1100 may set the terminal 100 to not allow access to the synthesized voice, and to allow other terminals 3200, 3300, and 3400 to access the synthesized voice.
이 경우 전송 측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 제1-1 키(S_key)를 제2 단말기(3200)에 전송할 수 있다. 이 경우 제2 단말기(3200)는 텍스트 및 제1-1 키(S_key)를 서버(2100)에 전송하고, 서버(2100)로부터 합성 음성을 수신할 수 있다.In this case, the processor of the transmission-side device 1100 may transmit the message and the 1-1 key S_key corresponding to the transmission-side device 1100 to the second terminal 3200. In this case, the second terminal 3200 may transmit the text and the first-first key (S_key) to the server 2100 and receive the synthesized voice from the server 2100.
또한 전송 측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 제1-1 키(S_key)를 제3 단말기(3300)에 전송할 수 있다. 이 경우 제3 단말기(3300)는 텍스트 및 제1-1 키(S_key)를 서버(2100)에 전송하고, 서버(2100)로부터 합성 음성을 수신할 수 있다.Also, the processor of the transmission-side device 1100 may transmit the message and the 1-1 key S_key corresponding to the transmission-side device 1100 to the third terminal 3300. In this case, the third terminal 3300 may transmit the text and the first-first key (S_key) to the server 2100 and receive the synthesized voice from the server 2100.
한편 전송 측 디바이스(1100)의 프로세서는 메시지 및 전송 측 디바이스(1100)에 대응하는 제1-2 키(S_key)를 단말기(100)에 전송할 수 있다. 이 경우 단말기(100)는 텍스트 및 제1-2 키(S_key)를 서버(2100)에 전송할 수 있다.Meanwhile, the processor of the transmission-side device 1100 may transmit a message and a 1-2 key (S_key) corresponding to the transmission-side device 1100 to the terminal 100. In this case, the terminal 100 may transmit the text and the 1-2 key (S_key) to the server 2100.
다만 서버(2100)는 단말기(100)에 합성 음성을 제공하지 않는다.However, the server 2100 does not provide the synthesized voice to the terminal 100.
이와 관련해서는 도 11을 참고하여 설명한다.This will be described with reference to FIG. 11.
도 11은 본 발명의 실시 예에 따른, 단말기에 합성 음성이 제공되지 않는 동작을 설명하기 위한 도면이다.11 is a diagram for describing an operation in which a synthesized voice is not provided to a terminal according to an embodiment of the present invention.
먼저 단말기(100)가 제1-2 키(S_key)(합성 음성에 대한 접근을 미 승인하는 키)를 수신한 경우에 대하여 설명한다.First, the case in which the terminal 100 receives the 1-2 key (S_key) (a key that does not approve access to the synthesized voice) will be described.
단말기(100)의 프로세서(180)는 제1-2 키(S_key) 및 제1 메시지를 전송 측 디바이스(1100)로부터 수신할 수 있다(S1105). 여기서 제1-2 키(S_key)는 전송 측 디바이스(1100) 고유의 식별 정보로써 합성 음성에 대한 접근을 미 승인하는 키 일 수 있다.The processor 180 of the terminal 100 may receive the 1-2 key (S_key) and the first message from the transmitting device 1100 (S1105). Here, the 1-2 key S_key is identification information unique to the transmission-side device 1100 and may be a key that does not approve access to the synthesized voice.
한편 단말기(100)의 프로세서(180)는 수신된 제1 메시지로부터 제1 텍스트를 추출할 수 있다.Meanwhile, the processor 180 of the terminal 100 may extract the first text from the received first message.
또한 단말기(100)의 프로세서(180)는 추출된 제1 텍스트 및 수신된 제1-2 키(S_key)를 서버(2100)로 전송할 수 있다(S1110).In addition, the processor 180 of the terminal 100 may transmit the extracted first text and the received 1-2 key (S_key) to the server 2100 (S1110).
한편 서버(2100)의 메모리에는 제1-1 키(S_key) 및 제1-2 키(S_key)에 대한 정보가 저장될 수 있다.Meanwhile, information on the first-first key S_key and the first-second key S_key may be stored in the memory of the server 2100.
그리고 서버(2100)는 단말기(100)로부터 수신된 키가 1-2 키(S_key)인 경우, 단말기(100)에 합성 음성을 제공하지 않을 수 있다(S1115).In addition, when the key received from the terminal 100 is a 1-2 key (S_key), the server 2100 may not provide the synthesized voice to the terminal 100 (S1115).
한편 단말기(100)는 합성 음성의 수신에 실패하였다. 이 경우 단말기(100)는 기 설정된 음성 특성(연예인, 성우, 기계음 등)이 제1 메시지에 적용된 합성 음성을 출력할 수 있다.Meanwhile, the terminal 100 has failed to receive the synthesized voice. In this case, the terminal 100 may output a synthesized voice in which a predetermined voice characteristic (celebrity, voice actor, machine sound, etc.) is applied to the first message.
다음은 단말기(100)가 제1-1 키(S_key)(합성 음성에 대한 접근을 승인하는 키)를 수신한 경우에 대하여 설명한다.The following describes a case in which the terminal 100 receives the first-first key (S_key) (the key for authorizing access to the synthesized voice).
단말기(100)의 프로세서(180)는 제1-1 키(S_key) 및 제1 메시지를 전송 측 디바이스(1100)로부터 수신할 수 있다. 여기서 제1-1 키(S_key)는 전송 측 디바이스(1100) 고유의 식별 정보로써 합성 음성에 대한 접근을 승인하는 키 일 수 있다.The processor 180 of the terminal 100 may receive the first-first key (S_key) and the first message from the transmission-side device 1100. Here, the first-first key S_key is identification information unique to the transmission-side device 1100 and may be a key for authorizing access to the synthesized voice.
한편 단말기(100)의 프로세서(180)는 전송 측 디바이스(1100)에 대응하는 키(key)가 합성 음성에 대한 접근을 승인하는 키(제1-1키)인 경우, 전송 측 디바이스(1100)의 사용자의 음성 특성이 텍스트에 적용된 합성 음성을 수신할 수 있다.On the other hand, the processor 180 of the terminal 100, if the key (key 1) to approve access to the synthesized voice (key 1-1) corresponding to the transmitting device 1100, the transmitting device 1100 The user's voice characteristics may receive the synthesized voice applied to the text.
구체적으로 단말기(100)의 프로세서(180)는 수신된 제1 메시지로부터 제1 텍스트를 추출할 수 있다.Specifically, the processor 180 of the terminal 100 may extract the first text from the received first message.
또한 단말기(100)의 프로세서(180)는 추출된 제1 텍스트 및 수신된 제1-1 키(S_key)를 서버(2100)로 전송할 수 있다.In addition, the processor 180 of the terminal 100 may transmit the extracted first text and the received first-1 key (S_key) to the server 2100.
한편 서버(2100)는 단말기(100)로부터 수신된 키가 합성 음성에 대한 접근을 승인하는 키인지 결정할 수 있다.Meanwhile, the server 2100 may determine whether the key received from the terminal 100 is a key that authorizes access to the synthesized voice.
그리고 서버(2100)는 단말기(100)로부터 수신된 키가 합성 음성에 대한 접근을 승인하는 1-1 키(S_key)인 경우, 단말기(100)에 합성 음성을 전송할 수 있다.In addition, the server 2100 may transmit the synthesized voice to the terminal 100 when the key received from the terminal 100 is a 1-1 key (S_key) that authorizes access to the synthesized voice.
이 경우 단말기(100)의 프로세서는 전송 측 디바이스(1100)의 음성 특성이 제1 메시지에 적용된 합성 음성을 수신하고, 수신된 합성 음성을 출력할 수 있다.In this case, the processor of the terminal 100 may receive the synthesized voice with the voice characteristic of the transmitting device 1100 applied to the first message, and output the received synthesized voice.
합성 음성은 개인의 프라이버시에 관련된 것이기 때문에 누구에게나 제공되서는 안된다.Synthetic speech should not be given to anyone, because it concerns personal privacy.
따라서 본 발명에 따르면, 전송 측 디바이스(1100)에서는 합성 음성에 대한 접근 권한을 설정할 수 있으며, 접근 권한이 설정되지 않은 단말기는 합성 음성을 수신할 수 없다. Therefore, according to the present invention, the transmission side device 1100 may set the access authority for the synthesized voice, and the terminal for which the access authority is not set cannot receive the synthesized voice.
이에 따라 본 발명에 따르면, 전송 측 디바이스의 사용자는 자신의 목소리의 특성을 제공할 사용자를 선택할 수 있는 장점이 있다.Accordingly, according to the present invention, the user of the transmission-side device has an advantage of selecting a user to provide characteristics of his/her voice.
한편, 프로세서(180)는 일반적으로 장치의 제어를 담당하는 구성으로, 중앙처리장치, 마이크로 프로세서, 제어부 등의 용어와 혼용될 수 있다.On the other hand, the processor 180 is a configuration in charge of controlling a device in general, and may be used interchangeably with terms such as a central processing unit, a microprocessor, and a control unit.
한편 본 발명의 실시 예에 따른 단말기(100)는 오디오 북일 수 있다. 이 경우 프로세서(180)는 복수의 텍스트 각각에 복수의 사람의 음성 특성을 적용하여 복수의 합성 음성을 출력할 수 있다.Meanwhile, the terminal 100 according to an embodiment of the present invention may be an audio book. In this case, the processor 180 may output a plurality of synthesized voices by applying voice characteristics of a plurality of people to each of the plurality of texts.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 송신)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The above-described present invention can be embodied as computer readable codes on a medium on which a program is recorded. The computer-readable medium includes all kinds of recording devices in which data readable by a computer system is stored. Examples of computer-readable media include a hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. This includes, and is also implemented in the form of a carrier wave (eg, transmission over the Internet). In addition, the computer may include a control unit 180 of the terminal. Accordingly, the above detailed description should not be construed as limiting in all respects, but should be considered illustrative. The scope of the invention should be determined by rational interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention.

Claims (15)

  1. 외부 장치와 통신하는 통신부;A communication unit communicating with an external device;
    음성을 출력하는 음향 출력부; 및An audio output unit for outputting voice; And
    전송 측 디바이스로부터 메시지를 수신하고, 상기 전송 측 디바이스의 사용자의 음성 특성이 상기 메시지에 적용된 합성 음성을 수신하고, 상기 합성 음성을 출력하는 프로세서를 포함하는And a processor for receiving a message from a transmitting device, receiving a synthesized voice having a user's voice characteristic applied to the message, and outputting the synthesized voice.
    단말기.terminal.
  2. 제 1항에 있어서,According to claim 1,
    상기 프로세서는,The processor,
    상기 전송 측 디바이스의 사용자의 음성 특성이 상기 메시지에 포함되는 텍스트에 적용된 합성 음성을 수신하고, 상기 합성 음성을 출력하는Receiving the synthesized voice applied to the text included in the message and outputting the synthesized voice, the voice characteristic of the user of the transmitting side device
    단말기.terminal.
  3. 제 2항에 있어서,According to claim 2,
    상기 메시지는,The above message,
    ’문자 또는 숫자’ 및 ‘이모티콘 또는 기호’를 포함하고,Contains ‘letters or numbers’ and ‘emoticons or symbols’,
    상기 메시지에 포함되는 텍스트는,The text included in the message,
    문자 또는 숫자를 포함하는Containing letters or numbers
    단말기.terminal.
  4. 제 1항에 있어서,According to claim 1,
    데이터를 저장하는 메모리; 및A memory for storing data; And
    사용자로부터 입력을 수신하는 입력부를 더 포함하고,Further comprising an input unit for receiving input from the user,
    상기 프로세서는,The processor,
    상기 합성 음성을 상기 메모리에 저장하고, 상기 합성 음성을 출력하기 위한 입력이 수신되면 상기 합성 음성을 출력하는The synthesized voice is stored in the memory, and when the input for outputting the synthesized voice is received, the synthesized voice is output.
    단말기.terminal.
  5. 제 4항에 있어서,The method of claim 4,
    영상을 디스플레이 하는 디스플레이부를 더 포함하고,Further comprising a display unit for displaying the image,
    상기 프로세서는,The processor,
    상기 메시지를 디스플레이 하기 이전에 상기 합성 음성을 출력하는Outputting the synthesized voice before displaying the message
    단말기.terminal.
  6. 제 2항에 있어서,According to claim 2,
    상기 프로세서는,The processor,
    제2 전송 측 디바이스로부터 제2 메시지를 수신하고, 상기 제2 전송 측 디바이스의 사용자의 음성 특성이 상기 제2 메시지에 포함되는 텍스트에 적용된 제2 합성 음성을 수신하고, 상기 제2 합성 음성을 출력하는Receive a second message from a second sending-side device, receive a second synthesized voice applied to text included in the second message, and output the second synthesized voice from a user of the second transmitting-side device doing
    단말기.terminal.
  7. 제 6항에 있어서,The method of claim 6,
    상기 전송 측 디바이스의 사용자 및 상기 제2 전송 측 디바이스의 사용자는 메신저 애플리케이션의 하나의 대화방에 참여한 사용자 들이고,The user of the transmission-side device and the user of the second transmission-side device are users participating in one chat room of the messenger application,
    상기 메시지 및 상기 제2 메시지는,The message and the second message,
    상기 하나의 대화방에 입력되는 메시지인The message that is entered in the one chat room
    단말기.terminal.
  8. 제 7항에 있어서,The method of claim 7,
    상기 프로세서는,The processor,
    상기 메시지 및 상기 제2 메시지 중 상기 메시지가 먼저 수신된 경우, 상기 합성 음성을 먼저 출력하는When the message is first received among the message and the second message, outputting the synthesized voice first
    단말기.terminal.
  9. 제 8항에 있어서,The method of claim 8,
    상기 프로세서는,The processor,
    상기 합성 음성의 출력이 종료되면 상기 제2 합성 음성의 출력을 시작하거나, 상기 합성 음성이 출력되는 중 상기 제2 합성 음성의 출력을 시작하는When the output of the synthesized voice is finished, the output of the second synthesized voice is started or the output of the second synthesized voice is started while the synthesized voice is being output.
    단말기.terminal.
  10. 제 8항에 있어서,The method of claim 8,
    상기 프로세서는,The processor,
    상기 합성 음성이 출력되는 중 상기 제2 메시지가 수신된 경우, 상기 합성 음성이 출력되는 중 상기 제2 합성 음성의 출력을 시작하는If the second message is received while the synthesized voice is being output, starting to output the second synthesized voice while the synthesized voice is being output
  11. 제 2항에 있어서,According to claim 2,
    상기 프로세서는,The processor,
    상기 전송 측 디바이스로부터, 상기 메시지와 함께 상기 전송 측 디바이스의 사용자의 음성 특성이 상기 텍스트에 적용된 상기 합성 음성을 수신하는Receiving, from the transmitting-side device, the synthesized voice applied to the text with a voice characteristic of the user of the transmitting-side device together with the message
    단말기.terminal.
  12. 제 2항에 있어서,According to claim 2,
    상기 프로세서는,The processor,
    상기 메시지가 수신되면 상기 텍스트를 상기 전송 측 디바이스 또는 서버로 전송하고, 상기 전송 측 디바이스 또는 상기 서버로부터 상기 전송 측 디바이스의 사용자의 음성 특성이 상기 텍스트에 적용된 상기 합성 음성을 수신하는When the message is received, the text is transmitted to the transmission-side device or server, and the synthesized voice applied to the text with the voice characteristics of the user of the transmission-side device is received from the transmission-side device or the server.
    단말기.terminal.
  13. 제 1항에 있어서,According to claim 1,
    상기 프로세서는,The processor,
    상기 메시지와 함께 상기 전송 측 디바이스에 대응하는 키(key)를 수신하고, 상기 전송 측 디바이스에 대응하는 키(key)를 상기 텍스트와 함께 전송하는A key corresponding to the transmitting-side device is received together with the message, and a key corresponding to the transmitting-side device is transmitted together with the text.
    단말기.terminal.
  14. 제 13항에 있어서,The method of claim 13,
    상기 프로세서는,The processor,
    상기 전송 측 디바이스에 대응하는 키(key)가 합성 음성에 대한 접근을 승인하는 키인 경우, 상기 전송 측 디바이스의 사용자의 음성 특성이 상기 텍스트에 적용된 상기 합성 음성을 수신하는If the key corresponding to the transmitting device is a key that authorizes access to the synthesized voice, the voice characteristic of the user of the transmitting device receives the synthesized voice applied to the text.
    단말기.terminal.
  15. 전송 측 디바이스로부터 메시지를 수신하는 단계;Receiving a message from the transmitting device;
    상기 전송 측 디바이스의 사용자의 음성 특성이 상기 메시지에 적용된 합성 음성을 수신하는 단계; 및Receiving a synthesized voice in which a voice characteristic of the user of the transmitting side device is applied to the message; And
    상기 합성 음성을 출력하는 단계를 포함하는And outputting the synthesized speech.
    단말기.terminal.
PCT/KR2019/000304 2019-01-08 2019-01-08 Terminal WO2020145428A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/000304 WO2020145428A1 (en) 2019-01-08 2019-01-08 Terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/000304 WO2020145428A1 (en) 2019-01-08 2019-01-08 Terminal

Publications (1)

Publication Number Publication Date
WO2020145428A1 true WO2020145428A1 (en) 2020-07-16

Family

ID=71521745

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000304 WO2020145428A1 (en) 2019-01-08 2019-01-08 Terminal

Country Status (1)

Country Link
WO (1) WO2020145428A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004377A (en) * 2003-06-10 2005-01-06 Kenwood Corp Portable communication terminal and program
JP2006060431A (en) * 2004-08-18 2006-03-02 Nec Corp Mobile telephone terminal and mail reception notification method of mobile telephone terminal
KR20060061612A (en) * 2004-12-02 2006-06-08 주식회사 팬택 Voice guiding method for text message and storage medium thereof and mobile terminal thereof
KR20070049730A (en) * 2005-11-09 2007-05-14 엘지전자 주식회사 Voice information service method for mobile communication network
KR20160017625A (en) * 2014-08-06 2016-02-16 주식회사 엘지화학 Method for changing contents of character data into transmitter's voice and outputting the transmiter's voice

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004377A (en) * 2003-06-10 2005-01-06 Kenwood Corp Portable communication terminal and program
JP2006060431A (en) * 2004-08-18 2006-03-02 Nec Corp Mobile telephone terminal and mail reception notification method of mobile telephone terminal
KR20060061612A (en) * 2004-12-02 2006-06-08 주식회사 팬택 Voice guiding method for text message and storage medium thereof and mobile terminal thereof
KR20070049730A (en) * 2005-11-09 2007-05-14 엘지전자 주식회사 Voice information service method for mobile communication network
KR20160017625A (en) * 2014-08-06 2016-02-16 주식회사 엘지화학 Method for changing contents of character data into transmitter's voice and outputting the transmiter's voice

Similar Documents

Publication Publication Date Title
WO2020138624A1 (en) Apparatus for noise canceling and method for the same
WO2020222444A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
WO2020196955A1 (en) Artificial intelligence device and method for operation of artificial intelligence device
WO2019031707A1 (en) Mobile terminal and method for controlling mobile terminal using machine learning
WO2020036425A1 (en) Artificial intelligence device
WO2020246634A1 (en) Artificial intelligence device capable of controlling operation of other devices, and operation method thereof
WO2020218650A1 (en) Electronic device
WO2020235696A1 (en) Artificial intelligence apparatus for interconverting text and speech by considering style, and method for same
WO2020235712A1 (en) Artificial intelligence device for generating text or speech having content-based style and method therefor
WO2017007064A1 (en) Mobile terminal and control method thereof
WO2020213758A1 (en) Speech-interactive artificial intelligence device and method therefor
WO2020230933A1 (en) Artificial intelligence device for recognizing voice of user and method for same
WO2020230926A1 (en) Voice synthesis apparatus for evaluating quality of synthesized voice by using artificial intelligence, and operating method therefor
WO2020032563A1 (en) System for processing user voice utterance and method for operating same
WO2021006404A1 (en) Artificial intelligence server
WO2020218635A1 (en) Voice synthesis apparatus using artificial intelligence, method for operating voice synthesis apparatus, and computer-readable recording medium
WO2016089075A1 (en) Wearable device and method of transmitting message from the same
WO2014021567A1 (en) Method for providing message service, and device and system therefor
WO2019212213A1 (en) Electronic device and method of executing function of electronic device
WO2020226213A1 (en) Artificial intelligence device for providing voice recognition function and method for operating artificial intelligence device
WO2019017715A1 (en) Electronic device and system for deciding duration of receiving voice input based on context information
AU2019319322B2 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
WO2019151802A1 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
WO2018174445A1 (en) Electronic device for performing operation according to user input after partial landing
WO2015084022A1 (en) Contents security method and electronic apparatus for providing contents security function

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908405

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19908405

Country of ref document: EP

Kind code of ref document: A1