WO2024085290A1 - Artificial intelligence device and operation method thereof - Google Patents

Artificial intelligence device and operation method thereof Download PDF

Info

Publication number
WO2024085290A1
WO2024085290A1 PCT/KR2022/016193 KR2022016193W WO2024085290A1 WO 2024085290 A1 WO2024085290 A1 WO 2024085290A1 KR 2022016193 W KR2022016193 W KR 2022016193W WO 2024085290 A1 WO2024085290 A1 WO 2024085290A1
Authority
WO
WIPO (PCT)
Prior art keywords
artificial intelligence
data
image data
voice
intelligence device
Prior art date
Application number
PCT/KR2022/016193
Other languages
French (fr)
Korean (ko)
Inventor
김성진
허진영
전영혁
김중락
허정
이재훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2022/016193 priority Critical patent/WO2024085290A1/en
Publication of WO2024085290A1 publication Critical patent/WO2024085290A1/en

Links

Images

Definitions

  • This disclosure relates to an artificial intelligence device that provides a phototoon service for a predetermined unit of data in video data and a method of operating the same.
  • the purpose of this disclosure is to provide an artificial intelligence device that provides a photo-toon service based on voice recognition technology and a method of operating the same.
  • a method of operating an artificial intelligence device includes: detecting an event; extracting at least one image data constituting the video data according to the event; Extracting voice data corresponding to the image data and STT processing it; combining the STT-processed data and the image data into one image; and outputting the synthesized image.
  • the event may include receiving a phototoon service request signal.
  • the at least one image data corresponds to any one of a frame, a scene, and a sequence unit that is a set of a plurality of scenes. It could be data.
  • the at least one image data may be determined based on an object in the video data.
  • the method includes detecting a face from the at least one image data; If the size of the detected face exceeds a threshold, recognizing the direction of the face; Recognizing the position of the mouth of the face; determining a position of a speech bubble that will contain the STT-processed data according to the direction of the face and the position of the mouth recognized with respect to the detected face; and compositing the image data so that a speech bubble containing the STT-processed data is positioned at the determined position of the speech balloon.
  • the speech bubble when a face is not detected from the at least one image data, the speech bubble is positioned to be output in one area of the screen. It may further include determining and compositing with the image data.
  • the at least one image data may correspond to a scene change section in the video or a sound output section.
  • the plurality of composite images are grouped and summarized according to a predefined standard. Therefore, only some composite images may be output.
  • An artificial intelligence device includes a display that outputs video data; and a processor that controls the display, wherein the processor detects an event, extracts at least one image data constituting the video data according to the event, and extracts voice data corresponding to the image data to perform STT. processing, the STT-processed data and the image data can be combined into one image to output a composite image.
  • the event includes receiving a phototoon service request signal, and the at least one image data is a frame, a scene, and a set of a plurality of scenes. It may be data corresponding to any one of sequence units.
  • the processor may determine the at least one image data based on an object in the video data.
  • the processor detects a face from the at least one image data, and when the size of the detected face exceeds a threshold, By recognizing the direction of the face and the position of the mouth, the position of the speech bubble that will contain the STT-processed data is determined according to the direction of the face and the mouth position recognized for the detected face, and the STT-processed data is placed at the position of the determined speech bubble. It can be combined with the image data so that a speech bubble containing the data is positioned.
  • the processor outputs the speech bubble to one area of the screen when a face is not detected from the at least one image data.
  • the location can be determined and combined with the image data.
  • the at least one image data may correspond to a scene change section in the video or a sound output section.
  • the processor when there are a plurality of composite images for the video data, the processor groups the plurality of composite images according to predefined criteria and In summary, only some composite images can be output.
  • FIG. 1 is a diagram for explaining a voice system according to an embodiment of the present invention.
  • Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device according to an embodiment of the present disclosure.
  • Figure 3 is a block diagram for explaining the configuration of a voice service server according to an embodiment of the present invention.
  • Figure 4 is a diagram illustrating an example of converting a voice signal into a power spectrum according to an embodiment of the present invention.
  • Figure 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of an artificial intelligence device, according to an embodiment of the present invention.
  • Figure 6 is a block diagram of a voice service system for providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
  • Figure 7 is a block diagram of the processor of Figure 6.
  • FIGS. 8 to 11 are flowcharts illustrating a method of providing a phototoon service according to the present disclosure.
  • Figures 12 to 14 are diagrams to explain a method of providing a phototoon service according to an embodiment of the present disclosure.
  • FIG. 15 is a diagram illustrating a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
  • Figures 16a and 16b are diagrams to explain a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
  • 'Artificial intelligence devices' described in this specification include mobile phones, smart phones, laptop computers, artificial intelligence devices for digital broadcasting, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, and slates.
  • PDAs personal digital assistants
  • PMPs portable multimedia players
  • PC slate PC
  • tablet PC tablet PC
  • ultrabook wearable device (e.g., watch-type artificial intelligence device (smartwatch), glass-type artificial intelligence device (smart glass), HMD ( head mounted display)), etc.
  • wearable device e.g., watch-type artificial intelligence device (smartwatch), glass-type artificial intelligence device (smart glass), HMD ( head mounted display)
  • HMD head mounted display
  • artificial intelligence devices may also be applied to fixed artificial intelligence devices such as smart TVs, desktop computers, digital signage, refrigerators, washing machines, air conditioners, and dishwashers.
  • the artificial intelligence device 10 can also be applied to a fixed or movable robot.
  • the artificial intelligence device 10 can perform the function of a voice agent.
  • a voice agent may be a program that recognizes the user's voice and outputs a response appropriate for the recognized user's voice as a voice.
  • FIG. 1 is a diagram for explaining a voice service system according to an embodiment of the present invention.
  • the voice service may include at least one of voice recognition and voice synthesis services.
  • the speech recognition and synthesis process converts the speaker's (or user's) voice data into text data, analyzes the speaker's intention based on the converted text data, and converts the text data corresponding to the analyzed intention into synthesized voice data. , It may include a process of outputting the converted synthesized voice data.
  • a voice service system as shown in Figure 1, can be used.
  • the voice service system includes an artificial intelligence device (10), a speech-to-text (STT) server (20), a Natural Language Processing (NLP) server (30), and a voice synthesis server ( 40) may be included.
  • a plurality of AI agent servers 50-1 to 50-3 communicate with the NLP server 30 and may be included in the voice service system.
  • the STT server 20, NLP server 30, and voice synthesis server 40 may exist as separate servers as shown, or may be included in one server.
  • a plurality of AI agent servers 50-1 to 50-3 may also exist as separate servers or may be included in the NLP server 30.
  • the artificial intelligence device 10 may transmit a voice signal corresponding to the speaker's voice received through the microphone 122 to the STT server 20.
  • the STT server 20 can convert voice data received from the artificial intelligence device 10 into text data.
  • the STT server 20 can increase the accuracy of voice-to-text conversion by using a language model.
  • a language model can refer to a model that can calculate the probability of a sentence or the probability of the next word appearing given the previous words.
  • the language model may include probabilistic language models such as Unigram model, Bigram model, N-gram model, etc.
  • the unigram model is a model that assumes that the usage of all words is completely independent of each other, and calculates the probability of a word string as the product of the probability of each word.
  • the bigram model is a model that assumes that the use of a word depends only on the previous word.
  • the N-gram model is a model that assumes that the usage of a word depends on the previous (n-1) words.
  • the STT server 20 can use the language model to determine whether text data converted from voice data has been appropriately converted, and through this, the accuracy of conversion to text data can be increased.
  • the NLP server 30 may receive text data from the STT server 20.
  • the STT server 20 may be included in the NLP server 30.
  • the NLP server 30 may perform intent analysis on text data based on the received text data.
  • the NLP server 30 may transmit intention analysis information indicating the result of intention analysis to the artificial intelligence device 10.
  • the NLP server 30 may transmit intention analysis information to the voice synthesis server 40.
  • the voice synthesis server 40 may generate a synthesized voice based on intent analysis information and transmit the generated synthesized voice to the artificial intelligence device 10.
  • the NLP server 30 may generate intention analysis information by sequentially performing a morpheme analysis step, a syntax analysis step, a dialogue act analysis step, and a dialogue processing step on text data.
  • the morpheme analysis step is a step that classifies text data corresponding to the voice uttered by the user into morpheme units, which are the smallest units with meaning, and determines what part of speech each classified morpheme has.
  • the syntax analysis step is a step that uses the results of the morpheme analysis step to classify text data into noun phrases, verb phrases, adjective phrases, etc., and determines what kind of relationship exists between each classified phrase.
  • the subject, object, and modifiers of the voice uttered by the user can be determined.
  • the speech act analysis step is a step of analyzing the intention of the voice uttered by the user using the results of the syntax analysis step. Specifically, the speech act analysis step is to determine the intent of the sentence, such as whether the user is asking a question, making a request, or simply expressing an emotion.
  • the conversation processing step is a step that uses the results of the dialogue act analysis step to determine whether to reply to the user's utterance, respond to it, or ask a question for additional information.
  • the NLP server 30 may generate intention analysis information including one or more of a response to the intention uttered by the user, a response, and an inquiry for additional information.
  • the NLP server 30 may transmit a search request to a search server (not shown) and receive search information corresponding to the search request in order to search for information that matches the user's utterance intention.
  • the search information may include information about the searched content.
  • the NLP server 30 transmits search information to the artificial intelligence device 10, and the artificial intelligence device 10 can output the search information.
  • the NLP server 30 may receive text data from the artificial intelligence device 10. For example, if the artificial intelligence device 10 supports a voice-to-text conversion function, the artificial intelligence device 10 converts voice data into text data and transmits the converted text data to the NLP server 30. .
  • the voice synthesis server 40 can generate a synthesized voice by combining pre-stored voice data.
  • the voice synthesis server 40 can record the voice of a person selected as a model and divide the recorded voice into syllables or words.
  • the voice synthesis server 40 can store the segmented voice in units of syllables or words in an internal or external database.
  • the voice synthesis server 40 may search for syllables or words corresponding to given text data from a database, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
  • the voice synthesis server 40 may store a plurality of voice language groups corresponding to each of a plurality of languages.
  • the speech synthesis server 40 may include a first audio language group recorded in Korean and a second audio language group recorded in English.
  • the speech synthesis server 40 may translate text data in the first language into text in the second language and generate synthesized speech corresponding to the translated text in the second language using the second speech language group.
  • the voice synthesis server 40 can transmit the generated synthesized voice to the artificial intelligence device 10.
  • the voice synthesis server 40 may receive analysis information from the NLP server 30.
  • the analysis information may include information analyzing the intention of the voice uttered by the user.
  • the voice synthesis server 40 may generate a synthesized voice that reflects the user's intention based on the analysis information.
  • the functions of the STT server 20, NLP server 30, and voice synthesis server 40 described above may also be performed by the artificial intelligence device 10.
  • the artificial intelligence device 10 may include one or more processors.
  • Each of the plurality of AI agent servers 50-1 to 50-3 may transmit search information to the NLP server 30 or the artificial intelligence device 10 according to a request from the NLP server 30.
  • the NLP server 30 transmits the content search request to one or more of the plurality of AI agent servers 50-1 to 50-3, , content search results can be received from the corresponding server.
  • the NLP server 30 may transmit the received search results to the artificial intelligence device 10.
  • Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device 10 according to an embodiment of the present disclosure.
  • the artificial intelligence device 10 includes a communication unit 110, an input unit 120, a learning processor 130, a sensing unit 140, an output unit 150, a memory 170, and a processor 180. may include.
  • the communication unit 110 can transmit and receive data with external devices using wired and wireless communication technology.
  • the communication unit 110 may transmit and receive sensor information, user input, learning models, and control signals with external devices.
  • communication technologies used by the communication unit 110 include GSM (Global System for Mobile communication), CDMA (Code Division Multi Access), LTE (Long Term Evolution), LTV-A (advanced), 5G, WLAN (Wireless LAN), These include Wi-Fi (Wireless-Fidelity), BluetoothTM, RFID (Radio Frequency Identification), Infrared Data Association (IrDA), ZigBee, and NFC (Near Field Communication).
  • GSM Global System for Mobile communication
  • CDMA Code Division Multi Access
  • LTE Long Term Evolution
  • LTV-A long Term Evolution
  • 5G Fifth Generation
  • WLAN Wireless LAN
  • Wi-Fi Wireless-Fidelity
  • BluetoothTM BluetoothTM
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • ZigBee ZigBee
  • NFC Near Field Communication
  • the input unit 120 can acquire various types of data.
  • the input unit 120 may include a camera for inputting video signals, a microphone for receiving audio signals, and a user input unit for receiving information from a user.
  • the camera or microphone may be treated as a sensor, and the signal obtained from the camera or microphone may be referred to as sensing data or sensor information.
  • the input unit 120 may acquire training data for model learning and input data to be used when obtaining an output using the learning model.
  • the input unit 120 may acquire unprocessed input data, and in this case, the processor 180 or the learning processor 130 may extract input features by preprocessing the input data.
  • the input unit 120 may include a camera 121 for inputting video signals, a microphone 122 for receiving audio signals, and a user input unit 123 for receiving information from the user. there is.
  • Voice data or image data collected by the input unit 120 may be analyzed and processed as a user's control command.
  • the input unit 120 is for inputting image information (or signal), audio information (or signal), data, or information input from the user. To input image information, one or more artificial intelligence devices 10 are used. of cameras 121 may be provided.
  • the camera 121 processes image frames such as still images or moving images obtained by an image sensor in video call mode or shooting mode.
  • the processed image frame may be displayed on the display unit 151 or stored in the memory 170.
  • the microphone 122 processes external acoustic signals into electrical voice data.
  • Processed voice data can be used in various ways depending on the function (or application program being executed) being performed by the artificial intelligence device 10. Meanwhile, various noise removal algorithms may be applied to the microphone 122 to remove noise generated in the process of receiving an external acoustic signal.
  • the user input unit 123 is for receiving information from the user.
  • the processor 180 can control the operation of the artificial intelligence device 10 to correspond to the input information. there is.
  • the user input unit 123 is a mechanical input means (or mechanical key, such as a button, dome switch, jog wheel, jog switch, etc. located on the front/rear or side of the terminal 100) and It may include a touch input means.
  • the touch input means consists of a virtual key, soft key, or visual key displayed on the touch screen through software processing, or a part other than the touch screen. It can be done with a touch key placed in .
  • the learning processor 130 can train a model composed of an artificial neural network using training data.
  • the learned artificial neural network may be referred to as a learning model.
  • a learning model can be used to infer a result value for new input data other than learning data, and the inferred value can be used as the basis for a decision to perform an operation.
  • the learning processor 130 may include memory integrated or implemented in the artificial intelligence device 10. Alternatively, the learning processor 130 may be implemented using the memory 170, an external memory directly coupled to the artificial intelligence device 10, or a memory maintained in an external device.
  • the sensing unit 140 may use various sensors to obtain at least one of internal information of the artificial intelligence device 10, information about the surrounding environment of the artificial intelligence device 10, and user information.
  • the sensors included in the sensing unit 140 include a proximity sensor, illuminance sensor, acceleration sensor, magnetic sensor, gyro sensor, inertial sensor, RGB sensor, IR sensor, fingerprint recognition sensor, ultrasonic sensor, light sensor, microphone, and lidar. , radar, etc.
  • the output unit 150 may generate output related to vision, hearing, or tactile sensation.
  • the output unit 150 includes at least one of a display unit (Display Unit, 151), a sound output unit (152), a haptic module (153), and an optical output unit (Optical Output Unit, 154). It can be included.
  • the display unit 151 displays (outputs) information processed by the artificial intelligence device 10.
  • the display unit 151 may display execution screen information of an application running on the artificial intelligence device 10, or UI (User Interface) and GUI (Graphic User Interface) information according to such execution screen information.
  • UI User Interface
  • GUI Graphic User Interface
  • the display unit 151 can implement a touch screen by forming a layered structure or being integrated with the touch sensor.
  • This touch screen functions as a user input unit 123 that provides an input interface between the artificial intelligence device 10 and the user, and can simultaneously provide an output interface between the terminal 100 and the user.
  • the audio output unit 152 may output audio data received from the communication unit 110 or stored in the memory 170 in call signal reception, call mode or recording mode, voice recognition mode, broadcast reception mode, etc.
  • the sound output unit 152 may include at least one of a receiver, a speaker, and a buzzer.
  • the haptic module 153 generates various tactile effects that the user can feel.
  • a representative example of a tactile effect generated by the haptic module 153 may be vibration.
  • the optical output unit 154 uses light from the light source of the artificial intelligence device 10 to output a signal to notify the occurrence of an event. Examples of events that occur in the artificial intelligence device 10 may include receiving a message, receiving a call signal, missed call, alarm, schedule notification, receiving email, receiving information through an application, etc.
  • the memory 170 can store data supporting various functions of the artificial intelligence device 10.
  • the memory 170 may store input data, learning data, learning models, learning history, etc. obtained from the input unit 120.
  • the processor 180 may determine at least one executable operation of the artificial intelligence device 10 based on information determined or generated using a data analysis algorithm or a machine learning algorithm. And the processor 180 can control the components of the artificial intelligence device 10 to perform the determined operation.
  • the processor 180 may request, retrieve, receive, or utilize data from the learning processor 130 or the memory 170, and may artificially execute an operation that is predicted or determined to be desirable among the at least one executable operation. Components of the intelligent device 10 can be controlled.
  • the processor 180 may generate a control signal to control the external device and transmit the generated control signal to the external device.
  • the processor 180 may obtain intent information for user input and determine the user's request based on the obtained intent information.
  • the processor 180 may obtain intent information corresponding to the user input by using at least one of an STT engine for converting voice input into a character string or an NLP engine for obtaining intent information of natural language.
  • At least one of the STT engine and the NLP engine may be composed of at least a portion of an artificial neural network learned according to a machine learning algorithm. And, at least one of the STT engine or the NLP engine is learned by the learning processor 130, learned by the learning processor 240 of the AI server 200, or learned by distributed processing thereof. It could be.
  • the processor 180 collects history information including the user's feedback on the operation of the artificial intelligence device 10 and stores it in the memory 170 or the learning processor 130 or the AI server 200, etc. Can be transmitted to external devices. The collected historical information can be used to update the learning model.
  • the processor 180 may control at least some of the components of the artificial intelligence device 10 to run an application program stored in the memory 170. Furthermore, the processor 180 may operate two or more of the components included in the artificial intelligence device 10 in combination with each other in order to run the application program.
  • Figure 3 is a block diagram for explaining the configuration of the voice service server 200 according to an embodiment of the present invention.
  • the voice service server 200 may include one or more of the STT server 20, NLP server 30, and voice synthesis server 40 shown in FIG. 1.
  • the voice service server 200 may be referred to as a server system.
  • the voice service server 200 may include a preprocessor 220, a controller 230, a communication unit 270, and a database 290.
  • the preprocessing unit 220 may preprocess the voice received through the communication unit 270 or the voice stored in the database 290.
  • the preprocessing unit 220 may be implemented as a separate chip from the controller 230 or may be implemented as a chip included in the controller 230.
  • the preprocessor 220 may receive a voice signal (uttered by a user) and filter noise signals from the voice signal before converting the received voice signal into text data.
  • the preprocessor 220 If the preprocessor 220 is provided in the artificial intelligence device 10, it can recognize a startup word for activating voice recognition of the artificial intelligence device 10.
  • the preprocessor 220 converts the startup word received through the microphone 121 into text data, and if the converted text data is text data corresponding to a pre-stored startup word, it may be determined that the startup word has been recognized. .
  • the preprocessor 220 may convert the noise-removed voice signal into a power spectrum.
  • the power spectrum may be a parameter that indicates which frequency components and at what magnitude are included in the temporally varying waveform of a voice signal.
  • the power spectrum shows the distribution of squared amplitude values according to the frequency of the waveform of the voice signal.
  • Figure 4 is a diagram illustrating an example of converting a voice signal into a power spectrum according to an embodiment of the present invention.
  • the voice signal 410 may be received from an external device or may be a signal previously stored in the memory 170.
  • the x-axis of the voice signal 310 may represent time, and the y-axis may represent amplitude.
  • the power spectrum processor 225 may convert the voice signal 410, where the x-axis is the time axis, into a power spectrum 430, where the x-axis is the frequency axis.
  • the power spectrum processor 225 may convert the voice signal 410 into a power spectrum 430 using Fast Fourier Transform (FFT).
  • FFT Fast Fourier Transform
  • the x-axis of the power spectrum 430 represents frequency, and the y-axis represents the square value of amplitude.
  • the functions of the preprocessor 220 and the controller 230 described in FIG. 3 can also be performed by the NLP server 30.
  • the pre-processing unit 220 may include a wave processing unit 221, a frequency processing unit 223, a power spectrum processing unit 225, and an STT converting unit 227.
  • the wave processing unit 221 can extract the waveform of the voice.
  • the frequency processing unit 223 can extract the frequency band of the voice.
  • the power spectrum processing unit 225 can extract the power spectrum of the voice.
  • the power spectrum may be a parameter that indicates which frequency components and at what size are included in the waveform.
  • the STT converter 227 can convert voice into text.
  • the STT conversion unit 227 can convert voice in a specific language into text in that language.
  • the controller 230 can control the overall operation of the voice service server 200.
  • the controller 230 may include a voice analysis unit 231, a text analysis unit 232, a feature clustering unit 233, a text mapping unit 234, and a voice synthesis unit 235.
  • the voice analysis unit 231 may extract voice characteristic information using one or more of the voice waveform, voice frequency band, and voice power spectrum preprocessed in the preprocessor 220.
  • the voice characteristic information may include one or more of the speaker's gender information, the speaker's voice (or tone), the pitch of the sound, the speaker's speaking style, the speaker's speech speed, and the speaker's emotion.
  • the voice characteristic information may further include the speaker's timbre.
  • the text analysis unit 232 may extract key expressions from the text converted by the speech-to-text conversion unit 227.
  • the text analysis unit 232 When the text analysis unit 232 detects a change in tone between phrases from the converted text, it can extract the phrase with a different tone as the main expression phrase.
  • the text analysis unit 232 may determine that the tone has changed when the frequency band between the phrases changes more than a preset band.
  • the text analysis unit 232 may extract key words from phrases in the converted text.
  • a key word may be a noun that exists within a phrase, but this is only an example.
  • the feature clustering unit 233 can classify the speaker's speech type using the voice characteristic information extracted from the voice analysis unit 231.
  • the feature clustering unit 233 may classify the speaker's utterance type by assigning a weight to each type item constituting the voice characteristic information.
  • the feature clustering unit 233 can classify the speaker's utterance type using the attention technique of a deep learning model.
  • the text mapping unit 234 may translate the text converted into the first language into the text of the second language.
  • the text mapping unit 234 may map the text translated into the second language with the text of the first language.
  • the text mapping unit 234 can map key expressions constituting the text in the first language to corresponding phrases in the second language.
  • the text mapping unit 234 may map the utterance type corresponding to the main expression phrases constituting the text of the first language to phrases of the second language. This is to apply the classified utterance type to the phrases of the second language.
  • the voice synthesis unit 235 applies the utterance type and speaker's tone classified by the feature clustering unit 233 to the main expressions of the text translated into the second language in the text mapping unit 234, and creates a synthesized voice. can be created.
  • the controller 230 may determine the user's speech characteristics using one or more of the delivered text data or the power spectrum 430.
  • the user's speech characteristics may include the user's gender, the user's pitch, the user's tone, the user's speech topic, the user's speech speed, and the user's voice volume.
  • the controller 230 may use the power spectrum 430 to obtain the frequency of the voice signal 410 and the amplitude corresponding to the frequency.
  • the controller 230 can determine the gender of the user who uttered the voice using the frequency band of the power spectrum 430.
  • the controller 230 may determine the user's gender as male.
  • the controller 230 may determine the user's gender as female.
  • the second frequency band range may be larger than the first frequency band range.
  • the controller 230 can determine the pitch of the voice using the frequency band of the power spectrum 430.
  • the controller 230 may determine the pitch of the sound according to the size of the amplitude within a specific frequency band.
  • the controller 230 may determine the user's tone using the frequency band of the power spectrum 430. For example, the controller 230 may determine a frequency band with an amplitude greater than a certain level among the frequency bands of the power spectrum 430 as the user's main sound range, and determine the determined main sound range as the user's tone.
  • the controller 230 may determine the user's speech rate based on the number of syllables uttered per unit time from the converted text data.
  • the controller 230 can determine the topic of the user's speech using the Bag-Of-Word Model technique for the converted text data.
  • the Bag-Of-Word Model technique is a technique to extract frequently used words based on the frequency of words in a sentence.
  • the Bag-Of-Word Model technique is a technique that extracts unique words within a sentence and expresses the frequency of each extracted word as a vector to determine the characteristics of the topic of speech.
  • the topic of the user's speech may be classified as exercise.
  • the controller 230 can determine the topic of the user's speech from text data using a known text categorization technique.
  • the controller 230 can extract keywords from text data and determine the topic of the user's speech.
  • the controller 230 can determine the user's voice volume by considering amplitude information in the entire frequency band.
  • the user's voice quality can be determined based on the average or weighted average of the amplitude in each frequency band of the power spectrum of the controller 230.
  • the communication unit 270 may communicate with an external server by wire or wirelessly.
  • the database 290 may store the voice of the first language included in the content.
  • the database 290 may store a synthesized voice in which the voice of the first language is converted into the voice of the second language.
  • the database 290 may store a first text corresponding to a voice in the first language and a second text in which the first text is translated into the second language.
  • the database 290 may store various learning models required for voice recognition.
  • the processor 180 of the artificial intelligence device 10 shown in FIG. 2 may include the preprocessor 220 and the controller 230 shown in FIG. 3.
  • the processor 180 of the artificial intelligence device 10 may perform the functions of the preprocessor 220 and the controller 230.
  • Figure 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of the artificial intelligence device 10, according to an embodiment of the present invention.
  • the voice recognition and synthesis process of FIG. 5 may be performed by the learning processor 130 or processor 180 of the artificial intelligence device 10 without going through the server.
  • the processor 180 of the artificial intelligence device 10 may include an STT engine 510, an NLP engine 530, and a voice synthesis engine 550.
  • Each engine can be either hardware or software.
  • the STT engine 510 may perform the function of the STT server 20 of FIG. 1. That is, the STT engine 510 can convert voice data into text data.
  • the NLP engine 530 may perform the functions of the NLP server 30 of FIG. 1. That is, the NLP engine 530 can obtain intention analysis information indicating the speaker's intention from the converted text data.
  • the voice synthesis engine 550 may perform the function of the voice synthesis server 40 of FIG. 1.
  • the speech synthesis engine 550 may search a database for syllables or words corresponding to given text data, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
  • the voice synthesis engine 550 may include a preprocessing engine 551 and a TTS engine 553.
  • the preprocessing engine 551 may preprocess text data before generating synthetic speech.
  • the preprocessing engine 551 performs tokenization by dividing text data into tokens, which are meaningful units.
  • the preprocessing engine 551 may perform a cleansing operation to remove unnecessary characters and symbols to remove noise.
  • the preprocessing engine 551 can generate the same word token by integrating word tokens with different expression methods.
  • the preprocessing engine 551 may remove meaningless word tokens (stopwords).
  • the TTS engine 553 can synthesize speech corresponding to preprocessed text data and generate synthesized speech.
  • voice service technology e.g., voice recognition, voice synthesis, etc.
  • video data of various lengths based on various platforms consumed by artificial intelligence devices will be described. do.
  • Phototoon described in this disclosure is a compound word of photo and toon, and is an image (still image or video format) for a desired portion (e.g., all or part) of video data provided through the artificial intelligence device 10. ) is acquired, the corresponding voice data is converted to text, and then a composite image (still image or video format) is displayed by combining the acquired image with the converted text.
  • the process of creating and providing a phototoon for video data in the artificial intelligence device 10 is referred to as a ‘phototoon service’.
  • the present disclosure is not limited to the above terms.
  • the artificial intelligence device 10 can provide a summary service (summary or summary data) for desired portions of target video data through the phototoon service.
  • the phototoon service may be provided in such a way that the target video data is output as is, but the phototoon composite image is output only in a specific section, that is, the phototoon service section.
  • the phototoon service may be provided in such a way that a phototoon composite image for a specific section is generated separately from the playback of the target video, and only the phototoon service that outputs only the phototoon composite image is output.
  • a plurality of phototoon service sections or a plurality of phototoon composite images may be generated and service provided for one target video.
  • the artificial intelligence device 10 may sense an event, for example, skip each phototoon service section according to the user's request through a remote control device, and provide a service to the user so that he or she can consume the target video.
  • the artificial intelligence device 10 distinguishes sections (areas) available for phototoon service within the target video, and allows the user to identify and identify each divided phototoon service section. Can be provided for selection.
  • the artificial intelligence device 10 can list them and provide them for selection, and output the selected phototoon service data.
  • phototoon composite data can be generated in units of desired sections.
  • the ‘desired section’ may represent, for example, a frame, a scene, or a sequence unit composed of a plurality of scenes.
  • the artificial intelligence device 10 provides phototoon composite data only for some scene(s) (or main scenes), not all scenes constituting the sequence. can be created. However, it is not necessarily limited to the above contents.
  • Voice recognition technology may be processed by an STT engine (and NLP engine) provided in the artificial intelligence device 10, but is not necessarily limited to this.
  • voice recognition technology may be processed through the STT server 20 and NLP server 30 in the voice service server 200 and transmitted to the artificial intelligence device 10.
  • the artificial intelligence device (10) creates and provides a phototoon service menu item on the dashboard or menu of various artificial intelligence devices (10) so that users can easily enter and use the phototoon service, or provides an application dedicated to the phototoon service. It can be downloaded and installed for use. Alternatively, when an event request such as selection or playback of a video of a preset length or longer is received, the artificial intelligence device 10 may provide an icon or an OSD message (On Screen Display message) as a guide for using the phototoon service. there is.
  • OSD message On Screen Display message
  • the voice service server 200 can provide a phototoon service platform and can support or guide the use of the phototoon service for target video data in the form of a web service or web app through the artificial intelligence device 10.
  • Figure 6 is a block diagram of a voice service system for providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
  • FIG. 7 is a block diagram of the processor 620 of FIG. 6.
  • a voice service system for providing a phototoon service based on a voice recognition function may be configured to include an artificial intelligence device 10.
  • the voice service server 200 may replace all or part of the functions related to the phototoon service of the artificial intelligence device 10.
  • the artificial intelligence device 10 may include an output unit 150 and a processing unit 600 that output phototoon service data and/or video data including phototoon service data.
  • the processing unit 600 may include a memory 610 and a processor 620.
  • the processor 620 controls the overall functions of the processing unit 600 and can perform operations to provide the phototoon service.
  • the processor 620 includes a data reception unit 710, a detection unit 720, a voice recognition engine 730, a synthesis unit 740, and a control unit 750 to provide the phototoon service. You can.
  • at least one of the various components constituting the processor 620 may be implemented in the form of a plurality of modules, unlike shown.
  • the processor 620 may further include at least one component not shown in FIG. 7.
  • the data receiver 710 may receive video data, identify a phototoon service request section (or a phototoon service-capable candidate section), and process the identified phototoon service-capable candidate sections by dividing them into predetermined units.
  • the predetermined unit may be the above-mentioned frame unit, scene unit, sequence unit, etc. This distinction can be made only for the target video to which the phototoon service is applied or the phototoon service request section of the target video.
  • the detection unit 720 can detect phototoon service-related information for a predetermined unit within the target video data.
  • the information detected in this way may include at least one of scene/sequence change information, main scene information, facial feature information, face-based representative scene information, and voice information.
  • the detection unit 720 may include a preprocessing module, a learning module, etc., and can automatically detect at least one of the above-described information by learning the generated artificial intelligence model related to the phototoon service.
  • the voice recognition engine 730 includes an STT engine and can convert voice information corresponding to image information detected through the detector 720 into text information. As described above, depending on the embodiment, the function of the voice recognition engine 730 may be performed by the STT server 20 in the voice recognition server 200, and in this case, in FIG. 7, the voice recognition engine 730 is It can be disabled or excluded from configuration.
  • the synthesis unit 740 can process and synthesize the image information detected by the detection unit 720 and the text information converted through the voice recognition engine 730 so that they are in sync.
  • the control unit 750 may control the overall operation and functions of the processor 620.
  • the control unit 750 can control each of the above components to provide the phototoon service according to the present disclosure to the target video.
  • the processor 620 may have the same configuration as the processor 180 of FIG. 2, but may also have a separate configuration.
  • the artificial intelligence device 10 may be replaced by or operate together with the voice service server 200 depending on the context.
  • FIGS. 8 to 11 are flowcharts illustrating a method of providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
  • Figures 12 to 14 are diagrams to explain a method of providing a phototoon service according to an embodiment of the present disclosure.
  • Figure 8 is described from the perspective of the processor 620 for convenience of explanation, but is not limited thereto.
  • the processor 620 may output video data through the output unit 150 (S101).
  • the processor 620 may detect an event (S103).
  • Events can represent various inputs, actions, etc. related to the Phototoon service.
  • the event may represent the reception of a user's phototoon service request signal through a remote control device (not shown).
  • the remote control device may include a remote control, a mobile device such as a smartphone or tablet PC installed with an application for data communication with the artificial intelligence device 10, an artificial intelligence speaker, etc.
  • This event may or may not occur while watching video data, for example in step S101.
  • an event may be provided as a menu item on the home menu or may occur through voice input in an any screen state (eg, a state in which a video is not playing). In this sense, step S101 may not be essential.
  • the artificial intelligence device 10 can provide a video list and provide a phototoon service for the selected video. These video lists may also include broadcast programs.
  • the processor 620 may extract image data in a predetermined unit (S105).
  • the predetermined unit may be any one of units such as a frame, scene, or sequence.
  • one may be a scene unit and the other may be a sequence unit.
  • the predetermined unit may represent, for example, a playback section arbitrarily set by the user.
  • the predetermined unit may represent, for example, a section in which an object selected by the user is output.
  • the object may be a concept including people, objects, etc.
  • only one person may be selected, and only the scene or section in which the selected person appears may be included in the predetermined unit.
  • the predetermined unit may be determined based on a theme, attribute, etc., rather than a physical object.
  • the artificial intelligence device 10 may set and provide cooking in a predetermined unit, that is, a theme, and provide the selection. Accordingly, only the sections related to cooking within the playback section of the target video can be extracted and used in the phototoon service.
  • the artificial intelligence device 10 extracts information for the phototoon service in predetermined units within the requested video playback section, but the requested video playback section does not necessarily need to be a continuous playback section.
  • the artificial intelligence device 10 may generate one phototoon service data based on a preset unit for each video. For example, if the theme of ‘cooking’ is set as a unit and multiple Phototoon service target videos are selected, a section related to cooking can be extracted from each target video to automatically generate one Phototoon service data.
  • the artificial intelligence device 10 can provide a list of currently playable videos regardless of the Phototoon service, and may also provide identification information about whether or not the Phototoon service is available for each video on the provided video list.
  • the processor 620 may extract voice data corresponding to the extracted predetermined unit of image data (S107).
  • the processor 620 may STT process the extracted corresponding voice data (S109).
  • the processor 620 can synthesize the extracted image data by aligning the converted voice data, that is, text data, so that they are in sync (S111).
  • the processor 620 may provide a phototoon service based on a synthetic image (S113).
  • the processor 620 detects a change in a predetermined unit within the video. For example, in FIG. 9, the processor 620 can detect (or sense) whether there is a scene change (S201).
  • Scene change detection may refer to either determining whether a scene change section exists in the target video or detecting data corresponding to the scene change section.
  • the predetermined unit can be automatically set based on the scene change section.
  • the scene change may be a section corresponding to the predetermined unit of Figure 8 described above.
  • the processor 620 may detect a main scene (or important scene) for each partial clip (S203).
  • the processor 620 may detect facial features in key scenes of each detected partial clip (S205).
  • the processor 620 may detect a representative scene based on the facial features of the main scene of each partial clip detected in step S205 (S207).
  • the processor 620 may extract voice data of a section corresponding to the representative scene detected in step S207 (S209).
  • the processor 620 may process STT conversion on the voice data extracted in step S209 (S211).
  • the processor 620 may synthesize the representative scene detected in step S207 and the STT-processed data in step S211 (S213).
  • the processor 620 can configure and provide a phototoon service using the synthesized data, that is, the phototoon composite data.
  • the method of providing phototoon services follows pre-set conditions, but can be changed arbitrarily.
  • the processor 620 may detect voice in the video playback section (S301).
  • the processor 620 may extract the section where voice is detected, that is, the voice section (S303).
  • step S301 may be omitted and integrated into step S303.
  • a predetermined unit can be automatically set based on voice section extraction.
  • audio may be output at a third viewpoint 1230 and again at a fourth viewpoint 1240. Therefore, only the scene at the time the voice is output can be extracted.
  • the processor 620 extracts a voice section in step S303, it can perform STT conversion on the voice data of the corresponding section (S305).
  • the processor 620 may detect face data on the frame in the section where voice data is extracted in step S303 (S307).
  • the processor 620 may extract facial features from the facial data detected in step S307 (S309).
  • the processor 620 may detect a representative scene based on the facial features extracted in step S309 (S311).
  • the processor 620 may combine the STT converted data in step S305 and the representative scene detected in step S311 into one image (S313).
  • Figures 11 and 14 describe, for example, a method of compositing images when providing a phototoon service.
  • the processor 620 may determine whether the face 1410 is detected, as shown in (a) of FIG. 14 (S401).
  • the processor 620 may determine whether the face size exceeds the threshold (S403).
  • the processor 620 may recognize the face direction as shown in (b) of FIG. 14 (S405).
  • step S405 the processor 620 can next recognize the mouth position as shown in (c) of FIG. 14 (S407).
  • the processor 620 may determine the location where the STT converted text information is output, that is, the location of the speech bubble 1430, based on the face direction recognized in step S405 and the mouth position recognized in step S407 (S409).
  • the processor 620 processes the speech balloon data and the image frame so that the speech balloons 1310 and 1430 are output at the corresponding location as shown in Figures 13 (a) and Figure 14 (c). can be combined into one image (S411).
  • step S401 determines in step S401 that no face is detected in the scene (or frame) or if the face size is less than the threshold in step S403, the processor 620 detects the face in the corresponding image as shown in (b) of FIG. 13. It can be combined with the corresponding scene or frame to be output as subtitles in a predetermined area 1320 (S413).
  • Figures 15, 16a, and 16b are diagrams to explain a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
  • Figures 15 (a) to (d) are diagrams illustrating a method of summarizing video data using, for example, a phototoon service.
  • the summary refers to only the main composite image among the composite images in which voice recognition-processed text information and corresponding image data are synthesized into one image based on one video data or a predetermined unit that is the target of the phototoon service within one video data. It can mean providing.
  • (a) to (d) of Figures 15 may represent images synthesized after STT conversion processing of voice data to a representative scene image of each scene unit within one video. At this time, an audio waveform is output at the bottom of each representative scene image, and location information of the current audio output can also be provided.
  • the artificial intelligence device 10 unfolds and provides composite images of the scene associated with (or mapped to) the corresponding composite image in a slide manner.
  • a video only composite images in video form
  • the artificial intelligence device 10 outputs a composite image corresponding to the voice location, and depending on the selection, after the location.
  • Composite images existing in can be played or provided sequentially.
  • the artificial intelligence device 10 displays at least two or more composite images (e.g., as shown in Figures 15 (a) and (c)) according to the user's selection. Can be played simultaneously. At this time, since text information is provided in the composite image itself, voice data can be muted.
  • the artificial intelligence device 10 guides the artificial intelligence device 10 to change and control the playback speed or size of the composite image when at least one image (1510 to 1540) or a voice waveform is long-clicked. Or it can be provided.
  • the artificial intelligence device 10 converts the entire video section into a predetermined unit, for example, a fitness routine. Accordingly, the composite images may be divided into a plurality of groups 1610, 1620, and 1630 (e.g., upper body fitness, lower body fitness, etc.), and synthetic images may be generated for each group.
  • groups 1610, 1620, and 1630 e.g., upper body fitness, lower body fitness, etc.
  • the artificial intelligence device 10 may provide summary data of the fitness video by providing composite images in groups, as shown in FIG. 16A.
  • the artificial intelligence device 10 can provide a summary service according to the phototoon service requested by the user, even for dramas and movies.
  • the artificial intelligence device 10 based on the actor such as the main character in each series or scene properties (e.g., action scene, drive scene, love scene) according to the user's phototoon service request. Accordingly, a composite image candidate image is extracted, corresponding audio data is extracted, and after STT processing, one image (synthetic image candidate image + speech bubble (converted text)) is synthesized and played sequentially or in a slide manner according to the playback order. If provided, they may be provided sequentially.
  • the phototoon summary service may be provided according to a phototoon service provision request or a separate phototoon summary request.
  • group may be defined differently depending on category, attribute, etc.
  • the artificial intelligence device 10 may operate as follows.
  • the artificial intelligence device 10 may provide a list of information or other synthetic images related to the object.
  • the artificial intelligence device 10 can re-perform the synthesis processing process for the Phototone service on the target video data based on the corresponding object and provide it.
  • the artificial intelligence device 10 performs a synthesis processing process for the phototoon service on the target video for user A, the main character, and provides a composite image.
  • the artificial intelligence device 10 collects and outputs only the composite image for User B among the composite images or outputs the target video.
  • the composite image can be provided by re-performing the composite processing process for the phototoon service based on user B.
  • the phototoon service according to the present disclosure can divide the target video into a section where the face is exposed and a section where the face is not exposed, and perform a compositing process only for the section where the face is exposed.
  • the phototoon service may perform a compositing process for each section, and construct and output a summary phototoon for each section.
  • a composite image in the phototoon service is created by combining a still image and text data.
  • the still image and text data may be data for a section that is in sync.
  • the composite image of the phototoon service is synthesized based on the image of the person's exposure, but the voice data only contains the voice even if the person is not exposed.
  • the audio data of the output image (scene) can also be combined with the image of the person in question after STT conversion to create a composite image.
  • the amount of composite images that make up the phototoon service may be determined to be proportional to the amount or playback time of the target video. For example, assuming that the target video is a 10-minute video and the amount of composite images is 10, if the target video is 30 minutes long, the amount of composite images may be 30. However, even in this case, if the playback time of the target video is above a certain level, it may be limited to the maximum amount of the predetermined composite image.
  • the phototoon service is provided by synthesizing voice recognition-based text conversion data with respect to video data, thereby expanding the usability of the system and improving or maximizing user satisfaction.
  • the present disclosure is not limited to this, and on the contrary, for data consisting of still image data and text, the phototoon service may be provided in the same way as video data by converting the text into speech based on speech recognition. The principle can be easily inferred by referring to the above-described embodiments.
  • a phototoon service can be provided for a desired portion of video data of a predetermined length, and multimedia functions can be provided in conjunction with various applications. You can.
  • the order of at least some of the operations disclosed in this disclosure may be performed simultaneously, may be performed in an order different from the previously described order, or some may be omitted/added.
  • the above-described method can be implemented as processor-readable code on a program-recorded medium.
  • media that the processor can read include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the artificial intelligence device described above is not limited to the configuration and method of the above-described embodiments, but the embodiments are configured by selectively combining all or part of each embodiment so that various modifications can be made. It could be.
  • a phototoon service using voice recognition technology is provided for predetermined units of data constituting video data of various lengths, and video data summarized in phototoon is provided in a simple and simple manner. It has industrial applicability because it can maximize user satisfaction by providing a service that allows information to be easily recognized.

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

Disclosed are an artificial intelligence device and an operation method thereof. The operation method of an artificial intelligence device according to at least one of various embodiments disclosed herein may comprise the steps of: detecting an event; extracting at least one piece of image data constituting the video data according to the event; extracting speech data corresponding to the image data and performing STT processing; synthesizing the STT-processed data and the image data into a single image; and outputting the synthesized image.

Description

인공지능 기기 및 그 동작 방법Artificial intelligence devices and their operation methods
본 개시는 비디오 데이터 내 소정 단위의 데이터에 대하여 포토툰 서비스(phototoon service)를 제공하는 인공지능 기기 및 그 동작 방법에 관한 것이다.This disclosure relates to an artificial intelligence device that provides a phototoon service for a predetermined unit of data in video data and a method of operating the same.
디지털 기술의 급격한 발전과 함께 최근 동영상이나 멀티미디어에 대한 수요와 공급이 급격히 증가하고 있다. With the rapid development of digital technology, demand and supply for video and multimedia have recently increased rapidly.
더불어, 종래에 비해 비디오를 시청하거나 검색 결과로 비디오가 제공되는 경우가 많아지고 있다.In addition, compared to before, the number of cases in which videos are watched or videos are provided as search results is increasing.
그러나 텍스트에 비하여, 비디오는 전체 내용을 한 번에 바로 확인하는 것이 불가능하고 전체를 재생하여야만 그 내용을 파악할 수 있으나, 일반적으로는 텍스트에 비하여 내용 파악을 위하여 소요되는 시간 즉, 동영상 재생 시간이 상대적으로 길기 때문에 불필요한 정보를 계속하여 소비해야 할 뿐만 아니라 원하는 정보를 빠르게 획득하기가 쉽지 않다. 또한, 해당 비디오 내에 원하는 정보를 바로 탐색하여 이동하는 것도 용이하지 않다.However, compared to text, it is impossible to immediately check the entire content of a video at once and the content can only be understood by playing the entire content. However, in general, compared to text, the time required to understand the content, that is, the video playback time, is relatively Because it is long, not only do you have to keep consuming unnecessary information, but it is also not easy to quickly obtain the information you want. Additionally, it is not easy to directly search for and move to desired information within the video.
이러한 이유로 비디오를 요약하여 제공하는 방법이 연구되고 있으나, 비디오 데이터 자체만을 요약하여 제공하고 있어, 그로부터 정확한 정보 전달 내지 내용 파악이 쉽지 않은 문제점이 있다.For this reason, methods for providing a video summary are being studied, but since only the video data itself is provided in a summarized manner, there is a problem in that it is not easy to convey accurate information or understand the content from the video data itself.
본 개시는 음성 인식 기술에 기반하여 포토툰 서비스(photo-toon service)를 제공하는 인공지능 기기 및 그 동작 방법의 제공을 목적으로 한다.The purpose of this disclosure is to provide an artificial intelligence device that provides a photo-toon service based on voice recognition technology and a method of operating the same.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법은, 이벤트를 감지하는 단계; 상기 이벤트에 따라 상기 비디오 데이터를 구성하는 적어도 하나의 이미지 데이터를 추출하는 단계; 상기 이미지 데이터에 상응하는 음성 데이터를 추출하여 STT 처리하는 단계; 상기 STT 처리된 데이터와 상기 이미지 데이터를 하나의 이미지로 합성하는 단계; 및 상기 합성된 이미지를 출력하는 단계;를 포함할 수 있다.A method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure includes: detecting an event; extracting at least one image data constituting the video data according to the event; Extracting voice data corresponding to the image data and STT processing it; combining the STT-processed data and the image data into one image; and outputting the synthesized image.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 이벤트는, 포토툰 서비스 요청 신호 수신을 포함할 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the event may include receiving a phototoon service request signal.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 적어도 하나의 이미지 데이터는, 프레임, 씬 및 복수의 씬들의 집합인 시퀀스 단위 중 어느 하나에 해당하는 데이터일 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the at least one image data corresponds to any one of a frame, a scene, and a sequence unit that is a set of a plurality of scenes. It could be data.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 적어도 하나의 이미지 데이터는, 상기 비디오 데이터 내 오브젝트를 기준으로 결정될 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the at least one image data may be determined based on an object in the video data.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 적어도 하나의 이미지 데이터로부터 얼굴을 검출하는 단계; 상기 검출된 얼굴의 크기가 임계값을 초과하면, 얼굴의 방향을 인식하는 단계; 상기 얼굴의 입 위치를 인식하는 단계; 상기 검출된 얼굴에 대해 인식된 얼굴의 방향과 입 위치에 따라 상기 STT 처리된 데이터가 포함될 말풍선의 위치를 결정하는 단계; 및 상기 결정된 말풍선의 위치에 상기 STT 처리된 데이터가 포함된 말풍선이 위치하도록 상기 이미지 데이터와 합성하는 단계;를 더 포함할 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the method includes detecting a face from the at least one image data; If the size of the detected face exceeds a threshold, recognizing the direction of the face; Recognizing the position of the mouth of the face; determining a position of a speech bubble that will contain the STT-processed data according to the direction of the face and the position of the mouth recognized with respect to the detected face; and compositing the image data so that a speech bubble containing the STT-processed data is positioned at the determined position of the speech balloon.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 적어도 하나의 이미지 데이터로부터 얼굴이 검출되지 않는 경우에는, 상기 말풍선이 화면의 일 영역에 출력되도록 위치를 결정하고, 상기 이미지 데이터와 합성하는 단계;를 더 포함할 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, when a face is not detected from the at least one image data, the speech bubble is positioned to be output in one area of the screen. It may further include determining and compositing with the image data.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 적어도 하나의 이미지 데이터는, 상기 비디오 내 씬 체인지 구간에 해당하거나 음성 출력 구간 사이에 해당할 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the at least one image data may correspond to a scene change section in the video or a sound output section. .
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 비디오 데이터에 대해 합성 이미지가 복수 개인 경우, 복수 개의 합성 이미지를 미리 정의된 기준에 따라 그룹핑하고 요약하여 일부 합성 이미지만 출력될 수 있다.According to a method of operating an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, when there are a plurality of composite images for the video data, the plurality of composite images are grouped and summarized according to a predefined standard. Therefore, only some composite images may be output.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기는, 비디오 데이터를 출력하는 디스플레이; 및 상기 디스플레이를 제어하는 프로세서를 포함하되, 상기 프로세서는, 이벤트를 감지하여, 이벤트에 따라 상기 비디오 데이터를 구성하는 적어도 하나의 이미지 데이터를 추출하고, 상기 이미지 데이터에 상응하는 음성 데이터를 추출하여 STT 처리하며, 상기 STT 처리된 데이터와 상기 이미지 데이터를 하나의 이미지로 합성하여 합성 이미지를 출력할 수 있다.An artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure includes a display that outputs video data; and a processor that controls the display, wherein the processor detects an event, extracts at least one image data constituting the video data according to the event, and extracts voice data corresponding to the image data to perform STT. processing, the STT-processed data and the image data can be combined into one image to output a composite image.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 이벤트는 포토툰 서비스 요청 신호 수신을 포함하고, 상기 적어도 하나의 이미지 데이터는 프레임, 씬 및 복수의 씬들의 집합인 시퀀스 단위 중 어느 하나에 해당하는 데이터일 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the event includes receiving a phototoon service request signal, and the at least one image data is a frame, a scene, and a set of a plurality of scenes. It may be data corresponding to any one of sequence units.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 적어도 하나의 이미지 데이터를 상기 비디오 데이터 내 오브젝트를 기준으로 결정할 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the processor may determine the at least one image data based on an object in the video data.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 적어도 하나의 이미지 데이터로부터 얼굴을 검출하고, 상기 검출된 얼굴의 크기가 임계값을 초과하면, 얼굴의 방향과 입 위치를 인식하여, 상기 검출된 얼굴에 대해 인식된 얼굴의 방향과 입 위치에 따라 상기 STT 처리된 데이터가 포함될 말풍선의 위치를 결정하고, 상기 결정된 말풍선의 위치에 상기 STT 처리된 데이터가 포함된 말풍선이 위치하도록 상기 이미지 데이터와 합성할 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the processor detects a face from the at least one image data, and when the size of the detected face exceeds a threshold, By recognizing the direction of the face and the position of the mouth, the position of the speech bubble that will contain the STT-processed data is determined according to the direction of the face and the mouth position recognized for the detected face, and the STT-processed data is placed at the position of the determined speech bubble. It can be combined with the image data so that a speech bubble containing the data is positioned.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 적어도 하나의 이미지 데이터로부터 얼굴이 검출되지 않는 경우에는, 상기 말풍선이 화면의 일 영역에 출력되도록 위치를 결정하고, 상기 이미지 데이터와 합성할 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the processor outputs the speech bubble to one area of the screen when a face is not detected from the at least one image data. The location can be determined and combined with the image data.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 적어도 하나의 이미지 데이터는, 상기 비디오 내 씬 체인지 구간에 해당하거나 음성 출력 구간 사이에 해당할 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, the at least one image data may correspond to a scene change section in the video or a sound output section.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 비디오 데이터에 대해 합성 이미지가 복수 개인 경우, 복수 개의 합성 이미지를 미리 정의된 기준에 따라 그룹핑하고 요약하여 일부 합성 이미지만 출력할 수 있다.According to an artificial intelligence device according to at least one embodiment among various embodiments of the present disclosure, when there are a plurality of composite images for the video data, the processor groups the plurality of composite images according to predefined criteria and In summary, only some composite images can be output.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.Further scope of applicability of the present invention will become apparent from the detailed description that follows. However, since various changes and modifications within the spirit and scope of the present invention may be clearly understood by those skilled in the art, the detailed description and specific embodiments such as preferred embodiments of the present invention should be understood as being given only as examples.
본 개시의 다양한 실시예들 중 적어도 하나의 실시예에 따르면, 비디오 데이터에 대하여 원하는 부분(전체 또는 일부)에 대해 포토툰 서비스를 제공하여 인공지능 기기의 활용도를 높이고 사용자의 이용 만족도를 높일 수 있는 효과가 있다.According to at least one embodiment among various embodiments of the present disclosure, the effect of increasing the utilization of artificial intelligence devices and increasing user satisfaction by providing a phototoon service for a desired portion (all or part) of video data There is.
본 개시의 다양한 실시예들 중 적어도 하나의 실시예에 따르면, 다양한 어플리케이션과 연동하여 멀티미디어 기능을 제공할 수 있는 효과가 있다.According to at least one embodiment among various embodiments of the present disclosure, there is an effect of providing multimedia functions in conjunction with various applications.
도 1은 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.1 is a diagram for explaining a voice system according to an embodiment of the present invention.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기의 구성을 설명하기 위한 블록도이다.Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device according to an embodiment of the present disclosure.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.Figure 3 is a block diagram for explaining the configuration of a voice service server according to an embodiment of the present invention.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.Figure 4 is a diagram illustrating an example of converting a voice signal into a power spectrum according to an embodiment of the present invention.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.Figure 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of an artificial intelligence device, according to an embodiment of the present invention.
도 6은 본 개시의 일 실시 예에 따른 음성 인식 기반 포토툰 서비스 제공을 위한 음성 서비스 시스템의 구성 블록도이다.Figure 6 is a block diagram of a voice service system for providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
도 7은 도 6의 프로세서의 구성 블록도이다.Figure 7 is a block diagram of the processor of Figure 6.
도 8 내지 11은 본 개시에 따른 포토툰 서비스 제공 방법을 설명하기 위해 도시한 순서도이다.8 to 11 are flowcharts illustrating a method of providing a phototoon service according to the present disclosure.
도 12 내지 14는 본 개시의 일실시예에 따른 포토툰 서비스 제공 방법을 설명하기 위해 도시한 도면이다.Figures 12 to 14 are diagrams to explain a method of providing a phototoon service according to an embodiment of the present disclosure.
도 15는 본 개시의 일실시예에 따라 음성인식 기술을 이용한 포토툰 서비스 제공 방법을 설명하기 위해 도시한 도면이다.FIG. 15 is a diagram illustrating a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
도 16a 및 16b 본 개시의 일실시예에 따라 음성인식 기술을 이용한 포토툰 서비스 제공 방법을 설명하기 위해 도시한 도면이다.Figures 16a and 16b are diagrams to explain a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, embodiments disclosed in the present specification will be described in detail with reference to the attached drawings. However, identical or similar components will be assigned the same reference numbers regardless of reference numerals, and duplicate descriptions thereof will be omitted. The suffixes “module” and “part” for components used in the following description are given or used interchangeably only for the ease of preparing the specification, and do not have distinct meanings or roles in themselves. Additionally, in describing the embodiments disclosed in this specification, if it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed in this specification, the detailed descriptions will be omitted. In addition, the attached drawings are only for easy understanding of the embodiments disclosed in this specification, and the technical idea disclosed in this specification is not limited by the attached drawings, and all changes included in the spirit and technical scope of the present invention are not limited. , should be understood to include equivalents or substitutes.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms containing ordinal numbers, such as first, second, etc., may be used to describe various components, but the components are not limited by the terms. The above terms are used only for the purpose of distinguishing one component from another.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is said to be "connected" or "connected" to another component, it is understood that it may be directly connected to or connected to the other component, but that other components may exist in between. It should be. On the other hand, when it is mentioned that a component is “directly connected” or “directly connected” to another component, it should be understood that there are no other components in between.
본 명세서에서 설명되는 ‘인공지능 기기’에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 인공지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공지능 기기(smartwatch), 글래스형 인공지능 기기(smart glass), HMD(head mounted display)) 등이 포함될 수 있다. 'Artificial intelligence devices' described in this specification include mobile phones, smart phones, laptop computers, artificial intelligence devices for digital broadcasting, personal digital assistants (PDAs), portable multimedia players (PMPs), navigation, and slates. PC (slate PC), tablet PC (tablet PC), ultrabook, wearable device (e.g., watch-type artificial intelligence device (smartwatch), glass-type artificial intelligence device (smart glass), HMD ( head mounted display)), etc. may be included.
그러나 본 명세서에 기재된 실시예에 따른 인공지능 기기는 스마트 TV, 데스크탑 컴퓨터, 디지털 사이니지(Digital Signage), 냉장고, 세탁기, 에어컨, 식기 세척기 등과 같은 고정 인공지능 기기에도 적용될 수도 있다.However, artificial intelligence devices according to embodiments described in this specification may also be applied to fixed artificial intelligence devices such as smart TVs, desktop computers, digital signage, refrigerators, washing machines, air conditioners, and dishwashers.
또한, 본 발명의 실시예에 따른 인공지능 기기(10)는 고정 또는 이동 가능한 로봇(Robot)에도 적용될 수 있다.Additionally, the artificial intelligence device 10 according to an embodiment of the present invention can also be applied to a fixed or movable robot.
또한, 본 발명의 실시예에 따른 인공지능 기기(10)는 음성 에이전트의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.Additionally, the artificial intelligence device 10 according to an embodiment of the present invention can perform the function of a voice agent. A voice agent may be a program that recognizes the user's voice and outputs a response appropriate for the recognized user's voice as a voice.
도 1은 본 발명의 일 실시 예에 따른 음성 서비스 시스템을 설명하기 위한 도면이다.1 is a diagram for explaining a voice service system according to an embodiment of the present invention.
음성 서비스는 음성 인식 및 음성 합성 서비스 중 적어도 하나를 포함할 수 있다. 음성 인식 및 합성 과정은 발화자(또는 사용자)의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에 기반하여 발화자의 의도를 분석하고, 분석된 의도에 상응하는 텍스트 데이터를 합성 음성 데이터로 변환하고, 변환된 합성 음성 데이터를 출력하는 과정을 포함할 수 있다.The voice service may include at least one of voice recognition and voice synthesis services. The speech recognition and synthesis process converts the speaker's (or user's) voice data into text data, analyzes the speaker's intention based on the converted text data, and converts the text data corresponding to the analyzed intention into synthesized voice data. , It may include a process of outputting the converted synthesized voice data.
음성 인식 및 합성 과정을 위해, 도 1에 도시된 바와 같은, 음성 서비스 시스템이 사용될 수 있다.For the voice recognition and synthesis process, a voice service system, as shown in Figure 1, can be used.
도 1을 참조하면, 음성 서비스 시스템은 인공지능 기기(10), 음성 텍스트 변환(Speech To Text, STT) 서버(20), 자연어 처리(Natural Language Processing, NLP) 서버(30) 및 음성 합성 서버(40)를 포함할 수 있다. 복수의 AI 에이전트 서버들(50-1 내지 50-3)은 NLP 서버(30)와 통신하며, 음성 서비스 시스템에 포함될 수 있다. Referring to Figure 1, the voice service system includes an artificial intelligence device (10), a speech-to-text (STT) server (20), a Natural Language Processing (NLP) server (30), and a voice synthesis server ( 40) may be included. A plurality of AI agent servers 50-1 to 50-3 communicate with the NLP server 30 and may be included in the voice service system.
한편, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40)는 도시된 바와 각각 별개 서버로서 존재할 수도 있고, 하나의 서버에 포함되어 존재할 수도 있다. 그 밖에, 복수의 AI 에이전트 서버들(50-1 내지 50-3) 역시 별개의 서버로 존재하거나 NLP 서버(30)에 포함되어 존재할 수도 있다.Meanwhile, the STT server 20, NLP server 30, and voice synthesis server 40 may exist as separate servers as shown, or may be included in one server. In addition, a plurality of AI agent servers 50-1 to 50-3 may also exist as separate servers or may be included in the NLP server 30.
인공지능 기기(10)는 마이크로폰(122)을 통해 수신된 화자의 음성에 상응하는 음성 신호를 STT 서버(20)에 전송할 수 있다.The artificial intelligence device 10 may transmit a voice signal corresponding to the speaker's voice received through the microphone 122 to the STT server 20.
STT 서버(20)는 인공지능 기기(10)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.The STT server 20 can convert voice data received from the artificial intelligence device 10 into text data.
STT 서버(20)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.The STT server 20 can increase the accuracy of voice-to-text conversion by using a language model.
언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.A language model can refer to a model that can calculate the probability of a sentence or the probability of the next word appearing given the previous words.
예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.For example, the language model may include probabilistic language models such as Unigram model, Bigram model, N-gram model, etc.
유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.The unigram model is a model that assumes that the usage of all words is completely independent of each other, and calculates the probability of a word string as the product of the probability of each word.
바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.The bigram model is a model that assumes that the use of a word depends only on the previous word.
N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.The N-gram model is a model that assumes that the usage of a word depends on the previous (n-1) words.
즉, STT 서버(20)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.In other words, the STT server 20 can use the language model to determine whether text data converted from voice data has been appropriately converted, and through this, the accuracy of conversion to text data can be increased.
NLP 서버(30)는 STT 서버(20)로부터 텍스트 데이터를 수신할 수 있다. STT 서버(20)는 NLP 서버(30)에 포함될 수도 있다.The NLP server 30 may receive text data from the STT server 20. The STT server 20 may be included in the NLP server 30.
NLP 서버(30)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.The NLP server 30 may perform intent analysis on text data based on the received text data.
NLP 서버(30)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공지능 기기(10)에 전송할 수 있다.The NLP server 30 may transmit intention analysis information indicating the result of intention analysis to the artificial intelligence device 10.
NLP 서버(30)는 의도 분석 정보를 음성 합성 서버(40)에 전송할 수 있다. 음성 합성 서버(40)는 의도 분석 정보에 기반한 합성 음성을 생성하고, 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.The NLP server 30 may transmit intention analysis information to the voice synthesis server 40. The voice synthesis server 40 may generate a synthesized voice based on intent analysis information and transmit the generated synthesized voice to the artificial intelligence device 10.
NLP 서버(30)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 및 대화 처리 단계를 순차적으로 수행하여, 의도 분석 정보를 생성할 수 있다.The NLP server 30 may generate intention analysis information by sequentially performing a morpheme analysis step, a syntax analysis step, a dialogue act analysis step, and a dialogue processing step on text data.
형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.The morpheme analysis step is a step that classifies text data corresponding to the voice uttered by the user into morpheme units, which are the smallest units with meaning, and determines what part of speech each classified morpheme has.
구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.The syntax analysis step is a step that uses the results of the morpheme analysis step to classify text data into noun phrases, verb phrases, adjective phrases, etc., and determines what kind of relationship exists between each classified phrase.
구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.Through the syntax analysis step, the subject, object, and modifiers of the voice uttered by the user can be determined.
화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.The speech act analysis step is a step of analyzing the intention of the voice uttered by the user using the results of the syntax analysis step. Specifically, the speech act analysis step is to determine the intent of the sentence, such as whether the user is asking a question, making a request, or simply expressing an emotion.
대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.The conversation processing step is a step that uses the results of the dialogue act analysis step to determine whether to reply to the user's utterance, respond to it, or ask a question for additional information.
NLP 서버(30)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.After the conversation processing step, the NLP server 30 may generate intention analysis information including one or more of a response to the intention uttered by the user, a response, and an inquiry for additional information.
NLP 서버(30)는 사용자의 발화 의도에 맞는 정보를 검색하기 위해, 검색 서버(미도시)에 검색 요청을 전송하고, 검색 요청에 상응하는 검색 정보를 수신할 수 있다.The NLP server 30 may transmit a search request to a search server (not shown) and receive search information corresponding to the search request in order to search for information that matches the user's utterance intention.
사용자의 발화 의도가 컨텐트의 검색인 경우, 검색 정보는 검색된 컨텐트에 대한 정보를 포함할 수 있다.When the user's utterance intention is to search for content, the search information may include information about the searched content.
NLP 서버(30)는 검색 정보를 인공지능 기기(10)에 전송하고, 인공지능 기기(10)는 검색 정보를 출력할 수 있다.The NLP server 30 transmits search information to the artificial intelligence device 10, and the artificial intelligence device 10 can output the search information.
한편, NLP 서버(30)는 인공지능 기기(10)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공지능 기기(10)가 음성 텍스트 변환 기능을 지원하는 경우, 인공지능 기기(10)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(30)에 전송할 수 있다.Meanwhile, the NLP server 30 may receive text data from the artificial intelligence device 10. For example, if the artificial intelligence device 10 supports a voice-to-text conversion function, the artificial intelligence device 10 converts voice data into text data and transmits the converted text data to the NLP server 30. .
음성 합성 서버(40)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다. The voice synthesis server 40 can generate a synthesized voice by combining pre-stored voice data.
음성 합성 서버(40)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다. The voice synthesis server 40 can record the voice of a person selected as a model and divide the recorded voice into syllables or words.
음성 합성 서버(40)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.The voice synthesis server 40 can store the segmented voice in units of syllables or words in an internal or external database.
음성 합성 서버(40)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.The voice synthesis server 40 may search for syllables or words corresponding to given text data from a database, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
음성 합성 서버(40)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.The voice synthesis server 40 may store a plurality of voice language groups corresponding to each of a plurality of languages.
예를 들어, 음성 합성 서버(40)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.For example, the speech synthesis server 40 may include a first audio language group recorded in Korean and a second audio language group recorded in English.
음성 합성 서버(40)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.The speech synthesis server 40 may translate text data in the first language into text in the second language and generate synthesized speech corresponding to the translated text in the second language using the second speech language group.
음성 합성 서버(40)는 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.The voice synthesis server 40 can transmit the generated synthesized voice to the artificial intelligence device 10.
음성 합성 서버(40)는 NLP 서버(30)로부터 분석 정보를 수신할 수 있다. 분석 정보는 사용자가 발화한 음성의 의도를 분석한 정보를 포함할 수 있다.The voice synthesis server 40 may receive analysis information from the NLP server 30. The analysis information may include information analyzing the intention of the voice uttered by the user.
음성 합성 서버(40)는 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.The voice synthesis server 40 may generate a synthesized voice that reflects the user's intention based on the analysis information.
위에서, 설명된 STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40) 각각의 기능은 인공지능 기기(10)에서도 수행될 수도 있다. 이를 위해, 인공지능 기기(10)는 하나 이상의 프로세서들을 포함할 수 있다.The functions of the STT server 20, NLP server 30, and voice synthesis server 40 described above may also be performed by the artificial intelligence device 10. For this purpose, the artificial intelligence device 10 may include one or more processors.
복수의 AI 에이전트 서버들(50-1 내지 50-3) 각각은 NLP 서버(30)의 요청에 따라 검색 정보를 NLP 서버(30) 또는 인공지능 기기(10)에 전송할 수 있다.Each of the plurality of AI agent servers 50-1 to 50-3 may transmit search information to the NLP server 30 or the artificial intelligence device 10 according to a request from the NLP server 30.
NLP 서버(30)의 의도 분석 결과가 컨텐트의 검색 요청인 경우, NLP 서버(30)는 컨텐트의 검색 요청을 복수의 AI 에이전트 서버들(50-1 내지 50-3) 중 하나 이상의 서버에 전송하고, 컨텐트의 검색 결과를 해당 서버로부터 수신할 수 있다.If the intention analysis result of the NLP server 30 is a content search request, the NLP server 30 transmits the content search request to one or more of the plurality of AI agent servers 50-1 to 50-3, , content search results can be received from the corresponding server.
NLP 서버(30)는 수신된 검색 결과를 인공지능 기기(10)에 전송할 수 있다.The NLP server 30 may transmit the received search results to the artificial intelligence device 10.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기(10)의 구성을 설명하기 위한 블록도이다.Figure 2 is a block diagram for explaining the configuration of an artificial intelligence device 10 according to an embodiment of the present disclosure.
도 2를 참조하면, 인공지능 기기(10)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180)를 포함할 수 있다.Referring to FIG. 2, the artificial intelligence device 10 includes a communication unit 110, an input unit 120, a learning processor 130, a sensing unit 140, an output unit 150, a memory 170, and a processor 180. may include.
통신부(110)는 유무선 통신 기술을 이용하여 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.The communication unit 110 can transmit and receive data with external devices using wired and wireless communication technology. For example, the communication unit 110 may transmit and receive sensor information, user input, learning models, and control signals with external devices.
이때, 통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), LTV-A(dvanced), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.At this time, communication technologies used by the communication unit 110 include GSM (Global System for Mobile communication), CDMA (Code Division Multi Access), LTE (Long Term Evolution), LTV-A (advanced), 5G, WLAN (Wireless LAN), These include Wi-Fi (Wireless-Fidelity), Bluetooth™, RFID (Radio Frequency Identification), Infrared Data Association (IrDA), ZigBee, and NFC (Near Field Communication).
입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.The input unit 120 can acquire various types of data.
입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.The input unit 120 may include a camera for inputting video signals, a microphone for receiving audio signals, and a user input unit for receiving information from a user. Here, the camera or microphone may be treated as a sensor, and the signal obtained from the camera or microphone may be referred to as sensing data or sensor information.
입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.The input unit 120 may acquire training data for model learning and input data to be used when obtaining an output using the learning model. The input unit 120 may acquire unprocessed input data, and in this case, the processor 180 or the learning processor 130 may extract input features by preprocessing the input data.
입력부(120)는 영상 신호 입력을 위한 카메라(Camera, 121), 오디오 신호를 수신하기 위한 마이크로폰(Microphone, 122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(User Input Unit, 123)를 포함할 수 있다. The input unit 120 may include a camera 121 for inputting video signals, a microphone 122 for receiving audio signals, and a user input unit 123 for receiving information from the user. there is.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.Voice data or image data collected by the input unit 120 may be analyzed and processed as a user's control command.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공지능 기기(10)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.The input unit 120 is for inputting image information (or signal), audio information (or signal), data, or information input from the user. To input image information, one or more artificial intelligence devices 10 are used. of cameras 121 may be provided.
카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.The camera 121 processes image frames such as still images or moving images obtained by an image sensor in video call mode or shooting mode. The processed image frame may be displayed on the display unit 151 or stored in the memory 170.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공지능 기기(10)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.The microphone 122 processes external acoustic signals into electrical voice data. Processed voice data can be used in various ways depending on the function (or application program being executed) being performed by the artificial intelligence device 10. Meanwhile, various noise removal algorithms may be applied to the microphone 122 to remove noise generated in the process of receiving an external acoustic signal.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, 프로세서(180)는 입력된 정보에 대응되도록 인공지능 기기(10)의 동작을 제어할 수 있다. The user input unit 123 is for receiving information from the user. When information is input through the user input unit 123, the processor 180 can control the operation of the artificial intelligence device 10 to correspond to the input information. there is.
사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예컨대, 단말기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.The user input unit 123 is a mechanical input means (or mechanical key, such as a button, dome switch, jog wheel, jog switch, etc. located on the front/rear or side of the terminal 100) and It may include a touch input means. As an example, the touch input means consists of a virtual key, soft key, or visual key displayed on the touch screen through software processing, or a part other than the touch screen. It can be done with a touch key placed in .
러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.The learning processor 130 can train a model composed of an artificial neural network using training data. Here, the learned artificial neural network may be referred to as a learning model. A learning model can be used to infer a result value for new input data other than learning data, and the inferred value can be used as the basis for a decision to perform an operation.
러닝 프로세서(130)는 인공지능 기기(10)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 인공지능 기기(10)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.The learning processor 130 may include memory integrated or implemented in the artificial intelligence device 10. Alternatively, the learning processor 130 may be implemented using the memory 170, an external memory directly coupled to the artificial intelligence device 10, or a memory maintained in an external device.
센싱부(140)는 다양한 센서들을 이용하여 인공지능 기기(10) 내부 정보, 인공지능 기기(10)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.The sensing unit 140 may use various sensors to obtain at least one of internal information of the artificial intelligence device 10, information about the surrounding environment of the artificial intelligence device 10, and user information.
이때, 센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.At this time, the sensors included in the sensing unit 140 include a proximity sensor, illuminance sensor, acceleration sensor, magnetic sensor, gyro sensor, inertial sensor, RGB sensor, IR sensor, fingerprint recognition sensor, ultrasonic sensor, light sensor, microphone, and lidar. , radar, etc.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. The output unit 150 may generate output related to vision, hearing, or tactile sensation.
출력부(150)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 및 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다. The output unit 150 includes at least one of a display unit (Display Unit, 151), a sound output unit (152), a haptic module (153), and an optical output unit (Optical Output Unit, 154). It can be included.
디스플레이부(151)는 인공지능 기기(10)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(151)는 인공지능 기기(10)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다. The display unit 151 displays (outputs) information processed by the artificial intelligence device 10. For example, the display unit 151 may display execution screen information of an application running on the artificial intelligence device 10, or UI (User Interface) and GUI (Graphic User Interface) information according to such execution screen information.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공지능 기기(10)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로서 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.The display unit 151 can implement a touch screen by forming a layered structure or being integrated with the touch sensor. This touch screen functions as a user input unit 123 that provides an input interface between the artificial intelligence device 10 and the user, and can simultaneously provide an output interface between the terminal 100 and the user.
음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다. The audio output unit 152 may output audio data received from the communication unit 110 or stored in the memory 170 in call signal reception, call mode or recording mode, voice recognition mode, broadcast reception mode, etc.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등 중 적어도 하나 이상을 포함할 수 있다.The sound output unit 152 may include at least one of a receiver, a speaker, and a buzzer.
햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.The haptic module 153 generates various tactile effects that the user can feel. A representative example of a tactile effect generated by the haptic module 153 may be vibration.
광출력부(154)는 인공지능 기기(10)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공지능 기기(10)에서 발생되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.The optical output unit 154 uses light from the light source of the artificial intelligence device 10 to output a signal to notify the occurrence of an event. Examples of events that occur in the artificial intelligence device 10 may include receiving a message, receiving a call signal, missed call, alarm, schedule notification, receiving email, receiving information through an application, etc.
메모리(170)는 인공지능 기기(10)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.The memory 170 can store data supporting various functions of the artificial intelligence device 10. For example, the memory 170 may store input data, learning data, learning models, learning history, etc. obtained from the input unit 120.
프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 인공지능 기기(10)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고 프로세서(180)는 인공지능 기기(10)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.The processor 180 may determine at least one executable operation of the artificial intelligence device 10 based on information determined or generated using a data analysis algorithm or a machine learning algorithm. And the processor 180 can control the components of the artificial intelligence device 10 to perform the determined operation.
프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 인공지능 기기(10)의 구성 요소들을 제어할 수 있다.The processor 180 may request, retrieve, receive, or utilize data from the learning processor 130 or the memory 170, and may artificially execute an operation that is predicted or determined to be desirable among the at least one executable operation. Components of the intelligent device 10 can be controlled.
프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.If linkage with an external device is necessary to perform a determined operation, the processor 180 may generate a control signal to control the external device and transmit the generated control signal to the external device.
프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.The processor 180 may obtain intent information for user input and determine the user's request based on the obtained intent information.
프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT 엔진 또는 자연어의 의도 정보를 획득하기 위한 NLP 엔진 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다. The processor 180 may obtain intent information corresponding to the user input by using at least one of an STT engine for converting voice input into a character string or an NLP engine for obtaining intent information of natural language.
STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것이나, AI 서버(200)의 러닝 프로세서(240)에 의해 학습된 것이거나, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.At least one of the STT engine and the NLP engine may be composed of at least a portion of an artificial neural network learned according to a machine learning algorithm. And, at least one of the STT engine or the NLP engine is learned by the learning processor 130, learned by the learning processor 240 of the AI server 200, or learned by distributed processing thereof. It could be.
프로세서(180)는 인공지능 기기(10)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, AI 서버(200) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.The processor 180 collects history information including the user's feedback on the operation of the artificial intelligence device 10 and stores it in the memory 170 or the learning processor 130 or the AI server 200, etc. Can be transmitted to external devices. The collected historical information can be used to update the learning model.
프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 인공지능 기기(10)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 인공지능 기기(10)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작 시킬 수 있다.The processor 180 may control at least some of the components of the artificial intelligence device 10 to run an application program stored in the memory 170. Furthermore, the processor 180 may operate two or more of the components included in the artificial intelligence device 10 in combination with each other in order to run the application program.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버(200)의 구성을 설명하기 위한 블록도이다.Figure 3 is a block diagram for explaining the configuration of the voice service server 200 according to an embodiment of the present invention.
음성 서비스 서버(200)는 도 1에 도시된, STT 서버(20), NLP 서버(30), 및 음성 합성 서버(40) 중 하나 이상을 포함할 수 있다. 음성 서비스 서버(200)는 서버 시스템으로 명명될 수 있다.The voice service server 200 may include one or more of the STT server 20, NLP server 30, and voice synthesis server 40 shown in FIG. 1. The voice service server 200 may be referred to as a server system.
도 3을 참고하면, 음성 서비스 서버(200)는 전처리부(220), 컨트롤러(230), 통신부(270) 및 데이터 베이스(290)를 포함할 수 있다.Referring to FIG. 3, the voice service server 200 may include a preprocessor 220, a controller 230, a communication unit 270, and a database 290.
전처리부(220)는 통신부(270)를 통해 수신된 음성 또는 데이터 베이스(290)에 저장된 음성을 전처리 할 수 있다.The preprocessing unit 220 may preprocess the voice received through the communication unit 270 or the voice stored in the database 290.
전처리부(220)는 컨트롤러(230)와 별도의 칩으로 구현되거나, 컨트롤러(230)에 포함된 칩으로 구현될 수 있다.The preprocessing unit 220 may be implemented as a separate chip from the controller 230 or may be implemented as a chip included in the controller 230.
전처리부(220)는 (사용자가 발화한) 음성 신호를 수신하고, 수신된 음성 신호를 텍스트 데이터로 변환하기 전, 음성 신호로부터 잡음 신호를 필터링할 수 있다.The preprocessor 220 may receive a voice signal (uttered by a user) and filter noise signals from the voice signal before converting the received voice signal into text data.
전처리부(220)가 인공지능 기기(10)에 구비된 경우, 인공지능 기기(10)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 전처리부(220)는 마이크로폰(121)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.If the preprocessor 220 is provided in the artificial intelligence device 10, it can recognize a startup word for activating voice recognition of the artificial intelligence device 10. The preprocessor 220 converts the startup word received through the microphone 121 into text data, and if the converted text data is text data corresponding to a pre-stored startup word, it may be determined that the startup word has been recognized. .
전처리부(220)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.The preprocessor 220 may convert the noise-removed voice signal into a power spectrum.
파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.The power spectrum may be a parameter that indicates which frequency components and at what magnitude are included in the temporally varying waveform of a voice signal.
파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다.The power spectrum shows the distribution of squared amplitude values according to the frequency of the waveform of the voice signal.
이에 대해서는, 도 4를 참조하여 설명한다.This will be explained with reference to FIG. 4 .
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.Figure 4 is a diagram illustrating an example of converting a voice signal into a power spectrum according to an embodiment of the present invention.
도 4를 참조하면, 음성 신호(410)가 도시되어 있다. 음성 신호(410)는 외부 기기로부터 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.Referring to Figure 4, a voice signal 410 is shown. The voice signal 410 may be received from an external device or may be a signal previously stored in the memory 170.
음성 신호(310)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.The x-axis of the voice signal 310 may represent time, and the y-axis may represent amplitude.
파워 스펙트럼 처리부(225)는 x축이 시간 축인 음성 신호(410)를 x축이 주파수 축인 파워 스펙트럼(430)으로 변환할 수 있다.The power spectrum processor 225 may convert the voice signal 410, where the x-axis is the time axis, into a power spectrum 430, where the x-axis is the frequency axis.
파워 스펙트럼 처리부(225)는 고속 푸리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(410)를 파워 스펙트럼(430)으로 변환할 수 있다.The power spectrum processor 225 may convert the voice signal 410 into a power spectrum 430 using Fast Fourier Transform (FFT).
파워 스펙트럼(430)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.The x-axis of the power spectrum 430 represents frequency, and the y-axis represents the square value of amplitude.
다시 도 3을 설명한다.Figure 3 will be described again.
도 3에서 설명된 전처리부(220) 및 컨트롤러(230)의 기능은 NLP 서버(30)에서도 수행될 수 있다.The functions of the preprocessor 220 and the controller 230 described in FIG. 3 can also be performed by the NLP server 30.
전처리부(220)는 웨이브 처리부(221), 주파수 처리부(223), 파워 스펙트럼 처리부(225), STT 변환부(227)를 포함할 수 있다.The pre-processing unit 220 may include a wave processing unit 221, a frequency processing unit 223, a power spectrum processing unit 225, and an STT converting unit 227.
웨이브 처리부(221)는 음성의 파형을 추출할 수 있다.The wave processing unit 221 can extract the waveform of the voice.
주파수 처리부(223)는 음성의 주파수 대역을 추출할 수 있다.The frequency processing unit 223 can extract the frequency band of the voice.
파워 스펙트럼 처리부(225)는 음성의 파워 스펙트럼을 추출할 수 있다.The power spectrum processing unit 225 can extract the power spectrum of the voice.
파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.When a waveform that fluctuates in time is given, the power spectrum may be a parameter that indicates which frequency components and at what size are included in the waveform.
STT 변환부(227)는 음성을 텍스트로 변환할 수 있다.The STT converter 227 can convert voice into text.
STT 변환부(227)는 특정 언어의 음성을 해당 언어의 텍스트로 변환할 수 있다.The STT conversion unit 227 can convert voice in a specific language into text in that language.
컨트롤러(230)는 음성 서비스 서버(200)의 전반적인 동작을 제어할 수 있다.The controller 230 can control the overall operation of the voice service server 200.
컨트롤러(230)는 음성 분석부(231), 텍스트 분석부(232), 특징 클러스터링부(233), 텍스트 매핑부(234) 및 음성 합성부(235)를 포함할 수 있다.The controller 230 may include a voice analysis unit 231, a text analysis unit 232, a feature clustering unit 233, a text mapping unit 234, and a voice synthesis unit 235.
음성 분석부(231)는 전처리부(220)에서 전처리 된, 음성의 파형, 음성의 주파수 대역 및 음성의 파워 스펙트럼 중 하나 이상을 이용하여, 음성의 특성 정보를 추출할 수 있다. The voice analysis unit 231 may extract voice characteristic information using one or more of the voice waveform, voice frequency band, and voice power spectrum preprocessed in the preprocessor 220.
음성의 특성 정보는 화자의 성별 정보, 화자의 목소리(또는 음색, tone), 음의 높낮이, 화자의 말투, 화자의 발화 속도, 화자의 감정 중 하나 이상을 포함할 수 있다.The voice characteristic information may include one or more of the speaker's gender information, the speaker's voice (or tone), the pitch of the sound, the speaker's speaking style, the speaker's speech speed, and the speaker's emotion.
또한, 음성의 특성 정보는 화자의 음색을 더 포함할 수도 있다.Additionally, the voice characteristic information may further include the speaker's timbre.
텍스트 분석부(232)는 음성 텍스트 변환부(227)에서 변환된 텍스트로부터, 주요 표현 어구를 추출할 수 있다.The text analysis unit 232 may extract key expressions from the text converted by the speech-to-text conversion unit 227.
텍스트 분석부(232)는 변환된 텍스트로부터 어구와 어구 간의 어조가 달라짐을 감지한 경우, 어조가 달라지는 어구를 주요 표현 어구로 추출할 수 있다. When the text analysis unit 232 detects a change in tone between phrases from the converted text, it can extract the phrase with a different tone as the main expression phrase.
텍스트 분석부(232)는 어구와 어구 간의 주파수 대역이 기 설정된 대역 이상 변경된 경우, 어조가 달라진 것으로 판단할 수 있다.The text analysis unit 232 may determine that the tone has changed when the frequency band between the phrases changes more than a preset band.
텍스트 분석부(232)는 변환된 텍스트의 어구 내에, 주요 단어를 추출할 수도 있다. 주요 단어란 어구 내에 존재하는 명사일 수 있으나, 이는 예시에 불과하다.The text analysis unit 232 may extract key words from phrases in the converted text. A key word may be a noun that exists within a phrase, but this is only an example.
특징 클러스터링부(233)는 음성 분석부(231)에서 추출된 음성의 특성 정보를 이용하여, 화자의 발화 유형을 분류할 수 있다.The feature clustering unit 233 can classify the speaker's speech type using the voice characteristic information extracted from the voice analysis unit 231.
특징 클러스터링부(233)는 음성의 특성 정보를 구성하는 유형 항목들 각각에, 가중치를 두어, 화자의 발화 유형을 분류할 수 있다.The feature clustering unit 233 may classify the speaker's utterance type by assigning a weight to each type item constituting the voice characteristic information.
특징 클러스터링부(233)는 딥러닝 모델의 어텐션(attention) 기법을 이용하여, 화자의 발화 유형을 분류할 수 있다. The feature clustering unit 233 can classify the speaker's utterance type using the attention technique of a deep learning model.
텍스트 매핑부(234)는 제1 언어로 변환된 텍스트를 제2 언어의 텍스트로 번역할 수 있다.The text mapping unit 234 may translate the text converted into the first language into the text of the second language.
텍스트 매핑부(234)는 제2 언어로 번역된 텍스트를 제1 언어의 텍스트와 매핑 시킬 수 있다.The text mapping unit 234 may map the text translated into the second language with the text of the first language.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구를 이에 대응하는 제2 언어의 어구에 매핑 시킬 수 있다.The text mapping unit 234 can map key expressions constituting the text in the first language to corresponding phrases in the second language.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구에 대응하는 발화 유형을 제2 언어의 어구에 매핑 시킬 수 있다. 이는, 제2 언어의 어구에 분류된 발화 유형을 적용시키기 위함이다.The text mapping unit 234 may map the utterance type corresponding to the main expression phrases constituting the text of the first language to phrases of the second language. This is to apply the classified utterance type to the phrases of the second language.
음성 합성부(235)는 텍스트 매핑부(234)에서 제2 언어로 번역된 텍스트의 주요 표현 어구에, 특징 클러스터링부(233)에서 분류된 발화 유형 및 화자의 음색을 적용하여, 합성된 음성을 생성할 수 있다.The voice synthesis unit 235 applies the utterance type and speaker's tone classified by the feature clustering unit 233 to the main expressions of the text translated into the second language in the text mapping unit 234, and creates a synthesized voice. can be created.
컨트롤러(230)는 전달된 텍스트 데이터 또는 파워 스펙트럼(430) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.The controller 230 may determine the user's speech characteristics using one or more of the delivered text data or the power spectrum 430.
사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량 등을 포함할 수 있다.The user's speech characteristics may include the user's gender, the user's pitch, the user's tone, the user's speech topic, the user's speech speed, and the user's voice volume.
컨트롤러(230)는 파워 스펙트럼(430)을 이용하여, 음성 신호(410)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.The controller 230 may use the power spectrum 430 to obtain the frequency of the voice signal 410 and the amplitude corresponding to the frequency.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다. The controller 230 can determine the gender of the user who uttered the voice using the frequency band of the power spectrum 430.
예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다. For example, if the frequency band of the power spectrum 430 is within the preset first frequency band range, the controller 230 may determine the user's gender as male.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.If the frequency band of the power spectrum 430 is within the preset second frequency band range, the controller 230 may determine the user's gender as female. Here, the second frequency band range may be larger than the first frequency band range.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.The controller 230 can determine the pitch of the voice using the frequency band of the power spectrum 430.
예를 들어, 컨트롤러(230)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.For example, the controller 230 may determine the pitch of the sound according to the size of the amplitude within a specific frequency band.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.The controller 230 may determine the user's tone using the frequency band of the power spectrum 430. For example, the controller 230 may determine a frequency band with an amplitude greater than a certain level among the frequency bands of the power spectrum 430 as the user's main sound range, and determine the determined main sound range as the user's tone.
컨트롤러(230)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.The controller 230 may determine the user's speech rate based on the number of syllables uttered per unit time from the converted text data.
컨트롤러(230) 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.The controller 230 can determine the topic of the user's speech using the Bag-Of-Word Model technique for the converted text data.
Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.The Bag-Of-Word Model technique is a technique to extract frequently used words based on the frequency of words in a sentence. Specifically, the Bag-Of-Word Model technique is a technique that extracts unique words within a sentence and expresses the frequency of each extracted word as a vector to determine the characteristics of the topic of speech.
예를 들어, 컨트롤러(230) 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.For example, if words such as <running>, <physical fitness>, etc. frequently appear in the text data of the controller 230, the topic of the user's speech may be classified as exercise.
컨트롤러(230) 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 컨트롤러(230) 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.The controller 230 can determine the topic of the user's speech from text data using a known text categorization technique. The controller 230 can extract keywords from text data and determine the topic of the user's speech.
컨트롤러(230) 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.The controller 230 can determine the user's voice volume by considering amplitude information in the entire frequency band.
예컨대, 컨트롤러(230) 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.For example, the user's voice quality can be determined based on the average or weighted average of the amplitude in each frequency band of the power spectrum of the controller 230.
통신부(270)는 외부 서버와 유선 또는 무선으로 통신을 수행할 수 있다.The communication unit 270 may communicate with an external server by wire or wirelessly.
데이터베이스(290)는 컨텐트에 포함된 제1 언어의 음성을 저장할 수 있다.The database 290 may store the voice of the first language included in the content.
데이터베이스(290)는 제1 언어의 음성이 제2 언어의 음성으로 변환된 합성 음성을 저장할 수 있다.The database 290 may store a synthesized voice in which the voice of the first language is converted into the voice of the second language.
데이터베이스(290)는 제1 언어의 음성에 대응하는 제1 텍스트, 제1 텍스트가 제2 언어로 번역된 제2 텍스트를 저장할 수 있다.The database 290 may store a first text corresponding to a voice in the first language and a second text in which the first text is translated into the second language.
데이터베이스(290)는 음성 인식에 필요한 다양한 학습 모델을 저장하고 있을 수 있다.The database 290 may store various learning models required for voice recognition.
한편, 도 2에 도시된 인공지능 기기(10)의 프로세서(180)는 도 3에 도시된 전처리부(220) 및 컨트롤러(230)를 구비할 수 있다.Meanwhile, the processor 180 of the artificial intelligence device 10 shown in FIG. 2 may include the preprocessor 220 and the controller 230 shown in FIG. 3.
즉, 인공지능 기기(10)의 프로세서(180)는 전처리부(220)의 기능 및 컨트롤러(230)의 기능을 수행할 수도 있다.That is, the processor 180 of the artificial intelligence device 10 may perform the functions of the preprocessor 220 and the controller 230.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기(10)의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.Figure 5 is a block diagram illustrating the configuration of a processor for voice recognition and synthesis of the artificial intelligence device 10, according to an embodiment of the present invention.
즉, 도 5의 음성 인식 및 합성 과정은 서버를 거치지 않고, 인공지능 기기(10)의 러닝 프로세서(130) 또는 프로세서(180)에 의해 수행될 수도 있다.That is, the voice recognition and synthesis process of FIG. 5 may be performed by the learning processor 130 or processor 180 of the artificial intelligence device 10 without going through the server.
도 5를 참조하면, 인공지능 기기(10)의 프로세서(180)는 STT 엔진(510), NLP 엔진(530), 및 음성 합성 엔진(550)를 포함할 수 있다.Referring to FIG. 5, the processor 180 of the artificial intelligence device 10 may include an STT engine 510, an NLP engine 530, and a voice synthesis engine 550.
각 엔진은 하드웨어 또는 소프트웨어 중 어느 하나일 수 있다.Each engine can be either hardware or software.
STT 엔진(510)은 도 1의 STT 서버(20)의 기능을 수행할 수 있다. 즉, STT 엔진(510)은 음성 데이터를 텍스트 데이터로 변환할 수 있다.The STT engine 510 may perform the function of the STT server 20 of FIG. 1. That is, the STT engine 510 can convert voice data into text data.
NLP 엔진(530)은 도 1의 NLP 서버(30)의 기능을 수행할 수 있다. 즉, NLP 엔진(530)은 변환된 텍스트 데이터로부터 화자의 의도를 나타내는 의도 분석 정보를 획득할 수 있다.The NLP engine 530 may perform the functions of the NLP server 30 of FIG. 1. That is, the NLP engine 530 can obtain intention analysis information indicating the speaker's intention from the converted text data.
음성 합성 엔진(550)은 도 1의 음성 합성 서버(40)의 기능을 수행할 수 있다.The voice synthesis engine 550 may perform the function of the voice synthesis server 40 of FIG. 1.
음성 합성 엔진(550)은 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.The speech synthesis engine 550 may search a database for syllables or words corresponding to given text data, synthesize a combination of the searched syllables or words, and generate a synthesized voice.
음성 합성 엔진(550)은 전처리 엔진(551) 및 TTS 엔진(553)을 포함할 수 있다.The voice synthesis engine 550 may include a preprocessing engine 551 and a TTS engine 553.
전처리 엔진(551)은 합성 음성을 생성하기 전, 텍스트 데이터를 전처리할 수 있다. The preprocessing engine 551 may preprocess text data before generating synthetic speech.
구체적으로, 전처리 엔진(551)은 텍스트 데이터를 의미 있는 단위인 토큰으로 나누는 토큰화를 수행한다.Specifically, the preprocessing engine 551 performs tokenization by dividing text data into tokens, which are meaningful units.
토큰화 수행 후, 전처리 엔진(551)은 노이즈 제거를 위해 불필요한 문자, 기호를 제거하는 클렌징 작업을 수행할 수 있다.After performing tokenization, the preprocessing engine 551 may perform a cleansing operation to remove unnecessary characters and symbols to remove noise.
그 후, 전처리 엔진(551)는 표현 방법이 다른 단어 토큰들을 통합시켜, 같은 단어 토큰을 생성할 수 있다.Afterwards, the preprocessing engine 551 can generate the same word token by integrating word tokens with different expression methods.
그 후, 전처리 엔진(551)는 의미 없는 단어 토큰(불용어, stopword)을 제거할 수 있다.Afterwards, the preprocessing engine 551 may remove meaningless word tokens (stopwords).
TTS 엔진(553)은 전처리 된 텍스트 데이터에 상응하는 음성을 합성하고, 합성 음성을 생성할 수 있다.The TTS engine 553 can synthesize speech corresponding to preprocessed text data and generate synthesized speech.
이하, 인공지능 기기에서 소비되는 다양한 플랫폼 기반의 다양한 길이의 비디오 데이터에 대하여, 음성 서비스 기술(예를 들어, 음성 인식, 음성 합성 등)을 이용하여 포토툰 서비스를 제공하는 다양한 실시예들에 관해 설명한다.Hereinafter, various embodiments of providing phototoon services using voice service technology (e.g., voice recognition, voice synthesis, etc.) for video data of various lengths based on various platforms consumed by artificial intelligence devices will be described. do.
본 개시에서 기술되는 “포토툰”은, 포토와 툰의 합성어로, 인공지능 기기(10)를 통해 제공되는 비디오 데이터의 원하는 부분(예를 들어, 전체 또는 일부)에 대하여 이미지(정지영상 또는 동영상 포맷)를 획득하고, 대응하는 음성 데이터를 텍스트로 변환 후에, 획득된 이미지에 변환된 텍스트를 합성한 합성 이미지(정지영상 또는 동영상 포맷)를 나타낸다. 인공지능 기기(10)에서 비디오 데이터에 대하여 포토툰을 생성하여 제공하는 것을 ‘포토툰 서비스’라 명명하여 설명한다. 다만, 본 개시는 상기한 용어에 한정되는 것은 아니다.“Phototoon” described in this disclosure is a compound word of photo and toon, and is an image (still image or video format) for a desired portion (e.g., all or part) of video data provided through the artificial intelligence device 10. ) is acquired, the corresponding voice data is converted to text, and then a composite image (still image or video format) is displayed by combining the acquired image with the converted text. The process of creating and providing a phototoon for video data in the artificial intelligence device 10 is referred to as a ‘phototoon service’. However, the present disclosure is not limited to the above terms.
본 개시의 일실시예에 따르면, 인공지능 기기(10)는 포토툰 서비스를 통해 대상 비디오 데이터에 대하여 원하는 부분에 대한 요약 서비스(요약본 또는 요약 데이터)을 제공할 수 있다.According to an embodiment of the present disclosure, the artificial intelligence device 10 can provide a summary service (summary or summary data) for desired portions of target video data through the phototoon service.
일실시예에 따르면, 포토툰 서비스는, 대상 비디오 데이터는 그대로 출력되되, 특정 구간 즉, 포토툰 서비스 구간에서만 포토툰 합성 이미지가 출력되는 형태로 서비스 제공될 수 있다.According to one embodiment, the phototoon service may be provided in such a way that the target video data is output as is, but the phototoon composite image is output only in a specific section, that is, the phototoon service section.
다른 일실시예에 따르면, 포토툰 서비스는, 대상 비디오의 재생과 별개로 특정 구간에 대한 포토툰 합성 이미지가 생성되고, 해당 포토툰 합성 이미지만 출력되는 포토툰 서비스만 출력되는 형태로 서비스 제공될 수 있다. According to another embodiment, the phototoon service may be provided in such a way that a phototoon composite image for a specific section is generated separately from the playback of the target video, and only the phototoon service that outputs only the phototoon composite image is output.
한편, 하나의 대상 비디오에 대해 복수 개의 포토툰 서비스 구간 또는 복수 개의 포토툰 합성 이미지가 생성되어 서비스 제공될 수 있다. Meanwhile, a plurality of phototoon service sections or a plurality of phototoon composite images may be generated and service provided for one target video.
인공지능 기기(10)는 이벤트 감지 예를 들어, 원격제어장치를 통한 사용자의 요청에 따라 포토툰 서비스 구간 단위로 스킵(skip)하면서, 대상 비디오를 소비할 수 있도록 사용자에게 서비스 제공할 수 있다.The artificial intelligence device 10 may sense an event, for example, skip each phototoon service section according to the user's request through a remote control device, and provide a service to the user so that he or she can consume the target video.
또는, 인공지능 기기(10)는 이벤트 감지를 통해 포토툰 서비스가 활성화되거나 포토툰 서비스가 요청되는 경우, 대상 비디오 내 포토툰 서비스 가능한 구간(영역)을 구분하고, 구분된 각 포토툰 서비스 구간을 사용자가 식별 및 선택 가능하도록 제공할 수 있다.Alternatively, when the phototoon service is activated or the phototoon service is requested through event detection, the artificial intelligence device 10 distinguishes sections (areas) available for phototoon service within the target video, and allows the user to identify and identify each divided phototoon service section. Can be provided for selection.
인공지능 기기(10)는 대상 비디오에 대하여 포토툰 서비스로 구성된 데이터가 복수 개인 경우, 목록화하여 선택 가능하도록 제공할 수 있으며, 선택된 포토툰 서비스 데이터를 출력할 수 있다.If there is a plurality of data consisting of phototoon services for the target video, the artificial intelligence device 10 can list them and provide them for selection, and output the selected phototoon service data.
본 개시에서 포토툰 합성 데이터는, 원하는 구간 단위로 생성될 수 있다. 여기서, ’원하는 구간’이라 함은 예를 들어, 프레임, 씬(scene), 복수의 씬들로 구성된 시퀀스(sequence) 단위 등을 나타낼 수 있다. 예를 들어, 시퀀스 단위에 대하여 포토툰 서비스가 요청되는 경우라고 할지라도, 인공지능 기기(10)는 시퀀스를 구성하는 모든 씬들이 아닌 그 중 일부 씬(들)(또는 주요 씬)에 대해서만 포토툰 합성 데이터를 생성할 수 있다. 다만, 상기한 내용에 반드시 한정되는 것은 아니다.In the present disclosure, phototoon composite data can be generated in units of desired sections. Here, the ‘desired section’ may represent, for example, a frame, a scene, or a sequence unit composed of a plurality of scenes. For example, even if a phototoon service is requested for a sequence unit, the artificial intelligence device 10 provides phototoon composite data only for some scene(s) (or main scenes), not all scenes constituting the sequence. can be created. However, it is not necessarily limited to the above contents.
이하에서, 포토툰 서비스와 관련하여, 음성 인식 기술 기반의 STT 변환 기술을 이용할 수 있다. Below, in relation to the Phototoon service, STT conversion technology based on voice recognition technology can be used.
음성 인식 기술은 인공지능 기기(10) 내 구비된 STT 엔진(및 NLP 엔진)에 의해 처리될 수 있으나, 반드시 이에 한정되는 것은 아니다. 예를 들어, 음성 인식 기술은 음성 서비스 서버(200) 내 STT 서버(20)와 NLP 서버(30)를 통해 처리되어 인공지능 기기(10)로 전달될 수 있다.Voice recognition technology may be processed by an STT engine (and NLP engine) provided in the artificial intelligence device 10, but is not necessarily limited to this. For example, voice recognition technology may be processed through the STT server 20 and NLP server 30 in the voice service server 200 and transmitted to the artificial intelligence device 10.
인공지능 기기(10)는, 사용자가 포토툰 서비스에 손쉽게 진입 및 이용할 수 있도록, 대시보드(dash board)나 다양한 인공지능 기기(10)의 메뉴에 포토툰 서비스 메뉴 항목을 생성하여 제공하거나 포토툰 서비스 전용 어플리케이션을 다운로드 받아 설치 후 이용할 수 있도록 제공할 수 있다. 또는, 인공지능 기기(10)는 미리 설정된 소정 길이 이상의 비디오에 대한 선택이나 재생과 같은 이벤트 요청이 수신되면, 포토툰 서비스 이용에 대한 가이드를 아이콘이나 OSD 메시지(On Screen Display message) 등을 제공할 수 있다.The artificial intelligence device (10) creates and provides a phototoon service menu item on the dashboard or menu of various artificial intelligence devices (10) so that users can easily enter and use the phototoon service, or provides an application dedicated to the phototoon service. It can be downloaded and installed for use. Alternatively, when an event request such as selection or playback of a video of a preset length or longer is received, the artificial intelligence device 10 may provide an icon or an OSD message (On Screen Display message) as a guide for using the phototoon service. there is.
음성 서비스 서버(200)는 포토툰 서비스 플랫폼을 제공할 수 있으며, 인공지능 기기(10)를 통해 웹 서비스나 웹 앱 형태로 대상 비디오 데이터에 대한 포토툰 서비스의 이용을 지원하거나 가이드 할 수 있다.The voice service server 200 can provide a phototoon service platform and can support or guide the use of the phototoon service for target video data in the form of a web service or web app through the artificial intelligence device 10.
도 6은 본 개시의 일 실시 예에 따른 음성 인식 기반 포토툰 서비스 제공을 위한 음성 서비스 시스템의 구성 블록도이다.Figure 6 is a block diagram of a voice service system for providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
도 7은 도 6의 프로세서(620)의 구성 블록도이다.FIG. 7 is a block diagram of the processor 620 of FIG. 6.
먼저, 도 6을 참조하면, 음성 인식 기능 기반 포토툰 서비스 제공을 위한 음성 서비스 시스템은 인공지능 기기(10)를 포함하여 구성될 수 있다. 실시예에 따라서, 음성 서비스 서버(200)는 인공지능 기기(10)의 포토툰 서비스 관련하여 전부 또는 일부 기능을 대체할 수 있다.First, referring to FIG. 6, a voice service system for providing a phototoon service based on a voice recognition function may be configured to include an artificial intelligence device 10. Depending on the embodiment, the voice service server 200 may replace all or part of the functions related to the phototoon service of the artificial intelligence device 10.
인공지능 기기(10)는, 포토툰 서비스 데이터 및/또는 포토툰 서비스 데이터가 포함된 비디오 데이터를 출력하는 출력부(150)와 처리부(600)를 포함할 수 있다.The artificial intelligence device 10 may include an output unit 150 and a processing unit 600 that output phototoon service data and/or video data including phototoon service data.
처리부(600)는 메모리(610)와 프로세서(620)를 포함하여 구성될 수 있다.The processing unit 600 may include a memory 610 and a processor 620.
프로세서(620)는 처리부(600)의 전반적인 기능을 제어하며, 포토툰 서비스 제공을 위한 동작을 수행할 수 있다.The processor 620 controls the overall functions of the processing unit 600 and can perform operations to provide the phototoon service.
도 7을 참조하면, 프로세서(620)는 포토툰 서비스 제공을 위하여, 데이터 수신부(710), 검출부(720), 음성인식 엔진(730), 합성부(740) 및 제어부(750)를 포함하여 구성될 수 있다. 여기서, 프로세서(620)를 구성하는 다양한 구성요소 중 적어도 하나는 도시된 바와 달리, 복수의 모듈 형태로 구현될 수도 있다. 실시예에 따라서, 프로세서(620)는 도 7에 도시되진 않은 적어도 하나의 구성요소를 더 포함하여 구성될 수도 있다.Referring to FIG. 7, the processor 620 includes a data reception unit 710, a detection unit 720, a voice recognition engine 730, a synthesis unit 740, and a control unit 750 to provide the phototoon service. You can. Here, at least one of the various components constituting the processor 620 may be implemented in the form of a plurality of modules, unlike shown. Depending on the embodiment, the processor 620 may further include at least one component not shown in FIG. 7.
데이터 수신부(710)는 비디오 데이터를 수신하여 포토툰 서비스 요청 구간(또는 포토툰 서비스 가능 후보 구간)을 식별하고, 식별된 포토툰 서비스 가능 후보 구간에 대하여 소정 단위로 구분하여 처리할 수 있다. 소정 단위는 전술한 프레임 단위, 씬 단위, 시퀀스 단위 등일 수 있다. 이러한 구분은 포토툰 서비스가 적용되는 대상 비디오 또는 대상 비디오의 포토툰 서비스 요청 구간 단위에 대해서만 이루어질 수 있다. The data receiver 710 may receive video data, identify a phototoon service request section (or a phototoon service-capable candidate section), and process the identified phototoon service-capable candidate sections by dividing them into predetermined units. The predetermined unit may be the above-mentioned frame unit, scene unit, sequence unit, etc. This distinction can be made only for the target video to which the phototoon service is applied or the phototoon service request section of the target video.
검출부(720)는 대상 비디오 데이터 내 소정 단위에 대하여 포토툰 서비스 관련 정보를 검출할 수 있다. 이렇게 검출되는 정보에는, 씬/시퀀스 체인지 정보, 주요 씬 정보, 얼굴 특징 정보, 얼굴 기반 대표 씬 정보, 음성 정보 등 중 적어도 하나 이상의 정보가 포함될 수 있다.The detection unit 720 can detect phototoon service-related information for a predetermined unit within the target video data. The information detected in this way may include at least one of scene/sequence change information, main scene information, facial feature information, face-based representative scene information, and voice information.
검출부(720)는 전처리 모듈, 학습 모듈 등을 포함할 수 있으며, 포토툰 서비스와 관련된 생성된 인공지능 모델을 학습하여, 전술한 적어도 하나 이상의 정보를 자동 검출할 수 있다.The detection unit 720 may include a preprocessing module, a learning module, etc., and can automatically detect at least one of the above-described information by learning the generated artificial intelligence model related to the phototoon service.
음성인식 엔진(730)은 STT 엔진을 포함하여, 검출부(720)를 통해 검출되는 이미지 정보에 상응하는 음성 정보를 텍스트 정보로 변환할 수 있다. 전술한 바와 같이, 실시예에 따라서, 음성인식 엔진(730)의 기능은 음성 인식 서버(200) 내 STT 서버(20)에 의해 수행될 수 있으며, 그 경우 도 7에서 음성인식 엔진(730)은 비활성화되거나 구성에서 제외될 수 있다.The voice recognition engine 730 includes an STT engine and can convert voice information corresponding to image information detected through the detector 720 into text information. As described above, depending on the embodiment, the function of the voice recognition engine 730 may be performed by the STT server 20 in the voice recognition server 200, and in this case, in FIG. 7, the voice recognition engine 730 is It can be disabled or excluded from configuration.
합성부(740)는 검출부(720)에서 검출된 이미지 정보와 음성인식 엔진(730)을 통해 변환된 텍스트 정보가 서로 싱크가 맞도록 처리하여 합성할 수 있다.The synthesis unit 740 can process and synthesize the image information detected by the detection unit 720 and the text information converted through the voice recognition engine 730 so that they are in sync.
제어부(750)는 프로세서(620)의 전반적인 동작, 기능을 제어하는 역할을 수행할 수 있다.The control unit 750 may control the overall operation and functions of the processor 620.
제어부(750)는 대상 비디오에 대하여 본 개시에 따른 포토툰 서비스 제공을 위해 상기 각 구성요소를 제어할 수 있다.The control unit 750 can control each of the above components to provide the phototoon service according to the present disclosure to the target video.
한편, 프로세서(620)는 도 2의 프로세서(180)와 동일한 구성일 수도 있으나, 별개의 구성일 수도 있다.Meanwhile, the processor 620 may have the same configuration as the processor 180 of FIG. 2, but may also have a separate configuration.
본 개시에서 설명의 편의상 인공지능 기기(10)로 설명되더라도 문맥에 따라 음성 서비스 서버(200)로 대체되거나 함께 동작하는 것을 포함할 수 있다.In the present disclosure, although it is described as the artificial intelligence device 10 for convenience of explanation, it may be replaced by or operate together with the voice service server 200 depending on the context.
도 8 내지 11은 본 개시의 일실시예에 따른 음성 인식 기반 포토툰 서비스 제공 방법을 설명하기 위해 도시한 순서도이다.8 to 11 are flowcharts illustrating a method of providing a voice recognition-based phototoon service according to an embodiment of the present disclosure.
도 12 내지 14는 본 개시의 일실시예에 따른 포토툰 서비스 제공 방법을 설명하기 위해 도시한 도면이다.Figures 12 to 14 are diagrams to explain a method of providing a phototoon service according to an embodiment of the present disclosure.
도 8은 설명의 편의상 프로세서(620)의 관점에서 기술하나, 이에 한정되는 것은 아니다.Figure 8 is described from the perspective of the processor 620 for convenience of explanation, but is not limited thereto.
도 8을 참조하면, 프로세서(620)는 출력부(150)를 통해 비디오 데이터를 출력할 수 있다(S101).Referring to FIG. 8, the processor 620 may output video data through the output unit 150 (S101).
프로세서(620)는 이벤트를 감지할 수 있다(S103).The processor 620 may detect an event (S103).
이벤트는 포토툰 서비스와 관련된 다양한 입력, 동작 등을 나타낼 수 있다. 예를 들어, 이벤트는 원격제어장치(미도시)를 통한 사용자의 포토툰 서비스 요청 신호의 수신을 나타낼 수 있다. 원격제어장치는 리모컨, 인공지능 기기(10)와 데이터 커뮤니케이션을 위한 어플리케이션이 설치된 스마트폰, 태블릿pc 등 모바일 기기, 인공지능 스피커 등을 포함할 수 있다.Events can represent various inputs, actions, etc. related to the Phototoon service. For example, the event may represent the reception of a user's phototoon service request signal through a remote control device (not shown). The remote control device may include a remote control, a mobile device such as a smartphone or tablet PC installed with an application for data communication with the artificial intelligence device 10, an artificial intelligence speaker, etc.
이러한 이벤트는 예컨대, S101 단계에서와 같은 비디오 데이터를 시청 중에 발생할 수도 있고, 그렇지 않을 수도 있다. 후자의 경우 전술한 바와 같이, 홈 메뉴상에 하나의 메뉴 항목으로 제공되거나 애니 스크린(any screen) 상태(예컨대, 비디오가 재생 중이 아닌 상태)에서 음성 입력 등을 통해 이벤트가 발생할 수도 있다. 이러한 의미에서, S101 단계는 필수적이지 않을 수 있다. 후자의 경우, 이벤트가 감지되면, 인공지능 기기(10)는 비디오 목록을 제공하고, 선택된 비디오에 대하여 포토툰 서비스를 제공할 수 있다. 이러한 비디오 목록에는 방송 프로그램도 포함될 수 있다.This event may or may not occur while watching video data, for example in step S101. In the latter case, as described above, an event may be provided as a menu item on the home menu or may occur through voice input in an any screen state (eg, a state in which a video is not playing). In this sense, step S101 may not be essential. In the latter case, when an event is detected, the artificial intelligence device 10 can provide a video list and provide a phototoon service for the selected video. These video lists may also include broadcast programs.
프로세서(620)는 소정 단위의 이미지 데이터를 추출할 수 있다(S105).The processor 620 may extract image data in a predetermined unit (S105).
전술한 바와 같이, 소정 단위는 프레임, 씬, 시퀀스 등의 단위 중 어느 하나일 수 있다. 실시예에 따라서, 하나의 비디오 데이터 내에 소정 단위는 복수 개일 수 있으며, 이 때 각 단위는 서로 상이할 수도 있다. 예컨대, 하나는 씬 단위이고, 다른 하나는 시퀀스 단위일 수 있다.As described above, the predetermined unit may be any one of units such as a frame, scene, or sequence. Depending on the embodiment, there may be a plurality of predetermined units within one video data, and in this case, each unit may be different from each other. For example, one may be a scene unit and the other may be a sequence unit.
다른 실시예에 따르면, 소정 단위는 예를 들어, 사용자에 의해 임의로 설정된 재생 구간을 나타낼 수도 있다.According to another embodiment, the predetermined unit may represent, for example, a playback section arbitrarily set by the user.
또 다른 실시예에 따르면, 소정 단위는 예를 들어, 사용자에 의해 선택된 오브젝트가 출력되는 구간을 나타낼 수도 있다. 이 때, 오브젝트는 사람, 사물 등을 포함하는 개념일 수 있다. 한편, 비디오 데이터에 오브젝트로 복수의 사람이 있는 경우, 하나의 사람만 선택하고, 선택된 사람이 나오는 씬, 구간 등만이 소정 단위에 포함될 수도 있다. According to another embodiment, the predetermined unit may represent, for example, a section in which an object selected by the user is output. At this time, the object may be a concept including people, objects, etc. Meanwhile, if there are a plurality of people as objects in the video data, only one person may be selected, and only the scene or section in which the selected person appears may be included in the predetermined unit.
또 다른 실시예에 따르면, 소정 단위는 예를 들어, 피지컬한 오브젝트 기반이 아니라 주제(theme), 속성 등에 기초하여 결정될 수도 있다. 예를 들어, 인공지능 기기(10)는 사용자로부터 요리를 하는 장면과 다른 장면들이 포함된 비디오에 대하여 포토툰 서비스 제공이 요청되면, 소정 단위 즉, 테마로 요리를 설정하여 제공할 수 있으며, 선택에 따라 대상 비디오의 재생 구간 내 요리에 관련된 구간만을 추출하여 포토툰 서비스에 이용할 수 있다.According to another embodiment, the predetermined unit may be determined based on a theme, attribute, etc., rather than a physical object. For example, when the artificial intelligence device 10 receives a request from the user to provide a phototoon service for a video containing a cooking scene and other scenes, the artificial intelligence device 10 may set and provide cooking in a predetermined unit, that is, a theme, and provide the selection. Accordingly, only the sections related to cooking within the playback section of the target video can be extracted and used in the phototoon service.
한편, 인공지능 기기(10)는 요청된 비디오 재생 구간 내에서 소정 단위로 포토툰 서비스를 위한 정보를 추출하되, 요청된 비디오 재생 구간이 반드시 연속된 재생 구간일 필요는 없다.Meanwhile, the artificial intelligence device 10 extracts information for the phototoon service in predetermined units within the requested video playback section, but the requested video playback section does not necessarily need to be a continuous playback section.
인공지능 기기(10)는, 복수의 비디오가 포토툰 서비스의 대상 비디오로 함께 선택된 경우, 각 비디오에 대하여 미리 설정된 소정 단위에 기초하여, 하나의 포토툰 서비스 데이터를 생성할 수도 있다. 예를 들어, ‘요리’라는 테마가 단위 설정되고, 포토툰 서비스 대상 비디오가 복수 개 선택된 경우, 각 대상 비디오에서 요리와 관련된 구간을 추출하여 하나의 포토툰 서비스 데이터를 자동 생성할 수 있다.When multiple videos are selected together as target videos for the phototoon service, the artificial intelligence device 10 may generate one phototoon service data based on a preset unit for each video. For example, if the theme of ‘cooking’ is set as a unit and multiple Phototoon service target videos are selected, a section related to cooking can be extracted from each target video to automatically generate one Phototoon service data.
한편, 인공지능 기기(10)는 포토툰 서비스와 무관하게 현재 재생 가능한 비디오 목록을 제공할 수 있으며, 제공된 비디오 목록상에 각 비디오의 포토툰 서비스의 제공 가부에 대한 식별 정보를 제공할 수도 있다.Meanwhile, the artificial intelligence device 10 can provide a list of currently playable videos regardless of the Phototoon service, and may also provide identification information about whether or not the Phototoon service is available for each video on the provided video list.
프로세서(620)는 추출된 소정 단위의 이미지 데이터에 대응하는 음성 데이터를 추출할 수 있다(S107).The processor 620 may extract voice data corresponding to the extracted predetermined unit of image data (S107).
프로세서(620)는 추출된 대응 음성 데이터를 STT 처리할 수 있다(S109).The processor 620 may STT process the extracted corresponding voice data (S109).
프로세서(620)는 추출된 이미지 데이터에 변환된 음성 데이터 즉, 텍스트 데이터가 싱크가 맞도록 정렬하여 합성할 수 있다(S111).The processor 620 can synthesize the extracted image data by aligning the converted voice data, that is, text data, so that they are in sync (S111).
프로세서(620)는 합성 이미지 기반 포토툰 서비스를 제공할 수 있다(S113).The processor 620 may provide a phototoon service based on a synthetic image (S113).
다음으로, 도 9 및 도 12의 (a)를 참조하여, 씬 체인지(scene chagne) 기반으로 포토툰 서비스를 제공하는 방법에 대해 설명한다.Next, with reference to (a) of FIGS. 9 and 12, a method of providing a phototoon service based on scene change will be described.
프로세서(620)는 비디오에 대하여 포토툰 서비스가 요청되면, 비디오 내 소정 단위의 변화 감지 예를 들어, 도 9에서는 씬 체인지(scene change)가 있는지 검출(또는 감지)할 수 있다(S201). When a phototoon service is requested for a video, the processor 620 detects a change in a predetermined unit within the video. For example, in FIG. 9, the processor 620 can detect (or sense) whether there is a scene change (S201).
씬 체인지 검출은, 대상 비디오 내 씬 체인지 구간이 존재하는지 판단하는 것과 씬 체인지 구간에 해당하는 데이터를 검출하는 것 중 어느 하나를 나타낼 수 있다. Scene change detection may refer to either determining whether a scene change section exists in the target video or detecting data corresponding to the scene change section.
도 12의 (a)를 참조하면, 소정 단위는 씬 체인지(scene change) 구간을 기준으로 자동 설정될 수 있다.Referring to (a) of FIG. 12, the predetermined unit can be automatically set based on the scene change section.
도 12의 (a)를 참조하면, 제1 시점(1210)에서 하나의 씬이 시작되어 제2 시점(1220)에서 다른 씬이 시작되는 것을 알 수 있다.Referring to (a) of FIG. 12, it can be seen that one scene starts at the first viewpoint 1210 and another scene starts at the second viewpoint 1220.
도 9 및 도 12의 (a)에서 씬 체인지는 전술한 도 8의 소정 단위에 상응하는 구간일 수 있다.In Figures 9 and 12(a), the scene change may be a section corresponding to the predetermined unit of Figure 8 described above.
프로세서(620)는 각 부분 클립(clip)마다 주요 장면(또는 중요 장면)을 검출할 수 있다(S203).The processor 620 may detect a main scene (or important scene) for each partial clip (S203).
프로세서(620)는 검출된 각 부분 클립의 주요 장면에서 얼굴 특징을 검출할 수 있다(S205).The processor 620 may detect facial features in key scenes of each detected partial clip (S205).
프로세서(620)는 S205 단계에서 검출한 각 부분 클립의 주요 장면의 얼굴 특징을 기반으로 대표 씬(representative scene)을 검출할 수 있다(S207).The processor 620 may detect a representative scene based on the facial features of the main scene of each partial clip detected in step S205 (S207).
프로세서(620)는 S207 단계에서 검출한 대표 씬에 해당하는 구간의 음성 데이터를 추출할 수 있다(S209).The processor 620 may extract voice data of a section corresponding to the representative scene detected in step S207 (S209).
프로세서(620)는 S209 단계에서 추출한 음성 데이터를 STT 변환 처리할 수 있다(S211).The processor 620 may process STT conversion on the voice data extracted in step S209 (S211).
프로세서(620)는 S207 단계에서 검출한 대표 씬과 S211 단계에서 STT 처리된 데이터를 합성할 수 있다(S213).The processor 620 may synthesize the representative scene detected in step S207 and the STT-processed data in step S211 (S213).
프로세서(620)는 이렇게 합성된 데이터 즉, 포토툰 합성 데이트를 이용하여 포토툰 서비스 구성하여 제공할 수 있다. The processor 620 can configure and provide a phototoon service using the synthesized data, that is, the phototoon composite data.
포토툰 서비스 제공 방식은 미리 설정된 사항에 따르되, 임의 변경 가능하다.The method of providing phototoon services follows pre-set conditions, but can be changed arbitrarily.
다음으로, 도 10 및 12의 (b)를 참조하여 음성 출력 구간 기반으로 포토툰 서비스를 제공하는 것에 관해 설명한다.Next, providing a phototoon service based on the audio output section will be described with reference to (b) of FIGS. 10 and 12.
프로세서(620)는 비디오 재생 구간에서 음성을 검출할 수 있다(S301).The processor 620 may detect voice in the video playback section (S301).
프로세서(620)는 S301 단계를 통해 비디오 재생 구간 내에 음성이 검출되면, 음성이 검출되는 구간 즉, 음성 구간을 추출할 수 있다(S303).If voice is detected within the video playback section through step S301, the processor 620 may extract the section where voice is detected, that is, the voice section (S303).
전술한 S301 단계는 생략되고, S303 단계로 통합될 수 있다.The above-described step S301 may be omitted and integrated into step S303.
한편, 도 12의 (b)를 참조하면, 소정 단위는 음성 구간 추출 기반으로 자동 설정될 수 있다.Meanwhile, referring to (b) of FIG. 12, a predetermined unit can be automatically set based on voice section extraction.
도 12의 (b)를 참조하면, 제3 시점(1230)에서 음성이 출력되고, 제4 시점(1240)에서 다시 음성이 출력될 수 있다. 따라서, 음성이 출력되는 시점의 씬만 추출될 수 있다.Referring to (b) of FIG. 12, audio may be output at a third viewpoint 1230 and again at a fourth viewpoint 1240. Therefore, only the scene at the time the voice is output can be extracted.
프로세서(620)는 S303 단계에서 음성 구간을 추출하면, 해당 구간의 음성 데이터를 STT 변환 처리할 수 있다(S305).If the processor 620 extracts a voice section in step S303, it can perform STT conversion on the voice data of the corresponding section (S305).
프로세서(620)는 S303 단계에서 음성 데이터가 추출된 구간의 프레임상에 얼굴 데이터를 검출할 수 있다(S307).The processor 620 may detect face data on the frame in the section where voice data is extracted in step S303 (S307).
프로세서(620)는 S307 단계에서 검출된 얼굴 데이터로부터 얼굴 특징을 추출할 수 있다(S309).The processor 620 may extract facial features from the facial data detected in step S307 (S309).
프로세서(620)는 S309 단계에서 추출한 얼굴 특징을 기준으로 하여 대표 씬을 검출할 수 있다(S311).The processor 620 may detect a representative scene based on the facial features extracted in step S309 (S311).
프로세서(620)는 S305 단계에서 STT 변환 처리된 데이터와 S311 단계에서 검출된 대표 씬을 하나의 이미지로 합성할 수 있다(S313).The processor 620 may combine the STT converted data in step S305 and the representative scene detected in step S311 into one image (S313).
도 11 및 도 14에서는 예를 들어, 포토툰 서비스를 제공함에 있어서, 이미지를 합성하는 방법에 대해 설명한다.Figures 11 and 14 describe, for example, a method of compositing images when providing a phototoon service.
도 11 및 도 14를 참조하면, 프로세서(620)는 이미지를 합성함에 있어서, 도 14의 (a)에 도시된 바와 같이, 얼굴(1410)이 검출되는지 판단할 수 있다(S401).Referring to FIGS. 11 and 14 , when compositing images, the processor 620 may determine whether the face 1410 is detected, as shown in (a) of FIG. 14 (S401).
프로세서(620)는 S401 단계 판단 결과 얼굴이 검출되는 경우, 얼굴 크기가 임계값을 초과하는지 판단할 수 있다(S403).If a face is detected as a result of determination in step S401, the processor 620 may determine whether the face size exceeds the threshold (S403).
프로세서(620)는 S403 단계 판단 결과 얼굴 크기가 임계값을 초과한 것으로 판단되는 경우, 도 14의 (b)에 도시된 바와 같이 얼굴 방향을 인식할 수 있다(S405).If the processor 620 determines that the face size exceeds the threshold as a result of determination in step S403, the processor 620 may recognize the face direction as shown in (b) of FIG. 14 (S405).
프로세서(620)는 S405 단계에서 얼굴 방향이 인식되는 경우, 다음으로 도 14의 (c)에 도시된 바와 같이 입 위치를 인식할 수 있다(S407).If the face direction is recognized in step S405, the processor 620 can next recognize the mouth position as shown in (c) of FIG. 14 (S407).
프로세서(620)는 S405 단계에 인식한 얼굴 방향과 S407 단계에서 인식한 입 위치에 기초하여 STT 변환 처리된 텍스트 정보가 출력되는 위치 즉, 말풍선(1430)의 위치를 결정할 수 있다(S409).The processor 620 may determine the location where the STT converted text information is output, that is, the location of the speech bubble 1430, based on the face direction recognized in step S405 and the mouth position recognized in step S407 (S409).
프로세서(620)는 S409 단계를 통해 말풍선 위치가 결정되면, 도 13의 (a) 및 도 14의 (c)에 도시된 바와 같이 해당 위치에 말풍선(1310, 1430)이 출력되도록 말풍선 데이터와 이미지 프레임을 하나의 이미지로 합성할 수 있다(S411).When the position of the speech bubble is determined through step S409, the processor 620 processes the speech balloon data and the image frame so that the speech balloons 1310 and 1430 are output at the corresponding location as shown in Figures 13 (a) and Figure 14 (c). can be combined into one image (S411).
한편, 프로세서(620)는 S401 단계에서 판단 결과 해당 씬(또는 프레임)에 얼굴이 검출되지 않거나 S403 단계에서 얼굴 크기가 임계값 미만인 경우에는, 도 13의 (b)에 도시된 바와 같이 해당 이미지 내 소정 영역(1320)에 자막으로 출력되도록 해당 씬 또는 프레임과 합성할 수 있다(S413).Meanwhile, if the processor 620 determines in step S401 that no face is detected in the scene (or frame) or if the face size is less than the threshold in step S403, the processor 620 detects the face in the corresponding image as shown in (b) of FIG. 13. It can be combined with the corresponding scene or frame to be output as subtitles in a predetermined area 1320 (S413).
도 15, 16a 및 16b는 본 개시의 일실시예에 따라 음성인식 기술을 이용한 포토툰 서비스 제공 방법을 설명하기 위해 도시한 도면이다.Figures 15, 16a, and 16b are diagrams to explain a method of providing a phototoon service using voice recognition technology according to an embodiment of the present disclosure.
도 15의 (a) 내지 (d)는 예를 들어, 포토툰 서비스를 이용하여 비디오 데이터의 요약 방법에 대해 설명하기 위해 도시한 도면이다.Figures 15 (a) to (d) are diagrams illustrating a method of summarizing video data using, for example, a phototoon service.
여기서, 요약이라 함은, 하나의 비디오 데이터 기준 또는 하나의 비디오 데이터 내 포토툰 서비스의 대상인 소정 단위 기준으로 음성 인식 처리된 텍스트 정보와 대응 이미지 데이터가 하나의 이미지로 합성된 합성 이미지 중 주요 합성 이미지만 제공하는 것을 의미할 수 있다.Here, the summary refers to only the main composite image among the composite images in which voice recognition-processed text information and corresponding image data are synthesized into one image based on one video data or a predetermined unit that is the target of the phototoon service within one video data. It can mean providing.
편의상 도 15의 (a) 내지 (d)가 인공지능 기기(10)의 출력부(150)를 통해 동시에 제공되는 것으로 설명한다.For convenience, it is explained that (a) to (d) of Figure 15 are provided simultaneously through the output unit 150 of the artificial intelligence device 10.
실시예에 따라서, 도 15의 (a) 내지 (d)는 하나의 비디오 내 각 씬 단위의 대표 씬 이미지에 음성 데이터가 STT 변환 처리된 후에 합성된 이미지를 각각 나타낼 수 있다. 이 때, 각 대표 씬 이미지의 하단에는 음성 파형을 출력하여, 현재 음성 출력의 위치 정보도 제공할 수 있다.Depending on the embodiment, (a) to (d) of Figures 15 may represent images synthesized after STT conversion processing of voice data to a representative scene image of each scene unit within one video. At this time, an audio waveform is output at the bottom of each representative scene image, and location information of the current audio output can also be provided.
도 15의 (a) 내지 (d)에서 합성 이미지(1510 내지 1540)가 선택되는 경우, 인공지능 기기(10)는 해당 합성 이미지와 연관된(또는 매핑된) 씬의 합성 이미지들을 슬라이드 방식으로 펼쳐서 제공하거나 해당 영역에서 비디오(합성 이미지들만 동영상 형태로)가 재생될 수 있다.When the composite images 1510 to 1540 are selected in (a) to 15 (d) of FIG. 15, the artificial intelligence device 10 unfolds and provides composite images of the scene associated with (or mapped to) the corresponding composite image in a slide manner. Alternatively, a video (only composite images in video form) can be played in that area.
한편, 도 15의 (a) 내지 (d)에서 음성 파형(1515 내지 1545)이 선택되는 경우, 인공지능 기기(10)는 해당 음성 위치에 해당하는 합성 이미지를 출력하고, 선택에 따라 해당 위치 이후에 존재하는 합성 이미지가 순차로 재생 또는 제공될 수 있다.Meanwhile, when the voice waveforms 1515 to 1545 are selected in (a) to 15 (d) of Figure 15, the artificial intelligence device 10 outputs a composite image corresponding to the voice location, and depending on the selection, after the location. Composite images existing in can be played or provided sequentially.
유사한 방식으로, 도 15의 (a) 내지 (d)에서 음성 파형(1515 내지 1545)이 드래그(drag)되어 이미지 영역(1510 내지 1540)에 드롭(drop)되면, 해당 합성 이미지에 연관된 씬의 합성 이미지들이 순차 재생되어 제공될 수 있다.In a similar manner, when the voice waveforms 1515 to 1545 in Figures 15 (a) to 1545 are dragged and dropped into the image areas 1510 to 1540, the scene associated with the corresponding composite image is synthesized. Images may be played and provided sequentially.
도 15의 (a) 내지 (d)의 화면에서, 인공지능 기기(10)는 사용자의 선택에 따라 적어도 둘 이상의 합성 이미지(예를 들어, 도 15의 (a) 및 (c)와 같이)를 동시 재생할 수 있다. 이 때, 합성 이미지 자체에 텍스트 정보가 제공되기에 음성 데이터는 뮤트(mute) 처리될 수 있다. In the screen of Figures 15 (a) to (d), the artificial intelligence device 10 displays at least two or more composite images (e.g., as shown in Figures 15 (a) and (c)) according to the user's selection. Can be played simultaneously. At this time, since text information is provided in the composite image itself, voice data can be muted.
다른 실시예에 따르면, 인공지능 기기(10)는 적어도 하나의 이미지(1510 내지 1540)이나 음성 파형이 롱 클릭(long-click)되는 경우, 합성 이미지의 재생 속도나 사이즈를 변경 제어할 수 있도록 가이드 또는 제공할 수 있다.According to another embodiment, the artificial intelligence device 10 guides the artificial intelligence device 10 to change and control the playback speed or size of the composite image when at least one image (1510 to 1540) or a voice waveform is long-clicked. Or it can be provided.
도 16a를 참조하면, 인공지능 기기(10)는 사용자가 대상 비디오 예를 들어, 피트니스(fitness)에 관한 비디오 데이터에 대하여 포토툰 서비스를 요청하면, 비디오 전체 구간을 소정 단위 예를 들어, 피트니스 루틴에 따라 복수의 합성 이미지 그룹(1610, 1620, 1630)(예를 들어, 상체 피트니스, 하체 피트니스 등)으로 구분하고, 그룹 단위로 합성 이미지를 생성할 수 있다. Referring to FIG. 16A, when a user requests a phototoon service for a target video, for example, video data about fitness, the artificial intelligence device 10 converts the entire video section into a predetermined unit, for example, a fitness routine. Accordingly, the composite images may be divided into a plurality of groups 1610, 1620, and 1630 (e.g., upper body fitness, lower body fitness, etc.), and synthetic images may be generated for each group.
인공지능 기기(10)는 사용자에 의해 포토툰 요약 서비스가 별도 요청되면, 도 16a에 도시된 바와 같이, 그룹 단위의 합성 이미지들을 제공하여, 피트니스 비디오의 요약 데이터를 제공할 수 있다.If a phototoon summary service is separately requested by the user, the artificial intelligence device 10 may provide summary data of the fitness video by providing composite images in groups, as shown in FIG. 16A.
도 16b를 참조하면, 드라마나 영화에 대해서도 인공지능 기기(10)는 사용자에 의해 요청된 포토툰 서비스에 따라 요약 서비스를 제공할 수 있다. 예를 들어, 시리즈 드라마의 경우, 인공지능 기기(10)는 사용자의 포토툰 서비스 요청에 따라 각 시리즈에서 주인공과 같은 배우를 기준으로 또는 씬 속성(예를 들어, 액션씬, 드라이브씬, 러브씬과 같이)에 따라 합성 이미지 후보 이미지를 추출하고, 대응 음성 데이터를 추출 및 STT 처리 후에 하나의 이미지(합성 이미지 후보 이미지 + 말풍선(변환된 텍스트))가 합성되어, 재생 순서에 따라 순차로 재생되거나 슬라이드 방식으로 제공되는 경우 순차로 나열되어 제공될 수 있다.Referring to FIG. 16b, the artificial intelligence device 10 can provide a summary service according to the phototoon service requested by the user, even for dramas and movies. For example, in the case of a series drama, the artificial intelligence device 10 based on the actor such as the main character in each series or scene properties (e.g., action scene, drive scene, love scene) according to the user's phototoon service request. Accordingly, a composite image candidate image is extracted, corresponding audio data is extracted, and after STT processing, one image (synthetic image candidate image + speech bubble (converted text)) is synthesized and played sequentially or in a slide manner according to the playback order. If provided, they may be provided sequentially.
본 개시에서 포토툰 요약 서비스는 포토툰 서비스 제공 요청에 따라 또는 별도의 포토툰 요약 요청에 따라 제공될 수 있다.In this disclosure, the phototoon summary service may be provided according to a phototoon service provision request or a separate phototoon summary request.
상기에서, 그룹이라 함은, 카테고리, 속성 등에 따라 다르게 정의될 수 있다.In the above, group may be defined differently depending on category, attribute, etc.
도 13 내지 16에서, 합성 이미지 내 특정 오브젝트가 선택되는 경우, 인공지능 기기(10)는 다음과 같이 동작할 수 있다.13 to 16, when a specific object in the composite image is selected, the artificial intelligence device 10 may operate as follows.
인공지능 기기(10)는 해당 오브젝트와 연관된 정보나 다른 합성 이미지의 리스트를 제공할 수 있다.The artificial intelligence device 10 may provide a list of information or other synthetic images related to the object.
인공지능 기기(10)는 해당 오브젝트를 기준으로 대상 비디오 데이터에 대해 포토톤 서비스를 위한 합성 처리 과정을 재수행하여, 제공할 수 있다.The artificial intelligence device 10 can re-perform the synthesis processing process for the Phototone service on the target video data based on the corresponding object and provide it.
예를 들어, 인공지능 기기(10)에서 대상 비디오에 대하여 주인공인 사용자 A에 대하여 포토툰 서비스를 위한 합성 처리 과정을 수행하고, 합성 이미지를 제공하였다고 하자. 이 때, 제공되는 합성 이미지에 조연인 사용자 B가 함께 출력되고, 사용자가 조연인 사용자 B를 선택한 경우, 인공지능 기기(10)는 합성 이미지들 중 사용자 B에 대한 합성 이미지만 모아서 출력하거나 대상 비디오를 사용자 B를 기준으로 포토툰 서비스를 위한 합성 처리 과정을 재수행하여, 합성 이미지를 제공할 수 있다.For example, let's say that the artificial intelligence device 10 performs a synthesis processing process for the phototoon service on the target video for user A, the main character, and provides a composite image. At this time, when User B, who is a supporting character, is output together with the provided composite image, and the user selects User B, who is a supporting character, the artificial intelligence device 10 collects and outputs only the composite image for User B among the composite images or outputs the target video. The composite image can be provided by re-performing the composite processing process for the phototoon service based on user B.
본 개시에 따른 포토툰 서비스는 대상 비디오 내에 얼굴이 노출되는 구간과 얼굴이 노출되지 않는 구간으로 구분하여, 얼굴이 노출되는 구간에 대해서만 합성 처리 과정을 수행할 수 있다.The phototoon service according to the present disclosure can divide the target video into a section where the face is exposed and a section where the face is not exposed, and perform a compositing process only for the section where the face is exposed.
또는, 본 개시에 따른 포토툰 서비스는 상기 각 구간에 대해서 각각 합성 처리 과정을 수행하되, 각 구간에 대해 요약 포토툰을 구성하여 출력할 수 있다.Alternatively, the phototoon service according to the present disclosure may perform a compositing process for each section, and construct and output a summary phototoon for each section.
본 개시에 따라 포토툰 서비스에서 합성 이미지는 정지영상과 텍스트 데이터가 합성되어 생성되는데, 이 때 상기 정지 영상과 텍스트 데이터는 싱크가 맞는 구간에 대한 데이터일 수 있다. 다만, 다른 실시예에 따를 경우, 상대적으로 인물이 노출되는 것이 중요한 컨텐츠 즉, 비디오의 경우에, 포토툰 서비스의 합성 이미지는 인물 노출 이미지를 기준으로 합성하되, 음성 데이터는 인물이 노출되지 않더라도 음성만 출력되는 이미지(씬)의 음성 데이터도 STT 변환 후에 해당 인물이 나오는 이미지에 함께 합성하여 합성 이미지를 생성할 수 있다.According to the present disclosure, a composite image in the phototoon service is created by combining a still image and text data. In this case, the still image and text data may be data for a section that is in sync. However, according to another embodiment, in the case of content where exposure of a person is relatively important, that is, a video, the composite image of the phototoon service is synthesized based on the image of the person's exposure, but the voice data only contains the voice even if the person is not exposed. The audio data of the output image (scene) can also be combined with the image of the person in question after STT conversion to create a composite image.
포토툰 서비스를 구성하는 합성 이미지의 양은, 대상 비디오의 양 또는 재생 시간에 따라 비례하도록 결정될 수 있다. 예를 들어, 대상 비디오가 10분짜리 동영상인 경우에 합성 이미지의 양은 10개라고 가정하면, 대상 비디오가 30분짜리 경우에는 합성 이미지의 양은 30개일 수 있다. 다만, 이 경우에도, 대상 비디오의 재생 시간이 일정 수준 이상인 경우에는, 미리 정해진 합성 이미지의 최대치 양으로 제한될 수 있다.The amount of composite images that make up the phototoon service may be determined to be proportional to the amount or playback time of the target video. For example, assuming that the target video is a 10-minute video and the amount of composite images is 10, if the target video is 30 minutes long, the amount of composite images may be 30. However, even in this case, if the playback time of the target video is above a certain level, it may be limited to the maximum amount of the predetermined composite image.
상술한 본 개시의 다양한 실시예들 중 적어도 하나에 의하면, 비디오 데이터에 대하여 음성 인식 기반의 텍스트 변환 데이터를 합성하여 포토툰 서비스를 제공함으로써, 시스템의 활용도를 넓히고 사용자의 이용 만족도를 개선 내지 극대화할 수 있다. 다만, 본 개시는 이에 한정되지 않고, 반대로 정지영상 데이터와 텍스트로 구성된 데이터에 대하여 상기 텍스트를 음성 인식 기반으로 음성 변환하여 마치 비디오 데이터와 같은 방식으로 포토툰 서비스를 제공할 수도 있다. 그 원리는 전술한 실시예를 참조하면, 용이하게 유추할 수 있을 것이다.According to at least one of the various embodiments of the present disclosure described above, the phototoon service is provided by synthesizing voice recognition-based text conversion data with respect to video data, thereby expanding the usability of the system and improving or maximizing user satisfaction. there is. However, the present disclosure is not limited to this, and on the contrary, for data consisting of still image data and text, the phototoon service may be provided in the same way as video data by converting the text into speech based on speech recognition. The principle can be easily inferred by referring to the above-described embodiments.
본 개시에 도시된 방법, 순서 등과 관련된 설명은 반드시 도면에서 도시한 순서에 의해 구속되는 것은 아니며, 본 개시의 실시예에 따라 그 순서가 변경되거나 동시에 수행될 수 있다. 또한, 도면에 도시된 모든 동작 내지 과정이 반드시 필수적인 것은 아니어서, 실시예에 따라서 일부 동작 내지 과정은 생략되거나 반대도 추가될 수도 있다.Descriptions related to methods, sequences, etc. shown in the present disclosure are not necessarily bound by the order shown in the drawings, and the order may be changed or performed simultaneously according to embodiments of the present disclosure. Additionally, not all operations or processes shown in the drawings are necessarily essential, and some operations or processes may be omitted or vice versa, depending on the embodiment.
이상 상술한 바와 같이 본 개시의 다양한 실시예들 중 적어도 하나의 실시예에 따르면, 소정 길이의 비디오 데이터에 대하여 원하는 부분에 대해 포토툰 서비스를 제공할 수 있으며, 다양한 어플리케이션과 연동하여 멀티미디어 기능을 제공할 수 있다.As described above, according to at least one of the various embodiments of the present disclosure, a phototoon service can be provided for a desired portion of video data of a predetermined length, and multimedia functions can be provided in conjunction with various applications. You can.
특별히 언급하지 않더라도, 본 개시에서 개시한 적어도 일부의 동작의 순서는, 동시에 수행되거나 기설명한 순서와 다른 순서로 수행되거나 일부는 생략/추가될 수도 있다. Even if not specifically mentioned, the order of at least some of the operations disclosed in this disclosure may be performed simultaneously, may be performed in an order different from the previously described order, or some may be omitted/added.
본 발명의 일 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다.According to an embodiment of the present invention, the above-described method can be implemented as processor-readable code on a program-recorded medium. Examples of media that the processor can read include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
상기와 같이 설명된 인공지능 기기는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.The artificial intelligence device described above is not limited to the configuration and method of the above-described embodiments, but the embodiments are configured by selectively combining all or part of each embodiment so that various modifications can be made. It could be.
본 개시에 따른 인공지능 기기 및 그 동작 방법에 의하면, 다양한 길이의 비디오 데이터를 구성하는 소정 단위의 데이터에 대하여 음성 인식 기술을 활용한 포토툰 서비스를 제공하여, 포토툰으로 요약된 비디오 데이터를 통해 간단하면서도 쉽게 정보를 인식할 수 있도록 서비스하여, 사용자의 이용 만족도를 극대화할 수 있으므로, 산업상 이용가능성이 있다.According to the artificial intelligence device and its operating method according to the present disclosure, a phototoon service using voice recognition technology is provided for predetermined units of data constituting video data of various lengths, and video data summarized in phototoon is provided in a simple and simple manner. It has industrial applicability because it can maximize user satisfaction by providing a service that allows information to be easily recognized.

Claims (15)

  1. 이벤트를 감지하는 단계;detecting an event;
    상기 이벤트에 따라 상기 비디오 데이터를 구성하는 적어도 하나의 이미지 데이터를 추출하는 단계;extracting at least one image data constituting the video data according to the event;
    상기 이미지 데이터에 상응하는 음성 데이터를 추출하여 STT 처리하는 단계;Extracting voice data corresponding to the image data and STT processing it;
    상기 STT 처리된 데이터와 상기 이미지 데이터를 하나의 이미지로 합성하는 단계; 및combining the STT-processed data and the image data into one image; and
    상기 합성된 이미지를 출력하는 단계;를 포함하는,Including, outputting the synthesized image.
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  2. 제1항에 있어서,According to paragraph 1,
    상기 이벤트는,The event is,
    포토툰 서비스 요청 신호 수신을 포함하는,Including receiving a phototoon service request signal,
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  3. 제2항에 있어서,According to paragraph 2,
    상기 적어도 하나의 이미지 데이터는,The at least one image data is,
    프레임, 씬 및 복수의 씬들의 집합인 시퀀스 단위 중 어느 하나에 해당하는 데이터인,Data corresponding to any one of a frame, a scene, and a sequence unit that is a set of multiple scenes,
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  4. 제2항에 있어서,According to paragraph 2,
    상기 적어도 하나의 이미지 데이터는,The at least one image data is,
    상기 비디오 데이터 내 오브젝트를 기준으로 결정되는,Determined based on the object in the video data,
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  5. 제1항에 있어서,According to paragraph 1,
    상기 적어도 하나의 이미지 데이터로부터 얼굴을 검출하는 단계;detecting a face from the at least one image data;
    상기 검출된 얼굴의 크기가 임계값을 초과하면, 얼굴의 방향을 인식하는 단계;If the size of the detected face exceeds a threshold, recognizing the direction of the face;
    상기 얼굴의 입 위치를 인식하는 단계;Recognizing the position of the mouth of the face;
    상기 검출된 얼굴에 대해 인식된 얼굴의 방향과 입 위치에 따라 상기 STT 처리된 데이터가 포함될 말풍선의 위치를 결정하는 단계; 및determining a position of a speech bubble that will contain the STT-processed data according to the direction of the face and the position of the mouth recognized with respect to the detected face; and
    상기 결정된 말풍선의 위치에 상기 STT 처리된 데이터가 포함된 말풍선이 위치하도록 상기 이미지 데이터와 합성하는 단계;를 더 포함하는,Further comprising combining the image data so that a speech bubble containing the STT-processed data is located at the determined location of the speech balloon.
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  6. 제5항에 있어서,According to clause 5,
    상기 적어도 하나의 이미지 데이터로부터 얼굴이 검출되지 않는 경우에는, 상기 말풍선이 화면의 일 영역에 출력되도록 위치를 결정하고, 상기 이미지 데이터와 합성하는 단계;를 더 포함하는,If a face is not detected from the at least one image data, determining a position so that the speech bubble is output in one area of the screen and combining it with the image data; further comprising:
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  7. 제1항에 있어서,According to paragraph 1,
    상기 적어도 하나의 이미지 데이터는,The at least one image data is,
    상기 비디오 내 씬 체인지 구간에 해당하거나 음성 출력 구간 사이에 해당하는,Corresponding to the scene change section in the video or between audio output sections,
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  8. 제1항에 있어서,According to paragraph 1,
    상기 비디오 데이터에 대해 합성 이미지가 복수 개인 경우, 복수 개의 합성 이미지를 미리 정의된 기준에 따라 그룹핑하고 요약하여 일부 합성 이미지만 출력되는,When there are a plurality of composite images for the video data, the plurality of composite images are grouped and summarized according to predefined criteria, and only some composite images are output.
    인공지능 기기의 동작 방법.How artificial intelligence devices operate.
  9. 비디오 데이터를 출력하는 디스플레이; 및A display that outputs video data; and
    상기 디스플레이를 제어하는 프로세서를 포함하되,Including a processor that controls the display,
    상기 프로세서는,The processor,
    이벤트를 감지하여, 이벤트에 따라 상기 비디오 데이터를 구성하는 적어도 하나의 이미지 데이터를 추출하고, 상기 이미지 데이터에 상응하는 음성 데이터를 추출하여 STT 처리하며, 상기 STT 처리된 데이터와 상기 이미지 데이터를 하나의 이미지로 합성하여 합성 이미지를 출력하는,Detects an event, extracts at least one image data constituting the video data according to the event, extracts voice data corresponding to the image data and performs STT processing, and combines the STT-processed data and the image data into one Combining images to output a composite image,
    인공지능 기기.Artificial intelligence device.
  10. 제9항에 있어서,According to clause 9,
    상기 이벤트는 포토툰 서비스 요청 신호 수신을 포함하고,The event includes receiving a phototoon service request signal,
    상기 적어도 하나의 이미지 데이터는 프레임, 씬 및 복수의 씬들의 집합인 시퀀스 단위 중 어느 하나에 해당하는 데이터인,The at least one image data is data corresponding to any one of a frame, a scene, and a sequence unit that is a set of a plurality of scenes,
    인공지능 기기.Artificial intelligence device.
  11. 제10항에 있어서,According to clause 10,
    상기 프로세서는,The processor,
    상기 적어도 하나의 이미지 데이터를 상기 비디오 데이터 내 오브젝트를 기준으로 결정하는,Determining the at least one image data based on an object in the video data,
    인공지능 기기.Artificial intelligence device.
  12. 제9항에 있어서,According to clause 9,
    상기 프로세서는,The processor,
    상기 적어도 하나의 이미지 데이터로부터 얼굴을 검출하고, 상기 검출된 얼굴의 크기가 임계값을 초과하면, 얼굴의 방향과 입 위치를 인식하여, 상기 검출된 얼굴에 대해 인식된 얼굴의 방향과 입 위치에 따라 상기 STT 처리된 데이터가 포함될 말풍선의 위치를 결정하고, 상기 결정된 말풍선의 위치에 상기 STT 처리된 데이터가 포함된 말풍선이 위치하도록 상기 이미지 데이터와 합성하는,A face is detected from the at least one image data, and if the size of the detected face exceeds a threshold, the direction of the face and the mouth position are recognized, and the direction and mouth position of the face are recognized for the detected face. Accordingly, determining the position of a speech bubble containing the STT-processed data, and combining the image data so that a speech bubble containing the STT-processed data is located at the determined position of the speech balloon,
    인공지능 기기.Artificial intelligence device.
  13. 제12항에 있어서,According to clause 12,
    상기 프로세서는,The processor,
    상기 적어도 하나의 이미지 데이터로부터 얼굴이 검출되지 않는 경우에는, 상기 말풍선이 화면의 일 영역에 출력되도록 위치를 결정하고, 상기 이미지 데이터와 합성하는,If a face is not detected from the at least one image data, determining a position so that the speech bubble is output in one area of the screen and combining it with the image data,
    인공지능 기기.Artificial intelligence device.
  14. 제9항에 있어서,According to clause 9,
    상기 적어도 하나의 이미지 데이터는,The at least one image data is,
    상기 비디오 내 씬 체인지 구간에 해당하거나 음성 출력 구간 사이에 해당하는,Corresponding to the scene change section in the video or between audio output sections,
    인공지능 기기.Artificial intelligence device.
  15. 제9항에 있어서,According to clause 9,
    상기 프로세서는,The processor,
    상기 비디오 데이터에 대해 합성 이미지가 복수 개인 경우, 복수 개의 합성 이미지를 미리 정의된 기준에 따라 그룹핑하고 요약하여 일부 합성 이미지만 출력하는,When there are a plurality of composite images for the video data, the plurality of composite images are grouped and summarized according to predefined criteria, and only some composite images are output.
    인공지능 기기.Artificial intelligence device.
PCT/KR2022/016193 2022-10-21 2022-10-21 Artificial intelligence device and operation method thereof WO2024085290A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/016193 WO2024085290A1 (en) 2022-10-21 2022-10-21 Artificial intelligence device and operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/016193 WO2024085290A1 (en) 2022-10-21 2022-10-21 Artificial intelligence device and operation method thereof

Publications (1)

Publication Number Publication Date
WO2024085290A1 true WO2024085290A1 (en) 2024-04-25

Family

ID=90737875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/016193 WO2024085290A1 (en) 2022-10-21 2022-10-21 Artificial intelligence device and operation method thereof

Country Status (1)

Country Link
WO (1) WO2024085290A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180133188A (en) * 2017-06-05 2018-12-13 주식회사 토리웍스 method for providing open automatic translation service of mobile webtoon
KR102018331B1 (en) * 2016-01-08 2019-09-04 한국전자통신연구원 Utterance verification apparatus and method for speech recognition system
KR20210039583A (en) * 2019-10-02 2021-04-12 에스케이텔레콤 주식회사 Method and Apparatus for Distinguishing User based on Multimodal
KR20210094323A (en) * 2020-01-21 2021-07-29 엘지전자 주식회사 Artificial intelligence apparatus, artificial intelligence server and method for providing speech including emotion
KR102302029B1 (en) * 2020-11-23 2021-09-15 (주)펜타유니버스 System for recogniting multiple input based on artificial intelligent

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102018331B1 (en) * 2016-01-08 2019-09-04 한국전자통신연구원 Utterance verification apparatus and method for speech recognition system
KR20180133188A (en) * 2017-06-05 2018-12-13 주식회사 토리웍스 method for providing open automatic translation service of mobile webtoon
KR20210039583A (en) * 2019-10-02 2021-04-12 에스케이텔레콤 주식회사 Method and Apparatus for Distinguishing User based on Multimodal
KR20210094323A (en) * 2020-01-21 2021-07-29 엘지전자 주식회사 Artificial intelligence apparatus, artificial intelligence server and method for providing speech including emotion
KR102302029B1 (en) * 2020-11-23 2021-09-15 (주)펜타유니버스 System for recogniting multiple input based on artificial intelligent

Similar Documents

Publication Publication Date Title
WO2017160073A1 (en) Method and device for accelerated playback, transmission and storage of media files
WO2020222444A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
WO2018043991A1 (en) Speech recognition method and apparatus based on speaker recognition
WO2018199390A1 (en) Electronic device
WO2019078588A1 (en) Electronic device and operation method therefor
WO2019039834A1 (en) Voice data processing method and electronic device supporting the same
WO2017039142A1 (en) User terminal apparatus, system, and method for controlling the same
WO2019182226A1 (en) System for processing sound data and method of controlling system
WO2013168970A1 (en) Method and system for operating communication service
WO2014107101A1 (en) Display apparatus and method for controlling the same
WO2014107097A1 (en) Display apparatus and method for controlling the display apparatus
WO2020196955A1 (en) Artificial intelligence device and method for operation of artificial intelligence device
WO2014003283A1 (en) Display apparatus, method for controlling display apparatus, and interactive system
WO2020218650A1 (en) Electronic device
WO2019078615A1 (en) Method and electronic device for translating speech signal
WO2021045447A1 (en) Apparatus and method for providing voice assistant service
WO2020230926A1 (en) Voice synthesis apparatus for evaluating quality of synthesized voice by using artificial intelligence, and operating method therefor
WO2020050509A1 (en) Voice synthesis device
WO2019151802A1 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
WO2020226213A1 (en) Artificial intelligence device for providing voice recognition function and method for operating artificial intelligence device
WO2020263016A1 (en) Electronic device for processing user utterance and operation method therefor
WO2020153717A1 (en) Electronic device and controlling method of electronic device
WO2020218635A1 (en) Voice synthesis apparatus using artificial intelligence, method for operating voice synthesis apparatus, and computer-readable recording medium
WO2023085584A1 (en) Speech synthesis device and speech synthesis method
WO2019039873A1 (en) System and electronic device for generating tts model