WO2022169038A1 - 전자 장치 및 그 제어 방법 - Google Patents
전자 장치 및 그 제어 방법 Download PDFInfo
- Publication number
- WO2022169038A1 WO2022169038A1 PCT/KR2021/007818 KR2021007818W WO2022169038A1 WO 2022169038 A1 WO2022169038 A1 WO 2022169038A1 KR 2021007818 W KR2021007818 W KR 2021007818W WO 2022169038 A1 WO2022169038 A1 WO 2022169038A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- word
- bias
- keyword list
- similarity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004891 communication Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 abstract description 17
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Definitions
- the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for displaying audio data of content with captions and a method for controlling the same.
- an online captioning function may be supported for user convenience.
- the online caption refers to a function of generating and displaying subtitles in real time when an arbitrary video is played on an electronic device such as a mobile phone or a TV.
- the video may be received and played through an arbitrary path. Accordingly, the electronic device cannot utilize metadata such as a title of a moving picture.
- the present disclosure has been made to solve the above problems, and an object of the present disclosure is to provide an electronic device that displays accurate captions using information included in content, and a method for controlling the same.
- An electronic device includes a communication interface for receiving content including image data and voice data, a memory for storing a language contextual model in which association between words is learned, a processor, and a display.
- the processor extracts an object and a character included in the image data, identifies an object name and the character of the object, and an image related to the image data based on the identified object name and the identified character generate a bias keyword list including related words, convert the voice data into text based on the bias keyword list and the language context model, and configure the display to display the text converted from the voice data as a caption control
- the processor recognizes the voice data, identifies a first word having a first similarity to the image-related word among the recognized voice data, the first similarity is greater than or equal to a preset value, and the learned language identify a second word having a second similarity to a learned word included in a context model, wherein the second similarity is less than a preset value, and the recognized speech data based on the first word and the second word can be converted to the text.
- the processor identifies a degree of similarity between the identified object name and the identified character by modeling the degree of relevance between the object name and the character, and generates the bias keyword list based on the similarity between the object name and the character can do.
- the processor may classify the image-related words according to the frequency of occurrence of the image-related words, and may generate the bias keyword list by removing the image-related words having a frequency of occurrence greater than or equal to a preset frequency.
- the processor may remove the image-related words according to a preset condition based on the number of image-related words related to the image data and exceeding a preset number included in the bias keyword list.
- the preset condition for removing the image-related word is an image-related word that overlaps with an existing word, an image-related word having a higher similarity than a preset similarity as a word included in the voice data, and the most recently added word in the bias keyword list. It may include at least one of the added image-related words or image-related words occurring at a frequency lower than a preset frequency.
- the processor may extract the object and the character from each frame of the image data.
- the processor may extract a feature of the object and identify the object name based on the extracted feature of the object.
- the processor may identify that a scene of the image data has been changed.
- PSNR peak signal to noise ratio
- a method of controlling an electronic device includes receiving content including image data and voice data, extracting an object and a character included in the image data, an object name of the object, and the character generating a bias keyword list including image related words related to the image data based on the identified object name and the identified characters; converting the speech data into text based on a language contextual model and displaying the text converted from the speech data as a caption.
- the converting of the voice data into the text may include recognizing the voice data, identifying a first word having a first similarity to the image-related word among the recognized voice data, and the first similarity is preset. a value greater than or equal to a value and identify a second word having a second similarity to a learned word included in the learned language context model, wherein the second similarity is less than a preset value, the first word and the second word
- the recognized voice data may be converted into the text based on .
- the generating of the bias keyword list may include modeling a degree of relevance between the object name and the character to identify a degree of similarity between the identified object name and the identified character, and based on the similarity between the object name and the character, based on the degree of similarity between the object name and the character
- the bias keyword list may be generated.
- the generating of the bias keyword list may include classifying the image-related words according to the frequency of occurrence of the image-related words, and removing the image-related words having a frequency of occurrence greater than or equal to a preset frequency to generate the bias keyword list.
- the generating of the bias keyword list may include removing the image related words according to a preset condition based on the number of image related words related to the image data and exceeding a preset number included in the bias keyword list.
- the preset condition for removing the image-related word is an image-related word that overlaps with an existing word, an image-related word having a higher similarity than a preset similarity as a word included in the voice data, and the most recently added word in the bias keyword list. It may include at least one of the added image-related words or image-related words occurring at a frequency lower than a preset frequency.
- FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
- FIG. 2 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
- FIG. 3 is a view for explaining an operation process of an electronic device according to an embodiment of the present disclosure.
- FIG. 4 is a view for explaining a process of displaying a caption according to an embodiment of the present disclosure.
- FIG. 5 is a view for explaining a process of identifying a change in a scene according to an embodiment of the present disclosure.
- 6A is a diagram illustrating a process of identifying an object in an image according to an embodiment of the present disclosure.
- 6B is a diagram illustrating a process of identifying a character in an image according to an embodiment of the present disclosure.
- FIG. 7 is a view for explaining a latent semantic mapping process according to an embodiment of the present disclosure.
- FIG. 8 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- a “module” or “unit” for a component performs at least one function or operation.
- a “module” or “unit” may perform a function or operation by hardware, software, or a combination of hardware and software.
- a plurality of “modules” or a plurality of “units” other than a “module” or “unit” that must be performed in specific hardware or are executed in at least one processor may be integrated into at least one module.
- the singular expression includes the plural expression unless the context clearly dictates otherwise.
- each step should be understood as non-limiting unless the preceding step must be logically and temporally performed before the subsequent step. That is, except for the above exceptional cases, even if the process described as a subsequent step is performed before the process described as the preceding step, the essence of the disclosure is not affected, and the scope of rights should also be defined regardless of the order of the steps.
- “A or B” is defined as meaning not only selectively pointing to any one of A and B, but also including both A and B.
- the term "comprising" has the meaning of encompassing the inclusion of other components in addition to the elements listed as being included.
- FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
- the electronic device 100 includes a communication interface 110 , a memory 120 , a processor 130 , and a display 140 .
- the electronic device 100 may include a smartphone, a tablet PC, a navigation system, a slate PC, a wearable device, a digital TV, a desktop computer, a laptop computer, a kiosk, and the like.
- the communication interface 110 communicates with an external device.
- the communication interface 110 may receive content under the control of the processor 130 .
- the content includes image data and audio data.
- the image data may include static image data and dynamic image data.
- the dynamic image data may include a moving picture. That is, the communication interface 110 may receive content including image data and voice data.
- the communication interface 110 may include 3G, Long Term Evolution (LTE), 5G, Wi-Fi, Bluetooth, Digital Multimedia Broadcasting (DMB), Advanced Television Systems Committee (ATSC), Digital Video Broadcasting (DVB), and Local Area Network (LAN). Area Network), Zigbee, beacon, infrared communication, etc. may include a module capable of performing communication.
- the communication interface 110 may include a communication port. Accordingly, the communication interface 110 may receive content through the communication port.
- the communication port may include ports such as High-Definition Multimedia Interface (HDMI), DisplayPort (DP), RGB, Digital Visual Interface (DVI), Universal Serial Bus (USB), Thunderbolt, and LAN.
- the external device may include an AV receiver, a set-top box, a web server, a cloud, and the like.
- a communication interface for communicating with an external device may be referred to as a communication unit, a communication module, a transceiver, or the like.
- the memory 120 may store data and algorithms that perform functions of the electronic device 100 , and may store programs and commands driven in the electronic device 100 .
- the memory 120 may store an algorithm for recognizing a voice from image data and voice data included in the received content, and displaying the recognized voice as a caption.
- the subtitle display algorithm stored in the memory 120 may be loaded into the processor 130 under the control of the processor 130 to perform a process of displaying the subtitles.
- the memory 120 may store a learned language contextual model.
- the language context model may be a model learned about words and their similarity, association, and the like through a learning machine.
- the memory 120 may store the generated bias keyword list.
- the memory 120 may be implemented as a type of ROM, RAM, HDD, SSD, memory card, or the like.
- the processor 130 may control each configuration of the electronic device 100 .
- the processor 130 controls the communication interface 110 to receive content.
- the processor 130 controls the display 140 to display captions based on information extracted from image data included in the received content and a voice recognized from the voice data.
- the processor 130 extracts an object and a character included in the image data, and identifies a name and a character of the extracted object.
- the processor 130 may extract objects and characters from each frame of the image data. Objects may include inanimate objects or living objects such as people.
- the processor 130 may extract a feature from the extracted object and identify the name of the object based on the extracted feature.
- the processor 130 may generate a bias keyword list including words related to image data based on the identified object name and character.
- the bias keyword list may be a list including words related to content rather than general words. Common words can be easily recognized from a universally learned language context model. However, words that appear frequently only in specific content, such as person names and team names, may be difficult to recognize from a universally learned language context model. For example, when the word 'pattern' is included in the voice data of the content, the language context model of the electronic device 100 may easily identify the 'pattern'. That is, when the electronic device 100 recognizes the character 'pat', the word 'pattern' may be predicted.
- the present disclosure is to generate a bias keyword list including words extracted from image data, and supplement a language context model learned based on the generated bias keyword list.
- the processor 130 may identify the degree of similarity by modeling the relationship between the name and the character of the identified object.
- the name and character of the identified object may be a word related to image data.
- the processor 130 may classify the words related to the image data according to the frequency of occurrence of the words.
- the processor 130 may remove words related to image data having a frequency greater than or equal to a preset frequency and generate a bias keyword list.
- the processor 130 may generate a bias keyword list by removing words having a frequency higher than a certain frequency.
- the processor 130 may extract a word related to image data for each frame of content and add it to the bias keyword list. If the processor 130 continuously adds words to the bias keyword list, the number of words included in the bias keyword list may increase. Accordingly, when the number of words related to image data included in the generated bias keyword list exceeds a preset number, the processor 130 may remove words included in the bias keyword list according to a predetermined condition.
- the preset condition for removing a word from the bias keyword list is a word that overlaps with an existing word, a word with high similarity to a word included in voice data, a word most recently added to the bias keyword word, or a word with a low frequency. It may include words and the like.
- the processor 130 may extract a word related to the image data from the image data and generate a bias keyword list.
- the processor 130 may convert voice data included in the content into text based on the generated bias keyword list and the learned language context model. For example, the processor 130 recognizes voice data.
- the processor 130 may identify a word included in the bias keyword list and a word having a similarity greater than or equal to a preset value among the recognized voice data as a word included in the bias keyword list.
- the processor 130 may identify a word having a similarity less than a preset value as a word included in the learned language context model. That is, the processor 130 may identify a word using the bias keyword list and the learned language context model, and convert the recognized speech data into text based on the identified word. Then, the processor 130 controls the display 140 to display the voice data converted into text as subtitles.
- the content may be a moving picture including voice data and image data.
- a moving picture can completely change the scene.
- the processor 130 may identify that the scene of the image data has been changed.
- the display 140 outputs an image signal on which image processing has been performed.
- the display 140 may display audio data converted into text together with image data of the content as subtitles.
- the display 140 may be implemented as a liquid crystal display (LCD), an organic light emitting diode (OLED), a flexible display, a touch screen, or the like.
- the display apparatus 100 may receive a control command through the touch screen.
- FIG. 2 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
- the electronic device 100 includes a communication interface 110 , a memory 120 , a processor 130 , a display 140 , an input interface 150 , a camera 160 , a speaker 170 , and a microphone. 180 and a sensor 190 may be included. Since the communication interface 110 , the memory 120 , and the display 140 are configured substantially the same as described in FIG. 1 , a detailed description thereof will be omitted.
- the input interface 150 may receive a control command input from a user.
- the input interface 150 may be implemented as a keypad, a touch pad, or the like.
- the input interface 150 performs a function of receiving a command from a user, and may be referred to as an input unit, an input module, or the like.
- the input interface 150 may be implemented as a display 140 , a camera 160 , a microphone 180 , or a sensor 190 in addition to the above-described keypad and touch pad.
- the display 140 is implemented as a touch screen
- the electronic device 100 may receive a control command through the touch screen.
- the input interface 150 is implemented as the camera 160
- the electronic device 100 may photograph a user's facial expression or motion.
- the processor 130 may recognize a control command based on the captured facial expression or motion.
- the input interface 150 is implemented as the microphone 180
- the electronic device 100 may receive a user's voice.
- the processor 130 may recognize the control command based on the input voice.
- the sensor 190 may receive a user's motion or a signal from an external device such as a remote control.
- the processor 130 may recognize a control command based on an input user's motion or signal.
- the camera 160 may photograph the surrounding environment.
- the camera 160 may photograph the user's facial expression or motion.
- the processor 130 may recognize a control command based on the captured user's facial expression or motion, and perform a control operation corresponding to the recognized control command.
- the camera 160 may include a CCD sensor or a CMOS sensor.
- the camera 160 may include an RGB camera and a depth camera.
- the speaker 170 outputs a sound signal on which sound processing has been performed.
- the speaker 170 may output voice data included in the content.
- the speaker 170 may output a user's input command, state-related information or operation-related information of the electronic device 100 as a voice or a notification sound.
- the microphone 180 may receive an audio signal.
- the microphone 180 may acquire an audio signal from a user located within a preset distance under the control of the processor 130 .
- the electronic device 100 may include a plurality of microphones.
- the processor 130 may identify the location of the sound source based on the direction, magnitude, phase, etc. of audio signals obtained from the plurality of microphones.
- the microphone 180 may receive a user's voice.
- the processor 130 may recognize a control command based on the input voice and perform a control operation corresponding to the recognized control command.
- the sensor 190 may detect a state around the electronic device 100 .
- the processor 130 may recognize a control command based on the sensed signal and perform a control operation corresponding to the recognized control command.
- the sensor 190 may include an acceleration sensor, a gravity sensor, a gyro sensor, a geomagnetic sensor, a direction sensor, a motion recognition sensor, a proximity sensor, a voltmeter, an ammeter, a barometer, a hygrometer, a thermometer, an illuminance sensor, a heat sensor, and a touch sensor. , an infrared sensor, an ultrasonic sensor, and the like.
- the processor 130 identifies the position of the object based on information obtained through the camera 160 and the microphone 180
- the camera 160 or the microphone 180 is also considered to be a kind of the sensor 190 . can
- the electronic device 100 may include all of the above-described configurations, or may include some of the configurations. In addition, the electronic device 100 may further include other components that perform various functions in addition to the above-described components.
- FIG. 3 is a diagram for explaining an operation process of an electronic device according to an embodiment of the present disclosure
- FIG. 4 is a diagram for explaining a process for displaying a caption according to an embodiment of the present disclosure. It will be described with reference to FIGS. 3 and 4 .
- the electronic device may receive content ( 310 ).
- the content may be a moving picture, and may include image data and voice data.
- the electronic device may capture a frame of the image data 10 at a predetermined period and determine whether a scene is changed ( 320 ).
- the electronic device may capture image data at intervals of 20 frames.
- the content may be a baseball broadcast, and the captured image data 10 may be a baseball game scene.
- the electronic device may compare a peak signal to noise ratio (PSNR) of the captured frame with a preset threshold ( 410 ). When the PSNR of the captured frame exceeds the threshold, the electronic device may determine that the scene has been changed.
- PSNR peak signal to noise ratio
- the electronic device may detect an object and a character included in the frame ( 420 ). For example, the electronic device may detect an object and a character using the learned object detection model ( 330 ). The electronic device may extract a feature from the detected object and identify the name of the object based on the extracted feature. Also, the electronic device may identify the detected character using an optical character reader (OCR) model ( 340 and 430 ). As an embodiment, characters such as AAA team, BBB team, 5th inning, out, etc. may be included in the frame of the image data together with the baseball player. The electronic device may extract a feature from the object of the baseball player and identify the name of the baseball player Michael from the extracted feature. In addition, the electronic device may identify characters such as AAA, BBB, 5th second, and out using a method such as OCR.
- OCR optical character reader
- the electronic device may perform latent semantic mapping based on the identified object name and the identified character ( 350 , 440 ).
- the name of the identified object and the identified character may be words related to image data.
- Latent semantic mapping means inferring similarity (and relevance) by transforming each word into a vector, and collecting nearby words based on the transformed vector. That is, the electronic device may identify the degree of similarity by modeling the relationship between the name of the identified object and the identified character (word related to image data).
- the electronic device may identify KBO as a baseball game or a word similar to professional baseball, identify the BBB team as a professional baseball team, and identify Michael as a baseball player based on the name and character of the identified object. have.
- the electronic device may classify words whose similarity is identified according to frequencies, and may remove words having a frequency greater than or equal to a preset frequency (360, 450).
- the electronic device generates a bias keyword list by using a word whose similarity is identified.
- the electronic device uses the generated bias keyword list to display audio data as subtitles.
- the bias keyword list may be less than or equal to a certain size. Accordingly, the electronic device may remove frequently occurring words from the bias keyword list to maintain the file size of the bias keyword list below a certain size. For example, as shown in FIG.
- the electronic device may remove the word according to the preset condition.
- the word according to the preset condition may include a word that overlaps with an existing word, a word with high similarity to a word included in the voice data, a related word most recently added to the bias keyword word, or a word with a low frequency.
- the electronic device may store the generated bias keyword list in a memory ( 370 ).
- the electronic device recognizes the voice data included in the content using the stored bias keyword list and the learned language context model, and performs automatic speech recognition (ASR) for each situation to convert the recognized voice data into text.
- Can (380, 470).
- the electronic device may display the voice data converted into text as subtitles.
- the electronic device may capture voice data at regular intervals, synchronize it with the captured voice data, and display the voice data converted into text as subtitles.
- the electronic device may output the voice data as a sound signal and display a caption saying “Michael is preparing for the 5th inning of the AAA vs. BBB match” (480).
- FIG. 5 is a view for explaining a process of identifying a change in a scene according to an embodiment of the present disclosure.
- the electronic device may capture frames of image data at regular intervals and determine whether a scene is changed.
- the electronic device may calculate an MSE between the previously captured image and the currently captured image. Then, the electronic device may calculate the PSNR based on the calculated MSE.
- the electronic device may compare the calculated PSNR with a preset threshold value. When the calculated PSNR exceeds a preset threshold, the electronic device may determine that the scene has been changed. When a scene is changed, the electronic device may perform a process of identifying an object and a character from image data based on the changed scene, and displaying the voice data converted into text as a caption.
- FIG. 6A is a diagram illustrating a process of identifying an object in an image according to an embodiment of the present disclosure
- FIG. 6B is a diagram illustrating a process of identifying a character in an image according to an embodiment of the present disclosure. It will be described with reference to FIGS. 6A and 6B.
- the electronic device may determine the object from the frame of image data. Then, the electronic device may extract the determined feature of the object using the learned object detection model, and may identify the object based on the extracted feature. That is, the electronic device may identify the name of the object using the learned object detection model.
- the object detection model may be implemented as an artificial intelligence neural network such as CNN.
- the image data may include the text “January 01, 2021”.
- the electronic device may identify the character using the learned OCR model.
- the OCR model may be a model generated by combining a convolutional neural network (CNN), a long short-term memory (LSTM), and an attention technique.
- the electronic device may extract a word (keyword) from the image data using the artificial intelligence neural network and artificial intelligence technique shown in FIGS. 6A and 6B .
- FIG. 7 is a view for explaining a latent semantic mapping process according to an embodiment of the present disclosure.
- the electronic device may perform a keyword expansion process on the word extracted from the image data. For example, the electronic device uses a model (eg, word2vec, etc.) for performing latent semantic mapping on various corpus as keywords, including words with similar meanings and words that frequently appear together as keywords. can be added Meanwhile, the electronic device may reduce the total keywords by deleting words that have already appeared frequently or words with high frequency in the training set of the language context model.
- a model eg, word2vec, etc.
- the latent semantic mapping model that can be expressed using the Word2vec model is a 1-projection- It can be a layer model.
- similar related words e.g. fat cat sat on the / fat cat sit on the
- the Word2vec model is a model that can infer similar words and related words with a very small amount of computation.
- a one-hot vector corresponding to each input word (eg, fat, cat, on, the) is provided as an input layer of a latency semantic mapping model to be processed through a projection layer.
- the electronic device may generate a bias keyword list including words identified from image data through the above-described process.
- the electronic device may recognize voice and convert it into text using the learned artificial intelligence model.
- the artificial intelligence model for recognizing speech may include a contextual RNN-T or C-LAS model.
- a general voice recognition artificial intelligence model may recognize a voice by extracting the next word of the recognized word based on the input voice data.
- the general speech recognition artificial intelligence model can predict and recognize a previously learned word when an unlearned word is input.
- a general speech recognition artificial intelligence model may recognize the input human name 'Patrick', such as previously learned 'pattern' and 'patriot'.
- the electronic device may generate a bias keyword list including the word 'Patrick' from the image data through the above-described process.
- the electronic device may identify a word included in the bias keyword list and a word having a similarity greater than or equal to a preset value among the input voice data as a word included in the bias keyword list. That is, as an embodiment, when the name of a person 'Patrick' is input to the electronic device, the electronic device may predict and recognize it as 'Patrick' based on a word included in the bias keyword list. That is, the electronic device may accurately predict even an unlearned word.
- the electronic device may recognize a voice of voice data based on a voice recognition artificial intelligence model in which the generated bias keyword list is combined, and convert the recognized voice into text. In addition, the electronic device may display the voice data converted into text as subtitles.
- FIG. 8 is a flowchart illustrating a control method of an electronic device according to an embodiment of the present disclosure.
- the electronic device receives content including image data and voice data (S810), and the electronic device extracts objects and characters included in the image data (S820).
- the electronic device may identify that the scene of the image data has been changed.
- the electronic device may extract an object and a character based on the frame in which the scene is changed. For example, the electronic device may extract an object and a character from each frame of image data.
- the electronic device identifies the name of the extracted object and the extracted text (S830).
- the electronic device may extract a feature from the extracted object and identify the name of the extracted object based on the extracted feature. For example, the electronic device may identify the name of the object using the learned object detection model. Also, the electronic device may identify the character using the learned OCR model.
- the electronic device generates a bias keyword list including a word related to image data based on the identified object name and the identified character (S840). For example, the electronic device may identify a similarity by modeling a relationship between the name of the identified object and the identified character, and may generate a bias keyword list based on the identified similarity. Alternatively, the electronic device may classify words according to frequencies, and may generate a bias keyword list by removing words having a frequency greater than or equal to a preset frequency. Also, when the number of words included in the generated bias keyword list exceeds a preset number, the electronic device may remove words according to a preset condition.
- the word according to the preset condition may include a word overlapping with an existing word, a word having a high similarity to a word included in the voice data, a word most recently added to the bias keyword word, or a word having a low frequency.
- the electronic device converts the voice data into text based on the generated bias keyword list and the language context model in which the association between words is learned ( S850 ). For example, the electronic device identifies a word included in the bias keyword list with a similarity greater than or equal to a preset value among the input voice data as words included in the bias keyword list, and a word having a similarity less than a preset value is a learned language.
- a voice included in the voice data may be recognized by identifying it as a word included in the context model. Then, the electronic device may convert the recognized voice data into text based on the identified word.
- the electronic device displays the audio data converted into text as subtitles (S860).
- the method for controlling an electronic device may be provided as a computer program product.
- the computer program product may include the S/W program itself or a non-transitory computer readable medium in which the S/W program is stored.
- the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device.
- a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
전자 장치 및 그 제어 방법이 개시된다. 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스, 단어 간의 연관성이 학습된 언어 컨텍스처 모델을 저장하는 메모리, 프로세서 및 디스플레이를 포함하고, 프로세서는 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 오브젝트의 오브젝트 이름 및 문자를 식별하며, 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 이미지 데이터와 관련된 이미지 관련 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 바이어스 키워드 리스트 및 언어 컨텍스처 모델에 기초하여 음성 데이터를 텍스트로 변환하며, 음성 데이터로부터 변환된 텍스트를 자막으로 표시하도록 디스플레이를 제어한다.
Description
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 컨텐츠의 음성 데이터를 자막으로 표시하는 전자 장치 및 그 제어 방법에 관한 것이다.
전자 장치가 컨텐츠를 재생할 때 사용자의 편의를 위해 온라인 캡션(Online captioning) 기능을 지원할 수 있다. 온라인 캡션이란 핸드폰이나 TV 등과 같은 전자 장치에서 임의의 동영상이 재생될 때, 실시간으로 자막을 생성하여 표시하는 기능을 의미한다. 이때 동영상은 임의의 경로를 통해 수신되고 재생될 수 있다. 따라서, 전자 장치는 동영상의 제목 등과 같은 메타데이터 등을 활용할 수 없다.
또한, 전자 장치에 임의의 동영상이 입력이 될 수 있기 때문에 전자 장치는 다양한 도메인(domain)에 대한 음성을 인식해야 하지만, 도메인은 아주 다양하기 때문에 각 도메인에 대한 개별적인 언어 모델(language model)을 생성하기 어려운 점이 있다.
따라서, 다양한 언어 모델이 없더라도 임의의 컨텐츠에 포함된 음성을 인식하고, 정확한 자막을 표시할 수 있는 기술에 대한 필요성이 존재한다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 컨텐츠에 포함된 정보를 이용하여 정확한 자막을 표시하는 전자 장치 및 그 제어 방법을 제공하기 위한 것이다.
본 개시의 일 실시 예에 따른 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스, 단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)을 저장하는 메모리, 프로세서 및 디스플레이를 포함하고, 상기 프로세서는 상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 상기 오브젝트의 오브젝트 이름 및 상기 문자를 식별하며, 상기 식별된 오브젝트 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 이미지 관련 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 상기 바이어스 키워드 리스트 및 상기 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하며, 상기 음성 데이터로부터 변환된 상기 텍스트를 자막으로 표시하도록 상기 디스플레이를 제어한다.
그리고, 상기 프로세서는 상기 음성 데이터를 인식하고, 상기 인식된 음성 데이터 중 상기 이미지 관련 단어와 제1 유사도를 가지는 제1 단어를 식별하고, 상기 제1 유사도는 기 설정된 값 이상이며, 상기 학습된 언어 컨텍스처 모델에 포함된 학습된 단어와 제2 유사도를 가지는 제2 단어를 식별하고, 상기 제2 유사도는 기 설정된 값 미만이며, 상기 제1 단어 및 상기 제2 단어에 기초하여 상기 인식된 음성 데이터를 상기 텍스트로 변환할 수 있다.
또한, 상기 프로세서는 상기 오브젝트 이름 및 상기 문자 간의 관련도를 모델링하여 상기 식별된 오브젝트 이름 및 상기 식별된 문자 간의 유사도를 식별하고, 상기 오브젝트 이름 및 상기 문자 간의 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성할 수 있다.
또한, 상기 프로세서는 상기 이미지 관련 단어의 발생 빈도에 따라 상기 이미지 관련 단어를 분류하고, 기 설정된 빈도 이상의 발생 빈도를 가지는 상기 이미지 관련 단어를 제거하여 상기 바이어스 키워드 리스트를 생성할 수 있다.
그리고, 상기 프로세서는 상기 이미지 데이터와 관련되고 상기 바이어스 키워드 리스트에 포함된 기 설정된 개수를 초과하는 이미지 관련 단어의 개수에 기초하여 기 설정된 조건에 따라 상기 이미지 관련 단어를 제거할 수 있다.
한편, 상기 이미지 관련 단어를 제거하는 기 설정된 조건은 기존 단어와 중복되는 이미지 관련 단어, 상기 음성 데이터에 포함된 단어로서 기 설정된 유사도 보다 높은 유사도를 가지는 이미지 관련 단어, 상기 바이어스 키워드 리스트에 가장 최근에 추가된 이미지 관련 단어 또는 기 설정된 빈도 보다 낮은 빈도로 발생한 이미지 관련 단어 중 적어도 하나를 포함할 수 있다.
그리고, 상기 프로세서는 상기 이미지 데이터의 각 프레임으로부터 상기 오브젝트 및 문자를 추출할 수 있다.
또한, 상기 프로세서는 상기 오브젝트의 특징을 추출하고, 상기 오브젝트의 추출된 특징에 기초하여 상기 오브젝트 이름을 식별할 수 있다.
또한, 상기 프로세서는 상기 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 상기 이미지 데이터의 장면(scene)이 변경된 것으로 식별할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계, 상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계, 상기 오브젝트의 오브젝트 이름 및 상기 문자를 식별하는 단계, 상기 식별된 오브젝트 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 이미지 관련 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계, 상기 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계 및 상기 음성 데이터로부터 변환된 상기 텍스트를 자막으로 표시하는 단계를 포함한다.
한편, 상기 음성 데이터를 상기 텍스트로 변환하는 단계는 상기 음성 데이터를 인식하고, 상기 인식된 음성 데이터 중 상기 이미지 관련 단어와 제1 유사도를 가지는 제1 단어를 식별하고, 상기 제1 유사도는 기 설정된 값 이상이며, 상기 학습된 언어 컨텍스처 모델에 포함된 학습된 단어와 제2 유사도를 가지는 제2 단어를 식별하고, 상기 제2 유사도는 기 설정된 값 미만이며, 상기 제1 단어 및 상기 제2 단어에 기초하여 상기 인식된 음성 데이터를 상기 텍스트로 변환할 수 있다.
그리고, 상기 바이어스 키워드 리스트를 생성하는 단계는 상기 오브젝트 이름 및 상기 문자 간의 관련도를 모델링하여 상기 식별된 오브젝트 이름 및 상기 식별된 문자 간의 유사도를 식별하고, 상기 오브젝트 이름 및 상기 문자 간의 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성할 수 있다.
또한, 상기 바이어스 키워드 리스트를 생성하는 단계는 상기 이미지 관련 단어의 발생 빈도에 따라 상기 이미지 관련 단어를 분류하고, 기 설정된 빈도 이상의 발생 빈도를 가지는 상기 이미지 관련 단어를 제거하여 상기 바이어스 키워드 리스트를 생성할 수 있다.
또한, 상기 바이어스 키워드 리스트를 생성하는 단계는 상기 이미지 데이터와 관련되고 상기 바이어스 키워드 리스트에 포함된 기 설정된 개수를 초과하는 이미지 관련 단어의 개수에 기초하여 기 설정된 조건에 따라 상기 이미지 관련 단어를 제거할 수 있다.
한편, 상기 이미지 관련 단어를 제거하는 기 설정된 조건은 기존 단어와 중복되는 이미지 관련 단어, 상기 음성 데이터에 포함된 단어로서 기 설정된 유사도 보다 높은 유사도를 가지는 이미지 관련 단어, 상기 바이어스 키워드 리스트에 가장 최근에 추가된 이미지 관련 단어 또는 기 설정된 빈도 보다 낮은 빈도로 발생한 이미지 관련 단어 중 적어도 하나를 포함할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작 과정을 설명하는 도면이다.
도 4는 본 개시의 일 실시 예에 따른 자막을 표시하는 과정을 설명하는 도면이다.
도 5는 본 개시의 일 실시 예에 따른 장면의 변경을 식별하는 과정을 설명하는 도면이다.
도 6a는 본 개시의 일 실시 예에 따른 이미지 내의 오브젝트를 식별하는 과정을 설명하는 도면이다.
도 6b는 본 개시의 일 실시 예에 따른 이미지 내의 문자를 식별하는 과정을 설명하는 도면이다.
도 7은 본 개시의 일 실시 예에 따른 레이턴트 시맨틱 매핑(latent semantic mapping) 과정을 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.
본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.
그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 1을 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 및 디스플레이(140)를 포함한다. 예를 들어, 전자 장치(100)는 스마트폰, 태블릿 PC, 네비게이션, 슬레이트 PC, 웨어러블 디바이스, 디지털 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 키오스크 등을 포함할 수 있다.
통신 인터페이스(110)는 외부 장치와 통신을 수행한다. 통신 인터페이스(110)는 프로세서(130)의 제어에 따라 컨텐츠를 수신할 수 있다. 컨텐츠는 이미지 데이터와 음성 데이터를 포함한다. 이미지 데이터는 정적 이미지 데이터 및 동적 이미지 데이터를 포함할 수 있다. 동적 이미지 데이터는 동영상을 포함할 수 있다. 즉, 통신 인터페이스(110)는 이미지 데이터와 음성 데이터를 포함하는 컨텐츠를 수신할 수 있다.
예를 들어, 통신 인터페이스(110)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, DMB(Digital Multimedia Broadcasting), ATSC(Advanced Television Systems Committee), DVB(Digital Video Broadcasting), LAN(Local Area Network), 지그비, 비콘, 적외선 통신 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 또한, 통신 인터페이스(110)는 통신 포트를 포함할 수 있다. 따라서, 통신 인터페이스(110)는 통신 포트를 통해 컨텐츠를 수신할 수 있다. 예를 들어, 통신 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN 등의 포트를 포함할 수 있다. 외부 장치는 AV 수신기, 셋탑박스, 웹 서버, 클라우드 등을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다.
메모리(120)는 전자 장치(100)의 기능을 수행하는 데이터 및 알고리즘 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 메모리(120)는 수신된 컨텐츠에 포함된 이미지 데이터 및 음성 데이터로부터 음성을 인식하고, 인식된 음성을 자막으로 표시하는 알고리즘을 저장할 수 있다. 메모리(120)에 저장된 자막 표시 알고리즘은 프로세서(130)의 제어에 의해 프로세서(130)로 로딩되어 자막을 표시하는 과정을 수행할 수 있다. 메모리(120)는 학습된 언어 컨텍스처 모델(language contextual model)을 저장할 수 있다. 언어 컨텍스처 모델은 러닝 머신을 통해 단어 및 단어 간의 유사도, 연관성 등에 대해 학습된 모델일 수 있다. 또한, 메모리(120)는 생성된 바이어스 키워드 리스트를 저장할 수 있다. 예를 들어, 메모리(120)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.
프로세서(130)는 전자 장치(100)의 각 구성을 제어할 수 있다. 예를 들어, 프로세서(130)는 컨텐츠를 수신하도록 통신 인터페이스(110)를 제어한다. 프로세서(130)는 수신된 컨텐츠에 포함된 이미지 데이터로부터 추출된 정보와 음성 데이터로부터 인식된 음성에 기초하여 자막을 표시하도록 디스플레이(140)를 제어한다.
구체적으로, 프로세서(130)는 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 추출된 오브젝트의 이름 및 문자를 식별한다. 프로세서(130)는 이미지 데이터의 각 프레임으로부터 오브젝트 및 문자를 추출할 수 있다. 오브젝트는 무생물 오브젝트 또는 사람과 같은 살아있는 오브젝트를 포함할 수 있다. 프로세서(130)는 추출된 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 오브젝트의 이름을 식별할 수 있다.
그리고, 프로세서(130)는 식별된 오브젝트의 이름 및 문자에 기초하여 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 바이어스 키워드 리스트는 일반적인 단어가 아닌 컨텐츠와 관련된 단어를 포함하는 리스트일 수 있다. 일반적인 단어는 범용적으로 학습된 언어 컨텍스처 모델로부터 쉽게 인식될 수 있다. 그러나, 사람 이름, 팀 이름 등과 같은 특정 컨텐츠에서만 자주 등장하는 단어는 범용적으로 학습된 언어 컨텍스처 모델로부터 인식되기 어려울 수 있다. 예를 들어, 컨텐츠의 음성 데이터에 ‘pattern’라는 단어가 포함된 경우, 전자 장치(100)의 언어 컨텍스처 모델은 ‘pattern’를 쉽게 식별할 수 있다. 즉, 전자 장치(100)는 ‘pat’라는 문자를 인식하면, ‘pattern’이라는 단어를 예측할 수 있다. 그러나, 컨텐츠의 음성 데이터에 ‘patrick’이라는 단어가 포함된 경우, 언어 컨텍스처 모델은 ‘patrick’이 아닌 ‘pattern’ 등과 같이 잘못된 단어로 예측할 가능성이 높다. 따라서, 본 개시는 이미지 데이터로부터 추출된 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 생성된 바이어스 키워드 리스트에 기초하여 학습된 언어 컨텍스처 모델을 보완하기 위한 것이다.
프로세서(130)는 식별된 오브젝트의 이름 및 문자 간의 관계를 모델링하여 유사도를 식별할 수 있다. 식별된 오브젝트의 이름 및 문자는 이미지 데이터와 관련된 단어일 수 있다. 프로세서(130)는 이미지 데이터와 관련된 단어를 단어의 발생 빈도에 따라 분류할 수 있다. 그리고, 프로세서(130)는 기 설정된 빈도 이상의 이미지 데이터와 관련된 단어를 제거하고, 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치(100)가 이미지 데이터 및 음성 데이터로부터 실시간으로 음성을 인식하고, 자막으로 표시하기 위해서 빠르게 데이터를 처리해야 한다. 바이어스 키워드 리스트에 포함된 단어의 개수가 많은 경우, 프로세서(130)가 빠르게 처리하기 어렵기 때문에 바이어스 키워드 리스트의 단어는 일정 개수 이하로 유지하는 것이 필요하다. 일정 빈도 이상의 단어는 자주 출현하는 단어이므로 프로세서(130)가 쉽게 인식할 수 있다. 따라서, 프로세서(130)는 일정 빈도 이상의 단어를 제거하고 바이어스 키워드 리스트를 생성할 수 있다.
한편, 프로세서(130)는 컨텐츠의 프레임별로 이미지 데이터와 관련된 단어를 추출하여 바이어스 키워드 리스트에 추가할 수 있다. 프로세서(130)가 계속적으로 바이어스 키워드 리스트에 단어를 추가하면 바이어스 키워드 리스트에 포함된 단어가 매우 많아질 수 있다. 따라서, 프로세서(130)는 생성된 바이어스 키워드 리스트에 포함된 이미지 데이터와 관련된 단어의 개수가 기 설정된 개수를 초과하는 경우, 일정한 조건에 따라 바이어스 키워드 리스트에 포함된 단어를 제거할 수 있다. 예를 들어, 바이어스 키워드 리스트에서 단어를 제거하기 위한 기 설정된 조건은 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
상술한 과정을 통해, 프로세서(130)는 이미지 데이터로부터 이미지 데이터와 관련된 단어를 추출하고, 바이어스 키워드 리스트를 생성할 수 있다. 그리고, 프로세서(130)는 생성된 바이어스 키워드 리스트 및 학습된 언어 컨텍스처 모델에 기초하여 컨텐츠에 포함된 음성 데이터를 텍스트로 변환할 수 있다. 예를 들어, 프로세서(130)는 음성 데이터를 인식한다. 프로세서(130)는 인식된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어는 바이어스 키워드 리스트에 포함된 단어로 식별할 수 있다. 또는, 프로세서(130)는 유사도가 기 설정된 값 미만인 단어는 학습된 언어 컨텍스처 모델에 포함된 단어로 식별할 수 있다. 즉, 프로세서(130)는 바이어스 키워드 리스트 및 학습된 언어 컨텍스처 모델을 이용하여 단어를 식별하고, 식별된 단어를 기초로 인식된 음성 데이터를 텍스트로 변환할 수 있다. 그리고, 프로세서(130)는 텍스트로 변환된 음성 데이터를 자막으로 표시하도록 디스플레이(140)를 제어한다.
한편, 컨텐츠는 음성 데이터 및 이미지 데이터를 포함하는 동영상일 수 있다. 동영상은 장면(scene)이 완전히 바뀔 수 있다. 프로세서(130)는 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 이미지 데이터의 장면(scene)이 변경된 것으로 식별할 수 있다.
디스플레이(140)는 영상 처리가 수행된 영상 신호를 출력한다. 디스플레이(140)는 컨텐츠의 이미지 데이터와 함께 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 예를 들어, 디스플레이(140)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 디스플레이(140)가 터치 스크린으로 구현되는 경우, 디스플레이 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130), 디스플레이(140), 입력 인터페이스(150), 카메라(160), 스피커(170), 마이크(180), 센서(190)를 포함할 수 있다. 통신 인터페이스(110), 메모리(120) 및 디스플레이(140)는 도 1에서 설명한 바와 실질적으로 동일하게 구성되므로 구체적인 설명은 생략한다.
입력 인터페이스(150)는 사용자로부터 제어 명령을 입력받을 수 있다. 예를 들어, 입력 인터페이스(150)는 키 패드, 터치 패드 등으로 구현될 수 있다. 입력 인터페이스(150)는 사용자로부터 명령을 입력받는 기능을 수행하며, 입력부, 입력 모듈 등으로 불릴 수도 있다.
한편, 입력 인터페이스(150)는 상술한 키 패드, 터치 패드 외에도 디스플레이(140), 카메라(160), 마이크(180) 또는 센서(190)로 구현될 수도 있다. 예를 들어, 디스플레이(140)가 터치 스크린으로 구현되는 경우, 전자 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다. 입력 인터페이스(150)가 카메라(160)로 구현되는 경우, 전자 장치(100)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(130)는 촬영된 표정이나 동작에 기초하여 제어 명령을 인식할 수 있다. 입력 인터페이스(150)가 마이크(180)로 구현되는 경우, 전자 장치(100)는 사용자의 음성을 입력받을 수 있다. 프로세서(130)는 입력된 음성에 기초하여 제어 명령을 인식할 수 있다. 입력 인터페이스(150)가 센서(190)로 구현되는 경우, 센서(190)는 사용자의 동작 또는 리모컨과 같은 외부 장치로부터 신호 등을 입력받을 수 있다. 프로세서(130)는 입력된 사용자의 동작 또는 신호에 기초하여 제어 명령을 인식할 수 있다.
카메라(160)는 주변 환경을 촬영할 수 있다. 또한, 카메라(160)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(130)는 촬영된 사용자의 표정이나 동작에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 카메라(160)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(160)는 RGB 카메라, 뎁스 카메라를 포함할 수도 있다.
스피커(170)는 사운드 처리가 수행된 사운드 신호를 출력한다. 예를 들어, 스피커(170)는 컨텐츠에 포함된 음성 데이터를 출력할 수 있다. 또한, 스피커(170)는 사용자의 입력 명령, 전자 장치(100)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.
마이크(180)는 오디오 신호를 입력받을 수 있다. 마이크(180)는 프로세서(130)의 제어에 따라 기 설정된 거리 이내에 위치한 사용자로부터 오디오 신호를 획득할 수 있다. 또한, 전자 장치(100)는 복수 개의 마이크를 포함할 수 있다. 전자 장치(100)가 복수 개의 마이크를 포함하는 경우, 프로세서(130)는 복수 개의 마이크로부터 획득된 오디오 신호의 방향, 크기, 위상 등에 기초하여 음원의 위치를 식별할 수 있다. 또한, 마이크(180)는 사용자의 음성을 입력받을 수 있다. 프로세서(130)는 입력된 음성에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다.
센서(190)는 전자 장치(100) 주변의 상태를 감지할 수 있다. 프로세서(130)는 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(190)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다. 한편, 프로세서(130)가 카메라(160), 마이크(180)를 통해 획득된 정보에 기초하여 오브젝트의 위치를 식별하는 경우, 카메라(160) 또는 마이크(180)도 센서(190)의 일종이라고 볼 수 있다.
전자 장치(100)는 상술한 구성을 모두 포함할 수 있고, 일부 구성을 포함할 수도 있다. 또한, 전자 장치(100)는 상술한 구성 이외에도 다양한 기능을 수행하는 다른 구성을 더 포함할 수도 있다.
지금까지 전자 장치의 구성을 설명하였다. 아래에서는 전자 장치가 자막을 표시하는 구체적인 과정을 설명한다.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작 과정을 설명하는 도면이고, 도 4는 본 개시의 일 실시 예에 따른 자막을 표시하는 과정을 설명하는 도면이다. 도 3 및 도 4를 참조하여 설명한다.
도 3 및 도4를 참조하면, 전자 장치는 컨텐츠를 수신할 수 있다(310). 예를 들어, 컨텐츠는 동영상일 수 있고, 이미지 데이터 및 음성 데이터를 포함할 수 있다. 전자 장치는 일정한 주기로 이미지 데이터(10)의 프레임을 캡쳐하고, 장면(scene)의 변경 여부를 판단할 수 있다(320). 예를 들어, 전자 장치는 이미지 데이터를 20 프레임 간격으로 캡처할 수 있다. 일 실시 예로서, 컨텐츠는 야구 중계 방송일 수 있고, 캡처된 이미지 데이터(10)는 야구 경기 장면일 수 있다. 전자 장치는 캡처한 프레임의 PSNR(Peak Signal to Noise Ratio)과 기 설정된 임계 값을 비교할 수 있다(410). 캡처한 프레임의 PSNR이 임계 값을 초과하는 경우, 전자 장치는 장면이 변경된 것으로 판단할 수 있다.
전자 장치는 변경된 장면의 매 프레임마다 프레임에 포함된 오브젝트 및 문자를 감지할 수 있다(420). 예를 들어, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트 및 문자를 감지할 수 있다(330). 전자 장치는 감지한 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 오브젝트의 이름을 식별할 수 있다. 또한, 전자 장치는 감지한 문자를 OCR(Optical Character Reader) 모델을 이용하여 식별할 수 있다(340, 430). 일 실시 예로서, 이미지 데이터의 프레임에 야구 선수와 함께 AAA 팀, BBB 팀, 5회초, out 등의 문자가 포함될 수 있다. 전자 장치는 야구 선수의 오브젝트로부터 특징을 추출하고, 추출된 특징으로부터 Michael이라는 야구 선수의 이름을 식별할 수 있다. 그리고, 전자 장치는 OCR 등의 방식을 이용하여 AAA, BBB, 5회초, out 등의 문자를 식별할 수 있다.
전자 장치는 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 레이턴트 시맨틱 매핑(latent semantic mapping)을 수행할 수 있다(350, 440). 식별된 오브젝트의 이름 및 식별된 문자는 이미지 데이터와 관련된 단어일 수 있다. 레이턴트 시맨틱 매핑은 각 단어를 벡터로 변환하고, 변환된 벡터를 기초로 가까운 단어를 모음으로써 유사도(및 관련도)를 추론(inference)하는 것을 의미한다. 즉, 전자 장치는 식별된 오브젝트의 이름 및 식별된 문자(이미지 데이터와 관련된 단어) 간의 관계를 모델링하여 유사도를 식별할 수 있다. 일 실시 예로서, 전자 장치는 식별된 오브젝트의 이름 및 문자에 기초하여 KBO를 야구 경기, 프로 야구와 유사한 단어로 식별하고, BBB 팀을 프로야구 팀으로 식별하고, Michael을 야구 선수로 식별할 수 있다.
전자 장치는 유사도가 식별된 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 단어를 제거할 수 있다(360, 450). 전자 장치는 유사도가 식별된 단어를 이용하여 바이어스 키워드 리스트를 생성한다. 전자 장치는 생성된 바이어스 키워드 리스트를 음성 데이터를 자막으로 표시하기 위해 이용한다. 상술한 바와 같이, 컨텐츠가 동영상일 때, 자막은 실시간으로 비디오의 이미지와 함께 표시되어야 하므로 전자 장치는 음성 데이터의 속도 인식 및 텍스트 변환 빠르게 수행하는 것이 필요하다. 따라서, 바이어스 키워드 리스트는 일정한 크기 이하일 수 있다. 따라서, 전자 장치는 바이어스 키워드 리스트로부터 빈번하게 발생하는 단어를 제거하여 바이어스 키워드 리스트의 파일 크기를 일정한 크기 이하로 유지할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 전자 장치의 기 설정된 빈도가 1000으로 설정되었다면, BBB, 선수 등의 단어는 제거될 수 있다. 그리고, 빈도가 1000 이하인 Michael, 5회초, AAA, KBO 등의 단어는 바이어스 키워드 리스트에 포함되어 바이어스 키워드 리스트가 생성될 수 있다(460). 한편, 전자 장치는 바이어스 키워드 리스트의 크기를 유지하기 위해 바이어스 키워드 리스트에 포함된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 단어를 제거할 수 있다. 예를 들어, 기 설정된 조건에 따른 단어는 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 관련된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
전자 장치는 생성된 바이어스 키워드 리스트를 메모리에 저장할 수 있다(370). 전자 장치는 저장된 바이어스 키워드 리스트 및 학습된 언어 컨텍스터 모델을 이용하여 컨텐츠에 포함된 음성 데이터를 인식하고 인식된 음성 데이터를 텍스트로 변환하기 위해 상황별 자동 음성 인식(Automatic Speech Recognition, ASR)을 수행할 수 있다(380, 470). 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 전자 장치는 일정한 주기로 음성 데이터를 캡처하고, 캡처된 음성 데이터와 동기화시켜 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 일 실시 예로서, 전자 장치는 음성 데이터를 사운드 신호로 출력함과 동시에 “AAA 대 BBB 경기 5회초 Michael 선수가 준비하고 있습니다.”라는 자막을 표시할 수 있다(480).
아래에서는 전자 장치의 각각의 동작 과정을 설명한다.
도 5는 본 개시의 일 실시 예에 따른 장면의 변경을 식별하는 과정을 설명하는 도면이다.
도 5를 참조하면, 현재 프레임의 MSE(Mean Square Error)를 계산하는 수식 및 PSNR을 계산하는 수식이 도시되어 있다. 전자 장치는 일정한 간격으로 이미지 데이터의 프레임을 캡처하고, 장면의 변경 여부를 판단할 수 있다. 전자 장치는 이전에 캡처한 이미지와 현재 캡처한 이미지 간의 MSE를 계산할 수 있다. 그리고, 전자 장치는 계산된 MSE에 기초하여 PSNR을 계산할 수 있다.
전자 장치는 계산된 PSNR과 기 설정된 임계 값을 비교할 수 있다. 전자 장치는 계산된 PSNR이 기 설정된 임계 값을 초과하는 경우 장면이 변경된 것으로 판단할 수 있다. 장면이 변경되면, 전자 장치는 변경된 장면에 기초하여 이미지 데이터로부터 오븝젝트 및 문자를 식별하고, 텍스트로 변환된 음성 데이터를 자막으로 표시하는 과정을 수행할 수 있다.
도 6a는 본 개시의 일 실시 예에 따른 이미지 내의 오브젝트를 식별하는 과정을 설명하는 도면이고, 도 6b는 본 개시의 일 실시 예에 따른 이미지 내의 문자를 식별하는 과정을 설명하는 도면이다. 도 6a 및 도 6b를 참조하여 설명한다.
도 6a를 참조하면, 이미지 데이터에 포함된 오브젝트를 추출하고, 오브젝트의 이름을 식별하는 과정이 도시되어 있다. 전자 장치는 이미지 데이터의 프레임으로부터 오브젝트를 판단할 수 있다. 그리고, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 판단된 오브젝트의 특징을 추출하고, 추출된 특징에 기초하여 오브젝트를 식별할 수 있다. 즉, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트의 이름을 식별할 수 있다. 예를 들어, 오브젝트 감지 모델은 CNN 등의 인공지능 신경망으로 구현될 수 있다.
도 6b를 참조하면, 이미지 데이터에 포함된 문자를 추출하고, 문자를 식별하는 과정이 도시되어 있다. 일 실시 예로서, 이미지 데이터에는 “January 01, 2021”이라는 문자가 포함될 수 있다. 전자 장치는 학습된 OCR 모델을 이용하여 문자를 식별할 수 있다. 일 실시 예로서, OCR 모델은 CNN(Convolutional Neural Network), LSTM(Long Short-Term Memory), attention 기법을 조합하여 생성된 모델일 수 있다. 전자 장치는 도 6a 및 도 6b에 도시된 인공지능 신경망 및 인공지능 기법을 이용하여 이미지 데이터로부터 단어(키워드)를 추출할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 레이턴트 시맨틱 매핑(latent semantic mapping) 과정을 설명하는 도면이다.
전자 장치는 이미지 데이터로부터 추출된 단어에 대해 키워드 확장 과정을 수행할 수 있다. 예를 들어, 전자 장치는 다양한 말뭉치(corpus)에 대해 레이턴트 시맨틱 매핑을 수행하는 모델(예, word2vec 등)을 이용하여 추출된 단어와 유사한 의미의 단어와 빈번하게 같이 출현하는 단어들까지 키워드로 추가할 수 있다. 한편, 전자 장치는 언어 컨텍스처 모델의 훈련 세트에 이미 자주 출현했던 단어 또는 빈도가 높은 단어는 삭제하여 총 키워드를 줄일 수 있다.
한편, 일 실시 예로서, Word2vec모델을 사용하여 표현할 수 있는 레이턴트 시맨틱 매핑 모델은 한 단어의 임베딩 벡터가 관련된 단어들의 임베딩 벡터와 선형 조합(linear combination)으로 표현될 수 있도록 훈련된 1-projection-layer model일 수 있다. 예를 들어, 유사한 관련 단어(예, fat cat sat on the / fat cat sit on the)들은 자연스럽게 벡터 공간에서 가까운 곳으로 모이게 된다. Word2vec 모델은 아주 적은 계산량으로 유사 단어들 및 관련 단어들의 추론이 가능한 모델이다.
예를 들어, 입력 단어(예, fat, cat, on, the) 각각에 대응되는 one-hot vector는 프로젝션 레이어를 통해 처리될 레이턴시 시맨틱 매핑 모델의 입력 레이어로 제공된다.
전자 장치는 상술한 과정을 거쳐 이미지 데이터로부터 식별된 단어들을 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치는 음성 데이터를 입력받으면 학습된 인공지능 모델을 이용하여 음성을 인식하고 텍스트로 변환할 수 있다. 예를 들어, 음성을 인식하는 인공지능 모델은 컨텍스처 RNN-T 또는 C-LAS 모델 등을 포함할 수 있다. 일반적인 음성 인식 인공지능 모델은 입력된 음성 데이터에 기초하여 인식된 단어의 다음 단어를 추출하는 방식으로 음성을 인식할 수 있다. 상술한 바와 같이, 일반적인 음성 인식 인공지능 모델은 학습되지 않은 단어가 입력되었을 때, 기존에 학습된 단어로 예측하고 인식할 수 있다. 일 실시 예로서, 일반적인 음성 인식 인공지능 모델은 입력된 ‘Patrick’이라는 사람 이름을 기존에 학습된 ‘pattern’, ‘patriot’ 등과 같이 인식할 수 있다. 따라서, 본 개시에서는 일반적인 음성 인식 인공지능 모델에 생성된 바이어스 키워드 리스트를 조합하여 음성을 인식할 수 있다. 즉, 전자 장치는 이미지 데이터로부터 상술한 과정을 통해 ‘Patrick’이라는 단어를 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치는 입력된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어는 바이어스 키워드 리스트에 포함된 단어로 식별할 수 있다. 즉, 일 실시 예로서, 전자 장치에 ‘Patrick’이라는 사람 이름이 입력된 경우, 전자 장치는 바이어스 키워드 리스트에 포함된 단어에 기초하여 ‘Patrick’으로 예측하고 인식할 수 있다. 즉, 전자 장치는 학습되지 않은 단어에 대해서도 정확히 예측할 수 있다. 전자 장치는 생성된 바이어스 키워드 리스트가 조합된 음성 인식 인공지능 모델에 기초하여 음성 데이터의 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 그리고, 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다.
지금까지 이미지 데이터의 정보를 이용하여 자막을 표시하는 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
도 8을 참조하면, 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하고(S810), 전자 장치는 이미지 데이터에 포함된 오브젝트 및 문자를 추출한다(S820). 전자 장치는 이미지 데이터의 프레임의 PSNR이 기 설정된 값을 초과하는 경우, 이미지 데이터의 장면이 변경된 것으로 식별할 수 있다. 그리고, 전자 장치는 장면이 변경된 프레임에 기초하여 오브젝트 및 문자를 추출할 수 있다. 예를 들어, 전자 장치는 이미지 데이터의 각 프레임으로부터 오브젝트 및 문자를 추출할 수 있다.
전자 장치는 추출된 오브젝트의 이름 및 추출된 문자를 식별한다(S830). 전자 장치는 추출된 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 추출된 오브젝트의 이름을 식별할 수 있다. 예를 들어, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트의 이름을 식별할 수 있다. 또한, 전자 장치는 학습된 OCR 모델을 이용하여 문자를 식별할 수 있다.
전자 장치는 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성한다(S840). 예를 들어, 전자 장치는 식별된 오브젝트의 이름 및 식별된 문자 간의 관계를 모델링하여 유사도를 식별하고, 식별된 유사도에 기초하여 바이어스 키워드 리스트를 생성할 수 있다. 또는, 전자 장치는 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 단어를 제거하여 바이어스 키워드 리스트를 생성할 수 있다. 또한, 전자 장치는 생성된 바이어스 키워드 리스트에 포함된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 단어를 제거할 수 있다. 일 실시 예로서, 기 설정된 조건에 따른 단어는 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
전자 장치는 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델에 기초하여 음성 데이터를 텍스트로 변환한다(S850). 예를 들어, 전자 장치는 입력된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어를 바이어스 키워드 리스트에 포함된 단어로 식별하고, 유사도가 기 설정된 값 미만인 단어는 학습된 언어 컨텍스처 모델에 포함된 단어로 식별하여 음성 데이터에 포함된 음성을 인식할 수 있다. 그리고, 전자 장치는 식별된 단어를 기초로 인식된 음성 데이터를 텍스트로 변환할 수 있다. 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시한다(S860).
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
Claims (15)
- 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스;단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)을 저장하는 메모리;프로세서; 및디스플레이;를 포함하고,상기 프로세서는,상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고,상기 오브젝트의 오브젝트 이름 및 상기 문자를 식별하며,상기 식별된 오브젝트 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 이미지 관련 단어를 포함하는 바이어스 키워드 리스트를 생성하고,상기 바이어스 키워드 리스트 및 상기 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하며,상기 음성 데이터로부터 변환된 상기 텍스트를 자막으로 표시하도록 상기 디스플레이를 제어하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 음성 데이터를 인식하고,상기 인식된 음성 데이터 중 상기 이미지 관련 단어와 제1 유사도를 가지는 제1 단어를 식별하고, 상기 제1 유사도는 기 설정된 값 이상이며,상기 학습된 언어 컨텍스처 모델에 포함된 학습된 단어와 제2 유사도를 가지는 제2 단어를 식별하고, 상기 제2 유사도는 기 설정된 값 미만이며,상기 제1 단어 및 상기 제2 단어에 기초하여 상기 인식된 음성 데이터를 상기 텍스트로 변환하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 오브젝트 이름 및 상기 문자 간의 관련도를 모델링하여 상기 식별된 오브젝트 이름 및 상기 식별된 문자 간의 유사도를 식별하고,상기 오브젝트 이름 및 상기 문자 간의 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 이미지 관련 단어의 발생 빈도에 따라 상기 이미지 관련 단어를 분류하고,기 설정된 빈도 이상의 발생 빈도를 가지는 상기 이미지 관련 단어를 제거하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치.
- 제4항에 있어서,상기 프로세서는,상기 이미지 데이터와 관련되고 상기 바이어스 키워드 리스트에 포함된 기 설정된 개수를 초과하는 이미지 관련 단어의 개수에 기초하여 기 설정된 조건에 따라 상기 이미지 관련 단어를 제거하는, 전자 장치.
- 제5항에 있어서,상기 이미지 관련 단어를 제거하는 기 설정된 조건은,기존 단어와 중복되는 이미지 관련 단어, 상기 음성 데이터에 포함된 단어로서 기 설정된 유사도 보다 높은 유사도를 가지는 이미지 관련 단어, 상기 바이어스 키워드 리스트에 가장 최근에 추가된 이미지 관련 단어 또는 기 설정된 빈도 보다 낮은 빈도로 발생한 이미지 관련 단어 중 적어도 하나를 포함하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 이미지 데이터의 각 프레임으로부터 상기 오브젝트 및 문자를 추출하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 오브젝트의 특징을 추출하고, 상기 오브젝트의 추출된 특징에 기초하여 상기 오브젝트 이름을 식별하는, 전자 장치.
- 제1항에 있어서,상기 프로세서는,상기 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 상기 이미지 데이터의 장면(scene)이 변경된 것으로 식별하는, 전자 장치.
- 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계;상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계;상기 오브젝트의 오브젝트 이름 및 상기 문자를 식별하는 단계;상기 식별된 오브젝트 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 이미지 관련 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계;상기 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계; 및상기 음성 데이터로부터 변환된 상기 텍스트를 자막으로 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
- 제10항에 있어서,상기 음성 데이터를 상기 텍스트로 변환하는 단계는,상기 음성 데이터를 인식하고,상기 인식된 음성 데이터 중 상기 이미지 관련 단어와 제1 유사도를 가지는 제1 단어를 식별하고, 상기 제1 유사도는 기 설정된 값 이상이며,상기 학습된 언어 컨텍스처 모델에 포함된 학습된 단어와 제2 유사도를 가지는 제2 단어를 식별하고, 상기 제2 유사도는 기 설정된 값 미만이며,상기 제1 단어 및 상기 제2 단어에 기초하여 상기 인식된 음성 데이터를 상기 텍스트로 변환하는, 전자 장치의 제어 방법.
- 제10항에 있어서,상기 바이어스 키워드 리스트를 생성하는 단계는,상기 오브젝트 이름 및 상기 문자 간의 관련도를 모델링하여 상기 식별된 오브젝트 이름 및 상기 식별된 문자 간의 유사도를 식별하고,상기 오브젝트 이름 및 상기 문자 간의 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치의 제어 방법.
- 제10항에 있어서,상기 바이어스 키워드 리스트를 생성하는 단계는,상기 이미지 관련 단어의 발생 빈도에 따라 상기 이미지 관련 단어를 분류하고,기 설정된 빈도 이상의 발생 빈도를 가지는 상기 이미지 관련 단어를 제거하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치의 제어 방법.
- 제13항에 있어서,상기 바이어스 키워드 리스트를 생성하는 단계는,상기 이미지 데이터와 관련되고 상기 바이어스 키워드 리스트에 포함된 기 설정된 개수를 초과하는 이미지 관련 단어의 개수에 기초하여 기 설정된 조건에 따라 상기 이미지 관련 단어를 제거하는, 전자 장치의 제어 방법.
- 제14항에 있어서,상기 이미지 관련 단어를 제거하는 기 설정된 조건은,기존 단어와 중복되는 이미지 관련 단어, 상기 음성 데이터에 포함된 단어로서 기 설정된 유사도 보다 높은 유사도를 가지는 이미지 관련 단어, 상기 바이어스 키워드 리스트에 가장 최근에 추가된 이미지 관련 단어 또는 기 설정된 빈도 보다 낮은 빈도로 발생한 이미지 관련 단어 중 적어도 하나를 포함하는, 전자 장치의 제어 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/430,614 US11893980B2 (en) | 2021-02-08 | 2021-06-22 | Electronic apparatus and control method thereof |
US18/392,369 US20240127805A1 (en) | 2021-02-08 | 2023-12-21 | Electronic apparatus and control method thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210017815A KR20220114379A (ko) | 2021-02-08 | 2021-02-08 | 전자 장치 및 그 제어 방법 |
KR10-2021-0017815 | 2021-02-08 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/430,614 A-371-Of-International US11893980B2 (en) | 2021-02-08 | 2021-06-22 | Electronic apparatus and control method thereof |
US18/392,369 Continuation US20240127805A1 (en) | 2021-02-08 | 2023-12-21 | Electronic apparatus and control method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022169038A1 true WO2022169038A1 (ko) | 2022-08-11 |
Family
ID=82741246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/007818 WO2022169038A1 (ko) | 2021-02-08 | 2021-06-22 | 전자 장치 및 그 제어 방법 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11893980B2 (ko) |
KR (1) | KR20220114379A (ko) |
WO (1) | WO2022169038A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190005651A (ko) * | 2017-07-07 | 2019-01-16 | 삼성에스디에스 주식회사 | 장면전환 검출 장치 및 방법 |
KR102013329B1 (ko) * | 2012-08-23 | 2019-08-22 | 삼성전자 주식회사 | 광학식 문자 판독기를 이용한 데이터 처리 방법 및 장치 |
JP6647141B2 (ja) * | 2016-05-24 | 2020-02-14 | 日本放送協会 | キーワードリスト生成装置、コンテンツ視聴装置、およびキーワードリスト生成プログラム |
KR20200095947A (ko) * | 2019-02-01 | 2020-08-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR20200102309A (ko) * | 2019-02-21 | 2020-08-31 | 한국전자통신연구원 | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
KR101109023B1 (ko) * | 2003-04-14 | 2012-01-31 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치 |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US9542934B2 (en) | 2014-02-27 | 2017-01-10 | Fuji Xerox Co., Ltd. | Systems and methods for using latent variable modeling for multi-modal video indexing |
US11042782B2 (en) | 2017-03-20 | 2021-06-22 | Intel Corporation | Topic-guided model for image captioning system |
KR101930940B1 (ko) | 2017-07-20 | 2018-12-20 | 에스케이텔레콤 주식회사 | 영상 분석 장치 및 방법 |
KR102080315B1 (ko) | 2018-06-01 | 2020-02-24 | 네이버 주식회사 | 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US10573312B1 (en) * | 2018-12-04 | 2020-02-25 | Sorenson Ip Holdings, Llc | Transcription generation from multiple speech recognition systems |
US11722739B2 (en) * | 2021-07-02 | 2023-08-08 | Datashapes, Inc. | Navigating content by relevance |
-
2021
- 2021-02-08 KR KR1020210017815A patent/KR20220114379A/ko active Search and Examination
- 2021-06-22 US US17/430,614 patent/US11893980B2/en active Active
- 2021-06-22 WO PCT/KR2021/007818 patent/WO2022169038A1/ko active Application Filing
-
2023
- 2023-12-21 US US18/392,369 patent/US20240127805A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102013329B1 (ko) * | 2012-08-23 | 2019-08-22 | 삼성전자 주식회사 | 광학식 문자 판독기를 이용한 데이터 처리 방법 및 장치 |
JP6647141B2 (ja) * | 2016-05-24 | 2020-02-14 | 日本放送協会 | キーワードリスト生成装置、コンテンツ視聴装置、およびキーワードリスト生成プログラム |
KR20190005651A (ko) * | 2017-07-07 | 2019-01-16 | 삼성에스디에스 주식회사 | 장면전환 검출 장치 및 방법 |
KR20200095947A (ko) * | 2019-02-01 | 2020-08-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR20200102309A (ko) * | 2019-02-21 | 2020-08-31 | 한국전자통신연구원 | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20240127805A1 (en) | 2024-04-18 |
US20230360645A1 (en) | 2023-11-09 |
KR20220114379A (ko) | 2022-08-17 |
US11893980B2 (en) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019135523A1 (ko) | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 | |
WO2014142600A2 (en) | Display control method and apparatus | |
WO2015119335A1 (ko) | 콘텐츠 추천 방법 및 장치 | |
US20110274406A1 (en) | Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs | |
WO2016028042A1 (en) | Method of providing visual sound image and electronic device implementing the same | |
WO2014106986A1 (en) | Electronic apparatus controlled by a user's voice and control method thereof | |
WO2016013885A1 (en) | Method for retrieving image and electronic device thereof | |
WO2019225964A1 (en) | System and method for fast object detection | |
WO2017138766A1 (ko) | 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버 | |
WO2015030307A1 (en) | Head mounted display device and method for controlling the same | |
WO2014175520A1 (en) | Display apparatus for providing recommendation information and method thereof | |
WO2017047913A1 (en) | Display device, controlling method thereof and computer-readable recording medium | |
WO2019156543A2 (ko) | 동영상의 대표 이미지를 결정하는 방법 및 그 방법을 처리하는 전자 장치 | |
WO2021085812A1 (ko) | 전자장치 및 그 제어방법 | |
WO2021080290A1 (en) | Electronic apparatus and control method thereof | |
WO2023096392A1 (ko) | 동영상 자동 제작 시스템 | |
WO2015126097A1 (en) | Interactive server and method for controlling the server | |
WO2019160275A1 (en) | Electronic device and method for generating summary image of electronic device | |
WO2022169038A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2023068495A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2020045909A1 (en) | Apparatus and method for user interface framework for multi-selection and operation of non-consecutive segmented information | |
WO2022191424A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2020241973A1 (en) | Display apparatus and control method thereof | |
WO2022139182A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2022139177A1 (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21924936 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21924936 Country of ref document: EP Kind code of ref document: A1 |