WO2020251122A1 - Electronic device for providing content translation service and control method therefor - Google Patents

Electronic device for providing content translation service and control method therefor Download PDF

Info

Publication number
WO2020251122A1
WO2020251122A1 PCT/KR2019/013982 KR2019013982W WO2020251122A1 WO 2020251122 A1 WO2020251122 A1 WO 2020251122A1 KR 2019013982 W KR2019013982 W KR 2019013982W WO 2020251122 A1 WO2020251122 A1 WO 2020251122A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
content
data
text data
voice
Prior art date
Application number
PCT/KR2019/013982
Other languages
French (fr)
Korean (ko)
Inventor
이범석
김상하
유지상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2020251122A1 publication Critical patent/WO2020251122A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present disclosure relates to an electronic device that provides a translation service for audio or subtitles of content. More specifically, the present disclosure relates to an electronic device that adjusts the playback speed of content so that the time length of the translated voice or subtitle matches the existing content.
  • the existing video content and the translated voice/subtitles did not synchronize with each other in time. This is because the lengths of the voice/subtitle and the translated voice/subtitle included in the existing video content may be different from each other.
  • An object of the present disclosure is to provide an electronic device that translates voice/subtitles included in content into other languages and outputs them together with content.
  • the main object is to provide an electronic device that enables the content image to naturally match the translated voice/subtitles.
  • An electronic device includes a communication interface including a circuit, a memory including at least one instruction, the communication interface, and a processor connected to the memory to control the electronic device, ,
  • the processor by executing the at least one instruction, receives the content through the communication interface, and based on the voice data of the first language or the caption data of the first language included in the content Text data is acquired, and the content is output based on a reproduction speed corresponding to the length of the acquired text data of the second language.
  • the processor acquires text data of the first language based on voice data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section, and , By translating the obtained text data of the first language, text data of the second language may be obtained.
  • the processor determines a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is greater than or equal to a threshold value, the obtained text data of the first language Another text data of the second language may be obtained by translating again.
  • the processor may output text data of the second language in a subtitle format or output voice data converted from text data of the second language in an audio format based on an input user command.
  • the processor When the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section, the processor outputs the content at a slower playback speed than the original playback speed, and the second language When the time corresponding to the length of the text data is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the text data of the second language is transferred to the content in the form of a subtitle. Can be printed together.
  • the processor converts text data of the second language to obtain voice data of the second language
  • the reproduction time of the voice data of the second language is longer than a time corresponding to the first section
  • the content is displayed at a faster playback speed than the original playback speed.
  • a voice corresponding to voice data of the second language may be output together with the content.
  • the processor based on the image data included in the content or the voice data of the first language included in the content, determine the characteristics of the speaker in the content, and determine the text data of the second language It converts into voice data corresponding to the speaker's characteristic, and outputs the voice corresponding to the voice data together with the content.
  • the processor identifies the type of the content, and when the identified type is a preset first type, outputs the content based on a playback speed corresponding to the length of the acquired text data of the second language, and If the identified type is a preset second type, the content may be output at an original playback speed.
  • the processor identifies whether a character (appearance person) is included in the image data of the content corresponding to the voice data of the first language or the subtitle data of the first language, and the character is included in the image data
  • the content may be output at a playback speed within a preset range from the original playback speed.
  • a method of controlling an electronic device includes the steps of acquiring text data of a second language based on voice data of a first language or subtitle data of the first language included in input content, the And outputting the content based on a reproduction speed corresponding to the length of the acquired text data of the second language.
  • the obtaining of the text data of the second language may include the voice data of the first language corresponding to the first section of the content or the caption data of the first language corresponding to the first section. Acquiring text data of the first language, and translating the obtained text data of the first language to obtain text data of the second language.
  • control method includes determining a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is greater than or equal to a threshold value, the obtained first language It may further include translating the text data to obtain other text data of the second language.
  • the control method may further include outputting the text data of the second language in a subtitle format or outputting the voice data converted from the text data of the second language in an audio format based on an input user command. I can.
  • the outputting of the content includes, when a time corresponding to the length of text data of the second language is longer than a time corresponding to the first section, outputting the content at a slower playback speed than the original playback speed, and If the time corresponding to the length of the text data of the second language is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the text data of the second language It can be output together with the content in the form of subtitles.
  • control method further comprises the step of converting text data of the second language to obtain voice data of the second language
  • step of outputting the content comprises reproducing the voice data of the second language
  • the time is longer than the time corresponding to the first section
  • the content is output at a slower playback speed than the original playback speed
  • the playback time of the voice data of the second language is shorter than the time corresponding to the first section.
  • the content may be output at a faster playback speed than the original playback speed
  • a voice corresponding to the voice data of the second language may be output together with the content.
  • the present control method includes determining a characteristic of a speaker in the content based on image data included in the content or voice data of the first language included in the content, and the text data of the second language.
  • the step of converting into voice data corresponding to the determined speaker's characteristic may be further included, and in the outputting of the content, a voice corresponding to the voice data may be output together with the content.
  • the present control method further includes the step of identifying the type of the content, and the step of outputting the content includes the obtained text data of the second language when the identified type is a preset first type.
  • the content may be output based on a playback speed corresponding to the length, and when the identified type is a preset second type, the content may be output at an original playback rate.
  • the control method further comprises the step of identifying whether a character (appearance person) is included in the image data of the content corresponding to the voice data of the first language or the subtitle data of the first language, and outputting the content
  • the step when a character is included in the image data, the content may be output at a reproduction speed within a preset range from the original reproduction speed.
  • the electronic device is executed by a processor of the electronic device to cause the electronic device to use audio data of a first language or caption data of the first language included in the input content.
  • the electronic device has an effect of providing content synchronized in time with a translated voice/subtitle.
  • the electronic device since the electronic device according to the present disclosure synchronizes the content with the translated voice/subtitle in consideration of the situation of the content, the image of the content synchronized with the translated voice/subtitle does not appear unnatural to the user. have.
  • FIG. 1 is a diagram for explaining a general operation of an electronic device according to the present disclosure
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device for describing various embodiments of the present disclosure
  • FIG. 4 is a block diagram illustrating a software structure of an electronic device according to an embodiment of the present disclosure
  • 5A is a diagram for explaining a content output process when the translated voice is longer than the original voice
  • 5B is a diagram illustrating a content output process when the translated voice is shorter than the original voice
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure
  • FIG. 8 is an algorithm for explaining an example of outputting a corresponding voice along with content based on a length of a corresponding voice when the translated text is output as a voice;
  • 9 is an algorithm for explaining an example of outputting the translated text along with content based on the length of the translated text when outputting the translated text as a subtitle.
  • ordinal numbers such as “first” and “second” may be used in the specification and claims to distinguish between components. These ordinal numbers are used to distinguish the same or similar constituent elements from each other, and the use of these ordinal numbers should not limit the meaning of the terms. For example, the order of use or arrangement of elements combined with such ordinal numbers should not be limited by the number. If necessary, each of the ordinal numbers may be used interchangeably.
  • modules are terms used to refer to components that perform at least one function or operation, and these components are hardware or software. It may be implemented or may be implemented as a combination of hardware and software.
  • a plurality of “modules”, “units”, “parts”, etc. are integrated into at least one module or chip, and at least one processor, except when each needs to be implemented as individual specific hardware. Can be implemented as
  • a part when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium.
  • the meaning that a part includes a certain component means that other components may be further included rather than excluding other components unless specifically stated to the contrary.
  • the electronic device of the present disclosure may provide a Korean voice 30 translated from an English voice 20 spoken by a speaker in the content 10.
  • the electronic device may provide the translated Korean voice 30 together with the image of the content 10.
  • the playback time of the content 10 is 30 seconds
  • the playback time of the translated Korean voice 30 is At 25 seconds, there is an unnatural difference between audio and video.
  • the electronic device adjusts the playback time of the content 10 so that the playback time of the content 10 is equal to 25 seconds as the translated Korean voice 30, and outputs the content 10 and the translated voice 30. I can.
  • the electronic device has an advantage in that it is possible to successfully synchronize content and the translated voice without making the speed of the translated voice (or subtitle) faster or slower.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include a communication interface 110, a memory 120, and a processor 130.
  • the electronic device 100 may be various display devices such as a smart phone, a TV, a desktop PC, a tablet PC, and a notebook PC. Further, the electronic device 100 may be implemented as a set-top box or a server.
  • the communication interface 110 is a component for the electronic device 100 to communicate with at least one external device to exchange signals/data. To this end, the communication interface 110 may include a circuit.
  • the communication interface 110 may include a wireless communication module, a wired input/output module, and a broadcast reception module.
  • the wireless communication module includes a Wi-Fi communication module, a Bluetooth module, an infrared data association (IrDA) module, a 3G (third generation) mobile communication module, and a 4G module to receive content from an external server or an external device. It may include at least one of a 4th generation) mobile communication module and a 4th generation Long Term Evolution (LTE) communication module.
  • the wired input/output module can be implemented as a wired port such as an HDMI port, a display port, an RGB port, a digital visual interface (DVI) port, a Thunderbolt, and a component port.
  • the input/output port may be implemented as an HDMI port or Thunderbolt to transmit image and audio signals together, but a first port for transmitting an image signal and a second port for transmitting an audio signal may be implemented separately. .
  • the broadcast receiving module may receive a signal for broadcast content.
  • the broadcast receiving module may be implemented in a form including a configuration such as a tuner, a demodulator, and an equalizer to receive broadcast content transmitted from a broadcasting station.
  • the content received through the communication interface 110 may include at least one of image data, audio data, caption data, and metadata.
  • the image data may include a caption.
  • the memory 120 is an operating system (OS) for controlling the overall operation of the components of the electronic device 100 and a component for storing various data related to the components of the electronic device 100.
  • the memory 130 may also include at least one instruction related to one or more components of the electronic device 100.
  • the memory 120 may be implemented as a nonvolatile memory (eg, a hard disk, a solid state drive (SSD), a flash memory), a volatile memory, or the like.
  • the memory 120 may store content received from the outside through the communication interface 110, content generated by itself in the electronic device 100, and the like.
  • content received from the outside through the communication interface 110 may be temporarily stored in the memory 120.
  • the temporarily stored content may be output in real time through the electronic device 100.
  • the processor 130 controls the overall operation of the electronic device 100.
  • the processor 130 may include a central processing unit (CPU), a graphical processing unit (GPU), and the like in hardware, and processing operations or data related to control of other components included in the electronic device 100 Can run.
  • CPU central processing unit
  • GPU graphical processing unit
  • the processor 130 may be implemented as a micro processing unit (MPU), or may correspond to a computer in which random access memory (RAM) and read only memory (ROM) are connected to a CPU or the like through a system bus.
  • MPU micro processing unit
  • RAM random access memory
  • ROM read only memory
  • the processor 130 may control not only hardware components included in the electronic device 100, but also one or more software modules included in the electronic device 100, and the result of controlling the software modules by the processor 130 It may also be derived from the operation of hardware components.
  • the processor 130 may control the electronic device 100 by executing at least one command stored in the memory 120 by being connected to the communication interface 110 and the memory 120.
  • the processor 130 may first acquire content. Specifically, the processor 130 may receive contents from various sources (eg, external servers, external devices, broadcasting stations, etc.) through the communication interface 110 or obtain contents stored in the memory 120.
  • the content may correspond to video content including video data including one or more images and audio data, and may be various such as news, sports, movies/dramas, and documentaries.
  • the processor 130 may acquire text data of a second language based on voice data of the first language or subtitle data of the first language included in the obtained content.
  • the first language and the second language mean languages of different countries or regions, respectively.
  • the first language may be English and the second language may be Korean, but are not limited thereto.
  • the processor 130 may obtain text data of a first language based on voice data of a first language corresponding to a first section of the content or subtitle data of a first language corresponding to the first section.
  • the first section refers to a partial section of the entire time section in which video data and audio data of the content are reproduced, and among a plurality of unit time sections in which translation of subtitles or audio data included in the video data of the content is divided It can be one.
  • the first section may correspond to a time section in which audio/subtitles corresponding to a preset number of words or sentences are output or may correspond to a time section corresponding to a preset interval.
  • the first section may correspond to a time section during a scene in which a speaker in the content utters a specific sentence among the entire time section in which the content is reproduced, that is, a time section in which a voice for a corresponding sentence is output.
  • the processor 130 obtains text data of the first language from the voice data of the first section, and when the object of translation is the subtitle of the first section, the processor 130 May obtain text data of the first language from the caption data of the first section.
  • Whether the subject of translation will be the voice of the first section or the subtitle may vary according to a user command input to the electronic device 100. That is, the translation mode of the electronic device 100 may be classified into a voice translation mode or a subtitle translation mode according to a user command, and the processor 130 may activate the mode according to the user command.
  • the translation mode of the electronic device 100 may be automatically set by the electronic device 100 according to a situation.
  • the processor 130 may determine whether subtitle data separately exists in the acquired content, and when the subtitle data exists, may activate the subtitle translation mode. Alternatively, if the caption data of the content does not exist but the audio data of the content does exist, the processor 130 may activate the voice translation mode.
  • the caption data may be extracted from the image data of the content, so even if the caption data does not exist in the acquired content, the processor 130 can identify whether a caption exists in the image data. I can. In addition, if there is no caption in the image data, the processor 130 may activate the voice translation mode.
  • the setting of the translation mode of the processor 130 may be more diverse, and is not limited to the above-described examples.
  • the processor 130 performs speech recognition on speech data using a speech recognition module (Speech-to-Text (STT) module), and converts the result of performing speech recognition into text data of the first language. Can be obtained. Details of the speech recognition module (STT module) will be described later with reference to FIG. 4.
  • STT module speech-to-Text
  • the processor 130 may directly acquire the caption data of the content as text data of the first language. However, if the caption data is not separately received or stored, the processor 130 may extract the caption data by recognizing a character from the image included in the image data and then extract the text data of the first language from the extracted caption data. In this case, a character recognition module can be used. A detailed description of the character recognition module will be described later with reference to FIG. 4.
  • the processor 130 may obtain text data of the second language by translating the text data of the first language.
  • the processor 130 may use a translation module. A detailed description of the translation module will be described later with reference to FIG. 4.
  • the processor 130 may output text data of a second language obtained by translating the text data of the first language together with content in the form of a caption or an audio.
  • a subtitle generation module may be used, and when outputting in an audio format, a text-to-speech (TTS) module may be used. This is further described with reference to FIG. do.
  • a caption providing mode that provides text data of a second language of the electronic device 100 in the form of a caption
  • a voice providing mode that provides text data of a second language in an audio form
  • a comprehensive providing mode that provides both caption and audio form
  • the processor 130 may change the translation providing mode according to a user command or a preset condition. For example, the processor 130 may activate any one of a caption providing mode/audio providing mode/comprehensive providing mode according to a user command. Alternatively, when the translation target is audio data of the first language, the audio providing mode may be activated, and when the translation target is the caption data of the first language, the caption providing mode may be activated.
  • the translation providing mode may be variously set according to preset conditions, and is not limited to the above-described examples.
  • the processor 130 of the electronic device 100 may control the reproduction speed of the content according to the length of text data of the second language.
  • the processor 130 may adjust the reproduction speed of the image data of the content according to the length of the translated caption/audio. Alternatively, the processor 130 may adjust the reproduction speed of both the video data and the audio data of the content to match the length of the translated caption.
  • the processor 130 may decrease or increase the reproduction speed by increasing or decreasing the time interval between image frames in the image data.
  • the processor 130 may adjust the reproduction speed of the image data of the content while maintaining a constant time interval between image frames. Specifically, the processor 130 may adjust the playback speed by adding a new image frame or excluding an existing image frame.
  • the processor 130 may lower the playback speed by adding new image frames between image frames.
  • an image frame to be added may be generated through an interpolation technique for existing image frames.
  • the third image frame added between the existing first image frame and the second image frame may be an image frame generated as a result of interpolation of the first image frame and the second image frame.
  • the processor 130 may increase the playback speed by excluding one or more of the existing image frames.
  • the processor 130 may preferentially exclude the overlapping image frames. In this case, output timing of the remaining image frames that are not excluded may be additionally adjusted.
  • the first image frame, the second image frame, and the third image frame that have already existed may be excluded, while a new fourth image frame and a fifth image frame may be added.
  • the fourth image frame may correspond to an intermediate value between the first and second image frames
  • the fifth image frame may correspond to an intermediate value between the second and third image frames.
  • the processor 130 may determine a difference between the length of text data of the first language and the length of text data of the second language. And, if the determined difference is greater than or equal to the threshold value, the processor 130 may re-translate the obtained text data of the first language to obtain the text data of the second language again.
  • the processor 130 converts the voice data of the first language of each speaker into first text data It is possible to obtain second text data having a length similar to the length of
  • the processor 130 determines the difference in length between the text data of the first language and the text data of the second language than in other cases. By making the threshold value smaller, the translation can be repeated until text data of the second language that satisfies the (smaller) threshold value is obtained.
  • the length of the text data may be generally preset to be proportional to the capacity of the text data, but is not limited thereto.
  • the same capacity may be defined as having different lengths if the languages are different.
  • the processor 130 determines the playback time of the first section of the original content including video data or audio data including text data in the first language and a time corresponding to the length of text data in the second language. Can be compared with That is, the reproduction time of the original content may be adjusted so that the time corresponding to the length of the text data of the second language and the reproduction time of the first section become the same.
  • the time corresponding to the length of the text data may be conceptually defined/interpreted as a time required to read all texts of the text data.
  • the time corresponding to the length of the text data may be preset to increase.
  • various embodiments are possible, such as calculating a time corresponding to the length of the text data by adding all preset reading times for each character or word included in the text data.
  • the processor 130 when the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section (reproduction time of the first section in the original content), the processor 130 When output at a slower playback speed and the time corresponding to the length of text data in the second language is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the second language Text data can be output in the form of subtitles together with content (with a changed playback speed).
  • the processor 130 determines the playback time of the first section of the original content including video data or audio data including text data of the first language, text data of the second language. It can be compared with the playback time of the voice data corresponding to. That is, the reproduction time of the original content may be adjusted so that the reproduction time of the audio data corresponding to the text data of the second language and the reproduction time of the first section become the same.
  • the processor 130 may first convert text data of the second language to obtain voice data of the second language. And, if the playback time of the voice data of the second language is longer than the time corresponding to the first section, the content is output at a slower playback speed than the original playback speed, and the playback time of the voice data of the second language is the first section. If it is shorter than the time corresponding to, the content can be output at a faster playback speed than the original playback speed.
  • the processor 130 may output the voice corresponding to the voice data of the second language together with the content (the playback speed is changed). Specifically, the processor 130 may output image data of content whose playback speed is changed together with audio corresponding to audio data of a second language.
  • the playback speed of the content may vary depending on the characteristics of the voice data of the text data of the second language being converted. This is because even if the same text is converted, if the preset tone, intonation, or speech speed is different, the converted voice data is also different.
  • the processor 130 may acquire audio data of a second language in consideration of an attribute of an image or audio data in image data included in the content.
  • the processor 130 determines the characteristics of a speaker in the content based on image data included in the content or voice data of a first language included in the content, and determines the text data of the second language. It is converted into voice data corresponding to the voice data, and the voice corresponding to the voice data may be output together with the content.
  • the characteristics of the speaker may mean gender, age, etc., or may correspond to the tone and tone of the speech.
  • the processor 130 may convert text data of the second language into voice data of the young man among previously stored voice data.
  • the processor 130 may use one or more convolutional neural networks (CNNs) that have been learned to identify a person in the image and recognize the age/gender of the identified person.
  • CNNs convolutional neural networks
  • the processor 130 may convert text data of the second language into voice data of the young woman among previously stored voice data.
  • the processor 130 may use one or more voice feature models or Deep Neural Networks (DNNs) that have been learned to identify the sex/age of voices in the voice data.
  • DNNs Deep Neural Networks
  • the processor 130 separately stores information on the characteristics of the speaker (eg, a young woman, etc.) identified from the first portion of the video data or audio data of the original content in the memory 110, and When generating translated voice data for a subtitle and/or voice belonging to a part other than the part, information on the stored attribute may be used.
  • the characteristics of the speaker eg, a young woman, etc.
  • the processor 130 may identify a first ratio between a difference in playback start time and a difference in playback end time between voice data of the speakers' first language. I can. And, the ratio between the difference between the playback start point and the playback end point between the voice data of the second language each generated from the voice data of the first language of the speakers is equal to the identified first rate or within a preset range therefrom. You can set the start (end) time of playback of each voice data of two languages.
  • the processor 130 may identify a second ratio between a difference in playback start time between speech data of the speakers' first language and a total playback time of speech data of the speaker's first language.
  • the difference in the playback start time between the voice data of the second language each generated from the voice data of the first language of the speakers and the ratio between the total playback time of the voice data of the second language are equal to or based on the identified second ratio. It is possible to set the start time of reproduction of each voice data of the second language so as to fall within a set range.
  • the processor 130 corresponds to the time from the time when at least some of the voice data of the second language of the corresponding speakers starts to be played back to the time when all the voice data of the second language of the corresponding speakers is terminated. It is possible to adjust the reproduction time of the original image data of the scene corresponding to the audio (of the first language).
  • Seconds-It is desirable that the difference in playback time between speech before and after translation by 5 seconds is not significantly different). In this case, if the time difference between the start time points of the speakers in the original content is 2 seconds, the difference between the start time points of reproduction between the translated voices may be 1 second.
  • the processor 130 may output content whose playback speed is adjusted according to the type of content or situation for each section.
  • the processor 130 may adjust the content playback speed according to a user command for whether to adjust the content playback speed according to the length of the text data of the second language. Specifically, when a user command not to adjust the playback speed of the content according to the translated subtitle/voice is input (or if a user command to adjust the playback speed of the content is not input), the processor 130 Regardless of the length of the text data, the original content can be maintained without changing the playback speed of the video data.
  • the processor 130 may adjust the reproduction speed of the content differently according to the type of the original content.
  • the processor 130 may first identify the type of original content.
  • the processor 130 may analyze image data or audio data included in the content to identify which content corresponds to a content such as news, sports, or drama.
  • the processor 130 may identify the type of the corresponding content through information on the content received from the external device.
  • the processor 130 when the identified type is a preset first type, the processor 130 outputs the content based on the playback speed corresponding to the length of the text data of the second language, but the identified type is a preset second type. If yes, the content can be output at the original playback speed.
  • the processor 130 may not adjust the reproduction time of the contents for sports or drama contents.
  • the content playback time can be adjusted according to the playback time of the translated voice.
  • the types of contents for which the reproduction speed of the contents can be adjusted according to the translated subtitles/voices may be preset in various ways, and the contents are not limited to news or advertisement contents as in this example.
  • the processor 130 may analyze the image data of the content in units of image frames, and may change whether or not to adjust the playback time according to a scene in which the image frame is included.
  • the processor 130 adjusts the reproduction time of the image data of the content according to the reproduction time of the translated voice for the section including the image frame immediately before or immediately after the scene change, but is irrelevant to the scene change. For one section, even if the reproduction time of the translated voice is different from the reproduction time of the image data of the original content, the reproduction time of the content may not be adjusted.
  • the processor 130 may not adjust the playback time of the image data of the content or may adjust the playback time only within a preset range from the playback speed of the original for a section including an image frame in which a person or character appears. . This is to prevent the user's feeling of rejection when the video in which the person appears is too fast or slow.
  • the processor 130 is a character (person, character, etc.) in the image data corresponding to the audio data of the first language of the content or the subtitle data of the first language among the image data of the content (matched in time within the original content). ) Can be identified.
  • the length of the text data of the second language acquired from the audio data of the first language or the caption data of the first language is the original reproduction of the corresponding image data. Even if it does not correspond to the speed, the video data can be output at the same reproduction speed as the original reproduction speed.
  • the processor 130 may adjust the reproduction speed of the corresponding image data according to the length of the text data of the second language (which is a translation result) within a preset range from the original reproduction speed of the corresponding image data.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device 100 for describing various embodiments of the present disclosure.
  • the electronic device 100 further includes at least one of a display 140, an audio output unit 150, and a user interface 160 in addition to the communication interface 110, the memory 120, and the processor 130.
  • the processor 130 may visually output image data and caption data of the original content.
  • the processor 130 may output image data of content whose playback speed is adjusted through the display 140.
  • the translated text data of the second language may be output together in the form of a caption.
  • the display 140 may be implemented as a Liquid Crystal Display (LCD), a Plasma Display Panel (PDP), Organic Light Emitting Diodes (OLED), Transparent OLED (TOLED), Micro LED, or the like.
  • LCD Liquid Crystal Display
  • PDP Plasma Display Panel
  • OLED Organic Light Emitting Diodes
  • TOLED Transparent OLED
  • Micro LED Micro LED
  • the display 140 may be implemented in the form of a touch screen capable of sensing a user's touch manipulation, and may be implemented as a flexible display that can be folded or bent.
  • the processor 130 may output voice data of the original content or may output a translated voice obtained by converting text data of a second language into a voice form.
  • the audio output unit 150 may be implemented as a speaker (not shown) and/or a headphone/earphone output terminal (not shown).
  • the processor 130 may receive a user command regarding a translation target, a translation providing method, and whether to adjust a content reproduction speed.
  • the processor 130 receives, through the user interface 160, a user command for selecting one of a subtitle translation mode in which the translation target is a subtitle of the original content and a voice translation mode in which the translation target is a voice of the original content. can do.
  • the processor 130 provides a user command for selecting any one of a caption providing mode that provides text data of the translated second language in the form of a caption, a voice providing mode that provides a voice form, and a comprehensive providing mode that provides both. May be received through the user interface 160.
  • the processor 130 may receive, through the user interface 160, a user command for adjusting the reproduction speed of the image data of the content according to the translated caption/audio for the currently provided content.
  • the processor 130 receives a user command on whether to provide a translation service for voice/subtitles included in the original content through the user interface 160, and when a user command to provide a translation service is received.
  • a user command to provide a translation service is received.
  • the user interface 160 may include one or more buttons, a keyboard, and a mouse.
  • the user interface 160 may include a touch panel implemented together with the display 140 or a separate touch pad (not shown).
  • the user interface 160 may include a microphone to receive a user's command or information by voice, or may include a camera for recognizing a user's command or information in a motion form.
  • FIG. 4 is a block diagram illustrating a software structure of an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 includes a character recognition module 410, an STT module 420, a translation module 430, a caption generation module 440, a TTS module 450, and a content playback module 460. It may include at least one of.
  • the processor 130 may recognize a character from an image in the image data of the content using the character recognition module 410.
  • the generated caption data may be identified as text data of the first language.
  • the character recognition module 410 may be implemented through Optical Character Recognition (OCR), pattern recognition, or a Convolutional Neural Network (CNN) that is learned to recognize characters.
  • OCR Optical Character Recognition
  • CNN Convolutional Neural Network
  • the processor 130 may recognize the voice data through the STT module 420 when the obtained voice data of the content is to be translated.
  • STT module 420 may include an acoustic model (Acoustic Model) and a language model (Language Model).
  • the acoustic model may include information on characteristics of a speech signal corresponding to a phoneme or word, and the language model may include information corresponding to an arrangement order and relationship of one or more phonemes or words.
  • Processor 130 is a linear predictive coefficient (Linear Predictive Coefficient), Cepstrum (Cepstrum), Mel Frequency Cepstral Coefficient (MFCC), frequency band energy (Filter Bank Energy), etc. from the input speech signal. While extracting various features, it is possible to recognize a phoneme included in a speech signal by comparing it with an acoustic model.
  • Linear Predictive Coefficient Linear Predictive Coefficient
  • Cepstrum Cepstrum
  • MFCC Mel Frequency Cepstral Coefficient
  • Filter Bank Energy frequency band energy
  • the processor 130 may obtain text corresponding to a word or sentence and identify it as text data of the first language.
  • the processor 130 may compare the acquired text with a pronunciation dictionary stored in connection with the STT module, correct/determine it, and then identify it as text data of the first language.
  • the processor 130 directly converts the corresponding subtitle data into the first language without using the character recognition module 410 and the STT module 420. Can be identified by text data.
  • the processor 130 may obtain text data of the second language by translating the identified text data of the first language through the translation module 430.
  • the translation module 430 may use statistical machine translation or neural machine translation, but is not limited thereto.
  • the processor 130 may generate a caption composed of the text data of the second language through the caption generation module 440.
  • the processor 130 may modify text data of the second language with a preset font and size through the caption generation module 440 or may detect errors included in the text data of the second language.
  • the processor 130 may convert text data of the second language into voice data of the second language through the TTS module 450.
  • the processor 130 may convert text data of the second language to become a voice of a voice preset in relation to the TTS module 450.
  • the processor 130 identifies a voice suitable for the age/gender of a person in the original content image or an age/gender suitable for the voice of the original content, among voices of various characteristics previously stored in relation to the TTS module 450, and It is also possible to obtain voice data of a second language suitable for the voice.
  • the processor 130 may adjust a content playback speed according to the length of text data of the second language through the content playback module 460.
  • the processor 130 may add a new image frame or exclude at least one of the existing image frames through the content reproduction module 460.
  • the content for which the playback speed is adjusted may be outputted together with the translated subtitles/audio data.
  • FIGS. 5A and 5B assume a case in which the voice of the original content is translated (voice translation mode) and provided in the form of a voice (voice providing mode).
  • FIG. 5A shows the output of the content when the translated voice is longer than the original voice.
  • FIG. 5B is a diagram for explaining a process of outputting content when the translated voice is shorter than the original voice.
  • the original content is shown as being divided into an original image 510 and an original audio 520.
  • the original voice corresponds to the English text “This is one way for an airline to increase its name recognition: misspell your own name.”
  • the electronic device 100 translates the above-described English text into Korean text, “This is one way for airlines to increase their recognition of names: incorrectly writing their own names.”
  • the Korean text may be converted into a translated voice 520'.
  • the translated voice 520 ′ may be a male voice set to fit the original voice 520 and the original image 510.
  • the playback time of the translated voice 520' is 2 minutes 36 seconds, which is 48 seconds longer than the playback time of the original voice 520, 1 minute 48 seconds.
  • the electronic device 100 slows the reproduction speed of the original image 510 and increases the reproduction time by the reproduction time of the translated voice 520'. Can be printed together.
  • the original content is shown divided into an original image 560 and an original audio 570.
  • the original voice 570 corresponds to the English text "But painters apparently didn't have an F at their fingertips, resulting in Cathay Pacific instead of Pacific.”
  • the electronic device 100 translates the above-described English text into Korean text “However, painters clearly did not put an F on their fingertips, and as a result, Cathay Pachiok was born instead of Pacific Ocean.” Can be converted into translated voice 570'.
  • the translated voice 570 ′ may be a male voice set to fit the original voice 570 and the original image 560.
  • the playback time of the translated voice 570' is 1 minute and 40 seconds, which is 30 seconds shorter than the playback time of the original voice 570, which is 2 minutes and 10 seconds.
  • the electronic device 100 speeds up the reproduction speed of the original image 560 and reduces the reproduction time by the reproduction time of the translated voice 570 ′. Can be printed together.
  • the operations of the electronic device 100 described above may be performed through the electronic device 100 and one or more external devices, not the electronic device 100 alone.
  • the electronic device 100 when the electronic device 100 is a TV or a smartphone, text data of the first language is obtained from the electronic device 100 and then the text data of the first language is translated by an external device that is a server. I can.
  • the electronic device 100 when text data in the second language is received from the external device, the electronic device 100 adjusts the playback speed of the content according to the length of the text data in the second language, while voice/text data in the second language It can be converted into a subtitle format and output together with the adjusted content.
  • the electronic device 100 when the electronic device 100 is a set-top box, the electronic device 100 obtains text data in a first language from content received from outside, and translates text data in the first language to provide text in a second language. After acquiring the data, the content whose playback speed is adjusted according to the text data of the second language may be transmitted to an external device that is a TV. In addition, the electronic device 100 may convert text data in a second language into an audio/subtitle format and transmit the data to an external device that is a TV. In this case, the adjusted content and the subtitle/audio converted from the text data of the second language may be output through an external device that is a TV.
  • the electronic device 100 when the electronic device 100 is a server, the electronic device 100 obtains first text data from content, translates the first text data to obtain second text data, and the length of the second text data Accordingly, the content whose playback speed is adjusted may be transmitted to an external device such as a TV or a smart phone together with data on subtitles/voices converted from text data in the second language.
  • the adjusted content and the subtitle/audio converted from the text data of the second language may be output through an external device such as a TV or a smartphone.
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • control method may acquire text data of a second language based on voice data of a first language or subtitle data of a first language included in the input content (S610 ).
  • text data of the first language may be obtained based on voice data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section.
  • text data of the second language may be obtained by translating the obtained text data of the first language.
  • the present control method determines a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is more than a threshold value, the obtained text data of the first language is translated again. It is also possible to obtain other text data of the second language.
  • content may be output based on a reproduction speed corresponding to the length of the acquired text data of the second language (S620). Specifically, video data and/or audio data of content whose playback speed is adjusted at a playback rate corresponding to the length of text data of the second language may be output.
  • text data of the second language may be output in the form of a caption, or voice data converted from the text data of the second language may be output in the form of an audio.
  • voice data converted from the text data of the second language may be output in the form of an audio.
  • the'translated content' may be provided by being output together with the content whose playback speed is adjusted.
  • the time corresponding to the length of the text data in the second language corresponds to the first section in which the voice/subtitle of the original content to be translated (matched with the text data in the first language) is included.
  • the content is output at a slower playback speed than the original playback speed, and if the time corresponding to the length of the text data of the second language is shorter than the time corresponding to the first section, the content is displayed at the original playback speed.
  • text data of the second language may be output together with the content in the form of a caption.
  • voice data of the second language may be obtained by converting text data of the second language.
  • data from textual text of'Hello' can be converted into an audio signal containing information about the voice of'Hello'.
  • the characteristics of the speaker (age, gender, emotion, etc.) in the original content are determined, and text data of the second language is determined. It can be converted into voice data corresponding to the determined speaker's characteristics.
  • the original playback speed of the content When the reproduction time of the voice data of the second language is shorter than the time corresponding to the first section, the content may be output at a faster reproduction speed than the original reproduction speed. In this case, a voice corresponding to voice data of the second language may be output together with the content.
  • the present control method can identify the type of content. And, if the identified type is a preset first type, the content is output based on the playback speed corresponding to the length of the acquired text data of the second language, and when the identified type is a preset second type, the content is It can be output at the playback speed.
  • the present control method may identify whether a character (appearance person) is included in the image data of the content corresponding to the audio data of the first language or the caption data of the first language.
  • the content may be output at a playback speed within a preset range from the original playback speed. That is, only within a preset range from the original reproduction speed, the reproduction speed of the image data can be adjusted according to the text data of the second language.
  • FIG. 7 is an algorithm for explaining an example for obtaining translated text data from original content.
  • the process of FIG. 7 corresponds to a specific example of step S610 of FIG. 6.
  • image data and audio data of original content may be separated (S710).
  • caption data and/or metadata are additionally included, the present data may also be separated.
  • the identified text may be translated (S740).
  • FIG. 8 is an algorithm for explaining an example of outputting a corresponding voice along with content based on a length of a corresponding voice when the translated text is output as a voice.
  • FIG. 8 may be a specific example of operation S620 of FIG. 6.
  • step S810 in a state in which the translated text is obtained through step S610 of FIG. 6 or the like (S801), it may be identified whether the length difference between the translated text and the original text (before translation) is greater than or equal to a threshold value (S810). If it is greater than or equal to the threshold value (S810-Y), another translated text of the same language as the previous translation text may be obtained until it becomes less than the threshold value (S810 -N) (S820).
  • the translated text may be converted to speech (S830).
  • the playback speed of the original video is modified slowly (S850), and the playback time of the converted voice is the playback of the original content. If it is shorter than the time (S840-N, S870-Y), the playback speed of the original video can be quickly modified (S880). In addition, the video whose playback speed is modified may be output together with the converted (translated) voice (S860).
  • the reproduction time of the converted voice is the same as the reproduction time of the original voice (S840-N and S870-N)
  • the original image may be output as it is together with the translated voice (S890).
  • 9 is an algorithm for explaining an example of outputting the translated text along with content based on the length of the translated text when outputting the translated text as a subtitle. 9 may also be a specific example of step S620 of FIG. 6.
  • steps S910 and S920 may be the same as steps S810 and S820 of FIG. 8. However, in the case of FIG. 9, differently from FIG. 8, since translated text (subtitles) is provided instead of the translated voice, the process of converting the translated text into voice (S830) may not be included.
  • step S920 may also go through) (S910-N)
  • the playback speed of the original video is modified slowly (S940).
  • the playback speed of the original image can be quickly modified (S970).
  • the video whose playback speed is modified may be output together with the converted (translated) voice (S950).
  • the voice of the original content may also be output.
  • the playback speed of the voice data of the original content may be modified or not modified according to a user command or a preset condition.
  • the original image may be output as it is together with the translated text (S890). At this time, the original voice can also be output.
  • the control method of the electronic device described above with reference to FIGS. 6 to 9 may be performed by the electronic device 100 illustrated and described with reference to FIGS. 2 and 3. Alternatively, it may be performed through a system including the electronic device 100 and one or more external devices.
  • the various embodiments described above may be implemented in a recording medium that can be read by a computer or a similar device by using software, hardware, or a combination thereof.
  • the embodiments described in the present disclosure include Application Specific Integrated Circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs). ), processor (processors), controllers (controllers), micro-controllers (micro-controllers), microprocessors (microprocessors), may be implemented using at least one of the electrical unit (unit) for performing other functions.
  • ASICs Application Specific Integrated Circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • processor processor
  • controllers controllers
  • micro-controllers micro-controllers
  • microprocessors microprocessors
  • microprocessors may be implemented using at least one of the electrical unit (unit) for performing other functions.
  • embodiments described herein may be implemented by the processor 130 itself. According to software implementation, embodiments such as procedures and functions described herein may be implemented as separate software modules. Each of the above-described software modules may perform one or more functions and operations described herein.
  • computer instructions for performing a processing operation in the electronic device 100 according to various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium.
  • a computer instruction stored in such a non-transitory computer-readable medium is executed by a processor of a specific device, the above-described specific device performs a processing operation in the electronic device 100 according to the various embodiments described above.
  • the non-transitory computer-readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short moment, such as registers, caches, and memory.
  • Specific examples of non-transitory computer-readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

An electronic device is disclosed. The present electronic device comprises: a communication interface comprising a circuit; a memory; and a processor connected to the communication interface and the memory to control the electronic device, wherein the processor executes at least one instruction stored in the memory to thereby receive content through the communication interface, acquire text data of a second language on the basis of voice data or subtitle data of a first language included in the content, and output the content on the basis of a play speed corresponding to the length of the acquired text data of the second language.

Description

컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법Electronic device providing content translation service and control method thereof
본 개시는 컨텐츠의 음성 또는 자막에 대한 번역 서비스를 제공하는 전자 장치에 관한 것이다. 보다 상세하게는, 번역된 음성 또는 자막의 시간 길이가 기존의 컨텐츠와 어울릴 수 있도록 컨텐츠의 재생 속도를 조정하는 전자 장치에 관한 것이다.The present disclosure relates to an electronic device that provides a translation service for audio or subtitles of content. More specifically, the present disclosure relates to an electronic device that adjusts the playback speed of content so that the time length of the translated voice or subtitle matches the existing content.
종래에, 비디오 컨텐츠의 음성/자막에 대하여 기계 번역 및/또는 TTS(Text to Speech) 기술 등을 적용한 결과 획득한 음성/자막을 해당 비디오 컨텐츠에 다시 입혀 번역 서비스가 제공된 비디오 컨텐츠를 제공할 수 있었다.Conventionally, it was possible to provide video content provided with a translation service by re-coating the acquired voice/subtitle on the video content as a result of applying machine translation and/or text to speech (TTS) technology to the voice/subtitle of video content. .
다만, 이 경우 기존의 비디오 컨텐츠와 번역된 음성/자막이 서로 시간상 동기화되지 않는 경우가 발생하였다. 이는, 기존의 비디오 컨텐츠에 포함된 음성/자막과 번역된 음성/자막의 길이가 서로 달라질 수 있기 때문이다.However, in this case, the existing video content and the translated voice/subtitles did not synchronize with each other in time. This is because the lengths of the voice/subtitle and the translated voice/subtitle included in the existing video content may be different from each other.
본 개시의 목적은, 컨텐츠에 포함된 음성/자막을 다른 언어로 번역하여 컨텐츠와 함께 출력하는 전자 장치를 제공하는 것이다.An object of the present disclosure is to provide an electronic device that translates voice/subtitles included in content into other languages and outputs them together with content.
특히, 전자 장치가 번역된 음성/자막을 컨텐츠와 함께 출력함에 있어, 컨텐츠의 영상이 번역된 음성/자막과 자연스럽게 어울릴 수 있도록 하는 전자 장치를 제공함에 주된 목적이 있다.In particular, when the electronic device outputs the translated voice/subtitles together with the contents, the main object is to provide an electronic device that enables the content image to naturally match the translated voice/subtitles.
본 개시의 일 실시 예에 따른 전자 장치는, 회로를 포함하는 통신 인터페이스, 적어도 하나의 인스트럭션(instruction)을 포함하는 메모리, 상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 상기 통신 인터페이스를 통해 컨텐츠를 수신하고, 상기 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하고, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력한다.An electronic device according to an embodiment of the present disclosure includes a communication interface including a circuit, a memory including at least one instruction, the communication interface, and a processor connected to the memory to control the electronic device, , The processor, by executing the at least one instruction, receives the content through the communication interface, and based on the voice data of the first language or the caption data of the first language included in the content Text data is acquired, and the content is output based on a reproduction speed corresponding to the length of the acquired text data of the second language.
이때, 상기 프로세서는, 상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하고, 상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득할 수 있다.In this case, the processor acquires text data of the first language based on voice data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section, and , By translating the obtained text data of the first language, text data of the second language may be obtained.
이 경우, 상기 프로세서는, 상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하고, 상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득할 수 있다.In this case, the processor determines a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is greater than or equal to a threshold value, the obtained text data of the first language Another text data of the second language may be obtained by translating again.
또한, 상기 프로세서는, 입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력할 수도 있다.In addition, the processor may output text data of the second language in a subtitle format or output voice data converted from text data of the second language in an audio format based on an input user command.
상기 프로세서는, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력할 수 있다.When the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section, the processor outputs the content at a slower playback speed than the original playback speed, and the second language When the time corresponding to the length of the text data is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the text data of the second language is transferred to the content in the form of a subtitle. Can be printed together.
또한, 상기 프로세서는, 상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수도 있다.In addition, when the processor converts text data of the second language to obtain voice data of the second language, and the reproduction time of the voice data of the second language is longer than a time corresponding to the first section, When the content is output at a slower playback speed than the original playback speed, and the playback time of the voice data of the second language is shorter than the time corresponding to the first section, the content is displayed at a faster playback speed than the original playback speed. In addition, a voice corresponding to voice data of the second language may be output together with the content.
한편, 상기 프로세서는, 상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하고, 상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며, 상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수 있다.On the other hand, the processor, based on the image data included in the content or the voice data of the first language included in the content, determine the characteristics of the speaker in the content, and determine the text data of the second language It converts into voice data corresponding to the speaker's characteristic, and outputs the voice corresponding to the voice data together with the content.
그리고, 상기 프로세서는, 상기 컨텐츠의 종류를 식별하고, 상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고, 상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력할 수 있다.In addition, the processor identifies the type of the content, and when the identified type is a preset first type, outputs the content based on a playback speed corresponding to the length of the acquired text data of the second language, and If the identified type is a preset second type, the content may be output at an original playback speed.
그리고, 상기 프로세서는, 상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하고, 상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수도 있다.In addition, the processor identifies whether a character (appearance person) is included in the image data of the content corresponding to the voice data of the first language or the subtitle data of the first language, and the character is included in the image data Alternatively, the content may be output at a playback speed within a preset range from the original playback speed.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계를 포함한다.A method of controlling an electronic device according to an embodiment of the present disclosure includes the steps of acquiring text data of a second language based on voice data of a first language or subtitle data of the first language included in input content, the And outputting the content based on a reproduction speed corresponding to the length of the acquired text data of the second language.
이때, 상기 제2 언어의 텍스트 데이터를 획득하는 단계는, 상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는 단계를 포함할 수 있다.In this case, the obtaining of the text data of the second language may include the voice data of the first language corresponding to the first section of the content or the caption data of the first language corresponding to the first section. Acquiring text data of the first language, and translating the obtained text data of the first language to obtain text data of the second language.
이 경우, 본 제어 방법은, 상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하는 단계, 상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는 단계를 더 포함할 수도 있다.In this case, the control method includes determining a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is greater than or equal to a threshold value, the obtained first language It may further include translating the text data to obtain other text data of the second language.
본 제어 방법은, 입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는 단계를 더 포함할 수 있다.The control method may further include outputting the text data of the second language in a subtitle format or outputting the voice data converted from the text data of the second language in an audio format based on an input user command. I can.
한편, 상기 컨텐츠를 출력하는 단계는, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력할 수 있다.On the other hand, the outputting of the content includes, when a time corresponding to the length of text data of the second language is longer than a time corresponding to the first section, outputting the content at a slower playback speed than the original playback speed, and If the time corresponding to the length of the text data of the second language is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the text data of the second language It can be output together with the content in the form of subtitles.
또한, 본 제어 방법은, 상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력할 수도 있다.In addition, the control method further comprises the step of converting text data of the second language to obtain voice data of the second language, and the step of outputting the content comprises reproducing the voice data of the second language When the time is longer than the time corresponding to the first section, the content is output at a slower playback speed than the original playback speed, and the playback time of the voice data of the second language is shorter than the time corresponding to the first section. In this case, the content may be output at a faster playback speed than the original playback speed, and a voice corresponding to the voice data of the second language may be output together with the content.
한편, 본 제어 방법은, 상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하는 단계, 상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출려할 수 있다.On the other hand, the present control method includes determining a characteristic of a speaker in the content based on image data included in the content or voice data of the first language included in the content, and the text data of the second language The step of converting into voice data corresponding to the determined speaker's characteristic may be further included, and in the outputting of the content, a voice corresponding to the voice data may be output together with the content.
그리고, 본 제어 방법은, 상기 컨텐츠의 종류를 식별하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고, 상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력할 수 있다.And, the present control method further includes the step of identifying the type of the content, and the step of outputting the content includes the obtained text data of the second language when the identified type is a preset first type. The content may be output based on a playback speed corresponding to the length, and when the identified type is a preset second type, the content may be output at an original playback rate.
본 제어 방법은, 상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하는 단계를 더 포함하고, 상기 컨텐츠를 출력하는 단계는, 상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수도 있다.The control method further comprises the step of identifying whether a character (appearance person) is included in the image data of the content corresponding to the voice data of the first language or the subtitle data of the first language, and outputting the content In the step, when a character is included in the image data, the content may be output at a reproduction speed within a preset range from the original reproduction speed.
본 개시의 일 실시 예에 따른 컴퓨터 판독 가능 매체에는, 전자 장치의 프로세서에 의해 실행되어 상기 전자 장치로 하여금, 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계, 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계를 포함하는 동작을 수행하도록 하는 컴퓨터 명령어(instructions)가 저장되어 있다.In a computer-readable medium according to an exemplary embodiment of the present disclosure, the electronic device is executed by a processor of the electronic device to cause the electronic device to use audio data of a first language or caption data of the first language included in the input content. Obtaining text data of a second language as a computer instruction for performing an operation including outputting the content based on a playback speed corresponding to the length of the obtained second language text data Has been saved.
본 개시에 따른 전자 장치는, 번역된 음성/자막과 시간상 동기화된 컨텐츠를 제공한다는 효과가 있다.The electronic device according to the present disclosure has an effect of providing content synchronized in time with a translated voice/subtitle.
또한, 본 개시에 따른 전자 장치는, 컨텐츠의 상황을 고려하여 컨텐츠를 번역된 음성/자막과 동기화하기 때문에, 번역된 음성/자막과 동기화된 컨텐츠의 영상이 자칫 사용자에게 부자연스럽게 보이지 않도록 한다는 효과도 있다.In addition, since the electronic device according to the present disclosure synchronizes the content with the translated voice/subtitle in consideration of the situation of the content, the image of the content synchronized with the translated voice/subtitle does not appear unnatural to the user. have.
도 1은 본 개시에 따른 전자 장치의 개괄적인 동작을 설명하기 위한 도면,1 is a diagram for explaining a general operation of an electronic device according to the present disclosure;
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure;
도 3은 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치의 상세한 구성을 설명하기 위한 블록도,3 is a block diagram illustrating a detailed configuration of an electronic device for describing various embodiments of the present disclosure;
도 4는 본 개시의 일 실시 예에 따른 전자 장치의 소프트웨어 구조를 설명하기 위한 블록도,4 is a block diagram illustrating a software structure of an electronic device according to an embodiment of the present disclosure;
도 5a는 번역된 음성이 원본 음성보다 긴 경우 컨텐츠의 출력 과정을 설명하기 위한 도면, 5A is a diagram for explaining a content output process when the translated voice is longer than the original voice;
도 5b는 번역된 음성이 원본 음성보다 짧은 경우 컨텐츠의 출력 과정을 설명하기 위한 도면, 5B is a diagram illustrating a content output process when the translated voice is shorter than the original voice;
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도,6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure;
도 7은 원본 컨텐츠로부터 번역된 텍스트 데이터를 획득하기 위한 일 예를 설명하기 위한 알고리즘,7 is an algorithm for explaining an example for obtaining translated text data from original content;
도 8은 번역된 텍스트를 음성으로 출력하는 경우, 해당 음성의 길이에 기초하여 해당 음성을 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘,FIG. 8 is an algorithm for explaining an example of outputting a corresponding voice along with content based on a length of a corresponding voice when the translated text is output as a voice;
도 9는 번역된 텍스트를 자막으로 출력하는 경우, 번역된 텍스트의 길이에 기초하여 번역된 텍스트를 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다.9 is an algorithm for explaining an example of outputting the translated text along with content based on the length of the translated text when outputting the translated text as a subtitle.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.Before describing the present disclosure in detail, a method of describing the present specification and drawings will be described.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다. First, terms used in the specification and claims were selected from general terms in consideration of functions in various embodiments of the present disclosure. However, these terms are intended to be interpreted by a person skilled in the art, legal or technical It may vary depending on the emergence of new technologies, etc. In addition, some terms are arbitrarily selected by the applicant. These terms may be interpreted as the meanings defined in the present specification, and if there is no specific term definition, they may be interpreted based on the general contents of the present specification and common technical knowledge in the art.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다. In addition, the same reference numbers or reference numerals in each drawing attached to the present specification indicate parts or components that perform substantially the same function. For convenience of description and understanding, different embodiments will be described using the same reference numerals or symbols. That is, even if all components having the same reference numerals are shown in the plurality of drawings, the plurality of drawings do not mean one embodiment.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다. In addition, terms including ordinal numbers such as “first” and “second” may be used in the specification and claims to distinguish between components. These ordinal numbers are used to distinguish the same or similar constituent elements from each other, and the use of these ordinal numbers should not limit the meaning of the terms. For example, the order of use or arrangement of elements combined with such ordinal numbers should not be limited by the number. If necessary, each of the ordinal numbers may be used interchangeably.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In the present specification, expressions in the singular include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "comprise" are intended to designate the existence of features, numbers, steps, actions, components, parts, or a combination thereof described in the specification, but one or more other It is to be understood that the presence or addition of features, numbers, steps, actions, components, parts, or combinations thereof, does not preclude in advance the possibility of being excluded.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.In the exemplary embodiment of the present disclosure, terms such as "module", "unit", "part" are terms used to refer to components that perform at least one function or operation, and these components are hardware or software. It may be implemented or may be implemented as a combination of hardware and software. In addition, a plurality of "modules", "units", "parts", etc., are integrated into at least one module or chip, and at least one processor, except when each needs to be implemented as individual specific hardware. Can be implemented as
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Further, in the embodiment of the present disclosure, when a part is connected to another part, this includes not only a direct connection but also an indirect connection through another medium. In addition, the meaning that a part includes a certain component means that other components may be further included rather than excluding other components unless specifically stated to the contrary.
이하, 첨부된 도면을 이용하여 본 개시에 대해 구체적으로 설명한다.Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.
도 1은 본 개시에 따른 전자 장치의 개괄적인 동작을 설명하기 위한 도면이다. 도 1을 참조하면, 본 개시의 전자 장치는 컨텐츠(10) 속 화자가 말하는 영어 음성(20)을 번역한 한국어 음성(30)을 제공할 수 있다.1 is a diagram for describing a general operation of an electronic device according to the present disclosure. Referring to FIG. 1, the electronic device of the present disclosure may provide a Korean voice 30 translated from an English voice 20 spoken by a speaker in the content 10.
이때, 전자 장치는 번역된 한국어 음성(30)을 컨텐츠(10)의 영상과 함께 제공할 수도 있는데, 이 경우 컨텐츠(10)의 재생 시간은 30초인 반면 번역된 한국어 음성(30)의 재생 시간은 25초가 되어 음성과 영상 간에 부자연스러운 차이가 생기게 된다.In this case, the electronic device may provide the translated Korean voice 30 together with the image of the content 10. In this case, the playback time of the content 10 is 30 seconds, whereas the playback time of the translated Korean voice 30 is At 25 seconds, there is an unnatural difference between audio and video.
따라서, 전자 장치는 컨텐츠(10)의 재생 시간이 번역된 한국어 음성(30)과 동일한 25초가 되도록 컨텐츠(10)의 재생 시간을 조정하여, 컨텐츠(10) 및 번역된 음성(30)을 출력할 수 있다.Therefore, the electronic device adjusts the playback time of the content 10 so that the playback time of the content 10 is equal to 25 seconds as the translated Korean voice 30, and outputs the content 10 and the translated voice 30. I can.
이렇듯, 본 개시에 따른 전자 장치는 번역된 음성(또는 자막)의 속도를 더 빠르거나 느리게 하지 않으면서도 컨텐츠와 번역된 음성 간의 동기화에 성공할 수 있다는 장점이 있다.As described above, the electronic device according to the present disclosure has an advantage in that it is possible to successfully synchronize content and the translated voice without making the speed of the translated voice (or subtitle) faster or slower.
이하 도면들을 통해, 본 개시의 전자 장치에 대한 구체적인 실시 예를 서술한다.Hereinafter, specific embodiments of the electronic device of the present disclosure will be described through the drawings.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130)를 포함할 수 있다. 전자 장치(100)는 스마트폰, TV, 데스크탑 PC, 태블릿 PC, 노트북 PC 등 다양한 디스플레이 장치일 수 있다. 또한, 전자 장치(100)는 셋탑박스나 서버 등으로 구현될 수도 있다.Referring to FIG. 2, the electronic device 100 may include a communication interface 110, a memory 120, and a processor 130. The electronic device 100 may be various display devices such as a smart phone, a TV, a desktop PC, a tablet PC, and a notebook PC. Further, the electronic device 100 may be implemented as a set-top box or a server.
통신 인터페이스(110)는, 전자 장치(100)가 적어도 하나의 외부 장치와 통신을 수행하여 신호/데이터를 주고받기 위한 구성이다. 이를 위해 통신 인터페이스(110)는 회로를 포함할 수 있다.The communication interface 110 is a component for the electronic device 100 to communicate with at least one external device to exchange signals/data. To this end, the communication interface 110 may include a circuit.
통신 인터페이스(110)는 무선 통신 모듈, 유선 입출력 모듈, 방송 수신 모듈 등을 포함할 수 있다.The communication interface 110 may include a wireless communication module, a wired input/output module, and a broadcast reception module.
무선 통신 모듈은 외부 서버 또는 외부 장치로부터 컨텐츠를 수신하기 위하여 와이파이 (WIFI) 통신 모듈, 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, 3G(3세대) 이동통신 모듈, 4G(4세대) 이동통신 모듈, 4세대 LTE(Long Term Evolution) 통신 모듈 중 적어도 하나를 포함을 포함할 수 있다. The wireless communication module includes a Wi-Fi communication module, a Bluetooth module, an infrared data association (IrDA) module, a 3G (third generation) mobile communication module, and a 4G module to receive content from an external server or an external device. It may include at least one of a 4th generation) mobile communication module and a 4th generation Long Term Evolution (LTE) communication module.
유선 입출력 모듈은 HDMI 포트, 디스플레이 포트, RGB 포트, DVI(Digital Visual Interface) 포트, 썬더볼트 및 컴포넌트 포트 등 유선 포트로 구현될 수 있다. 입출력 포트는 HDMI 포트나 썬더볼트 등으로 구현되어 이미지 및 음성 신호를 함께 전송하도록 구현될 수도 있지만, 이미지 신호를 전송하는 제1 포트 및 음성 신호를 전송하는 제2 포트가 각각 별도로 구현된 것일 수도 있다.The wired input/output module can be implemented as a wired port such as an HDMI port, a display port, an RGB port, a digital visual interface (DVI) port, a Thunderbolt, and a component port. The input/output port may be implemented as an HDMI port or Thunderbolt to transmit image and audio signals together, but a first port for transmitting an image signal and a second port for transmitting an audio signal may be implemented separately. .
방송 수신 모듈은 방송 컨텐츠에 대한 신호를 수신할 수 있다. 방송 수신 모듈은 방송국으로부터 전송되는 방송 컨텐츠를 수신하기 위해 튜너, 복조기, 등화기 등과 같은 구성을 포함하는 형태로 구현될 수 있다.The broadcast receiving module may receive a signal for broadcast content. The broadcast receiving module may be implemented in a form including a configuration such as a tuner, a demodulator, and an equalizer to receive broadcast content transmitted from a broadcasting station.
통신 인터페이스(110)를 통해 수신된 컨텐츠는 영상 데이터, 음성 데이터, 자막 데이터, 메타 데이터 중 적어도 하나를 포함할 수 있다. 이때, 영상 데이터는 자막을 포함할 수 있다.The content received through the communication interface 110 may include at least one of image data, audio data, caption data, and metadata. In this case, the image data may include a caption.
메모리(120)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 다양한 데이터를 저장하기 위한 구성이다. 메모리(130)는 전자 장치(100)의 하나 이상의 구성요소와 관련된 적어도 하나의 명령어(instruction)를 포함할 수도 있다.The memory 120 is an operating system (OS) for controlling the overall operation of the components of the electronic device 100 and a component for storing various data related to the components of the electronic device 100. The memory 130 may also include at least one instruction related to one or more components of the electronic device 100.
이를 위해, 메모리(120)는 비휘발성 메모리(ex: 하드 디스크, SSD(Solid state drive), 플래시 메모리), 휘발성 메모리 등으로 구현될 수 있다.To this end, the memory 120 may be implemented as a nonvolatile memory (eg, a hard disk, a solid state drive (SSD), a flash memory), a volatile memory, or the like.
메모리(120)에는 통신 인터페이스(110)를 통해 외부로부터 수신된 컨텐츠, 전자 장치(100) 내에서 자체적으로 생성된 컨텐츠 등이 저장될 수 있다. 또한, 메모리(120)에는 외부로부터 통신 인터페이스(110)를 통해 수신되는 컨텐츠가 일시적으로 저장될 수 있다. 이 경우, 일시적으로 저장된 컨텐츠는 전자 장치(100)를 통해 실시간으로 출력될 수 있다.The memory 120 may store content received from the outside through the communication interface 110, content generated by itself in the electronic device 100, and the like. In addition, content received from the outside through the communication interface 110 may be temporarily stored in the memory 120. In this case, the temporarily stored content may be output in real time through the electronic device 100.
프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다. 이를 위해, 프로세서(130)는 하드웨어적으로 CPU(central processing unit), GPU(Graphic processing unit) 등을 포함할 수 있으며, 전자 장치(100)에 포함된 다른 구성요소들의 제어에 관한 연산이나 데이터 처리를 실행할 수 있다.The processor 130 controls the overall operation of the electronic device 100. To this end, the processor 130 may include a central processing unit (CPU), a graphical processing unit (GPU), and the like in hardware, and processing operations or data related to control of other components included in the electronic device 100 Can run.
프로세서(130)는 MPU(Micro Processing Unit)로 구현되거나, 또는 RAM(Random Access Memory) 및 ROM(Read Only Memory) 등이 CPU 등과 시스템 버스를 통해 연결된 컴퓨터에 해당할 수도 있다.The processor 130 may be implemented as a micro processing unit (MPU), or may correspond to a computer in which random access memory (RAM) and read only memory (ROM) are connected to a CPU or the like through a system bus.
프로세서(130)는 전자 장치(100)에 포함된 하드웨어적 구성요소뿐만 아니라, 전자 장치(100)에 포함되는 하나 이상의 소프트웨어 모듈을 제어할 수도 있으며, 프로세서(130)가 소프트웨어 모듈을 제어한 결과가 하드웨어 구성들의 동작으로 도출될 수도 있다.The processor 130 may control not only hardware components included in the electronic device 100, but also one or more software modules included in the electronic device 100, and the result of controlling the software modules by the processor 130 It may also be derived from the operation of hardware components.
구체적으로, 프로세서(130)는, 통신 인터페이스(110) 및 메모리(120)와 연결되어 메모리(120)에 저장된 적어도 하나의 명령어를 실행함으로써 전자 장치(100)를 제어할 수 있다.Specifically, the processor 130 may control the electronic device 100 by executing at least one command stored in the memory 120 by being connected to the communication interface 110 and the memory 120.
이하에서는 도 2의 구성요소들을 포함하는 전자 장치(100)의 동작을 보다 상세하게 설명한다.Hereinafter, the operation of the electronic device 100 including the components of FIG. 2 will be described in more detail.
본 개시의 일 실시 예에 있어서, 프로세서(130)는 먼저 컨텐츠를 획득할 수 있다. 구체적으로, 프로세서(130)는 통신 인터페이스(110)를 통해 다양한 소스(예로, 외부 서버, 외부 장치, 방송국 등)로부터 컨텐츠를 수신하거나 메모리(120)에 저장된 컨텐츠를 획득할 수 있다. 컨텐츠는 하나 이상의 이미지를 포함하는 영상 데이터 및 음성 데이터를 포함하는 비디오 컨텐츠에 해당할 수 있으며, 뉴스, 스포츠, 영화/드라마, 다큐 등 다양할 수 있다.In an embodiment of the present disclosure, the processor 130 may first acquire content. Specifically, the processor 130 may receive contents from various sources (eg, external servers, external devices, broadcasting stations, etc.) through the communication interface 110 or obtain contents stored in the memory 120. The content may correspond to video content including video data including one or more images and audio data, and may be various such as news, sports, movies/dramas, and documentaries.
프로세서(130)는 획득된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득할 수 있다. 이때, 제1 언어 및 제2 언어는 각각 서로 다른 국가 또는 지역의 언어를 의미하는 것으로, 예를 들어, 제1 언어는 영어이고 제2 언어는 한국어일 수 있으나 이에 한정되는 것은 아니다.The processor 130 may acquire text data of a second language based on voice data of the first language or subtitle data of the first language included in the obtained content. In this case, the first language and the second language mean languages of different countries or regions, respectively. For example, the first language may be English and the second language may be Korean, but are not limited thereto.
먼저, 프로세서(130)는, 컨텐츠의 제1 구간에 대응되는 제1 언어의 음성 데이터 또는 제1 구간에 대응되는 제1 언어의 자막 데이터를 기초로 제1 언어의 텍스트 데이터를 획득할 수 있다. First, the processor 130 may obtain text data of a first language based on voice data of a first language corresponding to a first section of the content or subtitle data of a first language corresponding to the first section.
이때, 제1 구간은 컨텐츠의 영상 데이터 및 음성 데이터가 재생되는 전체 시간 구간 중 일부 구간을 의미하며, 컨텐츠의 영상 데이터 내에 포함된 자막 또는 음성 데이터에 대한 번역이 구분되어 이루어지는 복수의 단위 시간 구간 중 하나일 수 있다. At this time, the first section refers to a partial section of the entire time section in which video data and audio data of the content are reproduced, and among a plurality of unit time sections in which translation of subtitles or audio data included in the video data of the content is divided It can be one.
제1 구간은 기설정된 수의 단어나 문장에 대응되는 음성/자막이 출력되는 시간 구간에 해당하거나 또는 기설정된 간격만큼의 시간 구간에 해당할 수도 있다. The first section may correspond to a time section in which audio/subtitles corresponding to a preset number of words or sentences are output or may correspond to a time section corresponding to a preset interval.
예를 들어, 제1 구간은 컨텐츠가 재생되는 전체 시간 구간 중에서 컨텐츠 속 화자가 특정한 하나의 문장을 발화하는 장면 동안의 시간 구간, 즉 해당 문장에 대한 음성이 출력되는 시간 구간에 해당할 수 있다.For example, the first section may correspond to a time section during a scene in which a speaker in the content utters a specific sentence among the entire time section in which the content is reproduced, that is, a time section in which a voice for a corresponding sentence is output.
번역의 대상이 제1 구간의 음성인 경우, 프로세서(130)는 제1 구간의 음성 데이터로부터 제1 언어의 텍스트 데이터를 획득하고, 번역의 대상이 제1 구간의 자막인 경우, 프로세서(130)는 제1 구간의 자막 데이터로부터 제1 언어의 텍스트 데이터를 획득될 수 있다.When the object of translation is the voice of the first section, the processor 130 obtains text data of the first language from the voice data of the first section, and when the object of translation is the subtitle of the first section, the processor 130 May obtain text data of the first language from the caption data of the first section.
번역의 대상이 제1 구간의 음성이 될지 자막이 될지는, 전자 장치(100)에 입력된 사용자 명령에 따라 달라질 수 있다. 즉, 전자 장치(100)의 번역 모드는 사용자 명령에 따라 음성 번역 모드 또는 자막 번역 모드로 구분될 수 있으며, 프로세서(130)는 사용자 명령에 따른 모드를 활성화시킬 수 있다.Whether the subject of translation will be the voice of the first section or the subtitle may vary according to a user command input to the electronic device 100. That is, the translation mode of the electronic device 100 may be classified into a voice translation mode or a subtitle translation mode according to a user command, and the processor 130 may activate the mode according to the user command.
전자 장치(100)의 번역 모드는, 상황에 따라 전자 장치(100)에 의해 자동으로 설정될 수도 있다. 예를 들어, 프로세서(130)는 획득된 컨텐츠에 자막 데이터가 별도로 존재하는지 판단하고, 자막 데이터가 존재하는 경우에는 자막 번역 모드를 활성화할 수 있다. 또는, 컨텐츠의 자막 데이터는 존재하지 않지만 컨텐츠의 음성 데이터는 존재하는 경우, 프로세서(130)는 음성 번역 모드를 활성화할 수도 있다. The translation mode of the electronic device 100 may be automatically set by the electronic device 100 according to a situation. For example, the processor 130 may determine whether subtitle data separately exists in the acquired content, and when the subtitle data exists, may activate the subtitle translation mode. Alternatively, if the caption data of the content does not exist but the audio data of the content does exist, the processor 130 may activate the voice translation mode.
다만, 획득된 컨텐츠 내에 자막 데이터가 별도로 존재하지 않더라도 컨텐츠의 영상 데이터로부터 자막 데이터가 추출될 수 있으므로, 획득된 컨텐츠에 자막 데이터가 존재하지 않더라도 프로세서(130)는 영상 데이터 내에 자막이 존재하는지 식별할 수 있다. 그리고, 영상 데이터 내에 자막이 존재하지 않는다면, 프로세서(130)는 음성 번역 모드를 활성화할 수도 있다. 다만, 프로세서(130)의 번역 모드 설정은 더욱 다양할 수 있고, 상술한 예들에만 한정되지는 않는다.However, even if caption data does not exist separately in the acquired content, the caption data may be extracted from the image data of the content, so even if the caption data does not exist in the acquired content, the processor 130 can identify whether a caption exists in the image data. I can. In addition, if there is no caption in the image data, the processor 130 may activate the voice translation mode. However, the setting of the translation mode of the processor 130 may be more diverse, and is not limited to the above-described examples.
음성 번역 모드의 경우, 프로세서(130)는 음성 인식 모듈(STT(Speech-to-Text) 모듈)을 이용하여 음성 데이터에 대한 음성 인식을 수행하고, 음성 인식 수행 결과를 제1 언어의 텍스트 데이터로 획득할 수 있다. 음성 인식 모듈(STT 모듈)에 대한 자세한 내용은 도 4를 통해 후술한다.In the case of the speech translation mode, the processor 130 performs speech recognition on speech data using a speech recognition module (Speech-to-Text (STT) module), and converts the result of performing speech recognition into text data of the first language. Can be obtained. Details of the speech recognition module (STT module) will be described later with reference to FIG. 4.
자막 번역 모드의 경우, 프로세서(130)는 컨텐츠의 자막 데이터를 곧바로 제1 언어의 텍스트 데이터로 획득할 수 있다. 다만, 자막 데이터가 별도로 수신되거나 저장되어 있지 않는 경우, 프로세서(130)는 영상 데이터에 포함된 이미지로부터 문자를 인식하여 자막 데이터를 추출한 뒤 추출된 자막 데이터로부터 제1 언어의 텍스트 데이터를 추출할 수도 있는데, 이때 문자 인식 모듈을 이용할 수 있다. 문자 인식 모듈에 대한 자세한 설명은 도 4를 통해 후술한다.In the case of the caption translation mode, the processor 130 may directly acquire the caption data of the content as text data of the first language. However, if the caption data is not separately received or stored, the processor 130 may extract the caption data by recognizing a character from the image included in the image data and then extract the text data of the first language from the extracted caption data. In this case, a character recognition module can be used. A detailed description of the character recognition module will be described later with reference to FIG. 4.
상술한 실시 예들에 의해 제1 언어의 텍스트 데이터가 획득된 후, 프로세서(130)는 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다.After the text data of the first language is obtained according to the above-described embodiments, the processor 130 may obtain text data of the second language by translating the text data of the first language.
제1 언어의 텍스트 데이터를 제2 언어의 텍스트 데이터로 번역하는 경우, 프로세서(130)는 번역 모듈을 이용할 수 있다. 번역 모듈에 대한 자세한 설명은 도 4를 통해 후술한다.When translating text data of a first language into text data of a second language, the processor 130 may use a translation module. A detailed description of the translation module will be described later with reference to FIG. 4.
프로세서(130)는 제1 언어의 텍스트 데이터를 번역한 제2 언어의 텍스트 데이터를 자막 또는 음성 형태로 컨텐츠와 함께 출력할 수 있다. 제2 언어의 텍스트 데이터를 자막 형태로 출력하는 경우 자막 생성 모듈이 이용되고, 음성 형태로 출력하는 경우 TTS(Text-to-speech) 모듈이 이용될 수 있는데, 이에 대해서는 도 4를 통해 추가로 서술한다.The processor 130 may output text data of a second language obtained by translating the text data of the first language together with content in the form of a caption or an audio. When outputting text data of a second language in a subtitle format, a subtitle generation module may be used, and when outputting in an audio format, a text-to-speech (TTS) module may be used. This is further described with reference to FIG. do.
전자 장치(100)의 제2 언어의 텍스트 데이터를 자막 형태로 제공하는 자막 제공 모드, 제2 언어의 텍스트 데이터를 음성 형태로 제공하는 음성 제공 모드, 그리고 자막 및 음성 형태 모두 제공하는 종합 제공 모드 등으로 번역 서비스를 제공할 수 있다.A caption providing mode that provides text data of a second language of the electronic device 100 in the form of a caption, a voice providing mode that provides text data of a second language in an audio form, and a comprehensive providing mode that provides both caption and audio form, etc. Translation services can be provided.
프로세서(130)는 사용자 명령 또는 기설정된 조건에 따라 번역 제공 모드를 달리할 수 있다. 예를 들어, 프로세서(130)는 사용자 명령에 따라 자막 제공 모드/음성 제공 모드/종합 제공 모드 중 어느 하나를 활성화할 수 있다. 또는, 번역 대상이 제1 언어의 음성 데이터인 경우 음성 제공 모드를, 번역 대상이 제1 언어의 자막 데이터인 경우 자막 제공 모드를 활성화시킬 수도 있다. 이러한 번역 제공 모드는 기설정된 조건에 따라 다양하게 설정될 수 있으며, 상술한 예들에만 한정되는 것은 아니다.The processor 130 may change the translation providing mode according to a user command or a preset condition. For example, the processor 130 may activate any one of a caption providing mode/audio providing mode/comprehensive providing mode according to a user command. Alternatively, when the translation target is audio data of the first language, the audio providing mode may be activated, and when the translation target is the caption data of the first language, the caption providing mode may be activated. The translation providing mode may be variously set according to preset conditions, and is not limited to the above-described examples.
이렇듯 번역된 자막/음성을 제공함에 있어, 원본 컨텐츠와 번역된 자막/음성 간의 시간 길이가 맞지 않을 수 있다. 이를 해결하기 위해, 본 개시에 따른 전자 장치(100)의 프로세서(130)는, 컨텐츠의 재생 속도를 제2 언어의 텍스트 데이터의 길이에 맞게 제어할 수 있다. In providing the translated subtitle/voice as described above, the length of time between the original content and the translated subtitle/voice may not match. To solve this problem, the processor 130 of the electronic device 100 according to the present disclosure may control the reproduction speed of the content according to the length of text data of the second language.
구체적으로, 프로세서(130)는 컨텐츠의 영상 데이터의 재생 속도를 번역된 자막/음성의 길이에 맞게 조정할 수 있다. 또는, 프로세서(130)는 컨텐츠의 영상 데이터 및 음성 데이터의 재생 속도를 모두 번역된 자막의 길이에 맞게 조정할 수도 있다.Specifically, the processor 130 may adjust the reproduction speed of the image data of the content according to the length of the translated caption/audio. Alternatively, the processor 130 may adjust the reproduction speed of both the video data and the audio data of the content to match the length of the translated caption.
컨텐츠의 영상 데이터의 재생 속도를 조정하는 경우, 프로세서(130)는 영상 데이터 내 이미지 프레임들 간의 시간 간격을 늘이거나 줄임으로써 재생 속도를 낮추거나 높일 수 있다.When adjusting the reproduction speed of the image data of the content, the processor 130 may decrease or increase the reproduction speed by increasing or decreasing the time interval between image frames in the image data.
다만, 프로세서(130)는 이미지 프레임들 간의 시간 간격을 일정하게 유지하면서 컨텐츠의 영상 데이터의 재생 속도를 조정할 수도 있다. 구체적으로, 프로세서(130)는 새로운 이미지 프레임을 추가하거나 기존에 있던 이미지 프레임을 제외함으로써 재생 속도를 조정할 수도 있다.However, the processor 130 may adjust the reproduction speed of the image data of the content while maintaining a constant time interval between image frames. Specifically, the processor 130 may adjust the playback speed by adding a new image frame or excluding an existing image frame.
일 예로, 프로세서(130)는 이미지 프레임들 사이사이에 새로운 이미지 프레임들을 추가함으로써 재생 속도를 낮출 수 있다. 이때, 기 존재하던 이미지 프레임들에 대한 interpolation 기법 등을 통해 추가될 이미지 프레임을 생성할 수 있다. 구체적인 예로, 기 존재하던 제1 이미지 프레임 및 제2 이미지 프레임 사이에 추가되는 제3 이미지 프레임은, 제1 이미지 프레임 및 제2 이미지 프레임의 interpolation 결과 생성된 이미지 프레임일 수 있다. For example, the processor 130 may lower the playback speed by adding new image frames between image frames. In this case, an image frame to be added may be generated through an interpolation technique for existing image frames. As a specific example, the third image frame added between the existing first image frame and the second image frame may be an image frame generated as a result of interpolation of the first image frame and the second image frame.
일 예로, 프로세서(130)는 기 존재하던 이미지 프레임들 중 하나 이상을 제외함으로써 재생 속도를 높일 수도 있다.For example, the processor 130 may increase the playback speed by excluding one or more of the existing image frames.
이 경우, 프로세서(130)는 중복되는 이미지 프레임을 우선적으로 제외할 수 있다. 이때, 제외되지 않은 나머지 이미지 프레임들의 출력 타이밍이 추가로 조정될 수도 있다.In this case, the processor 130 may preferentially exclude the overlapping image frames. In this case, output timing of the remaining image frames that are not excluded may be additionally adjusted.
또는, 기 존재하던 제1 이미지 프레임, 제2 이미지 프레임 및 제3 이미지 프레임이 제외되는 한편 새로운 제4 이미지 프레임 및 제5 이미지 프레임이 추가될 수도 있다. 이 경우, 제4 이미지 프레임은 제1 및 제2 이미지 프레임의 중간 값에 대응되고 제5 이미지 프레임은 제2 및 제3 이미지 프레임의 중간 값에 대응될 수 있다.Alternatively, the first image frame, the second image frame, and the third image frame that have already existed may be excluded, while a new fourth image frame and a fifth image frame may be added. In this case, the fourth image frame may correspond to an intermediate value between the first and second image frames, and the fifth image frame may correspond to an intermediate value between the second and third image frames.
이렇듯, 재생 속도를 조정하는 방식은 다양할 수 있으며, 상술한 내용은 일부 예에 해당할 뿐 본 개시에 따른 전자 장치(100)의 재생 속도 조정이 이에 한정되는 것은 아니다.As described above, there may be various ways of adjusting the playback speed, and the above description is for some examples, and the adjustment of the playback speed of the electronic device 100 according to the present disclosure is not limited thereto.
한편, 컨텐츠의 영상 데이터가 일률적으로 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도로 출력되는 경우, 컨텐츠의 영상 데이터가 지나치게 빠르게 또는 느리게 재생되는 등 부자연스러워질 가능성이 있다.On the other hand, when the image data of the content is uniformly output at a playback speed corresponding to the length of the text data of the second language, there is a possibility that the image data of the content is reproduced too quickly or slowly, and it becomes unnatural.
따라서, 프로세서(130)는 제1 언어의 텍스트 데이터의 길이와 제2 언어의 텍스트 데이터의 길이 차이를 판단할 수 있다. 그리고, 판단된 차이가 임계 값 이상이면, 프로세서(130)는 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 제2 언어의 텍스트 데이터를 다른 것으로 다시 획득할 수 있다. Accordingly, the processor 130 may determine a difference between the length of text data of the first language and the length of text data of the second language. And, if the determined difference is greater than or equal to the threshold value, the processor 130 may re-translate the obtained text data of the first language to obtain the text data of the second language again.
만약, 원본 컨텐츠 내에서 2명 이상의 화자의 (제1 언어의) 음성이 서로 적어도 일부 구간에서 서로 중첩되는 경우, 프로세서(130)는 각 화자의 제1 언어의 음성 데이터를 변환한 제1 텍스트 데이터의 길이와 최대한 유사한 길이를 갖는 제2 텍스트 데이터를 획득할 수 있다. If, in the original content, voices of two or more speakers (of the first language) overlap each other in at least some sections, the processor 130 converts the voice data of the first language of each speaker into first text data It is possible to obtain second text data having a length similar to the length of
구체적으로, 프로세서(130)는 원본 컨텐츠 내에서 2명 이상의 화자의 음성이 서로 적어도 일부 구간에 중첩되는 경우, 그 외의 경우보다 제1 언어의 텍스트 데이터와 제2 언어의 텍스트 데이터의 길이 차에 대한 임계 값을 더 작게 하여, 해당(더 작은) 임계 값을 만족하는 제2 언어의 텍스트 데이터를 획득할 때까지 번역을 반복할 수 있다.Specifically, in the case where the voices of two or more speakers overlap each other in at least a partial section in the original content, the processor 130 determines the difference in length between the text data of the first language and the text data of the second language than in other cases. By making the threshold value smaller, the translation can be repeated until text data of the second language that satisfies the (smaller) threshold value is obtained.
텍스트 데이터의 길이는, 일반적으로 텍스트 데이터의 용량에 비례하는 것으로 기설정될 수 있으나 이에 한정되는 것은 아니다. 예를 들어, 동일한 용량이라도 언어가 다른 경우라면 길이가 다른 것으로 정의될 수도 있다.The length of the text data may be generally preset to be proportional to the capacity of the text data, but is not limited thereto. For example, the same capacity may be defined as having different lengths if the languages are different.
자막 제공 모드인 경우, 프로세서(130)는 제1 언어의 텍스트 데이터가 포함된 영상 데이터 또는 음성 데이터가 포함되는 원본 컨텐츠의 제1 구간의 재생 시간을 제2 언어의 텍스트 데이터의 길이에 대응되는 시간과 비교할 수 있다. 즉, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간과 제1 구간의 재생 시간이 동일해지도록 원본 컨텐츠의 재생 시간을 조정할 수 있다.In the case of the subtitle providing mode, the processor 130 determines the playback time of the first section of the original content including video data or audio data including text data in the first language and a time corresponding to the length of text data in the second language. Can be compared with That is, the reproduction time of the original content may be adjusted so that the time corresponding to the length of the text data of the second language and the reproduction time of the first section become the same.
이때, 텍스트 데이터의 길이에 대응되는 시간은, 개념적으로는 해당 텍스트 데이터의 텍스트들을 모두 읽기 위해 필요한 시간으로 정의/해석될 수 있다. 이 경우, 텍스트 데이터의 용량이 클수록 텍스트 데이터의 길이에 대응되는 시간이 길어지도록 기설정될 수 있다. 또는, 텍스트 데이터 내에 포함된 모든 문자 또는 단어 별로 기설정된 가독 시간들을 모두 더하는 방법으로 해당 텍스트 데이터의 길이에 대응되는 시간이 계산되는 등 다양한 실시 예가 가능하다.In this case, the time corresponding to the length of the text data may be conceptually defined/interpreted as a time required to read all texts of the text data. In this case, as the capacity of the text data increases, the time corresponding to the length of the text data may be preset to increase. Alternatively, various embodiments are possible, such as calculating a time corresponding to the length of the text data by adding all preset reading times for each character or word included in the text data.
구체적인 예로, 프로세서(130)는, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간(원본 컨텐츠에서 제1 구간의 재생 시간)보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며, 제2 언어의 텍스트 데이터를 자막 형태로 (재생 속도가 변경된) 컨텐츠와 함께 출력할 수 있다.As a specific example, when the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section (reproduction time of the first section in the original content), the processor 130 When output at a slower playback speed and the time corresponding to the length of text data in the second language is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed, and the second language Text data can be output in the form of subtitles together with content (with a changed playback speed).
음성 제공 모드 또는 종합 제공 모드인 경우, 프로세서(130)는, 제1 언어의 텍스트 데이터가 포함된 영상 데이터 또는 음성 데이터가 포함되는 원본 컨텐츠의 제1 구간의 재생 시간을, 제2 언어의 텍스트 데이터에 대응되는 음성 데이터의 재생 시간과 비교할 수 있다. 즉, 제2 언어의 텍스트 데이터에 대응되는 음성 데이터의 재생 시간과 제1 구간의 재생 시간이 동일해지도록 원본 컨텐츠의 재생 시간을 조정할 수 있다.In the case of the audio providing mode or the comprehensive providing mode, the processor 130 determines the playback time of the first section of the original content including video data or audio data including text data of the first language, text data of the second language. It can be compared with the playback time of the voice data corresponding to. That is, the reproduction time of the original content may be adjusted so that the reproduction time of the audio data corresponding to the text data of the second language and the reproduction time of the first section become the same.
구체적인 예로, 프로세서(130)는 먼저 제2 언어의 텍스트 데이터를 변환하여 제2 언어의 음성 데이터를 획득할 수 있다. 그리고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다. As a specific example, the processor 130 may first convert text data of the second language to obtain voice data of the second language. And, if the playback time of the voice data of the second language is longer than the time corresponding to the first section, the content is output at a slower playback speed than the original playback speed, and the playback time of the voice data of the second language is the first section. If it is shorter than the time corresponding to, the content can be output at a faster playback speed than the original playback speed.
이때, 프로세서(130)는 제2 언어의 음성 데이터에 대응되는 음성을 (재생 속도가 변경된) 컨텐츠와 함께 출력할 수 있다. 구체적으로, 프로세서(130)는 재생 속도가 변경된 컨텐츠의 영상 데이터를 제2 언어의 음성 데이터에 대응되는 음성과 함께 출력할 수 있다.In this case, the processor 130 may output the voice corresponding to the voice data of the second language together with the content (the playback speed is changed). Specifically, the processor 130 may output image data of content whose playback speed is changed together with audio corresponding to audio data of a second language.
다만, 이 경우, 제2 언어의 텍스트 데이터가 어떤 특성의 음성 데이터로 변환되는지에 따라 컨텐츠의 재생 속도가 달라질 수 있음은 물론이다. 동일한 텍스트가 변환되더라도 기설정된 말투나 억양 또는 말 속도가 다르다면 변환된 음성 데이터 역시 달라지기 때문이다.However, in this case, it goes without saying that the playback speed of the content may vary depending on the characteristics of the voice data of the text data of the second language being converted. This is because even if the same text is converted, if the preset tone, intonation, or speech speed is different, the converted voice data is also different.
관련하여, 프로세서(130)는 컨텐츠에 포함된 영상 데이터 속 이미지 또는 음성 데이터의 속성을 고려하여 제2 언어의 음성 데이터를 획득할 수 있다.In connection, the processor 130 may acquire audio data of a second language in consideration of an attribute of an image or audio data in image data included in the content.
구체적으로, 프로세서(130)는, 컨텐츠에 포함된 이미지 데이터 또는 컨텐츠에 포함된 제1 언어의 음성 데이터를 기초로 컨텐츠 내 화자의 특성을 판단하고, 제2 언어의 텍스트 데이터를 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며, 음성 데이터에 대응되는 음성을 컨텐츠와 함께 출력할 수 있다.Specifically, the processor 130 determines the characteristics of a speaker in the content based on image data included in the content or voice data of a first language included in the content, and determines the text data of the second language. It is converted into voice data corresponding to the voice data, and the voice corresponding to the voice data may be output together with the content.
화자의 특성은 성별, 나이 등을 의미하거나 발화의 어투, 톤 등에 해당할 수도 있다.The characteristics of the speaker may mean gender, age, etc., or may correspond to the tone and tone of the speech.
예로, 컨텐츠에 포함된 이미지 데이터 속에서 발화하는 사람이 젊은 남성인 경우, 프로세서(130)는 제2 언어의 텍스트 데이터를 기저장된 음성 데이터 중 젊은 남성의 음성 데이터로 변환할 수 있다. 이때, 프로세서(130)는 이미지 속 사람을 식별하고 식별된 사람의 나이/성별을 인식하도록 학습된 하나 이상의 CNN(Convolutional Neural Network)을 이용할 수도 있다.For example, when the person speaking in the image data included in the content is a young man, the processor 130 may convert text data of the second language into voice data of the young man among previously stored voice data. In this case, the processor 130 may use one or more convolutional neural networks (CNNs) that have been learned to identify a person in the image and recognize the age/gender of the identified person.
예로, 컨텐츠에 포함된 음성 데이터가 젊은 여성의 음성에 해당하는 경우, 프로세서(130)는 제2 언어의 텍스트 데이터를 기저장된 음성 데이터 중 젊은 여성의 음성 데이터로 변화할 수 있다. 이 경우, 프로세서(130)는 음성 데이터 속 음성의 성별/나이를 식별하도록 학습된 하나 이상의 음성 특징 모델 또는 DNN(Deep Neural Network)을 이용할 수도 있다.For example, when voice data included in the content corresponds to the voice of a young woman, the processor 130 may convert text data of the second language into voice data of the young woman among previously stored voice data. In this case, the processor 130 may use one or more voice feature models or Deep Neural Networks (DNNs) that have been learned to identify the sex/age of voices in the voice data.
한편, 프로세서(130)는 원본 컨텐츠의 영상 데이터 또는 음성 데이터의 제1 부분으로부터 식별된 화자의 특성(ex. 젊은 여자 등)에 대한 정보를 메모리(110)에 별도로 저장해두고, 해당 컨텐츠의 제1 부분 외의 부분에 속하는 자막 및/또는 음성에 대하여 번역된 음성 데이터를 생성할 때에도 저장된 속성에 대한 정보를 이용할 수 있다.Meanwhile, the processor 130 separately stores information on the characteristics of the speaker (eg, a young woman, etc.) identified from the first portion of the video data or audio data of the original content in the memory 110, and When generating translated voice data for a subtitle and/or voice belonging to a part other than the part, information on the stored attribute may be used.
만약, 원본 컨텐츠 내에서 2명 이상의 화자들의 음성이 서로 중첩되는 경우, 프로세서(130)는 화자들의 제1 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 재생 종료 시점의 차이 간의 제1 비율을 식별할 수 있다. 그리고, 화자들의 제1 언어의 음성 데이터로부터 각각 생성된 제2 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 재생 종료 시점의 차이 간의 비율이 식별된 제1 비율과 동일하거나 그로부터 기설정된 범위 내가 되도록 제2 언어의 음성 데이터 각각의 재생 시작(종료) 시점을 설정할 수 있다.If the voices of two or more speakers overlap each other in the original content, the processor 130 may identify a first ratio between a difference in playback start time and a difference in playback end time between voice data of the speakers' first language. I can. And, the ratio between the difference between the playback start point and the playback end point between the voice data of the second language each generated from the voice data of the first language of the speakers is equal to the identified first rate or within a preset range therefrom. You can set the start (end) time of playback of each voice data of two languages.
또는, 프로세서(130)는 화자들의 제1 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 화자들의 제1 언어의 음성 데이터의 총 재생 시간 간의 제2 비율을 식별할 수도 있다. 그리고, 화자들의 제1 언어의 음성 데이터로부터 각각 생성된 제2 언어의 음성 데이터 간의 재생 시작 시점의 차이 및 제2 언어의 음성 데이터의 총 재생 시간 간의 비율이 식별된 제2 비율과 동일하거나 그로부터 기설정된 범위 내가 되도록 제2 언어의 음성 데이터 각각의 재생 시작 시점을 설정할 수 있다.Alternatively, the processor 130 may identify a second ratio between a difference in playback start time between speech data of the speakers' first language and a total playback time of speech data of the speaker's first language. In addition, the difference in the playback start time between the voice data of the second language each generated from the voice data of the first language of the speakers and the ratio between the total playback time of the voice data of the second language are equal to or based on the identified second ratio. It is possible to set the start time of reproduction of each voice data of the second language so as to fall within a set range.
그리고, 프로세서(130)는 해당 화자들의 제2 언어의 음성 데이터 중 적어도 일부가 재생되기 시작하는 시점부터 해당 화자들의 제2 언어의 음성 데이터 전부가 종료되는 시점까지의 시간에 맞도록, 해당 화자들의 (제1 언어의) 음성과 대응되는 장면의 원본 영상 데이터들의 재생 시간을 조정할 수 있다.In addition, the processor 130 corresponds to the time from the time when at least some of the voice data of the second language of the corresponding speakers starts to be played back to the time when all the voice data of the second language of the corresponding speakers is terminated. It is possible to adjust the reproduction time of the original image data of the scene corresponding to the audio (of the first language).
예를 들어, 원본 컨텐츠 내에서 화자들의 서로 중첩되는 발화의 총 재생 시간이 10초이고, 화자들의 발화가 번역된 음성의 총 재생 시간이 5초인 경우(본 예는 쉬운 설명을 위한 것이며 실제로는 10초 - 5초만큼 번역 전후 음성 간 재생 시간 차이가 크게 나지 않는 것이 바람직하다)를 가정할 수 있다. 이때, 만약 원본 컨텐츠 내에서 화자들의 발화 시작 시점 간의 시간 차이가 2초라면, 번역된 음성 간의 재생 시작 시점 차이는 1초가 될 수 있다.For example, if the total playback time of the speakers' overlapping utterances within the original content is 10 seconds, and the total playing time of the translated voices of the speakers' speech is 5 seconds (this example is for ease of explanation and is actually 10 seconds). Seconds-It is desirable that the difference in playback time between speech before and after translation by 5 seconds is not significantly different). In this case, if the time difference between the start time points of the speakers in the original content is 2 seconds, the difference between the start time points of reproduction between the translated voices may be 1 second.
한편, 프로세서(130)는 컨텐츠의 종류 또는 구간별 상황에 따라 재생 속도가 조정된 컨텐츠를 출력할 수도 있다.Meanwhile, the processor 130 may output content whose playback speed is adjusted according to the type of content or situation for each section.
일 실시 예로, 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정할 지 여부에 대한 사용자 명령에 따라, 프로세서(130)는 컨텐츠의 재생 속도를 조정할 수 있다. 구체적으로, 컨텐츠의 재생 속도를 번역된 자막/음성에 따라 조정하지 않도록 하는 사용자 명령이 입력되면(또는 컨텐츠의 재생 속도를 조정하라는 사용자 명령이 입력되지 않으면), 프로세서(130)는 제2 언어의 텍스트 데이터의 길이와 무관하게 컨텐츠의 영상 데이터의 재생 속도를 변경하지 않고 원본 그대로 유지할 수 있다.As an example, the processor 130 may adjust the content playback speed according to a user command for whether to adjust the content playback speed according to the length of the text data of the second language. Specifically, when a user command not to adjust the playback speed of the content according to the translated subtitle/voice is input (or if a user command to adjust the playback speed of the content is not input), the processor 130 Regardless of the length of the text data, the original content can be maintained without changing the playback speed of the video data.
프로세서(130)는, 원본 컨텐츠의 종류에 따라 컨텐츠의 재생 속도 조정을 달리할 수 있다. The processor 130 may adjust the reproduction speed of the content differently according to the type of the original content.
이때, 프로세서(130)는 먼저 원본 컨텐츠의 종류를 식별할 수 있다. 프로세서(130)는 컨텐츠에 포함된 영상 데이터 또는 음성 데이터를 분석하여 컨텐츠가 뉴스, 스포츠, 드라마 등의 컨텐츠 중 어떤 컨텐츠에 해당하는지 식별할 수 있다. In this case, the processor 130 may first identify the type of original content. The processor 130 may analyze image data or audio data included in the content to identify which content corresponds to a content such as news, sports, or drama.
또는, 프로세서(130)는 외부 장치로부터 수신되는 컨텐츠에 대한 정보를 통해 해당 컨텐츠의 종류를 식별할 수도 있다.Alternatively, the processor 130 may identify the type of the corresponding content through information on the content received from the external device.
그리고, 프로세서(130)는, 식별된 종류가 기설정된 제1 종류인 경우 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 해당 컨텐츠를 출력하지만, 식별된 종류가 기설정된 제2 종류인 경우 해당 컨텐츠를 원 재생 속도로 출력할 수 있다.In addition, when the identified type is a preset first type, the processor 130 outputs the content based on the playback speed corresponding to the length of the text data of the second language, but the identified type is a preset second type. If yes, the content can be output at the original playback speed.
예를 들어, 비록 번역된 음성의 재생 시간이 컨텐츠의 재생 시간과 다르더라도, 프로세서(130)는 스포츠나 드라마 컨텐츠에 대해서는 컨텐츠의 재생 시간을 조정하지 않을 수 있다. For example, even if the reproduction time of the translated voice is different from the reproduction time of the contents, the processor 130 may not adjust the reproduction time of the contents for sports or drama contents.
반면, 뉴스나 광고 컨텐츠에 대해서는, 번역된 음성의 재생 시간에 따라 컨텐츠의 재생 시간을 조정할 수 있다. 한편, 번역된 자막/음성에 따라 컨텐츠의 재생 속도가 조정될 수 있는 컨텐츠의 종류는 다양하게 기설정될 수 있으며, 본 예와 같이 뉴스나 광고 컨텐츠의 경우로만 한정되는 것은 아니다.On the other hand, for news or advertisement content, the content playback time can be adjusted according to the playback time of the translated voice. Meanwhile, the types of contents for which the reproduction speed of the contents can be adjusted according to the translated subtitles/voices may be preset in various ways, and the contents are not limited to news or advertisement contents as in this example.
프로세서(130)는 컨텐츠의 영상 데이터를 이미지 프레임 단위로 분석하는 한편, 해당 이미지 프레임이 포함되는 장면이 어떤 장면인지에 따라 재생 시간의 조정 여부를 달리할 수도 있다.The processor 130 may analyze the image data of the content in units of image frames, and may change whether or not to adjust the playback time according to a scene in which the image frame is included.
일 예로, 프로세서(130)는, 장면이 전환되기 직전 또는 직후의 이미지 프레임이 포함된 구간에 대해서는, 번역된 음성의 재생 시간에 따라 컨텐츠의 영상 데이터의 재생 시간을 조정하고, 반면 장면 전환과 무관한 구간에 대해서는, 설령 번역된 음성의 재생 시간이 원본 컨텐츠의 영상 데이터의 재생 시간과 다르더라도 컨텐츠의 재생 시간을 조정하지 않을 수도 있다.As an example, the processor 130 adjusts the reproduction time of the image data of the content according to the reproduction time of the translated voice for the section including the image frame immediately before or immediately after the scene change, but is irrelevant to the scene change. For one section, even if the reproduction time of the translated voice is different from the reproduction time of the image data of the original content, the reproduction time of the content may not be adjusted.
일 예로, 프로세서(130)는, 인물 또는 캐릭터가 나타나는 이미지 프레임이 포함된 구간에 대해서는 컨텐츠의 영상 데이터의 재생 시간을 조정하지 않거나 또는 원본의 재생 속도로부터 기설정된 범위 내에서만 재생 시간을 조정할 수도 있다. 인물이 등장하는 영상이 너무 빨라지거나 느려지는 경우 사용자가 느끼는 거부감을 방지하기 위함이다.For example, the processor 130 may not adjust the playback time of the image data of the content or may adjust the playback time only within a preset range from the playback speed of the original for a section including an image frame in which a person or character appears. . This is to prevent the user's feeling of rejection when the video in which the person appears is too fast or slow.
구체적으로, 프로세서(130)는 컨텐츠의 영상 데이터 중 컨텐츠의 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터에 대응되는(원본 컨텐츠 내에서 시간상 매칭되는) 영상 데이터에 등장 인물(사람, 캐릭터 등)이 포함되는지 식별할 수 있다. Specifically, the processor 130 is a character (person, character, etc.) in the image data corresponding to the audio data of the first language of the content or the subtitle data of the first language among the image data of the content (matched in time within the original content). ) Can be identified.
그리고, 프로세서(130)는 해당 영상 데이터에 등장 인물이 포함되는 경우, 설령 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터로부터 획득된 제2 언어의 텍스트 데이터의 길이가 해당 영상 데이터의 원 재생 속도와 대응되지 않는다고 할 지라도, 해당 영상 데이터를 원 재생 속도와 동일한 재생 속도로 출력할 수 있다.In addition, when the corresponding image data includes a character, the length of the text data of the second language acquired from the audio data of the first language or the caption data of the first language is the original reproduction of the corresponding image data. Even if it does not correspond to the speed, the video data can be output at the same reproduction speed as the original reproduction speed.
또는, 프로세서(130)는, 해당 영상 데이터의 원 재생 속도로부터 기설정된 범위 내에서만, (번역 결과인) 제2 언어의 텍스트 데이터의 길이에 따라 해당 영상 데이터의 재생 속도를 조정할 수도 있다.Alternatively, the processor 130 may adjust the reproduction speed of the corresponding image data according to the length of the text data of the second language (which is a translation result) within a preset range from the original reproduction speed of the corresponding image data.
도 3은 본 개시의 다양한 실시 예를 설명하기 위한 전자 장치(100)의 상세한 구성을 설명하기 위한 블록도이다.3 is a block diagram illustrating a detailed configuration of an electronic device 100 for describing various embodiments of the present disclosure.
도 3을 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 외에도 디스플레이(140), 오디오 출력부(150) 및 사용자 인터페이스(160) 중 적어도 하나를 더 포함할 수 있다.Referring to FIG. 3, the electronic device 100 further includes at least one of a display 140, an audio output unit 150, and a user interface 160 in addition to the communication interface 110, the memory 120, and the processor 130. Can include.
디스플레이(140)를 통해, 프로세서(130)는 원본 컨텐츠의 영상 데이터 및 자막 데이터를 시각적으로 출력할 수 있다. Through the display 140, the processor 130 may visually output image data and caption data of the original content.
또한, 프로세서(130)는 디스플레이(140)를 통해 재생 속도가 조정된 컨텐츠의 영상 데이터를 출력할 수도 있다. 이 경우, 번역된 제2 언어의 텍스트 데이터가 자막 형태로 함께 출력될 수도 있다.In addition, the processor 130 may output image data of content whose playback speed is adjusted through the display 140. In this case, the translated text data of the second language may be output together in the form of a caption.
이를 위해, 디스플레이(140)는 LCD(Liquid Crystal Display), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diodes), TOLED(Transparent OLED), Micro LED 등으로 구현될 수 있다. To this end, the display 140 may be implemented as a Liquid Crystal Display (LCD), a Plasma Display Panel (PDP), Organic Light Emitting Diodes (OLED), Transparent OLED (TOLED), Micro LED, or the like.
디스플레이(140)는, 사용자의 터치 조작을 감지할 수 있는 터치스크린 형태로 구현될 수 있으며, 접히거나 구부러질 수 있는 플렉서블 디스플레이로 구현될 수도 있다.The display 140 may be implemented in the form of a touch screen capable of sensing a user's touch manipulation, and may be implemented as a flexible display that can be folded or bent.
오디오 출력부(150)를 통해, 프로세서(130)는 원본 컨텐츠의 음성 데이터를 출력하거나 또는 제2 언어의 텍스트 데이터가 음성 형태로 변환된 번역 음성을 출력할 수 있다.Through the audio output unit 150, the processor 130 may output voice data of the original content or may output a translated voice obtained by converting text data of a second language into a voice form.
이를 위해, 오디오 출력부(150)는 스피커(도시되지 않음) 및/또는 헤드폰/이어폰 출력 단자(도시되지 않음)로 구현될 수 있다.To this end, the audio output unit 150 may be implemented as a speaker (not shown) and/or a headphone/earphone output terminal (not shown).
사용자 인터페이스(160)를 통해, 프로세서(130)는 번역 대상, 번역 제공 방식, 컨텐츠 재생 속도 조정 여부 등에 대한 사용자 명령을 수신할 수 있다.Through the user interface 160, the processor 130 may receive a user command regarding a translation target, a translation providing method, and whether to adjust a content reproduction speed.
구체적으로, 프로세서(130)는 번역 대상을 원본 컨텐츠의 자막으로 하는 자막 번역 모드와 번역 대상을 원본 컨텐츠의 음성으로 하는 음성 번역 모드 중 어느 하나를 선택하는 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.Specifically, the processor 130 receives, through the user interface 160, a user command for selecting one of a subtitle translation mode in which the translation target is a subtitle of the original content and a voice translation mode in which the translation target is a voice of the original content. can do.
또한, 프로세서(130)는 번역된 제2 언어의 텍스트 데이터를 자막 형태로 제공하는 자막 제공 모드, 음성 형태로 제공하는 음성 제공 모드, 두 가지 모두 제공하는 종합 제공 모드 중 어느 하나를 선택하는 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.In addition, the processor 130 provides a user command for selecting any one of a caption providing mode that provides text data of the translated second language in the form of a caption, a voice providing mode that provides a voice form, and a comprehensive providing mode that provides both. May be received through the user interface 160.
또한, 프로세서(130)는 현재 제공 중인 컨텐츠에 대하여, 번역된 자막/음성에 따라 컨텐츠의 영상 데이터의 재생 속도를 조정할 지 여부에 대한 사용자 명령을 사용자 인터페이스(160)를 통해 수신할 수 있다.In addition, the processor 130 may receive, through the user interface 160, a user command for adjusting the reproduction speed of the image data of the content according to the translated caption/audio for the currently provided content.
그 밖에도, 프로세서(130)는 사용자 인터페이스(160)를 통해 원본 컨텐츠에 포함된 음성/자막에 대한 번역 서비스를 제공할지 여부에 대한 사용자 명령을 수신하여, 번역 서비스를 제공하라는 사용자 명령이 수신된 때에만 원본 컨텐츠의 음성/자막을 번역한 음성/자막을 제공할 수도 있다.In addition, the processor 130 receives a user command on whether to provide a translation service for voice/subtitles included in the original content through the user interface 160, and when a user command to provide a translation service is received. However, it is also possible to provide a voice/subtitle translated from the voice/subtitle of the original content.
이를 위해, 사용자 인터페이스(160)는 하나 이상의 버튼, 키보드, 마우스 등을 포함할 수 있다. 또한, 사용자 인터페이스(160)는 디스플레이(140)와 함께 구현된 터치 패널 또는 별도의 터치 패드(도시되지 않음)를 포함할 수 있다. 사용자 인터페이스(160)는 사용자의 명령 또는 정보를 음성으로 입력 받기 위해 마이크를 포함할 수도 있고, 사용자의 명령 또는 정보를 모션 형태로 인식하기 위한 카메라를 포함할 수도 있다.To this end, the user interface 160 may include one or more buttons, a keyboard, and a mouse. In addition, the user interface 160 may include a touch panel implemented together with the display 140 or a separate touch pad (not shown). The user interface 160 may include a microphone to receive a user's command or information by voice, or may include a camera for recognizing a user's command or information in a motion form.
도 4는 본 개시의 일 실시 예에 따른 전자 장치(100)의 소프트웨어 구조를 설명하기 위한 블록도이다.4 is a block diagram illustrating a software structure of an electronic device 100 according to an embodiment of the present disclosure.
도 4를 참조하면, 전자 장치(100)는 문자 인식 모듈(410), STT 모듈(420), 번역 모듈(430), 자막 생성 모듈(440), TTS 모듈(450), 컨텐츠 재생 모듈(460) 중 적어도 하나를 포함할 수 있다.Referring to FIG. 4, the electronic device 100 includes a character recognition module 410, an STT module 420, a translation module 430, a caption generation module 440, a TTS module 450, and a content playback module 460. It may include at least one of.
프로세서(130)는 획득된 컨텐츠에 별도의 자막 데이터가 없는 경우, 문자 인식 모듈(410)을 이용하여 컨텐츠의 영상 데이터 내 이미지로부터 문자를 인식할 수 있다. 그리고, 인식된 문자를 통해 원본 컨텐츠의 자막 데이터를 생성한 뒤 생성된 자막 데이터를 제1 언어의 텍스트 데이터로 식별할 수 있다.If there is no separate caption data in the acquired content, the processor 130 may recognize a character from an image in the image data of the content using the character recognition module 410. In addition, after generating caption data of the original content through the recognized characters, the generated caption data may be identified as text data of the first language.
문자 인식 모듈(410)은 OCR(Optical Character Recognition), 패턴 인식 또는 문자를 인식하도록 학습된 CNN(Convolutional Neural Network) 등을 통해 구현될 수 있다.The character recognition module 410 may be implemented through Optical Character Recognition (OCR), pattern recognition, or a Convolutional Neural Network (CNN) that is learned to recognize characters.
프로세서(130)는 획득된 컨텐츠의 음성 데이터를 번역의 대상으로 하는 경우, STT 모듈(420)를 통해 음성 데이터를 음성 인식할 수 있다. STT 모듈(420)은 음향 모델(Acoustic Model) 및 언어 모델(Language Model)을 포함할 수 있다. 음향 모델은 음소 또는 단어에 대응되는 음성 신호의 특징에 대한 정보를 포함하고, 언어 모델은 하나 이상의 음소 또는 단어의 배열 순서 및 관계에 대응되는 정보를 포함할 수 있다.The processor 130 may recognize the voice data through the STT module 420 when the obtained voice data of the content is to be translated. STT module 420 may include an acoustic model (Acoustic Model) and a language model (Language Model). The acoustic model may include information on characteristics of a speech signal corresponding to a phoneme or word, and the language model may include information corresponding to an arrangement order and relationship of one or more phonemes or words.
프로세서(130)는 입력된 음성 신호로부터 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 주파수 대역별 에너지(Filter Bank Energy) 등 다양한 특징을 추출하는 한편, 이를 음향 모델과 비교하여 음성 신호에 포함된 음소를 인식할 수 있다. Processor 130 is a linear predictive coefficient (Linear Predictive Coefficient), Cepstrum (Cepstrum), Mel Frequency Cepstral Coefficient (MFCC), frequency band energy (Filter Bank Energy), etc. from the input speech signal. While extracting various features, it is possible to recognize a phoneme included in a speech signal by comparing it with an acoustic model.
그리고, 프로세서(130)는 인식된 음소들의 언어적 순서 관계를 언어 모델을 이용하여 모델링한 결과, 단어 내지는 문장에 대응되는 텍스트를 획득하여 제1 언어의 텍스트 데이터로 식별할 수 있다. 이 경우, 프로세서(130)는 획득한 텍스트를 STT 모듈과 관련하여 기저장된 발음사전과 비교하여 수정/확정한 뒤 제1 언어의 텍스트 데이터로 식별할 수도 있다.In addition, as a result of modeling the linguistic order relationship of the recognized phonemes using the language model, the processor 130 may obtain text corresponding to a word or sentence and identify it as text data of the first language. In this case, the processor 130 may compare the acquired text with a pronunciation dictionary stored in connection with the STT module, correct/determine it, and then identify it as text data of the first language.
한편, 획득된 컨텐츠에 자막 데이터가 있고, 해당 자막 데이터가 번역의 대상인 경우, 프로세서(130)는 문자 인식 모듈(410) 및 STT 모듈(420)를 이용하지 않고 해당 자막 데이터를 곧바로 제1 언어의 텍스트 데이터로 식별할 수 있다.On the other hand, if there is subtitle data in the acquired content, and the corresponding subtitle data is a target for translation, the processor 130 directly converts the corresponding subtitle data into the first language without using the character recognition module 410 and the STT module 420. Can be identified by text data.
프로세서(130)는 식별된 제1 언어의 텍스트 데이터를 번역 모듈(430)을 통해 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다. 이때, 번역 모듈(430)은 통계적 기계 번역(Statistical Machine Translation) 또는 인공신경망 기반 기계 번역(Neural Machine Translation)을 이용할 수 있으나 이에 한정되는 것은 아니다.The processor 130 may obtain text data of the second language by translating the identified text data of the first language through the translation module 430. In this case, the translation module 430 may use statistical machine translation or neural machine translation, but is not limited thereto.
제2 언어의 텍스트 데이터가 자막 형태로 제공되는 경우, 프로세서(130)는 자막 생성 모듈(440)을 통해 제2 언어의 텍스트 데이터로 구성된 자막을 생성할 수 있다. 이 경우, 프로세서(130)는 자막 생성 모듈(440)을 통해 기설정된 글씨체, 사이즈로 제2 언어의 텍스트 데이터를 수정하거나 또는 제2 언어의 텍스트 데이터에 포함된 오기를 검출할 수도 있다.When text data of the second language is provided in the form of a caption, the processor 130 may generate a caption composed of the text data of the second language through the caption generation module 440. In this case, the processor 130 may modify text data of the second language with a preset font and size through the caption generation module 440 or may detect errors included in the text data of the second language.
제2 언어의 텍스트 데이터가 음성 형태로 제공되는 경우, 프로세서(130)는 TTS 모듈(450)을 통해 제2 언어의 텍스트 데이터를 제2 언어의 음성 데이터로 변환할 수 있다. 이 경우, 프로세서(130)는 TTS 모듈(450)과 관련하여 기설정된 목소리의 음성이 되도록 제2 언어의 텍스트 데이터를 변환할 수 있다.When text data of a second language is provided in an audio form, the processor 130 may convert text data of the second language into voice data of the second language through the TTS module 450. In this case, the processor 130 may convert text data of the second language to become a voice of a voice preset in relation to the TTS module 450.
프로세서(130)는 TTS 모듈(450)과 관련하여 기 저장된 다양한 특성의 목소리들 중, 원본 컨텐츠 영상 속 인물의 나이/성별 또는 원본 컨텐츠의 음성에 맞는 나이/성별 등에 적합한 목소리를 식별하고, 식별된 목소리에 맞는 제2 언어의 음성 데이터를 획득할 수도 있다.The processor 130 identifies a voice suitable for the age/gender of a person in the original content image or an age/gender suitable for the voice of the original content, among voices of various characteristics previously stored in relation to the TTS module 450, and It is also possible to obtain voice data of a second language suitable for the voice.
프로세서(130)는 컨텐츠 재생 모듈(460)을 통해 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정할 수 있다. 이때, 프로세서(130)는 컨텐츠 재생 모듈(460)을 통해 새로운 이미지 프레임을 추가하거나 또는 기존의 이미지 프레임들 중 적어도 하나를 제외할 수 있다. 그리고, 재생 속도가 조정된 컨텐츠를 영상 데이터를 번역된 자막/음성과 함께 출력할 수 있다.The processor 130 may adjust a content playback speed according to the length of text data of the second language through the content playback module 460. In this case, the processor 130 may add a new image frame or exclude at least one of the existing image frames through the content reproduction module 460. In addition, the content for which the playback speed is adjusted may be outputted together with the translated subtitles/audio data.
이하 도 5a 및 도 5b는 원본 컨텐츠의 음성을 번역하여(음성 번역 모드) 음성 형태로 제공하는(음성 제공 모드) 경우를 가정한 것으로, 도 5a는 번역된 음성이 원본 음성보다 긴 경우 컨텐츠의 출력 과정을 설명하기 위한 도면이고, 도 5b는 번역된 음성이 원본 음성보다 짧은 경우 컨텐츠의 출력 과정을 설명하기 위한 도면이다. Hereinafter, FIGS. 5A and 5B assume a case in which the voice of the original content is translated (voice translation mode) and provided in the form of a voice (voice providing mode).FIG. 5A shows the output of the content when the translated voice is longer than the original voice. A diagram for explaining a process, and FIG. 5B is a diagram for explaining a process of outputting content when the translated voice is shorter than the original voice.
도 5a를 참조하면, 원본 컨텐츠의 특정 구간이 원본 영상(510)과 원본 음성(520)으로 구분되어 도시되었다. 이때, 원본 음성은 “This is one way for an airline to increase its name recognition: misspell your own name.”이라는 영어 텍스트에 대응되는 것이다.Referring to FIG. 5A, a specific section of the original content is shown as being divided into an original image 510 and an original audio 520. Here, the original voice corresponds to the English text “This is one way for an airline to increase its name recognition: misspell your own name.”
도 5a를 참조하면, 전자 장치(100)는 상술한 영어 텍스트를 “이것은 항공사가 이름에 대한 인식을 높이는 한 가지 방법이다: 자신의 이름을 잘 못 쓰는 것이다.”라는 한국어 텍스트로 번역한 뒤, 한국어 텍스트를 번역 음성(520')으로 변환할 수 있다. 이때, 번역 음성(520')은 원본 음성(520) 및 원본 영상(510)에 맞게 설정된 남성의 목소리일 수 있다.Referring to FIG. 5A, the electronic device 100 translates the above-described English text into Korean text, “This is one way for airlines to increase their recognition of names: incorrectly writing their own names.” The Korean text may be converted into a translated voice 520'. In this case, the translated voice 520 ′ may be a male voice set to fit the original voice 520 and the original image 510.
도 5a를 참조하면, 번역 음성(520')의 재생 시간은 2분 36초로 원본 음성(520)의 재생 시간인 1분 48초보다 48초만큼 길다는 것을 확인할 수 있다. 그 결과, 전자 장치(100)는 원본 영상(510)의 재생 속도를 느리게 하여 그 재생 시간을 번역 음성(520')의 재생 시간만큼 늘린 수정 영상(510')을, 번역 음성(520')과 함께 출력할 수 있다.Referring to FIG. 5A, it can be seen that the playback time of the translated voice 520' is 2 minutes 36 seconds, which is 48 seconds longer than the playback time of the original voice 520, 1 minute 48 seconds. As a result, the electronic device 100 slows the reproduction speed of the original image 510 and increases the reproduction time by the reproduction time of the translated voice 520'. Can be printed together.
도 5b를 참조하면, 원본 컨텐츠의 특정 구간이 원본 영상(560)과 원본 음성(570)으로 구분되어 도시되었다. 이때, 원본 음성(570)은 “But painters apparently didn't have an F at their fingertips, resulting in Cathay Pacific instead of Pacific.”이라는 영어 텍스트에 대응되는 것이다.Referring to FIG. 5B, a specific section of the original content is shown divided into an original image 560 and an original audio 570. At this time, the original voice 570 corresponds to the English text "But painters apparently didn't have an F at their fingertips, resulting in Cathay Pacific instead of Pacific."
도 5b를 참조하면, 전자 장치(100)는 상술한 영어 텍스트를 “그러나 화가들은 분명히 F를 손가락 끝에 달지 않았고, 그 결과 태평양 대신 캐세이 파치옥이 탄생했다.”라는 한국어 텍스트로 번역한 뒤, 한국어 텍스트를 번역 음성(570')으로 변환할 수 있다. 이때, 번역 음성(570')은 원본 음성(570) 및 원본 영상(560)에 맞게 설정된 남성의 목소리일 수 있다.Referring to FIG. 5B, the electronic device 100 translates the above-described English text into Korean text “However, painters clearly did not put an F on their fingertips, and as a result, Cathay Pachiok was born instead of Pacific Ocean.” Can be converted into translated voice 570'. In this case, the translated voice 570 ′ may be a male voice set to fit the original voice 570 and the original image 560.
도 5b를 참조하면, 번역 음성(570')의 재생 시간은 1분 40초로 원본 음성(570)의 재생 시간인 2분 10초보다 30초만큼 짧다는 것을 확인할 수 있다. 그 결과, 전자 장치(100)는 원본 영상(560)의 재생 속도를 빠르게 하여 그 재생 시간을 번역 음성(570')의 재생 시간만큼 줄인 수정 영상(560')을, 번역 음성(570')과 함께 출력할 수 있다.Referring to FIG. 5B, it can be seen that the playback time of the translated voice 570' is 1 minute and 40 seconds, which is 30 seconds shorter than the playback time of the original voice 570, which is 2 minutes and 10 seconds. As a result, the electronic device 100 speeds up the reproduction speed of the original image 560 and reduces the reproduction time by the reproduction time of the translated voice 570 ′. Can be printed together.
한편, 상술한 전자 장치(100)의 동작들은, 전자 장치(100) 단독이 아니라 전자 장치(100) 및 하나 이상의 외부 장치를 통해 수행할 수도 있다.Meanwhile, the operations of the electronic device 100 described above may be performed through the electronic device 100 and one or more external devices, not the electronic device 100 alone.
예를 들어, 전자 장치(100)가 TV 또는 스마트폰인 경우, 제1 언어의 텍스트 데이터가 전자 장치(100)에서 획득된 뒤 서버인 외부 장치에서 제1 언어의 텍스트 데이터에 대한 번역이 수행될 수 있다. 이 경우, 외부 장치로부터 제2 언어의 텍스트 데이터가 수신되면, 전자 장치(100)는 제2 언어의 텍스트 데이터의 길이에 따라 컨텐츠의 재생 속도를 조정하는 한편, 제2 언어의 텍스트 데이터를 음성/자막 형태로 변환하여 조정된 컨텐츠와 함께 출력할 수 있다.For example, when the electronic device 100 is a TV or a smartphone, text data of the first language is obtained from the electronic device 100 and then the text data of the first language is translated by an external device that is a server. I can. In this case, when text data in the second language is received from the external device, the electronic device 100 adjusts the playback speed of the content according to the length of the text data in the second language, while voice/text data in the second language It can be converted into a subtitle format and output together with the adjusted content.
다른 예로, 전자 장치(100)가 셋탑박스인 경우, 전자 장치(100)가 외부로부터 수신된 컨텐츠로부터 제1 언어의 텍스트 데이터를 획득하고, 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득한 뒤, 제2 언어의 텍스트 데이터에 따라 재생 속도가 조정된 컨텐츠를 TV인 외부 장치로 전송할 수도 있다. 또한, 전자 장치(100)는 제2 언어의 텍스트 데이터를 음성/자막 형태로 변환하고 해당 데이터를 TV인 외부 장치로 전송할 수 있다. 이 경우, 조정된 컨텐츠 및 제2 언어의 텍스트 데이터가 변환된 자막/음성이 TV인 외부 장치를 통해 출력될 수 있다.As another example, when the electronic device 100 is a set-top box, the electronic device 100 obtains text data in a first language from content received from outside, and translates text data in the first language to provide text in a second language. After acquiring the data, the content whose playback speed is adjusted according to the text data of the second language may be transmitted to an external device that is a TV. In addition, the electronic device 100 may convert text data in a second language into an audio/subtitle format and transmit the data to an external device that is a TV. In this case, the adjusted content and the subtitle/audio converted from the text data of the second language may be output through an external device that is a TV.
다른 예로, 전자 장치(100)가 서버인 경우, 전자 장치(100)는 컨텐츠로부터 제1 텍스트 데이터를 획득하고, 제1 텍스트 데이터를 번역하여 제2 텍스트 데이터를 획득하며, 제2 텍스트 데이터의 길이에 따라 재생 속도가 조정된 컨텐츠를 제2언어의 텍스트 데이터가 변환된 자막/음성에 대한 데이터와 함께 TV 또는 스마트폰인 외부 장치로 전송할 수도 있다. 이 경우, 조정된 컨텐츠 및 제2 언어의 텍스트 데이터가 변환된 자막/음성이 TV 또는 스마트폰인 외부 장치를 통해 출력될 수 있다.As another example, when the electronic device 100 is a server, the electronic device 100 obtains first text data from content, translates the first text data to obtain second text data, and the length of the second text data Accordingly, the content whose playback speed is adjusted may be transmitted to an external device such as a TV or a smart phone together with data on subtitles/voices converted from text data in the second language. In this case, the adjusted content and the subtitle/audio converted from the text data of the second language may be output through an external device such as a TV or a smartphone.
이 밖에도 전자 장치(100)가 외부 장치와 함께 동작하는 다양한 실시 예들이 가능하며, 상술한 예들에 한정되지 않는다.In addition, various embodiments in which the electronic device 100 operates together with an external device are possible, and are not limited to the above-described examples.
이하 도 6 내지 도 9를 통해서는 본 개시에 따른 전자 장치의 제어 방법을 설명한다.Hereinafter, a method of controlling an electronic device according to the present disclosure will be described with reference to FIGS. 6 to 9.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
도 6을 참조하면, 본 제어 방법은 입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득할 수 있다(S610).Referring to FIG. 6, the control method may acquire text data of a second language based on voice data of a first language or subtitle data of a first language included in the input content (S610 ).
이 경우, 컨텐츠의 제1 구간에 대응되는 제1 언어의 음성 데이터 또는 제1 구간에 대응되는 제1 언어의 자막 데이터를 기초로 제1 언어의 텍스트 데이터를 획득할 수 있다. 그리고, 획득된 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 텍스트 데이터를 획득할 수 있다.In this case, text data of the first language may be obtained based on voice data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section. In addition, text data of the second language may be obtained by translating the obtained text data of the first language.
이때, 본 제어 방법은, 제1 언어의 텍스트 데이터의 길이와 제2 언어의 텍스트 데이터의 길이 차이를 판단한 뒤, 판단된 차이가 임계 값 이상이면, 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 제2 언어의 다른 텍스트 데이터를 획득할 수도 있다.In this case, the present control method determines a difference between the length of the text data of the first language and the length of the text data of the second language, and if the determined difference is more than a threshold value, the obtained text data of the first language is translated again. It is also possible to obtain other text data of the second language.
그리고, 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 컨텐츠를 출력할 수 있다(S620). 구체적으로는 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도로 재생 속도가 조정된 컨텐츠의 영상 데이터 및/또는 음성 데이터를 출력할 수 있다.In addition, content may be output based on a reproduction speed corresponding to the length of the acquired text data of the second language (S620). Specifically, video data and/or audio data of content whose playback speed is adjusted at a playback rate corresponding to the length of text data of the second language may be output.
이때, 입력된 사용자 명령 또는 기설정된 조건에 기초하여, 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력할 수 있다. 제2 언어의 텍스트 데이터가 음성/자막 형태로 출력되는 경우, 재생 속도가 조정된 컨텐츠와 함께 출력되어 '번역된 컨텐츠'가 제공될 수 있다.In this case, based on an input user command or a preset condition, text data of the second language may be output in the form of a caption, or voice data converted from the text data of the second language may be output in the form of an audio. When the text data of the second language is output in the form of an audio/subtitle, the'translated content' may be provided by being output together with the content whose playback speed is adjusted.
컨텐츠의 재생 속도를 조정하는 구체적인 예로, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 번역 대상인 원본 컨텐츠의 음성/자막(제1 언어의 텍스트 데이터와 매칭됨)이 포함되는 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다. 이 경우, 제2 언어의 텍스트 데이터를 자막 형태로 컨텐츠와 함께 출력할 수 있다.As a specific example of adjusting the playback speed of the content, the time corresponding to the length of the text data in the second language corresponds to the first section in which the voice/subtitle of the original content to be translated (matched with the text data in the first language) is included. When the time is longer than the original playback speed, the content is output at a slower playback speed than the original playback speed, and if the time corresponding to the length of the text data of the second language is shorter than the time corresponding to the first section, the content is displayed at the original playback speed. You can output at a faster playback speed. In this case, text data of the second language may be output together with the content in the form of a caption.
구체적인 다른 예로, 먼저 제2 언어의 텍스트 데이터를 변환하여 제2 언어의 음성 데이터를 획득할 수 있다. 예를 들어 '안녕하세요'라는 문자 텍스트의 데이터를 “안녕하세요”라는 음성에 대한 정보를 포함하는 오디오 신호로 변환할 수 있다.As another specific example, first, voice data of the second language may be obtained by converting text data of the second language. For example, data from textual text of'Hello' can be converted into an audio signal containing information about the voice of'Hello'.
이 경우, 원본 컨텐츠에 포함된 영상 데이터 또는 원본 컨텐츠에 포함된 제1 언어의 음성 데이터를 기초로 원본 컨텐츠 내 화자의 특성(나이, 성별, 감정 등)을 판단하고, 제2 언어의 텍스트 데이터를 판단된 화자의 특성에 대응되는 음성 데이터로 변환할 수 있다. In this case, based on the image data included in the original content or the voice data of the first language included in the original content, the characteristics of the speaker (age, gender, emotion, etc.) in the original content are determined, and text data of the second language is determined. It can be converted into voice data corresponding to the determined speaker's characteristics.
그리고, 제2 언어의 음성 데이터의 재생 시간이 번역 대상인 원본 컨텐츠의 음성/자막(제1 언어의 텍스트 데이터와 매칭됨)이 포함되는 제1 구간에 대응되는 시간보다 긴 경우, 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 제2 언어의 음성 데이터의 재생 시간이 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력할 수 있다. 이 경우, 제2 언어의 음성 데이터에 대응되는 음성을 컨텐츠와 함께 출력할 수 있다.And, if the playback time of the voice data of the second language is longer than the time corresponding to the first section in which the voice/subtitle of the original content to be translated (matched with the text data of the first language) is included, the original playback speed of the content When the reproduction time of the voice data of the second language is shorter than the time corresponding to the first section, the content may be output at a faster reproduction speed than the original reproduction speed. In this case, a voice corresponding to voice data of the second language may be output together with the content.
한편, 본 제어 방법은, 컨텐츠의 종류를 식별할 수 있다. 그리고, 식별된 종류가 기설정된 제1 종류인 경우 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 컨텐츠를 출력하고, 식별된 종류가 기설정된 제2 종류인 경우 컨텐츠를 원 재생 속도로 출력할 수 있다.On the other hand, the present control method can identify the type of content. And, if the identified type is a preset first type, the content is output based on the playback speed corresponding to the length of the acquired text data of the second language, and when the identified type is a preset second type, the content is It can be output at the playback speed.
또한, 본 제어 방법은, 제1 언어의 음성 데이터 또는 제1 언어의 자막 데이터에 대응되는 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별할 수 있다. 식별 결과 이미지 데이터에 캐릭터가 포함되는 경우, 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력할 수 있다. 즉, 원 재생 속도로부터 기설정된 범위 내에서만, 영상 데이터의 재생 속도를 제2 언어의 텍스트 데이터에 따라 조정할 수 있다.In addition, the present control method may identify whether a character (appearance person) is included in the image data of the content corresponding to the audio data of the first language or the caption data of the first language. When a character is included in the identification result image data, the content may be output at a playback speed within a preset range from the original playback speed. That is, only within a preset range from the original reproduction speed, the reproduction speed of the image data can be adjusted according to the text data of the second language.
도 7은 원본 컨텐츠로부터 번역된 텍스트 데이터를 획득하기 위한 일 예를 설명하기 위한 알고리즘이다. 도 7의 과정은 도 6의 S610 단계의 구체적인 일 예에 해당한다.7 is an algorithm for explaining an example for obtaining translated text data from original content. The process of FIG. 7 corresponds to a specific example of step S610 of FIG. 6.
도 7을 참조하면, 먼저 원본 컨텐츠의 영상 데이터와 음성 데이터를 분리할 수 있다(S710). 이때, 자막 데이터 및/또는 메타 데이터가 추가로 포함된 경우 본 데이터 역시 분리할 수 있다.Referring to FIG. 7, first, image data and audio data of original content may be separated (S710). In this case, when caption data and/or metadata are additionally included, the present data may also be separated.
그리고, 원본 컨텐츠에 자막이 있는지 식별할 수 있다(S720). 구체적으로, 원본 컨텐츠의 자막 데이터가 별도로 존재하는지 또는 영상 데이터로부터 자막이 추출되는지 식별할 수 있다(S720).In addition, it is possible to identify whether there is a subtitle in the original content (S720). Specifically, it may be identified whether subtitle data of the original content exists separately or whether subtitles are extracted from the image data (S720).
자막이 있는 경우(S720 - Y), 자막에 대응되는 텍스트를 식별한 뒤 식별된 텍스트를 번역할 수 있다(S740).If there is a subtitle (S720-Y), after identifying the text corresponding to the subtitle, the identified text may be translated (S740).
반면, 자막이 없는 경우(S720 - N), 음성 데이터에 포함된 음성의 화자가 1명인지 판단할 수 있다(S750). On the other hand, if there is no caption (S720-N), it may be determined whether the speaker of the voice included in the voice data is one (S750).
화자가 1명이라면(S750 - Y), 곧바로 해당 음성에 대한 음성 인식을 수행하고(S760), 음성 인식 결과를 번역할 수 있다(S740). 다만, 화자가 1명이 아니라면(S770 - N), 화자 별로 음성 데이터를 분리한(S770) 뒤 화자 별 음성을 인식하여(S760) 각각 번역할 수 있다(S740).If there is only one speaker (S750-Y), speech recognition for the corresponding voice is immediately performed (S760), and the result of the speech recognition may be translated (S740). However, if there is not one speaker (S770-N), after separating the voice data for each speaker (S770), the voices for each speaker may be recognized (S760) and translated (S740).
도 8은 번역된 텍스트를 음성으로 출력하는 경우, 해당 음성의 길이에 기초하여 해당 음성을 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다. 도 8은 도 6의 S620 단계의 구체적인 일 예일 수 있다.FIG. 8 is an algorithm for explaining an example of outputting a corresponding voice along with content based on a length of a corresponding voice when the translated text is output as a voice. FIG. 8 may be a specific example of operation S620 of FIG. 6.
도 8을 참조하면, 도 6의 S610 단계 등을 거쳐 번역된 텍스트가 획득된(S801) 상태에서, 번역 텍스트와 (번역 전)원본 텍스트 간 길이 차가 임계 값 이상인지 식별할 수 있다(S810). 만약, 임계 값 이상이라면(S810 - Y) 임계 값 미만(S810 - N)이 될 때까지 종전의 번역 텍스트와 동일한 언어의 다른 번역 텍스트를 획득할 수 있다(S820).Referring to FIG. 8, in a state in which the translated text is obtained through step S610 of FIG. 6 or the like (S801), it may be identified whether the length difference between the translated text and the original text (before translation) is greater than or equal to a threshold value (S810). If it is greater than or equal to the threshold value (S810-Y), another translated text of the same language as the previous translation text may be obtained until it becomes less than the threshold value (S810 -N) (S820).
번역 텍스트와 원본 텍스트의 길이 차가 임계 값 미만인 경우(S810 - N), 번역 텍스트를 음성으로 변환할 수 있다(S830).When the length difference between the translated text and the original text is less than the threshold value (S810-N), the translated text may be converted to speech (S830).
그리고, 변환된 음성의 재생 시간이 원본 컨텐츠의 음성의 재생 시간보다 길다면(S840 - Y), 원본 영상의 재생 속도를 느리게 수정하고(S850), 변환된 음성의 재생 시간이 원본 컨텐츠의 음성의 재생 시간보다 짧다면(S840 - N, S870 - Y), 원본 영상의 재생 속도를 빠르게 수정할 수 있다(S880). 그리고, 재생 속도가 수정된 영상을 변환된(번역된) 음성과 함께 출력할 수 있다(S860).And, if the playback time of the converted voice is longer than the playback time of the original content (S840-Y), the playback speed of the original video is modified slowly (S850), and the playback time of the converted voice is the playback of the original content. If it is shorter than the time (S840-N, S870-Y), the playback speed of the original video can be quickly modified (S880). In addition, the video whose playback speed is modified may be output together with the converted (translated) voice (S860).
반면, 변환된 음성의 재생 시간이 원본 음성의 재생 시간과 동일한 경우(S840 - N, S870 - N), 원본 영상을 그대로 번역 음성과 함께 출력할 수 있다(S890).On the other hand, when the reproduction time of the converted voice is the same as the reproduction time of the original voice (S840-N and S870-N), the original image may be output as it is together with the translated voice (S890).
도 9는 번역된 텍스트를 자막으로 출력하는 경우, 번역된 텍스트의 길이에 기초하여 번역된 텍스트를 컨텐츠와 함께 출력하는 일 예를 설명하기 위한 알고리즘이다. 도 9 역시 도 6의 S620 단계의 구체적인 일 예일 수 있다.9 is an algorithm for explaining an example of outputting the translated text along with content based on the length of the translated text when outputting the translated text as a subtitle. 9 may also be a specific example of step S620 of FIG. 6.
도 9를 참조하면, S910 및 S920 단계는 도 8의 S810 및 S820 단계와 동일할 수 있다. 다만, 도 9의 경우 도 8과 다르게 번역된 음성이 아닌 번역된 텍스트(자막)를 제공하기 때문에, 번역된 텍스트를 음성으로 변환하는 과정(S830)은 포함하지 않을 수 있다.Referring to FIG. 9, steps S910 and S920 may be the same as steps S810 and S820 of FIG. 8. However, in the case of FIG. 9, differently from FIG. 8, since translated text (subtitles) is provided instead of the translated voice, the process of converting the translated text into voice (S830) may not be included.
도 9를 참조하면, S910(S920 단계도 거칠 수 있음) 단계를 거친 후(S910 - N), 번역 텍스트가 원본 텍스트보다 길다면(S930 - Y), 원본 영상의 재생 속도를 느리게 수정하고(S940), 번역 텍스트가 원본 텍스트보다 짧다면(S930 - N, S960 - Y), 원본 영상의 재생 속도를 빠르게 수정할 수 있다(S970). 그리고, 재생 속도가 수정된 영상을 변환된(번역된) 음성과 함께 출력할 수 있다(S950). 이때, 원본 컨텐츠의 음성 역시 함께 출력할 수 있는데, 이 경우 원본 컨텐츠의 음성 데이터의 재생 속도를, 사용자 명령 또는 기설정된 조건에 따라 수정할 수도 수정하지 않을 수도 있다.Referring to FIG. 9, after going through step S910 (step S920 may also go through) (S910-N), if the translated text is longer than the original text (S930-Y), the playback speed of the original video is modified slowly (S940). , If the translated text is shorter than the original text (S930-N, S960-Y), the playback speed of the original image can be quickly modified (S970). In addition, the video whose playback speed is modified may be output together with the converted (translated) voice (S950). In this case, the voice of the original content may also be output. In this case, the playback speed of the voice data of the original content may be modified or not modified according to a user command or a preset condition.
반면, 번역 텍스트와 원본 텍스트의 길이가 동일한 경우(S930 - N, S960 - N), 원본 영상을 그대로 번역 텍스트와 함께 출력할 수 있다(S890). 이때, 원본 음성도 함께 출력할 수 있다.On the other hand, if the length of the translated text and the original text are the same (S930-N, S960-N), the original image may be output as it is together with the translated text (S890). At this time, the original voice can also be output.
한편, 도 8과 도 9 각각을 통해서는, 번역 음성 또는 번역 테스트를 제공하는 경우를 구분하여 설명하였으나, 번역 음성과 번역 텍스트가 동시에 제공될 수도 있음은 물론이다. 이 경우, 번역 음성의 재생 시간에 따라 컨텐츠의 영상의 재생 속도를 조정하는 것이 바람직하지만, 반드시 이에 한정되는 것은 아니다.On the other hand, through each of FIGS. 8 and 9, a case of providing a translated voice or a translation test has been described separately, but it is of course possible that a translated voice and a translated text may be simultaneously provided. In this case, although it is desirable to adjust the playback speed of the content video according to the playback time of the translated audio, it is not necessarily limited thereto.
이상 도 6 내지 도 9를 통해 설명된 전자 장치의 제어 방법은, 도 2 및 도 3을 통해 도시 및 설명한 전자 장치(100)를 통해 수행될 수 있다. 또는, 전자 장치(100) 및 하나 이상의 외부 장치를 포함하는 시스템을 통해 수행될 수도 있다.The control method of the electronic device described above with reference to FIGS. 6 to 9 may be performed by the electronic device 100 illustrated and described with reference to FIGS. 2 and 3. Alternatively, it may be performed through a system including the electronic device 100 and one or more external devices.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. Meanwhile, the various embodiments described above may be implemented in a recording medium that can be read by a computer or a similar device by using software, hardware, or a combination thereof.
하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. According to hardware implementation, the embodiments described in the present disclosure include Application Specific Integrated Circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs). ), processor (processors), controllers (controllers), micro-controllers (micro-controllers), microprocessors (microprocessors), may be implemented using at least one of the electrical unit (unit) for performing other functions.
일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(130) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.In some cases, the embodiments described herein may be implemented by the processor 130 itself. According to software implementation, embodiments such as procedures and functions described herein may be implemented as separate software modules. Each of the above-described software modules may perform one or more functions and operations described herein.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다. Meanwhile, computer instructions for performing a processing operation in the electronic device 100 according to various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium. I can. When a computer instruction stored in such a non-transitory computer-readable medium is executed by a processor of a specific device, the above-described specific device performs a processing operation in the electronic device 100 according to the various embodiments described above.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.The non-transitory computer-readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short moment, such as registers, caches, and memory. Specific examples of non-transitory computer-readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In the above, preferred embodiments of the present disclosure have been illustrated and described, but the present disclosure is not limited to the specific embodiments described above, and is generally in the technical field belonging to the disclosure without departing from the gist of the disclosure claimed in the claims. Various modifications may be possible by those skilled in the art, and these modifications should not be individually understood from the technical idea or perspective of the present disclosure.

Claims (15)

  1. 전자 장치에 있어서, 회로를 포함하는 통신 인터페이스;An electronic device, comprising: a communication interface including circuitry;
    적어도 하나의 인스트럭션(instruction)을 포함하는 메모리; 및A memory including at least one instruction; And
    상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,A processor connected to the communication interface and the memory to control the electronic device; and
    상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,The processor, by executing the at least one instruction,
    상기 통신 인터페이스를 통해 컨텐츠를 수신하고, Receiving content through the communication interface,
    상기 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하고,Acquiring text data of a second language based on voice data of a first language or subtitle data of the first language included in the content,
    상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는, 전자 장치.The electronic device that outputs the content based on a reproduction speed corresponding to the length of the acquired text data of the second language.
  2. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor,
    상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하고,Acquiring text data of the first language based on voice data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section,
    상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는, 전자 장치.Translating the obtained text data of the first language to obtain text data of the second language.
  3. 제2항에 있어서,The method of claim 2,
    상기 프로세서는,The processor,
    상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하고,Determining a difference between the length of the text data of the first language and the length of the text data of the second language,
    상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는, 전자 장치.If the determined difference is greater than or equal to a threshold value, the obtained text data of the first language is translated again to obtain other text data of the second language.
  4. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor,
    입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는, 전자 장치.An electronic device that outputs text data of the second language in a subtitle format or outputs voice data obtained by converting the text data of the second language in a voice format based on an input user command.
  5. 제2항에 있어서,The method of claim 2,
    상기 프로세서는,The processor,
    상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,When the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section, the content is output at a slower playback speed than the original playback speed, and the length of the text data of the second language If the time corresponding to is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed,
    상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력하는, 전자 장치.An electronic device that outputs text data of the second language together with the content in a subtitle format.
  6. 제2항에 있어서,The method of claim 2,
    상기 프로세서는,The processor,
    상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하고,Converting text data of the second language to obtain voice data of the second language,
    상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,When the playback time of the voice data of the second language is longer than the time corresponding to the first section, the content is output at a playback speed slower than the original playback speed, and the playback time of the voice data of the second language is the If it is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed,
    상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 전자 장치.An electronic device that outputs a voice corresponding to voice data of the second language together with the content.
  7. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor,
    상기 컨텐츠에 포함된 이미지 데이터 또는 상기 컨텐츠에 포함된 상기 제1 언어의 음성 데이터를 기초로 상기 컨텐츠 내 화자의 특성을 판단하고,Determine the characteristics of the speaker in the content based on image data included in the content or voice data of the first language included in the content,
    상기 제2 언어의 텍스트 데이터를 상기 판단된 화자의 특성에 대응되는 음성 데이터로 변환하며,Converting text data of the second language into voice data corresponding to the determined speaker's characteristics,
    상기 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 전자 장치.An electronic device that outputs a voice corresponding to the voice data together with the content.
  8. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor,
    상기 컨텐츠의 종류를 식별하고, Identify the type of the content,
    상기 식별된 종류가 기설정된 제1 종류인 경우 상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하고,If the identified type is a preset first type, outputting the content based on a playback speed corresponding to the length of the acquired text data of the second language,
    상기 식별된 종류가 기설정된 제2 종류인 경우 상기 컨텐츠를 원 재생 속도로 출력하는, 전자 장치.The electronic device outputting the content at an original playback speed when the identified type is a preset second type.
  9. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor,
    상기 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터에 대응되는 상기 컨텐츠의 이미지 데이터에 캐릭터(등장 인물)가 포함되는지 식별하고,Identify whether a character (appearance person) is included in the image data of the content corresponding to the audio data of the first language or the caption data of the first language,
    상기 이미지 데이터에 캐릭터가 포함되는 경우, 상기 컨텐츠를 원 재생 속도로부터 기설정된 범위 내의 재생 속도로 출력하는, 전자 장치.When a character is included in the image data, the electronic device outputs the content at a reproduction speed within a preset range from an original reproduction speed.
  10. 전자 장치의 제어 방법에 있어서, In the control method of an electronic device,
    입력된 컨텐츠에 포함된 제1 언어의 음성 데이터 또는 상기 제1 언어의 자막 데이터를 바탕으로 제2 언어의 텍스트 데이터를 획득하는 단계; 및Obtaining text data of a second language based on voice data of a first language or subtitle data of the first language included in the input content; And
    상기 획득된 제2 언어의 텍스트 데이터의 길이에 대응되는 재생 속도를 바탕으로 상기 컨텐츠를 출력하는 단계;를 포함하는, 제어 방법.And outputting the content based on a reproduction speed corresponding to the length of the acquired text data of the second language.
  11. 제10항에 있어서,The method of claim 10,
    상기 제2 언어의 텍스트 데이터를 획득하는 단계는,Obtaining the text data of the second language,
    상기 컨텐츠의 제1 구간에 대응되는 상기 제1 언어의 음성 데이터 또는 상기 제1 구간에 대응되는 상기 제1 언어의 자막 데이터를 기초로 상기 제1 언어의 텍스트 데이터를 획득하는 단계; 및Obtaining text data of the first language based on audio data of the first language corresponding to the first section of the content or subtitle data of the first language corresponding to the first section; And
    상기 획득된 제1 언어의 텍스트 데이터를 번역하여 상기 제2 언어의 텍스트 데이터를 획득하는 단계;를 포함하는, 제어 방법.And translating the obtained text data of the first language to obtain text data of the second language.
  12. 제11항에 있어서,The method of claim 11,
    상기 제1 언어의 텍스트 데이터의 길이와 상기 제2 언어의 텍스트 데이터의 길이 차이를 판단하는 단계; 및Determining a difference between the length of the text data of the first language and the length of the text data of the second language; And
    상기 판단된 차이가 임계 값 이상이면, 상기 획득된 제1 언어의 텍스트 데이터를 다시 번역하여 상기 제2 언어의 다른 텍스트 데이터를 획득하는 단계;를 더 포함하는, 제어 방법.If the determined difference is greater than or equal to a threshold value, translating the obtained text data of the first language again to obtain other text data of the second language.
  13. 제10항에 있어서,The method of claim 10,
    입력된 사용자 명령에 기초하여, 상기 제2 언어의 텍스트 데이터를 자막 형태로 출력하거나 또는 상기 제2 언어의 텍스트 데이터가 변환된 음성 데이터를 음성 형태로 출력하는 단계;를 더 포함하는, 제어 방법.Based on the input user command, outputting the text data of the second language in the form of a subtitle or outputting the voice data converted from the text data of the second language in the form of a voice; the control method further comprising.
  14. 제11항에 있어서,The method of claim 11,
    상기 컨텐츠를 출력하는 단계는,The step of outputting the content,
    상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 텍스트 데이터의 길이에 대응되는 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,When the time corresponding to the length of the text data of the second language is longer than the time corresponding to the first section, the content is output at a slower playback speed than the original playback speed, and the length of the text data of the second language If the time corresponding to is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed,
    상기 제2 언어의 텍스트 데이터를 자막 형태로 상기 컨텐츠와 함께 출력하는, 제어 방법.And outputting the text data of the second language together with the content in the form of a subtitle.
  15. 제11항에 있어서,The method of claim 11,
    상기 제2 언어의 텍스트 데이터를 변환하여 상기 제2 언어의 음성 데이터를 획득하는 단계;를 더 포함하고,Converting text data of the second language to obtain voice data of the second language; further comprising,
    상기 컨텐츠를 출력하는 단계는,The step of outputting the content,
    상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 긴 경우, 상기 컨텐츠를 원 재생 속도보다 더 느린 재생 속도로 출력하고, 상기 제2 언어의 음성 데이터의 재생 시간이 상기 제1 구간에 대응되는 시간보다 짧은 경우, 상기 컨텐츠를 원 재생 속도보다 더 빠른 재생 속도로 출력하며,When the playback time of the voice data of the second language is longer than the time corresponding to the first section, the content is output at a playback speed slower than the original playback speed, and the playback time of the voice data of the second language is the If it is shorter than the time corresponding to the first section, the content is output at a faster playback speed than the original playback speed,
    상기 제2 언어의 음성 데이터에 대응되는 음성을 상기 컨텐츠와 함께 출력하는, 제어 방법.A control method for outputting a voice corresponding to voice data of the second language together with the content.
PCT/KR2019/013982 2019-06-12 2019-10-23 Electronic device for providing content translation service and control method therefor WO2020251122A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0069339 2019-06-12
KR1020190069339A KR20200142282A (en) 2019-06-12 2019-06-12 Electronic apparatus for providing content translation service and controlling method thereof

Publications (1)

Publication Number Publication Date
WO2020251122A1 true WO2020251122A1 (en) 2020-12-17

Family

ID=73781418

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/013982 WO2020251122A1 (en) 2019-06-12 2019-10-23 Electronic device for providing content translation service and control method therefor

Country Status (2)

Country Link
KR (1) KR20200142282A (en)
WO (1) WO2020251122A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240005105A1 (en) * 2021-07-04 2024-01-04 Glocalize Inc. Server and method for providing multilingual subtitle service using artificial intelligence learning model, and method for controllilng server

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102440890B1 (en) * 2021-03-05 2022-09-06 주식회사 한글과컴퓨터 Video automatic dubbing apparatus that automatically dubs the video dubbed with the voice of the first language to the voice of the second language and operating method thereof
KR20220127457A (en) * 2021-03-11 2022-09-20 삼성전자주식회사 Electronic device to move playback section of media contents and the method thereof
KR102347228B1 (en) * 2021-03-19 2022-01-04 주식회사 웨인힐스벤처스 A method for providing a producing service of transformed multimedia contents using matching of video resources and an apparatus using it
KR102565458B1 (en) * 2022-09-05 2023-08-11 (주)허드슨에이아이 Neural network-based translation system using phonemes

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050018883A (en) * 2005-01-25 2005-02-28 우종식 The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS
JP2008301340A (en) * 2007-06-01 2008-12-11 Panasonic Corp Digest creating apparatus
KR20130013804A (en) * 2011-07-29 2013-02-06 유니위스 주식회사 Text and voice synchronizing player
JP2013201606A (en) * 2012-03-26 2013-10-03 Nippon Hoso Kyokai <Nhk> Caption synchronizing and reproducing device, and program thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050018883A (en) * 2005-01-25 2005-02-28 우종식 The method and apparatus that created(playback) auto synchronization of image, text, lip's shape using TTS
JP2008301340A (en) * 2007-06-01 2008-12-11 Panasonic Corp Digest creating apparatus
KR20130013804A (en) * 2011-07-29 2013-02-06 유니위스 주식회사 Text and voice synchronizing player
JP2013201606A (en) * 2012-03-26 2013-10-03 Nippon Hoso Kyokai <Nhk> Caption synchronizing and reproducing device, and program thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOUTUBE, 18 January 2019 (2019-01-18), Retrieved from the Internet <URL:https://mainia.tistory.com/5779> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240005105A1 (en) * 2021-07-04 2024-01-04 Glocalize Inc. Server and method for providing multilingual subtitle service using artificial intelligence learning model, and method for controllilng server
US11966712B2 (en) * 2021-07-04 2024-04-23 Gloz Inc. Server and method for providing multilingual subtitle service using artificial intelligence learning model, and method for controlling server

Also Published As

Publication number Publication date
KR20200142282A (en) 2020-12-22

Similar Documents

Publication Publication Date Title
WO2020251122A1 (en) Electronic device for providing content translation service and control method therefor
WO2020231181A1 (en) Method and device for providing voice recognition service
WO2020050509A1 (en) Voice synthesis device
WO2020101263A1 (en) Electronic apparatus and method for controlling thereof
WO2013187714A1 (en) Display apparatus, method for controlling the display apparatus, server and method for controlling the server
WO2016117836A1 (en) Apparatus and method for editing content
WO2019078615A1 (en) Method and electronic device for translating speech signal
WO2017047884A1 (en) Voice recognition server and control method thereof
EP3824462A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
WO2021049795A1 (en) Electronic device and operating method thereof
WO2020091519A1 (en) Electronic apparatus and controlling method thereof
WO2019225892A1 (en) Electronic apparatus, controlling method and computer readable medium
WO2020153717A1 (en) Electronic device and controlling method of electronic device
WO2021125784A1 (en) Electronic device and control method therefor
WO2020213884A1 (en) Electronic device for providing text and control method therefor
EP3818518A1 (en) Electronic apparatus and method for controlling thereof
WO2022035183A1 (en) Device for recognizing user&#39;s voice input and method for operating same
WO2021020825A1 (en) Electronic device, control method thereof, and recording medium
WO2018021750A1 (en) Electronic device and voice recognition method thereof
WO2020111744A1 (en) Electronic device and control method therefor
WO2022131566A1 (en) Electronic device and operation method of electronic device
WO2019168392A1 (en) Electronic apparatus, controlling method and computer-readable medium
WO2022092569A1 (en) Electronic device and control method thereof
WO2022177224A1 (en) Electronic device and operating method of electronic device
WO2020075998A1 (en) Electronic device and control method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19932946

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19932946

Country of ref document: EP

Kind code of ref document: A1