WO2022065537A1 - Video reproduction device for providing subtitle synchronization and method for operating same - Google Patents

Video reproduction device for providing subtitle synchronization and method for operating same Download PDF

Info

Publication number
WO2022065537A1
WO2022065537A1 PCT/KR2020/012833 KR2020012833W WO2022065537A1 WO 2022065537 A1 WO2022065537 A1 WO 2022065537A1 KR 2020012833 W KR2020012833 W KR 2020012833W WO 2022065537 A1 WO2022065537 A1 WO 2022065537A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
subtitle
timeline
index
correction time
Prior art date
Application number
PCT/KR2020/012833
Other languages
French (fr)
Korean (ko)
Inventor
이은진
Original Assignee
주식회사 파이프랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파이프랩스 filed Critical 주식회사 파이프랩스
Priority to PCT/KR2020/012833 priority Critical patent/WO2022065537A1/en
Publication of WO2022065537A1 publication Critical patent/WO2022065537A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Definitions

  • the present invention relates to an image reproducing apparatus and an operating method thereof. More specifically, the present invention relates to a video reproducing apparatus providing subtitle synchronization and an operating method thereof.
  • the difficulty of setting the subtitle synchronization becomes more and more significant when automated subtitle application technologies such as the aforementioned STT and machine translation are applied in a complex manner.
  • the present invention has been devised to solve the above problems, and by using the audio level-based timeline index extracted from the audio track information of the video information, the correction time of the subtitle information is calculated, and according to the correction time, the correction time is calculated.
  • An object of the present invention is to provide a video reproducing apparatus and an operating method of the same that enable synchronization correction for each caption time section at an appropriate timing according to a synchronization method and setting desired by a user by outputting the video information in which the caption information can be synchronized. .
  • a method of operating an image reproducing apparatus comprising: acquiring image information to be reproduced; obtaining subtitle information corresponding to the image information; processing one or more timeline indices from one or more audio tracks extracted from the image information; calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and outputting the image information with which the subtitle information can be synchronized according to the correction time.
  • an apparatus for solving the above problems is an image reproducing apparatus, comprising: an image information acquisition unit for acquiring image information to be reproduced; a caption obtaining unit obtaining caption information corresponding to the image information; a timeline index processing unit that processes one or more timeline indices from one or more audio tracks extracted from the image information; a correction time calculator for calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and an output unit for outputting the image information with which the subtitle information can be synchronized according to the correction time.
  • a correction time of subtitle information is calculated using a timeline index based on audio level extracted from audio track information of image information, and the subtitle information can be synchronized according to the correction time.
  • a timeline index is synthesized and calculated according to audio track and STT subtitle information, thereby providing more accurate synchronization correction for each subtitle time section.
  • FIG. 1 is a block diagram illustrating an image reproducing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a subtitle synchronizer in more detail according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of operating an image reproducing apparatus according to an embodiment of the present invention.
  • 4 to 6 are diagrams for explaining a correction time calculation method according to an embodiment of the present invention.
  • FIG. 7 to 9 are diagrams for explaining an image playback interface according to an embodiment of the present invention.
  • 10 to 11 are diagrams for exemplifying a timeline index according to each setting and synthesizing operation according to an embodiment of the present invention and correction of real captions accordingly.
  • processors control, or similar concepts should not be construed as exclusively referring to hardware having the ability to execute software, and without limitation, digital signal processor (DSP) hardware, ROM for storing software. It should be understood to implicitly include (ROM), RAM (RAM) and non-volatile memory. Other common hardware may also be included.
  • DSP digital signal processor
  • FIG. 1 is a block diagram illustrating an image reproducing apparatus according to an embodiment of the present invention
  • FIG. 2 is a block diagram illustrating a subtitle synchronizer according to an embodiment of the present invention in more detail.
  • an image reproducing apparatus includes a controller 110 , a communication unit 105 , a user input unit 120 , a video player 130 , a subtitle synchronizer 140 , and an output unit. 150 , a setting unit 160 and a storage unit 170 are included.
  • the controller 110 includes one or more microprocessors for controlling the overall functional operation of the image reproducing apparatus 100 and each component.
  • the communication unit 105 includes one or more communication modules for performing communication between the image reproducing apparatus 100 and a network.
  • the communication unit 105 is a type connected through a wireless or wired method through a local area network (LAN) and an Internet network, a type connected through a USB (Universal Serial Bus) port, such as 3G, 4G, 5G A form connected through a mobile communication network, a form connected through a short-range wireless communication method such as Near Field Communication (NFC), Radio Frequency Identification (RFID), Wi-Fi, etc.
  • the communication unit 105 is a mobile communication It may include a module, a wireless Internet module, a short-range communication module, or a wired communication module.
  • the user input unit 120 may include one or more interface modules for receiving a user input. More specifically, the user input unit 120 may receive and process various interface input information for reproduction of a caption video, such as input information for video reproduction, setting information for caption synchronization, and caption synchronization input information.
  • the video reproducing unit 130 obtains and reproduces image information according to a user input, and the reproduced image information may be output through the output unit 150 .
  • the video reproducing unit 130 may include one or more image decoding modules for reproducing image information, and the image decoding module obtains and decodes a bitstream of image information encoded with one or more codecs, thereby outputting unit 150 It is possible to obtain an image frame and an audio signal in an outputable form.
  • the image information may be obtained from an image file pre-stored in the storage unit 170 of the image reproducing apparatus 100 or may be obtained from an image stream received from an external server and buffered in the storage unit 170 .
  • the video reproducing unit 130 may obtain caption information corresponding to the image information and insert it into the image frame information output from the output unit 150 .
  • the caption information is obtained from a caption file pre-stored in the storage unit 170 in response to the video file or video stream, or STT generated from the audio signal of the video file or video stream using an STT (Speech To Text) application process. It may be obtained from subtitle information, or STT subtitle information may be obtained from STT subtitle information of a second language obtained through machine translation.
  • the subtitle synchronization unit 140 calculates a correction time for synchronizing the subtitle information to the image information according to the user input of the user input unit 120, and uses the correction time to determine the starting point of the dialogue of the subtitle section and Temporal correction processing of subtitle information is performed so that synchronization between the conversation start points of the video is made.
  • the subtitle synchronizer 140 may process one or more timeline indexes from one or more audio tracks extracted from the image information, compare the one or more timeline indexes with the subtitle information, and adjust the correction time , and outputting image information with which the caption information can be synchronized according to the correction time through the output unit 150 .
  • the caption synchronizer 140 may output, through the output unit 150 , image information in which the caption sync is corrected according to the correction time synchronization for each caption section in response to a user request input through the video information interface.
  • the output unit 150 may include a display module and an audio output module for outputting image reproduction information in which subtitle information is inserted, and receives a user input from the user input unit 120 under the control of the control unit 110 .
  • a graphical user interface for receiving may be further output.
  • the correction time of subtitle information is calculated using the timeline index based on the audio level extracted from the audio track information of the video information, and the subtitle information can be synchronized according to the correction time.
  • the image information By outputting the image information, it is possible to perform synchronization correction for each subtitle time section at an appropriate timing according to a synchronization method and setting desired by the user. This will be described in more detail with reference to FIG. 2 .
  • the caption synchronizer 140 includes an image information obtaining unit 141 , a caption obtaining unit 143 , an audio track extracting unit 145 , and a timeline index processing unit 147 . ), and a correction time calculation unit 149 .
  • the image information acquisition unit 141 acquires image information being reproduced by the video playback unit 130 .
  • the subtitle acquisition unit 143 acquires the subtitle information obtained in advance in response to the image information reproduced by the video playback unit 130 as described above.
  • the subtitle information is obtained from a subtitle file pre-stored in the storage unit 170 in response to an image file or an image stream, or from an audio signal of an image file or image stream using an STT (Speech To Text) application process. It may be obtained from generated STT subtitle information, or may be obtained from STT subtitle information of a second language obtained through machine translation by STT subtitle information.
  • the audio track extractor 145 extracts one or more audio track information from the image information reproduced by the video reproducing unit 130 .
  • the timeline index processing unit 147 processes one or more timeline indexes from one or more audio tracks extracted from the image information.
  • the timeline index processing may include mapping an amount of change in audio level for each timeline to a timeline index based on the volume information of the audio track. Accordingly, it is possible to determine a comparison criterion between the dialogue starting point in the image information and the dialogue starting point based on the amount of change in the audio level.
  • the correction time calculator 149 calculates a correction time by comparing the one or more timeline indices with the subtitle information, and the output unit 150 outputs the image information with which the subtitle information can be synchronized according to the correction time. to output
  • the correction time calculator 149 may variably determine the synchronization processing between the subtitle information and the image information based on the timeline index according to the format of the subtitle information and the setting of the setting unit 160 .
  • the caption information may include caption section file text information obtained from the caption file.
  • the correction time calculation unit 149 may calculate the correction time for each subtitle section by comparing the dialogue start point information identified from the timeline index with the dialogue start point information of the caption section file text information.
  • the caption information may include STT text information for a caption section obtained by STT (Speech To Text) conversion from the audio track information.
  • the correction time calculator 149 may calculate the correction time for each subtitle section by comparing the conversation start point information identified from the timeline index with the conversation start point information of the STT text information of the subtitle section.
  • the timeline index processing unit 147 may map and allocate the timeline index for each subtitle time section divided according to the subtitle section threshold setting. This enables more accurate dialogue starting point information to be determined by extending or reducing the number of subtitle sections in the same audio track.
  • the number may be increased or decreased according to the subtitle section threshold setting, which may be determined according to a user setting or the like.
  • the caption angle threshold is set lower, a more accurate correction time may be calculated, but the amount of computation of the image reproducing apparatus 100 may increase.
  • the timeline index processing unit 147 is configured to perform a caption section synthesis operation using the audio level index for each time period calculated from the audio track and the caption section index obtained by STT (Speech to Text) conversion from the audio track information. , it is also possible to create a new timeline index.
  • the setting unit 160 may set the subtitle section threshold information and the weight information for each index for the synthesis operation of the timeline index processing unit 147 , and accordingly, the user can provide more accurate subtitles.
  • Detailed settings for synchronization can be determined by entering them through a simple interface.
  • the output unit 150 may include at least one display module and an audio output module for outputting image information, audio information extracted from the image information, and subtitle information, and setting for the above-described subtitle synchronization setting information Interface can be printed.
  • the output unit 150 reproduces the video information reproduced by the video playback unit 130 together with the unsynchronized subtitle information, and outputs a notification interface indicating that the subtitle information can be synchronized when the correction time is calculated. and, according to a user input corresponding to the notification interface, the image information in which the subtitle information is synchronized according to the correction time may be output.
  • the user can easily check whether synchronization is ready according to the calculation of the correction time, and by simply inputting the execution through the subtitle synchronization interface, the image information synchronization of the subtitle information according to the calculation of the correction time is quickly processed, thereby improving user convenience.
  • FIGS. 4 to 6 are views for explaining a correction time calculation method according to an embodiment of the present invention
  • FIGS. 7 to 9 is a diagram for explaining an image playback interface according to an embodiment of the present invention.
  • the video reproducing apparatus 100 obtains caption information corresponding to the video reproduction information reproduced by the video reproducing unit 130 ( S101 ).
  • the caption information may be obtained from a separate caption file, obtained by STT, or may be obtained from text data processed by machine translation from STT.
  • the image reproducing apparatus 100 extracts audio track information from the image information being reproduced (S103).
  • the image reproducing apparatus 100 performs timeline index processing from one or more audio tracks (S105).
  • the timeline index processing is devised to calculate the correction time.
  • the timeline index may be mapped with level information of the volume increase calculated for each time section from the audio track. That is, the timeline index processing unit 147 may map the volume increase amount information for each timeline to the timeline index information.
  • the volume increase is equal to or greater than a certain value, it can be seen that it can correspond to the conversation start point information in the video information, and accordingly, synchronization with the subtitle information can be performed based on the increase in the volume.
  • the timeline index processing unit 147 performs the index verification based on the audio track information extracted from the audio track information, even if the dialogue start time identified from the video and the existing subtitle start time are different. Since the synchronization correction time between the video and the subtitles is calculated and the dialogue starting point time correction processing of subtitle information based on the correction time is performed, very accurate and fast subtitle synchronization correction is possible.
  • the timeline index processing unit 147 compares the time information of the subtitle file with the timeline index to perform synchronization correction processing.
  • the video reproducing apparatus 100 compares and synchronizes the STT caption information obtained from the audio track with the timeline index information to the caption information, thereby outputting caption information synchronized with the audio of the video information. be able to do This can compensate for problems that occur because the recognition rate of STT is not high based on timeline index information, and as a result, it can also bring about the effect of improving the performance of STT.
  • the video reproducing apparatus 100 outputs caption-synchronized video information (S107).
  • the image reproducing apparatus 100 outputs an interface for image reproduction, but when the timeline index processing is not completed, a 'subtitle sync OFF' notification interface can be inserted and outputted.
  • the video reproducing apparatus 100 when the timeline index process is completed, the video reproducing apparatus 100 according to an embodiment of the present invention outputs a 'subtitle sync ON' function interface indicating that synchronized subtitle information can be inserted.
  • FIG. 9 is a diagram illustrating a setting interface of the setting unit 160 according to an embodiment of the present invention.
  • a setting interface is a reference element for video and subtitle synchronization, including audio level reference setting, audio level and subtitle (STT or subtitle file) reference synthesis setting, audio level and subtitle ( At least one of the machine translation) standard synthesis settings may be performed.
  • FIG. 9 shows a case in which the user inputs audio level and machine-translated subtitle information as current settings.
  • the setting unit 160 is an index acquisition target for generating a timeline index for each audio track of the user, and includes a timeline audio index, an STT text index, an STT machine translation index, and synthesis weight information. Information can be stored and managed.
  • 10 to 11 are diagrams for exemplifying a timeline index according to each setting and synthesizing operation according to an embodiment of the present invention and correction of real captions accordingly.
  • the timeline index may be mapped for each subtitle section.
  • the first section may be from 02:01 to 02:42, ..., the 131st section may be from 36:01 to 36:09. Accordingly, the audio conversation section of the video for each timeline may be mapped for each timeline index.
  • the voice dialogue section index of the audio track may be separated and indexed into each dialogue section according to the calculation of the timeline audio level, and the separation unit may be, for example, 1000 milliseconds.
  • the timeline index processing unit 147 may acquire level type information from timeline audio information obtained from an audio track.
  • the level type information may include dialogue (D) type information, background sound (M) type information, dialogue and background sound (DM) type information, or machine learning audio model type information.
  • the timeline index processing unit 147 may allocate each level type according to the subtitle section to which the timeline index is assigned, and the subtitle sections to which the timeline index is assigned are classified according to various level types or configured separately. can be
  • the correction time calculator 149 may calculate the difference time information calculated according to the comparison between the audio section index corresponding to the timeline index process and the caption section index of the subtitle file or STT subtitle information as the correction time.
  • the synchronization reference time is referred to as T1 (eg: 00:07), and ATn is referred to as the conversation start time (eg, 02:31) of the audio level section of the timeline index first started after the synchronization reference time T1.
  • the audio level-based timeline index may include information sampled for each critical time period from the timeline. Until the point in time when the next conversation start point does not appear within a specific timeline index, it can be the end point of that section.
  • the setting unit 160 may set the comparison target subtitle time period to be subdivided or merged as necessary by differently setting the threshold time to be short, medium, long, or the like.
  • the timeline index processing unit 147 sets the threshold time having the smallest distribution error between the subtitle section obtained from the caption information and the timeline index section obtained from the audio level information as the basic section. It is preferable to set
  • the timeline index processing unit 147 synthesizes the timeline index calculated according to the audio level and the timeline index calculated from the STT according to a predetermined weight to generate the timeline index.
  • the image reproducing apparatus 100 may receive a user synthesis weight setting input through the setting unit 160 , and the timeline index processing unit 147 based on the received synthesis weight information and the audio level obtained from the image information.
  • the timeline index processing unit 147 By combining the timeline index and the STT-based timeline index, it is possible to more effectively calculate the correction time. This can be processed for each subtitle section, so that accurate image synchronization can be processed for each subtitle section.
  • the timeline index processing unit 147 may generate a morpheme-based index using the original language and the translated language in generating the STT timeline index, and may be used to calculate the correction time.
  • the timeline index processing unit 147 may generate an STT index for each timeline from the audio track information, and if the original subtitle is different from the device language information, machine translation or language synchronization suitable for the language of the target device may be processed. there is.
  • the timeline index processing unit 147 may perform morpheme analysis for each subtitle section and classify the subtitle section by part-of-speech (eg, classification of nouns/verbs/propositions, etc., basic type conversion).
  • the timeline index processing unit 147 generates an audio level index for each timeline based on the morpheme, but also indexes the subtitle information based on the morpheme section information and uses it to calculate and compare the correction time.
  • Image synchronization for each morpheme section may be processed.
  • both the original subtitle morpheme index and the STT subtitle morpheme index may exist, and the timeline index processing unit 147 performs the STT subtitle morpheme index and The error correction of the timeline may be performed by comparing the morpheme indexes of the original subtitles. That is, in this case, by generating a timeline index for comparison and sharing based on a morpheme regardless of an audio level, more accurate video synchronization for each morpheme section of the subtitle can be processed.
  • the timeline index processing unit 147 may compare the original subtitle index and the morpheme of the STT subtitle index, and a corrected timeline index may be generated in a state in which the same morpheme is shared.
  • the case in which the morpheme of the timeline index of the original subtitle and the STT subtitle is shared may be exemplified as follows.
  • the correction time calculation unit 149 may calculate the error between the original subtitle index corresponding to the morpheme sharing index and the STT subtitle index as the correction time, which may take 30 seconds according to the above example.
  • Such correction processes of the timeline index processing unit 147 may be combined and set by the setting unit 160 .
  • the above-described correction processes may include, for example, at least one of an audio level-based timeline index generation process, an original subtitle timeline index generation process, and an STT subtitle timeline index generation process in the timeline index processing unit 147 .
  • the correction time calculation unit 149 uses at least one of an audio level-based timeline index, an original subtitle timeline index, and an STT subtitle timeline index, and uses comparison error correction, synthesis processing correction using weight values, and morpheme comparison. Alternatively, at least one of error correction by sharing morphemes may be performed.
  • the setting unit 160 may receive one or more setting information for this and store it in the storage unit 170 , thus enabling effective and optimized subtitle synchronization setting for each image reproducing apparatus 100 .
  • the method according to the present invention described above may be produced as a program to be executed by a computer and stored in a computer-readable recording medium.
  • Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape. , floppy disks, and optical data storage devices.
  • the computer-readable recording medium is distributed in a network-connected computer system, so that the computer-readable code can be stored and executed in a distributed manner.
  • functional programs, codes, and code segments for implementing the method can be easily inferred by programmers in the art to which the present invention pertains.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

A method for operating a video reproduction device according to an embodiment of the present invention comprises the steps of: acquiring video information to be reproduced; acquiring subtitle information corresponding to the video information; processing one or more timeline indices from one or more audio tracks extracted from the video information; comparing the one or more timeline indices with the subtitle information so as to calculate a correction time; and outputting the video information which enables synchronization of the subtitle information according to the correction time.

Description

자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법Video reproducing apparatus providing subtitle synchronization and operating method therefor
본 발명은 영상 재생 장치 및 그 동작 방법에 관한 것이다. 보다 구체적으로, 본 발명은 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법에 관한 것이다.The present invention relates to an image reproducing apparatus and an operating method thereof. More specifically, the present invention relates to a video reproducing apparatus providing subtitle synchronization and an operating method thereof.
현대의 정보의 홍수 속에서 영상 콘텐츠의 수는 지속적으로 증가되고 있으며, 멀티미디어 영상 콘텐츠의 효과적인 활용을 위하여 자막을 함께 표시하는 것은 매우 일반적인 기술로 정착되고 있다.In the midst of the modern flood of information, the number of video contents is continuously increasing, and displaying subtitles together for effective use of multimedia video contents is being established as a very common technique.
특히, 모바일 단말을 이용한 영상 콘텐츠의 시청율이 점차 증가하고 글로벌화 됨에 따라, 자막 정보가 부가된 영상 콘텐츠는 나날이 증가하고 있으며, STT(Speech To Text) 기술의 발전과 함께, 음성 인식에 의해 자동적으로 자막이 부가되는 기능 또한 점차 개선되고 있다.In particular, as the viewing rate of video content using mobile terminals is gradually increasing and globalized, video content with caption information is increasing day by day. This additional function is also gradually improved.
그러나, 이러한 자동 자막 부가 기능은 인공지능 또는 기계 학습 등에 의해 개선되고는 있으나, 그 인식률이 높지 않고, 잘못된 인식으로 인해 실제 영상 정보 내 등장인물의 발화 시점 및 그 내용과 정확히 동기화되지는 않는 문제점이 있다.However, although this automatic subtitle addition function is being improved by artificial intelligence or machine learning, the recognition rate is not high, and due to incorrect recognition, there is a problem that the utterance timing of the character in the actual video information and the content are not accurately synchronized. there is.
또한, 영상 콘텐츠용으로 실제 시간 구간이 표기된 자막 텍스트 파일이 별도로 제공되는 경우도 있으나, 모바일 단말용 운영 체제의 재생 어플리케이션의 동작 차이로 인해 미세한 오차 등이 발생되어 영상 내 발화 시점과 오디오 발화 시점이 어긋나는 경우가 존재하고 있는 실정이다. 특히, 영상 콘텐츠의 유통 과정에 있어서 기기 및 운영 체제별 변환 또는 편집 과정에 있어서 발생되는 오차로 인해 동기화가 어긋나는 문제점들도 발생되고 있다.In addition, although there are cases where a subtitle text file in which the actual time section is marked is separately provided for video content, minute errors occur due to differences in the operation of the playback application of the operating system for mobile terminals, so that the timing of speech in the video and the timing of audio speech are different. There are cases of discrepancy. In particular, in the process of distributing video content, there are also problems in which synchronization is out of sync due to an error occurring in the conversion or editing process for each device and operating system.
이를 해결하기 위해, 영상 재생 플레이어 내에서 시청자가 수동으로 직접 오디오 싱크를 조절하는 기능 등은 제공되고 있으나, 정확한 조절이 어려울 뿐만 아니라, 텍스트의 재생 시간을 일괄적으로 늦추거나 앞당길 수 있을 뿐이므로 음성 구간별로 다르게 어긋나거나 하는 경우에는 해결되지 않는 문제점이 있다.In order to solve this problem, a function for the viewer to manually adjust the audio sync within the video player is provided, but it is difficult to accurately adjust the audio sync. There is a problem that cannot be solved in the case of a different deviation for each section.
특히, 이러한 자막 동기화 설정의 어려움은, 전술한 STT 및 기계번역과 같이 자동화된 자막 부여 기술이 복합적으로 적용되는 경우 더욱더 크게 나타나고 있는 실정이다.In particular, the difficulty of setting the subtitle synchronization becomes more and more significant when automated subtitle application technologies such as the aforementioned STT and machine translation are applied in a complex manner.
본 발명은 상기한 바와 같은 문제점을 해결하고자 안출된 것으로, 영상 정보의 오디오 트랙 정보로부터 추출되는 음성 레벨 기반의 타임라인 인덱스 등을 이용하여, 자막 정보의 보정 시간을 산출하고, 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하게 함으로써, 사용자가 원하는 동기화 방식 및 설정에 따라 적절한 타이밍에 자막 시간 구간별 동기화 보정을 가능하게 하는 영상 재생 장치 및 그 동작 방법을 제공하는데 그 목적이 있다.The present invention has been devised to solve the above problems, and by using the audio level-based timeline index extracted from the audio track information of the video information, the correction time of the subtitle information is calculated, and according to the correction time, the correction time is calculated. An object of the present invention is to provide a video reproducing apparatus and an operating method of the same that enable synchronization correction for each caption time section at an appropriate timing according to a synchronization method and setting desired by a user by outputting the video information in which the caption information can be synchronized. .
상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 영상 재생 장치의 동작 방법에 있어서, 재생할 영상 정보를 획득하는 단계; 상기 영상 정보에 대응하는 자막 정보를 획득하는 단계; 상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리하는 단계; 상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하는 단계; 및 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하는 단계를 포함한다.According to an embodiment of the present invention, there is provided a method of operating an image reproducing apparatus, the method comprising: acquiring image information to be reproduced; obtaining subtitle information corresponding to the image information; processing one or more timeline indices from one or more audio tracks extracted from the image information; calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and outputting the image information with which the subtitle information can be synchronized according to the correction time.
또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 영상 재생 장치에 있어서, 재생할 영상 정보를 획득하는 영상 정보 획득부; 상기 영상 정보에 대응하는 자막 정보를 획득하는 자막 획득부; 상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리하는 타임라인 인덱스 처리부; 상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하는 보정시간 산출부; 및 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하는 출력부를 포함한다.In addition, an apparatus according to an embodiment of the present invention for solving the above problems is an image reproducing apparatus, comprising: an image information acquisition unit for acquiring image information to be reproduced; a caption obtaining unit obtaining caption information corresponding to the image information; a timeline index processing unit that processes one or more timeline indices from one or more audio tracks extracted from the image information; a correction time calculator for calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and an output unit for outputting the image information with which the subtitle information can be synchronized according to the correction time.
본 발명의 실시 예에 따르면, 영상 정보의 오디오 트랙 정보로부터 추출되는 음성 레벨 기반의 타임라인 인덱스 등을 이용하여, 자막 정보의 보정 시간을 산출하고, 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하게 함으로써, 사용자가 원하는 동기화 방식 및 설정에 따라 적절한 타이밍에 자막 시간 구간별 동기화 보정을 가능하게 하는 영상 재생 장치 및 그 동작 방법을 제공할 수 있다.According to an embodiment of the present invention, a correction time of subtitle information is calculated using a timeline index based on audio level extracted from audio track information of image information, and the subtitle information can be synchronized according to the correction time. By outputting image information, it is possible to provide an image reproducing apparatus and an operating method thereof that enable synchronization correction for each subtitle time section at an appropriate timing according to a synchronization method and setting desired by a user.
또한, 본 발명의 실시 예에 따르면 타임라인 인덱스를 오디오 트랙 및 STT 자막 정보에 따라 합성 연산 처리하여 구성함으로써, 보다 정확한 자막 시간 구간별 동기화 보정을 제공할 수 있는 효과가 있다.In addition, according to an embodiment of the present invention, a timeline index is synthesized and calculated according to audio track and STT subtitle information, thereby providing more accurate synchronization correction for each subtitle time section.
도 1은 본 발명의 실시 예에 따른 영상 재생 장치를 설명하기 위해 도시한 블록도이다.1 is a block diagram illustrating an image reproducing apparatus according to an embodiment of the present invention.
도 2는 본 발명의 실시 예에 따른 자막 동기화부를 보다 구체적으로 도시한 블록도이다.2 is a block diagram illustrating a subtitle synchronizer in more detail according to an embodiment of the present invention.
도 3은 본 발명의 실시 예에 따른 영상 재생 장치의 동작 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method of operating an image reproducing apparatus according to an embodiment of the present invention.
도 4 내지 도 6은 본 발명의 실시 예에 따른 보정 시간 산출방법을 설명하기 위한 도면이다.4 to 6 are diagrams for explaining a correction time calculation method according to an embodiment of the present invention.
도 7 내지 도 9는 본 발명의 실시 예에 따른 영상 재생 인터페이스를 설명하기 위한 도면들이다.7 to 9 are diagrams for explaining an image playback interface according to an embodiment of the present invention.
도 10 내지 도 11은 본 발명의 실시 예에 따른 각 설정 및 합성 연산에 따른 타임라인 인덱스와 이에 따른 실 자막 보정을 예시하기 위한 도면들이다.10 to 11 are diagrams for exemplifying a timeline index according to each setting and synthesizing operation according to an embodiment of the present invention and correction of real captions accordingly.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.The following is merely illustrative of the principles of the invention. Therefore, those skilled in the art will be able to devise various devices that, although not explicitly described or shown herein, embody the principles of the present invention and are included within the spirit and scope of the present invention. Further, it is to be understood that all conditional terms and examples listed herein are, in principle, expressly intended solely for the purpose of enabling the concept of the present invention to be understood, and not limited to the specifically enumerated embodiments and states as such. should be
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.Moreover, it is to be understood that all detailed description reciting the principles, aspects, and embodiments of the invention, as well as specific embodiments, are intended to cover structural and functional equivalents of such matters. It should also be understood that such equivalents include not only currently known equivalents, but also equivalents developed in the future, i.e., all devices invented to perform the same function, regardless of structure.
따라서, 예를 들어, 본 명세서의 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.Thus, for example, the block diagrams herein are to be understood as representing conceptual views of illustrative circuitry embodying the principles of the invention. Similarly, all flowcharts, state transition diagrams, pseudo code, etc. may be tangibly embodied on computer-readable media and be understood to represent various processes performed by a computer or processor, whether or not a computer or processor is explicitly shown. should be
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.In addition, the clear use of terms presented as processor, control, or similar concepts should not be construed as exclusively referring to hardware having the ability to execute software, and without limitation, digital signal processor (DSP) hardware, ROM for storing software. It should be understood to implicitly include (ROM), RAM (RAM) and non-volatile memory. Other common hardware may also be included.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. The above objects, features and advantages will become more apparent through the following detailed description in relation to the accompanying drawings, and accordingly, those of ordinary skill in the art to which the present invention pertains can easily implement the technical idea of the present invention. There will be. In addition, in the description of the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시 예에 따른 영상 재생 장치를 설명하기 위해 도시한 블록도이며, 도 2는 본 발명의 실시 예에 따른 자막 동기화부를 보다 구체적으로 도시한 블록도이다.1 is a block diagram illustrating an image reproducing apparatus according to an embodiment of the present invention, and FIG. 2 is a block diagram illustrating a subtitle synchronizer according to an embodiment of the present invention in more detail.
도 1을 참조하면, 본 발명의 실시 예에 따른 영상 재생 장치는, 제어부(110), 통신부(105), 사용자 입력부(120), 동영상 재생부(130), 자막 동기화부(140), 출력부(150), 설정부(160) 및 저장부(170)를 포함한다.Referring to FIG. 1 , an image reproducing apparatus according to an embodiment of the present invention includes a controller 110 , a communication unit 105 , a user input unit 120 , a video player 130 , a subtitle synchronizer 140 , and an output unit. 150 , a setting unit 160 and a storage unit 170 are included.
제어부(110)는 영상 재생 장치(100)의 전반적인 기능 동작과 각 구성 요소들을을 제어하기 위한 하나 이상의 마이크로 프로세서를 포함한다.The controller 110 includes one or more microprocessors for controlling the overall functional operation of the image reproducing apparatus 100 and each component.
통신부(105)는 영상 재생 장치(100)와 네트워크간 통신을 수행하기 위한 하나 이상의 통신 모듈을 포함한다.The communication unit 105 includes one or more communication modules for performing communication between the image reproducing apparatus 100 and a network.
여기서, 통신부(105)는 근거리 통신망(LAN : Local Area Network) 및 인터넷망을 통해 무선 또는 유선방식으로 접속되는 형태, USB(Universal Serial Bus)포트를 통하여 접속되는 형태, 3G, 4G, 5G와 같은 이동 통신망을 통해 접속되는 형태, NFC(Near Field Communication, RFID(Radio Frequency Identification), Wi-Fi등과 같은 근거리 무선 통신방식을 통해 접속되는 형태가 가능하다. 예를 들어, 통신부(105)는 이동통신 모듈, 무선 인터넷 모듈, 근거리 통신 모듈 또는 유선 통신 모듈 등을 포함할 수 있다.Here, the communication unit 105 is a type connected through a wireless or wired method through a local area network (LAN) and an Internet network, a type connected through a USB (Universal Serial Bus) port, such as 3G, 4G, 5G A form connected through a mobile communication network, a form connected through a short-range wireless communication method such as Near Field Communication (NFC), Radio Frequency Identification (RFID), Wi-Fi, etc. For example, the communication unit 105 is a mobile communication It may include a module, a wireless Internet module, a short-range communication module, or a wired communication module.
사용자 입력부(120)는 사용자 입력을 수신하기 위한 하나 이상의 인터페이스 모듈을 구비할 수 있다. 보다 구체적으로, 사용자 입력부(120)는 영상 재생을 위한 입력 정보와, 자막 동기화를 위한 설정 정보, 자막 동기화 입력 정보 등의 자막 영상 재생을 위한 다양한 인터페이스 입력 정보를 입력받아 처리할 수 있다.The user input unit 120 may include one or more interface modules for receiving a user input. More specifically, the user input unit 120 may receive and process various interface input information for reproduction of a caption video, such as input information for video reproduction, setting information for caption synchronization, and caption synchronization input information.
동영상 재생부(130)는, 사용자 입력에 따른 영상 정보를 획득하여 재생하며, 재생된 영상 정보는 출력부(150)를 통해 출력될 수 있다.The video reproducing unit 130 obtains and reproduces image information according to a user input, and the reproduced image information may be output through the output unit 150 .
동영상 재생부(130)는 영상 정보의 재생을 위한 하나 이상의 영상 복호화 모듈을 포함할 수 있으며, 영상 복호화 모듈은 하나 이상의 코덱으로 부호화된 영상 정보의 비트스트림을 획득하여 복호화 처리함으로써 출력부(150)에서 출력 가능한 형태의 영상 프레임 및 음성 신호를 획득할 수 있다. 여기서, 영상 정보는 영상 재생 장치(100)의 저장부(170)에 사전 저장된 영상 파일로부터 획득되거나, 외부 서버로부터 수신되어 저장부(170)에 버퍼 저장되는 영상 스트림으로부터 획득될 수 있다.The video reproducing unit 130 may include one or more image decoding modules for reproducing image information, and the image decoding module obtains and decodes a bitstream of image information encoded with one or more codecs, thereby outputting unit 150 It is possible to obtain an image frame and an audio signal in an outputable form. Here, the image information may be obtained from an image file pre-stored in the storage unit 170 of the image reproducing apparatus 100 or may be obtained from an image stream received from an external server and buffered in the storage unit 170 .
그리고, 동영상 재생부(130)는 영상 정보에 대응하는 자막 정보를 획득하여 출력부(150)에서 출력되는 영상 프레임 정보에 삽입할 수 있다. 여기서, 자막 정보는 영상 파일 또는 영상 스트림에 대응하여 저장부(170)에 사전 저장된 자막 파일로부터 획득되거나, 영상 파일 또는 영상 스트림의 오디오 신호로부터 STT(Speech To Text) 어플리케이션 프로세스를 이용하여 생성되는 STT 자막 정보로부터 획득되거나, STT 자막 정보를 기계 번역을 통해 획득된 제2 언어의 STT 자막 정보로부터 획득될 수 있다. In addition, the video reproducing unit 130 may obtain caption information corresponding to the image information and insert it into the image frame information output from the output unit 150 . Here, the caption information is obtained from a caption file pre-stored in the storage unit 170 in response to the video file or video stream, or STT generated from the audio signal of the video file or video stream using an STT (Speech To Text) application process. It may be obtained from subtitle information, or STT subtitle information may be obtained from STT subtitle information of a second language obtained through machine translation.
그리고, 자막 동기화부(140)는, 사용자 입력부(120)의 사용자 입력에 따라, 상기 자막 정보가 상기 영상 정보에 동기화되도록 하는 보정 시간을 산출하며, 보정 시간을 이용하여 자막 구간의 대화 시작 지점과 영상의 대화 시작 지점간 동기화가 이루어지도록 자막 정보의 시간적 보정 처리를 수행한다.Then, the subtitle synchronization unit 140 calculates a correction time for synchronizing the subtitle information to the image information according to the user input of the user input unit 120, and uses the correction time to determine the starting point of the dialogue of the subtitle section and Temporal correction processing of subtitle information is performed so that synchronization between the conversation start points of the video is made.
보다 구체적으로, 자막 동기화부(140)는 상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리할 수 있으며, 상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하고, 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 영상 정보를 출력부(150)를 통해 출력할 수 있다.More specifically, the subtitle synchronizer 140 may process one or more timeline indexes from one or more audio tracks extracted from the image information, compare the one or more timeline indexes with the subtitle information, and adjust the correction time , and outputting image information with which the caption information can be synchronized according to the correction time through the output unit 150 .
그리고, 자막 동기화부(140)는 영상 정보 인터페이스를 통한 사용자 요청 입력에 따라, 자막 구간별 보정 시간 동기화에 따라 자막 싱크가 보정된 영상 정보를 출력부(150)를 통해 출력할 수 있다.In addition, the caption synchronizer 140 may output, through the output unit 150 , image information in which the caption sync is corrected according to the correction time synchronization for each caption section in response to a user request input through the video information interface.
여기서, 출력부(150)는 자막 정보가 삽입된 영상 재생 정보를 출력하기 위한 디스플레이 모듈 및 음성 출력 모듈을 포함할 수 있으며, 제어부(110)의 제어에 따라, 사용자 입력부(120)의 사용자 입력을 수신하기 위한 그래픽 사용자 인터페이스를 더 출력할 수 있다.Here, the output unit 150 may include a display module and an audio output module for outputting image reproduction information in which subtitle information is inserted, and receives a user input from the user input unit 120 under the control of the control unit 110 . A graphical user interface for receiving may be further output.
이와 같은 본 발명의 실시 예에 따르면, 영상 정보의 오디오 트랙 정보로부터 추출되는 음성 레벨 기반의 타임라인 인덱스를 이용하여, 자막 정보의 보정 시간을 산출하고, 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하게 함으로써, 사용자가 원하는 동기화 방식 및 설정에 따라 적절한 타이밍에 자막 시간 구간별 동기화 보정을 가능하게 한다. 이에 대하여 도 2를 참조하여 보다 구체적으로 설명하도록 한다.According to this embodiment of the present invention, the correction time of subtitle information is calculated using the timeline index based on the audio level extracted from the audio track information of the video information, and the subtitle information can be synchronized according to the correction time. By outputting the image information, it is possible to perform synchronization correction for each subtitle time section at an appropriate timing according to a synchronization method and setting desired by the user. This will be described in more detail with reference to FIG. 2 .
도 2를 참조하면, 본 발명의 실시 예에 따른 자막 동기화부(140)는, 영상 정보 획득부(141), 자막 획득부(143), 오디오 트랙 추출부(145), 타임라인 인덱스 처리부(147), 보정 시간 산출부(149)를 포함한다.Referring to FIG. 2 , the caption synchronizer 140 according to an embodiment of the present invention includes an image information obtaining unit 141 , a caption obtaining unit 143 , an audio track extracting unit 145 , and a timeline index processing unit 147 . ), and a correction time calculation unit 149 .
먼저, 영상 정보 획득부(141)는 동영상 재생부(130)에서 재생 중인 영상 정보를 획득한다.First, the image information acquisition unit 141 acquires image information being reproduced by the video playback unit 130 .
그리고, 자막 획득부(143)는 전술한 바와 같이 동영상 재생부(130)에서 재생되는 영상 정보에 대응하여 사전 획득된 자막 정보를 획득한다. 전술한 바와 같이, 자막 정보는 영상 파일 또는 영상 스트림에 대응하여 저장부(170)에 사전 저장된 자막 파일로부터 획득되거나, 영상 파일 또는 영상 스트림의 오디오 신호로부터 STT(Speech To Text) 어플리케이션 프로세스를 이용하여 생성되는 STT 자막 정보로부터 획득되거나, STT 자막 정보를 기계 번역을 통해 획득된 제2 언어의 STT 자막 정보로부터 획득될 수 있다. Then, the subtitle acquisition unit 143 acquires the subtitle information obtained in advance in response to the image information reproduced by the video playback unit 130 as described above. As described above, the subtitle information is obtained from a subtitle file pre-stored in the storage unit 170 in response to an image file or an image stream, or from an audio signal of an image file or image stream using an STT (Speech To Text) application process. It may be obtained from generated STT subtitle information, or may be obtained from STT subtitle information of a second language obtained through machine translation by STT subtitle information.
그리고, 오디오 트랙 추출부(145)는, 동영상 재생부(130)에서 재생되는 영상 정보로부터 하나 이상의 오디오 트랙 정보를 추출한다. 여기서, 오디오 트랙 정보는 하나 또는 그 이상일 수 있으며, 복수의 언어에 따른 복수의 오디오 트랙 정보가 영상 파일 정보에 포함될 수 있다.In addition, the audio track extractor 145 extracts one or more audio track information from the image information reproduced by the video reproducing unit 130 . Here, there may be one or more audio track information, and a plurality of audio track information according to a plurality of languages may be included in the image file information.
그리고, 타임라인 인덱스 처리부(147)는, 상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리한다.Then, the timeline index processing unit 147 processes one or more timeline indexes from one or more audio tracks extracted from the image information.
여기서, 상기 타임라인 인덱스 처리는, 상기 오디오 트랙의 음량 정보에 기초하여, 타임라인별 오디오 레벨 변화량을 타임라인 인덱스에 매핑하는 처리를 포함할 수 있다. 이에 따라 영상 정보에서의 대화 시작점과 오디오 레벨 변화량에 기초한 대화 시작점의 비교 기준을 결정할 수 있다.Here, the timeline index processing may include mapping an amount of change in audio level for each timeline to a timeline index based on the volume information of the audio track. Accordingly, it is possible to determine a comparison criterion between the dialogue starting point in the image information and the dialogue starting point based on the amount of change in the audio level.
따라서, 보정 시간 산출부(149)는 상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하며, 출력부(150)는 상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력한다.Accordingly, the correction time calculator 149 calculates a correction time by comparing the one or more timeline indices with the subtitle information, and the output unit 150 outputs the image information with which the subtitle information can be synchronized according to the correction time. to output
보다 구체적으로, 보정 시간 산출부(149)는 자막 정보의 포맷 및 설정부(160)의 설정에 따라, 상기 타임라인 인덱스에 기초한 자막 정보와 영상 정보간 동기화 처리를 가변적으로 결정할 수 있다.More specifically, the correction time calculator 149 may variably determine the synchronization processing between the subtitle information and the image information based on the timeline index according to the format of the subtitle information and the setting of the setting unit 160 .
예를 들어, 상기 자막 정보는 자막 파일로부터 획득되는 자막 구간 파일 텍스트 정보를 포함할 수 있다. 이 경우, 보정 시간 산출부(149)는 상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 파일 텍스트 정보의 대화 시작점 정보를 비교하여 자막 구간별 상기 보정 시간을 산출할 수 있다.For example, the caption information may include caption section file text information obtained from the caption file. In this case, the correction time calculation unit 149 may calculate the correction time for each subtitle section by comparing the dialogue start point information identified from the timeline index with the dialogue start point information of the caption section file text information.
또한, 상기 자막 정보는 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 STT 텍스트 정보를 포함할 수 있다. 이 경우, 보정 시간 산출부(149)는, 상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 STT 텍스트 정보의 대화 시작점 정보를 비교하여 자막 구간별 상기 보정 시간을 산출할 수 있다.In addition, the caption information may include STT text information for a caption section obtained by STT (Speech To Text) conversion from the audio track information. In this case, the correction time calculator 149 may calculate the correction time for each subtitle section by comparing the conversation start point information identified from the timeline index with the conversation start point information of the STT text information of the subtitle section.
또한, 타임라인 인덱스 처리부(147)는, 자막 구간 임계치 설정에 따라 구분되는 자막 시간 구간별로 타임라인 인덱스를 매핑 할당할 수 있다. 이는 같은 오디오 트랙 내 자막 구간 개수의 확장 또는 감축을 통해 보다 정확한 대화 시작점 정보를 결정할 수 있도록 한다.Also, the timeline index processing unit 147 may map and allocate the timeline index for each subtitle time section divided according to the subtitle section threshold setting. This enables more accurate dialogue starting point information to be determined by extending or reducing the number of subtitle sections in the same audio track.
즉, 대화 시작점 정보는 복수일 수 있으며, 자막 구간 임계치 설정에 따라 그 수는 증가하거나 감소될 수 있고, 이는 사용자 설정 등에 따라 결정될 수 있다. 자막 구각 임계치가 낮게 설정될 수록 보다 정확한 보정 시간 산출이 가능할 수 있으나, 영상 재생 장치(100)의 연산량이 증가될 수 있다.That is, there may be a plurality of dialogue starting point information, and the number may be increased or decreased according to the subtitle section threshold setting, which may be determined according to a user setting or the like. As the caption angle threshold is set lower, a more accurate correction time may be calculated, but the amount of computation of the image reproducing apparatus 100 may increase.
또한, 타임라인 인덱스 처리부(147)는, 상기 오디오 트랙으로부터 산출되는 시간대별 오디오 레벨 인덱스 및 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 인덱스를 이용한 자막 구간 합성 연산에 따라, 새로운 타임라인 인덱스를 생성할 수도 있다.In addition, the timeline index processing unit 147 is configured to perform a caption section synthesis operation using the audio level index for each time period calculated from the audio track and the caption section index obtained by STT (Speech to Text) conversion from the audio track information. , it is also possible to create a new timeline index.
그리고, 다시 도 1을 참조하면, 설정부(160)에서는 이러한 타임라인 인덱스 처리부(147)의 합성 연산을 위한 자막 구간 임계치 정보 및 인덱스별 가중치 정보를 설정할 수 있으며, 이에 따라, 사용자는 보다 정확한 자막 동기화를 위한 세부적인 설정을 간단한 인터페이스를 통해 입력함으로써 결정할 수 있다.And, referring back to FIG. 1 , the setting unit 160 may set the subtitle section threshold information and the weight information for each index for the synthesis operation of the timeline index processing unit 147 , and accordingly, the user can provide more accurate subtitles. Detailed settings for synchronization can be determined by entering them through a simple interface.
또한, 출력부(150)는 영상 정보 및 상기 영상 정보로부터 추출되는 음성 정보와, 자막 정보를 출력하기 위한 하나 이상의 디스플레이 모듈 및 음성 출력 모듈을 포함할 수 있으며, 전술한 자막 동기화 설정 정보를 위한 설정 인터페이스를 출력할 수 있다.In addition, the output unit 150 may include at least one display module and an audio output module for outputting image information, audio information extracted from the image information, and subtitle information, and setting for the above-described subtitle synchronization setting information Interface can be printed.
그리고, 출력부(150)는 동영상 재생부(130)에서 재생된 영상 정보를 동기화되지 않은 자막 정보와 함께 재생하되, 상기 보정 시간이 산출된 경우, 상기 자막 정보가 동기화 가능함을 알리는 알림 인터페이스를 출력하며, 상기 알림 인터페이스에 대응하는 사용자 입력에 따라, 상기 보정 시간에 따라 상기 자막 정보가 동기화된 상기 영상 정보를 출력할 수 있다.In addition, the output unit 150 reproduces the video information reproduced by the video playback unit 130 together with the unsynchronized subtitle information, and outputs a notification interface indicating that the subtitle information can be synchronized when the correction time is calculated. and, according to a user input corresponding to the notification interface, the image information in which the subtitle information is synchronized according to the correction time may be output.
이에 따라, 사용자는 보정 시간 산출에 따른 동기화 준비 여부를 쉽게 확인할 수 있으며, 자막 동기화 인터페이스를 통해 실행 입력만 하면, 보정 시간 산출에 따른 자막 정보의 영상 정보 동기화가 신속히 처리됨으로써, 사용자 편의성을 향상시킬 수 있다.Accordingly, the user can easily check whether synchronization is ready according to the calculation of the correction time, and by simply inputting the execution through the subtitle synchronization interface, the image information synchronization of the subtitle information according to the calculation of the correction time is quickly processed, thereby improving user convenience. can
도 3은 본 발명의 실시 예에 따른 영상 재생 장치의 동작 방법을 설명하기 위한 흐름도이며, 도 4 내지 도 6은 본 발명의 실시 예에 따른 보정 시간 산출방법을 설명하기 위한 도면이고, 도 7 내지 도 9는 본 발명의 실시 예에 따른 영상 재생 인터페이스를 설명하기 위한 도면들이다.3 is a flowchart for explaining a method of operating an image reproducing apparatus according to an embodiment of the present invention, FIGS. 4 to 6 are views for explaining a correction time calculation method according to an embodiment of the present invention, and FIGS. 7 to 9 is a diagram for explaining an image playback interface according to an embodiment of the present invention.
도 3을 참조하면, 먼저 본 발명의 실시 예에 따른 영상 재생 장치(100)는, 동영상 재생부(130)에서 재생되는 영상 재생 정보에 대응하는 자막 정보를 획득한다(S101).Referring to FIG. 3 , first, the video reproducing apparatus 100 according to an embodiment of the present invention obtains caption information corresponding to the video reproduction information reproduced by the video reproducing unit 130 ( S101 ).
여기서, 자막 정보는 전술한 바와 같이, 별도의 자막 파일로부터 획득되거나, STT에 의해 획득되거나, STT로부터 기계 번역 처리된 텍스트 데이터로부터 획득될 수도 있다.Here, as described above, the caption information may be obtained from a separate caption file, obtained by STT, or may be obtained from text data processed by machine translation from STT.
그리고, 영상 재생 장치(100)는 재생 중인 영상 정보로부터 오디오 트랙 정보를 추출한다(S103).Then, the image reproducing apparatus 100 extracts audio track information from the image information being reproduced (S103).
이후, 영상 재생 장치(100)는 하나 이상의 오디오 트랙으로부터 타임라인 인덱스 처리를 수행한다(S105).Thereafter, the image reproducing apparatus 100 performs timeline index processing from one or more audio tracks (S105).
여기서, 타임라인 인덱스 처리는 보정 시간의 산출을 위해 안출된 것으로, 도 4 내지 도 6을 참조하면, 타임라인 인덱스는 오디오 트랙으로부터 시간 구간별로 산출되는 음량 증가분의 레벨 정보와 매핑될 수 있다. 즉, 타임라인 인덱스 처리부(147)는 타임라인 인덱스 정보에 타임라인별 음량 증가량 정보를 매핑할 수 있다. 음량 증가량이 일정 값 이상인 경우, 영상 정보에서의 대화 시작점 정보에 대응할 수 있다고 볼수 있으며, 이에 따라 자막 정보와의 동기화는 음량의 증가량을 기준으로 이루어질 수 있다.Here, the timeline index processing is devised to calculate the correction time. Referring to FIGS. 4 to 6 , the timeline index may be mapped with level information of the volume increase calculated for each time section from the audio track. That is, the timeline index processing unit 147 may map the volume increase amount information for each timeline to the timeline index information. When the volume increase is equal to or greater than a certain value, it can be seen that it can correspond to the conversation start point information in the video information, and accordingly, synchronization with the subtitle information can be performed based on the increase in the volume.
보다 구체적으로, 도 4에 도시된 바와 같이, 타임라인 인덱스 처리부(147)는, 비디오로부터 식별되는 대화 시작 시점과, 기존 자막의 시작 시점이 상이하더라도, 그 오디오 트랙 정보로부터 추출되는 인덱스 검증 기반의 영상 및 자막 간 동기화 보정 시간이 산출되고, 보정 시간에 기초한 자막 정보의 대화 시작점 시간 보정 처리가 수행되므로, 매우 정확하면서도 빠른 자막 동기화 보정이 가능하게 된다.More specifically, as shown in FIG. 4 , the timeline index processing unit 147 performs the index verification based on the audio track information extracted from the audio track information, even if the dialogue start time identified from the video and the existing subtitle start time are different. Since the synchronization correction time between the video and the subtitles is calculated and the dialogue starting point time correction processing of subtitle information based on the correction time is performed, very accurate and fast subtitle synchronization correction is possible.
예를 들어, 도 5에 도시된 바와 같이, 타임라인 인덱스 처리부(147)는 자막 파일이 자막 정보로서 획득된 경우, 상기 자막 파일의 시간 정보와 타임라인 인덱스를 비교하여, 동기화 보정 처리를 수행할 수 있다.For example, as shown in FIG. 5 , when the subtitle file is obtained as subtitle information, the timeline index processing unit 147 compares the time information of the subtitle file with the timeline index to perform synchronization correction processing. can
그리고, 도 6에 도시된 바와 같이, 영상 재생 장치(100)는 자막 정보에 오디오 트랙으로부터 획득된 STT 자막 정보와, 타임라인 인덱스 정보를 비교 동기화함으로써, 영상 정보의 오디오에 싱크된 자막 정보를 출력할 수 있게 된다. 이는 STT가 인식률이 높지 않아 발생되는 문제점들을 타임라인 인덱스 정보에 기초하여 보완할 수 있으며, 결과적으로 STT의 성능을 높이는 효과도 가져올 수 있다.And, as shown in FIG. 6 , the video reproducing apparatus 100 compares and synchronizes the STT caption information obtained from the audio track with the timeline index information to the caption information, thereby outputting caption information synchronized with the audio of the video information. be able to do This can compensate for problems that occur because the recognition rate of STT is not high based on timeline index information, and as a result, it can also bring about the effect of improving the performance of STT.
이와 같이 타임라인 인덱스 처리가 완료되면, 영상 재생 장치(100)는 자막 동기화된 영상 정보를 출력한다(S107).When the timeline index process is completed in this way, the video reproducing apparatus 100 outputs caption-synchronized video information (S107).
여기서, 도 7 내지 도 9를 참조하면, 본 발명의 실시 예에 따른 영상 재생 장치(100)는, 영상 재생을 위한 인터페이스를 출력하되, 타임라인 인덱스 처리가 완료되지 않은 경우에는 이를 알리는 '자막싱크 OFF' 알림 인터페이스를 삽입하여 출력할 수 있다.Here, referring to FIGS. 7 to 9 , the image reproducing apparatus 100 according to an embodiment of the present invention outputs an interface for image reproduction, but when the timeline index processing is not completed, a 'subtitle sync OFF' notification interface can be inserted and outputted.
또한, 도 8을 참조하면, 타임라인 인덱스 처리가 완료된 경우, 본 발명의 실시 예에 따른 영상 재생 장치(100)는 동기화된 자막 정보의 삽입이 가능함을 알리는 '자막싱크 ON' 기능 인터페이스를 출력할 수 있다.Also, referring to FIG. 8 , when the timeline index process is completed, the video reproducing apparatus 100 according to an embodiment of the present invention outputs a 'subtitle sync ON' function interface indicating that synchronized subtitle information can be inserted. can
이와 같이, 사용자는 간단히 '자막싱크 ON' 기능 버튼만 선택하면 자동적인 자막 싱크 보정을 제공받을 수 있으며, 이에 따라, 자막 싱크 보정이 처리된 경우, 도 8 상단에 도시된 바와 같이 보정 적용 완료 정보가 출력될 수 있다. 다만, 인터페이스 설정에 따라서는 보정 적용 완료 메시지만 표시되고, 세부적인 보정 시간 정보(+30)는 생략될 수도 있다.In this way, when the user simply selects the 'Subtitle Sync ON' function button, automatic subtitle sync correction can be provided. Accordingly, when subtitle sync correction is processed, correction application completion information as shown in the upper part of FIG. 8 . can be output. However, depending on the interface setting, only the correction application completion message is displayed, and detailed correction time information (+30) may be omitted.
한편, 도 9는 본 발명의 실시 예에 따른 설정부(160)의 설정 인터페이스를 도시한 도면이다.Meanwhile, FIG. 9 is a diagram illustrating a setting interface of the setting unit 160 according to an embodiment of the present invention.
도 9를 참조하면 본 발명의 실시 예에 따른 설정 인터페이스는, 영상 및 자막 동기화를 위한 기준 요소로서, 오디오 레벨 기준 설정, 오디오 레벨 및 자막(STT 또는 자막 파일) 기준 합성 설정, 오디오 레벨 및 자막(기계번역) 기준 합성 설정 중 적어도 하나를 수행할 수 있다. 특히 도 9에서는 사용자가 오디오 레벨 및 기계 번역된 자막 정보를 현재 설정으로 입력한 경우를 나타낸다.Referring to FIG. 9 , a setting interface according to an embodiment of the present invention is a reference element for video and subtitle synchronization, including audio level reference setting, audio level and subtitle (STT or subtitle file) reference synthesis setting, audio level and subtitle ( At least one of the machine translation) standard synthesis settings may be performed. In particular, FIG. 9 shows a case in which the user inputs audio level and machine-translated subtitle information as current settings.
또한, 설정 인터페이스를 통해 설정부(160)는 사용자의 오디오 트랙별 타임라인 인덱스 생성을 위한 인덱스 획득 대상으로서, 타임라인 오디오 인덱스와, STT 원문 인덱스와 STT 기계번역 인덱스 및 합성 가중치 정보를 포함하는 설정 정보를 저장 및 관리할 수 있다.In addition, through the setting interface, the setting unit 160 is an index acquisition target for generating a timeline index for each audio track of the user, and includes a timeline audio index, an STT text index, an STT machine translation index, and synthesis weight information. Information can be stored and managed.
도 10 내지 도 11은 본 발명의 실시 예에 따른 각 설정 및 합성 연산에 따른 타임라인 인덱스와 이에 따른 실 자막 보정을 예시하기 위한 도면들이다.10 to 11 are diagrams for exemplifying a timeline index according to each setting and synthesizing operation according to an embodiment of the present invention and correction of real captions accordingly.
보다 구체적으로, 도 10 및 도 11을 참조하면, 타임라인 인덱스는 자막 구간별로 매핑될 수 있다. 예를 들어, 제1 구간은 02:01~02:42이며, ..., 제131 구간은 36:01~36:09일 수 있다. 이에 따라, 각 타임라인별 영상의 음성 대화 구간은 타임라인 인덱스별로 각각 매핑될 수 있다.More specifically, referring to FIGS. 10 and 11 , the timeline index may be mapped for each subtitle section. For example, the first section may be from 02:01 to 02:42, ..., the 131st section may be from 36:01 to 36:09. Accordingly, the audio conversation section of the video for each timeline may be mapped for each timeline index.
특히, 오디오 트랙의 음성 대화 구간 인덱스는 타임라인 오디오 레벨 산출에 따라 각 대화 구간으로 분리 및 인덱스화 될 수 있으며, 그 분리 단위는 예를 들어 1000밀리세컨드 단위일 수 있다.In particular, the voice dialogue section index of the audio track may be separated and indexed into each dialogue section according to the calculation of the timeline audio level, and the separation unit may be, for example, 1000 milliseconds.
그리고, 인덱스 매핑을 위해, 타임라인 인덱스 처리부(147)는, 오디오 트랙으로부터 획득되는 타임라인 오디오 정보로부터 레벨 타입 정보를 획득할 수 있다. 레벨 타입 정보는 대화(D) 타입 정보, 배경음 (M) 타입 정보, 대화 및 배경음 (DM) 타입 정보 또는 기계학습 오디오 모델 타입 정보를 포함할 수 있다.And, for index mapping, the timeline index processing unit 147 may acquire level type information from timeline audio information obtained from an audio track. The level type information may include dialogue (D) type information, background sound (M) type information, dialogue and background sound (DM) type information, or machine learning audio model type information.
이에 따라, 타임라인 인덱스 처리부(147)는 타임라인 인덱스가 할당된 자막 구간에 따라, 각 레벨 타입을 할당할 수 있으며, 타임라인 인덱스가 할당된 자막 구간들은 다양한 레벨 타입에 따라 분류되거나, 분리 구성될 수 있다.Accordingly, the timeline index processing unit 147 may allocate each level type according to the subtitle section to which the timeline index is assigned, and the subtitle sections to which the timeline index is assigned are classified according to various level types or configured separately. can be
한편, 보정 시간 산출부(149)는 타임라인 인덱스 처리에 대응하는 오디오 구간 인덱스와, 자막 파일 또는 STT 자막 정보의 자막 구간 인덱스의 비교에 따라 산출되는 차이 시간 정보를 보정 시간으로 산출할 수 있다.Meanwhile, the correction time calculator 149 may calculate the difference time information calculated according to the comparison between the audio section index corresponding to the timeline index process and the caption section index of the subtitle file or STT subtitle information as the correction time.
여기서, 동기화 기준 시간을 T1이라 하고(예를 들어: 00:07), ATn을 동기화 기준 시간 T1 이후 첫 시작된 타임라인 인덱스의 오디오 레벨 구간의 대화 시작시간 (예를 들어, 02:31)이라고 하며, STn을 오디오 레벨 구간에 대응하는 자막 구간 인덱스 기준 상기 T1 이후 대화 시작 시간이라고 가정하면(예시 02:01), 보정 시간 STa는 Atn - Stn 으로 연산될 수 있으며, 실제 보정 시간은 예를 들어 02:31 - 02:01 = +30 밀리세컨드로 산출될 수 있는 것이다.Here, the synchronization reference time is referred to as T1 (eg: 00:07), and ATn is referred to as the conversation start time (eg, 02:31) of the audio level section of the timeline index first started after the synchronization reference time T1. , assuming that STn is the conversation start time after T1 based on the subtitle section index corresponding to the audio level section (eg 02:01), the correction time STa may be calculated as Atn - Stn, and the actual correction time is, for example, 02 :31 - 02:01 = +30 milliseconds.
한편, 도 11을 참조하면, 오디오 레벨 기반 타임라인 인덱스는 타임라인으로부터 임계시간 구간별로 샘플링된 정보를 포함할 수 있다. 특정 타임라인 인덱스 내에서 다음 대화 시작점이 등장하지 않는 시점까지는 그 구간의 종료점이 될 수 있다. 설정부(160)는 임계시간을 짧게, 중간, 길게 등으로 다르게 설정함으로써, 필요에 따라 비교대상 자막 시간 구간이 세분화되거나 병합되도록 설정할 수 있다.Meanwhile, referring to FIG. 11 , the audio level-based timeline index may include information sampled for each critical time period from the timeline. Until the point in time when the next conversation start point does not appear within a specific timeline index, it can be the end point of that section. The setting unit 160 may set the comparison target subtitle time period to be subdivided or merged as necessary by differently setting the threshold time to be short, medium, long, or the like.
다만, 도 11에 도시된 바와 같이, 타임라인 인덱스 처리부(147)는 자막 정보로부터 획득되는 자막 구간과, 오디오 레벨 정보로부터 획득되는 타임라인 인덱스 구간 사이의 분포 오차가 가장 작은 임계시간을 기본 구간으로 설정하는 것이 바람직히다.However, as shown in FIG. 11 , the timeline index processing unit 147 sets the threshold time having the smallest distribution error between the subtitle section obtained from the caption information and the timeline index section obtained from the audio level information as the basic section. It is preferable to set
한편, 도 12를 참조하면, 타임라인 인덱스 처리부(147)는, 오디오 레벨에 따라 산출된 타임라인 인덱스와, STT 로부터 산출된 타임라인 인덱스를 일정 가중치에 따라 합성 처리함으로서, 타임라인 인덱스를 생성할 수 있다.Meanwhile, referring to FIG. 12 , the timeline index processing unit 147 synthesizes the timeline index calculated according to the audio level and the timeline index calculated from the STT according to a predetermined weight to generate the timeline index. can
이를 위해, 영상 재생 장치(100)는 설정부(160)를 통한 사용자 합성 가중치 설정 입력을 수신할 수 있으며, 타임라인 인덱스 처리부(147)는 수신된 합성 가중치 정보와 영상 정보로부터 획득되는 오디오 레벨 기반 타임라인 인덱스 및 STT 기반 타임라인 인덱스를 합성 연산 처리함으로써 보다 효과적인 보정 시간 산출을 가능하게 한다. 이는, 각 자막 구간별로 처리될 수 있으며 따라서 각 자막 구간별 정확한 영상 동기화가 처리될 수 있다.To this end, the image reproducing apparatus 100 may receive a user synthesis weight setting input through the setting unit 160 , and the timeline index processing unit 147 based on the received synthesis weight information and the audio level obtained from the image information. By combining the timeline index and the STT-based timeline index, it is possible to more effectively calculate the correction time. This can be processed for each subtitle section, so that accurate image synchronization can be processed for each subtitle section.
한편, 타임라인 인덱스 처리부(147)는, STT 타임라인 인덱스 생성에 있어서 원본 언어 및 번역 언어를 이용한 형태소 기반 인덱스를 생성하고, 보정 시간 산출에 이용되도록 할 수 있다. Meanwhile, the timeline index processing unit 147 may generate a morpheme-based index using the original language and the translated language in generating the STT timeline index, and may be used to calculate the correction time.
예를 들어, 타임라인 인덱스 처리부(147)는 오디오 트랙 정보로부터 타임라인별 STT 인덱스를 생성하고, 원본 자막이 기기 언어 정보와 다른 경우, 대상 기기의 언어에 맞는 기계 번역 또는 언어 동기화를 처리할 수 있다.For example, the timeline index processing unit 147 may generate an STT index for each timeline from the audio track information, and if the original subtitle is different from the device language information, machine translation or language synchronization suitable for the language of the target device may be processed. there is.
그리고, 타임라인 인덱스 처리부(147)는 자막 구간별 형태소 분석을 수행하고, 자막 구간을 품사별로 분류할 수 있다(예를 들어, 명사/동사/조사 등 분류, 기본형 변환).In addition, the timeline index processing unit 147 may perform morpheme analysis for each subtitle section and classify the subtitle section by part-of-speech (eg, classification of nouns/verbs/propositions, etc., basic type conversion).
이에 따라, 타임라인 인덱스 처리부(147)는 타임라인별 오디오 레벨 인덱스도 형태소 기반으로 생성하되, 자막 정보 또한 형태소 구간 정보를 기반으로 인덱싱하여, 보정 시간 산출 비교에 이용할 수 있으며 이 경우 보다 정확한 자막의 형태소 구간별 영상 동기화가 처리될 수 있다.Accordingly, the timeline index processing unit 147 generates an audio level index for each timeline based on the morpheme, but also indexes the subtitle information based on the morpheme section information and uses it to calculate and compare the correction time. Image synchronization for each morpheme section may be processed.
한편, 원본 자막 파일이 존재하면서, STT 처리된 자막 정보도 존재하는 경우, 원본 자막 형태소의 인덱스와 STT 자막의 형태소 인덱스가 모두 존재할 수 있으며, 타임라인 인덱스 처리부(147)는, STT 자막 형태소 인덱스와 원본 자막 형태소 인덱스를 비교하여, 타임라인의 오차 보정을 수행할 수도 있다. 즉, 이 경우 오디오 레벨과는 무관하게 형태소 기반으로 비교 및 공유하는 타임라인 인덱스를 생성함으로써, 보다 정확한 자막의 형태소 구간별 영상 동기화를 처리할 수 있다.On the other hand, when the original subtitle file exists and STT-processed subtitle information also exists, both the original subtitle morpheme index and the STT subtitle morpheme index may exist, and the timeline index processing unit 147 performs the STT subtitle morpheme index and The error correction of the timeline may be performed by comparing the morpheme indexes of the original subtitles. That is, in this case, by generating a timeline index for comparison and sharing based on a morpheme regardless of an audio level, more accurate video synchronization for each morpheme section of the subtitle can be processed.
예를 들어, 타임라인 인덱스 처리부(147)는 원본 자막 인덱스와, STT 자막 인덱스의 형태소를 비교할 수 있으며, 같은 형태소가 공유된 상태로 보정된 타임라인 인덱스가 생성될 수 있는 것이다.For example, the timeline index processing unit 147 may compare the original subtitle index and the morpheme of the STT subtitle index, and a corrected timeline index may be generated in a state in which the same morpheme is shared.
예를 들어, 원본 자막과 STT 자막의 타임라인 인덱스의 형태소가 공유되는 경우는 아래와 같이 예시될 수 있다.For example, the case in which the morpheme of the timeline index of the original subtitle and the STT subtitle is shared may be exemplified as follows.
<형태소 공유 예시> <Example of morpheme sharing>
- 원본 (02:01 제임스, 안녕) vs STT (02:31 제임스) - Original (02:01 James , hello) vs STT (02:31 James )
- 원본 (02:31 도움, 어제, 은행) vs STT (03:01 도움, 은행)- Original (02:31 help , yesterday, bank ) vs STT (03:01 help , bank )
이에 따라, 보정 시간 산출부(149)는 형태소 공유 인덱스에 대응하는 원본 자막 인덱스와, STT 자막 인덱스 간 오차를 보정 시간으로서 산출할 수 있으며, 이는 상기 예시 기준 30초가 소요될 수 있다.Accordingly, the correction time calculation unit 149 may calculate the error between the original subtitle index corresponding to the morpheme sharing index and the STT subtitle index as the correction time, which may take 30 seconds according to the above example.
이와 같은 타임라인 인덱스 처리부(147)의 보정 프로세스들은 설정부(160)에 의해 조합 설정될 수 있다.Such correction processes of the timeline index processing unit 147 may be combined and set by the setting unit 160 .
전술한 보정 프로세스들은 예를 들어, 타임라인 인덱스 처리부(147)에서의 오디오 레벨 기반의 타임라인 인덱스 생성, 원본 자막 타임라인 인덱스 생성, STT 자막 타임라인 인덱스 생성 프로세스 중 적어도 하나를 포함할 수 있다.The above-described correction processes may include, for example, at least one of an audio level-based timeline index generation process, an original subtitle timeline index generation process, and an STT subtitle timeline index generation process in the timeline index processing unit 147 .
그리고, 보정 시간 산출부(149)에서는 오디오 레벨 기반의 타임라인 인덱스, 원본 자막 타임라인 인덱스 또는 STT 자막 타임라인 인덱스 중 적어도 하나를 이용하며, 비교 오차 보정, 가중치 값을 이용한 합성 처리 보정, 형태소 비교 또는 형태소 공유에 의한 오차 보정 중 적어도 하나를 수행할 수 있는 것이다.In addition, the correction time calculation unit 149 uses at least one of an audio level-based timeline index, an original subtitle timeline index, and an STT subtitle timeline index, and uses comparison error correction, synthesis processing correction using weight values, and morpheme comparison. Alternatively, at least one of error correction by sharing morphemes may be performed.
설정부(160)는 이를 위한 하나 이상의 설정 정보를 입력받아 저장부(170)에 저장할 수 있으며, 따라서 영상 재생 장치(100) 별로 효과적이고 최적화된 자막 동기화 설정을 가능하게 한다.The setting unit 160 may receive one or more setting information for this and store it in the storage unit 170 , thus enabling effective and optimized subtitle synchronization setting for each image reproducing apparatus 100 .
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.The method according to the present invention described above may be produced as a program to be executed by a computer and stored in a computer-readable recording medium. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape. , floppy disks, and optical data storage devices.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.The computer-readable recording medium is distributed in a network-connected computer system, so that the computer-readable code can be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the method can be easily inferred by programmers in the art to which the present invention pertains.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In addition, although preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention as claimed in the claims Various modifications may be made by those of ordinary skill in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

Claims (16)

  1. 영상 재생 장치의 동작 방법에 있어서,In the method of operating a video reproducing apparatus,
    재생할 영상 정보를 획득하는 단계;acquiring image information to be played back;
    상기 영상 정보에 대응하는 자막 정보를 획득하는 단계;obtaining subtitle information corresponding to the image information;
    상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리하는 단계;processing one or more timeline indices from one or more audio tracks extracted from the image information;
    상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하는 단계; 및calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and
    상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하는 단계를 포함하는outputting the image information in which the subtitle information can be synchronized according to the correction time
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  2. 제1항에 있어서,According to claim 1,
    상기 타임라인 인덱스를 처리하는 단계는,The step of processing the timeline index,
    상기 오디오 트랙의 음량 정보에 기초하여, 타임라인별 오디오 레벨 변화량을 타임라인 인덱스에 매핑하는 단계를 포함하는based on the volume information of the audio track, mapping the amount of change in audio level for each timeline to a timeline index
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  3. 제1항에 있어서,According to claim 1,
    상기 자막 정보는 자막 파일로부터 획득되는 자막 구간 파일 텍스트 정보를 포함하고,The subtitle information includes subtitle section file text information obtained from the subtitle file,
    상기 보정 시간을 산출하는 단계는,Calculating the correction time comprises:
    상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 파일 텍스트 정보의 대화 시작점 정보를 비교하여 상기 보정 시간을 산출하는 단계를 포함하는Comparing the dialogue starting point information identified from the timeline index with the dialogue starting point information of the subtitle section file text information, calculating the correction time
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  4. 제1항에 있어서,According to claim 1,
    상기 자막 정보는 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 STT 텍스트 정보를 포함하고,The subtitle information includes STT text information of a subtitle section obtained according to STT (Speech To Text) conversion from the audio track information,
    상기 보정 시간을 산출하는 단계는,Calculating the correction time comprises:
    상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 STT 텍스트 정보의 대화 시작점 정보를 비교하여 상기 보정 시간을 산출하는 단계를 포함하는Comparing the dialogue starting point information identified from the timeline index with the dialogue starting point information of the subtitle section STT text information, calculating the correction time
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  5. 제1항에 있어서,According to claim 1,
    상기 타임라인 인덱스는, 자막 구간 임계치 설정에 따라 구분되는 자막 시간 구간별로 할당되는 것을 특징으로 하는wherein the timeline index is allocated to each subtitle time period divided according to the setting of the subtitle period threshold value.
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  6. 제1항에 있어서,According to claim 1,
    상기 타임라인 인덱스는, 상기 오디오 트랙으로부터 산출되는 시간대별 오디오 레벨 인덱스 및 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 인덱스를 이용한 자막 구간 합성 연산에 따라 산출되는 것을 특징으로 하는The timeline index is calculated according to a caption section synthesis operation using an audio level index for each time period calculated from the audio track and a caption section index obtained from STT (Speech to Text) conversion from the audio track information. doing
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  7. 제6항에 있어서,7. The method of claim 6,
    상기 합성 연산을 위한 자막 구간 임계치 정보 및 인덱스별 가중치 정보를 설정하는 단계를 더 포함하는The method further comprising the step of setting subtitle section threshold information and weight information for each index for the synthesis operation
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  8. 제1항에 있어서,According to claim 1,
    상기 영상 정보를 출력하는 단계는,The step of outputting the image information includes:
    영상 정보를 동기화되지 않은 자막 정보와 함께 재생하는 단계;reproducing video information together with unsynchronized subtitle information;
    상기 보정 시간이 산출된 경우, 상기 자막 정보가 동기화 가능함을 알리는 알림 인터페이스를 출력하는 단계; 및outputting a notification interface informing that the subtitle information can be synchronized when the correction time is calculated; and
    상기 알림 인터페이스에 대응하는 사용자 입력에 따라, 상기 보정 시간에 따라 상기 자막 정보가 동기화된 상기 영상 정보를 출력하는 단계를 포함하는according to a user input corresponding to the notification interface, outputting the image information in which the subtitle information is synchronized according to the correction time
    영상 재생 장치의 동작 방법.A method of operating a video reproducing device.
  9. 영상 재생 장치에 있어서,In the video reproducing apparatus,
    재생할 영상 정보를 획득하는 영상 정보 획득부;an image information acquisition unit for acquiring image information to be reproduced;
    상기 영상 정보에 대응하는 자막 정보를 획득하는 자막 획득부;a caption obtaining unit obtaining caption information corresponding to the image information;
    상기 영상 정보로부터 추출된 하나 이상의 오디오 트랙으로부터, 하나 이상의 타임라인 인덱스를 처리하는 타임라인 인덱스 처리부;a timeline index processing unit that processes one or more timeline indices from one or more audio tracks extracted from the image information;
    상기 하나 이상의 타임라인 인덱스와 상기 자막 정보를 비교하여, 보정 시간을 산출하는 보정시간 산출부; 및a correction time calculator for calculating a correction time by comparing the one or more timeline indexes with the subtitle information; and
    상기 보정 시간에 따라 상기 자막 정보가 동기화 가능한 상기 영상 정보를 출력하는 출력부를 포함하는and an output unit for outputting the image information in which the subtitle information can be synchronized according to the correction time
    영상 재생 장치.video playback device.
  10. 제9항에 있어서,10. The method of claim 9,
    상기 타임라인 인덱스 처리부;는,The timeline index processing unit;
    상기 오디오 트랙의 음량 정보에 기초하여, 타임라인별 오디오 레벨 변화량을 타임라인 인덱스에 매핑하는Based on the volume information of the audio track, the audio level change amount for each timeline is mapped to a timeline index.
    영상 재생 장치.video playback device.
  11. 제9항에 있어서,10. The method of claim 9,
    상기 자막 정보는 자막 파일로부터 획득되는 자막 구간 파일 텍스트 정보를 포함하고,The subtitle information includes subtitle section file text information obtained from the subtitle file,
    상기 보정 시간 산출부는,The correction time calculation unit,
    상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 파일 텍스트 정보의 대화 시작점 정보를 비교하여 자막 구간별 상기 보정 시간을 산출하는Comparing the dialogue starting point information identified from the timeline index with the dialogue starting point information of the subtitle section file text information to calculate the correction time for each subtitle section
    영상 재생 장치.video playback device.
  12. 제9항에 있어서,10. The method of claim 9,
    상기 자막 정보는 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 STT 텍스트 정보를 포함하고,The subtitle information includes STT text information of a subtitle section obtained according to STT (Speech To Text) conversion from the audio track information,
    상기 보정 시간을 산출하는 단계는,Calculating the correction time comprises:
    상기 타임라인 인덱스로부터 식별되는 대화 시작점 정보와, 상기 자막 구간 STT 텍스트 정보의 대화 시작점 정보를 비교하여 자막 구간별 상기 보정 시간을 산출하는Comparing the dialogue starting point information identified from the timeline index with the dialogue starting point information of the subtitle section STT text information to calculate the correction time for each subtitle section
    영상 재생 장치.video playback device.
  13. 제9항에 있어서,10. The method of claim 9,
    상기 타임라인 인덱스는, 자막 구간 임계치 설정에 따라 구분되는 자막 시간 구간별로 할당되는 것을 특징으로 하는wherein the timeline index is allocated to each subtitle time period divided according to the setting of the subtitle period threshold value.
    영상 재생 장치.video playback device.
  14. 제9항에 있어서,10. The method of claim 9,
    상기 타임라인 인덱스는, 상기 오디오 트랙으로부터 산출되는 시간대별 오디오 레벨 인덱스 및 상기 오디오 트랙 정보로부터 STT(Speech To Text) 변환에 따라 획득되는 자막 구간 인덱스를 이용한 자막 구간 합성 연산에 따라 산출되는 것을 특징으로 하는The timeline index is calculated according to a caption section synthesis operation using an audio level index for each time period calculated from the audio track and a caption section index obtained by STT (Speech to Text) conversion from the audio track information. doing
    영상 재생 장치.video playback device.
  15. 제9항에 있어서,10. The method of claim 9,
    상기 타임라인 인덱스 처리부는The timeline index processing unit
    상기 합성 연산을 위한 자막 구간 임계치 정보 및 인덱스별 가중치 정보를 설정하는Setting the subtitle section threshold information and weight information for each index for the synthesis operation
    영상 재생 장치.video playback device.
  16. 제9항에 있어서,10. The method of claim 9,
    상기 출력부는 영상 정보를 동기화되지 않은 자막 정보와 함께 재생하고, 상기 보정 시간이 산출된 경우, 상기 자막 정보가 동기화 가능함을 알리는 알림 인터페이스를 출력하며, 상기 알림 인터페이스에 대응하는 사용자 입력에 따라, 상기 보정 시간에 따라 상기 자막 정보가 동기화된 상기 영상 정보를 출력하는The output unit reproduces the video information together with the unsynchronized caption information, and when the correction time is calculated, outputs a notification interface informing that the caption information can be synchronized, and according to a user input corresponding to the notification interface, the Outputting the image information in which the subtitle information is synchronized according to the correction time
    영상 재생 장치.video playback device.
PCT/KR2020/012833 2020-09-23 2020-09-23 Video reproduction device for providing subtitle synchronization and method for operating same WO2022065537A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012833 WO2022065537A1 (en) 2020-09-23 2020-09-23 Video reproduction device for providing subtitle synchronization and method for operating same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012833 WO2022065537A1 (en) 2020-09-23 2020-09-23 Video reproduction device for providing subtitle synchronization and method for operating same

Publications (1)

Publication Number Publication Date
WO2022065537A1 true WO2022065537A1 (en) 2022-03-31

Family

ID=80845438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/012833 WO2022065537A1 (en) 2020-09-23 2020-09-23 Video reproduction device for providing subtitle synchronization and method for operating same

Country Status (1)

Country Link
WO (1) WO2022065537A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760518A (en) * 2022-04-19 2022-07-15 高途教育科技集团有限公司 Video subtitle processing method and device, electronic equipment and readable storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110022841A (en) * 2009-08-28 2011-03-08 엘지전자 주식회사 Apparatus and method for image diplaying in image display device
US20160098998A1 (en) * 2014-10-03 2016-04-07 Disney Enterprises, Inc. Voice searching metadata through media content
KR20170114781A (en) * 2016-04-06 2017-10-16 네이버 주식회사 Method and apparatus for providing subtitle mapping section adjustment service for contents
KR102080315B1 (en) * 2018-06-01 2020-02-24 네이버 주식회사 Method for providing vedio service and service server using the same
KR102147329B1 (en) * 2014-06-17 2020-08-24 엘지전자 주식회사 Video display device and operating method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110022841A (en) * 2009-08-28 2011-03-08 엘지전자 주식회사 Apparatus and method for image diplaying in image display device
KR102147329B1 (en) * 2014-06-17 2020-08-24 엘지전자 주식회사 Video display device and operating method thereof
US20160098998A1 (en) * 2014-10-03 2016-04-07 Disney Enterprises, Inc. Voice searching metadata through media content
KR20170114781A (en) * 2016-04-06 2017-10-16 네이버 주식회사 Method and apparatus for providing subtitle mapping section adjustment service for contents
KR102080315B1 (en) * 2018-06-01 2020-02-24 네이버 주식회사 Method for providing vedio service and service server using the same

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760518A (en) * 2022-04-19 2022-07-15 高途教育科技集团有限公司 Video subtitle processing method and device, electronic equipment and readable storage medium

Similar Documents

Publication Publication Date Title
US8810728B2 (en) Method and apparatus for synchronizing audio and video streams
KR101990023B1 (en) Method for chunk-unit separation rule and display automated key word to develop foreign language studying, and system thereof
WO2014046401A1 (en) Device and method for changing shape of lips on basis of automatic word translation
US8538753B2 (en) Generating representations of group interactions
WO2016060358A1 (en) Video processing apparatus and method
EP2499612A2 (en) Method and apparatus for managing data
WO2019117362A1 (en) System for synchronizing accompaniment with singing voice in online karaoke service and apparatus for performing same
WO2020045753A1 (en) System and method for providing interworking service between voice extraction and machine translation of video content by using cloud service
CN111954064B (en) Audio and video synchronization method and device
WO2019103231A1 (en) Video summary information reproducing device, video summary information providing server, and method therefor
WO2017010690A1 (en) Video providing apparatus, video providing method, and computer program
US20240064383A1 (en) Method and Apparatus for Generating Video Corpus, and Related Device
WO2022065537A1 (en) Video reproduction device for providing subtitle synchronization and method for operating same
WO2015126097A1 (en) Interactive server and method for controlling the server
CN207854084U (en) A kind of caption display system
CN112581965A (en) Transcription method, device, recording pen and storage medium
WO2016190472A1 (en) Device and method for producing augmented reality image by using chroma key
JP2021090172A (en) Caption data generation device, content distribution system, video reproduction device, program, and caption data generation method
EP3839953A1 (en) Automatic caption synchronization and positioning
WO2024146338A1 (en) Video generation method and apparatus, and electronic device and storage medium
WO2022265148A1 (en) Method for providing speech video and computing device for executing method
US20120154514A1 (en) Conference support apparatus and conference support method
CN112653916B (en) Method and equipment for synchronously optimizing audio and video
WO2018074658A1 (en) Terminal and method for implementing hybrid subtitle effect
JPH0997220A (en) Electronic conference system and recording and reproducing method for time sequential data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20955335

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20955335

Country of ref document: EP

Kind code of ref document: A1