WO2019176816A1 - 字幕生成装置、字幕生成方法及びプログラム - Google Patents

字幕生成装置、字幕生成方法及びプログラム Download PDF

Info

Publication number
WO2019176816A1
WO2019176816A1 PCT/JP2019/009509 JP2019009509W WO2019176816A1 WO 2019176816 A1 WO2019176816 A1 WO 2019176816A1 JP 2019009509 W JP2019009509 W JP 2019009509W WO 2019176816 A1 WO2019176816 A1 WO 2019176816A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
text
video
video data
time
Prior art date
Application number
PCT/JP2019/009509
Other languages
English (en)
French (fr)
Inventor
須山 明昇
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2019176816A1 publication Critical patent/WO2019176816A1/ja
Priority to US17/016,450 priority Critical patent/US11363217B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • This application relates to a caption generation device, a caption generation method, and a program.
  • dialogue subtitles will be displayed along with the video.
  • There are known techniques for making it possible to switch between display and non-display of translated subtitles and to change the display position of translated subtitles see, for example, Patent Document 1 to Patent Document 3).
  • the present invention has been made in view of the above, and an object thereof is to provide a caption generation device, a caption generation method, and a program capable of efficiently generating a translated caption for a text image in an image.
  • a caption generation device extracts a text information extraction unit that extracts character information from video data of video including characters, and the text information extraction unit extracts the text information.
  • a text match detection unit that detects character information included in dialogue information that is dialogue data associated with the video data, and translated text information obtained by translating the character information detected by the text match detection unit Display of the translated text information in the video data based on the text translation unit for generating the text, text region information indicating a region where the video corresponding to the character information is displayed in the video data, and the translated text information
  • a display position calculation unit for calculating a position; and the display position information calculated by the display position calculation unit based on the video data. Characterized in that it and a caption synthesizing unit subjecting the translation text information as subtitle.
  • a caption generation device includes a video data storage unit that stores video data of a video including characters, a dialogue information storage unit that stores dialogue information that is dialogue data associated with the video data, Of the dialogue information stored in the dialogue information storage unit, the text information storage unit storing character information extracted from the video and the appearance time information that is the time when the character information extracted from the video appears.
  • a coincidence time storage unit that stores coincidence time information that is a time when the character information stored in the information storage unit appears; an appearance time information of the character information that is stored in the text information storage unit; and the coincidence time storage unit Is generated by the time axis video generation unit that generates a time axis video displayed on the entire time axis of the video data, and the time axis video generation unit
  • the time axis image was characterized by comprising a video synthesizing unit for synthesizing the video data.
  • a subtitle generation method includes a text information extraction step for extracting character information from video data of video including characters, and a dialogue associated with the video data among the character information extracted by the text information extraction step.
  • a text match detection step for detecting character information included in the dialogue information which is data of the text
  • a text translation step for generating translated text information obtained by translating the character information detected by the text match detection step, and the character in the video data
  • a display position calculating step for calculating a display position of the translated text information in the video data based on text area information indicating an area in which a video corresponding to the information is displayed and the translated text information; and the display position calculating Based on the display position information calculated in the step, the video Characterized in that it comprises a closed caption synthesizing step subjecting the translation text information as subtitles data, the.
  • the caption generation method includes a video data storage step of storing video data of video including characters, a dialogue information storage step of storing dialogue information that is dialogue data associated with the video data, Of the dialogue information stored in the dialogue information storage step, the text information storage step for storing character information extracted from the video and the appearance time information that is the time when the character information extracted from the video appears, the character information
  • a coincidence time storing step for storing a coincidence time that is a time when the character appears, a time axis image in which the appearance time of the character information and the coincidence time are displayed on the entire time axis of the video data is generated
  • a time-axis video generation step that combines the video data with the time-axis video generated by the time-axis video generation step.
  • the program according to the present invention includes a text information extraction step for extracting character information from video data of video including characters, and dialogue data associated with the video data among the character information extracted by the text information extraction step.
  • a text match detection step for detecting character information included in the dialogue information
  • a text translation step for generating translated text information obtained by translating the character information detected by the text match detection step, and the character information in the video data.
  • a display position calculating step for calculating a display position of the translated text information in the video data based on text region information indicating a region where a corresponding video is displayed and the translated text information; and the display position calculating step. Based on the calculated display position information, the video data Wherein the caption synthesizing step subjecting the translation text information as subtitle, to execute the city to the computer.
  • the program according to the present invention includes a video data storage step for storing video data of video including characters, a dialogue information storage step for storing dialogue information that is dialogue data associated with the video data, and the video Of the dialogue information stored in the dialogue information storage step, the text information storage step for storing the extracted character information and the appearance time information that is the time when the character information extracted from the video appears, the character information appears.
  • a time for generating a time-axis video in which the match time storage step for storing the match time, which is the time of the match, the appearance time of the character information, and the match time are displayed on the entire time axis of the video data Axis image generation step, and image composition for synthesizing the time axis image generated by the time axis image generation step with the image data To execute the steps, to the computer.
  • FIG. 1 is a block diagram illustrating a configuration example of a caption generation device according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of video data.
  • FIG. 3 is a diagram illustrating an example of display positions of video data and translated text information.
  • FIG. 4 is a diagram for explaining another example of display positions of video data and translated text information.
  • FIG. 5 is a diagram for explaining another example of display positions of video data and translated text information.
  • FIG. 6 is a flowchart illustrating an example of processing performed by the caption generation device according to the first embodiment.
  • FIG. 7 is a flowchart illustrating an example of processing performed by the text match detection unit of the caption generation device according to the first embodiment.
  • FIG. 1 is a block diagram illustrating a configuration example of a caption generation device according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of video data.
  • FIG. 3 is a diagram illustrating an example of display positions of video data and translated text information.
  • FIG. 4 is
  • FIG. 8 is a flowchart illustrating an example of processing performed by the display position calculation unit of the caption generation device according to the first embodiment.
  • FIG. 9 is a block diagram illustrating a configuration example of a caption generation device according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of the keyword information storage unit according to the second embodiment.
  • FIG. 11 is a flowchart illustrating an example of processing performed by the caption generation device according to the second embodiment.
  • FIG. 12 is a block diagram illustrating a configuration example of a caption generation device according to the third embodiment.
  • FIG. 13 is a diagram illustrating an example of the displayed editing screen.
  • FIG. 14 is a flowchart illustrating an example of processing performed by the caption generation device according to the third embodiment.
  • FIG. 1 is a block diagram illustrating a configuration example of a caption generation device according to the first embodiment.
  • the caption generation device 10 translates video data 100 of a video including a text video of a first language such as a foreign language into a second language different from the first language (hereinafter simply referred to as “caption”). Is generated.
  • the caption generation device 10 generates captions obtained by translating video data 100 including video text in English into Japanese.
  • generation apparatus 10 produces
  • the first language is described as a foreign language.
  • the video data 100 will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of video data according to the first embodiment.
  • the video data 100 is video data including a foreign language text video 100a.
  • the video data 100 is, for example, a moving image composed of images of several tens of frames per second.
  • the video data 100 includes a foreign language text video 100a and dialogue information 110 which is foreign language dialogue data.
  • the video data 100 may include translation line information obtained by translating a foreign language.
  • the foreign language text image 100a is, for example, an image of text written on paper, an image of characters written on a billboard, or an image of characters written on a plate of a room name.
  • Dialog information 110 is foreign language dialog data before translation corresponding to the video.
  • the dialogue information 110 includes dialogue text information including dialogue text before translation, and timing of starting and ending dialogue speech corresponding to the video data 100.
  • the line timing information is a start time when the start time of the video data 100 is zero and an end time when the video data 100 ends.
  • the dialogue timing information may be defined by the number of frames with the first frame of the video data 100 as the first frame, or stamp position information provided in the video data 100.
  • the dialogue information 110 may be created by speech recognition processing from speech speech data included in the video data 100.
  • the dialogue information 110 may be created from text data of script or script dialogue.
  • the caption generation device 10 is, for example, an arithmetic processing device (control unit) configured by a CPU (Central Processing Unit), a video processing processor, and the like.
  • the caption generation device 10 loads a program stored in a storage unit (not shown) from the memory and executes instructions included in the program.
  • the caption generation device 10 may be composed of one or a plurality of devices.
  • the caption generation device 10 includes a text information extraction unit 11, a text match detection unit 12, a text translation unit 13, a display position calculation unit 18, and a caption synthesis unit 19.
  • the text information extraction unit 11 extracts the in-video text information 120 from the video data 100 of the video including the foreign language text video 100a. More specifically, the text information extraction unit 11 acquires the video data 100. Then, the text information extraction unit 11 performs character recognition processing such as OCR (Optical Character Reader) processing on the acquired video data 100 to extract character information that is a digital character code that can be used by a computer or the like. To do. Since the foreign language is included in the foreign language text image 100a, character information is extracted. This character information is referred to as in-video text information 120. The text information extraction unit 11 outputs the extracted in-video text information 120 to the text match detection unit 12 and the display position calculation unit 18.
  • OCR Optical Character Reader
  • the text information extraction unit 11 extracts the in-video text information 120 from the text video in the same language as the language of the dialogue information 110. In other words, the text information extraction unit 11 extracts the in-video text information 120 from the text video in the language before translation.
  • the text information extracting unit 11 may extract the in-video text information 120 only for the foreign language text video 100a displayed up. More specifically, the text information extraction unit 11 may extract the in-video text information 120 when the ratio of the display area of the foreign language text video 100a in the display area of the entire video is equal to or greater than a threshold value.
  • the text information extraction unit 11 performs image recognition processing on the video data 100 to extract and extract, for example, a video of text written on paper, a video of a billboard, and a video of a plate of a room name.
  • the text included in the video may be extracted as the text information 120 in the video.
  • the text information extraction unit 11 extracts the text information 120 in the video
  • the text information extraction unit 11 acquires the text information 120 indicating the area in the video data 100 where the text information 120 in the video is displayed as a video.
  • the text area information 130 is information indicating, for example, a range including characters displayed in the text video 100 a as a range in the horizontal direction and the vertical direction in the video data 100.
  • the text information extraction unit 11 outputs the text area information 130 to the display position calculation unit 18.
  • the text information extraction unit 11 acquires appearance time information of the time when the foreign language text image 100a appears in the image data 100 when the in-image text information 120 is extracted.
  • the appearance time is a display time defined by an appearance time T11 in which the start time of the video data 100 is zero and a disappearance time T12 at which the display ends.
  • the appearance time information may be defined by the number of frames with the first frame of the video data 100 as the first frame, or stamp position information provided in the video data 100.
  • the text match detection unit 12 detects the character information included in the dialogue information 110 associated with the video data 100 as the match text among the in-video text information 120 that is the character information extracted by the text information extraction unit 11. More specifically, the text match detection unit 12 is included in the dialogue information 110 of the video data 100 within a predetermined range based on the appearance time at which the characters included in the video appear in the extracted in-video text information 120. Get the text (character information). For example, the text match detection unit 12 acquires the dialogue information 110 from time T21 before the time ⁇ T from the appearance time T11 to time T22 after the time ⁇ T from the disappearance time T12. The time ⁇ T is, for example, 5 seconds.
  • the text match detection unit 12 searches the acquired dialogue information 110 for a match text that matches the extracted in-video text information 120. Then, the text match detection unit 12, based on the search result, if there is a match text, in other words, if the video text information 120 is text (character information) included in the dialogue information 110, the video text information 120. To be translated. Based on the search result, the text match detection unit 12 translates the extracted in-video text information 120 when there is no matched text, in other words, when the in-video text information 120 is text that is not included in the dialogue information 110. Not subject to. When there is a matching text, the text matching detection unit 12 outputs the matching text information 140 to the text translation unit 13.
  • the text match detection unit 12 matches the match text. It is detected as matching text information 140.
  • the text match detection unit 12 matches the line information 110 for reading a sentence written on paper by a character and the in-video text information 120 of the sentence written on paper within a predetermined range of time. It is detected as matching text information 140.
  • the text translation unit 13 generates translated text information 150 obtained by translating the matching text that is the character information detected by the text matching detection unit 12.
  • the text translation unit 13 translates the matching text by a known translation method.
  • the translation method may be any known method and is not limited.
  • the text translation unit 13 outputs the translated translation text as translation text information 150 to the display position calculation unit 18.
  • the translated text information 150 is information obtained by translating character information, which is a digital character code usable by a computer or the like, into character information in a different language.
  • the display position calculation unit 18 calculates the display position of the translated text information 150 in the video data 100 from the text area information 130 and the translated text information 150 translated by the text translation unit 13. More specifically, the display position calculation unit 18 calculates the display position of the translated text information 150 from the text area information 130 and the translated text information 150 so that it does not overlap the text area information 130 in the video data 100. The display position calculation unit 18 outputs the calculated display position information 160 together with the translation text information 150 to the caption composition unit 19.
  • the font, font size, color, and maximum number of characters in one line when displaying the translated text information 150 as subtitles are preset. From these, the translated text information 150 is a display space that is the size of an area necessary for displaying the translated text in the video data 100 by calculating the number of lines and the number of characters per line of the translated text according to the number of characters of the translated text. Is determined.
  • the display time of the appearance time information is the display time for displaying the translated text information 150 as subtitles.
  • FIG. 3 is a diagram illustrating an example of display positions of video data and translated text information. If there is a display space for the translated text information 150 in the lower part 101 of the text area information 130 in the video data 100, the display position calculation unit 18 sets the lower part 101 of the text area information 130 as the display position. Alternatively, if there is a display space for the translated text information 150 in the upper part 102 of the text area information 130 in the video data 100, the display position calculation unit 18 sets the upper part 102 of the text area information 130 as the display position.
  • the display position calculation unit 18 sets the right part 103 of the text area information 130 as the display position.
  • the display position calculation unit 18 sets the left part 104 of the text area information 130 as the display position.
  • FIG. 4 is a diagram for explaining another example of display positions of video data and translated text information.
  • the display position calculation unit 18 may calculate the display position in accordance with the writing direction, which is the direction in which the characters of the in-video text information 120 displayed in the text area information 130 are arranged. For example, the display position calculation unit 18 determines whether or not there is a display space for displaying the translated text information 150 in vertical writing when the writing direction of the in-video text information 120 is vertical, in other words, vertical writing. To do. In the example shown in FIG. 4, there are display spaces in the right part 103 and the left part 104 of the text area information 130, but there is no display space in the upper part and the lower part. In this case, the display position calculation unit 18 sets the right part 103 or the left part 104 of the text area information 130 as a display position where the translated text information 150 is displayed in vertical writing as in the video text information 120.
  • FIG. 5 is a diagram for explaining another example of display positions of video data and translated text information.
  • the display position calculation unit 18 may calculate a tilted display position in accordance with the tilt of the text area information 130. For example, when the in-video text information 120 is tilted downward to the right, the display position calculation unit 18 determines whether there is a display space for displaying the translated text information 150 downward. In the example shown in FIG. 5, there are display spaces in the upper part 101, the lower part 102, the right part 103, and the left part 104 of the text area information 130. In this case, the display position calculation unit 18 sets the translated text information 150 tilted in the same manner as the in-video text information 120 as a display position for display.
  • the caption synthesizing unit 19 generates subtitle-added video data 170 in which the translated text information 150 is added as a subtitle to the foreign language text video 100a of the video data 100 based on the display position information 160 calculated by the display position calculating unit 18. Generate. More specifically, the caption of the foreign language text image 100a is defined by the translated text information 150, the display position information 160, and the display time. Furthermore, the subtitles of the foreign language text image 100a may be defined including at least one of font, font size, and color, for example. The subtitles of the text image 100a in the foreign language are characters that can be recognized by humans defined by these.
  • FIG. 6 is a flowchart illustrating an example of processing performed by the caption generation device according to the first embodiment.
  • FIG. 7 is a flowchart illustrating an example of processing performed by the text match detection unit of the caption generation device according to the first embodiment.
  • FIG. 8 is a flowchart illustrating an example of processing performed by the display position calculation unit of the caption generation device according to the first embodiment.
  • the text information extraction unit 11 extracts the in-video text information 120 (step S11). More specifically, in the caption generation device 10, the text information extraction unit 11 extracts the in-video text information 120 from the video data 100 of the video including the foreign language text video 100 a. In addition, the caption generation device 10 acquires, as the text area information 130, the area where the in-video text information 120 is displayed in the video data 100 by the text information extraction unit 11. In addition, the caption generation device 10 acquires appearance time information indicating the timing at which the foreign language text video 100 a is displayed on the video data 100 by the text information extraction unit 11. When the caption information extraction unit 11 extracts all the in-video text information 120 of the video data 100 by the text information extraction unit 11, the process proceeds to step S12.
  • the caption generation device 10 detects the matched text by the text match detection unit 12 (step S12). The process of step S12 will be described later. When the caption generation device 10 detects all the matching texts in the video data 100, the processing proceeds to step S13.
  • the caption generation device 10 translates the text by the text translation unit 13 (step S13). More specifically, the caption generation device 10 uses the text translation unit 13 to generate translated text information 150 obtained by translating the matching text using a known translation method. After translating all the matching text information 140, the caption generation device 10 proceeds to step S14.
  • the caption generation device 10 calculates the display position by the display position calculation unit 18 (step S14). The process of step S14 will be described later. When the caption generation device 10 calculates the display position for all the translated text information 150, the processing proceeds to step S15.
  • the caption generation device 10 synthesizes a caption by the caption composition unit 19 (step S15). More specifically, the caption generation device 10 provides the translated text information 150 to the foreign text image 100 a of the video data 100 based on the display position information 160 calculated by the display position calculation unit 18 by the caption synthesis unit 19. Video data 170 with subtitles attached as subtitles is generated. The caption generation device 10 ends the processing when all the translated text information 150 is combined with the video data 100 as captions.
  • the text match detection unit 12 acquires the time when the in-video text information 120 is extracted (step S1201). More specifically, the text match detection unit 12 acquires the display time of the appearance time information for the in-video text information 120 extracted by the text information extraction unit 11. The text match detection unit 12 proceeds to step S1202.
  • the text match detection unit 12 acquires the dialogue information 110 of 5 seconds before and after the time when the in-video text information 120 is extracted from the dialogue information 110 (step S1202). More specifically, the text match detection unit 12 acquires the dialogue information 110 corresponding to the video data 100 of 5 seconds before and after the display time of the appearance time information of the extracted in-video text information 120. The text match detection unit 12 proceeds to step S1203.
  • the text match detection unit 12 searches the acquired dialogue information 110 for the presence of in-video text information 120 extracted from the video data 100 (step S1203). More specifically, the text match detection unit 12 compares the acquired dialogue information 110 with the extracted in-video text information 120 to detect a match text. The text match detection unit 12 proceeds to step S1204.
  • the text match detection unit 12 determines whether there is a match text (step S1204). More specifically, when the matched text is detected in step S1203 (Yes in step S1204), the text match detection unit 12 proceeds to step S1205. If no match text is detected in step S1203 (No in step S1204), the text match detection unit 12 ends the process without performing the processes in and after step S13.
  • the text match detection unit 12 outputs the match text information 140 to the text translation unit 13 (step S1205). Thereby, the process after step S13 is performed.
  • the display position calculation unit 18 acquires the number of lines of translated text and the number of characters per line (step S1401). More specifically, the display position calculation unit 18 obtains the number of translated text lines and the number of characters per line from the translated text information 150 and the maximum number of characters per line when the translated text information 150 is displayed as a caption. Then, the display position calculation unit 18 calculates a range in the horizontal direction and the vertical direction when displaying the translated text information 150 in the video data 100 from the font size of the translated text, the number of lines, and the number of characters per line. . The display position calculation unit 18 proceeds to step S1402.
  • the display position calculation unit 18 determines whether there is a display space for the translated text at the bottom of the original text area (step S1402).
  • the horizontal and vertical ranges for displaying the translated text information 150 are included in the horizontal and vertical ranges for displaying the predetermined video data 100 in the video data 100. This is the case.
  • the absence of display space means that in the video data 100, the range in the horizontal direction and the vertical direction in which the translated text information 150 is displayed is the range in the horizontal direction and the vertical direction in which the predetermined video data 100 is displayed. It is not included in the case and exceeds the range.
  • the display position calculation unit 18 sets the horizontal and vertical ranges in which the translated text information 150 is displayed based on the text area information 130 acquired from the text information extraction unit 11 in S1402 to S1407, which will be described later. If the display position calculation unit 18 determines that there is a display space for the translated text information 150 in the lower part 101 of the text area information 130 (Yes in step S1402), the process proceeds to step S1408. If the display position calculation unit 18 determines that there is no display space for the translated text information 150 in the lower part 101 of the text area information 130 (No in step S1402), the process proceeds to step S1403.
  • the display position calculation unit 18 determines whether or not there is a display space for the translated text information 150 above the original text area (step S1403). If the display position calculation unit 18 determines that there is a display space for the translated text information 150 in the upper part 102 of the text area information 130 (Yes in step S1403), the process proceeds to step S1409. If the display position calculation unit 18 determines that there is no display space for the translated text information 150 in the upper part 102 of the text area information 130 (No in step S1403), the process proceeds to step S1404.
  • the display position calculation unit 18 determines whether or not there is a display space for the translated text information 150 in the right part of the original text area (step S1404). If the display position calculation unit 18 determines that there is a display space for the translated text information 150 in the right part 103 of the text area information 130 (Yes in step S1404), the process proceeds to step S1410. If the display position calculation unit 18 determines that there is no display space for the translated text information 150 in the right part 103 of the text area information 130 (No in step S1404), the process proceeds to step S1405.
  • the display position calculation unit 18 determines whether or not there is a display space for the translated text information 150 on the left side of the original text area (step S1405). If the display position calculation unit 18 determines that there is a display space for the translated text information 150 in the left part 104 of the text area information 130 (Yes in step S1405), the process proceeds to step S1411. If the display position calculation unit 18 determines that there is no display space for the translated text information 150 in the left part 104 of the text area information 130 (No in step S1405), the process proceeds to step S1406.
  • the display position calculation unit 18 sets the display position at the lower part of the original text area (step S1406).
  • the display position calculation unit 18 sets the lower part 101 of the text area information 130 as the display position.
  • the display position calculation unit 18 proceeds to step S1407.
  • the display position calculation unit 18 reduces the font size so that the translated text information 150 enters the space below the original text area (step S1407). Thereby, the size of the display space is reduced. The display position calculation unit 18 ends the process.
  • the display position calculation unit 18 sets the display position at the lower part of the original text area (step S1408).
  • the display position calculation unit 18 sets the lower part 101 of the text area information 130 as the display position.
  • the display position calculation unit 18 ends the process.
  • the display position calculation unit 18 sets the display position at the upper part of the original text area (step S1409).
  • the display position calculation unit 18 sets the upper part 102 of the text area information 130 as the display position.
  • the display position calculation unit 18 ends the process.
  • the display position calculation unit 18 sets the display position to the right part of the original text area (step S1410).
  • the display position calculation unit 18 sets the right part 103 of the text area information 130 as the display position.
  • the display position calculation unit 18 ends the process.
  • the display position calculation unit 18 sets the display position at the left part of the original text area (step S1411).
  • the display position calculation unit 18 sets the left part 104 of the text area information 130 as the display position.
  • the display position calculation unit 18 ends the process.
  • the video data 170 with subtitles is generated by synthesizing the subtitles obtained by translating the foreign language text video 100a of the video data 100 with the video data 100.
  • the subtitle-added video data 170 obtained by synthesizing the video data 100 with the subtitle translated from the foreign language text video 100a of the video data 100 is provided. Can be generated. In this way, the present embodiment can efficiently generate translated subtitles for the foreign language text image 100a of the image data 100.
  • the foreign language text video 100a of the video data 100 is translated.
  • this embodiment can produce
  • the translated subtitle is generated only for the necessary foreign language text image 100a, it is possible to suppress an excessive amount of subtitle information.
  • FIG. 9 is a block diagram illustrating a configuration example of a caption generation device according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of the keyword information storage unit according to the second embodiment.
  • FIG. 11 is a flowchart illustrating an example of processing performed by the caption generation device according to the second embodiment.
  • the subtitle generating apparatus 10A has the same basic configuration as the subtitle generating apparatus 10 of the first embodiment. In the following description, components similar to those of the caption generation device 10 are denoted by the same reference numerals or corresponding reference numerals, and detailed description thereof is omitted.
  • the caption generation device 10A of the present embodiment includes a text information extraction unit 11, a display position calculation unit 18, a caption synthesis unit 19, a keyword information storage unit 15A, and a text replacement unit 16A similar to those in the first embodiment. And have.
  • the keyword information storage unit 15A stores a keyword 151A and translation text 152A related to the video data 100 and requiring translation in advance. For each video data 100, the keyword information storage unit 15 ⁇ / b> A stores, among the in-video text information 120 included in the video data 100, what is necessary or important on the story and needs to be translated. If there is a keyword 151A that matches the extracted in-video text information 120, the translated text 152A is substituted for translation.
  • the text replacement unit 16A acquires the keyword 151A and the translation text 152A that match the in-video text information 120 from the keyword information storage unit 15A, replaces the text in the in-video text information 120 with the translation text 152A, and translates it. .
  • the text replacement unit 16A outputs the translated translation text information 150 to the display position calculation unit 18.
  • step S21, step S23, and step S24 in the flowchart shown in FIG. 11 is the same as the processing in step S11, step S14, and step S15 in the flowchart shown in FIG.
  • the caption generation device 10A replaces text by the text replacement unit 16A (step S22). More specifically, the caption generation device 10A acquires the keyword 151A and the translated text 152A that match the in-video text information 120 from the keyword information storage unit 15A by the text replacement unit 16A. Then, the caption generation device 10A translates the text of the in-video text information 120 with the translated text 152A by the text replacement unit 16A. After translating all the in-video text information 120 that matches the keyword 151A, the caption generation device 10 proceeds to step S23.
  • the in-video text information 120 matches the keyword 151A in the keyword information storage unit 15A, the subtitles translated by replacing the foreign language text video 100a of the video data 100 with the keyword 151A are converted into the video data 100. To generate video data 170 with captions.
  • the present embodiment when the in-video text information 120 matches the keyword 151A of the keyword information storage unit 15A, the foreign language text video 100a of the video data 100 is replaced with the keyword 151A and translated. Subtitled video data 170 obtained by synthesizing subtitles with video data 100 can be generated. In this way, the present embodiment can efficiently generate translated subtitles for the foreign language text image 100a of the image data 100.
  • this embodiment when the in-video text information 120 matches the keyword 151A of the keyword information storage unit 15A, the foreign language text video 100a of the video data 100 is translated. As a result, this embodiment can generate translated subtitles only for those that are necessary or important on the story and require translation.
  • the in-video text information 120 is translated based on the keyword information storage unit 15A. Thereby, when the in-video text information 120 is repeatedly extracted, it is possible to efficiently generate a translated subtitle. Further, when the in-video text information 120 is repeatedly extracted, it can be translated with the same translation text 152A.
  • FIG. 12 is a block diagram illustrating a configuration example of a caption generation device according to the third embodiment.
  • FIG. 13 is a diagram illustrating an example of the displayed editing screen.
  • FIG. 14 is a flowchart illustrating an example of processing performed by the caption generation device according to the third embodiment.
  • the caption generation device 20 generates editing video data with a seek bar (hereinafter referred to as “editing video data”) 300 when generating captions in the video data 100 of the video including the foreign language text video 100a.
  • the caption generation device 20 includes a video data storage unit 21, a dialogue information storage unit 22, a text information storage unit 23, a coincidence time storage unit 24, a time axis video generation unit 25, and a video composition unit 26.
  • the video data storage unit 21 stores video data 100 of a video including a text video 100a of a foreign language character.
  • the dialogue information storage unit 22 stores dialogue information 110 that is dialogue data associated with the video data 100.
  • the text information storage unit 23 stores in-video text information 120 extracted from the video data 100 and appearance time information in the video data 100. More specifically, the text information storage unit 23 stores, for example, in-video text information 120, text region information 130, and appearance time information extracted by the text information extraction unit 11 of the first embodiment. The text information storage unit 23 outputs the in-video text information 120 to the coincidence time storage unit 24. The text information storage unit 23 outputs the time information of the display time of the appearance time information to the time axis video generation unit 25.
  • the coincidence time storage unit 24 stores, as the coincidence time, the time when the text information 120 stored in the text information storage unit 23 appears among all the dialogue information 110 stored in the dialogue information storage unit 22. More specifically, the coincidence time storage unit 24 stores, for example, the display time of the in-video text information 120 when the text coincidence detection unit 12 of the first embodiment detects the coincident text as the coincidence time. The coincidence time storage unit 24 outputs the stored time information of the coincidence time to the time axis video generation unit 25.
  • the time-axis video generation unit 25 uses the time information of the appearance time of the in-video text information 120 stored in the text information storage unit 23 and the time information of the match time extracted by the match time storage unit 24 as the entire video data 100.
  • a seek bar image (time axis image) 200 to be displayed on the time axis is generated.
  • the time axis video generation unit 25 stores the video data 100.
  • a seek bar video 200 is generated in which the respective time information is superimposed on the entire time axis.
  • the seek bar video 200 will be described with reference to FIG.
  • the seek bar video 200 is a video on the entire time axis of the video data 100.
  • the seek bar video 200 includes a video text information seek bar 201, a dialogue information seek bar 202, a match marker 203, a reproduction position marker 204, a marker 205, and a marker 206.
  • the video text information seek bar 201 is the entire time axis of the video data 100.
  • a marker 205 is displayed at the time when the text information 120 in the video exists.
  • the dialogue information seek bar 202 is the entire time axis of the video data 100.
  • a marker 206 is displayed at a time when a dialogue that matches the in-video text information 120 exists.
  • the coincidence marker 203 is displayed when the time when a line that matches the extracted in-video text information 120 is present in the video data 100 is within a predetermined time range.
  • the playback position marker 204 indicates the time during playback of the video data 100.
  • the video composition unit 26 synthesizes the seek bar video 200 generated by the time-axis video generation unit 25 with the video data 100 and generates editing video data 300 that is displayed on the editing screen.
  • the editing video data 300 displays the seek data 200 superimposed on the video data 100 in a translucent manner.
  • the caption generation device 20 generates the seek bar video 200 by the time axis video generation unit 25 (step S31). More specifically, the caption generation device 20 uses the time-axis video generation unit 25 to generate a video based on the time information in which the text in the text information storage unit 23 exists and the time information in which the text in the coincidence time storage unit 24 exists. A seek bar image 200 is generated in which each time information is superimposed and displayed on the entire time axis of the data 100. The caption generation device 20 proceeds to step S32.
  • the subtitle generating device 20 generates the editing video data 300 by synthesizing the seek bar video 200 with the video data 100 by the video synthesizing unit 26 (step S32).
  • the caption generation device 20 ends the process.
  • the editing video in which the display time of the in-video text information 120, the time at which the dialogue that matches the in-video text information 120, and the time at which the matching text exists are combined are displayed.
  • Data 300 can be generated.
  • the present embodiment can efficiently generate translated subtitles for the foreign language text image 100a of the image data 100.
  • editing work can be performed efficiently.
  • the caption generation device 10 the caption generation device 10A, and the caption generation device 20 according to the present invention have been described so far, the present invention may be implemented in various different forms other than the above-described embodiment.
  • the constituent elements of the illustrated caption generation device 10, caption generation device 10A, and caption generation device 20 are functionally conceptual and may not necessarily be physically configured as illustrated. That is, the specific form of each device is not limited to the one shown in the figure, and all or a part of them is functionally or physically distributed or integrated in arbitrary units according to the processing load or usage status of each device. May be.
  • the configuration of the caption generation device 10, the caption generation device 10A, and the caption generation device 20 is realized by, for example, a program loaded in a memory as software.
  • the above embodiment has been described as a functional block realized by cooperation of these hardware or software. That is, these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

文字を含む映像から文字情報を抽出するテキスト情報抽出部11と、抽出した文字情報のうち、映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部12と、文字情報を翻訳するテキスト翻訳部13と、映像データ100において文字情報に対応する映像が表示された領域を示すテキスト領域情報130と、翻訳テキスト情報150とに基づいて、映像データ100における翻訳テキスト情報150の表示位置を算出する表示位置算出部18と、表示位置情報160に基づき、翻訳テキスト情報を字幕として付す字幕合成部19を備える。

Description

字幕生成装置、字幕生成方法及びプログラム
 本出願は、字幕生成装置、字幕生成方法及びプログラムに関する。
 外国語の台詞を含む映像は、映像とともに台詞の翻訳字幕が表示される。翻訳字幕の表示と非表示とを切換え可能にしたり、翻訳字幕の表示位置を変更可能にしたりする技術が知られている(例えば、特許文献1ないし特許文献3参照)。
特開2000-244831号公報 特開2002-335490号公報 特開2009-177502号公報
 映像には、特定の人物や風景以外にも、外国語など文字が撮影されることがある(以下、文字を含む映像をテキスト映像と呼ぶ)。映像中の外国語のテキスト映像は、必要に応じて翻訳することが望まれる。ところが、テキスト映像の翻訳字幕を手作業で生成すると、時間と手間とを要する。このように、テキスト映像の翻訳字幕の生成作業においては作業の効率に改善の余地がある。
 本発明は、上記に鑑みてなされたものであって、映像中のテキスト映像について、効率よく翻訳字幕を生成することができる字幕生成装置、字幕生成方法及びプログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る字幕生成装置は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、を備えることを特徴とする。
 本発明に係る字幕生成装置は、文字を含む映像の映像データを記憶する映像データ記憶部と、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、を備えることを特徴とする。
 本発明に係る字幕生成方法は、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、を含むことを特徴とする。
 本発明に係る字幕生成方法は、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、を含むことを特徴とする。
 本発明に係るプログラムは、文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、とをコンピュータに実行させる。
 本発明に係るプログラムは、文字を含む映像の映像データを記憶する映像データ記憶ステップと、前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、前記台詞情報記憶ステップが記憶する前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、をコンピュータに実行させる。
 本発明によれば、映像中のテキスト映像について、効率よく翻訳字幕を生成することができるという効果を奏する。
図1は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。 図2は、映像データの一例を示す図である。 図3は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。 図4は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。 図5は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。 図6は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。 図7は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。 図8は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。 図9は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。 図10は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。 図11は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。 図12は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。 図13は、表示された編集用画面の一例を示す図である。 図14は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。
 以下に添付図面を参照して、本発明に係る字幕生成装置、字幕生成方法及びプログラムの実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第一実施形態]
 図1は、第一実施形態に係る字幕生成装置の構成例を示すブロック図である。字幕生成装置10は、例えば外国語のような第一言語のテキスト映像を含む映像の映像データ100を、第一言語と異なる第二言語に翻訳した翻訳字幕(以下、単に「字幕」という。)を生成する。例えば、日本においては、字幕生成装置10は、英語のテキスト映像を含む映像の映像データ100を、日本語に翻訳した字幕を生成する。また、字幕生成装置10は、ストーリー上で必要なテキスト映像、または、重要なテキスト映像に限って、翻訳字幕を生成することが好ましい。本実施形態では、第一言語を外国語として説明する。
 図2を用いて、映像データ100について説明する。図2は、第一実施形態に係る映像データの一例を示す図である。映像データ100は、外国語のテキスト映像100aを含む映像のデータである。映像データ100は、例えば、毎秒、数10フレームの画像から構成される動画像である。映像データ100は、外国語のテキスト映像100aと、外国語の台詞のデータである台詞情報110とを含む。映像データ100は、外国語を翻訳した翻訳台詞情報を含んでもよい。
 外国語のテキスト映像100aは、例えば、紙に書いてある文章の映像、ビルの看板に書いてある文字の映像、部屋名のプレートに書いてある文字の映像などである。
 台詞情報110は、映像に対応する翻訳前の外国語の台詞のデータである。台詞情報110は、翻訳前の台詞のテキストと、映像データ100に対応して台詞の音声を開始するタイミングと終了するタイミングとを含む台詞タイミング情報とを有する。本実施形態では、台詞タイミング情報は、映像データ100の開始時刻をゼロとした開始時刻と、終了する終了時刻とする。または、台詞タイミング情報は、映像データ100の先頭のフレームを1フレーム目とするフレーム数、または、映像データ100に設けられたスタンプ位置情報によって規定してもよい。
 台詞情報110は、映像データ100に含まれる台詞の音声データから音声認識処理によって作成してもよい。または、台詞情報110は、台本または脚本の台詞のテキストデータから作成してもよい。
 字幕生成装置10は、例えば、CPU(Central Processing Unit)や映像処理用プロセッサなどで構成された演算処理装置(制御部)である。字幕生成装置10は、図示しない記憶部に記憶されているプログラムをメモリからロードして、プログラムに含まれる命令を実行する。字幕生成装置10は、一または複数の装置で構成されていてもよい。字幕生成装置10は、テキスト情報抽出部11と、テキスト一致検出部12と、テキスト翻訳部13と、表示位置算出部18と、字幕合成部19とを有する。
 テキスト情報抽出部11は、外国語のテキスト映像100aを含む映像の映像データ100から、映像内テキスト情報120を抽出する。より詳しくは、テキスト情報抽出部11は、映像データ100を取得する。そして、テキスト情報抽出部11は、取得した映像データ100に、例えば、OCR(Optical Character Reader)処理のような文字認識処理を行って、コンピュータ等が利用できるデジタルの文字コードである文字情報を抽出する。外国語のテキスト映像100aには、外国語が含まれるために、文字情報が抽出される。なお、この文字情報を映像内テキスト情報120という。テキスト情報抽出部11は、抽出した映像内テキスト情報120をテキスト一致検出部12と表示位置算出部18とに出力する。
 テキスト情報抽出部11は、台詞情報110の言語と同じ言語のテキスト映像から映像内テキスト情報120を抽出する。言い換えると、テキスト情報抽出部11は、翻訳前の言語のテキスト映像から映像内テキスト情報120を抽出する。
 テキスト情報抽出部11は、アップで表示された外国語のテキスト映像100aに限って、映像内テキスト情報120を抽出してもよい。より詳しくは、テキスト情報抽出部11は、映像全体の表示領域に占める外国語のテキスト映像100aの表示領域の割合が閾値以上であるとき、映像内テキスト情報120を抽出してもよい。
 テキスト情報抽出部11は、映像データ100に画像認識処理を行って、例えば、紙に書いてある文章の映像、ビルの看板の映像、部屋名のプレートの映像を抽出して、抽出したこれらの映像に含まれるテキストを映像内テキスト情報120として抽出してもよい。
 また、テキスト情報抽出部11は、映像内テキスト情報120を抽出した際に、映像データ100において映像内テキスト情報120が映像として表示された領域を示すテキスト領域情報130として取得する。なお、テキスト領域情報130は、例えばテキスト映像100aに表示された文字を含む範囲を、映像データ100における水平方向上、垂直方向上の範囲で示した情報である。テキスト情報抽出部11は、テキスト領域情報130を表示位置算出部18に出力する。
 また、テキスト情報抽出部11は、映像内テキスト情報120を抽出した際に、外国語のテキスト映像100aが映像データ100に出現した時刻の出現時刻情報を取得する。本実施形態では、出現時刻は、映像データ100の開始時間をゼロとした出現時刻T11と、表示を終了する消滅時刻T12とで規定される表示時刻とする。または、出現時刻情報は、映像データ100の先頭のフレームを1フレーム目とするフレーム数、または、映像データ100に設けられたスタンプ位置情報によって規定してもよい。
 テキスト一致検出部12は、テキスト情報抽出部11が抽出した文字情報である映像内テキスト情報120のうち、映像データ100に対応付けられた台詞情報110に含まれる文字情報を一致テキストとして検出する。より詳しくは、テキスト一致検出部12は、抽出された映像内テキスト情報120のうち、映像に含まれる文字が出現した出現時刻を基準とした所定範囲内の映像データ100の台詞情報110に含まれれるテキスト(文字情報)を取得する。例えば、テキスト一致検出部12は、出現時刻T11より時間ΔT前の時刻T21から、消滅時刻T12より時間ΔT後の時刻T22までの台詞情報110を取得する。時間ΔTは、例えば、5秒である。そして、テキスト一致検出部12は、取得した台詞情報110に対して、抽出された映像内テキスト情報120と一致する一致テキストを検索する。そして、テキスト一致検出部12は、検索結果に基づいて、一致テキストがある場合、言い換えると、映像内テキスト情報120が台詞情報110に含まれるテキスト(文字情報)である場合、映像内テキスト情報120を翻訳の対象とする。テキスト一致検出部12は、検索結果に基づいて、一致テキストがない場合、言い換えると、映像内テキスト情報120が台詞情報110に含まれないテキストである場合、抽出された映像内テキスト情報120を翻訳の対象としない。テキスト一致検出部12は、一致テキストがある場合、一致テキスト情報140をテキスト翻訳部13に出力する。
 このように、テキスト一致検出部12は、映像内テキスト情報120の表示時刻の前後を含む時刻の台詞情報110と、紙に書いてある文章の映像内テキスト情報120とが一致すると、一致テキストを一致テキスト情報140として検出する。例えば、テキスト一致検出部12は、所定範囲の時刻の中で、登場人物が紙に書いてある文章を読む台詞情報110と、紙に書いてある文章の映像内テキスト情報120とが一致すると、一致テキスト情報140として検出する。
 テキスト翻訳部13は、テキスト一致検出部12が検出した文字情報である一致テキストを翻訳した翻訳テキスト情報150を生成する。テキスト翻訳部13は、公知の翻訳方法によって、一致テキストを翻訳する。翻訳方法は、公知のいずれの方法でもよく、限定されない。テキスト翻訳部13は、翻訳した翻訳テキストを翻訳テキスト情報150として表示位置算出部18に出力する。なお、翻訳テキスト情報150は、コンピュータ等が利用できるデジタルの文字コードである文字情報を異なる言語の文字情報に翻訳した情報である。
 表示位置算出部18は、テキスト領域情報130と、テキスト翻訳部13が翻訳した翻訳テキスト情報150とから、映像データ100における翻訳テキスト情報150の表示位置を算出する。より詳しくは、表示位置算出部18は、テキスト領域情報130と翻訳テキスト情報150とから、翻訳テキスト情報150の表示位置を、映像データ100においてテキスト領域情報130と重ならない表示位置を算出する。表示位置算出部18は、算出した表示位置情報160を翻訳テキスト情報150とともに字幕合成部19に出力する。
 本実施形態では、翻訳テキスト情報150を字幕として表示する際の、フォント、フォントサイズ、色、一行の最大文字数があらかじめ設定されている。これらより、翻訳テキスト情報150は、翻訳テキストの文字数によって、翻訳テキストの行数と一行文字数とが算出されて、映像データ100に翻訳テキストを表示するために必要な領域の大きさである表示スペースが定まる。
 また、出現時刻情報の表示時刻が、翻訳テキスト情報150を字幕として表示する表示時刻である。
 図3を参照して、表示位置について説明する。図3は、映像データと翻訳テキスト情報の表示位置の一例を説明する図である。表示位置算出部18は、映像データ100においてテキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の下部101を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の上部102を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の右部103を表示位置とする。または、表示位置算出部18は、映像データ100においてテキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがあれば、テキスト領域情報130の左部104を表示位置とする。
 図4を参照して、表示位置の他の例について説明する。図4は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部18は、テキスト領域情報130に表示されている映像内テキスト情報120の文字が並ぶ方向である書字方向に合わせて、表示位置を算出してもよい。例えば、表示位置算出部18は、映像内テキスト情報120の書字方向が上下方向、言い換えると、縦書きであるとき、翻訳テキスト情報150を縦書きで表示する表示スペースがあるか否かを判定する。図4に示す例では、テキスト領域情報130の右部103と左部104とには表示スペースがあるが、上部と下部とには表示スペースがない。この場合、表示位置算出部18は、テキスト領域情報130の右部103または左部104を、映像内テキスト情報120と同様に、翻訳テキスト情報150を縦書きで表示する表示位置とする。
 図5を参照して、表示位置の他の例について説明する。図5は、映像データと翻訳テキスト情報の表示位置の他の例を説明する図である。表示位置算出部18は、テキスト領域情報130が傾いているとき、テキスト領域情報130の傾きに合わせて傾いた表示位置を算出してもよい。例えば、表示位置算出部18は、映像内テキスト情報120が右下がりに傾いているとき、翻訳テキスト情報150を右下がりで表示する表示スペースがあるか否かを判定する。図5に示す例では、テキスト領域情報130の上部101と下部102と右部103と左部104とに表示スペースがある。この場合、表示位置算出部18は、映像内テキスト情報120と同様に傾けた翻訳テキスト情報150を表示する表示位置とする。
 字幕合成部19は、表示位置算出部18が算出した表示位置情報160に基づき、映像データ100の外国語のテキスト映像100aに対して、翻訳テキスト情報150を字幕として付した字幕付き映像データ170を生成する。より詳しくは、外国語のテキスト映像100aの字幕は、翻訳テキスト情報150と、表示位置情報160と、表示時刻とで規定される。さらに、外国語のテキスト映像100aの字幕は、例えば、フォント、フォントサイズ、色の少なくともいずれかを含んで規定されてもよい。外国語のテキスト映像100aの字幕は、これらによって規定された人間により認識可能な文字である。
 次に、図6ないし図8を用いて、字幕生成装置10が行う処理の方法及び作用について説明する。図6は、第一実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。図7は、第一実施形態に係る字幕生成装置のテキスト一致検出部が行う処理の一例を示すフローチャートである。図8は、第一実施形態に係る字幕生成装置の表示位置算出部が行う処理の一例を示すフローチャートである。
 まず、図6を用いて、字幕生成装置10が行う処理について説明する。字幕生成装置10は、テキスト情報抽出部11によって、映像内テキスト情報120を抽出する(ステップS11)。より詳しくは、字幕生成装置10は、テキスト情報抽出部11によって、外国語のテキスト映像100aを含む映像の映像データ100から、映像内テキスト情報120を抽出する。また、字幕生成装置10は、テキスト情報抽出部11によって、映像データ100において映像内テキスト情報120が表示された領域をテキスト領域情報130として取得する。また、字幕生成装置10は、テキスト情報抽出部11によって、外国語のテキスト映像100aが映像データ100に表示されるタイミングを示す出現時刻情報を取得する。字幕生成装置10は、テキスト情報抽出部11によって、映像データ100のすべての映像内テキスト情報120を抽出すると、ステップS12に進む。
 字幕生成装置10は、テキスト一致検出部12によって、一致テキストを検出する(ステップS12)。ステップS12の処理については、後述する。字幕生成装置10は、映像データ100についてすべての一致テキストを検出すると、ステップS13に進む。
 字幕生成装置10は、テキスト翻訳部13によって、テキストを翻訳する(ステップS13)。より詳しくは、字幕生成装置10は、テキスト翻訳部13によって、公知の翻訳方法を使用して、一致テキストを翻訳した翻訳テキスト情報150を生成する。字幕生成装置10は、すべての一致テキスト情報140を翻訳すると、ステップS14に進む。
 字幕生成装置10は、表示位置算出部18によって、表示位置を算出する(ステップS14)。ステップS14の処理については、後述する。字幕生成装置10は、すべての翻訳テキスト情報150について表示位置を算出すると、ステップS15に進む。
 字幕生成装置10は、字幕合成部19によって、字幕を合成する(ステップS15)。より詳しくは、字幕生成装置10は、字幕合成部19によって、表示位置算出部18が算出した表示位置情報160に基づき、映像データ100の外国語のテキスト映像100aに対して、翻訳テキスト情報150を字幕として付した字幕付き映像データ170を生成する。字幕生成装置10は、すべての翻訳テキスト情報150を字幕として映像データ100に合成すると、処理を終了する。
 つづいて、図7を用いて、ステップS12において、テキスト一致検出部12が行う処理について説明する。テキスト一致検出部12は、映像内テキスト情報120が抽出された時刻を取得する(ステップS1201)。より詳しくは、テキスト一致検出部12は、テキスト情報抽出部11が抽出した映像内テキスト情報120について、出現時刻情報の表示時刻を取得する。テキスト一致検出部12は、ステップS1202に進む。
 テキスト一致検出部12は、台詞情報110のうち、映像内テキスト情報120が抽出された時刻の前後5秒の台詞情報110を取得する(ステップS1202)。より詳しくは、テキスト一致検出部12は、抽出された映像内テキスト情報120の出現時刻情報の表示時刻を中心とする前後5秒の映像データ100に対応する台詞情報110を取得する。テキスト一致検出部12は、ステップS1203に進む。
 テキスト一致検出部12は、取得した台詞情報110に対し、映像データ100から抽出した映像内テキスト情報120があるかを検索する(ステップS1203)。より詳しくは、テキスト一致検出部12は、取得した台詞情報110に対して、抽出された映像内テキスト情報120との比較を行い、一致テキストを検出する。テキスト一致検出部12は、ステップS1204に進む。
 テキスト一致検出部12は、一致テキストがあるか否かを判定する(ステップS1204)。より詳しくは、テキスト一致検出部12は、ステップS1203において一致テキストが検出された場合(ステップS1204でYes)、ステップS1205に進む。テキスト一致検出部12は、ステップS1203において一致テキストが検出されなかった場合(ステップS1204でNo)、ステップS13以降の処理を行わず、処理を終了する。
 テキスト一致検出部12は、一致テキスト情報140をテキスト翻訳部13へ出力する(ステップS1205)。これにより、ステップS13以降の処理が実行される。
 つづいて、図8を用いて、ステップS14において、表示位置算出部18が行う処理の方法及び作用について説明する。表示位置算出部18は、翻訳テキストの行数と一行文字数とを取得する(ステップS1401)。より詳しくは、表示位置算出部18は、翻訳テキスト情報150と、翻訳テキスト情報150を字幕として表示する場合の一行の最大文字数とから、翻訳テキストの行数と一行文字数とを取得する。そして、表示位置算出部18は、翻訳テキストのフォントサイズと行数と一行文字数とから、映像データ100における翻訳テキスト情報150を表示する際の水平方向上、垂直方向上の範囲を算出する。。表示位置算出部18は、ステップS1402に進む。
 表示位置算出部18は、元のテキスト領域下部に翻訳テキストの表示スペースがあるかかを判定する(ステップS1402)。表示スペースがあるとは、映像データ100において、翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ100を表示する水平方向上、垂直方向上の範囲に含まれる場合をいう。また、表示スペースがないとは、映像データ100において、翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲が、予め定めた映像データ100を表示する水平方向上、垂直方向上の範囲に含まれず、その範囲を超える場合をいう。翻訳テキスト情報150を表示する水平方向上、垂直方向上の範囲は、テキスト情報抽出部11から取得したテキスト領域情報130を基準に、後述するS1402からS1407によって表示位置算出部18が設定する。表示位置算出部18は、テキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1402でYes)、ステップS1408に進む。表示位置算出部18は、テキスト領域情報130の下部101に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1402でNo)、ステップS1403に進む。
 表示位置算出部18は、元のテキスト領域上部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1403)。表示位置算出部18は、テキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1403でYes)、ステップS1409に進む。表示位置算出部18は、テキスト領域情報130の上部102に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1403でNo)、ステップS1404に進む。
 表示位置算出部18は、元のテキスト領域右部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1404)。表示位置算出部18は、テキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1404でYes)、ステップS1410に進む。表示位置算出部18は、テキスト領域情報130の右部103に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1404でNo)、ステップS1405に進む。
 表示位置算出部18は、元のテキスト領域左部に翻訳テキスト情報150の表示スペースがあるか否かを判定する(ステップS1405)。表示位置算出部18は、テキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがあると判定する場合(ステップS1405でYes)、ステップS1411に進む。表示位置算出部18は、テキスト領域情報130の左部104に翻訳テキスト情報150の表示スペースがないと判定する場合(ステップS1405でNo)、ステップS1406に進む。
 表示位置算出部18は、表示位置を元のテキスト領域下部に設定する(ステップS1406)。表示位置算出部18は、テキスト領域情報130の下部101を表示位置にする。表示位置算出部18は、ステップS1407に進む。
 表示位置算出部18は、元のテキスト領域下部のスペースに翻訳テキスト情報150が入るように、フォントサイズを縮小する(ステップS1407)。これにより、表示スペースの大きさが縮小される。表示位置算出部18は、処理を終了する。
 表示位置算出部18は、表示位置を元のテキスト領域下部に設定する(ステップS1408)。表示位置算出部18は、テキスト領域情報130の下部101を表示位置にする。表示位置算出部18は、処理を終了する。
 表示位置算出部18は、表示位置を元のテキスト領域上部に設定する(ステップS1409)。表示位置算出部18は、テキスト領域情報130の上部102を表示位置にする。表示位置算出部18は、処理を終了する。
 表示位置算出部18は、表示位置を元のテキスト領域右部に設定する(ステップS1410)。表示位置算出部18は、テキスト領域情報130の右部103を表示位置にする。表示位置算出部18は、処理を終了する。
 表示位置算出部18は、表示位置を元のテキスト領域左部に設定する(ステップS1411)。表示位置算出部18は、テキスト領域情報130の左部104を表示位置にする。表示位置算出部18は、処理を終了する。
 このようにして、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成する。
 上述したように、本実施形態は、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成することができる。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。
 本実施形態は、映像内テキスト情報120と台詞情報110とが一致すると、映像データ100の外国語のテキスト映像100aを翻訳する。これにより、本実施形態は、ストーリー上で必要な外国語のテキスト映像100a、または、重要な外国語のテキスト映像100aに限って、翻訳字幕を生成することができる。
 これに対して、すべての外国語のテキスト映像100aを翻訳して字幕として表示すると、翻訳した字幕の情報量が過大になり、映像データ100を集中して視聴することができなくなるおそれがある。
 本実施形態によれば、必要な外国語のテキスト映像100aに限って翻訳字幕を生成するので、字幕の情報量が過大になることを抑制することができる。
[第二実施形態]
 図9ないし図11を参照しながら、本実施形態に係る字幕生成装置10Aについて説明する。図9は、第二実施形態に係る字幕生成装置の構成例を示すブロック図である。図10は、第二実施形態に係るキーワード情報記憶部の一例を示す図である。図11は、第二実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。字幕生成装置10Aは、基本的な構成は第一実施形態の字幕生成装置10と同様である。以下の説明においては、字幕生成装置10と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態の字幕生成装置10Aは、第一実施形態と同様のテキスト情報抽出部11と、表示位置算出部18と、字幕合成部19と、さらに、キーワード情報記憶部15Aと、テキスト置換部16Aとを有する。
 図10を用いて、キーワード情報記憶部15Aについて説明する。キーワード情報記憶部15Aは、映像データ100に関連し、翻訳を要するキーワード151Aと翻訳テキスト152Aとをあらかじめ記憶する。キーワード情報記憶部15Aは、映像データ100ごとに、映像データ100に含まれる映像内テキスト情報120のなかで、ストーリー上で必要であったり、重要であって、翻訳が必要なものを記憶する。抽出した映像内テキスト情報120と一致するキーワード151Aがある場合、翻訳テキスト152Aで置換して翻訳する。
 テキスト置換部16Aは、キーワード情報記憶部15Aから、映像内テキスト情報120に一致するキーワード151Aと翻訳テキスト152Aとを取得して、映像内テキスト情報120のテキストを翻訳テキスト152Aで置換して翻訳する。テキスト置換部16Aは、翻訳した翻訳テキスト情報150を表示位置算出部18に出力する。
 次に、図11を用いて、字幕生成装置10Aが行う処理の方法及び作用について説明する。図11に示すフローチャートのステップS21、ステップS23、ステップS24の処理は、図6に示すフローチャートのステップS11、ステップS14、ステップS15の処理と同様の処理を行う。
 字幕生成装置10Aは、テキスト置換部16Aによって、テキストを置換する(ステップS22)。より詳しくは、字幕生成装置10Aは、テキスト置換部16Aによって、キーワード情報記憶部15Aから、映像内テキスト情報120に一致するキーワード151Aと翻訳テキスト152Aとを取得する。そして、字幕生成装置10Aは、テキスト置換部16Aによって、映像内テキスト情報120のテキストを翻訳テキスト152Aで置換して翻訳する。字幕生成装置10は、キーワード151Aに一致するすべての映像内テキスト情報120を翻訳すると、ステップS23に進む。
 このようにして、映像内テキスト情報120と、キーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを、キーワード151Aで置換して翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成する。
 上述したように、本実施形態は、映像内テキスト情報120と、キーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを、キーワード151Aで置換して翻訳した字幕を映像データ100に合成した字幕付き映像データ170を生成することができる。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。
 本実施形態は、映像内テキスト情報120とキーワード情報記憶部15Aのキーワード151Aとが一致すると、映像データ100の外国語のテキスト映像100aを翻訳する。これにより、本実施形態は、ストーリー上で必要であったり、重要であって、翻訳が必要なものに限って、翻訳字幕を生成することができる。
 本実施形態は、映像内テキスト情報120を、キーワード情報記憶部15Aに基づいて翻訳する。これにより、映像内テキスト情報120が繰り返し抽出される場合に、効率よく翻訳字幕を生成することができる。また、映像内テキスト情報120が繰り返し抽出される場合に、同じ翻訳テキスト152Aで翻訳することができる。
[第三実施形態]
 図12ないし図14を参照しながら、本実施形態に係る字幕生成装置20について説明する。図12は、第三実施形態に係る字幕生成装置の構成例を示すブロック図である。図13は、表示された編集用画面の一例を示す図である。図14は、第三実施形態に係る字幕生成装置が行う処理の一例を示すフローチャートである。
 字幕生成装置20は、外国語のテキスト映像100aを含む映像の映像データ100に字幕を生成する際に、シークバー付きの編集用映像データ(以下、「編集用映像データ」という。)300を生成する。字幕生成装置20は、映像データ記憶部21と、台詞情報記憶部22と、テキスト情報記憶部23と、一致時刻記憶部24と、時間軸映像生成部25と、映像合成部26とを有する。
 映像データ記憶部21は、外国語の文字のテキスト映像100aを含む映像の映像データ100を記憶する。
 台詞情報記憶部22は、映像データ100に対応付けられた台詞のデータである台詞情報110を記憶する。
 テキスト情報記憶部23は、映像データ100から抽出した映像内テキスト情報120と映像データ100における出現時刻情報とを記憶する。より詳しくは、テキスト情報記憶部23は、例えば、第一実施形態のテキスト情報抽出部11が抽出した映像内テキスト情報120と、テキスト領域情報130と、出現時刻情報とを記憶する。テキスト情報記憶部23は、映像内テキスト情報120を一致時刻記憶部24に出力する。テキスト情報記憶部23は、出現時刻情報の表示時刻の時刻情報を時間軸映像生成部25に出力する。
 一致時刻記憶部24は、台詞情報記憶部22が記憶するすべての台詞情報110のうち、テキスト情報記憶部23が記憶するテキスト情報120が出現した時刻を一致時刻として記憶する。より詳しくは、一致時刻記憶部24は、例えば、第一実施形態のテキスト一致検出部12が一致するテキストを検出したときの映像内テキスト情報120の表示時刻を一致時刻として記憶する。一致時刻記憶部24は、記憶した一致時刻の時刻情報を時間軸映像生成部25に出力する。
 時間軸映像生成部25は、テキスト情報記憶部23が記憶した映像内テキスト情報120の出現時刻の時刻情報と、一致時刻記憶部24が抽出した一致時刻の時刻情報とを、映像データ100の全体の時間軸上に表示するシークバー映像(時間軸映像)200を生成する。時間軸映像生成部25は、テキスト情報記憶部23が記憶する映像内テキスト情報120の時刻情報と、一致時刻記憶部24が記憶する一致テキストが存在する時刻情報とに基づいて、映像データ100の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像200を生成する。
 図13を用いて、シークバー映像200について説明する。シークバー映像200は、映像データ100の全体の時間軸の映像である。シークバー映像200は、映像テキスト情報シークバー201と、台詞情報シークバー202と、一致マーカ203と、再生位置マーカ204と、マーカ205と、マーカ206とを含む。映像テキスト情報シークバー201は、映像データ100の全体の時間軸である。映像テキスト情報シークバー201には、映像内テキスト情報120が存在する時刻にマーカ205が表示される。台詞情報シークバー202は、映像データ100の全体の時間軸である。台詞情報シークバー202には、映像内テキスト情報120と一致する台詞が存在する時刻にマーカ206が表示される。一致マーカ203は、映像データ100に対して、抽出した映像内テキスト情報120と一致する台詞が存在する時刻が一定時間の範囲内であるときに、表示される。再生位置マーカ204は、映像データ100の再生中の時刻を示す。
 映像合成部26は、時間軸映像生成部25が生成したシークバー映像200を、映像データ100に合成して編集用の画面に表示させる編集用映像データ300を生成する。編集用映像データ300は、映像データ100に、シークバー映像200を半透過で重ねて表示する。
 次に、図14を用いて、字幕生成装置20が行う処理の方法及び作用について説明する。字幕生成装置20は、時間軸映像生成部25によって、シークバー映像200を生成する(ステップS31)。より詳しくは、字幕生成装置20は、時間軸映像生成部25によって、テキスト情報記憶部23のテキストが存在する時刻情報と、一致時刻記憶部24のテキストが存在する時刻情報とに基づいて、映像データ100の全体の時間軸に対して、それぞれの時刻情報を重ね合わせて表示するシークバー映像200を生成する。字幕生成装置20は、ステップS32に進む。
 字幕生成装置20は、映像合成部26によって、映像データ100にシークバー映像200を合成して編集用映像データ300を生成する(ステップS32)。字幕生成装置20は、処理を終了する。
 上述したように、映像内テキスト情報120の表示時刻と、映像内テキスト情報120と一致する台詞が存在する時刻と、一致テキストが存在する時刻とが表示されたシークバー映像200を合成した編集用映像データ300を生成することができる。本実施形態によれば、一致マーカ203の映像データ100と台詞情報110とを確認しながら、外国語のテキスト映像100aの字幕が適切に付されているかを容易に確認可能である。このようにして、本実施形態は、映像データ100の外国語のテキスト映像100aについて、効率よく翻訳字幕を生成することができる。本実施形態は、編集作業を効率よく行うことができる。
 これまで本発明に係る字幕生成装置10、字幕生成装置10A、字幕生成装置20について説明したが、上述した実施形態以外にも種々の異なる形態にて実施されてよいものである。
 図示した字幕生成装置10、字幕生成装置10A、字幕生成装置20の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
 字幕生成装置10、字幕生成装置10A、字幕生成装置20の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
 上記に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記に記載した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
 10   字幕生成装置
 11   テキスト情報抽出部
 12   テキスト一致検出部
 13   テキスト翻訳部
 18   表示位置算出部
 19   字幕合成部
 100  映像データ
 100a 外国語のテキスト映像
 110  台詞情報
 120  映像内テキスト情報
 130  テキスト領域情報
 140  一致テキスト情報
 150  翻訳テキスト情報
 160  表示位置情報
 170  字幕付き映像データ

Claims (7)

  1.  文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出部と、
     前記テキスト情報抽出部が抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出部と、
     前記テキスト一致検出部が検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳部と、
     前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出部と、
     前記表示位置算出部が算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成部と、
     を備えることを特徴とする字幕生成装置。
  2.  前記テキスト一致検出部は、前記テキスト情報抽出部が抽出した文字情報のうち、映像に含まれる文字が出現した時刻を基準とした所定の範囲内の前記台詞情報に含まれる文字情報を検出する、
     請求項1に記載の字幕生成装置。
  3.  文字を含む映像の映像データを記憶する映像データ記憶部と、
     前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶部と、
     前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶したテキスト情報記憶部と、
     前記台詞情報記憶部が記憶する前記台詞情報のうち、前記テキスト情報記憶部が記憶する前記文字情報が出現した時刻である一致時刻情報を記憶する一致時刻記憶部と、
     前記テキスト情報記憶部が記憶した前記文字情報の前記出現時刻情報と、前記一致時刻記憶部が記憶した一致時刻情報とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成部と、
     前記時間軸映像生成部が生成した前記時間軸映像を、前記映像データに合成する映像合成部と、
     を備えることを特徴とする字幕生成装置。
  4.  文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
     前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
     前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
     前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
     前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
     を含む字幕生成方法。
  5.  文字を含む映像の映像データを記憶する映像データ記憶ステップと、
     前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
     前記映像から抽出した文字情報と前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
     前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
     前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
     前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
     を含む字幕生成方法。
  6.  文字を含む映像の映像データから文字情報を抽出するテキスト情報抽出ステップと、
     前記テキスト情報抽出ステップが抽出した文字情報のうち、前記映像データに対応づけられた台詞のデータである台詞情報に含まれる文字情報を検出するテキスト一致検出ステップと、
     前記テキスト一致検出ステップによって検出した文字情報を翻訳した翻訳テキスト情報を生成するテキスト翻訳ステップと、
     前記映像データにおいて前記文字情報に対応する映像が表示された領域を示すテキスト領域情報と、前記翻訳テキスト情報とに基づいて、前記映像データにおける前記翻訳テキスト情報の表示位置を算出する表示位置算出ステップと、
     前記表示位置算出ステップによって算出した表示位置情報に基づき、前記映像データに前記翻訳テキスト情報を字幕として付す字幕合成ステップと、
     をコンピュータに実行させるプログラム。
  7.  文字を含む映像の映像データを記憶する映像データ記憶ステップと、
     前記映像データに対応づけられた台詞のデータである台詞情報を記憶する台詞情報記憶ステップと、
     前記映像から抽出した文字情報と、前記映像から抽出した文字情報が出現した時刻である出現時刻情報とを記憶するテキスト情報記憶ステップと、
     前記台詞情報のうち、前記文字情報が出現した時刻である一致時刻を記憶する一致時刻記憶ステップと、
     前記文字情報の前記出現時刻と、前記一致時刻とが、前記映像データの全体の時間軸上に表示される時間軸映像を生成する時間軸映像生成ステップと、
     前記時間軸映像生成ステップによって生成した前記時間軸映像を、前記映像データに合成する映像合成ステップと、
     をコンピュータに実行させるプログラム。
PCT/JP2019/009509 2018-03-12 2019-03-08 字幕生成装置、字幕生成方法及びプログラム WO2019176816A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/016,450 US11363217B2 (en) 2018-03-12 2020-09-10 Subtitle generation apparatus, subtitle generation method, and non-transitory storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-044168 2018-03-12
JP2018044168A JP6977632B2 (ja) 2018-03-12 2018-03-12 字幕生成装置、字幕生成方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/016,450 Continuation US11363217B2 (en) 2018-03-12 2020-09-10 Subtitle generation apparatus, subtitle generation method, and non-transitory storage medium

Publications (1)

Publication Number Publication Date
WO2019176816A1 true WO2019176816A1 (ja) 2019-09-19

Family

ID=67907090

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/009509 WO2019176816A1 (ja) 2018-03-12 2019-03-08 字幕生成装置、字幕生成方法及びプログラム

Country Status (3)

Country Link
US (1) US11363217B2 (ja)
JP (1) JP6977632B2 (ja)
WO (1) WO2019176816A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652002A (zh) * 2020-06-16 2020-09-11 北京字节跳动网络技术有限公司 文本划分方法、装置、设备和计算机可读介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911378A (zh) * 2019-12-03 2021-06-04 西安光启未来技术研究院 一种视频帧的查询方法
CN115797921B (zh) * 2023-02-03 2023-05-09 北京探境科技有限公司 字幕识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343941A (ja) * 2005-06-08 2006-12-21 Sharp Corp コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
JP2007325282A (ja) * 2007-06-15 2007-12-13 Nec Corp コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
JP2008146392A (ja) * 2006-12-11 2008-06-26 Toshiba Corp 文字データ変換装置
JP2014053737A (ja) * 2012-09-06 2014-03-20 Nippon Hoso Kyokai <Nhk> 映像合成装置及び映像合成プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3386399B2 (ja) 1999-02-18 2003-03-17 日本電気株式会社 映像表示装置
JP2002335490A (ja) 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
JP2009177502A (ja) 2008-01-24 2009-08-06 Nec Corp 携帯端末装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343941A (ja) * 2005-06-08 2006-12-21 Sharp Corp コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
JP2008146392A (ja) * 2006-12-11 2008-06-26 Toshiba Corp 文字データ変換装置
JP2007325282A (ja) * 2007-06-15 2007-12-13 Nec Corp コンテンツ配信システム、コンテンツ配信システムの配信サーバ及び表示端末、コンテンツ配信プログラム
JP2014053737A (ja) * 2012-09-06 2014-03-20 Nippon Hoso Kyokai <Nhk> 映像合成装置及び映像合成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652002A (zh) * 2020-06-16 2020-09-11 北京字节跳动网络技术有限公司 文本划分方法、装置、设备和计算机可读介质
CN111652002B (zh) * 2020-06-16 2023-04-18 抖音视界有限公司 文本划分方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
US11363217B2 (en) 2022-06-14
JP6977632B2 (ja) 2021-12-08
JP2019161390A (ja) 2019-09-19
US20200412979A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
WO2019176816A1 (ja) 字幕生成装置、字幕生成方法及びプログラム
US9275046B2 (en) Systems and methods for displaying foreign character sets and their translations in real time on resource-constrained mobile devices
US8965129B2 (en) Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices
KR910012986A (ko) 문서독취 번역 시스템의 문서수정장치
US8595614B2 (en) Document generating apparatus, document generating method, computer program and recording medium
CN113052169A (zh) 视频字幕识别方法、装置、介质及电子设备
KR20170081350A (ko) 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법
KR101990019B1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
JP6746947B2 (ja) 翻訳プログラム及び情報処理装置
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
JP7098897B2 (ja) 画像処理装置、プログラム及び画像データ
RU2657181C1 (ru) Способ улучшения качества распознавания отдельного кадра
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JPH05108716A (ja) 機械翻訳装置
KR102215593B1 (ko) 확률에 기초하여 이미지에 포함된 한글 문자를 인식할 수 있는 문자 인식 장치 및 그 동작 방법
US20210006747A1 (en) Image processing apparatus, image processing method and medium
JP6378964B2 (ja) 手話cg生成装置及び手話cg生成プログラム
JP2017167805A (ja) 表示支援装置、方法およびプログラム
JP2008004116A (ja) 映像中の文字検索方法及び装置
JP2020057401A (ja) 表示支援装置、方法およびプログラム
Goudar et al. A effective communication solution for the hearing impaired persons: A novel approach using gesture and sentence formation
JPH10312381A (ja) 翻訳方法および装置
JP5832815B2 (ja) 字幕情報を用いた検索結果提供方法およびシステム
US20230368396A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
KR20180081303A (ko) 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19767261

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19767261

Country of ref document: EP

Kind code of ref document: A1