WO2018047275A1 - 表示タイミング決定装置、表示タイミング決定方法、及びプログラム - Google Patents

表示タイミング決定装置、表示タイミング決定方法、及びプログラム Download PDF

Info

Publication number
WO2018047275A1
WO2018047275A1 PCT/JP2016/076466 JP2016076466W WO2018047275A1 WO 2018047275 A1 WO2018047275 A1 WO 2018047275A1 JP 2016076466 W JP2016076466 W JP 2016076466W WO 2018047275 A1 WO2018047275 A1 WO 2018047275A1
Authority
WO
WIPO (PCT)
Prior art keywords
display timing
timing
information
voice
character information
Prior art date
Application number
PCT/JP2016/076466
Other languages
English (en)
French (fr)
Inventor
ビヨン シュテンガー
Original Assignee
楽天株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天株式会社 filed Critical 楽天株式会社
Priority to JP2018514484A priority Critical patent/JP6359229B1/ja
Priority to PCT/JP2016/076466 priority patent/WO2018047275A1/ja
Priority to US16/080,306 priority patent/US10652623B1/en
Publication of WO2018047275A1 publication Critical patent/WO2018047275A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Definitions

  • the present invention relates to a display timing determination device, a display timing determination method, and a program.
  • Patent Document 1 describes a system that creates text information indicating the voice of a performer and provides it to viewers in a live broadcast television program.
  • a TV person who listened to the voice during live broadcasting creates characters manually.
  • the display timing of the character information is compared with the output timing of the voices only during the manual input time.
  • Overall delay in this regard, in the technique of Patent Document 1, when a live broadcast television program is recorded, a delay time is estimated based on the genre code of the television program, and the character of the recorded character is recorded by the delay time corresponding to the genre code.
  • the display timing is advanced as a whole.
  • the present invention has been made in view of the above problems, and an object of the present invention is to match the voice output timing with the character display timing.
  • a display timing determination device includes audio storage data acquisition means for acquiring audio storage data in which a plurality of sounds that are sequentially output are stored, and during reproduction of the audio storage data.
  • Timing data acquisition means for acquiring timing data related to provisional display timings of a plurality of character information items that are sequentially displayed and indicate the contents of the audio, and analyzes the audio waveform of the audio storage data to acquire the output timing of each audio
  • the final display timing of each character information is determined based on the waveform analysis means, the output timing of each voice acquired by the waveform analysis means, and the provisional display timing of each character information determined by the timing data. Display timing determining means.
  • the display timing determination method includes a sound storage data acquisition step for acquiring sound storage data in which a plurality of sounds that are sequentially output are stored, and a sound content that is sequentially displayed during reproduction of the sound storage data.
  • a timing data acquisition step for acquiring timing data related to provisional display timings of a plurality of character information indicating a waveform
  • a waveform analysis step for analyzing a voice waveform of the voice storage data and acquiring an output timing of each voice, and the waveform analysis
  • a display timing determination step for determining a final display timing of each character information based on an output timing of each voice acquired in the step and a provisional display timing of each character information determined by the timing data; It is characterized by including.
  • a program includes a plurality of sound storage data acquisition means for acquiring sound storage data in which a plurality of sounds to be sequentially output are stored, a plurality of sounds that are sequentially displayed during reproduction of the sound storage data, and each indicate the contents of the sound Timing data acquisition means for acquiring timing data related to provisional display timing of character information, waveform analysis means for analyzing a voice waveform of the voice storage data and acquiring output timing of each voice, and each of the waveform analysis means acquired by the waveform analysis means
  • the computer is caused to function as display timing determining means for determining the final display timing of each character information based on the voice output timing and the temporary display timing of each character information determined by the timing data.
  • the information storage medium according to the present invention is a computer-readable information storage medium storing the above program.
  • the display timing determination unit obtains a plurality of change amounts of the temporary display timing of each character information, and for each change amount, the temporary display timing of each character information after the change, , Obtaining the degree of coincidence information regarding the degree of coincidence with the output timing of each voice, and determining the final display timing of each character information based on the change amount with the highest degree of coincidence indicated by the degree of coincidence information, It is characterized by that.
  • the display timing determination unit is configured to determine, for each character information, an individual degree of coincidence between the provisional display timing of the character information and the output timing closest to the provisional display timing. Matching degree information is acquired, and final display timing of each character information is determined based on the individual matching degree information acquired for each character information.
  • the plurality of character information includes character information indicating information other than speech
  • the display timing determination unit is configured to display the character information indicating information other than speech as the individual information. It is excluded from the acquisition target of coincidence degree information.
  • the display timing determination means is an individual indicating the degree of coincidence between the output timing of the sound and the provisional display timing of the character information closest to the output timing for each sound. Matching degree information is acquired, and final display timing of each character information is determined based on the individual matching degree information acquired for each voice.
  • the voice storage data also stores a voice having no corresponding character information
  • the display timing determining means receives the voice having no corresponding character information in the individual matching degree information. It is excluded from the acquisition object of.
  • the sound storage data includes a plurality of sounds including the plurality of sounds and a sound other than the sound
  • the waveform analysis means includes the sound storage data.
  • the output timing of each of a plurality of stored sounds is acquired, and the display timing determination means acquires probability information regarding a probability that the sound is a sound for each sound, and the probability acquired for each sound Further, the final display timing of each character information is determined based on the information.
  • the display timing determination unit can repeatedly acquire a change amount of the temporary display timing of each character information, and each character information after the change is temporarily displayed for each change amount.
  • the overall coincidence information indicating the overall coincidence between the timing and the output timing of each voice is acquired, and the overall coincidence information having the highest coincidence and the overall coincidence information having the second highest coincidence If the difference is less than a threshold value, the new change amount is acquired, and if the difference is greater than or equal to the threshold value, the new change amount is not acquired and the overall match degree is the smallest.
  • the final display timing of each character information is determined based on the change amount corresponding to the information.
  • the display timing determination device includes: voice speaker information acquisition means for acquiring voice speaker information relating to a speaker corresponding to each voice; and character information relating to the speaker corresponding to each character information. Further comprising: character information speaker information acquisition means for acquiring speaker information, wherein the display timing determination means is further based on the voice speaker information of each voice and the character information speaker information of each character information. The final display timing of each character information is determined.
  • FIG. 1 is a diagram illustrating an overall configuration of a display timing determination system.
  • the display timing determination system 1 includes a server 10 and a user device 20. Each of these devices may be communicably connected via a network by wire or wireless.
  • the server 10 is a server computer and includes, for example, a control unit 11, a storage unit 12, and a communication unit 13.
  • the control unit 11 includes at least one processor.
  • the control unit 11 executes processing according to programs and data stored in the storage unit 12.
  • the storage unit 12 includes a main storage unit and an auxiliary storage unit.
  • the main storage unit is a volatile memory such as a RAM
  • the auxiliary storage unit is a non-volatile memory such as a hard disk or a flash memory.
  • the communication unit 13 includes a communication interface for wired communication or wireless communication, and performs data communication via a network, for example.
  • User device 20 is a computer operated by a user, and is, for example, a personal computer, a portable information terminal (including a tablet computer), a mobile phone (including a smartphone), or the like.
  • the user device 20 includes a control unit 21, a storage unit 22, a communication unit 23, an operation unit 24, a display unit 25, and an audio output unit 26.
  • the hardware configurations of the control unit 21, the storage unit 22, and the communication unit 23 may be the same as those of the control unit 11, the storage unit 12, and the communication unit 13, respectively.
  • the operation unit 24 is an input device for a user to perform an operation, for example, a pointing device such as a touch panel or a mouse, a keyboard, or the like.
  • the operation unit 24 transmits the user's operation content to the control unit 21.
  • the display unit 25 is, for example, a liquid crystal display unit or an organic EL display unit, and can display various images such as moving images and still images.
  • the sound output unit 26 is, for example, a speaker and can output various sounds.
  • each of the server 10 and the user device 20 includes a reading unit (for example, an optical disc drive or a memory card slot) that reads a computer-readable information storage medium or an input / output unit (for example, a USB) for directly connecting to an external device. Port or video input / output terminal).
  • a reading unit for example, an optical disc drive or a memory card slot
  • an input / output unit for example, a USB
  • the program and data stored in the information storage medium may be supplied to the server 10 or the user device 20 via the reading unit or the input / output unit.
  • the server 10 manages a plurality of moving images. For example, when the user specifies a moving image that the user device 20 wants to view, the moving image can be viewed by download distribution or streaming distribution. When a moving image is reproduced in the user device 20, subtitles are displayed on the display unit 25 together with the moving image, and audio of the moving image is output from the audio output unit 26.
  • FIG. 2 is a diagram showing an outline of processing executed when a moving image is played back.
  • a moving image is indicated by a Vid code
  • a moving image audio is indicated by a Voi code
  • a caption is indicated by a Sub code.
  • the server 10 separately manages the video Vid and the caption Sub as data.
  • the t-axis of the caption sub shown in FIG. 2 is a time axis.
  • the subtitle Sub in FIG. 2 shows the subtitles displayed on the screen in chronological order.
  • the subtitle Sub is not managed in a state of being embedded in the moving image Vid, but is managed as a separate item from the moving image Vid. Then, when the moving image Vid is displayed, the moving image Vid and the subtitle Sub are combined as shown in FIG. Thereby, when the audio
  • the server 10 separately transmits the video Vid data and the subtitle Sub data to the user device 20, and the user Sub 20 synthesizes the subtitle Sub and the video Vid. Further, for example, the server 10 combines the subtitle Sub with the video Vid designated by the user and transmits the video Vid data after the synthesis to the user device 20.
  • the subtitle Sub is created by an arbitrary method at an arbitrary timing before or after the moving image Vid is registered in the server 10. For example, the system administrator may manually input the text of the subtitle Sub and the display timing of the subtitle Sub while viewing the video Vid.
  • the audio output timing and the subtitle Sub display timing may not coincide with each other, and there may be a certain timing shift. However, it is assumed that the output order of each audio matches the display order of each subtitle Sub, and the output timing interval and the display timing interval generally match.
  • the server 10 of this embodiment analyzes the audio waveform of the video Vid and acquires the output timing of each audio in the video Vid. Then, the server 10 adjusts the display timing of each subtitle Sub, compares it with the output timing of each audio obtained by analyzing the audio waveform, and finds the display timing that most closely matches the timing of each audio. The output timing is matched with the display timing of each subtitle Sub.
  • reference numerals attached to moving images, sounds, and subtitles in FIG. 2 are omitted.
  • FIG. 3 is a functional block diagram illustrating an example of functions realized by the display timing determination system 1.
  • the voice storage data acquisition unit 100, the timing data acquisition unit 101, the data storage unit 102, the waveform analysis unit 103, and the display timing determination unit 104 are realized by the server 10.
  • the voice storage data acquisition unit 100 is realized mainly by the control unit 11.
  • the sound storage data acquisition unit 100 acquires sound storage data in which a plurality of sounds that are sequentially output are stored.
  • the voice storage data acquisition unit 100 will explain a case where voice storage data is acquired from the data storage unit 102 described later.
  • Audio storage data may be acquired from the computer.
  • the sound may be an artificial sound synthesized by a computer in which sound actually emitted by a person may be collected by a microphone.
  • the period in which the audio storage data is reproduced includes a plurality of periods in which each sound is output.
  • Each voice can be said to be a group of voices output within a certain period.
  • the voice may include at least one word, may be divided for each sentence, or may be composed of a plurality of sentences.
  • the voice may be a scream or scream that does not include a particularly meaningful word.
  • the voice may be an individual line in a movie, drama, animation, etc., an individual remark of a person filmed in a video, or an individual phrase such as a song or poetry. Also good.
  • the audio storage data may be data that can output audio by reproduction.
  • the audio storage data may be moving image data that stores images and audio, or audio data that does not include images.
  • various known formats may be applied, and may be, for example, avi format, mpeg format, or mp3 format. In the present embodiment, a case where the audio storage data is moving image data will be described.
  • each sound stored in the sound storage data is output at a predetermined timing in a predetermined order as time elapses.
  • each sound is stored in the sound storage data so that it is output at a predetermined timing in a predetermined order.
  • the audio output timing may be any timing during the period in which the audio is output.
  • the audio output timing may indicate the audio output start timing or the audio output end timing. Alternatively, an intermediate timing may be indicated.
  • Timing data acquisition unit 101 is realized mainly by the control unit 11.
  • the timing data obtaining unit 101 obtains timing data relating to provisional display timings of a plurality of pieces of character information that are sequentially displayed during reproduction of the voice stored data and each indicate the contents of the voice.
  • the timing data acquisition unit 101 will be described with respect to acquiring timing data from a data storage unit 102, which will be described later. Timing data may be acquired.
  • the character information indicates the content of audio as at least one character, and may be, for example, text called caption, caption, or telop.
  • the character information may be composed of only one character or may be a character string including a plurality of characters.
  • the character information may include symbols other than characters. Note that the character information does not need to be completely matched with the content of the speech even for every phrase, and the content of the speech and the content of the character information may differ to some extent.
  • audio storage data describes moving image data
  • a case where character information is a moving image subtitle will be described.
  • FIG. 4 is a diagram showing a data storage example of timing data.
  • the timing data stores a character information ID that uniquely identifies character information, a display timing of character information, and character information.
  • the character information may be stored in data different from the timing data.
  • the display timing stored in the timing data may indicate an arbitrary timing within the period in which the character information is displayed.
  • the display timing may indicate a start timing for starting the display of the character information, or display of the character information.
  • the end timing to end may be indicated, or an intermediate timing may be indicated. In the present embodiment, the case where the start timing is used as the display timing will be described.
  • the end timing and the length of the display time may also be stored in the timing data.
  • the length of the display time may vary depending on the character information, or may be common to all character information.
  • the display timing set in advance in the timing data is adjusted by the display timing determination unit 104 to be described later. Therefore, in this embodiment, the display timing before adjustment is described as “provisional display timing”, and after adjustment. Is described as “final display timing”.
  • the display timing determination unit 104 which will be described later, changes the provisional display timing and finds a final display timing that matches the audio output timing as a whole.
  • N i the total number of character information
  • the set of provisional display timings stored in the timing data is described as ⁇ x i ⁇ . .
  • start timing the display of character information i is started, the display timing x i of the temporary the character information i.
  • the data storage unit 102 is realized mainly by the storage unit 12.
  • the data storage unit 102 stores voice storage data and timing data. In this embodiment, since the timing data is prepared for each voice storage data, the data storage unit 102 stores these combinations. Note that the data storage unit 102 may store data other than the voice storage data.
  • the waveform analysis unit 103 is realized mainly by the control unit 11.
  • the waveform analysis unit 103 analyzes the voice waveform of the voice storage data and acquires the output timing of each voice. For example, the waveform analysis unit 103 generates a spectrogram indicating the signal strength for each frequency in time series based on the voice storage data.
  • the spectrogram may be generated using a known sonograph. For example, a bandpass filter or a short-time Fourier transform may be used. Note that the sonograph is a general term for devices having spectrogram generation algorithms.
  • the waveform analysis unit 103 generates a spectrogram by acquiring a time-series change in strength (amplitude) indicated by the speech waveform for each frequency.
  • FIG. 5 is a diagram showing an example of a spectrogram.
  • the vertical axis represents frequency and the horizontal axis represents time.
  • the spectrogram often indicates the intensity of the signal at each frequency in color, but here, the intensity of the signal at each frequency is schematically shown in monochrome.
  • the frequency band where the halftone dots are dark indicates that the sound is strong
  • the frequency band where the halftone dots are thin indicates that the sound is weak.
  • the waveform analysis unit 103 acquires the output timing of each voice by executing deep learning (a kind of machine learning) based on the spectrogram.
  • the pattern information indicating the sound characteristics necessary for deep learning may be stored in the data storage unit 102. For example, when the intensity of the frequency band corresponding to the sound (for example, about 100 Hz to several thousand Hz) is equal to or higher than the threshold, the waveform analysis unit 103 determines that the sound is being output and the intensity of the frequency band is If it is less than the threshold value, it is determined that sound is not being output.
  • the frequency band corresponding to the sound may be designated in advance and may be variable by the input of the system administrator.
  • the waveform analysis unit 103 issues a voice ID that uniquely identifies the voice when the voice changes from a state where the voice is not being output to a state where the voice is being output, and outputs the voice identified by the voice ID. It is determined that it is the start timing. Then, when the sound is changed from the sound output state to the non-output state, the waveform analysis unit 103 determines that it is the end timing of the sound output identified by the sound ID.
  • the period from the start timing to the end timing is a period in which the sound identified by the sound ID is output. As described above, in the present embodiment, the case where the start timing of audio is used as the output timing will be described. However, the end timing and the length of the output period may also be held.
  • the voice IDs are assigned in order from 1 to each voice, the numerical value of j indicates the voice ID.
  • the start timing is used as the output timing, the timing at which the output of the sound j is started becomes the output timing y j of the sound j.
  • the display timing determination unit 104 is realized mainly by the control unit 11.
  • the display timing determination unit 104 determines each character based on the output timing ⁇ y j ⁇ of each voice acquired by the waveform analysis unit 103 and the temporary display timing ⁇ x i ⁇ of each character information determined by the timing data. Determine the final display timing of the information.
  • the display timing determination unit 104 acquires the degree of matching information based on the output timing ⁇ y j ⁇ of each voice and the provisional display timing ⁇ x i ⁇ of each character information, and the degree of matching indicated by the degree of matching information Is changed so that the temporary display timing ⁇ x i ⁇ is changed to determine the final display timing.
  • the degree-of-match information is an index indicating how much the timing matches.
  • the degree of coincidence information is an index indicating the degree of timing shift.
  • the degree of coincidence information may indicate the degree of coincidence between the output timing ⁇ y j ⁇ of each voice and the provisional display timing ⁇ x i ⁇ of each character information before or after being changed by the change amount described later.
  • the degree-of-matching information indicates that the degree of matching is. It indicates that the timing is not correct (the greater the deviation shown).
  • the coincidence degree information is indicated by a numerical value.
  • the degree-of-match information is calculated based on the time difference between the output timing ⁇ y j ⁇ and the provisional display timing ⁇ x i ⁇ , and is calculated based on a mathematical expression using these as variables. It is assumed that this mathematical formula is stored in the data storage unit 102.
  • the display timing determination unit 104 acquires a plurality of change amounts of the temporary display timing of each character information, and selects the change amount having the highest matching degree indicated by the matching degree information from the plurality of changing amounts.
  • This amount of change is the amount of temporal movement of the provisional display timing ⁇ x i ⁇ and indicates how much it is moved back and forth in time.
  • the amount of change may be different for each character information, or a common amount of change may be used for the entire character information. In the present embodiment, a case will be described in which a common change amount is used for the entire character information.
  • the change amount may be indicated by at least one numerical value. For example, the coefficients of a and b in the following formula 1 may be used as the change amount.
  • the left side of Formula 1 shows the provisional display timing after being changed by the coefficients a and b which are the change amounts. That is, T (x i ) is a final display timing candidate.
  • the coefficient a on the right side of Equation 1 is the change amount of each interval of the temporary display timing ⁇ x i ⁇ .
  • the coefficient b is the movement amount when the temporary display timing ⁇ x i ⁇ is shifted as a whole.
  • the coefficient b indicates a parallel movement amount.
  • the display timing determination unit 104 acquires a plurality of combinations of the coefficients a and b, which are the change amounts of the temporary display timing ⁇ x i ⁇ . Each of the plurality of combinations is different from the other combinations in at least one value of the coefficients a and b.
  • a known sample extraction method can be applied. For example, the extraction may be performed based on RANSAC (Random sample consensus), or the combination of coefficients a and b may be pre-system. It may be specified by the administrator. Note that the number of acquired combinations may be arbitrary. For example, about tens to hundreds of samples may be extracted.
  • the display timing determination unit 104 matches the degree of coincidence between the provisional display timing ⁇ T (x i ) ⁇ of each character information after the change and the output timing ⁇ y j ⁇ of each voice for each change amount. To get.
  • the degree of coincidence information is calculated based on a mathematical expression having the changed temporary display timing ⁇ T (x i ) ⁇ and output timing ⁇ y j ⁇ as variables. It is assumed that the mathematical formula is stored in the data storage unit 102. In the present embodiment, the following formula 2 is taken as an example.
  • the left side of Formula 2 is coincidence information. Since the degree of coincidence information D changes depending on the coefficients a and b, which are change amounts, the temporary display timing T of each character information after the change by the change amount is a variable. For this reason, the coincidence degree information D is calculated for each combination of the coefficients a and b, which is the amount of change.
  • the display timing determination unit 104 for each character information, and the temporary display timing T of the character information (x i), the display of the temporary timing T (x i ) To obtain the individual coincidence degree information d 1 related to the coincidence degree with the output timing ⁇ y j ⁇ closest to. For example, for each provisional display timing T (x i ) after the change by a certain change amount, the display timing determination unit 104 distances the output timing ⁇ y j ⁇ that is closest to the provisional display timing T (x i ). (i.e., time difference), and acquires the individual matching degree information d 1. Then, the display timing determination unit 104 will obtain the sum of the individual match degree information d 1.
  • the display timing determination unit 104 outputs, for each voice, the output timing ⁇ y j ⁇ of the voice and the character information closest to the output timing ⁇ y j ⁇ .
  • the individual coincidence degree information d 2 indicating the degree of coincidence with the temporary display timing T (x i ) is acquired.
  • display timing determination unit 104 for each audio output timing ⁇ y j ⁇ , the distance between the output timing ⁇ y j ⁇ temporary display timing after closest changed to T (x i) (i.e., time difference) , and it acquires the individual matching degree information d 2. Then, the display timing determination unit 104 will obtain the sum of the individual match degree information d 2.
  • the display timing determination unit 104 includes the sum of the individual matching degree information d 1 acquired for each character information (first term on the right side) and the individual matching degree information d 2 acquired for each voice.
  • the sum (the second term on the right side) is acquired.
  • the coincidence degree information shown on the left side indicates the coincidence degree of the overall timing, it will be referred to as the overall coincidence degree information D hereinafter. That is, the overall matching degree information D is information indicating the overall matching degree of timing.
  • the numerical value of the degree of matching information D the higher the degree of matching (the smaller the deviation)
  • the larger the numerical value of the degree of matching information D the lower the degree of matching (the larger the deviation).
  • the display timing determination unit 104 determines the final display timing of each character information based on the change amount with the highest matching degree indicated by the matching degree information D.
  • the display timing determination unit 104 changes the provisional display timing T (changed based on the combination having the smallest numerical value of the overall matching degree information D (the highest matching degree) among the combinations of the coefficients a and b. x i ) is acquired as the final display timing.
  • the display timing determination unit 104 determines each character information based on the individual matching degree information d 1 acquired for each character information. The final display timing is determined. Further, for example, in this embodiment, since the individual matching degree information d 2 is acquired for each voice, the display timing determination unit 104 determines the final of each character information based on the individual matching degree information d 2 acquired for each voice. Display timing is determined.
  • FIG. 6 is a diagram illustrating how the final display timing is acquired.
  • the t-axis shown in FIG. 6 is a time axis, and shows some voice output timings y 1 to y 4 and some text information display timings x 1 to x 4 .
  • the matching degree indicated by the overall matching score information D is the highest.
  • the overall matching degree information D having the highest degree of matching is used.
  • the display timing determination unit 104 also sets the end timing and display time of each character information in accordance with the change of the start timing. It may be changed. For example, the display timing determination unit 104 may change the end timing and the display time according to the amount of change in which the matching degree indicated by the overall matching degree information D is the highest. Further, the display timing determination unit 104 may shift the end timing by the same amount as the start timing after the change without changing the display time.
  • FIG. 7 is a flowchart showing an example of processing executed in the server 10.
  • the process illustrated in FIG. 7 is an example of a process executed by the functional block illustrated in FIG. 3, and is executed by the control unit 11 operating according to a program stored in the storage unit 12.
  • the processing shown in FIG. 7 may be executed when a predetermined condition is satisfied.
  • the processing shown in FIG. 7 may be executed when voice storage data and timing data are registered in the server 10. It may be executed at an arbitrary timing such as an instruction from a system administrator.
  • the control unit 11 acquires the voice storage data stored in the storage unit 12 (S1).
  • the control part 11 produces
  • the control unit 11 generates a spectrogram by performing frequency analysis on the voice storage data using a sonograph and acquiring signal strength for each frequency in time series. To do.
  • the control unit 11 acquires the output timing ⁇ y j ⁇ of each sound based on the spectrogram generated in S2 (S3).
  • the control unit 11 starts to output sound by searching for a time when the sound intensity in a predetermined frequency band is equal to or greater than a threshold value in chronological order from the beginning of the reproduction time of the sound storage data. Get timing.
  • the control unit 11 searches for a time when the sound intensity in a predetermined frequency band is less than the threshold value, thereby acquiring an end timing for ending the sound output.
  • control unit 11 When acquiring the end timing of the first sound, the control unit 11 may hold the end timing and the output time of the first sound in the storage unit 12. Thereafter, the control unit 11 repeats the above processing until the end of the reproduction time of the audio storage data, and increments the audio ID every time the audio start timing is found, and holds the start timing and the like in the storage unit 12. .
  • the control unit 11 acquires the timing data stored in the storage unit 12 (S4).
  • the control unit 11 acquires a plurality of changes in the display timing of the character information (S5).
  • the control unit 11 acquires a predetermined number or more of combinations of the coefficients a and b by using RANSAC.
  • the control unit 11 acquires the overall matching degree information D for each change amount acquired in S5 (S6).
  • the control unit 11 acquires the overall matching degree information D for each change amount by using the above-described mathematical formulas 1 and 2, and holds it in the storage unit 12.
  • the control unit 11 determines the final display timing of the character information based on the overall matching degree information D (S7), and this process ends.
  • the control unit 11 updates the timing data so that the provisional display timing T (x i ) changed by the change amount with the highest matching degree indicated by the overall matching information becomes the final display timing. . That is, the control unit 11 overwrites the timing data based on the temporary display timing T (x i ) changed by the change amount.
  • the server 10 can execute reproduction of the voice storage data and display control of the character information based on the voice storage data and the timing data for which the final display timing is determined.
  • the final determination of each character information is based on the output timing of each sound obtained by analyzing the sound waveform for the sound storage data and the temporary display timing of each character information. Since the correct display timing is determined, the voice output timing and the character display timing can be matched. The voice waveform can be analyzed as long as there is voice stored data. For example, even if there is no information such as a program genre code, the voice output timing and the character display timing can be matched. In other words, it is possible to match the audio output timing and the character display timing even for audio storage data that does not have a program genre code.
  • the display timing determination system 1 determines the final display timing based on the change amount having the highest timing coincidence among the plurality of temporary display timing change amounts. That is, the display timing determination system 1 does not calculate a separate change amount for each character information, but determines a change amount that matches the overall timing (a common change amount for each character information). As a result, the processing timing of the server 10 can be reduced, and the display timing that matches the timing can be quickly acquired.
  • the individual coincidence degree information d 1 is acquired for all character information.
  • the temporary display timing ⁇ x i ⁇ is stored in the timing data, in the case that contains the character information that indicates information other than voice, because the corresponding speech is not present, for this character information may not be acquired individually matching degree information d 1.
  • Character information indicating information other than sound is character information for which there is no corresponding sound, for example, an explanatory note, a title, or an annotation.
  • the audio storage data is video data
  • the name of the place copied in the video, the title / title of the character, the name of the actor, or the title of the movie / program / animation / song indicates information other than audio.
  • Corresponds to character information when such character information exists, since it is necessary to identify the display timing of the character information, the temporary display timing of the character information is also stored in the timing data.
  • FIG. 8 is a diagram illustrating provisional display timing of character information indicating information other than voice.
  • the character information display timing of provisional x 12 and x 14 is a legend showing the title of the location and characters in the movie, since there is no output timing of the sound within a predetermined time , There is no corresponding voice.
  • Such character information is the first place it is not necessary to match the timing does not exist corresponding sound, it becomes noise when acquiring the individual matching degree information d 1. Therefore, the display timing determination unit 104, the characters indicating information other than voice are excluded from the acquisition object individual matching degree information d 1.
  • the display timing determination unit 104 determines whether the output timing ⁇ y j ⁇ exists within a predetermined time of the temporary display timing ⁇ x i ⁇ .
  • the display timing determination unit 104 determines that the provisional display timing ⁇ x i ⁇ in which the output timing ⁇ y j ⁇ exists within a predetermined time is that the corresponding voice exists, and the output timing ⁇ y j ⁇ within the predetermined time.
  • a provisional display timing ⁇ x i ⁇ that does not exist is determined to have no corresponding voice.
  • Display timing determination unit 104 only the character information corresponding voice is present, acquires a method as well as the individual matching degree information d 1 described in the embodiment, the character information corresponding audio does not exist, individual matching degree information d 1 is not acquired.
  • the noise can be reduced in determining the degree of coincidence of timing, sound And the timing accuracy of character information can be further improved.
  • the acquired individual matching degree information d 2 for all voice in a plurality of speech stored in the speech storage data, voice no corresponding character information If it does, it may not be acquired individually matching degree information d 2.
  • the voice having no corresponding character information is a voice having no character information indicating the voice, for example, a moving verb, a companion, a scream, or a scream.
  • a voice having no corresponding character is a voice in which character information is not displayed even when the voice is output.
  • the waveform analysis unit 103 acquires the speech output timing.
  • FIG. 9 is a diagram illustrating the output timing of a voice without a corresponding character.
  • the voices whose output timings are y 22 and y 23 are impression verbs, shouts, etc., and there is no corresponding character information.
  • Such speech is originally since the character information is not present to adjust the timing, it becomes noise when acquiring the individual matching degree information d 2. Therefore, the display timing determination unit 104, the audio no corresponding character are excluded from the acquisition object individual matching degree information d 2.
  • the display timing determination unit 104 determines whether the temporary display timing ⁇ x i ⁇ exists within a predetermined time of the output timing ⁇ y j ⁇ .
  • the display timing determination unit 104 determines that the output timing ⁇ y j ⁇ where the provisional display timing ⁇ x i ⁇ exists within a predetermined time is the corresponding character information, and the provisional display timing ⁇ x within the predetermined time.
  • the output timing ⁇ y j ⁇ where i ⁇ does not exist is determined as the corresponding voice does not exist.
  • Display timing determination unit 104 only the sound corresponding character information is present, acquires a method as well as the individual matching degree information d 2 described in the embodiment, the sound corresponding character information is not present, the individual matching degree information do not get the d 2.
  • the noise can be reduced in determining the degree of coincidence of timing, sound And the timing accuracy of character information can be further improved.
  • the individual matching degree information d 1 and d 2 having a very large timing difference exists.
  • the timing is not matched as a whole even if the timing of other parts is matched. End up.
  • the overall coincidence information D may be calculated after reducing the deviation.
  • the display timing determination unit 104 determines the final character of each character based on the overall matching degree information D regarding the overall matching degree determined by the individual matching degree information d 1 and d 2. Display timing is determined. However, the display timing determination unit 104 of the present modification obtains the overall matching degree information D for the individual matching degree information d 1 and d 2 having a matching degree less than the threshold value after increasing the matching degree.
  • the display timing determination unit 104 determines the final individual coincidence degree information d according to the following Equation 3. 1 and d 2 are reacquired, and when the numerical values of the individual matching degree information d 1 and d 2 are equal to or larger than the threshold (that is, the matching degree is less than the threshold), the final individual matching degree information d according to the following Equation 4 1, to reacquire d 2.
  • the individual matching degree information d 1 and d 2 are indicated by d
  • the threshold is indicated by c.
  • the display timing determination unit 104 may change so that the degree of coincidence of the individual coincidence degree information d 1 and d 2 having a degree of coincidence less than the threshold is increased.
  • the display timing determining unit 104 may change the individual coincidence degree information d 1 and d 2 as variables The amount of change may be calculated by the following mathematical formula, or the individual matching degree information d 1 and d 2 may be uniformly set to a predetermined value. Display timing determination unit 104, the degree of coincidence as the individual matching degree information d 1, d 2 smaller than the threshold to reduce the impact on the overall matching degree information D, the degree of coincidence of the individual matching degree information d 1, d 2 Should be raised.
  • the individual matching degree information d 1 and d 2 having a matching degree less than the threshold value is obtained by increasing the matching degree and then obtaining the whole matching degree information D, and thus a partly low level. Because of the individual matching degree information d 1 and d 2 , it is possible to prevent the timings from being regarded as not matching as a whole. As a result, it is possible to improve the accuracy of timing matching between voice and character information.
  • each sound indicates a sound or other sound depending on the tendency of the waveform pattern Can be guessed.
  • the overall matching degree information D may be acquired in consideration of the probability that the sound is speech.
  • the method in which the waveform analysis unit 103 acquires the output timing of each of the plurality of sounds stored in the voice storage data may be the same as the method described in the embodiment.
  • the display timing determination unit 104 acquires, for each sound, probability information regarding the probability that the sound is speech.
  • the display timing determination unit 104 acquires probability information by analyzing the sound waveform of the sound storage data.
  • a known method can be applied.
  • VAD Voice Activity Detection
  • the basic pattern of the speech waveform is stored in the data storage unit 102, and the display timing determination unit 104 acquires probability information based on the degree of coincidence between the basic pattern and the speech waveform indicated by the speech storage data. May be.
  • the probability information is indicated by a numerical value, and may be indicated by a numerical value of 0 or more and 1 or less, for example.
  • the display timing determination unit 104 determines the final display timing of each character information based further on the probability information acquired for each sound. For example, the display timing determination unit 104 may acquire the overall matching degree information D based on the following formula 5. In the following formula 5, probability information is indicated by c (y j ). The method of determining the final display timing based on the overall matching degree information D is the same as the method described in the embodiment.
  • the method by which the display timing determination unit 104 determines the final display timing of the character information based on the probability information is not limited to the above example.
  • a mathematical expression other than the mathematical expression 5 may be used, and the display timing determination unit 104 reduces the influence of the individual matching degree information d 1 and d 2 based on the speech with low probability information on the overall matching degree information D, and the probability It is only necessary to increase the influence of the individual coincidence degree information d 1 and d 2 based on speech with high information on the overall coincidence information D, and weighting is performed when obtaining the overall coincidence information D based on the probability information. What should I do?
  • the display timing determination unit 104 may not refer to the output timing of the sound whose probability information is less than the threshold when calculating the overall matching degree information D.
  • the modification (4) since the final display timing of the character information is determined using the probability information as to whether or not it is a voice, the timing alignment accuracy between the voice and the character information is further improved. Can do.
  • the search for the change amount may be stopped when such a change amount is found.
  • the display timing determination unit 104 can repeatedly acquire the change amount of the temporary display timing of each character, and for each change amount, the temporary display time of each character after the change.
  • a display timing ⁇ x i ⁇ , the output timing of each audio ⁇ y j ⁇ may acquire the entire matching degree information D indicating the overall degree of matching.
  • the display timing determination unit 104 makes a new change when the difference between the overall matching degree information D having the highest matching degree and the entire matching degree information D having the second highest matching degree is less than the threshold value.
  • the amount is acquired, and the overall matching degree information D is acquired based on the acquired new change amount. For example, every time the overall matching degree information D is acquired, the display timing determination unit 104 compares the total matching degree information D acquired in the past and determines whether the matching degree is the highest. If the display timing determination unit 104 determines that the degree of coincidence is the highest, the latest overall coincidence information D (that is, the overall coincidence degree information D with the highest degree of coincidence) and the next highest overall coincidence degree information D It is determined whether the difference between the degree of coincidence information D is less than a threshold value.
  • the threshold value may be a predetermined value, and may be a fixed value or a variable value. If the difference is less than the threshold value, the display timing determination unit 104 acquires the overall matching degree information D corresponding to the next change amount in the same manner as the method described in the embodiment.
  • the display timing determination unit 104 determines whether the difference is greater than or equal to the threshold. If the difference is greater than or equal to the threshold, the display timing determination unit 104 does not acquire a new change amount, and based on the change amount corresponding to the overall match degree information D having the smallest match degree, Determine the final display timing. That is, the display timing determination unit 104 does not execute acquisition of the overall matching score information D when the difference is greater than or equal to the threshold value, and does not execute the overall matching score information D at that time. Based on the information D, the final display timing is determined.
  • the display timing determination unit 104 acquires the overall matching degree information D corresponding to all the change amounts, if the difference does not exceed the threshold value, the overall matching degree information having the highest matching degree at that time
  • the final display timing may be determined based on the change amount corresponding to D.
  • the modified example (5) since the acquisition of the change amount is stopped when the change amount that matches the timing to some extent is found, it is not necessary to perform unnecessary processing, and the final display timing can be made more quickly. It becomes possible to find out and the processing load of the server 10 can be reduced.
  • each character information may be recorded in association with whether it is a male voice or a female voice, and the display timing of each character information may be determined using information about the speaker.
  • FIG. 10 is a functional block diagram in the modified example. As shown in FIG. 10, in the modified example, in addition to the functions described in the embodiment, a voice speaker information acquisition unit 105 and a character speaker information acquisition unit 106 are realized. These are realized mainly by the control unit 11.
  • the voice speaker information acquisition unit 105 acquires voice speaker information regarding a speaker corresponding to each voice.
  • the voice speaker information indicates the characteristics of the voice speaker, and is, for example, the gender or age of the speaker. Here, a case where the voice speaker information indicates the gender of the speaker will be described. Since the male voice has a lower frequency than the female voice, the voice speaker information acquisition unit 105 may acquire the voice speaker information based on the voice frequency indicated by the spectrogram.
  • the character speaker information acquisition unit 106 acquires character speaker information related to the speaker corresponding to each character.
  • the character speaker information indicates the characteristics of the voice speaker indicated by the character information, and is, for example, the gender or age of the speaker.
  • the character speaker information acquisition unit 106 may acquire the character speaker information designated by the character information input person. In this case, in the timing data, character speaker information may be stored in association with the character information ID.
  • the display timing determination unit 104 determines the final display timing of each character information based further on the voice speaker information of each voice and the character speaker information of each character information. For example, when the display timing determination unit 104 searches for an output timing to be compared with the provisional display timing of each character information, the display timing determination unit 104 specifies an output timing at which the character speaker information of the character information matches the voice speaker information. Then, the display timing determination unit 104 compares the specified output timing with the provisional display timing.
  • the voice output timing and the character information display timing are set as the respective start timings.
  • the voice output timing and the character information display are based on other information.
  • the timing may be specified. For example, by storing the time difference of the voice output timing in the first array and storing the time difference of the character information display timing in the second array, the voice output timing and the character information display timing are specified. You may do it.
  • the display timing determination unit 104 determines the final display timing of each character information by changing the time difference stored in the second array.
  • the overall matching degree information D may indicate the degree of matching of the overall timing, and may indicate the number of character information or speech whose timing deviation is less than the threshold value, not the sum of the time differences.
  • Timing may be determined.
  • the display timing determination unit 104 may change the provisional display timing ⁇ x i ⁇ of each character information so that the coincidence or deviation with the closest audio output timing ⁇ y j ⁇ is less than the threshold. That is, the display timing determination unit 104 may change the provisional display timing ⁇ x i ⁇ of each character information based on the change amount of the individual timing instead of the change amount of the overall timing. In this case, the overall matching degree information D need not be acquired.
  • the individual matching degree information d 1 is acquired for each character information
  • only the individual matching degree information d 2 for each voice may be acquired, or some character information selected at random may be individual matching degree information d 1 is obtained only for.
  • a place for individual matching degree information d 2 per voice is acquired, to only the individual match degree information d 1 of each character information may be obtained, only a portion of the sound was randomly selected it may be acquired individual matching degree information d 2 relative.
  • the voice storage data acquisition unit 100, the timing data acquisition unit 101, the waveform analysis unit 103, and the display timing determination unit 104 may be realized by the user device 20.
  • each of these functions is realized mainly by the control unit 21, and the user device 20 corresponds to the display timing determination device according to the present invention.
  • the voice storage data acquisition unit 100, the timing data acquisition unit 101, the waveform analysis unit 103, and the display timing determination unit 104 may be realized in a computer other than the server 10 and the user device 20. In this case, the computer corresponds to the display timing determination device according to the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

音声の出力タイミングと文字の表示タイミングとを合わせる。表示タイミング決定装置(10,20)の音声格納データ取得手段(100)は、順次出力される複数の音声が格納された音声格納データを取得する。タイミングデータ取得手段(101)は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。波形解析手段(103)は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。表示タイミング決定手段(104)は、波形解析手段(103)により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する。

Description

表示タイミング決定装置、表示タイミング決定方法、及びプログラム
 本発明は、表示タイミング決定装置、表示タイミング決定方法、及びプログラムに関する。
 従来、順次出力される複数の音声が格納された音声格納データ(例えば、動画データ)の再生中において、各音声が出力されるたびに、当該音声を示す文字情報(例えば、字幕)を表示させる技術が知られている。
 例えば、特許文献1には、生放送のテレビ番組において、出演者の音声を示す文字情報を作成して視聴者に提供するシステムが記載されている。このシステムでは、生放送中の音声を聞いたテレビ関係者が手入力で文字を作成する。このため、各音声の出力タイミングの間隔と、各文字情報の表示タイミングの間隔と、が概ね合っていたとしても、手入力の時間だけ、文字情報の表示タイミングは、音声の出力タイミングに対して全体的に遅延する。この点、特許文献1の技術では、生放送のテレビ番組が録画される場合に、テレビ番組のジャンルコードに基づいて遅延時間を推測し、ジャンルコードに応じた遅延時間分だけ、録画時の文字の表示タイミングを全体的に早めている。
特開2008-172421号公報
 しかしながら、特許文献1の技術では、テレビ番組のジャンルコードを利用して遅延時間を推定するので、ジャンルコードがなければ、音声の出力タイミングと文字の表示タイミングとを合わせることができない。更に、音声の出力タイミングに対する文字の表示タイミングの遅延時間は、音声が示す内容の複雑さや文字を入力するテレビ関係者の技能などによって異なるので、ジャンルコードを利用しても、音声の出力タイミングと文字の表示タイミングとを正確に合わせることができない可能性がある。
 本発明は上記課題に鑑みてなされたものであって、その目的は、音声の出力タイミングと文字の表示タイミングとを合わせることである。
 上記課題を解決するために、本発明に係る表示タイミング決定装置は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、を含むことを特徴とする。
 本発明に係る表示タイミング決定方法は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、を含むことを特徴とする。
 本発明に係るプログラムは、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、としてコンピュータを機能させる。
 また、本発明に係る情報記憶媒体は、上記のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。
 また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を複数取得し、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 また、本発明の一態様では、前記表示タイミング決定手段は、前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 また、本発明の一態様では、前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。
 また、本発明の一態様では、前記表示タイミング決定手段は、前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 また、本発明の一態様では、前記音声格納データには、対応する文字情報がない音声も格納されており、前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。
 また、本発明の一態様では、前記音声格納データには、前記複数の音声と、音声以外の音と、を含む複数の音が格納されており、前記波形解析手段は、前記音声格納データに格納された複数の音の各々の出力タイミングを取得し、前記表示タイミング決定手段は、前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 また、本発明の一態様では、前記表示タイミング決定装置は、各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、を更に含み、前記表示タイミング決定手段は、各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
 本発明によれば、音声の出力タイミングと文字の表示タイミングとを合わせることが可能になる。
表示タイミング決定システムの全体構成を示す図である。 動画が再生される際に実行される処理の概要を示す図である。 表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。 タイミングデータのデータ格納例を示す図である。 スペクトログラムの一例を示す図である。 最終的な表示タイミングが取得される様子を示す図である。 サーバにおいて実行される処理の一例を示すフロー図である。 音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。 対応する文字のない音声の出力タイミングを示す図である。 変形例における機能ブロック図である。
[1.表示タイミング決定システムのハードウェア構成]
 以下、本発明に関わる表示タイミング決定装置の一例であるサーバを含む表示タイミング決定システムの実施形態の例を説明する。図1は、表示タイミング決定システムの全体構成を示す図である。図1に示すように、表示タイミング決定システム1は、サーバ10及びユーザ装置20を含む。これら各装置は、それぞれ有線又は無線によりネットワークを介して通信可能に接続されるようにしてよい。
 サーバ10は、サーバコンピュータであり、例えば、制御部11、記憶部12、及び通信部13を含む。制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。
 ユーザ装置20は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。ユーザ装置20は、制御部21、記憶部22、通信部23、操作部24、表示部25、及び音声出力部26を含む。制御部21、記憶部22、及び通信部23のハードウェア構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。
 操作部24は、ユーザが操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部24は、ユーザの操作内容を制御部21に伝達する。表示部25は、例えば、液晶表示部又は有機EL表示部等であり、動画や静止画などの各種画像を表示可能である。音声出力部26は、例えば、スピーカーであり、各種音声を出力可能である。
 なお、記憶部12,22に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ10及びユーザ装置20のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。例えば、サーバ10及びユーザ装置20は、それぞれコンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USBポートや映像入出力端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ10又はユーザ装置20に供給されるようにしてもよい。
 本実施形態では、サーバ10は、複数の動画を管理している。例えば、ユーザ装置20において、ユーザが視聴したい動画を指定すると、ダウンロード配信又はストリーミング配信により動画を視聴することができる。ユーザ装置20において動画が再生されると、動画とともに字幕が表示部25に表示され、音声出力部26から動画の音声が出力される。
 図2は、動画が再生される際に実行される処理の概要を示す図である。図2では、動画をVidの符号で示し、動画の音声をVoiの符号で示し、字幕をSubの符号で示す。図2に示すように、サーバ10は、動画Vidと字幕Subをデータとして別々に管理している。なお、図2に示す字幕Subのt軸は、時間軸である。図2の字幕Subは、画面に表示される字幕を時系列順に示している。
 本実施形態では、字幕Subは、動画Vidの中に埋め込まれた状態で管理されているのではなく、動画Vidとは別物として管理されている。そして、動画Vidが表示される場合に、図2に示すように、動画Vidと字幕Subが合成される。これにより、動画の音声Voiが出力される場合に、当該音声Voiに対応する字幕Subが表示される。例えば、サーバ10は、動画Vidのデータと字幕Subのデータとを別々にユーザ装置20に送信し、ユーザ装置20において、字幕Subと動画Vidとが合成される。また例えば、サーバ10は、ユーザが指定した動画Vidに字幕Subを合成したうえで、当該合成後の動画Vidのデータをユーザ装置20に送信する。
 字幕Subは、サーバ10に動画Vidが登録される前又は後の任意のタイミングにおいて、任意の方法により作成される。例えば、システムの管理者は、動画Vidを視聴しながら字幕Subのテキストと、字幕Subの表示タイミングと、を手入力するようにしてよい。字幕Subが作成されたばかりの時点では、音声の出力タイミングと字幕Subの表示タイミングとは合っていなくてもよく、ある程度のタイミング的なずれがあってよい。ただし、各音声の出力順と各字幕Subの表示順とは合っており、出力タイミングの間隔と表示タイミングの間隔とは概ね合っているものとする。
 本実施形態のサーバ10は、動画Vidの音声波形を解析し、動画Vid中の各音声の出力タイミングを取得する。そして、サーバ10は、各字幕Subの表示タイミングを調整しつつ、音声波形の解析により得られた各音声の出力タイミングと比較し、タイミング的に最も一致する表示タイミングを見つけることによって、各音声の出力タイミングと、各字幕Subの表示タイミングと、を合わせるようにしている。以降、この技術の詳細を説明する。なお、以降の説明では、図2において動画、音声、及び字幕に付した符号は省略する。
[2.本実施形態において実現される機能]
 図3は、表示タイミング決定システム1で実現される機能の一例を示す機能ブロック図である。図3に示すように、本実施形態では、音声格納データ取得部100、タイミングデータ取得部101、データ記憶部102、波形解析部103、及び表示タイミング決定部104が、サーバ10で実現される。
[2-1.音声格納データ取得部]
 音声格納データ取得部100は、制御部11を主として実現される。音声格納データ取得部100は、順次出力される複数の音声が格納された音声格納データを取得する。本実施形態では、音声格納データ取得部100は、後述するデータ記憶部102から音声格納データを取得する場合を説明するが、サーバ10以外のコンピュータに音声格納データが記憶されている場合には、当該コンピュータから音声格納データを取得してもよい。
 音声は、人が実際に発した音がマイクで集音されてもよい、コンピュータで合成された人工的な音であってもよい。音声格納データが再生される期間(再生の開始時点から終了時点までの期間)は、各音声がそれぞれ出力される複数の期間を含むことになる。個々の音声は、ある1つの期間内に出力される音声のかたまりといえる。音声は、少なくとも1つの単語を含むようにしてもよいし、文章ごとに区切られていてもよいし、複数の文章から構成されてもよい。更に、音声は、特に意味のある単語を含まない叫び声や悲鳴であってもよい。例えば、音声は、映画・ドラマ・アニメなどにおける個々のセリフであってもよいし、動画に撮影された人の個々の発言であってもよいし、歌や詩などの個々のフレーズであってもよい。
 音声格納データは、再生することで音声を出力可能なデータであればよく、例えば、画像と音声が格納された動画データであってもよいし、画像を含まない音声データであってもよい。動画データ及び音声データのデータ形式及び圧縮形式自体は、公知の種々の形式を適用可能であってよく、例えば、avi形式、mpeg形式、又はmp3形式であってよい。本実施形態では、音声格納データが動画データである場合を説明する。
 音声格納データが再生されると、時間経過に応じて、音声格納データに格納された各音声が、予め定められた順番で、予め定められたタイミングで出力される。別の言い方をすれば、予め定められた順番で予め定められたタイミングで出力されるように、各音声が音声格納データに格納されている。なお、音声の出力タイミングは、音声が出力される期間の任意のタイミングであればよく、例えば、音声の出力を開始するタイミングを示してもよいし、音声の出力を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。
[2-2.タイミングデータ取得部]
 タイミングデータ取得部101は、制御部11を主として実現される。タイミングデータ取得部101は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。本実施形態では、タイミングデータ取得部101は、後述するデータ記憶部102からタイミングデータを取得する場合を説明するが、サーバ10以外のコンピュータにタイミングデータが記憶されている場合には、当該コンピュータからタイミングデータを取得してもよい。
 文字情報は、音声の内容を少なくとも1つの文字として示し、例えば、字幕、キャプション、又はテロップと呼ばれるテキストであってよい。文字情報は、1つの文字のみから構成されてもよいし、複数の文字を含む文字列であってもよい。また、文字情報は、文字以外の記号を含んでいてもよい。なお、文字情報は、音声の内容と一言一句まで完全に一致している必要はなく、音声の内容と文字情報の内容とはある程度の違いがあってよい。本実施形態では、音声格納データが動画データを説明するので、文字情報が動画の字幕である場合を説明する。
 図4は、タイミングデータのデータ格納例を示す図である。図4に示すように、タイミングデータは、文字情報を一意に識別する文字情報ID、文字情報の表示タイミング、及び文字情報が格納される。なお、文字情報は、タイミングデータとは別のデータに格納されていてもよい。
 タイミングデータに格納される表示タイミングは、文字情報が表示される期間内の任意のタイミングを示せばよく、例えば、文字情報の表示を開始する開始タイミングを示してもよいし、文字情報の表示を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。本実施形態では、開始タイミングが表示タイミングとして用いられる場合を説明するが、図4に示すように、終了タイミング及び表示時間の長さもタイミングデータに格納されていてよい。なお、表示時間の長さは、文字情報によって異なってもよいし、全ての文字情報で共通であってもよい。
 なお、タイミングデータに予め設定されている表示タイミングは、後述する表示タイミング決定部104により調整されるので、本実施形態では、調整前の表示タイミングを「仮の表示タイミング」と記載し、調整後の表示タイミングを「最終的な表示タイミング」と記載する。後述する表示タイミング決定部104は、仮の表示タイミングの変更し、音声の出力タイミングと全体的に合うような最終的な表示タイミングを見つけることになる。
 以降、文字情報をi(i=1~Nの整数。Nは、文字情報の総数。)と記載し、タイミングデータに格納された仮の表示タイミングの集合を{x}と記載する。例えば、図4のように、各文字情報に対し、時系列順に文字情報IDを1から順番に付与する場合には、iの数値は、文字情報IDを示すことになる。先述したように、本実施形態では、文字情報iの表示が開始される開始タイミングが、当該文字情報iの仮の表示タイミングxとなる。
[2-3.データ記憶部]
 データ記憶部102は、記憶部12を主として実現される。データ記憶部102は、音声格納データとタイミングデータとを記憶する。本実施形態では、音声格納データごとにタイミングデータが用意されているので、データ記憶部102は、これらの組み合わせを記憶することになる。なお、データ記憶部102は、音声格納データ以外のデータを記憶してもよい。
[2-4.波形解析部]
 波形解析部103は、制御部11を主として実現される。波形解析部103は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。例えば、波形解析部103は、音声格納データに基づいて、周波数ごとの信号の強さを時系列的に示すスペクトログラムを生成する。スペクトログラムは、公知のソノグラフを利用して生成されるようにすればよく、例えば、バンドパスフィルタを利用してもよいし、短時間フーリエ変換を利用してもよい。なお、ソノグラフは、スペクトログラムの生成アルゴリズムを備えた機器の総称である。波形解析部103は、周波数ごとに、音声波形が示す強さ(振幅)の時系列的な変化を取得することによって、スペクトログラムを生成する。
 図5は、スペクトログラムの一例を示す図である。図5のスペクトログラムは、縦軸が周波数を示し、横軸が時間を示す。スペクトログラムは、各周波数の信号の強さをカラーで示すことが多いが、ここでは、各周波数の信号の強さを模式的にモノクロで示す。図5の例では、網点が濃い周波数帯域は音が強いことを示し、網点が薄い周波数帯域は音が弱いことを示す。
 波形解析部103は、スペクトログラムに基づくディープラーニング(機械学習の一種)を実行することにより、各音声の出力タイミングを取得する。ディープラーニングに必要な音声の特性を示すパターン情報は、データ記憶部102に記憶されているようにしてよい。例えば、波形解析部103は、音声に対応する周波数帯域(例えば、100Hz~数千Hz程度)の強度が閾値以上である場合は、音声の出力中であると判定し、当該周波数帯域の強度が閾値未満である場合は、音声の出力中ではないと判定する。音声に対応する周波数帯域は、予め指定されていればよく、システム管理者の入力により可変であってよい。
 例えば、波形解析部103は、音声が出力中ではない状態から音声が出力中の状態に変化した場合、音声を一意に識別する音声IDを発行し、当該音声IDにより識別される音声の出力の開始タイミングであると判定する。そして、波形解析部103は、音声が出力中の状態から出力中ではない状態に変化した場合、当該音声IDにより識別される音声の出力の終了タイミングであると判定する。開始タイミングから終了タイミングまでの期間は、当該音声IDにより識別される音声が出力される期間となる。先述したように、本実施形態では、音声の開始タイミングが出力タイミングとして用いられる場合を説明するが、終了タイミング及び出力期間の長さも保持されるようにしてもよい。
 以降、音声をj(j=1~Nの整数。Nは、音声の総数。)と記載し、出力タイミングの集合を{y}と記載する。例えば、各音声に対し、時系列順に音声IDを1から順番に付与する場合には、jの数値は、音声IDを示すことになる。本実施形態では、開始タイミングを出力タイミングとして用いるので、音声jの出力が開始されるタイミングが、当該音声jの出力タイミングyとなる。
[2-5.表示タイミング決定部]
 表示タイミング決定部104は、制御部11を主として実現される。表示タイミング決定部104は、波形解析部103により取得された各音声の出力タイミング{y}と、タイミングデータにより定まる各文字情報の仮の表示タイミング{x}と、に基づいて、各文字情報の最終的な表示タイミングを決定する。
 表示タイミング決定部104は、各音声の出力タイミング{y}と、各文字情報の仮の表示タイミング{x}と、に基づいて、一致度情報を取得し、一致度情報が示す一致度が高くなるように、仮の表示タイミング{x}を変更し、最終的な表示タイミングを決定する。一致度情報は、タイミング的にどの程度一致しているかを示す指標である。別の言い方をすれば、一致度情報は、タイミング的なずれ具合を示す指標である。一致度情報は、各音声の出力タイミング{y}と、後述する変更量により変更される前又は後の各文字情報の仮の表示タイミング{x}との一致度を示してもよい。
 例えば、一致度情報が示す一致度が高いほど(即ち、一致度が示すずれ具合が小さいほど)タイミングが合っていることを示し、一致度情報が示す一致度が低いほど(即ち、一致度が示すずれ具合が大きいほど)タイミングが合っていないことを示す。一致度情報は、数値により示される。一致度情報は、出力タイミング{y}と仮の表示タイミング{x}との時間差に基づいて算出され、これらを変数とする数式に基づいて算出される。この数式は、データ記憶部102に記憶されているものとする。
 例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミングの変更量を複数取得し、複数の変更量の中から、一致度情報が示す一致度が最も高い変更量を選択する。この変更量は、仮の表示タイミング{x}のタイミング的な移動量であり、時間的にどれだけ前後させるかを示す。文字情報ごとに変更量が異なってもよいし、文字情報全体として共通の変更量が用いられてもよい。本実施形態では、文字情報全体として共通の変更量が用いられる場合を説明する。変更量は、少なくとも1つの数値により示されてよく、例えば、下記の数式1のa及びbの係数が変更量として用いられるようにしてよい。
Figure JPOXMLDOC01-appb-M000001
 数式1の左辺は、変更量である係数a及びbにより変更された後の仮の表示タイミングを示す。即ち、T(x)は、最終的な表示タイミングの候補である。数式1の右辺の係数aは、仮の表示タイミング{x}の個々の間隔の変更量である。係数aを変更すると、文字情報全体の表示時間が伸びるため、係数aは、文字情報のスケールを示す。一方、係数bは、仮の表示タイミング{x}を全体的にシフトする場合の移動量である。係数bを変更すると、文字情報が全体的に前又は後の何れかに移動するため、係数bは、平行移動量を示す。
 上記説明したように、表示タイミング決定部104は、仮の表示タイミング{x}の変更量である係数a及びbの組み合わせを複数取得することになる。複数の組み合わせの各々は、係数a及びbの少なくとも一方の値が他の組み合わせと異なっている。係数a及びbの組み合わせの取得方法自体は、公知のサンプル抽出方法を適用可能であり、例えば、RANSAC(Random sample consensus)に基づいて抽出してもよいし、係数a及びbの組み合わせが予めシステム管理者により指定されているようにしてよい。なお、組み合わせの取得数は任意であってよく、例えば、数十~数百程度のサンプルが抽出されてよい。
 表示タイミング決定部104は、変更量ごとに、変更後の各文字情報の仮の表示タイミング{T(x)}と、各音声の出力タイミング{y}と、の一致度に関する一致度情報を取得する。一致度情報は、変更後の仮の表示タイミング{T(x)}と出力タイミング{y}とを変数とする数式に基づいて算出される。当該数式は、データ記憶部102に記憶されているものとする。本実施形態では、下記の数式2を例に挙げる。
Figure JPOXMLDOC01-appb-M000002
 数式2の左辺は、一致度情報である。一致度情報Dは、変更量である係数a及びbによって変わるので、当該変更量による変更後の各文字情報の仮の表示タイミングTが変数となっている。このため、一致度情報Dは、変更量である係数a及びbの組み合わせごとに算出される。
 また、数式2の右辺第1項に示すように、表示タイミング決定部104は、文字情報ごとに、当該文字情報の仮の表示タイミングT(x)と、当該仮の表示タイミングT(x)に最も近い出力タイミング{y}と、の一致度に関する個別一致度情報dを取得する。例えば、表示タイミング決定部104は、ある変更量による変更後の仮の表示タイミングT(x)ごとに、当該仮の表示タイミングT(x)に最も近い出力タイミング{y}との距離(即ち、時間差)を、個別一致度情報dとして取得する。そして、表示タイミング決定部104は、当該個別一致度情報dの総和を取得することになる。
 また例えば、数式2の右辺第2項に示すように、表示タイミング決定部104は、音声ごとに、当該音声の出力タイミング{y}と、当該出力タイミング{y}に最も近い文字情報の仮の表示タイミングT(x)と、の一致度を示す個別一致度情報dを取得する。例えば、表示タイミング決定部104は、音声の出力タイミング{y}ごとに、当該出力タイミング{y}に最も近い変更後の仮の表示タイミングT(x)との距離(即ち、時間差)を、個別一致度情報dとして取得する。そして、表示タイミング決定部104は、当該個別一致度情報dの総和を取得することになる。
 数式2に示すように、表示タイミング決定部104は、文字情報ごとに取得される個別一致度情報dの総和(右辺第1項)と、音声ごとに取得される個別一致度情報dの総和(右辺第2項)と、を取得する。左辺に示される一致度情報は、全体的なタイミングの一致度を示すので、以降では全体一致度情報Dと記載する。即ち、全体一致度情報Dは、タイミングの全体的な一致度を示す情報である。ここでは、一致度情報Dの数値が小さいほど一致度が高く(ずれが小さく)、一致度情報Dの数値が大きいほど一致度が低い(ずれが大きい)ことを示している。
 例えば、表示タイミング決定部104は、一致度情報Dが示す一致度が最も高い変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。本実施形態では、表示タイミング決定部104は、係数a及びbの組み合わせのうち、全体一致度情報Dの数値が最も小さい(一致度が最も高い)組み合わせに基づいて変更した仮の表示タイミングT(x)を、最終的な表示タイミングとして取得する。
 また例えば、本実施形態では、文字情報ごとに個別一致度情報dが取得されるので、表示タイミング決定部104は、文字情報ごとに取得した個別一致度情報dに基づいて、各文字情報の最終的な表示タイミングを決定することになる。更に例えば、本実施形態では、音声ごとに個別一致度情報dが取得されるので、表示タイミング決定部104は、音声ごとに取得した個別一致度情報dに基づいて、各文字情報の最終的な表示タイミングを決定することになる。
 図6は、最終的な表示タイミングが取得される様子を示す図である。図6に示すt軸は時間軸であり、一部の音声の出力タイミングy~yと、一部の文字情報の表示タイミングx~xと、を示している。例えば、種々の係数a及びbの組み合わせのうち、係数aが1.05であり、かつ、係数bが-2.0である場合に、全体一致度情報Dが示す一致度が最も高くなるものとする。図6に示すように、音声の出力タイミング{y}と、各文字情報の仮の表示タイミング{x}と、のずれがあったとしても、一致度が最も高い全体一致度情報Dにより仮の表示タイミング{x}が変更されることによって、タイミング的なずれが小さくなる。
 なお、本実施形態では、各文字情報の開始タイミングが表示タイミングに相当する場合を説明するが、表示タイミング決定部104は、各文字情報の終了タイミング及び表示時間も、開始タイミングの変更に合わせて変更してもよい。例えば、表示タイミング決定部104は、全体一致度情報Dが示す一致度が最も高くなる変更量に応じて終了タイミング及び表示時間を変更してもよい。また、表示タイミング決定部104は、表示時間は変えずに、変更後の開始タイミングと同じ量だけ終了タイミングをずらしてもよい。
[3.本実施形態において実行される処理]
 図7は、サーバ10において実行される処理の一例を示すフロー図である。図7に示す処理は、図3に示す機能ブロックにより実行される処理の一例であり、制御部11が、記憶部12に記憶されたプログラムに従って動作することによって実行される。なお、図7に示す処理は、所定の条件が満たされた場合に実行されるようにすればよく、例えば、音声格納データとタイミングデータがサーバ10に登録された場合に実行されてもよいし、システム管理者の指示などの任意のタイミングで実行されてもよい。
 図7に示すように、まず、制御部11は、記憶部12に記憶された音声格納データを取得する(S1)。制御部11は、S1で取得した音声格納データに基づいて、スペクトログラムを生成する(S2)。S2においては、先述したように、制御部11は、ソノグラフを利用して音声格納データに対して周波数解析を行い、周波数ごとの信号の強さを時系列的に取得することによって、スペクトログラムを生成する。
 制御部11は、S2で生成したスペクトログラムに基づいて、各音声の出力タイミング{y}を取得する(S3)。S3においては、制御部11は、音声格納データの再生時間の最初から時系列順に、所定の周波数帯域の音の強さが閾値以上となる時間を探索することによって、音声の出力を開始する開始タイミングを取得する。制御部11は、最初の音声の開始タイミングを取得すると、当該音声に音声ID=1を付与する。次いで、制御部11は、所定の周波数帯域の音の強さが閾値未満となる時間を探索することによって、音声の出力を終了する終了タイミングを取得する。制御部11は、最初の音声の終了タイミングを取得すると、当該終了タイミング及び最初の音声の出力時間を記憶部12に保持してよい。以降、制御部11は、音声格納データの再生時間の最後まで、上記の処理を繰り返し、音声の開始タイミングを見つけるたびに、音声IDをインクリメントして、その開始タイミング等を記憶部12に保持する。
 制御部11は、記憶部12に記憶されたタイミングデータを取得する(S4)。制御部11は、文字情報の表示タイミングの変更量を複数取得する(S5)。S5においては、先述したように、制御部11は、RANSACを利用して、係数a及びbの組み合わせを一定数以上取得する。
 制御部11は、S5で取得した変更量ごとに、全体一致度情報Dを取得する(S6)。S6においては、制御部11は、先述した数式1及び2を利用して、変更量ごとに全体一致度情報Dを取得して記憶部12に保持する。
 制御部11は、全体一致度情報Dに基づいて、文字情報の最終的な表示タイミングを決定し(S7)、本処理は終了する。S7においては、制御部11は、全体一致情報が示す一致度が最も高い変更量により変更される仮の表示タイミングT(x)が最終的な表示タイミングとなるように、タイミングデータを更新する。即ち、制御部11は、当該変更量により変更された仮の表示タイミングT(x)に基づいて、タイミングデータを上書きする。これにより、サーバ10は、音声格納データと、最終的な表示タイミングが決定されたタイミングデータと、に基づいて、音声格納データの再生及び文字情報の表示制御を実行可能となる。
 以上説明した表示タイミング決定システム1によれば、音声格納データに対する音声波形の解析により得られる各音声の出力タイミングと、各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングが決定されるので、音声の出力タイミングと文字の表示タイミングとを合わせることができる。音声波形は、音声格納データさえあれば解析可能なので、例えば、番組のジャンルコードのような情報が無かったとしても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。別の言い方をすれば、番組のジャンルコードが存在しない音声格納データであっても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。
 また、表示タイミング決定システム1は、仮の表示タイミングの複数の変更量の中からタイミング的な一致度が最も高い変更量に基づいて最終的な表示タイミングを決定する。即ち、表示タイミング決定システム1は、文字情報ごとに別個の変更量を計算するのではなく、全体的にタイミングの合う変更量(各文字情報に共通の変更量)を決定するため、より簡易的な処理によって、サーバ10の処理負荷を軽減しつつ、タイミングが合った表示タイミングを迅速に取得することができる。
 また、文字情報ごとに個別一致度情報dが取得されることにより、文字情報の表示タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。
 また、音声ごとに個別一致度情報dが取得されることにより、音声の出力タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。
[4.変形例]
 なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
 (1)例えば、実施形態では、全ての文字情報に対して個別一致度情報dが取得されたが、タイミングデータに仮の表示タイミング{x}が格納されている複数の文字情報の中に、音声以外の情報を示す文字情報が含まれている場合には、対応する音声が存在しないので、この文字情報に対しては、個別一致度情報dが取得されないようにしてもよい。
 音声以外の情報を示す文字情報は、対応する音声が存在しない文字情報であり、例えば、説明文、タイトル、又は注釈などである。例えば、音声格納データが動画データであれば、動画に写された場所の名前、登場人物の役職・氏名、役者名、又は映画・番組・アニメ・曲のタイトルなどが、音声以外の情報を示す文字情報に相当する。このような文字情報が存在する場合、当該文字情報についても表示タイミングを識別する必要があるので、タイミングデータには、当該文字情報の仮の表示タイミングも格納される。
 図8は、音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。図8に示すように、仮の表示タイミングがx12とx14の文字情報は、動画中の場所や登場人物の役職を示す説明文であり、所定時間以内に音声の出力タイミングが存在しないので、対応する音声が存在しない。このような文字情報は、そもそも対応する音声が存在せずタイミングを合わせる必要がないので、個別一致度情報dを取得するとノイズになってしまう。このため、表示タイミング決定部104は、音声以外の情報を示す文字は、個別一致度情報dの取得対象から除外する。
 例えば、表示タイミング決定部104は、仮の表示タイミング{x}の所定時間以内に出力タイミング{y}が存在するかを判定する。表示タイミング決定部104は、所定時間以内に出力タイミング{y}が存在する仮の表示タイミング{x}は、対応する音声が存在すると判定し、所定時間以内に出力タイミング{y}が存在しない仮の表示タイミング{x}は、対応する音声が存在しないと判定する。表示タイミング決定部104は、対応する音声が存在する文字情報だけ、実施形態で説明した方法と同様に個別一致度情報dを取得し、対応する音声が存在しない文字情報は、個別一致度情報dを取得しない。
 変形例(1)によれば、音声以外の情報を示す文字は個別一致度情報dの取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。
 (2)また例えば、実施形態では、全ての音声に対して個別一致度情報dが取得されたが、音声格納データに格納された複数の音声の中に、対応する文字情報がない音声が含まれている場合には、個別一致度情報dが取得されないようにしてもよい。
 対応する文字情報がない音声は、当該音声を示す文字情報が存在しない音声であり、例えば、感動詞、相槌、叫び声、又は悲鳴などである。別の言い方をすれば、対応する文字がない音声は、当該音声が出力されても文字情報が表示されない音声である。音声波形の解析では、対応する文字情報があるか否かは関係ないので、波形解析部103は、このような音声であったとしても、音声の出力タイミングを取得してしまうことになる。
 図9は、対応する文字のない音声の出力タイミングを示す図である。図9に示すように、出力タイミングがy22,23の音声は、感動詞や掛け声などであり、対応する文字情報が存在しない。このような音声は、そもそもタイミングを合わせるべき文字情報が存在しないので、個別一致度情報dを取得するとノイズになってしまう。このため、表示タイミング決定部104は、対応する文字がない音声は、個別一致度情報dの取得対象から除外する。
 例えば、表示タイミング決定部104は、出力タイミング{y}の所定時間以内に仮の表示タイミング{x}が存在するかを判定する。表示タイミング決定部104は、所定時間以内に仮の表示タイミング{x}が存在する出力タイミング{y}は、対応する文字情報が存在すると判定し、所定時間以内に仮の表示タイミング{x}が存在しない出力タイミング{y}は、対応する音声が存在しないと判定する。表示タイミング決定部104は、対応する文字情報が存在する音声だけ、実施形態で説明した方法と同様に個別一致度情報dを取得し、対応する文字情報が存在しない音声は、個別一致度情報dを取得しない。
 変形例(2)によれば、対応する文字情報がない音声は個別一致度情報dの取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。
 (3)また例えば、音声に対応する文字情報が存在しなかったり、文字情報に対応する音声が存在しなかったりすると、タイミングのずれが非常に大きな個別一致度情報d,dが存在することがある。このような個別一致度情報d,dをそのまま加算して全体一致度情報Dが取得されると、他の部分のタイミングが合っていたとしても、全体としてタイミングが合っていないことになってしまう。このため、ある一定以上のずれを示す個別一致度情報d,dについては、そのずれを低減させたうえで全体一致度情報Dが計算されるようにしてよい。
 本変形例でも、実施形態で説明したように、表示タイミング決定部104は、個別一致度情報d,dにより定まる全体的な一致度に関する全体一致度情報Dに基づいて、各文字の最終的な表示タイミングを決定することになる。ただし、本変形例の表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dは、当該一致度を増加させたうえで、全体一致度情報Dを取得する。
 例えば、表示タイミング決定部104は、個別一致度情報d,dの数値が閾値未満(即ち、一致度が閾値以上)である場合は、下記の数式3により最終的な個別一致度情報d,dを再取得し、個別一致度情報d,dの数値が閾値以上(即ち、一致度が閾値未満)である場合は、下記の数式4により最終的な個別一致度情報d,dを再取得する。なお、下記の数式3及び4では、個別一致度情報d,dをそれぞれdで示し、閾値をcで示す。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 なお、表示タイミング決定部104が個別一致度情報d,dが示す一致度を増加させる方法は、数式3及び4に限られない。表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dについては、その一致度が上がるように変化すればよく、例えば、個別一致度情報d,dを変数とした数式により変化量が算出されてもよいし、個別一致度情報d,dを一律で所定値にしてもよい。表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dが全体一致度情報Dに与える影響を低減するように、当該個別一致度情報d,dの一致度を上げるようにすればよい。
 変形例(3)によれば、一致度が閾値未満の個別一致度情報d,dは、その一致度を増加させたうえで全体一致度情報Dが取得されるので、一部の低い個別一致度情報d,dのために、全体としてタイミングが一致していないとみなされることを防止することができる。その結果、音声と文字情報のタイミング合わせの精度を向上させることができる。
 (4)また例えば、音声格納データに、複数の音声と、音声以外の音と、を含む複数の音が格納されている場合、波形パターンの傾向により、各音が音声を示すか他の音を示すかを推測可能である。このため、音が音声である確率を考慮して全体一致度情報Dが取得されるようにしてもよい。なお、本変形例において、波形解析部103が音声格納データに格納された複数の音の各々の出力タイミングを取得する方法は、実施形態で説明した方法と同様であってよい。
 表示タイミング決定部104は、音ごとに、当該音が音声である確率に関する確率情報を取得する。表示タイミング決定部104は、音声格納データの音声波形を解析することによって、確率情報を取得する。確率情報の取得方法自体は、公知の手法を適用可能であり、例えば、VAD(Voice Activity Detection)分類を利用してよい。例えば、音声波形の基本パターンをデータ記憶部102に記憶しておき、表示タイミング決定部104は、当該基本パターンと、音声格納データが示す音声波形と、の一致度に基づいて確率情報を取得してもよい。確率情報は、数値で示され、例えば、0以上1以下の数値で示されてよい。ここでは、確率情報が示す数値が0に近いほど、音声である確率が低く、確率情報が示す数値が1に近いほど、音声である確率が高いことを示すものとする。
 表示タイミング決定部104は、音ごとに取得された確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部104は、下記の数式5に基づいて、全体一致度情報Dを取得するようにしてよい。なお、下記の数式5では、確率情報をc(y)で示す。全体一致度情報Dに基づいて最終的な表示タイミングを決定する方法自体は、実施形態で説明した方法と同様である。
Figure JPOXMLDOC01-appb-M000005
 なお、表示タイミング決定部104が確率情報に基づいて文字情報の最終的な表示タイミングを決定する方法は、上記の例に限られない。例えば、数式5以外の数式を用いてもよく、表示タイミング決定部104は、確率情報の低い音声に基づく個別一致度情報d,dが全体一致度情報Dに与える影響を低くし、確率情報の高い音声に基づく個別一致度情報d,dが全体一致度情報Dに与える影響を高くすればよく、確率情報に基づいて、全体一致度情報Dを取得する際の重み付けが行われるようにすればよい。他にも例えば、表示タイミング決定部104は、確率情報が閾値未満の音声の出力タイミングは、全体一致度情報Dを算出する際に参照しないようにしてもよい。
 変形例(4)によれば、音声であるか否かの確率情報を利用して文字情報の最終的な表示タイミングが決定されるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。
 (5)また例えば、実施形態では、複数の変更量の全てについて全体一致度情報Dを計算し、最も一致度の高い変更量を探す場合を説明したが、タイミングが合っている変更量は、その次にタイミングが合っている変更量と、全体一致度情報Dの差が大きいことがある。このため、このような変更量が見つかった時点で変更量の探索を停止してもよい。
 実施形態で説明したように、本変形例でも、表示タイミング決定部104は、各文字の仮の表示タイミングの変更量を繰り返し取得可能であり、変更量ごとに、変更後の各文字の仮の表示タイミング{x}と、各音声の出力タイミング{y}と、の全体的な一致度を示す全体一致度情報Dを取得するようにしてよい。
 本変形例の表示タイミング決定部104は、一致度が最も高い全体一致度情報Dと、一致度が2番目に高い全体一致度情報Dと、の差が閾値未満である場合は、新たな変更量を取得し、取得した新たな変更量に基づいて、全体一致度情報Dを取得する。例えば、表示タイミング決定部104は、全体一致度情報Dを取得するたびに、過去に取得した全体一致度情報Dと比較し、一致度が最も高いかを判定する。そして、表示タイミング決定部104は、一致度が最も高いと判定した場合、最新の全体一致度情報D(即ち、一致度が最も高い全体一致度情報D)と、その次に一致度の高い全体一致度情報Dと、の差が閾値未満であるかを判定する。閾値は、予め定められた値であればよく、固定値であってもよいし、可変値であってもよい。表示タイミング決定部104は、差が閾値未満であれば、実施形態で説明した方法と同様にして、次の変更量に対応する全体一致度情報Dを取得することになる。
 一方、表示タイミング決定部104は、差が閾値以上である場合は、新たな変更量は取得せず、一致度が最も小さい全体一致度情報Dに対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。即ち、表示タイミング決定部104は、差が閾値以上の全体一致度情報Dが存在する場合、それ以上の全体一致度情報Dの取得は実行せず、その時点で一致度が最も高い全体一致度情報Dに基づいて、最終的な表示タイミングを決定する。なお、表示タイミング決定部104は、全ての変更量に対応する全体一致度情報Dを取得しても、差が閾値以上にならなかった場合は、その時点で最も一致度の高い全体一致度情報Dに対応する変更量に基づいて、最終的な表示タイミングを決定してよい。
 変形例(5)によれば、ある程度タイミングの合う変更量が見つかった時点で変更量の取得が停止されるので、不必要な処理を実行する必要がなくなり、最終的な表示タイミングをより迅速に見つけることが可能になるとともに、サーバ10の処理負荷を軽減することができる。
 (6)また例えば、各音声の波形パターンの傾向から、音声の発声者が男性であるか女性であるかを特定可能である。各文字情報に、男性の音声であるか女性の音声であるかを関連付けて記録しておき、発声者に関する情報を利用して各文字情報の表示タイミングが決定されてもよい。
 図10は、変形例における機能ブロック図である。図10に示すように変形例では、実施形態で説明した機能の他に、音声発声者情報取得部105と文字発声者情報取得部106とが実現される。これらは、制御部11を主として実現される。
 音声発声者情報取得部105は、各音声に対応する発声者に関する音声発声者情報を取得する。音声発声者情報は、音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、音声発声者情報が発声者の性別を示す場合を説明する。男性の声は女性の声よりも周波数が低いため、音声発声者情報取得部105は、スペクトログラムが示す音声の周波数に基づいて、音声発声者情報を取得するようにしてよい。
 文字発声者情報取得部106は、各文字に対応する発声者に関する文字発声者情報を取得する。文字発声者情報は、文字情報が示す音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、文字発声者情報が発声者の性別を示す場合を説明する。文字発声者情報取得部106は、文字情報の入力者が指定した文字発声者情報を取得するようにしてよい。この場合、タイミングデータにおいて、文字情報IDに関連付けて文字発声者情報が格納されているようにしてよい。
 表示タイミング決定部104は、各音声の音声発声者情報と各文字情報の文字発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミングと比較する出力タイミングを探す場合に、当該文字情報の文字発声者情報と音声発声者情報とが一致する出力タイミングを特定する。そして、表示タイミング決定部104は、当該特定した出力タイミングと仮の表示タイミングとを比較することになる。
 変形例(6)によれば、音声発声者情報と文字発声者情報とを利用することによって、音声と文字情報との対応関係を見つけやすくなるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。
 (7)また例えば、実施形態及び上記変形例では、音声の出力タイミングと、文字情報の表示タイミングと、をそれぞれの開始タイミングとしたが、他の情報によって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。例えば、音声の出力タイミングの時間差を第1の配列に格納し、文字情報の表示タイミングの時間差を第2の配列に格納することによって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。この場合、表示タイミング決定部104は、第2の配列に格納された時間差を変更することによって、各文字情報の最終的な表示タイミングを決定する。
 また例えば、全体一致度情報Dは、全体的なタイミングの一致度を示せばよく、時間差の総和ではなく、タイミングのずれが閾値未満である文字情報又は音声の数を示してもよい。また例えば、実施形態では、複数の変更量を取得して、変更量ごとに全体一致度情報Dが取得される場合を説明したが、他の方法に基づいて、各文字情報の最終的な表示タイミングが決定されてもよい。例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミング{x}を、最も近い音声の出力タイミング{y}と一致又はずれが閾値未満となるように変更してもよい。即ち、表示タイミング決定部104は、全体的なタイミングの変更量ではなく、個別のタイミングの変更量に基づいて、各文字情報の仮の表示タイミング{x}を変更してもよい。この場合、特に全体一致度情報Dは取得されなくてもよい。
 また例えば、文字情報ごとに個別一致度情報dが取得される場合を説明したが、音声ごとの個別一致度情報dだけが取得されてもよいし、ランダムに選出した一部の文字情報だけに対して個別一致度情報dが取得されるようにしてもよい。同様に、音声ごとに個別一致度情報dが取得される場を説明したが、文字情報ごとの個別一致度情報dだけが取得されてもよいし、ランダムに選出した一部の音声だけに対して個別一致度情報dが取得されるようにしてもよい。
 また例えば、音声格納データ取得部100、タイミングデータ取得部101、波形解析部103、及び表示タイミング決定部104は、ユーザ装置20で実現されるようにしてもよい。この場合、これら各機能は、制御部21を主として実現され、ユーザ装置20が本発明に係る表示タイミング決定装置に相当する。他にも例えば、サーバ10及びユーザ装置20以外のコンピュータにおいて、音声格納データ取得部100、タイミングデータ取得部101、波形解析部103、及び表示タイミング決定部104が実現されるようにしてもよい。この場合、当該コンピュータが本発明に係る表示タイミング決定装置に相当する。

Claims (11)

  1.  順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
     前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
     前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
     前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
     を含むことを特徴とする表示タイミング決定装置。
  2.  前記表示タイミング決定手段は、
     各文字情報の仮の表示タイミングの変更量を複数取得し、
     前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、
     前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1に記載の表示タイミング決定装置。
  3.  前記表示タイミング決定手段は、
     前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、
     前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1又は2に記載の表示タイミング決定装置。
  4.  前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、
     前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、
     ことを特徴とする請求項3に記載の表示タイミング決定装置。
  5.  前記表示タイミング決定手段は、
     前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、
     前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1~4の何れかに記載の表示タイミング決定装置。
  6.  前記音声格納データには、対応する文字情報がない音声も格納されており、
     前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、
     ことを特徴とする請求項5に記載の表示タイミング決定装置。
  7.  前記音声格納データには、前記複数の音声と、音声以外の音と、を含む複数の音が格納されており、
     前記波形解析手段は、前記音声格納データに格納された複数の音の各々の出力タイミングを取得し、
     前記表示タイミング決定手段は、
     前記音ごとに、当該音が音声である確率に関する確率情報を取得し、
     前記音ごとに取得された前記確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1~6の何れかに記載の表示タイミング決定装置。
  8.  前記表示タイミング決定手段は、
     各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、
     前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、
     一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、
     前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1~7の何れかに記載の表示タイミング決定装置。
  9.  前記表示タイミング決定装置は、
     各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、
     各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、
     を更に含み、
     前記表示タイミング決定手段は、各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する、
     ことを特徴とする請求項1~8の何れかに記載の表示タイミング決定装置。
  10.  順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、
     前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
     前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、
     前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
     を含むことを特徴とする表示タイミング決定方法。
  11.  順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、
     前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、
     前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、
     前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
     としてコンピュータを機能させるためのプログラム。
PCT/JP2016/076466 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム WO2018047275A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018514484A JP6359229B1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
PCT/JP2016/076466 WO2018047275A1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
US16/080,306 US10652623B1 (en) 2016-09-08 2016-09-08 Display timing determination device, display timing determination method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/076466 WO2018047275A1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2018047275A1 true WO2018047275A1 (ja) 2018-03-15

Family

ID=61562814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/076466 WO2018047275A1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Country Status (3)

Country Link
US (1) US10652623B1 (ja)
JP (1) JP6359229B1 (ja)
WO (1) WO2018047275A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2005286969A (ja) * 2004-03-31 2005-10-13 Sharp Corp 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100771624B1 (ko) * 2006-03-06 2007-10-30 엘지전자 주식회사 텔레비전 수신기의 언어 설정 장치 및 방법
JP2008172421A (ja) 2007-01-10 2008-07-24 Sony Corp 記録装置および方法、再生装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2005286969A (ja) * 2004-03-31 2005-10-13 Sharp Corp 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Also Published As

Publication number Publication date
US10652623B1 (en) 2020-05-12
JP6359229B1 (ja) 2018-07-18
US20200169791A1 (en) 2020-05-28
JPWO2018047275A1 (ja) 2018-09-06

Similar Documents

Publication Publication Date Title
JP5740814B2 (ja) 情報処理装置および方法
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US20180068690A1 (en) Data processing apparatus, data processing method
US10037313B2 (en) Automatic smoothed captioning of non-speech sounds from audio
KR20150093425A (ko) 콘텐츠 추천 방법 및 장치
US20190289254A1 (en) Systems and methods for intelligently synchronizing events in visual content with musical features in audio content
JP4568144B2 (ja) 情報提示装置及び情報提示プログラム
US10141010B1 (en) Automatic censoring of objectionable song lyrics in audio
US11503375B2 (en) Systems and methods for displaying subjects of a video portion of content
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
US20170092277A1 (en) Search and Access System for Media Content Files
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
JP6295381B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
JP6359229B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
US11099811B2 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
US20210089577A1 (en) Systems and methods for displaying subjects of a portion of content and displaying autocomplete suggestions for a search related to a subject of the content
US20210089781A1 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
WO2011161820A1 (ja) 映像処理装置、映像処理方法及び映像処理プログラム
JP2022067478A (ja) 情報処理プログラム、装置、及び方法
US20200204856A1 (en) Systems and methods for displaying subjects of an audio portion of content
JP2009103945A (ja) 映像コンテンツ処理装置およびプログラム
CN115484503B (zh) 弹幕生成方法及装置、电子设备和存储介质
CN109977239B (zh) 一种信息处理方法和电子设备
JP6299531B2 (ja) 歌唱動画編集装置、歌唱動画視聴システム
CN111683284A (zh) 节目列表生成方法、装置、显示设备和可读存储介质

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018514484

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16915693

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16915693

Country of ref document: EP

Kind code of ref document: A1