WO2013102954A1 - 放送受信装置および音声辞書構築処理方法 - Google Patents

放送受信装置および音声辞書構築処理方法 Download PDF

Info

Publication number
WO2013102954A1
WO2013102954A1 PCT/JP2012/000056 JP2012000056W WO2013102954A1 WO 2013102954 A1 WO2013102954 A1 WO 2013102954A1 JP 2012000056 W JP2012000056 W JP 2012000056W WO 2013102954 A1 WO2013102954 A1 WO 2013102954A1
Authority
WO
WIPO (PCT)
Prior art keywords
subtitle
word
data
unit
words
Prior art date
Application number
PCT/JP2012/000056
Other languages
English (en)
French (fr)
Inventor
武 早川
晴次 木村
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to PCT/JP2012/000056 priority Critical patent/WO2013102954A1/ja
Publication of WO2013102954A1 publication Critical patent/WO2013102954A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Definitions

  • the present invention relates to a broadcast receiving apparatus that receives a television broadcast or the like, and more specifically, a broadcast receiving apparatus having a function of generating an audio dictionary and synthesized speech, and an audio dictionary construction process executed by the broadcast receiving apparatus. Regarding the method.
  • broadcast receivers with a synthesized voice function that reads information (broadcast station name, program name, program contents, etc.) provided as character strings about received programs in speech for people with visual disabilities are practical. It has become.
  • the broadcast receiving apparatus having the synthesized speech function includes a plurality of pieces of information in which words constituting a character string and speech data (defined by speech waveforms, prosody, etc.) indicating how to read the words are associated with each other. It is built in as a dictionary in advance.
  • voice data associated with a plurality of words constituting the character string such as a program name is acquired from the voice dictionary, and synthesized voice is generated based on the voice data. And speak from a speaker.
  • the voice dictionary is stored in a non-volatile memory or the like of the broadcast receiving apparatus, and the contents are generally not changed after the apparatus is shipped.
  • One method for avoiding such a problem is to download the latest speech dictionary from a server connected via a network and update the speech dictionary built in the broadcast receiving apparatus.
  • Patent Document 1 As another method for avoiding the problem, for example, an apparatus disclosed in Patent Document 1 has been proposed.
  • the method executed by the apparatus disclosed in Patent Document 1 when a word that is not registered in the speech dictionary is found, the user inputs the word as a character string to the apparatus.
  • the apparatus shows a plurality of reading candidates that apply to the input word. The user selects how to read from the plurality of candidates and registers it in the speech dictionary.
  • the method for downloading the latest speech dictionary described above must be in an environment where the broadcast receiving apparatus is connected to the network, and there remain problems in terms of equipment and cost.
  • the voice dictionary has to be downloaded every day, and there is a problem that the user's work is troublesome.
  • Patent Document 1 In addition, in the method disclosed in Patent Document 1, only some readings of input words are shown as candidates, and it is assumed that the user who has input the word understands the reading of the word. For this reason, the method disclosed in Patent Document 1 is not suitable for registering unknown words that the user does not know how to read at all in the speech dictionary. In addition, there is a problem that the user needs to input the first word into the apparatus, and the user's registration operation is troublesome.
  • the object of the present invention is to easily store words in an audio dictionary without worrying about equipment and costs, and without requiring a cumbersome registration operation even for unknown words whose reading is completely unknown. It is an object to provide a broadcast receiving apparatus and a speech dictionary construction processing method that can be registered.
  • the present invention is directed to a broadcast receiving apparatus including an audio dictionary that stores a plurality of words associated with audio data. And in order to solve the said problem, the broadcast receiver of this invention acquires subtitle data and a subtitle display period from the production
  • a processing unit a character recognition unit that recognizes a subtitle character string displayed on the screen from subtitle data, a voice recognition unit that acquires audio data output during the subtitle display period and recognizes it as subtitle audio data corresponding to how to read the subtitle character string
  • Subtitle words and word audio data obtained by decomposing the subtitle character string and subtitle audio data into words, respectively, and subtitle words whose word audio data is not registered in the audio dictionary are extracted as unregistered words
  • An unregistered word extraction unit that generates a registered candidate list, and word speech data corresponding to an unregistered word based on the registered candidate list It has a word registration unit to be registered in the voice dictionary.
  • the broadcast receiving apparatus of the present invention further includes a genre determining unit that determines the genre of video data to be combined with subtitles based on the additional data, so that the speech recognition unit and the unregistered word extraction unit are genre determined. It is possible to operate only when the video data is determined to be a specific genre by the unit. This particular genre is preferably at least a drama or a movie.
  • the broadcast receiving apparatus of the present invention may transmit the registration candidate list to an external communication device using a communication unit.
  • the communication unit receives information on all or part of the unregistered words selected by the external communication device, and the word registration unit handles the unregistered words indicated in the information received by the communication unit. Together with the word voice data to be registered in the voice dictionary.
  • the word registration unit may display a registration candidate list on the screen in response to a request from the user, or handle an unregistered word 0 selected by the user from the registration candidate list displayed on the screen. It may be registered in the voice dictionary together with the word voice data to be played.
  • the process executed by the broadcast receiving apparatus includes a step of generating video data and audio data from a broadcast signal, a step of acquiring subtitle data and a subtitle display period from additional data included in the broadcast signal, and a screen from subtitle data.
  • a step of recognizing the displayed subtitle character string a step of acquiring audio data output during the subtitle display period, recognizing it as subtitle audio data corresponding to how to read the subtitle character string, and a subtitle obtained by decomposing the subtitle character string into words
  • a step of obtaining a word and obtaining word sound data obtained by decomposing subtitle sound data into words a step of extracting a subtitle word in which the word sound data is not registered in the sound dictionary as an unregistered word, a registration candidate list including unregistered words And a word voice data corresponding to the unregistered word based on the registration candidate list.
  • the voice dictionary can always be kept up-to-date.
  • FIG. 1 is a diagram showing a configuration of a broadcast receiving apparatus 10 according to the first embodiment of the present invention.
  • FIG. 2 is a flowchart showing the procedure of the speech dictionary construction process performed by the broadcast receiving apparatus 10 according to the first embodiment of the present invention.
  • FIG. 3 is a diagram showing a specific example of the speech dictionary construction process described in FIG.
  • FIG. 4 is a diagram showing an example of a dictionary registration confirmation screen 400 on which a registration candidate list is presented to the user.
  • FIG. 5 is a diagram showing a configuration of the broadcast receiving apparatus 20 according to the second embodiment of the present invention.
  • FIG. 6 is a flowchart showing the procedure of the speech dictionary construction process performed by the broadcast receiving device 20 according to the second embodiment of the present invention.
  • FIG. 7 is a diagram showing a configuration of a broadcast receiving apparatus 30 according to the third embodiment of the present invention.
  • FIG. 8 is a diagram showing an example of another dictionary registration confirmation screen 800 in which a registration candidate list is presented to the user.
  • Each embodiment is a broadcast receiving device that receives a television broadcast such as a terrestrial digital broadcast or a BS digital broadcast, and has a built-in audio dictionary that stores a plurality of words that are associated with audio data that indicates how to read,
  • a television broadcast such as a terrestrial digital broadcast or a BS digital broadcast
  • a built-in audio dictionary that stores a plurality of words that are associated with audio data that indicates how to read
  • FIG. 1 is a diagram showing a configuration of a broadcast receiving apparatus 10 according to the first embodiment of the present invention.
  • the broadcast receiving apparatus 10 according to the first embodiment includes a basic processing unit 100 and a speech dictionary construction processing unit 150.
  • the basic processing unit 100 is a general functional block provided in a broadcast receiving apparatus capable of reading out the caption content, and includes a receiving unit 101, a signal separating unit 102, a video generating unit 103, a video synthesizing unit 104, and a video display unit 105. , A voice generation unit 106, a voice synthesis unit 107, a voice reproduction unit 108, an additional data processing unit 109, a character recognition unit 110, a reading voice generation unit 111, and a voice dictionary 112.
  • the speech dictionary construction processing unit 150 is a unique functional block that characterizes the present invention, and includes a speech recognition unit 151, an unregistered word extraction unit 152, and a word registration unit 153.
  • the receiving unit 101 is, for example, a tuner, receives a television broadcast signal via the antenna 120, performs necessary processing (high frequency processing and demodulation processing) on the received digital broadcast signal, and generates a transport stream.
  • the signal separation unit 102 converts the transport stream obtained by the generation processing by the reception unit 101 into a bit stream (hereinafter referred to as a video stream) including a PES packet (Packetized Elementary Stream Packets) of video data, and a PES packet of audio data. It is separated into a bit stream (hereinafter referred to as an audio stream) and additional data including information related to captions and broadcast programs.
  • a bit stream hereinafter referred to as a video stream
  • PES packet Packetized Elementary Stream Packets
  • the video generation unit 103 inputs a video stream obtained by the separation processing by the signal separation unit 102, decodes the video stream, and generates video data.
  • the video composition unit 104 outputs the video data obtained by the generation process by the video generation unit 103 to the video display unit 105 as it is, or displays subtitles, program names, and the like given from the additional data processing unit 109 as OSD (On Screen Display). Data to be displayed is combined with video data and output to the video display unit 105. Switching of data to be output to the video display unit 105 is performed according to a user instruction input to an input unit (not shown) via, for example, a remote controller.
  • the video display unit 105 is a liquid crystal display or the like, and is a device that converts video data into video and displays the screen.
  • the video display unit 105 may be built in the broadcast receiving apparatus 10 as shown in FIG. 1 or may be provided outside as a separate body (such as a monitor).
  • the audio generation unit 106 receives the audio stream obtained by the separation processing by the signal separation unit 102, decodes the audio stream, and generates broadcast audio data. Then, the voice generation unit 106 outputs the broadcast voice data obtained by the generation process to the voice synthesis unit 107 and the voice recognition unit 151.
  • the voice synthesizer 107 receives the broadcast voice data obtained by the generation process by the voice generator 106 and the read voice data (described later) generated by the read voice generator 111. Then, the voice synthesizer 107 outputs the broadcast voice data as it is to the voice reproducer 108, or synthesizes the read voice data with the broadcast voice data and outputs it to the voice reproducer 108.
  • the switching of the audio data to be output to the audio reproduction unit 108 is performed according to a user instruction input to an input unit (not shown) via, for example, a remote controller.
  • the audio reproducing unit 108 is a speaker or the like, and is a device that converts audio data into audio and reproduces it.
  • regeneration part 108 may be incorporated in the broadcast receiving apparatus 10 like FIG. 1, and may be provided in the exterior separately.
  • the additional data processing unit 109 inputs additional data obtained by the separation processing by the signal separation unit 102, and outputs subtitle data, subtitle data from the additional data (hereinafter referred to as subtitle display period), and program name Get program data about
  • the caption data is described as “character information for displaying captions” in the PES data area of the caption PES packet.
  • the caption display period is described as “transmission timing” and “erase timing” in the PES data area of the caption PES packet. Note that the caption PES packet is described in detail in the NAB technical standard T027-1996 formulated by the Japan Broadcasting Corporation.
  • the character recognition unit 110 analyzes the caption data acquired by the additional data processing unit 109 and recognizes a character string (hereinafter referred to as a caption character string) displayed on the screen as a caption.
  • the reading voice generation unit 111 searches the voice dictionary 112 using the subtitle character string recognized by the character recognition unit 110 as a key. Then, the reading voice generation unit 111 acquires voice data associated with each word constituting the subtitle character string from the voice dictionary 112, and reads voice data for reading the subtitle character string by voice (hereinafter, read voice data). Output to the speech synthesizer 107.
  • the speech dictionary 112 has a record of a pair of a word and speech data in which a word, which is a meaningful language unit, is associated with speech data (defined by a speech waveform, prosody, etc.) indicating how to read the word. Multiple stored.
  • the voice synthesizer 107 When the voice synthesizer 107 receives an instruction to read out the subtitle content from the user, the voice synthesizer 107 synthesizes the read voice data generated by the read voice generator 111 with the broadcast voice data obtained by the generation process by the voice generator 106. Then, the data is output to the audio reproduction unit 108.
  • the voice recognition unit 151 acquires broadcast audio data transmitted from the audio generation unit 106 during the caption display period as caption audio data in accordance with the caption display period acquired by the additional data processing unit 109. Then, the voice recognition unit 151 analyzes the acquired subtitle voice data and recognizes the subtitle voice data as a character string (hereinafter referred to as a voice character string).
  • the unregistered word extraction unit 152 inputs the subtitle character string output from the character recognition unit 110 and the subtitle audio data recognized as the audio character string output from the voice recognition unit 151, and sets each character string in units of words. Decompose. A morphological analysis such as a well-known longest match method can be applied to the decomposition of the character string into words.
  • the unregistered word extraction unit 152 includes a plurality of words obtained by decomposing the subtitle character string (hereinafter referred to as subtitle words) and a plurality of audio data obtained by decomposing the audio character string into words (hereinafter referred to as “subtitle words”). A plurality of records in which the subtitle word and the word sound data are paired.
  • the unregistered word extraction unit 152 includes a registered record (a pair of words and sound data) stored in the sound dictionary 112 and a record that is a pair of the newly created subtitle word and word sound data.
  • a matching process is performed to generate a registration candidate list describing a record in which a caption word and word voice data not yet stored in the speech dictionary 112 are paired.
  • the word registration unit 153 inputs the registration candidate list generated by the unregistered word extraction unit 152 and registers the record described in the registration candidate list in the speech dictionary 112 as a new record. At this time, the word registration unit 153 presents the registration candidate list to the user by screen display using the video display unit 105 and the like, and only the pair of the subtitle word and the word audio data selected by the user is stored in the audio dictionary 112. Alternatively, all pairs of subtitle words and word audio data described in the registration candidate list may be registered in the audio dictionary 112 without being selected by the user.
  • FIG. 2 is a flowchart showing the procedure of the speech dictionary construction process performed by the broadcast receiving apparatus 10 according to the first embodiment of the present invention.
  • FIG. 3 is a diagram showing a specific example of the speech dictionary construction process described in FIG.
  • the speech dictionary construction process shown in FIG. 2 is typically executed when caption data is present in the additional data separated by the signal separation unit 102.
  • the additional data processing unit 109 acquires the caption data of the program received by the receiving unit 101 (channel selection) and the caption display period of the caption data based on the additional data obtained by the separation processing by the signal separation unit 102.
  • the character recognition unit 110 recognizes the caption data ([a1] in FIG. 3) acquired by the additional data processing unit 109 as a caption character string ([b1] in FIG. 3) (step S202).
  • the voice recognition unit 151 converts broadcast audio data transmitted from the voice generation unit 106 during the subtitle display period acquired by the additional data processing unit 109, that is, subtitle audio data ([a2] in FIG. 3) corresponding to the subtitle character string. It is recognized as a character string ([b2] in FIG. 3) (step S203).
  • the unregistered word extraction unit 152 decomposes the subtitle character string into words ([c1] in FIG. 3), and further decomposes the subtitle audio data into words according to the audio character string ([c2] in FIG. 3).
  • the unregistered word extraction unit 152 creates a record ([d] in FIG. 3) that pairs the subtitle word obtained by decomposing the subtitle character string and the word audio data obtained by decomposing the audio character string. It is created (step S204) and compared with a registered record stored in the speech dictionary 112 using a matching process or the like (step S205). Then, the unregistered word extraction unit 152 extracts records that are not registered in the speech dictionary 112, and creates a registration candidate word list ([e] in FIG. 3) configured by the extracted unregistered records (step e). S206).
  • the word registration unit 153 registers some or all of the records described in the registration candidate list in the speech dictionary 112 (step S207). This record registration is performed automatically by the word registration unit 153 or based on a user instruction. The user's instruction is given via, for example, a GUI (graphical user interface) using the screen shown in FIG.
  • FIG. 4 is a diagram showing an example of a dictionary registration confirmation screen 400 on which a registration candidate list is presented to the user.
  • This dictionary registration confirmation screen 400 may be automatically displayed when an arbitrary condition is satisfied, for example, when the number of lists exceeds a predetermined value or when a broadcast program ends, May be displayed in response to a request from.
  • a registration candidate list including a pair of the subtitle word 401 and the word audio data 402 is shown.
  • Each record describes a state 403 indicating whether or not word registration has been completed.
  • a registration button 404 is pressed when registering a record selected on the registration candidate list in the speech dictionary 112.
  • a registration confirmation screen 420 may be displayed.
  • the delete button 405 is pressed when deleting a record selected on the registration candidate list from the registration candidate list.
  • the reading button 406 is pressed when it is desired to hear how to read the word of the record selected on the registration candidate list, that is, to read out the voice data.
  • the setting / change button 407 is a button provided for the convenience of the speech dictionary construction process, and can be freely designed. For example, automatic or manual word registration in the voice dictionary 112 can be set, voice data (how to read) can be corrected, and prosody such as accent position, strength, and pose of voice data can be changed. .
  • the broadcast receiving device 10 and the audio dictionary construction processing method performed by the device according to the first embodiment of the present invention based on the subtitle data and the audio data uttered during the subtitle display period, It is possible to create a record in which a word used for subtitles and audio data indicating how to read the word are paired.
  • a new word that is not registered in the speech dictionary 112 is used in the broadcast, this word can be added to the speech dictionary 112. Therefore, the voice dictionary 112 can always be kept up-to-date. Further, if a new word that is not registered in the speech dictionary 112 is automatically added to the speech dictionary 112, there is no need to force the user to perform troublesome operations associated with the word registration in the speech dictionary 112.
  • the speech dictionary construction process provided by the present invention creates an unregistered record based on a subtitle character string displayed on the screen and how to read (speak) the subtitle character string that flows in broadcast audio. Therefore, in order to make the correspondence between the words of the unregistered record to be created and the sound data more reliable and reliable, the subtitle character string displayed on the screen is read almost simultaneously by the broadcast sound ( (Speaking) must basically match.
  • the former type programs include programs intended to display dialogue in subtitles, for example, dramas and movies
  • the latter type programs include programs in which summarized content is easily displayed in subtitles, For example, news and sports.
  • the type of the program is determined from the information about the genre included in the program data, and execution or non-execution of the speech dictionary construction process is controlled to further improve the reliability of the speech dictionary 112.
  • the broadcast receiving apparatus 20 for the purpose will be described.
  • FIG. 5 is a diagram showing a configuration of the broadcast receiving apparatus 20 according to the second embodiment of the present invention.
  • the broadcast receiving apparatus 20 according to the second embodiment includes a basic processing unit 100 and a speech dictionary construction processing unit 250.
  • the speech dictionary construction processing unit 250 includes a speech recognition unit 251, an unregistered word extraction unit 252, a word registration unit 153, and a genre determination unit 254.
  • the broadcast receiving device 20 includes the broadcast receiving device 10 according to the first embodiment, the speech recognition unit 251 in the speech dictionary construction processing unit 250, and unregistered word extraction.
  • the configurations of the unit 252 and the genre determination unit 254 are different. Except for these different configurations of the broadcast receiving device 20, the configuration is the same as that of the broadcast receiving device 10, and thus the same reference numerals are given and description thereof is omitted.
  • the genre determination unit 254 acquires information related to the genre of the received program from the program data extracted by the additional data processing unit 109.
  • the program genre is an identifier for classifying the type of program such as drama, movie, news, sports, and music.
  • the genre determination unit 254 determines the genre of the acquired program and determines whether or not to execute the speech dictionary construction process. This determination is made based on whether or not a predetermined genre, typically a drama or movie. When the genre of the program does not correspond to a drama or a movie, the genre determination unit 254 controls the speech recognition unit 251 and the unregistered word extraction unit 252 so as not to execute the speech dictionary construction process.
  • the voice recognition unit 251 performs a process of acquiring broadcast audio data sent from the voice generation unit 106 even if the additional data processing unit 109 outputs a caption display period in accordance with the process non-execution control by the genre determination unit 254. Absent. Further, the unregistered word extraction unit 252 stops the input of the voice data from the voice recognition unit 151 and the input of the subtitle character string from the character recognition unit 110 in accordance with the process non-execution control by the genre determination unit 254.
  • FIG. 6 is a flowchart showing the procedure of the speech dictionary construction process performed by the broadcast receiving device 20 according to the second embodiment of the present invention.
  • the speech dictionary construction process shown in FIG. 6 is typically executed when caption data is present in the additional data separated by the signal separation unit 102.
  • the additional data processing unit 109 based on the additional data obtained by the separation processing by the signal separation unit 102, the caption data of the program received by the receiving unit 101 (channel selection), the caption display period of the caption data, and Program data is acquired (step S601).
  • the genre determination unit 254 extracts information on the genre of the program from the program data acquired by the additional data processing unit 109, and the genre of the extracted program is set to a predetermined genre indicating the target on which the audio dictionary construction process is executed. It is determined whether or not they match (step S602).
  • step S602: Yes When the genre of the program extracted by the genre determination unit 254 matches the predetermined genre (step S602: Yes), the speech dictionary construction processing unit 250 executes the speech dictionary construction processing of steps S202 to S207 described in FIG. . On the other hand, if the genre of the program extracted by the genre determination unit 254 does not match the predetermined genre (step S602: No), the speech dictionary construction processing unit 250 ends the process without executing the speech dictionary construction processing.
  • the genre of the received program is determined, and the program is determined to be a predetermined genre. Only when it is, the speech dictionary construction process is executed. As a result, it is possible to create only records useful for the construction of the speech dictionary 112, and the reliability of the speech dictionary 112 can be further improved.
  • the registration / non-registration of the record described in the registration candidate list is selected in parallel with the program broadcast (during the program broadcast) without disturbing the viewing of the received program.
  • the broadcast receiving apparatus 30 will be described.
  • FIG. 7 is a diagram showing a configuration of a broadcast receiving apparatus 30 according to the third embodiment of the present invention.
  • the broadcast receiving apparatus 30 according to the third embodiment includes a basic processing unit 100 and a speech dictionary construction processing unit 350.
  • the voice dictionary construction processing unit 350 includes a voice recognition unit 151, an unregistered word extraction unit 152, a word registration unit 353, and a communication unit 355.
  • the broadcast receiving device 30 according to the third embodiment includes the broadcast receiving device 10 according to the first embodiment, the word registration unit 353 and the communication unit 355 of the speech dictionary construction processing unit 350.
  • the configuration is different. Except for these different configurations of the broadcast receiving apparatus 30, the broadcast receiving apparatus 30 is the same as the broadcast receiving apparatus 10.
  • the voice recognition unit 151 acquires broadcast audio data transmitted from the voice generation unit 106 during the caption display period acquired by the additional data processing unit 109. Then, the voice recognition unit 151 analyzes the acquired broadcast voice data (caption voice data) to recognize a voice character string.
  • the unregistered word extraction unit 152 creates a plurality of new records based on subtitle words obtained by decomposing subtitle character strings into words and word audio data obtained by decomposing subtitle audio data recognized as audio character strings into words. To do. Then, the unregistered word extraction unit 152 generates a registration candidate list describing new records that are not yet stored in the speech dictionary 112.
  • the communication unit 355 inputs the registration candidate list generated by the unregistered word extraction unit 152 and transmits it to an external communication device. In addition, the communication unit 355 receives an instruction regarding registration / non-registration of a record described in the registration candidate list from an external communication device, and outputs the instruction to the word registration unit 353.
  • the word registration unit 353 receives the registration candidate list generated by the unregistered word extraction unit 152 and an instruction regarding registration / non-registration of the record output from the communication unit 355, and the record instructed to be registered is voiced as a new record. Register in dictionary 112.
  • a portable information terminal such as a smartphone is suitable as an external communication device.
  • the portable information terminal receives the registration candidate list from the communication unit 355, the portable information terminal displays a dictionary registration confirmation screen 400 as shown in FIG. 4 on its own screen, and prompts the user to select a record to be registered. Do.
  • the external communication device transmits information on the record to be registered to the communication unit 355.
  • This process enables the voice dictionary construction process via the GUI by an external communication device different from the broadcast receiving apparatus 30. Therefore, a new record registration operation necessary in real time can be performed simultaneously in parallel while viewing the received program.
  • the registration candidate list transmitted from the communication unit 355 can be reflected in the construction of a speech dictionary possessed by an external communication device. It is also possible to transmit a voice dictionary record of an external communication device to the communication unit 355 and reflect it in the construction of the voice dictionary 112 of the broadcast receiving device 30.
  • the registration candidate list is transmitted to the external communication device, and the external communication device Use the screen to let the user select records to be registered. Accordingly, if the received program is viewed while having an external communication device, even if a new word that is not registered in the voice dictionary 112 is used in the received program, viewing of the received program is hindered. This new word can be added to the speech dictionary 112 without any change.
  • the configuration of the broadcast receiving device 30 according to the third embodiment includes the voice recognition unit 251, the unregistered word extraction unit 252 and the genre determination unit 254 described in the broadcast receiving device 20 according to the second embodiment. Configuration may be added.
  • the speech dictionary construction processing units 150, 250, and 350 create a record in which one subtitle word and one word speech data are paired when the user manually registers a dictionary of words.
  • the example in which the user selects whether or not to register the record has been described.
  • the following method can be considered.
  • a dictionary registration confirmation screen 800 including a list is shown to the user.
  • the user creates a pair by selecting one from both lists and registers it in the speech dictionary 112. If this process is used, for example, even when the utterance timing of broadcast audio data is delayed with respect to the subtitle display period of the subtitle data and the subtitle word and the word audio data cannot be paired well, a simple process is performed by the user. To create the correct pair of records.
  • the speech dictionary construction processing of the present invention is applied to the caption display system adopted in Japan.
  • the speech dictionary construction process of the present invention can be similarly applied to a subtitle system adopted in Europe and a closed caption system adopted in the United States.
  • some or all of the functional blocks constituting the broadcast receiving device in each embodiment of the present invention are a central processing unit (CPU), a storage device (memory (ROM, RAM, etc.), hard disk, etc.), and an input / output device.
  • Such hardware resources are typically implemented as an integrated circuit IC (also referred to as an LSI, a system LSI, a super LSI, an ultra LSI, or the like).
  • IC also referred to as an LSI, a system LSI, a super LSI, an ultra LSI, or the like.
  • These functional blocks may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the method of circuit integration is not limited to ICs, and implementation using dedicated circuitry or general purpose processors is also possible.
  • an FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of the circuit cells inside the IC may be used.
  • integrated circuit technology such as biotechnology
  • functional blocks may naturally be integrated using this technology.
  • the speech dictionary construction processing method executed by the broadcast receiving device in each embodiment of the present invention described above interprets predetermined program data that can execute the procedure of the speech dictionary construction processing method stored in the storage device by the CPU. It may be realized by being executed.
  • the program data may be introduced into the storage device via a recording medium such as a CD-ROM or a flexible disk, or may be directly executed from the recording medium.
  • the recording medium refers to a semiconductor memory such as a ROM, a RAM, or a flash memory, a magnetic disk memory such as a flexible disk or a hard disk, an optical disk memory such as a CD-ROM, a DVD, or a BD, and a memory card.
  • the recording medium is a concept including a communication medium such as a telephone line or a conveyance path.
  • the present invention has a built-in voice dictionary that stores a plurality of words associated with voice data, and can be used for a broadcast receiving device having a function of reading out the contents of subtitles by using the voice dictionary. This is useful when you want to keep the voice dictionary up to date.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 文字認識部(110)は、放送信号に含まれる字幕データから画面表示される字幕文字列を認識する。音声認識部(151)は、字幕文字列が画面表示される期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識する。未登録単語抽出部(152)は、字幕文字列を単語単位に分解して字幕単語を求め、また字幕音声データを単語単位に分解して単語音声データを求める。そして、未登録単語抽出部(152)は、単語音声データが音声辞書(112)に登録されていない字幕単語を未登録単語として抽出し、未登録単語からなる登録候補リストを生成する。単語登録部(153)は、登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書(112)に登録する。

Description

放送受信装置および音声辞書構築処理方法
 本発明は、テレビジョン放送などを受信する放送受信装置に関し、より特定的には、音声辞書および合成音声を生成する機能を有した放送受信装置、およびこの放送受信装置が実行する音声辞書構築処理方法に関する。
 近年、目の不自由な方のために、受信番組に関して文字列で提供される情報(放送局名、番組名、番組の内容など)を音声で読み上げる合成音声機能を備えた放送受信装置が実用化されている。この合成音声機能を備えた放送受信装置には、文字列を構成する単語とこの単語の読み方を示す音声データ(音声波形や韻律などによって定義される)とを対応付けた複数の情報が、音声辞書として予め内蔵されている。そして、文字列の音声読み上げを行う場合には、番組名などの文字列を構成する複数の単語にそれぞれ対応付けられた音声データを音声辞書から取得し、音声データに基づいて合成音声を生成してスピーカなどから発声する。
 ところで、音声辞書は、放送受信装置が有する不揮発性メモリなどに保存されており、装置の出荷後もその内容は変更されないのが一般的である。しかし、装置の出荷後に新たな流行語が出てきたり、新人俳優が登場したりして、当初の音声辞書に登録されていない単語が生じることはよくあることである。このような状態の音声辞書を使用し続けた場合、誤った読み方や無音部分の発生などの不具合を引き起こすおそれがあり得る。
 このような不具合を回避する方法の1つとしては、ネットワークで接続されたサーバから最新の音声辞書をダウンロードして、放送受信装置が内蔵する音声辞書を更新するという方法がある。
 また、不具合を回避する他の方法としては、例えば特許文献1に開示された装置が提案されている。この特許文献1に開示された装置が実行する方法では、音声辞書に登録されていない単語が発見された場合、ユーザがその単語を文字列として装置に入力する。装置は、入力された単語に当てはまる読み方の候補を複数示す。ユーザは、この複数の候補の中から読み方を選択し、音声辞書に登録する。
特開平8-320864号公報
 しかし、上述した最新の音声辞書をダウンロードする方法は、放送受信装置がネットワークと接続される環境になければならず、設備面でもコスト面でも課題が残る。また、常に最新の音声辞書にしておくためには、音声辞書を毎日のようにダウンロードしなければならず、ユーザの作業が煩わしいという課題もある。
 また、上記特許文献1に開示された方法では、入力された単語の読み方を候補として幾つか示されるだけなので、単語を入力したユーザがその単語の読みを理解していることが前提となる。このため、特許文献1に開示された方法は、ユーザが読み方を全く知らない未知の単語を音声辞書に登録することには適していない。また、最初の単語をユーザが装置に入力する必要があり、ユーザの登録操作が煩わしいという課題もある。
 それ故に、本発明の目的は、読み方が全くわからない未知の単語であっても、設備面およびコスト面を気にせずに、またユーザに煩わしい登録操作を要求することなく、簡単に音声辞書に単語登録することができる放送受信装置および音声辞書構築処理方法を提供することである。
 本発明は、音声データを対応付けた単語を複数格納した音声辞書を備える放送受信装置に向けられている。そして、上記問題を解決するために、本発明の放送受信装置は、放送信号から映像データおよび音声データを生成する生成部、放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得する処理部、字幕データから、画面表示される字幕文字列を認識する文字認識部、字幕表示期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識する音声認識部、字幕文字列および字幕音声データを単語単位に分解した字幕単語および単語音声データをそれぞれ求め、単語音声データが音声辞書に登録されていない字幕単語を未登録単語として抽出し、未登録単語からなる登録候補リストを生成する未登録単語抽出部、および登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書に登録する単語登録部を備えている。
 また、本発明の放送受信装置は、付加データに基づいて、字幕が合成される映像データのジャンルを判定するジャンル判定部をさらに備えることで、音声認識部および未登録単語抽出部を、ジャンル判定部によって映像データが特定のジャンルであると判定された場合にのみ動作させることが可能となる。この特定のジャンルは、少なくともドラマまたは映画であることが好ましい。
 また、本発明の放送受信装置は、通信部を用いて登録候補リストを外部の通信機器へ送信するようにしてもよい。この場合、通信部が、外部の通信機器で選択された未登録単語の全部または一部に関する情報を受信し、単語登録部が、通信部が受信した情報に示された未登録単語を、対応する単語音声データと共に音声辞書に登録することができる。
 この単語登録部は、ユーザからの要求に応じて、登録候補リストを画面表示させてもよいし、また、画面表示された登録候補リストの中からユーザによって選択された未登録単語0を、対応する単語音声データと共に音声辞書に登録してもよい。
 なお、上記放送受信装置が実行する処理は、放送信号から映像データおよび音声データを生成するステップ、放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得するステップ、字幕データから、画面表示される字幕文字列を認識するステップ、字幕表示期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識するステップ、字幕文字列を単語単位に分解した字幕単語を求め、字幕音声データを単語単位に分解した単語音声データを求めるステップ、単語音声データが音声辞書に登録されていない字幕単語を未登録単語として抽出するステップ、未登録単語からなる登録候補リストを生成するステップ、および登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書に登録するステップを含む、音声辞書を構築する処理方法として捉えることができる。
 上記本発明によれば、テレビジョン放送を受信しておくだけで、音声辞書に登録されていない新たな単語が放送で使用された場合に、この単語を音声辞書に追加することが可能となる。従って、音声辞書を常に最新の状態にしておくこともできる。
図1は、本発明の第1の実施形態に係る放送受信装置10の構成を示す図である。 図2は、本発明の第1の実施形態に係る放送受信装置10が行う音声辞書構築処理の手順を示すフローチャートである。 図3は、図2で説明する音声辞書構築処理の具体的な一例を示す図である。 図4は、ユーザへ登録候補リストが提示される辞書登録確認画面400の一例を示す図である。 図5は、本発明の第2の実施形態に係る放送受信装置20の構成を示す図である。 図6は、本発明の第2の実施形態に係る放送受信装置20が行う音声辞書構築処理の手順を示すフローチャートである。 図7は、本発明の第3の実施形態に係る放送受信装置30の構成を示す図である。 図8は、ユーザへ登録候補リストが提示される他の辞書登録確認画面800の一例を示す図である。
 以下、図面を参照して、本発明の実施形態について詳細に説明する。
 なお、各実施形態では、地上デジタル放送やBSデジタル放送などのテレビジョン放送を受信する放送受信装置であって、特に読み方を示す音声データを対応付けた単語を複数格納した音声辞書を内蔵し、この音声辞書を利用して字幕の内容を音声で読み上げる機能を備えた放送受信装置に、本発明を適用する例を説明する。
  <第1の実施形態>
 図1は、本発明の第1の実施形態に係る放送受信装置10の構成を示す図である。図1において、第1の実施形態に係る放送受信装置10は、基本処理ユニット100および音声辞書構築処理ユニット150を備えている。
 基本処理ユニット100は、字幕内容の音声読み上げが可能な放送受信装置が備える一般的な機能ブロックであり、受信部101、信号分離部102、映像生成部103、映像合成部104、映像表示部105、音声生成部106、音声合成部107、音声再生部108、付加データ処理部109、文字認識部110、読み上げ音声生成部111、および音声辞書112で構成されている。
 音声辞書構築処理ユニット150は、本発明の特徴となるユニークな機能ブロックであり、音声認識部151、未登録単語抽出部152、および単語登録部153で構成されている。
・基本処理ユニット100の構成
 まず、放送受信装置10の基本処理ユニット100を構成する各機能ブロックを説明する。
 受信部101は、例えばチューナであり、アンテナ120を介してテレビジョン放送信号を受信し、受信したデジタル放送信号に必要な処理(高周波処理および復調処理)を施して、トランスポートストリームを生成する。
 信号分離部102は、受信部101による生成処理で得られたトランスポートストリームを、映像データのPESパケット(Packetized Elementary Stream Packets)を含むビットストリーム(以下、映像ストリームという)、音声データのPESパケットを含むビットストリーム(以下、音声ストリームという)、および字幕や放送番組に関する情報を含む付加データに分離する。
 映像生成部103は、信号分離部102による分離処理で得られた映像ストリームを入力し、映像ストリームを復号して映像データを生成する。
 映像合成部104は、映像生成部103による生成処理で得られた映像データをそのまま映像表示部105へ出力したり、付加データ処理部109から与えられる字幕や番組名などをOSD(On Screan Display)表示させるためのデータを、映像データに合成して映像表示部105へ出力したりする。この映像表示部105へ出力するデータの切り換えは、例えばリモコンなどを介して入力部(図示せず)に入力されるユーザ指示に従って行われる。
 映像表示部105は、液晶ディスプレイなどであり、映像データを映像に変換して画面表示する装置である。なお、この映像表示部105は、図1のように放送受信装置10に内蔵されていてもよいし、別体(モニターなど)で外部に設けられてもよい。
 音声生成部106は、信号分離部102による分離処理で得られた音声ストリームを入力し、音声ストリームを復号して放送音声データを生成する。そして、音声生成部106は、生成処理で得られた放送音声データを音声合成部107および音声認識部151へ出力する。
 音声合成部107は、音声生成部106による生成処理で得られた放送音声データと、読み上げ音声生成部111で生成された読み上げ音声データ(後述する)とを、入力する。そして、音声合成部107は、放送音声データをそのまま音声再生部108へ出力したり、放送音声データに読み上げ音声データを合成して音声再生部108へ出力したりする。この音声再生部108へ出力する音声データの切り換えは、例えばリモコンなどを介して入力部(図示せず)に入力されるユーザ指示に従って行われる。
 音声再生部108は、スピーカなどであり、音声データを音声に変換して再生する装置である。なお、この音声再生部108は、図1のように放送受信装置10に内蔵されていてもよいし、別体で外部に設けられてもよい。
 付加データ処理部109は、信号分離部102による分離処理で得られた付加データを入力し、付加データの中から字幕データ、字幕データを出力する期間(以下、字幕表示期間という)、および番組名などに関する番組データを取得する。字幕データは、字幕PESパケットのPESデータ領域に「字幕を表示するための文字情報」として記述される。また、字幕表示期間は、字幕PESパケットのPESデータ領域に「送出タイミング」および「消去タイミング」として記述される。
 なお、字幕PESパケットについては、日本民間放送連盟が策定したNAB技術規準T027-1996などに詳述されている。
 文字認識部110は、付加データ処理部109が取得した字幕データを解析して、字幕として画面表示される文字列(以下、字幕文字列という)を認識する。
 読み上げ音声生成部111は、文字認識部110で認識された字幕文字列をキーとして音声辞書112を検索する。そして、読み上げ音声生成部111は、この字幕文字列を構成する各単語に対応付けられた音声データを音声辞書112から取得し、字幕文字列を音声によって読み上げるための音声データ(以下、読み上げ音声データという)として音声合成部107に出力する。
 音声辞書112は、意味を有する言語単位である単語とこの単語の読み方を示す音声データ(音声波形や韻律などによって定義される)とを対応付けた、単語と音声データとを対とするレコードが、複数格納されている。
 上述した音声合成部107は、ユーザから字幕内容の音声読み上げの指示を受けると、音声生成部106による生成処理で得られた放送音声データに、読み上げ音声生成部111が生成した読み上げ音声データを合成して、音声再生部108へ出力する。
・音声辞書構築処理ユニット150の構成
 次に、放送受信装置10の音声辞書構築処理ユニット150を構成する各機能ブロックを説明する。
 音声認識部151は、付加データ処理部109が取得した字幕表示期間に従って、字幕表示期間に音声生成部106から送出される放送音声データを字幕音声データとして取得する。そして、音声認識部151は、取得した字幕音声データを解析して、字幕音声データを文字列(以下、音声文字列という)として認識する。
 未登録単語抽出部152は、文字認識部110が出力する字幕文字列と、音声認識部151が出力する音声文字列として認識された字幕音声データとを入力し、それぞれの文字列を単語単位に分解する。この文字列の単語単位への分解には、周知の最長一致法などの形態素解析を適用することができる。次に、未登録単語抽出部152は、字幕文字列を分解して得られた複数の単語(以下、字幕単語という)および音声文字列を単語に分解して得られた複数の音声データ(以下、単語音声データという)に基づいて、字幕単語と単語音声データとを対とするレコードを複数作成する。そして、未登録単語抽出部152は、音声辞書112に格納されている登録済みのレコード(単語と音声データの対)と、新たに作成した字幕単語と単語音声データとを対とするレコードとのマッチング処理を行い、音声辞書112にまだ格納されていない字幕単語と単語声データとを対とするレコードを記述した登録候補リストを生成する。
 単語登録部153は、未登録単語抽出部152で生成された登録候補リストを入力し、登録候補リストに記述されたレコードを新たなレコードとして音声辞書112に登録する。このとき、単語登録部153は、映像表示部105を用いた画面表示などによって登録候補リストをユーザに提示して、ユーザによって選択された字幕単語と単語音声データとの対だけを音声辞書112に登録してもよいし、ユーザに選択されることなく登録候補リストに記述された全ての字幕単語と単語音声データとの対を音声辞書112に登録してもよい。
・放送受信装置10が行う音声辞書構築処理
 次に、放送受信装置10によって行われる、音声辞書112に未登録の字幕単語を新たに登録する音声辞書構築処理を説明する。
 図2は、本発明の第1の実施形態に係る放送受信装置10が行う音声辞書構築処理の手順を示すフローチャートである。図3は、図2で説明する音声辞書構築処理の具体的な一例を示す図である。
 図2に示す音声辞書構築処理は、典型的には、信号分離部102によって分離された付加データの中に字幕データが存在する場合に実行される。
 付加データ処理部109は、信号分離部102による分離処理で得られた付加データに基づいて、受信部101が受信(選局)している番組の字幕データおよびその字幕データの字幕表示期間を取得する(ステップS201)。文字認識部110は、付加データ処理部109が取得した字幕データ(図3の[a1])を、字幕文字列(図3の[b1])として認識する(ステップS202)。音声認識部151は、付加データ処理部109が取得した字幕表示期間に音声生成部106から送出される放送音声データ、つまり字幕文字列に対応する字幕音声データ(図3の[a2])を音声文字列(図3の[b2])として認識する(ステップS203)。
 未登録単語抽出部152は、字幕文字列を単語に分解し(図3の[c1])、また字幕音声データを音声文字列に従って単語に分解する(図3の[c2])。次に、未登録単語抽出部152は、字幕文字列を分解して得た字幕単語と音声文字列を分解して得た単語音声データとを対とするレコード(図3の[d])を作成し(ステップS204)、音声辞書112に格納されている登録済みのレコードとマッチング処理などを用いて比較する(ステップS205)。そして、未登録単語抽出部152は、音声辞書112に登録されていないレコードを抽出し、この抽出した未登録レコードによって構成される登録候補単語リスト(図3の[e])を作成する(ステップS206)。
 単語登録部153は、登録候補リストに記述されているレコードの一部または全部を、音声辞書112に登録する(ステップS207)。このレコードの登録は、単語登録部153によって自動的に行われるか、ユーザの指示に基づいて行われる。ユーザの指示は、例えば図4に示す画面を用いたGUI(グラフィカル・ユーザ・インタフェース)を介して行われる。
 図4は、ユーザへ登録候補リストが提示される辞書登録確認画面400の一例を示す図である。この辞書登録確認画面400は、任意の条件が満足されたとき、例えばリストの数が所定の値を超えたときや、放送番組が終了したときなどに自動的に表示されてもよいし、ユーザからの要求に応じて表示されてもよい。
 辞書登録確認画面400の中央には、字幕単語401と単語音声データ402とを対とするレコードからなる登録候補リストが示される。各レコードには、単語の登録が完了したか否かを表す状態403が記述される。登録ボタン404は、登録候補リスト上で選択しているレコードを音声辞書112に登録する場合に押される。なお、登録ボタン204が押されると、登録確認画面420が表示されてもよい。削除ボタン405は、登録候補リスト上で選択しているレコードを登録候補リストから削除する場合に押される。読み上げボタン406は、登録候補リスト上で選択しているレコードの単語の読み方を聞きたい、すなわち音声データの読み上げを行いたい場合に押される。この読み上げボタン406の機能によって、ユーザは単語の読み方を実際に聞いて確認してから、音声辞書112に登録するか削除するかを決定することができる。設定/変更ボタン407は、音声辞書構築処理の利便性を図るために設けられたボタンであり、自由に設計することができる。例えば、音声辞書112への単語登録の自動または手動を設定したり、音声データ(読み方)を修正したり、音声データのアクセントの位置や強さ、ポーズなどの韻律を変更したりすることができる。
 以上のように、本発明の第1の実施形態に係る放送受信装置10およびこの装置が行う音声辞書構築処理方法によれば、字幕データと字幕表示期間に発声される音声データとに基づいて、字幕に用いられた単語とその単語の読み方を示す音声データとを対とするレコードを作成することができる。
 これにより、テレビジョン放送を受信しておけば、音声辞書112に登録されていない新たな単語が放送で使用された場合に、この単語を音声辞書112に追加することが可能となる。従って、音声辞書112を常に最新の状態にしておくこともできる。
 また、音声辞書112に登録されていない新たな単語を自動的に音声辞書112に追加するように構成すれば、音声辞書112への単語登録に伴う煩わしい操作をユーザに強いる必要がなくなる。
  <第2の実施形態>
 本発明が提供する音声辞書構築処理は、画面表示される字幕文字列と、この字幕文字列について放送音声で流れる読み方(発声)とに基づいて、未登録レコードを作成する。よって、作成される未登録レコードの単語と音声データとの対応付けをより信頼性のある確かなものとするためには、画面表示される字幕文字列に対してほぼ同時に放送音声によって流れる読み方(発声)が基本的に一致している必要がある。
 しかしながら、放送番組も様々なタイプがあり、字幕文字列と放送音声とが一致している番組もあれば、一致していない番組もある。典型的には、前者タイプの番組としては、台詞を字幕表示することを目的とした番組、例えばドラマや映画などが挙げられ、後者タイプの番組としては、要約した内容が字幕表示され易い番組、例えばニュースやスポーツなどが挙げられる。
 そこで、本第2の実施形態では、番組データに含まれるジャンルに関する情報から番組のタイプを判断して音声辞書構築処理の実行または不実行を制御し、音声辞書112の信頼性をさらに向上させることを目的とする放送受信装置20を説明する。
 図5は、本発明の第2の実施形態に係る放送受信装置20の構成を示す図である。図5において、第2の実施形態に係る放送受信装置20は、基本処理ユニット100および音声辞書構築処理ユニット250を備えている。音声辞書構築処理ユニット250は、音声認識部251、未登録単語抽出部252、単語登録部153、およびジャンル判定部254で構成されている。
 図5に示すように、第2の実施形態に係る放送受信装置20は、上記第1の実施形態に係る放送受信装置10と、音声辞書構築処理ユニット250における音声認識部251、未登録単語抽出部252、およびジャンル判定部254の構成が異なる。放送受信装置20のこれらの異なる構成以外は、放送受信装置10と同じであるため、同一の参照符号を付して説明を省略する。
・音声辞書構築処理ユニット250の構成
 放送受信装置20の音声辞書構築処理ユニット250を構成する各機能ブロックを説明する。
 ジャンル判定部254は、付加データ処理部109が抽出した番組データから、受信している番組のジャンルに関する情報を取得する。番組のジャンルとは、ドラマ、映画、ニュース、スポーツ、および音楽などの、番組のタイプを分類するための識別子である。ジャンル判定部254は、取得した番組のジャンルを判断し、音声辞書構築処理を実行するのか、実行しないのかを決定する。この決定は、予め定められたジャンル、典型的にはドラマまたは映画に該当するか否かによって行われる。番組のジャンルがドラマまたは映画に該当しない場合、ジャンル判定部254は、音声辞書構築処理を実行しないように、音声認識部251および未登録単語抽出部252を制御する。
 音声認識部251は、ジャンル判定部254による処理不実行の制御に従って、付加データ処理部109が字幕表示期間を出力してきても、音声生成部106から送出される放送音声データを取得する処理を行わない。
 また、未登録単語抽出部252は、ジャンル判定部254による処理不実行の制御に従って、音声認識部151からの音声データの入力、および文字認識部110からの字幕文字列の入力を停止する。
・放送受信装置20が行う音声辞書構築処理
 次に、放送受信装置20によって行われる、音声辞書112に未登録の字幕単語を新たに登録する構築処理を説明する。
 図6は、本発明の第2の実施形態に係る放送受信装置20が行う音声辞書構築処理の手順を示すフローチャートである。
 図6に示す音声辞書構築処理は、典型的には、信号分離部102によって分離された付加データの中に字幕データが存在する場合に実行される。
 付加データ処理部109は、信号分離部102による分離処理で得られた付加データに基づいて、受信部101が受信(選局)している番組の字幕データ、その字幕データの字幕表示期間、および番組データを取得する(ステップS601)。ジャンル判定部254は、付加データ処理部109が取得した番組データから、番組のジャンルに関する情報を抽出し、音声辞書構築処理を実行する対象を示した所定のジャンルに、この抽出した番組のジャンルが一致するか否かを判断する(ステップS602)。
 ジャンル判定部254が抽出した番組のジャンルが所定のジャンルに一致する場合(ステップS602:Yes)、音声辞書構築処理ユニット250は、図2で説明したステップS202~S207の音声辞書構築処理を実行する。一方、ジャンル判定部254が抽出した番組のジャンルが所定のジャンルに一致しない場合(ステップS602:No)、音声辞書構築処理ユニット250は、音声辞書構築処理を実行することなく処理を終了する。
 以上のように、本発明の第2の実施形態に係る放送受信装置20およびこの装置が行う音声辞書構築処理方法によれば、受信している番組のジャンルを判断して、番組が所定のジャンルである場合にだけ、音声辞書構築処理を実行する。
 これにより、音声辞書112の構築に有用なレコードだけを作成することが可能となり、音声辞書112の信頼性をさらに向上させることができる。
  <第3の実施形態>
 本発明が提供する音声辞書構築処理は、受信番組の視聴を妨げないという観点から、登録候補リストに記述されたレコードの音声辞書112への登録は、バックグラウンドで自動的に行われるか、受信番組の放送が終了した後などに登録候補リストをユーザに提示し(図4など)、ユーザからの指示に基づいて行われることが望ましい。
 しかしながら、音声辞書112へ全てのレコードを自動的に登録してしまう場合、誤った単語と音声データとの対が登録されてしまうおそれがある。また、受信番組の放送終了後などにユーザに手動で登録させる場合、番組の放送終了前に放送受信装置の電源が切られたり、番組の終了後に直ちに別の番組の視聴を開始したりして、ユーザの利便性がよいとは必ずしもいえない。
 そこで、本第3の実施形態では、受信番組の視聴を妨げることなく、番組放送と並行して(番組放送中に)登録候補リストに記述されたレコードの登録/不登録の選択を行うこと目的とする放送受信装置30を説明する。
 図7は、本発明の第3の実施形態に係る放送受信装置30の構成を示す図である。図7において、第3の実施形態に係る放送受信装置30は、基本処理ユニット100および音声辞書構築処理ユニット350を備えている。音声辞書構築処理ユニット350は、音声認識部151、未登録単語抽出部152、単語登録部353、および通信部355で構成されている。
 図7に示すように、第3の実施形態に係る放送受信装置30は、上記第1の実施形態に係る放送受信装置10と、音声辞書構築処理ユニット350における単語登録部353および通信部355の構成が異なる。放送受信装置30のこれらの異なる構成以外は、放送受信装置10と同じであるため、同一の参照符号を付して説明を省略する。
・音声辞書構築処理ユニット350の構成
 放送受信装置30の音声辞書構築処理ユニット350を構成する各機能ブロックを説明する。
 音声認識部151は、付加データ処理部109が取得した字幕表示期間に、音声生成部106から送出される放送音声データを取得する。そして、音声認識部151は、取得した放送音声データ(字幕音声データ)を解析して、音声文字列を認識する。
 未登録単語抽出部152は、字幕文字列を単語単位に分解した字幕単語、および音声文字列として認識された字幕音声データを単語単位に分解した単語音声データに基づいて、新たなレコードを複数作成する。そして、未登録単語抽出部152は、音声辞書112にまだ格納されていない新たなレコードを記述した登録候補リストを生成する。
 通信部355は、未登録単語抽出部152で生成された登録候補リストを入力し、外部の通信機器に送信する。また、通信部355は、登録候補リストに記述されたレコードの登録/不登録に関する指示を外部の通信機器から受信し、単語登録部353へ出力する。
 単語登録部353は、未登録単語抽出部152で生成された登録候補リストおよび通信部355が出力するレコードの登録/不登録に関する指示を入力し、登録が指示されたレコードを新たなレコードとして音声辞書112に登録する。
 外部の通信機器としては、スマートフォンなどの携帯情報端末が適している。携帯情報端末は、通信部355から登録候補リストを受信すると、自らの画面に例えば図4に示したような辞書登録確認画面400を表示させ、登録すべきレコードの取捨選択をユーザに促すことを行う。ユーザから登録すべきレコードが指示されると、外部の通信機器は、登録すべきレコードの情報を通信部355に送信する。
 この処理により、放送受信装置30とは異なる外部の通信機器でGUIを介した音声辞書構築処理が可能となる。よって、受信番組の視聴しつつ、リアルタイムで必要な新たなレコードの登録操作を並行して同時に行うことができる。
 なお、通信部355から送信される登録候補リストは、外部の通信機器が有する音声辞書の構築に反映させることも可能である。また、外部の通信機器が有する音声辞書のレコードを通信部355に送信し、放送受信装置30の音声辞書112の構築に反映させることももちろん可能である。
 以上のように、本発明の第3の実施形態に係る放送受信装置30およびこの装置が行う音声辞書構築処理方法によれば、外部の通信機器に登録候補リストを送信し、外部の通信機器の画面を使用して登録すべきレコードの取捨選択をユーザに行わせる。
 これにより、外部の通信機器を所持しながら受信番組を視聴していれば、音声辞書112に登録されていない新たな単語が受信番組で使用された場合であっても、受信番組の視聴を妨げることなく、この新たな単語を音声辞書112に追加することが可能となる。
 なお、第3の実施形態に係る放送受信装置30の構成に、上記第2の実施形態に係る放送受信装置20で説明した音声認識部251、未登録単語抽出部252、およびジャンル判定部254の構成を加えてもよい。
  <変形例>
 上記実施形態では、音声辞書構築処理ユニット150、250、および350は、ユーザに手動で単語の辞書登録を行わせる場合、1つの字幕単語と1つの単語音声データとを対とするレコードを作成して、そのレコードを登録するか否かをユーザに選択させる例を説明した。しかし、このような方法以外にも、次のような方法が考えられる。
 図8のように、字幕文字列を分解して得られた複数の単語(字幕単語)を列挙した一覧と、音声文字列を分解して得られた複数の単語(単語音声データ)を列挙した一覧とからなる、辞書登録確認画面800をユーザに示す。ユーザは、この双方の一覧からそれぞれ1つを選択して対を作成して、音声辞書112に登録する。
 この処理を用いれば、例えば字幕データの字幕表示期間に対して放送音声データの発声タイミングが遅延していて、字幕単語と単語音声データとを上手く対にできないような場合でも、ユーザによって簡単な処理で正しい対のレコードを作成することができる。
 なお、上記実施形態では、日本で採用されている字幕表示システムに本発明の音声辞書構築処理を適用させた場合を説明した。しかし、欧州で採用されているサブタイトルシステムや、米国で採用されているクローズドキャプションシステムについても、同様に本発明の音声辞書構築処理を適用することが可能である。
 また、本発明の各実施形態における放送受信装置を構成する一部または全部の機能ブロックは、中央処理装置(CPU)、記憶装置(メモリ(ROM、RAM等)、ハードディスク等)、および入出力装置などのハードウエア資源を用いることで実現され、典型的には集積回路であるIC(LSI、システムLSI、スーパーLSI、ウルトラLSI等とも称される)として具現化される。これらの機能ブロックは、個別に1チップ化されてもよいし、一部または全部を含むように1チップ化されてもよい。
 また、集積回路化の手法は、ICに限るものではなく、専用回路または汎用プロセッサで実現してもよい。また、IC製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、IC内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別の技術により、ICに置き換わる集積回路化の技術(バイオ技術など)が登場すれば、当然その技術を用いて機能ブロックの集積化を行ってもよい。
 また、上述した本発明の各実施形態における放送受信装置が実行する音声辞書構築処理方法は、記憶装置に格納された音声辞書構築処理方法の手順を実行可能な所定のプログラムデータが、CPUによって解釈実行されることで実現されてもよい。この場合、プログラムデータは、CD-ROMやフレキシブルディスク等の記録媒体を介して記憶装置内に導入されてもよいし、記録媒体上から直接実行されてもよい。なお、記録媒体は、ROMやRAMやフラッシュメモリ等の半導体メモリ、フレキシブルディスクやハードディスク等の磁気ディスクメモリ、CD-ROMやDVDやBD等の光ディスクメモリ、およびメモリカードなどをいう。また、記録媒体は、電話回線や搬送路などの通信媒体も含む概念である。
 本発明は、音声データを対応付けた単語を複数格納した音声辞書を内蔵し、この音声辞書を利用して字幕の内容を音声で読み上げる機能を備えた放送受信装置などに利用可能であり、特に音声辞書を常に最新の状態にしておきたい場合などに有用である。
10、20、30 放送受信装置
100 基本処理ユニット
101 受信部
102 信号分離部
103 映像生成部
104 映像合成部
105 映像表示部
106 音声生成部
107 音声合成部
108 音声再生部
109 付加データ処理部
110 文字認識部
111 読み上げ音声生成部
112 音声辞書
120 アンテナ
150、250、350 音声辞書構築処理ユニット
151、251 音声認識部
152、252 未登録単語抽出部
153、353 単語登録部
254 ジャンル判定部
355 通信部
400、420、800 確認画面
401 字幕単語
402 単語音声データ
403 状態
404~407 ボタン

Claims (8)

  1.  音声データを対応付けた単語を複数格納した音声辞書を備える放送受信装置であって、
     放送信号から映像データおよび音声データを生成する生成部、
     前記放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得する処理部、
     前記字幕データから、画面表示される字幕文字列を認識する文字認識部、
     前記字幕表示期間に出力される音声データを取得し、前記字幕文字列の読み方に対応する字幕音声データとして認識する音声認識部、
     前記字幕文字列および前記字幕音声データを単語単位に分解した字幕単語および単語音声データをそれぞれ求め、当該単語音声データが前記音声辞書に登録されていない字幕単語を未登録単語として抽出し、当該未登録単語からなる登録候補リストを生成する未登録単語抽出部、および
     前記登録候補リストに基づいて、前記未登録単語を対応する前記単語音声データと共に前記音声辞書に登録する単語登録部を備える、放送受信装置。
  2.  前記付加データに基づいて、前記字幕が合成される前記映像データのジャンルを判定するジャンル判定部をさらに備え、
     前記音声認識部および前記未登録単語抽出部は、前記ジャンル判定部によって前記映像データが特定のジャンルであると判定された場合にのみ動作する、請求項1に記載の放送受信装置。
  3.  前記特定のジャンルは、少なくともドラマまたは映画である、請求項2に記載の放送受信装置。
  4.  前記登録候補リストを外部の通信機器へ送信する通信部をさらに備える、請求項1に記載の放送受信装置。
  5.  前記通信部は、前記外部の通信機器で選択された前記未登録単語の全部または一部に関する情報を受信し、
     前記単語登録部は、前記通信部が受信した情報に示された未登録単語を、対応する前記単語音声データと共に前記音声辞書に登録する、請求項4に記載の放送受信装置。
  6.  前記単語登録部は、ユーザからの要求に応じて、前記登録候補リストを画面表示させる、請求項1に記載の放送受信装置。
  7.  前記単語登録部は、画面表示された前記登録候補リストの中からユーザによって選択された未登録単語を、対応する前記単語音声データと共に前記音声辞書に登録する、請求項6に記載の放送受信装置。
  8.  放送受信装置が備える音声データを対応付けた単語を複数格納した音声辞書を構築する処理方法であって、
     放送信号から映像データおよび音声データを生成するステップ、
     前記放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得するステップ、
     前記字幕データから、画面表示される字幕文字列を認識するステップ、
     前記字幕表示期間に出力される音声データを取得し、前記字幕文字列の読み方に対応する字幕音声データとして認識するステップ、
     前記字幕文字列を単語単位に分解した字幕単語を求め、前記字幕音声データを単語単位に分解した単語音声データを求めるステップ、
     前記単語音声データが前記音声辞書に登録されていない前記字幕単語を未登録単語として抽出するステップ、
     前記未登録単語からなる登録候補リストを生成するステップ、および
     前記登録候補リストに基づいて、前記未登録単語を対応する前記単語音声データと共に前記音声辞書に登録するステップを含む、音声辞書を構築する処理方法。
PCT/JP2012/000056 2012-01-06 2012-01-06 放送受信装置および音声辞書構築処理方法 WO2013102954A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/000056 WO2013102954A1 (ja) 2012-01-06 2012-01-06 放送受信装置および音声辞書構築処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/000056 WO2013102954A1 (ja) 2012-01-06 2012-01-06 放送受信装置および音声辞書構築処理方法

Publications (1)

Publication Number Publication Date
WO2013102954A1 true WO2013102954A1 (ja) 2013-07-11

Family

ID=48745032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/000056 WO2013102954A1 (ja) 2012-01-06 2012-01-06 放送受信装置および音声辞書構築処理方法

Country Status (1)

Country Link
WO (1) WO2013102954A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02238494A (ja) * 1989-03-13 1990-09-20 Matsushita Electric Ind Co Ltd 音声合成装置
JP2002182678A (ja) * 2000-12-13 2002-06-26 Nippon Hoso Kyokai <Nhk> データ更新装置および記録媒体
JP2006106451A (ja) * 2004-10-07 2006-04-20 Hitachi Ltd テレビ放送受信機における音声入力方法
JP2006178087A (ja) * 2004-12-21 2006-07-06 Internatl Business Mach Corp <Ibm> 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
WO2006093003A1 (ja) * 2005-02-28 2006-09-08 Pioneer Corporation 辞書データ生成装置及び電子機器
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2010271562A (ja) * 2009-05-22 2010-12-02 Alpine Electronics Inc 音声認識辞書作成装置及び音声認識辞書作成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02238494A (ja) * 1989-03-13 1990-09-20 Matsushita Electric Ind Co Ltd 音声合成装置
JP2002182678A (ja) * 2000-12-13 2002-06-26 Nippon Hoso Kyokai <Nhk> データ更新装置および記録媒体
JP2006106451A (ja) * 2004-10-07 2006-04-20 Hitachi Ltd テレビ放送受信機における音声入力方法
JP2006178087A (ja) * 2004-12-21 2006-07-06 Internatl Business Mach Corp <Ibm> 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
WO2006093003A1 (ja) * 2005-02-28 2006-09-08 Pioneer Corporation 辞書データ生成装置及び電子機器
JP2007041319A (ja) * 2005-08-03 2007-02-15 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
JP2010271562A (ja) * 2009-05-22 2010-12-02 Alpine Electronics Inc 音声認識辞書作成装置及び音声認識辞書作成方法

Similar Documents

Publication Publication Date Title
JP5178109B2 (ja) 検索装置、方法及びプログラム
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
KR101427686B1 (ko) 프로그램 선택 방법 및 그 장치
US20150215665A1 (en) Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data
KR20160029450A (ko) 디스플레이 장치 및 그의 동작 방법
KR20160057085A (ko) 디스플레이 장치 및 그 제어 방법
CN109792502B (zh) 信息处理设备、信息处理方法、存储介质和信息处理系统
JP4252366B2 (ja) 情報通信装置、情報通信方法、情報通信用プログラムおよび情報記録媒体
WO2008018479A1 (en) Receiver apparatus, display control method and program
JP2008160232A (ja) 映像音声再生装置
KR102307330B1 (ko) 수신 장치 및 수신 방법
JP2001309256A (ja) デジタルテレビ放送受信機
JP4615319B2 (ja) 電子番組表表示装置、電子番組表表示方法、プログラム、およびそのプログラムを記録した記録媒体
WO2013102954A1 (ja) 放送受信装置および音声辞書構築処理方法
JP4654438B2 (ja) 教育用コンテンツ生成装置
JP2003219332A (ja) 番組予約装置及びその方法、プログラム
JP2005277984A (ja) 受信端末
WO2013080866A1 (ja) 情報処理システム及び情報処理方法
JP2007226649A (ja) 検索装置及びプログラム
JP7229906B2 (ja) コマンド制御装置、制御方法および制御プログラム
CN112236816B (zh) 信息处理装置、信息处理系统以及影像装置
JP2012034235A (ja) 映像再生装置及び映像再生方法
JP6559542B2 (ja) 受信装置、受信方法およびプログラム
JPWO2005120059A1 (ja) 情報処理装置、その方法、そのプログラム、およびそのプログラムを記録した記録媒体、および情報記録装置
JP2001309257A (ja) デジタルテレビ放送受信機

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12864464

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12864464

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP