WO2006093003A1 - 辞書データ生成装置及び電子機器 - Google Patents

辞書データ生成装置及び電子機器 Download PDF

Info

Publication number
WO2006093003A1
WO2006093003A1 PCT/JP2006/303192 JP2006303192W WO2006093003A1 WO 2006093003 A1 WO2006093003 A1 WO 2006093003A1 JP 2006303192 W JP2006303192 W JP 2006303192W WO 2006093003 A1 WO2006093003 A1 WO 2006093003A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
keyword
display
dictionary data
program
Prior art date
Application number
PCT/JP2006/303192
Other languages
English (en)
French (fr)
Inventor
Yoshihiro Kawazoe
Takehiko Shioda
Original Assignee
Pioneer Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation filed Critical Pioneer Corporation
Priority to US11/817,276 priority Critical patent/US20080126092A1/en
Priority to JP2007505866A priority patent/JP4459267B2/ja
Publication of WO2006093003A1 publication Critical patent/WO2006093003A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42646Internal components of the client ; Characteristics thereof for reading from or writing on a non-volatile solid state storage medium, e.g. DVD, CD-ROM
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention belongs to a technical field in which a voice spoken by a user also recognizes a user input command.
  • a speech feature value pattern for example, a feature value pattern indicated by a hidden Markov model
  • Dictionary data this data is referred to as “ Dictionary data ”.
  • Patent Document 1 JP 2001-309256 A
  • An object of the present invention is to provide a dictionary data generation device, dictionary data generation method, electronic device and control method thereof, dictionary data generation program, processing program, and information recording medium on which these programs are recorded, which realizes accurate voice recognition. To do.
  • the dictionary data generation device is a speech recognition device that recognizes a user input command based on speech uttered by the user.
  • a dictionary data generation device for generating dictionary data for speech recognition used in the system an acquisition means for acquiring text data corresponding to the command, and a part of the acquired text data force character string
  • setting means for setting the character string as a keyword, and generating feature quantity data indicating a voice feature quantity corresponding to the set keyword, and specifying contents of processing corresponding to the command
  • Generating means for generating the dictionary data by associating data with the feature data
  • a display for displaying the keyword Specifying means for specifying the number of characters of the keyword that can be displayed by the device, wherein the setting means sets the keyword within a range of the number of characters specified by the specifying means.
  • the electronic device is an electronic device including a speech recognition device that recognizes a user input command based on speech uttered by the user, Feature amount data indicating the feature amount of speech corresponding to a keyword set in a part of a character string corresponding to the command is associated with content data for specifying the processing content corresponding to the command.
  • Recording means for recording the dictionary data, input means for inputting the utterance voice of the user, voice recognition means for specifying an input command corresponding to the utterance voice based on the recorded dictionary data, and , The content And execution means for executing processing corresponding to the specified input command based on the data, and generating display data for displaying keywords to be uttered by the user based on the dictionary data, and supplying the display data to the display device Display control means.
  • the dictionary data generation method is for speech recognition used in a speech recognition apparatus that recognizes a user input command based on speech uttered by the user.
  • a dictionary data generation method for generating dictionary data the acquisition step for acquiring text data corresponding to the command, and the key that can be displayed on a display device for displaying the keyword for speech recognition.
  • a specifying step for specifying the number of characters in one word, and a setting for extracting a part of the character string within the specified number of characters from the acquired text data and setting the character string as the keyword Generating feature value data indicating the feature value of the voice corresponding to the step and the set keyword, and corresponding to the command.
  • the contents data for specifying the processing contents by associating with the feature amount data characterized by comprising a generation step of generating the dictionary data.
  • the electronic device control method is a feature that indicates a feature amount of speech corresponding to a keyword set in a part of a character string corresponding to the command.
  • Group Hazuki characterized by comprising an execution step of executing processing corresponding to the specified input commands.
  • the dictionary data generation program according to claim 14 is a voice for recognizing a user input command based on a voice uttered by the user.
  • a dictionary data generation program for generating, by a computer, dictionary data for speech recognition used in a recognition device, the computer acquiring text data corresponding to the command, the speech recognition A specifying means for specifying the number of characters of the keyword that can be displayed on a display device for displaying a keyword, and selecting a part of the character string within the range of the specified number of characters from the acquired text data.
  • the processing program according to claim 15 includes feature amount data indicating a feature amount of speech corresponding to a keyword set in a part of a character string corresponding to a command; Recording means for recording dictionary data associated with content data for specifying the processing content corresponding to the command, and voice for recognizing an input command corresponding to the user's utterance voice using the dictionary data
  • a processing program for executing processing in a computer comprising a recognition device, wherein the computer generates display data for displaying keywords to be uttered by a user based on the dictionary data Display means to be supplied to the display device, and when the user's speech is input according to the image displayed on the display device, the dictionary data Speech recognition means for identifying an input command corresponding to the uttered voice Zui, based on the content data, execution means for executing processing corresponding to the specified input commands, characterized in that to the to function.
  • the computer-readable information recording medium according to claim 16 is characterized in that the dictionary data generation program according to claim 14 is recorded.
  • the computer-readable information recording medium according to claim 17 is characterized in that the processing program according to claim 15 is recorded.
  • FIG. 1 is a block diagram showing a configuration of an information recording / reproducing apparatus RP in an embodiment.
  • FIG. 2 is a conceptual diagram showing a relationship between a display column of a program table displayed on the monitor MN and the number of characters that can be displayed in the display column in the same embodiment.
  • FIG. 3 is a flowchart showing processing executed when the system control unit 17 displays a program guide in the embodiment.
  • FIG. 4 is a flowchart showing processing executed when the system control unit 17 displays a program guide in Modification 2.
  • FIG. 1 is a block diagram showing a configuration of an information recording / reproducing apparatus RP according to the present embodiment.
  • a hard disk drive (hereinafter referred to as a hard disk drive) that records and reads data is used. It is called “HDD”. )
  • a so-called hard disk ZDVD recorder provided with a DVD drive.
  • “broadcast program” refers to content provided by broadcast stations via broadcast waves.
  • an information recording / reproducing apparatus RP that is useful in this embodiment includes a TV receiving unit 11, a signal processing unit 12, an EPG data processing unit 13, a DVD drive 14, and an HDD 15.
  • Decoding processing unit 16 system control unit 17, speech recognition unit 18, operation unit 19, recording control unit 20, reproduction control unit 21, ROMZRAM 22, and bus 2 3 for interconnecting these elements
  • system control unit 17 speech recognition unit 18, operation unit 19
  • recording control unit 20 reproduction control unit 21, ROMZRAM 22, and bus 2 3 for interconnecting these elements
  • the TV receiver 11 receives broadcast waves corresponding to terrestrial analog broadcasting, terrestrial digital broadcasting, etc., and records the content data corresponding to the broadcast program on the DVD and the node disc 151, while the DVD and the node disc 151 Recording / playback function that plays back the content data recorded on the.
  • the information recording / reproducing apparatus RP extracts text data indicating a program name from EPG data to be displayed before displaying the program guide, and Generates dictionary data for speech recognition (specifically, data in which each keyword is associated with a feature pattern corresponding to the keyword) using the program name as a keyword (for speech recognition), and the dictionary data Is used to identify the program name corresponding to the voice spoken by the user and execute the process for recording recording of the broadcast program (in “Claims”).
  • “Command”, for example, corresponds to a powerful execution instruction.)
  • the specific content of the feature quantity pattern is arbitrary, but for the sake of concrete explanation, when referring to the "feature quantity pattern" in the present embodiment, the HMM (hidden) corresponding to the target keyword is used. It means the data indicating the pattern of the feature value of the voice shown by the statistical signal model expressing the transition state of the voice defined by the Markov model.
  • the specific method for generating dictionary data is arbitrary, but in this embodiment, morphological analysis is performed on text data corresponding to the program name (that is, A sentence written in a natural language is divided into parts of morpheme such as parts of speech (including kana), the program name is divided into parts of speech, and the program name is supported. It is assumed that dictionary data is generated by generating the feature amount pattern described above, and an example in which another method is adopted will be described in the section of the modified example.
  • a keyword portion that can be used for speech recognition is highlighted in the program guide while (b) a program display field of the program guide is displayed. If the program name cannot be displayed in full text, a keyword for voice recognition is created within the range of the number of characters that can be displayed for the program name, and only the keyword part is highlighted. , To ensure convenience when the user speaks keywords correctly For example, in the example shown in FIG. 2, it is assumed that a program name of up to 5 characters can be displayed in the display fields S1 to S3.
  • the program name “ ⁇ ⁇ ⁇ ⁇ (4 characters)” can be displayed in full text in the display column, so the information recording / reproducing device RP uses the full text of this program name as a keyword. Then, a feature amount pattern is generated, and the entire program name is highlighted in the program table. On the other hand, if the full text of the program name cannot be displayed in the display column, such as “Miyaya Supper (6 characters)”, the information recording / playback device RP will change the program name “Miyaya Supper”.
  • the last part of speech “Pasten” is deleted, the character string “Tsubakiya” is set as a keyword, and a feature pattern corresponding to the keyword is generated. Also, when displaying the program guide, only the “ ⁇ ⁇ ⁇ ⁇ ” part is highlighted. Furthermore, if the part of speech does not hold as part-of-speech like “N S-o 71 power”, the program name contains an unknown proper noun, or the program name is a word string that does not conform to the grammar, the morpheme Since the analysis cannot be performed and the feature pattern cannot be generated, the information recording / playback device RP displays the program name without any highlighting, and the user cannot recognize the voice. To present.
  • the method of highlighting the keyword portion in the warp and the table is arbitrary, for example, (Display Method 1) Only the keyword portion may be changed in the color of the character. (Display method 2) It is also possible to change the character font of the part. (Display method 3) It is also possible to display the characters with bold lines (Display method 4) Even if the character size is changed. good. In addition, (Display method 5) It is also possible to underline the relevant keyword part (Display method 6) Surrounding with a frame, or (Display method 7) Blinking display (Display method 8) Inverted You may make it display.
  • the TV receiver 11 is a tuner for digital broadcasting such as analog broadcasting such as terrestrial analog broadcasting and digital terrestrial broadcasting, C3 ⁇ 4 (Communication Satellite) broadcasting, BS (Broadcasting Satellite) Antanol, and the like.
  • Digital broadcasting such as analog broadcasting such as terrestrial analog broadcasting and digital terrestrial broadcasting, C3 ⁇ 4 (Communication Satellite) broadcasting, BS (Broadcasting Satellite) Antanol, and the like.
  • Receive broadcast waves via For example, if the broadcast wave to be received is an analog signal, the TV receiver 11 demodulates the broadcast wave into a TV video signal and an audio signal (hereinafter referred to as a “TV signal”). To the signal processing unit 12 and the EPG data processing unit 13. On the other hand, when the broadcast wave to be received is digital, the TV receiver 11 extracts the transport stream included in the received broadcast wave and sends it to the signal processor 12 and the EPG data processor 13. Supply.
  • analog broadcasting such as terrestrial analog broadcasting and digital terrestrial broadcasting
  • the signal processing unit 12 performs predetermined signal processing on the signal supplied from the TV receiving unit 11 under the control of the recording control unit 20. For example, when a TV signal corresponding to analog broadcasting is supplied from the TV receiving unit 11, the signal processing unit 12 performs predetermined signal processing and AZD conversion on the TV signal, thereby obtaining digital data in a predetermined format (That is, it is converted into content data. At this time, the signal processing unit 12 compresses the digital data into, for example, MPEG (Moving Picture Coding Experts Group) format to generate a program stream, and the generated program stream is the DVD drive 14, HDD 15, or To the decryption processing unit 16.
  • MPEG Motion Picture Coding Experts Group
  • the signal processing unit 12 converts the content data included in the stream into a program stream, and then the DVD drive 14 , Supplied to the HDD 15 or the decryption processing unit 16.
  • the EPG data processing unit 13 extracts EPG data included in the signal supplied from the TV receiving unit 11, and supplies the extracted EPG data to the HDD 15. For example, when a TV signal corresponding to analog broadcasting is supplied, the EPG data processing unit 13 extracts EPG data included in the VBI of the supplied TV signal and supplies it to the HDD 15. When a transport stream corresponding to digital broadcasting is supplied, the EPG data processing unit 13 extracts EPG data included in the stream and supplies it to the HDD 15.
  • the DVD drive 14 records and reproduces data with respect to the loaded DVD
  • the HD D 15 records and reproduces data with respect to the hard disk 151.
  • the hard disk 151 of the HDD 15 is provided with a content data recording area 151a for recording content data corresponding to the broadcast program, and EPG data for recording EPG data supplied from the EPG data processing unit 13.
  • Recording area 15 lb or information recording / reproducing device Dictionary data recording area 151 for recording dictionary data generated in RP c is provided.
  • the decoding processing unit 16 separates the content data in the program stream format supplied from the signal processing unit 12 and read from the DVD and the hard disk 151 into audio data and video data, for example. Decode each data of. Then, the decoding processing unit 16 converts the decoded content data into an NTSC format signal, and monitors the converted video signal and audio signal via the video signal output terminal T1 and the audio signal output terminal T2. Output to. If the monitor MN is equipped with a decoder or the like, the content data that does not need to be decoded by the signal processing unit 15 may be output to the monitor as it is.
  • the system control unit 17 is mainly configured by a CPU (Central Processing Unit) and includes various input / output ports such as a key input port, and comprehensively controls the overall functions of the information recording / reproducing apparatus RP. To do. In such control, the system control unit 17 uses the control information and the control program recorded in the ROM MZRAM 22 and uses the ROM ZRAM 22 as a work area.
  • a CPU Central Processing Unit
  • the system control unit 17 controls the recording control unit 20 and the reproduction control unit 21 in accordance with an input operation to the operation unit 19, and records and reproduces data on the DVD or the hard disk 151.
  • the system control unit 17 controls the EPG data processing unit 13 at a predetermined timing to extract EPG data included in the broadcast wave, and uses the extracted EPG data.
  • the EPG data recorded in the EPG data recording area 151b is updated.
  • the update timing of the EPG data is arbitrary. For example, in an environment where EPG data is broadcast every day at a predetermined time, the time is recorded in the ROMZRAM 21, and the EPG data is recorded at the time. You can update it.
  • the system control unit 17 generates the above-described voice recognition dictionary data before displaying the program guide based on the EPG data recorded in the EPG data recording area 15 lb.
  • the dictionary data is recorded in the dictionary data recording area 151c, and when displaying the program guide based on the EPG data, the keyword portion is highlighted in the program guide.
  • the system control unit 17 is provided with a morphological analysis database (hereinafter, “database” is referred to as “DB”) 171 and a subword feature DB 172. Both DBs 171 and 172 may be physically realized by providing a predetermined recording area in the hard disk 151.
  • the morphological analysis DB 171 is a DB in which data for performing morphological analysis on the text data from which the EPG data power is also extracted is stored. Data corresponding to the Japanese language dictionary for assigning kana are stored.
  • the subword feature DB 172 is, for example, for each syllable, each phoneme, or a unit of speech expressed by a combination of a plurality of syllables and phonemes (hereinafter referred to as “subword”). It is a DB that stores HMM feature value patterns corresponding to.
  • the system control unit 17 uses the data stored in the morphological analysis DB 171 to perform morphological analysis on text data corresponding to each program name.
  • the feature amount pattern corresponding to each subword constituting the program name obtained by the processing is read from the subword feature amount DB 172.
  • a feature value pattern corresponding to the program name (or a part thereof) is generated.
  • the timing at which the dictionary data generated by the system control unit 17 and stored in the hard disk 151 is deleted is arbitrary. This dictionary data cannot be used when the EPG data is updated. Therefore, in the present embodiment, the dictionary data is generated every time the program guide is displayed, and the dictionary data recorded on the hard disk 151 when the program guide is displayed is deleted. .
  • the voice recognition unit 18 is provided with a microphone MC for collecting voice uttered by the user!
  • the voice recognition unit 18 extracts a feature pattern of the voice at predetermined time intervals, and compares the pattern with a feature pattern in the dictionary data. The percentage of matching (ie similarity) is calculated.
  • the voice recognition unit 18 accumulates the similarities in all of the input voices, and the keyword (that is, the program name or Is output to the system control unit 17 as a recognition result.
  • the system control unit 17 searches for EPG data based on the program name, and identifies the broadcast program to be recorded.
  • the specific voice recognition method employed by the voice recognition unit 18 is arbitrary.
  • keyword spotting that is, a method of extracting a keyword part and performing speech recognition even when unnecessary words are added to a keyword for speech recognition
  • large-vocabulary continuous speech recognition dictation
  • the operation unit 19 includes a remote control device having various keys such as numeric keys and a light receiving unit that receives a signal transmitted from the remote control device, and a control signal corresponding to a user's manual operation. Is output to the system control unit 17 via the bus 23.
  • the recording control unit 20 controls the recording of content data on the DVD or hard disk 151 under the control of the system control unit 17, and the playback control unit 21 controls the DVD or hard disk 151 under the control of the system control unit 17. Controls playback of content data recorded in
  • the system control unit 17 outputs a control signal to the HDD 15 to read out EPG data corresponding to the program table to be displayed from the EPG data recording unit 15 lb ( In step S1), the read EPG data is searched to extract text data corresponding to the program name included in the EPG data (step S2). Next, the system control unit 17 determines whether or not the extracted text data includes characters other than hiragana and katakana (step S3), and determines “no” based on this determination. Then, it is determined whether or not the total number of characters of the program name exceeds the number of characters “N” that can be displayed in the display column of the program table (step S4). In this case, the number of displayable characters “N” can be specified by any method. For example, data indicating the number of displayable characters is recorded in ROMZRAM 22 in advance, and “N” is specified based on the data. A configuration may be adopted.
  • the system control unit 17 The feature value pattern corresponding to each kana character included in the is read from the sub-word feature value DB 172, and the feature value pattern corresponding to the character string (that is, the program name as the keyword) is generated, and the feature value
  • the text data corresponding to the pattern and the keyword portion (that is, the text data corresponding to the entire program name or a part thereof) is stored in the ROMZRAM 22 in association with each other (step S5).
  • the text data associated with the feature value pattern is used for specifying an input command (reserved in the present embodiment is reserved) at the time of speech recognition. For example, in the “Claims” It corresponds to “content data”.
  • step S6 the system control unit 17 is in a state of determining whether or not the generation of the feature amount pattern corresponding to all program names in the program guide has been completed (step S6). If “yes” is determined in step, the process proceeds to step S 11, while if “no” is determined, the process returns to step S 2. [0045] On the other hand, (1) If “yes” is determined in step S3, that is, if characters other than hiragana and katakana are included in the character string corresponding to the program name! /, (2) If it is determined as “yes” in step S4, in any case, the system control unit 17 shifts the process to step S7, and converts it to text data corresponding to the program name extracted from the EPG data card.
  • step S7 morphological analysis is performed (step S7).
  • the system control unit 17 decomposes the character string corresponding to the text data into parts of speech and also reads the hiragana corresponding to each of the decomposed parts of speech. Execute the process to determine.
  • step S8 determines in step S8 whether or not the morphological prayer in step S7 has succeeded, and if it is determined to have failed (“no”), the system control unit 17 performs steps S9, S10, and step The process without executing the process of S5 is advanced to step S6, and it is determined whether or not the generation of dictionary data has been completed.
  • step S8 determines whether the program name exceeds the number of displayable characters “N”. It becomes a state to judge whether or not (step S9). For example, in the case of the example shown in FIG. 2 above, five characters can be displayed in the display column of the program guide. In such a case, the system control unit 17 determines “yes” in step S9, and based on the data stored in the subword feature DB 172, the feature pattern corresponding to the reading name of the program name is obtained. The text data corresponding to the feature amount pattern and the keyword portion is generated and stored in the ROMZRAM 22 (step S5), and the process of step S6 is executed.
  • Step S10 the system control unit 17 repeats the processes of steps S9 and S10 to sequentially delete the part of speech that constitutes the program name, and the program name after the deletion of the part of speech is less than the number of displayable characters “N”.
  • the determination in step S9 is “yes”, and the process moves to steps S5 and S6.
  • the system control unit 17 repeats the same processing, and repeats the processing of steps S2 to S10 for the text data corresponding to all program names included in the read EPG data, and corresponds to all program names.
  • “yes” is determined in step S6, and the process proceeds to step S11.
  • the system control unit 17 generates dictionary data based on the feature amount pattern stored in the ROMZRAM 22 and the text data corresponding to the keyword part, and the generated dictionary data is stored in the node disk 151. Record in dictionary data recording area 151c.
  • the system control unit 17 generates program guide display data based on the EPG data, and supplies the generated data to the decoding processing unit 16 (step S 12). At this time, the system control unit 17 extracts text data corresponding to the keyword portion in the dictionary data, and highlights only the character string corresponding to the keyword portion in the program name corresponding to the text data. Data for displaying the program guide is generated. As a result, as shown in FIG. 2, for example, only the keyword part for voice recognition is highlighted on the monitor MN, and the user speaks the voice corresponding to which character string in this program guide. It is possible to grasp what should be done. When the program table display process is completed, the system control unit 17 determines whether or not the user has made a voice input for designating the program name (step S13).
  • step S14 if “yes” is determined, the dictionary data recorded on the hard disk 151 is deleted (step S15), and the process ends. If “no” is determined, the process is performed again. Returning to step S13, the user input operation is waited for.
  • the voice recognition unit 19 is in a state of waiting for the user to input the spoken voice.
  • the speech recognition unit 18 recognizes the input speech and the feature amount pattern in the dictionary data. Perform the matching process.
  • the matching process identifies a feature pattern having high similarity to the input speech, extracts text data of the keyword portion described in association with the feature pattern, and extracts the extracted text data from the system. Output to the control unit 17.
  • step S13 the determination in step S13 is changed to "yes" in the system control unit 17, and the process for recording the broadcast program is executed.
  • step S16 the process proceeds to step S14.
  • step S16 the system control unit 17 searches the EPG data based on the text data supplied from the speech recognition unit 19, and selects a program name corresponding to the text data in the EPG data. Data indicating the broadcast channel and broadcast time described in association with each other is extracted. Then, the system control unit 17 stores the extracted data in the ROMZRAM 22, and outputs a control signal indicating a recording ch to the recording control unit 20 when the date and time comes.
  • the recording control unit 20 reserves the reception band of the TV receiving unit 11 based on the control signal supplied in this way and changes it so as to be tuned to the channel, and the data in the DVD drive 14 or the HDD 15 Recording is started, and the content data corresponding to the broadcast program reserved for recording is sequentially recorded on the DVD or the hard disk 151.
  • the information recording / reproducing apparatus RP acquires the text data indicating each program name from the EPG data, and in the program table column of the program table from the acquired text data.
  • it In addition to setting a keyword within the range of “N” characters that can be displayed on the screen, it generates a feature pattern indicating the feature of the voice corresponding to each of the set keywords, and the feature pattern is displayed as the program name.
  • the dictionary data is generated by associating it with the text data for specifying. With this configuration, dictionary data is generated while using a part of the program name as a keyword, so that the amount of dictionary data for speech recognition can be reduced. In addition, it can be displayed in the program guide display column when generating powerfully. Since the keywords are set within the range of the number of characters that can be used, the utterance content of the keywords is displayed in the program table display column to ensure voice recognition when this dictionary data is used. It becomes possible.
  • the number of displayable characters “sequentially, a predetermined number of parts of speech from the end are obtained. Since it is configured to be deleted, the number of characters in the keyword can be reduced more reliably and reliable voice recognition can be realized.
  • the keyboard is displayed on the program guide when the program guide is displayed, the user can recognize his / her own by viewing the program guide. This makes it possible to reliably recognize the key words to be uttered, thereby contributing to ensuring user convenience and improving the certainty of voice recognition.
  • a configuration in which highlighting is used as in the display methods 1 to 8 described above may be adopted, so that a program name including characters other than the keyword portion is displayed in the program guide display column. Even when displayed, it is possible to reliably present a keyword to be spoken to the user.
  • the present application is applied to the information recording / reproducing apparatus RP that is a hard disk ZDVD recorder
  • the PDP, the liquid crystal panel, and the organic EL It can also be applied to television receivers equipped with Electro Luminescent panels, etc., or electronic devices such as personal computers and car navigation systems.
  • dictionary data may be generated from HTML (Hyper Text Markup Language) data corresponding to each page on the WWW (World Wide Web) (for example, a homepage for ticket reservation) or data indicating a restaurant menu.
  • HTML Hyper Text Markup Language
  • dictionary data is created based on a DB for home delivery, it can be applied to a voice recognition device used when receiving home delivery via a telephone or the like.
  • the processing content to be executed based on the user's uttered voice (that is, the processing content corresponding to the execution command) is arbitrary, for example, switching the reception channel, etc. It is also possible to make it.
  • one keyword is set for one program name.
  • a configuration for generating one feature amount pattern corresponding to the keyword was adopted.
  • a plurality of keywords may be set for one program name, and a feature amount pattern may be generated for each keyword.
  • a feature amount pattern is generated.
  • the information recording / reproducing apparatus RP equipped with both the DVD drive 14 and the HDD 15 has been described as an example. However, only the DVD 14 or the HDD 15 is installed. Even with the information recording / reproducing apparatus RP, it is possible to execute the same processing as in the above embodiment. However, in the case of an electronic device not equipped with HDD 15, it is necessary to provide a morphological analysis DB 171 and subword feature DB 172, and also a separate EPG data recording area. It is necessary to mount the DVD-RW and record each data on these recording media.
  • EPG data is recorded in the node disk 151.
  • EPG data is acquired in real time, and dictionary data is generated based on the EPG data! May be.
  • dictionary data is generated and voice recognition is performed using the dictionary data, and the EPG data is received when receiving the power PG data. It is also possible to generate dictionary data corresponding to, and execute processing such as program recording using this dictionary data.
  • the information recording / reproducing apparatus RP has a configuration in which a keyword for voice recognition is set.
  • morphological analysis is performed when EPG data is generated. ! ⁇
  • EPG data may be broadcast by describing the data indicating the keyword contents from the beginning.
  • the information recording / reproducing apparatus RP generates a feature amount pattern based on the keyword, and based on the feature amount pattern, data indicating the keyword V, included in the EPG data, and text data of the program name. Therefore, the dictionary data may be generated.
  • dictionary data is generated by the information recording device RP and a program guide is displayed using the dictionary data.
  • This countermeasure method is a method of displaying a candidate for a program name corresponding to the keyword and allowing the user to select it when inputting a voice without changing the keyword.
  • the same keyword (“news”) is set for both “news ⁇ ⁇ ⁇ ” and “news ⁇ ”.
  • both “news ⁇ ⁇ ⁇ ” and “news ⁇ ” are extracted based on this keyword, and both are selected as selection candidates to the monitor MN.
  • the broadcast program selected by the user according to the display is selected for recording.
  • This countermeasure is to extend the number of characters set as a keyword until there is a match between the two yarns and the name.
  • “News ⁇ ⁇ ⁇ ” and “News ⁇ ” are keywords corresponding to each broadcast program.
  • this method is adopted, the entire text of the keyword cannot be displayed in the program display column. Therefore, when this measure is used, a font is used so that the full text of the program name can be displayed in the display column. It is necessary to adopt a method of reducing the size and displaying these program names.
  • step S3 if (a) a character string other than hiragana and katakana is included in the program name (step S3 “yes” in FIG. 3), or (b) the number of characters that the program name can be displayed. If “N” is exceeded (step S4 fyesj), the morphological analysis is performed. Uniform morphological analysis is performed for all program names without these judgment steps.
  • Step S7 Step S5 and Steps S8 to S10 may be executed.
  • condition data the data indicating the setting condition is referred to as “condition data”.
  • FIG. 4 shows the processing contents when the above conditions are set and a method of uniformly performing morphological analysis on all program names is adopted.
  • the processes of steps S7 to S10 are executed after the processes of steps S1 and S2 in FIG. 3 are executed.
  • this step S10 whether or not the extracted keyword matches the contents of the set condition, specifically, whether or not the last part of speech is a particle is based on the condition data. If it is determined (step S100) and if “yes” is determined, the process returns to step S10, the particle is deleted, and the process of step S100 is repeated again.
  • a keyword such as “ ⁇ ⁇ ⁇ ⁇ ” shown in FIG. 2 ends with a particle (“no”), so this “no” is deleted and “ ⁇ ” "Aya” will be set as a keyword.
  • steps S9, S10, and SIOO are repeated and the keyword becomes the number of displayable characters “N” or less.
  • a technique is adopted in which the morphological analysis is performed on the text data corresponding to the program name, the program name is divided into a plurality of parts of speech, keywords are set, and a feature amount pattern is generated. It was.
  • keywords are set using methods other than morphological analysis. For example, the following method can be adopted.
  • a predetermined number of character strings are extracted from program names by the following method.
  • the kanji reading is extracted from the Japanese dictionary or the kanji dictionary DB (provided in place of the morphological analysis DB171).
  • the feature quantity pattern corresponding to the acquired kana character is subword feature quantity DB1.
  • a configuration is adopted in which keywords are set without taking into account the meaning content of the keywords.
  • the extracted keyword matches an inappropriate term such as a broadcast prohibited term.
  • the content of the keyword may be changed by a method such as deleting the last part of speech in the keyword.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 音声認識用の辞書データのデータ量を削減しつつ、この辞書データを利用した場合においても、確実な音声認識を実現する。  情報記録再生装置RPは、EPGデータ中から各番組名を示すテキストデータを取得し、当該取得された各テキストデータから番組表の番組表欄中に表示可能な文字数「N」の範囲内にてキーワードを設定すると共に、この設定された各キーワードに対応した音声の特徴量を示す特徴量パターンを生成して、当該特徴量パターンを番組名を特定するためのテキストデータと対応付けることにより辞書データを生成する。また、番組表の表示に際しても、キーワード部分については強調表示を行うことにより、ユーザにキーワードの内容を提示するようになっている。

Description

辞書データ生成装置及び電子機器
技術分野
[0001] 本発明は、ユーザにより発話された音声力もユーザの入力コマンドを認識する技術 分野に属する。
背景技術
[0002] 従来から、 DVDレコーダやナビゲーシヨン装置といった電子機器の中には、所謂、 音声認識装置を搭載し、ユーザが音声を発話することによって各種コマンド (すなわ ち、電子機器に対する実行命令)の入力を可能とする機能が設けられたものが存在 している。この種の音声認識装置においては、各コマンドを示すキーワードに対応し た音声の特徴量パターン (例えば、隠れマルコフモデルによって示される特徴量パタ ーン)をデータベース化しておき(以下、このデータを「辞書データ」という。)、この辞 書データ内の特徴量パターンと、ユーザの発話音声に対応した特徴量とのマツチン グを行って、ユーザの発話音声に対応したコマンドを特定するようになっている。また 、近年では、地上デジタル放送や BSデジタル放送等の各種放送フォーマットにおい て空き帯域を用いて放送される EPG (Electric Program Guide)データ中に含まれる 番組名等のテキストデータを用いて、上述した辞書データを生成し、この生成された 辞書データを用いてユーザの選択した番組を特定する機能が設けられたテレビ受信 機も提案されるに至って!/ヽる (特許文献 1参照)。
特許文献 1:特開 2001— 309256号公報
発明の開示
発明が解決しょうとする課題
[0003] ところで、上記特許文献 1に記載の発明にお 、ては、 1つの番組名に対して複数の キーワードを設定し、各キーワード毎に音声の特徴量パターンを生成する方法が採 用されているため、辞書データの生成に要する処理量が大幅に増加するのみならず 、辞書データのデータ量が非常に大きくなつてしま 、実用性に乏 U、ものとなって!/、 た。一方、辞書データのデータ量を削減する観点力 は各コマンドに対して簡易なキ 一ワードを割り当て、当該キーワードをユーザに発話させる方法も考えられるが、この 方法では、如何なるキーワードを発話した場合に如何なるコマンド入力がなされるの かということを、ユーザが把握できなくなりコマンド入力が不可能となる可能性がある。
[0004] 本願は以上説明した事情に鑑みてなされたものであり、その課題の一例としては、 音声認識用の辞書データのデータ量を削減しつつ、この辞書データを利用した場合 においても、確実な音声認識を実現する辞書データ生成装置、辞書データ生成方 法、及び、電子機器とその制御方法、辞書データ生成プログラム、処理プログラム並 びにこれらプログラムを記録した情報記録媒体を提供することを目的とする。
課題を解決するための手段
[0005] 上述した課題を解決するため本願の一つの観点にぉ 、て請求項 1に記載の辞書 データ生成装置は、ユーザにより発話された音声に基づいてユーザの入力コマンド を認識する音声認識装置において用いられる音声認識用の辞書データを生成する ための辞書データ生成装置であって、前記コマンドに対応したテキストデータを取得 する取得手段と、前記取得されたテキストデータ力 一部の文字列を抽出し、当該文 字列をキーワードとして設定する設定手段と、前記設定されたキーワードに対応した 音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理 内容を特定するための内容データを当該特徴量データと対応付けることにより前記 辞書データを生成する生成手段と、前記キーワードを表示するための表示装置おい て表示可能な前記キーワードの文字数を特定する特定手段と、を備え、前記設定手 段は、前記特定手段によって特定された文字数の範囲内にて前記キーワードを設定 することを特徴とする。
[0006] また、本願の他の観点において、請求項 6に記載の電子機器は、ユーザにより発話 された音声に基づいてユーザの入力コマンドを認識する音声認識装置を備えた電子 機器であって、前記コマンドに対応した文字列の一部に設定されたキーワードに対 応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特 定するための内容データとが対応付けられた辞書データを記録した記録手段と、ュ 一ザの発話音声を入力するための入力手段と、前記記録された辞書データに基づ いて前記発話音声に対応する入力コマンドを特定する音声認識手段と、前記内容デ ータに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、 前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための 表示データを生成し、表示装置に供給する表示制御手段とを具備することを特徴と する。
[0007] また更に、本願の他の観点において請求項 12に記載の辞書データ生成方法は、 ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識 装置において用いられる音声認識用の辞書データを生成するための辞書データ生 成方法であって、前記コマンドに対応したテキストデータを取得する取得ステップと、 前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キ 一ワードの文字数を特定する特定ステップと、前記取得されたテキストデータの中か ら前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記 キーワードとして設定する設定ステップと、前記設定されたキーワードに対応した音 声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内 容を特定するための内容データを前記特徴量データと対応付けることにより前記辞 書データを生成する生成ステップと、を具備することを特徴とする。
[0008] 更に、本願の他の観点において請求項 13に記載の電子機器の制御方法は、コマ ンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示 す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データ とが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマン ドを認識する音声認識装置を備えた電子機器の制御方法であって、前記辞書デー タに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生 成し、表示装置に供給する表示ステップと、前記表示装置に表示された画像に従つ て、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話 音声に対応する入力コマンドを特定する音声認識ステップと、前記内容データに基 づき、前記特定された入力コマンドに対応する処理を実行する実行ステップとを具備 することを特徴とする。
[0009] 更にまた、本願の他の観点において請求項 14に記載の辞書データ生成プログラム は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声 認識装置において用いられる音声認識用の辞書データをコンピュータにより生成す るための辞書データ生成プログラムであって、前記コンピュータを、前記コマンドに対 応したテキストデータを取得する取得手段、前記音声認識用のキーワードを表示す るための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段 、前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一 部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、前記 設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共 に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量デ ータと対応付けることにより前記辞書データを生成する生成手段、として機能させるこ とを特徴とする。
[0010] また、本願の他の観点において請求項 15に記載の処理プログラムは、コマンドに 対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特 徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが 対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユー ザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンビュ ータにおいて処理を実行するための処理プログラムであって、前記コンピュータを、 前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための 表示データを生成し、表示装置に供給する表示手段、前記表示装置に表示された 画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づい て当該発話音声に対応する入力コマンドを特定する音声認識手段、前記内容デー タに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、とし て機能させることを特徴とする。
[0011] また更に、本願の他の観点において請求項 16に記載のコンピュータに読み取り可 能な情報記録媒体は、請求項 14に記載の辞書データ生成プログラムが記録された ことを特徴とする。
[0012] 更に、本願の他の観点において請求項 17に記載のコンピュータに読み取り可能な 情報記録媒体は、請求項 15に記載の処理プログラムが記録されたことを特徴とする 図面の簡単な説明
[0013] [図 1]実施形態における情報記録再生装置 RPの構成を示すブロック図である。
[図 2]同実施形態においてモニタ MNに表示される番組表の表示欄と、当該表示欄 に表示可能な文字数との関係を示す概念図である。
[図 3]同実施形態においてシステム制御部 17が番組表を表示する際に実行する処 理を示すフローチャートである。
[図 4]変形例 2においてシステム制御部 17が番組表を表示する際に実行する処理を 示すフローチャートである。
符号の説明
[0014] RP- · ·情報記録再生装置
11 · •TV受信部
12· •信号処理部
13 · •EPGデータ処理部
14· •DVDドライブ
is'ハードディスク
le- ,復号処理部
17· •システム制御部
18 · •音声認識部
19 · '操作部
20· •記録制御部
21 · •再生制御部
22· •ROM/RAM
発明を実施するための最良の形態
「11実施形
[1. 11実施形態の構成
以下、本実施形態にかかる情報記録再生装置 RPの構成を示すブロック図である 図 1を参照しつつ本願の実施の形態について説明する。なお、以下に説明する実施 の形態は、データの記録および読み出しが行なわれるハードディスクドライブ (以下、 「HDD」という。)及び DVDドライブを備えた、所謂、ハードディスク ZDVDレコーダ に対して本願を適用した場合の実施の形態である。また、以下において、「放送番組 」とは放送波を介して各放送局カゝら提供されるコンテンツを示すものとする。
[0016] まず、同図に示すように本実施形態に力かる情報記録再生装置 RPは、 TV受信部 11と、信号処理部 12と、 EPGデータ処理部 13と、 DVDドライブ 14と、 HDD15と、 復号処理部 16と、システム制御部 17と、音声認識部 18と、操作部 19と、記録制御部 20と、再生制御部 21と、 ROMZRAM22と、これら各要素を相互に接続するバス 2 3を有し、大別して以下の機能を実現するようになって!/、る。
(a)地上アナログ放送や地上デジタル放送等に対応した放送波を TV受信部 11にて 受信して放送番組に対応したコンテンツデータを DVD及びノヽードディスク 151に記 録する一方、 DVD及びノヽードディスク 151に記録されたコンテンツデータを再生する 記録再生機能。
(b) TV受信部 11により受信された放送波に含まれる EPGデータを抽出して当該 EP Gデータに基づ 、てモニタ MNに番組表を表示させる番組表表示機能。
[0017] ここで、本実施形態に特徴的な事項として、この情報記録再生装置 RPは上記番組 表の表示に先立ち、表示対象となる EPGデータから番組名を示すテキストデータを 抽出して、当該番組名をキーワード (音声認識用)とする音声認識用の辞書データ( 具体的には、各キーワードと、当該キーワードに対応した特徴量パターンが対応づけ られたデータ)を生成すると共に、この辞書データを用いて音声認識を行うことにより 、ユーザが発話した音声に対応する番組名を特定して、放送番組の録画予約のため の処理を実行するようになっている(「特許請求の範囲」における「コマンド」は、例え ば、力かる処理の実行命令に対応している。 ) o
[0018] なお、上記特徴量パターンの具体的な内容に関しては任意であるが、説明の具体 化のため本実施形態において「特徴量パターン」と呼ぶときは対象となるキーワード に対応した HMM (隠れマルコフモデルにより定義される音声の遷移状態を表現した 統計的信号モデル)により示される音声の特徴量のパターンを示すデータを意味す るものとする。また、辞書データの具体的な生成方法についても任意であるが、本実 施形態においては番組名に対応したテキストデータに対して形態素解析 (すなわち、 自然言語で書かれた文を品詞 (読み仮名を含む。以下、同様。)等の形態素の列に 分割する処理)を行い、当該番組名を複数の品詞に分割すると共に当該番組名に対 応した特徴量パターンを生成して辞書データを生成するものとし、他の方法を採用し た例については変形例の項にて説明することとする。
[0019] ここで、力かる機能の実現に際して留意すべき点が 2つある。
[0020] まず 1つには、 EPGデータに含まれる番組名の中には形態素解析が不可能なもの が存在する可能性があり、かかる事態が発生した場合、当該番組名に対応する特徴 量パターンが生成できず、当該番組名の音声認識が不可能となってしまうと言うこと である。このような事態が発生すると、 1つの番組表中に音声認識が可能な番組名と 不可能な番組名が混在することとなり、何らの手当も行わな 、場合にはユーザの利 便性が低下する結果を招来する。従って、ユーザの利便性向上を図る観点からは番 組表の表示に際して音声認識が可能な番組名と不可能な番組名とを区別して表示 することが望まし!/ヽこととなる。
[0021] もう 1点は、番組表を表示しょうとする場合、各時間帯に対応した番組表示欄のスぺ ースに限りがあるということである。従って、番組名が長い場合には当該番組名の全 てを表示欄中に表示できなくなる可能性が生じてしまう(例えば、図 2参照)。かかる 場合に、番組名の全文をキーワードとして特徴量パターンを生成してしまうと、ユーザ は番組名全文 (すなわち、音声認識用のキーワード)を番組表力 拾い出せず、何と 発話すれば良いのか分力もないという事態を招来しかねない。また、 1つの番組名に 対して複数のキーワードを設定しておけば、ユーザが一部のみ発声した場合でも番 組名を特定することは可能となるが、この方法では、辞書データのデータ量が膨大と なってしまう。
[0022] 以上の観点から、本実施形態においては、(a)音声認識に用いることが可能なキー ワード部分を番組表中にぉ ヽて強調表示する一方、 (b)番組表の番組表示欄に番 組名を全文表示できな 、番組名に関しては表示可能な文字数の範囲内にぉ 、て音 声認識用のキーワードを作成し、当該キーワード部分のみを強調表示する方法を採 用し、もって、ユーザがキーワードを正しく発話する際の利便性を確保することとした [0023] 例えば、図 2に示す例において、表示欄 S1〜S3に 5文字までの番組名表示が可 能である場合を想定する。この例の場合、例えば、「參▲の町 (4文字)」なる番組名 は表示欄中に全文表示が可能であるため、情報記録再生装置 RPは、この番組名の 全文をキーワードとして用いて、特徴量パターンを生成し、当該番組名全体を番組表 中において強調表示する。一方、「參參家の晩餐(6文字)」のように番組名の全文が 表示欄中に表示しきれない場合、情報記録再生装置 RPは、「參參家の晩餐」なる番 組名を構成する品詞 (すなわち、形態要素)中、最後の「晩餐」なる品詞を削除した、 「參參家の」なる文字列をキーワードに設定し、当該キーワードに対応する特徴量パ ターンを生成すると共に、番組表の表示に際しても、「參參家の」の部分のみ強調表 示する。更に、「ん S—o71力」のように品詞として成立していない場合や、番組名に未 知の固有名詞が含まれる場合、或いは、番組名が文法に従っていない単語列の場 合、形態素解析ができず特徴量パターンを生成することが不可能となるため、情報記 録再生装置 RPは、強調表示を一切行うことなく当該番組名を表示して音声認識が 不可能であることをユーザに提示する。
[0024] なお、番糸且表にぉ 、てキーワード部分を強調表示する方法にっ 、ては任意であり 、例えば、(表示方法 1)当該キーワード部分のみ文字の色を変えるようにしても良ぐ (表示方法 2)当該部分の文字フォントを変えるようにしても良ぐ更には (表示方法 3) 文字を太線にて表示するようにしても良ぐ(表示方法 4)文字サイズを変えても良い。 また、(表示方法 5)当該キーワード部分に下線を引くようにしても良ぐ(表示方法 6) 枠で囲ったり、或いは、(表示方法 7)点滅表示させても良ぐ(表示方法 8)反転表示 するようにしても良い。
[0025] 以下、かかる機能を実現するための本実施形態に力かる情報記録再生装置 RPの 具体的な構成について説明することとする。
[0026] まず、 TV受信部 11は、地上アナログ放送等のアナログ放送及び地上デジタル放 送、 C¾ (Communication Satellite)放 、 BS (Broadcasting Satellite)アンタノレ奴 等 のデジタル放送のチューナであり、アンテナ ATを介して放送波を受信する。そして、 TV受信部 11は、例えば、受信対象となる放送波がアナログ方式によるものの場合、 当該放送波を TV用の映像信号および音声信号 (以下、「TV信号」という。)に復調し て信号処理部 12及び EPGデータ処理部 13に供給する。これに対して受信対象とな る放送波がデジタル方式によるものの場合、 TV受信部 11は当該受信した放送波に 含まれるトランスポートストリームを抽出して信号処理部 12及び EPGデータ処理部 1 3に供給する。
[0027] 信号処理部 12は、記録制御部 20による制御の下、 TV受信部 11から供給される信 号に対して所定の信号処理を施す。例えば、 TV受信部 11からアナログ放送に対応 した TV信号が供給された場合、信号処理部 12は、当該 TV信号に対して所定の信 号処理及び AZD変換を施して、所定形式のデジタルデータ(すなわち、コンテンツ データ)に変換する。この際、信号処理部 12は、当該デジタルデータを、例えば、 M PEG (Moving Picture Coding Experts Group)形式に圧縮してプログラムストリームを 生成し、この生成されたプログラムストリームを DVDドライブ 14、 HDD15、或いは、 復号処理部 16に供給する。これに対して、 TV受信部 11からデジタル放送に対応し たトランスポートストリームが供給された場合、信号処理部 12は、当該ストリームに含 まれるコンテンツデータをプログラムストリームに変換した後、 DVDドライブ 14、 HDD 15、或いは、復号処理部 16に供給する。
[0028] EPGデータ処理部 13は、システム制御部 17による制御の下、 TV受信部 11から供 給される信号に含まれる EPGデータを抽出し、この抽出した EPGデータを HDD15 に供給する。例えば、アナログ放送に対応した TV信号が供給された場合、 EPGデ ータ処理部 13は当該供給された TV信号の VBIに含まれる EPGデータを抽出して H DD15に供給する。また、デジタル放送に対応したトランスポートストリームが供給さ れた場合、 EPGデータ処理部 13は、当該ストリーム中に含まれている EPGデータを 抽出して、 HDD15に供給する。
[0029] DVDドライブ 14は、装着された DVDに対するデータの記録及び再生を行 ヽ、 HD D15は、ハードディスク 151に対するデータの記録及び再生を行う。この HDD15の ハードディスク 151内には、放送番組に対応したコンテンツデータを記録するための コンテンツデータ記録領域 151aが設けられると共に、 EPGデータ処理部 13から供 給される EPGデータを記録するための EPGデータ記録領域 15 lbや情報記録再生 装置 RPにおいて生成された辞書データを記録するための辞書データ記録領域 151 cが設けられている。
[0030] 次いで、復号処理部 16は、例えば、信号処理部 12から供給され、 DVDおよびハ ードディスク 151から読み出されたプログラムストリーム形式のコンテンツデータを音 声データと映像データに分離すると共に、これらの各データをデコードする。そして、 復号処理部 16は、このデコードされたコンテンツデータを NTSC形式の信号に変換 し、当該変換された映像信号及び音声信号を映像信号出力端子 T1および音声信 号出力端子 T2を介してモニタ MNに出力する。なお、モニタ MNにデコーダ等が搭 載されている場合には信号処理部 15においてデコード等を行う必要はなぐコンテン ッデータをそのままモニタに出力すれば良い。
[0031] システム制御部 17は、主として CPU (Central Processing Unit)により構成され ると共に、キー入力ポート等の各種入出力ポートを含み、情報記録再生装置 RPの全 体的な機能を統括的に制御する。かかる制御に際して、システム制御部 17は、 RO MZRAM22に記録されている制御情報や制御プログラムを利用すると共に当該 R OMZRAM22をワークエリアとして利用する。
[0032] 例えば、このシステム制御部 17は操作部 19に対する入力操作に応じて、記録制御 部 20及び再生制御部 21を制御し、 DVD或 、はハードディスク 151に対するデータ の記録及び再生を行わせる。
[0033] また、例えば、システム制御部 17は所定のタイミングにて EPGデータ処理部 13を 制御して、放送波に含まれている EPGデータを抽出させ、当該抽出された EPGデー タを用いて EPGデータ記録領域 151bに記録された EPGデータを更新させる。なお 、 EPGデータの更新のタイミングは任意であり、例えば、毎日、所定の時刻に EPGデ ータが放送される環境下においては、当該時刻を ROMZRAM21に記録しておき 、当該時刻に EPGデータを更新するようにしても良 、。
[0034] 更に、このシステム制御部 17は、 EPGデータ記録領域 15 lbに記録された EPGデ ータに基づく番組表表示に先立って、上述した音声認識用の辞書データを生成し、 当該生成した辞書データを辞書データ記録領域 151cに記録すると共に、 EPGデー タに基づく番組表表示に際しては、当該番組表中においてキーワード部分を強調表 示させる。力かる辞書データの生成機能を実現するため、本実施形態においてシス テム制御部 17には、形態素解析用データベース(以下、「データベース」を「DB」と いう。) 171と、サブワード特徴量 DB172とが設けられている。なお、両 DB171及び 172は、物理的には、ハードディスク 151内に所定の記録領域を設けることにより実 現するようにすれば良い。
[0035] ここで、この形態素解析 DB171は、 EPGデータ力も抽出されたテキストデータに対 して形態素解析を行うためのデータが格納された DBであり、例えば、品詞分解及び 各品詞に対して振り仮名を割り当てるための国語辞書に対応したデータ等が格納さ れている。これに対して、サブワード特徴量 DB172は、例えば、各音節や各音素、 或いは、複数の音節及び音素の組み合わせにより表現される音声の単位 (以下、「サ ブワード」という。)毎に、当該サブワードに対応する HMMの特徴量パターンを格納 した DBとなっている。
[0036] 本実施形態にぉ 、て辞書データを生成する場合、システム制御部 17は、形態素解 析 DB171に格納されたデータを用いて、各番組名に対応したテキストデータに対す る形態素解析を実行すると共に、当該処理により得られた番組名を構成する各サブ ワードに対応した特徴量パターンをサブワード特徴量 DB172から読み出す。そして 、当該読み出した特徴量パターンを組み合わせることにより、番組名(或いは、その 一部)に対応した特徴量パターンを生成することとなる。なお、システム制御部 17によ り生成されてハードディスク 151内に保存された辞書データを消去するタイミングにつ Vヽては任意である力 この辞書データは EPGデータの更新等に伴って利用できなく なるものであることから、本実施形態においては番組表の表示時に毎回辞書データ を生成すると共に、番組表の表示完了時にハードディスク 151に記録されて 、る辞 書データを削除するものとして説明を行う。
[0037] 次いで、音声認識部 18には、ユーザが発話した音声を集音するためのマイクロフォ ン MCが設けられて!/、る。このマイクロフォン MCにユーザの発話音声が入力されると 、音声認識部 18は、予め定められた時間間隔毎に当該音声の特徴量パターンを抽 出し、当該パターンと辞書データ内の特徴量パターンとのマッチングの割合 (すなわ ち、類似度)を算出する。そして、音声認識部 18は、入力音声の全てにおける類似 度を積算し、この積算された類似度が最も高いキーワード (すなわち、番組名、或い は、その一部)を認識結果としてシステム制御部 17に出力することとなる。この結果、 システム制御部 17においては、当該番組名に基づき EPGデータが検索され、録画 対象となる放送番組が特定されることとなる。
[0038] なお、音声認識部 18にお 、て採用する具体的な音声認識手法にっ 、ては任意で ある。例えば、キーワードスポッティング (すなわち、音声認識用のキーワードに対し て不要語を付けた場合でもキーワード部分を抽出して、音声認識を行う手法)ゃ大語 彙連続音声認識 (デイクテーシヨン)といった、従来から用いられている手法を採用す れば、ユーザが余計な言葉 (以下、「不要語」という。)を付けてキーワードを発話した 場合 (例えば、番組名の一部にっ 、てキーワードが設定されて 、るにもかかわらず、 ユーザが番組名を当初カゝら知っていて、番組名の全文を発話した場合等)において も、確実にユーザの発話音声に含まれるキーワードを抽出して音声認識を実現する ことが可能となる。
[0039] 操作部 19は、数字キー等の各種キーを有するリモートコントロール装置及び当該リ モートコントロール装置から送信された信号を受光する受光部等を有し、ユーザの人 力操作に対応した制御信号をバス 23を介してシステム制御部 17に出力する。記録 制御部 20は、システム制御部 17による制御の下、 DVD或いはハードディスク 151に 対するコンテンツデータの記録を制御し、再生制御部 21は、システム制御部 17によ る制御の下、 DVD或いはハードディスク 151に記録されたコンテンツデータの再生を 制御する。
[0040] [1. 2Ί実施形態の動作
次いで、図 3を参照しつつ本実施形態に力かる情報記録再生装置 RPの動作につ いて説明する。なお、 DVD或いはハードディスク 151に対するコンテンツデータの記 録動作及び再生動作については従来のハードディスク ZDVDレコーダと異なるとこ ろが無いため、以下においては情報記録再生装置 RPにおいて番組表表示時に実 行される処理について説明することとする。また、以下の説明においては、既にハー ドディスク 151の EPGデータ記録領域に EPGデータが記録されているものとして説 明を行う。
[0041] まず、情報記録再生装置 RPの電源がオンの状態において、ユーザが操作部 18の 図示せぬリモコン装置に対して番組表の表示を行う旨の入力操作を行う。すると、情 報記録再生装置 RPにお 、ては、この入力操作をトリガとしてシステム制御部 17が図 3に示す処理を開始する。
[0042] この処理において、まず、システム制御部 17は、 HDD15に対して制御信号を出力 して、表示対象となる番組表に対応した EPGデータを EPGデータ記録部 15 lbから 読み出させると共に (ステップ S1)、この読み出された EPGデータをサーチして当該 EPGデータ中に含まれる番組名に対応したテキストデータを抽出する (ステップ S2) 。次いで、システム制御部 17は、この抽出したテキストデータ中にひらがな及びカタ カナ以外の文字が含まれて 、る力否かを判定し (ステップ S3)、この判定にぉ 、て「n o」と判定すると、当該番組名の全文字数が番組表の表示欄中に表示可能な文字数 「N」を越えているか否かを判定する状態となる (ステップ S4)。なお、この際、表示可 能な文字数「N」を特定する方法は任意であり、例えば、表示可能文字数を示すデー タを ROMZRAM22に予め記録しておき、当該データに基づいて「N」を特定する 構成を採用しても良い。
[0043] そして、この判定において、「no」と判定した場合、すなわち、当該テキストデータに 対応した文字列の全てを番組表の表示欄に表示可能な場合、システム制御部 17は 、当該テキストデータに含まれている各仮名文字に対応した特徴量パターンをサブヮ ード特徴量 DB172から読み出して、当該文字列(すなわち、キーワードとなる番組名 )に対応した特徴量パターンを生成し、当該特徴量パターンとキーワード部分に対応 したテキストデータ (すなわち、番組名の全部、或いは、その一部に対応したテキスト データ)を対応付けて ROMZRAM22に記憶する(ステップ S5)。なお、この特徴量 ノ ターンと対応付けられたテキストデータは、音声認識時に入力コマンド (本実施形 態においては奥が予約)を特定するために用いられ、例えば、「特許請求の範囲」に おける「内容データ」に対応することとなる。
[0044] かかるステップ S5の終了後、システム制御部 17は当該番組表中の全番組名に対 応した特徴量パターンの生成が完了した力否かを判定する状態となり (ステップ S6) 、この判定において「yes」を判定すると処理をステップ S 11に移行させる一方、「no」 と判定すると処理をステップ S2にリターンさせる。 [0045] 一方、(1)ステップ S3において「yes」と判定した場合、すなわち、番組名に対応し た文字列中にひらがな及びカタカナ以外の文字が含まれて!/、る場合、 (2)ステップ S 4において「yes」と判定した場合、には何れの場合においても、システム制御部 17は 、処理をステップ S7に移行させ、 EPGデータカゝら抽出された番組名に対応したテキ ストデータに対して、形態素解析を行う (ステップ S7)。この際、システム制御部 17は 、形態素解析 DB171に格納されているデータに基づいて、当該テキストデータに対 応した文字列を品詞単位に分解すると共に、この分解された各品詞に対応した読み 仮名を決定する処理を実行する。
[0046] ここで、上述のように番組名に対応した文字列が品詞として成立して!/ヽな 、場合 ( 例えば、上記図 2「ん $ か」)や番組名が文法に従っていないような場合等には、 当該テキストデータに対応する文字列の形態素解析を行うことが不可能となってくる 。そこで、システム制御部 17は、ステップ S8において、ステップ S7における形態素解 祈が成功した力否かを判定し、失敗したものと判定した場合には(「no」)、ステップ S 9、 S10及びステップ S5の処理を実行することなぐ処理をステップ S6に進め、辞書 データの生成が完了した力否かを判定する状態となる。
[0047] これに対して、ステップ S8にお 、て形態素解析が成功したものと判定した場合、シ ステム制御部 17は、当該番組名が表示可能文字数「N」を越えて ヽるカゝ否かを判定 する状態となる (ステップ S9)。例えば、上記図 2に示す例の場合、番組表の表示欄 には 5文字表示可能であるため、「參▲の町」なる番糸且名は全文字の表示が可能とな つている。かかる場合に、システム制御部 17は、ステップ S9において「yes」と判定し 、サブワード特徴量 DB 172に格納されて 、るデータに基づ 、て当該番組名の読み 仮名に対応した特徴量パターンを生成し、当該特徴量パターンとキーワード部分に 対応したテキストデータを対応付けて ROMZRAM22に格納して (ステップ S5)、ス テツプ S6の処理を実行する。
[0048] 一方、上記図 2に示す例における「參參家の晩餐」なる番組名のように表示欄中に 、全文字を表示しきれない場合、システム制御部 17は、ステップ S9において、当該 番組名の文字数が表示可能文字数「N」を越えているものと判定し(「yes」)、当該番 組名中の最後の品詞 (すなわち、「晩餐」)に対応した仮名部分を仮名文字列力ゝら削 除して (ステップ S 10)、再度、ステップ S9の処理を実行する。そして、システム制御 部 17は、このステップ S9及び S10の処理を繰り返すことにより、順次、番組名を構成 する品詞を削除していき、品詞削除後の番組名が表示可能文字数「N」以下となった 時点でステップ S9における判定が「yes」となって、処理がステップ S5、 S6と移行す ることとなる。
[0049] その後、システム制御部 17は、同様の処理を繰り返し、読み出された EPGデータ に含まれる全番組名に対応したテキストデータについてステップ S2〜S10の処理を 繰り返し、全番組名に対応したテキストデータ及び特徴量パターンが ROMZRAM 22に格納された状態となると、ステップ S6において「yes」と判定し、処理をステップ S 11〖こ移行させる。このステップ S 11において、システム制御部 17は、 ROMZRAM 22に格納されている特徴量パターンと、キーワード部分に対応したテキストデータに 基づき辞書データを生成し、当該生成した辞書データをノ、ードディスク 151の辞書デ ータ記録領域 151cに記録する。
[0050] 次に、システム制御部 17は、 EPGデータに基づいて番組表表示用のデータを生 成し、当該生成したデータを復号処理部 16に供給する (ステップ S 12)。この際、シス テム制御部 17は、辞書データ中のキーワード部分に対応したテキストデータを抽出 し、当該テキストデータに対応した番組名中、キーワード部分に対応した文字列のみ が強調表示されるように番組表表示用のデータを生成する。この結果、モニタ MNに は、例えば、図 2に例示したように、音声認識用のキーワード部分のみが強調表示さ れた状態となり、ユーザは、この番組表においてどの文字列に対応した音声を発話 すれば良いのかを把握することが可能となるのである。そして、番組表の表示処理が 完了すると、システム制御部 17は、ユーザによって番組名を指定する音声入力がな された力否かを判定する状態となり(ステップ S13)、この判定において「no」と判定す ると、表示を終了する力否かを判定する状態となる (ステップ S 14)。そして、このステ ップ S 14において、「yes」と判定するとハードディスク 151に記録された辞書データを 削除して (ステップ S15)、処理を終了する一方、「no」と判定すると、再度、処理をス テツプ S 13にリターンすることにより、ユーザの入力操作を待機する状態となる。
[0051] このようにして、システム制御部 17が入力待機状態に移行すると、これに併せて、 音声認識部 19はユーザによる発話音声の入力を待機する状態となる。そして、この 状態においてユーザがマイク MCに対して、例えば、「參參家の」なるキーワードを発 話入力すると、音声認識部 18は当該入力された音声と辞書データ内の特徴量バタ ーンとのマッチング処理を行う。そして、このマッチング処理により入力音声と類似度 の高い特徴量パターンを特定すると共に、当該特徴量パターンと対応付けて記述さ れたキーワード部分のテキストデータを抽出し、当該抽出したテキストデータをシステ ム制御部 17に出力する。
[0052] 一方、音声認識部 19からテキストデータが供給されると、システム制御部 17におい ては、ステップ S13における判定が「yes」に変化し、放送番組の録画予約のための 処理が実行された後(ステップ S 16)、処理がステップ S 14に移行する。このステップ S 16にお 、てシステム制御部 17は、音声認識部 19から供給されたテキストデータに 基づ 、て EPGデータを検索し、当該 EPGデータ中において当該テキストデータに対 応する番組名を対応付けて記述された放送チャネル及び放送時刻を示すデータを 抽出する。そして、システム制御部 17は、この抽出したデータを ROMZRAM22に 記憶すると共に、当該日時になると記録制御部 20に対して録画 chを示す制御信号 を出力する。記録制御部 20は、このようにして供給される制御信号に基づいて TV受 信部 11の受信帯域を予約されて 、るチャネルに同調するように変更させると共に、 D VDドライブ 14或いは HDD15におけるデータ記録を開始させ、録画予約された放 送番組に対応するコンテンツデータを、順次、 DVD或いはハードディスク 151に記 録さ ·¾:るのである。
[0053] このようにして、本実施形態にかかる情報記録再生装置 RPは、 EPGデータ中から 各番組名を示すテキストデータを取得し、当該取得された各テキストデータから番組 表の番組表欄中に表示可能な文字数「N」の範囲内にてキーワードを設定すると共 に、この設定された各キーワードに対応した音声の特徴量を示す特徴量パターンを 生成して、当該特徴量パターンを番組名を特定するためのテキストデータと対応付け ることにより辞書データを生成する構成となっている。この構成により、番組名の一部 をキーワードとしつつ辞書データが生成されるため、音声認識用の辞書データのデ ータ量の削減が可能となる。また、力かる生成に際しては、番組表表示欄に表示可 能な文字数の範囲内にてキーワードが設定されるため、キーワードの発話内容を確 実に番組表表示欄内に表示させ、もって、この辞書データを利用した際における音 声認識を確実なものとすることが可能となる。
[0054] 更に、上記実施形態にお!ヽては、番組名に対応したテキストデータから一部分を抽 出する際に、表示可能文字数「もとなるまで、順次、最後尾から所定数の品詞を削 除する構成となっているため、より確実にキーワードの文字数を削減でき、確実な音 声認識を実現することが可能となる。
[0055] 更にまた、上記実施形態にお!、ては、番組表表示時に当該番組表にぉ 、てキーヮ ードを表示しているため、ユーザは、番組表を視認することで、自身の発話すべきキ 一ワードを確実に認識することが可能となり、もって、ユーザの利便性確保及び音声 認識の確実性の向上に寄与することが可能となる。
[0056] 特に、本実施形態においては、上述した表示方法 1〜8のように強調表示を行う構 成を採用して ヽるので、番組表表示欄にキーワード部分以外の文字を含む番組名が 表示される場合であっても、ユーザに対して発話すべきキーワードを確実に提示する ことが可能となる。
[0057] なお、本実施形態にお!、ては、ハードディスク ZDVDレコーダである情報記録再 生装置 RPに本願を適用した場合を例に説明したが、 PDPや液晶パネル、更には有 機 EL (Electro Luminescent)パネル等を搭載したテレビ受像器、或いは、パーソナル コンピュータやカーナビゲーシヨン装置等の電子機器に対しても適用可能である。
[0058] また、上記実施形態にお!、ては、 EPGデータを用いて辞書データを生成する構成 を採用したが、辞書データを生成する際に用いるデータの種別は任意であり、テキス トデータを含むものであれば、どのようなデータであっても応用可能である。例えば、 WWW (World Wide Web)上の各ページ(例えば、チケット予約を行うホームページ 等)に対応した HTML (Hyper Text Markup Language)データやレストランのメニュー を示すデータにより辞書データ生成するようにしても良い。更に、宅配用の DBに基 づ 、て辞書データを作成すれば、宅配の配送を電話等にぉ 、て受け付ける際に用 いられる音声認識装置に応用することも可能である。
[0059] また更に、上記実施形態にお!、ては、ユーザの発話音声に基づ!、て放送番組の 録画予約を行う構成について説明したが、ユーザの発話音声に基づいて実行する 処理内容 (すなわち、実行コマンドに対応した処理の内容)については任意であり、 例えば、受信チャネルの切換等を実行させるようにすることも可能である。
[0060] 更に、上記実施形態においては、 1つの番組名に対して 1つのキーワードを設定し
、当該キーワードに対応する特徴量パターンを 1つ生成する構成を採用していた。し かし、 1つの番組名に対して複数のキーワードを設定し、各キーワード毎に特徴量パ ターンを生成するようにしても良い。例えば、上記図 2に示した「參參家の晩餐」なる 番組名の場合、「參參」、「參參家」及び「參參家の」なる 3つのキーワードを設定し、 各キーワード毎に特徴量パターンを生成するようにする。力かる方法を採用すること により、ユーザの発話揺れに対応することが可能となり、もって音声認識の精度を向 上させることが可會となる。
[0061] 更にまた、上記実施形態においては、番組表の表示時に表示欄における表示文 字数に制限があることを前提として説明を行ったが、表示文字数に制限のない場合 であっても、上記と同様に番組名の一部をキーワードとして設定して特徴量パターン を生成することによって、番組名の全てをユーザに発話させることなく音声認識を行 い、番組の録画予約等を行うことが可能となり、もって、ユーザの利便性を向上させる ことが可能となる。
[0062] また、上記実施形態にお!、ては、キーワード部分以外をも含む形態にて番糸且名を 表示する構成を採用した力 番糸且表中にはキーワードのみを表示するようにすること も可能である。
[0063] また、上記実施形態においては、 DVDドライブ 14及び HDD 15の双方を搭載した 情報記録再生装置 RPを例に説明したが、 DVD 14或 、は HDD 15の何れか一方の みを搭載した情報記録再生装置 RPにつ!ヽても、上記実施形態と同様の処理を実行 することが可能である。但し、 HDD15を搭載しない電子機器の場合、形態素解析 D B171やサブワード特徴量 DB172、更には、 EPGデータの記録領域を別個設けるこ とが必要となるためフラッシュメモリを設ける力 或いは、 DVDドライブ 14に DVD-R Wを装着し、これらの記録媒体上に上記各データを記録しておくことが必要となる。
[0064] また更に、本実施形態においては、 EPGデータをノヽードディスク 151内に記録する 方法を採用したが、 EPGデータが常に放送される環境が実現される場合には、リア ルタイムにて EPGデータを取得し、当該 EPGデータに基づ!/、て辞書データを生成す るようにしても良い。
[0065] 更に、上記実施形態においては番組表の表示に際して、その都度、辞書データを 生成し、当該辞書データを用いて音声認識を行う構成を採用していた力 ¾PGデータ の受信時に当該 EPGデータに対応する辞書データを生成しておき、この辞書データ を用いて番組録画等の処理を実行するようにしても良 、。
[0066] 更にまた、上記実施形態にお!、ては、情報記録再生装置 RPにお!、て音声認識用 のキーワードを設定する構成を採用していたが、 EPGデータ生成時に形態素解析を 行!ヽ、 EPGデータ中に始めからキーワードの内容を示すデータを記述して放送を行 う構成としても良い。この場合、情報記録再生装置 RPにおいては、当該キーワードに 基づいて特徴量パターンを生成し、当該特徴量パターンと、 EPGデータに含まれて V、るキーワードを示すデータ及び番組名のテキストデータに基づ 、て辞書データを 生成するようにすれば良い。
[0067] また、上記実施形態にお!、ては、番組名に基づ!/、て音声認識用のキーワードを抽 出する際に、単に形態素解析 DB171に格納された国語辞書に対応したデータに基 づ ヽて読み仮名を割り当て、当該読み仮名に基づ!/ヽて特徴量パターンを生成する 方法を採用していた。しかし、映画の題名等の中には、「口口マン 2」というような題名 が多ぐこの場合、この「2」の部分が「ツー」と発音すべき力「二」と発音すべきかがュ 一ザに把握できない場合も生じうる。従って、力かる場合には、この「2」を除いてキー ワードを決定するようにすれば良 、。
[0068] また更に、上記実施形態においては、情報記録装置 RPにて辞書データを生成し、 当該辞書データを用いて番組表表示を行う構成を採用していたが、辞書データの生 成処理、或いは、番組表の表示処理の動作を規定するプログラムが記録された記録 媒体と、それを読み取るコンピュータと、を備え、このコンピュータで当該プログラムを 読み込むことによって上述と同様の処理動作を実行するようにしても良 、。
[0069] [1. 3Ί実施形態の栾形例
(1)麵列 1 上記実施形態における方法を採用した場合、表示可能文字数「N」の値によっては 、複数の番組に対して同一のキーワードが設定される場合が想定される。例えば、表 示可能文字数「N」を 5文字とした場合、「ニュース參參參(參參參は品詞)」と、「ニュ ース▲▲▲(▲▲▲は品詞)」の双方に対して、「ニュース」なるキーワードが設定され てしまう (もちろん、「N」の値を充分に大きくすれば、このような事態が発生する可能 は、限りなく「0」に近い値となるため、このような方法を採用する必要性はない。 ) oこ のような事態が発生した場合の対策方法としては、次のような方法を採用することが 可能である。
[0070] <対策方法 1 >
この対策方法は、キーワードに変更を加えることなぐ音声入力時に当該キーワード に対応する番組名の候補を表示してユーザに選択させる方法である。例えば、上記 例の場合、「ニュース參參參」と「ニュース▲▲▲」の双方に対して同一のキーワード( 「ニュース」)を設定する。そして、ユーザが「ニュース」なる音声を発話した場合、この キーワードに基づ 、て「ニュース參參參」と「ニュース▲▲▲」の双方を抽出すると共 に、選択候補として両者をモニタ MNに表示させ、当該表示に従ってユーザが選択 した放送番組を録画対象として選択する。
[0071] <対策方法 2>
この対策方法は、両番糸且名間においてキーワード上の際が生じるまで、キーワード として設定する文字数を延長する方法である。例えば、上記のような例の場合、「ニュ ース參參參」と「ニュース▲▲▲」が、各放送番組に対応したキーワードということにな る。但し、この方法を採用した場合、キーワードの全文が番組表示欄中に表示できな くなつてしまうため、本対策方法を採用する場合、当該番組名の全文が表示欄中に 表示できるようにフォントサイズを小さくして、これら番組名を表示させる方法を採用 することが必要となる。
[0072] (2)変形例 2
上記実施形態にぉ 、ては、(a)番組名中にひらがな及びカタカナ以外の文字列が 含まれて 、る場合(図 3ステップ S3「yes」 )や、(b)番組名が表示可能文字数「N」を 越えて 、る場合 (ステップ S4 fyesj )に形態素解析を実行する手法を用いて 、たが、 これらの判断ステップを設けることなぐ全番組名に対して一律に形態素解析を行い
(ステップ S7)、ステップ S5及びステップ S8〜S10の処理を実行するようにしても良 い。
[0073] また、上記実施形態においては、キーワード設定時に条件を設定しない構成を採 用していたが、例えば、キーワードの最後尾の品詞が助詞以外 (例えば、名詞や動 詞)で終わるという条件を設定し、当該条件の設定内容を ROMZRAM22に記録し ておくようにしても良い(以下、この設定条件を示すデータを「条件データ」という。 ) o
[0074] 図 4に、上記条件を設定し、且つ、全ての番組名に対して一律に形態素解析を行う 手法を採用した場合における処理内容を示す。同図に示すように、カゝかる方法を採 用した場合、上記図 3におけるステップ S1及び S2の処理を実行した後、ステップ S7 〜S 10の処理が実行されることとなる。また、このステップ S 10の後に、抽出されたキ 一ワードが設定条件の内容に合致するか否か、具体的には、最後尾の品詞が助詞 になっているか否かを条件データに基づいて判定し (ステップ S100)、「yes」と判定 するとステップ S 10にリターンし、当該助詞を削除して、再度ステップ S 100の処理を 繰り返すこととなる。この処理が実行されると、例えば、上記図 2に示す「參參家の」の ようなキーワードについては、助詞(「の」)で終了しているため、この「の」が削除され「 參參家」がキーワードとして設定されることとなる。
[0075] その後、このステップ S9、 S10、 SIOOの処理が繰り返されて、キーワードが表示可 能文字数「N」以下となった時点で、上記図 3のステップ S5、 S6、及びステップ Sl l 〜ステップ SI 6の処理が実行されることとなる。
[0076] (3)変形例 3
上記実施形態においては、番組名に対応したテキストデータに対して形態素解析 を施すことにより、番組名を複数の品詞に分割してキーワードを設定し、特徴量バタ ーンを生成する手法を採用していた。しかし、形態素解析以外の手法を用いてキー ワードを設定することも可能である。例えば、次のような手法を採用することも可能で ある。
[0077] まず、以下の手法により、番組名の中から所定数の文字列を抽出する。
(a)番組名に漢字が含まれて ヽな 、場合 (i)先頭から N文字を抽出する、或いは、
(ii)先頭力 N文字、後ろ力 M文字を抽出して、結合する。
(b)番組名の漢字が含まれて 、る場合
(i) 2文字以上連続した漢字を抽出する、或いは、
(ii)ひらがなの直前、或いは、直後の 2文字以上の連続した漢字を抽出する。
[0078] 次いで、この抽出した文字列中に漢字が含まれている場合、国語辞典或いは漢和 辞典の DB (形態素解析 DB171に換えて設ける)中から当該漢字の読みを抽出する
。そして、取得された仮名文字に対応する特徴量パターンをサブワード特徴量 DB1
71に格納されたデータに基づいて生成するのである。力かる方法を採用すれば、形 態素解析を行うことなぐ番組名に対応したテキストデータを品詞に分解して特徴量 パターンを生成することが可能となる。
[0079] (4)栾形例 4
上記実施形態においては、キーワードの意味内容については一切加味することな くキーワードを設定する構成を採用していた。しかし、番組名中の一部を抽出した結 果、例えば、当該抽出後のキーワードが放送禁止用語等の不適切な用語に一致す るような場合も想定される。このような場合、当該キーワード中の最後の品詞を削除す る等の方法により、キーワードの内容を変更するようにしても良い。

Claims

請求の範囲
[1] ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認 識装置において用いられる音声認識用の辞書データを生成するための辞書データ 生成装置であって、
前記コマンドに対応したテキストデータを取得する取得手段と、
前記取得されたテキストデータから一部の文字列を抽出し、当該文字列をキーヮー ドとして設定する設定手段と、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成す ると共に、当該コマンドに対応した処理内容を特定するための内容データを当該特 徴量データと対応付けることにより前記辞書データを生成する生成手段と、
前記キーワードを表示するための表示装置おいて表示可能な前記キーワードの文 字数を特定する特定手段と、を備え、
前記設定手段は、前記特定手段によって特定された文字数の範囲内にて前記キ 一ワードを設定することを特徴とする辞書データ生成装置。
[2] 放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に 備え、
前記取得手段は、前記受信手段によって受信された前記電子番組表情報から各 放送番組の番組名を示すテキストデータを取得し、
前記設定手段は、当該テキストデータから一部の文字列を抽出することにより番組 名の一部をキーワードとして設定することを特徴とする請求項 1に記載の辞書データ 生成装置。
[3] 前記設定手段は、前記テキストデータに対応した文字列における最後尾から所定 数の品詞を削除することにより、前記テキストデータから一部の文字列を抽出すること を特徴とする請求項 1に記載の辞書データ生成装置。
[4] 前記設定手段が前記キーワードを設定する際おける、文字列の抽出条件を示す条 件データを記録した条件データ記録手段を更に備え、
前記設定手段は、前記特定手段により特定された文字数及び前記条件データの 双方に基づき前記テキストデータ力 一部の文字列を抽出することを特徴とする請求 項 1に記載の辞書データ生成装置。
[5] 前記設定手段は、前記キーワードを設定する際に、当該設定するキーワードと同一 の文字列力もなるキーワードが他のコマンドに対応して設定されて 、る場合には、キ 一ワードとして設定する文字数を増加させることを特徴とする請求項 1に記載の辞書 データ生成装置。
[6] ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認 識装置を備えた電子機器であって、
前記コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の 特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための 内容データとが対応付けられた辞書データを記録した記録手段と、
ユーザの発話音声を入力するための入力手段と、
前記記録された辞書データに基づいて前記発話音声に対応する入力コマンドを特 定する音声認識手段と、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行す る実行手段と、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための 表示データを生成し、表示装置に供給する表示制御手段と
を具備することを特徴とする電子機器。
[7] 前記表示制御手段は、前記コマンドに対応した文字列の一部であって、少なくとも 前記キーワードを含む文字列を表示するための表示データを生成する際に、当該文 字列の中に含まれる前記キーワードに対応する文字部分のみを強調表示させること を特徴とする請求項 6に記載の電子機器。
[8] 前記表示制御手段は、前記強調表示を行うに際して、
(a)前記キーワード部分のみ文字の色を変えて表示させる、
(b)当該キーワード部分の文字フォントを変えて表示させる、
(c)当該キーワード部分の文字を太線にて表示させる、
(d)当該キーワード部分の文字サイズを変えて表示させる、
(e)当該キーワード部分の文字を枠で囲って表示させる、 (f)当該キーワード部分の文字を点滅表示させる、
(g)当該キーワード部分の文字を反転表示させる、
という手法の少なくとも何れか 1つの手法により前記強調表示を行うことを特徴とする 請求項 7に記載の電子機器。
[9] 放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に 備え、
前記記録手段には、前記放送番組を指定するコマンドに対応した内容データと、 当該番組名に対応した文字列の一部に設定されたキーワードに対応する前記特徴 量データとが対応付けられた前記辞書データが記録されており、
前記表示制御手段は、前記受信された電子番組表情報に基づ!、て前記番組表を 前記表示装置に表示させると共に、当該表示に際して、前記辞書データに基づいて 、ユーザに発話させるべきキーワード部分を強調表示させることを特徴とする請求項
7又は 8に記載の電子機器。
[10] 前記放送番組に対応したコンテンツデータを記録するためのコンテンツデータ記録 手段を更に備え、
前記受信手段は、前記電子番組表情報と共に前記コンテンツデータを受信し、 前記実行手段は、前記特定された入力コマンドに対応した内容データにより指定さ れる前記放送番組に対応する放送チャネル及び放送時刻の少なくとも一方を前記 電子番組表情報カゝら抽出すると共に、 (a)当該放送番組に対応した前記コンテンツ データの録画予約を行い、或いは、(b)前記受信手段における受信チャネルの切換 を行う、ことを特徴とする請求項 9に記載の電子機器。
[11] 前記表示制御手段は、前記音声認識手段によって特定された入力コマンドが複数 存在する場合に、何れの実行コマンドを実行すべきかをユーザに選択させるための 選択画像を前記表示装置に表示させる選択画面表示制御手段を更に備えることを 特徴とする請求項 6に記載の電子機器。
[12] ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認 識装置において用いられる音声認識用の辞書データを生成するための辞書データ 生成方法であって、 前記コマンドに対応したテキストデータを取得する取得ステップと、 前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記 キーワードの文字数を特定する特定ステップと、
前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部 の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、 前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成す ると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特 徴量データと対応付けることにより前記辞書データを生成する生成ステップと、 を具備することを特徴とする辞書データ生成方法。
[13] コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴 量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容 データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力 コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための 表示データを生成し、表示装置に供給する表示ステップと、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合 に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音 声認識ステップと、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行す る実行ステップと、
を具備することを特徴とする電子機器の制御方法。
[14] ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認 識装置において用いられる音声認識用の辞書データをコンピュータにより生成する ための辞書データ生成プログラムであって、
前記コンピュータを、
前記コマンドに対応したテキストデータを取得する取得手段、
前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記 キーワードの文字数を特定する特定手段、 前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一 部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、 前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成す ると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特 徴量データと対応付けることにより前記辞書データを生成する生成手段、
として機能させることを特徴とする辞書データ生成プログラム。
[15] コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴 量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容 データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用 いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備 えたコンピュータにおいて処理を実行するための処理プログラムであって、
前記コンピュータを、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための 表示データを生成し、表示装置に供給する表示手段、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合 に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音 声認識手段、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行す る実行手段、
として機能させることを特徴とする処理プログラム。
[16] 請求項 14に記載の辞書データ生成プログラムが記録されたことを特徴とするコンビ ユータに読み取り可能な情報記録媒体。
[17] 請求項 15に記載の処理プログラムが記録されたことを特徴とするコンピュータに読 み取り可能な情報記録媒体。
PCT/JP2006/303192 2005-02-28 2006-02-22 辞書データ生成装置及び電子機器 WO2006093003A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/817,276 US20080126092A1 (en) 2005-02-28 2006-02-22 Dictionary Data Generation Apparatus And Electronic Apparatus
JP2007505866A JP4459267B2 (ja) 2005-02-28 2006-02-22 辞書データ生成装置及び電子機器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-054128 2005-02-28
JP2005054128 2005-02-28

Publications (1)

Publication Number Publication Date
WO2006093003A1 true WO2006093003A1 (ja) 2006-09-08

Family

ID=36941037

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/303192 WO2006093003A1 (ja) 2005-02-28 2006-02-22 辞書データ生成装置及び電子機器

Country Status (3)

Country Link
US (1) US20080126092A1 (ja)
JP (1) JP4459267B2 (ja)
WO (1) WO2006093003A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009147927A1 (ja) 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
WO2016147342A1 (ja) * 2015-03-18 2016-09-22 三菱電機株式会社 情報提供システム
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
JP2021051252A (ja) * 2019-09-26 2021-04-01 株式会社Mobility Technologies 操作受付装置及びプログラム
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
US11526674B2 (en) * 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026447B2 (en) 2007-11-16 2015-05-05 Centurylink Intellectual Property Llc Command and control of devices and applications by voice using a communication base system
KR101427686B1 (ko) * 2008-06-09 2014-08-12 삼성전자주식회사 프로그램 선택 방법 및 그 장치
WO2009150591A1 (en) * 2008-06-11 2009-12-17 Koninklijke Philips Electronics N.V. Method and device for the generation of a topic-specific vocabulary and computer program product
US20140074821A1 (en) * 2012-09-12 2014-03-13 Applied Systems, Inc. System, Method and Device Having Data Display Regulation and Tabular Output
US8290971B2 (en) * 2008-09-09 2012-10-16 Applied Systems, Inc. Method and apparatus for remotely displaying a list by determining a quantity of data to send based on the list size and the display control size
JP2010072507A (ja) * 2008-09-22 2010-04-02 Toshiba Corp 音声認識検索装置及び音声認識検索方法
CN101355664B (zh) * 2008-09-23 2010-08-04 华为终端有限公司 一种节目的播放方法、装置和系统
JP5332847B2 (ja) * 2009-04-10 2013-11-06 ソニー株式会社 コンテンツ処理装置および方法、プログラム、並びに記録媒体
JP5465926B2 (ja) * 2009-05-22 2014-04-09 アルパイン株式会社 音声認識辞書作成装置及び音声認識辞書作成方法
JP2012003407A (ja) * 2010-06-15 2012-01-05 Sony Corp 情報処理装置、同一性判定システム、同一性判定方法およびコンピュータプログラム
US20140181672A1 (en) * 2012-12-20 2014-06-26 Lenovo (Beijing) Co., Ltd. Information processing method and electronic apparatus
EP3203471B1 (en) * 2013-01-29 2023-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN106572049B (zh) * 2015-10-09 2019-08-27 腾讯科技(深圳)有限公司 一种身份验证方法及装置
FR3077656A1 (fr) * 2018-02-07 2019-08-09 Christophe Leveque Procede de transformation d’une sequence pour la rendre executable par une machine
CN109002186B (zh) * 2018-06-28 2020-12-25 北京金山安全软件有限公司 一种输入预测方法及装置
JP7183600B2 (ja) * 2018-07-20 2022-12-06 株式会社リコー 情報処理装置、システム、方法およびプログラム
US11526544B2 (en) 2020-05-07 2022-12-13 International Business Machines Corporation System for object identification

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120296A (ja) * 1995-08-22 1997-05-06 Ricoh Co Ltd 音声認識装置および方法、辞書作成装置および方法、情報記憶媒体
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2001094912A (ja) * 1999-09-27 2001-04-06 Nec Corp 録画再生処理方法、装置及び録画再生処理システム
JP2001229180A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
JP2001309256A (ja) * 2000-04-26 2001-11-02 Sanyo Electric Co Ltd デジタルテレビ放送受信機
JP2004295017A (ja) * 2003-03-28 2004-10-21 Ntt Comware Corp マルチモーダルシステムおよび音声入力方法
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6040829A (en) * 1998-05-13 2000-03-21 Croy; Clemens Personal navigator system
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120296A (ja) * 1995-08-22 1997-05-06 Ricoh Co Ltd 音声認識装置および方法、辞書作成装置および方法、情報記憶媒体
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2001094912A (ja) * 1999-09-27 2001-04-06 Nec Corp 録画再生処理方法、装置及び録画再生処理システム
JP2001229180A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索装置
JP2001309256A (ja) * 2000-04-26 2001-11-02 Sanyo Electric Co Ltd デジタルテレビ放送受信機
JP2004295017A (ja) * 2003-03-28 2004-10-21 Ntt Comware Corp マルチモーダルシステムおよび音声入力方法
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11818458B2 (en) 2005-10-17 2023-11-14 Cutting Edge Vision, LLC Camera touchpad
US11153472B2 (en) 2005-10-17 2021-10-19 Cutting Edge Vision, LLC Automatic upload of pictures from a camera
WO2009147927A1 (ja) 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
WO2016147342A1 (ja) * 2015-03-18 2016-09-22 三菱電機株式会社 情報提供システム
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US10663938B2 (en) 2017-09-15 2020-05-26 Kohler Co. Power operation of intelligent devices
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11892811B2 (en) 2017-09-15 2024-02-06 Kohler Co. Geographic analysis of water conditions
US11921794B2 (en) 2017-09-15 2024-03-05 Kohler Co. Feedback for water consuming appliance
US11949533B2 (en) 2017-09-15 2024-04-02 Kohler Co. Sink device
US11526674B2 (en) * 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium
JP2021051252A (ja) * 2019-09-26 2021-04-01 株式会社Mobility Technologies 操作受付装置及びプログラム
JP7377043B2 (ja) 2019-09-26 2023-11-09 Go株式会社 操作受付装置及びプログラム

Also Published As

Publication number Publication date
US20080126092A1 (en) 2008-05-29
JP4459267B2 (ja) 2010-04-28
JPWO2006093003A1 (ja) 2008-08-07

Similar Documents

Publication Publication Date Title
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US7676373B2 (en) Displaying text of speech in synchronization with the speech
US7680853B2 (en) Clickable snippets in audio/video search results
US6480819B1 (en) Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US20190221200A1 (en) Assisted Media Presentation
JP2003518266A (ja) 音声認識システムのテキスト編集用音声再生
US8688725B2 (en) Search apparatus, search method, and program
WO1998025216A1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
WO1998025216A9 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
JP2002300495A (ja) 発話認識に基づいたキャプションシステム
JPWO2005122016A1 (ja) 入力補助装置、情報検索装置、入力補助方法、及びプログラム
JP2010072507A (ja) 音声認識検索装置及び音声認識検索方法
JP2007171809A (ja) 情報処理装置及び情報処理方法
CN110781649B (zh) 一种字幕编辑方法、装置及计算机存储介质、电子设备
CN110740275B (zh) 一种非线性编辑系统
US20190208280A1 (en) Information Processing Apparatus, Information Processing Method, Program, And Information Processing System
JP4157418B2 (ja) データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
JP5591428B2 (ja) 自動記録装置
JP2007257134A (ja) 音声検索装置、音声検索方法および音声検索プログラム
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP2005227545A (ja) 辞書作成装置、番組案内装置及び辞書作成方法
JP2010175708A (ja) 音声認識検索システム及び音声認識検索方法
KR20080051876A (ko) 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2007505866

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 11817276

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 06714332

Country of ref document: EP

Kind code of ref document: A1