WO2015045039A1 - 方法、電子機器およびプログラム - Google Patents

方法、電子機器およびプログラム Download PDF

Info

Publication number
WO2015045039A1
WO2015045039A1 PCT/JP2013/075932 JP2013075932W WO2015045039A1 WO 2015045039 A1 WO2015045039 A1 WO 2015045039A1 JP 2013075932 W JP2013075932 W JP 2013075932W WO 2015045039 A1 WO2015045039 A1 WO 2015045039A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
voice
conversion
user
conversion information
Prior art date
Application number
PCT/JP2013/075932
Other languages
English (en)
French (fr)
Inventor
晋一郎 真鍋
大橋 史恭
政彦 小島
新林 満
拓耶 幸田
智典 坂口
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to JP2015538686A priority Critical patent/JP5902359B2/ja
Priority to PCT/JP2013/075932 priority patent/WO2015045039A1/ja
Publication of WO2015045039A1 publication Critical patent/WO2015045039A1/ja
Priority to US14/846,640 priority patent/US20150382070A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • Embodiments described herein relate generally to a method, an electronic device, and a program.
  • the method of the embodiment accepts an input by the user's voice, and when the first character string corresponding to the user's voice is registered in the conversion information, the second corresponding to the first character string in the conversion information.
  • a character string is displayed, and when the first character string is not registered in the conversion information and an instruction from the user is received, an editing process using the first character string as a third character string is accepted, When the third character string is retrieved from the program information, the third character string is registered in the conversion information in association with the first character string.
  • FIG. 1 is a diagram illustrating an example of a configuration of a recording / playback system according to the first embodiment.
  • FIG. 2 is an exemplary diagram of a hardware configuration of the mobile terminal according to the first embodiment.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of the mobile terminal according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of the conversion DB according to the first embodiment.
  • FIG. 5 is a flowchart illustrating an example of a program search process procedure according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of a menu bar and a voice input screen according to the first embodiment.
  • FIG. 7 is a diagram illustrating an example of a candidate confirmation screen according to the first embodiment.
  • FIG. 1 is a diagram illustrating an example of a configuration of a recording / playback system according to the first embodiment.
  • FIG. 2 is an exemplary diagram of a hardware configuration of the mobile terminal according to the first embodiment.
  • FIG. 3 is
  • FIG. 8 is a flowchart illustrating a procedure of program search processing according to the second embodiment.
  • FIG. 9 is a flowchart illustrating the procedure (continuation) of the program search process according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of a recognition candidate selection screen according to the second embodiment.
  • FIG. 11 is a flowchart illustrating a procedure of program search processing according to the third embodiment.
  • FIG. 12 is a flowchart illustrating a procedure of program search processing according to the third embodiment.
  • FIG. 13 is a diagram illustrating an example of a configuration of a recording / playback system according to the fourth embodiment.
  • FIG. 14 is a block diagram illustrating an example of a functional configuration of the mobile terminal according to the fourth embodiment.
  • FIG. 15 is a flowchart illustrating a procedure of program search processing according to the fourth embodiment.
  • the recording / playback system of the present embodiment is configured such that the mobile terminal 100 and the digital television 200 are connected via a wireless network such as Wi-Fi (registered trademark).
  • a wireless network such as Wi-Fi (registered trademark).
  • the mobile terminal 100 and the digital television 200 are connected to a server 300 such as a service provider on the Internet and a broadcast station server 400.
  • the digital television 200 receives broadcast waves from the broadcast station 500.
  • the digital TV 200 of this embodiment is equipped with a digital broadcast receiving tuner, and further has a broadcast program recording / playback function.
  • the digital TV 200 according to the present embodiment is equipped with a Web browser function that can search and display various sites on the Internet.
  • the digital television 200 of the present embodiment is compatible with Hybridcast (registered trademark), receives broadcast waves received from the broadcast station 500, and contents and applications related to broadcast programs from the broadcast station server 400 and the server 300, By launching an application or the like, content linked to the broadcast program can be displayed on the broadcast program.
  • the server 300 manages an electronic program guide (EPG: Electronic Program Guide).
  • EPG Electronic Program Guide
  • the digital television 200 is taken as an example of the recording / playback apparatus, but the present invention is not limited to this as long as it has a recording / playback function.
  • it may be a device such as a hard disk recorder or a set top box that includes a tuner that receives broadcast waves, has a recording / playback function, processes video, and outputs it to an externally connected display device.
  • the mobile terminal 100 is an electronic device that functions as a remote controller that performs operations on the digital television 200, and is realized as, for example, a mobile phone such as a smartphone, a tablet terminal, a slate terminal, or the like.
  • the portable terminal 100 performs an operation on the digital television 200 by executing a predetermined application program.
  • the digital television 200 is compatible with Hybridcast (registered trademark), receives content and applications related to broadcast programs from the broadcast station server 400 and the server 300, activates the applications and the like, and activates the digital television 200.
  • the content linked with the broadcast program being broadcast on can be displayed on the broadcast program.
  • the mobile terminal 100 includes a display unit 102, a CPU (Central Processing Unit) 116, a graphics controller 118, a touch panel controller 119, a nonvolatile memory 120, a RAM (Random Access Memory) 121, a communication I / F 123, and A sensor group 106, a voice input unit 124, and the like are provided.
  • the mobile terminal 100 may include a camera, a speaker, and the like.
  • the voice input unit 124 is a voice input device such as a microphone, and inputs voice from the user.
  • the voice input unit 124 receives an input sentence of a program name search instruction or an operation instruction for the digital television 200 by a user's voice.
  • the display unit 102 is configured as a so-called touch screen in which the display 102a and the touch panel 102b are combined.
  • the display 102a is, for example, an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence) display.
  • the touch panel 102b detects a position (touch position) on the display screen of the display 102a touched by a user's finger or a stylus pen.
  • the nonvolatile memory 120 stores an operation system, various application programs, various data necessary for executing the programs, and the like.
  • the CPU 116 is a processor that controls the operation of the mobile terminal 100, and controls each component of the mobile terminal 100.
  • the CPU 116 implements each functional unit (see FIG. 3) to be described later by executing various application programs including an operating system and command generation application loaded from the nonvolatile memory 120 to the RAM 121.
  • the RAM 121 provides a work area when the CPU 116 executes a program as the main memory of the mobile terminal 100.
  • the graphics controller 118 is a display controller that controls the display 102 a of the display unit 102.
  • the touch panel controller 119 controls the touch panel 102b and acquires coordinate data indicating the touch position by the user from the touch panel 102b.
  • the communication I / F 123 executes wireless communication with an external device such as the digital television 200 or communication via a network such as the Internet under the control of the CPU 116.
  • the sensor group 106 includes an acceleration sensor that detects the direction and magnitude of external acceleration with respect to the mobile terminal 100, an orientation sensor that detects the orientation of the mobile terminal 100, a gyro sensor that detects the angular velocity (rotation angle) of the mobile terminal 100, and the like. It is. Detection signals from the sensors are output to the CPU 116.
  • the portable terminal 100 implements each unit shown in FIG. 3 in cooperation with the CPU 116 and programs stored in the nonvolatile memory 120 (various application programs such as an operating system and a program search application program).
  • the mobile terminal 100 includes a control unit 131, an input / output control unit 132, a voice recognition unit 134, a conversion unit 135, and a command generation unit 137 as functional configurations.
  • An editing unit 141 includes a registration unit 139, a determination unit 140, a search unit 142, a dictionary database 136, and a conversion database 138.
  • FIG. 3 also shows the voice input unit 124 and the display unit 102 described above.
  • the dictionary database 136 and the conversion database 138 are stored in a storage medium such as a hard disk drive (HDD) or a memory.
  • HDD hard disk drive
  • the dictionary database 136 (hereinafter referred to as “dictionary DB 136”) is a database in which various words are registered, and is referred to when the speech recognition unit 134 executes speech recognition processing.
  • a dictionary DB may be provided on the server 300 and voice recognition may be performed on the server 300 side.
  • the control unit 131 controls the entire mobile terminal 100.
  • the speech recognition unit 134 performs speech recognition processing and morphological analysis on the speech data of the natural language input sentence input by the speech input unit 124 using the dictionary DB 136, and the character string of the input sentence is obtained as a recognition result. Output.
  • the input / output control unit 132 controls input / output with respect to the display unit 102. That is, the input / output control unit 132 performs display control on the display 102 a of the display unit 102 via the graphics controller 118 and controls input by a touch operation from the touch panel 102 b of the display unit 102 via the touch panel controller 119. In the present embodiment, the input / output control unit 132 displays a character string as a recognition result by the voice recognition unit 134 on the display 102 a of the display unit 102.
  • the command generation unit 137 generates a command including a character string recognized by the voice recognition unit 134 with respect to the voice of the operation instruction for the digital television 200 input by the user from the voice input unit 124.
  • the communication I / F 123 illustrated in FIG. 2 transmits the command generated by the command generation unit 137 to the digital television 200.
  • the digital television 200 receives and interprets the command, and an operation according to the operation instruction is executed. Further, the communication I / F 123 shown in FIG. 2 transmits and receives various data via the Internet.
  • the conversion database 138 (hereinafter referred to as “conversion DB 138”) includes a character string before conversion (first character string), which is a voice recognition result by the voice recognition unit 134, and a character after conversion edited by the user. This database associates columns with each other. Even a character string in which the voice input spoken by the user is correctly recognized by the voice recognition unit 134 may not represent the program name intended by the user. In such a case, the user edits the character string as the recognition result (that is, the character string corresponding to the user's voice) into the intended program name, and uses the edited character string as the converted character string. Are registered in the conversion DB 138 in association with the character string before conversion (first character string). Details of registration in the conversion DB 138 will be described later.
  • a character string before conversion (first character string) and a character string after conversion (second character string) are registered in association with each other.
  • first character string the character string “Friday Road Show” before conversion
  • second character string the character string “Friday Road SHOW” after conversion
  • the character string “Star ⁇ Drama!” After conversion is registered in association with the character string “Star Drama” before conversion.
  • Many program names include symbols such as “ ⁇ ” and “!” As described above, and it is difficult for the user to speak the symbols. As a result, the correct program name is recognized only by voice recognition. Can not do it. For this reason, in the present embodiment, a character string that is voice-recognized from an utterance of a character string excluding the symbol of the program name including such a symbol is converted into a character string before conversion. It is registered as a column.
  • the registration example shown in FIG. 4 is not limited to this.
  • the conversion unit 135 determines whether or not the character string that is the recognition result of the voice recognition unit 134 is registered in the character string before conversion in the conversion DB 138. To the converted character string (second character string) associated with the character string. For example, in the example of FIG. 4, even when “Today's news” is uttered and “Today's news” is voice-recognized, the conversion unit 135 refers to the conversion DB 138 to accurately determine “Today's news”. The program name “Today's NEWS” is converted. Therefore, when the converted character string is already registered, the conversion unit 135 can convert the character string recognized by voice from the user's voice input into an accurate program name.
  • a character string (first character string) as a speech recognition result is not registered in the conversion DB 138 as a character string before conversion, and the character string as the recognition result displayed on the display 102a is the user's intention.
  • the user performs an operation of editing the character string of the recognition result from the touch panel 102b.
  • the editing unit 141 accepts editing of the character string of the recognition result, and edits the character string.
  • the search unit 142 searches for a program with a program name designated by the user.
  • the search unit 142 uses the character string (third character string) edited by the editing unit 141 as a search key, and via the communication I / F 123, an electronic program guide (for example, an electronic program guide of the server 300).
  • EPG electronic program guide
  • a program sharing information such as a video sharing site are searched, and a search result indicating whether a program name matching the character string has been searched is received from an external device.
  • the determination unit 140 edits whether the character string of the recognition result, that is, the character string before editing (first character string) is similar to the character string after editing by the editing unit 141 (third character string). Judgment based on the number of characters made. Specifically, the determination unit 140 determines that the character string before editing is similar to the character string after editing when the number of edited characters is equal to or less than a predetermined number of characters such as five characters. Alternatively, when the ratio of the number of edited characters with respect to the total number of characters in the character string before editing or the total number of characters in the edited character string is equal to or less than a predetermined ratio such as 20%, the determination unit 140 You may comprise so that it may judge that a row
  • the registration unit 139 searches the search result received by the search unit 142 for a program name that matches the edited character string, and the determination unit 140 determines that the character string before editing and the edited character string are similar.
  • the edited character string (third character string) is the character string after conversion
  • the character string before editing (first character string) is the character string before conversion
  • the two are associated and registered in the conversion DB 138.
  • the character string of the correct program name is learned.
  • the input / output control unit 132 of the mobile terminal 100 displays a menu bar at the bottom of the screen displayed on the display 102a.
  • FIG. 6A shows a menu bar.
  • Five keys (buttons) are displayed on the menu bar.
  • a key denoted by reference numeral 801 is a key for starting a current program guide which is a list of programs currently being broadcast.
  • a key denoted by reference numeral 802 is a key for starting a remote controller detail screen.
  • a key denoted by reference numeral 803 is a key for starting a voice input screen.
  • Reference numeral 804 denotes a key for starting the text input screen.
  • a key denoted by reference numeral 805 is a key for activating the Hybridcast (registered trademark) interlocking function.
  • the input / output control unit 132 accepts the key press and displays the voice input screen shown in FIG. 6 (b) on the display 102a.
  • the process of the flowchart is executed.
  • the voice input unit 124 receives the voice input (step S11).
  • the voice recognition unit 134 performs a voice recognition process on the voice of the program name input by the voice input unit 124 (step S12), and outputs a character string as a recognition result.
  • the conversion unit 135 extracts the character string of the program name as the recognition result from the character string output from the voice recognition unit 134, searches the conversion DB 138 for the character string (step S13), and reads the character string as the recognition result. It is determined whether or not the column is registered in the conversion DB 138 as a character string before conversion (step S14).
  • step S14 When the character string as the recognition result is registered in the conversion DB 138 (step S14: Yes), the conversion unit 135 converts the converted character string associated with the character string as the recognition result in the conversion DB 138. By acquiring the string, the character string is converted (step S15). On the other hand, if the character string as the recognition result is not registered in the conversion DB 138 in step S14 (step S14: No), the process of step S15 is not performed.
  • the input / output control unit 132 displays the character string as the recognition result in the case of No in step S14 and the converted character string in the case of Yes in step S14 as the program name candidate on the display of the display unit 102.
  • 102a is displayed (step S16).
  • the input / output control unit 132 displays a candidate confirmation screen on the display 102a for inquiring the user whether the character string is appropriate as a program name candidate.
  • a character string “Friday Road Show” as a recognition result by the speech recognition unit 134 and whether the program name is correct or not are as intended by the user.
  • a message for inquiring whether the character string is or not is displayed.
  • an OK button and an NG button for allowing the user to input a response to the inquiry are displayed.
  • step S17 When the user presses OK on this candidate confirmation screen and the input / output control unit 132 accepts an input of an OK event (step S17: Yes), the program name displayed as a candidate is the one intended by the user. Therefore, the search unit 142 performs a program search using the candidate program name (step S23).
  • step S17 when the user presses NG from the candidate confirmation screen in step S17 and the input / output control unit 132 does not accept the input of the OK event (step S17: No), the program name displayed as the candidate Is different from the user's intention, and the user performs a character string editing operation using the touch panel 102b, and the editing unit 141 receives the editing operation and edits the candidate character string (step S18).
  • the search unit 142 searches the EPG of the server 300, the video sharing site, etc. with the program name of the edited character string (step S19), and receives the search result. Then, the search unit 142 determines whether or not the search result indicates that the edited program name of the character string has been searched (step S20). If the search result does not indicate that the edited program name of the character string has been searched (step S20: No), the process returns to step S18 to accept editing of the character string by the user (step S18). .
  • step S20 when the search result indicates that the program name of the edited character string has been searched (step S20: Yes), the determination unit 140 determines the character string before editing and the character string after editing. Are determined to be similar (step S21). Here, similar determination criteria are as described above.
  • step S21: Yes the registration unit 139 sets the character string before editing as the character string before conversion, and after editing. Both character strings are associated with each other and registered in the conversion DB 138 as a character string after conversion (step S22). If it is determined in step S21 that the character string before editing and the character string after editing are not similar (step S21: No), the registration process in the conversion DB 138 in step S22 is not performed. Then, the search unit 142 performs a program search using the edited program name of the character string (step S23).
  • the character string recognized by voice input of a program name from a user is registered in the conversion DB 138, the character string is converted into a character string after conversion corresponding to the character string in the conversion DB 138. Is converted to the program name of the character string and the program name is searched.
  • a character string recognized as a character string before conversion in the conversion DB 138 is not registered and a user instruction is given, editing of the recognized character string by the user is performed. Accept.
  • the edited character string is searched for the server 300 or the video sharing site on the network, and when the edited character string is searched, the character string before editing is converted. Both the character strings are associated with each other and registered in the conversion DB 138 as the previous character string and the edited character string as the converted character string. For this reason, according to this embodiment, the user's voice input is convenient and an accurate program name search can be realized.
  • the determination unit 140 edits the character string.
  • the similarity between the previous character string and the edited character string is judged, and if they are similar, the character string before editing is the character string before conversion and the character string after editing is the character string after conversion.
  • Character strings are associated with each other and registered in the conversion DB 138 for learning. For this reason, when a program name inputted by voice has a large error and is completely edited, registration to the conversion DB 138 is avoided, conversion error is prevented and accuracy is improved, and convenience for the user is improved. It can be improved further.
  • the search is performed on the server 300 or the video sharing site on the network with the program name of the edited character string.
  • the present invention is not limited to this. It is not a thing.
  • the server 300 or the video sharing site on the network is searched with the program name of the recognized character string.
  • the search unit 142 can be configured.
  • the editing unit 141 can be configured to allow the user to edit the character string.
  • the network configuration of the recording / playback system of the present embodiment, the hardware configuration and the functional configuration of the mobile terminal 100 are the same as those of the first embodiment.
  • the input / output control unit 132 When the speech recognition result by the speech recognition unit 134 is displayed on the display 102 a of the display unit 102, the input / output control unit 132 according to the present embodiment is one candidate as a result of speech recognition in addition to the recognized character string. Alternatively, a plurality of candidate character strings are displayed so as to be selectable.
  • the registration unit 139 has the same function as that of the first embodiment, and the user selects a desired candidate character string from one or more candidate character strings displayed on the display 102a.
  • the recognized character string is set as a character string before conversion
  • the selected candidate character string is set as a converted character string
  • both character strings are associated with each other and registered in the conversion DB 138.
  • the voice input unit 124 receives a voice input by the user (step S11).
  • the voice recognition unit 134 performs voice recognition processing on the voice of the program name input by the voice input unit 124 (step S12), and the character string as the recognition result and the candidate for the voice recognition processing.
  • a candidate character string that is one or more character strings is output.
  • the input / output control unit 132 displays a recognition candidate selection screen on which the recognition result character string and one or a plurality of candidate character strings are selectable (step S41).
  • the input / output control unit 132 determines whether or not an input for selecting a candidate character string has been received from the user on the recognition candidate selection screen (step S42: No).
  • FIG. 10 shows an example of a recognition candidate selection screen according to the second embodiment.
  • the example of FIG. 10 shows an example in which four character strings “Friday Road Show” and four candidate character strings are displayed as a result of speech recognition, and a candidate character string “Friday Road SHOW” is selected by the user. Yes.
  • step S42 when the input / output control unit 132 accepts selection of a candidate character string from the user (step S42: Yes), the selected candidate character string is set as a program name and the registration flag is turned on.
  • the registration flag is a flag indicating whether or not to perform registration in the conversion DB 138 when the user does not perform a character string editing operation.
  • the registration flag is on, registration is performed in the conversion DB 138. Note that the registration flag is initially set to off.
  • step S42 if the input / output control unit 132 does not accept selection of a candidate character string from the user in step S42 (step S42: No), the character string as the recognition result by voice recognition is set as the program name according to the recognition result. The process of step S43 is not performed.
  • the conversion unit 135 searches the conversion DB 138 for a character string with the program name (step S44), and determines whether the character string with the program name is registered in the conversion DB 138 as a character string before conversion. Judgment is made (step S14).
  • step S14: Yes If a character string that is a program name is registered in the conversion DB 138 (step S14: Yes), the conversion unit 135 performs post-conversion that is associated with the character string that is the program name in the conversion DB 138. The character string is converted by acquiring the character string (step S15). On the other hand, if the character string designated as the program name is not registered in the conversion DB 138 in step S14 (step S14: No), the process of step S15 is not performed.
  • the input / output control unit 132 sets the character string that is the program name in the case of No in step S14 and the converted character string as the candidate of the program name in the case of Yes in step S14.
  • a similar candidate confirmation screen is displayed on the display 102a (step S16).
  • step S17 If the user presses NG from this candidate confirmation screen and the input / output control unit 132 does not accept the input of the OK event (step S17: No), the same processing as in the first embodiment (steps S18 to S23). ) Is performed.
  • step S17 when the user presses OK on the candidate confirmation screen in step S17 and the input / output control unit 132 accepts an input of an OK event (step S17: Yes), the program name displayed as a candidate is the user name.
  • the registration unit 139 determines whether or not the registration flag is set to ON (step S45).
  • step S45 If the registration flag is set to ON (step S45: Yes), the character string of the recognition result in step S12 is not adopted as the program name, and the user adopts the candidate character string as the program name in step S42. Means that Therefore, the registration unit 139 uses the character string of the recognition result obtained in step S12 as the character string before conversion, the candidate character string selected in step S42 as the character string after conversion, and associates both character strings with the conversion DB 138. (Step S46). Then, the search unit 142 performs a program search using the program name of the selected candidate character string (step S23).
  • step S45 determines whether the registration flag is set to ON in step S45 (step S45: No). If the registration flag is not set to ON in step S45 (step S45: No), the process of step S46 is not performed, and the search unit 142 performs a program search using the recognized character string (step S23). ).
  • the character string as a recognition result and the candidate selected by the user are used. Since the character strings are associated with each other and registered in the conversion DB 138 and learned, the timing of learning to the conversion DB 138 can be increased and the convenience for the user can be further improved.
  • the similarity between the character string as the recognition result and the candidate character string selected by the user is determined. If they are similar, the character as the recognition result
  • the determination unit 140 and the registration unit 139 may be configured such that the columns and candidate character strings selected by the user are associated and registered in the conversion DB 138.
  • the server 300 or the video sharing site on the network is searched for the program name of the candidate character string selected by the user.
  • the search unit 142 and the registration unit 139 may be configured so that the candidate character string selected by the user is associated and registered in the conversion DB 138.
  • the editing unit 141 can be configured to allow the user to edit the character string.
  • the network configuration of the recording / playback system of the present embodiment, the hardware configuration and the functional configuration of the mobile terminal 100 are the same as those of the first embodiment.
  • the registration unit 139 of the present embodiment has the same function as that of the first embodiment, and after receiving voice input by the user's utterance from the voice input unit 124, the registration unit 139 within a predetermined time (for example, within 20 seconds) Is re-spoken, and when the second voice input is accepted, the character string of the voice recognition result by the voice recognition unit 134 from the first voice and the character string of the voice recognition result from the second voice Correspondingly, it is registered in the conversion DB 138.
  • a predetermined time for example, within 20 seconds
  • the voice input unit 124 receives voice input by the user (step S11), and the voice recognition unit 134 performs voice recognition processing on the voice of the program name input by the voice input unit 124. (Step S12), a character string as a recognition result is output. Then, after that, when the user speaks again within a certain time and the voice input unit 124 accepts the voice input again (step S61: Yes), the voice recognition unit 134 uses the second input voice as voice. A recognition process is performed (step S62), and a character string as a recognition result is output again. And the control part 131 sets a registration flag to ON (step S63). Here, the registration flag is the same as in the second embodiment.
  • step S61 if the voice input unit 124 does not accept another voice input within a certain time (step S61: No), that is, if the user does not speak again within a certain time, step S62, The process of S63 is not performed.
  • the conversion unit 135 searches the conversion DB 138 for a character string as the first or second recognition result (step S64), and the character string as the recognition result is registered in the conversion DB 138 as a character string before conversion. It is determined whether or not there is (step S14).
  • step S14 When the character string as the recognition result is registered in the conversion DB 138 (step S14: Yes), the conversion unit 135 converts the converted character string associated with the character string as the recognition result in the conversion DB 138. By acquiring the column, the character string is converted (step S15). On the other hand, if the character string as the recognition result is not registered in the conversion DB 138 in step S14 (step S14: No), the process of step S15 is not performed.
  • step S14 the input / output control unit 132 sets the character string as the recognition result, and in the case of Yes in step S14, uses the converted character string as the program name candidate, as in the first embodiment. Is displayed on the display 102a (step S16).
  • step S17 If the user presses NG from this candidate confirmation screen and the input / output control unit 132 does not accept the input of the OK event (step S17: No), the same processing as in the first embodiment (steps S18 to S23). ) Is performed.
  • step S17 when the user presses OK on the candidate confirmation screen in step S17 and the input / output control unit 132 accepts an input of an OK event (step S17: Yes), the program name displayed as a candidate is the user name.
  • the registration unit 139 determines whether or not the registration flag is set to ON (step S65).
  • step S65 Yes
  • the registration unit 139 sets the character string of the recognition result by the first utterance in step S12 as the character string before conversion, and sets the character string of the recognition result by the second utterance in step S62 as the character string after conversion.
  • Both character strings are associated and registered in the conversion DB 138 (step S66).
  • the search part 142 performs a program search by the program name of the character string by the 2nd utterance (step S23).
  • step S65 when the registration flag is not set to ON in step S65 (step S65: No), the process of step S66 is not performed, and the search unit 142 performs a program search using a character string by the first utterance ( Step S23).
  • the similarity between the character string of the recognition result of the first utterance and the character string of the recognition result of the second utterance is determined and they are similar.
  • the determination unit 140 and the registration unit 139 may be configured so that the character string resulting from the first utterance and the character string resulting from the second utterance are registered in the conversion DB 138 in association with each other.
  • the server 300 or the video sharing site on the network is searched for the program name of the character string recognized as the result of the second utterance.
  • the search unit 142 and the registration unit 139 may be configured such that the character string by and the character string by the second utterance are registered in the conversion DB 138 in association with each other.
  • the editing unit 141 can be configured to allow the user to edit the character string when the program name of the character string due to the second utterance is not retrieved.
  • voice recognition and character string conversion processing using the conversion DB 138 are performed on the mobile terminal 100 side.
  • voice recognition is performed on a server on the network.
  • a conversion DB is provided in a server on the network, and conversion processing is performed on the server.
  • the recording / playback system of the present embodiment has a configuration in which a portable terminal 1300 and a digital television 200 are connected via a wireless network such as Wi-Fi (registered trademark).
  • the mobile terminal 1300 and the digital television 200 are connected to a server 300 such as a service provider on the Internet, a broadcast station server 400, a voice recognition server 1500, and a conversion server 1400.
  • the functions of the digital television 200, the broadcast station server 400, and the server 300 are the same as those in the first embodiment.
  • the voice recognition server 1500 includes the same dictionary DB as that of the first embodiment (not shown), receives a voice recognition request together with voice data via the Internet, performs voice recognition processing on the received voice data, and performs a recognition result. Is transmitted to the transmission source of the voice recognition request.
  • the portable terminal 1300 transmits a voice recognition request to the voice recognition server 1500 together with voice data.
  • the conversion server 1400 includes a conversion DB 1410.
  • the conversion DB 1410 is shared by a plurality of portable terminals 1300, and has the same data structure as the conversion DB 138 of the first embodiment shown in FIG.
  • the conversion server 1400 receives the conversion request together with the character string via the Internet. Then, the conversion server 1400 determines whether or not the received character string is registered in the conversion DB 1410 as a character string before conversion, and if it is registered, the conversion corresponding to the character string received in the conversion DB 1410. The subsequent character string is transmitted to the transmission source of the conversion request.
  • the conversion server 1400 transmits a message indicating that the character string is not registered in the conversion DB 1410 to the conversion request transmission source.
  • the mobile terminal 1300 transmits a conversion request to the conversion server 1400 together with a character string by voice input.
  • the hardware configuration of the portable terminal 1300 of the present embodiment is the same as that of the first embodiment described with reference to FIG.
  • the mobile terminal 1300 includes a control unit 131, an input / output control unit 132, a conversion unit 1335, a command generation unit 137, an editing unit 141, and a functional configuration.
  • a registration unit 1339, a determination unit 140, and a search unit 142 are provided.
  • FIG. 14 also shows the voice input unit 124 and the display unit 102.
  • the portable terminal 1300 according to the present embodiment does not include a configuration of a dictionary DB, a conversion DB, and a voice recognition unit.
  • the functions of the control unit 131, the input / output control unit 132, the command generation unit 137, the editing unit 141, the determination unit 140, and the search unit 142 are the same as those in the first embodiment.
  • the control unit 131 transmits a voice recognition request to the voice recognition server 1500 together with the voice data of the voice input from the voice input unit 124, and receives a recognition result character string from the voice recognition server 1500.
  • the control unit 131 sends the received character string of the recognition result to the conversion unit 1335.
  • the conversion unit 1335 transmits a conversion request together with the character string of the recognition result to the conversion server 1400 via the communication I / F 123, and whether or not the character string requested for the conversion from the conversion server 1400 is registered in the conversion DB 1410. The judgment result is received. Specifically, when the character string requested for conversion is registered in the conversion DB 1410, the conversion unit 1335 indicates that the character string requested for conversion is registered in the conversion DB 1410 from the conversion server 1400. And the converted character string are received as determination results. On the other hand, when the character string requested for conversion is not registered in the conversion DB 1410, the conversion unit 1335 determines from the conversion server 1400 that the character string requested for conversion is not registered in the conversion DB 1410. Receive.
  • the conversion unit 1335 and the communication I / F 123 are examples of a communication unit.
  • the registration unit 1339 searches the search result received by the search unit 142 for a program name that matches the edited character string, and the determination unit 140 determines that the character string before editing and the edited character string are similar.
  • a registration request of the character string before editing and the character string after editing to the conversion DB 1410 is transmitted to the conversion server 1400.
  • the conversion server 1400 registers the received character string before editing as a character string before conversion and the received edited character string as a converted character string in the conversion DB 1410 in association with each other.
  • a message indicating completion is transmitted to the portable terminal 1300.
  • the voice input unit 124 receives a voice input by the user (step S11). And the control part 131 transmits a speech recognition request
  • the conversion unit 1335 transmits a conversion request for the character string together with the character string of the recognition result to the conversion server 1400 via the communication I / F 123 (step S83). Then, the conversion unit 1335 receives the determination result from the conversion server 1400 via the communication I / F 123 (step S84).
  • the conversion unit 1335 determines whether or not the character string as the transmitted recognition result is a determination result indicating that the character string is registered in the conversion DB 1410 (step S14). If the determination result indicates that the character string as the recognition result is registered in the conversion DB 1410 (step S14: Yes), the conversion unit 1335 acquires the converted character string included in the determination result. Thus, the character string is converted (step S15). On the other hand, if it is determined in step S14 that the character string as the recognition result is not registered in the conversion DB 1410 (step S14: No), the process of step S15 is not performed. And the process from step S16 to S21 is performed similarly to Embodiment 1. FIG.
  • step S21 If it is determined in step S21 that the character string before editing and the character string after editing are similar (step S21: Yes), the registration unit 1339 converts the character string before editing and the character string after editing. A registration request to the DB 1410 is transmitted to the conversion server 1400 (step S85). As a result, the conversion server 1400 registers the character string before editing as the character string before conversion, the character string after editing as the character string after conversion, and the both character strings in association with each other in the conversion DB 1410. If it is determined in step S21 that the character string before editing and the character string after editing are not similar (step S21: No), the registration request transmission processing in step S85 is not performed. Then, the search unit 142 performs a program search using the edited program name of the character string (step S23).
  • the conversion DB 1410 is provided in the conversion server 1400 on the network, and character string conversion processing is performed by the conversion server 1400.
  • the processing load on the portable terminal 1300 side can be reduced.
  • the character strings before conversion and the character strings after conversion are registered on the conversion DBs 138 and 1410 on a one-to-one basis.
  • the present invention is not limited to this.
  • a single character string before conversion a plurality of character strings after conversion that are different for each period are registered, and when there is an access from the mobile terminal 100 or 1300, the date and time when the access was made
  • the conversion unit 135 and the conversion server 1400 can be configured to return the converted character string at the corresponding time.
  • the conversion DB 1410 when the conversion DB 1410 is shared on the network as in the fourth embodiment, a plurality of converted character strings having different wordings are registered for one character string before conversion, and the portable terminal When there is a conversion request from 1300, a different character string after conversion can be returned according to the position of the mobile terminal 1300 or the like. That is, when a conversion request is made from the mobile terminal 1300, the position information of the mobile terminal 1300 may be transmitted together, and the conversion server 1400 may return a converted character string corresponding to the position information.
  • a separate conversion server 1400 and conversion DB 1410 can be provided for each region.
  • a different character string such as a wording or dialect corresponding to the region is registered as a character string after conversion for the character string before conversion. May be.
  • the mobile terminal 1300 may be configured to make a conversion request to the conversion server 1400 closest to the current position.
  • the program search program executed by the mobile terminals 100 and 1300 according to the present embodiment is provided by being stored on a computer connected to a network such as the Internet, downloaded via the network, and installed in the nonvolatile memory 120. .
  • the program search program executed in the portable terminals 100 and 1300 of the present embodiment can be installed in an executable or executable format file such as a CD-ROM, a flexible disk (FD), a CD-R, and a DVD (Digital Versatile Disk).
  • an executable or executable format file such as a CD-ROM, a flexible disk (FD), a CD-R, and a DVD (Digital Versatile Disk).
  • the program may be recorded on a computer-readable recording medium.
  • program search program executed by the mobile terminals 100 and 1300 of the present embodiment may be provided by being incorporated in advance in the nonvolatile memory 120 or the like.
  • program search program executed on the mobile terminals 100 and 1300 of the present embodiment may be provided or distributed via a network such as the Internet.
  • the program search program executed by the portable terminals 100 and 1300 of the present embodiment includes the above-described units (the control unit 131, the input / output control unit 132, the voice recognition unit 134, the conversion units 135 and 1335, the command generation unit 137, the editing unit).
  • the CPU 116 reads out and executes the program search program installed in the non-volatile memory 120, whereby the above-described units are loaded onto the RAM 121.
  • the control unit 131, the input / output control unit 132, and the voice recognition unit 134 are loaded.
  • the conversion units 135 and 1335, the command generation unit 137, the editing unit 141, the registration units 139 and 1339, the determination unit 140, and the search unit 142 are generated on the RAM 121.
  • modules of the system described herein can be implemented as software applications, hardware and / or software modules, or components on one or more computers such as servers. Although the various modules are described separately, they may share some or all of the same underlying logic or code.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 一実施形態の方法は、ユーザの音声による入力を受け付け、ユーザの音声に対応する第1文字列が変換情報に登録されている場合、前記変換情報において前記第1文字列に対応付けられた第2文字列を表示し、変換情報に前記第1文字列が登録されていない場合であって、ユーザの指示があった場合に、前記第1文字列を第3文字列とする編集を受け付け、前記第3文字列が番組の情報から検索された場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する。

Description

方法、電子機器およびプログラム
 本発明の実施形態は、方法、電子機器およびプログラムに関する。
 近年では、録画再生機能を備えたテレビや録画再生機器において、所望の録画番組の検索機能が重要になってきている。このため、番組名などのキー入力による煩雑さを回避するために、ユーザがリモートコントローラから番組名等を音声入力して、録画番組の検索を行える録画再生機器が登場してきている。
特開2011-197410号公報
 しかしながら、録画再生装置においては、音声入力された番組名等が正確に認識された場合でも、ユーザが意図した通りの番組名に変換されない場合がある。このため、ユーザの音声入力に利便性があり、かつ正確な番組名の検索を提供することが望まれている。
 実施形態の方法は、ユーザの音声による入力を受け付け、ユーザの音声に対応する第1文字列が変換情報に登録されている場合、前記変換情報において前記第1文字列に対応付けられた第2文字列を表示し、変換情報に前記第1文字列が登録されていない場合であって、ユーザの指示があった場合に、前記第1文字列を第3文字列とする編集を受け付け、前記第3文字列が番組の情報から検索された場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する。
図1は、実施形態1の録画再生システムの構成の一例を示す図である。 図2は、実施形態1にかかる携帯端末のハードウェア構成の例示図である。 図3は、実施形態1にかかる携帯端末の機能的構成の一例を示すブロック図である。 図4は、実施形態1の変換DBの一例を示す図である。 図5は、実施形態1の番組検索処理の手順の一例を示すフローチャートである。 図6は、実施形態1のメニューバーおよび音声入力画面の一例を示す図である。 図7は、実施形態1の候補確認画面の一例を示す図である。 図8は、実施形態2の番組検索処理の手順を示すフローチャートである。 図9は、実施形態2の番組検索処理の手順(続き)を示すフローチャートである。 図10は、実施形態2の認識候補選択画面の一例を示す図である。 図11は、実施形態3の番組検索処理の手順を示すフローチャートである。 図12は、実施形態3の番組検索処理の手順を示すフローチャートである。 図13は、実施形態4の録画再生システムの構成の一例を示す図である。 図14は、実施形態4にかかる携帯端末の機能的構成の一例を示すブロック図である。 図15は、実施形態4の番組検索処理の手順を示すフローチャートである。
 以下、添付図面を参照して本実施形態を詳細に説明する。
(実施形態1)
 本実施形態の録画再生システムは、図1に示すように、携帯端末100とデジタルテレビ200とが、Wi-Fi(登録商標)等の無線ネットワークなどで接続される構成となっている。図1に示すように、携帯端末100とデジタルテレビ200とは、インターネット上のサービス業者等のサーバ300や放送局サーバ400と接続される。また、デジタルテレビ200は、放送局500からの放送波を受信する。
 本実施形態のデジタルテレビ200は、デジタル放送の受信用チューナを搭載しており、さらに、放送番組の録画再生機能を備えている。また、本実施形態のデジタルテレビ200は、インターネット上の各種サイトを検索したり、表示したりすることができるWebブラウザの機能が搭載されている。さらに、本実施形態のデジタルテレビ200は、Hybridcast(登録商標)対応となっており、放送局500から受信した放送波と、放送局サーバ400やサーバ300から放送番組に関するコンテンツやアプリケーションを受信し、アプリケーション等を起動して、放送番組と連動したコンテンツを放送番組上に表示可能となっている。また、サーバ300は、電子番組表(EPG:Electronic Program Guide)を管理している。
 なお、本実施形態では録画再生装置としてデジタルテレビ200を例にあげているが、録画再生機能を有していれば、これに限定されるものではない。例えば、放送波を受信するチューナを備え、録画再生機能を備え、映像を処理して外部接続された表示装置に出力するハードディスクレコーダやセットトップボックス等の機器であってもよい。
 携帯端末100は、デジタルテレビ200に対する操作を行うリモートコントローラとして機能する電子機器であり、例えば、スマートフォン等の携帯電話、タブレット端末、スレート端末等として実現されている。携帯端末100は、所定のアプリケーションプログラムを実行することによりデジタルテレビ200に対する操作を行うようになっている。
 また、本実施形態のデジタルテレビ200は、Hybridcast(登録商標)対応となっており、放送局サーバ400やサーバ300から放送番組に関するコンテンツやアプリケーションを受信し、アプリケーション等を起動して、デジタルテレビ200で放送されている放送番組と連動したコンテンツを放送番組上に表示可能となっている。
 図2に示すように、携帯端末100は、表示部102、CPU(Central Processing Unit)116、グラフィクスコントローラ118、タッチパネルコントローラ119、不揮発性メモリ120、RAM(Random Access Memory)121、通信I/F123およびセンサ群106、音声入力部124等を備える。この他、携帯端末100は、カメラやスピーカなどを備えていてもよい。
 音声入力部124は、マイクロフォン等の音声入力デバイスであり、ユーザからの発話を音声入力する。本実施形態では、音声入力部124は、ユーザの音声による、番組名の検索指示やデジタルテレビ200に対する操作指示の入力文を受け付ける。
 表示部102は、ディスプレイ102aとタッチパネル102bとを組み合わせた、いわゆるタッチスクリーンとして構成される。ディスプレイ102aは、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどである。タッチパネル102bは、ユーザの指やスタイラスペンなどによってタッチされたディスプレイ102aの表示画面上の位置(タッチ位置)を検知する。
 不揮発性メモリ120は、オペレーションシステムや各種のアプリケーションプログラム、プログラムの実行に必要な各種データなどを記憶する。CPU116は、携帯端末100の動作を制御するプロセッサであり、携帯端末100の各コンポーネントを制御する。CPU116は、不揮発性メモリ120からRAM121にロードされる、オペレーティングシステム、コマンド生成アプリケーションを含む各種アプリケーションプログラムを実行することで、後述する各機能部(図3参照)を実現する。RAM121は、携帯端末100のメインメモリとして、CPU116がプログラムを実行する際の作業領域を提供する。
 グラフィクスコントローラ118は、表示部102のディスプレイ102aを制御する表示コントローラである。タッチパネルコントローラ119は、タッチパネル102bを制御し、ユーザによるタッチ位置を示す座標データをタッチパネル102bから取得する。
 通信I/F123は、CPU116による制御のもとで、デジタルテレビ200等の外部装置との間の無線通信や、インターネット等のネットワークによる通信を実行する。
 センサ群106は、携帯端末100に対する外部からの加速度の向きと大きさを検出する加速度センサ、携帯端末100の方位を検出する方位センサ、携帯端末100の角速度(回転角度)を検出するジャイロセンサ等である。各センサの検出信号はCPU116に出力される。
 携帯端末100は、CPU116と不揮発性メモリ120に記憶されたプログラム(オペレーティングシステム、番組検索アプリケーションプログラム等の各種アプリケーションプログラム)との協働により、図3に示す各部を実現する。
 本実施形態にかかる携帯端末100は、図3に示すように、機能的構成として、制御部131と、入出力制御部132と、音声認識部134と、変換部135と、コマンド生成部137と、編集部141と、登録部139と、判断部140と、検索部142と、辞書データベース136と、変換データベース138とを備えている。
 ここで、図3には、上述した音声入力部124および表示部102も示している。ここで、辞書データベース136と、変換データベース138とは、ハードディスクドライブ装置(HDD)やメモリ等の記憶媒体に保存されている。
 辞書データベース136(以下、「辞書DB136」という。)は、種々の単語が登録されたデータベースであり、音声認識部134で音声認識処理を実行する際に参照される。なお、辞書DB136を、携帯端末100に設ける他、サーバ300上に辞書DBを設け、サーバ300側で音声認識を行ってもよい。
 制御部131は、携帯端末100全体を制御する。音声認識部134は、音声入力部124で音声入力された自然言語の入力文の音声データに対して、辞書DB136を用いて音声認識処理や形態素解析を行い、認識結果として入力文の文字列を出力する。
 入出力制御部132は、表示部102に対する入出力を制御する。すなわち、入出力制御部132は、グラフィクスコントローラ118を介して表示部102のディスプレイ102aに対する表示制御を行うとともに、タッチパネルコントローラ119を介して表示部102のタッチパネル102bからのタッチ操作による入力を制御する。本実施形態での入出力制御部132は、音声認識部134による認識結果としての文字列を、表示部102のディスプレイ102aに表示する。
 コマンド生成部137は、音声入力部124からユーザにより入力されたデジタルテレビ200に対する操作指示の音声に対して音声認識部134で認識された文字列を含むコマンドを生成する。
 なお、図2に示す通信I/F123が、コマンド生成部137で生成されたコマンドを、デジタルテレビ200に送信する。デジタルテレビ200は、かかるコマンドを受信して解釈し、操作指示に従った操作が実行される。また、図2に示す通信I/F123が、各種データを、インターネットを介して送受信する。
 変換データベース138(以下、「変換DB138」という。)は、音声認識部134による音声認識結果である変換前の文字列(第1文字列)と、当該文字列をユーザが編集した変換後の文字列とを対応付けたデータベースである。ユーザが発話した音声入力が音声認識部134により正しく認識された文字列でも、ユーザが意図した番組名を表していない場合がある。このような場合、ユーザは認識結果としての文字列(すなわち、ユーザの音声に対応する文字列)を意図する番組名に編集し、その編集後の文字列を変換後の文字列として、認識結果としての変換前の文字列(第1文字列)に対応付けて変換DB138に登録される。かかる変換DB138への登録の詳細については後述する。
 図4に示すように、変換DB138には、変換前の文字列(第1文字列)と変換後の文字列(第2文字列)とが対応付けられて登録されている。図4の例では、変換前の文字列「金曜ロードショー」と変換後の文字列「金曜ロードSHOW」とが対応付けられて登録されている。この例では、番組名の一部に英文字の部分があった場合でも。発話上は、「ショー」と「SHOW」とは区別することは困難である。このため、ユーザが「きんようろーどしょー」と発話して、その音声認識結果としての「金曜ロードショー」が得られた場合において、実際にユーザが意図し、かつ存在する番組名の文字列が「金曜ロードSHOW」である場合に、変換DB138に登録しておけば、正確な番組名を得ることが可能となる。
 また、図4に示す変換DB138には、変換前の文字列「スタードラマ」に変換後の文字列「スター☆ドラマ!」が対応付けられて登録されている。番組名には、このように「☆」、「!」等の記号が含まれるものも多く、記号をユーザが発話することは困難であり、この結果、音声認識だけでは正確な番組名を認識することができない。このため、本実施形態では、記号を含む番組名を変換後の文字列として、このような記号を含む番組名の記号を除いた文字列の発話から音声認識される文字列を変換前の文字列として対応付けて登録させている。なお、図4に示す登録例はこれに限定されるものではない。
 変換部135は、音声認識部134の認識結果である文字列が、変換DB138の変換前の文字列に登録されているか否かを判断し、登録されている場合、この文字列を、変換DB138に当該文字列に対応付けられた変換後の文字列(第2文字列)に変換する。例えば、図4の例では、「きょうのにゅーす」と発話され、「今日のニュース」と音声認識された場合でも、変換部135は、変換DB138を参照して、「今日のニュース」を、正確な番組名「今日のNEWS」に変換する。従って、既に変換後の文字列が登録されている場合には、変換部135は、ユーザの音声入力から音声認識した文字列を、正確な番組名に変換することが可能となる。
 変換DB138に、音声認識結果としての文字列(第1文字列)が、変換前の文字列として登録されていない場合であって、ディスプレイ102aに表示された認識結果としての文字列がユーザの意図していない番組名等の文字列である場合、ユーザは認識結果の文字列の編集操作をタッチパネル102bから行う。編集部141は、かかる認識結果の文字列の編集を受け付け、文字列を編集する。
 検索部142は、ユーザにより指定された番組名で番組検索を行う。また、検索部142は、編集部141による編集後の文字列(第3文字列)を検索キーとして、通信I/F123を介して、ネットワーク上の外部装置、例えば、サーバ300の電子番組表(EPG)や動画共有サイト等の番組の情報に対して検索を行い、文字列に合致する番組名が検索されたか否かを示す検索結果を外部装置から受信する。
 判断部140は、認識結果の文字列、すなわち編集前の文字列(第1文字列)と、編集部141による編集後の文字列(第3文字列)とが類似するか否かを、編集された文字数に基づいて判断する。具体的には、判断部140は、編集された文字数が、例えば、5文字等の所定文字数以下の場合に、編集前の文字列と編集後の文字列とが類似すると判断する。あるいは、判断部140は、編集前の文字列の全体文字数または編集後の文字列の全体文字数に対する編集された文字数の割合が、例えば、2割などの所定割合以下の場合に、編集前の文字列と編集後の文字列とが類似すると判断するように構成してもよい。但し、類似の判断基準はこれらに限定されるものではない。
 登録部139は、検索部142により受信した検索結果において編集後の文字列に合致する番組名が検索され、かつ判断部140によって編集前の文字列と編集後の文字列が類似すると判断された場合、編集後の文字列(第3文字列)を変換後の文字列とし、編集前の文字列(第1文字列)を変換前の文字列として、両者を対応付けて変換DB138に登録し、これにより正しい番組名の文字列を学習させている。
 次に、以上のように構成された本実施形態の携帯端末100による番組検索処理について図5を用いて説明する。
 まず、携帯端末100の入出力制御部132は、ディスプレイ102aに表示された画面の下部にメニューバーを表示する。図6(a)にはメニューバーを示している。メニューバーには、5個のキー(ボタン)が表示されている。符号801のキーは、現在放送されている番組の一覧である現在番組表を起動するためのキーである。符号802のキーは、リモートコントローラ詳細画面を起動するためのキーである。符号803のキーは音声入力画面を起動するためのキーである。符号804は、テキスト入力画面を起動するためのキーである。符号805のキーは、Hybridcast(登録商標)連動機能を起動するためのキーである。
 ユーザが図6(a)に示す符号803のキーを押下すると、入出力制御部132はかかるキー押下を受け付けて、図6(b)に示す音声入力画面をディスプレイ102aに表示し、図5のフローチャートの処理が実行される。ユーザは、図6(b)に示す音声入力画面で、検索する番組名を音声入力すると、音声入力部124は、かかる音声入力を受け付ける(ステップS11)。
 次に、音声認識部134は、音声入力部124で入力された番組名の音声に対して音声認識処理を行い(ステップS12)、認識結果としての文字列を出力する。そして、変換部135は、音声認識部134から出力された文字列から認識結果としての番組名の文字列を抽出し、その文字列を変換DB138から検索し(ステップS13)、認識結果としての文字列が変換前の文字列として変換DB138に登録されているか否かを判断する(ステップS14)。
 そして、変換DB138に認識結果としての文字列が登録されている場合には(ステップS14:Yes)、変換部135は、変換DB138において認識結果としての文字列に対応付けられている変換後の文字列を取得することで、文字列の変換を行う(ステップS15)。一方、ステップS14で、変換DB138に認識結果としての文字列が登録されていない場合には(ステップS14:No)、ステップS15の処理は行われない。
 次に、入出力制御部132は、ステップS14でNoの場合には認識結果としての文字列、ステップS14でYesの場合には変換後の文字列を、番組名の候補として表示部102のディスプレイ102aに表示する(ステップS16)。具体的には、入出力制御部132は、上記文字列を番組名の候補として適切か否かをユーザに問い合わせるための候補確認画面をディスプレイ102aに表示する。
 図7に示すように、候補確認画面には、候補の番組名として、音声認識部134による認識結果としての文字列「金曜ロードショー」と、この番組名で正しいか否かというユーザの意図どおりの文字列か否かを問い合わせるためのメッセージが表示される。そして、候補確認画面には、かかる問い合わせに対する返答をユーザに入力させるためのOKボタンとNGボタンが表示されている。
 この候補確認画面でユーザがOKを押下して、入出力制御部132がOKのイベントの入力を受け付けた場合には(ステップS17:Yes)、候補として表示された番組名がユーザが意図したものであるため、検索部142はその候補の番組名で番組検索を行う(ステップS23)。
 一方、ステップS17で、候補確認画面からユーザがNGを押下して、入出力制御部132がOKのイベントの入力を受け付けなかった場合には(ステップS17:No)、候補として表示された番組名がユーザの意図とは異なるものであり、ユーザはタッチパネル102bにより文字列の編集操作を行い、編集部141がかかる編集操作を受け付けて、候補の文字列を編集する(ステップS18)。
 次に、検索部142は、編集後の文字列の番組名で、サーバ300のEPGや動画共有サイトなどを検索し(ステップS19)、検索結果を受信する。そして、検索部142は検索結果に、編集後の文字列の番組名が検索された旨が示されているか否かを判断する(ステップS20)。検索結果に編集後の文字列の番組名が検索された旨が示されていない場合には(ステップS20:No)、処理はステップS18へ戻り、ユーザによる文字列の編集を受け付ける(ステップS18)。
 一方、検索結果に、編集後の文字列の番組名が検索された旨が示されている場合には(ステップS20:Yes)、判断部140は、編集前の文字列と編集後の文字列が類似するか否かを判断する(ステップS21)。ここで、類似の判断基準は上述したとおりである。
 そして、編集前の文字列と編集後の文字列が類似すると判断された場合には(ステップS21:Yes)、登録部139は、編集前の文字列を変換前の文字列とし、編集後の文字列を変換後の文字列として、両文字列を対応付けて変換DB138に登録する(ステップS22)。ステップS21で編集前の文字列と編集後の文字列が類似しないと判断された場合には(ステップS21:No)、ステップS22の変換DB138への登録処理は行われない。そして、検索部142は、編集後の文字列の番組名で番組検索を行う(ステップS23)。
 このように本実施形態では、ユーザからの番組名が音声入力されて音声認識された文字列が変換DB138に登録されている場合、当該文字列を、変換DB138において当該文字列に対応する変換後の文字列の番組名に変換し、番組名の検索が行われる。また、本実施形態では、変換DB138の変換前の文字列として認識された文字列が登録されていない場合であって、ユーザの指示があった場合に、認識された文字列のユーザによる編集を受け付ける。そして、本実施形態では、編集後の文字列について、ネットワーク上のサーバ300や動画共有サイト等に対して検索を行い、編集後の文字列が検索された場合に、編集前の文字列を変換前の文字列とし、編集後の文字列を変換後の文字列として、両文字列を対応づけて変換DB138に登録している。このため、本実施形態によれば、ユーザの音声入力に利便性があり、かつ正確な番組名の検索を実現することができる。
 また、本実施形態では、音声認識された文字列がユーザにより編集された場合で、編集後の文字列についてネットワーク上のサーバ300や動画共有サイト等から検索された場合に、判断部140が編集前の文字列と編集後の文字列との類似性を判断し、類似する場合に、編集前の文字列を変換前の文字列とし、編集後の文字列を変換後の文字列として、両文字列を対応づけて変換DB138に登録して学習させている。このため、音声入力した番組名に大きく誤りがあって全面的に編集された場合において、変換DB138への登録を回避して、変換誤りを防止して正確性を向上させ、ユーザに対する利便性をより向上させることができる。
 なお、本実施形態では、ユーザが認識された文字列を編集した場合に、編集後の文字列の番組名でネットワーク上のサーバ300や動画共有サイトで検索しているが、これに限定されるものではない。例えば、ステップS17でユーザがOKを入力し、認識された文字列がユーザにより編集されなかった場合にも、認識された文字列の番組名でネットワーク上のサーバ300や動画共有サイトで検索するように検索部142を構成することができる。この場合において、認識された文字列の番組名が検索されなかった場合には、ユーザに文字列を編集させるように編集部141を構成することができる。
(実施形態2)
 実施形態1では、音声認識結果としての文字列をユーザが編集した場合に、編集前の文字列と編集後の文字列とを対応付けて変換DB138に登録していたが、この実施形態2では、音声認識の際の認識結果としての文字列の他、候補となる文字列がユーザに選択された場合に、認識結果としての文字列とユーザが選択した候補となる文字列とを対応付けて変換DB138に登録している。
 本実施形態の録画再生システムのネットワーク構成、携帯端末100のハードウェア構成および機能的構成は、実施形態1と同様である。
 本実施形態の入出力制御部132は、音声認識部134による音声認識結果を表示部102のディスプレイ102aに表示する際に、認識された文字列の他に、音声認識の結果、候補となる一または複数の候補文字列を選択可能に表示する。
 また、本実施形態の登録部139は、実施形態1と同様の機能を有する他、さらに、ディスプレイ102aに表示された一または複数の候補文字列の中からユーザが所望の候補文字列を選択した場合に、認識された文字列を変換前の文字列とし、選択された候補文字列を変換後の文字列として、両文字列を対応付けて変換DB138に登録する。
 次に、以上のように構成された本実施形態の番組検索処理について図8および図9を用いて説明する。
 実施形態1と同様に、音声入力部124は、ユーザによる音声入力を受け付ける(ステップS11)。そして、音声認識部134は、音声入力部124で入力された番組名の音声に対して音声認識処理を行い(ステップS12)、認識結果としての文字列と、音声認識処理の際に候補となった一または複数の文字列である候補文字列を出力する。そして、入出力制御部132は、認識結果の文字列と、一または複数の候補文字列とを選択可能に示した認識候補選択画面をディスプレイ102aに表示する(ステップS41)。そして、入出力制御部132は、この認識候補選択画面においてユーザから候補文字列の選択の入力を受け付けたか否かを判断する(ステップS42:No)。
 図10には、実施形態2の認識候補選択画面の一例を示している。図10の例では、音声認識の結果としての「金曜ロードショー」の文字列と、候補文字列が4つ表示され、ユーザにより「金曜ロードSHOW」の候補文字列が選択された例を示している。
 図8に戻り、ステップS42で、入出力制御部132は、ユーザから候補文字列の選択を受け付けたら(ステップS42:Yes)、選択された候補文字列を番組名とし、登録フラグをオンにする(ステップS43)。ここで、登録フラグは、ユーザによる文字列の編集操作が行われなかった場合において変換DB138への登録を行うか否かを示すフラグであり、オンの場合に変換DB138への登録が行われる。なお、登録フラグは初めはオフに初期化されている。
 一方、ステップS42で、入出力制御部132は、ユーザから候補文字列の選択を受け付けなかった場合(ステップS42:No)、音声認識による認識結果としての文字列を、認識結果どおりに番組名とし、ステップS43の処理は行われない。
 そして、変換部135は、番組名とされた文字列を、変換DB138から検索し(ステップS44)、番組名とされた文字列が変換前の文字列として変換DB138に登録されているか否かを判断する(ステップS14)。
 そして、変換DB138に番組名とされた文字列が登録されている場合には(ステップS14:Yes)、変換部135は、変換DB138において番組名とされた文字列に対応付けられている変換後の文字列を取得することにより、文字列の変換を行う(ステップS15)。一方、ステップS14で、変換DB138に番組名とされた文字列が登録されていない場合には(ステップS14:No)、ステップS15の処理は行われない。
 次に、入出力制御部132は、ステップS14でNoの場合には番組名とされた文字列、ステップS14でYesの場合には変換後の文字列を番組名の候補として、実施形態1と同様の候補確認画面をディスプレイ102aに表示する(ステップS16)。
 この候補確認画面からユーザがNGを押下して、入出力制御部132がOKのイベントの入力を受け付けなかった場合には(ステップS17:No)、実施形態1と同様の処理(ステップS18~S23)が行われる。
 一方、ステップS17で候補確認画面でユーザがOKを押下して、入出力制御部132がOKのイベントの入力を受け付けた場合には(ステップS17:Yes)、候補として表示された番組名がユーザが意図したものであるが、登録部139は、登録フラグがオンに設定されているか否かを判断する(ステップS45)。
 そして、登録フラグがオンに設定されている場合には(ステップS45:Yes)、ステップS12による認識結果の文字列を番組名として採用せず、ステップS42で候補文字列を番組名としてユーザが採用したことを意味する。このため、登録部139は、ステップS12による認識結果の文字列を変換前の文字列とし、ステップS42で選択された候補文字列を変換後の文字列として、両文字列を対応付けて変換DB138に登録する(ステップS46)。そして、検索部142は、選択された候補文字列の番組名で番組検索を行う(ステップS23)。
 一方、ステップS45で登録フラグがオンに設定されていない場合には(ステップS45:No)、ステップS46の処理は行われず、検索部142は、認識された文字列で番組検索を行う(ステップS23)。
 このように本実施形態では、音声認識の際の認識結果としての文字列の他、候補となる文字列がユーザに選択された場合に、認識結果としての文字列とユーザが選択した候補となる文字列とを対応付けて変換DB138に登録して学習させているので、変換DB138への学習のタイミングを増やし、ユーザに対する利便性をより向上させることができる。
 なお、例えば、ステップS45で登録フラグがオンの場合に、認識結果としての文字列とユーザにより選択された候補文字列との類似性を判断し、類似している場合に、認識結果としての文字列とユーザが選択した候補となる文字列とを対応付けて変換DB138に登録するように、判断部140および登録部139を構成してもよい。
 また、ステップS45で登録フラグがオンの場合に、ユーザが選択した候補文字列の番組名でネットワーク上のサーバ300や動画共有サイトで検索し、検索された場合に、認識結果としての文字列とユーザが選択した候補となる文字列とを対応付けて変換DB138に登録するように、検索部142および登録部139を構成してもよい。この場合において、候補文字列の番組名が検索されなかった場合には、ユーザに文字列を編集させるように編集部141を構成することができる。
(実施形態3)
 実施形態1では、音声認識結果としての文字列をユーザが編集した場合に、編集前の文字列と編集後の文字列とを対応付けて変換DB138に登録していたが、この実施形態3では、ユーザが発話して音声入力を行った後に一定時間内に再度発話して音声入力を行った場合に、一回目の音声入力の認識結果としての文字列と二回目の音声入力の認識結果としての文字列とを対応付けて変換DB138に登録している。
 本実施形態の録画再生システムのネットワーク構成、携帯端末100のハードウェア構成および機能的構成は、実施形態1と同様である。
 本実施形態の登録部139は、実施形態1と同様の機能を有する他、音声入力部124によるユーザの発話による音声入力を受け付けた後、一定時間内(例えば、20秒以内など)に、ユーザが発話し直して、二回目の音声入力を受け付けた場合に、一回目の音声からの音声認識部134による音声認識結果の文字列と、二回目の音声からの音声認識結果の文字列とを対応付けて変換DB138に登録する。
 次に、以上のように構成された本実施形態の番組検索処理について図11および図12を用いて説明する。
 実施形態1と同様に、音声入力部124は、ユーザによる音声入力を受け付け(ステップS11)、音声認識部134は、音声入力部124で入力された番組名の音声に対して音声認識処理を行い(ステップS12)、認識結果としての文字列を出力する。そして、その後、一定時間内に、ユーザが発話し直して、音声入力部124が音声入力を再度受け付けた場合には(ステップS61:Yes)、音声認識部134は二回目の入力の音声を音声認識処理を行い(ステップS62)、認識結果としての文字列を再度出力する。そして、制御部131は、登録フラグをオンに設定する(ステップS63)。ここで、登録フラグについては実施形態2と同様である。
 一方、ステップS61で、一定時間内に、音声入力部124が再度の音声入力を受け付けなかった場合(ステップS61:No)、すなわち、一定時間内にユーザが発話し直さなかった場合、ステップS62、S63の処理は行われない。
 そして、変換部135は、一回目若しくは二回目の認識結果としての文字列を、変換DB138から検索し(ステップS64)、認識結果としての文字列が変換前の文字列として変換DB138に登録されているか否かを判断する(ステップS14)。
 そして、変換DB138に認識結果としての文字列が登録されている場合には(ステップS14:Yes)、変換部135は、変換DB138において認識結果としての文字列に対応付けられている変換後の文字列を取得することにより、文字列の変換を行う(ステップS15)。一方、ステップS14で、変換DB138に認識結果としての文字列が登録されていない場合には(ステップS14:No)、ステップS15の処理は行われない。
 次に、入出力制御部132は、ステップS14でNoの場合には認識結果としての文字列、ステップS14でYesの場合には変換後の文字列を番組名の候補として、実施形態1と同様の候補確認画面をディスプレイ102aに表示する(ステップS16)。
 この候補確認画面からユーザがNGを押下して、入出力制御部132がOKのイベントの入力を受け付けなかった場合には(ステップS17:No)、実施形態1と同様の処理(ステップS18~S23)が行われる。
 一方、ステップS17で候補確認画面でユーザがOKを押下して、入出力制御部132がOKのイベントの入力を受け付けた場合には(ステップS17:Yes)、候補として表示された番組名がユーザが意図したものであるが、登録部139は、登録フラグがオンに設定されているか否かを判断する(ステップS65)。
 そして、登録フラグがオンに設定されている場合には(ステップS65:Yes)、ユーザが番組名を発話し直していることを意味する。このため、登録部139は、ステップS12による一回目の発話による認識結果の文字列を変換前の文字列とし、ステップS62による二回目の発話による認識結果の文字列を変換後の文字列として、両文字列を対応付けて変換DB138に登録する(ステップS66)。そして、検索部142は、二回目の発話による文字列の番組名で番組検索を行う(ステップS23)。
 一方、ステップS65で登録フラグがオンに設定されていない場合には(ステップS65:No)、ステップS66の処理は行われず、検索部142は、一回目の発話による文字列で番組検索を行う(ステップS23)。
 このように本実施形態では、ユーザが発話して音声入力を行った後に一定時間内に再度発話して音声入力を行った場合に、一回目の音声入力の認識結果としての文字列と二回目の音声入力の認識結果としての文字列とを対応付けて変換DB138に登録して学習させているので、変換DB138への学習のタイミングを増やし、ユーザに対する利便性をより向上させることができる。
 なお、例えば、ステップS65で登録フラグがオンの場合に、一回目の発話による認識結果の文字列と二回目の発話による認識結果の文字列との類似性を判断し、類似している場合に、一回目の発話による文字列と二回目の発話による文字列とを対応付けて変換DB138に登録するように、判断部140および登録部139を構成してもよい。
 また、ステップS65で登録フラグがオンの場合に、二回目の発話による認識結果の文字列の番組名でネットワーク上のサーバ300や動画共有サイトで検索し、検索された場合に、一回目の発話による文字列と二回目の発話による文字列とを対応付けて変換DB138に登録するように、検索部142および登録部139を構成してもよい。この場合において、二回目の発話による文字列の番組名が検索されなかった場合には、ユーザに文字列を編集させるように編集部141を構成することができる。
(実施形態4)
 上記実施形態1~3では、音声認識と変換DB138を用いた文字列の変換処理とを携帯端末100側で行っていたが、この実施形態では、音声認識をネットワーク上のサーバ上で行うとともに、変換DBをネットワーク上のサーバに設け、当該サーバ上で変換処理を行っている。
 本実施形態の録画再生システムは、図13に示すように、携帯端末1300とデジタルテレビ200とが、Wi-Fi(登録商標)等の無線ネットワークなどで接続される構成となっている。また、図13に示すように、携帯端末1300とデジタルテレビ200とは、インターネット上のサービス業者等のサーバ300や放送局サーバ400、音声認識サーバ1500、変換サーバ1400と接続される。
 デジタルテレビ200、放送局サーバ400、サーバ300の機能については実施形態1と同様である。音声認識サーバ1500は、実施形態1と同様の辞書DBを備え(不図示)、インターネット経由で音声データとともに音声認識要求を受信し、受信した音声データに対して音声認識処理を行って、認識結果としての文字列を音声認識要求の送信元に送信する。本実施形態では、携帯端末1300が音声データともに音声認識要求を音声認識サーバ1500に送信する。
 変換サーバ1400は、変換DB1410を備えている。変換DB1410は、複数の携帯端末1300で共有化されており、図4に示した実施形態1の変換DB138と同様のデータ構造を有している。変換サーバ1400は、インターネット経由で文字列とともに、変換要求を受信する。そして、変換サーバ1400は、受信した文字列が変換DB1410に変換前の文字列として登録されているか否かを判断し、登録されている場合には、変換DB1410において受信した文字列に対応する変換後の文字列を、変換要求の送信元に送信する。一方、変換サーバ1400は、受信した文字列が変換DB1410に変換前の文字列として登録されていない場合には、文字列が変換DB1410に未登録の旨を変換要求の送信元に送信する。本実施形態では、携帯端末1300が音声入力による文字列とともに変換要求を変換サーバ1400に送信する。
 次に、携帯端末1300について説明する。本実施形態の携帯端末1300のハードウェア構成は、図2を用いて説明した実施形態1と同様である。
 本実施形態にかかる携帯端末1300は、図14に示すように、機能的構成として、制御部131と、入出力制御部132と、変換部1335と、コマンド生成部137と、編集部141と、登録部1339と、判断部140と、検索部142とを備えている。図14においても、音声入力部124と表示部102とを示している。本実施形態の携帯端末1300では、実施形態1と異なり、辞書DB、変換DB、音声認識部の構成は備えていない。ここで、制御部131、入出力制御部132、コマンド生成部137、編集部141、判断部140、検索部142の機能は実施形態1と同様である。
 なお、制御部131は、音声入力部124から入力された音声の音声データとともに、音声認識要求を、音声認識サーバ1500に送信し、音声認識サーバ1500から認識結果の文字列を受信する。制御部131は、受信した認識結果の文字列を、変換部1335に送出する。
 変換部1335は、通信I/F123を介して、認識結果の文字列とともに変換要求を変換サーバ1400に送信し、変換サーバ1400から変換DB1410に変換要求のあった文字列が登録されているか否かの判断結果を受信する。具体的には、変換DB1410に変換要求のあった文字列が登録されている場合には、変換部1335は、変換サーバ1400から、変換DB1410に変換要求のあった文字列が登録されている旨と変換後の文字列とを判断結果として受信する。一方、変換DB1410に変換要求のあった文字列が登録されていない場合には、変換部1335は、変換サーバ1400から、変換DB1410に変換要求のあった文字列が登録されていない旨の判断結果を受信する。変換部1335および通信I/F123は、通信部の一例である。
 登録部1339は、検索部142により受信した検索結果において編集後の文字列に合致する番組名が検索され、かつ判断部140によって編集前の文字列と編集後の文字列が類似すると判断された場合、編集前の文字列および編集後の文字列の変換DB1410への登録要求を、変換サーバ1400に送信する。これにより、変換サーバ1400は、受信した編集前の文字列を変換前の文字列とし、受信した編集後の文字列を変換後の文字列として、両者を対応付けて変換DB1410に登録し、登録完了の旨を携帯端末1300に送信する。
 次に、以上のように構成された本実施形態の番組検索処理について図15を用いて説明する。
 実施形態1と同様に、音声入力部124は、ユーザによる音声入力を受け付ける(ステップS11)。そして、制御部131は、音声入力された音声データとともに音声認識要求を通信I/F123を介して音声認識サーバ1400に送信する(ステップS81)。そして、制御部131が、音声認識サーバ1400から認識結果を受信する(ステップS82)。
 次に、変換部1335は、通信I/F123を介して、認識結果の文字列とともに当該文字列の変換要求を変換サーバ1400に送信する(ステップS83)。そして、変換部1335は、通信I/F123を介して、変換サーバ1400から判断結果を受信する(ステップS84)。
 そして、変換部1335は、送信した認識結果としての文字列が変換DB1410に登録されている旨の判断結果であるか否かを判断する(ステップS14)。そして、変換DB1410に認識結果としての文字列が登録されている旨の判断結果である場合には(ステップS14:Yes)、変換部1335は、判断結果に含まれる変換後の文字列を取得することにより、文字列の変換を行う(ステップS15)。一方、ステップS14で、変換DB1410に認識結果としての文字列が登録されていない旨の判断結果である場合には(ステップS14:No)、ステップS15の処理は行われない。そして、ステップS16からS21までの処理は実施形態1と同様に行われる。
 ステップS21で、編集前の文字列と編集後の文字列が類似すると判断された場合には(ステップS21:Yes)、登録部1339は、編集前の文字列と編集後の文字列との変換DB1410への登録要求を、変換サーバ1400に送信する(ステップS85)。これにより、変換サーバ1400は、編集前の文字列を変換前の文字列とし、編集後の文字列を変換後の文字列として、両文字列を対応付けて変換DB1410に登録する。ステップS21で編集前の文字列と編集後の文字列が類似しないと判断された場合には(ステップS21:No)ステップS85の登録要求の送信処理は行われない。そして、検索部142は、編集後の文字列の番組名で番組検索を行う(ステップS23)。
 このように本実施形態では、音声認識をネットワーク上の音声認識サーバ1400で行うとともに、変換DB1410をネットワーク上の変換サーバ1400に設け、変換サーバ1400で文字列の変換処理を行っているので、実施形態1と同様の効果を奏する他、携帯端末1300側の処理負担を軽減することができる。
(変形例)
 なお、上記実施形態1~4では、変換DB138、1410への変換前の文字列と変換後の文字列の登録は、番組検索処理の流れの中で行われているが、これに限定されるものではない。例えば、登録の多いと予想される文字列とその変換後の文字列とを、予め対応付けて変換DB138、1410へ登録しておくように構成してもよい。
 また、上記実施形態1~4において、変換DB138、1410には、変換前の文字列と変換後の文字列とが一対一に登録されていたが、これに限定されるものではない。例えば、一つの変換前の文字列に対して、時期ごとに異なる複数の変換後の文字列を登録しておき、携帯端末100、1300からのアクセスがあった場合に、アクセスのあった日時に対応する時期の変換後の文字列を返すように変換部135および変換サーバ1400を構成することができる。
 また、例えば、実施形態4のように変換DB1410をネットワーク上で共有する場合に、一つの変換前の文字列に対して、言い回しが異なる複数の変換後の文字列を登録しておき、携帯端末1300から変換要求のあった場合に、携帯端末1300の位置等に応じて、異なる変換後の文字列を返すように構成することができる。すなわち、携帯端末1300から変換要求をする場合に、携帯端末1300の位置情報も併せて送信し、変換サーバ1400が位置情報に応じた変換後の文字列を返信するように構成すればよい。
 また、地域ごとに別個の変換サーバ1400および変換DB1410を設けるように構成することができる。このような場合には、地域の変換DB1410ごとに、変換前の文字列に対して、地域に応じた言い回しや方言のような異なる文字列を変換後の文字列として登録しておくように構成してもよい。この場合には、携帯端末1300は現在位置に最も近い変換サーバ1400に対して変換要求を行うように構成すればよい。
 本実施形態の携帯端末100、1300で実行される番組検索プログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせ、不揮発性メモリ120にインストールすることにより提供される。
 本実施形態の携帯端末100、1300で実行される番組検索プログラムを、インストール可能な形式または実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
 また、本実施形態の携帯端末100、1300で実行される番組検索プログラムを、不揮発性メモリ120等に予め組み込まれて提供してもよい。
 また、本実施形態の携帯端末100、1300で実行される番組検索プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
 本実施形態の携帯端末100、1300で実行される番組検索プログラムは、上述した各部(制御部131、入出力制御部132、音声認識部134、変換部135、1335と、コマンド生成部137、編集部141、登録部139、1339、判断部140、検索部142)を含むモジュール構成となっている。実際のハードウェアとしてはCPU116が上記不揮発性メモリ120にインストールされた番組検索プログラムを読み出して実行することにより上記各部がRAM121上にロードされ、制御部131、入出力制御部132、音声認識部134、変換部135、1335と、コマンド生成部137、編集部141、登録部139、1339、判断部140、検索部142がRAM121上に生成されるようになっている。
 さらに、ここに記述されたシステムの種々のモジュールは、ソフトウェア・アプリケーション、ハードウェアおよび/またはソフトウェア・モジュール、あるいはサーバのような一台以上のコンピュータ上のコンポーネントとしてインプリメントすることができる。種々のモジュールは、別々に説明されているが、それらは同じ根本的なロジックかコードのうちのいくつかあるいはすべてを共有してもよい。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (16)

  1.  ユーザの音声による入力を受け付け、
     ユーザの音声に対応する第1文字列が変換情報に登録されている場合、前記変換情報において前記第1文字列に対応付けられた第2文字列を表示し、
     変換情報に前記第1文字列が登録されていない場合であって、ユーザの指示があった場合に、前記第1文字列を第3文字列とする編集を受け付け、
     前記第3文字列が番組の情報から検索された場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する、
    ことを含む方法。
  2.  前記第3文字列が検索され、かつ前記第1文字列と前記第3文字列とが類似する場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する、
    請求項1に記載の方法。
  3.  ユーザの音声に対応して前記第1文字列の他に候補となる一または複数の候補文字列を選択可能に表示し、
     ユーザが前記一または複数の候補文字列の中から選択した場合に、選択された文字列を、前記第1文字列に対応付けて変換情報に登録する、
    請求項1に記載の方法。
  4.  ユーザの音声による入力の後、所定の時間内に、再度、ユーザの音声による入力を受付けた場合に、再度の入力の音声に対応する文字列を、最初の入力の音声に対応する前記第1文字列に対応付けて変換情報に登録する、
    請求項1に記載の方法。
  5.  前記第3文字列をネットワーク上の変換情報に送信し、変換情報から、前記第3文字列が登録されているか否かの判断結果を受信し、
     前記第3文字列が検索された場合に、前記第3文字列を、前記ネットワーク上の変換情報に送信する、
    請求項1に記載の方法。
  6.  ユーザの音声による入力を受け付ける入力部と、
     ユーザの音声に対応する第1文字列が変換情報に登録されている場合、前記変換情報において前記第1文字列に対応付けられた第2文字列を表示する表示部と、
     変換情報に前記第1文字列が登録されていない場合であって、ユーザの指示があった場合に、前記第1文字列を第3文字列とする編集を受け付ける編集部と、
     前記第3文字列が番組の情報から検索された場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する登録部と、
    を備えた電子機器。
  7.  前記登録部は、前記第3文字列が検索され、かつ前記第1文字列と前記第3文字列とが類似する場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する、
    請求項6に記載の電子機器。
  8.  変換情報を記憶する記憶部、
    をさらに備えた請求項6に記載の電子機器。
  9.  前記表示部は、ユーザの音声に対応して前記第1文字列の他に候補となる一または複数の候補文字列を選択可能に表示し、
     前記登録部は、ユーザが前記一または複数の候補文字列の中から選択した場合に、選択された文字列を、前記第1文字列に対応付けて変換情報に登録する、
    請求項6に記載の電子機器。
  10.  前記登録部は、ユーザの音声による入力の後、所定の時間内に、再度、ユーザの音声による入力を受付けた場合に、再度の入力の音声に対応する文字列を、最初の入力の音声に対応する前記第1文字列に対応付けて変換情報に登録する、
    請求項6に記載の電子機器。
  11.  前記第3文字列をネットワーク上の変換情報に送信し、変換情報から、前記第3文字列が登録されているか否かの判断結果を受信する通信部をさらに備え、
     前記変換部は、前記第3文字列が検索された場合に、前記第3文字列を、前記ネットワーク上の変換情報に送信する、
    請求項6に記載の電子機器。
  12.  ユーザの音声による入力を受け付け、
     ユーザの音声に対応する第1文字列が変換情報に登録されている場合、前記変換情報において前記第1文字列に対応付けられた第2文字列を表示し、
     変換情報に前記第1文字列が登録されていない場合であって、ユーザの指示があった場合に、前記第1文字列を第3文字列とする編集を受け付け、
     前記第3文字列が番組の情報から検索された場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する、
    ことをコンピュータに実行させるためのプログラム。
  13.  前記第3文字列が検索され、かつ前記第1文字列と前記第3文字列とが類似する場合に、前記第3文字列を、前記第1文字列に対応付けて変換情報に登録する、
    ことを前記コンピュータに実行させるための請求項12に記載のプログラム。
  14.  ユーザの音声に対応して前記第1文字列の他に候補となる一または複数の候補文字列を選択可能に表示し、
     ユーザが前記一または複数の候補文字列の中から選択した場合に、選択された文字列を、前記第1文字列に対応付けて変換情報に登録する、
    ことを前記コンピュータに実行させるための請求項12に記載のプログラム。
  15.  ユーザの音声による入力の後、所定の時間内に、再度、ユーザの音声による入力を受付けた場合に、再度の入力の音声に対応する文字列を、最初の入力の音声に対応する前記第1文字列に対応付けて変換情報に登録する、
    ことを前記コンピュータに実行させるための請求項12に記載のプログラム。
  16.  前記第3文字列をネットワーク上の変換情報に送信し、変換情報から、前記第3文字列が登録されているか否かの判断結果を受信し、
     前記第3文字列が検索された場合に、前記第3文字列を、前記ネットワーク上の変換情報に送信する、
    ことを前記コンピュータに実行させるための請求項12に記載のプログラム。
PCT/JP2013/075932 2013-09-25 2013-09-25 方法、電子機器およびプログラム WO2015045039A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015538686A JP5902359B2 (ja) 2013-09-25 2013-09-25 方法、電子機器およびプログラム
PCT/JP2013/075932 WO2015045039A1 (ja) 2013-09-25 2013-09-25 方法、電子機器およびプログラム
US14/846,640 US20150382070A1 (en) 2013-09-25 2015-09-04 Method, electronic device, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/075932 WO2015045039A1 (ja) 2013-09-25 2013-09-25 方法、電子機器およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/846,640 Continuation US20150382070A1 (en) 2013-09-25 2015-09-04 Method, electronic device, and computer program product

Publications (1)

Publication Number Publication Date
WO2015045039A1 true WO2015045039A1 (ja) 2015-04-02

Family

ID=52742246

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/075932 WO2015045039A1 (ja) 2013-09-25 2013-09-25 方法、電子機器およびプログラム

Country Status (3)

Country Link
US (1) US20150382070A1 (ja)
JP (1) JP5902359B2 (ja)
WO (1) WO2015045039A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109792502A (zh) * 2016-09-26 2019-05-21 索尼公司 信息处理设备、信息处理方法、程序和信息处理系统
JP2019204074A (ja) * 2018-05-21 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置及びシステム
JP2020043501A (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 機器制御システム
JP2020155976A (ja) * 2019-03-20 2020-09-24 東芝映像ソリューション株式会社 番組名検索支援装置、及び、番組名検索支援方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム
JP2003030205A (ja) * 2001-07-19 2003-01-31 Aruze Corp 放送データ記録再生装置
JP2005275228A (ja) * 2004-03-26 2005-10-06 Equos Research Co Ltd ナビゲーション装置
JP2008158511A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声データ検索用webサイトシステム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415257B1 (en) * 1999-08-26 2002-07-02 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
US7231343B1 (en) * 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム
JP2003030205A (ja) * 2001-07-19 2003-01-31 Aruze Corp 放送データ記録再生装置
JP2005275228A (ja) * 2004-03-26 2005-10-06 Equos Research Co Ltd ナビゲーション装置
JP2008158511A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声データ検索用webサイトシステム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109792502A (zh) * 2016-09-26 2019-05-21 索尼公司 信息处理设备、信息处理方法、程序和信息处理系统
CN109792502B (zh) * 2016-09-26 2021-11-19 索尼公司 信息处理设备、信息处理方法、存储介质和信息处理系统
JP2019204074A (ja) * 2018-05-21 2019-11-28 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法、装置及びシステム
JP2020043501A (ja) * 2018-09-12 2020-03-19 パナソニックIpマネジメント株式会社 機器制御システム
JP7182154B2 (ja) 2018-09-12 2022-12-02 パナソニックIpマネジメント株式会社 機器制御システム
JP2020155976A (ja) * 2019-03-20 2020-09-24 東芝映像ソリューション株式会社 番組名検索支援装置、及び、番組名検索支援方法
JP7202938B2 (ja) 2019-03-20 2023-01-12 Tvs Regza株式会社 番組名検索支援装置、及び、番組名検索支援方法

Also Published As

Publication number Publication date
JPWO2015045039A1 (ja) 2017-03-02
US20150382070A1 (en) 2015-12-31
JP5902359B2 (ja) 2016-04-13

Similar Documents

Publication Publication Date Title
JP6603754B2 (ja) 情報処理装置
US20200260127A1 (en) Interactive server, display apparatus, and control method thereof
JP6375521B2 (ja) 音声検索装置、音声検索方法、および表示装置
US10152965B2 (en) Learning personalized entity pronunciations
US9547716B2 (en) Displaying additional data about outputted media data by a display device for a speech search command
US9691381B2 (en) Voice command recognition method and related electronic device and computer-readable medium
JP6223744B2 (ja) 方法、電子機器およびプログラム
KR20130018464A (ko) 전자 장치 및 그의 제어 방법
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
JP2014532933A (ja) 電子装置及びその制御方法
JP2010524137A (ja) 第2言語モードを有する入力メソッドエディタ
JP5902359B2 (ja) 方法、電子機器およびプログラム
US11122349B2 (en) Server and system for controlling smart microphone
CN109792502B (zh) 信息处理设备、信息处理方法、存储介质和信息处理系统
JP2004334409A (ja) データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
JP2013137584A (ja) 電子機器、表示方法、およびプログラム
JP2018072508A (ja) 音声入力装置、音声入力方法
US20220375473A1 (en) Electronic device and control method therefor
KR102092058B1 (ko) 인터페이스 제공 방법 및 장치
WO2019069997A1 (ja) 情報処理装置、画面出力方法及びプログラム
WO2016136208A1 (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法
WO2015045119A1 (ja) 方法、電子機器およびプログラム
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP6296121B2 (ja) エミュレータ装置、プログラム及び表示方法
JP2009037433A (ja) ナンバーボイスブラウザ、およびナンバーボイスブラウザの制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13894109

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015538686

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13894109

Country of ref document: EP

Kind code of ref document: A1