WO2006137245A1 - 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 - Google Patents
音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 Download PDFInfo
- Publication number
- WO2006137245A1 WO2006137245A1 PCT/JP2006/310672 JP2006310672W WO2006137245A1 WO 2006137245 A1 WO2006137245 A1 WO 2006137245A1 JP 2006310672 W JP2006310672 W JP 2006310672W WO 2006137245 A1 WO2006137245 A1 WO 2006137245A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- display
- words
- voice
- input
- priority
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 36
- 230000010365 information processing Effects 0.000 title claims description 7
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 103
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0489—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- Voice recognition apparatus information processing apparatus, voice recognition method, voice recognition program, and recording medium
- the present invention relates to a speech recognition device, an information processing device, a speech recognition method, a speech recognition program, and a recording medium for recognizing spoken speech.
- the use of the present invention is not limited to the above-described voice recognition apparatus, information processing apparatus, voice recognition method, voice recognition program, and recording medium.
- a voice recognition technique for recognizing human voice input via a microphone or the like is known.
- voice recognition a voice input by the user is received, and word candidates corresponding to the voice input by the user are determined by matching processing with a preset standby word. Then, it is determined whether or not the word candidate includes a correct answer.
- the standby word is a word that is predicted to be spoken by the user in the situation (for example, see Patent Document 1 below).
- Patent Document 1 Japanese Patent Application Laid-Open No. 2004-46106
- the speech recognition apparatus is a display for displaying speech input means for inputting speech and a plurality of preset standby words.
- Means an operation input means for selecting any one of the plurality of standby words displayed by the display means, and the number of times each standby word is included in the voice input to the voice input means,
- a counting means for counting the number of times each of the standby words is selected by the operation input means, and a priority display among the plurality of standby words based on the number of times counted by the counting means.
- Extraction means for extracting priority display words
- display control means for preferentially displaying the priority display words extracted by the extraction means on the display means
- the priority table Giving priority to the waiting word other than the word
- a voice input to the voice input means characterized in that it comprises a voice recognition unit that identifies voice certification, the.
- an information processing apparatus includes a voice input means for inputting a voice, and a plurality of operation input means for executing any one of a plurality of functions of the apparatus.
- a counting means for counting the number of times the name of each function is included in the voice input to the voice input means and the number of times each function is executed by the operation input means; and the counting means Based on the counted number of times, a determination unit that determines a priority allocation function to be allocated to a position close to an operator among the plurality of operation input units, and the function other than the priority allocation function determined by the determination unit
- voice recognition means for recognizing voice input to the voice input means is provided.
- the speech recognition method includes a speech input step in which speech is input, a display step of displaying a plurality of preset standby words, and a plurality of displays displayed by the display step.
- a counting step for counting the number of times counted, and based on the number of times counted by the counting step.
- the speech recognition method includes a speech input step in which speech is input, an operation input step to execute any one of a plurality of functions, and the speech input step.
- a counting step for counting the number of times the name of each function is included in the input voice and the number of times each of the functions has been executed by the operation input step; and the count counted by the counting step.
- a decision step for deciding a priority assignment function to be allocated to a position close to the operator and a function other than the priority assignment function decided by the decision step are prioritized.
- a speech recognition step for recognizing the speech input in the speech input step.
- a voice recognition program according to the invention of claim 8 causes a computer to execute the voice recognition method according to claim 6 or 7.
- a recording medium according to the invention of claim 9 is readable by a computer on which the voice recognition program according to claim 8 is recorded.
- FIG. 1 is a block diagram showing a functional configuration of a speech recognition apparatus according to an embodiment.
- FIG. 2 is a flowchart showing a procedure of voice recognition processing by the voice recognition device.
- FIG. 3 is a block diagram of a hardware configuration of the navigation device according to the first embodiment.
- FIG. 4 is a flowchart showing a procedure for accepting a user setting operation by the navigation device.
- FIG. 5 is a diagram showing an example of a destination point setting screen.
- FIG. 6 is a chart showing an example of the number of times of selection of destination point candidates.
- FIG. 7 is a chart in which the destination point candidates shown in FIG. 6 are rearranged in descending order of selection frequency.
- FIG. 8 is a chart showing words registered in the speech recognition dictionary.
- FIG. 9 is a diagram showing an example of a destination point setting screen in consideration of recommended points.
- FIG. 10 is a diagram schematically showing a destination setting operation by a user.
- FIG. 11 is a flowchart showing a processing procedure of a user setting operation by the navigation device.
- FIG. 12 is a chart showing an example of the number of times a destination point candidate is selected.
- FIG. 13 is a diagram showing an example of a destination point setting screen in consideration of the number of selections by genre.
- FIG. 14 is a diagram showing an example of a destination point setting screen in consideration of the number of selections by genre.
- FIG. 15 is a diagram illustrating an external appearance of the navigation device according to the second embodiment.
- FIG. 16 is a diagram showing an example of function key function display.
- FIG. 17 is a diagram showing an example of function key function display.
- FIG. 18 is a chart showing an example of the frequency of use of each function and its ratio.
- FIG. 19 is a diagram showing function assignment to function keys in consideration of the usage ratio of each function.
- FIG. 20 is a chart showing words and phrases registered in the speech recognition dictionary for executing the function assigned to the function key.
- FIG. 1 is a block diagram showing a functional configuration of a speech recognition apparatus that works on the embodiment.
- a speech recognition device 100 that is emphasizing the embodiment includes a speech input unit 101, a display unit
- Voice input unit 101 receives a voice.
- the voice is input, for example, when the user speaks a predetermined phrase.
- Display unit 102 displays a plurality of standby words set in advance.
- the plurality of standby words set in advance are words that can be recognized by the speech recognition unit 107 described later, such as place names and operation instruction words for the device.
- the operation input unit 103 is provided for selecting any of a plurality of standby words displayed by the display unit 102.
- the operation input unit 103 is realized by, for example, a touch panel or operation buttons.
- the operation input unit 103 is a touch panel, the display unit 102 and the operation input unit 103 can be integrated.
- the counting unit 104 counts the number of times each standby word is included in the voice input to the voice input unit 101 and the number of times each standby word is selected by the operation input unit 103.
- the counting unit 104 may count the number of times for each genre to which the standby word belongs.
- the genre to which the standby word belongs is, for example, the type of the standby word (location name, operation instruction word, etc.) and the attribute of the facility (restaurant, playland, etc.).
- the extraction unit 105 Based on the number of times counted by the counting unit 104, the extraction unit 105 extracts a priority display word to be displayed preferentially from a plurality of standby words.
- the extraction unit 105 extracts, for example, standby words that are frequently counted by the counting unit 104 as priority display words. It should be noted that the number counted by the counting unit 104 is not a specific standby word extraction. Based on this, priority may be ranked for each standby word.
- the extracting unit 105 extracts standby words belonging to the genre having a large number of times measured by the counting unit 104 as priority display words.
- the display control unit 106 preferentially displays the priority display words extracted by the extraction unit 105 on the display unit 102.
- priority display is to display priority display words from the top of the screen in the descending order of the number of times or place them in a place where they can be viewed without scrolling.
- the speech recognition unit 107 recognizes speech input to the speech input unit 101 with priority on standby words other than priority display words.
- To give priority to a standby word other than the priority display word means, for example, that matching processing with the input speech is performed on the other standby words before the priority display word. If there are many standby words other than the priority display words, the priority order may be determined among them.
- FIG. 2 is a flowchart showing a procedure of voice recognition processing by the voice recognition device.
- the voice recognition device 100 counts the number of standby words input by the counting unit 104, which is input by the voice input unit 101 or input by the operation input unit 103 (step S201).
- the extraction unit 105 extracts priority display words to be displayed preferentially from the plurality of standby words (step S202).
- the display control unit 106 preferentially displays the priority display words extracted by the extraction unit 105 on the display unit 102 (step S203).
- step S204 No loop
- step S204 Yes
- step S205 the processing according to this flowchart ends.
- the processing efficiency of speech recognition processing can be improved by narrowing down standby words for speech recognition with priority.
- the priority of screen display is high. If there are no standby words, speech recognition is performed preferentially, and the complexity of operations when selecting these standby words can be avoided.
- FIG. 3 is a block diagram of a hardware configuration of the navigation device according to the first embodiment.
- a navigation device 300 is mounted on a vehicle, and includes a navigation control unit 301, a user operation unit 302, a display unit 303, a position acquisition unit 304, a recording medium 305, and a recording medium decoding unit.
- 306 a voice output unit 307, a communication unit 308, a route search unit 309, a route guidance unit 310, a guidance sound generation unit 311, and a voice recognition unit 312.
- the navigation control unit 301 controls the entire navigation device 300.
- the navigation control unit 301 includes, for example, a CPU (Central Processing Unit) that executes predetermined arithmetic processing, a ROM (Read Only Memory) that stores various control programs, and a RAM (Random) that functions as a work area for the CPU. It can be realized by a microcomputer constituted by an Access Memory).
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random
- the navigation control unit 301 inputs and outputs information related to route guidance between the route search unit 309, the route guidance unit 310, and the guidance sound generation unit 311, and obtains the result.
- the information is output to the display unit 303 and the audio output unit 307.
- the user operation unit 302 outputs information input by the user, such as characters, numerical values, and various instructions, to the navigation control unit 301.
- information input by the user such as characters, numerical values, and various instructions
- various known forms such as a touch panel configured integrally with a display unit 303 described later, a push button switch for detecting physical press Z non-press, a keyboard, and a joystick may be employed. Is possible.
- the user operation unit 302 includes a microphone 302a for inputting sound from the outside.
- the voice input from the microphone 302a is recognized by the voice recognition unit 312 described later. As a result, the user can perform an input operation by voice.
- the user operation unit 302 may be provided integrally with the navigation device 300. V, and may be configured to be operated separately from the navigation device 300 like a remote control.
- the user operation unit 302 may be configured in any one of the various forms described above, or may be configured in a plurality of forms.
- the user inputs information by appropriately performing an input operation according to the form of the user operation unit 302.
- the information input by the operation of the user operation unit 302 includes, for example, a destination point or a departure point of the route to be searched.
- Entering the destination or departure point is applicable by entering the latitude / longitude and address of each point, as well as specifying the telephone number, genre, keyword, etc. of the facility that will be the destination or departure point.
- the facility is searched and its location can be determined. More specifically, these pieces of information are specified as one point on the map based on background type data included in map information recorded on the recording medium 305 described later. Also, display map information on the display unit 303 described later, and specify a point on the displayed map.
- Display unit 303 includes, for example, a CRT (Cathode Ray Tube), a TFT liquid crystal display, an organic EL display, a plasma display, and the like.
- the display unit 303 can be configured by, for example, a video IZF or a video display device connected to the video IZF.
- the video IZF includes, for example, a graphic controller that controls the entire display device, a buffer memory such as VRAM (Video RAM) that temporarily stores image information that can be displayed immediately, and the power of the graphic controller. Based on the output image information, it is configured by a control IC that controls the display of the display device.
- the display unit 303 displays icons, cursors, menus, windows, or various information such as characters and images.
- the display unit 303 displays map information and route guidance information stored in a recording medium 305 to be described later.
- the position acquisition unit 304 includes a GPS receiver and various sensor forces, and acquires information on the current position of the apparatus main body (current position of the vehicle). In addition, when the position acquisition unit 304 enters a predetermined area such as an area where the GPS information received by the GPS receiver cannot be received, the GPS alternative information transmitted from the communication device provided in the area. To detect the current position of the vehicle. [0034]
- the GPS receiver receives GPS information transmitted from the GPS satellite force, and obtains a geometric position with respect to the GPS satellite.
- GPS is an abbreviation for Global Positioning System, and is a system that accurately determines the position on the ground by receiving radio waves from four or more satellites.
- the GPS receiver is composed of an antenna for receiving radio waves from a GPS satellite, a tuner for demodulating the received radio waves, and an arithmetic circuit for calculating the current position based on the demodulated information.
- the various sensors are various sensors mounted on the vehicle such as a vehicle speed sensor, an angular velocity sensor, a travel distance sensor, and an inclination sensor, and the travel locus of the vehicle is obtained from information output from these sensors.
- a vehicle speed sensor an angular velocity sensor
- a travel distance sensor a travel distance sensor
- an inclination sensor an inclination sensor
- the vehicle speed sensor detects from the output shaft of the transmission of the vehicle on which the navigation device 300 is mounted.
- the angular velocity sensor detects the angular velocity when the host vehicle is rotating, and outputs angular velocity information and relative orientation information.
- the mileage sensor calculates the number of pulses per rotation of the wheel by counting the number of pulses of a pulse signal with a predetermined period that is output as the wheel rotates, and the mileage information based on the number of pulses per rotation Is output.
- the inclination sensor detects the inclination angle of the road surface.
- the recording medium 305 records various control programs and various information in a state that can be read by a computer.
- the recording medium 305 accepts writing of information by the recording medium decoding unit 306 and records the written information in a nonvolatile manner.
- the recording medium 305 can be realized by, for example, an HD (Hard Disk).
- the recording medium 305 is not limited to HD. Instead of HD or in addition to HD, DVD (Digital Versatile Disk) and CD (Compact Disk) can be attached to and removed from the recording medium decoding unit 306.
- the recording medium 305 is not limited to DVD and CD. It can be attached to and detached from the recording medium decoding unit 306 such as CD-ROM (CD-R, CD-RW), MO (Magneto-Optical disk), and memory card. It is also possible to use a portable medium.
- the map information stored in the recording medium 305 includes features such as buildings, rivers, and the ground surface (feet )), And road shape data representing the shape of the road.
- the map information is recorded on the recording medium 305.
- the map information may be provided outside the navigation device 300, not the information recorded only in the one integrated with the hardware of the navigation device 300.
- the navigation device 300 acquires map information via the network through the communication unit 308, for example.
- the acquired map information is stored in RAM.
- the recording medium decoding unit 306 controls reading of information on the recording medium 305 and writing of Z.
- the recording medium decoding unit 306 is an HDD (Hard Disk Drive).
- the recording medium decoding unit 306 is a DVD drive or a CD drive.
- a CD-ROM (CD-R, CD-RW), MO, memory card, etc. is used as a writable and removable recording medium 30 5, information can be written to various recording media and various recording media can be used.
- a dedicated drive device capable of reading stored information is appropriately used as the recording medium decoding unit 306.
- the audio output unit 307 reproduces the guide sound by controlling the output to a connected speaker (not shown). There may be one or more speakers. Specifically, the audio output unit 307 can be realized by an audio IZF connected to an audio output speaker. More specifically, the audio IZF is, for example, a DZA converter that performs DZA conversion of audio digital information, an amplifier that amplifies the audio analog signal output from the DZ A converter, and AZD that converts audio analog information. A converter and force can be configured.
- the communication unit 308 acquires road traffic information such as traffic jams and traffic regulations regularly or irregularly.
- the communication unit 308 is connected to a network and is connected to a network such as a server. Send / receive information to / from other connected devices.
- Reception of road traffic information by the communication unit 308 may be performed at the timing when the road traffic information is distributed from the VICS (Vehicle Information and Communication System) center, or the road traffic information is periodically sent to the VICS center. It may be done on request.
- road traffic information in a desired area may be acquired via a network from nationwide VICS information collected in Sano.
- the communication unit 308 can be realized by, for example, an FM tuner, a VICS / beacon resino, a wireless communication device, and other communication devices.
- the route search unit 309 searches for an optimal route from the departure point to the destination point using map information stored in the recording medium 305, VICS information acquired via the communication unit 308, and the like. To do.
- the optimum route is a route that best meets the conditions specified by the user. In general, there are an infinite number of routes from a departure point to a destination point. For this reason, items to be considered in route search are set, and routes that match the conditions are searched.
- the route guidance unit 310 is obtained from the guidance route information searched by the route search unit 309, the vehicle position information acquired by the position acquisition unit 304, and the recording medium 305 via the recording medium decoding unit 300. Real-time route guidance information is generated based on the map information. The route guidance information generated at this time may be information that considers the traffic jam information received by the communication unit 308. The route guidance information generated by the route guidance unit 310 is output to the display unit 303 via the navigation control unit 301.
- the guide sound generator 311 generates tone and voice information corresponding to the pattern. That is, based on the route guidance information generated by the route guidance unit 310, the virtual sound source corresponding to the guidance point is set and the voice guidance information is generated, and the voice is transmitted via the navigation control unit 301. Output to the output unit 307.
- the voice recognition unit 312 recognizes voice inputted through the microphone 302a.
- the navigation control unit 301 performs processing corresponding to the recognized word. For example, when an utterance is made on the destination point setting screen and a place name is recognized by voice recognition, the navigation control unit 301 is recognized. Set the destination name as the destination point. The user can set the destination point by speaking the destination point name instead of specifying the destination point from the map displayed on the display unit 303. Thus, the voice recognition by the voice recognition unit 312 can be replaced with the operation performed by the user operation unit 302.
- a speech recognition dictionary that extracts time series information of spectrum and fundamental frequency as feature quantities of input speech and stores the pattern corresponding to each word.
- the frequency spectrum of the input speech is analyzed, and the phoneme is specified by comparing and collating with a phoneme model prepared in advance. Then, the identified phoneme model is compared with the pattern of each word stored in the speech recognition dictionary by pattern matching, and the similarity to each word is calculated. Next, the calculated similarity is the highest and the word (the pattern is closest, the word) is recognized as the input speech, and the word is output. That is, the input speech is determined by examining which word pattern is most similar to the frequency distribution pattern of the input word.
- the speech recognition unit 312 limits the number of words to be subjected to matching processing at a time in the speech recognition processing from the relationship with the processing time of the matching processing. As described above, the speech recognition unit 312 compares the frequency pattern of the input speech with the patterns of all the words stored in the speech recognition dictionary, and then calculates the similarity for each word. For this reason, the processing time can be shortened as the number of words registered in the speech recognition dictionary is small. However, if the registered word does not match the spoken word, misrecognitions and errors (no corresponding word) will occur frequently, resulting in poor usability.
- the speech recognition unit 312 sets a priority for speech recognition (hereinafter referred to as speech recognition priority and ⁇ ⁇ ) for each word, and based on the speech recognition priority! Is allocated.
- speech recognition priority and ⁇ ⁇ a priority for speech recognition
- dictionary power matching processing is performed in which words with high speech recognition priority are assigned.
- the efficiency of voice recognition processing can be improved while maintaining the accuracy of voice recognition.
- various factors can be considered as the elements for determining the speech recognition priority order set for the word. In the present embodiment, based on the number of times selected by speech recognition or an operation via the user operation unit 302. To set the speech recognition priority of the word. Generally, menus that are frequently used by users are displayed at the top.
- words frequently selected by the user are preferentially displayed on the display unit 303 so that the user operation unit 302 (such as a touch panel) can be easily operated.
- the display priority on the display unit 303 is lowered for words with a low selection frequency. Instead, set a higher voice recognition priority so that voice recognition can be performed preferentially.
- the priorities are determined in this way because it is easier to operate a word that is frequently selected with a touch panel or the like, and the merit of using voice recognition is small. For this reason, frequently selected words are set to have a high display priority and a low voice recognition priority. On the other hand, it is difficult to determine which genre is categorized! // and it is difficult to determine the genre of words that are selected infrequently. Such a word can be easily operated by selecting it by voice recognition. For this reason, a word with a low selection frequency is set to a high voice recognition priority while lowering the display priority. By making such settings, the voice recognition unit 312 improves the processing speed of voice recognition.
- the navigation apparatus 300 is configured by the hardware configuration as described above!
- the voice input unit 101 which is a functional configuration of the voice recognition device 100 that is relevant to the embodiment, has a microphone 302a, a display unit 102 has a display unit 303, an operation input unit 103 has a user operation unit 302, and a counting unit.
- 104, the extraction unit 105, and the display control unit 106 are realized by the navigation control unit 301, and the voice recognition unit 107 is realized by the voice recognition unit 312.
- FIG. 4 is a flowchart showing a procedure for accepting a user setting operation by the navigation device.
- the setting operation for the navigation device 300 can be performed by the voice recognition performed by the voice recognition unit 312 and the operation via the user operation unit 302.
- a case where a destination point is set will be described as an example.
- the navigation control unit 301 counts the number of selections for each destination point candidate (step S401).
- the destination point is set by selecting a facility with a registered attribute as a destination point candidate and selecting these destination point candidates.
- ramen shops are restaurants such as family restaurants, and retail stores such as supermarkets and bookstores.
- These destination point candidates are selected by pressing the facility name button displayed on the touch panel or by recognizing the user's speech.
- the facility shown on the map may be selected, or the previous destination point may be read out.
- the navigation control unit 301 waits for an instruction to display the destination point setting screen (step S 402: No loop). If there is an instruction to display the destination point setting screen (step S402: Yes), the recommendation is made. A point is extracted (step S403).
- the display instruction of the destination point setting screen is given when setting the destination point such as when searching for a route.
- the recommended point is a destination point candidate having a higher number of selections counted in step S401 (more specifically, a phrase indicating a destination point candidate having a higher number of selections).
- the voice recognition unit 312 ranks the destination point candidates according to the number of selections, and extracts the words with the highest number of selections. How many of the recommended points are extracted depends on the capacity of the dictionary for speech recognition described later.
- the speech recognition unit 312 converts the recommendation point extracted in step S403 into a second speech recognition dictionary (hereinafter referred to as "second dictionary”) and other destination point candidates (in more detail). Registers the other destination point candidates) in the first speech recognition dictionary (hereinafter referred to as “first dictionary”) (step S404).
- the first dictionary is a speech recognition dictionary that registers words with high speech recognition priority.
- the second dictionary is a dictionary for registering words with low voice recognition priority. In the speech recognition process, the matching process with the words registered in the first dictionary is performed first. If the corresponding phrase is found, the matching process with the words registered in the second dictionary is performed. It is.
- words may be assigned to more speech recognition dictionaries according to the number of selections. In particular, if there are a large number of words to be assigned, assigning them to many speech recognition dictionaries will result in one speech recognition dictionary. The number of registered words can be reduced.
- the navigation control unit 301 sets the recommendation point in the initial selection menu.
- Step S405 the destination point setting screen is displayed (Step S406).
- the initial selection menu is an item that is initially displayed as a destination candidate on the destination setting screen.
- There are many destination point candidates and the screen display becomes complicated when trying to display the screen at once. For this reason, recommendation points that are frequently selected as destination points are placed in the initial selection menu. For example, when all the destination point candidates are displayed using a scroll bar or the like, the recommendation information is displayed at the displayed position without scrolling. This makes it possible for the user to set the destination point with a simple operation while avoiding complicated screens.
- the navigation control unit 301 shifts to waiting for an operation input or voice input via the user operation unit 302 (step S407), and ends the processing according to this flowchart.
- the navigation device 300 accepts a user-friendly setting operation through the processing described above.
- FIG. 5 is a diagram showing an example of the destination point setting screen.
- a plurality of destination point candidate displays 521 to 526 are displayed on the display unit 303 so that a desired purpose can be selected.
- the display unit 303 is a touch panel.
- the destination point candidate can be set as the destination point.
- the destination point can also be set by recognizing the user's utterance.
- the destination candidate display 521 is “park”
- the destination candidate display 522 is “bookstore”
- the destination candidate display 523 is “supermarket”
- the destination candidate display 524 is “family restaurant”.
- the destination point candidate display 525 indicates “amusement park”
- the destination point candidate display 526 indicates “ramen restaurant”.
- a display area 501 indicated by a bold line is an area where the initial force is displayed when the destination point setting screen is displayed on the display unit 303.
- a display area 511 indicated by a dotted line is an area displayed on the display unit 303 when the screen is scrolled by pressing the scroll button 520 or the like.
- the screen display is prevented from being complicated by using the crawl display and the hierarchical display.
- the six points shown above are set as the destination point candidates.
- FIG. 6 is a chart showing an example of the number of times of selection of destination point candidates.
- the destination point candidate display 601 shows the destination point candidates in the order of the Japanese syllabary.
- the selection count display 602 indicates the number of times each destination point has been selected.
- the navigation control unit 301 counts the number of selections for each destination point candidate (see step S401 in FIG. 4).
- “park” is 12 times
- “bookstore” is 5 times
- “supermarket” is 34 times
- “family restaurant” is 43 times
- “amusement park” is 3 times
- “ramen shop” "Has been selected 65 times. The number of times of selection is counted regardless of whether the selection method is a force that is an operation input via the user operation unit 302 or a force that is a selection by voice recognition.
- FIG. 7 is a chart in which the destination point candidates shown in FIG. 6 are rearranged in descending order of selection frequency.
- the destination point candidate display 601 arranged in the order of 50 notes is the order of "Ramen shop”, “Family restaurant”, “Supermarket”, “Park”, “Bookstore”, “Amusement park” in descending order of selection. They are sorted in order. Of these, the destination points with the highest number of selections are extracted as recommendation points (see step S403 in FIG. 4). Here, the points with the top three selections are extracted as recommended points. That is, “ramen restaurant”, “family restaurant”, and “supermarket” are extracted. Then, the destination point candidates extracted as recommended points are registered in the second dictionary, and other destination point candidates are registered in the first dictionary (see step S404 in FIG. 4).
- FIG. 8 is a chart showing words registered in the speech recognition dictionary.
- the speech recognition dictionary 801 includes a first dictionary 802 and a second dictionary 803. Words having a high voice recognition priority are registered in the first dictionary 802, and words having a low voice recognition priority are registered in the second dictionary 803.
- the second dictionary 803 registers “ramen restaurant”, “family restaurant”, and “supermarket” extracted as recommendation points.
- the first dictionary 802 “park”, “bookstore”, and “amusement park” that are destination point candidates other than the recommended point are registered.
- FIG. 9 is a diagram showing an example of a destination point setting screen in consideration of recommended points.
- a display area 901 indicated by a bold line is an area that is displayed from the beginning when the destination point setting screen is displayed on the display unit 303.
- a display area 911 indicated by a dotted line is an area displayed on the display unit 303 by scrolling the screen by pressing the scroll button 920 or the like.
- destination point candidate displays 921 to 923 indicating “Ramen restaurant”, “Family restaurant”, and “Supermarket” as recommendation information are displayed.
- destination point candidate displays 924 to 926 indicating other destination point candidates such as “park”, “bookstore”, and “amusement park” are displayed. Is done.
- Display unit 303 is a touch panel, and when the name of the displayed destination point candidate is touched with a finger, the destination point candidate can be set as the destination point. For this reason, the user can set a recommendation point with many selections as a destination point without scrolling operation. Therefore, the destination point setting operation can be easily performed.
- FIG. 10 is a diagram schematically showing a destination setting operation by the user.
- the user 1001 selects the recommended point as the destination point
- the user 1001 presses the destination point candidate displays 921 to 923 shown in the display area 901 of the display unit 303 (arrow 1012).
- the user speaks the name of the facility, for example, “bookstore” (balloon 1011). Since “bookstores” that do not fall within the recommended locations are registered in the first dictionary 802, which has a high voice recognition priority, the time required for voice recognition processing can be reduced. It is also possible to select “bookstore” by scrolling the display of the display unit 303. It is also possible to select a recommendation point by voice recognition. In this case, since the matching process is performed using the second dictionary 803, the time required for the process is longer than the words registered in the first dictionary 802. Becomes longer.
- FIG. 11 is a flowchart showing a processing procedure for user setting operation by the navigation device.
- the navigation control unit 301 determines whether there has been an operation input of a destination point candidate via the user operation unit 302 (step S1101).
- the user operation unit 302 is a touch panel of the display unit 303, and the operation input indicates that the touch panel is touched. If there is an operation input (step S1101: Yes), the destination point candidate input by the operation is set as the destination point (step S1102), and the processing according to this flowchart ends.
- step S1101: No If the operation input is strong (step S1101: No), it is determined whether there is an audio input via the microphone 302a (step S1103). If the voice input is weak (step S1103: No), the process returns to step S1101 and waits for an input from the user. On the other hand, if there is a voice input (step S 1103: Yes), first, voice recognition is performed by matching processing with the first dictionary (step S 1104). Then, it is determined whether or not the input voice has been recognized by the matching process with the first dictionary (step S1105), and if it has been recognized (step S1105: Yes), the process proceeds to step S1108.
- step S1105 determines whether or not the input voice has been recognized by the matching process with the second dictionary. If it can be determined (step S1107: Yes), the recognized destination candidate is set as the destination point. Then (step S1108), the processing according to this flowchart is terminated.
- step S1107 No
- an error is displayed on the display unit 303! /, (Step S11 09)
- the process according to this flowchart is terminated.
- the error indication is, for example, a message that prompts a recurrence or a message that prompts a retry instead of another synonym.
- an error notification by voice may be used.
- the navigation apparatus 300 performs the user setting operation processing. Since the recommendation point is initially displayed on the force screen, the user can select it immediately by touch panel operation. In addition, destination candidates other than recommended points are not displayed on the screen, but are registered in the first dictionary with high voice recognition priority, and can be preferentially set by voice.
- FIG. 12 is a chart showing an example of the number of times of selection of destination point candidates.
- the destination point candidate display 1201 and the selection count display 1202 are the same as those shown in FIG.
- the genre attribute display 1203 indicates the genre to which each destination point candidate belongs.
- “park” and “amusement park” are “play spots”
- “bookstore” and “supermarket” are “retail stores”
- “family restaurants” and “ramen shops” are “restaurants”. , Each belongs.
- the destination point candidates are classified into genres based on their attributes, and it is possible to narrow down the genre power of the destination point candidates. For this reason, the genre to which the destination point candidate that is frequently selected as the destination point belongs is preferentially displayed, and the genre to which the destination point candidate that is selected as the destination point is low has a higher voice recognition priority. . As a result, the user can efficiently perform the destination setting operation.
- FIG. 13 is a diagram showing an example of the destination point setting screen in consideration of the number of selections by genre.
- the display unit 303 displays a selection screen 1301 for selecting a destination point from a genre, and genre displays 1321 to 1323 of the genre to which the destination point candidate belongs.
- the restaurant that is the most frequently selected genre is displayed at the top, followed by retail stores and play spots.
- a display screen is displayed on which facilities belonging to each genre are displayed.
- facilities belonging to each genre can be selected by direct voice recognition.
- FIG. 14 is a diagram showing an example of the destination point setting screen in consideration of the number of selections by genre. As shown in Fig. 13, in addition to selecting a destination facility from the genre, as shown in Fig. 14. Thus, even when all destination point candidates are displayed and selected, the number of selections by genre can be considered.
- a display area 1401 indicated by a bold line is an area in which the initial force at which the destination point setting screen is displayed on the display unit 303 is also displayed.
- a display area 1411 indicated by a dotted line is an area displayed on the display unit 303 by scrolling the screen by pressing a scroll button 1420 or the like.
- destination point candidates for “Ramen restaurant” and “Family restaurant” that belong to the genre “restaurant” with the highest number of selections are displayed. 1421, 1422 is displayed. Thereafter, in the display area 1411 that is not displayed unless the scroll button 1420 is pressed, destination point candidates 1423, “Supermarket” and “Bookstore” that belong to the genre “Retail”, which is the second most frequently selected, are displayed. 1424 is displayed. Below that, destination candidate display 1425 and 1426 of “park” and “amusement park” which are facilities belonging to the genre “Playland” with the smallest number of selections are displayed.
- facilities belonging to placepots such as "park” and "amusement park” are registered in the first dictionary of the speech recognition dictionary.
- facilities belonging to restaurants such as “Ramen restaurant” and “Family restaurant” and facilities belonging to retail stores such as “Supermarket” and “Bookstore” are registered.
- the facilities belonging to the frequently selected genre are preferentially displayed, so that the user can quickly set the frequently used facilities as the destination by operating the touch panel.
- facilities belonging to genres that are not so selected are displayed on the screen, but they have high voice recognition priority and are registered in the first dictionary, and can be preferentially set by voice.
- the destination The destination point can be set efficiently by changing the display priority and the voice recognition priority according to the number of points selected. Also, by displaying only destination point candidates that are frequently selected, the number of items to be displayed on the destination point setting screen can be reduced, and screen display can be performed efficiently.
- In-vehicle devices such as a navigation device have a node key physically provided in the main body. Some of these hard keys can be assigned freely according to the user's settings that are not assigned a specific symbol or function from the beginning. Hard keys are called function keys).
- function keys In the second embodiment, function assignment to function keys and voice recognition are combined to improve user operation efficiency. Note that the configuration of the navigation device according to the second embodiment is the same as that of the navigation device 300 according to the first embodiment shown in FIG. 3, and thus detailed description is omitted and the same reference numerals as those of the first embodiment are used. I will explain.
- FIG. 15 is an external view of the navigation device according to the second embodiment.
- the navigation device 300 includes a display unit 303 and a main unit 1500.
- the display unit 303 displays a navigation screen, a setting operation screen, and the like.
- Main unit 1500 accommodates components other than display unit 303 among the components of navigation device 300 shown in FIG.
- the main body 1500 is provided with function keys 1521 to 1525 to which functions can be assigned according to user settings, in addition to buttons whose functions are fixed, such as a power button 1511.
- functions related to audio can be assigned to function keys 1521 to 1525, and each function of “CD”, “TUNER”, “MD”, “HDD”, and “TAPE” is assigned to one of function keys 1521 to 1525. To do.
- the functions assigned to the function keys 1521 to 1525 can be executed by pressing the function keys 1521 to 1525 or by the user speaking the function name. User utterances are uttered by the voice recognition unit 312 (see Fig. 3) The recognized navigation controller 301 (see FIG. 3) performs the speech recognized function.
- FIG. 16 and FIG. 17 are diagrams showing examples of function key function display.
- the function keys 1521 to 1525 can display characters or images, and can indicate what functions the keys have.
- the function of each key is shown by the character display in FIG. 16 and by the image display in FIG.
- the function of the key may be output as a voice.
- the assignment of functions to the function keys 1521 to 1525 is determined by the execution frequency of each function.
- the operation target is more efficient near the operator, and there are fewer erroneous operations. For this reason, the frequently used functions are placed on the key (function key 1525 side) close to the driver (operator), and the infrequently used functions are placed on the key far from the operator (function key 1521 side). .
- FIG. 18 is a chart showing an example of the usage frequency of each function and its ratio.
- the assignment function display 1801 shows the functions that can be assigned to the function keys 1521 to 1525.
- the usage count display 1802 indicates the number of times each function has been used.
- the usage rate display 1803 shows the rate at which each function is used.
- CD is used 103 times, and the usage rate is 48%.
- TU NER is used 13 times, and the usage rate is 6%.
- MD is used 32 times and the usage rate is 15%.
- HDD has been used 57 times, with a usage rate of 27%.
- TAPE is used 8 times and the usage rate is 4%. From this, it can be seen that each function is used in the order of “CD” “HDD” “MD” “TUNER” “TAPE”.
- FIG. 19 is a diagram showing function assignment to function keys in consideration of the usage ratio of each function.
- the function keys 1525 closest to the operator are assigned in order of “CD”, “HDD”, “MD”, “TUNER”, and “TAPE” from the function key 1521 farthest to the operator.
- CD high density diode
- MD low density diode
- TUNER TUNER
- TAPE TAPE
- a function assigned to a function key (function key 1521 side) that is far from the driver's seat (a function that is less frequently used)
- the operation with the key is often complicated.
- the voice recognition priority is increased so that voice recognition can be performed efficiently.
- FIG. 20 is a chart showing words registered in the speech recognition dictionary for executing the function assigned to the function key.
- the speech recognition dictionary 2001 includes a first dictionary 2002 and a second dictionary 2003. Words with a high voice recognition priority are registered in the first dictionary 2002, and words with a low voice recognition priority are registered in the second dictionary 2003.
- the function registered in the first dictionary is assigned to a function key (function key 1521 side) that is far from the driver's seat, and is more likely to be executed by voice recognition than by key operation. Therefore, it is registered in the first dictionary where words with high voice recognition priority are registered.
- the functions registered in the second dictionary are assigned to function keys (function key 1525 side) close to the driver's seat, and are more likely to be executed by key operation than voice recognition. Therefore, it is registered in the second dictionary in which words / phrases with low voice recognition priority are registered. As a result, it is possible to preferentially recognize words and phrases for which speech recognition is performed, and to improve the processing efficiency of the speech recognition processing.
- the key position assigned to each function is determined according to the frequency of use of the function assigned to the function keys 1521-1525. Functions that are frequently used are assigned to keys that are close to the operator's power to facilitate key operations. In addition, for functions assigned to keys that are too far from the operator, voice recognition priority is increased and efficient voice recognition is performed. Thereby, the operability of the navigation device can be further improved.
- the speech recognition method described in this embodiment is a program prepared in advance. Can be realized by executing it on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, or a DVD, and is executed by being read by the computer.
- the program may be a transmission medium that can be distributed via a network such as the Internet.
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
音声入力部(101)は、音声が入力される。表示部(102)は、あらかじめ設定された複数の待ち受け語を表示する。操作入力部(103)は、表示部(102)によって表示された複数の待ち受け語のうちいずれかを選択するために設けられる。計数部(104)は、音声入力部(101)に入力された音声にそれぞれの待ち受け語が含まれた回数と、操作入力部(103)によってそれぞれの待ち受け語が選択された回数とを計数する。抽出部(105)は、計数部(104)によって計数された回数に基づいて、複数の待ち受け語のうち優先的に表示する優先表示語を抽出する。表示制御部(106)は、抽出部(105)によって抽出された優先表示語を表示部(102)に優先的に表示する。音声認識部(107)は、優先表示語以外の待ち受け語を優先して、音声入力部(101)に入力された音声を音声認識する。
Description
明 細 書
音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよ び記録媒体
技術分野
[0001] 本発明は、発話された音声を認識する音声認識装置、情報処理装置、音声認識方 法、音声認識プログラムおよび記録媒体に関する。ただし、本発明の利用は、上述し た音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒 体には限られない。
背景技術
[0002] 従来、マイクなどを介して入力された人間の音声を認識する音声認識技術が知ら れている。このような音声認識においては、ユーザによる音声入力を受け取り、あらか じめ設定された待ち受け単語とのマッチング処理により、ユーザによる音声入力に対 応する単語候補を決定する。そして、その単語候補中に正解が含まれるカゝ否かを判 定する。ここで、待ち受け単語とは、その状況においてユーザが発話するであろうと 予測される単語である(たとえば、下記特許文献 1参照。 ) o
[0003] 特許文献 1 :特開 2004— 46106号公報
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、上述した従来技術によれば、その状況においてユーザが発話するで あろうと予測される単語を全て待ち受け単語としなければならないという問題が一例と して挙げられる。音声認識は、入力された音声と待ち受け単語とのマッチング処理に よっておこなわれる。このため、音声認識の処理の速度を向上させるには、待ち受け 単語の数はなるべく少な 、ことが好ま U、。
[0005] また、音声認識は、操作ボタンやキー入力に代わる入力手段として用いられること が多ぐ待ち受け単語が表示画面上に表示される場合も多い。このような場合、多く の待ち受け単語を表示するために、表示画面上を待ち受け単語の表示によって占 有されてしまったり、表示画面上の文字が細力べ見づらくなつてしまうという問題が一
例として挙げられる。
課題を解決するための手段
[0006] 上述した課題を解決し、目的を達成するため、請求項 1の発明にかかる音声認識 装置は、音声が入力される音声入力手段と、あらかじめ設定された複数の待ち受け 語を表示する表示手段と、前記表示手段によって表示された複数の前記待ち受け語 のうちいずれかを選択するための操作入力手段と、前記音声入力手段に入力された 音声にそれぞれの前記待ち受け語が含まれた回数と、前記操作入力手段によって それぞれの前記待ち受け語が選択された回数とを計数する計数手段と、前記計数手 段によって計数された前記回数に基づいて、複数の前記待ち受け語のうち優先的に 表示する優先表示語を抽出する抽出手段と、前記抽出手段によって抽出された前記 優先表示語を前記表示手段に優先的に表示する表示制御手段と、前記優先表示語 以外の前記待ち受け語を優先して、前記音声入力手段に入力された音声を音声認 識する音声認識手段と、を備えることを特徴とする。
[0007] また、請求項 5の発明にかかる情報処理装置は、音声が入力される音声入力手段 と、装置が有する複数の機能のうちいずれか一つを実行するための複数の操作入力 手段と、前記音声入力手段に入力された音声にそれぞれの前記機能の名称が含ま れた回数と、前記操作入力手段によってそれぞれの前記機能が実行された回数とを 計数する計数手段と、前記計数手段によって計数された前記回数に基づいて、複数 の前記操作入力手段のうち操作者に近い位置に割り振る優先割振機能を決定する 決定手段と、前記決定手段によって決定された前記優先割振機能以外の前記機能 を優先して、前記音声入力手段に入力された音声を音声認識する音声認識手段と、 を備えることを特徴とする。
[0008] また、請求項 6の発明にかかる音声認識方法は、音声が入力される音声入力工程 と、あらかじめ設定された複数の待ち受け語を表示する表示工程と、前記表示工程 によって表示された複数の前記待ち受け語のうちいずれかを選択する操作入力工程 と、前記音声入力工程に入力された音声にそれぞれの前記待ち受け語が含まれた 回数と、前記操作入力工程によってそれぞれの前記待ち受け語が選択された回数と を計数する計数工程と、前記計数工程によって計数された前記回数に基づいて、複
数の前記待ち受け語のうち優先的に表示する優先表示語を抽出する抽出工程と、 前記抽出工程によって抽出された前記優先表示語を前記表示工程に優先的に表示 する表示制御工程と、前記優先表示語以外の前記待ち受け語を優先して、前記音 声入力工程に入力された音声を音声認識する音声認識工程と、を含むことを特徴と する。
[0009] また、請求項 7の発明にかかる音声認識方法は、音声が入力される音声入力工程 と、複数の機能のうちいずれか一つを実行させる操作入力工程と、前記音声入力ェ 程に入力された音声にそれぞれの前記機能の名称が含まれた回数と、前記操作入 力工程によってそれぞれの前記機能が実行された回数とを計数する計数工程と、前 記計数工程によって計数された前記回数に基づいて、複数の前記操作入力工程の うち操作者に近 、位置に割り振る優先割振機能を決定する決定工程と、前記決定ェ 程によって決定された前記優先割振機能以外の前記機能を優先して、前記音声入 力工程に入力された音声を音声認識する音声認識工程と、を含むことを特徴とする。
[0010] また、請求項 8の発明に力かる音声認識プログラムは、請求項 6または 7に記載の 音声認識方法をコンピュータに実行させることを特徴とする。
[0011] また、請求項 9の発明にかかる記録媒体は、請求項 8に記載の音声認識プログラム を記録したコンピュータに読み取り可能なことを特徴とする。
図面の簡単な説明
[0012] [図 1]図 1は、実施の形態に力かる音声認識装置の機能的構成を示すブロック図であ る。
[図 2]図 2は、音声認識装置による音声認識処理の手順を示すフローチャートである
[図 3]図 3は、実施例 1にかかるナビゲーシヨン装置のハードウェア構成を示すブロッ ク図である。
[図 4]図 4は、ナビゲーシヨン装置によるユーザ設定操作の受付手順を示すフローチ ヤートである。
[図 5]図 5は、目的地点設定画面の一例を示す図である。
[図 6]図 6は、目的地点候補の選択回数の一例を示す図表である。
[図 7]図 7は、図 6に示した目的地点候補を選択回数が多い順に並べ替えた図表で ある。
[図 8]図 8は、音声認識用辞書に登録された語句を示す図表である。
[図 9]図 9は、レコメンド地点を考慮した目的地点設定画面の一例を示す図である。
[図 10]図 10は、ユーザによる目的地点設定操作を模式的に示した図である。
[図 11]図 11は、ナビゲーシヨン装置によるユーザ設定操作の処理手順を示すフロー チャートである。
[図 12]図 12は、目的地点候補の選択回数の一例を示す図表である。
[図 13]図 13は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す 図である。
[図 14]図 14は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す 図である。
[図 15]図 15は、実施例 2にかかるナビゲーシヨン装置の外観を示す図である。
[図 16]図 16は、ファンクションキーの機能表示例を示す図である。
[図 17]図 17は、ファンクションキーの機能表示例を示す図である。
[図 18]図 18は、各機能の使用頻度とその割合の一例を示す図表である。
[図 19]図 19は、各機能の使用割合を考慮したファンクションキーへの機能割当を示 す図である。
[図 20]図 20は、ファンクションキーに割当られた機能の実行のための音声認識用辞 書に登録された語句を示す図表である。
符号の説明
100 音声認識装置
101 音声入力部
102 表示部
103 操作入力部
104 計数部
105 抽出部
106 表示制御部
107 音声認識部
発明を実施するための最良の形態
[0014] 以下に添付図面を参照して、この発明にかかる音声認識装置、情報処理装置、音 声認識方法、音声認識プログラムおよび記録媒体の好適な実施の形態を詳細に説 明する。
[0015] (実施の形態)
図 1は、実施の形態に力かる音声認識装置の機能的構成を示すブロック図である。 図 1において、実施の形態に力かる音声認識装置 100は、音声入力部 101、表示部
102、操作入力部 103、計数部 104、抽出部 105、表示制御部 106、音声認識部 10
7によって構成される。
[0016] 音声入力部 101は、音声が入力される。音声の入力は、たとえば、ユーザが所定の 語句を発話することによっておこなう。表示部 102は、あらかじめ設定された複数の待 ち受け語を表示する。あらかじめ設定された複数の待ち受け語とは、後述する音声 認識部 107によって音声認識可能な語句であり、たとえば、地名や装置に対する操 作指示語などである。
[0017] 操作入力部 103は、表示部 102によって表示された複数の待ち受け語のうちいず れかを選択するために設けられる。操作入力部 103は、たとえば、タツチパネルや操 作ボタンによって実現される。操作入力部 103がタツチパネルである場合は、表示部 102と操作入力部 103とは一体とすることができる。
[0018] 計数部 104は、音声入力部 101に入力された音声にそれぞれの待ち受け語が含ま れた回数と、操作入力部 103によってそれぞれの待ち受け語が選択された回数とを 計数する。また、計数部 104は、待ち受け語が属するジャンルごとに回数を計数する こととしてもよい。待ち受け語が属するジャンルとは、たとえば、待ち受け語の種類 (地 名、操作指示語など)や、施設の属性 (飲食店、プレイランドなど)である。
[0019] 抽出部 105は、計数部 104によって計数された回数に基づいて、複数の待ち受け 語のうち優先的に表示する優先表示語を抽出する。抽出部 105は、たとえば、計数 部 104によって計数された回数が多い待ち受け語を優先表示語として抽出する。な お、特定の待ち受け語を抽出するではなぐ計数部 104によって計数された回数に
基づいて、待ち受け語それぞれに対して優先度をランキングすることとしてもよい。ま た、計数部 104がジャンルごとに回数を計数している場合、抽出部 105は、計数部 1 04によって計測された回数が多いジャンルに属する待ち受け語を優先表示語として 抽出する。
[0020] 表示制御部 106は、抽出部 105によって抽出された優先表示語を表示部 102に優 先的に表示する。優先的に表示するとは、たとえば、優先表示語を回数が多い順に 画面の上部から表示する、あるいは、スクロール操作なしで視認できる場所に配置す るなどである。
[0021] 音声認識部 107は、優先表示語以外の待ち受け語を優先して、音声入力部 101に 入力された音声を音声認識する。優先表示語以外の待ち受け語を優先して、とは、 たとえば、入力された音声とのマッチング処理を、優先表示語より先にそれ以外の待 ち受け語に対しておこなうことである。なお、優先表示語以外の待ち受け語が多数あ る場合には、さらにそれらの中で優先順位を決めることとしてもよい。
[0022] 図 2は、音声認識装置による音声認識処理の手順を示すフローチャートである。音 声認識装置 100は、まず、計数部 104によって、音声入力部 101において音声入力 された、あるいは操作入力部 103において操作入力された、待ち受け語の入力回数 を計数する (ステップ S201)。つぎに、抽出部 105によって、複数の待ち受け語のう ち優先的に表示する優先表示語を抽出する (ステップ S202)。表示制御部 106は、 表示部 102に抽出部 105によって抽出された優先表示語を優先的に表示する (ステ ップ S 203)。
[0023] そして、音声入力があるまで待機し (ステップ S 204 : Noのループ)、音声入力があ つた場合は (ステップ S204 : Yes)、入力された音声に対して、優先表示語以外の待 ち受け語を優先して音声認識をおこない (ステップ S205)、本フローチャートによる処 理を終了する。
[0024] 以上説明したように、実施の形態に力かる音声認識装置 100によれば、優先して音 声認識する待ち受け語を絞ることによって、音声認識処理の処理効率を向上させる ことができる。また、待ち受け語の入力回数によって、優先して表示する待ち受け語 を抽出し、簡潔な画面表示をおこなうことができる。さらに、画面表示の優先度が高く
ない待ち受け語に関しては、優先的に音声認識をおこない、これらの待ち受け語を 選択する際の操作の煩雑さを回避することができる。
実施例 1
[0025] (ナビゲーシヨン装置 300のハードウェア構成)
図 3は、実施例 1にかかるナビゲーシヨン装置のハードウェア構成を示すブロック図 である。実施例 1では、実施の形態にかかる音声認識装置 100を、ナビゲーシヨン装 置 300の入力手段として用いる場合について説明する。図 3において、ナビゲーショ ン装置 300は、車両に搭載されており、ナビゲーシヨン制御部 301と、ユーザ操作部 302と、表示部 303と、位置取得部 304と、記録媒体 305と、記録媒体デコード部 30 6と、音声出力部 307と、通信部 308と、経路探索部 309と、経路誘導部 310と、案内 音生成部 311と、音声認識部 312と、によって構成される。
[0026] ナビゲーシヨン制御部 301は、ナビゲーシヨン装置 300全体を制御する。ナビゲー シヨン制御部 301は、たとえば所定の演算処理を実行する CPU (Central Process ing Unit)や、各種制御プログラムを格納する ROM (Read Only Memory)、お よび、 CPUのワークエリアとして機能する RAM (Random Access Memory)など によって構成されるマイクロコンピュータなどによって実現することができる。
[0027] また、ナビゲーシヨン制御部 301は、経路誘導に際し、経路探索部 309、経路誘導 部 310、案内音生成部 311との間で経路誘導に関する情報の入出力をおこない、そ の結果得られる情報を表示部 303および音声出力部 307へ出力する。
[0028] ユーザ操作部 302は、文字、数値、各種指示など、ユーザによって入力操作された 情報をナビゲーシヨン制御部 301に対して出力する。ユーザ操作部 302の構成とし ては、後述する表示部 303と一体として構成されるタツチパネル、物理的な押下 Z非 押下を検出する押ボタンスィッチ、キーボード、ジョイスティックなど公知の各種形態 を採用することが可能である。
[0029] また、ユーザ操作部 302は、外部からの音声を入力するマイク 302aを備える。マイ ク 302aから入力された音声は、後述する音声認識部 312によって音声認識される。 これにより、ユーザは音声によって入力操作をおこなうことができる。
[0030] ユーザ操作部 302は、ナビゲーシヨン装置 300に対して一体に設けられていてもよ
V、し、リモコンのようにナビゲーシヨン装置 300から分離して操作可能な形態であって もよい。ユーザ操作部 302は、上述した各種形態のうちいずれか単一の形態で構成 されていてもよいし、複数の形態で構成されていてもよい。ユーザは、ユーザ操作部 302の形態に応じて、適宜入力操作をおこなうことによって情報を入力する。ユーザ 操作部 302の操作によって入力される情報としては、たとえば、探索する経路の目的 地点または出発地点が挙げられる。
[0031] 目的地点または出発地点の入力は、それぞれの地点の緯度 ·経度や住所を入力 する他、目的地点または出発地点となる施設の電話番号やジャンル、キーワードなど を指定することによって、該当する施設が探索され、その位置を特定することができる 。より詳細には、これらの情報は、後述する記録媒体 305に記録された地図情報に含 まれる背景種別データに基づいて、地図上の一点として特定される。また、後述する 表示部 303に地図情報を表示させ、表示された地図上の一点を指定するようにして ちょい。
[0032] 表示部 303は、たとえば、 CRT (Cathode Ray Tube)、 TFT液晶ディスプレイ、 有機 ELディスプレイ、プラズマディスプレイなどを含む。表示部 303は、具体的には 、たとえば、映像 IZFや映像 IZFに接続された映像表示用のディスプレイ装置によ つて構成することができる。映像 IZFは、具体的には、たとえば、ディスプレイ装置全 体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に 記憶する VRAM (Video RAM)などのバッファメモリと、グラフィックコントローラ力ら 出力される画像情報に基づ 、て、ディスプレイ装置を表示制御する制御 ICなどによ つて構成される。表示部 303には、アイコン、カーソル、メニュー、ウィンドウ、あるいは 文字や画像などの各種情報が表示される。また、表示部 303には、後述する記録媒 体 305に記憶された地図情報や経路誘導に関する情報が表示される。
[0033] 位置取得部 304は、 GPSレシーバおよび各種センサ力 構成され、装置本体の現 在位置(車両の現在位置)の情報を取得する。また、位置取得部 304は、 GPSレシ ーバが受信する GPS情報を受信できない領域など、所定の領域に入った際には、そ の領域内に設けられた通信機から送信される GPS代替情報を受信して、車両の現 在位置を検出する。
[0034] GPSレシーバは、 GPS衛星力 送信される GPS情報を受信し、 GPS衛星との幾何 学的位置を求める。なお、 GPSとは、 Global Positioning Systemの略称であり、 4つ以上の衛星からの電波を受信することによって地上での位置を正確に求めるシ ステムである。 GPSレシーバは、 GPS衛星からの電波を受信するためのアンテナ、受 信した電波を復調するチューナーおよび復調した情報に基づいて現在位置を算出 する演算回路などによって構成される。
[0035] 各種センサは、車速センサや角速度センサ、走行距離センサ、傾斜センサなど自 車に搭載された各種センサであり、これらのセンサから出力される情報から、自車の 走行軌跡を求める。このように、 GPSレシーバによって外部力 得られた情報と合わ せて、自車に搭載された各種センサの出力する情報を用いることによって、より高い 精度で自車位置の認識をおこなうことができる。
[0036] 車速センサは、ナビゲーシヨン装置 300を搭載する車両のトランスミッションの出力 側シャフトから検出する。角速度センサは、自車の回転時の角速度を検出し、角速度 情報と相対方位情報とを出力する。走行距離センサは、車輪の回転に伴って出力さ れる所定周期のパルス信号のパルス数をカウントすることによって車輪 1回転当たり のパルス数を算出し、その 1回転当たりのパルス数に基づく走行距離情報を出力す る。傾斜センサは、路面の傾斜角度を検出する。
[0037] 記録媒体 305は、各種制御プログラムや各種情報をコンピュータに読み取り可能な 状態で記録する。記録媒体 305は、記録媒体デコード部 306による情報の書き込み を受け付けるとともに、書き込まれた情報を不揮発に記録する。記録媒体 305は、た とえば、 HD (Hard Disk)によって実現することができる。記録媒体 305は、 HDに 限るものではなぐ HDに代えて、あるいは、 HDに加えて、 DVD (Digital Versatil e Disk)や CD (Compact Disk)など、記録媒体デコード部 306に対して着脱可能 であり可搬性を有するメディアを記録媒体 305として用いてもょ 、。記録媒体 305は、 DVDおよび CDに限るものではなぐ CD— ROM (CD— R, CD-RW) , MO (Mag neto- Optical disk)、メモリカードなどの記録媒体デコード部 306に対して着脱可 能であり可搬性を有するメディアを利用することもできる。
[0038] 記録媒体 305に記憶された地図情報は、建物、河川、地表面などの地物(フィーチ
ャ)を表す背景データと、道路の形状を表す道路形状データとを有しており、表示部
303の表示画面にお!、て 2次元または 3次元に描画される。ナビゲーシヨン装置 300 が経路誘導中の場合は、記録媒体 305に記録された地図情報と位置取得部 304に よって取得された自車位置とが重ねて表示されることとなる。
[0039] なお、本実施例では地図情報を記録媒体 305に記録するようにしたが、これに限る ものではない。地図情報は、ナビゲーシヨン装置 300のハードウェアと一体に設けら れているものに限って記録されているものではなぐナビゲーシヨン装置 300外部に 設けられていてもよい。その場合、ナビゲーシヨン装置 300は、たとえば、通信部 308 を通じて、ネットワークを介して地図情報を取得する。取得された地図情報は RAMな どに記憶される。
[0040] 記録媒体デコード部 306は、記録媒体 305に対する情報の読み取り Z書き込みの 制御をおこなう。たとえば、記録媒体として HDを用いた場合には、記録媒体デコード 部 306は、 HDD (Hard Disk Drive)となる。同様に、記録媒体として DVDあるい は CD (CD— R, CD— RWを含む)を用いた場合には、記録媒体デコード部 306は、 DVDドライブある 、は CDドライブとなる。書き込み可能かつ着脱可能な記録媒体 30 5として、 CD— ROM (CD— R, CD— RW)、 MO、メモリカードなどを利用する場合 には、各種記録媒体への情報の書き込みおよび各種記録媒体に記憶された情報の 読み出しが可能な専用のドライブ装置を、記録媒体デコード部 306として適宜用いる
[0041] 音声出力部 307は、接続されたスピーカ(図示なし)への出力を制御することによつ て、案内音を再生する。スピーカは、 1つであってもよいし、複数であってもよい。具体 的には、音声出力部 307は、音声出力用のスピーカに接続される音声 IZFによって 実現することができる。より具体的には、音声 IZFは、たとえば、音声デジタル情報の DZA変換をおこなう DZAコンバータと、 DZ Aコンバータから出力される音声アナ ログ信号を増幅する増幅器と、音声アナログ情報の AZD変換をおこなう AZDコン バータと、力ら構成することができる。
[0042] 通信部 308は、渋滞や交通規制などの道路交通情報を、定期的あるいは不定期に 取得する。また、通信部 308は、ネットワークと接続され、サーバなどネットワークに接
続された他の機器と情報の送受信をおこなう。
[0043] 通信部 308による道路交通情報の受信は、 VICS (Vehicle Information and Communication System)センターから道路交通情報が配信されたタイミングで 行ってもよいし、 VICSセンターに対し定期的に道路交通情報を要求することで行つ てもよい。また、サーノ に集約された全国の VICS情報から、所望の地域の道路交通 情報をネットワークを介して取得するようにしてもよい。通信部 308は、たとえば、 FM チューナー、 VICS/ビーコンレシーノ 、無線通信機器、およびその他の通信機器 によって実現することが可能である。
[0044] 経路探索部 309は、記録媒体 305に記憶されている地図情報や、通信部 308を介 して取得する VICS情報などを利用して、出発地点から目的地点までの最適な経路 を探索する。ここで、最適な経路とは、ユーザが指定した条件に最も合致する経路で ある。一般に、出発地点から目的地点までの経路は無数存在する。このため、経路 探索にあたって考慮される事項を設定し、条件に合致する経路を探索するようにして いる。
[0045] 経路誘導部 310は、経路探索部 309によって探索された誘導経路情報、位置取得 部 304によって取得された自車位置情報、記録媒体 305から記録媒体デコード部 3 06を経由して得られた地図情報に基づいて、リアルタイムな経路誘導情報の生成を おこなう。このとき生成される経路誘導情報は、通信部 308によって受信した渋滞情 報を考慮したものであってもよい。経路誘導部 310で生成された経路誘導情報は、 ナビゲーシヨン制御部 301を介して表示部 303へ出力される。
[0046] 案内音生成部 311は、パターンに対応したトーンと音声の情報を生成する。すなわ ち、経路誘導部 310で生成された経路誘導情報に基づいて、案内ポイントに対応し た仮想音源の設定と音声ガイダンス情報の生成をおこな 、、ナビゲーシヨン制御部 3 01を介して音声出力部 307へ出力する。
[0047] 音声認識部 312は、マイク 302aを介して入力された音声を音声認識する。音声認 識部 312によって音声が認識されると、ナビゲーシヨン制御部 301は認識された言葉 に対応した処理をおこなう。たとえば、目的地点の設定画面において発話がおこなわ れ、音声認識によって地名が認識されると、ナビゲーシヨン制御部 301は、認識され
た地名を目的地点として設定する。ユーザは、表示部 303に表示された地図から目 的地点を指定する代わりに、目的地点名を発話することによって、目的地点を設定 することができる。このように、音声認識部 312による音声認識によって、ユーザ操作 部 302によっておこなう操作に代えることができる。
[0048] ここで、音声認識の手法は様々なものが知られている力 一般には、入力された音 声を特定するために、あらかじめ認識対象となる音声の周波数分布を分析することで 、たとえば、スペクトルや基本周波数の時系列情報などを入力音声の特徴量として抽 出し、そのパターンを各単語に対応させて格納する音声認識用辞書を備えている。
[0049] 認識されるべき音声が入力されると、入力された音声の周波数スペクトルを解析し、 あらかじめ用意されている音素モデルとの比較 ·照合によって音素を特定する。そし て、特定された音素モデルと、音声認識用辞書に格納された各単語のパターンをパ ターンマッチングにより比較照合し、各単語に対する類似度を算出する。つぎに算出 された類似度が最も高 、単語 (パターンが最も近 、単語)を、入力された音声である と認識し、その単語を出力するようにしている。つまり、入力された単語の周波数分布 のパターンがどの単語パターンに最も類似して 、るかを調べることによって、入力音 声を判定する。
[0050] 音声認識部 312は、マッチング処理の処理時間との関係から、音声認識処理にお いて一時にマッチング処理をおこなう単語数を限定している。上述のように、音声認 識部 312は、入力された音声の周波数パターンと音声認識用辞書に格納された全て の各単語のパターンを比較照合した上で、各単語に対する類似度を算出する。この ため、音声認識用辞書に登録されている単語数が少ないほど、処理時間を短縮する ことができる。ただし、登録された単語が発話された単語と一致しなければ、誤認識 やエラー (該当単語なし)が多発し、返って使い勝手が悪くなつてしまう。
[0051] そこで、音声認識部 312は、単語ごとに音声認識における優先順位 (以下、音声認 識優先順位と ヽぅ)を設定し、音声認識優先順位に基づ!ヽて複数の辞書に単語を割 り振る。音声認識処理をおこなう際は、音声認識優先順位が高い単語が割り振られ た辞書力 マッチング処理をおこなう。これにより、音声認識の精度を維持しつつ音 声認識処理の効率ィ匕を図ることができる。
[0052] ここで、単語に設定する音声認識優先順位を決定する要素は、様々なものが考え られる力 本実施例では、音声認識またはユーザ操作部 302を介した操作によって 選択された回数に基づいて、その単語の音声認識優先順位を設定する。一般に、ュ 一ザの使用頻度の高いメニューは上位に表示するなどがおこなわれている。このよう にユーザが頻繁に選択する単語は、表示部 303に優先的に表示して、ユーザ操作 部 302 (タツチパネルなど)による操作をおこない易くする。一方で、選択頻度が少な い単語は、表示部 303への表示優先度は低くする。その代わりに、音声認識優先度 を高く設定し、優先的に音声認識をおこなえるようにする。
[0053] このように優先順位を決定するのは、頻繁に選択する単語はタツチパネルなどによ つてすぐに選択できる方が操作が容易であり、敢えて音声認識を使うメリットは小さい 。このため、頻繁に選択する単語は、表示優先度は高くする一方で、音声認識優先 度は低く設定する。逆に、選択頻度が少ない単語は、どのようなジャンルにカテゴライ ズされて!/ヽるか判断しづら!/、場合が多く、設定画面の表示カゝら探すことが困難である 。このような単語は、音声認識によって選択した方が操作を容易にすることができる。 このため、選択頻度が少ない単語は、表示優先度を低くする一方で、音声認識優先 度を高く設定する。このような設定をおこなうことによって、音声認識部 312は音声認 識の処理速度の向上を図っている。
[0054] 以上のようなハードウェア構成によってナビゲーシヨン装置 300は構成されて!、る。
なお、実施の形態に力かる音声認識装置 100の機能的構成である音声入力部 101 はマイク 302aが、表示部 102は表示部 303が、操作入力部 103はユーザ操作部 30 2が、計数部 104、抽出部 105、表示制御部 106は、ナビゲーシヨン制御部 301が、 音声認識部 107は音声認識部 312が、それぞれその機能を実現する。
[0055] (ユーザ設定操作の受付手順)
図 4は、ナビゲーシヨン装置によるユーザ設定操作の受付手順を示すフローチヤ一 トである。前述のように、ナビゲーシヨン装置 300に対する設定操作は、音声認識部 3 12によっておこなう音声認識およびユーザ操作部 302を介した操作によっておこなう ことができる。ナビゲーシヨン装置 300に対する設定操作は様々なものがあるが、ここ では目的地点の設定をおこなう場合を例として説明する。
[0056] まず、ナビゲーシヨン制御部 301は、目的地点候補ごとの選択回数をカウントしてい る (ステップ S401)。ここで、目的地点は、あらかじめ登録された属性の施設を目的地 点候補とし、これらの目的地点候補を選択することによって設定するものとする。あら 力じめ登録された属性の施設とは、たとえば、ラーメン屋ゃファミリーレストランなどの 飲食店や、スーパーマーケット、書店などの小売店などである。これらの目的地点候 補の選択は、タツチパネル上に表示された施設名ボタンを押下したり、ユーザの発話 を音声認識することによっておこなう。また、たとえば、地図上に示された施設を選択 したり、前回の目的地点を読み出すなどしてもよい。
[0057] ナビゲーシヨン制御部 301は、目的地点設定画面の表示指示を待って (ステップ S 402: Noのループ)、目的地点設定画面の表示指示があった場合は (ステップ S402 : Yes)、レコメンド地点を抽出する (ステップ S403)。目的地点設定画面の表示指示 は、経路探索時など目的地点を設定する際におこなわれる。また、レコメンド地点とは 、ステップ S401においてカウントしている選択回数が上位の目的地点候補 (より詳細 には選択回数が上位の目的地点候補を示す語句)である。音声認識部 312は、目的 地点候補を選択回数によって順位付けして、選択回数が上位の単語を抽出する。レ コメンド地点を上位何位までを抽出するかは後述する音声認識用辞書の容量に依存 する。
[0058] つぎに、音声認識部 312は、ステップ S403で抽出されたレコメンド地点を第 2の音 声認識用辞書 (以下、「第 2辞書」という)に、その他の目的地点候補 (より詳細には、 その他の目的地点候補を示す語句)を第 1の音声認識用辞書 (以下、「第 1辞書」と いう)に登録する (ステップ S404)。ここで、第 1辞書は、音声認識優先度が高い語句 を登録する音声認識用辞書である。また、第 2辞書は、音声認識優先度が低い語句 を登録する辞書である。音声認識処理においては、まず、第 1辞書に登録された語 句とのマッチング処理がおこなわれ、該当する語句がな力つた場合は、第 2辞書に登 録された語句とのマッチング処理がおこなわれる。
[0059] なお、ここでは音声認識用辞書を 2つにしたが、選択回数に応じて、さらに多くの音 声認識用辞書に単語を割り振ることとしてもよい。特に、割り振るべき単語が大量にあ る場合は、多くの音声認識用辞書に割り振ることによって、 1つの音声認識用辞書に
登録される単語数を少なくすることができる。
[0060] 続いて、ナビゲーシヨン制御部 301は、レコメンド地点を初期選択メニューに設定し
(ステップ S405)、目的地点設定画面を表示する (ステップ S406)。初期選択メ-ュ 一とは、目的地点設定画面において、目的地点候補として最初に表示される項目で ある。目的地点候補は数多く存在し、一度に画面表示しょうとすると画面表示が煩雑 となる。このため、目的地点として選択される回数が多いレコメンド地点を初期選択メ ニューに置く。たとえば、スクロールバーなどを用いて全ての目的地点候補を表示す る場合は、スクロールしなくても表示される位置にレコメンド情報を表示する。これによ り、画面が煩雑になることを回避しつつ、ユーザに簡易な操作で目的地点の設定を おこなわせることができる。
[0061] そして、ナビゲーシヨン制御部 301は、ユーザ操作部 302を介した操作入力または 音声入力待ちに移行し (ステップ S407)、本フローチャートによる処理を終了する。 以上のような処理によって、ナビゲーシヨン装置 300はユーザ力もの設定操作を受け 付ける。
[0062] 図 5は、目的地点設定画面の一例を示す図である。表示部 303には、複数の目的 地点候補表示 521〜526が表示され、所望の目的を選択できるようになつている。表 示部 303はタツチパネルとなっており、表示された目的地点候補の名称を指で触れ ると、その目的地点候補が目的地点に設定できるようになつている。なお、目的地点 の設定は、ユーザの発話を音声認識することによつても可能である。図示の例では、 目的地点候補表示 521は「公園」を、目的地点候補表示 522は「書店」を、目的地点 候補表示 523は「スーパーマーケット」を、目的地点候補表示 524は「ファミリーレスト ラン」を、目的地点候補表示 525は「遊園地」を、目的地点候補表示 526は「ラーメン 屋」を、それぞれ示している。これらの項目は、当初、たとえば 50音順に配置されて いる。
[0063] 太線で示した表示領域 501は、目的地点設定画面が表示部 303上に表示される 当初力 表示される領域である。一方、点線で示した表示領域 511は、スクロールボ タン 520を押下するなどによって画面スクロールをおこなうことによって表示部 303に 表示される領域である。一般に、目的地点候補は相当数存在するため、このようなス
クロール表示や階層表示を用いて画面表示が煩雑になるのを防いでいる。なお、以 下では説明の便宜上、上記に示した 6つの地点(目的地点候補表示 521〜526に示 された地点)を目的地点候補とする。
[0064] 図 6は、目的地点候補の選択回数の一例を示す図表である。図 6の図表において 、目的地点候補表示 601には、目的地点候補が 50音順に示されている。また、選択 回数表示 602には、それぞれの目的地点が選択された回数が示されている。前述の ように、ナビゲーシヨン制御部 301は、目的地点候補ごとの選択回数をカウントしてい る(図 4のステップ S401参照)。
[0065] 図示の例では、「公園」は 12回、「書店」は 5回、「スーパーマーケット」は 34回、「フ アミリーレストラン」は 43回、「遊園地」は 3回、「ラーメン屋」は 65回、それぞれ選択さ れている。この選択回数は、その選択がおこなわれた方法が、ユーザ操作部 302を 介した操作入力である力 音声認識による選択である力を問わずカウントして!/、る。
[0066] 図 7は、図 6に示した目的地点候補を選択回数が多い順に並べ替えた図表である。
図 6では 50音順に配置されていた目的地点候補表示 601は、選択回数が多い順に 、 「ラーメン屋」、「ファミリーレストラン」、 「スーパーマーケット」、「公園」、「書店」、「遊 園地」の順に並べ替えられている。このうち、選択回数が上位の目的地点が、レコメン ド地点として抽出される(図 4のステップ S403参照)。ここでは、選択回数が上位 3位 の地点をレコメンド地点として抽出するものとする。すなわち、「ラーメン屋」、「ファミリ 一レストラン」、「スーパーマーケット」を抽出する。そして、レコメンド地点として抽出さ れた目的地点候補を第 2辞書に、その他の目的地点候補を第 1辞書に登録する(図 4のステップ S404参照)。
[0067] 図 8は、音声認識用辞書に登録された語句を示す図表である。音声認識用辞書 80 1には、第 1辞書 802および第 2辞書 803がある。第 1辞書 802には音声認識優先度 が高い語句が登録され、第 2辞書 803には音声認識優先度が低い語句が登録され る。図示の例では、第 2辞書 803には、レコメンド地点として抽出された「ラーメン屋」、 「ファミリーレストラン」、 「スーパーマーケット」が登録されている。一方、第 1辞書 802 には、レコメンド地点以外の目的地点候補である「公園」、「書店」、「遊園地」が登録 されている。
[0068] 図 9は、レコメンド地点を考慮した目的地点設定画面の一例を示す図である。太線 で示した表示領域 901は、目的地点設定画面が表示部 303上に表示される当初か ら表示される領域である。一方、点線で示した表示領域 911は、スクロールボタン 92 0を押下するなどによって画面スクロールをおこなうことによって表示部 303に表示さ れる領域である。
[0069] 図示のように、当初力も表示される表示領域 901には、レコメンド情報である「ラーメ ン屋」、「ファミリーレストラン」、 「スーパーマーケット」を示す目的地点候補表示 921 〜923が表示される。一方で、スクロールボタン 920を押下しなければ表示されない 表示領域 911には、その他の目的地点候補である「公園」、「書店」、「遊園地」を示 す目的地点候補表示 924〜926が表示される。
[0070] 表示部 303はタツチパネルとなっており、表示された目的地点候補の名称を指で触 れると、その目的地点候補が目的地点に設定できる。このため、ユーザは、選択回数 が多いレコメンド地点を、スクロール操作なしで目的地点として設定することができる 。このため、目的地点の設定操作を容易におこなうことができる。
[0071] 図 10は、ユーザによる目的地点設定操作を模式的に示した図である。ユーザ 100 1は、レコメンド地点を目的地点に選択する際には、表示部 303の表示領域 901に示 された目的地点候補表示 921〜923を押下する (矢印 1012)。また、レコメンド情報 以外の目的地点候補を選択する際には、その施設名称、たとえば「書店」などと発話 する(吹き出し 1011)。レコメンド地点に該当しない「書店」は、音声認識優先度が高 い第 1辞書 802に登録されているため、音声認識処理に要する時間を短縮すること ができる。なお、表示部 303の表示をスクロールすることによって、「書店」を選択する ことも可能である。また、レコメンド地点を音声認識によって選択することも可能である 力 この場合は、第 2辞書 803を用いてマッチング処理をおこなうため、第 1辞書 802 に登録されている語句に比べ、処理に要する時間が長くなる。
[0072] 図 11は、ナビゲーシヨン装置によるユーザ設定操作の処理手順を示すフローチヤ ートである。なお、以下も図 4同様に、目的地点の設定をおこなう場合を例として説明 する。まず、ナビゲーシヨン制御部 301は、ユーザ操作部 302を介して目的地点候補 の操作入力があつたかを判断する (ステップ S1101)。前述の例では、ユーザ操作部
302は表示部 303のタツチパネルであり、操作入力はタツチパネルが触れられたこと を示す。操作入力があった場合は (ステップ S1101 :Yes)、操作入力された目的地 点候補を目的地点として設定して (ステップ S 1102)、本フローチャートによる処理を 終了する。
[0073] また、操作入力がな力つた場合は (ステップ S1101 :No)、マイク 302aを介した音 声入力があつたかを判断する (ステップ S 1103)。音声入力がな力つた場合は (ステツ プ S1103 :No)、ステップ S1101に戻り、ユーザからの入力を待つ。一方、音声入力 があった場合は (ステップ S 1103 : Yes)、まず、第 1辞書とのマッチング処理によって 音声認識をおこなう(ステップ S1104)。そして、第 1辞書とのマッチング処理によって 入力された音声の認識ができたかを判断し (ステップ S1105)、認識できた場合は (ス テツプ S 1105 : Yes)、ステップ S 1108に移行する。
[0074] 一方、認識ができな力つた場合は (ステップ S1105 :No)、第 2辞書とのマッチング 処理によって音声認識をおこなう (ステップ S1106)。そして、第 2辞書とのマッチング 処理によって入力された音声の認識ができたかを判断し (ステップ S 1107)、判断で きた場合は (ステップ S1107: Yes)、認識した目的地点候補を目的地点に設定して ( ステップ S1108)、本フローチャートによる処理を終了する。
[0075] 一方、第 2辞書とのマッチング処理によっても入力された音声の認識ができなかつ た場合は(ステップ S 1107: No)、表示部 303にエラー表示をおこな!/、(ステップ S 11 09)、本フローチャートによる処理を終了する。エラー表示は、たとえば、再発話を促 すものや、他の同義語に代えて再試行を促すものなどである。また、表示部 303への 表示に限らず、たとえば、音声によるエラー報知であってもよい。
[0076] 以上のような処理によって、ナビゲーシヨン装置 300はユーザ設定操作の処理をお こなう。レコメンド地点は、当初力 画面上に表示されるため、ユーザはタツチパネル 操作によってすぐに選択することができる。また、レコメンド地点以外の目的地点候補 は、画面上に表示はされていないものの、音声認識優先度が高い第 1辞書に登録さ れており、音声による設定を優先的におこなうことができる。
[0077] なお、これまでの説明では、各目的地点候補の選択回数に基づ 、てレコメンド地点 を抽出したが、これに限らず、たとえば、各目的地点候補が属するジャンルごとの選
択回数に基づ!/、てレコメンド地点を抽出してもよ!/、。
[0078] 図 12は、目的地点候補の選択回数の一例を示す図表である。目的地点候補表示 1201および選択回数表示 1202は、図 6に示したものと同様である。ジャンル属性表 示 1203は、それぞれの目的地点候補が属するジャンルを示している。図示の例で は、「公園」および「遊園地」は「プレイスポット」に、「書店」および「スーパーマーケット 」は「小売店」に、「ファミリーレストラン」および「ラーメン屋」は「飲食店」に、それぞれ 属している。
[0079] また、「プレイスポット」に属する施設(「公園」および「遊園地」)が選択された回数の 合計は 12 + 3 = 15回である。「小売店」に属する施設(「書店」および「スーパーマー ケット」 )が選択された回数の合計は 5 + 34 = 39回である。「飲食店」に属する施設(「 ファミリーレストラン」および「ラーメン屋」)が選択された回数の合計は 43 + 65 = 108 回である。これから、飲食店に属する施設が最も多く選択され、続いて小売店、プレイ スポットに属する施設が選択されていることがわかる。
[0080] 一般に、目的地点候補は、その属性に基づ 、てジャンル分けされており、目的地 点候補をジャンル力も絞り込むことも可能である。このため、目的地点として選択され る回数が多い目的地点候補が属するジャンルを優先的に表示させ、目的地点として 選択される回数が少ない目的地点候補が属するジャンルは、音声認識優先度を高 める。これにより、ユーザに対して目的地点の設定操作を効率的におこなわせること ができる。
[0081] 図 13は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図で ある。表示部 303には、ジャンルから目的地点を選択する選択画面 1301が表示され 、目的地点候補が属するジャンルのジャンル表示 1321〜1323が表示されている。 前述のように、最も多く選択されているジャンルである飲食店が、先頭に表示され、続 いて小売店、プレイスポットが表示されている。それぞれのジャンル表示 1321〜132 3を押下すると、それぞれのジャンルに属する施設が表示される表示画面に移行する 。また、各ジャンルに属する施設を直接音声認識によって選択することもできる。
[0082] 図 14は、ジャンル別の選択回数を考慮した目的地点設定画面の一例を示す図で ある。図 13に示すようにジャンルから目的地点候補の施設を選択する他、図 14に示
すように全ての目的地点候補を表示させて選択する場合でもジャンル別の選択回数 を考慮することができる。
[0083] 太線で示した表示領域 1401は、目的地点設定画面が表示部 303上に表示される 当初力も表示される領域である。一方、点線で示した表示領域 1411は、スクロール ボタン 1420を押下するなどによって画面スクロールをおこなうことによって表示部 30 3に表示される領域である。
[0084] 図示のように、当初力も表示される表示領域 1401には、選択回数が最も多いジャ ンル「飲食店」に属する施設である「ラーメン屋」および「ファミリーレストラン」の目的地 点候補表示 1421, 1422が表示される。以降、スクロールボタン 1420を押下しなけ れば表示されない表示領域 1411にかけては、 2番目に選択回数が多いジャンル「小 売店」に属する施設である「スーパーマーケット」および「書店」の目的地点候補表示 1423, 1424が表示される。そして、さらにその下には、選択回数が最も少ないジャ ンル「プレイランド」に属する施設である「公園」および「遊園地」の目的地点候補表示 1425, 1426力表示される。
[0085] このような場合、音声認識用辞書の第 1辞書には、「公園」「遊園地」などプレイスポ ットに属する施設が登録される。また、第 2辞書には、「ラーメン屋」「ファミリーレストラ ン」など飲食店に属する施設および「スーパーマーケット」「書店」など小売店に属す る施設が登録される。
[0086] このように、頻繁に選択されるジャンルに属する施設は優先的に表示することによつ て、ユーザはタツチパネル操作によって、頻繁に利用する施設を素早く目的地点とし て設定することができる。また、あまり選択されないジャンルに属する施設は、画面上 に表示はされて 、な 、ものの、音声認識優先度が高 、第 1辞書に登録されており、 音声による設定を優先的におこなうことができる。特に、あまり利用しない施設は、ど のようなジャンルに属するか不明な場合があり、画面表示の階層を迪るよりも、音声認 識によって選択した方が効率的な場合が多い。このような音声認識によって入力され る可能性が高い語句を優先的に音声認識することによって、音声認識処理を効率的 におこなうことができる。
[0087] 以上説明したように、実施例 1にかかるナビゲーシヨン装置 300によれば、目的地
点の選択回数によって、表示優先度および音声認識優先度を変化させることによつ て、効率的に目的地点の設定をおこなうことができる。また、選択回数が多い目的地 点候補のみを表示することによって、目的地点設定画面に表示する項目を少なくし、 画面表示を効率的におこなうことができる。
実施例 2
[0088] 実施例 1では、表示部 303および音声認識を用いた目的地点の設定に関する実施 例を説明した。実施例 2では、ハードキーに対する機能割当に関する実施例を説明 する。ナビゲーシヨン装置などの車載器は、本体部に物理的に設けられたノヽードキー を備えている。これらのハードキーは、最初から特定の記号や機能が割り当てられて いるわけではなぐユーザによる設定などによって、それぞれが必要とする機能を自 由に割り当てることができるものがある(以下、このようなハードキーをファンクションキ 一という)。実施例 2では、ファンクションキーへの機能割当と音声認識を組み合わせ て、ユーザ操作の効率ィ匕を図る。なお、実施例 2にかかるナビゲーシヨン装置の構成 は、図 3に示した実施例 1にかかるナビゲーシヨン装置 300と同様であるので、詳細な 説明を省略し、実施例 1と同様の符号を用いて説明する。
[0089] 図 15は、実施例 2にかかるナビゲーシヨン装置の外観を示す図である。ナビゲーシ ヨン装置 300は、表示部 303および本体部 1500から構成される。表示部 303には、 ナビゲーシヨン画面や設定操作画面などが表示される。本体部 1500には、図 3に示 したナビゲーシヨン装置 300の構成部のうち、表示部 303以外のものが収納されてい る。
[0090] 本体部 1500には、電源ボタン 1511のように、その機能が固定したボタンの他、ュ 一ザの設定によって機能を割当可能なファンクションキー 1521〜1525が設けられ ている。ファンクションキー 1521〜1525には、たとえば、オーディオに関する機能を 割当可能であり、「CD」「TUNER」「MD」「HDD」「TAPE」の各機能をいずれかの ファンクションキー 1521〜1525に割り振るものとする。
[0091] また、ファンクションキー 1521〜1525に割当られた各機能の実行は、ファンクショ ンキー 1521〜1525を押下する他、ユーザがその機能名称を発話することによって おこなうこともできる。ユーザによる発話は、音声認識部 312 (図 3参照)によって音声
認識され、ナビゲーシヨン制御部 301 (図 3参照)は、音声認識された機能を実行する
[0092] 図 16および図 17は、ファンクションキーの機能表示例を示す図である。ファンクショ ンキー 1521〜1525は、文字表示または画像表示が可能であり、そのキーがどのよ うな機能を有するかを示すことができる。図 16では文字表示によって、図 17では画 像表示によって、それぞれのキーの機能を示している。また、この他、ファクションキ 一 1521〜1525に指を近づけるとそのキーの機能を音声出力するようにしてもよい。
[0093] 各ファンクションキー 1521〜1525への機能の割当は、各機能の実行頻度によつ て決定される。一般に、操作対象は操作者に近い位置の方が効率的であり、誤操作 なども少ない。このため、使用頻度が高い機能は、運転者 (操作者)に近いキー (ファ ンクシヨンキー 1525側)に、使用頻度が低い機能は、操作者に遠いキー(ファンクシ ヨンキー 1521側)に、それぞれ配置する。
[0094] 図 18は、各機能の使用頻度とその割合の一例を示す図表である。図 18の図表に おいて、割当機能表示 1801には、ファンクションキー 1521〜1525に割当可能な機 能が示されている。また、使用回数表示 1802には、それぞれの機能が使用された回 数が示されている。さらに、使用割合表示 1803には、それぞれの機能が使用された 割合が示されている。
[0095] 図示の例では、「CD」の使用回数は 103回であり、使用割合は 48%である。「TU NER」の使用回数は 13回であり、使用割合は 6%である。「MD」の使用回数は 32回 であり、使用割合は 15%である。「HDD」の使用回数は 57回であり、使用割合は 27 %である。「TAPE」の使用回数は 8回であり、使用割合は 4%である。これから、各機 能は「CD」「HDD」「MD」「TUNER」「TAPE」の順に使用されていることがわかる。
[0096] 図 19は、各機能の使用割合を考慮したファンクションキーへの機能割当を示す図 である。操作者に最も近いファンクションキー 1525から、操作者に最も遠いファンク シヨンキー 1521に向かって、「CD」「HDD」「MD」「TUNER」「TAPE」の順に割り 振られている。これにより、ユーザが頻繁に使用する機能が割当られたキーを操作者 に近い位置に設定し、これらの機能を使用する際の操作性を向上させることができる
[0097] 一方で、運転席力も遠いファンクションキー(ファンクションキー 1521側)に割当ら れた機能 (使用頻度が低い機能)を使用する際には、キーによる操作は煩雑となる場 合が多い。このような場合、ユーザは音声認識によってそれらの機能を実行すること が多いと考えられる。このため、運転席から遠いファンクションキーに割当られた機能 (使用頻度が低い機能)に関しては、音声認識優先度を上げ、効率的に音声認識を おこなえるようにする。
[0098] 図 20は、ファンクションキーに割当られた機能の実行のための音声認識用辞書に 登録された語句を示す図表である。音声認識用辞書 2001には、第 1辞書 2002およ び第 2辞書 2003がある。第 1辞書 2002には音声認識優先度が高い語句が登録さ れ、第 2辞書 2003には音声認識優先度が低い語句が登録される。図示の例では、 第 1辞書 2002には、使用頻度が低い機能である「MD」「TUNER」「TAPE」が登録 されている。一方、第 2辞書 2003には、使用頻度が低い機能である「CD」「HDD」が 登録されている。
[0099] 第 1辞書に登録された機能は、運転席力も遠いファンクションキー(ファンクションキ 一 1521側)に割当られており、キー操作よりも音声認識によって実行される可能性が 高い。このため、音声認識優先度が高い語句が登録される第 1辞書に登録する。ま た、第 2辞書に登録された機能は、運転席から近いファンクションキー (ファンクション キー 1525側)に割当られており、音声認識よりもキー操作によって実行される可能性 が高い。このため、音声認識優先度が低い語句が登録される第 2辞書に登録する。こ れにより、音声認識がおこなわれる語句を優先的に音声認識することができ、音声認 識処理の処理効率の向上を図ることができる。
[0100] 以上説明したように、実施例 2にかかるナビゲーシヨン装置 300によれば、ファンク シヨンキー 1521〜 1525に割当られる機能の使用頻度によって、各機能に割当るキ 一の位置を決定する。そして、使用頻度が高い機能は操作者力 近いキーに割当て 、キー操作をおこない易くする。また、操作者力も遠いキーに割当られた機能に関し ては、音声認識優先度を高め、効率的な音声認識をおこなう。これにより、ナビゲー シヨン装置の操作性をより向上させることができる。
[0101] なお、本実施の形態で説明した音声認識方法は、あらかじめ用意されたプログラム
をパーソナル.コンピュータやワークステーション等のコンピュータで実行することによ り実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、 C D— ROM、 MO、 DVD等のコンピュータで読み取り可能な記録媒体に記録され、コ ンピュータによって記録媒体力 読み出されることによって実行される。またこのプロ グラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体で あってもよい。
Claims
[1] 音声が入力される音声入力手段と、
あらかじめ設定された複数の待ち受け語を表示する表示手段と、
前記表示手段によって表示された複数の前記待ち受け語のうちいずれかを選択す るための操作入力手段と、
前記音声入力手段に入力された音声にそれぞれの前記待ち受け語が含まれた回 数と、前記操作入力手段によってそれぞれの前記待ち受け語が選択された回数とを 計数する計数手段と、
前記計数手段によって計数された前記回数に基づいて、複数の前記待ち受け語 のうち優先的に表示する優先表示語を抽出する抽出手段と、
前記抽出手段によって抽出された前記優先表示語を前記表示手段に優先的に表 示する表示制御手段と、
前記優先表示語以外の前記待ち受け語を優先して、前記音声入力手段に入力さ れた音声を音声認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
[2] 前記抽出手段は、前記計数手段によって計数された前記回数が多い前記待ち受 け語を前記優先表示語として抽出することを特徴とする請求項 1に記載の音声認識 装置。
[3] 前記計数手段は、前記待ち受け語が属するジャンルごとに前記回数を計数し、 前記抽出手段は、前記計数手段によって計測された前記回数が多いジャンルに属 する前記待ち受け語を前記優先表示語として抽出することを特徴とする請求項 1に 記載の音声認識装置。
[4] 前記操作入力手段は、タツチパネルであり、
前記表示制御手段は、前記優先表示語を前記回数が多 、順に表示することを特 徴とする請求項 1〜3のいずれか一つに記載の音声認識装置。
[5] 音声が入力される音声入力手段と、
装置が有する複数の機能のうちいずれか一つを実行するための複数の操作入力 手段と、
前記音声入力手段に入力された音声にそれぞれの前記機能の名称が含まれた回 数と、前記操作入力手段によってそれぞれの前記機能が実行された回数とを計数す る計数手段と、
前記計数手段によって計数された前記回数に基づいて、複数の前記操作入力手 段のうち操作者に近い位置に割り振る優先割振機能を決定する決定手段と、 前記決定手段によって決定された前記優先割振機能以外の前記機能を優先して、 前記音声入力手段に入力された音声を音声認識する音声認識手段と、
を備えることを特徴とする情報処理装置。
[6] 音声が入力される音声入力工程と、
あらかじめ設定された複数の待ち受け語を表示する表示工程と、
前記表示工程によって表示された複数の前記待ち受け語のうちいずれかを選択す る操作入力工程と、
前記音声入力工程に入力された音声にそれぞれの前記待ち受け語が含まれた回 数と、前記操作入力工程によってそれぞれの前記待ち受け語が選択された回数とを 計数する計数工程と、
前記計数工程によって計数された前記回数に基づ 、て、複数の前記待ち受け語 のうち優先的に表示する優先表示語を抽出する抽出工程と、
前記抽出工程によって抽出された前記優先表示語を前記表示工程に優先的に表 示する表示制御工程と、
前記優先表示語以外の前記待ち受け語を優先して、前記音声入力工程に入力さ れた音声を音声認識する音声認識工程と、
を含むことを特徴とする音声認識方法。
[7] 音声が入力される音声入力工程と、
複数の機能のうちいずれか一つを実行させる操作入力工程と、
前記音声入力工程に入力された音声にそれぞれの前記機能の名称が含まれた回 数と、前記操作入力工程によってそれぞれの前記機能が実行された回数とを計数す る計数工程と、
前記計数工程によって計数された前記回数に基づいて、複数の前記操作入力ェ
程のうち操作者に近い位置に割り振る優先割振機能を決定する決定工程と、 前記決定工程によって決定された前記優先割振機能以外の前記機能を優先して、 前記音声入力工程に入力された音声を音声認識する音声認識工程と、
を含むことを特徴とする音声認識方法。
[8] 請求項 6または 7に記載の音声認識方法をコンピュータに実行させることを特徴とす る音声認識プログラム。
[9] 請求項 8に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記 録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06746950A EP1895508B1 (en) | 2005-06-21 | 2006-05-29 | Speech recognizing device, information processing device, speech recognizing method, program, and recording medium |
DE602006017368T DE602006017368D1 (de) | 2005-06-21 | 2006-05-29 | Spracherkennungseinrichtung, informationsverarbeitungseinrichtung, spracherkennungsverfahren, programm und aufzeichnungsmedium |
JP2007522223A JP4682199B2 (ja) | 2005-06-21 | 2006-05-29 | 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005181064 | 2005-06-21 | ||
JP2005-181064 | 2005-06-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2006137245A1 true WO2006137245A1 (ja) | 2006-12-28 |
Family
ID=37570279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2006/310672 WO2006137245A1 (ja) | 2005-06-21 | 2006-05-29 | 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1895508B1 (ja) |
JP (1) | JP4682199B2 (ja) |
DE (1) | DE602006017368D1 (ja) |
WO (1) | WO2006137245A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005802T5 (de) | 2010-08-09 | 2013-05-16 | Mitsubishi Electric Corporation | Informationsverarbeitungseinheit |
JPWO2016002406A1 (ja) * | 2014-07-04 | 2017-04-27 | クラリオン株式会社 | 車載対話型システム、及び車載情報機器 |
JP2020166729A (ja) * | 2019-03-29 | 2020-10-08 | 京セラドキュメントソリューションズ株式会社 | 表示制御装置、表示制御方法、及び表示制御プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2589299B2 (ja) * | 1987-01-28 | 1997-03-12 | 富士通株式会社 | 単語音声認識装置 |
JP2000222689A (ja) * | 1999-02-01 | 2000-08-11 | Equos Research Co Ltd | 車両制御装置 |
JP2002318597A (ja) * | 2001-02-15 | 2002-10-31 | Alpine Electronics Inc | 音声入力案内方法及び装置 |
JP2003044074A (ja) * | 2001-07-27 | 2003-02-14 | Canon Inc | 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム |
JP2003241784A (ja) * | 2002-02-21 | 2003-08-29 | Nissan Motor Co Ltd | 音声入出力装置 |
JP2004046106A (ja) | 2002-05-15 | 2004-02-12 | Pioneer Electronic Corp | 音声認識装置及び音声認識プログラム |
JP2005123964A (ja) * | 2003-10-17 | 2005-05-12 | Sharp Corp | 機器の調整メニュー表示方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1672886A3 (en) * | 1998-03-05 | 2014-08-13 | Cliff Island LLC | Portable terminal |
US20020077830A1 (en) * | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
-
2006
- 2006-05-29 WO PCT/JP2006/310672 patent/WO2006137245A1/ja active Application Filing
- 2006-05-29 JP JP2007522223A patent/JP4682199B2/ja not_active Expired - Fee Related
- 2006-05-29 EP EP06746950A patent/EP1895508B1/en not_active Not-in-force
- 2006-05-29 DE DE602006017368T patent/DE602006017368D1/de active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2589299B2 (ja) * | 1987-01-28 | 1997-03-12 | 富士通株式会社 | 単語音声認識装置 |
JP2000222689A (ja) * | 1999-02-01 | 2000-08-11 | Equos Research Co Ltd | 車両制御装置 |
JP2002318597A (ja) * | 2001-02-15 | 2002-10-31 | Alpine Electronics Inc | 音声入力案内方法及び装置 |
JP2003044074A (ja) * | 2001-07-27 | 2003-02-14 | Canon Inc | 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム |
JP2003241784A (ja) * | 2002-02-21 | 2003-08-29 | Nissan Motor Co Ltd | 音声入出力装置 |
JP2004046106A (ja) | 2002-05-15 | 2004-02-12 | Pioneer Electronic Corp | 音声認識装置及び音声認識プログラム |
JP2005123964A (ja) * | 2003-10-17 | 2005-05-12 | Sharp Corp | 機器の調整メニュー表示方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP1895508A4 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005802T5 (de) | 2010-08-09 | 2013-05-16 | Mitsubishi Electric Corporation | Informationsverarbeitungseinheit |
US9002715B2 (en) | 2010-08-09 | 2015-04-07 | Mitsubishi Electric Corporation | Information processor |
JPWO2016002406A1 (ja) * | 2014-07-04 | 2017-04-27 | クラリオン株式会社 | 車載対話型システム、及び車載情報機器 |
JP2020166729A (ja) * | 2019-03-29 | 2020-10-08 | 京セラドキュメントソリューションズ株式会社 | 表示制御装置、表示制御方法、及び表示制御プログラム |
JP7268449B2 (ja) | 2019-03-29 | 2023-05-08 | 京セラドキュメントソリューションズ株式会社 | 表示制御装置、表示制御方法、及び表示制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4682199B2 (ja) | 2011-05-11 |
EP1895508A4 (en) | 2009-12-16 |
EP1895508A1 (en) | 2008-03-05 |
EP1895508B1 (en) | 2010-10-06 |
JPWO2006137245A1 (ja) | 2009-01-08 |
DE602006017368D1 (de) | 2010-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2245609B1 (en) | Dynamic user interface for automated speech recognition | |
US7310602B2 (en) | Navigation apparatus | |
US20140168130A1 (en) | User interface device and information processing method | |
JP2005214961A (ja) | ナビゲーション装置、ナビゲーションシステムおよびナビゲーション方法 | |
JP2005292970A (ja) | 施設検索装置、プログラム、ナビゲーション装置、及び施設検索方法 | |
JP2006195576A (ja) | 車載音声認識装置 | |
JP2001034399A (ja) | 数字キーによる中国語住所入力方法 | |
WO2006137246A1 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP4682199B2 (ja) | 音声認識装置、情報処理装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5455355B2 (ja) | 音声認識装置及びプログラム | |
JP4196137B2 (ja) | 目的地設定装置 | |
JP4381632B2 (ja) | ナビゲーションシステムおよびその目的地入力方法 | |
JP2011232668A (ja) | 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法 | |
JP3762191B2 (ja) | 情報入力方法、情報入力装置及び記憶媒体 | |
JP4705398B2 (ja) | 音声案内装置、音声案内装置の制御方法及び制御プログラム | |
JP4471618B2 (ja) | 項目検索装置及び項目検索方法 | |
JPH11325945A (ja) | 車載用ナビゲーション装置 | |
JP2017182251A (ja) | 解析装置 | |
WO2006028171A1 (ja) | データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体 | |
JP2006178898A (ja) | 地点検索装置 | |
JP2003140682A (ja) | 音声認識装置及び音声辞書作成方法 | |
JPH06175688A (ja) | 音声認識装置 | |
JP4645708B2 (ja) | コード認識装置および経路探索装置 | |
JP2011080824A (ja) | ナビゲーション装置 | |
JP5895878B2 (ja) | 入力支援システム、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2007522223 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2006746950 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |