WO2011030817A1 - 情報検索装置,情報検索方法及びナビゲーションシステム - Google Patents

情報検索装置,情報検索方法及びナビゲーションシステム Download PDF

Info

Publication number
WO2011030817A1
WO2011030817A1 PCT/JP2010/065502 JP2010065502W WO2011030817A1 WO 2011030817 A1 WO2011030817 A1 WO 2011030817A1 JP 2010065502 W JP2010065502 W JP 2010065502W WO 2011030817 A1 WO2011030817 A1 WO 2011030817A1
Authority
WO
WIPO (PCT)
Prior art keywords
vocabulary
unit
input
recognition vocabulary
character string
Prior art date
Application number
PCT/JP2010/065502
Other languages
English (en)
French (fr)
Inventor
本間 健
浩明 小窪
佳幸 水野
Original Assignee
クラリオン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クラリオン株式会社 filed Critical クラリオン株式会社
Priority to CN2010800399276A priority Critical patent/CN102549652B/zh
Priority to US13/395,080 priority patent/US8949133B2/en
Priority to EP10815412.1A priority patent/EP2477186B1/en
Publication of WO2011030817A1 publication Critical patent/WO2011030817A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Definitions

  • the present invention relates to an information search apparatus, an information search method, and a navigation system, and more particularly, to an information search apparatus, an information search method, and a navigation system for customizing a speech recognition dictionary using a text query.
  • the user can input a part of the target name, present the data that matches the input character to the user, and select the data by selecting the user.
  • Information retrieval devices are known.
  • a method is also known in which data is retrieved using the result of speech recognition by a user speaking a corresponding name by voice input.
  • Typical examples of such an information search apparatus include a task for setting a destination in car navigation, a search for music in an audio system, and the like.
  • the information search interface as described above is used to search for a large number of facility names throughout the country and set a destination.
  • the user first inputs a part of the facility name via the car navigation touch panel or remote control. Thereafter, a list of facility names including a character string input by the user is displayed by pressing a search button, and a destination can be set by selecting one from the list. The user can also set the destination by speaking the facility name by voice.
  • An input using a touch panel or remote control has an advantage that a user can search by inputting a part of a known name without inputting all the names. However, it takes a long time to perform operations such as pressing a button several times.
  • the input using the voice recognition function has the merit that it can be input in a short time because it only needs to speak a word.
  • the recognition rate of voice recognition is not 100%, a recognition error may occur and the operation may have to be performed again.
  • car navigation speech recognition it is common to reduce the number of vocabulary that can be accepted in order to increase the recognition rate and shorten the processing time. As a result, only the official names of facilities can be accepted, and the number of facilities that can be accepted is limited. Therefore, there is a problem that the utterance that the user naturally comes up with is not waiting in the car navigation, and the user cannot input his / her desired destination. This problem is commonly referred to as extra-vocabulary speech.
  • a function in which a user himself / herself registers a speech recognition vocabulary for a certain facility (hereinafter referred to as a speech recognition vocabulary registration function).
  • a speech recognition vocabulary registration function a function in which a user himself / herself registers a speech recognition vocabulary for a certain facility.
  • the user selects a desired facility by a method such as name input or address input using a touch panel or re-common.
  • the user inputs the vocabulary used for speech recognition for the selected facility.
  • a kana character input by a touch panel or a remote controller or a method of speaking by voice is known.
  • the user selects the address of his friend Suzuki's house, and in that state, sets "Suzuki Sanchi” as a reading pseudonym.
  • a predetermined operation of car navigation such as setting a destination to Mr. Suzuki's house can be executed.
  • Patent Document 1 discloses a technique for recognizing an utterance that is not an official name by applying a paraphrase generation rule to a formal name of a facility name to generate a paraphrase word and registering it in a speech recognition dictionary. It is disclosed.
  • the voice recognition vocabulary registration function implemented in the navigation system requires the user to call this function explicitly. That is, in order to use the speech recognition vocabulary registration function, after selecting a corresponding facility, there is a trouble of registering a reading pseudonym for that purpose using a touch panel or the like. For this reason, there is a problem that it takes time to master the voice recognition function.
  • An object of the present invention is to provide an information search device, an information search method, and a navigation system using the same, which are convenient for the user when searching by voice input.
  • the information search apparatus of the present invention registers one or more records in units of records that are stored in association with one or more attributes to be searched and values corresponding to the attributes.
  • a name database an operation input unit that receives a user's operation input; a voice input unit that receives the user's voice input; a voice recognition unit that recognizes a voice obtained from the voice input unit as a character string; and the voice recognition
  • An acoustic model storage unit for storing acoustic data to be referred to in the unit, a language model storage unit for storing a vocabulary recognized in the speech recognition unit and a connection rule of the vocabulary as a language model, and the operation input unit or the speech recognition unit
  • the input character string is used to search for the value of the attribute included in the name database, and the value includes the input character string.
  • a search unit that generates a record as a candidate, an output unit that outputs the record candidate generated by the search unit as a search result, a selection unit that selects the output record candidate, and a selection unit
  • a recognition vocabulary creation unit that creates a new additional recognition vocabulary that is a speech recognition vocabulary to be added to the language model in response to the selection result of the record, the recognition vocabulary creation unit corresponding to the input character string
  • the correspondence relationship between the additionally recognized vocabulary and the selected record is recorded in the name database or the language model.
  • the present invention it is possible to process a character string (search query) for information retrieval that is normally used by the user so that the user can easily speak and register it as a speech recognition vocabulary. Therefore, it is possible to reduce the trouble of using the user's voice recognition function and improve the usability of the information retrieval apparatus.
  • search query used by the user is used as a speech recognition vocabulary
  • the vocabulary known to the user can be used as the speech recognition vocabulary, and the frequency of utterances outside the vocabulary is reduced, and this also improves usability. Can do.
  • a 2nd embodiment it is a figure showing an example of a screen where a display was changed based on a user's input operation. It is an example of the table
  • FIG. 1 shows functional blocks of an information retrieval apparatus according to the first embodiment of the present invention.
  • the information retrieval apparatus 100 has various arithmetic processing functions and image processing functions realized by a CPU, memory, software, and the like.
  • the information retrieval apparatus 100 includes an operation input unit 110 that receives a user's operation input and a voice input unit 120 that receives a user's voice input as input units.
  • the operation input unit 110 receives operation inputs such as a touch panel operation, a remote control operation, and a dial operation among user inputs.
  • the information retrieval apparatus 100 further includes a speech recognition unit 130 that recognizes speech obtained from the speech input unit as a character string, an acoustic model storage unit 140 that stores acoustic data referred to by the speech recognition unit, and a vocabulary recognized by the speech recognition unit.
  • the language model storage unit 150 that stores the vocabulary connection rules, the search unit 160, the name database 170, the output unit 180 that presents the record candidates searched by the search unit to the user, and the user specified from the presented record candidates Selection means (not shown) for selecting candidates and the like, and a recognition vocabulary creation unit 190.
  • each part of the information retrieval apparatus 100 is an example, and each part may be integrated or subdivided depending on the form of software or the like.
  • the selection unit may be configured as a part of each function of the operation input unit 110 and the voice input unit 120.
  • the acoustic model storage unit 140, the language model storage unit 150, and the name database 170 are configured as a common storage device.
  • the name database 170 registers one or more records in units of records that are stored in association with one or more attributes to be searched and values corresponding to the contents of each attribute.
  • the search unit 160 searches for the value of one or more attributes included in the name database 170 using the input character string input by the user, and generates a record whose value includes the input character string as a candidate.
  • the recognition vocabulary creation unit 190 creates an additional recognition vocabulary that is a speech recognition vocabulary to be newly added to the language model storage unit 150 based on the output of the search unit 160.
  • the information search apparatus 100 registers the character string input by the user for the search, that is, the search query, as a speech recognition vocabulary so that it can be used for the search.
  • the search query is edited based on morpheme information and other database information to provide a speech recognition vocabulary that is easy for the user to speak when inputting speech.
  • name database 170 is a database that stores data that can be searched by the information search device. In the present embodiment, description will be made on the assumption that information related to a car navigation facility is stored.
  • FIG. 2A shows a configuration example of a table of the name database 170. In the present invention, each data unit is referred to as a record.
  • the name database 170 stores facility names (names) nationwide (countries and regions used) registered in car navigation. Information regarding a plurality of attributes is given to one record. Information stored in each attribute is called a value.
  • the name 210 indicates the name of each facility.
  • the reading 220 gives a reading pseudonym of each facility. In addition, here, the symbol that divides the reading of the facility name is written as “/”. Each divided part is called a morpheme. For each morpheme, a part of speech describing its properties is provided. A method for implementing morpheme division will be described later. [Morphological analysis method] Here, a morpheme division method will be described.
  • a morpheme is one of vocabulary units defined by natural language. However, in the present embodiment, it is defined as a unit in which the facility name is separated at a good place. Also, in the case of a language in which each word is delimited, such as English, the word delimiter position can be used as a morpheme division position as it is. Furthermore, not only word break positions but also morphemes can be separated not only by the break position of compound nouns within the word, but also by the position where the utilization occurs.
  • morpheme varies depending on each language. In this embodiment, the division of facility names will be described.
  • publicly-known literature (Adult Iwase: Company name analysis method using natural language processing, IEICE Transactions, vol.J82-DII, no.8, pp.1305-1314, 1999) can be used as a unit of morpheme when the name of the facility surveyed is divided.
  • three types of parts of speech, “proprietary name”, “place name”, and “job type” are assumed.
  • a description “others” will be provided as an item not included in any of these.
  • music search will be described later, but a method of diverting the part of speech system of an existing language according to the country or region to be used can be applied to the music name.
  • the author, composer, and artist name can be divided into units such as last name and first name, and each can be regarded as a morpheme.
  • Provision method Several methods can be used for dividing into morphemes. As a first method, it is possible to implement by assigning the position of each name morpheme and the part of speech of each morpheme in the name database from the beginning. As a second method, it is also possible to dynamically perform morpheme division processing. For example, as a morphological analysis method, the relationship between each morpheme and part of speech is stored as a dictionary, and the facility name can be divided into morpheme units by using the longest match method, the minimum number of division method, or the minimum connection cost method. it can.
  • the main genre 230 stores the genre to which each facility belongs.
  • the sub-genre 235 stores a more detailed genre than the main genre 230 to which each facility belongs. For example, the name of a route is stored for a railway station, and the name of the chain or management body to which each facility belongs is stored for a supermarket.
  • the address 240 stores the address of each facility.
  • the additional recognition vocabulary 250 a speech recognition vocabulary used for designating each facility is registered. This registration method will be explained later.
  • the operation input unit 110 receives an input of an operation by a hand such as a touch panel, a remote controller, or a dial among user inputs.
  • the voice input unit 120 accepts input by the user's voice. Specifically, the user's speech input from the microphone is converted into a digital signal.
  • the speech recognition unit 130 recognizes speech from a speech digital signal and converts it into a character string.
  • speech data uttered by the user is converted into a feature vector sequence.
  • the feature vector sequence represents the feature quantities at each time of speech as multidimensional vector quantities, which are arranged in time series.
  • audio data at each time is converted into a multidimensional vector quantity called an MFCC (Mel Frequency Cepstrum Coefficient) parameter, which is arranged in time series.
  • MFCC Mel Frequency Cepstrum Coefficient
  • the acoustic model storage unit 140 stores a model corresponding to each phoneme.
  • an HMM Hidden Markov Model
  • the language model storage unit 150 records words to be recognized by the speech recognition unit and a connection rule for each word. [Language model] The breakdown of the language model storage unit 150 will be described with reference to FIGS. 3A and 3B.
  • the language model here is created so that the reading 220 of each facility in the name database 170 can be recognized.
  • FIG. 3A shows a dictionary 300 in which words serving as recognition units in the language model are registered.
  • each facility reading 220 in the name database 170 is registered as a word.
  • One word of information is composed of two attributes of a word label 310 and a phoneme string 320.
  • the word label 310 character string information to be output as a voice recognition result is recorded.
  • the phoneme string 320 stores phoneme symbols corresponding to how to read each word.
  • the correspondence between phoneme symbols and actual phonemes in the dictionary 300 of FIG. 3A is in accordance with the format of “Japanese dictation basic software” developed by a project of the Information Processing Promotion Association, and is described in the following documents: .
  • FIG. 3B is a diagram showing a word connection rule 360 that can be recognized in the language model. This indicates that any path from the symbol “start” to “end” can be recognized.
  • an example using a finite state grammar that can recognize each word registered in the dictionary is shown.
  • the grammar paths 345 and 355 corresponding to the words 340 and 350 added to the dictionary 300 in FIG. 3A are added to the connection rule 360 in FIG. 3B. This will be described in detail later.
  • the dictionary 300 of the language model storage unit 150 may have the corresponding ID number 330 as a third attribute.
  • the ID number 205 of the name database corresponding to each word is registered.
  • the dictionary 300 of FIG. 3C is used in combination with the table 170 of FIG. 2B. This usage will be described later as a modification of the first embodiment.
  • the speech recognition unit 130 compares the feature vector sequence of the input speech with the phoneme sequence of the recognizable word sequence stored in the language model, and calculates a score representing the degree of matching. And the character string of the word label of the word string with a high score is output.
  • only the word string having the highest score may be output, or the plurality of word strings having the highest score may be output.
  • the speech recognition method is described in detail in the following document and can be used for implementation.
  • the search unit 160 uses the character string output from the voice input unit 120 or the voice recognition unit 130 to perform a search among the attribute values in the name database 170 to generate record selection candidates.
  • FIG. 4 shows an example of a touch panel 400 mounted on a car navigation screen and its display.
  • the touch panel 400 has a graphical user interface (GUI) function, and includes functions of an operation input unit 110, a search unit 160, and an output unit 180.
  • the touch panel 400 further includes a function of a selection unit that selects a specific candidate from the record candidate list output by the output unit.
  • GUI graphical user interface
  • the character buttons 410 can input characters by pressing each button. There are also buttons for deleting characters, changing the input character type, and moving the cursor.
  • the search button 430 is a button that is pressed when the user wants to see a breakdown of selection candidates. Each time the user presses the character button 410 to update the character string, the number of selection candidates obtained by the search unit 160 is displayed in parentheses.
  • the retrieval unit 160 retrieves the value of the reading 220 from the attribute of the name database 170, and retrieves a record including the user input character string “Funitsu”.
  • small characters included in sound repellent or stuttering can be searched with corresponding large characters.
  • cloudy sound and semi-turbid sound can be searched regardless of presence or absence.
  • three items, “Super Funit Kokubunji Store”, “Super Funit Fuchu Store”, and “Funitsuru Hotel” are obtained as selection candidates.
  • the facility candidate is sent to the output unit 180 by the pressing operation of the selection means.
  • the output unit 180 changes the screen display to present selection candidates to the user, or performs audio reproduction that conveys the selection candidates to the user by voice.
  • the screen of the touch panel 400 changed by the output unit 180 is shown in FIG.
  • the candidate display area 510 the generated selection candidates are displayed.
  • the user selects one facility he / she wants to go from the selection candidates by the function of the selection means of the touch panel 400 and presses the corresponding facility in the candidate display area 510.
  • the result of pressing the selection means is received via the operation input unit 110.
  • this facility is used as a selection result, and predetermined car navigation operations such as route search and map display are performed.
  • the search unit 160 compares the speech recognition result “Super Fnit ⁇ ⁇ Fuchou Store” with the reading 220 of the name database 170, and searches for a completely matching facility. As a result, the facility “Super-Funit Sufuchuen Store” was selected. Thereafter, the data is output from the output unit 180. In this case, since there is one candidate, a predetermined operation of car navigation such as route search or map display is performed.
  • FIG. 2B shows a configuration example of the table 170 as a modification of the name database.
  • an ID number 205 indicating an ID number uniquely assigned to each facility is added as an attribute.
  • the items of the additional recognition vocabulary 250 in the name database 170 are omitted.
  • the ID number 205 of the record corresponding to each word is also stored as information of each word described in the language model dictionary 300. deep. This is described in the corresponding ID number 330 in FIG. 3C.
  • the ID “0201” of the corresponding record in the name database 170 is stored in the correspondence ID number in the word “supermarket unit”.
  • the speech recognition unit 130 when the speech recognition unit 130 outputs the speech recognition result, the speech recognition unit 130 also outputs the corresponding ID number 330 of the recognized word in addition to the word label.
  • the search unit 160 refers to the corresponding ID number 330 assigned to the recognized word in the output of the speech recognition unit 130 and generates a record having the same ID number “0201” in the name database 170 as a candidate. As a result, it is possible to generate the facility “Super Sakai Funit Sufuchu Sakai Store” as a candidate.
  • an input serving as a search query is a character string input from the operation input unit 110 by the touch panel 400 or the like.
  • the character string obtained from the operation input unit 110 is compared with all the attribute readings 220 in the name database 170, and a record partially matching the input character string is searched.
  • the number of comparison operations increases, so the processing speed is slow.
  • search using indexes used for database search can be applied.
  • an index in which the relationship between the information specifying the record corresponding to the input character string (for example, the ID number 205 of the name database 170 in FIG. 2B, the address indicating the storage position of the record on the storage device, etc.) is recorded in advance.
  • Create When the user inputs a character, that is, a query for search, a list of corresponding records can be obtained immediately by referring to the index using the input character string as a key.
  • a known technique used for database search can be used.
  • the input serving as a search query is a voice input and is a character string obtained from the voice recognition unit 130
  • the search can be performed by the same method as the input on the touch panel or the like. That is, it is possible to use an all-case search method that compares the input character string with all the readings 220 of the name database 170.
  • any character string that may be obtained from the speech recognition unit 130 in advance and information for identifying a record corresponding to each character string (for example, the ID number 205 of the name database 170 in FIG. 2B, the record storage device)
  • the method of obtaining the facility candidate can be used by creating an index that records the relationship between the address indicating the storage position above) and referring to the index using the voice recognition result as a key.
  • the search processing using the voice recognition result or touch panel input in the present invention can be implemented by the search processing method as described above.
  • the description has been made on the assumption that the result of the speech recognition completely matches the reading 220 of one facility in the name database 170.
  • the grammar in the language model storage unit 150 is such that the readings of each facility are recorded in parallel as in the connection rule 360 of FIG. 3B.
  • words may be stored in units obtained by dividing the facility name more finely, and this may be used in combination with a grammar with a connection probability such as an N-gram language model. In this case, a partial character string of the facility name is obtained.
  • a record in which the character string of the recognition result is included (partially matched) in the facility name reading 220 may be cited as a candidate, and the result may be used as a candidate.
  • the user inputs “Funitsu” on the touch panel, As a result of this search, three candidates, “Super Funit Kokubunji Store”, “Super Funit Fuchu Store”, and “Funitsuru Hotel” were obtained, The operation of the recognized vocabulary creation unit 190 when the user selects “Super Funit Fuchu Store” will be described.
  • FIG. 6 shows a processing flow of the recognized vocabulary creation unit 190.
  • step 610 the character string “Funitsu” input by the user and the reading of the determined facility “Super Funit Fuchu Store” are compared in units of morphemes. As a result, it is understood that the user input character string “Funitsu” is a part of the morpheme “Funit” in the reading “Super / Funit / Futyu / Store”.
  • step 620 the user input character string is edited based on the morpheme.
  • the character string “Funitsu” input by the user is extended to the corresponding morpheme and edited to “Funit”. This is used as a speech recognition vocabulary.
  • step 630 the speech recognition vocabulary created in step 620 is registered in the additional recognition vocabulary 250 of the facility "Super Funit Fuchu Store” in the name database 170 selected by the user. At this time, in order to make it easier for the user to speak, it may be connected to a vocabulary such as “go to” or “tick me”. Here, “Go to” is connected. A method of adding “go to” is shown in 260 of the name database 170 in FIG. 2A.
  • step 640 words are registered in the language model storage unit 150 along the vocabulary registered in the additionally recognized vocabulary 250.
  • the phoneme string pair indicating the pronunciation “Go to Funit” and its pronunciation is registered in the dictionary 300 of the language model storage unit 150 (340 in FIG. 3A).
  • the grammar path corresponding to the word added to the dictionary is added to the grammar (concatenation rule) 360 (345 in FIG. 3B).
  • each vocabulary stored in the language model storage unit 150 is stored with a corresponding identifier (ID number 330), and the speech recognition unit 130 is recognized according to the recognized vocabulary.
  • the identifier corresponding to the vocabulary is also output, and the search unit 160 refers to the identifier assigned to the vocabulary output by the speech recognition unit and generates a record having the same identifier in the name database 170 as a candidate.
  • the recognition vocabulary creation unit 190 creates an additional recognition vocabulary based on the output of the search unit 160 in step 620 of FIG. 6, skips registration to the name database 170 in step 630, and proceeds to step 640.
  • the vocabulary is added to the dictionary 300 of the language model storage unit 150 in a format in which the corresponding ID number corresponding to the record selected by the user in the name database 170 and the additionally recognized vocabulary created are combined.
  • a flag indicating that “Go to Funit” is an additional recognition vocabulary may be registered and managed. [Destination setting using additional recognition vocabulary] Subsequent operations in the first embodiment will be described.
  • the user utters “Go to Funit” by voice.
  • the speech recognition unit 130 performs speech recognition processing via the speech input unit 120.
  • the word label “go to unite” of the speech recognition result is obtained.
  • the search unit 160 compares the word label of the speech recognition result with the name database 170.
  • the name database 170 is compared with the additional recognition vocabulary 250 in addition to the reading 220.
  • the output unit issues a voice response “Set destination in Super Funit Fuchu Store” and performs the predetermined car navigation operations such as map display and route search.
  • the procedure for selecting the facility “Super Funit Fuchu Store” from the user's utterance “Go to Funit” is performed by using the corresponding ID number 330 assigned to the language model storage unit.
  • the process of comparing with the reading 22 of the name database 170 and the additional recognition vocabulary 250 is omitted.
  • the voice recognition unit outputs the corresponding ID number “0201” in addition to the word label “Go to Funit” as a voice recognition result.
  • the search unit 160 refers to the corresponding ID number “0201” in the speech recognition result and generates a matching facility as a candidate in the ID number 205 of the name database 170.
  • the facility “Super Funit Fuchu Store” can be selected as a candidate.
  • the operation of the recognized vocabulary creation unit 190 will be described when the user selects “Futsutsuru Hotel” from the candidate display area 510 of FIG.
  • the morpheme that matches the character string input by the user is “Funatsuru”. Therefore, the vocabulary “Go to Funitsl” is generated for “Futsunuru Hotel” and registered in the additionally recognized vocabulary 250 of the name database 170 and the language model storage unit 150. Therefore, if the user speaks “Go to Funitsuru”, he / she performs a predetermined operation related to “Funatsuru Hotel”.
  • the speech recognition vocabulary is added according to the character string input by the user on the touch panel or the like.
  • the vocabulary that the user knows from the beginning can be used for speech recognition, the frequency of utterances outside the vocabulary can be reduced and the usability can be improved.
  • the character string input by the user is expanded using morpheme separation.
  • the character string input by the user on the touch panel is incomplete such as “Funitsu”, it can be expanded to the unit that the user feels naturally because he / she speaks by expanding in morpheme units.
  • the character string input by the user may be used as an additional recognition vocabulary without any processing.
  • Kanji input it is assumed that the characters that the user inputs with the touch panel are kana. However, characters mixed with kanji and kana may be input. In this case, for each name 210 in the name database, each name is divided into morphemes (eg, “Ogikubo / Station”).
  • the character string mixed with kanji and kana inputted by the user is compared with the facility name 210 to identify the corresponding morpheme.
  • the created speech recognition vocabulary can be used as a search target word not only for speech recognition but also for input in a normal operation of a touch panel or the like. For example, assume that “Funit” has already been added to the additional recognition vocabulary attribute for the facility “Super Funit Fuchu Store” in the name database. In this situation, it is assumed that the user inputs “Fnit” from the touch panel. In this case, the search unit searches the name database reading 220 and generates a facility having “Fnit” in the reading as a candidate.
  • FIGS. 1, 2A, and 7A to 10B An information search apparatus according to a second embodiment of the present invention will be described with reference to FIGS. 1, 2A, and 7A to 10B.
  • This embodiment is characterized in that, in the first embodiment, a plurality of additional recognition vocabulary candidates are created for the facility selected by the user, and the user selects one of them. Further, when the additional recognition vocabulary is already used in speech recognition or when a similar recognition vocabulary exists, the operation for adding the vocabulary is changed.
  • the configuration of the name database 170, the language model storage unit 150, the dictionary 300, and the like is a method that does not use the ID number described in the first embodiment, but the ID number described in the modification of the first embodiment. You may implement
  • a table 700 defining the morpheme importance 730 of each morpheme 710 included in “Super Funit Fuchu Store” as shown in FIG. 7A is provided.
  • the morpheme importance is defined as an index that increases for the user when it is natural to call the corresponding facility by speaking the morpheme. For example, since it is considered natural to specify the name “Super Funit Fuchu Store” with the utterance “morphite”, the morpheme importance is set high. On the other hand, since it is unlikely that a facility will be designated only by the morpheme “store”, the morpheme importance of “store” is set to a low value.
  • this morpheme importance can be implemented without using the value defined for each part of speech 720 without depending on the morpheme 710.
  • the proper name, place name, and job type should be increased and the others should be decreased.
  • Others include, for example, corporation type names (Kabushiki Gaisha, Zaydan Hojin, etc.).
  • the morpheme importance may be a quantized value instead of a continuous value. For example, any one of two stages of information “important” and “non-important” may be given. Although not shown, morpheme importance may be given to a plurality of combinations of morphemes. For example, if the combination of “super / fuchu” that skips “Funit” is natural for the user, the degree of importance may be increased for this combination.
  • FIG. 8 shows a processing flow of the recognition vocabulary creation unit 190 in this embodiment.
  • step 810 [Add morpheme importance corresponding to the character string entered by the user]
  • a reading morpheme including a character string input by the user is specified.
  • the morpheme “Funit” is specified as the character string input by the user.
  • the morpheme importance of the morpheme “Funit” is 1.4 as indicated by 740 in FIG. 7A.
  • step 820 a combination of facility morphemes is generated as a speech recognition vocabulary candidate. Furthermore, the combination importance for this combination is also calculated. The combination importance is an importance given so that it is natural that the user speaks the combination of the morphemes as the combination importance is higher. There are various calculation methods. In this example, after adding the morpheme importance, the average value divided by the number of morphemes is used as the combination importance.
  • the morpheme combination 910 is a combination of morphemes.
  • the combination importance 920 is a combination importance calculated for each morpheme combination. Moreover, the combination importance 920 is rearranged in descending order.
  • the morpheme importance of “super” is 0.8
  • the morpheme importance of “funit” is 1.4. Therefore, by adding and dividing by the morpheme number 2, it is calculated as 1.1.
  • step 825 the similarity between each generated morpheme combination and the word stored in the language model storage unit is calculated.
  • the degree of similarity is calculated as 1 if they are completely matched, and the degree of similarity is calculated as 0 if they are not completely matched.
  • a continuous value using the distance between phonemes of words may be used.
  • the distance between phonemes can be calculated by a known method such as a phoneme symbol editing distance or a Bhattacharyya distance.
  • the recognized vocabulary creating unit 190 regards the top several morpheme combinations 910 having the higher combination importance 920 as candidates for the additional recognized vocabulary.
  • the data is output to the output unit 180.
  • the top three are output.
  • the output unit updates the screen display.
  • a display screen 400 with the updated display is shown in FIG. 9B. The purpose of this screen is to ask the user which of the candidate additional recognition vocabularies to use.
  • the name of the facility selected by the user is displayed.
  • the additional recognition vocabulary candidate display area 1020 candidates for the additional recognition vocabulary output from the recognition vocabulary creation unit 190 are displayed.
  • the kanji kana that is the basis of the additional recognition vocabulary is displayed.
  • step 850 the selected “Funit Fuchu” is registered in the additional recognition vocabulary 250 of “Super Funit Fuchu Store” in the name database 170. At this time, in the same manner as in the first embodiment, it is added in a form to which “Go to ...” is added, and “Go to Funte Fuchou” is added. This process is shown as 270 in the name database 170 of FIG. 2A. In step 860, the word “Go to Funit Fuchu” is added to the language model storage unit 150.
  • the user can perform a predetermined operation corresponding to the facility “Super-Funit Sufu Nakatsuji Store” by speaking “Go-To-Funit Futto Fuchou”.
  • the process ends because the user has not selected a speech recognition vocabulary according to the conditional expression in step 840. As a result, any speech recognition vocabulary is not adopted.
  • the destination can be set using the vocabulary that the user wants to use.
  • the additional recognition vocabulary it is possible to provide a speech recognition vocabulary that is easier for the user to use by generating a combination based on the importance of the morphemes.
  • by performing an operation for increasing the importance of the morpheme corresponding to the character string input by the user with respect to the importance of the morpheme it is possible to easily display the additional recognition vocabulary including the morpheme input by the user.
  • the vocabulary “Funits” and “Funit” are similar in phonemes. Therefore, it can be considered as a pair that is easily misrecognized.
  • the similarity is calculated as a continuous value by the method based on the distance between phonemes, and when the similarity exceeds a threshold value, the importance of the combination is lowered. , Can be removed as a candidate.
  • the additionally recognized vocabulary “Funit” can be removed from the candidates. Thereby, the occurrence of recognition errors can be suppressed by removing in advance the vocabulary with high similarity from the additional recognition vocabulary.
  • the vocabulary in the existing language model is compared with the additionally recognized additional vocabulary, and as a result, when there is a similar vocabulary, the process of removing from the candidate has been described.
  • the existing vocabulary is not included in the additional recognition vocabulary. For example, if the name of a facility that can be recognized from the beginning by car navigation and the voice command of car navigation are compared with the candidate additional recognition vocabulary, they may be excluded from the candidates. [Inquiry to users when the additional vocabulary is similar] If the degree of similarity is high, the candidate may be presented on the screen as it is without the operation of removing it from the candidate, and the user may be asked how to use it.
  • the additional recognition vocabulary of “Super Funit Kokubunji Store” is deleted and “Go to Super Funit” is registered in “Super Funit Fuchu Store”, or “Super Funit Kokubunji Store” You can select the action of registering “Go to Super Funit” in “Super Funit Fuchu Store” while keeping the additional recognition vocabulary.
  • the additional recognition vocabulary that appears as a candidate may be used as an additional recognition vocabulary of another facility. For example, among the morpheme combinations in 910 of FIG.
  • “Funit” is a morpheme included not only in “Super Funit Fuchu Store” set by the user but also in “Super Funit Kokubunji Store”. Therefore, the morpheme combination “Funit” is also suitable as a speech recognition vocabulary for other facilities.
  • the user inputs “Land” on the touch panel to select an amusement park, and selects the facility name “East / West / Denden / Land” (“/” is a morpheme delimiter) as a result.
  • “land” is generated as an additional recognition vocabulary.
  • the vocabulary “land” since the vocabulary “land” is included in many amusement parks, it may be easier for the user to use other morphemes such as “east-west” and “denden” as additional recognition vocabulary.
  • the generation may be suppressed by providing a rule based on the part of speech such as [Rule by combination of morpheme parts of speech]
  • a rule based on the part of speech such as [Rule by combination of morpheme parts of speech]
  • importance can be influenced by the breakdown of the part of speech.
  • the user inputs “macoma” and selects the facility “Sapporo Makomanai Beach”.
  • the importance of each morpheme in this facility is defined as shown in table 700 of FIG. 7B.
  • the morpheme input by the user is identified as “macomanai” by the processing in step 810.
  • 0.5 is added to the morpheme importance of the morpheme “macomanai”.
  • step 820 these morphemes are combined, and the combination importance for each morpheme combination is calculated.
  • this combination of morphemes for example, “Sapporo / Macomanai” are both place names, and it is considered unnatural to the user as a vocabulary for specifying this facility.
  • “Macomanai / Beach” includes both place names and occupations, so it is considered to be an easy-to-understand vocabulary for users. Therefore, in order to consider these intelligibility, the operation of adding the importance of the morpheme combination is performed in this embodiment for combinations of different parts of speech.
  • FIG. 9C is an example of a table 1800 showing the importance calculated for the combination of morphemes in the second embodiment.
  • the importance of the morpheme combination before correction is calculated. This is similar to the method described above, in which all morpheme importance levels are added and divided by the number of morphemes. As a result, it is calculated as 1820.
  • “Sapporo / Beach” is a combination of place name and occupation, and the morphemes are all different, so it is YES. A single morpheme is not judged. As a result, it is assumed that 0.2 is added to the combination importance for those that are YES. As a result, a corrected combination importance 1840 is calculated. The corrected combination importance is presented to the user in descending order.
  • a speech recognition vocabulary that is easy to understand for the user can be provided by presenting the combination of different parts of speech with priority to the user.
  • step 820 of FIG. 8 a combination of morphemes included in the name is generated, whereas in step 1910 of FIG. 10A, a combination of morphemes included in the name and information included in other name databases is generated. Each combination is regarded as a new morpheme combination and the combination importance is calculated.
  • each morpheme combination 1920 is complemented from other information in the name database.
  • “submersible place (swimming pool place)” which is a subgenre of the name database, and “minamiku” included in the address.
  • the address is used to add “In Minamiku” at the end, and if the morpheme does not include the job type, Create a new morpheme combination using the genre and adding “Swimming Place In” to the beginning. In any of these cases, 0.5 is added to the combination importance.
  • a breakdown when an address is added is shown in 1940, and a case where a sub-genre is added is shown in 1950.
  • the morpheme combination importance becomes 1960, and these morpheme combinations can be presented to the user as candidates for the speech recognition vocabulary. Thereby, it is possible to provide the user with a speech recognition vocabulary combined with other information such as an address and a genre.
  • the original morpheme combination 1920 is not presented to the user. All the breakdowns of both 1960s may be presented to the user. Further, in the present embodiment, it has been described that the method of adding from other information is changed by the breakdown of the part of speech of the morpheme, but other changing methods may be used or may not be changed. [Automatic calculation of morpheme importance] In this embodiment, it is assumed that the morpheme importance is assigned to the name database from the beginning. In order to determine the importance, a method determined by the developer or a method based on a user survey can be considered. On the other hand, the importance may be estimated by a calculation method based on the number of appearances of words such as tf and idf used in document retrieval.
  • the generated vocabulary is used for speech recognition. Therefore, considering the likelihood of recognition errors in speech recognition, it is possible to reduce the importance of short vocabularies that are likely to cause recognition errors, vocabularies that already have similar phoneme sequences, etc. .
  • FIG. 11 a configuration example of the information retrieval apparatus 100 of this embodiment is shown in FIG.
  • a vocabulary type determination unit 1110 for determining what kind of additional recognition vocabulary created by the recognition vocabulary creation unit 190 is provided.
  • the recognition vocabulary creation unit 190 changes the operation method of registering the additional recognition vocabulary created by the recognition vocabulary creation unit 190 in the name database 170 based on the type of the additional recognition vocabulary determined by the vocabulary type determination unit 110, The method of adding the additionally recognized vocabulary created by the recognized vocabulary creating unit 190 to the language model storage unit 150 is changed.
  • the recognized vocabulary creation unit 190 changes the method of adding the additionally recognized vocabulary to the name database 170 and the language model storage unit 150 according to the determination result of the vocabulary type determination unit 1110.
  • the configuration of the name database 170, the language model storage unit 150, the dictionary 300, and the like is a method that does not use the ID number described in the first embodiment, but uses the ID number described in the modification of the first embodiment. It may be realized by a method. [Premise of the third embodiment] As an example, it is assumed that the user inputs “Funits” and selects “Super Funit Fuchu Store” from the facility name candidates, as in the first embodiment. Since the operation so far is the same as that of the first embodiment, the description is omitted. [Voice recognition vocabulary for genre] FIG.
  • step 1210 the character string “Funitsu” input by the user is compared with the reading of the determined facility name “Super Funit Fuchu Store” in units of morphemes. As a result, it is understood that the user input character string “Funitsu” is a part of the morpheme “Funit” in the reading “Super / Funit / Futyu / Store”.
  • step 1220 the user input character string is edited based on the morpheme.
  • the character string “Funitsu” input by the user is extended to the corresponding morpheme and edited to “Funit”. This is used as an additional recognition vocabulary.
  • step 1230 it is determined what type the additional recognition vocabulary created in step 1220 is.
  • the additionally recognized vocabulary is a normal facility name or a vocabulary representing the genre of the facility.
  • a vocabulary determination table 1300 as shown in FIG. 13A is referred to and it is determined whether or not the additionally recognized vocabulary exists in the table.
  • the vocabulary determination table stores a sub-genre ID number 1305 that is a number uniquely assigned to a sub-genre, a sub-genre 1310, and a vocabulary 1320 corresponding to each sub-genre.
  • the facility genre vocabulary 1320 registers a vocabulary indicating a specific sub-genre of the facility. Specifically, it is the name of a chain store or the name of a company with many branches. This sub-genre corresponds to the sub-genre 235 that is an attribute stored in the name database 170.
  • the sub-genre “super unit” is a supermarket chain having a plurality of stores throughout the country, and the vocabulary “Fnit” and “super unit” are widely known to people. Therefore, these vocabularies are registered in the vocabulary 1320.
  • a determination method using the vocabulary determination table shown in FIG. 13A in the processing step 1230 will be described.
  • the sub-genre 235 of the determined facility name “Super Fit Sufuchuen Store” is found to be “Super Fnit” by referring to the name database 170. Therefore, a record in which the sub-genre 1310 is “super unit” is searched from the vocabulary determination table. As a result, it can be seen that there are two corresponding vocabularies 1320, “super unit” and “unit”.
  • step 1220 it is checked whether the additionally recognized vocabulary created in step 1220 matches any of the corresponding vocabulary 1320.
  • the additionally recognized vocabulary “Funit” matches the “Funit” included in the vocabulary 1320. Therefore, it is determined that the additionally recognized vocabulary is a facility genre.
  • step 1240 branching is performed based on the determination result in step 1230. If the additionally recognized vocabulary is a normal facility name, the process proceeds to step 1250. On the other hand, if the additionally recognized vocabulary is the facility genre, the process proceeds to step 1245. That is, this branching is used to change the method of adding to the name database and language model according to the type of additionally recognized vocabulary.
  • step 1245 since the determination result in step 1230 is the facility genre, the description will move to step 1245.
  • the additionally recognized vocabulary is a vocabulary representing a genre of some facility, registration is performed as a voice recognition vocabulary for designating the facility genre by a method that is easy for the user to use. Here, it can be used as a peripheral facility search that is often used when searching for a facility genre.
  • step 1245 the additionally recognized vocabulary is edited. In this example, “Go to” is added to the beginning of the word and “Go to unit” is used, as it is used for normal facility searches.
  • step 1275 the additionally recognized vocabulary is edited by a method different from that in step 1245. Here, “Near Buy” is attached to the head and “Near Buy Funit” is used for the peripheral facility search.
  • step 1245 and step 1275 different additionally recognized vocabularies were created.
  • the additional recognition vocabulary for normal facility search created in step 1245 is called vocabulary A
  • the additional recognition vocabulary for peripheral facility search created in step 1275 is called vocabulary B.
  • step 1276 the user is inquired which one of the additionally recognized vocabulary words to be used. As an inquiry method, for example, the following voice response is reproduced from the output unit. “Set the voice command.
  • step 1277 the user's response to the inquiry to the user in step 1276 is received, and the process is branched according to the operation.
  • a response to the inquiry in step 1276 is accepted by pressing a button on the touch panel.
  • step 1280 processing is performed when vocabulary B is selected.
  • the facility that is the same chain as the “Super Funit Fuchu Store” selected by the user is determined from the sub-genre 235, and “Near By Funit” is added to the additional recognition vocabulary attribute for all the facilities of the same chain.
  • the additional recognition vocabulary “near by funit” is added to two of “Super Funte Fuchu Store” and “Super Funit Kokubunji Store”.
  • the additional recognition vocabulary “near bi unit” may be registered together with a flag that is a vocabulary for searching for nearby facilities.
  • the additional recognition vocabulary “near by bit unit” is stored in the language model storage unit so that speech recognition is possible (350 in FIG. 3A, 355 in FIG. 3B).
  • “near-by-flight unit” may be additionally registered vocabulary and may be registered and managed together with a flag that is a vocabulary for searching for nearby facilities.
  • step 1280 and step 1285 the operation in the case where the user inputs a voice message “near by bit unit” will be described. It is assumed that the user's voice is converted into a digital signal by the voice input unit 120 and then converted into a character string by the voice recognition unit 130 and “near-by-flight unit” is output. This result is input to the search unit 160.
  • the search unit 160 compares the speech recognition result with the name database 170. As a result, “Super-Funit Sufuchu Store” and “Super-Funit Kokubunji Store” with “Near-by-Funit” as additional recognition vocabulary are listed as candidates.
  • step 1260 the created additionally recognized vocabulary is assigned to the name database.
  • “go to unite” of the vocabulary A is assigned to the additionally recognized vocabulary attribute of the “super unit Fuchu store” selected by the user. As a result, it is added as indicated by 260.
  • the additional recognition vocabulary “Go to Funit” is stored in the language model storage unit so that it can be recognized.
  • “Go to Funit” may be additionally registered vocabulary, and a flag that is a vocabulary for normal facility designation may be registered and managed together.
  • the search unit 160 compares the speech recognition result with the name database 170. As a result, “Super Funit Fuchu Store” with “Go to Funit” as an additional recognition vocabulary is obtained. After that, the output unit issues a voice response saying “Set destination at Super Funit Fuchu Store” and performs predetermined car navigation operations such as map display and route search. [When only a speech recognition vocabulary representing a normal facility name is generated] Another operation of this embodiment will be described. Here, it is assumed that the user inputs “Funittofu” from the touch panel 400 and selects “Super Funit Fuchu Store” from the facility name candidates. Since the operation so far is the same as that of the first embodiment, the description thereof is omitted.
  • FIG. 12 shows a flow of operations of the recognized vocabulary creation unit 190 and the vocabulary type determination unit 1110.
  • step 1210 the character string “Funittsu” input by the user is compared with the determined facility name “Super Funit Fuchu Store” in units of morphemes. As a result, it can be seen that the user input character string “Funituto” is included in “Funit” and “Futyu” in “Super / Funit / Futyu / Store”.
  • step 1220 the user input character string is edited based on the morpheme.
  • the character string “Funitov” entered by the user is extended to the corresponding morpheme and edited to “Fnit Fuchou”. This is used as an additional recognition vocabulary.
  • step 1230 it is determined what type the additional recognition vocabulary created in step 1220 is.
  • the speech recognition vocabulary is a normal facility name or a vocabulary representing the genre of the facility.
  • the determination is performed using the vocabulary determination table shown in FIG. 13A. Specifically, first, since the sub-genre 235 of the determined facility “Super Funit Fuchu Store” is “Super Funit”, “Super Funit” is searched from the sub-genre 1310. Next, it is checked whether the created additional recognition vocabulary matches any of the vocabulary 1320 corresponding to “super unit”. As a result, “Funit Fuchou” does not match any of the vocabulary 1320. Therefore, it is determined that the additionally recognized vocabulary is a part of the normal facility name.
  • step 1240 branching is performed according to the determination result in step 1230.
  • the process proceeds to step 1250.
  • the processing from step 1250 to step 1270 is processing when the speech recognition vocabulary is a normal facility name.
  • the method of this process is almost the same as that of the first embodiment, but here, a process of selecting whether or not the user uses the vocabulary is added.
  • step 1250 the additionally recognized vocabulary is edited. In this example, “Go to ⁇ ” is added to the beginning of the acronym and used as a normal facility search to “Go to Funte Fuchu”. For the sake of explanation, this vocabulary is referred to as vocabulary A.
  • step 1252 the user is inquired whether to use the created additional recognition vocabulary.
  • step 1254 the user's response to the inquiry to the user in step 1252 is received, and the process is branched according to the operation.
  • a response to the inquiry in step 1252 is accepted by pressing a button on the touch panel.
  • the created additional recognition vocabulary (vocabulary A) is added to the additional recognition vocabulary attribute 250 of the name database. Since this method has already been described, a detailed description thereof will be omitted.
  • the search unit 160 outputs “Super Funit Fuchu Store” as a candidate, and performs a predetermined car navigation operation such as map display and route search.
  • the method of using the additionally recognized vocabulary can be changed according to the nature of the vocabulary input by the user. Thereby, user convenience can be improved.
  • branching is performed only for whether the additionally recognized vocabulary is a facility genre or a normal name other than that, but a plurality of other branches may be performed.
  • the determination is made by referring to a table as shown in FIG. 13A based on whether a vocabulary exists.
  • the vocabulary type may be determined by a method based on the frequency included in each facility name of the morpheme. Further, by providing the user with a process for confirming how to use the additional recognition vocabulary, it is possible to provide a voice recognition function that meets the user's wishes.
  • the search method has been described on the assumption that the character string obtained as a speech recognition result is used as a search key to read the name database and search for additional recognition vocabulary.
  • the search method as in the case of the first embodiment, a method using all-case search and a method using indexes can be applied.
  • the ID number storage method in the language model needs to be changed from that in the first embodiment. Here, the method will be described.
  • the first method is to register a plurality of ID numbers in the corresponding ID number 330 when registering the additional recognition vocabulary in the language model storage unit.
  • the word of FIG. 3A is stored in the dictionary 300 of the language model storage unit.
  • a plurality of “0200, 0201” may be registered as the corresponding ID number 330 of “near by night unit”.
  • this method can be applied when the number of facilities belonging to the sub-genre “Super Samurai Funit” is as small as two, as in the name database shown in FIG. 2A. Has a problem that the ID number stored in the language model storage unit increases.
  • the relationship between the sub-genre ID number and the corresponding facility ID number is recorded in the form of a table 1302 shown in FIG. 13B.
  • the corresponding ID number “50001” of the word “near biunit” is recorded. If the recognition result is “near bi unit”, the retrieval unit reads the ID number of the corresponding facility from the corresponding ID number “50001” with reference to the table 1302 of FIG. 13B, and names the facility having the ID number. Search from the database and generate as a candidate.
  • the length of the character string input by the user is processed and used as an additional recognition vocabulary.
  • the vocabulary used as the additional recognition vocabulary may be a paraphrase that is closely related in meaning even if it does not match the vocabulary entered by the user in character string units.
  • the sub-genre word “Funit” used in “Super Funit Fuchu Store” may be called a completely different name for the public.
  • This another name is expressed as a paraphrase.
  • “Funit” is not only added to the name database and language model, but if the paraphrase is also added to the name database and language model, the user can speak in the paraphrase. In this case, the facility can be generated as a candidate.
  • An information search apparatus will be described with reference to FIGS. 1 and 14 to 19.
  • the configuration of the name database 170, the language model storage unit 150, the dictionary 300, and the like is the method using the ID number described in the modification of the first embodiment, but may be realized by a method that does not use the ID number.
  • a case where there are a plurality of attributes that can be searched by the user in the name database 170 will be described.
  • a case where a plurality of queries are input at the time of search will also be described.
  • the music playback function of the navigation system is assumed and the usage method for searching music for this purpose will be described.
  • music search and playback is performed in an audio system independent of the navigation system. It may be a thing.
  • FIG. 14 shows an example of the name database 170 in the music search.
  • the name database 170 stores a list of songs that can be played back by car navigation. Information of one music piece is stored in one record of the name database 170.
  • an ID number 1405, an artist name 1410, an album name 1420, a song name 1430, a composer name 1440, a description 1450 for storing a description of a song, etc., which is a number uniquely assigned to each song are used. To do.
  • Each record does not need to have values for all attributes, and only some attributes may have values.
  • the language model 150 at the time of music search stores only the vocabulary included in the album name 1420 in the name database, and only the designation by the album name is allowed as the user's voice input.
  • FIG. 17 shows a breakdown of the dictionary 300 registered in the language model 150.
  • the word label 1710 and the phoneme string 1720 are prepared only for the album name.
  • a frequently uttered partial character string eg "Tanabata”
  • the album “Tanabata Concert” can be selected.
  • Each word is assigned a corresponding ID number 1730.
  • the ID number assigned to the music in the name database of FIG. 14 is stored.
  • a unique ID number may be assigned to each album and the ID number assigned to the album may be stored.
  • the user's touch panel input is received by the operation input unit 110, and the name database is searched using the result. For example, assume that the user inputs “Nikola” on the touch panel.
  • This character string is sent to the search unit 160.
  • the search unit 160 searches the name database 170 among the artist name 1410, album name 1420, song name 1430, composer name 1440, description 1450, and additionally recognized vocabulary 1460. As a result, three songs, which are songs including “Nikola” in any attribute value, are generated as candidates.
  • the search result is sent to the output unit 180, and three songs are displayed to the user as candidates on the screen 400 shown in FIG.
  • a display area 1510 displays a character string input by the user.
  • the candidate display area 1520 attributes and values of candidate songs are displayed.
  • the user selects the music he / she wants to listen to. For example, it is assumed here that the user selects the song name “Letter From Nicholas” and presses the touch panel. This pressing is accepted via the operation input unit 110. Accordingly, a predetermined operation as audio in car navigation such as playing a music is executed.
  • FIG. 16 shows the processing procedure.
  • the character string “Nikola” input by the user is compared with the value of the attribute including the character string input by the user for the determined music piece in morpheme units.
  • the user inputs “Nikola”, and as a result, selects the song “Letter from Nicholas” whose song name matches the user input. Therefore, both are compared on a morpheme basis.
  • the user input character string “Nikola” is a part of the morpheme “Nicholas” in the reading “Letter / From / Nicholas”.
  • step 1615 the user input character string is edited based on the morpheme.
  • the character string “Nicola” input by the user is extended to the corresponding morpheme and edited to “Nicholas”. This is the additional recognition vocabulary.
  • step 1620 the additionally recognized vocabulary created in step 1615 is determined.
  • a determination method an attribute including the additionally recognized vocabulary is used, and the attribute is used as a determination result. Therefore, the determination result is the music name.
  • the attribute can be determined by other methods without using this method. For example, a list of morphemes having a high absolute frequency or a high relative frequency is created using frequency information of morphemes included in each attribute of the name database. Next, it is possible to check which attribute in the list the additional recognition vocabulary is in, and use the result as a determination result.
  • step 1630 branching is performed in accordance with the determination result in step 1620. Since the determination result is the song name, the process proceeds to step 1635.
  • step 1635 the additionally recognized vocabulary is edited.
  • “Listen to Nicholas” is added to “Listen Too” first so that it is suitable for selecting the music title.
  • This additional method may be another method. For example, if “Nicholas” is added to the beginning of the song name, “Listen to Nicholas Something” will be added. You may use which position the vocabulary appears in the character string of the record value.
  • step 1640 “listen to nicholas” is added to the additional recognition vocabulary attribute 1460 of “letter from nicholas” selected by the user in the name database.
  • This additional method is shown at 1470 in the name database 170.
  • step 1645 the additional recognition vocabulary “Listen to Nicholas” is stored in the language model storage unit so that it can be recognized.
  • An addition in the dictionary 300 is shown at 1740 in FIG. In the corresponding ID number 1730, the ID number in the name database of the corresponding music “Letter from Nicholas” is recorded.
  • the addition in the grammar is the same as the addition of the connection rule in FIG. 3B, and is registered in parallel with the existing grammar path.
  • step 1670 the created additional recognition vocabulary, the attribute thereof, and the correspondence of what was actually selected are stored in the additional recognition vocabulary storage unit provided in the storage unit of the information search apparatus 100.
  • FIG. 18 shows an example of a table 2000 that is actually stored in the additionally recognized vocabulary storage unit of the information search apparatus 100.
  • the vocabulary “Nicholas” created in step 1615 is added to the additionally recognized vocabulary 2020 whose attribute 2010 corresponds to “music title”.
  • the music name “Letter From Nicholas”, which is a value including the additional recognition vocabulary “Nicholas” is also stored in association with it.
  • the relationship between the additionally recognized vocabulary and the value is expressed in the format of (additionally recognized vocabulary) :( value).
  • the search unit 160 compares the speech recognition result with the name database 170. As a result, the song “Letter from Nicholas” with “Listen to Nicholas” as an additional recognition vocabulary is listed as a candidate.
  • the search unit 160 As a method of selecting a music piece by the search unit 160, the corresponding ID number “0004” given to the additional recognition word “listen to nicholas” is referred to and the music piece “letter from nicholas” whose ID number matches in the name database. The method of selecting may be used. After that, the result is sent to the output unit, and an operation such as reproduction of car navigation audio is performed.
  • step 1620 the attribute of the additionally recognized vocabulary created in step 1615 is determined. As a determination result, an attribute corresponding to the value that included the additionally recognized vocabulary is output. Therefore, the determination result is the artist name.
  • step 1630 branching is performed in accordance with the determination result in step 1620. Since the determination result is the artist name, the process proceeds to step 1650.
  • step 1650 the additionally recognized vocabulary is edited. Here, “Listen to Music of Nicholas” is added first to add “Listen to Music of Nicholas” so that it is suitable for the selection of the artist.
  • step 1655 the additional recognition vocabulary “Listen to Music of Nicholas” is added to the additional recognition vocabulary attribute 1460 for all songs whose artist name is “Nicholas” in the name database 170.
  • step 1660 the additional recognition vocabulary “Listen to Music of Nicholas” is stored in the language model storage unit so that it can be recognized.
  • a state of being added to the dictionary 300 is shown at 1750 in FIG.
  • the corresponding ID number 1730 records the ID number in the name database of the song whose artist is “Nicholas”.
  • step 1670 the correspondence between the created additional recognition vocabulary, the attribute including the additional recognition vocabulary, and the value including the additional recognition vocabulary is stored in the additional recognition vocabulary storage unit.
  • the additional recognition vocabulary “Nicholas” created in step 1615 is added to the additional recognition vocabulary 2020 whose attribute 2010 corresponds to “artist name”, and the search target value. Add “Nicholas" to become.
  • the search unit 160 compares the speech recognition result with the name database 170. As a result, two songs with “listen to music of nicholas” as additional recognition vocabulary are listed as candidates. In addition, as a method for selecting a music piece by the search unit 160, the corresponding ID number “0001,0002” assigned to the speech recognition result “Listen to Music of Nicholas” is referred to, and the ID numbers in the name database 170 match 2 A method of selecting two songs may be used. This result is then sent to the output unit. Then, operations such as user selection and music playback are performed.
  • Steps 1661, 1662, and 1663 describe the addition of a speech recognition vocabulary when the attribute determination result in step 1630 is the composer name. For example, a case where the user inputs part of the composer name “Hita” and finally selects one of the composer name “Hitachi Taro” will be described. In this case, in step 1610 and step 1615, the same operation as before is performed, and the additionally recognized vocabulary “Hitachi” is extracted.
  • step 1620 the attribute of the additionally recognized vocabulary created in step 1615 is determined. As a result, the judgment result is the composer.
  • step 1630 the process branches according to the determination result in step 1620, and the process proceeds to step 1661, which is a composer name process.
  • step 1661 the additionally recognized vocabulary is edited. Here, “Listen to Music Compose by Hitachi” is added first to make it suitable for a search by composer name, and “Listen to Music Compose by Hitachi” is added.
  • Step 1662 the created vocabulary “Listen to Music Compose by Hitachi” is added to the additional recognition vocabulary 1460 of the name database 170 for all the songs whose composer name is “Hitachi Taro” in the name database. (Not shown).
  • step 1663 the additional recognition vocabulary “listen to music composed by hitachi” is stored in the language model storage unit so that it can be recognized.
  • the corresponding ID number 1730 records the ID number in the name database of the song whose composer name is “Hitachi Taro”.
  • step 1670 the correspondence between the created additional recognition vocabulary, the attribute including the additional recognition vocabulary, and the value including the additional recognition vocabulary is stored in the additional recognition vocabulary storage unit.
  • the additional recognition vocabulary “Hitachi” created in step 1615 is added to the additional recognition vocabulary 2020 whose attribute 2010 corresponds to “composer name”. A group of Hitachi Taro is added.
  • the user can select the song with the composer name “Hitachi Taro” if he / she inputs “Listen to Music” or “Composed by Hitachi”.
  • the additional recognition vocabulary “Nicholas” (2030) is stored in the “music name” attribute, and the data in the additional recognition vocabulary storage unit is added to the “artist name” attribute.
  • the recognition vocabulary “Nicholas” (2040) is stored, and the additional recognition vocabulary “Hitachi” (2050) is registered in the “composer name” attribute.
  • the recognition vocabulary creation unit 190 refers to the additional recognition vocabulary stored in the additional recognition vocabulary storage unit, and edits the name database so that a search can be performed even when a plurality of additional recognition vocabularies are combined and spoken. And edit the language model storage unit.
  • step 2110 a combination of additionally recognized vocabularies stored in the additionally recognized vocabulary storage unit is created.
  • Various rules can be adopted for making this combination.
  • the following criteria are used. ⁇ Combine additional recognition vocabulary with different attributes. ⁇ Exclude the song name attribute from creating a combination.
  • step 2115 it is checked whether there is a record that can be searched with the combination created in step 2110, and a combination that cannot be searched for is deleted.
  • the number of combinations created in step 2110 is one, and there is a song whose artist name is “Nicholas” and whose composer name is “Hitachi Taro” (a song with ID number “0002”). . Therefore, the combination is not deleted, and the process proceeds to step 2120.
  • step 2120 it is determined whether there are one or more combinations remaining after the processing in step 2115. In this case, since there is one, the process proceeds to step 2130. If it is zero, the process is terminated.
  • a combination recognition vocabulary which is a new recognition vocabulary is created using the combination.
  • a template corresponding to the attributes constituting the combination is prepared. It is assumed that several templates are prepared based on the word order in which the user naturally speaks. For example, the following are prepared as template examples. (1) Listen Too / Music of (artist name) / Composed By (composer name) (2) Listen Too / Music of (artist name) / In (music genre name)
  • a combination recognition vocabulary is created by applying the additional recognition vocabulary constituting the combination to one of the templates.
  • the attributes in this combination are artist name and composer name.
  • step 2140 the combination recognition vocabulary created in step 2130 is added to the additional recognition vocabulary attribute of the corresponding name database record. Specifically, in order to correspond to the song with the ID number “0002”, addition is performed as shown by 1490 in the name database of FIG. In this description, the case where there is only one music to be searched is described, but when there are a plurality of music, addition is performed for each music.
  • step 2150 the combination recognition vocabulary “Listen Too Music Ob Nicholas Composed By Hitachi” is stored in the language model storage unit so that it can be recognized.
  • the corresponding ID number 1730 records the ID number “0002” of the music to be searched.
  • the search can be performed by the user's natural wording.
  • one attribute including the user input character string is used as the determination result in the above description, but a plurality of attributes may be used. For example, consider a case where the user inputs the character string “Nicola” and the user selects the song “Letter from Nicholas” from the candidates. In this case, in the above-described embodiment, the additional recognition vocabulary “Listen to Nicholas” is added to the song “Letter from Nicholas”. However, the speech recognition vocabulary “Nicholas” obtained in step 1615 is included in the song name as well as in the artist name.
  • the vocabulary “Nicholas” is not limited to music titles and artist names, but is considered to be easy to understand for users.
  • the input character string may match a plurality of attributes of one record such that the selected music includes “Nicholas” in the music name and the artist name is “Nicholas”.
  • step 1655 is changed from the method shown in FIG. In other words, the music having the artist name “Nicholas” is searched from all the music in the name database, and “Listen to Music of Nicholas” is assigned to the additional recognition vocabulary attribute of each music.
  • this embodiment shows an implementation with a single terminal. However, these may be implemented by another terminal.
  • the music name search for example, a method of using a keyboard to input music on a personal computer to search for music is known. Here, the correspondence between the character string input for the search and the finally selected music is recorded. Further, an additional recognition vocabulary for each piece of music is created according to the embodiment of the present specification.
  • the additional recognition vocabulary is also transferred to the information device.
  • the additional recognition vocabulary can be designated by voice input.
  • This embodiment contributes to the proper use of keyboard input in a personal computer with easy keyboard input, and voice input in an embedded device in which the touch panel becomes small, and improves usability.
  • DESCRIPTION OF SYMBOLS 100 ... Information retrieval apparatus, 110 ... Operation input part, 120 ... Voice input part, 130 ... Speech recognition part, 140 ... Acoustic model memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

音声入力を利用した使い勝手のよい情報検索装置を提供する。 ユーザがタッチパネルなどにより入力した検索クエリを,音声認識語彙として使う。また,検索クエリを形態素情報や他のデータベースの情報により編集し,ユーザが発話しやすい音声認識語彙を提供する。

Description

情報検索装置,情報検索方法及びナビゲーションシステム
 本発明は,情報検索装置,情報検索方法及びナビゲーションシステムに係り,特に,テキストクエリを利用した音声認識辞書のカスタマイズを行う情報検索装置,情報検索方法及びナビゲーションシステムに関する。
 データベースからユーザが所望するデータを取り出すために,ユーザが対象となる名称の一部を文字入力し,入力された文字に一致するデータをユーザに提示し,ユーザが選択することによりデータを指定できる情報検索装置が知られている。また,音声入力により,該当する名称をユーザが発話し,音声認識を行った結果を利用してデータを検索する方法も知られている。
 このような情報検索装置における代表的なものとして,カーナビゲーションにおける目的地設定のタスクや、オーディオシステムにおける楽曲の検索等がある。  
 カーナビゲーションでは,全国に膨大にある施設名を検索して,目的地を設定するために,上記のような情報検索インタフェースが使用される。この情報検索では,最初,カーナビゲーションのタッチパネルやリモコンを介して,ユーザが施設名の一部を入力する。この後,検索ボタンを押すことにより,ユーザが入力した文字列を含む施設名の一覧が表示され,ここから1つを選ぶことにより,目的地を設定できる。また,ユーザは,音声により施設名を発話することによっても,目的地を設定することができる。
 タッチパネルやリモコンによる入力は,ユーザがすべての名称を入力しなくても,知っている一部分の名称を入力することで検索できるメリットがある。しかし,ボタン押しなどの操作を複数回行うため,操作時間が長くかかる。一方,音声認識機能を利用した入力は,一言発話するだけで済むため短時間で入力できるメリットがある。しかし,音声認識の認識率は100%ではないため,認識誤りが発生し,操作をやり直さなければならない場合がある。また,カーナビゲーションの音声認識では,認識率を高く,かつ処理時間を短くするため,受理できる語彙の数を少なく抑えることが一般的である。そのため,主に施設の正式名称だけが受理でき,また,受理できる施設の数も限られる。そのため,ユーザが自然に思いついた発話がカーナビゲーションで待ち受けておらず,ユーザが自分の希望する目的地を入力できない問題がある。この問題は,一般に,語彙外発話と呼ばれている。
 このことを解決するため,ユーザがある施設に対して,ユーザ自身が音声認識語彙を登録する機能が知られている(以下,音声認識語彙登録機能と呼ぶ)。この機能では,まず,ユーザが,タッチパネルやリコモンによる名称入力や住所入力などの方法により,所望の施設を選択する。つぎに,ユーザが,選択した施設に対する音声認識で使う語彙を入力する。この入力方法としては,タッチパネルやリモコンによる仮名文字の入力や,音声により発話する方法が知られている。たとえば,ユーザが友人の鈴木さんの家の住所を選択し,その状態で,読み仮名として「すずきさんち」を設定する。すると,その後ユーザが音声入力で「すずきさんち」と発話することで,鈴木さんの家への目的地設定といったカーナビゲーションの所定の動作を実行することができる。
 また,特許文献1には,施設名の正式名称に対して言い換え生成規則を適用して言い換え語を生成し,これを音声認識辞書に登録することで,正式名称ではない発話を認識する技術が開示されている。
特開2004-133003号公報
 ナビゲーションシステムで実装されている音声認識語彙登録機能では,この機能をユーザが明示的に呼び出す手間が必要であった。すなわち,音声認識語彙登録機能を利用するには,該当する施設を選択したのちに,タッチパネルなどによりそのための読み仮名を登録する手間があった。このため,音声認識機能を使いこなすために時間がかかるという問題があった。
 特許文献1に開示される技術では,音声認識辞書を追加するための言い換え生成規則において,それぞれ個別のユーザの知識を反映する点について考慮されていない。そのため,ユーザが知っている語彙が必ずしも音声認識辞書に登録されないこと,また,ユーザが知らない語彙が音声認識辞書に登録されること,といった問題があった。
 本発明の目的は,音声入力により検索する際に,ユーザにとって使い勝手のよい,情報検索装置,情報検索方法及びそれを用いたナビゲーションシステムを提供することにある。
 本発明の代表的なものの一例を示せば以下の通りである。即ち,本発明の情報検索装置は, 検索対象となる1つ以上の属性と,それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として,1つ以上の前記レコードを登録した名称データベースと,ユーザの操作入力を受け付ける操作入力部と,前記ユーザの音声入力を受け付ける音声入力部と,前記音声入力部から得られた音声を文字列に認識する音声認識部と,前記音声認識部において参照する音響データを格納する音響モデル記憶部と,前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と,前記操作入力部または音声認識部から入力された入力文字列を用いて,前記名称データベースに含まれる前記属性の前記値を検索し,該値に前記入力文字列が含まれる前記レコードを候補として生成する検索部と,前記検索部で生成された前記レコードの候補を検索結果として出力する出力部と,出力された前記レコードの候補を選択する選択手段と、前記選択手段による前記レコードの選択結果を受けて,前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成する認識語彙作成部とを備え,前記認識語彙作成部は,前記入力文字列に対応する前記追加認識語彙と前記選択されたレコードの対応関係を,前記名称データベース若しくは前記言語モデルに記録することを特徴とする。
 本発明によれば,ユーザが普段使用している情報検索のための文字列(検索クエリ)を,ユーザに発話しやすいように加工して,音声認識語彙として登録できる。よって,ユーザの音声認識機能を使いこなすための手間を少なくし,情報検索装置の使い勝手を向上することができる。また,ユーザが使った検索クエリを音声認識語彙として利用するため,ユーザが知っている語彙を音声認識語彙として使うことができ,語彙外発話の頻度が少なくなり,この点でも使い勝手を向上することができる。
本発明の第1の実施形態における情報検索装置の機能ブロック図である。 第1の実施形態におけるデータベースに格納される情報の内訳を示すテーブルの例である。 第1の実施形態の変形例になる,データベースに格納される情報の内訳を示すテーブルの例である。 第1の実施形態における言語モデルの辞書に格納されている単語の例である。 図3Aに示した言語モデルのうち,認識可能となる単語の連結規則を表した図である。 第1の実施形態変形例になる,言語モデルの辞書に格納されている単語の例である。 第1の実施形態における,タッチパネルとその画面表示の例を示す図である。 ユーザの入力操作に基き,表示が変更された画面の例を示す図である。 第1の実施形態における認識語彙作成部の処理手順を示したフローチャートである。 本発明の第2の実施形態における,形態素の重要度を示す表の例である。 第2の実施形態における,形態素の重要度を示す表の他の例である。 本発明の第2の実施形態における認識語彙作成部の処理手順を示したフローチャートである。 第2の実施形態における形態素の組合せに計算される重要度の例である。 第2の実施形態において,ユーザの入力操作に基き,表示が変更された画面の例を示す図である。 第2の実施形態における,形態素の組合せに計算される重要度を示す表の例である。 第2の実施形態における,処理手順を示したフローチャートである。 第2の実施形態における,形態素の組合せに計算される重要度を示す表の例である。 本発明の第3の実施形態における,情報検索装置の機能ブロック図である。 第3の実施形態における,認識語彙作成部と語彙種別判定部の処理手順を示したフローチャートである。 第3の実施形態における,ある属性に所属する形態素を示した語彙判定テーブルの例を示す図である。 第3の実施形態において,サブジャンルID番号とそれに対応する施設のID番号の関係を記録しておく,テーブルの例を示す図である。 本発明の第4の実施形態として,楽曲検索における名称データベースの例を示す図である。 第4の実施形態における画面表示の例である。 第4の実施形態における,認識語彙作成部,語彙種別判定部の処理手順を示したフローチャートである。 第4の実施形態における,言語モデルに格納されている辞書の内訳を示す図である。 第4の実施形態における追加認識語彙記憶部に保存される表の例を示す図である。 第4の実施形態における,認識語彙作成部の処理手順を示したフローチャートである。
 以下、本発明の実施例を図を用いて説明する。
 本発明の第1の実施例になる情報検索装置を,図1~図6を参照しながら説明する。図1に,本発明の第1の実施例になる情報検索装置の機能ブロックを示す。  
 本実施例では,カーナビゲーションにおいて,店舗などの施設を検索するための情報検索を例として説明する。情報検索装置100は,CPU,メモリ,ソフトウェア等により実現される各種の演算処理機能や画像処理機能を有している。情報検索装置100はその構成を機能ブロックに分けると,入力部として,ユーザの操作入力を受け付ける操作入力部110と,ユーザの音声入力を受け付ける音声入力部120とを備えている。操作入力部110は,ユーザの入力のうち,タッチパネル操作,リモコン操作,ダイアル操作などの操作入力を受け付ける。情報検索装置100はさらに,音声入力部から得られた音声を文字列に認識する音声認識部130,音声認識部において参照する音響データを格納する音響モデル記憶部140,音声認識部において認識する語彙と語彙の連結規則を記憶する言語モデル記憶部150,検索部160,名称データベース170,検索部で検索されたレコードの候補をユーザに提示する出力部180,提示されたレコードの候補からユーザが特定の候補等を選択する選択手段(図示略)、及び認識語彙作成部190を備えている。なお,上記情報検索装置100の各部の構成は,一例であり,ソフトウェア等の形態により各部が統合され,あるいは細分化されることもありうる。例えば、選択手段は、操作入力部110や音声入力部120の各機能の一部として構成しても良い。また,音響モデル記憶部140,言語モデル記憶部150,名称データベース170は,共通の記憶装置として構成される。
 名称データベース170は,検索対象となる1つ以上の属性と,それぞれの属性に対する内容である値とを関連付けて保存するレコードを単位として,1つ以上のレコードを登録したものである。検索部160は,ユーザにより入力された入力文字列を用いて,名称データベース170に含まれる1つないし複数の属性の値を検索し,値に入力文字列が含まれるレコードを候補として生成する。認識語彙作成部190は,検索部160の出力に基づいて言語モデル記憶部150に新たに追加すべき音声認識語彙である追加認識語彙を作成する。これにより,本実施例の情報検索装置100は,ユーザが検索のために入力した文字列,すなわち検索クエリを,音声認識語彙として登録し,検索に利用できるようにする。また,検索クエリを形態素情報や他のデータベースの情報により編集し,音声入力に際してユーザが発話しやすい音声認識語彙を提供する。なお,以下の実施例では,ユーザが英語による音声入力を行う例について、説明する。以下,各部の構成,機能について,詳細に説明する。
[名称データベースの説明:その1]
 名称データベース170は,情報検索装置で検索できるデータを蓄えておくデータベースである。本実施例では,カーナビゲーションの施設に関する情報を格納するものとして,説明する。  
 図2Aに,名称データベース170のテーブルの構成例を示す。なお,本発明では,各データの単位をレコードと称して説明する。  
 名称データベース170には,カーナビゲーションに登録されている全国(利用する国や地域)の施設名(名称)が記憶されている。1つのレコードに対しては,複数の属性に関する情報が付与されている。
また,それぞれの属性に保存されている情報を値と呼ぶこととする。  
 名称210は,それぞれの施設の名称を示す。  
 読み220は,各施設の読み仮名を付与する。また,ここでは,施設名の読みを分割した記号を「/」で記載している。分割したそれぞれの部分を形態素と称す。また,各形態素に応じて,その性質を記載した品詞を設ける。形態素分割の実装方法は,後ほど説明する。
 [形態素解析方法]
 ここでは,形態素分割の方法について説明する。
 [品詞の種類] 
 形態素は,自然言語により定義された語彙の単位の1つである。しかし,本実施形態では,施設名を区切りのよい箇所において区切った単位であると定義する。また、英語のように、それぞれの単語が区切られて表記される言語の場合、単語区切り位置をそのまま形態素の分割位置として使用することができる。さらに、単語区切り位置だけでなく、単語内の複合名詞の区切り位置や、活用が起こっている位置によって形態素を区切ることもできる。
 形態素の定義は,それぞれの言語により異なる。本実施例では,施設の名称の分割について述べる。このための形態素の体系としては,公知の文献(岩瀬成人: 自然言語処理を用いた企業名解析方式,電子情報通信学会論文誌,vol.J82-DII,no.8,pp.1305-1314,1999)で調査されている施設名を分割したときの意味カテゴリを形態素の単位として使用することができる。本明細書の実施形態では,「岩瀬」の論文を参考にして,品詞として,「固有名」,「地名」,「職種」という3種類を想定する。また,これらいずれにも入らないものとして,「その他」というものを設けて説明をする。
 また,のちほど楽曲検索における実施形態を説明するが,楽曲名については,利用する国や地域に応じた、既存の言語の品詞体系を流用する方法を適用できる。また,作詞者,作曲者,アーティスト名については,姓,名といった単位で分割し,それぞれを形態素と見なす方法をとることができる。
 [分割方法]
 形態素への分割方法としては,いくつかの方法をとることができる。  
 第1の方法として,最初から名称データベースにおいて,各名称の形態素区切りの位置と,各形態素の品詞を付与しておく実装が可能である。  
 第2の方法として,動的に形態素分割処理を行うことも可能である。たとえば,形態素解析の手法として,各形態素と品詞の関係を辞書としてもっておき,最長一致法,分割数最小法,接続コスト最小法といった手法を用いることで,施設名を形態素単位に分割することができる。
 [音声合成用の辞書の利用]
 また,形態素区切りを,音声合成用の辞書の情報を利用することも可能である。カーナビゲーションでは,施設名や楽曲名そのほかの情報を音声ガイダンスで読み上げるために,各名称の読みの情報を持っている。また,各読みには,自然に読み上げるために必要なアクセント情報,韻律の情報,形態素区切りの情報が付与されている。この情報を利用して,本発明での形態素区切りの単位として使用することも可能である。
 [名称データベースの説明:その2]
 図2Aに戻って,名称データベース170の説明をつづける。  
 メインジャンル230は,各施設の属するジャンルを格納する。  
 サブンジャンル235は,各施設の属するメインジャンル230よりも詳細なジャンルを格納する。たとえば,鉄道駅に対しては路線名を格納し,スーパーマーケットについては各施設が属するチェーンや経営母体の名称を格納する。
 住所240は,各施設の住所を格納する。  
 追加認識語彙250には,各施設を指定するために使用する音声認識語彙を登録する。この登録方法については,のちほど説明する。
 また,図2Aには示さないが,カーナビゲーションで一般に使用される,緯度,経度,マップコードといった属性も合わせて名称データベース170に保存しておく。
[構成の説明]
 図1に戻って,情報検索装置100の構成の説明をする。  
 操作入力部110は,ユーザの入力のうち,タッチパネル,リモコン,ダイアルなどの手での操作の入力を受け付ける。  
 音声入力部120は,ユーザの音声による入力を受け付ける。具体的には,マイクから入力したユーザの発話音声をデジタル信号に変換する。  
 音声認識部130は,音声のデジタル信号から音声認識し,文字列に変換する。ここでは,まず,ユーザが発話した音声データを,特徴ベクトル列に変換する。特徴ベクトル列とは,音声の各時刻の特徴量を多次元ベクトル量で表し,それを時系列に並べたものである。たとえば,各時刻の音声データをMFCC(Mel Frequency Cepstrum Coefficient)パラメータと呼ばれる多次元ベクトル量に変換し,これを時系列に並べたものが使用される。
 音響モデル記憶部140には,各音素に対応するモデルを保存しておく。このモデルの表現形態としては,各音素を3状態で定義したHMM(Hidden Markov Model)を使うことができる。  
 言語モデル記憶部150には,音声認識部が認識対象とする単語と,各単語の連結規則を記録する。
[言語モデル]
 言語モデル記憶部150の内訳を,図3A,図3Bで説明する。  
 ここでの言語モデルでは,名称データベース170におけるそれぞれの施設の読み220が認識できるように作られている。  
 図3Aは,言語モデルのうち,認識の単位となる単語を登録した辞書300を示す。ここでは,名称データベース170におけるそれぞれの施設の読み220が,単語として登録されている。  
 1つ単語の情報は,単語ラベル310,音素列320の2つの属性で構成される。  
 単語ラベル310には,音声認識結果として出力する文字列情報を記録する。
音素列320には,それぞれの単語の読み方に対応する音素記号を記憶する。図3Aの辞書300における音素記号と実際の音素の対応は,情報処理振興事業協会のプロジェクトにて開発された「日本語ディクテーション基本ソフトウェア」のフォーマットにのっとっており,以下の文献に記載されている。
  鹿野,伊藤,河原,武田,山本:「音声認識システム」,オーム社 (2001)の133ページ。  
  鹿野, 武田, 河原, 伊藤, 山田, 伊藤, 宇津呂, 小林, 嵯峨山, 峯松, 山本:「日本語ディクテーション基本ソフトウェアの開発」,第19IPA 技術発表会論文集(2000) (http://www.ipa.go.jp/SYMPO/sympo2000/pdf/ipa19_1_51_1.pdf)
 また、日本語以外の言語に対応した音素記号としては、例えば、X-SAMPA(Extended SAM Phonetic Alphabet)を使うこともできる。
 図3Bは,言語モデルのうち認識可能となる単語の連結規則360を表した図を示す。
記号「start」から「end」に向かういずれかのパスを認識可能であることを示している。ここでは,辞書に登録されているそれぞれの単語を認識できる有限状態文法による例を示す。図3Bの連結規則360には,図3Aの辞書300に追加した単語340,350に対応する文法パス345,355などが追加される。この点に関しては,後で詳細に説明する。
 なお,図3Cに変形例として示すように,言語モデル記憶部150の辞書300は対応ID番号330を3つめの属性として持っておいてもよい。対応ID番号330には,各単語に対応する名称データベースのID番号205を登録する。図3Cの辞書300は,図2Bのテーブル170と組み合わせて使用される。この使い方については,後ほど第1の実施例の変形例として説明する。
[音声認識部]
 音声認識部130は,入力音声の特徴ベクトル列と,言語モデルに記憶された認識可能な単語列の音素系列とを比較し,その一致の度合いを表すスコアを計算する。  
 そして,スコアが高かった単語列の単語ラベルの文字列を出力する。  
 ここでは,スコアがもっとも高かった単語列だけを出力しても良いし,スコアが高かった上位複数個の単語列を出力しても良い。  
 なお,音声認識の方法は,下記の文献に詳しく記載されており,実装に使用することができる。
  Lee, Reddy : "Automatic Speech Recognition: The Development of the Sphinx Recognition System", Kluwer Academic Publishers (1989)
  Rabiner, Juang : "Fundamentals of Speech Recognition", Prentice Hall PTR (1993)
[検索部]
 検索部160は,音声入力部120または音声認識部130から出力された文字列を用い,名称データベース170にある各属性の値のなかで検索を行い,レコードの選択候補を生成する。
  [テキスト入力,音声入力による候補生成の一般的な流れ]
 ここで,ユーザの入力により検索部160において選択候補が生成される流れを示す。
  図4は,カーナビゲーションの画面に装着されたタッチパネル400とその表示の例を示す。このタッチパネル400は,グラフィカルユーザーインターフェース(GUI)機能を有し,操作入力部110,検索部160及び出力部180の各機能を備えている。タッチパネル400はさらに、出力部で出力されたレコードの候補一覧から特定の候補を選択する選択手段の機能も備えている。ここでは,施設を文字入力により検索することで説明する。  
 文字ボタン410は,各ボタンを押すことにより文字を入力できる。また,文字の削除,入力文字種の変更,カーソル移動を行うボタンも用意する。  
 表示エリア420には,ユーザが文字ボタン410により押下した文字列が表示される。  
 検索ボタン430は,ユーザが選択候補の内訳を見たいときに押下するボタンである。また,ユーザが文字ボタン410を押下して文字列を更新するたびに,検索部160で得られた選択候補が何件あるかを括弧内に表示する。
 ここでは,例として,ユーザは「フニツ(funit)」と入力したとする。  
 この入力は,操作入力部110を経て,検索部160へ伝達される。  
 検索部160では,名称データベース170の属性から読み220の値を検索し,ユーザ入力文字列「フニツ」を含むレコードを検索する。  
 なお,ユーザの入力の利便性を考慮し,撥音や拗音などで含まれる小さい文字は,対応する大きい文字でも検索できるものとする。また,濁音,半濁音は,有無を問わず検索できるものとする。  
 この検索の結果,「スーパー フニット 国分寺 ストア」,「スーパー フニット 府中 ストア」,「ふにつる ホテル」の3件が選択候補として得られる。  
 そして,ユーザがタッチパネル400の選択手段の機能により、選択候補を選択して検索ボタン430を押下したとする。  
 この選択手段の押下動作により,施設の候補は出力部180に送られる。出力部180は,ユーザに選択候補を提示するため画面表示の変更,または,ユーザに選択候補を音声にて伝える音声再生を行う。
 出力部180により変更されたタッチパネル400の画面を図5に示す。候補表示エリア510には,生成された選択候補が表示される。  
 これを受けて,ユーザはタッチパネル400の選択手段の機能により、選択候補の中から自分の行きたい1つの施設を選択し,候補表示エリア510の対応する施設を押下する。この選択手段の押下結果は,操作入力部110を経て受理される。これにより,たとえばユーザが「スーパー フニット 府中 ストア」を選択した場合には,この施設を選択結果とし,経路探索や地図表示といったカーナビゲーションの所定の動作を行う。
 つぎに,ユーザが、選択手段として音声入力機能を利用した場合の動作を説明する。  
 ユーザが音声で,「スーパー フニット 府中 ストア」と発話したとする。この音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換される。
  音声認識処理では,音声信号が,言語モデル記憶部150にある認識対象の単語列のうちもっとも類似するものを探索する。その結果,「スーパー フニット フチュウ ストア」が出力されるとする。  
 このユーザによる選択手段を介した選択結果は,検索部160に入力される。
 検索部160では,音声認識結果「スーパー フニット フチュウ ストア」と名称データベース170の読み220を比較し,完全一致する施設を検索する。その結果,施設「スーパー フニット 府中 ストア」が選ばれる。その後,出力部180より出力される。この場合,候補は1件であるので,経路探索や地図表示といったカーナビゲーションの所定の動作を行う。
 検索速度をより高速とするために,第1の実施例の変形例として,図2B,図3Cに示したように,それぞれの施設に固有に付与されたID番号を用いる方法がある。すなわち,名称データベースの変形例として,図2Bに,テーブル170の構成例を示す。この例では,属性として,それぞれの施設に固有に付与されたID番号を示すID番号205が追加されている。代わりに,名称データベース170の追加認識語彙250の項目は省略されている。また,図3Cに示したように,言語モデルの辞書300に記載される各単語の情報として,単語ラベル310,音素列320のほかに,各単語に対応するレコードのID番号205も記憶しておく。これを,図3Cの対応ID番号330に記載する。たとえば,単語「スーパー フニット フチュウ ストア」には,対応ID番号には,名称データベース170で対応するレコードのID番号「0201」を記憶しておく。
 さらに,音声認識部130は,音声認識結果を出力する際に,単語ラベルのほかに,認識された単語の対応ID番号330も出力する。検索部160は,音声認識部130の出力のうち,認識単語に付与された対応ID番号330を参照し,名称データベース170で同じID番号「0201」を持つレコードを候補として生成する。結果として,施設「スーパー フニット 府中 ストア」を候補として生成できる。
 [検索の方法]
 上記述べた検索部160での実際の検索の実装方法について説明する。  
 まず,検索のクエリとなる入力がタッチパネル400などで入力され,操作入力部110から得られた文字列である場合について説明する。  
 検索を行う1つめの方法として,全件検索がある。この方法では,まず,操作入力部110から得られた文字列と,名称データベース170の属性の読み220のすべてとを比較し,入力文字列と部分一致したレコードを検索する。しかし,全件検索の処理では,比較演算の回数が多くなるため,処理速度は遅くなる。
 この処理を高速化した2つめの検索方法として,データベース検索に使用されるインディクスを用いた検索を適用できる。まず,あらかじめ,入力文字列と対応するレコードを特定する情報(たとえば,図2Bの名称データベース170のID番号205,レコードの記憶装置上での格納位置を示すアドレスなど)の関係を記録したインディクスを作成しておく。そして,ユーザが検索のために文字すなわちクエリを入力すると,入力された文字列をキーとしてインディクスを参照することで,対応するレコードの一覧を即座に得ることができる。そのほか,データベース検索に使用される公知の技術が使用できる。
 つぎに,検索のクエリとなる入力が音声入力であり,音声認識部130から得られた文字列である場合について説明する。  
 入力が音声である場合も,検索部160に文字列が入力されるため,タッチパネルなどの入力と同様の方法で検索を行うことができる。すなわち,入力文字列と名称データベース170の読み220のすべてとを比較する全件検索の方法を用いることができる。また,あらかじめ,音声認識部130から得られる可能性があるあらゆる文字列と,それぞれの文字列に対応するレコードを特定する情報(たとえば,図2Bの名称データベース170のID番号205,レコードの記憶装置上での格納位置を示すアドレスなど)の関係を記録したインディクスを作成しておき,音声認識結果をキーとしてインディクスを参照することで,施設候補を得る方法を使用できる。
 本発明における音声認識結果やタッチパネル入力を用いた検索の処理は,上記のような検索処理の方法によって実装可能である。
  [音声認識のいろいろな実装]
 上記第1の実施例及びその変形例の説明では,音声認識の結果として,1個の単語列が入力される場合を想定した。しかし,音声認識処理では複数の単語列を得ることも可能である。よって,複数の音声認識の単語列が得られた場合には,それらいずれかの単語列または単語を含む施設名を検索し,その結果を出力しても良い。
 また,上記第1の実施例及びその変形例の説明では,音声認識の結果が,名称データベース170の1つの施設の読み220と完全一致する想定で説明した。また,言語モデル記憶部150での文法は,図3Bの連結規則360のように,各施設の読みがそれぞれ並列に記録されている状態とした。一方,言語モデルにおいて,施設名をより細かく分割した単位で単語を記憶し,これをN-gram言語モデルのような連結確率を付与した文法と組み合わせて利用してもよい。この場合には,施設名の一部分の文字列が得られる。よって,検索部160では,認識結果の文字列が施設名の読み220に含まれる(部分一致する)レコードを候補として挙げ,その結果を候補として使用してもよい。
[第1の実施例の前提] 
 以下,本実施例では,
 ユーザはタッチパネルにより「フニツ」と入力し,
 この検索の結果,「スーパー フニット 国分寺 ストア」,「スーパー フニット 府中 ストア」,「ふにつる ホテル」の3件が候補として得られ,
 ユーザが「スーパー フニット 府中 ストア」を選んだ場合における,認識語彙作成部190の動作を説明する。
[認識語彙作成部]
 図6に,認識語彙作成部190の処理の流れを示す。  
 ステップ610では,ユーザが入力した文字列「フニツ」と,決定した施設「スーパー フニット 府中 ストア」の読みとの形態素単位での比較を行う。  
 その結果,ユーザ入力文字列「フニツ」は,読み「スーパー/フニット/フチュウ/ストア」のなかの形態素「フニット」の一部分であることが分かる。
 ステップ620では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツ」を,該当する形態素まで延長し,「フニット」に編集する。
これを音声認識語彙として使用する。
 ステップ630では,ステップ620で作られた音声認識語彙を,ユーザが選んだ名称データベース170の施設「スーパー フニット 府中 ストア」の追加認識語彙250に登録する。このとき,ユーザがより発話がしやすいように,「ゴー トゥー~」「ティク ミー~」といった語彙と連結させても良い。ここでは,「ゴー トゥー~」を連結させることとする。
図2Aの名称データベース170の260に,「ゴー トゥー~」の追加の方法を示す。
 ステップ640では,追加認識語彙250に登録した語彙に沿って,言語モデル記憶部150に単語を登録する。ここでは,読み「ゴー トゥー フニット」とその発音を示した音素列の対を,言語モデル記憶部150の辞書300に登録する(図3Aの340)。また,辞書に追加した単語に対応する文法パスを文法(連結規則)360に追加する
(図3Bの345)。
 また,上記変形例の場合,辞書300に追加した単語には,ユーザが選んだ施設「スーパー フニット 府中 ストア」のID番号205である「0201」を対応ID番号330に登録する。すなわち,言語モデル記憶部150に記憶されている語彙のそれぞれには,対応する識別子(ID番号330)が合わせて記憶されており,音声認識部130は,認識された語彙に合わせて,認識された語彙に対応する識別子をも併せ出力し,検索部160は,音声認識部が出力した語彙に付与された識別子を参照し,名称データベース170の同一となる識別子を持つレコードを候補として生成する。従って,認識語彙作成部190は,図6のステップ620において,検索部160の出力に基づいて追加認識語彙を作成し,ステップ630における名称データベース170への登録を省略してステップ640に進み,ステップ640において,名称データベース170におけるユーザが選択したレコードに対応する対応ID番号と作成した追加認識語彙とを組み合わせた形式で,語彙を言語モデル記憶部150の辞書300にも追加する。
 また,「ゴー トゥー フニット」が追加認識語彙であることを示すフラグを合わせて登録して管理してもよい。
[追加認識語彙を使った目的地設定]
 第1の実施例における,その後の操作について説明する。  
 ユーザは,音声により,「ゴー トゥー フニット」と発話する。  
 この結果は,音声入力部120を経て音声認識部130にて音声認識処理が行われる。
この音声認識処理の結果,音声認識結果の単語ラベル「ゴー トゥー フニット」が得られる。  
 つぎに,検索部160では,音声認識結果の単語ラベルと名称データベース170を比較する。  
 ここでは,名称データベース170のうち,読み220のほかに,追加認識語彙250とも比較を行う。その結果,施設「スーパー フニット 府中 ストア」の追加認識語彙「ゴー トゥー フニット」260と一致する。  
 この結果を受けて,出力部からは,「スーパー フニット 府中 ストア」に目的地を設定します」という音声応答を出し,かつ地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
 なお,上記変形例の場合,ユーザの「ゴー トゥー フニット」という発話から施設「スーパー フニット 府中 ストア」を選択する処理の手順は,言語モデル記憶部に付与された対応ID番号330を使用することにより,名称データベース170の読み22,追加認識語彙250と比較する処理を省略して実装する。具体的には,音声認識部は,音声認識結果として単語ラベル「ゴー トゥー フニット」に加えて,対応ID番号「0201」も合わせて出力する。検索部160は,音声認識結果のうち対応ID番号「0201」を参照し,名称データベース170のID番号205の中で一致する施設を候補として生成する。この方法においても,施設「スーパー フニット 府中 ストア」を候補として選択することができる。
[認識語彙作成部の別例]
 次に,第1の実施例において,ユーザが,図5の候補表示エリア510から,「ふにつる ホテル」を選択した場合において,認識語彙作成部190の動作を説明する。  
 この場合には,ユーザが入力した文字列と一致する形態素は「ふにつる」である。よって,「ふにつる ホテル」に対して語彙「ゴー トゥー フニツル」が生成され,名称データベース170の追加認識語彙250と,言語モデル記憶部150に登録される。よって,ユーザは,「ゴー トゥー フニツル」と発話すれば,「ふにつる ホテル」に関する所定の動作を行う。
 以上,本実施例では,ユーザがタッチパネルなどで入力した文字列に従い,音声認識語彙を追加する。このことにより,ユーザが最初から知っている語彙を音声認識のために使用できるため,語彙外発話の頻度を少なくし,使い勝手を向上することができる。
 なお,本実施例では,形態素区切りを利用してユーザが入力した文字列を拡張した。このことにより,ユーザがタッチパネルで入力した文字列が「フニツ」のように不完全であっても,形態素単位で拡張することにより,ユーザが発話するために自然に感じる単位まで広げることができる。しかし,本実施例とはことなり,ユーザが入力した文字列をなんら加工することなく,追加認識語彙として使用してもよい。
[漢字カナ入力を許容した場合]
 また,本実施例では,ユーザがタッチパネルで入力する文字は仮名である想定であった。しかし,漢字カナ混じりの文字が入力されてもよい。この場合には,名称データベースの名称210に対して,それぞれの名称を形態素に分割しておく(例.「荻窪/ステーション」)。そして,ステップ610での処理では,ユーザが入力した漢字カナ混じりの文字列を,施設の名称210と比較し,該当する形態素を特定する。このことにより,ユーザの漢字カナ混じりにも対応できる。
[タッチパネル入力による追加認識語彙の検索]
 また,本実施例では,ユーザがタッチパネルで入力した文字を加工し,これを音声認識語彙として使用する実施例を使用した。しかし,作成された音声認識語彙は,音声認識のためだけでなく,通常のタッチパネルなどの操作における入力でも,検索対象語として使うことができる。  
 たとえば,名称データベースの施設「スーパー フニット 府中 ストア」に対して,すでに追加認識語彙属性に「フニット」が追加されているとする。この状況で,ユーザがタッチパネルより「フニット」と入力したとする。この場合,検索部では,名称データベースの読み220を検索し,読みに「フニット」がつく施設を候補として生成した。
 このとき,名称データベース170の追加認識語彙属性も見ると,施設「スーパー フニット 府中 ストア」の追加認識語彙属性と一致する。この判断に基づいて,他の候補よりも優先的に「スーパー フニット 府中 ストア」をユーザに提示することが考えられる。  
 たとえば,検索クエリ「フニット」での候補が数百件ある状況でも,画面表示において,「スーパー フニット 府中 ストア」を候補表示エリア510のいちばん上に表示するといったことが考えられる。このようにすれば,ユーザは知っている施設をすぐに見つけることができる。
 本発明の第2の実施形態になる情報検索装置を,図1,図2A及び図7A~図10Bを参照しながら説明する。  
 この実施形態は,第1の実施形態において,ユーザが選択した施設に対して,複数の追加認識語彙の候補を作成し,そのなかからユーザに選択してもらうことを特徴とする。  
 さらに,追加認識語彙がすでに音声認識で使われている場合や,類似する認識語彙が存在する場合には,その追加のための動作を変更する。  
 なお,名称データベース170,言語モデル記憶部150,辞書300等の構成は,第1の実施形態で説明したID番号を用いない方式とするが,第1の実施形態の変形例で説明したID番号を用いる方式で実現しても良い。
[第2の実施形態の前提]
 本実施形態の説明の前提として,まず,名称データベース170において,追加認識語彙250として「ゴー トゥー スーパー フニット」が施設「スーパー フニット 国分寺 ストア」に追加されているものとする(図2Aの282)。そのため,言語モデル記憶部150にも,すでに,「ゴー トゥー スーパー フニット」という語彙が登録されているものとする。  
 ここから,ユーザは,タッチパネルより「フニツ」と入力し,施設名候補の中から,「スーパー フニット 府中 ストア」を選択したとする。
[形態素重要度]
 つぎに,形態素に関して形態素重要度を振っておくことについて説明する。  
 図7A及び図7Bは,各々,本実施形態における形態素の重要度を定義した表700の一例である。  
 図7Aのような「スーパー フニット 府中 ストア」に含まれる形態素710それぞれの形態素重要度730を定義した表700を設ける。形態素重要度とは,ユーザにとって,その形態素を発話することで,該当する施設を呼び出すことが自然である場合に高くなる指標として定義する。たとえば,名称「スーパー フニット 府中 ストア」を形態素「フニット」という発話で指定することは自然と考えられるため,形態素重要度を高く設定しておく。一方,形態素「ストア」だけで施設を指定することはほとんどないと考えられるため,「ストア」の形態素重要度は低い値とする。
 また,この形態素重要度は,形態素710に寄らなくとも,品詞720ごとに定義した値を用いても実装できる。この場合には,固有名,地名,職種は高くし,その他を低くすることが挙げられる。その他の中には、例えば、法人種別名(カブシキガイシャ,ザイダンホウジン,など)が含まれる。
 また,形態素重要度は連続値でなくとも,量子化された値でも良い。たとえば,「重要」,「非重要」という2段階のいずれかの情報を付与してもよい。また,図示はしないものの,形態素の複数組合せに対して形態素重要度を付与しても良い。たとえば,「スーパー/フチュウ」という「フニット」をスキップした組合せがユーザにとって自然であれば,この組合せに対して重要度を高くするといったこともできる。
[認識語彙作成部の動作]
 つぎに,本実施例における認識語彙作成部190の処理の流れ,を図8に示す。
   [ユーザが入力した文字列に該当する形態素重要度の加算]
 ステップ810では,まず,ユーザが入力した文字列を含む読みの形態素を特定する。その結果,形態素「フニット」がユーザの入力した文字列だと特定される。つぎに,この形態素の重要度を増える方向に再計算する。この実施例では,0.5を加算することとする。これにより,形態素「フニット」の形態素重要度は,図7Aの740で示すとおり,1.4となる。
   [形態素の組合せによる音声認識語彙の生成]
 ステップ820では,音声認識語彙の候補として,施設の形態素の組合せを生成する。さらに,この組合せに対する組合せ重要度も算出する。組合せ重要度とは,高いほど,その形態素の組合せをユーザが発話することが自然であるように付与した重要度である。その算出方法にはさまざまな方法があるが,ここでは,形態素重要度を加算したのち,形態素の数で割った平均値を組合せ重要度として使用する。
 図9Aの表900に,ステップ820で計算した組合せ重要度の例を示す。形態素組合せ910は,形態素のそれぞれの組合せである。組合せ重要度920は,それぞれの形態素の組合せに対して算出された組合せ重要度である。また,組合せ重要度920は,高い順に並べ替えてある。
 たとえば,形態素組合せ「スーパー/フニット」の場合には,「スーパー」の形態素重要度が0.8,「フニット」の形態素重要度が1.4である。よって,加算した後,形態素数2で割ることにより,1.1と計算される。
  [既存の音声認識語彙と類似する組合せの重要度の低減]
 ステップ825の動作において,生成されたそれぞれの形態素組合せと,言語モデル記憶部に保存されている単語との類似度を計算する。ここでは,「ゴー トゥー~」など認識語彙生成部で付加した語を取り除いた状態において,完全一致していれば類似度1,完全一致していなければ類似度0として算出する。なお,この方法でなくとも,単語の音素間距離などを用いて連続的な値を用いてもよい。音素間距離は,音素記号の編集距離やBhattacharyya距離などの公知の方法により計算できる。
 このようにして計算した結果を,図9Aの表900に「類似度」930として示す。すでに「スーパー フニット 国分寺 ストア」に対して,音声認識語彙「ゴー トゥー スーパー フニット」が使われている(図2Aの282)。よって,計算では,すでに言語モデルに「ゴー トゥー スーパー フニット」が存在するため,形態素組合せ「スーパー/フニット」に対しては1,それ以外では0となる。
 この結果を受けて,類似度が高い場合には,組合せ重要度を低くする方向に再計算する。ここでは,例として,類似度が1であるものは,組合せ重要度を0にする。これにより,形態素組合せ「スーパー/フニット」に対する組合せ重要度は0となる(図9Aの表900中における940の操作)
  [音声認識語彙の候補の提示とユーザ選択]
 ステップ830の動作において,認識語彙作成部190は,組合せ重要度920が高かった上位数個の形態素組合せ910を,追加認識語彙の候補とみなす。そして,出力部180に出力する。ここでは,上位3個を出力する。  
 これを受け,出力部では,画面表示を更新する。表示を更新した表示画面400を図9Bに示す。この画面では,ユーザに対して,候補となる追加認識語彙のうち,どれを使用するかを尋ねることを目的とする。
 選定施設表示エリア1010には,ユーザが選んだ施設の名称を表示する。
追加認識語彙候補表示エリア1020には,認識語彙作成部190より出力された追加認識語彙の候補を表示する。なお,ユーザにとって視認性が良いように,追加認識語彙の元となった漢字仮名混じりにより表示する。
 この表示により,ユーザに対して,表示画面400の追加認識語彙候補表示エリア1020に表示した追加認識語彙のうち,どれを採用するかを選択してもらう。そのため音声出力として,「スーパー フニット 府中 ストア」の音声コマンドを設定します。画面のなかから選択してください」といったガイダンスを流しても良い。 
 ユーザは,このなかから「フニット 府中」を選択した場合を説明する。  
 ステップ840の条件式により,ユーザは音声認識語彙を選択したため,処理はステップ850に移る。  
 ステップ850では,選択した「フニット 府中」を,名称データベース170の「スーパー フニット 府中 ストア」の追加認識語彙250に登録する。このとき,第1の実施形態と同様に「ゴー トゥー~」を付与した形態で追加することとし,「ゴー トゥー フニット フチュウ」を追加する。この処理を図2Aの名称データベース170に270として示す。  
 ステップ860では,言語モデル記憶部150に単語「ゴー トゥー フニット フチュウ」を追加する。
 以降,実施例1と同様に,ユーザが「ゴー トゥー フニット フチュウ」と発話することにより,施設「スーパー フニット 府中 ストア」に対応する所定の動作を行うことができる。
  [音声認識語彙の候補の提示と,ユーザがいずれも選択しない場合]
 一方,処理をステップ830での音声認識語彙の表示に立ち戻って説明を追加する。ユーザ状況では,候補として表示された音声認識語彙のいずれも使用したくない場合もある。その場合に対応するため,図9Bの画面400において,設定拒否ボタン1030を設ける。
 この設定拒否ボタン1030をユーザが押下した場合には,ステップ840の条件式により,ユーザは音声認識語彙を選択しなかったため,処理は終了する。これにより,いずれの音声認識語彙も採用されることがなくなる。
 以上,説明したように,複数の追加認識語彙を生成し,そこからユーザに選定してもらう動作を設けることにより,ユーザが使用したい語彙を使って,目的地設定が出来るようになる。また,語彙を使わない操作方法を設けることで,ユーザの意図しない語彙の追加を防ぐことができる。  
 また,追加認識語彙を生成する際に,形態素の重要度に基づいた組合せを生成することにより,よりユーザにとって使いやすい音声認識語彙を提供することができる。  
 また,形態素の重要度に対して,ユーザが入力した文字列に対応する形態素の重要度を増す動作を行うことにより,ユーザが入力した形態素を含む追加認識語彙を表示されやすくすることができる。
[認識誤りの原因となる,似た音素の語彙を外す]
 また,本実施例で示したように,既存の言語モデルにある語彙を候補からあらかじめはずすことにより,特定の似ている語彙で複数の施設が指定されることを防ぐことができる。  
 本実施形態では,既存の語彙と完全一致している場合に,その語彙を追加認識語彙の候補からはずす例で説明した。しかし,以下のような実装も可能である。
まず,完全一致ではないが,きわめて似ている語彙が追加認識語彙に現れる場合がある。たとえば,「ふにつる ホテル」にすでに追加認識語彙「ゴー トゥー フニツル」が存在する状態で,「スーパー フニット 府中 ストア」のための追加認識語彙として「ゴー トゥー フニット」が候補として現れる場合がある。この「フニツル」と「フニット」という語彙は,音素が似ている。そのため,互いに誤認識しやすい対と考えられることができる。このような場合においては,ステップ825の語彙の類似度計算において,音素間距離による方法によって類似度を連続値として算出し,類似度が閾値以上となった場合に,その組合せの重要度を下げ,候補としてはずす作用を実現できる。これをとることにより,追加認識語彙「フニット」を候補からはずすことができる。これにより,あらかじめ類似度が高い語彙を追加認識語彙からはずすことで,認識誤りの発生を抑えることができる。
[追加認識語彙以外との類似度の計算]
 また,本実施例では,既存の言語モデルにある語彙のうち,すでに追加されている追加認識語彙と比較し,その結果,似ている語彙があった場合に候補からはずす処理で説明した。しかし,既存の語彙は,追加認識語彙ではない場合も含まれる。たとえば,カーナビゲーションにて最初から認識可能な施設の正式名や,カーナビゲーションの音声コマンドと比較し,それらと候補となる追加認識語彙が似ている場合に,候補からはずすこともある。
[追加語彙が似ている場合のユーザへの問い合わせ]
 また,類似度が高い場合には,それを候補からはずす操作を行わなくとも,そのまま画面に候補を提示し,その使い方をユーザに聞いてもよい。
   [使用するか否かの問合せ]
 第1に,ユーザにその語彙を追加するかを聞く方法をとることができる。前述の例のように,「ふにつる ホテル」にすでに追加認識語彙「ゴー トゥー フニツル」が存在する状態で,「スーパー フニット 府中 ストア」のための追加認識語彙として「ゴー トゥー フニット」が候補として現れる場合を考える。このとき,音声ガイダンスにより,「『ゴー トゥー フニット』は,『ゴー トゥー フニツル』と似ています。『ゴー トゥー フニット』を音声コマンドに追加しますか?」とユーザに尋ね,ユーザが追加すると判断した場合にのみ,追加してもよい。
   [上書きや複数の施設の指定に対する問合せ]
 第2に,類似度が高い場合には,既存の追加認識語彙と同じ語彙で,新しい施設を指定するように変更するか,または複数の施設を指定するようにするかを尋ねてもよい。たとえば,名称データベースにおいて,すでに施設「スーパー フニット 国分寺 ストア」に追加認識語彙「ゴー トゥー スーパー フニット」が存在し(図2Aの282),その状態からさらにユーザが,施設「スーパー フニット 府中 ストア」に対しても,語彙として「スーパー フニット」を追加する場合がある。この場合,ユーザに,音声ガイダンスにて,「スーパー フニットはすでに『スーパー フニット 国分寺 ストア』で使われています。『スーパー フニット 府中 ストア』を指定するように変更しますか。それとも,両方の施設を指定できるようにしますか」と問う。これにより,ユーザの選択に応じて,「スーパー フニット 国分寺 ストア」の追加認識語彙を削除し「スーパー フニット 府中 ストア」に「ゴー トゥー スーパー フニット」を登録すること,または,「スーパー フニット 国分寺 ストア」の追加認識語彙を残したまま「スーパー フニット 府中 ストア」にも「ゴー トゥー スーパー フニット」を登録すること,の動作を選ぶことができる。
[追加語彙が他の施設の認識語彙としてもふさわしい場合の処理] 
 また,候補として現れた追加認識語彙が,他の施設の追加認識語彙としても使われる可能性がある場合がある。たとえば,図9Aの910にある形態素組合せのうち,「フニット」は,ユーザが設定した「スーパー フニット 府中 ストア」だけでなく,「スーパー フニット 国分寺 ストア」にも含まれる形態素である。よって,形態素組合せ「フニット」は他の施設の音声認識語彙としてもふさわしい。
 よって,このような他の施設にも含まれる形態素組合せに対しては,重要度を下げる操作を行う。これにより,ユーザには,ユーザが指定した施設をより特徴づける追加認識語彙を候補として提示することができ,使い勝手を向上することができる。
[施設名形態素の重要度を調節し,ユーザが入力していない形態素の言いかえを作成]
 一方で,施設の形態素に重要度を付与することにより,その施設名の特徴を表す度合いが極めて強い形態素には特別の配慮をすることができる。たとえば,ユーザは遊園地を選ぶために「ランド」とタッチパネルで入力し,得られた候補のなかから,結果として,「東西/でんでん/ランド」(「/」は形態素区切り)という施設名を選定したとする。この場合,第1の実施形態では,「ランド」を追加認識語彙として生成していた。しかし,「ランド」という語彙は遊園地の多くに含まれるため,「東西」「でんでん」といった他の形態素を追加認識語彙として使用したほうが,ユーザにとって分かりやすいと考えられる。その場合に,本実施形態では,「東西」「でんでん」に対して高い重要度を割り振ることを行えば,仮にユーザが入力した文字列にこれらの形態素が含まれなくとも,「東西」「でんでん」といった語彙を追加認識語彙の候補としてユーザに示すことができる。
[形態素の品詞によるルール]
 また,本実施例では,形態素のすべての組合せを候補として考えた。しかし,この方法では,「フニット/ストア」といった不自然な語彙も生成されている。これを解消するためには,形態素組合せを生成する際に,「「その他」品詞の形態素は、その形態素と隣り合っている別の形態素も形態素組合せ内に存在する場合にのみ、形態素組合せに使用する。」といった,品詞に基づいたルールを設けて,生成を抑止してもよい。
 [形態素の品詞の組合せによるルール]
 また,形態素の組合せを考える場合,その品詞の内訳により,重要度を左右することもできる。ここでは,図2Aの名称データベースにおいて,ユーザが「マコマ」と入力し,施設「札幌真駒内ビーチ」を選択したとする。  
 この施設の各形態素の重要度は,図7Bの表700のように定義されていたとする。さらに,ステップ810の処理により,ユーザが入力した形態素は「マコマナイ」と特定される。750のとおり,形態素「マコマナイ」の形態素重要度に0.5を加算する。
 ステップ820では,これら形態素を組み合わせて,それぞれの形態素組合せに対する組合せ重要度を計算する。この形態素の組合せを考えた場合,たとえば「サッポロ/マコマナイ」は,両方ともに地名であり,この施設を特定するための語彙としてはユーザにとって不自然であると考えられる。一方,「マコマナイ/ビーチ」は,地名と職種の両方を含むため,ユーザにとっては分かりやすい語彙であると考えられる。よって,これらの分かりやすさを考慮するために,異なる品詞の組合せに対しては,形態素組合せの重要度を加算する操作を本実施例で行う。
 この計算の方法を図9Cに示す。図9Cは,第2の実施形態における形態素の組合せに計算される重要度を示す表1800の例である。まず,それぞれの形態素組合せ1810に対して,補正前の形態素組合せの重要度を計算する。これは,前述の方法と同様に,形態素重要度をすべて加算し,これを形態素数で割る。この結果,1820のように計算される。つぎに,それぞれの形態素組合せ1810が,すべて異なる品詞であるか否かを判定する。その結果は1830となる。たとえば,「サッポロ/マコマナイ/ビーチ」は,地名を2つ含むため,判定結果はNOとなる。また,「サッポロ/ビーチ」は,地名と職種の組合せであり,形態素がすべて異なるため,YESとなる。1個の形態素のものは,判断しない。この結果,YESとなったものに対して,組合せ重要度に0.2加算するものとする。
その結果,補正後の組合せ重要度1840が算出される。この補正後の組合せ重要度が高いものから順にユーザに提示するものとなる。  
 これにより,異なる品詞の組合せをユーザに優先して提示することにより,ユーザにとって分かりやすい音声認識語彙を提供することができる。
 [形態素と他の名称データベースの語彙との組合せ]
 また,形態素の組合せを考える場合,名称のなかの形態素に,その他の名称データベースに含まれる情報との組合せをとっても良い。  
 ここでも,図2Aの名称データベース170において,ユーザが「マコマ」と入力し,施設「札幌真駒内ビーチ」を選択した場合において説明する。  
 この実施例は,図8の処理手順において,処理ステップ820を,図10Aの処理ステップ1910に代替することにより実現する。図8のステップ820では,名称に含まれる形態素の組合せを生成していたのに対し,図10Aのステップ1910では,名称に含まれる形態素と,他の名称データベースに含まれる情報との組合せを生成し,それぞれの新たな形態素組合せとみなし,組合せ重要度を計算する。
 具体的な処理方法を,図10Bの表1970により説明する。まず,名称の形態素を組み合わせて,それぞれの形態素組合せ1920に対する,補正前の形態素組合せの重要度1930を計算する。これは,前述の方法と同様に,形態素重要度をすべて加算し,これを形態素数で割る。つぎに,それぞれの形態素組合せ1920に対し,名称データベースの他の情報から補完を行う。ここでは,例として,名称データベースのサブジャンルである「海水浴場(スイミング プレイス)」,住所に含まれる「南区(ミナミク)」によって補完することを考える。
 元の形態素の組合せによっては,たとえば「サッポロ」だけのように,地名だけのものがある。こういったものについては,サブジャンルである「スイミング プレイス」と組み合わせて,「スイミング プレイス イン サッポロ」という語彙を追加認識語彙としたほうが,ユーザにとっても施設を絞り込むことに適すると考えられる。一方,「ビーチ」のような職種だけの形態素については,住所を利用し「ビーチ イン ミナミク」という追加認識語彙を使用するほうが,ユーザにとっても施設を絞り込むことに適すると考えられる。よって,ここでは,もとの形態素組合せ1920において,形態素に地名が含まれない場合には,住所を利用し「イン ミナミク」を最後に追加し,形態素に職種が含まれない場合には,サブジャンルを利用し「スイミング プレイス イン」を語頭に追加したものを新たな形態素組合せとして作成する。また,これらいずれにおいても,組合せ重要度を0.5加算する。住所が追加される場合の内訳を1940に示し,サブジャンルが追加される場合を1950に示す。最終的に,形態素組合せ重要度は1960のようになり,これら形態素組合せを音声認識語彙の候補としてユーザに提示することができる。これにより,住所やジャンルといった他の情報と組み合わせた音声認識語彙をユーザに提供することができる。
 なお,本実施例では,名称データベースの名称以外の情報で補完した場合には,その元となった形態素組合せ1920はユーザに提示しない説明を行ったが,もとの形態素組合せ1920と組合せ重要度1960の両方の内訳すべてをユーザへ提示してもよい。また,本実施例では,形態素の品詞の内訳により,他の情報から追加する方法を変更することを説明したが,他の変更方法でもよく,また変更しなくてもよい。
[形態素重要度の自動算出]
 また,本実施例では,形態素重要度を最初から名称データベースに付与されている想定を行った。重要度を決定するためには,開発者により決定する方法や,ユーザ調査に基づく方法が考えられる。一方,文書検索で使用されるtf・idfといった単語の出現回数に基づく算出方法により,重要度を推定してもよい。
 また,生成された語彙は音声認識のために使用される。そのため,音声認識での認識誤りの起きやすさを考慮し,認識誤りの原因となりやすい短い語彙,似ている音素列がすでに存在する語彙などは,重要度を低くするということを行ってもよい。
 本発明の第3の実施形態になる情報検索装置を,図11~図13Bを参照しながら説明する。  
 まず,この実施形態の情報検索装置100の構成例を図11に示す。この実施形態では,第1の実施形態に加えて,認識語彙作成部190が作成した追加認識語彙が,どのような種類であるかを判定する語彙種別判定部1110を設けることを特徴とする。認識語彙作成部190は,語彙種別判定部110で判定された追加認識語彙の種別に基づいて,名称データベース170に認識語彙作成部190が作成した追加認識語彙を登録する動作の方法を変更し,認識語彙作成部190が作成した追加認識語彙を言語モデル記憶部150に追加する方法を変更する。さらに,認識語彙作成部190は,語彙種別判定部1110の判定結果にしたがい,名称データベース170,言語モデル記憶部150に対する追加認識語彙の追加方法を変更する。名称データベース170,言語モデル記憶部150,辞書300等の構成は,第1の実施形態で説明したID番号を用いない方式とするが,第1の実施形態の変形例で説明したID番号を用いる方式で実現しても良い。
 [第3の実施形態の前提]
 例として,第1の実施形態と同様,ユーザは「フニツ」と入力し,施設名候補の中から,「スーパー フニット 府中 ストア」を選択したとする。ここまで動作は,第1の実施例と同一であるため,省略する。
 [ジャンルを表す音声認識語彙]
 図12に,認識語彙作成部190と語彙種別判定部1110の処理の流れを示す。  
 ステップ1210では,ユーザが入力した文字列「フニツ」と,決定した施設名「スーパー フニット 府中 ストア」の読みとの形態素単位での比較を行う。  
その結果,ユーザ入力文字列「フニツ」は,読み「スーパー/フニット/フチュウ/ストア」のなかの形態素「フニット」の一部分であることが分かる。  
 ステップ1220では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツ」を,該当する形態素まで延長し,「フニット」に編集する。これを追加認識語彙として使用する。
 ステップ1230では,ステップ1220で作られた追加認識語彙が,どのような種別であるかを判定する。ここでは,追加認識語彙が,通常の施設名であるか,施設のジャンルを表す語彙であるかを判定する。
 この判定の方法として,たとえば,図13Aに示すような語彙判定テーブル1300を参照し,追加認識語彙がテーブルに存在するか否かを判定する。語彙判定テーブルには,サブジャンルに固有に付与された番号であるサブジャンルID番号1305と,サブジャンル1310と,各サブジャンルに対応する語彙1320を保存する。ここでは,施設ジャンル語彙1320には,施設のある特定のサブジャンルを示す語彙を登録する。具体的には,チェーン店名や,支店を多く持つ企業の名称などである。また,このサブジャンルは,名称データベース170に記憶されている属性であるサブジャンル235と対応するものとする。たとえば,サブジャンル「スーパー フニット」は,全国に複数の店舗を持つスーパーマーケットのチェーンであり,その呼称として,「フニット」「スーパー フニット」という語彙が広く人に知れ渡っているとする。そのため,語彙1320には,これらの語彙が登録されている。
 処理ステップ1230における,図13Aに示した語彙判定テーブルを使用した判定の方法を説明する。まず,決定した施設名「スーパー フニット 府中 ストア」のサブジャンル235は,名称データベース170を参照することにより,「スーパー フニット」であることが分かる。そこで,語彙判定テーブルから,サブジャンル1310が「スーパー フニット」となるレコードを検索する。この結果,対応する語彙1320は,「スーパー フニット」,「フニット」の2つであることが分かる。
 つぎに,ステップ1220で作られた追加認識語彙が,対応する語彙1320のいずれかと一致するかを調べる。その結果,追加認識語彙「フニット」は,語彙1320に含まれる「フニット」と一致する。よって,追加認識語彙は施設ジャンルであると判定される。
 ステップ1240では,ステップ1230の判定結果により,分岐を行う。追加認識語彙が通常の施設名であった場合には,ステップ1250へ移る。一方,追加認識語彙が施設ジャンルであった場合には,ステップ1245に移る。すなわち,追加認識語彙の種別によって,名称データベース,言語モデルへの追加方法を変更することを,この分岐によって実現する。
 ここでは,ステップ1230での判定結果は施設ジャンルであったため,ステップ1245に移って説明する。  
 ステップ1245からステップ1285までの処理は,追加認識語彙が何らかの施設のジャンルを表す語彙であったため,施設ジャンルを指定する音声認識語彙としてユーザにとって使いやすい方法で登録を行う。ここでは,施設ジャンルの検索の際によく使われる周辺施設検索として使用できるようにする。  
 ステップ1245では,追加認識語彙を編集する。ここでは,通常の施設検索に使用するように,「ゴー トゥー」を語頭に追加し,「ゴー トゥー フニット」にする。  
 ステップ1275では,ステップ1245とは異なる方法で追加認識語彙を編集する。ここでは,周辺施設検索で使われるように,「ニア バイ」を先頭に付属させ,「ニア バイ フニット」にする。
 以上,ステップ1245とステップ1275において,異なる追加認識語彙が作られた。以降の説明ために,ステップ1245で作られた通常施設検索のための追加認識語彙を語彙Aと呼び,ステップ1275で作られた周辺施設検索のための追加認識語彙を語彙Bと呼ぶこととする。  
 ステップ1276では,作られた追加認識語彙のうちいずれを使うかをユーザに問い合わせる。問合せの方法としては,たとえば,以下のような音声応答を出力部から再生する。
「音声コマンドの設定を行います。
 『ゴー トゥー フニット』で『スーパー フニット 府中 ストア』を目的地に設定する場合には1を,
 『ニア バイ フニット』で,周辺のスーパー フニットを検索する場合には2を,
 いずれも行わない場合には3を押してください。」
 ステップ1277では,ステップ1276のユーザへの問合せに対するユーザの返答を受けつけ,その動作に応じて,処理の分岐を行う。ここでは,ステップ1276の問い合わせに対する返答をタッチパネルのボタン押しにより受け付けるものとする。  
 ユーザが1を押した場合には,語彙Aが選ばれたため,処理ステップ1260へ分岐する。  
 ユーザが2を押した場合には,語彙Bが選ばれたため,処理ステップ1280へ分岐する。  
 ユーザが3を押した場合には,いずれの語彙も選ばなかったため,処理を終了する。
 以降の処理に関して,まず,語彙Bがえらばれた場合について説明する。  
 ステップ1280では,語彙Bが選ばれた場合の処理を行う。ここでは,ユーザが選定した「スーパー フニット 府中 ストア」と同一のチェーンである施設をサブジャンル235から判定し,すべての同一チェーンの施設に対して追加認識語彙属性に「ニア バイ フニット」を追加する。その結果,図2Aの280で示すように,「スーパー フニット 府中 ストア」,「スーパー フニット 国分寺 ストア」の2つについて追加認識語彙「ニア バイ フニット」が追加される。また,これと合わせて,追加認識語彙「ニア バイ フニット」は周辺施設検索のための語彙であるフラグを合わせて登録してもよい。
 ステップ1285では,追加認識語彙「ニア バイ フニット」が音声認識可能となるように,言語モデル記憶部に記憶する(図3Aの350,図3Bの355)。また,これと合わせて,「ニア バイ フニット」が追加認識語彙であり,かつ周辺施設検索のための語彙であるフラグを合わせて登録して管理してもよい。
 これらステップ1280,ステップ1285の動作の後,ユーザが「ニア バイ フニット」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,「ニア バイ フニット」が出力されたとする。この結果は,検索部160に入力される。
 検索部160では,音声認識結果と名称データベース170を比較する。その結果,「ニア バイ フニット」を追加認識語彙として持つ「スーパー フニット 府中 ストア」,「スーパー フニット 国分寺 ストア」が候補として挙がる。
 また,これらは周辺施設検索のための語彙であるため,カーナビゲーションの現在位置と比較し,候補として挙がった施設が周辺施設としてふさわしいほどの距離であるかを判定する。その結果,周辺施設と判定された結果が,出力部に送られ,カーナビゲーションの所定の動作であるところの候補選択画面,地図表示,経路探索といった動作を行う。
[通常の施設名を表す音声認識語彙として選択された場合]
 つぎに,処理ステップ1276において,ユーザが1を押下し,語彙Aが選ばれた場合について説明する。この場合,処理はステップ1260へ移る。  
 ステップ1260,ステップ1270の処理は,追加認識語彙が通常の施設名のであった場合の処理である。この処理の方法は,第1の実施形態とほとんど同一である。  
 ステップ1260では,作成した追加認識語彙を名称データベースに付与する。ここでは,第1の実施形態と同様,ユーザが選定した「スーパー フニット 府中 ストア」の追加認識語彙属性に語彙Aの「ゴー トゥー フニット」を付与する。その結果,260に示すように付加される。  
 ステップ1270では,追加認識語彙「ゴー トゥー フニット」が認識可能となるように,言語モデル記憶部に記憶する。また,これと合わせて,「ゴー トゥー フニット」が追加認識語彙であり,かつ通常の施設指定のための語彙であるフラグを合わせて登録して管理してもよい。
 これらの動作の後,ユーザが「ゴー トゥー フニット」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,文字列「ゴー トゥー フニット」が出力されたとする。この結果は,検索部160に入力される。
 検索部160では,音声認識結果と名称データベース170を比較する。その結果,「ゴー トゥー フニット」を追加認識語彙として持つ「スーパー フニット 府中 ストア」が得られる。  
 その後,出力部からは,「スーパー フニット 府中 ストアに目的地を設定します」という音声応答を出し,かつ地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
[通常の施設名を表す音声認識語彙のみが生成された場合]
 本実施形態の別の動作を説明する。ここでは,ユーザがタッチパネル400から「フニツトフ」と入力し,施設名候補の中から,「スーパー フニット 府中 ストア」を選択したとする。ここまで動作は,第1の実施例と同一であるため,説明を省略する。
 図12に,認識語彙作成部190と語彙種別判定部1110の動作の流れを示す。  
 ステップ1210では,ユーザが入力した文字列「フニツトフ」と,決定した施設名「スーパー フニット 府中 ストア」との形態素単位での比較を行う。  
 その結果,ユーザ入力文字列「フニツトフ」は,「スーパー/フニット/フチュウ/ストア」のなかで,「フニット」と「フチュウ」に内包されることが分かる。  
 ステップ1220では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツトフ」を,該当する形態素まで延長し,「フニット フチュウ」に編集する。これを追加認識語彙として使用する。  
 ステップ1230では,ステップ1220で作られた追加認識語彙が,どのような種別であるかを判定する。ここでは,音声認識語彙が,通常の施設名であるか,施設のジャンルを表す語彙であるかを判定する。  
 この判定では,すでに説明したように,図13Aに示す語彙判定テーブルを使用して判定を行う。具体的には,まず,決定した施設「スーパー フニット 府中 ストア」のサブジャンル235が「スーパー フニット」であることから,サブジャンル1310から「スーパー フニット」を探す。つぎに,作成された追加認識語彙を,「スーパー フニット」に対応する語彙1320にいずれかと一致するかを調べる。その結果,「フニット フチュウ」は語彙1320のいずれとも一致しない。よって,追加認識語彙は通常の施設名の一部であると判定される。
 ステップ1240では,ステップ1230の判定結果により,分岐を行う。ここでは,追加認識語彙が通常の施設名であったので,ステップ1250へ移る。  
 ステップ1250からステップ1270までの処理は,音声認識語彙が通常の施設名のであった場合の処理である。この処理の方法は,第1の実施形態とほとんど同一であるが,ここでは,ユーザがその語彙を使用するか否かを選択する処理を加えている。  
 ステップ1250では,追加認識語彙を編集する。ここでは,通常の施設検索に使用するように,「ゴー トゥー~」を尾語頭に追加し,「ゴー トゥー フニット フチュウ」にする。また,説明のため,この語彙を語彙Aと呼ぶ。  
 ステップ1252では,作られた追加認識語彙を使うか否かをユーザに問い合わせる。問合せの方法としては,たとえば,以下のような音声応答を出力部から再生する。
「音声コマンドの設定を行います。『ゴー トゥー フニット フチュウ』で『スーパー フニット 府中 ストア』を目的地に設定するようにしますか? 設定する場合は1を,設定しない場合は2を押してください。」
 ステップ1254では,ステップ1252のユーザへの問合せに対するユーザの返答を受けつけ,その動作に応じて,処理の分岐を行う。ここでは,ステップ1252の問い合わせに対する返答をタッチパネルのボタン押しにより受け付けるものとする。  
 ユーザが1を押した場合には,語彙Aが選ばれたため,処理ステップ1260へ分岐する。  
 ユーザが2を押した場合には,語彙が選ばれなかったため,処理を終了する。ステップ1260,ステップ1270では,作成した追加認識語彙(語彙A)を名称データベースの追加認識語彙属性250に追加する。この方法はすでに説明したため,詳細な説明は省略する。  
 結果として,ユーザが「ゴー トゥー フニット フチュウ」と音声入力すると,検索部160は「スーパー フニット 府中 ストア」を候補として出力し,地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
 以上,本実施形態により,ユーザが入力した語彙の性質により,追加認識語彙の使用方法を変更できる。これにより,ユーザの使い勝手を向上することができる。
 本実施形態では,施設のジャンルであるかを判定し,その結果を利用した周辺施設検索の動作を行う例で説明した。なお,カーナビゲーションの初期設定時点において,すべてのジャンルを認識可能とすることも考えられる。しかし,チェーンなどの施設ジャンル名は膨大にあるため,認識対象とする語彙が増加し,認識率が下がる副作用がある。そのため,本実施形態のように,ユーザが実際に検索のために入力した文字列を使うことで,認識語彙としてつかう語彙を絞ることができ,認識率の向上,使い勝手の向上につながる。
 本実施形態では,追加認識語彙が,施設のジャンルであるか,それ以外の通常の名称かだけの分岐を行ったが,それ以外の複数の分岐を行っても良い。  
 また,本実施形態では,図13Aのようなテーブルを参照して,語彙が存在するか否かにより判定した。しかし,別の自動で算出できる情報を用いてもよい。たとえば,形態素の各施設名に含まれる頻度にもとづく方法などにより,語彙の種別を判定してもよい。  
 また,ユーザに追加認識語彙の使い方を確認する処理を設けることにより,よりユーザの希望にかなった音声認識機能を提供することができる。
 [ユーザ入力文字列の品詞に基づく判定]
 また,ユーザがタッチパネルから入力した文字列と形態素を比較した結果,ユーザ入力文字列がどの品詞であったかを判定し,それにより動作を変えても良い。たとえば,ユーザが「フチユ」と入力し,その結果,形態素が「フチュウ」であり,その品詞が地名であったものを選定したとする。これにより,ユーザにとって「フチュウ」という語彙は地名として馴染み深いことが推測される。この結果を使い,たとえば,カーナビゲーションの住所検索において,「フチュウ」という語彙に認識できるようにする,または,他の語彙とくらべて認識のされやすさを上げるといった動作を行っても良い。
[複数の施設を指す言語モデルの対応IDの付与]
 なお,本実施例では,検索方法として,音声認識結果として得られる文字列を検索キーとして,名称データベースの読み,追加認識語彙を検索することを前提として説明した。この検索方法としては,実施例1に説明したときと同様,全件検索による方法,インディクスを用いた方法が適用できる。
 また,実施例1と同様,言語モデル記憶部の辞書300にあらかじめ対応する施設のID番号を追加しておき,このID番号を参照して該当する施設を候補として生成する方法も適用可能である。しかし,チェーン店名を検索する場合においては,1つの認識結果に対して複数の施設が対応することがあるため,言語モデルへのID番号の記憶方法を実施例1と変更する必要がある。ここでは,その方法について説明する。
 1つめに挙げられる方法は,言語モデル記憶部に追加認識語彙を登録する際に,対応ID番号330に複数のID番号を登録する方法がある。具体的には,実施例で説明したように語彙「ニア バイ フニット」によって,サブジャンル「スーパー フニット」に該当する施設を検索させる場合には,言語モデル記憶部の辞書300において,図3Aの単語「ニア バイ フニット」の対応ID番号330として,「0200,0201」と複数登録すればよい。しかし,この方法では,図2Aに示した名称データベースのように,サブジャンル「スーパー フニット」に属する施設が2件と少ない場合には適用できるが,もし数百件のように多数存在する場合には,言語モデル記憶部に保存するID番号が多くなってしまう問題がある。
 2つめの方法としては,言語モデルに記憶する対応ID番号として,各サブジャンルに固有に付与されたサブジャンルID番号を登録しておく方法がある。まず,サブジャンルID番号とそれに対応する施設のID番号の関係を,図13Bに示すテーブル1302の形態によって記録しておく。また,言語モデル記憶部の辞書300では,図3Cに示すように,単語「ニア バイ フニット」の対応ID番号「50001」を記録する。もし認識結果が「ニア バイ フニット」であれば,検索部は対応ID番号「50001」から,図13Bのテーブル1302を参照し,対応する施設のID番号を読みとり,そのID番号を持つ施設を名称データベースから探し,候補として生成する。この方法では,図13Bのようなテーブルを用意する必要がある。しかし,カーナビゲーションで一般に使われるジャンル指定による施設検索のために,ジャンルと実際の施設の対応関係は,インディクスとして用意されていることが多い。よって,そのインディクスを再利用すればよく,新たに作成する必要は無い。よって,言語モデル記憶部の容量を小さく抑えつつ,高速に検索することが可能となる。
 [追加認識語彙の言い換え語の追加]
 また,本実施例では,ユーザが入力した文字列の長さを加工して,追加認識語彙として使用することを説明した。しかし,追加認識語彙として使用する語彙は,ユーザが入力した語彙と文字列単位で一致していなくとも,意味的に関連が深い言い換え語であってもよい。たとえば,「スーパー フニット 府中 ストア」に使われるサブジャンルの語「フニット」は,世間の人々にとってまったく別の呼称で呼ばれている場合もある。この別の呼称を言い換え語と表す。そのような場合には,追加認識語彙として,「フニット」を名称データベース,言語モデルに追加するだけでなく,言い換え語も合わせて,名称データベース,言語モデルに追加すれば,ユーザが言い換え語で発話した場合にもその施設を候補として生成することができる。
 本発明の第4の実施形態になる情報検索装置について,図1,図14~図19を参照しながら説明する。名称データベース170,言語モデル記憶部150,辞書300等の構成は,第1の実施形態の変形例で説明したID番号を用いる方式とするが,ID番号を用いない方式で実現しても良い。 
 本実施形態では,名称データベース170において,ユーザが検索可能である属性が複数ある場合について説明する。また,検索時に複数のクエリを入力した場合についても説明をする。  
 この実施形態では,ナビゲーションシステムの楽曲再生機能を想定し,そのための楽曲検索を行う使用方法にて説明を行うが、用途としては、ナビゲーションシステムとは独立したオーディオシステムにおいて、楽曲検索、再生を行うものであっても良い。
 図14に,楽曲検索における名称データベース170の例を示す。名称データベース170には,カーナビゲーションで再生できる楽曲の一覧を格納している。名称データベース170の1つのレコードに,1つの楽曲の情報が格納されている。また,楽曲の属性として,各楽曲に固有に付与された番号であるID番号1405,アーティスト名1410,アルバム名1420,楽曲名1430,作曲者名1440,楽曲の解説などを保存する説明1450を使用する。このほかにも,作詞者名,楽曲のジャンルなどをもっていても良い。また,それぞれのレコードは,全ての属性に対して値を持っておく必要はなく,一部の属性にのみ値があってもよい。
 また,図14に示した名称データベース170では,一部の値にしか付与していないが,それぞれの値には,読み,形態素区切り,が付与されているものとする。また,図14には示さないが,形態素の品詞も定義されているものとする。  
 これらの楽曲を選ぶ際に,音声認識を利用することが可能である。しかし,楽曲にはたくさんの情報があり,これをすべて音声認識語彙として使用すると,認識率の低下や処理時間の増加につながる可能性がある。そこで,前提として,楽曲検索のときの言語モデル150には,名称データベースのなかでもアルバム名1420に含まれる語彙だけを格納するものとし,ユーザの音声入力としては,アルバム名による指定だけを許容するものとする。図17に,言語モデル150に登録されている辞書300の内訳を示す。単語ラベル1710と音素列1720は,アルバム名についてのみ用意する。また,アルバム名の正式名のほか,よく発話される部分文字列(例.「タナバタ」)も登録する。これにより,たとえばユーザが「タナバタ」とだけ発話した場合でも,アルバム「七夕コンサート」を選ぶことができる。また,各単語には,対応ID番号1730を付与しておく。このIDとしては,図14の名称データベースで楽曲に付与されているID番号を格納しておく。一般に1つのアルバムには複数の曲が収録されていることから,記憶する対応ID番号も複数となる。しかし,アルバムごとに固有のID番号を付与しておき,アルバムに付与されたID番号を記憶する方式でもよい。
 また,文法は省略するが,図3Bの連結規則360と同様の形態で,図17の辞書300のそれぞれの単語の,単独での発話が受理できる有限状態文法を用いることとする。
 この名称データベース170において,第1の実施形態と同様,ユーザのタッチパネル入力を操作入力部110で受け付け,その結果を用いて名称データベースを検索する。  
 たとえば,ユーザがタッチパネルにより「ニコラ」と入力したとする。  
 この文字列は,検索部160に送られる。検索部160では,名称データベース170のうち,アーティスト名1410,アルバム名1420,楽曲名1430,作曲者名1440,説明1450,追加認識語彙1460のなかで検索を行う。この結果,いずれかの属性の値に「ニコラ」を含む楽曲である3曲が候補として生成される。
 この検索の結果は出力部180に送られ,図15に示した画面400にてユーザに3曲が候補として表示される。表示エリア1510には,ユーザが入力した文字列が表示される。候補表示エリア1520には,候補となる曲の属性と値が表示される。
 これを受けて,ユーザは自分が聴きたい楽曲を選ぶ。たとえば,ここでユーザは楽曲名「レター フロム ニコラス」を選んだとし,タッチパネルを押下したとする。この押下は,操作入力部110を経て受理される。これにより,楽曲を再生するといったカーナビゲーションでのオーディオとしての所定の動作が実行される。
 つぎに,この一連の操作のあとに,認識語彙作成部190,語彙種別判定部1110が行う動作を説明する。図16に処理手順を示す。  
 ステップ1610では,ユーザが入力した文字列「ニコラ」と,決定した楽曲にてユーザ入力していた文字列を含んでいた属性の値との形態素単位で比較を行う。ここでは,ユーザは「ニコラ」と入力し,その結果,楽曲名とユーザ入力が一致した楽曲「レター フロム ニコラス」を選んだ。よって,この両者を形態素単位で比較を行う。その結果,ユーザ入力文字列「ニコラ」は,読み「レター/フロム/ニコラス」のなかの形態素「ニコラス」の一部分であることが分かる。  
 ステップ1615では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「ニコラ」を,該当する形態素まで延長し,「ニコラス」に編集する。これを追加認識語彙とする。  
 ステップ1620では,ステップ1615で作られた追加認識語彙の判定を行う。ここでは判定方法として,追加認識語彙が含まれていた属性を利用して,その属性を判定結果とする。よって,判定結果は,楽曲名となる。
 なお,この方法によらなくとも,他の方法により属性を判定することも可能である。たとえば,名称データベースの各属性に含まれる形態素の頻度情報を利用し,絶対頻度または相対頻度が高い形態素の一覧を作成しておく。つぎに,追加認識語彙がこの一覧のうちどの属性に入っていたかを調べ,その結果を判定結果としてもよい。
 ステップ1630では,ステップ1620の判定結果にしたがい,分岐を行う。判定結果は楽曲名であったので,ステップ1635へと移る。  
 ステップ1635では,追加認識語彙を編集する。ここでは,楽曲名を選択することに適するように,「リッスン トゥー」を最初に追加し,「リッスン トゥー ニコラス」とする。なお,この追加方法は,他の方法でもよい。たとえば,楽曲名の先頭に「ニコラス」がつく場合には,「リッスン トゥー ニコラス サムシング」とし,楽曲名の末尾に「ニコラス」がつく場合には,「リッスン トゥー サムシング ニコラス」というように,追加認識語彙がレコードの値の文字列のなかでどの位置に現れたかを使用してもよい。  
 ステップ1640では,名称データベースのうち,ユーザが選択した「レター フロム ニコラス」の追加認識語彙属性1460に「リッスン トゥー ニコラス」を追加する。この追加の方法を,名称データベース170の1470に示す。  
 ステップ1645では,追加認識語彙「リッスン トゥー ニコラス」が認識可能となるように,言語モデル記憶部に記憶する。辞書300における追加の様子を図17の1740に示す。また,対応ID番号1730には,対応する楽曲「レター フロム ニコラス」の名称データベースでのID番号を記録する。文法での追加については,図3Bでの連結規則の追加と同様であり,既存の文法パスに並列に登録する。
 ステップ1670では,作成された追加認識語彙と,その属性と,実際に選択された値が何であったかの対応を,情報検索装置100の記憶部に設けられた追加認識語彙記憶部に保存する。図18には,情報検索装置100の追加認識語彙記憶部に実際に保存されるテーブル2000の例を示す。この処理においては,テーブル2000の2030で示すとおり,属性2010が「楽曲名」に対応する追加認識語彙2020に,ステップ1615で作成された語彙「ニコラス」を追加する。また,これと合わせて,追加認識語彙「ニコラス」を含んでいた値である楽曲名「レター フロム ニコラス」も対応づけて保存する。図18のテーブル2000では,追加認識語彙と値の関係を(追加認識語彙):(値)という書式で表している。
 これら一連の動作の後,ユーザが「リッスン トゥー ニコラス」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,「リッスン トゥー ニコラス」が出力されたとする。この結果は,検索部160に入力される。
 検索部160では,音声認識結果と名称データベース170を比較する。その結果,「リッスン トゥー ニコラス」を追加認識語彙として持つ楽曲「レター フロム ニコラス」が候補として挙がる。  
 また,検索部160が楽曲を選択する方法としては,追加認識単語「リッスン トゥー ニコラス」に付与された対応ID番号「0004」を参照し,名称データベースにおいてID番号が一致する楽曲「レター フロム ニコラス」を選択する方法でもよい。  
 その後,この結果は出力部に送られ,カーナビゲーションのオーディオの再生といった動作を行う。
 一方,ユーザが文字列「ニコラ」を入力し,最終的にアーティスト名「ニコラス」のいずれかの曲を選んだ場合について説明する。  
 この場合,ステップ1610,ステップ1615では,さきほどと同じ動作を行い,追加認識語彙「ニコラス」を抽出する。
 ステップ1620では,ステップ1615で作られた追加認識語彙の属性を判定する。判定結果として,追加認識語彙が含まれていた値に対応する属性を出力する。よって,判定結果は,アーティスト名となる。  
 ステップ1630では,ステップ1620の判定結果にしたがい,分岐を行う。判定結果はアーティスト名であったので,ステップ1650へと移る。  
 ステップ1650では,追加認識語彙を編集する。ここでは,アーティストの選択に適するように,「リッスン トゥー ミュージック オブ」を最初に追加し,「リッスン トゥー ミュージック オブ ニコラス」とする。
  ステップ1655では,名称データベース170のうち,アーティスト名が「ニコラス」である曲のすべてに対して,追加認識語彙属性1460に,追加認識語彙「リッスン トゥー ミュージック オブ ニコラス」を追加する。この追加の方法を,名称データベース170の1480に示す。  
 ステップ1660では,追加認識語彙「リッスン トゥー ミュージック オブ ニコラス」が認識可能となるように,言語モデル記憶部に記憶する。辞書300に追加される様子を図17の1750に示す。このとき,対応ID番号1730には,アーティストが「ニコラス」である曲の名称データベースにおけるID番号を記録する。
 ステップ1670では,作成された追加認識語彙と,追加認識語彙を含んでいた属性と,追加認識語彙を含んでいた値との対応を,追加認識語彙記憶部に保存する。この処理においては,図18のテーブル2000に2040で示すとおり,属性2010が「アーティスト名」に対応する追加認識語彙2020に,ステップ1615で作成された追加認識語彙「ニコラス」と,検索対象の値となる「ニコラス」とを対応付けて追加する。
 これら一連の動作の後,ユーザが「リッスン トゥー ミュージック オブ ニコラス」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,「リッスン トゥー ミュージック オブ ニコラス」が出力されたとする。この結果は,検索部160に入力される。
 検索部160では,音声認識結果と名称データベース170を比較する。その結果,「リッスン トゥー ミュージック オブ ニコラス」を追加認識語彙として持つ2つの楽曲が候補として挙がる。  
 また,検索部160が楽曲を選択する方法としては,音声認識結果「リッスン トゥー ミュージック オブ ニコラス」に付与された対応ID番号「0001,0002」を参照し,名称データベース170においてID番号が一致する2つの楽曲を選択する方法でもよい。  
 その後,この結果は出力部に送られる。そして,ユーザ選択,楽曲の再生といった動作を行う。
 また,他の属性であっても同様の処理が可能である。ステップ1661,ステップ1662,ステップ1663には,ステップ1630での属性の判定結果が作曲者名であったときの音声認識語彙の追加について記載する。  
 たとえば,ユーザが作曲者名の一部「ヒタ」と入力し,最終的に作曲者名「日立太郎」のいずれかの曲を選んだ場合について説明する。  
 この場合,ステップ1610,ステップ1615では,さきほどと同じ動作を行い,追加認識語彙「ヒタチ」を抽出する。
 ステップ1620では,ステップ1615で作られた追加認識語彙の属性の判定を行う。その結果,判定結果は,作曲者となる。  
 ステップ1630では,ステップ1620の判定結果にしたがって分岐し,作曲者名の処理であるステップ1661へ移る。  
 ステップ1661では,追加認識語彙を編集する。ここでは,作曲者名での検索に適するように,「リッスン トゥー ミュージック コンポーズド バイ」を最初に追加し,「リッスン トゥー ミュージック コンポーズド バイ ヒタチ」とする。  
 ステップ1662では,名称データベースのうち,作曲者名が「日立太郎」である曲のすべてに対して,名称データベース170の追加認識語彙1460に,作成された語彙「リッスン トゥー ミュージック コンポーズド バイ ヒタチ」を追加する(図示省略)。  
 ステップ1663では,追加認識語彙「リッスン トゥー ミュージック コンポーズド バイ ヒタチ」が認識可能となるように,言語モデル記憶部に記憶する。このとき,対応ID番号1730には,作曲者名が「日立太郎」である曲の名称データベースにおけるID番号を記録する。  
 ステップ1670では,作成された追加認識語彙と,追加認識語彙を含んでいた属性と,追加認識語彙を含んでいた値との対応を,追加認識語彙記憶部に保存する。この処理においては,図18のテーブル2000に2050で示すとおり,属性2010が「作曲者名」に対応する追加認識語彙2020に,ステップ1615で作成された追加認識語彙「ヒタチ」と値である「日立太郎」の組を追加する。
 これら一連の動作の後,ユーザが「リッスン トゥー ミュージック コンポーズド バイ ヒタチ」と音声入力すれば,作曲者名「日立太郎」の曲を選択することができる。
 以上の実施により,ユーザが検索のために入力した文字列が実際にはどのような属性の情報であったかを考慮しつつ音声認識語彙を作成できるため,ユーザの知識にマッチした,使いやすい音声認識語彙を提供することができる。
[複数の追加認識語彙を使った検索]
 つぎに,ユーザが使った履歴のなかで蓄積された追加音声認識語彙を組み合わせることで,より詳細な検索を行う方法について説明する。
 第4の実施形態で説明した3つのユーザ入力が連続して行われた場合を想定する。  
すなわち, 
(1) ユーザがタッチパネルより「ニコラ」と入力し,楽曲名が「レター フロム ニコラス」である曲を選択。  
(2) ユーザがタッチパネルより「ニコラ」を入力し,アーティスト名が「ニコラス」であるいずれかの曲を選択。  
(3) ユーザがタッチパネルより「ヒタ」と入力し,作曲者名が「日立太郎」であるいずれかの曲を選択。  
という(1)~(3)を連続して行った場合を想定する。
 この場合,追加認識語彙記憶部でのデータは,図18に示すように,「楽曲名」属性には追加認識語彙「ニコラス」(2030)が格納されており,「アーティスト名」属性には追加認識語彙「ニコラス」(2040)が格納されており,「作曲者名」属性には追加認識語彙「ヒタチ」(2050)が登録されている状態となる。
 つぎに,認識語彙作成部190が,追加認識語彙記憶部に保存されている追加認識語彙を参照し,複数の追加認識語彙を組み合わせて発話しても検索可能とするように,名称データベースの編集と言語モデル記憶部の編集を行う。
 このときの認識語彙作成部190の処理を図19で説明する。  
 ステップ2110では,追加認識語彙記憶部に記憶されている追加認識語彙の組合せを作成する。この組合せを作る際のルールとしてはさまざまなものを採用することができるが,ここでは,以下の基準でとることとする。  
 ・属性が異なる追加認識語彙を組み合わせる。  
 ・楽曲名属性は組合せの生成からのぞく。
 この方法に従うと,組合せとして2040と2050の組合せが生成される。すなわち,(属性=アーティスト名,追加認識語彙=「ニコラス」,値=「ニコラス」)と(属性=作曲者名,追加認識語彙=「ヒタチ」,値=「日立太郎」)の組合せである。組合せ数としては1個となる。
 ステップ2115では,ステップ2110で作られた組合せで検索できるレコードが存在するかを調べ,1件も検索できない組合せを削除する。この場合,ステップ2110で作られた組合せ数は1個であり,かつ,アーティスト名が「ニコラス」で,作曲者名が「日立太郎」である楽曲が存在する(ID番号「0002」の楽曲)。よって,組合せは削除せず,ステップ2120へ移る。  
 ステップ2120では,ステップ2115の処理を経て残った組合せの数が1個以上あるかを判定する。この場合には,1個あるため,ステップ2130へ移る。もし,0個である場合には,処理を終了する。
 ステップ2130では,組合せを使って新しい認識語彙である組合せ認識語彙を作成する。この組合せ認識語彙の作成においては,組合せを構成する属性に応じたテンプレートを用意しておく。このテンプレートとしては,ユーザが発話することが自然である語順に基づいていくつか用意しておくものとする。例えば,テンプレートの例としては,以下のようなものを用意する。  
  (1)リッスン トゥー/ミュージック オブ(アーティスト名)/コンポーズド バイ(作曲者名) 
   (2)リッスン トゥー/ミュージック オブ(アーティスト名) /イン(楽曲ジャンル名)
 このテンプレートのいずれかに,組合せを構成する追加認識語彙を当てはめることで,組合せ認識語彙を作成する。ここでの組合せにある属性は,アーティスト名と作曲者名である。よって,(1)のテンプレートを使い,(作曲者名),(アーティスト名)のそれぞれに
,先に作成されている追加認識語彙(それぞれ「ヒタチ」,「ニコラス」)を入れて,以下の組合せ認識語彙を作る。  
 「リッスン トゥー ミュージック オブ ニコラス コンポーズド バイ ヒタチ」
 ステップ2140では,ステップ2130で作られた組合せ認識語彙を,対応する名称データベースのレコードの追加認識語彙属性に追加する。具体的には,ID番号「0002」の曲に対応するため,図14の名称データベースに示す1490のように追加を行う。この説明では,検索対象の楽曲が1個だけの場合で説明しているが,複数存在する場合には,それぞれの楽曲に対して追加を行う。
 ステップ2150では,組合せ認識語彙「リッスン トゥー ミュージック オブ ニコラス コンポーズド バイ ヒタチ」が認識可能となるように,言語モデル記憶部に記憶する。このとき,対応ID番号1730には,検索対象となる楽曲のID番号「0002」を記録する。
 これら一連の動作の後,ユーザが「リッスン トゥー ミュージック オブ ニコラス コンポーズド バイ ヒタチ」と音声入力すれば,作曲者名「日立太郎」でアーティスト名「ニコラス」の曲を選択することができる。
 以上の実施により,ユーザが複数の条件で検索したい場合においても,ユーザの自然な言い回しによって検索を行うことが可能となる。
[複数の属性への展開]
 なお,第4の実施形態の処理ステップ1620での判定においては,上記ではユーザの入力文字列を含む1つの属性を判定結果としたが,これを複数の属性を用いてもよい。  
 たとえば,ユーザが文字列「ニコラ」と入力し,ユーザが候補から楽曲「レター フロム ニコラス」を選択した場面を考える。この場合,上記の実施例では,楽曲「レター フロム ニコラス」に対して追加認識語彙「リッスン トゥー ニコラス」を追加するという処理を行った。  
 しかし, ステップ1615で得られた音声認識語彙「ニコラス」は,楽曲名にも含まれるほか,アーティスト名にも多く含まれている。よって,「ニコラス」という語彙は楽曲名,アーティスト名に限らず,ユーザにとって分かりやすい語彙であると考えられる。または,選んだ楽曲が,楽曲名にも「ニコラス」を含み,かつアーティスト名も「ニコラス」であるといったように,入力文字列が1つのレコードの複数の属性に一致する場合もある。
 こういった場合には,楽曲名に限らず,アーティスト名の選択においても,「ニコラス」という語彙を使えたほうが使い勝手が良い。  
 このことを考慮した処理を説明する。まず,楽曲名属性に対する通常の処理ステップ1635, 1640, 1645を終えた後に,アーティスト属性に対する処理ステップ1650, 1655, 1660を行う。このうち,ステップ1655の処理は,図16に記載の方法から変更する。すなわち,名称データベースのすべての楽曲からアーティスト名が「ニコラス」である楽曲を探し出し,それぞれの楽曲の追加認識語彙属性に「リッスン トゥー ミュージック オブ ニコラス」を付与する。  
 これにより,ユーザが「リッスン トゥー ニコラス」と発話すれば楽曲「レター フロム ニコラス」を検索でき,また「リッスン トゥー ミュージック オブ ニコラス」と発話すればアーティスト名が「ニコラス」である曲を検索できる。
[ユーザの文字列入力における複数条件の利用]
 また,本実施例では,最初にユーザがタッチパネルなどから入力するクエリは,1つである仮定で説明を行った。しかし,文字列入力においても複数のクエリを入力することでも実施ができる。たとえば,ユーザが「ベートー」と「ムー」という2つの文字列を入力し,両方の文字列を持つ楽曲を検索したとする(アンド検索)。この結果,作曲者が「ベートーベン」,楽曲名が「ムーン ライト」である楽曲を選択したとする。このとき,「ベートーベン」を作曲者の選択するための音声認識語彙として使用し,「ムーン ライト」を曲名の選択のための音声認識語彙として使用するという方法も可能となる。
[複数端末構成]
 また,本実施例は,単一の端末による実施を示した。しかし,これらが別の端末による実装でも良い。具体的には,楽曲名検索において,たとえば,パソコン上においてキーボードで入力し,楽曲を検索する使用方法が知られている。ここで検索のために入力した文字列と,最終的に選択された楽曲との対応を記録する。また,各楽曲のための追加認識語彙を,本明細書の実施形態にしたがって作成する。
 つぎに,パソコン上で検索した楽曲を,カーナビゲーションやポータブルオーディオ機器などの組み込み機器にて聞く場合を考える。このとき,楽曲のデータのほか,追加認識語彙も同時に情報に組み込み機器へ移す。これにより,組み込み機器においてユーザが楽曲を選択する場合,追加認識語彙を音声入力することにより指定することができる。
 この実施形態は,キーボード入力が容易なパソコンではキーボード入力を行い,タッチパネルなどが小さくなってしまう組み込み機器においては音声で入力するという使い分けに寄与するものであり,使い勝手を向上する。
 本明細書では、本発明の実施形態を,カーナビゲーションでの施設検索,楽曲検索の例で説明したが,本発明は、それ以外の、一般の情報検索機器の用途でも使用できることは言うまでも無い。  
 また,本明細書での各実施形態を組み合わせて使用してもよい。
100…情報検索装置,110…操作入力部,120…音声入力部,130…音声認識部,140…音響モデル記憶部,150…言語モデル記憶部,160…検索部,170…名称データベース,180…出力部,190…認識語彙作成部,300…言語モデルの辞書,400…タッチパネル,700…形態素の重要度を定義した表,900…組合せ重要度を示す表,1000…表示画面,1110…語彙種別判定部,1300…語彙判定テーブル,2000…追加認識語彙記憶部に保存されるテーブル。

Claims (20)

  1.  検索対象となる1つ以上の属性と,それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として,1つ以上の前記レコードを登録した名称データベースと,
     ユーザの操作入力を受け付ける操作入力部と,
     前記ユーザの音声入力を受け付ける音声入力部と,
     前記音声入力部から得られた音声を文字列に認識する音声認識部と,
     前記音声認識部において参照する音響データを格納する音響モデル記憶部と,
     前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と,
     前記操作入力部または音声認識部から入力された入力文字列を用いて,前記名称データベースに含まれる前記属性の前記値を検索し,該値に前記入力文字列が含まれる前記レコードを候補として生成する検索部と,
     前記検索部で生成された前記レコードの候補を検索結果として出力する出力部と,
     出力された前記レコードの候補を選択する選択手段と、
     前記選択手段による前記レコードの選択結果を受けて,前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成する認識語彙作成部と
    を備え,
     前記認識語彙作成部は,
     前記入力文字列に対応する前記追加認識語彙と前記選択されたレコードの対応関係を,前記名称データベース若しくは前記言語モデルに記録する
    ことを特徴とする情報検索装置。
  2.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部は,前記選択手段により選択された前記名称データベースのレコードにおいて,前記属性の1つとして前記追加認識語彙を登録し,
     前記追加認識語彙を前記言語モデル記憶部に追加する
    ことを特徴とする情報検索装置。
  3.  請求項1に記載の情報検索装置において,
     認識語彙作成部が作成する追加認識語彙は,操作入力部から入力された文字列である
     ことを特徴とする情報検索装置。
  4.  請求項1に記載の情報検索装置において,
     前記言語モデル記憶部に記憶されている語彙のそれぞれには,対応する前記名称データベースの前記レコードを示す識別子が合わせて記憶されており,
     前記音声認識部は,
     前記認識された語彙に合わせて,該認識された語彙に対応する識別子を出力し,
     前記検索部は,
     前記音声認識部が出力した語彙に付与された前記識別子を参照し,前記名称データベースの同一となる識別子を持つレコードを候補として生成し,
     前記認識語彙作成部は,前記検索部の出力に基づいて前記追加認識語彙を作成し,
     前記名称データベースにおける前記選択されたレコードに対応する識別子と前記作成した追加認識語彙とを組み合わせた形式で,前記追加認識語彙を前記言語モデル記憶部に追加する
    ことを特徴とする情報検索装置。
  5.  請求項1に記載の情報検索装置において,
     前記検索部は,前記音声認識部から前記追加認識語彙が出力された場合に,該追加認識語彙を含む前記名称データベースのレコードを前記検索結果に含める
    ことを特徴とする情報検索装置。
  6.  請求項1に記載の情報検索装置において,
     前記検索部は,前記音声認識部から前記追加認識語彙が複数出力された場合に,前記音声認識部から出力された前記追加認識語彙のそれぞれによって前記名称データベースの追加認識語彙属性を検索してレコードの候補群を生成し,
     前記それぞれの追加認識語彙での検索によって得られた前記レコードの候補群のうち,いずれの候補群にも存在するレコードだけを検索結果として出力するか,あるいは,それぞれの追加認識語彙によって得られたレコードの候補群のうち,すくなくとも1つの候補群に存在するレコードを集めたものを検索結果として出力する
    ことを特徴とする情報検索装置。
  7.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部は,
     前記操作入力部から入力された文字列を所定の方法により編集したものを前記追加認識語彙として使用する
    ことを特徴とする情報検索装置。
  8.  請求項7に記載の情報検索装置において,
     前記認識語彙作成部は,
     前記操作入力部から入力された文字列を,前記名称データベースに登録されている各属性の値に格納されている文字列を分割した形態素の単位に基づいて編集したものを,前記追加認識語彙として使用する
    ことを特徴とする情報検索装置。
  9.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部は,
     前記操作入力部から入力された文字列と,前記選択したレコードとの比較に基づき,前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した形態素を組み合わせることにより,1つないし複数の前記追加認識語彙を作成する
    ことを特徴とする情報検索装置。
  10.  請求項9に記載の情報検索装置において,
     前記識語彙作成部は,
     前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した形態素を組み合わせることにより,
     1つないし複数の前記追加認識語彙を作成し,
     前記形態素の種類にもとづいて,採用する前記追加認識語彙を決定する
    ことを特徴とする情報検索装置。
  11.  請求項9に記載の情報検索装置において,
     前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した前記形態素に対して,各形態素の単位または各形態素の種類の単位において重要度を示す値を付与し,
     前記認識語彙作成部は,
     前記選択手段により選択され前記レコードの値として格納されている文字列を分割した前記形態素を組み合わせることにより,1つないし複数の前記追加認識語彙を作成し,
     それぞれの前記追加認識語彙の重要度を,前記形態素の重要度に基づいて算出し,該追加認識語彙の重要度が高いほど,前記音声認識語彙の候補に含まれるように該追加認識語彙の候補を作成する
    ことを特徴とする情報検索装置。
  12.  請求項11に記載の情報検索装置において,
     前記追加認識語彙に付与された重要度に加えて,
     前記が操作入力部から入力された前記文字列と前記追加認識語彙に含まれる形態素がより一致するほど,前記追加認識語彙の重要度を高くする所定の計算を行う
    ことを特徴とする情報検索装置。
  13.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部で作成した前記追加認識語彙の種別を判定する語彙種別判定部を備え,
     前記認識語彙作成部は,さらに,前記語彙種別判定部で判定された前記追加認識語彙の種別に基づいて,該追加認識語彙を前記名称データベース及び前記言語モデル記憶部に追加する方法を変更する機能を有し,
     前記語彙種別判定部は,
     前記選択手段により選択されたレコードであるユーザ選択レコードにおけるそれぞれの属性の値と,前記操作入力部より入力された文字列である入力文字列とを比較し,前記入力文字列を含む前記ユーザ選択レコードにおける属性を判定結果として出力し,
     前記検索部は,
     前記ユーザ選択レコードにおける前記属性の値を読み取り,
     前記名称データベースの前記属性において,前記値と一致するレコードである一致レコードを検索し,
     作成した前記追加認識語彙を,前記名称データベースの前記一致レコードの追加認識語彙属性に追加する
    ことを特徴とする情報検索装置。
  14.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部は,
     作成した前記追加認識語彙と,前記言語モデル記憶部または前記名称データベースの属性に値として保存されている文字列との類似度を計算し,類似する語彙である類似語彙を列挙し,
     該類似語彙が存在する場合には,作成した前記追加認識語彙の前記名称データベース及び前記言語モデルへの追加方法を変更する
    ことを特徴とする情報検索装置。
  15.  請求項1に記載の情報検索装置において,
     前記認識語彙作成部は,
     作成した前記追加認識語彙に加えて,前記名称データベースのいずれかの属性と前記追加認識語彙を組み合わせた新規の追加認識語彙を作成する
    ことを特徴とする情報検索装置。
  16.  請求項8に記載の情報検索装置において,
     前記形態素の情報は,前記名称データベースの各属性にあらかじめ付与されている形態素区切り情報または形態素品詞情報を利用する
    ことを特徴とする情報検索装置。
  17.  請求項8に記載の情報検索装置において,
     前記情報検索装置は,前記形態素の分割処理を行う形態素分割処理手段を備えている
    ことを特徴とする情報検索装置。
  18.  情報検索装置を用いた情報検索方法であって,
     前記情報検索装置は,
     検索対象となる1つ以上の属性と,それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として,1つ以上の前記レコードを登録した名称データベースと,
     ユーザの操作入力もしくは音声入力を受け付ける入力部と,
     前記入力部から得られた音声を文字列に認識する音声認識部と,
     前記音声認識部において参照する音響データを格納する音響モデル記憶部と,
     前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と,
     検索部,出力部,選択手段及び認識語彙作成部とを備えており,
     前記検索部により,前記入力部または音声認識部から入力された入力文字列を用いて,前記名称データベースに含まれる前記属性の前記値を検索し,該値に前記入力文字列が含まれる前記レコードを候補として生成し,
     前記検索部で生成された前記レコードの候補を検索結果として前記出力部に提示し,
     前記認識語彙作成で,作成部前記検索結果に対する前記選択手段による前記レコードの選択結果を受けて,前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成し,
     前記入力文字列に対応する前記追加認識語彙と前記選択されたレコードの対応関係を,前記名称データベース若しくは前記言語モデルに記録し,
     前記検索部は,前記音声認識部から前記追加認識語彙が出力された場合に,該追加認識語彙に含まれる前記名称データベースのレコードを前記検索結果に含め前記出力部に提示する
    ことを特徴とする情報検索方法。
  19.  請求項18に記載の情報検索方法において,
     前記認識語彙作成部が作成した1つないし複数の前記追加認識語彙を前記出力部に提示し,
     前記入力部からの入力結果に基づいて,前記追加認識語彙として採用するものを変更する
    ことを特徴とする情報検索方法。
  20.  入力部を介して入力された操作入力もしくは音声入力を受け付け,名称データベースを検索して前記入力された文字列を含む施設名等の候補一覧を出力部に提示し,選択手段を介して選択された前記候補一覧中の施設名等により目的地を設定するナビゲーションでシステムであって,
     前記名称データベースは,検索対象となる1つ以上の属性と,それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として,1つ以上の前記レコードが登録されており,
     前記入力部から得られた音声を文字列に認識する音声認識部と,
     前記音声認識部において参照する音響データを格納する音響モデル記憶部と,
     前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と,
     前記入力部または音声認識部から入力された入力文字列を用いて,前記名称データベースに含まれる前記属性の前記値を検索し,該値に前記入力文字列が含まれる前記レコードを候補として生成し,検索結果として前記出力部に出力する検索部と,
     前記レコードの候補に対する前記選択手段による選択結果を受けて,前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成する認識語彙作成部と
    を備え,
     前記認識語彙作成部は,
     前記入力文字列に対応する前記追加認識語彙と前記選択されたレコードの対応関係を,前記名称データベース若しくは前記言語モデルに記録し,
     前記検索部は,前記音声認識部から前記追加認識語彙が出力された場合に,該追加認識語彙に含まれる前記名称データベースのレコードを前記検索結果に含める
    ことを特徴とするナビゲーションシステム。
PCT/JP2010/065502 2009-09-09 2010-09-09 情報検索装置,情報検索方法及びナビゲーションシステム WO2011030817A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010800399276A CN102549652B (zh) 2009-09-09 2010-09-09 信息检索装置
US13/395,080 US8949133B2 (en) 2009-09-09 2010-09-09 Information retrieving apparatus
EP10815412.1A EP2477186B1 (en) 2009-09-09 2010-09-09 Information retrieving apparatus, information retrieving method and navigation system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-208045 2009-09-09
JP2009208045A JP5697860B2 (ja) 2009-09-09 2009-09-09 情報検索装置,情報検索方法及びナビゲーションシステム

Publications (1)

Publication Number Publication Date
WO2011030817A1 true WO2011030817A1 (ja) 2011-03-17

Family

ID=43732486

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/065502 WO2011030817A1 (ja) 2009-09-09 2010-09-09 情報検索装置,情報検索方法及びナビゲーションシステム

Country Status (5)

Country Link
US (1) US8949133B2 (ja)
EP (1) EP2477186B1 (ja)
JP (1) JP5697860B2 (ja)
CN (1) CN102549652B (ja)
WO (1) WO2011030817A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9094956B2 (en) 2011-04-07 2015-07-28 Clarion Co., Ltd. Wireless communication terminal and operating system
US9996508B2 (en) 2013-11-25 2018-06-12 Nec Solution Innovators, Ltd. Input assistance device, input assistance method and storage medium

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067400A1 (en) * 2011-06-14 2014-03-06 Mitsubishi Electric Corporation Phonetic information generating device, vehicle-mounted information device, and database generation method
US8650031B1 (en) 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
CA2848996A1 (en) * 2011-09-29 2013-04-04 Fujitsu Limited Search method and information managing apparatus
DE102011087843B4 (de) * 2011-12-06 2013-07-11 Continental Automotive Gmbh Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank
CN103186523B (zh) * 2011-12-30 2017-05-10 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
CN103543905B (zh) * 2012-07-16 2017-07-25 百度在线网络技术(北京)有限公司 语音控制终端的界面的方法及装置
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US20140075306A1 (en) * 2012-09-12 2014-03-13 Randy Rega Music search and retrieval system
JP6115202B2 (ja) * 2013-03-12 2017-04-19 アイシン・エィ・ダブリュ株式会社 音声認識システム、方法およびプログラム
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
CN106773742B (zh) * 2015-11-23 2019-10-25 宏碁股份有限公司 语音控制方法及语音控制系统
US10872114B2 (en) * 2015-12-17 2020-12-22 Hitachi, Ltd. Image processing device, image retrieval interface display device, and method for displaying image retrieval interface
US10777201B2 (en) * 2016-11-04 2020-09-15 Microsoft Technology Licensing, Llc Voice enabled bot platform
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
JP6869835B2 (ja) * 2017-07-06 2021-05-12 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、端末装置、及び辞書管理方法
DE102017216571B4 (de) * 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
TWI697890B (zh) * 2018-10-12 2020-07-01 廣達電腦股份有限公司 語音校正系統及語音校正方法
JP2020086364A (ja) * 2018-11-30 2020-06-04 株式会社Nttぷらら 情報提示システム、情報提示装置、情報提示方法及びコンピュータプログラム
JP2021026188A (ja) * 2019-08-08 2021-02-22 本田技研工業株式会社 通信制御システム、通知制御方法、及び通信制御プログラム
CN114817155B (zh) * 2022-06-23 2022-09-20 北京理工大学 基于通用设备的文件存储及检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003302994A (ja) * 2002-04-10 2003-10-24 Canon Inc 音声認識機能付き電子機器及びその制御方法
JP2004133003A (ja) 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2007213005A (ja) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073097A (en) * 1992-11-13 2000-06-06 Dragon Systems, Inc. Speech recognition system which selects one of a plurality of vocabulary models
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US20050005266A1 (en) * 1997-05-01 2005-01-06 Datig William E. Method of and apparatus for realizing synthetic knowledge processes in devices for useful applications
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US7024364B2 (en) * 2001-03-09 2006-04-04 Bevocal, Inc. System, method and computer program product for looking up business addresses and directions based on a voice dial-up session
US7072838B1 (en) * 2001-03-20 2006-07-04 Nuance Communications, Inc. Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
WO2004028174A1 (en) * 2002-09-23 2004-04-01 Lg Electronics Inc. Radio communication scheme for providing multimedia broadcast and multicast services (mbms)
JP4287386B2 (ja) * 2005-01-31 2009-07-01 株式会社東芝 情報検索システム、方法及びプログラム
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003302994A (ja) * 2002-04-10 2003-10-24 Canon Inc 音声認識機能付き電子機器及びその制御方法
JP2004133003A (ja) 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2007213005A (ja) * 2006-01-10 2007-08-23 Nissan Motor Co Ltd 認識辞書システムおよびその更新方法
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
IWASE SHIGEHITO, METHOD OF INTERPRETING A COMPANY NAME USING NATURAL LANGUAGE PROCESSING, ELECTRONIC INFORMATION TECHNOLOGY ACADEMY PAPER, vol. J 82-DII, no. 8, 1999, pages 1305 - 1314
LEE; REDDY: "Automatic Speech Recognition: The Development of the Sphinx Recognition System", 1989, KLUWER ACADEMIC PUBLISHERS
MASANORI ENOKI ET AL.: "Automatic Generation Abbriviated Forms of Japanese Expressions and its Apprications to Speech Recognition", IPSJ SIG NOTES, vol. 2007, no. 129, 20 December 2007 (2007-12-20), pages 313 - 318, XP008152673 *
RABINER; JUANG: "Fundamentals of Speech Recognition", 1993, PRENTICE HALL PTR
See also references of EP2477186A4
SHIKANO; ITO; KAWAHARA; TAKEDA; YAMAMOTO: "Voice Recognizing System", 2001, OHMSHA, pages: 133
SHIKANO; TAKEDA; KAWAHARA; ITO; YAMADA; ITO; UTSURO; KOBAYASHI; SAGAYAMA; MINEMATSU: "Development of Basic Japanese Dictation Software", 19 IPA TECHNOLOGY PRESENTATION PAPER, 2000, Retrieved from the Internet <URL:http://www.ipa.go.jp/SYMPO/sympo2000/pdf/ipa19_1_51_1, pdf>

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9094956B2 (en) 2011-04-07 2015-07-28 Clarion Co., Ltd. Wireless communication terminal and operating system
US9996508B2 (en) 2013-11-25 2018-06-12 Nec Solution Innovators, Ltd. Input assistance device, input assistance method and storage medium

Also Published As

Publication number Publication date
CN102549652B (zh) 2013-08-07
JP5697860B2 (ja) 2015-04-08
CN102549652A (zh) 2012-07-04
EP2477186A4 (en) 2015-09-16
JP2011059313A (ja) 2011-03-24
US20120173574A1 (en) 2012-07-05
US8949133B2 (en) 2015-02-03
EP2477186B1 (en) 2018-07-18
EP2477186A1 (en) 2012-07-18

Similar Documents

Publication Publication Date Title
JP5697860B2 (ja) 情報検索装置,情報検索方法及びナビゲーションシステム
EP2259252B1 (en) Speech recognition method for selecting a combination of list elements via a speech input
US9805722B2 (en) Interactive speech recognition system
US8380505B2 (en) System for recognizing speech for searching a database
JP3955880B2 (ja) 音声認識装置
EP1693829B1 (en) Voice-controlled data system
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US8106285B2 (en) Speech-driven selection of an audio file
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
EP1933302A1 (en) Speech recognition method
JP3639776B2 (ja) 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2005227686A (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
KR20200087802A (ko) 적응형 고유명칭 개체 인식 및 이해를 위한 시스템 및 방법
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP2004294542A (ja) 音声認識装置及びそのプログラム
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
JP2009025411A (ja) 音声認識装置およびプログラム
JP2003141113A (ja) 翻訳装置、音声翻訳方法、およびプログラム
JP2005070330A (ja) 音声認識装置及びプログラム
JP2005084422A (ja) 音声認識検索装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080039927.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10815412

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13395080

Country of ref document: US

Ref document number: 2010815412

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE