WO2013157174A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2013157174A1
WO2013157174A1 PCT/JP2013/000458 JP2013000458W WO2013157174A1 WO 2013157174 A1 WO2013157174 A1 WO 2013157174A1 JP 2013000458 W JP2013000458 W JP 2013000458W WO 2013157174 A1 WO2013157174 A1 WO 2013157174A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
dictionary
name
dictionary data
creation
Prior art date
Application number
PCT/JP2013/000458
Other languages
English (en)
French (fr)
Inventor
辻 秀明
敏 宮國
Original Assignee
株式会社デンソー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社デンソー filed Critical 株式会社デンソー
Priority to US14/384,400 priority Critical patent/US9704479B2/en
Priority to CN201380020070.7A priority patent/CN104246872B/zh
Publication of WO2013157174A1 publication Critical patent/WO2013157174A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Definitions

  • the present disclosure acquires text information including a plurality of name data from a device, creates dictionary data by converting the name data included in the acquired text information into a dictionary, and performs dictionary registration of the created dictionary data
  • the present invention relates to a speech recognition apparatus that performs speech recognition on speech.
  • Patent Document 1 For example, a voice recognition device that performs voice recognition on voice related to music is widely used (see Patent Document 1).
  • the voice recognition device acquires music information from a device such as a USB (Universal Serial ⁇ ⁇ ⁇ Bus) memory, for example, when performing voice recognition on voice related to music.
  • the speech recognition apparatus creates dictionary data by converting the name data of the names (artist name, album name, title name, playlist name, etc.) included in the acquired music information, and creates a dictionary of the created dictionary data By performing registration, speech recognition is performed using the dictionary data in which the dictionary is registered.
  • This disclosure aims to provide a speech recognition device that can appropriately ensure a period during which speech recognition can be performed and can improve convenience by reducing the period during which speech recognition cannot be performed as much as possible.
  • the speech recognition apparatus creates text information acquisition means for acquiring text information including a plurality of name data from an external device, and dictionary data based on the plurality of name data included in the text information.
  • Dictionary data creation means dictionary data storage control means for storing dictionary data in dictionary data storage means, dictionary registration means for dictionary registration of dictionary data, and speech recognition using dictionary data for which dictionary registration has been performed Voice recognition means, and backup data creation means for creating backup data of dictionary data stored in the dictionary data storage means.
  • the dictionary data creation means creates dictionary data based on name data for each name type. When the same text information as the current text information acquired from the external device is acquired from the external device last time and the corresponding backup data is created by the backup data creation means, the dictionary registration means is used as backup data.
  • the dictionary of the created dictionary data is registered, and each time the dictionary data creation means completes creation of dictionary data based on certain name data, dictionary registration of dictionary data based on the name data is performed.
  • the creation of dictionary data based on the name data is changed.
  • speech recognition can be performed using the dictionary data for which the dictionary has been registered. If dictionary registration of dictionary data based on one name data is performed, voice recognition is performed using dictionary data based on one name data even if dictionary registration of dictionary data based on other name data is not performed. be able to.
  • the device that acquires the text information of this time is different from the conventional case where the previous dictionary data is discarded and new dictionary data is created from the beginning. If you have created backup data that corresponds to the text information that was previously acquired from the same device, you can register the dictionary data that has been registered by backing up dictionary data created as backup data. It can be used for voice recognition.
  • the dictionary registration of the dictionary data of the backup data is performed before the text information is acquired.
  • Voice recognition can be performed using the dictionary data of the backed up data.
  • Voice recognition can be performed sequentially (step by step) using the latest dictionary data in which the dictionary is registered.
  • FIG. 1 is a functional block diagram illustrating an embodiment of the present disclosure.
  • FIG. 2 is a flowchart showing device connection determination processing.
  • FIG. 3 is a diagram showing an aspect of creating dictionary data.
  • FIG. 4 is a diagram showing an aspect of creating dictionary data related to music information
  • FIGS. 5A and 5B are diagrams showing the correspondence between the time series for creating dictionary data and the display screen.
  • FIGS. 6A to 6C are diagrams showing display screens.
  • FIG. 7A to FIG. 7C are diagrams showing other display screens.
  • FIG. 8A to FIG. 8C are diagrams showing other display screens.
  • FIG. 9A to FIG. 9C are diagrams showing other display screens.
  • 10 (a) to 10 (c) are diagrams showing other display screens.
  • FIG. 11A to FIG. 11C are diagrams showing other display screens.
  • FIG. 12 is a diagram showing another display screen.
  • the voice recognition device 1 includes an audio control unit 2 that controls a process of reproducing music and the like, and a voice recognition control unit 3 that controls a process of creating dictionary data and a process of recognizing voice.
  • the audio control unit 2 and the voice recognition control unit 3 are configured to be able to transfer various data between them.
  • the audio control unit 2 includes a CPU, a RAM, a ROM, an I / O bus, and the like that are well-known microcomputers, and performs a process of reproducing music by executing a control program stored in advance.
  • the audio control unit 2 has a music information acquisition unit 4 (corresponding to a text information acquisition unit) and a music information database 5 capable of storing a plurality of name data included in the music information, and a name corresponding to the name.
  • a paraphrase word database 6 that can store paraphrase word data to be stored is connected.
  • the music information acquisition unit 4 stores the music information stored in the USB memory 7 by physically connecting the USB memory 7 (corresponding to a device) to the main body (not shown) of the voice recognition device 1. Obtained (input) from the USB memory 7, the obtained music information is stored in the music information database 5.
  • the music information is composed of, for example, an mp3 file, a wmv file, and the like.
  • the plurality of name data included in the music information includes artist name name data, album name name data, title name name data, playlist name name data, and the like.
  • the paraphrase data is associated with the name as described above. For example, if the paraphrase data is associated with two names of the artist name and the album name, the paraphrase data corresponds to the artist name and the album name. Paraphrase word data.
  • the paraphrase word database 6 may be omitted, that is, the paraphrase data may not be associated with the name.
  • the voice recognition control unit 3 includes a CPU, a RAM, a ROM, an I / O bus, and the like, which are well-known microcomputers, and performs processing for creating dictionary data and voice by executing a control program stored in advance. Performs speech recognition processing.
  • the voice recognition control unit 3 has an association unit 8 (corresponding to the association unit), a dictionary data creation unit 9 (corresponding to the dictionary data creation unit), and a dictionary data storage control unit 10 (dictionary data storage control). Equivalent), dictionary registration unit 11 (corresponding to dictionary registration unit), voice recognition unit 12 (corresponding to voice recognition unit), backup data creation unit 13 (corresponding to backup data creation unit), display control unit 14 (corresponding to notification control means) and dictionary databases 15 and 16 (corresponding to dictionary data storage means) capable of storing dictionary data are connected.
  • the association unit 8 associates the name of the music information acquired from the music information database 5 with the paraphrase word data acquired from the paraphrase word database 6.
  • the dictionary data creation unit 9 has a G2P (Grapheme to Phoneme) conversion function as a function for creating dictionary data, and creates dictionary data by dictionary-converting the name data acquired from the music information database 5.
  • the dictionary data creation unit 9 creates dictionary data by dictionary-converting the paraphrase word data acquired from the paraphrase word database 6. In this case, the dictionary data creation unit 9 starts creating dictionary data based on name data and paraphrase word data for each name type (details will be described later).
  • the dictionary data storage control unit 10 stores the dictionary data created by the dictionary data creation unit 9 in any of the dictionary databases 15 and 16 set as the latest storage area (details will be described later).
  • the dictionary registration unit 11 performs dictionary registration of dictionary data stored in the dictionary databases 15 and 16.
  • the voice recognition unit 12 is connected to a microphone 17 that collects the voice uttered by the user. When the voice uttered by the user is collected by the microphone 17 and the voice is input from the microphone 17, the voice is registered in the dictionary registration unit.
  • the speech recognition is performed by using the dictionary data in which the dictionary registration is performed in step S11.
  • the voice recognition unit 12 outputs a recognition result obtained by performing the voice recognition to the display control unit 14, and when the display control unit 14 inputs the recognition result from the voice recognition unit 12, a display screen showing the recognition result. Is displayed on a display device 18 (corresponding to notification means) made of, for example, a liquid crystal display device.
  • the dictionary databases 15 and 16 have a so-called two-surface configuration in which the latest storage area and the backup area can be switched alternatively.
  • the backup data creation unit 13 can selectively switch the dictionary databases 15 and 16 between the latest storage area and the backup area, and is stored in any of the dictionary databases 15 and 16 set as the latest storage area. Create dictionary data as backup data.
  • the backup data creation unit 13 switches the latest storage area from the latest storage area to the backup area and sets the backup area when the creation of the backup data is completed. The other is switched from the backup area to the latest storage area, and the dictionary data (past dictionary data) previously stored as backup data before the completion of the creation of backup data is discarded (deleted).
  • the dictionary databases 15 and 16 correspond to the dictionary data creation unit 9 starting creation of dictionary data of name data and paraphrase word data for each name type as described above, and storing dictionary data for each name data.
  • a dictionary database capable of storing dictionary data for each paraphrase word data. That is, the dictionary database 15 includes a dictionary database 15a that can store dictionary data obtained by dictionary-converting artist name name data, a dictionary database 15b that can store dictionary data obtained by dictionary-converting album name name data, and title name name data.
  • a dictionary database 15c capable of storing dictionary data obtained by dictionary conversion
  • dictionary data 15d capable of storing dictionary data obtained by dictionary conversion of name data of playlist names, and dictionary data obtained by dictionary conversion of paraphrase word data corresponding to artist names.
  • a dictionary database 15f capable of storing dictionary data obtained by dictionary-converting paraphrase word data corresponding to album names.
  • the dictionary database 16 includes a dictionary database 16a capable of storing dictionary data obtained by dictionary-converting artist name name data, a dictionary database 16b capable of storing dictionary data obtained by dictionary-converting album name name data, and title name names.
  • Dictionary database 16c capable of storing dictionary data obtained by dictionary conversion of data
  • dictionary database 16d capable of storing dictionary data obtained by dictionary conversion of name data of playlist names
  • the voice recognition device 1 described above may be a navigation device having a voice recognition function, for example. If the navigation device has a voice recognition function, in addition to the functions described above, a function for specifying the current position of the vehicle, a function for reading map data from the recording medium, and the road position data included in the current position of the vehicle and the map data A function that maps the road where the current position of the vehicle is located using and a function that searches the route from the current position of the vehicle to the destination set by the user, the searched route, and the road included in the map data In order to perform navigation such as a function that calculates the necessary points for route guidance based on data, etc., a function that draws a map around the current position of the vehicle, a schematic diagram of an expressway, an enlarged view near an intersection, etc. It has a well-known function. In this case, the display device 18 may be a device that displays a map or the like around the current position of the vehicle.
  • the voice recognition control unit 3 determines whether or not the USB memory 7 is connected to the voice recognition device 3 when the device connection determination process is started (step S1).
  • the voice recognition control unit 3 determines whether or not the connected USB memory 7 is the same as the previous connection. (Step S2).
  • the voice recognition control unit 3 determines whether or not the connected USB memory 7 is the same as the previous connection by determining unique identification information (for example, a manufacturing number) input from the USB memory 7. Determine whether.
  • the voice recognition control unit 3 determines that the connected USB memory 7 is the same as the previous connection (step S2: YES), first, the voice recognition control unit 3 stores dictionary data based on the name data stored as backup data. Register the dictionary. Specifically, the voice recognition control unit 3 sets the name type to the name (name of artist in this embodiment) having the highest priority in the name data (step S3), and sets the name data of the set name. It is determined whether or not the dictionary data based is stored as backup data in any of the dictionary databases 15 and 16 (step S4).
  • step S4 determines that the dictionary data based on the set name data is stored as backup data in either of the dictionary databases 15 and 16 (step S4: YES)
  • the voice recognition control unit 3 stores the backup data as the backup data.
  • Dictionary registration of dictionary data based on the name data is performed (step S5).
  • the voice recognition control unit 3 performs dictionary registration of dictionary data based on the name data stored as the backup data, and thereafter performs voice recognition on the input voice for the backup data that has undergone dictionary registration. This can be done using dictionary data.
  • the voice recognition control unit 3 determines whether or not the name type is set to the name with the lowest priority in the name data (playlist name in this embodiment) (step S6), and the name type. Is determined not to be set to the name with the lowest priority in the name data (step S5: NO), the name type is incremented (the name of the next priority is set) (step S7), Steps S4 to S6 are repeated. That is, thereafter, the voice recognition control unit 3 sequentially sets the name type to album name, title name, and playlist name, and dictionary data based on each name data is stored as backup data in any of the dictionary databases 15 and 16. If it is determined that the data is stored, the dictionary registration of the dictionary data based on the name data stored as the backup data is performed.
  • step S6 YES
  • the dictionary based on the name data stored as backup data Complete data dictionary registration.
  • the speech recognition control unit 3 completes dictionary registration of dictionary data based on name data stored as backup data in this way, similarly, dictionary registration of dictionary data based on paraphrase word data stored as backup data is performed. I do.
  • the voice recognition control unit 3 performs the dictionary registration of the dictionary data based on the name data acquired from the USB memory 7 by name type. Do it every time. Specifically, the voice recognition control unit 3 sets the name type to the name having the highest priority in the name data (step S8), and the name data set to the name type is changed from the previous connection. It is determined whether or not (step S9). That is, the voice recognition control unit 3 collates the name data stored in the music information database 5 with the dictionary data stored as backup data in either of the dictionary databases 15 and 16, thereby identifying the name type. It is determined whether the name data set in has been changed since the last connection.
  • step S9 the voice recognition control unit 3 acquires the name data from the music information database 5 (step S10). .
  • the voice recognition control unit 3 converts the acquired name data into a dictionary and starts creating dictionary data (step S11), and determines whether or not creation of dictionary data based on the name data is completed (step S12). ). If the speech recognition control unit 3 determines that the creation of the dictionary data based on the name data has been completed (step S12: YES), the dictionary data based on the created name data is stored in the dictionary databases 15 and 16 as the latest storage area. It is stored in any set one (step S13).
  • the voice recognition control unit 3 creates, as backup data, dictionary data stored in any of the dictionary databases 15 and 16 in which the latest storage area is set (step S14). At this time, the voice recognition control unit 3 switches one of the latest storage areas from the latest storage area to the backup area when the creation of the backup data is completed. Further, the voice recognition control unit 3 switches the other setting the backup area from the backup area to the latest storage area, and discards the dictionary data (past dictionary data) stored as backup data up to that point ( Step S15).
  • the voice recognition control unit 3 performs dictionary registration of dictionary data based on the name data created as the backup data, that is, the name data acquired from the USB memory 7 by the current connection (step S16). That is, the voice recognition control unit 3 performs dictionary registration of dictionary data based on the name data acquired from the USB memory 7 by this connection, and thereafter, the voice recognition for the input voice is performed using the latest dictionary data. Can be done.
  • the voice recognition control unit 3 determines whether or not the name type is set to the name with the lowest priority in the name data (playlist name in the present embodiment) (step S17), and the name type. Is determined not to be set to the name with the lowest priority in the name data (step S17: NO), the name type is incremented (name of the next priority is set) (step S18), Steps S9 to S17 are repeated. That is, after that, when the voice recognition control unit 3 sequentially sets the name type to album name, title name, and playlist name, and determines that each name data has been changed, the name data is converted to music information. Obtained from the database 5 and dictionary-converting the obtained name data to create dictionary data.
  • step S17 when the voice recognition control unit 3 determines that the name type is set to the name with the lowest priority in the name data (step S17: YES), the dictionary data based on the name data acquired from the USB memory 7 is used. Complete the dictionary registration.
  • the speech recognition control unit 3 performs dictionary registration of dictionary data based on paraphrase data corresponding to the name for each name type. Specifically, the speech recognition control unit 3 sets the name type to the name with the highest priority in the paraphrase word data (step S19), and the paraphrase data set as the name type has been changed from the previous connection. It is determined whether or not it has been changed (step S20). That is, the speech recognition control unit 3 collates the paraphrase word data stored in the paraphrase word database 5 with the dictionary data stored as backup data in either of the dictionary databases 15 and 16, thereby It is determined whether or not the paraphrase data set for the type has been changed since the previous connection.
  • the speech recognition control unit 3 determines that the paraphrase data set for the name type has been changed since the previous connection (step S20: YES), the speech recognition control unit 3 acquires the paraphrase data from the paraphrase database 6 (step S20). S21). The speech recognition control unit 3 dictionary-converts the acquired paraphrase word data and starts creating dictionary data (step S22), and determines whether or not the creation of dictionary data based on the paraphrase word data is completed (step S22). Step S23). When the speech recognition control unit 3 determines that the creation of the dictionary data based on the paraphrase word data is completed (step S23: YES), the dictionary data based on the created paraphrase word data is the latest saved in the dictionary databases 15 and 16. The area is stored in any of the set areas (step S24).
  • the voice recognition control unit 3 creates, as backup data, dictionary data stored in any of the dictionary databases 15 and 16 in which the latest storage area is set (step S25).
  • the voice recognition control unit 3 switches one of the latest storage areas from the latest storage area to the backup area when the creation of the backup data is completed. Further, the voice recognition control unit 3 switches the other setting the backup area from the backup area to the latest storage area, and discards the dictionary data (past dictionary data) stored as backup data up to that point ( Step S26).
  • the speech recognition control unit 3 performs dictionary registration of dictionary data based on the paraphrase data created as the backup data, that is, paraphrase data corresponding to the name acquired from the USB memory 7 by the current connection (step S27). ). That is, the voice recognition control unit 3 performs dictionary registration of dictionary data based on the paraphrase data corresponding to the name acquired from the USB memory 7 by this connection, and thereafter, the voice recognition for the inputted voice is the latest. This can be done using dictionary data.
  • the speech recognition control unit 3 determines whether or not the name type is set to the lowest priority name (album name in this embodiment) of the paraphrase word data (step S28), and the name type If it is determined that the priority of the paraphrase word data is not set to the lowest name (step S28: NO), the name type is incremented (the name of the next priority is set) (step S29), The above steps S20 to S28 are repeated. That is, after that, when the speech recognition control unit 3 sets the name type to the album name and determines that the paraphrase data is changed, the voice recognition control unit 3 acquires the paraphrase data from the paraphrase database 6, and Dictionary data is created by dictionary conversion of the acquired paraphrase word data.
  • step S28 YES
  • the dictionary data based on the paraphrase word data corresponding to the name Complete dictionary registration end the device connection determination process, and return.
  • step S2 determines that the connected USB memory 7 is not the same as the previous connection
  • step S9 determines that the name data set for the name type has been changed since the previous connection
  • step S10 acquires the name data from the music information database 5 ( In step S10), the same processing is performed thereafter.
  • step S9 determines that the name data set for the name type has not been changed since the last connection (step S9: NO)
  • the name recognition data 5 is not acquired from the music information database 5. Creation of dictionary data is not started, and the process proceeds to step S17. If the speech recognition control unit 3 determines that the paraphrase data set for the name type has not been changed since the previous connection (step S20: NO), the speech recognition control unit 3 obtains the paraphrase data from the paraphrase database 6. Without creating the dictionary data, the process proceeds to step S28.
  • the voice recognition device 1 performs the above-described series of processing by the voice recognition control unit 3, and when the USB memory 7 that created dictionary data at the previous connection is connected, as shown in FIG.
  • voice recognition is performed using dictionary data created as backup data during the period during which new dictionary data is being created. It becomes possible.
  • the voice recognition device 1 creates dictionary data based on the name data and paraphrase data acquired from the USB memory 7, as shown in FIG. Then, for each name type, start dictionary registration. That is, for name data, creation of dictionary data is started in accordance with the order of artist name, album name, title name, playlist name, and dictionary registration is performed. Thereafter, for paraphrase word data, artist name, album name By starting the creation of dictionary data according to the order and registering the dictionary, it is possible to perform speech recognition using dictionary data based on the name data and paraphrase data that have been created.
  • the speech recognition apparatus 1 uses FIG. 6 in order to notify the user of the progress of the creation of dictionary data during the creation of dictionary data based on name data and paraphrase word data as described above.
  • Display screens shown in FIGS. 11A to 11C are sequentially displayed on the display device 18. More specifically, the voice recognition device 1 stores the name data of the artist name, album name, title name, and playlist name when the backup data is not stored when the USB memory 7 is connected.
  • the voice recognition device 1 stores the name data of the artist name, album name, title name, and playlist name when the backup data is not stored when the USB memory 7 is connected.
  • the creation of the latest dictionary data is started and the user can recognize that voice recognition cannot be performed.
  • the display screen shown in FIG. 6B is displayed, so that the user knows that the latest dictionary data is being created and that voice recognition can be performed using the latest dictionary data after a while. be able to.
  • 6C is displayed, the creation of dictionary data based on the artist name data is completed, and voice recognition can be performed using the latest artist name data (artist name). The user can grasp that dictionary data based on the name data is created).
  • the voice recognition device 1 when the backup data is stored when the USB memory 7 is connected, the voice recognition device 1 similarly stores the name data of the artist name, album name, title name, and playlist name.
  • the voice recognition device 1 By sequentially displaying the display screens shown in FIGS. 9A to 11C on the display device 18 at the timing of starting creation of dictionary data based on the timing during creation and the timing of completing creation, Is notified.
  • the voice recognition device 1 is not limited to the timing of starting creation of dictionary data based on the above-described name data, the timing during creation, and the timing of completion of creation, but also includes paraphrase data and album names corresponding to artist names. Display that informs the user of the progress of the creation of dictionary data in the same way at the timing of starting creation of dictionary data based on the corresponding paraphrase word data, the timing during creation, and the timing of completion of creation Screens (not shown) are sequentially displayed on the display device 18.
  • the timing at which creation is completed includes the timing at which dictionary registration is completed, that is, the timing at which voice recognition is possible.
  • the speech recognition apparatus 1 creation of dictionary data based on name data and paraphrase word data is started for each type of name, and the creation of the latest dictionary data that has been created is completed. Added dictionary registration. As a result, speech recognition can be performed using the latest dictionary data in which the dictionary is registered. Also, if text information is acquired from the same device that created the dictionary data last time, if backup data corresponding to the text information acquired last time from the same device that acquires the text information this time is created, Added dictionary registration for dictionary data created as backup data. Thereby, voice recognition can be performed using the dictionary data in which the dictionary is registered.
  • dictionary data used when performing speech recognition is stored as a history, and the creation of dictionary data based on name data or paraphrase word data is used as dictionary data when speech recognition is performed based on the history in the past. If an order with high frequency is started as a priority order, dictionary data based on name data or paraphrase data that is likely to be used can be preferentially created.
  • the dictionary data After the dictionary registration of the backup data dictionary data, if it is determined that the name data has not been changed since the previous connection, the dictionary data is not created based on the name data, and the paraphrase data is If it has been determined that there has been no change since the connection, no dictionary data is created based on paraphrase word data. Thereby, it is possible to perform voice recognition using the dictionary data of the backup data in which the dictionary is registered before determining whether the name data or paraphrase word data has been changed since the previous connection.
  • any name can be recognized using dictionary data based on the latest name data or paraphrase data, and any name can be based on past name data or paraphrase data. Announces whether or not speech recognition using dictionary data is possible. Thereby, it is possible to make the user know one by one that the dictionary data based on the name data and paraphrase word data has been updated, and that voice recognition by the latest name data and paraphrase word data is possible.
  • a device that can be mounted on a vehicle but also a device that is installed in a building such as a home, for example, may be a device that is used in a situation unrelated to the vehicle.
  • the device is not limited to a USB memory, and may be another device such as a music playback terminal.
  • the voice recognition apparatus and the music playback terminal perform Bluetooth (registered trademark) communication between the two so that the voice recognition apparatus acquires music information from the music playback terminal. May be.
  • the text information is not limited to music information, but may be phone book information or place name information.
  • dictionary data based on registered names, fixed phone numbers, mobile phone numbers, etc. as name data may be started for each name type. In that case, for example, the name of a person may be adopted as the paraphrase word data.
  • dictionary data based on each of the facility name, facility telephone number, address, etc., as name data may be started for each type of name. In that case, for example, an abbreviation of the facility name may be adopted as the paraphrase word data.
  • a voice indicating the progress of the creation of dictionary data may be output to notify that fact.
  • displaying the display screen and outputting sound may be used in combination.
  • a configuration in which a function for reproducing music is provided in a device different from the speech recognition device may be employed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

 音声認識装置(1)は、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、その辞書データの辞書登録を行う。音声認識装置(1)は、前回に辞書データを作成したテキスト情報と同じテキスト情報を取得し、前回のテキスト情報に対応するバックアップデータを作成している場合、バックアップデータとして作成されている辞書データの辞書登録を行う。さらに、辞書データ作成手段(9)が、ある名称データに基づく辞書データの作成を完了する毎に、その名称データに基づく辞書データの辞書登録を行う。

Description

音声認識装置 関連出願の相互参照
 本開示は、2012年4月16日に出願された日本出願番号2012-93014号に基づくもので、ここにその記載内容を援用する。
 本開示は、複数の名称データを含むテキスト情報をデバイスから取得し、その取得したテキスト情報に含まれる名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、音声に対する音声認識を行う音声認識装置に関するものである。
 例えば楽曲に関する音声に対する音声認識を行う音声認識装置が広く普及している(特許文献1参照)。
 音声認識装置は、楽曲に関する音声に対する音声認識を行う場合には、例えばUSB(Universal Serial Bus)メモリ等のデバイスから楽曲情報を取得する。音声認識装置は、その取得した楽曲情報に含まれる名称(アーティスト名、アルバム名、タイトル名、プレイリスト名等)の名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行う。
 しかしながら、従来は、楽曲情報に含まれる全ての名称データを取得してから(全ての名称データが揃ってから)辞書データの作成を開始し、即ち、楽曲情報に含まれる全ての名称データを取得するまで辞書データの作成を開始しなかった。そのため、辞書データを作成する対象の楽曲情報の件数が多く、楽曲情報のデータ量が増加すると、辞書データの作成を開始するまでに多くの時間を要する。その結果、デバイスを音声認識装置に接続してから音声認識を行えるまでに多くの時間を要するという問題があった。
 又、従来は、前回の接続時に辞書データを作成したデバイスと同じデバイスが再度接続された場合でも、そのデバイスに記憶されている楽曲情報が前回の接続時から少しでも変更(追加又は削除)されていると、その前回の接続時に作成した辞書データを破棄して新たな辞書データを最初から作成していた。そのため、僅かな楽曲情報しか変更されなかった場合でも、その変更された僅かな楽曲情報のデータ量に見合わない期間で音声認識を行えないという問題があった。
特許第3911178号公報
 本開示は、音声認識を行えない期間を極力低減することで、音声認識を行える期間を適切に確保することができ、利便性を高めることができる音声認識装置を提供することを目的とする。
 本開示の第一の態様において、音声認識装置は、複数の名称データを含むテキスト情報を外部デバイスから取得するテキスト情報取得手段と、テキスト情報に含まれる複数の名称データに基づく辞書データを作成する辞書データ作成手段と、辞書データを辞書データ保存手段に保存させる辞書データ保存制御手段と、辞書データの辞書登録を行う辞書登録手段と、辞書登録が行われた辞書データを用いて音声認識を行う音声認識手段と、前記辞書データ保存手段に保存されている辞書データのバックアップデータを作成するバックアップデータ作成手段と、を備える。前記辞書データ作成手段は、名称データに基づく辞書データの作成を名称の種別毎に実行する。外部デバイスから現時点で取得したテキスト情報と同じテキスト情報が、前回、外部デバイスから取得され、それに対応するバックアップデータが前記バックアップデータ作成手段により作成されている場合、前記辞書登録手段は、バックアップデータとして作成されている辞書データの辞書登録を行い、前記辞書データ作成手段が、ある名称データに基づく辞書データの作成を完了する毎に、その名称データに基づく辞書データの辞書登録を行う。
 これにより、テキスト情報に含まれる全ての名称データを取得してから(全ての名称データが揃ってから)辞書データの作成を開始する従来とは異なり、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。一の名称データに基づく辞書データの辞書登録を行っていれば、他の名称データに基づく辞書データの辞書登録を行っていなくても、一の名称データに基づく辞書データを用いて音声認識を行うことができる。
 又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、前回の辞書データを破棄して新たな辞書データを最初から作成する従来とは異なり、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行っておくことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。
 このように、前回のデバイスと同じであると判定した時点でバックアップデータを作成していれば、そのバックアップデータの辞書データの辞書登録を行うことで、テキスト情報を取得する前に、その辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。一方、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行う(最新の辞書データをバックアップデータの辞書データと差し替える)ことで、その辞書登録を行った最新の辞書データを用いて音声認識を順次(段階的に)行うことができる。
 本開示についての上記目的およびその他の目的、特徴や利点は、添付の図面を参照しながら下記の詳細な記述により、より明確になる。その図面は、
図1は、本開示の一実施形態を示す機能ブロック図であり、 図2は、デバイス接続判定処理を示すフローチャートであり、 図3は、辞書データを作成する態様を示す図であり、 図4は、楽曲情報に関する辞書データを作成する態様を示す図であり、 図5(a)と図5(b)は、辞書データを作成する時系列と表示画面との対応を示す図であり、 図6(a)から図6(c)は、表示画面を示す図であり、 図7(a)から図7(c)は、他の表示画面を示す図であり、 図8(a)から図8(c)は、他の表示画面を示す図であり、 図9(a)から図9(c)は、他の表示画面を示す図であり、 図10(a)から図10(c)は、他の表示画面を示す図であり、 図11(a)から図11(c)は、他の表示画面を示す図であり、 図12は、他の表示画面を示す図である。
 以下、車両に搭載可能に構成され、楽曲情報(テキスト情報に相当)を記憶可能なUSB(Universal Serial Bus)メモリとの接続インタフェースを有する音声認識装置に適用した一実施形態について、図面を参照して説明する。ここでいう車両に搭載可能とは、車両に対して固定的に取付けられているいわゆる据付型の態様であっても良いし、車両に対して着脱可能ないわゆる可搬型の態様であっても良いことを意味する。音声認識装置1は、楽曲を再生する処理等を制御するオーディオ制御部2と、辞書データを作成する処理や音声を音声認識する処理等を制御する音声認識制御部3とを有する。オーディオ制御部2及び音声認識制御部3は、両者の間で各種データを転送可能に構成されている。
 オーディオ制御部2は、周知のマイクロコンピュータからなるCPU、RAM、ROM及びI/Oバス等を有し、予め記憶している制御プログラムを実行することで、楽曲を再生する処理等を行う。オーディオ制御部2は、その機能により、楽曲情報取得部4(テキスト情報取得手段に相当)を有すると共に、楽曲情報に含まれる複数の名称データを保存可能な楽曲情報データベース5と、名称に対応付けられる言い換え語データを保存可能な言い換え語データベース6とを接続している。楽曲情報取得部4は、USBメモリ7(デバイスに相当)が音声認識装置1の本体(図示せず)に対して物理的に接続されることで、USBメモリ7に記憶されている楽曲情報を当該USBメモリ7から取得し(入力し)、その取得した楽曲情報を楽曲情報データベース5に保存する。
 楽曲情報は、例えばmp3ファイル、wmvファイル等により構成される。楽曲情報に含まれる複数の名称データは、アーティスト名の名称データ、アルバム名の名称データ、タイトル名の名称データ、プレイリスト名の名称データ等である。言い換え語データは、上記したように名称に対応付けられ、例えばアーティスト名とアルバム名との2つの名称に各々対応付けられていれば、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとである。尚、本実施形態では、言い換え語データとして、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとの2つを挙げているが、タイトル名に対応する言い換え語データや、プレイリスト名に対応する言い換え語データであっても良い。又、言い換え語データベース6が省略されても良く、即ち、名称に言い換え語データが対応付けられなくても良い。
 音声認識制御部3は、周知のマイクロコンピュータからなるCPU、RAM、ROM及びI/Oバス等を有し、予め記憶している制御プログラムを実行することで、辞書データを作成する処理や音声を音声認識する処理等を行う。音声認識制御部3は、その機能により、対応付け部8(対応付け手段に相当)と、辞書データ作成部9(辞書データ作成手段に相当)と、辞書データ保存制御部10(辞書データ保存制御手段に相当)と、辞書登録部11(辞書登録手段に相当)と、音声認識部12(音声認識手段に相当)と、バックアップデータ作成部13(バックアップデータ作成手段に相当)と、表示制御部14(報知制御手段に相当)とを有すると共に、辞書データを保存可能な辞書データベース15、16(辞書データ保存手段に相当)を接続している。
 対応付け部8は、楽曲情報データベース5から取得した楽曲情報の名称と言い換え語データベース6から取得した言い換え語データとを対応付ける。辞書データ作成部9は、辞書データを作成する機能としてG2P(Grapheme to Phoneme)変換機能を有し、楽曲情
報データベース5から取得した名称データを辞書変換して辞書データを作成する。又、辞書データ作成部9は、言い換え語データベース6から取得した言い換え語データを辞書変換して辞書データを作成する。この場合、辞書データ作成部9は、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始する(詳しくは後述する)。
 辞書データ保存制御部10は、辞書データ作成部9により作成された辞書データを、辞書データベース15、16のうち最新保存領域(詳しくは後述する)として設定されている何れかに保存させる。辞書登録部11は、辞書データベース15、16に保存されている辞書データの辞書登録を行う。音声認識部12は、ユーザが発した音声を集音するマイク17を接続しており、ユーザが発した音声がマイク17により集音され、マイク17から音声を入力すると、その音声を辞書登録部11により辞書登録が行われた辞書データを用いて音声認識を行う。この場合、音声認識部12は、その音声認識を行った認識結果を表示制御部14に出力し、表示制御部14は、音声認識部12から認識結果を入力すると、その認識結果を示す表示画面を例えば液晶ディスプレイ装置からなる表示装置18(報知手段に相当)に表示させる。
 辞書データベース15、16は、最新保存領域とバックアップ領域とを択一的に切換可能ないわゆる2面構成である。バックアップデータ作成部13は、辞書データベース15、16を最新保存領域とバックアップ領域とを択一的に切換可能であり、辞書データベース15、16のうち最新保存領域として設定している何れかに保存されている辞書データをバックアップデータとして作成する。バックアップデータ作成部13は、バックアップデータを作成すると、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換え、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、バックアップデータの作成を完了するよりも以前にバックアップデータとして保存させていた辞書データ(過去の辞書データ)を破棄する(削除する)。
 辞書データベース15、16は、上記したように辞書データ作成部9が名称データや言い換え語データの辞書データの作成を名称の種別毎に開始することに対応し、各々名称データ毎の辞書データを保存可能な辞書データベースと、言い換え語データ毎の辞書データを保存可能な辞書データベースとを含んで構成される。即ち、辞書データベース15は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース15a、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース15b、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース15c、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース15d、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース15e、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース15fを有する。
 同様に、辞書データベース16は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース16a、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース16b、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース16c、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース16d、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース16e、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース16fを有する。辞書データベース15、16は、保存する対象の辞書データが対応する同士では、その記憶容量、データの書込速度、データの読出速度等の性能に差異がないことが望ましい。
 上記した音声認識装置1は、例えば音声認識機能を有するナビゲーション装置等であっても良い。音声認識機能を有するナビゲーション装置であれば、上記した機能に加え、車両の現在位置を特定する機能、記録媒体から地図データを読出す機能、車両の現在位置と地図データに含まれている道路データとを使用して車両の現在位置が存在する道路をマップマッチングする機能、車両の現在位置からユーザが設定した目的地までの経路を探索する機能、探索した経路及び地図データに含まれている道路データ等に基づいて経路案内に必要な地点を算出して経路案内する機能、車両の現在位置の周辺の地図や高速道路の略図や交差点付近の拡大図等を描画する機能等のナビゲーションを行うための周知の機能を有する。その場合、表示装置18は、車両の現在位置の周辺の地図等を表示する装置等であっても良い。
 次に、上記した構成の作用として、音声認識制御部3が本開示に関連して行うデバイス接続判定処理について、図2乃至図12を参照して説明する。尚、ここでは、名称データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序を設定しており、言い換え語データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名の順序を設定していることを前提として説明する。
 音声認識制御部3は、デバイス接続判定処理を開始すると、USBメモリ7が音声認識装置3に接続されたか否かを判定する(ステップS1)。音声認識制御部3は、USBメモリ7が音声認識装置3に接続されたと判定すると(ステップS1:YES)、その接続されたUSBメモリ7が前回の接続時と同じであるか否かを判定する(ステップS2)。この場合、音声認識制御部3は、USBメモリ7から入力する固有な識別情報(例えば製造番号等)を判定することで、その接続されたUSBメモリ7が前回の接続時と同じであるか否かを判定する。
 音声認識制御部3は、その接続されたUSBメモリ7が前回の接続時と同じであると判定すると(ステップS2:YES)、最初に、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。具体的には、音声認識制御部3は、名称の種別を名称データの優先順位が最上位の名称(本実施形態ではアーティスト名)に設定し(ステップS3)、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されているか否かを判定する(ステップS4)。
 音声認識制御部3は、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されていると判定すると(ステップS4:YES)、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う(ステップS5)。即ち、音声認識制御部3は、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を、辞書登録を行ったバックアップデータの辞書データを用いて行うことが可能となる。
 そして、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称(本実施形態ではプレイリスト名)に設定しているか否かを判定し(ステップS6)、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると(ステップS5:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS7)、上記したステップS4乃至S6を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されていると判定すると、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。
 一方、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称に設定していると判定すると(ステップS6:YES)、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了する。音声認識制御部3は、このようにバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了すると、同様に、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を行う。
 次に、音声認識制御部3は、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を完了すると、USBメモリ7から取得した名称データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部3は、名称の種別を名称データの優先順位が最上位の名称に設定し(ステップS8)、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する(ステップS9)。即ち、音声認識制御部3は、楽曲情報データベース5に保存されている名称データと、辞書データベース15、16の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する。
 音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていると判定すると(ステップS9:YES)、その名称データを楽曲情報データベース5から取得する(ステップS10)。音声認識制御部3は、その取得した名称データを辞書変換して辞書データの作成を開始し(ステップS11)、その名称データに基づく辞書データの作成を完了したか否かを判定する(ステップS12)。音声認識制御部3は、その名称データに基づく辞書データの作成を完了したと判定すると(ステップS12:YES)、その作成した名称データに基づく辞書データを辞書データベース15、16のうち最新保存領域を設定している何れかに保存させる(ステップS13)。
 音声認識制御部3は、辞書データベース15、16のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する(ステップS14)。このとき、音声認識制御部3は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部3は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ(過去の辞書データ)を破棄する(ステップS15)。
 その後、音声認識制御部3は、そのバックアップデータとして作成した名称データ、即ち、今回の接続によりUSBメモリ7から取得した名称データに基づく辞書データの辞書登録を行う(ステップS16)。即ち、音声認識制御部3は、今回の接続によりUSBメモリ7から取得した名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。
 そして、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称(本実施形態ではプレイリスト名)に設定しているか否かを判定し(ステップS17)、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると(ステップS17:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS18)、上記したステップS9乃至S17を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データが変更されていると判定すると、その名称データを楽曲情報データベース5から取得し、その取得した名称データを辞書変換して辞書データを作成する。
 一方、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称を設定していると判定すると(ステップS17:YES)、USBメモリ7から取得した名称データに基づく辞書データの辞書登録を完了する。
 次に、音声認識制御部3は、名称に対応する言い換え語データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最上位の名称に設定し(ステップS19)、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する(ステップS20)。即ち、音声認識制御部3は、言い換え語データベース5に保存されている言い換え語データと、辞書データベース15、16の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する。
 音声認識制御部3は、名称の種別に設定した言い換え語データが前回の接続時から変更されていると判定すると(ステップS20:YES)、その言い換え語データを言い換え語データベース6から取得する(ステップS21)。音声認識制御部3は、その取得した言い換え語データを辞書変換して辞書データの作成を開始し(ステップS22)、その言い換え語データに基づく辞書データの作成を完了したか否かを判定する(ステップS23)。音声認識制御部3は、その言い換え語データに基づく辞書データの作成を完了したと判定すると(ステップS23:YES)、その作成した言い換え語データに基づく辞書データを辞書データベース15、16のうち最新保存領域を設定している何れかに保存させる(ステップS24)。
 音声認識制御部3は、辞書データベース15、16のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する(ステップS25)。音声認識制御部3は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部3は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ(過去の辞書データ)を破棄する(ステップS26)。
 その後、音声認識制御部3は、そのバックアップデータとして作成した言い換え語データ、即ち、今回の接続によりUSBメモリ7から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行う(ステップS27)。即ち、音声認識制御部3は、今回の接続によりUSBメモリ7から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。
 そして、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最下位の名称(本実施形態ではアルバム名)に設定しているか否かを判定し(ステップS28)、名称の種別を言い換え語データの優先順位が最下位の名称に設定していないと判定すると(ステップS28:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS29)、上記したステップS20乃至S28を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名に設定し、その言い換え語データが変更されていると判定すると、その言い換え語データを言い換え語データベース6から取得し、その取得した言い換え語データを辞書変換して辞書データを作成する。
 一方、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最下位の名称を設定していると判定すると(ステップS28:YES)、名称に対応する言い換え語データに基づく辞書データの辞書登録を完了し、デバイス接続判定処理を終了してリターンする。
 尚、音声認識制御部3は、接続されたUSBメモリ7が前回の接続時と同じでないと判定すると(ステップS2:NO)、バックアップデータが保存されているか否かを判定することはなく、ステップS8に移行する。この場合、音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていると判定し(ステップS9:YES)、その名称データを楽曲情報データベース5から取得し(ステップS10)、これ以降、同様の処理を行う。
 又、音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていないと判定すると(ステップS9:NO)、その名称データを楽曲情報データベース5から取得せずに辞書データの作成を開始することはなく、ステップS17に移行する。又、音声認識制御部3は、名称の種別に設定した言い換え語データが前回の接続時から変更されていないと判定すると(ステップS20:NO)、その言い換え語データを言い換え語データベース6から取得せずに辞書データの作成を開始することはなく、ステップS28に移行する。
 音声認識装置1は、上記した一連の処理を音声認識制御部3が行うことで、前回の接続時に辞書データを作成したUSBメモリ7が接続された際には、図3に示すように、バックアップデータとして保存されている名称データや言い換え語データに基づく辞書データの辞書登録を行うことで、新たな辞書データを作成中の期間に、バックアップデータとして作成されている辞書データを用いて音声認識を可能となる。
 又、音声認識装置1は、USBメモリ7から取得した名称データや言い換え語データに基づく辞書データを作成する際には、図4に示すように、辞書データの作成を予め設定している優先順位にしたがって名称の種別毎に開始して辞書登録を行う。即ち、名称データについては、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序にしたがって辞書データの作成を開始して辞書登録を行い、その後、言い換え語データについては、アーティスト名、アルバム名の順序にしたがって辞書データの作成を開始して辞書登録を行うことで、作成が完了した名称データや言い換え語データに基づく辞書データを用いて音声認識を可能となる。
 ところで、音声認識装置1は、上記したように名称データや言い換え語データに基づく辞書データの作成中の期間では、辞書データの作成の進捗がどの程度であるかをユーザに報知するために図6(a)乃至図11(c)に示す表示画面を表示装置18に順次表示させる。具体的に説明すると、音声認識装置1は、USBメモリ7が接続された時点でバックアップデータが保存されていない場合には、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図6(a)乃至図8(c)に示す表示画面を表示装置18に順次表示させることで、その旨を報知する。
 即ち、例えば図6(a)に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、音声認識を行えないことをユーザが把握することができる。又、図6(b)に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図6(c)に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える(アーティスト名の名称データに基づく辞書データが作成された)ことをユーザが把握することができる。
 一方、音声認識装置1は、USBメモリ7が接続された時点でバックアップデータが保存されている場合にも、同様にして、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図9(a)乃至図11(c)に示す表示画面を表示装置18に順次表示させることで、その旨を報知する。
 即ち、例えば図9(a)に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、最新の辞書データを用いて音声認識を行えないが過去の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図9(b)に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図9(c)に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える(アーティスト名の名称データに基づく辞書データが更新された)ことをユーザが把握することができる。
 尚、音声認識装置1は、上記した名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングのみに限らず、アーティスト名に対応する言い換え語データやアルバム名に対応する言い換え語データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングでも、同様にして、辞書データの作成の進捗がどの程度であるかをユーザに報知する表示画面(図示せず)を表示装置18に順次表示させる。ここでいう作成を完了したタイミングとは、辞書登録を完了したタイミングをも含む意味であり、即ち、音声認識が可能となるタイミングを意味する。又、音声認識装置1は、USBメモリ7から削除された名称を示す音声に対する音声認識を行った場合には、図12に示す表示画面を表示装置18に表示させ、その旨を報知する。
 以上に説明したように本実施形態によれば、音声認識装置1において、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った最新の辞書データを用いて音声認識を行うことができる。又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った辞書データを用いて音声認識を行うことができる。
 音声認識を行った際に用いた辞書データを履歴として記憶し、名称データや言い換え語データに基づく辞書データの作成を、その履歴に基づいて過去に音声認識を行った際に辞書データとして用いて頻度が多い順序を優先順位として開始するようにすれば、使用される可能性が高い名称データや言い換え語データに基づく辞書データを優先して作成することができる。
 辞書データや言い換え語データを作成する対象の件数(データ量)を判定し、名称データや言い換え語データに基づく辞書データの作成を、その件数が少ない順序を優先順位として開始するようにすれば、件数が少ない名称データや言い換え語データに基づく辞書データを優先して作成することができる。
 バックアップデータの辞書データの辞書登録を行った後に、名称データが前回の接続時から変更されていないと判定すると、名称データに基づく辞書データの作成を行わないようにし、又、言い換え語データが前回の接続時から変更されていないと判定すると、言い換え語データに基づく辞書データの作成を行わないようにした。これにより、名称データや言い換え語データが前回の接続時から変更されているか否かを判定する前に辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。
 バックアップデータが作成されている状態では、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であり、何れの名称が過去の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが更新された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。
 バックアップデータが作成されていない状態でも、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが作成された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。
 車両に搭載可能な装置に限らず、例えば自宅等の建物内に設置される装置であっても良く、即ち、車両とは関係ない状況で使用される装置であっても良い。
 デバイスとしては、USBメモリに限らず、例えば楽曲再生端末等の他の機器であっても良い。デバイスが楽曲再生端末である場合には、音声認識装置と楽曲再生端末とが両者の間でBluetooth(登録商標)通信を行うことで、音声認識装置が楽曲再生端末から楽曲情報を取得するようにしても良い。
 テキスト情報としては、楽曲情報に限らず、電話帳情報や地名情報等であっても良い。テキスト情報が電話帳情報である場合には、名称データとしての登録名、固定電話番号、携帯電話番号等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば人物の呼称等を採用しても良い。又、テキスト情報が地名情報である場合には、名称データとしての施設名称、施設電話番号、住所等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば施設名の略称等を採用しても良い。
 図6(a)乃至図12に示した表示画面を表示させることに代えて、辞書データの作成の進捗がどの程度であるかを示す音声を出力させることで、その旨を報知しても良い。又、表示画面を表示させることと音声を出力させることとを併用しても良い。
 最新の辞書データの作成中に過去の辞書データを用いて音声認識を行った場合に、その認識結果を出力する際に、その音声結果が過去の辞書データを用いて音声認識を行ったことによる旨を報知するようにしても良い。
 楽曲を再生する機能が音声認識装置とは別の装置に設けられている構成でも良い。
 本開示は、実施例に準拠して記述されたが、本開示は当該実施例や構造に限定されるものではないと理解される。本開示は、様々な変形例や均等範囲内の変形をも包含する。加えて、様々な組み合わせや形態、さらには、それらに一要素のみ、それ以上、あるいはそれ以下、を含む他の組み合わせや形態をも、本開示の範疇や思想範囲に入るものである。

Claims (14)

  1.  複数の名称データを含むテキスト情報を外部デバイス(7)から取得するテキスト情報取得手段(4)と、
     テキスト情報に含まれる複数の名称データに基づく辞書データを作成する辞書データ作成手段(9)と、
     辞書データを辞書データ保存手段(15、16)に保存させる辞書データ保存制御手段(10)と、
     辞書データの辞書登録を行う辞書登録手段(11)と、
     辞書登録が行われた辞書データを用いて音声認識を行う音声認識手段(12)と、
     前記辞書データ保存手段(15、16)に保存されている辞書データのバックアップデータを作成するバックアップデータ作成手段(13)と、を備え、
     前記辞書データ作成手段(9)は、名称データに基づく辞書データの作成を名称の種別毎に実行し、
     外部デバイス(7)から現時点で取得したテキスト情報と同じテキスト情報が、前回、外部デバイス(7)から取得され、それに対応するバックアップデータが前記バックアップデータ作成手段(13)により作成されている場合、前記辞書登録手段(11)は、バックアップデータとして作成されている辞書データの辞書登録を行い、前記辞書データ作成手段(9)が、ある名称データに基づく辞書データの作成を完了する毎に、その名称データに基づく辞書データの辞書登録を行う音声認識装置。
  2.  前記辞書データ作成手段(9)は、前記音声認識手段(12)が過去に音声認識を行った際に、辞書データとして用いた頻度が多い名称データの順序にしたがって、名称データに基づく辞書データの作成を実行する、
     請求項1に記載した音声認識装置。
  3.  前記辞書データ作成手段(9)は、その辞書データを作成する対象の件数が少ない順序にしたがって、名称データに基づく辞書データの作成を実行する、
     請求項1に記載した音声認識装置。
  4.  前記辞書データ作成手段(9)は、ある名称データが前回のテキスト情報取得時点から変更されている場合に、当該名称データに基づく辞書データの作成を実行し、
     前記辞書データ作成手段(9)は、ある名称データが前回のテキスト情報取得時点から変更されていない場合に、当該名称データに基づく辞書データの作成をスキップする、
     請求項1乃至3の何れかひとつに記載の音声認識装置。
  5.  ある名称と言い換え語データとを対応付ける対応付け手段(8)をさらに備え、
     前記辞書データ作成手段(9)は、全ての名称データに基づく辞書データの作成を完了した後に、前記対応付け手段(8)により名称に対応付けられた言い換え語データに基づく辞書データの作成を実行し、
     前記辞書登録手段(11)は、前記辞書データ作成手段(9)が言い換え語データに基づく辞書データの作成を完了した場合、その言い換え語データに基づく辞書データの辞書登録を行う、
     請求項1乃至4の何れかひとつに記載した音声認識装置。
  6.  前記対応付け手段(8)が複数の名称に複数の言い換え語データを対応付けた場合には、前記辞書データ作成手段(9)は、その複数の言い換え語データに基づく辞書データの作成を名称の種別毎に実行し、
     前記辞書登録手段(11)は、前記辞書データ作成手段(9)がある言い換え語データに基づく辞書データの作成を完了する毎に、その言い換え語データに基づく辞書データの辞書登録を行う、
     請求項5に記載した音声認識装置。
  7.  前記辞書データ作成手段(9)は、前記音声認識手段(12)が過去に音声認識を行った際に、辞書データとして用いた頻度が多い言い換え語データの順序にしたがって、複数の言い換え語データに基づく辞書データの作成を実行する、
     請求項5又は6に記載した音声認識装置。
  8.  前記辞書データ作成手段(9)は、その辞書データを作成する対象の件数が少ない順序にしたがって、複数の言い換え語データに基づく辞書データの作成を実行する、
     請求項5又は6に記載した音声認識装置。
  9.  前記辞書データ作成手段(9)は、ある言い換え語データが前回のテキスト情報取得時点から変更されている場合に、当該言い換え語データに基づく辞書データの作成を実行し、
     前記辞書データ作成手段(9)は、ある言い換え語データが前回のテキスト情報取得時点から変更されていない場合に、当該言い換え語データに基づく辞書データの作成をスキップする、
     請求項5乃至8の何れかひとつに記載した音声認識装置。
  10.  前記バックアップデータ作成手段(13)によりバックアップデータが作成されている場合、前記辞書データ作成手段(9)による辞書データの作成中や前記辞書登録手段(11)による辞書登録中の期間に、前記音声認識手段(12)がバックアップデータを用いて音声認識可能である旨を報知手段(18)により報知する報知制御手段(14)をさらに備える、
     請求項1乃至9の何れかひとつに記載した音声認識装置。
  11.  前記辞書データ作成手段(9)が名称データや言い換え語データに基づく辞書データの作成を完了した場合、前記報知制御手段(14)は、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を前記報知手段(18)により報知する、
     請求項10に記載した音声認識装置。
  12.  前記バックアップデータ作成手段(13)によりバックアップデータが作成されていない場合で、前記辞書データ作成手段(9)による辞書データの作成中の期間である場合、前記辞書データ作成手段(9)が名称データや言い換え語データに基づく辞書データの作成を完了した後に、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を報知手段(18)により報知する報知制御手段(14)をさらに備える、
     請求項1乃至11の何れかひとつに記載した音声認識装置。
  13.  前記報知制御手段(14)は、前記辞書データ作成手段(9)が名称データや言い換え語データに基づく辞書データの作成を完了した直後に、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を報知手段(18)により報知する、
     請求項11又は12に記載した音声認識装置。
  14.  前記テキスト情報取得手段(4)は、少なくともアーティスト名、アルバム名、タイトル名、プレイリスト名の名称データを含む楽曲情報をテキスト情報として取得する、
     請求項1乃至13の何れかに記載した音声認識装置。
     
     
PCT/JP2013/000458 2012-04-16 2013-01-29 音声認識装置 WO2013157174A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/384,400 US9704479B2 (en) 2012-04-16 2013-01-29 Speech recognition device
CN201380020070.7A CN104246872B (zh) 2012-04-16 2013-01-29 声音识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012093014A JP5942559B2 (ja) 2012-04-16 2012-04-16 音声認識装置
JP2012-093014 2012-04-16

Publications (1)

Publication Number Publication Date
WO2013157174A1 true WO2013157174A1 (ja) 2013-10-24

Family

ID=49383149

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/000458 WO2013157174A1 (ja) 2012-04-16 2013-01-29 音声認識装置

Country Status (4)

Country Link
US (1) US9704479B2 (ja)
JP (1) JP5942559B2 (ja)
CN (1) CN104246872B (ja)
WO (1) WO2013157174A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220632A1 (en) * 2012-09-27 2015-08-06 Nec Corporation Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information
WO2015178715A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271562A (ja) * 2009-05-22 2010-12-02 Alpine Electronics Inc 音声認識辞書作成装置及び音声認識辞書作成方法
JP2011039202A (ja) * 2009-08-07 2011-02-24 Aisin Aw Co Ltd 車載情報処理装置
JP2011064969A (ja) * 2009-09-17 2011-03-31 Alpine Electronics Inc 音声認識装置及び音声認識方法
JP2011095498A (ja) * 2009-10-29 2011-05-12 Aisin Aw Co Ltd 車載情報処理装置及び車載情報処理方法
JP2011150169A (ja) * 2010-01-22 2011-08-04 Alpine Electronics Inc 音声認識装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020048224A1 (en) 1999-01-05 2002-04-25 Dygert Timothy W. Playback device having text display and communication with remote database of titles
US6304523B1 (en) 1999-01-05 2001-10-16 Openglobe, Inc. Playback device having text display and communication with remote database of titles
JP3911178B2 (ja) 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7437296B2 (en) 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
JP4790024B2 (ja) * 2006-12-15 2011-10-12 三菱電機株式会社 音声認識装置
US8639214B1 (en) * 2007-10-26 2014-01-28 Iwao Fujisaki Communication device
JPWO2010018796A1 (ja) * 2008-08-11 2012-01-26 旭化成株式会社 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
JP4942860B2 (ja) * 2010-01-22 2012-05-30 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010271562A (ja) * 2009-05-22 2010-12-02 Alpine Electronics Inc 音声認識辞書作成装置及び音声認識辞書作成方法
JP2011039202A (ja) * 2009-08-07 2011-02-24 Aisin Aw Co Ltd 車載情報処理装置
JP2011064969A (ja) * 2009-09-17 2011-03-31 Alpine Electronics Inc 音声認識装置及び音声認識方法
JP2011095498A (ja) * 2009-10-29 2011-05-12 Aisin Aw Co Ltd 車載情報処理装置及び車載情報処理方法
JP2011150169A (ja) * 2010-01-22 2011-08-04 Alpine Electronics Inc 音声認識装置

Also Published As

Publication number Publication date
JP2013222033A (ja) 2013-10-28
US9704479B2 (en) 2017-07-11
JP5942559B2 (ja) 2016-06-29
CN104246872A (zh) 2014-12-24
US20150100317A1 (en) 2015-04-09
CN104246872B (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
US9105267B2 (en) Speech recognition apparatus
JP5234160B2 (ja) 車両用装置および情報表示システム
US9269351B2 (en) Voice recognition device
JP6155592B2 (ja) 音声認識システム
WO2013157174A1 (ja) 音声認識装置
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP6896335B2 (ja) 音声認識装置および音声認識方法
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
JP6100101B2 (ja) 音声認識を利用した候補選択装置および候補選択方法
JP5927969B2 (ja) 音声認識システム
JP2005275228A (ja) ナビゲーション装置
JP3718088B2 (ja) 音声認識修正方式
JP2000122685A (ja) ナビゲーションシステム
JP2008021235A (ja) 読み登録システム及び読み登録プログラム
JP3759313B2 (ja) 車載用ナビゲーション装置
JP2001154691A (ja) 音声認識装置
JP5500647B2 (ja) 動的音声認識辞書の生成方法及びその生成装置
JP2003005781A (ja) 音声認識機能付き制御装置及びプログラム
JP2015129672A (ja) 施設検索装置および方法
JP5522679B2 (ja) 検索装置
JP2011028460A (ja) 情報検索装置、制御方法及びプログラム
WO2015102039A1 (ja) 音声認識装置
WO2018100705A1 (ja) 音声認識装置及び音声認識方法
JP2018156278A (ja) 情報表示装置
JP2010048874A (ja) 音声認識装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13778034

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14384400

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13778034

Country of ref document: EP

Kind code of ref document: A1