WO2016092946A1 - 音声入力補助装置、音声入力補助システムおよび音声入力方法 - Google Patents

音声入力補助装置、音声入力補助システムおよび音声入力方法 Download PDF

Info

Publication number
WO2016092946A1
WO2016092946A1 PCT/JP2015/078339 JP2015078339W WO2016092946A1 WO 2016092946 A1 WO2016092946 A1 WO 2016092946A1 JP 2015078339 W JP2015078339 W JP 2015078339W WO 2016092946 A1 WO2016092946 A1 WO 2016092946A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice input
auxiliary device
input auxiliary
abbreviation
unit
Prior art date
Application number
PCT/JP2015/078339
Other languages
English (en)
French (fr)
Inventor
清水 淳史
山口 隆
靖 永井
Original Assignee
クラリオン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クラリオン株式会社 filed Critical クラリオン株式会社
Priority to US15/533,867 priority Critical patent/US20170323641A1/en
Priority to CN201580057276.6A priority patent/CN107148555A/zh
Priority to EP15868173.4A priority patent/EP3232160A4/en
Publication of WO2016092946A1 publication Critical patent/WO2016092946A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a technology of a voice input assist device, a voice input assist system, and a voice input method.
  • the present invention claims the priority of Japanese Patent Application No. 2014-251442 filed on December 12, 2014, and for the designated countries where weaving by reference of documents is permitted, the contents described in the application are as follows: Is incorporated into this application by reference.
  • Patent Document 1 JP-A-2002-055694 (Patent Document 1).
  • This publication states that “an operation switch that enables voice operation of a device, a storage means for usable operation voice, a selective display means for operation voice stored in the storage means, and an operation voice for the device. Recognizing means, and the storage means stores operation voice data that can be accepted for each level and the number of times of use for each operation voice in each level, and the display means has the operation switch turned on.
  • the recognition means When and / or when the recognition means recognizes the operation voice in one layer, the operation voice menu in which the operation voice is signed in the order of the number of times used for each layer is displayed on the screen, and the recognition means Is a voice operation device configured to be able to recognize the above-mentioned voice as an operation voice to which the sign is attached.
  • the user needs to speak and operate a code that is not a natural language, and it is necessary to check the code by viewing the screen in order to select the code to be spoken.
  • the present invention has been made to solve the above-described problems, and an object of the present invention is to enable operation with words that are abbreviated as short as desired operation items.
  • an audio input assistance device includes an abbreviation storage unit that stores an operation item and an abbreviation corresponding to a desired degree of the operation item in association with each other, and a predetermined index. Is used to estimate a desired degree for each operation item, and according to the desired degree, a desired degree estimation unit that specifies an abbreviation from the abbreviation storage unit and an omission specified by the desired degree estimation unit And an output processing unit for presenting words.
  • FIG. 1 It is a figure which shows the structural example of the audio
  • FIG. 1 is a diagram showing an example of the overall configuration of a voice input assist system 1 to which the first embodiment according to the present invention is applied.
  • the server apparatus 100, the voice input assist apparatus 200 that can communicate with the server apparatus 100 via the network 15 such as the Internet, and the voice input assist apparatus 200 are wired or The peripheral device 300 connected so as to be communicable wirelessly can be operated in cooperation.
  • the voice input auxiliary device 200 and the peripheral device 300 include all mobile devices that can operate independently, connect to the Internet, etc., such as a wireless communication router, a smartphone terminal, or a so-called tablet terminal.
  • the voice input auxiliary device 200 includes, for example, a navigation device provided in a moving body or a portable navigation device that is provided in the moving body but can operate independently even when removed.
  • the user 10 speaks an abbreviation for voice input presented by the voice input auxiliary device 200, thereby performing various operations before the abbreviation associated with the abbreviation on the input / output interface. Can be operated using.
  • the user 10 not only operates the voice input auxiliary device 200 using the input / output interface of the voice input auxiliary device 200, but also includes input / output including the voice input interface of the voice input auxiliary device 200.
  • Various software such as music playback application software provided in the peripheral device 300 can also be operated using the interface.
  • the network 15 is a wireless communication path such as a wireless LAN (Local Area Network) or Bluetooth (registered trademark).
  • the communication between the voice input auxiliary device 200 and the peripheral device 300 is not limited to that via the network 15, but a wired communication path such as USB (Universal Serial Bus) or a wireless communication path such as a wireless LAN or Bluetooth. It may be.
  • FIG. 2 is a diagram illustrating a configuration example of the server apparatus 100 according to the present embodiment.
  • Server device 100 includes a control unit 110, a communication unit 120, and a storage unit 130.
  • the control unit 110 includes a voice recognition unit 111, an abbreviation application determination unit 112, a frequent departure word specification unit 113, various service processing units 114, and an utterance word storage unit 115.
  • the storage unit 130 includes an utterance record storage unit 131, an abbreviation storage unit 132, and a speech recognition information storage unit 133.
  • FIG. 4 is a diagram illustrating a data structure of the utterance record storage unit 131.
  • the utterance record storage unit 131 includes a vehicle state 131a, the number of utterances 131b, and utterance information 131c.
  • the vehicle state 131a is information indicating the state of the vehicle to which the voice input auxiliary device 200 belongs.
  • the vehicle state 131a includes information for specifying an area to which the vehicle position belongs, or information such as a time zone specified by the vehicle.
  • the number of utterances 131b is information indicating the number of utterances related to the utterance information 131c in the vehicle state specified by the vehicle state 131a.
  • the utterance information 131c is information in which the uttered sentence is converted into text.
  • FIG. 5 is a diagram showing a data structure of the abbreviation storage unit 132.
  • the abbreviation storage unit 132 includes an application name 132a, a serial number 132b, an instruction word 132c, a light abbreviation instruction word 132d, and a multiple abbreviation instruction word 132e.
  • the application name 132a is information for specifying the name of the application software.
  • the serial number 132b is unique information assigned to the instruction word 132c.
  • the instruction word 132c is a predetermined word for performing an operation by voice input.
  • the light abbreviation instruction word 132d is an instruction word obtained by performing a slight omission on the instruction word related to the instruction word 132c. Note that “mild” means that the degree of omission is smaller than that of the instruction word related to the heavy omission instruction word 132e.
  • the light abbreviation instruction word 132d is an item that can be operated by extracting at least a noun or a verb from the instruction word. “Large volume” can be considered.
  • the heavy abbreviation instruction word 132e is an instruction word obtained by severely omitting the instruction word related to the instruction word 132c. Note that “severe” means that the degree of omission is greater than the instruction word related to the light abbreviation instruction word 132d.
  • the multiple abbreviation instruction word 132e is an item that can be operated by extracting a word indicating the mode of operation for the instruction word. "Large volume" is considered.
  • the above-mentioned lightness of the degree of omission is merely an example, and it is only necessary that the instruction word be expressed in a simpler manner as the degree of lightness, severity, and omission gradually increases. Therefore, it is not strictly limited to nouns, verbs, and words indicating behavioral forms, but is omitted from specific abbreviations, abbreviations, etc. that are actually conceivable for each instruction word and language, such as omitting objects. It may be determined appropriately. Further, the instruction word and the abbreviation may be updated based on information distributed from an external device, or the abbreviation is generated by performing omission according to the instruction word at the time of execution. May be.
  • the voice recognition unit 111 recognizes a language included in the voice information using information for general voice recognition stored in the voice recognition information storage unit 133.
  • the voice recognition unit 111 is a voice input auxiliary device that utters the user's speech including abbreviations (hereinafter referred to as “user spoken speech (abbreviated)”), abbreviation application operation item list, and vehicle information 200.
  • the voice recognition unit 111 converts the user utterance voice (abbreviation) into a user utterance word (abbreviation) which is text format data. Then, the voice recognition unit 111 passes the user utterance word (abbreviation) and the abbreviation application operation item list to the abbreviation application determination unit 112. In addition, the voice recognition unit 111 passes the user utterance word (abbreviation) and the vehicle information to the utterance word accumulation unit 115.
  • the abbreviation application determination unit 112 refers to the received user utterance word (abbreviation) and the received abbreviation application operation item list, and the user utterance word (omitted from the list) is omitted. Word) corresponds to one of them, and if it corresponds to one, the user utterance word (abbreviation) is converted into the corresponding operation instruction word (no omission). If none of them is supported, the user utterance word (abbreviation) is regarded as an operation instruction word (no omission) and converted. Then, the abbreviation application determination unit 112 transmits an operation instruction word (no omission) to the voice input auxiliary device 200.
  • the frequent departure spoken word specifying unit 113 When the frequent departure spoken word specifying unit 113 receives the vehicle information transmitted from the voice input assisting device 200, the frequent departure spoken word specifying unit 113 refers to the utterance record storage unit 131, so that a large number of vehicle information that matches or is similar to the received vehicle information. Extract spoken words spoken by the user. For example, the frequent departure word specifying unit 113 extracts an utterance word having the highest number of utterances. In addition, the frequent departure word specifying unit 113 transmits the extracted utterance word to the voice input auxiliary device 200 together with the number of utterances.
  • the various service processing units 114 execute engines and services that execute various services provided by the server apparatus 100.
  • the various service processing units 114 execute a POI search service or the like that presents a point or facility that becomes a point of interest (POI) in response to interactive input such as a voice interaction service.
  • POI point of interest
  • the spoken word accumulation unit 115 receives a user spoken word (no omission) and vehicle information from the voice recognition unit 111. Then, the received vehicle information and the common vehicle information already stored in the utterance record storage unit 131 are associated with each other, and the user utterance word (no omission) is stored.
  • the communication unit 120 communicates with other devices connected to the network 15 such as the Internet. That is, it can be said that the voice recognition unit 111 and the various service processing units 114 receive information received from other devices. In addition, the abbreviation application determination unit 112, the frequent departure word specifying unit 113, and the various service processing units 114 transmit information to be transmitted to other devices.
  • the server device 100 is typically a general-purpose computer or the like, but is not limited thereto, and may be an electronic information terminal such as a personal computer device, a mobile phone terminal, a tablet terminal, or a PDA (Personal Digital Assistant). Good.
  • FIG. 3 is a diagram showing a configuration of the voice input auxiliary device 200 and the peripheral device 300 according to the present embodiment.
  • the voice input auxiliary device 200 includes a control unit 210, a communication unit 220, a storage unit 230, and a peripheral device connection unit 240.
  • the control unit 210 includes a voice processing unit 211, an output processing unit 212, a software execution control unit 213, a desire degree estimation unit 214, an application usage level management unit 215, a frequent departure speech presentation unit 216, and vehicle information acquisition.
  • the storage unit 230 includes an operation instruction word storage unit 231, an application usage state storage unit 232, and an abbreviation storage unit 233.
  • FIG. 6 is a diagram illustrating a data structure of the operation instruction word storage unit 231.
  • the operation instruction word storage unit 231 includes a date and time 231a for specifying the date and time when the utterance was made, a vehicle state 231b for specifying the state of the vehicle when the utterance was made, and an instruction target for specifying the application software that was the subject of the utterance It includes an application 231c and utterance information 231d which is a spoken language expression.
  • vehicle information such as information indicating whether route guidance such as region, vehicle speed, time zone, remaining fuel, vehicle type, and recommended route is being implemented is stored.
  • the instruction target application 231c stores information for specifying the type of application software.
  • the utterance information 231d the language expression actually spoken by the user is converted into text and stored.
  • FIG. 7 is a diagram illustrating a data structure of the application usage state storage unit 232.
  • the application usage status storage unit 232 includes an application name 232a, an activation status 232b, an operation status 232c, a resource usage status 232d, a screen display status 232e, and an application usage level 232f.
  • the application name 232a stores information for identifying application software that can be used in the voice input auxiliary device 200 or the connected peripheral device 300.
  • the activation state 232b stores information that specifies whether or not the application software specified by the application name 232a is in the activation state.
  • the operation status 232c stores information for specifying whether or not the application software specified by the application name 232a is in an operation state.
  • the resource usage status 232d information for specifying the resource used by the application software specified by the application name 232a is stored.
  • the resource includes a speaker, a Bluetooth (registered trademark) wireless communication resource, and the like.
  • the screen display status 232e information specifying the screen display status of the application software specified by the application name 232a is stored.
  • the screen display state includes a foreground (hereinafter referred to as FG) indicating that the screen is displayed, a background (hereinafter referred to as BG) indicating that the screen is not displayed, and the like. It is.
  • the application usage level 232f information specifying the application usage level, which is a value indicating the usage level of the application software specified by the application name 232a, is stored.
  • the application usage level stores a value calculated by applying a predetermined calculation formula using information of the activation state 232b, the operation status 232c, the resource usage status 232d, and the screen display status 232e.
  • the value of the application usage level is an index that indicates how much the application is being used for each application. The more frequently used the application, the higher the usage level. It is a value to be. Therefore, the calculation method is not limited to that described above, and it is needless to say that the calculation method may be calculated using a different reference value from a different viewpoint than the above calculation method.
  • the abbreviation storage unit 233 has a data structure similar to the data structure of the abbreviation storage unit 132 shown in FIG. That is, the abbreviation storage unit 233 includes an application name 132a, a serial number 132b, an instruction word 132c, a light abbreviation instruction word 132d, and a multiple abbreviation instruction word 132e.
  • an operation instruction word or abbreviation for operating these applications is added or deleted at the timing of addition or deletion of the application.
  • the voice input assisting device 200 may be equipped with tool software for editing the data so that addition, update, or deletion can be performed in response to the operation of the system operator or the user.
  • the data may be acquired by the voice input auxiliary device 200 being downloaded from an external server device such as the server device 100 via the network 15, or an external storage device such as a USB (Universal Serial Bus) memory may be used. You may get through.
  • Abbreviations that are not included in the server device 100 may be uploaded to the server device 100 via the frequent departure speech presentation unit 216 and added as abbreviations corresponding to the instruction words. In general, the greater the degree of abbreviation, the more likely the abbreviation of abbreviations between operation directives is increased. Therefore, a plurality of abbreviation candidates can be used to avoid duplication of the addition. Generate and change the abbreviation and upload.
  • the voice processing unit 211 receives voice uttered by the user. Then, the voice processing unit 211 receives vehicle information from the vehicle information acquisition unit 217. The voice processing unit 211 transmits the user uttered voice, the abbreviation application item list, and the vehicle information to the voice recognition unit 111 of the server device 100.
  • the abbreviation application operation item list is information generated by the desired degree estimation unit 214. Also, in the vehicle information, whether or not route guidance such as the region (coordinates) where the vehicle equipped with the voice input assist device 200 is located, time zone, vehicle speed, remaining fuel, vehicle type, recommended route, etc. is being implemented. It is the information which shows the state of the vehicle containing the information etc. which show.
  • the voice processing unit 211 detects that the user has pressed the microphone switch, and depending on a pressing method or a pressing position, , Any request of an utterance method display request, an utterance preparation request, or a display sending request is detected.
  • the utterance method display indicates what kind of utterance should be performed for voice operation.
  • the utterance preparation means starting a process of accepting an uttered voice.
  • the display advance means changing an item included in an “operation item with a higher degree of desire” described later.
  • the output processing unit 212 generates screen information to be disclosed to the user.
  • an utterance method (including abbreviations) is received from the degree-of-desired estimation unit 214, and screen information is configured and output for presentation to the user.
  • the output processing unit 212 presents the operable operation estimated to be desired by the desired degree estimating unit 214 as an operable item with an expression in which the degree of omission is changed according to the desired degree. I can say that.
  • the software execution control unit 213 operates software that can operate in the voice input auxiliary device 200. Further, the software execution control unit 213 generates a display screen using information output by the operated software.
  • the desired degree estimation unit 214 acquires a plurality of frequently-started spoken words frequently spoken from the frequent-started words presented by the frequently-started word presenting unit 216 described later, and estimates the desired degree according to the number of utterances.
  • the degree-of-desirability estimation unit 214 acquires an operation item whose application usage level calculated by the application usage level management unit 215 described later is higher than a predetermined level, and estimates the degree of desire according to the application usage level. That is, it can be said that the desired degree estimation unit 214 estimates a desired operation item and its degree.
  • the degree-of-desired estimation unit 214 estimates the degree of desired processing that has already been performed by the speech input auxiliary device 200 itself higher than the processing that has not been performed.
  • the degree-of-desirability estimation unit 214 may perform the above-described request for processing already executed by the voice input auxiliary device 200 itself and processing already executed in any of the other devices connected to the voice input auxiliary device 200 itself. It can also be said that the degree of the above is estimated to be higher.
  • the degree of hope is an index indicating the degree of strength of the desire when the user estimates that the instruction will be desired. For example, when traveling on an expressway and knowing that there is a long traffic jam ahead, the user is more likely to request an instruction to search for an avoidance route, including a route leaving the expressway. . Further, for example, when listening to music, it can be said that the degree of desiring to change the volume is higher than when listening to music.
  • the application usage level is an index indicating the degree of importance of the application used by the user.
  • the application usage level includes 1) startup status, 2) user operation status, 3) resource usage status (microphone, speaker, communication path, etc.), and 4) relative screen display status between applications (FG).
  • BG is calculated by a predetermined mathematical formula using an application usage level index that is quantified.
  • the mathematical expression only needs to be configured by calculation rules such as four arithmetic operations and weighting parameters for each application usage level index.
  • the mathematical formula used for calculating the application usage level has at least one index from 1) to 4) as a variable on the right side, and the numerical value is input to the variable to enter the left side of the mathematical formula.
  • One that obtains (score for application usage level). For example, if each application software is in an active state, a predetermined score is acquired as the application usage level, and a predetermined score corresponding to the user operation status, resource usage status, and relative screen display status between applications is added to this. And calculating the final application usage level.
  • the degree-of-desirability estimation unit 214 sorts the operation items whose estimated degree of desire is higher and the abbreviations of the operation items in descending order from the higher-level operation items, and outputs them as an abbreviation application operation item list. Identify.
  • any of the number of utterances, the score related to the application usage level, the deviation value of the utterance count, the deviation value of the score related to the application usage level, or a combination thereof A method of determining by the magnitude of the value of can be considered.
  • the output information may be generated so that they are simultaneously displayed inside a single display window inside a single screen, or are simultaneously displayed inside separate display windows inside a single screen. Thus, output information may be generated. Alternatively, output information is generated to be displayed on different single screens at different times (for example, when frequent departure speech is extracted and when the app usage level is calculated). Also good.
  • the application usage level management unit 215 receives the application status and the above-described application usage level index from each application. The reception of the application state and the above-described application usage level index may be performed periodically, or may be triggered by an event such as pressing a microphone switch instead of periodically. Further, the application usage level management unit 215 refers to a controllable application list generated by the peripheral device connection unit 240 described later, and if there is a controllable application name or identifier in the list, the application usage level management unit 215 The application is considered to be operating, and the status of the application operating in the peripheral device and the application usage level index are received.
  • the application usage level management unit 215 specifies operation items that can be performed in the application based on the state of the application.
  • the frequent departure speech presenting unit 216 receives from the server device 100 information including the frequent departure speech corresponding to the information indicating the state of the vehicle and the number of occurrences of the frequent departure speech.
  • the frequent departure speech refers to an utterance with the highest number of utterances among utterances uttered by a plurality of users in a predetermined vehicle state.
  • the vehicle information acquisition unit 217 acquires information including information such as vehicle speed and position information, remaining fuel, and time zone of the vehicle provided with the voice input assist device 200 from a device such as a related sensor.
  • the parallel execution unit 218 identifies processing that does not change in state due to reversible processing, that is, execution, among repetitive executions among the operation instructions having the higher degree of desire estimated by the degree of desire estimation unit 214, and does not cause contradiction even if re-execution is performed. Then, by transmitting the operation instruction word to each application, the preceding execution of the application is controlled in parallel.
  • the communication unit 220 communicates with other devices connected to the network 15 such as the Internet.
  • the peripheral device connection unit 240 establishes and maintains communication with the peripheral device 300 connected to the voice input auxiliary device 200 and abandon communication.
  • the peripheral device connection unit 240 communicates with and connects to the peripheral device 300 by short-range wireless communication such as Bluetooth, wireless LAN, or NFC, or wired communication via a communication cable such as USB or HDMI.
  • short-range wireless communication such as Bluetooth, wireless LAN, or NFC
  • wired communication via a communication cable such as USB or HDMI.
  • the peripheral device connection unit 240 acquires the name of the application software and the operation item. To get.
  • the above is the outline of the configuration of the voice input auxiliary device 200.
  • the voice input auxiliary device 200 is typically a navigation device mounted on a vehicle, but is not limited to this, and electronic information such as a mobile device, a personal computer device, a mobile phone terminal, a tablet terminal, a PDA, etc. It may be a terminal.
  • Peripheral device 300 includes a control unit 310 and a peripheral device connection unit 340.
  • the control unit 310 includes an input reception unit 311, an output processing unit 312, an information terminal communication unit 313, and an application management unit 314.
  • the input reception unit 311 receives information related to screen operations such as pressing, releasing, and moving among point information transmitted from a touch panel provided on a screen provided in the peripheral device 300.
  • the output processing unit 312 displays a screen related to the software operating on the voice input auxiliary device 200 and the peripheral device 300.
  • the information terminal communication unit 313 exchanges information with the voice input auxiliary device 200.
  • the application management unit 314 operates software that can operate in the peripheral device 300. Further, the application management unit 314 generates a display screen using information output by the operated software. Further, the application management unit 314 receives the name of the application software executed in the peripheral device 300 and the operation in the voice input auxiliary device 200 for the voice input auxiliary device 200 connected via the peripheral device connection unit 340. Output possible operation items.
  • the peripheral device connection unit 340 establishes and maintains communication with the voice input auxiliary device 200 connected to the peripheral device 300, abandons communication, and the like.
  • the peripheral device connection unit 340 communicates with and connects to the voice input auxiliary device 200 by short-range wireless communication such as Bluetooth, wireless LAN, or NFC, or wired communication via a communication cable such as USB or HDMI.
  • the peripheral device connection unit 340 when the application software executed in the peripheral device 300 accepts an operation from the voice input auxiliary device 200 for the connected voice input auxiliary device 200, Name, operation items, etc.
  • the peripheral device 300 is typically a mobile phone terminal, but is not limited thereto, and may be an electronic information terminal such as a navigation device, a personal computer device, a mobile phone terminal, a tablet terminal, or a PDA.
  • FIG. 8 is a diagram showing a hardware configuration of each device constituting the voice input assist system 1.
  • the server device 100 includes an output device 151 such as a display, a communication device 152 such as a network card, an input device 153 such as a keyboard, a CPU (Central Processing Unit) 154, a HDD (Hard Disk Drive), and an SSD (Solid State Drive).
  • An auxiliary storage device 155 and a RAM (Random Access Memory) 156 are included.
  • the output device 151 is a display device such as a display, and displays the result of processing by the CPU 154.
  • the communication device 152 is connected to a network 15 such as the Internet, and exchanges various data with other devices connected to the network 15.
  • the input device 153 is a touch panel, a keyboard, a mouse, or the like, and receives instructions from the user.
  • the CPU 154 is a control unit that performs calculations according to a program loaded on the RAM 156.
  • the auxiliary storage device 155 is a storage device that stores various data used in the program.
  • the RAM 156 is a storage device that loads a program stored in the auxiliary storage device 155.
  • the RAM 156 temporarily stores data.
  • the control unit 110 of the server device 100 described above is realized by a program that causes the CPU 154 to perform processing.
  • This program is stored in the auxiliary storage device 155, loaded onto the RAM 156 for execution, and executed by the CPU 154.
  • the communication unit 120 is realized by the communication device 152.
  • the storage unit 130 is realized by the auxiliary storage device 155 or the RAM 156.
  • the above is the hardware configuration example of the server device 100 in the present embodiment.
  • the configuration is not limited to this, and other similar hardware may be used.
  • the voice input auxiliary device 200 includes a display device 251, a ROM 252, an operation device 253, a RAM 254, an auxiliary storage device 255, an inter-device communication interface 256, a positioning sensor 257, a CPU 258, a gyro sensor 259, and an acceleration.
  • a sensor 260, a communication device 261, and an inter-vehicle interface 262 are included.
  • the ROM 252 is a read-only storage device in which a control program and the like are written.
  • the operation device 253 is a device that receives an operation from a user such as a button, a switch, a keyboard, and a touch panel for operating the voice input auxiliary device 200 by a finger contact operation or the like.
  • the RAM 254 is a storage device that loads a program stored in the auxiliary storage device 255 and temporarily stores data.
  • the auxiliary storage device 255 is a storage device that stores various data used by software.
  • the inter-device communication interface 256 is connected to the peripheral device 300 and transmits / receives data.
  • the connection method provided in the inter-device communication interface 256 may be wired connection conforming to standards such as USB and HDMI, or standards such as wireless LAN IEEE 802.11a / b / g / n / ac and Bluetooth.
  • the wireless connection may be compliant.
  • the positioning sensor 257 is a sensor that specifies a position and outputs it in a coordinate system based on latitude and longitude.
  • the CPU 258 is a control unit that controls each unit of the voice input auxiliary device 200 and performs calculations according to a program loaded on the RAM 254.
  • the gyro sensor 259 is a sensor for measuring the horizontal angle and angular velocity of the vehicle in which the voice input assist device 200 is provided.
  • the acceleration sensor 260 is a sensor for measuring multi-axis acceleration applied to the vehicle on which the voice input auxiliary device 200 is provided.
  • the communication device 261 is connected to the network 15 such as the Internet using a wireless communication line network, and transmits / receives various data to / from the device connected to the network 15.
  • the network 15 such as the Internet using a wireless communication line network
  • the inter-vehicle interface 262 is an interface for connecting a vehicle signal line, and can capture a vehicle running state and an internal state (for example, information including vehicle speed, remaining fuel, position, and time zone).
  • the inter-vehicle interface 262 may be connected to a CAN (Control Area Network) that is a network in the vehicle and transmit / receive control information such as vehicle speed information of the vehicle.
  • CAN Controller Area Network
  • the control unit 210 of the voice input auxiliary device 200 described above is realized by a program that causes the CPU 258 to perform processing. This program is stored in the auxiliary storage device 255, loaded onto the RAM 254 for execution, and executed by the CPU 258.
  • the communication unit 220 is realized by the communication device 261.
  • the storage unit 230 is realized by the auxiliary storage device 255 or the RAM 254.
  • the peripheral device connection unit 240 is realized by the inter-device communication interface 256.
  • the above is the hardware configuration example of the voice input auxiliary device 200 in the present embodiment.
  • the configuration is not limited to this, and other similar hardware may be used.
  • the peripheral device 300 includes a display device 351, a ROM 352, an operation device 353, a RAM 354, an auxiliary storage device 355, a device-to-device communication interface 356, a CPU 357, and a communication device 358.
  • the display device 351 is a device that displays image information, such as a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • image information such as a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the ROM 352 is a read-only storage device in which a control program and the like are written.
  • the operation device 353 is a device that receives an operation from a user such as a button, a switch, a keyboard, and a touch panel for operating the peripheral device 300 by a finger contact operation or the like.
  • the RAM 354 is a storage device that loads a program stored in the auxiliary storage device 355 and temporarily stores data.
  • the auxiliary storage device 355 is a storage device that stores various data used by software.
  • the inter-device communication interface 356 is connected to the voice input auxiliary device 200 and transmits / receives data.
  • the connection method provided in the inter-device communication interface 356 may be wired connection conforming to standards such as USB and HDMI, or standards such as IEEE a802.11a / b / g / n / ac of wireless LAN and Bluetooth.
  • the wireless connection may be compliant.
  • the CPU 357 is a control unit that controls each unit of the peripheral device 300 and performs calculations according to a program loaded on the RAM 354.
  • the communication device 358 is connected to the network 15 such as the Internet using a wireless communication line network, and transmits / receives various data to / from the device connected to the network 15.
  • the control unit 310 of the peripheral device 300 described above is realized by a program that causes the CPU 357 to perform processing.
  • This program is stored in the auxiliary storage device 355, loaded onto the RAM 354 for execution, and executed by the CPU 357.
  • the peripheral device connection unit 340 is realized by the inter-device communication interface 356.
  • the above is the hardware configuration example of the peripheral device 300 in the present embodiment.
  • the configuration is not limited to this, and other similar hardware may be used.
  • FIG. 9 is a diagram showing the processing content of the desired degree estimation processing.
  • the desired degree estimation process is performed when the voice input auxiliary device 200 and the peripheral device 300 are connected to the server device 100. Note that the degree-of-desirability estimation process is performed regardless of whether or not the peripheral device 300 is connected. In this case, an error occurs that the voice input auxiliary device 200 cannot obtain information from the peripheral device 300. Can be ignored.
  • the software execution control unit 213 transmits application usage status information to the application usage level management unit 215 (step S001). Specifically, the software execution control unit 213 transmits the name of the application software being executed, the activation status, the operation status, the resource usage status, and the screen display status to the application usage level management unit 215. This process is executed at an arbitrary timing, and may be executed periodically, for example, or may be executed when a predetermined event occurs.
  • the application management unit 314 of the peripheral device 300 transmits the application usage status information when the peripheral device 300 is connected to the voice input auxiliary device 200 (step S002). Specifically, the application management unit 314 sends the name of the application software being executed on the peripheral device 300, the activation state, the operation state, the resource usage state, and the screen display state to the application usage level management unit 215. Send. This process is executed at an arbitrary timing, and may be executed periodically, for example, or may be executed when a predetermined event occurs.
  • the application usage level management unit 215 specifies the application usage level (step S003). Specifically, the application usage level management unit 215 specifies the usage level for each application software using the application usage status information transmitted in steps S001 and S002. In the application usage level specifying process, the application usage level management unit 215 calculates and specifies the application usage level by adding the points according to the information of the application usage level index described above.
  • the degree-of-desired estimation unit 214 requests the application usage level from the application usage level management unit 215 at a predetermined timing (step S004).
  • the timing may be periodic, may be according to a predetermined schedule, or may be in response to occurrence of a predetermined event.
  • the application usage level management unit 215 When the application usage level management unit 215 receives the application usage level request in step S004, the application usage level management unit 215 transmits the application usage level (step S005). Specifically, the application usage level management unit 215 transmits information that associates the application usage level specified in step S003 with the name of the application software to the desirability degree estimation unit 214.
  • the desired degree estimation unit 214 requests the frequent departure speech presenting unit 216 for the frequent departure speech at a predetermined timing (step S006).
  • the timing may be periodic, may be according to a predetermined schedule, or may be in response to occurrence of a predetermined event.
  • the frequent departure speech presentation unit 216 acquires and transmits a frequent departure speech using vehicle information transmitted from the vehicle information acquisition unit 217 to the frequent departure speech presentation unit 216 at a predetermined timing (step S009 described later). (Step S007). Specifically, the frequent departure speech presenting unit 216 identifies utterances and the number of utterances made in a situation where each piece of vehicle information is similar, and transmits the utterances to the desired degree estimation unit 214. In the frequent departure story and the number of cases, the frequent departure speech presenting unit 216 indicates whether or not route guidance such as region, time zone, remaining fuel, vehicle speed, vehicle type, and recommended route is being implemented.
  • the frequent departure speech specifying unit 113 of the server apparatus 100 is transmitted to the frequent departure speech specifying unit 113 of the server apparatus 100, and the spoken words to be returned and the number of utterances are acquired. Then, the frequent departure speech presenting unit 216 transmits the acquired utterance word and the number of utterances to the desired degree estimation unit 214. That is, the degree-of-desirability estimation unit 214 estimates the degree of hope using the results of utterances in a state where the state of the vehicle on which the voice input auxiliary device 200 is mounted and the state of other vehicles are similar. It can be said that there is.
  • the degree-of-desirability estimation unit 214 extracts the utterance of the application with a high application usage level from the frequent departure words (step S008). Specifically, the degree-of-desirability estimation unit 214 extracts frequent departure words related to application software having a high application usage level from the frequent departure words acquired in step S007, and generates screen information for showing to the user.
  • the vehicle information acquisition unit 217 transmits vehicle information to the frequent departure speech presenting unit 216 at a timing synchronized with these desired degree estimation processes or at an autonomous timing (step S009).
  • the above is the flow of the desired degree estimation process.
  • the degree-of-desirability estimation process it is possible to extract and present to the user the application software instruction words frequently spoken in the situation where the vehicle situation is similar, which is highly important for using the application software. . Accordingly, it can be said that the user's instruction can be estimated in advance according to the context.
  • FIG. 10 is a diagram showing a processing flow of abbreviation presentation processing.
  • the abbreviation presentation process is executed in parallel with the utterance word of the operation with the higher desired degree before receiving the utterance instruction. As a result, it is possible to obtain results faster than starting after receiving an instruction, and an apparent response speed to the user can be obtained.
  • the abbreviation presentation process may be executed in response to an event that an operation item having a higher degree of desire changes.
  • the parallel execution unit 218 requests an utterance word of an operation with a higher degree of desire from the desire degree estimation unit 214 (step S101). Then, the degree-of-desirability estimation unit 214 transmits the utterance word of the operation with the higher degree of desired degree extracted in step S008 of the degree-of-desirability estimation process to the parallel execution unit 218 (step S102).
  • the parallel execution unit 218 transmits a frequent departure speech execution instruction to the software execution control unit 213 (step S103). Specifically, the parallel execution unit 218 issues an execution instruction to the software execution control unit 213 for a predetermined number of utterance words of an operation with a higher degree of desire received in step S102. In this process, the parallel execution unit 218 instructs execution of a process that can be canceled, that is, a process that does not involve a data change such as search or reference, and a process that cannot be canceled, that is, a data change such as update or deletion. Execution of processing involving is excluded.
  • the software execution control unit 213 executes the application software and holds the result (step S104). Specifically, the software execution control unit 213 executes a software operation related to the frequently-started speech that is instructed to be executed by the parallel execution unit 218, and caches the result. Thereafter, the cached result regarding the execution instruction having the same contents is transferred as a processing result.
  • the degree of desire estimation unit 214 receives the utterance method display request (step S105).
  • the reception of the request is transmitted, for example, by an operating system (not shown) of the voice input auxiliary device 200 that detects the pressing of a predetermined operation button of a microphone switch or the like.
  • the degree-of-desirability estimation unit 214 applies and transmits an abbreviation corresponding to the degree of desire (step S106). Specifically, the degree-of-desirability estimation unit 214 identifies an abbreviation with an increased degree of omission for an utterance of an operation with a higher degree of desiredness for each utterance word with a higher degree of desire as an abbreviation. Apply and send to parallel execution unit 218.
  • the parallel execution unit 218 then issues an abbreviation selection display output instruction (step S107). Specifically, the parallel execution unit 218 configures the screen for the abbreviations transmitted in step S106 so that the user can understand the abbreviations and speak. Note that the parallel execution unit 218 includes at least an abbreviation and information indicating which application software the operation instruction word of the abbreviation is abbreviated on the screen to be configured. Then, the configured screen information is transmitted to the output processing unit 212.
  • the output processing unit 212 displays the abbreviation and the target application software (step S108). Specifically, the output processing unit 212 displays the screen information transmitted in step S107.
  • the output processing unit 212 changes the expression by changing the degree of omission and emphasizes the difference (for example, underline) To display).
  • the above is the flow of the abbreviation presentation process.
  • the abbreviation presentation process it is possible to present an abbreviation with a higher degree of omission to the user as the operation has a higher degree of desire. Therefore, the user can give an operation instruction simply by speaking an abbreviation.
  • FIG. 11 is a diagram showing an example of a speech recognition abbreviation display screen.
  • a speech recognition abbreviation display screen 500 On the speech recognition abbreviation display screen 500, a plurality of abbreviations of operation instruction words and auxiliary information indicating the type of application software are displayed in association with each other in descending order of desirability. For example, in the column on the left side of the screen, a “volume up” display field 511, a “guidance volume up” display field 512, and a “filter by keyword” display field 513 are displayed vertically downward. The In addition, the size of characters in each display column is highlighted with larger characters as the degree of desire increases.
  • the “volume up” display field 511 describes the operation instructions that have been omitted, followed by the “guide volume up” display field 512.
  • the operation instruction words that are lightly omitted are described, and the operation instruction words that are not omitted are described in the “Filter by keyword” display field 513.
  • “music” is associated with a “volume high” display field 511, a “guidance volume high” display field 512, and a “filter by keyword” display field 513.
  • “Navi”, and “POI search” auxiliary information 521, 522, and 523 are displayed.
  • FIG. 12 is a diagram showing a processing flow of voice recognition processing.
  • the voice recognition process is started when a voice input instruction is given from a user via a microphone switch or the like.
  • the voice processing unit 211 transmits a voice instruction to the voice recognition unit 111 of the server device 100 (step S201).
  • the speech recognition unit 111 analyzes the transmitted speech instruction and performs speech text conversion (step S202). Then, the voice recognition unit 111 transmits the conversion result to the abbreviation application determination unit 112.
  • the abbreviation application determination unit 112 When the abbreviation application determination unit 112 receives the text information which is the transmitted voice text conversion result, the abbreviation application determination unit 112 specifies the instruction word (step S203). Specifically, the abbreviation application determination unit 112 refers to the abbreviation storage unit 132 and identifies which operation instruction word the uttered abbreviation relates to. Then, the abbreviation application determination unit 112 transmits the specified instruction word to the voice processing unit 211 of the voice input auxiliary device 200.
  • the voice processing unit 211 issues a target application execution instruction (step S204). Specifically, the software execution control unit 213 is caused to execute application software operated by an instruction word and its operation instruction.
  • the software execution control unit 213 determines whether there is an executed result for the instructed operation (step S205). Specifically, the software execution control unit 213 determines whether there is a cache executed in step S104 of the abbreviation presentation process.
  • step S205 If there is an executed result (“Yes” in step S205), the software execution control unit 213 assigns the result (step S206).
  • step S207 the software execution control unit 213 executes the application software (step S207). Specifically, the software execution control unit 213 executes the operation of the application software instructed to be executed in step S204 and obtains a result. When the operation to be executed is an operation on application software that has not been started, the software execution control unit 213 may start the application software and execute the operation, In the case of an operation for terminating the activation of the software, an instruction is given to the application software to terminate the process being executed.
  • the software execution control unit 213 performs a result output configuration (step S208). Specifically, the software execution control unit 213 uses the output information obtained as a result of executing the application software, and passes the output information to the output processing unit 212 as output information of the result.
  • the output processing unit 212 outputs the configured output information (step S209). Specifically, the output processing unit 212 outputs the output screen configured in step S208.
  • the above is the processing flow of speech recognition processing. According to the voice recognition process, even when voice operation is performed with an abbreviation, it is possible to perform the operation correctly. In addition, when there is a result of parallel execution before utterance in advance, responsiveness can be improved by obtaining the result.
  • the abbreviation application determination unit 112, the speech recognition unit 111, and the abbreviation storage unit 132 are provided in the server device 100, but the present invention is not limited to this.
  • the voice input assist device 200 may be configured to be provided.
  • the process of extracting and outputting the utterance of the application having a high application usage level from the frequent departure words is performed in step S008, but is not limited thereto.
  • the utterance words of an application with a high application usage level and the utterance words extracted as frequent departure words may be listed in order of high desirability without considering duplication.
  • an utterance word having a high degree of desire among utterances of an application having a high application usage level and an utterance word having a high degree of desire among frequent departures may be displayed in a mixed manner.
  • FIG. 13 is a diagram showing an example of a voice recognition display screen.
  • the speech recognition display screen 600 is an example of output that is arranged without considering duplication from the order of high degree of desirability.
  • a plurality of operation instruction words and auxiliary information indicating the type of application software are displayed in association with each other in descending order of desirability. For example, in the column on the left side of the screen, in the vertically downward direction, the “Increase music volume” operation display field 611, the “Stop music” operation display field 612, and “Increase the guidance volume”.
  • An “display” operation display field 613, an “increase music volume” operation display field 614, and a “squeeze by keyword” operation display field 615 are displayed.
  • the operation display column 611 for “increase the volume of the music” describes an operation instruction word that maximizes the desired degree of frequent departure words
  • the “stop music” operation display column 612 displays the application usage level.
  • the operation instruction word that maximizes is described.
  • the “Increase volume of guidance” operation display field 613 an operation instruction word having the next desired degree of frequent departure words is described
  • the “Increase music volume” operation display field 614 An operation instruction word with the application usage level as the next point is described.
  • an operation instruction word having the third desired degree of frequent departure speech is described.
  • auxiliary information 621, 622, 623, “music”, “music”, “navigation”, “external music”, and “POI search” are displayed in the right column of the screen.
  • Each of 624 and 625 is displayed.
  • the utterance record storage unit 131 may be preliminarily excluded from registration by a blacklist for ambiguous operations existing for any application software. For example, operations such as “next”, “back”, “next candidate”, and “(select an option) No. 3” of page feed operations are operations common to many software. It cannot be said that it is highly valid as an operation word for specifying whether it has been performed. For this reason, such operation words may be provided with a processing unit that is excluded and registered in advance so as not to be included in the utterance record. By doing so, the quality of the accumulated utterances is improved, and the frequent departure words can be specified more appropriately.
  • control lines and information lines according to the first embodiment described above are those that are considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.
  • each of the above-described configurations, functions, processing units, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • the technical elements of the above-described embodiments may be applied independently, or may be applied by being divided into a plurality of parts such as program parts and hardware parts.
  • Peripheral device connection 300 peripheral device, 310, control unit, 311 ... input reception unit, 312 ... output processing unit, 313 ... information terminal communication unit, 314 ... application management unit, 340 ... Peripheral device connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 希望すると推定される操作項目ほど短く省略した言葉によって操作可能とする技術を提供する。 音声入力補助装置であって、操作項目と、操作項目の希望する度合いに応じた省略語と、を対応付けて記憶する省略語記憶部と、所定の指標を用いて、操作項目ごとの希望する度合いを推定し、希望する度合いに応じて省略語記憶部から省略語を特定する希望度推定部と、希望度推定部により特定された省略語を提示する出力処理部と、を備えることを特徴とする。

Description

音声入力補助装置、音声入力補助システムおよび音声入力方法
 本発明は、音声入力補助装置、音声入力補助システムおよび音声入力方法の技術に関する。本発明は2014年12月12日に出願された日本国特許の出願番号2014-251442の優先権を主張し、文献の参照による織り込みが認められる指定国については、その出願に記載された内容は参照により本出願に織り込まれる。
 本技術分野の背景技術として、特開2002-055694号公報(特許文献1)がある。この公報には、「機器の音声操作を可能とする操作スイッチと、使用できる操作音声の記憶手段と、上記記憶手段に記憶された操作音声の選択的な表示手段と、上記機器に対する操作音声の認識手段とを有し、上記記憶手段は各階層毎に受入れ可能な操作音声データと上記各階層における各操作音声毎の使用回数とを記憶し、上記表示手段は上記操作スイッチがオンとされたとき及びまたは上記認識手段が1つの階層における操作音声を認識したとき上記各階層毎に使用された回数の多い順に上記操作音声へ符号をつけた操作音声メニューを画面上に表示し、上記認識手段は上記符号の音声をその符号がつけられた操作音声としても認識できるように構成された音声操作装置。」と記載されている。
特開2002-055694号公報
 上記技術では、ユーザーは自然言語ではない符号を発話して操作を行う必要が有り、発話する符号を選択するために画面を目視して符号を確認する必要が有る。
 本発明は、上記問題点を解決するためになされたものであり、希望すると推定される操作項目ほど短く省略した言葉によって操作可能とすることを目的とする。
 本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。上記課題を解決すべく、本発明に係る音声入力補助装置は、操作項目と、上記操作項目の希望する度合いに応じた省略語と、を対応付けて記憶する省略語記憶部と、所定の指標を用いて、上記操作項目ごとの希望する度合いを推定し、上記希望する度合いに応じて上記省略語記憶部から省略語を特定する希望度推定部と、上記希望度推定部により特定された省略語を提示する出力処理部と、を備えることを特徴とする。
 本発明によると、希望すると推定される操作項目ほど短く省略した言葉によって操作可能とすることができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の実施形態に係る音声入力補助システムの構成例を示す図である。 サーバー装置の構成例を示す図である。 音声入力補助装置および周辺機器の構成例を示す図である。 発話実績記憶部のデータ構造を示す図である。 省略語記憶部のデータ構造を示す図である。 操作指示語記憶部のデータ構造を示す図である。 アプリ利用状態記憶部のデータ構造を示す図である。 音声入力補助システムを構成するハードウェアの構成を示す図である。 希望度推定処理の処理フローを示す図である。 省略語提示処理の処理フローを示す図である。 音声認識省略語表示画面の例を示す図である。 音声認識処理の処理フローを示す図である。 音声認識表示画面の例を示す図である。
 以下に、本発明に係る実施形態を適用した音声入力補助システム1の例について、図面を参照して説明する。
 図1は、本発明に係る第一の実施形態を適用した音声入力補助システム1の全体の構成例を示す図である。音声入力補助システム1においては、図1に示すように、サーバー装置100と、サーバー装置100とインターネット等のネットワーク15を介して通信可能な音声入力補助装置200と、音声入力補助装置200と有線あるいは無線で通信可能に接続される周辺機器300と、を連携させて動作させることが可能となっている。
 なお、本実施形態において、音声入力補助装置200および周辺機器300には、例えば無線通信ルーター、スマートフォン端末、いわゆるタブレット端末等、独立して動作しインターネット等に接続し通信可能なモバイル機器全般を含む。また、音声入力補助装置200には、例えば移動体に備え付けられたナビゲーション装置あるいは移動体に備え付けられているが取り外しても独立動作しうる可搬型ナビゲーション装置を含む。
 本実施形態においては、ユーザー10は、音声入力補助装置200により提示された音声入力のための省略語を発話することで、省略語に対応付けられた省略前の各種の操作を入出力インターフェースを用いて操作することができる。また、本実施形態においては、ユーザー10は、音声入力補助装置200の入出力インターフェースを用いて音声入力補助装置200の操作を行うだけでなく、音声入力補助装置200の音声入力インターフェースを含む入出力インターフェースを用いて周辺機器300に設けられた音楽再生アプリケーションソフトウェア等、各種ソフトウェアの操作をも行いうる。
 ネットワーク15は、例えば無線LAN(Local Area Network)、Bluetooth(登録商標)等の無線通信路である。なお、音声入力補助装置200と、周辺機器300と、の間の通信は、ネットワーク15を介するものに限られず、USB(Universal Serial Bus)などの有線通信路あるいは無線LANやBluetooth等の無線通信路であってもよい。
 図2は、本実施形態におけるサーバー装置100の構成例を示す図である。サーバー装置100は、制御部110と、通信部120と、記憶部130と、を含む。制御部110は、音声認識部111と、省略語適用判定部112と、頻出発話語特定部113と、各種サービス処理部114と、発話語蓄積部115と、を含む。記憶部130は、発話実績記憶部131と、省略語記憶部132と、音声認識情報記憶部133と、を含む。
 図4は、発話実績記憶部131のデータ構造を示す図である。発話実績記憶部131には、車両状態131aと、発話件数131bと、発話情報131cと、が含まれる。車両状態131aは、音声入力補助装置200が属する車両の状態を示す情報である。例えば、車両状態131aには、車両の位置が属する地域を特定する情報、あるいは車両により特定された時刻帯等の情報が含まれる。
 発話件数131bは、車両状態131aにて特定される車両状態における、発話情報131cに係る発話が蓄積された件数を示す情報である。発話情報131cは、発話された文章がテキスト化された情報である。
 図5は、省略語記憶部132のデータ構造を示す図である。省略語記憶部132には、アプリケーション名132aと、通番132bと、指示語132cと、軽省略指示語132dと、重省略指示語132eと、が含まれる。
 アプリケーション名132aは、アプリケーションソフトウェアの名称を特定する情報である。通番132bは、指示語132cに割り当てられたユニークな情報である。指示語132cは、音声入力による操作を行うための予め定められた語である。軽省略指示語132dは、指示語132cに係る指示語について、軽度の省略を施した指示語である。なお、「軽度」であるとは、重省略指示語132eに係る指示語よりも省略の度合いが小さいという意味である。例えば、軽省略指示語132dは、指示語について、少なくとも名詞または動詞を抽出して操作可能な項目とするものであり、指示語「音楽の音量を大きくする」に対して軽省略指示語「音楽音量大」等が考えられる。
 重省略指示語132eは、指示語132cに係る指示語について、重度の省略を施した指示語である。なお、「重度」であるとは、軽省略指示語132dに係る指示語よりも省略の度合いが大きいという意味である。例えば、重省略指示語132eは、指示語について、動作の態様を示す語を抽出して操作可能な項目とするものであり、指示語「音楽の音量を大きくする」に対して重省略指示語「音量大」等が考えられる。
 なお、上述の省略の度合いの軽重については、あくまで一例であり、指示語について、軽度、重度と省略の度合いが徐々に大きくなっていくほどに簡易な表現となっていればよい。従って、厳密に名詞や動詞、動作の態様を示す語に限定するものではなく、目的語を省略するものである等、指示語および言語ごとに現実に考えられる具体的な省略使用、略語等に合わせて適切に定められるものであってもよい。また、指示語および省略語は、外部の装置から配信された情報に基づいて更新されるものであってもよいし、実行時に指示語に応じて省略を施して省略語を生成するものであってもよい。
 図2の説明に戻る。音声認識部111は、音声認識情報記憶部133に格納された一般的な音声認識のための情報を用いて、音声情報に含まれる言語の認識を行う。なお、音声認識部111は、省略語を含むユーザーの発話音声(以降、「ユーザー発話音声(省略語)」と記載)と、省略語適用操作項目リストと、車両情報とを、音声入力補助装置200から受信する。
 また、音声認識部111は、ユーザー発話音声(省略語)を、テキスト形式のデータであるユーザー発話語(省略語)へ変換する。そして、音声認識部111は、ユーザー発話語(省略語)と省略語適用操作項目リストとを、省略語適用判定部112に受け渡す。また、音声認識部111は、ユーザー発話語(省略語)と、車両情報と、を発話語蓄積部115に受け渡す。
 省略語適用判定部112は、受け渡されたユーザー発話語(省略語)と、受け渡された省略語適用操作項目リストとを参照し、当該リストの省略語のいずれかにユーザー発話語(省略語)が対応するか否かを判定し、いずれかに対応する場合は、ユーザー発話語(省略語)を対応する操作指示語(省略なし)に変換する。いずれにも対応しない場合は、ユーザ発話語(省略語)を操作指示語(省略なし)とみなして変換する。そして、省略語適用判定部112は、操作指示語(省略なし)を音声入力補助装置200へ送信する。
 頻出発話語特定部113は、音声入力補助装置200から送信される車両情報を受信した場合に、発話実績記憶部131を参照することで、受信した車両情報に合致または類似する車両情報に関して多数のユーザーが発話した発話語を抽出する。例えば、頻出発話語特定部113は、発話の件数が上位の発話語を抽出する。また、頻出発話語特定部113は、抽出した発話語を、発話の件数と共に、音声入力補助装置200に送信する。
 各種サービス処理部114は、サーバー装置100が提供している各種サービスを実行するエンジンやサービスを実行する。例えば、各種サービス処理部114は、音声対話サービス等の対話型による入力を受けてPOI(Point Of Interest)となる地点や施設を提示するPOI検索のサービス等を実行する。
 発話語蓄積部115は、音声認識部111からユーザー発話語(省略なし)と車両情報とを受信する。そして、受信した車両情報と、発話実績記憶部131に既に記憶されている共通する車両情報があれば対応付けて、ユーザー発話語(省略なし)を格納する。
 通信部120は、インターネット等のネットワーク15に接続される他の装置との通信を行う。すなわち、音声認識部111と、各種サービス処理部114と、が他の装置から受け付ける情報を受け付けるものであるといえる。また、省略語適用判定部112と、頻出発話語特定部113と、各種サービス処理部114と、が他の装置へ送信する情報を送信する。
 以上が、サーバー装置100の構成の概要である。なお、サーバー装置100は、典型的には汎用計算機等であるが、これに限らず、パーソナルコンピューター装置、携帯電話端末、タブレット端末、PDA(Personal Digital Assistant)、等の電子情報端末であってもよい。
 図3は、本実施形態による音声入力補助装置200および周辺機器300の構成を示す図である。音声入力補助装置200は、制御部210と、通信部220と、記憶部230と、周辺機器接続部240と、を含む。制御部210は、音声処理部211と、出力処理部212と、ソフトウェア実行制御部213と、希望度推定部214と、アプリ利用レベル管理部215と、頻出発話語提示部216と、車両情報取得部217と、並列実行部218と、を含む。記憶部230は、操作指示語記憶部231と、アプリ利用状態記憶部232と、省略語記憶部233と、を含む。
 図6は、操作指示語記憶部231のデータ構造を示す図である。操作指示語記憶部231は、発話がなされた日時を特定する日時231aと、発話がなされた際の車両の状態を特定する車両状態231bと、発話の対象となったアプリケーションソフトウェアを特定する指示対象アプリケーション231cと、発話された言語表現である発話情報231dと、を含む。
 車両状態231bには、例えば、地域、車速、時刻帯、残燃料、車種、推奨経路等の経路誘導を実施中であるか否かを示す情報等の車両の情報が格納される。指示対象アプリケーション231cには、アプリケーションソフトウェアの種類を特定する情報が格納される。発話情報231dには、実際にユーザーが発話した言語表現がテキスト化されて格納される。
 図7は、アプリ利用状態記憶部232のデータ構造を示す図である。アプリ利用状態記憶部232は、アプリケーション名232aと、起動状態232bと、操作状況232cと、リソース利用状況232dと、画面表示状況232eと、アプリ利用レベル232fと、を含む。
 アプリケーション名232aには、音声入力補助装置200あるいは接続されている周辺機器300において利用可能なアプリケーションソフトウェアを特定する情報が格納される。起動状態232bには、アプリケーション名232aにより特定されるアプリケーションソフトウェアが起動状態にあるか否かを特定する情報が格納される。
 操作状況232cには、アプリケーション名232aにより特定されるアプリケーションソフトウェアが操作状態にあるか否かを特定する情報が格納される。
 リソース利用状況232dには、アプリケーション名232aにより特定されるアプリケーションソフトウェアが利用しているリソースを特定する情報が格納される。例えば、リソースには、スピーカー、Bluetooth(登録商標)の無線通信リソース等が含まれる。
 画面表示状況232eには、アプリケーション名232aにより特定されるアプリケーションソフトウェアの画面表示の状態を特定する情報が格納される。例えば、画面表示の状態には、画面が表示されている状態を示すフォアグラウンド(以下において、FGと表記)、画面が表示されていない状態を示すバックグラウンド(以下において、BGと表記)等が含まれる。
 アプリ利用レベル232fには、アプリケーション名232aにより特定されるアプリケーションソフトウェアの利用度合いを示す値であるアプリ利用レベルを特定する情報が格納される。例えば、アプリ利用レベルは、起動状態232bと、操作状況232cと、リソース利用状況232dと、画面表示状況232eと、の情報を用いて所定の計算式を適用して算出した値が格納される。なお、アプリ利用レベルの値は、アプリケーションごとに、当該アプリケーションがどの程度利用されている状況にあるのか、を示す指標であり、より頻繁に利用しているアプリケーションであればあるほど高い利用レベルにあるとする値である。そのため、その計算方法は上述のものに限られることは無く、上述の計算方法とは別の視点から別の基準値を用いて算出されるものであってもよいことは言うまでもない。
 省略語記憶部233は、図5に示す省略語記憶部132のデータ構造と同様のデータ構造を備える。すなわち、省略語記憶部233には、アプリケーション名132aと、通番132bと、指示語132cと、軽省略指示語132dと、重省略指示語132eと、が含まれる。操作指示語および省略語記憶部233のデータは、アプリケーションの追加または削除のタイミングで、これらアプリを操作するための操作指示語や省略語を追加または削除される。またこれに限られず、音声入力補助装置200に当該データを編集するためのツールソフトウェアを搭載し、システム運用者またはユーザーの操作を受けて追加、更新または削除を行えるようにしても良い。あるいは、当該データは、ネットワーク15を介して音声入力補助装置200がサーバー装置100などの外部のサーバー装置からダウンロードして取得しても良いし、USB(Universal Serial Bus)メモリ等の外部記憶装置を介して取得しても良い。また、サーバー装置100に含まれない省略語については、頻出発話語提示部216を介して、サーバー装置100にアップロードして指示語と対応する省略語として追加させるようにすることも可能である。なお、操作指示語は、一般的に、省略度合が大きくなるほど、操作指示語間での省略語の重複が発生しやすくなることから、その追加に関しては重複を回避するよう複数の省略語の候補を生成して省略語を変更してアップロードする。
 図3の説明に戻る。音声処理部211は、ユーザーが発話する音声を受け付ける。そして、音声処理部211は、車両情報取得部217から車両情報を受け取る。音声処理部211は、ユーザー発話音声と、省略語適用操作項目リストと、車両情報とを、サーバー装置100の音声認識部111に送信する。なお、省略語適用操作項目リストは、希望度推定部214が生成した情報である。また、車両情報には、音声入力補助装置200が備えられている車両が所在する地域(座標)、時間帯、車速、残燃料、車種、推奨経路等の経路誘導を実施中であるか否かを示す情報、等を含む車両の状態を示す情報である。
 また、音声処理部211は、音声入力補助装置200にマイクによる音声入力受け付け指示を受け付けるマイクスイッチが設けられている場合には、ユーザーによるマイクスイッチ押下を検出し、押下方法や押下位置の相違により、発話方法表示要求または発話準備要求または表示送り要求の、何れかの要求を検知する。
 ここで、発話方法表示とは、音声操作を行うためにどのような発話を行えば良いかを示すことである。また、発話準備とは、発話音声を受け付ける処理を開始することである。また、表示送りとは、後述する「希望度上位の操作項目」に含まれる項目を変更することである。
 出力処理部212は、ユーザーに対して開示する画面情報を生成する。特に、希望度推定部214から発話方法(省略語を含む)を受信し、ユーザーに提示するために画面情報を構成し出力させる。すなわち、出力処理部212は、希望度推定部214により希望すると推定される操作可能な操作について、希望の度合いに応じて省略の度合いを変えた表現により操作可能な項目として提示するものであるといえる。
 ソフトウェア実行制御部213は、音声入力補助装置200において動作しうるソフトウェアを動作させる。また、ソフトウェア実行制御部213は、動作したソフトウェアにより出力される情報を用いて、表示画面を生成する。
 希望度推定部214は、後述する頻出発話語提示部216が提示する頻出発話のうち、頻繁に発話された複数の頻出発話語を取得し、発話回数の多寡に応じて希望度を推定する。また、希望度推定部214は、後述するアプリ利用レベル管理部215が算出するアプリ利用レベルが所定以上高い操作項目を取得し、アプリ利用レベルに応じて希望度を推定する。すなわち、希望度推定部214は、希望する操作項目とその度合いとを推定するといえる。また、希望度推定部214は、音声入力補助装置200自らにおいて既に実行されている処理の希望の度合いを、実行されていない処理よりも高く推定するといえる。また、希望度推定部214は、音声入力補助装置200自らにて既に実行されている処理および音声入力補助装置200自らと接続されている他の装置のいずれかにおいて既に実行中の処理の前記希望の度合いをより高く推定するものであるともいえる。
 ここで、希望度について説明する。希望度とは、ユーザーが指示を望むであろうと推定する際にその望みの強さの度合いを示す指標である。例えば、高速道路を走行中に、前方に長大な渋滞が発生している旨の情報を知ると、ユーザーは高速道路から離脱する経路を含めて回避経路の探索の指示を望む度合いが高いといえる。また例えば、音楽を聴いている状態では、音量の変更指示を望む度合いは、音楽を聴いていない状態よりも高いといえる。
 ここで、アプリ利用レベルについて説明する。アプリ利用レベルとは、ユーザーが利用するアプリケーションの重要性の度合いを示す指標である。アプリ利用レベルは、各アプリケーションソフトウェアの、1)起動状況、2)ユーザ操作状況、3)リソース利用状況(マイク、スピーカ、通信路、等)、4)アプリケーション間の相対的な画面表示状況(FGであるか、BGであるか)を数値化したアプリ利用レベル指標を用いて所定の数式により算出する。当該数式は、四則演算などの演算規則、および、各アプリ利用レベル指標に対する重み付けパラメータ、などにより構成されるものであればよい。
 アプリ利用レベルの算出に用いられる数式としては、具体的には、右辺に上述の1)から4)の少なくとも一つの指標を変数として有し、当該変数に前記数値を入力することで数式の左辺(アプリ利用レベルの点数)を得るものが挙げられる。例えば、各アプリケーションソフトウェアが起動状態にあれば所定の点数をアプリ利用レベルとして獲得し、これにユーザー操作状況、リソース利用状況、アプリケーション間の相対的な画面表示状況に応じた所定の点数を加算して最終的なアプリ利用レベルとして算出するものが挙げられる。
 また、希望度推定部214は、推定した希望度が上位となる操作項目、および、当該操作項目の省略語を、上位の操作項目から降順にソートして省略語適用操作項目リストとして出力するべく特定する。
 ここで、希望度の順位の決定方法としては、発話件数と、アプリ利用レベルに係る点数と、発話件数の偏差値と、アプリ利用レベルに係る点数の偏差値と、のいずれかまたはこれらの複合の値の大きさによって決定する方法が考えられる。
 例えば、頻出発話語から抽出される操作項目と、アプリ利用レベルの算出結果から抽出される操作項目の双方が、希望度が上位の操作項目として抽出される場合がある。これらは、単一画面の内部の単一の表示窓の内部に同時に表示されるように出力情報が生成されても良いし、単一画面の内部の別々の表示窓の内部に同時に表示されるように出力情報が生成されても良い。あるいは、それぞれが別々の単一画面に異なるタイミングで(例えば、それぞれ、頻出発話語が抽出された際と、アプリ利用レベルが算出された際と、において)表示されるよう出力情報が生成されても良い。
 アプリ利用レベル管理部215は、各アプリケーションから、アプリケーションの状態および上述のアプリ利用レベル指標を受信する。なお、アプリケーションの状態および上述のアプリ利用レベル指標の受信は、周期的に行われるものであってもよいし、周期的ではなく、マイクスイッチ押下などのイベントを契機としてもよい。また、アプリ利用レベル管理部215は、後述する周辺機器接続部240により生成される制御可能アプリリストを参照し、当該リストに制御可能なアプリケーションの名称または識別子が存在する場合は、周辺機器において当該アプリケーションが動作中であるとみなし、当該周辺機器において動作中のアプリケーションの状態と、アプリ利用レベル指標と、を受信する。
 また、アプリ利用レベル管理部215は、アプリケーションの状態に基づき当該アプリケーションにおいて実施可能な操作項目を特定する。
 頻出発話語提示部216は、車両の状態を示す情報に対応した頻出発話語および当該頻出発話語が発話された回数である件数を含む情報をサーバー装置100から受信する。なお、頻出発話語とは、所定の車両状態において複数のユーザーが発話した発話語のうち、発話回数が上位となる発話語をいう。
 車両情報取得部217は、音声入力補助装置200が設けられた車両の車速や位置情報、残燃料、時刻帯等の情報を含む情報を関連するセンサー等の装置から取得する。
 並列実行部218は、希望度推定部214の推定する希望度が上位の操作指示語のうち、可逆な処理すなわち実行により状態が変化せず、再実行を行っても矛盾の起きない処理を特定し、当該操作指示語を各アプリケーションに対して送信することで、アプリケーションの先行実行を並列的に制御する。
 通信部220は、インターネット等のネットワーク15に接続される他の装置との通信を行う。
 周辺機器接続部240は、音声入力補助装置200に接続される周辺機器300との間の通信の確立、維持、および通信の放棄等を実施する。なお、周辺機器接続部240は、Bluetooth、無線LAN、NFC等の近距離無線通信あるいはUSB、HDMI等の通信ケーブル等を介した有線通信により、周辺機器300と通信し、接続する。また、周辺機器接続部240は、接続された周辺機器300において実行されるアプリケーションソフトウェアが音声入力補助装置200からの操作を受け付けるものである場合に、当該アプリケーションソフトウェアの名称等を取得するとともに操作項目を取得する。
 以上が、音声入力補助装置200の構成の概要である。なお、音声入力補助装置200は、典型的には、車両に搭載されるナビゲーション装置であるが、これに限られず、モバイル機器、パーソナルコンピューター装置、携帯電話端末、タブレット端末、PDA、等の電子情報端末であってもよい。
 周辺機器300は、制御部310と、周辺機器接続部340と、を含む。制御部310は、入力受付部311と、出力処理部312と、情報端末通信部313と、アプリ管理部314と、を含む。
 入力受付部311は、周辺機器300に備えられている画面に設けられたタッチパネルから伝えられるポイント情報のうち、押した、離した、移動したなどの画面操作に関連する情報を受け付ける。
 出力処理部312は、音声入力補助装置200および周辺機器300にて動作するソフトウェアに関連する画面の表示を行う。情報端末通信部313は、音声入力補助装置200との間で情報の授受を行う。
 アプリ管理部314は、周辺機器300において動作しうるソフトウェアを動作させる。また、アプリ管理部314は、動作したソフトウェアにより出力される情報を用いて、表示画面を生成する。また、アプリ管理部314は、周辺機器接続部340を介して接続される音声入力補助装置200に対して、周辺機器300で実行されるアプリケーションソフトウェアの名称と、音声入力補助装置200において操作を受け付けることが可能な操作項目と、を出力する。
 周辺機器接続部340は、周辺機器300に接続される音声入力補助装置200との間の通信の確立、維持、および通信の放棄等を実施する。なお、周辺機器接続部340は、Bluetooth、無線LAN、NFC等の近距離無線通信あるいはUSB、HDMI等の通信ケーブル等を介した有線通信により、音声入力補助装置200と通信し、接続する。また、周辺機器接続部340は、接続された音声入力補助装置200に対して、周辺機器300で実行されるアプリケーションソフトウェアが音声入力補助装置200からの操作を受け付けるものである場合に、当該アプリケーションソフトウェアの名称、操作項目等を受け渡す。
 以上が、周辺機器300の構成の概要である。なお、周辺機器300は、典型的には携帯電話端末であるが、これに限らず、ナビゲーション装置、パーソナルコンピューター装置、携帯電話端末、タブレット端末、PDA、等の電子情報端末であってもよい。
 図8は、音声入力補助システム1を構成する各機器のハードウェア構成を示す図である。サーバー装置100は、ディスプレイ等の出力装置151、ネットワークカード等の通信装置152、キーボード等の入力装置153、CPU(Central Prosessing Unit)154、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助記憶装置155、RAM(Random Access Memory)156を含んで構成される。
 出力装置151は、ディスプレイ等の表示装置であり、CPU154による処理の結果を表示する。通信装置152は、インターネット等のネットワーク15に接続され、ネットワーク15に接続される他の装置と各種データのやりとりを行う。
 入力装置153は、タッチパネル、キーボード、マウス等であり、ユーザーからの指示を受け付ける。
 CPU154は、RAM156上にロードされるプログラムに従い演算を行う制御ユニットである。
 補助記憶装置155は、プログラムで利用する各種データを記憶する記憶装置である。
 RAM156は、補助記憶装置155に記憶されているプログラムをロードする記憶装置である。また、RAM156は、データを一時的に保存する。
 上記したサーバー装置100の制御部110は、CPU154に処理を行わせるプログラムによって実現される。このプログラムは、補助記憶装置155に記憶され、実行にあたってRAM156上にロードされ、CPU154により実行される。
 また、通信部120は、通信装置152により実現される。記憶部130は、補助記憶装置155あるいはRAM156により実現される。
 以上が、本実施形態におけるサーバー装置100のハードウェア構成例である。しかし、これに限らず、その他の同様のハードウェアを用いて構成されるものであってもよい。
 音声入力補助装置200は、表示装置251と、ROM252と、操作装置253と、RAM254と、補助記憶装置255と、機器間通信インターフェース256と、測位センサ257と、CPU258と、ジャイロセンサ259と、加速度センサ260と、通信装置261と、車両間インターフェース262と、を含んで構成される。
 表示装置251は、液晶ディスプレイや有機ELディスプレイ等、画像情報を表示する装置である。
 ROM252は、制御プログラムなどが書かれた読み出し専用の記憶装置である。
 操作装置253は、音声入力補助装置200を指の接触動作等により操作するボタン、スイッチ、キーボード、タッチパネル等のユーザーからの操作を受け付ける装置である。
 RAM254は、補助記憶装置255に記憶されているプログラムをロードしデータを一時的に保存する記憶装置である。
 補助記憶装置255は、ソフトウェアで利用する各種データを記憶する記憶装置である。
 機器間通信インターフェース256は、周辺機器300と接続し、データを送受信する。なお、機器間通信インターフェース256が備える接続方式は、USBやHDMI等の規格に準拠した有線接続であってもよいし、無線LANのIEEE 802.11a/b/g/n/acやBluetooth等の規格に準拠した無線接続であってもよい。
 測位センサ257は、位置を特定し、緯度、経度による座標系で出力するセンサである。
 CPU258は、音声入力補助装置200の各部を制御し、RAM254上にロードされるプログラムに従い演算を行う制御ユニットである。
 ジャイロセンサ259は、音声入力補助装置200が設けられている車両の水平方向の角度や角速度を計測するためのセンサである。
 加速度センサ260は、音声入力補助装置200が設けられている車両にかかる多軸の加速度を計測するためのセンサである。
 通信装置261は、無線通信回線網を利用してインターネット等のネットワーク15に接続し、ネットワーク15に接続される装置と各種のデータの送受信を行う。
 車両間インターフェース262は、車両信号線を接続するためのインターフェースであり、車両走行状態や内部状態(例えば、車速、残燃料、位置、時刻帯を含む情報)を取り込むことができる。または、車両間インターフェース262は、車両内のネットワークであるCAN(Control Area Network)と接続し、車両の車速情報等の制御情報を送受信するものであってもよい。
 上記した音声入力補助装置200の制御部210は、CPU258に処理を行わせるプログラムによって実現される。このプログラムは、補助記憶装置255に記憶され、実行にあたってRAM254上にロードされ、CPU258により実行される。
 また、通信部220は、通信装置261により実現される。記憶部230は、補助記憶装置255あるいはRAM254により実現される。また、周辺機器接続部240は、機器間通信インターフェース256により実現される。
 以上が、本実施形態における音声入力補助装置200のハードウェア構成例である。しかし、これに限らず、その他の同様のハードウェアを用いて構成されるものであってもよい。
 周辺機器300は、表示装置351と、ROM352と、操作装置353と、RAM354と、補助記憶装置355と、機器間通信インターフェース356と、CPU357と、通信装置358と、を含んで構成される。
 表示装置351は、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等、画像情報を表示する装置である。
 ROM352は、制御プログラムなどが書かれた読み出し専用の記憶装置である。
 操作装置353は、周辺機器300を指の接触動作等により操作するボタン、スイッチ、キーボード、タッチパネル等のユーザーからの操作を受け付ける装置である。
 RAM354は、補助記憶装置355に記憶されているプログラムをロードしデータを一時的に保存する記憶装置である。
 補助記憶装置355は、ソフトウェアで利用する各種データを記憶する記憶装置である。
 機器間通信インターフェース356は、音声入力補助装置200と接続し、データを送受信する。なお、機器間通信インターフェース356が備える接続方式は、USBやHDMI等の規格に準拠した有線接続であってもよいし、無線LANのIEEE 802.11a/b/g/n/acやBluetooth等の規格に準拠した無線接続であってもよい。
 CPU357は、周辺機器300の各部を制御し、RAM354上にロードされるプログラムに従い演算を行う制御ユニットである。
 通信装置358は、無線通信回線網を利用してインターネット等のネットワーク15に接続し、ネットワーク15に接続される装置と各種のデータの送受信を行う。
 上記した周辺機器300の制御部310は、CPU357に処理を行わせるプログラムによって実現される。このプログラムは、補助記憶装置355に記憶され、実行にあたってRAM354上にロードされ、CPU357により実行される。
 また、周辺機器接続部340は、機器間通信インターフェース356により実現される。
 以上が、本実施形態における周辺機器300のハードウェア構成例である。しかし、これに限らず、その他の同様のハードウェアを用いて構成されるものであってもよい。
 [動作の説明]次に、本実施形態における希望度推定処理における動作を、図9を用いて説明する。
 図9は、希望度推定処理の処理内容を示す図である。希望度推定処理は、音声入力補助装置200および周辺機器300がサーバー装置100に接続されると、実施される。なお、希望度推定処理は、周辺機器300が接続されるか否かに関わらず実施され、その場合においては音声入力補助装置200は周辺機器300から情報を得ることができないことについてのエラーの発生を、無視しうるものとする。
 まず、ソフトウェア実行制御部213は、アプリ利用レベル管理部215に対して、アプリ利用状況情報を送信する(ステップS001)。具体的には、ソフトウェア実行制御部213は、実行中のアプリケーションソフトウェアの名称と、起動状態と、操作状況と、リソース利用状況と、画面表示状況と、をアプリ利用レベル管理部215に送信する。この処理は、任意のタイミングで実行するものとし、例えば周期的に実行するものであってもよいし、所定のイベントが発生した場合に実行するものとしてもよい。
 また、周辺機器300のアプリ管理部314は、周辺機器300が音声入力補助装置200に接続している場合には、アプリ利用状況情報を送信する(ステップS002)。具体的には、アプリ管理部314は、周辺機器300で実行中のアプリケーションソフトウェアの名称と、起動状態と、操作状況と、リソース利用状況と、画面表示状況と、をアプリ利用レベル管理部215に送信する。この処理は、任意のタイミングで実行するものとし、例えば周期的に実行するものであってもよいし、所定のイベントが発生した場合に実行するものとしてもよい。
 そして、アプリ利用レベル管理部215は、アプリ利用レベルを特定する(ステップS003)。具体的には、アプリ利用レベル管理部215は、ステップS001およびステップS002において送信されたアプリ利用状況情報を用いて、各アプリケーションソフトウェアごとに利用レベルを特定する。当該アプリ利用レベルの特定処理においては、アプリ利用レベル管理部215は、上述のアプリ利用レベル指標の情報に応じた点数の合算を行うことにより、アプリ利用レベルを算出し特定する。
 そして、希望度推定部214は、所定のタイミングでアプリ利用レベル管理部215に対して、アプリ利用レベルを要求する(ステップS004)。当該タイミングは、例えば定期的なものであってもよいし、所定のスケジュールに従ったものであってもよいし、所定のイベント発生に応じるものであってもよい。
 アプリ利用レベル管理部215は、ステップS004のアプリ利用レベル要求を受け付けると、アプリ利用レベルを送信する(ステップS005)。具体的には、アプリ利用レベル管理部215は、希望度推定部214に対して、ステップS003により特定したアプリ利用レベルと、アプリケーションソフトウェアの名称と、を対応付けた情報を送信する。
 そして、希望度推定部214は、所定のタイミングで頻出発話語提示部216に対して、頻出発話語を要求する(ステップS006)。当該タイミングは、例えば定期的なものであってもよいし、所定のスケジュールに従ったものであってもよいし、所定のイベント発生に応じるものであってもよい。
 頻出発話語提示部216は、所定のタイミングで頻出発話語提示部216に対して車両情報取得部217から送信される(後述するステップS009)車両情報を用いて、頻出発話語を取得し送信する(ステップS007)。具体的には、頻出発話語提示部216は、車両情報の各情報が類似する状況においてなされた発話とその件数とを特定し、希望度推定部214へ送信する。なお、頻出発話とその件数の特定処理においては、頻出発話語提示部216は、地域、時刻帯、残燃料、車速、車種、推奨経路等の経路誘導を実施中であるか否かを示す情報、等の車両情報をサーバー装置100の頻出発話語特定部113へ送信し、返信される発話語と、発話の件数と、を取得する。そして、頻出発話語提示部216は、取得した発話語と、発話の件数と、を希望度推定部214へ送信する。すなわち、希望度推定部214は、音声入力補助装置200が搭載される車両の状態と、他の車両の状態と、が類似する状態において発話された実績を用いて希望の度合いを推定するものであるといえる。
 そして、希望度推定部214は、アプリ利用レベルの高いアプリの発話を頻出発話語から抽出する(ステップS008)。具体的には、希望度推定部214は、ステップS007において取得した頻出発話語のうち、アプリ利用レベルが高いアプリケーションソフトウェアに係る頻出発話語を抽出し、ユーザーに示すための画面情報を生成する。
 車両情報取得部217は、これらの希望度推定処理と同期するタイミングあるいは自律したタイミングで、車両情報を頻出発話語提示部216へ送信する(ステップS009)。
 以上が、希望度推定処理のフローである。希望度推定処理によれば、車両状況が似ている状況において頻繁に発話されたアプリケーションソフトウェアの指示語のうち、アプリケーションソフトウェアの利用の重要性の高いものを抽出してユーザーに提示することができる。これにより、ユーザーの指示をコンテキストに応じて先行的に推測することが可能となるといえる。
 図10は、省略語提示処理の処理フローを示す図である。省略語提示処理は、希望度が上位の操作の発話語を、発話指示を受けるより前に並列して実行する。これにより、指示を受けてから開始するよりも早い結果の取得が可能となり、ユーザーに対する見かけ上の応答速度を得ることができる。あるいは、希望度が上位となった操作項目が変化した事象を契機として、省略語提示処理の実行を行うようにしても良い。
 まず、並列実行部218は、希望度が上位の操作の発話語を希望度推定部214に要求する(ステップS101)。そして、希望度推定部214は、希望度推定処理のステップS008において抽出した希望度が上位の操作の発話語を並列実行部218へ送信する(ステップS102)。
 並列実行部218は、頻出発話語実行指示をソフトウェア実行制御部213へ送信する(ステップS103)。具体的には、並列実行部218は、ステップS102において受信した希望度が上位の操作の発話語の所定数について、ソフトウェア実行制御部213へ実行指示を行う。なお、当該処理においては、並列実行部218は、取消可能な処理、すなわち検索や参照等のデータ変更を伴わない処理の実行を指示し、取消不可能な処理、すなわち更新や削除等のデータ変更を伴う処理の実行については除外する。
 ソフトウェア実行制御部213は、アプリケーションソフトウェアを実行し、結果を保持する(ステップS104)。具体的には、ソフトウェア実行制御部213は、並列実行部218により実行を指示された頻出発話語に係るソフトウェアの操作を実行し、結果をキャッシュする。そして、以降において、同内容の実行指示に関して当該キャッシュした結果を処理結果として受け渡す。
 また、希望度推定部214は、発話方法表示要求を受信する(ステップS105)。当該要求の受信は、例えばマイクスイッチの所定の操作ボタンの押下等を検出した音声入力補助装置200の図示しないオペレーティングシステム等により送信される。
 そして、希望度推定部214は、希望度に応じた省略語を適用し送信する(ステップS106)。具体的には、希望度推定部214は、希望度が上位の操作の発話語のそれぞれについて、希望度が上位の操作の発話については省略の度合いを大きくした省略語を特定して省略語として適用し、並列実行部218へ送信する。
 そして、並列実行部218は、省略語の選択表示出力指示を行う(ステップS107)。具体的には、並列実行部は218は、ステップS106において送信された省略語について、ユーザーが省略語を理解可能かつ発話可能なように画面構成を行う。なお、並列実行部218は、構成する画面上に、少なくとも、省略語と、省略語がどのアプリケーションソフトウェアの操作指示語の省略であるのかを示す情報と、を含ませる。そして、構成した画面情報を出力処理部212へ送信する。
 出力処理部212は、省略語と対象アプリケーションソフトウェアとを表示させる(ステップS108)。具体的には、出力処理部212は、ステップS107において送信された画面情報を表示させる。なお、出力処理部212は、操作可能な項目が、他の操作可能な項目と同一表現となる場合には、省略の度合いを変更して表現を相違させ、相違点を強調(例えば、下線を表示する等)するよう表現する。
 以上が、省略語提示処理のフローである。省略語提示処理によれば、希望度が高い操作であればあるほど省略の度合いが大きい省略語をユーザーに提示することが可能となる。そのため、ユーザーは省略語を発話することで端的に操作指示をおこなうことが可能となる。
 図11は、音声認識省略語表示画面の例を示す図である。音声認識省略語表示画面500においては、希望度が高い順に操作指示語の省略語と、アプリケーションソフトウェアの種類を示す補助情報とが対応付けられて、複数表示される。例えば、画面の向かって左側の列に、鉛直下方向に向かって、「音量大」表示欄511と、「案内音量大」表示欄512と、「キーワードで絞り込む」表示欄513と、が表示される。また、各表示欄の文字の大きさは、希望度が高いほど大きい文字で強調表示される。また、希望度が高いほど省略の度合いが高く、希望度が最も高い「音量大」表示欄511には、重省略された操作指示語が記載され、続いて「案内音量大」表示欄512には、軽省略された操作指示語が記載され、「キーワードで絞り込む」表示欄513には、省略のない操作指示語が記載されるものとする。また、それぞれ画面の向かって右側の列には、「音量大」表示欄511と、「案内音量大」表示欄512と、「キーワードで絞り込む」表示欄513と、に対応付けられて「音楽」、「ナビ」、「POI検索」の補助情報521、522、523のそれぞれが表示される。これは、「音量大」表示欄511には、「音楽」機能に関する操作指示が記載されていることを示すものである。同様に、「案内音量大」表示欄512には、「ナビ」機能に関する操作指示が記載されていることを示すものである。また、「キーワードで絞り込む」表示欄513には、「POI検索」機能に関する操作指示が記載されていることを示すものである。
 図12は、音声認識処理の処理フローを示す図である。音声認識処理は、ユーザーからマイクスイッチ等による音声入力指示がなされると、開始される。
 音声処理部211は、音声指示を、サーバー装置100の音声認識部111へ送信する(ステップS201)。
 そして、音声認識部111は、送信された音声指示を解析して音声テキスト変換を行う(ステップS202)。そして、音声認識部111は、変換結果を省略語適用判定部112へ送信する。
 省略語適用判定部112は、送信された音声テキスト変換結果であるテキスト情報を受け付けると、指示語を特定する(ステップS203)。具体的には、省略語適用判定部112は、省略語記憶部132を参照して、発話された省略語がいずれの操作指示語に係るものであるか特定する。そして、省略語適用判定部112は、特定した指示語を音声入力補助装置200の音声処理部211へ送信する。
 音声処理部211は、対象アプリ実行指示を行う(ステップS204)。具体的には、ソフトウェア実行制御部213に対して、指示語により操作するアプリケーションソフトウェアとその操作指示とを実行させる。
 ソフトウェア実行制御部213は、指示された操作について実行済み結果が有るか否かを判定する(ステップS205)。具体的には、ソフトウェア実行制御部213は、省略語提示処理のステップS104において実行したキャッシュが存在するか否かを判定する。
 実行済み結果が有る場合(ステップS205にて「Yes」の場合)には、ソフトウェア実行制御部213は結果の引き当てを行う(ステップS206)。
 実行済み結果が無い場合(ステップS205にて「No」の場合)には、ソフトウェア実行制御部213は、アプリケーションソフトウェアを実行する(ステップS207)。具体的には、ソフトウェア実行制御部213は、ステップS204において実行を指示されたアプリケーションソフトウェアの操作を実行し結果を得る。なお、実行対象の操作が、起動していないアプリケーションソフトウェア上の操作である場合には、ソフトウェア実行制御部213は、アプリケーションソフトウェアの起動を行って、当該操作を実行するものとしてもよいし、アプリケーションソフトウェアの起動を終了させる操作の場合には、アプリケーションソフトウェアに対して実行中の処理を終了するよう指示を与えるものとする。
 そして、ソフトウェア実行制御部213は、結果の出力構成を行う(ステップS208)。具体的にはソフトウェア実行制御部213は、アプリケーションソフトウェアの実行の結果得られる出力情報を用いて、結果の出力情報として出力処理部212へ受け渡す。
 出力処理部212は、構成された出力情報の出力を行う(ステップS209)。具体的には、出力処理部212は、ステップS208において構成された出力画面の出力を行う。
 以上が、音声認識処理の処理フローである。音声認識処理によれば、音声操作を省略語で行った場合であっても、正しく操作を行うことが可能となる。また、先行で発話前に並列実行した結果が存在する場合には、その結果を得ることで応答性を高めることができる。
 以上、第一の実施形態について説明した。第一の実施形態によれば、希望すると推定される操作項目ほど短く省略した言葉によって操作可能とすることができる。
 第一の実施形態では、省略語適用判定部112、音声認識部111および省略語記憶部132は、サーバー装置100に設けられているが、本発明は、これに限られない。例えば、音声入力補助装置200に設けられる構成となっていてもよい。
 また、希望度推定処理において、アプリ利用レベルの高いアプリの発話を頻出発話語から抽出し出力する処理をステップS008において実施しているが、これに限られない。例えば、アプリ利用レベルの高いアプリの発話語と、頻出発話語として抽出した発話語とを、希望度の高い順から重複を考慮せず羅列するようにしてもよい。例えば、アプリ利用レベルの高いアプリの発話のうち希望度が高い発話語と、頻出発話語のうち希望度が高い発話語とが混在するように表示するようにしてもよい。
 図13は、音声認識表示画面の例を示す図である。音声認識表示画面600は、このような希望度の高い順から重複を考慮せず羅列する出力例である。音声認識表示画面600においては、希望度が高い順に操作指示語と、アプリケーションソフトウェアの種類を示す補助情報とが対応付けられて、複数表示される。例えば、画面の向かって左側の列に、鉛直下方向に向かって、「音楽の音量を大きくする」操作表示欄611と、「音楽を停止する」操作表示欄612と、「案内の音量を大きくする」操作表示欄613と、「音楽の音量を大きくする」操作表示欄614と、「キーワードで絞り込む」操作表示欄615と、が表示される。また、「音楽の音量を大きくする」操作表示欄611には、頻出発話語の希望度が最大となる操作指示語が記載され、「音楽を停止する」操作表示欄612には、アプリ利用レベルが最大となる操作指示語が記載される。同様に、「案内の音量を大きくする」操作表示欄613には、頻出発話語の希望度が次点となる操作指示語が記載され、「音楽の音量を大きくする」操作表示欄614には、アプリ利用レベルが次点となる操作指示語が記載される。また、「キーワードで絞り込む」操作表示欄615には、頻出発話語の希望度が三番目となる操作指示語が記載される。
 また、音声認識表示画面600においては、それぞれ画面の向かって右側の列には、「音楽」、「音楽」「ナビ」、「外部音楽」、「POI検索」の補助情報621、622、623、624、625のそれぞれが表示される。
 また、発話実績記憶部131には、どのようなアプリケーションソフトウェアに対しても存在する多義の操作については、予めブラックリストによる登録排除がなされるようにしてもよい。例えば、ページ送り操作の「次」、「戻る」、「次の候補」「(選択肢を選ぶ)3番」等の操作は、多くのソフトウェアに共通する操作であり、実質的に何の操作を行ったのかを特定する操作語としては妥当性が高いといえない。そのため、このような操作語は、発話実績に含まれないように予め除外して登録する処理部を備えるようにしてもよい。このようにすることで、蓄積される発話の質が向上し、より適切に頻出発話語を特定可能となる。
 なお、上述した第一の実施形態にかかる制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えても良い。
 また、上記の各構成、機能、処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。
 以上、本発明について、実施形態を中心に説明した。
1・・・音声入力補助システム、10・・・ユーザー、15・・・ネットワーク、100・・・サーバー装置、110・・・制御部、111・・・音声認識部、112・・省略語適用判定部、113・・・頻出発話語特定部、114・・・各種サービス処理部、115・・・発話語蓄積部、120・・・通信部、130・・・記憶部、131・・・発話実績記憶部、132・・・省略語記憶部、133・・・音声認識情報記憶部、200・・・音声入力補助装置、210・・・制御部、211・・・音声処理部、212・・・出力処理部、213・・・ソフトウェア実行制御部、214・・・希望度推定部、215・・・アプリ利用レベル管理部、216・・・頻出発話語提示部、217・・・車両情報取得部、218・・・並列実行部、220・・・通信部、230・・・記憶部、231・・・操作指示語記憶部、232・・・アプリ利用状態記憶部、233・・・省略語記憶部、240・・・周辺機器接続部、300・・・周辺機器、310・・・制御部、311・・・入力受付部、312・・・出力処理部、313・・・情報端末通信部、314・・・アプリ管理部、340・・・周辺機器接続部

Claims (14)

  1.  操作項目と、前記操作項目の希望する度合いに応じた省略語と、を対応付けて記憶する省略語記憶部と、
     所定の指標を用いて、前記操作項目ごとの希望する度合いを推定し、前記希望する度合いに応じて前記省略語記憶部から省略語を特定する希望度推定部と、
     前記希望度推定部により特定された省略語を提示する出力処理部と、
     を備えることを特徴とする音声入力補助装置。
  2.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記音声入力補助装置が搭載される車両の状態を収集し、収集した前記車両の状態と類似する状態において他の車両にてなされた発話実績を用いて前記希望の度合いを推定する、
     ことを特徴とする音声入力補助装置。
  3.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記音声入力補助装置が搭載される車両の状態を収集し、収集した前記車両の状態と類似する状態において他の車両にてなされた発話実績を用いて前記希望の度合いを推定し、
     前記車両の状態として、地域、時間帯、車速、残燃料、車種、推奨経路等の経路誘導を実施中であるか否かを示す情報、のうち少なくともいずれか一つの指標を用いて類似を判定する、
     ことを特徴とする音声入力補助装置。
  4.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記音声入力補助装置にて利用度の高い処理に関する前記希望の度合いをより高く推定する、
     ことを特徴とする音声入力補助装置。
  5.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記音声入力補助装置および前記音声入力補助装置と接続されている装置のいずれかにおいて利用度の高い処理に関する前記希望の度合いをより高く推定する、
     ことを特徴とする音声入力補助装置。
  6.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記音声入力補助装置にて利用度の高い処理に関する前記希望の度合いをより高く推定し、
     前記利用度の高い処理の算出にあたっては、各処理について、起動状況、ユーザーによる操作状況、リソース利用状況、相対的な画面表示状況、のうち少なくともいずれか一つの指標により前記利用度を特定する、
     ことを特徴とする音声入力補助装置。
  7.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、より強く希望されると推定される前記操作については、より省略の度合いを高くする、
     ことを特徴とする音声入力補助装置。
  8.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、希望されると推定される前記操作については、前記操作項目の名称から少なくとも名詞または動詞を抽出して省略語とする、
     ことを特徴とする音声入力補助装置。
  9.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、希望されると推定される前記操作については、前記操作項目の名称から動作の態様を示す語を抽出して省略語とする、
     ことを特徴とする音声入力補助装置。
  10.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部は、前記操作項目の省略語を提示する処理において、他の操作項目の省略語と同一表現となる場合には、一方の操作項目の省略の度合いを変更して表現を相違させ、前記省略語とともに相違点の強調表現を特定する、
     ことを特徴とする音声入力補助装置。
  11.  請求項1に記載の音声入力補助装置であって、
     省略された前記操作項目に係る音声入力を受け付けると、対応する前記操作項目に係る操作を特定する省略語適用判定部、
     を備えることを特徴とする音声入力補助装置。
  12.  請求項1に記載の音声入力補助装置であって、
     前記希望度推定部により希望すると推定される操作項目に係る操作のいずれかについて、操作指示を受け付けなくとも予め実行する並列実行部、
     を備えることを特徴とする音声入力補助装置。
  13.  サーバー装置と、前記サーバー装置と通信可能に接続される音声入力補助装置を含む音声入力補助システムであって、
     前記サーバー装置は、
     前記音声入力補助装置が属する車両の状態と対応付けて発話情報の実績を格納する発話実績記憶部と、
     前記音声入力補助装置から、前記音声入力補助装置が属する車両の状態を示す情報とともに発話情報を取得して前記発話実績記憶部に蓄積する発話語蓄積部と、
     前記音声入力補助装置から車両の状態を示す情報を受け付けると、前記車両の状態に対応付けられた発話頻度の高い発話情報を前記発話実績記憶部から抽出して前記音声入力補助装置へ送信する頻出発話語特定部と、
     を備え、
     前記音声入力補助装置は、
     操作項目と、前記操作項目の希望する度合いに応じた省略語と、を対応付けて記憶する省略語記憶部と、
     前記サーバー装置に対して前記車両の状態を示す情報を送信し、前記サーバー装置から送信された前記発話頻度の高い発話情報および発話頻度を、それぞれ希望する操作項目とその希望する度合いとして推定し、前記希望する度合いに応じて前記省略語記憶部から省略語を特定する希望度推定部と、
     前記希望度推定部により特定された省略語を提示する出力処理部と、
     を備える、
     ことを特徴とする音声入力補助システム。
  14.  音声入力補助装置を用いた音声入力方法であって、
     前記音声入力補助装置は、操作項目と、前記操作項目の希望する度合いに応じた省略語と、を対応付けて記憶する省略語記憶部と、制御部と、を備え、
     前記制御部は、
      所定の指標を用いて、前記操作項目ごとの希望する度合いを推定し、前記希望する度合いに応じて前記省略語記憶部から省略語を特定する希望度推定ステップと、
     前記希望度推定ステップにより特定された省略語を提示する出力処理ステップと、
     を実施することを特徴とする音声入力方法。
PCT/JP2015/078339 2014-12-12 2015-10-06 音声入力補助装置、音声入力補助システムおよび音声入力方法 WO2016092946A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/533,867 US20170323641A1 (en) 2014-12-12 2015-10-06 Voice input assistance device, voice input assistance system, and voice input method
CN201580057276.6A CN107148555A (zh) 2014-12-12 2015-10-06 声音输入辅助装置、声音输入辅助系统及声音输入方法
EP15868173.4A EP3232160A4 (en) 2014-12-12 2015-10-06 Voice input assistance device, voice input assistance system, and voice input method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014251442A JP6348831B2 (ja) 2014-12-12 2014-12-12 音声入力補助装置、音声入力補助システムおよび音声入力方法
JP2014-251442 2014-12-12

Publications (1)

Publication Number Publication Date
WO2016092946A1 true WO2016092946A1 (ja) 2016-06-16

Family

ID=56107141

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/078339 WO2016092946A1 (ja) 2014-12-12 2015-10-06 音声入力補助装置、音声入力補助システムおよび音声入力方法

Country Status (5)

Country Link
US (1) US20170323641A1 (ja)
EP (1) EP3232160A4 (ja)
JP (1) JP6348831B2 (ja)
CN (1) CN107148555A (ja)
WO (1) WO2016092946A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108989542A (zh) * 2017-05-30 2018-12-11 现代自动车株式会社 基于情境确定动作的系统和方法、用于执行基于情境确定的动作的车辆
CN113661036A (zh) * 2019-04-16 2021-11-16 索尼集团公司 信息处理装置、信息处理方法以及程序

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
JP6819383B2 (ja) * 2017-03-17 2021-01-27 ヤマハ株式会社 制御方法及び制御装置
US11205421B2 (en) * 2017-07-28 2021-12-21 Cerence Operating Company Selection system and method
JP6826324B2 (ja) * 2017-09-27 2021-02-03 トヨタ自動車株式会社 サービス提供装置及びサービス提供プログラム
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
CN108022586B (zh) 2017-11-30 2019-10-18 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置
JP6962158B2 (ja) * 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
US10664522B2 (en) * 2017-12-07 2020-05-26 International Business Machines Corporation Interactive voice based assistant for object assistance
KR102485342B1 (ko) * 2017-12-11 2023-01-05 현대자동차주식회사 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
JP7069730B2 (ja) * 2018-01-11 2022-05-18 トヨタ自動車株式会社 情報処理装置、方法、及びプログラム
JP7239963B2 (ja) * 2018-04-07 2023-03-15 ナレルシステム株式会社 グループ音声通信と過去音声確認のためのコンピュータプログラム、方法及び装置
JP7091807B2 (ja) * 2018-04-23 2022-06-28 トヨタ自動車株式会社 情報提供システムおよび情報提供方法
JP2021139920A (ja) * 2018-05-31 2021-09-16 ソニーグループ株式会社 音声処理装置および音声処理方法
JP2020071764A (ja) * 2018-11-01 2020-05-07 東芝テック株式会社 指示管理装置及びその制御プログラム
KR20200067673A (ko) * 2018-12-04 2020-06-12 (주)이더블유비엠 공유 ai 스피커
US11080568B2 (en) 2019-04-26 2021-08-03 Samsara Inc. Object-model based event detection system
US10999374B2 (en) * 2019-04-26 2021-05-04 Samsara Inc. Event detection system
JP7264071B2 (ja) * 2020-01-23 2023-04-25 トヨタ自動車株式会社 情報処理システム、情報処理装置、及びプログラム
US20220415321A1 (en) * 2021-06-25 2022-12-29 Samsung Electronics Co., Ltd. Electronic device mounted in vehicle, and method of operating the same

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
JP2006011002A (ja) * 2004-06-25 2006-01-12 Advanced Telecommunication Research Institute International 音声応答装置、音声応答方法および音声応答プログラム
JP2006107148A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd 音声情報提供装置
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
JP2013235330A (ja) * 2012-05-07 2013-11-21 Sumitomo Electric Ind Ltd 光ビーコン、及び路車間通信システム
JP2013251002A (ja) * 2013-08-28 2013-12-12 Toyota Motor Corp データベース管理システム、ナビゲーション装置、及び省略語登録装置
WO2015162638A1 (ja) * 2014-04-22 2015-10-29 三菱電機株式会社 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0781498A (ja) * 1993-09-20 1995-03-28 Mitsubishi Electric Corp 車両用走行制御装置
EP1884421B1 (en) * 2006-08-04 2008-10-08 Harman Becker Automotive Systems GmbH Method and system for processing voice commands in a vehicle enviroment
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
US8224653B2 (en) * 2008-12-19 2012-07-17 Honeywell International Inc. Method and system for operating a vehicular electronic system with categorized voice commands
DE102011109932B4 (de) * 2011-08-10 2014-10-02 Audi Ag Verfahren zum Ansteuern funktioneller Einrichtungen in einem Fahrzeug bei Sprachbefehl-Bedienung
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20140095171A1 (en) * 2012-10-01 2014-04-03 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
JP6122642B2 (ja) * 2013-01-10 2017-04-26 株式会社Nttドコモ 機能実行システム及び発話例出力方法
JP2014134657A (ja) * 2013-01-10 2014-07-24 Olympus Corp 走査型レーザ顕微鏡および顕微鏡観察方法
EP2949536B1 (en) * 2014-05-30 2016-10-05 Honda Research Institute Europe GmbH Method for controlling a driver assistance system
US20160196823A1 (en) * 2015-01-02 2016-07-07 Atieva, Inc. Voice Command Activated Vehicle Camera System

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
JP2006011002A (ja) * 2004-06-25 2006-01-12 Advanced Telecommunication Research Institute International 音声応答装置、音声応答方法および音声応答プログラム
JP2006107148A (ja) * 2004-10-06 2006-04-20 Hitachi Ltd 音声情報提供装置
JP2012141772A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム
JP2013235330A (ja) * 2012-05-07 2013-11-21 Sumitomo Electric Ind Ltd 光ビーコン、及び路車間通信システム
JP2013251002A (ja) * 2013-08-28 2013-12-12 Toyota Motor Corp データベース管理システム、ナビゲーション装置、及び省略語登録装置
WO2015162638A1 (ja) * 2014-04-22 2015-10-29 三菱電機株式会社 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3232160A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108989542A (zh) * 2017-05-30 2018-12-11 现代自动车株式会社 基于情境确定动作的系统和方法、用于执行基于情境确定的动作的车辆
CN113661036A (zh) * 2019-04-16 2021-11-16 索尼集团公司 信息处理装置、信息处理方法以及程序

Also Published As

Publication number Publication date
EP3232160A1 (en) 2017-10-18
JP2016114395A (ja) 2016-06-23
JP6348831B2 (ja) 2018-06-27
US20170323641A1 (en) 2017-11-09
EP3232160A4 (en) 2018-07-25
CN107148555A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
JP6348831B2 (ja) 音声入力補助装置、音声入力補助システムおよび音声入力方法
US9211854B2 (en) System and method for incorporating gesture and voice recognition into a single system
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
KR102084646B1 (ko) 음성 인식 장치 및 음성 인식 방법
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
CN105222797B (zh) 利用口授和部分匹配搜索的导航系统的系统和方法
US11380325B2 (en) Agent device, system, control method of agent device, and storage medium
CN111145735B (zh) 电子设备及其操作方法
US20220338281A1 (en) Artificial intelligence device for providing device control function based on interworking between devices and method therefor
US11514893B2 (en) Voice context-aware content manipulation
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
US20200319841A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2015141226A (ja) 情報処理装置
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN113326018A (zh) 处理方法、终端设备及存储介质
JP2014062944A (ja) 情報処理装置
JP2019056913A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
US11501762B2 (en) Compounding corrective actions and learning in mixed mode dictation
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
US20210193133A1 (en) Information processing device, information processing method, and program
WO2010073406A1 (ja) 情報提供装置、通信端末、情報提供システム、情報提供方法、情報出力方法、情報提供プログラム、情報出力プログラムおよび記録媒体
US9883030B2 (en) Method and apparatus for providing interface based on voice recognition
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
EP2760019B1 (en) Dynamic audio processing parameters with automatic speech recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15868173

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015868173

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15533867

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE