WO2013128508A1 - 音声入力装置、音声入力方法及びプログラム - Google Patents

音声入力装置、音声入力方法及びプログラム Download PDF

Info

Publication number
WO2013128508A1
WO2013128508A1 PCT/JP2012/006476 JP2012006476W WO2013128508A1 WO 2013128508 A1 WO2013128508 A1 WO 2013128508A1 JP 2012006476 W JP2012006476 W JP 2012006476W WO 2013128508 A1 WO2013128508 A1 WO 2013128508A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
voice
posture
recognition
command
Prior art date
Application number
PCT/JP2012/006476
Other languages
English (en)
French (fr)
Inventor
祐介 犬塚
Original Assignee
Necカシオモバイルコミュニケーションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necカシオモバイルコミュニケーションズ株式会社 filed Critical Necカシオモバイルコミュニケーションズ株式会社
Priority to US14/381,279 priority Critical patent/US9842589B2/en
Priority to EP12869934.5A priority patent/EP2821916B1/en
Priority to JP2014501834A priority patent/JP6016134B2/ja
Publication of WO2013128508A1 publication Critical patent/WO2013128508A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to a voice input device, a voice input method, and a program, and more particularly, to a voice input device, a voice input method, and a program for recognizing the contents of a dictation and inputting characters.
  • Patent Documents 1 to 6 have the first problem that character input during dictation cannot be correctly distinguished from command input, and there was a talk from a nearby person during dictation. There is a second problem that unintentional character input is sometimes performed.
  • Patent Document 6 there is a technique (Patent Document 6) that switches to the command input mode if there is no utterance for a certain period of time, but it is necessary to be aware of the timing of utterance, which is difficult to use. In addition, if you utter while pressing a specific key or button, you can also interpret the utterance as a command input. However, this method requires key and button operations, which leads to a deterioration in operability. It is not preferable. Therefore, it is required to correctly distinguish between character input and command input during dictation without deteriorating usability or operability.
  • an object of the present invention is to provide a voice input device, a voice input method, and a program that can correctly distinguish between character input during dictation and command input, or can avoid unintentional character input during dictation. It is to provide.
  • the voice input device includes an input means for inputting a user's voice, a recognition means for recognizing the user's voice input by the input means, and a character or a command based on the recognition result of the recognition means.
  • Generating means detecting means for detecting the attitude of the apparatus, and instructing the generating means to generate the command when the detection result of the detecting means indicates a specific attitude,
  • the apparatus has an instruction means for instructing the generation means to generate the character.
  • the voice input method includes an input step for inputting a user's voice, a recognition step for recognizing the voice of the user input in the input step, and generating characters or commands based on the recognition result of the recognition step.
  • Generating step detecting a posture of the device itself, and instructing the generating step to generate the command when the detection result of the detecting step indicates a specific posture.
  • the program of the present invention generates a character or a command on the basis of an input means for inputting a user's voice to a computer, a recognition means for recognizing the user's voice input by the input means, and a recognition result of the recognition means.
  • Generating means detecting means for detecting the posture of the device itself, and when the detection result of the detecting means indicates a specific attitude, the generating means is instructed to generate the command, while the detection result of the detecting means is When a posture other than a specific posture is indicated, a function as an instruction means for instructing the generation means to generate the character is provided.
  • FIG. 1 is a configuration diagram of a voice input device 1 according to the embodiment.
  • the voice input device 1 includes at least a central control unit 10, an attitude sensor 11, a microphone 12, a camera 13, a display unit 14, and a communication unit 15.
  • a power supply unit including a battery is provided, but is omitted in order to avoid congestion of the drawing.
  • the posture sensor 11 detects the posture of the voice input device 1 itself, that is, the posture of the own device, and outputs an electrical signal indicating the detection result to the central control unit 10.
  • the attitude sensor 11 for example, a triaxial acceleration sensor, a tilt sensor, a gyro sensor, or the like can be used.
  • the microphone 12 takes in the voice of the user (operator of the voice input device 1), converts it into an electrical signal, and outputs it to the central control unit 10.
  • the display unit 14 is a flat display device (a liquid crystal panel, an EL panel, etc.) with a touch panel, and the camera 13 at least displays a moving image or a periodic still image (continuous image) of the face of the user watching the display unit 14.
  • the captured data is also output to the central control unit 10.
  • the communication unit 15 uses an arbitrary communication medium, for example, a wireless line such as a mobile phone or WiFi, a general public line, a wired line such as an optical cable or ADSL, and is provided in a network 16 such as the Internet as necessary.
  • the voice recognition server 17 is accessed.
  • the central control unit 10 includes a computer (CPU) 10a, a nonvolatile semiconductor memory (ROM) 10b for program storage, a high-speed semiconductor memory (RAM) 10c for program execution, and peripheral circuits (input / output units, etc.) not shown.
  • CPU computer
  • ROM nonvolatile semiconductor memory
  • RAM high-speed semiconductor memory
  • peripheral circuits input / output units, etc.
  • a general-purpose program control element configured.
  • the central control unit 10 loads the control program (basic program, application program, and various data required for those programs) written in the ROM 10b into the RAM 10b and executes it on the CPU 10a, so that the control program Functions corresponding to the contents, that is, various functions necessary for the operation of the voice input device 1 are realized.
  • function refers to an operation, movement, or mechanism that is virtually realized in the central control unit 10 by organic coupling between hardware resources such as the CPU 10a and software resources such as a control program. Functions do not involve entities (shapes).
  • the functions realized by the central control unit 10 of the embodiment include, for example, a posture detection function 101, a voice input function 102, a command recognition function 103, a dictation function 104, an image acquisition function 105, a face detection function 106, a display function 107, and Communication function 108 and the like. As described above, these functions are not accompanied by an entity (form), but are not limited to this mode (without an entity). In the concept of the invention, some or all of the above-described functions may be configured with “substances”, that is, hard logic or the like.
  • the functions shown in the figure firstly provide the voice input device 1 with a dictation, that is, a mechanism for recognizing a user's dictation contents and inputting characters.
  • a dictation that is, a mechanism for recognizing a user's dictation contents and inputting characters.
  • “character input” means displaying on the screen of the display unit 14 in a state where it can be recognized as a character, and at the same time as displaying the character, it can be edited as coded character string information in the RAM 10c or the like. It means to save temporarily.
  • each function shown in the figure is a mechanism for correctly identifying whether the user's dictation is for character input or command input (the first problem at the beginning is A mechanism for resolving it).
  • the “command” is used for two types of applications, normal use and editing.
  • the normal command is a command for prompting the voice input device 1 to perform some operation.
  • a command for turning on a telephone function when the voice input device 1 also serves as a mobile phone (“ Voice command such as “Phone”.
  • the dictation operation is turned on or off by a normal command. For example, if you want to turn on dictation, say “dictation on”, and if you want to turn off dictation, say “dictation on” .
  • the point of the mechanism for correctly identifying whether the dictation content of the user is for character input or for command input is that it is performed based on the “posture” of the voice input device 1. . For example, if the voice input device 1 is in a “specific posture”, it is identified as a command input, otherwise it is identified as a character input.
  • a general posture of the voice input device 1 when performing dictation for character input may be set as a reference posture, and a posture deviating from the reference posture may be a “specific posture”. Further, the posture may be interpreted as a movement. For example, the “specific posture” may be given the meaning of the operation of shaking the voice input device 1. Note that “deviated” means that the posture has changed more than a predetermined size (threshold).
  • a typical typical posture when performing dictation for character input is a posture in which the voice input device 1 is set up. Specifically, it is an attitude in which the screen of the display unit 14 is in an attitude parallel to the gravity direction or an angle close to the same.
  • many users place the screen of the display unit 14 in front of their face, stand the screen vertically or at an angle close to vertical, and watch the screen display. This is because the voice is spoken toward the microphone 12. Therefore, in this case, the posture in which the voice input device 1 is not standing is defined as the “specific posture”, and the utterance at the specific posture is identified as the command input, while the posture other than the specific posture, that is, The utterance when the voice input device 1 is standing is identified as character input.
  • the “specific posture” is not limited to this example.
  • the reverse of the above example may be used. That is, the posture in which the voice input device 1 is standing is defined as the “specific posture”, and the utterance at the specific posture is identified as the command input, while the posture other than the specific posture, that is, the voice input device 1 is identified. You may make it identify the speech in the attitude
  • a posture in which the voice input device 1 is tilted to the left or right or moved back and forth may be a “specific posture”.
  • the “specific posture” may be arbitrarily designated by the user.
  • an item “setting posture for command identification” is provided in the system menu, and when the user selects the item, for example, a “determine button for desired posture” is displayed on the screen of the display unit 14. Message such as “Please press.” May be displayed, and the posture when the determination button is pressed may be stored in the system as the “specific posture”.
  • each function shown in the figure is a mechanism for avoiding unintentional character input when a nearby person speaks during dictation (the utterance of the nearby person is recognized).
  • a mechanism for solving the second problem of The point of this mechanism is that the original speaker (user of the voice input device 1 who is performing dictation) places the screen of the display unit 14 in front of his / her face while performing dictation for character input. Based on the fact that the user speaks while watching the display on the screen, that is, the fact that the user's face is always facing the screen of the display unit 14 during dictation, the dictation is continued and temporarily depending on the presence or absence of the user's face. The point is that the interruption can be switched appropriately.
  • dictation is continued if the face state detected by the camera 14 is the former (front of the face), and dictation is temporarily suspended if the face is the latter (a side face or a face removed from the line of sight). Unintentional character input can be avoided.
  • each function shown in the figure provides a mechanism (such as the communication function 108) for reducing the dictation processing load or improving the accuracy of the dictation.
  • This mechanism is particularly effective in the case of a portable voice input device 1 (for example, a mobile phone).
  • dictation requires a large processing capability, but the processing capability of the portable speech input device 1 is considerably lower than that of a stationary high-performance information processing device. This is because, by applying, sufficiently practical dictation can be performed even with this low processing capability.
  • dictation requires a large amount of vocabulary data, and the vocabulary data changes every day. If such vocabulary data is provided inside the voice input device 1, the storage capacity is reduced, and furthermore, the update management of the vocabulary data becomes troublesome. However, by adopting this fourth mechanism, these inconveniences are caused. (Pressure of storage capacity and troublesome vocabulary data update management) can be avoided.
  • this fourth mechanism is necessary from the viewpoint of practicality. Whether the fourth mechanism should be implemented or not may be determined in consideration of the processing capacity, storage capacity, necessity of update management, and the like of the voice input device 1.
  • each function described above gives the above four mechanisms (first to fourth mechanisms) as a whole.
  • the specific role of each function will be described. To do.
  • the posture detection function 101 takes in a signal from the posture sensor 11, detects the state of the posture of the voice input device 1 based on this signal, and uses the detection result as a command recognition function 103 or a dictation. Output to function 104.
  • the voice input function 102 takes in a signal from the microphone 12 and outputs the signal to the command recognition function 103 and the dictation function 104.
  • the image acquisition function 105 takes in a signal from the camera 13 (image data obtained by capturing the face of the user looking at the display unit 14 with a moving image or a periodic still image) and outputs the signal to the face detection function 106.
  • the face detection function 106 detects the user's face from the image data and determines whether or not the face faces the screen of the display unit 14.
  • the command recognition function 103 Based on the signal from the posture detection function 101 and the signal from the voice input function 102, the command recognition function 103 recognizes whether the voice being dictated is related to character input or command input. The recognition result is output to the dictation function 104 and the display function 107.
  • the dictation function 104 performs dictation based on the signal from the voice input function 102, and interprets the character input during dictation as a command input when the command input is recognized by the command recognition function 103, or detects a face. Dictation is temporarily suspended when the user's face is not detected by the function 106 or when the user's face is detected but the face is not directly facing the screen of the display unit 14.
  • the display function 107 shapes and converts the output from the command recognition function 103 and the output from the dictation function 104 into a predetermined display format, and displays them on the display unit 14.
  • the communication function 108 accesses the voice recognition server 17 provided in the network 16 such as the Internet through the communication unit 15 as necessary.
  • FIG. 2 is a diagram illustrating an operation flow of the voice input device 1 according to the embodiment.
  • This operation flow shows the main part of the operation flow of the control program executed by the CPU 10a of the central control unit 10. Therefore, the execution subject of the following processes (steps S1 to S10) in this operation flow is the CPU 10a of the central control unit 10.
  • step S1 a command input using a voice performed by the user is detected.
  • Elements involved in this detection are the microphone 12, the voice input function 102, and the command recognition function 103.
  • step S2 it is determined whether or not the command detected in step S1 is a dictation start command (step S2). For example, it may be determined that the command is a dictation start command when the command detected in step S1 is “dictation”.
  • the commands other than “dictation on” are the former of the two types of commands described above (the normal command and the editing command).
  • a command for turning on a telephone function when the mobile phone is also used a voice command such as “phone”.
  • step S2 determines whether the voice command is finished. If the voice command is finished, the flow is completed as it is. If the voice command is not finished, the process returns to step S1 again.
  • step S5 determines whether or not the face is in a predetermined state (a state facing the display unit 14) (step S5).
  • a predetermined state a state facing the display unit 14
  • step S5 determines whether the face of the user is turned sideways or out of line of sight from a close person during dictation. Since there is a possibility that unintentional character input is performed due to the utterance of a nearby person, step S5 is looped and the dictation of step S6 is not performed (pauses).
  • the command mode refers to a mode in which the latter command of the two types of commands (normal command and editing command) described above is used. For example, a mode that uses a line feed command, a character deletion command, a cursor movement command to an arbitrary position, a character insertion command, or the like.
  • the elements involved in this determination are the attitude sensor 11, the attitude detection function 101, and the command recognition function 103.
  • step S7 determines whether the voice input device 1 is in the “specific posture”, it is determined that the dictation content of the user is for character input, and the steps after step S5 are performed. repeat.
  • the determination result in step S7 is YES, that is, if the voice input device 1 is in the “specific posture”, it is determined that the dictation content of the user is for command input, and the user
  • a dictation end command for example, “DIK” is executed. Steps S7 to S10 are repeatedly executed until a dictation end command is detected (until the determination result in step S10 is YES). Then, the process returns to step S1.
  • step S6 While the user's face is detected in a predetermined state (a state facing the display unit 14), dictation is performed (step S6), while when the user's face is not detected in the predetermined state, dictation Is temporarily stopped (step S5 is looped). This avoids unintentional character input when a nearby person speaks during dictation (the utterance of the nearby person is recognized), and the second problem at the beginning Can be resolved.
  • the posture of the voice input device 1 is detected. If the posture is “specific posture”, it is determined as a command input, and if it is not “specific posture”, normal character input is performed. Determination is made (step S7). As a result, it is possible to correctly identify whether the dictation content of the user is for character input or for command input, and the first problem at the beginning can be solved. .
  • the embodiment includes a mechanism (fourth mechanism) for reducing the processing load of dictation or improving the accuracy of dictation.
  • the main element involved in this mechanism is the communication function 108 and the communication unit 15 that operates in cooperation with the communication function 108. With these elements, it is possible to access a voice recognition server 17 provided outside (network 16 such as the Internet) as necessary. If the speech recognition server 17 performs all or part of the dictation, and further accumulates vocabulary data necessary for performing dictation in the speech recognition server 17, the portable speech input device 1 having a low processing capability can be obtained. The processing load and the storage capacity can be prevented from being pressed, and the complicated update management of the vocabulary data can be avoided.
  • the client-server usage is a usage in which the voice input device 1 is used as a client and the voice recognition server 17 is used as a server to link the two.
  • the stand-alone type usage is a usage in which everything is completed inside the voice input device 1.
  • all or part of the command recognition function 103 and the dictation function 104 of the voice input device 1 are mounted on the voice recognition server 17. Further, in the case of the stand-alone type, not only the voice recognition server 17 is not required, but also the communication function 108 and the communication unit 15 of the voice input device 1 are not required.
  • a mobile phone is given as an example of the voice input device 1, but the present invention is not limited to this. Any device that requires voice input may be used.
  • electronic devices such as tablet terminals, personal computers, game machines, various OA devices, industrial devices such as robots and machine tools, Or vehicles, such as a car, an airplane, and a ship, etc. may be sufficient.
  • FIG. 3 is a configuration diagram of Appendix 1, Appendix 2, and Appendix 3.
  • Supplementary Note 1 is an input unit 200 (corresponding to the voice input function 102 of the embodiment) for inputting a user's voice;
  • a recognition means 201 (corresponding to the dictation function 104 of the embodiment) for recognizing the user's voice input by the input means 200;
  • Generating means 202 (corresponding to the command recognition function 103 and dictation function 104 of the embodiment) for generating characters or commands based on the recognition result of the recognition means 201;
  • Detection means 203 (corresponding to the posture detection function 101 of the embodiment) for detecting the posture of the device itself; When the detection result of the detection unit 203 indicates a specific posture, the generation unit 202 is instructed to generate the command, while the detection result of the detection unit 203 indicates a posture other than the specific posture.
  • the voice input device 205 (the voice input device 1 of the embodiment), characterized in that the voice input device 205 includes an instruction unit 204 (corresponding to the posture detection function 101 of the embodiment) that sometimes instructs the generation unit 202 to generate the character. Equivalent).
  • Appendix 2 further includes second detection means 206 (corresponding to the face detection function 106 of the embodiment) for detecting the user's face; Second instruction means 207 for instructing the recognition means 201 to stop the recognition operation when the face state of the user detected by the second detection means 206 is in a predetermined state (embodiment)
  • the supplementary note 3 further includes transmission means 209 (corresponding to the communication function 108 of the embodiment) for transmitting the user's voice input by the input means 200 to the external server 208 (corresponding to the speech recognition server 17 of the embodiment).
  • Appendix 4 is an input process for inputting the user's voice; A recognition step for recognizing the voice of the user input in the input step; A generation step of generating a character or a command based on the recognition result of the recognition step; A detection step for detecting the posture of the device; When the detection result of the detection step indicates a specific posture, the generation step is instructed to generate the command, while when the detection result of the detection step indicates a posture other than the specific posture, the occurrence is generated.
  • a voice input method comprising: an instruction step for instructing a process to generate the character.
  • Appendix 5 Appendix 5 Input means for inputting user's voice, Recognition means for recognizing a user's voice input by the input means; Generating means for generating characters or commands based on the recognition result of the recognition means; Detecting means for detecting the posture of the device itself; When the detection result of the detection means indicates a specific posture, the generation means is instructed to generate the command, while when the detection result of the detection means indicates a posture other than the specific posture, the occurrence is generated.
  • the program is characterized by giving a function as an instruction means for instructing the means to generate the character.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 ユーザの音声を入力する入力手段200と、前記入力手段200によって入力されたユーザの音声を音声認識する認識手段201と、前記認識手段201の認識結果に基づいて文字またはコマンドを発生する発生手段202と、自装置の姿勢を検出する検出手段203と、前記検出手段203の検出結果が特定の姿勢を示しているときには前記発生手段202に対して前記コマンドの発生を指示する一方、前記検出手段203の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段202に対して前記文字の発生を指示する指示手段204とを備える。

Description

音声入力装置、音声入力方法及びプログラム
 本発明は、音声入力装置、音声入力方法及びプログラムに関し、詳細には、ディクテーション(dictation:口述)の内容を音声認識して文字入力する音声入力装置、音声入力方法及びプログラムに関する。
 近年、携帯電話機などの携帯型端末装置(以下、単に携帯端末という)の性能向上に伴い、端末上で高性能なアプリケーションを実行できる環境が整ってきた。そのアプリケーションの一つに、声で文章を述べる(口述する)だけで、その口述内容を音声認識して文字入力することができるディクテーション用アプリケーションがある(たとえば、下記の特許文献1~6参照)。かかるディクテーション入力(音声認識による文字入力)は、とりわけ携帯端末に有効である。携帯端末の入力デバイスは、タッチパネルなど操作効率の悪いものしか搭載されていないからである。上記のアプリケーションを実装すれば、口述内容をそのまま文字入力できるので、操作効率の悪いタッチパネルなどの入力デバイスを使用しなくても済む。
特開2010-085536号公報 特開2004-093698号公報 特開2001-306091号公報 特開2003-044085号公報 特開2000-132186号公報 特開2000-020092号公報
 しかしながら、前記の特許文献1~6の技術は、ディクテーション中の文字入力とコマンド入力を正しく区別することができないという第一の問題点があり、また、ディクテーション中に近くの人物から話しかけられたりしたときに、不本意な文字入力が行われてしまうという第二の問題点がある。
(1)第一の問題点について説明する。
 ディクテーションによって文章を入力するとき、その文章の構造に応じたコマンドの入力を必要とすることがある。たとえば、改行などのコマンド入力、あるいは、文字の削除や任意位置へのカーソル移動、文字の挿入などのコマンド入力である。これらのコマンド入力を音声で行うことも可能(特許文献4、特許文献5)であるが、たとえば、“かいぎょう”と発声しても、それが文字入力なのかコマンド入力なのかを区別できない。この区別を行うために、一定の時間発声がないと、コマンド入力モードに切り換えるという技術(特許文献6)もあるが、発声のタイミングを意識する必要があり、使い勝手に難がある。また、特定のキーやボタンを押しながら発声した場合に、その発声をコマンド入力と解釈するという手法も考えられるが、この手法は、キーやボタンの操作を必要とし、操作性の悪化を招くので好ましくない。したがって、使い勝手や操作性の悪化を招くことなく、ディクテーション中の文字入力とコマンド入力を正しく区別することが求められる。
(2)第二の問題点について説明する。
 たとえば、職場などでディクテーションを行う場合、しばしば近くの人物から話しかけられることがある。このような場合、システムは近くの人物の発声をディクテーションと誤認し、不本意な文字入力が行われてしまう。このような不本意な文字入力が行われたときには、遡って文字の訂正処理(特許文献2、特許文献3)を実行しなければならないが、その間、ディクテーションを中断しなければならず、文章思考の連続性を保てない。この原因は、そもそも不本意な文字入力が行われるからである。したがって、ディクテーション中の不本意な文字入力を回避することも求められる。
 そこで、本発明の目的は、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる音声入力装置、音声入力方法及びプログラムを提供することにある。
 本発明の音声入力装置は、ユーザの音声を入力する入力手段と、前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、自装置の姿勢を検出する検出手段と、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段とを備えたことを特徴とする。
 本発明の音声入力方法は、ユーザの音声を入力する入力工程と、前記入力工程で入力されたユーザの音声を音声認識する認識工程と、前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、自装置の姿勢を検出する検出工程と、前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程とを含むことを特徴とする。
 本発明のプログラムは、コンピュータに、ユーザの音声を入力する入力手段、前記入力手段によって入力されたユーザの音声を音声認識する認識手段、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、自装置の姿勢を検出する検出手段、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段としての機能を与えることを特徴とする。
 本発明によれば、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる。
実施形態に係る音声入力装置1の構成図である。 実施形態に係る音声入力装置1の動作フローを示す図である。 付記1、付記2及び付記3の構成図である。
 以下、本発明の実施形態を、図面を参照しながら説明する。
 まず、構成を説明する。
 図1は、実施形態に係る音声入力装置1の構成図である。この図において、音声入力装置1は、少なくとも、中央制御部10、姿勢センサ11、マイク12、カメラ13、表示部14、及び、通信部15を備えて構成されている。なお、これら以外にもバッテリを含む電源部などを備えるが、図面の輻輳を避けるために省略している。
 姿勢センサ11は、音声入力装置1それ自体の姿勢、つまり自装置の姿勢を検出し、その検出結果を示す電気的な信号を中央制御部10に出力する。この姿勢センサ11には、たとえば、三軸加速度センサや傾きセンサまたはジャイロセンサなどを使用することができる。マイク12は、ユーザ(音声入力装置1の操作者)の音声を取り込み、電気的な信号に変換して中央制御部10に出力する。表示部14は、タッチパネル付きの平面表示デバイス(液晶パネルやELパネルなど)であり、カメラ13は、すくなくとも、前記の表示部14を見ているユーザの顔を動画または周期的な静止画(連写画像ともいう)で撮影し、その撮影データを中央制御部10に出力する。通信部15は、任意の通信媒体、たとえば、携帯電話やWiFiなどの無線回線または一般公衆回線や光ケーブルあるいはADSLなどの有線回線を用い、必要に応じて、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
 中央制御部10は、コンピュータ(CPU)10aや、プログラム記憶用の不揮発性半導体メモリ(ROM)10b及びプログラム実行用の高速半導体メモリ(RAM)10c並びに不図示の周辺回路(入出力部等)で構成された汎用のプログラム制御要素である。中央制御部10は、ROM10bに書き込まれている制御プログラム(基本プログラムや応用プログラム及びそれらのプログラムに必要とされる各種データ)をRAM10bにロードして、CPU10aで実行することにより、その制御プログラムの内容に応じた機能、すなわち、音声入力装置1の動作に必要な各種機能を実現する。
 上記の“機能”とは、中央制御部10において、CPU10aなどのハードウェアリソースと制御プログラムなどのソフトウェアリソースとの有機的結合によって仮想的に実現される動作や動きまたは仕組みのことをいう。機能は実体(形)を伴わない。
 実施形態の中央制御部10で実現される機能は、たとえば、姿勢検出機能101、音声入力機能102、コマンド認識機能103、ディクテーション機能104、画像取得機能105、顔検出機能106、表示機能107、および、通信機能108などである。前記のとおり、これらの機能は実体(形)を伴わないものであるが、この態様(実体を伴わないもの)に限定されない。発明の思想上は、上記の各機能の一部またはすべてを“実体を伴うもの”、すなわち、ハードロジック等で構成してもかまわない。
 総合的に見て、図示の各機能は、第一に、この音声入力装置1にディクテーション、つまり、ユーザの口述内容を音声認識して文字入力する仕組みを与える。ここで「文字入力」とは、表示部14の画面上に文字として認識可能な状態で表示すること、及び、その表示と同時に、コード化された文字列情報として編集可能な状態でRAM10cなどに一時保存することを意味する。
 図示の各機能は、第二に、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組み(冒頭の第一の問題点を解消するための仕組み)を与える。なお、この実施形態では「コマンド」を通常用と編集用の二種類の用途で使用する。通常用コマンドは、音声入力装置1に対して何らかの動作を促すためのコマンドであり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)である。加えて、この実施形態では、通常用コマンドでディクテーション動作をオンにしたりオフにしたりする。たとえば、ディクテーション動作をオンにする場合は“でぃくてーしょんおん”などと発声し、また、ディクテーション動作をオフにする場合は“でぃくてーしょんおふ”などと発声する。
 ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組みのポイントは、音声入力装置1の「姿勢」に基づいて行う点にある。たとえば、音声入力装置1が「特定の姿勢」になっていればコマンド入力と識別し、そうでなければ文字入力と識別する。
 特定の姿勢は様々考えられる。たとえば、文字入力のためのディクテーションを行っているときの音声入力装置1の一般的な姿勢を基準姿勢とし、その基準姿勢から外れた姿勢を「特定の姿勢」としてもよい。また、姿勢を動きと解釈してもよい。たとえば、「特定の姿勢」に、音声入力装置1を振るといった動作の意味を持たせてもよい。なお、“外れた”とは、所定の大きさ(閾値)以上に姿勢が変わったことをいう。
 文字入力のためのディクテーションを行っているときの一般的な姿勢の典型は、音声入力装置1を立てた姿勢である。具体的には、表示部14の画面が重力方向と平行する姿勢または同平行に近い角度になっている姿勢である。多くのユーザは、文字入力のためのディクテーションを行う際に、表示部14の画面を顔の前に置き、画面を垂直または垂直に近い角度で立てた状態にして、その画面の表示を見ながらマイク12に向かって発声するからである。したがって、この場合は、音声入力装置1が立っていない姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っている姿勢のときの発声を文字入力として識別する。
 いうまでもなく、「特定の姿勢」はこの例示に限定されない。たとえば、前記例示の逆であってもよい。すなわち、音声入力装置1が立っている姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っていない姿勢のときの発声を文字入力として識別するようにしてもよい。あるいは、音声入力装置1を左右に傾けたり、前後にあおったりした姿勢を「特定の姿勢」としてもよい。または、「特定の姿勢」をユーザが任意に指定できるようにしてもよい。たとえば、システムメニューの中に「コマンド識別用姿勢の設定」という項目を設けておき、ユーザがその項目を選択した際に、表示部14の画面に、たとえば、“希望の姿勢にして決定ボタンを押してください。”などのメッセージを表示し、決定ボタンが押されたときの姿勢を前記の「特定の姿勢」としてシステムに記憶させるようにしてもよい。
 図示の各機能は、第三に、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避するための仕組み(冒頭の第二の問題点を解消するための仕組み)を与える。この仕組みのポイントは、本来の発話者(ディクテーションを行っている音声入力装置1のユーザ)は、文字入力のためのディクテーションを行っている間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実、つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実に基づき、ユーザの顔の有無に応じてディクテーションの継続と一時中断とを適宜に切り換えられるようにした点にある。
 具体的に説明する。ディクテーション中のユーザは、近くの人物から話しかけられたりしないとき、表示部14の画面を注視しながら発声を行う。このとき、ユーザの顔は表示部14の画面に正対しており、顔の正面がカメラ13で検出される。一方、近くの人物から話しかけられたとき、多くのユーザはその人物の方向に顔や視線を向けるため、ユーザの横顔や視線を外した顔がカメラ13で検出される。このように、カメラ13で検出される顔の状態は、ディクテーション中に、近くの人物から話しかけらたときと、そうでないときとで異なるものになる。したがって、カメラ14で検出された顔の状態が前者(顔の正面)であればディクテーションを継続し、後者(横顔や視線を外した顔)であればディクテーションを一時中断することにより、ディクテーション中の不本意な文字入力を回避することができる。
 図示の各機能は、第四に、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(通信機能108など)を与える。この仕組みは、特に携帯型の音声入力装置1(たとえば、携帯電話機等)の場合に有効である。一般的にディクテーションには大きな処理能力を必要とするが、据え置き型の高性能な情報処理装置の処理能力に比べて携帯型の音声入力装置1の処理能力は相当程度低いため、上記の仕組みを適用することにより、この低い処理能力でも充分実用的なディクテーションを行うことができるからである。
 加えて、ディクテーションには大量の語彙データを必要とし、しかも、それらの語彙データは日進月歩で変化する。そのような語彙データを音声入力装置1の内部に持たせると、記憶容量を圧迫し、さらに、語彙データの更新管理も面倒になるが、この第四の仕組みを採用することによって、これらの不都合(記憶容量の圧迫や語彙データの更新管理の面倒)を回避できる。
 ただし、この第四の仕組みは、実用性の観点から必要とされるものである。音声入力装置1の処理能力や記憶容量及び更新管理の必要有無等を考慮して、この第四の仕組みを実装すべきか否かを判断すればよい。
 このように、上記の各機能は、総合的に見て、以上の四つの仕組み(第一~第四の仕組み)を与えるものであるが、ここで、各機能の具体的な役割等について説明する。
 姿勢検出機能101は、姿勢センサ11からの信号を取り込み、この信号に基づいて、音声入力装置1の姿勢が現在どのような状態にあるかを検出し、その検出結果をコマンド認識機能103やディクテーション機能104に出力する。音声入力機能102は、マイク12からの信号を取り込み、その信号をコマンド認識機能103やディクテーション機能104に出力する。画像取得機能105は、カメラ13からの信号(表示部14を見ているユーザの顔を動画または周期的な静止画で撮影した画像データ)を取り込み、その信号を顔検出機能106に出力する。顔検出機能106は、画像データの中からユーザの顔を検出すると共に、その顔が表示部14の画面に正対しているか否かを判定する。
 コマンド認識機能103は、姿勢検出機能101からの信号と音声入力機能102からの信号とに基づき、ディクテーション中の音声が文字入力に関するものであるのかまたはコマンド入力に関するものであるのかを認識し、その認識結果をディクテーション機能104や表示機能107に出力する。ディクテーション機能104は、音声入力機能102からの信号に基づきディクテーションを実行するとともに、コマンド認識機能103でコマンド入力が認識された場合にはディクテーション中の文字入力をコマンド入力と解釈し、あるいは、顔検出機能106でユーザの顔が検出されなかった場合またはユーザの顔が検出されてもその顔が表示部14の画面に正対していなかった場合にディクテーションを一時中断する。表示機能107は、コマンド認識機能103からの出力やディクテーション機能104からの出力を所定の表示形式に整形変換して表示部14に表示する。通信機能108は、通信部15を介して、必要に応じ、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
 次に、作用を説明する。
 図2は、実施形態に係る音声入力装置1の動作フローを示す図である。この動作フローは、中央制御部10のCPU10aで実行される制御プログラムの動作フローの要部を示している。したがって、この動作フローにおける以下の各処理(ステップS1~ステップS10)の実行主体は、中央制御部10のCPU10aである。
 この動作フローを開始すると、まず、ユーザによって行われる声を用いたコマンド入力を検出する(ステップS1)。この検出に関与する要素は、マイク12、音声入力機能102及びコマンド認識機能103である。
 次に、ステップS1で検出されたコマンドがディクテーション開始コマンドであるか否かを判定する(ステップS2)。たとえば、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合にディクテーション開始コマンドであると判定してもよい。
 この場合、“でぃくてーしょんおん”以外のコマンドは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの前者であり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)などである。
 したがって、“でんわ”などの音声コマンドの場合は、ステップS2の判定結果がNOとなり、その通常用コマンドに対応した処理を実行し(ステップS3)、音声コマンドの終了を判定して(ステップS4)、音声コマンド終了であれば、そのままフローを完了する一方、音声コマンド終了でなければ、再び、ステップS1に復帰する。
 ステップS2の判定結果がYESの場合、すなわち、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合には、次に、前記の第三の仕組みを用いて、ユーザの顔を検出し、その顔が所定の状態(表示部14に正対している状態)にあるか否かを判定する(ステップS5)。先にも述べたとおり、ディクテーションを行っている音声入力装置1のユーザは、その間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実がある。つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実があることから、ステップS5の判定結果がYESの間は、ディクテーションを実施(ステップS6)する。
 一方、ステップS5の判定結果がNOのとき、すなわち、ディクテーション中に近くの人物から話しかけられたりして、ユーザの顔が前記の正対から横向きまたは視線を外した状態になったときには、その間、近くの人物の発声による不本意な文字入力が行われる可能性があることから、ステップS5をループし、ステップS6のディクテーション実施しないようにする(一時停止する)。
 このようにして、前記の第三の仕組みを用い、ユーザの顔の検出結果に基づいてディクテーションを一時停止することにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができる(冒頭の第二の問題点を解消することができる)。そして、ユーザの顔が所定の状態(表示部14に正対している状態)で検出されている間は、ディクテーションを支障なく実施することができる。
 次に、ディクテーション実施後、前記の第二の仕組みを用い、コマンドモードであるか否かを判定する(ステップS7)。コマンドモードとは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの後者のコマンドを使用するモードのことをいう。たとえば、改行コマンド、文字の削除コマンド、任意位置へのカーソル移動コマンド、文字の挿入コマンドなどを使用するモードのことをいう。
 この判定に関与する要素は、姿勢センサ11、姿勢検出機能101及びコマンド認識機能103である。この判定では、音声入力装置1が「特定の姿勢」になっているか否かを判定し、「特定の姿勢」になっていればコマンド入力と識別する一方、そうでなければ文字入力と識別する。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができる(冒頭の第一の問題点を解消することができる)。
 ステップS7の判定結果がNOの場合、すなわち、音声入力装置1が「特定の姿勢」になっていない場合は、ユーザの口述内容が文字入力のためのものであると判断してステップS5以降を繰り返す。一方、ステップS7の判定結果がYESの場合、すなわち、音声入力装置1が「特定の姿勢」になっている場合は、ユーザの口述内容がコマンド入力のためのものであると判断し、ユーザによる音声コマンド(編集用コマンド)の取り込み(ステップS8)と、その編集用コマンドに対応した処理(たとえば、改行処理等)(ステップS9)とを実行した後、ディクテーション終了コマンド(たとえば、“でぃくてーしょんおふ”)を検出するまで(ステップS10の判定結果がYESになるまで)、ステップS7~ステップS10を繰り返し実行し、ディクテーション終了コマンドを検出すると(ステップS10の判定結果がYESになると)、ステップS1に復帰する。
 以上のとおりであるから、実施形態によれば、以下の第一及び第二の効果を得ることができる。
(第一の効果)ユーザの顔が所定の状態(表示部14に正対した状態)で検出されている間、ディクテーションを実施(ステップS6)する一方、所定の状態で検出されないときは、ディクテーションを一時停止(ステップS5をループ)する。これにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができ、冒頭の第二の問題点を解消することができる。
(第二の効果)ディクテーション実施後に、音声入力装置1の姿勢を検出し、その姿勢が「特定の姿勢」であればコマンド入力と判定し、「特定の姿勢」でなければ通常の文字入力と判定する(ステップS7)。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができ、冒頭の第一の問題点を解消することができる。
 加えて、実施形態によれば、以下の第三の効果を得ることができる。
(第三の効果)先にも述べたとおり、実施形態は、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(第四の仕組み)を備える。この仕組みに関与する主要な要素は、通信機能108であり、且つ、この通信機能108と共同で動作する通信部15である。これらの要素により、必要に応じて、外部(インターネット等のネットワーク16)に設けられている音声認識サーバ17にアクセスすることができる。この音声認識サーバ17でディクテーションのすべてまたは一部を実施したり、さらに、ディクテーション実施に必要な語彙データを音声認識サーバ17に蓄積したりすれば、低い処理能力の携帯型の音声入力装置1の処理負担や記憶容量の圧迫を招かないようにでき、且つ、語彙データの面倒な更新管理も行わなくて済むようにできる。
 なお、以上の説明では、音声入力装置1と音声認識サーバ17との関係を明確にしていない。これは、クライアント-サーバ型の使い方と、スタンドアロン型の使い方のいずれでもよいからである。クライアント-サーバ型の使い方とは、音声入力装置1をクライアントとし、音声認識サーバ17をサーバとして両者を連携する使い方である。また、スタンドアロン型の使い方とは音声入力装置1の内部ですべてを完結させる使い方である。
 クライアント-サーバ型の場合、音声入力装置1のコマンド認識機能103やディクテーション機能104のすべて又は一部を音声認識サーバ17に実装する。また、スタンドアロン型の場合、音声認識サーバ17を必要としないことはもちろんのこと、音声入力装置1の通信機能108や通信部15も必要としない。
 いずれの使い方を採用するかは、もっぱらシステムの仕様要求に依存する。ディクテーションの処理負担の軽減やディクテーションの精度向上を意図するのであれば、クライアント-サーバ型とすればよく、ネットワーク等の通信環境を使用しない仕様にするのであれば、スタンドアロン型とすればよい。
 また、以上の説明では、音声入力装置1の例として携帯電話機を挙げたが、これに限定されない。音声入力を必要とするものであればどのようなものであってもよく、たとえば、タブレット端末、パーソナルコンピュータ、ゲーム機、各種OA機器などの電子機器、または、ロボットや工作機械などの産業機器、あるいは、自動車、航空機、船舶などの乗り物などであってもよい。
 以下、本発明の特徴を付記する。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 図3は、付記1、付記2及び付記3の構成図である。
 付記1は、ユーザの音声を入力する入力手段200(実施形態の音声入力機能102に相当)と、
 前記入力手段200によって入力されたユーザの音声を音声認識する認識手段201(実施形態のディクテーション機能104に相当)と、
 前記認識手段201の認識結果に基づいて文字またはコマンドを発生する発生手段202(実施形態のコマンド認識機能103及びディクテーション機能104に相当)と、
 自装置の姿勢を検出する検出手段203(実施形態の姿勢検出機能101に相当)と、
 前記検出手段203の検出結果が特定の姿勢を示しているときには前記発生手段202に対して前記コマンドの発生を指示する一方、前記検出手段203の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段202に対して前記文字の発生を指示する指示手段204(実施形態の姿勢検出機能101に相当)と
 を備えたことを特徴とする音声入力装置205(実施形態の音声入力装置1に相当)である。
(付記2)
 付記2は、さらに、前記ユーザの顔を検出する第二の検出手段206(実施形態の顔検出機能106に相当)と、
 この第二の検出手段206で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段201に対して認識動作を停止するように指示する第二の指示手段207(実施形態の顔検出機能106に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記3)
 付記3は、さらに、前記入力手段200によって入力されたユーザの音声を外部のサーバ208(実施形態の音声認識サーバ17に相当)に送信する送信手段209(実施形態の通信機能108に相当)と、このサーバ208から返送される音声認識結果を受信する受信手段210(実施形態の通信機能108に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記4)
 付記4は、ユーザの音声を入力する入力工程と、
 前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
 前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
 自装置の姿勢を検出する検出工程と、
 前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
 を含むことを特徴とする音声入力方法である。
(付記5)
 付記5は、コンピュータに、
 ユーザの音声を入力する入力手段、
 前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
 前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
 自装置の姿勢を検出する検出手段、
 前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
 としての機能を与えることを特徴とするプログラムである。
 200 入力手段
 201 認識手段
 202 発生手段
 203 検出手段
 204 指示手段
 205 音声入力装置
 206 第二の検出手段
 207 第二の指示手段
 208 サーバ
 209 送信手段
 210 受信手段

Claims (5)

  1.  ユーザの音声を入力する入力手段と、
     前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、
     前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、
     自装置の姿勢を検出する検出手段と、
     前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と
     を備えたことを特徴とする音声入力装置。
  2.  さらに、前記ユーザの顔を検出する第二の検出手段と、
     この第二の検出手段で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段に対して認識動作を停止するように指示する第二の指示手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
  3.  さらに、前記入力手段によって入力されたユーザの音声を外部のサーバに送信する送信手段と、このサーバから返送される音声認識結果を受信する受信手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
  4.  ユーザの音声を入力する入力工程と、
     前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
     前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
     自装置の姿勢を検出する検出工程と、
     前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
     を含むことを特徴とする音声入力方法。
  5.  コンピュータに、
     ユーザの音声を入力する入力手段、
     前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
     前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
     自装置の姿勢を検出する検出手段、
     前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
     としての機能を与えることを特徴とするプログラム。
PCT/JP2012/006476 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム WO2013128508A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/381,279 US9842589B2 (en) 2012-02-27 2012-10-10 Voice input device, voice input method and program
EP12869934.5A EP2821916B1 (en) 2012-02-27 2012-10-10 Voice input device, voice input method and program
JP2014501834A JP6016134B2 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-040133 2012-02-27
JP2012040133 2012-02-27

Publications (1)

Publication Number Publication Date
WO2013128508A1 true WO2013128508A1 (ja) 2013-09-06

Family

ID=49081773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/006476 WO2013128508A1 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム

Country Status (4)

Country Link
US (1) US9842589B2 (ja)
EP (1) EP2821916B1 (ja)
JP (1) JP6016134B2 (ja)
WO (1) WO2013128508A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181047A (ja) * 2015-03-23 2016-10-13 カシオ計算機株式会社 情報出力装置、情報出力方法及びプログラム
JP2017116893A (ja) * 2015-12-26 2017-06-29 株式会社村田製作所 立体型画像表示装置
WO2020031781A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018073067A (ja) * 2016-10-27 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
CN107316025B (zh) * 2017-06-27 2021-04-06 北京康邦科技有限公司 一种手部姿态识别方法及识别系统
US20190013016A1 (en) * 2017-07-07 2019-01-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Converting speech to text and inserting a character associated with a gesture input by a user
CN111079504A (zh) * 2019-08-14 2020-04-28 广东小天才科技有限公司 一种文字识别方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020092A (ja) 1998-06-30 2000-01-21 Toshiba Corp ディクテーション装置及びディクテーションプログラムを記録した記録媒体
JP2000132186A (ja) 1998-10-28 2000-05-12 Internatl Business Mach Corp <Ibm> コマンド境界識別装置、方法およびプログラム記憶装置
JP2000267695A (ja) * 1999-01-14 2000-09-29 Nissan Motor Co Ltd 車載機器のリモートコントロール装置
JP2001306091A (ja) 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
JP2003044085A (ja) 2001-07-27 2003-02-14 Nec Corp コマンド入力機能つきディクテーション装置
JP2004093698A (ja) 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法
JP2010085536A (ja) 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697777B1 (en) 2000-06-28 2004-02-24 Microsoft Corporation Speech recognition user interface
US7747040B2 (en) * 2005-04-16 2010-06-29 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8121586B2 (en) * 2008-09-16 2012-02-21 Yellowpages.Com Llc Systems and methods for voice based search
KR20210152028A (ko) * 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
US8817048B2 (en) * 2009-07-17 2014-08-26 Apple Inc. Selective rotation of a user interface
US8886541B2 (en) * 2010-02-04 2014-11-11 Sony Corporation Remote controller with position actuatated voice transmission

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020092A (ja) 1998-06-30 2000-01-21 Toshiba Corp ディクテーション装置及びディクテーションプログラムを記録した記録媒体
JP2000132186A (ja) 1998-10-28 2000-05-12 Internatl Business Mach Corp <Ibm> コマンド境界識別装置、方法およびプログラム記憶装置
JP2000267695A (ja) * 1999-01-14 2000-09-29 Nissan Motor Co Ltd 車載機器のリモートコントロール装置
JP2001306091A (ja) 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
JP2003044085A (ja) 2001-07-27 2003-02-14 Nec Corp コマンド入力機能つきディクテーション装置
JP2004093698A (ja) 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法
JP2010085536A (ja) 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2821916A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181047A (ja) * 2015-03-23 2016-10-13 カシオ計算機株式会社 情報出力装置、情報出力方法及びプログラム
JP2017116893A (ja) * 2015-12-26 2017-06-29 株式会社村田製作所 立体型画像表示装置
WO2020031781A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
EP2821916B1 (en) 2018-12-19
US20150106098A1 (en) 2015-04-16
EP2821916A1 (en) 2015-01-07
EP2821916A4 (en) 2015-10-28
US9842589B2 (en) 2017-12-12
JP6016134B2 (ja) 2016-10-26
JPWO2013128508A1 (ja) 2015-07-30

Similar Documents

Publication Publication Date Title
JP6016134B2 (ja) 音声入力装置、音声入力方法及びプログラム
US20210005201A1 (en) Device and method for activating with voice input
CN105589555B (zh) 信息处理方法、信息处理设备及电子设备
EP2680110B1 (en) Method and apparatus for processing multiple inputs
US20150199320A1 (en) Creating, displaying and interacting with comments on computing devices
KR20150099259A (ko) 생체 정보를 인식하기 위한 전자 장치 및 방법
KR20140131093A (ko) 음성 인식을 위한 방법 및 그 전자 장치
JP2015011170A (ja) ローカルな音声認識を行なう音声認識クライアント装置
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2021129745A1 (zh) 触控按键、控制方法及电子设备
JP2010530655A (ja) 振動入力認識を有する電子装置と方法
EP4057137A1 (en) Display control method and terminal device
WO2015043200A1 (en) Method and apparatus for controlling applications and operations on a terminal
JP2013157959A (ja) 携帯端末機器、携帯端末機器の音声認識処理方法、およびプログラム
JP2019036914A (ja) 連携表示システム
KR20130082352A (ko) 터치스크린을 구비하는 전자기기에서 화면을 확대하기 위한 장치 및 방법
TW201616331A (zh) 掌上型電子裝置的輸入法自動切換系統及方法
KR20140116642A (ko) 음성 인식 기반의 기능 제어 방법 및 장치
US20150088525A1 (en) Method and apparatus for controlling applications and operations on a terminal
EP3832440A1 (en) Text input method and terminal
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
WO2021104175A1 (zh) 信息的处理方法及装置
WO2021063239A1 (zh) 应用控制方法和终端
KR20150029197A (ko) 이동 단말기 및 그 동작 방법
CN110880330A (zh) 音频转换方法及终端设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12869934

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014501834

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14381279

Country of ref document: US

Ref document number: 2012869934

Country of ref document: EP