WO2023152803A1 - 音声認識装置、及びコンピュータが読み取り可能な記録媒体 - Google Patents

音声認識装置、及びコンピュータが読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2023152803A1
WO2023152803A1 PCT/JP2022/004938 JP2022004938W WO2023152803A1 WO 2023152803 A1 WO2023152803 A1 WO 2023152803A1 JP 2022004938 W JP2022004938 W JP 2022004938W WO 2023152803 A1 WO2023152803 A1 WO 2023152803A1
Authority
WO
WIPO (PCT)
Prior art keywords
adjusted
voice
speech recognition
generation unit
recognition device
Prior art date
Application number
PCT/JP2022/004938
Other languages
English (en)
French (fr)
Other versions
WO2023152803A9 (ja
Inventor
泰弘 芝▲崎▼
Original Assignee
ファナック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファナック株式会社 filed Critical ファナック株式会社
Priority to PCT/JP2022/004938 priority Critical patent/WO2023152803A1/ja
Publication of WO2023152803A1 publication Critical patent/WO2023152803A1/ja
Publication of WO2023152803A9 publication Critical patent/WO2023152803A9/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition device and a computer-readable recording medium.
  • the operation part of the device has many buttons and operation screens, but the operation is complicated and it takes time to master.
  • a voice input interface can execute a desired operation simply by speaking a voice command. Therefore, attempts have been made to improve operability using a voice input interface.
  • the voice commands used to operate the device can be assumed depending on the type of device that uses the voice command, the site where the device is installed, and the operation details of the device. Therefore, expected voice commands can be created in grammar (syntax and words). See Patent Document 1, for example.
  • the speech recognition apparatus generates a plurality of speech signals obtained by finely adjusting predetermined attributes (waveform parameters) of the input speech signal, and treats each of them as the target of speech recognition. Then, the above problem is solved by using the mode of the recognition result as the correct recognition result.
  • one aspect of the present disclosure is a speech recognition device that recognizes a speech signal input at a manufacturing site and uses it as a speech command, wherein a plurality of different adjustments are made to a predetermined attribute of the input speech signal. and an adjusted waveform group generation unit that generates a plurality of adjusted audio signals corresponding to the adjusted waveform group generation unit, and a speech recognition that performs speech recognition on the audio signal and the plurality of adjusted audio signals output by the adjusted waveform group generation unit and wherein the adjustment performed by the adjusted waveform group generation unit includes speech rate as an attribute to be adjusted.
  • Another aspect of the present disclosure is a computer-readable recording medium for recording a program executed by a speech recognition device that recognizes speech signals input at a manufacturing site and uses them as speech commands, an adjusted waveform group generation unit that performs a plurality of different adjustments to a predetermined attribute including an utterance rate of an audio signal and generates a plurality of adjusted audio signals corresponding thereto; and the audio output by the adjusted waveform group generation unit.
  • a computer-readable recording medium for recording a program that causes a computer to function as a speech recognition unit that performs speech recognition on a signal and a plurality of the adjusted speech signals.
  • the processing accuracy of speech recognition is robust even if a predetermined attribute of the speech waveform is disturbed. Therefore, it is expected that the accuracy rate of voice recognition will also be improved.
  • FIG. 1 is a schematic hardware configuration diagram of a speech recognition device according to an embodiment of the present invention
  • FIG. 1 is a block diagram showing schematic functions of a speech recognition device according to an embodiment of the present invention
  • FIG. It is an example of an adjustment method information registration screen. It is an example of an aggregation method information registration screen.
  • FIG. 10 is a diagram showing an example of tallying the mode values of transcribed character strings
  • FIG. 10 is a diagram showing an example of counting the median reliability of transcribed character strings.
  • FIG. 4 is a block diagram showing schematic functions of a speech recognition device according to another embodiment of the present invention.
  • FIG. 1 is a schematic hardware configuration diagram showing essential parts of a speech recognition apparatus according to an embodiment of the present invention.
  • the speech recognition device 1 can be mounted on a control device that controls industrial machines 2 installed at a manufacturing site such as a factory.
  • the speech recognition device 1 can be implemented on a computer such as a personal computer attached to the control device, a fog computer 6 connected to the control device via a wired or wireless network, a cloud server 7, or the like.
  • the voice recognition device 1 according to the present embodiment will be described based on an example in which the voice recognition device 1 is mounted on a control device that controls the industrial machine 2 .
  • the CPU 11 included in the speech recognition device 1 is a processor that controls the speech recognition device 1 as a whole.
  • the CPU 11 reads the system program stored in the ROM 12 via the bus 22 and controls the entire speech recognition apparatus 1 according to the system program.
  • the RAM 13 temporarily stores calculation data, display data, various data input from the outside, and the like.
  • the non-volatile memory 14 is composed of, for example, a battery-backed memory (not shown) or an SSD (Solid State Drive), etc., and retains the memory state even when the voice recognition apparatus 1 is powered off.
  • the nonvolatile memory 14 stores data acquired from the industrial machine 2, control programs and data read from the external device 72 via the interface 15, control programs and data input via the input device 71, network Control programs and data acquired from other devices via 5 are stored.
  • the control program and data stored in the nonvolatile memory 14 may be developed in the RAM 13 at the time of execution/use.
  • Various system programs such as a well-known analysis program are pre-written in the ROM 12 .
  • the interface 15 is an interface for connecting the CPU 11 of the speech recognition device 1 and an external device 72 such as a USB device. From the external device 72 side, for example, control programs and setting data used for controlling the industrial machine 2 are read. Control programs and setting data edited in the speech recognition apparatus 1 can be stored in the external storage means via the external device 72 .
  • a PLC (programmable logic controller) 16 executes a ladder program to control the industrial machine 2 and peripheral devices of the industrial machine 2 (for example, a tool changer, an actuator such as a robot, and a temperature sensor attached to the industrial machine 2). and a plurality of sensors 3) such as a humidity sensor, etc., through the I/O unit 19 to control them. It also receives signals from various switches on an operation panel provided on the main body of the industrial machine 2 and signals from peripheral devices, and passes the signals to the CPU 11 after performing necessary signal processing.
  • the interface 20 is an interface for connecting the CPU of the speech recognition device 1 and the wired or wireless network 5 .
  • Other industrial machines 4 such as machine tools and electric discharge machines, a fog computer 6, a cloud server 7, and the like are connected to the network 5, and exchange data with the speech recognition apparatus 1 mutually.
  • each data read into the memory, data obtained as a result of executing the program, etc. are output via the interface 17 and displayed.
  • An input device 71 composed of a keyboard, a pointing device, etc., transfers commands, data, etc. based on operations by an operator to the CPU 11 via the interface 18 .
  • the interface 21 is an interface for connecting the CPU 11 of the speech recognition device 1 and the speech sensor 73 .
  • the audio sensor 73 may be, for example, a sound collecting device such as a microphone.
  • the voice sensor 73 may be attached to, for example, the input device 71, a machine operation panel (not shown), a pendant (portable machine operation panel), or the like. The worker's voice detected by the voice sensor 73 is transferred to the CPU 11 as a voice signal.
  • the axis control circuit 30 for controlling the axes provided in the industrial machine 2 receives the axis movement command amount from the CPU 11 and outputs the axis command to the servo amplifier 40 .
  • the servo amplifier 40 receives this command and drives the servo motor 50 that moves the axis of the machine tool.
  • the axis servomotor 50 incorporates a position/velocity detector, and feeds back a position/velocity feedback signal from this position/velocity detector to the axis control circuit 30 to perform position/velocity feedback control.
  • Only one axis control circuit 30, one servo amplifier 40, and one servo motor 50 are shown in the hardware configuration diagram of FIG. only available.
  • FIG. 2 is a schematic block diagram of the functions of the speech recognition device 1 according to one embodiment of the present invention. Each function provided in the speech recognition apparatus 1 according to the present embodiment is realized by the CPU 11 provided in the speech recognition apparatus 1 shown in FIG. .
  • the speech recognition apparatus 1 of this embodiment includes a speech signal acquisition unit 100, an adjustment method registration unit 110, an adjustment waveform group generation unit 120, a speech recognition unit 130, an aggregation method registration unit 140, an aggregation result generation unit 150, and a command processing unit 160. , and an output unit 170 . Further, in the RAM 13 to the non-volatile memory 14 of the speech recognition apparatus 1, the adjustment method storage unit 180, which is an area for storing the adjustment method data registered by the adjustment method registration unit 110, and the aggregation method registration unit 140 registered A tabulation method storage unit 190, which is an area for storing tabulation method data, is prepared in advance.
  • the audio signal acquisition unit 100 acquires the audio signal detected by the audio sensor 73 . Then, an audio signal recognized as one utterance is extracted from the acquired audio signal.
  • the audio signal detected by the audio sensor 73 is mainly based on the voice uttered by the operator.
  • the voice signal acquisition unit 100 may extract a voice signal corresponding to one utterance of the worker from among them. For example, a state in which the audio signal is equal to or lower than a predetermined level Lv th continues for a predetermined period of time Ts th or more.
  • the above audio signal may be cut out as an audio signal corresponding to one utterance. Also, other known audio signal analysis techniques may be used to cut out the audio.
  • the audio signal cut out by the audio signal acquisition unit 100 is output to the adjusted waveform group generation unit 120 .
  • the adjustment method registration unit 110 receives information on the adjustment method of the speech waveform and registers it in the adjustment method storage unit 180 .
  • the information related to the adjustment method includes information related to the attribute of the audio signal to be adjusted and information related to the adjustment range for the attribute. Attributes to be adjusted include, for example, speech rate, amplitude, pitch, formant, SN ratio, and the like.
  • the adjustment method registration unit 110 receives, for example, whether or not each attribute is to be adjusted, and if so, what adjustment range to adjust. Then, the received input is used as information related to the adjustment method.
  • As the information related to the adjustment width instead of a fixed value, a random number having a maximum value of a predetermined adjustment width may be specified.
  • the information on the adjustment scheme may further include the number of adjusted audio signals to be generated.
  • the adjustment method registration unit 110 may display an interface for receiving input on the display device 70 .
  • Information related to typical adjustment methods may be stored in the adjustment method storage unit 180 in advance. In such a case, the function of the adjustment method registration unit 110 is unnecessary except when changing the adjustment method.
  • the adjusted waveform group generation unit 120 generates a plurality of adjusted audio signals by adjusting the audio signal input from the audio signal acquisition unit 100 according to the information related to the adjustment method stored in the adjustment method storage unit 180.
  • the adjustment method storage unit 180 stores information related to an adjustment method in which the adjustment width is ⁇ 1.0% with the speech rate as an attribute to be adjusted.
  • the adjusted waveform group generation unit 120 generates an adjusted speech signal with the speech rate of the input speech signal adjusted to 101%, an adjusted speech signal with 99%, an adjusted speech signal with 102%, and 98%. , respectively. If it is designated to use random numbers as the adjustment range, the adjustment range may be determined by successively obtaining the adjustment range using random numbers.
  • Pitch, formant, etc. can be changed by known pitch shift and formant shift techniques such as SOLA (Synchronized Overlap-Add method) and PV (Phase Vocoder).
  • SOLA Synchronized Overlap-Add method
  • PV Phase Vocoder
  • the SN ratio can be changed by regarding a component having a predetermined amplitude or less in the audio signal as noise and changing the magnitude of that component. Attributes of other audio signals can also be changed by known techniques.
  • the number of adjusted audio signals to be generated is included in the information related to the adjustment method, the specified number of adjusted audio signals are generated. If not, a predetermined predetermined number of adjusted audio signals may be generated.
  • the adjusted waveform group generation unit 120 outputs the original speech signal and the plurality of adjusted speech signals to the speech recognition unit 130 as data related to the adjusted waveform group.
  • the speech recognition unit 130 performs known speech recognition on each speech signal (original speech signal and a plurality of adjusted speech signals) included in the data related to the adjusted waveform group input by the adjusted waveform group generation unit 120. process. Then, the speech recognition result for each speech signal is output to the tally result generation unit 150 .
  • the speech recognition processing performed by the speech recognition unit 130 includes, for example, DP (Dynamic Programming) matching, HMM (Hidden Markov Model), GMM (Gaussian Mixture Model)-HMM, DNN (Deep Neural Network)-HMM, Known models such as RNN (Recurrent Neural Network) and LSTM (Long Short-Term Memory) may be used.
  • the aggregation method registration unit 140 is associated with an aggregation method indicating by what kind of statistical processing the results of speech recognition performed on each audio signal included in the data related to the adjusted waveform group by the speech recognition unit 130 are aggregated.
  • Information is received and registered in the tabulation method storage unit 190 .
  • Information related to the aggregation method includes at least information related to statistical processing capable of aggregating one result based on a plurality of data.
  • the information related to the counting method may be information specifying the most frequent transcribed character string in the group of transcribed character strings as a result of speech recognition.
  • it may be information specifying a transcribed character string close to the median reliability of each transcribed character string as a result of speech recognition.
  • the tabulation method registration unit 140 may display an interface for accepting input on the display device 70.
  • information related to a typical counting method may be stored in the counting method storage unit 190 in advance. In such a case, the function of the counting method registration unit 140 is unnecessary except when changing the counting method.
  • the aggregation result generation unit 150 executes predetermined statistical processing on the result of voice recognition of the data related to the adjusted waveform group by the voice recognition unit 130 according to the information related to the aggregation method stored in the aggregation method storage unit 190 . Then, the result of the statistical processing is output as the aggregate result.
  • FIG. 5 shows an example in which the transcribed character string corresponding to the mode of the transcribed character string group as the result of speech recognition is specified as the information related to the aggregation method.
  • the adjustment waveform group generation unit 120 When the audio signal output by the audio signal acquisition unit 100 is input to the adjusted waveform group generation unit 120, the adjustment waveform group generation unit 120 generates the input audio according to the information related to the adjustment method stored in the adjustment method storage unit 180.
  • a plurality of audio signals are generated that are adjusted for predetermined attributes of the signals.
  • a plurality of adjusted speech signals are generated by adjusting the speech rate by a predetermined adjustment width. Then, these audio signals and the plurality of adjusted audio signals are output to the speech recognition unit 130 as data related to the adjusted waveform group.
  • the speech recognition unit 130 performs speech recognition processing on each speech signal included in the adjusted waveform group.
  • the result is the transcript recognized from each audio signal and its confidence level.
  • the tally result generation unit 150 performs tally processing for obtaining the transcribed character string corresponding to the mode of the transcribed character string for these speech recognition results. Since the mode value of the transcribed character string is "equipment setting", the tally result generation unit 150 outputs the transcribed character string "device setting" as the result of the tallying process.
  • FIG. 6 shows an example in which a transcribed character string close to the median reliability of each transcribed character string as a result of speech recognition is specified as information related to the aggregation method.
  • the adjustment waveform group generation unit 120 When the audio signal output by the audio signal acquisition unit 100 is input to the adjusted waveform group generation unit 120, the adjustment waveform group generation unit 120 generates the input audio according to the information related to the adjustment method stored in the adjustment method storage unit 180.
  • a plurality of audio signals are generated that are adjusted for predetermined attributes of the signals.
  • a plurality of adjusted audio signals are generated by adjusting the amplitude value of the audio signal by a predetermined adjustment width. Then, these audio signals and the plurality of adjusted audio signals are output to the speech recognition unit 130 as data related to the adjusted waveform group.
  • the speech recognition unit 130 performs speech recognition processing on each speech signal included in the adjusted waveform group.
  • the result is the transcript recognized from each audio signal and its confidence level.
  • the tally result generation unit 150 performs tally processing for obtaining the median reliability of these speech recognition results. Assume that the median reliability is 0.81.
  • the aggregation result generation unit 150 generates a transcription character string of the speech recognition result of the adjusted speech signal 4, which is the speech recognition result whose reliability value is closest to 0.81 as a result of aggregation processing. I want to reduce driving time" is output.
  • the command processing unit 160 accepts the tally result output from the tally result generating unit 150 as a voice command. Then, according to the received voice command, a predetermined function corresponding to the voice command is executed.
  • the predetermined function may be a general function that the control device has. For example, a function of calling a predetermined screen of the voice recognition device, a function of setting a predetermined parameter, a function of controlling the industrial machine 2, and the like are exemplified.
  • the output unit 170 displays and outputs the totalization result output from the totalization result generation unit 150 on the display device 70 .
  • the output unit 170 may display the aggregated result at a position (for example, a state display area at the bottom of the screen) that does not interfere with the display of a predetermined function being executed on the screen of the display device 70. .
  • the information may be displayed and output in the form of a dialog or the like.
  • the output unit 170 may transmit and output the aggregated result to other industrial machines 4 , the fog computer 6 , the cloud server 7 , or other higher-level computers via the network 5 .
  • the log may be output to a log recording area provided in advance on the nonvolatile memory 14 or the like.
  • the speech recognition device 1 having the above configuration generates a plurality of adjusted speech signals with similar waveforms for the acquired speech signal. Next, speech recognition processing is performed on the generated adjusted waveform group.
  • predetermined statistical processing is performed on the result of voice recognition processing, even if predetermined attributes of the voice signal are disturbed due to environmental factors at the manufacturing site, the processing accuracy of voice recognition is robust. . Therefore, it is expected that the accuracy rate of voice recognition will also be improved.
  • the present invention is not limited to the above-described examples of the embodiments, and can be implemented in various modes by adding appropriate modifications.
  • the speech recognition device 1 has all the functions.
  • some functions may be provided on other computers such as the fog computer 6 and the cloud server 7 .
  • an adjustment method registration unit 110, an aggregation method registration unit 140, an adjustment method storage unit 180, and an aggregation method storage unit 190 are provided on the fog computer, and information related to the adjustment method and information related to the aggregation method are provided.
  • the information may be shared and used by a plurality of speech recognition devices 1 (control devices).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本開示による音声認識装置は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、調整波形群生成部が出力する音声信号及び複数の調整済み音声信号に対する音声認識を行う音声認識部と、を備え、調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む。

Description

音声認識装置、及びコンピュータが読み取り可能な記録媒体
 本発明は、音声認識装置、及びコンピュータが読み取り可能な記録媒体に関する。
 現在、製造業などの産業分野では、ロボット、搬送機、工作機械、機械設備などの様々な機器が作動している。このような機器には、操作部を備えたものも多く、PLC(Programmable Logic Controller)、NC(Numerical Controller)、制御盤など、各機器を制御する機器も操作部を備える。
 機器の操作部は、ボタンや操作画面が多いが、操作が複雑で習熟に時間のかかることがある。音声入力インタフェースは、音声コマンドを発話するだけで目的の操作が実行できる。そのため、音声入力インタフェースを用いた操作性の向上が試みられている。
 機器の操作に使用する音声コマンドは、音声コマンドを使用する機器の種類、機器を設置する現場、機器の操作内容などにより想定することができる。そのため、想定される音声コマンドを文法(構文及び単語)で作成することができる。例えば、特許文献1参照。
特開平9-325787号公報
 認識対象となる音声の性質を決めるものとして、音声区間切り出し位置、背景ノイズの乗り方、発話速度などの各種の属性が存在する。これらの属性の微小ズレで音声の認識結果(書き起こし文字列、信頼度等)が乱れることがある。この乱れが、音声認識の正解率の低下に繋がる。
 製造現場では、その環境において稼働する機械の数や種類、作業者の作業などが原因で発生する現象により、これらの属性にズレが生じることがある。そのため、製造現場で利用される音声認識に係るアプリケーションの開発や現場実運用時の調整の際は、音声認識の精度を向上させるために製造現場で生じる現象の再現性が重要となる。上記乱れが発生すると、音声認識の誤認識の再現性が低下する。結果として、音声認識処理の障害調査等が難しくなる。このように、一般的な家庭や事務現場での利用とは違って、製造業などの産業分野で用いられる音声認識のアプリケーションでは、認識結果のランダム性は問題になりやすい。
 そこで、製造現場では認識結果の乱れに対応できる音声認識の技術が望まれている。
 本発明による音声認識装置は、入力された音声信号の所定の属性(波形パラメータ)を微小調整した複数の音声信号を生成し、それぞれを音声認識の対象とする。そして、その認識結果の最頻値を正しい認識結果とすることで、上記課題を解決する。
 そして、本開示の一態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、を備え、前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、音声認識装置である。
 本開示の他の態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体である。
 本開示の一態様により、音声波形の所定の属性に乱れが生じても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。
本発明の一実施形態による音声認識装置の概略的なハードウェア構成図である。 本発明の一実施形態による音声認識装置の概略的な機能を示すブロック図である。 調整方式情報登録画面の例である。 集計方式情報登録画面の例である。 書き起こし文字列の最頻値で集計した例を示す図である。 書き起こし文字列の信頼度の中央値で集計した例を示す図である。 本発明の他の実施形態による音声認識装置の概略的な機能を示すブロック図である。
 以下、本発明の実施形態を図面と共に説明する。
 図1は本発明の一実施形態による音声認識装置の要部を示す概略的なハードウェア構成図である。本実施形態による音声認識装置1は、工場などの製造現場に設置された産業機械2を制御する制御装置の上に実装することができる。また、音声認識装置1は、制御装置に併設されたパソコンや、制御装置と有線乃至無線のネットワークを介して接続されたフォグコンピュータ6、クラウドサーバ7などのコンピュータ上に実装することができる。以下では、本実施形態による音声認識装置1を、産業機械2を制御する制御装置上に実装した例に基づいて説明する。
 本実施形態による音声認識装置1が備えるCPU11は、音声認識装置1を全体的に制御するプロセッサである。CPU11は、バス22を介してROM12に格納されたシステム・プログラムを読み出し、該システム・プログラムに従って音声認識装置1全体を制御する。RAM13には一時的な計算データや表示データ、及び外部から入力された各種データ等が一時的に格納される。
 不揮発性メモリ14は、例えば図示しないバッテリでバックアップされたメモリやSSD(Solid State Drive)等で構成され、音声認識装置1の電源がオフされても記憶状態が保持される。不揮発性メモリ14には、産業機械2から取得されたデータ、インタフェース15を介して外部機器72から読み込まれた制御用プログラムやデータ、入力装置71を介して入力された制御用プログラムやデータ、ネットワーク5を介して他の装置から取得された制御用プログラムやデータ等が記憶される。不揮発性メモリ14に記憶された制御用プログラムやデータは、実行時/利用時にはRAM13に展開されても良い。また、ROM12には、公知の解析プログラムなどの各種システム・プログラムがあらかじめ書き込まれている。
 インタフェース15は、音声認識装置1のCPU11とUSB装置等の外部機器72と接続するためのインタフェースである。外部機器72側からは、例えば産業機械2の制御に用いられる制御用プログラムや設定データ等が読み込まれる。また、音声認識装置1内で編集した制御用プログラムや設定データ等は、外部機器72を介して外部記憶手段に記憶させることができる。PLC(プログラマブル・ロジック・コントローラ)16は、ラダープログラムを実行して産業機械2及び産業機械2の周辺装置(例えば、工具交換装置や、ロボット等のアクチュエータ、産業機械2に取付けられている温度センサや湿度センサ等の複数のセンサ3)にI/Oユニット19を介して信号を出力し制御する。また、産業機械2の本体に配備された操作盤の各種スイッチや周辺装置等の信号を受け、必要な信号処理をした後、CPU11に渡す。
 インタフェース20は、音声認識装置1のCPUと有線乃至無線のネットワーク5とを接続するためのインタフェースである。ネットワーク5には、工作機械や放電加工機などの他の産業機械4やフォグコンピュータ6、クラウドサーバ7等が接続され、音声認識装置1との間で相互にデータのやり取りを行っている。
 表示装置70には、メモリ上に読み込まれた各データ、プログラム等が実行された結果として得られたデータ等がインタフェース17を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置71は、オペレータによる操作に基づく指令,データ等をインタフェース18を介してCPU11に渡す。
 インタフェース21は、音声認識装置1のCPU11と音声センサ73とを接続するためのインタフェースである。音声センサ73は、例えばマイクなどの収音機器であってよい。音声センサ73は、例えば入力装置71や図示しない機械操作盤、ペンダント(携帯型機械操作盤)などに取り付けられていてよい。音声センサ73が検出した作業者の発する音声は、音声信号としてCPU11に渡される。
 産業機械2が備える軸を制御するための軸制御回路30はCPU11からの軸の移動指令量を受けて、軸の指令をサーボアンプ40に出力する。サーボアンプ40はこの指令を受けて、工作機械が備える軸を移動させるサーボモータ50を駆動する。軸のサーボモータ50は位置・速度検出器を内蔵し、この位置・速度検出器からの位置・速度フィードバック信号を軸制御回路30にフィードバックし、位置・速度のフィードバック制御を行う。なお、図1のハードウェア構成図では軸制御回路30、サーボアンプ40、サーボモータ50は1つずつしか示されていないが、実際には制御対象となる産業機械2に備えられた軸の数だけ用意される。
 図2は、本発明の一実施形態による音声認識装置1が備える機能を概略的なブロック図として示したものである。本実施形態による音声認識装置1が備える各機能は、図1に示した音声認識装置1が備えるCPU11がシステム・プログラムを実行し、音声認識装置1の各部の動作を制御することにより実現される。
 本実施形態の音声認識装置1は、音声信号取得部100、調整方式登録部110、調整波形群生成部120、音声認識部130、集計方式登録部140、集計結果生成部150、コマンド処理部160、出力部170を備える。また、音声認識装置1のRAM13乃至不揮発性メモリ14には、調整方式登録部110が登録した調整方式データを記憶するための領域である調整方式記憶部180、及び集計方式登録部140が登録した集計方式データを記憶するための領域である集計方式記憶部190が予め用意されている。
 音声信号取得部100は、音声センサ73が検出した音声信号を取得する。そして、取得した音声信号から1回の発話として認識される音声信号を抽出する。音声センサ73が検出する音声信号は、主として作業者が発話した音声に基づくものである。音声信号取得部100は、その中から作業者の1回の発話に対応する音声信号を切り出すようにしてよい。これは、例えば音声信号が予め定めた所定のレベルLvth以下となる状態が予め定めた所定の期間Tsth以上続いたところを音声の区切りとして、音声の区切りで挟まれた所定の期間Tnth以上の音声信号を1回の発話に対応する音声信号として切り出すようにすればよい。また、音声の切り出しにその他の公知の音声信号の解析技術を用いるようにしてもよい。音声信号取得部100が切り出した音声信号は、調整波形群生成部120に出力される。
 調整方式登録部110は、音声波形の調整方式に係る情報を受け付けて調整方式記憶部180に登録する。調整方式に係る情報は、調整対象としての音声信号の属性に係る情報と、該属性に対する調整幅に係る情報を含む。調整対象となる属性としては、例えば発話速度、振幅、ピッチ、フォルマント、SN比などが例示される。調整方式登録部110は、例えばそれぞれの属性について、調整対象とするか否か、調整対象とする場合にどの程度の調整幅で調整するのかを受け付ける。そして、受け付けた入力を調整方式に係る情報とする。調整幅に係る情報としては、固定値ではなく所定の調整幅を最大値とする乱数を使うように指定できるようにしてもよい。調整方式に係る情報は、更に生成する調整済みの音声信号の個数を含んでいてもよい。図3に例示するように、調整方式登録部110は、入力を受け付けるためのインタフェースを表示装置70に表示するようにしてもよい。なお、典型的な調整方式に係る情報を予め調整方式記憶部180に記憶しておくようにしてもよい。このような場合、調整方式を変更するとき以外は、調整方式登録部110の機能は不要となる。
 調整波形群生成部120は、調整方式記憶部180に記憶される調整方式に係る情報に従って、音声信号取得部100から入力された音声信号を調整した複数の調整済み音声信号を生成する。例えば、図3に例示されるように、発話速度を調整対象の属性として、調整幅が±1.0%とされる調整方式に係る情報が調整方式記憶部180に記憶されているとする。この場合、調整波形群生成部120は、入力された音声信号の発話速度を101%にした調整済み音声信号、99%にした調整済み音声信号、102%にした調整済み音声信号、98%にした調整済み音声信号、…、をそれぞれ生成する。調整幅として乱数を使うように指定されている場合には、逐次乱数で調整幅を求めて調整量を決定するようにすればよい。振幅についても同様である。ピッチ、フォルマントなどについては、SOLA(Synchronized OverLap-Add method:同期波形重畳法)やPV(Phase Vocoder)などの公知のピッチシフト、フォルマントシフトの手法で変更することが可能である。SN比については、音声信号の中で所定の振幅以下の成分をノイズとみなして、その成分の大きさを変化させることで変更可能である。他の音声信号の属性についても、公知の手法で変更可能である。調整方式に係る情報に生成する調整済み音声信号の個数が含まれている場合、そこで指定されている個数の調整済み音声信号を生成する。含まれていない場合には、予め定めた所定の個数の調整済み音声信号を生成するようにしてよい。調整波形群生成部120は、本来の音声信号と、複数の調整済み音声信号とを調整波形群に係るデータとして音声認識部130に対して出力する。
 音声認識部130は、調整波形群生成部120により入力された調整波形群に係るデータに含まれるそれぞれの音声信号(本来の音声信号と、複数の調整済み音声信号)に対して公知の音声認識の処理を実行する。そして、それぞれの音声信号に対する音声認識の結果を集計結果生成部150に出力する。音声認識部130が実行する音声認識の処理は、例えばDP(Dynamic Programming)マッチングやHMM(Hidden Markov Model:隠れマルコフモデル)、GMM(Gaussian Mixture Model)-HMM、DNN(Deep Neural Network)-HMM、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)など、公知のモデルを用いたものであってよい。
 集計方式登録部140は、音声認識部130が調整波形群に係るデータに含まれるそれぞれの音声信号に対して音声認識を実行した結果をどのような統計処理により集計するのかを示す集計方式に係る情報を受け付けて集計方式記憶部190に登録する。集計方式に係る情報は、少なくとも複数のデータに基づいて1つの結果を集計できる統計処理に係る情報を含む。一例として、集計方式に係る情報は、音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列を指定する情報であってよい。また、他の例として、音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列を指定する情報であってよい。このように、音声認識の結果としての書き起こし文字列や信頼度に対して行われる所定の統計処理に基づくものであってよい。図4に例示するように、集計方式登録部140は、入力を受け付けるためのインタフェースを表示装置70に表示するようにしてもよい。なお、典型的な集計方式に係る情報を予め集計方式記憶部190に記憶しておくようにしてもよい。このような場合、集計方式を変更するとき以外は、集計方式登録部140の機能は不要となる。
 集計結果生成部150は、集計方式記憶部190に記憶される集計方式に係る情報に従って、音声認識部130による調整波形群に係るデータに対する音声認識の結果に対して所定の統計処理を実行する。そして、その統計処理の結果を集計結果として出力する。
 図5に、集計方式に係る情報として音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列が指定されている場合の例を示す。音声信号取得部100が出力した音声信号が調整波形群生成部120に入力されると、調整波形群生成部120は調整方式記憶部180に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図5の例では、発話速度を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部130に出力する。音声認識部130では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部150は、これらの音声認識の結果について、書き起こし文字列の最頻値にあたる書き起こし文字列を求める集計処理を実行する。書き起こし文字列の最頻値が「機器の設定」であるため、集計結果生成部150は、集計処理の結果として書き起こし文字列「機器の設定」を出力する。
 図6に、集計方式に係る情報として音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列が指定されている場合の例を示す。音声信号取得部100が出力した音声信号が調整波形群生成部120に入力されると、調整波形群生成部120は調整方式記憶部180に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図6の例では、音声信号の振幅値を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部130に出力する。音声認識部130では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部150は、これらの音声認識の結果について、信頼度の中央値を求める集計処理を実行する。ここで、信頼度の中央値が0.81であったとする。この時、集計結果生成部150は、集計処理の結果として信頼度の値が0.81に最も近い音声認識結果である調整済み音声信号4の音声認識結果の書き起こし文字列である「暖機運転時間を減らしたい」を出力する。
 コマンド処理部160は、集計結果生成部150から出力された集計結果を音声コマンドとして受け付ける。そして、受け付けた音声コマンドに従って、音声コマンドに対応する所定の機能を実行する。所定の機能は、制御装置が備える一般的な機能であってよい。例えば音声認識装置の所定の画面を呼び出す機能や、所定のパラメータの設定機能、産業機械2に対する制御に係る機能などが例示される。
 出力部170は、集計結果生成部150から出力された集計結果を表示装置70に対して表示出力する。出力部170は、集計結果を表示装置70の画面上で実行されている所定の機能の表示の邪魔にならない位置(例えば、画面の最下段の状態表示領域など)に表示するようにしてもよい。また、ダイアログなどの形で表示出力するようにしてもよい。出力部170は、集計結果をネットワーク5を介して他の産業機械4やフォグコンピュータ6、クラウドサーバ7などの上位のコンピュータに送信出力するようにしてもよい。また、不揮発性メモリ14などの上に予め設けられたログ記録領域に出力するようにしてもよい。
 上記構成を備えた音声認識装置1は、取得した音声信号に対して、波形の類似する調整された複数の音声信号を生成する。次に、生成した調整波形群に対して音声認識処理を行う。そして、音声認識処理の結果に対して所定の統計処理を行うことで、製造現場の環境要因に基づく音声信号の所定の属性の乱れが生じたとしても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。
 以上、本発明の実施形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
 例えば、上記した実施形態では、音声認識装置1上に全ての機能を持たせている例を示している。しかしながら、一部の機能をフォグコンピュータ6やクラウドサーバ7などの他のコンピュータ上に設けるように構成してもよい。例えば、図7に例示するように、調整方式登録部110、集計方式登録部140、調整方式記憶部180、集計方式記憶部190をフォグコンピュータ上に設け、調整法式に係る情報や集計方式に係る情報を複数の音声認識装置1(制御装置)で共有して利用するようにしてもよい。
   1 音声認識装置
   2 産業機械
   4 産業機械
   5 ネットワーク
   6 フォグコンピュータ
   7 クラウドサーバ
  11 CPU
  12 ROM
  13 RAM
  14 不揮発性メモリ
  15,17,18,20,21 インタフェース
  16 PLC
  19 I/Oユニット
  22 バス
  30 軸制御回路
  40 サーボアンプ
  50 サーボモータ
  70 表示装置
  71 入力装置
  72 外部機器
  73 音声センサ
 100 音声信号取得部
 110 調整方式登録部
 120 調整波形群生成部
 130 音声認識部
 140 集計方式登録部
 150 集計結果生成部
 160 コマンド処理部
 170 出力部
 180 調整方式記憶部
 190 集計方式記憶部

Claims (9)

  1.  製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、
     入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、
     前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、
    を備え、
     前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、
    音声認識装置。
  2.  前記調整波形群生成部が行う調整は、前記調整対象の属性に対して乱数によって決まる変更を加えるものである、
    請求項1に記載の音声認識装置。
  3.  前記音声信号及び複数の前記調整済み音声信号に対して、前記音声認識部が認識した認識結果群を所定の集計方式で統計処理する集計結果生成部を更に備える、
    請求項1または2に記載の音声認識装置。
  4.  前記集計結果生成部は、書き起こし結果文字列群の最頻値を出力する、
    請求項3に記載の音声認識装置。
  5.  前記集計結果生成部は、書き起こし結果信頼度群の中央値を出力する、
    請求項3に記載の音声認識装置。
  6.  前記集計結果生成部が統計処理した結果をユーザに提示する出力部を更に備える、
    請求項3~5のいずれか1つに記載の音声認識装置。
  7.  調整対象となる前記属性とその調整幅について、ユーザ入力を受け付け登録する調整方式登録部をさらに備える、
    請求項1~6のいずれか1つに記載の音声認識装置。
  8.  前記集計方式について、ユーザ入力を受け付け登録する集計方式登録部をさらに備える、
    請求項3~6のいずれか1つに記載の音声認識装置。
  9.  製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、
     入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、
     前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、
    としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体。
PCT/JP2022/004938 2022-02-08 2022-02-08 音声認識装置、及びコンピュータが読み取り可能な記録媒体 WO2023152803A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/004938 WO2023152803A1 (ja) 2022-02-08 2022-02-08 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/004938 WO2023152803A1 (ja) 2022-02-08 2022-02-08 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
WO2023152803A1 true WO2023152803A1 (ja) 2023-08-17
WO2023152803A9 WO2023152803A9 (ja) 2024-06-06

Family

ID=87563808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004938 WO2023152803A1 (ja) 2022-02-08 2022-02-08 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Country Status (1)

Country Link
WO (1) WO2023152803A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325798A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325798A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
WO2023152803A9 (ja) 2024-06-06

Similar Documents

Publication Publication Date Title
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US20150242182A1 (en) Voice augmentation for industrial operator consoles
US20090326892A1 (en) System and method for constructing virtual nc controllers for machine tool simulation
US11322147B2 (en) Voice control system for operating machinery
US11960251B2 (en) Parameterization of a component in an automation system
US11474497B2 (en) Numerical control device, machine learning device, and numerical control method
Lyashenko et al. Recognition of voice commands based on neural network
EP3232380A1 (en) Device maintenance apparatus, method for maintaining device, and storage medium
US11131979B2 (en) Numerical control device and numerical control method
JPH01274202A (ja) ループ制御装置
TWI684177B (zh) 工作機械語音控制系統
Abdullahi et al. Mobile robot voice recognition in control movements
WO2023152803A1 (ja) 音声認識装置、及びコンピュータが読み取り可能な記録媒体
WO2023042277A1 (ja) 操作訓練装置、操作訓練方法、およびコンピュータ読み取り可能な記憶媒体
TW202032445A (zh) 以具有一組預定命令的智慧型工業輔助來協調工業機器的方法、系統及電腦程式產品
JP2020021124A (ja) 制御装置
KR100802483B1 (ko) 모션 및 피엘씨 통합제어장치
JPH03120598A (ja) 音声認識方法及び装置
Baalman The Machine Is Learning
WO2023100236A1 (ja) 音声認識装置、およびコンピュータ読み取り可能な記憶媒体
KR102344426B1 (ko) 표면 실장 부품 조립 장비의 작동 오류 검출 장치
US20210241771A1 (en) Electronic device and method for controlling the electronic device thereof
Gayathri et al. Design of Voice Controlled Multifunctional Computer Numerical Control (CNC) Machine
WO2018037435A1 (en) Factory automation system and programmable logic controller
WO2023218522A1 (ja) 機械操作装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22925825

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023579897

Country of ref document: JP

Kind code of ref document: A