WO2023152803A1

WO2023152803A1 - 音声認識装置、及びコンピュータが読み取り可能な記録媒体

Info

Publication number: WO2023152803A1
Application number: PCT/JP2022/004938
Authority: WO
Inventors: 泰弘芝▲崎▼
Original assignee: ファナック株式会社
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2023-08-17
Also published as: WO2023152803A9

Abstract

本開示による音声認識装置は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、調整波形群生成部が出力する音声信号及び複数の調整済み音声信号に対する音声認識を行う音声認識部と、を備え、調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む。

Description

音声認識装置、及びコンピュータが読み取り可能な記録媒体

　本発明は、音声認識装置、及びコンピュータが読み取り可能な記録媒体に関する。

　現在、製造業などの産業分野では、ロボット、搬送機、工作機械、機械設備などの様々な機器が作動している。このような機器には、操作部を備えたものも多く、ＰＬＣ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｃｏｎｔｒｏｌｌｅｒ）、ＮＣ（Ｎｕｍｅｒｉｃａｌ　Ｃｏｎｔｒｏｌｌｅｒ）、制御盤など、各機器を制御する機器も操作部を備える。

　機器の操作部は、ボタンや操作画面が多いが、操作が複雑で習熟に時間のかかることがある。音声入力インタフェースは、音声コマンドを発話するだけで目的の操作が実行できる。そのため、音声入力インタフェースを用いた操作性の向上が試みられている。

　機器の操作に使用する音声コマンドは、音声コマンドを使用する機器の種類、機器を設置する現場、機器の操作内容などにより想定することができる。そのため、想定される音声コマンドを文法（構文及び単語）で作成することができる。例えば、特許文献１参照。

特開平９－３２５７８７号公報

　認識対象となる音声の性質を決めるものとして、音声区間切り出し位置、背景ノイズの乗り方、発話速度などの各種の属性が存在する。これらの属性の微小ズレで音声の認識結果（書き起こし文字列、信頼度等）が乱れることがある。この乱れが、音声認識の正解率の低下に繋がる。

　製造現場では、その環境において稼働する機械の数や種類、作業者の作業などが原因で発生する現象により、これらの属性にズレが生じることがある。そのため、製造現場で利用される音声認識に係るアプリケーションの開発や現場実運用時の調整の際は、音声認識の精度を向上させるために製造現場で生じる現象の再現性が重要となる。上記乱れが発生すると、音声認識の誤認識の再現性が低下する。結果として、音声認識処理の障害調査等が難しくなる。このように、一般的な家庭や事務現場での利用とは違って、製造業などの産業分野で用いられる音声認識のアプリケーションでは、認識結果のランダム性は問題になりやすい。
　そこで、製造現場では認識結果の乱れに対応できる音声認識の技術が望まれている。

　本発明による音声認識装置は、入力された音声信号の所定の属性（波形パラメータ）を微小調整した複数の音声信号を生成し、それぞれを音声認識の対象とする。そして、その認識結果の最頻値を正しい認識結果とすることで、上記課題を解決する。

　そして、本開示の一態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、を備え、前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、音声認識装置である。

　本開示の他の態様は、製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体である。

　本開示の一態様により、音声波形の所定の属性に乱れが生じても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。

本発明の一実施形態による音声認識装置の概略的なハードウェア構成図である。本発明の一実施形態による音声認識装置の概略的な機能を示すブロック図である。調整方式情報登録画面の例である。集計方式情報登録画面の例である。書き起こし文字列の最頻値で集計した例を示す図である。書き起こし文字列の信頼度の中央値で集計した例を示す図である。本発明の他の実施形態による音声認識装置の概略的な機能を示すブロック図である。

　以下、本発明の実施形態を図面と共に説明する。
　図１は本発明の一実施形態による音声認識装置の要部を示す概略的なハードウェア構成図である。本実施形態による音声認識装置１は、工場などの製造現場に設置された産業機械２を制御する制御装置の上に実装することができる。また、音声認識装置１は、制御装置に併設されたパソコンや、制御装置と有線乃至無線のネットワークを介して接続されたフォグコンピュータ６、クラウドサーバ７などのコンピュータ上に実装することができる。以下では、本実施形態による音声認識装置１を、産業機械２を制御する制御装置上に実装した例に基づいて説明する。

　本実施形態による音声認識装置１が備えるＣＰＵ１１は、音声認識装置１を全体的に制御するプロセッサである。ＣＰＵ１１は、バス２２を介してＲＯＭ１２に格納されたシステム・プログラムを読み出し、該システム・プログラムに従って音声認識装置１全体を制御する。ＲＡＭ１３には一時的な計算データや表示データ、及び外部から入力された各種データ等が一時的に格納される。

　不揮発性メモリ１４は、例えば図示しないバッテリでバックアップされたメモリやＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等で構成され、音声認識装置１の電源がオフされても記憶状態が保持される。不揮発性メモリ１４には、産業機械２から取得されたデータ、インタフェース１５を介して外部機器７２から読み込まれた制御用プログラムやデータ、入力装置７１を介して入力された制御用プログラムやデータ、ネットワーク５を介して他の装置から取得された制御用プログラムやデータ等が記憶される。不揮発性メモリ１４に記憶された制御用プログラムやデータは、実行時／利用時にはＲＡＭ１３に展開されても良い。また、ＲＯＭ１２には、公知の解析プログラムなどの各種システム・プログラムがあらかじめ書き込まれている。

　インタフェース１５は、音声認識装置１のＣＰＵ１１とＵＳＢ装置等の外部機器７２と接続するためのインタフェースである。外部機器７２側からは、例えば産業機械２の制御に用いられる制御用プログラムや設定データ等が読み込まれる。また、音声認識装置１内で編集した制御用プログラムや設定データ等は、外部機器７２を介して外部記憶手段に記憶させることができる。ＰＬＣ（プログラマブル・ロジック・コントローラ）１６は、ラダープログラムを実行して産業機械２及び産業機械２の周辺装置（例えば、工具交換装置や、ロボット等のアクチュエータ、産業機械２に取付けられている温度センサや湿度センサ等の複数のセンサ３）にＩ／Ｏユニット１９を介して信号を出力し制御する。また、産業機械２の本体に配備された操作盤の各種スイッチや周辺装置等の信号を受け、必要な信号処理をした後、ＣＰＵ１１に渡す。

　インタフェース２０は、音声認識装置１のＣＰＵと有線乃至無線のネットワーク５とを接続するためのインタフェースである。ネットワーク５には、工作機械や放電加工機などの他の産業機械４やフォグコンピュータ６、クラウドサーバ７等が接続され、音声認識装置１との間で相互にデータのやり取りを行っている。

　表示装置７０には、メモリ上に読み込まれた各データ、プログラム等が実行された結果として得られたデータ等がインタフェース１７を介して出力されて表示される。また、キーボードやポインティングデバイス等から構成される入力装置７１は、オペレータによる操作に基づく指令，データ等をインタフェース１８を介してＣＰＵ１１に渡す。

　インタフェース２１は、音声認識装置１のＣＰＵ１１と音声センサ７３とを接続するためのインタフェースである。音声センサ７３は、例えばマイクなどの収音機器であってよい。音声センサ７３は、例えば入力装置７１や図示しない機械操作盤、ペンダント（携帯型機械操作盤）などに取り付けられていてよい。音声センサ７３が検出した作業者の発する音声は、音声信号としてＣＰＵ１１に渡される。

　産業機械２が備える軸を制御するための軸制御回路３０はＣＰＵ１１からの軸の移動指令量を受けて、軸の指令をサーボアンプ４０に出力する。サーボアンプ４０はこの指令を受けて、工作機械が備える軸を移動させるサーボモータ５０を駆動する。軸のサーボモータ５０は位置・速度検出器を内蔵し、この位置・速度検出器からの位置・速度フィードバック信号を軸制御回路３０にフィードバックし、位置・速度のフィードバック制御を行う。なお、図１のハードウェア構成図では軸制御回路３０、サーボアンプ４０、サーボモータ５０は１つずつしか示されていないが、実際には制御対象となる産業機械２に備えられた軸の数だけ用意される。

　図２は、本発明の一実施形態による音声認識装置１が備える機能を概略的なブロック図として示したものである。本実施形態による音声認識装置１が備える各機能は、図１に示した音声認識装置１が備えるＣＰＵ１１がシステム・プログラムを実行し、音声認識装置１の各部の動作を制御することにより実現される。

　本実施形態の音声認識装置１は、音声信号取得部１００、調整方式登録部１１０、調整波形群生成部１２０、音声認識部１３０、集計方式登録部１４０、集計結果生成部１５０、コマンド処理部１６０、出力部１７０を備える。また、音声認識装置１のＲＡＭ１３乃至不揮発性メモリ１４には、調整方式登録部１１０が登録した調整方式データを記憶するための領域である調整方式記憶部１８０、及び集計方式登録部１４０が登録した集計方式データを記憶するための領域である集計方式記憶部１９０が予め用意されている。

　音声信号取得部１００は、音声センサ７３が検出した音声信号を取得する。そして、取得した音声信号から１回の発話として認識される音声信号を抽出する。音声センサ７３が検出する音声信号は、主として作業者が発話した音声に基づくものである。音声信号取得部１００は、その中から作業者の１回の発話に対応する音声信号を切り出すようにしてよい。これは、例えば音声信号が予め定めた所定のレベルＬｖ_th以下となる状態が予め定めた所定の期間Ｔｓ_th以上続いたところを音声の区切りとして、音声の区切りで挟まれた所定の期間Ｔｎ_th以上の音声信号を１回の発話に対応する音声信号として切り出すようにすればよい。また、音声の切り出しにその他の公知の音声信号の解析技術を用いるようにしてもよい。音声信号取得部１００が切り出した音声信号は、調整波形群生成部１２０に出力される。

　調整方式登録部１１０は、音声波形の調整方式に係る情報を受け付けて調整方式記憶部１８０に登録する。調整方式に係る情報は、調整対象としての音声信号の属性に係る情報と、該属性に対する調整幅に係る情報を含む。調整対象となる属性としては、例えば発話速度、振幅、ピッチ、フォルマント、ＳＮ比などが例示される。調整方式登録部１１０は、例えばそれぞれの属性について、調整対象とするか否か、調整対象とする場合にどの程度の調整幅で調整するのかを受け付ける。そして、受け付けた入力を調整方式に係る情報とする。調整幅に係る情報としては、固定値ではなく所定の調整幅を最大値とする乱数を使うように指定できるようにしてもよい。調整方式に係る情報は、更に生成する調整済みの音声信号の個数を含んでいてもよい。図３に例示するように、調整方式登録部１１０は、入力を受け付けるためのインタフェースを表示装置７０に表示するようにしてもよい。なお、典型的な調整方式に係る情報を予め調整方式記憶部１８０に記憶しておくようにしてもよい。このような場合、調整方式を変更するとき以外は、調整方式登録部１１０の機能は不要となる。

　調整波形群生成部１２０は、調整方式記憶部１８０に記憶される調整方式に係る情報に従って、音声信号取得部１００から入力された音声信号を調整した複数の調整済み音声信号を生成する。例えば、図３に例示されるように、発話速度を調整対象の属性として、調整幅が±１．０％とされる調整方式に係る情報が調整方式記憶部１８０に記憶されているとする。この場合、調整波形群生成部１２０は、入力された音声信号の発話速度を１０１％にした調整済み音声信号、９９％にした調整済み音声信号、１０２％にした調整済み音声信号、９８％にした調整済み音声信号、…、をそれぞれ生成する。調整幅として乱数を使うように指定されている場合には、逐次乱数で調整幅を求めて調整量を決定するようにすればよい。振幅についても同様である。ピッチ、フォルマントなどについては、ＳＯＬＡ（Ｓｙｎｃｈｒｏｎｉｚｅｄ　ＯｖｅｒＬａｐ－Ａｄｄ　ｍｅｔｈｏｄ：同期波形重畳法）やＰＶ（Ｐｈａｓｅ　Ｖｏｃｏｄｅｒ）などの公知のピッチシフト、フォルマントシフトの手法で変更することが可能である。ＳＮ比については、音声信号の中で所定の振幅以下の成分をノイズとみなして、その成分の大きさを変化させることで変更可能である。他の音声信号の属性についても、公知の手法で変更可能である。調整方式に係る情報に生成する調整済み音声信号の個数が含まれている場合、そこで指定されている個数の調整済み音声信号を生成する。含まれていない場合には、予め定めた所定の個数の調整済み音声信号を生成するようにしてよい。調整波形群生成部１２０は、本来の音声信号と、複数の調整済み音声信号とを調整波形群に係るデータとして音声認識部１３０に対して出力する。

　音声認識部１３０は、調整波形群生成部１２０により入力された調整波形群に係るデータに含まれるそれぞれの音声信号（本来の音声信号と、複数の調整済み音声信号）に対して公知の音声認識の処理を実行する。そして、それぞれの音声信号に対する音声認識の結果を集計結果生成部１５０に出力する。音声認識部１３０が実行する音声認識の処理は、例えばＤＰ（Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ）マッチングやＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ：隠れマルコフモデル）、ＧＭＭ（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）－ＨＭＭ、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）－ＨＭＭ、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ－Ｔｅｒｍ　Ｍｅｍｏｒｙ）など、公知のモデルを用いたものであってよい。

　集計方式登録部１４０は、音声認識部１３０が調整波形群に係るデータに含まれるそれぞれの音声信号に対して音声認識を実行した結果をどのような統計処理により集計するのかを示す集計方式に係る情報を受け付けて集計方式記憶部１９０に登録する。集計方式に係る情報は、少なくとも複数のデータに基づいて１つの結果を集計できる統計処理に係る情報を含む。一例として、集計方式に係る情報は、音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列を指定する情報であってよい。また、他の例として、音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列を指定する情報であってよい。このように、音声認識の結果としての書き起こし文字列や信頼度に対して行われる所定の統計処理に基づくものであってよい。図４に例示するように、集計方式登録部１４０は、入力を受け付けるためのインタフェースを表示装置７０に表示するようにしてもよい。なお、典型的な集計方式に係る情報を予め集計方式記憶部１９０に記憶しておくようにしてもよい。このような場合、集計方式を変更するとき以外は、集計方式登録部１４０の機能は不要となる。

　集計結果生成部１５０は、集計方式記憶部１９０に記憶される集計方式に係る情報に従って、音声認識部１３０による調整波形群に係るデータに対する音声認識の結果に対して所定の統計処理を実行する。そして、その統計処理の結果を集計結果として出力する。

　図５に、集計方式に係る情報として音声認識の結果としての書き起こし文字列群の最頻値にあたる書き起こし文字列が指定されている場合の例を示す。音声信号取得部１００が出力した音声信号が調整波形群生成部１２０に入力されると、調整波形群生成部１２０は調整方式記憶部１８０に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図５の例では、発話速度を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部１３０に出力する。音声認識部１３０では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部１５０は、これらの音声認識の結果について、書き起こし文字列の最頻値にあたる書き起こし文字列を求める集計処理を実行する。書き起こし文字列の最頻値が「機器の設定」であるため、集計結果生成部１５０は、集計処理の結果として書き起こし文字列「機器の設定」を出力する。

　図６に、集計方式に係る情報として音声認識の結果としてのそれぞれの書き起こし文字列の信頼度の中央値に近い書き起こし文字列が指定されている場合の例を示す。音声信号取得部１００が出力した音声信号が調整波形群生成部１２０に入力されると、調整波形群生成部１２０は調整方式記憶部１８０に記憶された調整方式に係る情報に従って、入力された音声信号の所定の属性を調整した複数の音声信号を生成する。図６の例では、音声信号の振幅値を所定の調整幅で調整した複数の調整済み音声信号を生成している。そして、これらの音声信号及び複数の調整された音声信号を調整波形群に係るデータとして音声認識部１３０に出力する。音声認識部１３０では、調整波形群に含まれるそれぞれの音声信号に対して音声認識の処理を実行する。結果として、それぞれの音声信号から認識される書き起こし文字列と、その信頼度が得られる。集計結果生成部１５０は、これらの音声認識の結果について、信頼度の中央値を求める集計処理を実行する。ここで、信頼度の中央値が０．８１であったとする。この時、集計結果生成部１５０は、集計処理の結果として信頼度の値が０．８１に最も近い音声認識結果である調整済み音声信号４の音声認識結果の書き起こし文字列である「暖機運転時間を減らしたい」を出力する。

　コマンド処理部１６０は、集計結果生成部１５０から出力された集計結果を音声コマンドとして受け付ける。そして、受け付けた音声コマンドに従って、音声コマンドに対応する所定の機能を実行する。所定の機能は、制御装置が備える一般的な機能であってよい。例えば音声認識装置の所定の画面を呼び出す機能や、所定のパラメータの設定機能、産業機械２に対する制御に係る機能などが例示される。

　出力部１７０は、集計結果生成部１５０から出力された集計結果を表示装置７０に対して表示出力する。出力部１７０は、集計結果を表示装置７０の画面上で実行されている所定の機能の表示の邪魔にならない位置（例えば、画面の最下段の状態表示領域など）に表示するようにしてもよい。また、ダイアログなどの形で表示出力するようにしてもよい。出力部１７０は、集計結果をネットワーク５を介して他の産業機械４やフォグコンピュータ６、クラウドサーバ７などの上位のコンピュータに送信出力するようにしてもよい。また、不揮発性メモリ１４などの上に予め設けられたログ記録領域に出力するようにしてもよい。

　上記構成を備えた音声認識装置１は、取得した音声信号に対して、波形の類似する調整された複数の音声信号を生成する。次に、生成した調整波形群に対して音声認識処理を行う。そして、音声認識処理の結果に対して所定の統計処理を行うことで、製造現場の環境要因に基づく音声信号の所定の属性の乱れが生じたとしても、音声認識の処理精度が頑健化される。そのため、音声認識の正解率も向上することが見込まれる。

　以上、本発明の実施形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
　例えば、上記した実施形態では、音声認識装置１上に全ての機能を持たせている例を示している。しかしながら、一部の機能をフォグコンピュータ６やクラウドサーバ７などの他のコンピュータ上に設けるように構成してもよい。例えば、図７に例示するように、調整方式登録部１１０、集計方式登録部１４０、調整方式記憶部１８０、集計方式記憶部１９０をフォグコンピュータ上に設け、調整法式に係る情報や集計方式に係る情報を複数の音声認識装置１（制御装置）で共有して利用するようにしてもよい。

　　　１　音声認識装置
　　　２　産業機械
　　　４　産業機械
　　　５　ネットワーク
　　　６　フォグコンピュータ
　　　７　クラウドサーバ
　　１１　ＣＰＵ
　　１２　ＲＯＭ
　　１３　ＲＡＭ
　　１４　不揮発性メモリ
　　１５，１７，１８，２０，２１　インタフェース
　　１６　ＰＬＣ
　　１９　Ｉ／Ｏユニット
　　２２　バス
　　３０　軸制御回路
　　４０　サーボアンプ
　　５０　サーボモータ
　　７０　表示装置
　　７１　入力装置
　　７２　外部機器
　　７３　音声センサ
　１００　音声信号取得部
　１１０　調整方式登録部
　１２０　調整波形群生成部
　１３０　音声認識部
　１４０　集計方式登録部
　１５０　集計結果生成部
　１６０　コマンド処理部
　１７０　出力部
　１８０　調整方式記憶部
　１９０　集計方式記憶部

Claims

　製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置であって、
　入力された音声信号の所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部と、
　前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部と、
を備え、
　前記調整波形群生成部が行う調整は、調整対象の属性として発話速度を含む、
音声認識装置。
　前記調整波形群生成部が行う調整は、前記調整対象の属性に対して乱数によって決まる変更を加えるものである、
請求項１に記載の音声認識装置。
　前記音声信号及び複数の前記調整済み音声信号に対して、前記音声認識部が認識した認識結果群を所定の集計方式で統計処理する集計結果生成部を更に備える、
請求項１または２に記載の音声認識装置。
　前記集計結果生成部は、書き起こし結果文字列群の最頻値を出力する、
請求項３に記載の音声認識装置。
　前記集計結果生成部は、書き起こし結果信頼度群の中央値を出力する、
請求項３に記載の音声認識装置。
　前記集計結果生成部が統計処理した結果をユーザに提示する出力部を更に備える、
請求項３～５のいずれか１つに記載の音声認識装置。
　調整対象となる前記属性とその調整幅について、ユーザ入力を受け付け登録する調整方式登録部をさらに備える、
請求項１～６のいずれか１つに記載の音声認識装置。
　前記集計方式について、ユーザ入力を受け付け登録する集計方式登録部をさらに備える、
請求項３～６のいずれか１つに記載の音声認識装置。
　製造現場において入力された音声信号を音声認識して音声コマンドとして利用する音声認識装置で実行されるプログラムを記録するコンピュータ読み取り可能な記録媒体であって、
　入力された音声信号の発話速度を含む所定の属性に対して複数の異なる調整を行い、これに対応する複数の調整済み音声信号を生成する調整波形群生成部、
　前記調整波形群生成部が出力する前記音声信号及び複数の前記調整済み音声信号に対する音声認識を行う音声認識部、
としてコンピュータを機能させるプログラムを記録するコンピュータ読み取り可能な記録媒体。