WO2021028758A1

WO2021028758A1 - 音響装置、及びその動作方法

Info

Publication number: WO2021028758A1
Application number: PCT/IB2020/057125
Authority: WO
Inventors: 永嶋文哉; 秋元健吾; 岡野達也; 幸村雄介; 井上聖子
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2019-08-09
Filing date: 2020-07-29
Publication date: 2021-02-18
Also published as: JPWO2021028758A1; CN114207708A; KR20220044530A; US20220366928A1

Abstract

情報端末の誤動作を抑制することができる音響装置を提供する。音響装置は、音検知部と、音分離部と、音判定部と、処理部と、を有する。音検知部は、音を検知する機能を有する。音分離部は、音検知部が検知した音を、音声と、音声以外の音と、に分離する機能を有する。音判定部は、音の特徴量を登録する機能を有する。また、音判定部は、音分離部が分離した音声の特徴量が登録されたものか否かを、ニューラルネットワークモデル等の機械学習モデルによって判定する機能を有する。処理部は、音声の特徴量が登録されたものである場合は、当該音声に含まれる命令を解析し、命令の内容を表す命令信号を生成する機能を有する。また、処理部は、音分離部が分離した、音声以外の音に対して、当該音声以外の音をキャンセルするための処理を行う機能を有する。具体的には、音声以外の音に対して、位相を反転させる処理を行う機能を有する。

Description

音響装置、及びその動作方法

本発明の一態様は、音響装置、及びその動作方法に関する。本発明の一態様は、情報処理システム、及び情報処理方法に関する。

近年、音声認識技術の開発が進められている。音声認識により、例えばスマートフォン等の情報端末の使用者が発話すると、当該発話に含まれる命令を、情報端末が実行することができる。

音声認識の精度を高めるためには、雑音をキャンセルすることが好ましい。特許文献１には、音声信号に含まれる雑音をキャンセルすることができるヘッドセットが開示されている。

特表２０１７−５１３４１１号公報

情報端末が音声認識を行う場合、例えば情報端末が使用者以外の者の発話を認識し、これによって情報端末が使用者の意図しない動作をする可能性がある。

本発明の一態様は、情報端末の誤動作を抑制することができる音響装置を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる音響装置を提供することを課題の一とする。本発明の一態様は、情報端末が高精度の音声認識を行えるようにすることができる音響装置を提供することを課題の一とする。本発明の一態様は、新規な音響装置を提供することを課題の一とする。

本発明の一態様は、誤動作が抑制された情報処理システムを提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる情報処理システムを提供することを課題の一とする。本発明の一態様は、高精度の音声認識を行うことができる情報処理システムを提供することを課題の一とする。本発明の一態様は、新規な情報処理システムを提供することを課題の一とする。

本発明の一態様は、情報端末の誤動作を抑制することができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、情報端末が高精度の音声認識を行えるようにすることができる音響装置の動作方法を提供することを課題の一とする。本発明の一態様は、新規な音響装置の動作方法を提供することを課題の一とする。

本発明の一態様は、誤動作が抑制された情報処理方法を提供することを課題の一とする。本発明の一態様は、雑音をキャンセルすることができる情報処理方法を提供することを課題の一とする。本発明の一態様は、高精度の音声認識を行うことができる情報処理方法を提供することを課題の一とする。本発明の一態様は、新規な情報処理方法を提供することを課題の一とする。

なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から抽出することが可能である。

本発明の一態様は、音検知部と、音分離部と、音判定部と、処理部と、を有し、音検知部は、第１の音を検知する機能を有し、音分離部は、第１の音を、第２の音と、第３の音と、に分離する機能を有し、音判定部は、音の特徴量を登録する機能を有し、音判定部は、第２の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定する機能を有し、処理部は、第２の音の特徴量が登録されたものである場合は、第２の音に含まれる命令を解析し、命令の内容を表す信号を生成する機能を有し、処理部は、第３の音に対して、第３の音をキャンセルするための処理を行うことにより、第４の音を生成する機能を有する音響装置である。

又は、上記態様において、機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとする、教師あり学習を用いて行われてもよい。

又は、上記態様において、機械学習モデルは、ニューラルネットワークモデルであってもよい。

又は、上記態様において、第４の音は、第３の音に対して逆位相の音であってもよい。

又は、本発明の一態様は、第１の音を検知し、第１の音を、第２の音と、第３の音と、に分離し、第２の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定し、第２の音の特徴量が登録されたものである場合は、第２の音に含まれる命令を解析し、命令の内容を表す信号を生成し、第３の音に対して、第３の音をキャンセルするための処理を行うことにより、第４の音を生成する音響装置の動作方法である。

又は、上記態様において、機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとして用いる教師あり学習を用いて行われてもよい。

本発明の一態様により、情報端末の誤動作を抑制することができる音響装置を提供することができる。本発明の一態様により、雑音をキャンセルすることができる音響装置を提供することができる。本発明の一態様により、情報端末が高精度の音声認識を行えるようにすることができる音響装置を提供することができる。本発明の一態様により、新規な音響装置を提供することができる。

本発明の一態様により、誤動作が抑制された情報処理システムを提供することができる。本発明の一態様により、雑音をキャンセルすることができる情報処理システムを提供することができる。本発明の一態様により、高精度の音声認識を行うことができる情報処理システムを提供することができる。本発明の一態様により、新規な情報処理システムを提供することができる。

本発明の一態様により、情報端末の誤動作を抑制することができる音響装置の動作方法を提供することができる。本発明の一態様により、雑音をキャンセルすることができる音響装置の動作方法を提供することができる。本発明の一態様により、情報端末が高精度の音声認識を行えるようにすることができる音響装置の動作方法を提供することができる。本発明の一態様により、新規な音響装置の動作方法を提供することができる。

本発明の一態様により、誤動作が抑制された情報処理方法を提供することができる。本発明の一態様により、雑音をキャンセルすることができる情報処理方法を提供することができる。本発明の一態様により、高精度の音声認識を行うことができる情報処理方法を提供することができる。本発明の一態様により、新規な情報処理方法を提供することができる。

なお、これらの効果の記載は、他の効果の存在を妨げるものではない。なお、本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。なお、これら以外の効果は、明細書、図面、請求項などの記載から抽出することが可能である。

図１Ａは、音響装置の構成例を示すブロック図である。図１Ｂ１及び図１Ｂ２は、音響装置の具体例を示す図である。
図２Ａ及び図２Ｂは、音響装置の動作方法の一例を示す模式図である。
図３は、音響装置の動作方法の一例を示すフローチャートである。
図４Ａ乃至図４Ｃは、音響装置の動作方法の一例を示す模式図である。
図５Ａ及び図５Ｂは、音響装置の動作方法の一例を示す模式図である。
図６は、音響装置の動作方法の一例を示すフローチャートである。
図７Ａ及び図７Ｂは、音響装置の動作方法の一例を示す模式図である。
図８は、音響装置の動作方法の一例を示すフローチャートである。
図９は、音響装置の動作方法の一例を示す模式図である。
図１０は、音響装置の動作方法の一例を示すフローチャートである。
図１１は、音響装置の動作方法の一例を示す模式図である。

以下、実施の形態について図面を参照しながら説明する。ただし、実施の形態は多くの異なる態様で実施することが可能であり、趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は、以下の実施の形態の記載内容に限定して解釈されるものではない。

なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。

また、本明細書等にて用いる「第１」、「第２」、「第３」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではない。

（実施の形態）
本実施の形態では、本発明の一態様の音響装置、及びその動作方法について説明する。また、本発明の一態様の音響装置を含む情報処理システム、および当該情報処理システムを用いた情報処理方法について説明する。

＜音響装置の構成例＞
本発明の一態様の音響装置は、例えばイヤホン、又はヘッドホンとすることができる。本発明の一態様の音響装置は、音検知部と、音分離部と、音判定部と、処理部と、送受信部と、音出力部と、を有する。ここで、音検知部は、例えばマイクロフォンを含む構成とすることができる。また、音出力部は、例えばスピーカーを含む構成とすることができる。

本発明の一態様の音響装置は、スマートフォン等の情報端末と電気的に接続されている。ここで、本発明の一態様の音響装置と、情報端末と、は有線接続されていてもよいし、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）等により無線接続されていてもよい。本発明の一態様の音響装置と、情報端末と、により、本発明の一態様の情報処理システムが構成されるということができる。

本発明の一態様の音響装置の使用前には、あらかじめ音声の特徴量（声紋）を登録する。例えば、本発明の一態様の音響装置の使用者の音声の特徴量を登録する。音声の特徴量は、例えば当該音声の周波数特性とすることができる。例えば、音声を表すデータである音声データに対してフーリエ変換を行うことにより得られる周波数特性とすることができる。また、音声の特徴量として、例えばメル周波数ケプストラム係数（Ｍｅｌ−Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）を用いることができる。

本発明の一態様の音響装置の使用時に、音検知部が音を検知すると、音分離部が当該音を音声と、音声以外の音と、に分離する。ここで、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。

次に、音分離部が分離した音声に対して、音判定部が特徴量抽出を行い、抽出した特徴量が登録されたものか否かを判定する。登録されたものである場合は、処理部が、音声に含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する。なお、命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。生成された命令信号は、送受信部へ出力される。

一方、音判定部が抽出した特徴量が登録されたものでない場合は、命令信号の生成は行わない。

その後、音分離部が分離した、音声以外の音に対して、当該音をキャンセルするための処理を、処理部が行う。例えば、当該音と逆位相の音を、処理部が生成する。

次に、処理部による処理が行われた音と、情報端末が発する音と、を送受信部が合成し、音出力部に出力する。ここで、情報端末が発する音は、例えば情報端末が音楽を流している場合は当該音楽とすることができる。

音出力部に出力された音は、本発明の一態様の音響装置の外部に発せられる。本発明の一態様の音響装置の使用者は、音検知部が検知した音と、音出力部が出力した音と、の合成音を聞くことができる。前述のように、音出力部が出力した音には、情報端末が発する音の他、例えば音検知部が検知した音に含まれる雑音を逆位相としたものを含むことができる。以上により、本発明の一態様の音響装置の使用者は、例えば雑音がキャンセルされた音を聞くことができる。

また、処理部が命令信号を生成し、送受信部へ出力した場合、つまり音分離部が分離した音声の特徴量が登録されたものである場合は、送受信部が命令信号を情報端末に出力する。情報端末は、命令信号が表す命令を実行する。例えば、情報端末が音楽を流しており、命令信号が「曲の種類を変える」という命令を表す場合、情報端末が流す曲を、指定されたものに変えることができる。以上が本発明の一態様の音響装置の動作方法の一例である。

音分離部が分離した音声の特徴量が登録されたものである場合のみ、処理部が命令信号を生成することで、例えば登録の有無にかかわらず命令信号を生成する場合より、情報端末の誤動作を抑制することができる。例えば、情報端末の使用者の音声の特徴量を本発明の一態様の音響装置に登録する場合、情報端末の使用者以外の音声に反応して、情報端末の使用者が意図しない動作が行われることを抑制することができる。

ここで、音声の特徴量の登録、及び音判定部に入力された音声の特徴量が登録されたものか否かの判定は、例えば機械学習モデルを用いて行うことができる。機械学習モデルとして、例えばニューラルネットワークモデルを用いると、推論を高い精度で行えるため好ましい。ニューラルネットワークモデルとして、例えばＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等を用いることができる。また、機械学習モデルの学習方法として、例えば教師あり学習を用いることができる。

教師あり学習を用いる場合、例えば音声の特徴量を学習データ、登録を行うか否かを表すラベルを教師データとすることができる。

教師あり学習を用いる場合、第１の学習と、第２の学習と、の２段階に分けて学習を行うことができる。つまり、第１の学習を行った後、追加学習として第２の学習を行うことができる。

第１の学習では、全ての学習データに対して、「登録を行わない」旨を表すラベルを教師データとして付与する。第１の学習では、学習データとして、複数人の音声の特徴量を用いることが好ましい。特に、例えば男声の学習データ、女声の学習データを偏りなく用意し、また男声、女声の中でも高い声、低い声など、様々な声質の学習データを偏りなく用意することが好ましい。これにより、後述する学習結果を用いた推論、つまり音判定部に入力された音声の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。

第２の学習では、全ての学習データに対して、「登録を行う」旨を表すラベルを教師データとして付与する。つまり、第２の学習により、音声の特徴量の登録を行うことができる。

第２の学習では、例えば、本発明の一態様の音響装置の使用者の音声の特徴量を学習データとして用いる。当該学習データとして、同一の者が様々な発声方法によって発声した音声の特徴量を、偏りなく用いることが好ましい。また、学習データとして取得された音声データに対して、例えば声の高さ等のパラメータを変更することにより、学習データの数を水増しすることが好ましい。以上により、学習結果を用いた推論、つまり音判定部に入力された音声の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。

第１の学習は、例えば本発明の一態様の音響装置の出荷前に行うことができる。一方、第２の学習は、例えば本発明の一態様の音響装置の出荷後に行うことができる。これにより、第２の学習は、例えば本発明の一態様の音響装置の使用者が自ら行うことができる。以上により、本発明の一態様の音響装置では、音声の特徴量の登録を使用者が自ら行うことができる。

以上示した学習を行うことにより、音判定部は、音分離部が分離した音声の特徴量が登録されたものか否かの判定を行うことができるようになる。具体的には、音判定部に音声が入力されると、音判定部は学習結果に基づき、音判定部に入力された音声の特徴量が登録されたものであるか否かを推論することができるようになる。

音声の特徴量が登録されたものか否かの判定を、機械学習モデルを用いて行うことにより、機械学習モデルを用いずに当該判定を行う場合より、高精度な判定を行うことができる。これにより、例えば特徴量が登録されていない音声に含まれる命令を、本発明の一態様の音響装置と電気的に接続された情報端末が実行することを抑制することができる。また、例えば特徴量が登録された音声に含まれる命令を、本発明の一態様の音響装置と電気的に接続された情報端末が実行しないことを抑制することができる。つまり、本発明の一態様の音響装置と電気的に接続された情報端末が、高精度の音声認識を行うことができる。

図１Ａは、本発明の一態様の音響装置である、音響装置１０の構成例を示す図である。なお、図１Ａでは、音響装置１０の機能等の説明のため、音響装置１０の他、音２１、情報端末２２、及び耳２３を示している。ここで、情報端末２２は、例えばスマートフォンとすることができる。また、情報端末２２は、タブレット端末、ラップトップＰＣ、携帯型（持ち出し可能な）ゲーム機等の携帯型電子機器とすることができる。なお、情報端末２２は、携帯型電子機器以外の電子機器としてもよい。

音響装置１０は、音検知部１１と、音分離部１２と、音判定部１３と、記憶部１４と、処理部１５と、送受信部１６と、音出力部１７と、を有する。

ここで、送受信部１６は、情報端末２２と電気的に接続されている。音響装置１０と、情報端末２２と、は有線接続されていてもよいし、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）等により無線接続されていてもよい。音響装置１０と、情報端末２２と、により本発明の一態様の情報処理システムが構成されるということができる。

図１Ａにおいて、矢印はデータ、信号等の流れを示す。ただし、図１Ａに示す流れは一例であり、図１Ａに示すものに限られない。他の図においても同様である。

音検知部１１は、音を検知する機能を有する。例えば、人の音声を含む音２１を検知する機能を有する。音検知部１１は、例えばマイクロフォンを含む構成とすることができる。

音分離部１２は、音検知部１１が検知した音を、特性ごとに分離する機能を有する。例えば、音検知部１１が、人の音声を含む音２１を検知した場合、音２１を音声と、音声以外の音と、に分離する機能を有する。ここで、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。

音分離部１２は、例えば音検知部１１が検知した音を、当該音の周波数に基づいて分離する機能を有する。例えば、人の音声は、主に０．２ｋＨｚ以上、４ｋＨｚ以下の周波数成分により構成される。よって、例えば音検知部１１が検知した音を、０．２ｋＨｚ以上、４ｋＨｚ以下の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離することができる。なお、人の音声の中間周波数は、１ｋＨｚ前後である言われている。よって、例えば音検知部１１が検知した音を、１ｋＨｚ前後の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離してもよい。例えば、０．５ｋＨｚ以上、２ｋＨｚ以下の周波数の音と、それ以外の周波数の音と、に分離してもよい。また、例えば音検知部１１が検知した音の種類に応じて、音分離を行う周波数を変更してもよい。例えば、音検知部１１が女声を含む音を検知した場合は、男声を含む音を検知した場合より高周波数の音を、音声として分離してもよい。音分離を行う周波数を、音検知部１１が検知した音の種類に応じて変更することにより、例えば音検知部１１が検知した音を、音声と、それ以外の音と、に高い精度で分離することができる。

音判定部１３は、音分離部１２が分離した音に対して、特徴量抽出を行う機能を有する。具体的には、例えば音分離部１２によって分離された音声に対して、特徴量抽出を行う機能を有する。なお、音声の特徴量は、声紋ということができる。

特徴量は、例えば周波数特性とすることができる。例えば、音を表すデータである音データに対してフーリエ変換を行うことにより得られる周波数特性とすることができる。また、音の特徴量として、例えばＭＦＣＣを用いることができる。

抽出を行った特徴量は、登録することができる。例えば、声紋を登録することができる。以上より、音判定部１３は、音の特徴量を登録する機能を有するということができる。登録結果は、記憶部１４に記憶させることができる。

また、音判定部１３は、抽出した特徴量が登録されたものであるか否かを判定する機能を有する。特徴量の登録、及び上記判定は、例えば機械学習モデルを用いて行うことができる。機械学習モデルは、例えばニューラルネットワークモデルを用いると、推論を高い精度で行えるため好ましい。ニューラルネットワークモデルとして、例えばＣＮＮ、ＲＮＮ等を用いることができる。また、機械学習モデルの学習方法として、例えば教師あり学習を用いることができる。

処理部１５は、例えば音分離部１２が出力した音に対して処理を行う機能を有する。例えば、音分離部１２が出力した音声に含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する機能を有する。なお、命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。

また、処理部１５は、音分離部１２が出力した音のうち、雑音等をキャンセルするための処理を行う機能を有する。例えば、当該雑音等と逆位相の音を生成することにより、音分離部１２が出力した雑音等をキャンセルすることができる。

ここで、処理部１５は、音判定部１３の判定結果に基づき処理を行う機能を有する。例えば、音分離部１２が音声を出力した場合、当該音声の特徴量が登録されたものである場合のみ、命令信号を生成することができる。

送受信部１６は、処理部１５による処理が行われた音と、情報端末２２が発する音と、を合成する機能を有する。ここで、情報端末２２が発する音は、例えば情報端末２２が音楽を流している場合は当該音楽とすることができる。

また、処理部１５が命令信号を生成した場合、当該命令信号は送受信部１６が受信することができる。送受信部１６は、受信した命令信号を情報端末２２に出力する機能を有する。情報端末２２は、命令信号が表す命令を実行する機能を有する。例えば、情報端末２２が音楽を流しており、命令信号が「曲の種類を変える」という命令を表す場合、情報端末２２が流す曲を、指定されたものに変えることができる。

前述のように、命令信号は、例えば音分離部１２が分離した音声の特徴量が登録されたものである場合のみ生成される。これにより、例えば登録の有無にかかわらず命令信号を生成する場合より、情報端末２２の誤動作を抑制することができる。例えば、情報端末２２の使用者の音声の特徴量を音響装置１０に登録する場合、情報端末２２の使用者以外の音声に反応して、情報端末２２の使用者が意図しない動作が行われることを抑制することができる。

音出力部１７は、送受信部１６が合成した音を、音響装置１０の外部に発する機能を有する。音響装置１０の使用者は、音検知部１１が検知した音と、音出力部１７が出力した音と、の合成音を耳２３で聞くことができる。前述のように、音出力部１７が出力した音には、情報端末２２が発する音の他、例えば音検知部１１が検知した音に含まれる雑音等を逆位相としたものを含むことができる。以上により、音響装置１０の使用者は、例えば雑音等がキャンセルされた音を聞くことができる。なお、音出力部１７は、例えばスピーカーを含む構成とすることができる。

図１Ｂ１及び図１Ｂ２は、音響装置１０の具体例を示す図である。図１Ｂ１に示すように、音響装置１０は、イヤホンとすることができる。具体的には、情報端末２２の使用者が着用するイヤホンとすることができる。また、図１Ｂ２に示すように、音響装置１０は、ヘッドホンとすることができる。具体的には、情報端末２２の使用者が着用するヘッドホンとすることができる。

＜音響装置の動作例＞
以下では、音響装置１０の動作方法の一例について説明する。図２Ａ及び図２Ｂは、音判定部１３が、音の特徴量が登録されたものであるか否かを、機械学習モデルを用いて判定する機能を有する場合の、音の特徴量の登録方法の一例を示す図である。具体的には、教師あり学習を用いた、音の特徴量の登録方法の一例を示す図である。

まず、図２Ａに示すように、音判定部１３が、音データ３１に対して特徴量抽出を行う。例えば、音データ３１が表す音の周波数特性を特徴量とする。例えば、音データ３１に対してフーリエ変換を行うことにより得られる周波数特性を特徴量とすることができる。また、特徴量として、例えばＭＦＣＣを用いることができる。

その後、抽出した特徴量を表すデータに、「登録を行わない」旨を表すラベルであるラベル３２を付したものを、音判定部１３に設けられるジェネレータ３０に入力する。ジェネレータ３０は、機械学習モデルを用いたプログラムである。ジェネレータ３０は、音データ３１から抽出した特徴量を表すデータを学習データ、ラベル３２を教師データとして学習を行い、学習結果３３を出力する。学習結果３３は、記憶部１４に記憶させることができる。なお、ジェネレータ３０が、ニューラルネットワークモデルを用いたプログラムである場合、学習結果３３は重み係数とすることができる。

学習データである音データ３１として、複数人の音声を用いることが好ましい。特に、例えば男声の音データ、女声の音データを偏りなく用意し、また男声、女声の中でも高い声、低い声など、様々な声質の音データを偏りなく用意して、学習を行うことが好ましい。これにより、後述する学習結果を用いた推論、つまり音判定部１３に入力された音の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。

次に、図２Ｂに示すように、音判定部１３が、音データ４１に対して特徴量抽出を行う。当該特徴量は、図２Ａで学習データとして用いた特徴量と同種の特徴量とすることが好ましい。例えば、音データ３１からＭＦＣＣを抽出して学習データとした場合は、音データ４１に対してもＭＦＣＣの抽出を行うことが好ましい。

その後、抽出した特徴量を表すデータに「登録を行う」旨を表すラベルであるラベル４２を付したものを、学習結果３３が読み込まれているジェネレータ３０に入力する。ジェネレータ３０は、音データ４１から抽出した特徴量を表すデータを学習データ、ラベル４２を教師データとして学習を行い、学習結果４３を出力する。学習結果４３は、記憶部１４に記憶させることができる。なお、ジェネレータ３０が、ニューラルネットワークモデルを用いたプログラムである場合、学習結果４３は重み係数とすることができる。

図２Ａ及び図２Ｂにおいて、「登録を行う」旨を表すラベルを「登録○」と記載して示し、「登録を行わない」旨を表すラベルを「登録×」と記載して示す。他の図面においても同様の記載をする。

学習データである音データ４１は、例えば音響装置１０の使用者の音声とする。音データ４１として音声を用いる場合、同一の者が様々な発声方法によって発声した音声の特徴量を、偏りなく用いて学習を行うことが好ましい。また、音データ４１として取得された音声データに対して、例えば声の高さ等のパラメータを変更することにより、音データ４１の数を水増しして学習を行うことが好ましい。以上により、後述する学習結果を用いた推論、つまり音判定部１３に入力された音の特徴量が登録されたものか否かの判定を、高い精度で行うことができる。

以上のように、音判定部１３は、図２Ａに示すように登録を行わない音の特徴量を学習データとして学習を行った後、図２Ｂに示すように登録を行う音の特徴量を学習データとして学習を行うことができる。つまり、第１の学習と、第２の学習と、の２段階に分けて学習を行うことができる。具体的には、図２Ａに示す第１の学習を行った後、追加学習として図２Ｂに示す第２の学習を行うことができる。

第１の学習は、例えば音響装置１０の出荷前に行うことができる。一方、第２の学習は、例えば音響装置１０の出荷後に行うことができる。これにより、第２の学習は、例えば音響装置１０の使用者が自ら行うことができる。以上により、音響装置１０では、音の特徴量の登録を、使用者が自ら行うことができる。

以上示した学習を行うことにより、音判定部１３は、例えば音分離部１２が分離した音の特徴量が登録されたものか否かの判定を行うことができるようになる。具体的には、音判定部１３に音が入力されると、音判定部１３は学習結果４３に基づき、入力された音の特徴量が登録されたものであるか否かを推論することができるようになる。

音の特徴量が登録されたものか否かの判定を、機械学習モデルを用いて行うことにより、機械学習モデルを用いずに当該判定を行う場合より、高精度な判定を行うことができる。これにより、例えば特徴量が登録されていない音に含まれる命令を、音響装置１０と電気的に接続された情報端末２２が実行することを抑制することができる。また、例えば特徴量が登録された音に含まれる命令を、音響装置１０と電気的に接続された情報端末２２が実行しないことを抑制することができる。つまり、音響装置１０と電気的に接続された情報端末２２が、高精度の音声認識を行うことができる。

次に、音響装置１０の使用時の動作方法の一例を説明する。図３は、音響装置１０の使用時の動作方法の一例を示すフローチャートである。図４Ａ乃至図４Ｃ、並びに図５Ａ及び図５Ｂは、図３に示す各ステップの詳細を説明する模式図である。なお、図２Ａ及び図２Ｂに示す方法等により、音の特徴量の登録がすでに行われているものとして、以下説明を行う。

音検知部１１が音を検知すると（ステップＳ０１）、検知した音を音分離部１２が特性ごとに分離する。例えば、音検知部１１が人の音声を含む音を検知した場合、検知した音を音分離部１２が音声と、音声以外の音と、に分離する（ステップＳ０２）。前述のように、音声以外の音は、例えば環境音であり、例えば雑音であるということができる。

ステップＳ０２の具体例を図４Ａに示す。前述のように、音分離部１２は、例えば音検知部１１が検知した音を、当該音の周波数に基づいて分離する機能を有する。図４Ａでは、音検知部１１が検知し、音分離部１２に入力された音２１を、周波数に基づいて音２１ａと、音２１ｂと、に分離する例を示している。

前述のように、人の音声は、例えば主に０．２ｋＨｚ以上、４ｋＨｚ以下の周波数成分により構成される。よって、例えば音検知部１１が検知した音を、０．２ｋＨｚ以上、４ｋＨｚ以下の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離することができる。なお、人の音声の中間周波数は、１ｋＨｚ前後である言われている。よって、例えば音検知部１１が検知した音を、１ｋＨｚ前後の周波数の音と、それ以外の周波数の音と、に分離することにより、音声と、それ以外の音と、に分離してもよい。例えば、０．５ｋＨｚ以上、２ｋＨｚ以下の周波数の音と、それ以外の周波数の音と、に分離してもよい。また、例えば音検知部１１が検知した音の種類に応じて、音分離を行う周波数を変更してもよい。例えば、音検知部１１が女声を含む音を検知した場合は、男声を含む音を検知した場合より高周波数の音を、音声として分離してもよい。音分離を行う周波数を、音検知部１１が検知した音の種類に応じて変更することにより、例えば音検知部１１が検知した音を、音声と、それ以外の音と、に高い精度で分離することができる。

以下では、音２１ａが音声であり、音２１ｂが音声以外の音であるとして説明を行う。

音分離部１２が音２１を音声である音２１ａと、音声以外の音である音２１ｂと、に分離した後、音２１ａに対して、音判定部１３が特徴量抽出を行い、抽出した特徴量が登録されたものか否かを判定する（ステップＳ０３）。具体的には、図４Ｂに示すように、音２１ａを例えば学習結果４３が読み込まれたジェネレータ３０に入力し、ジェネレータ３０が登録の有無を表すデータ２４を出力することにより、音２１ａから抽出した特徴量が登録されたものか否かを判定することができる。

音２１ａから抽出された特徴量が登録されたものである場合は、処理部１５が、音２１ａに含まれる命令を解析し、命令の内容を表す信号である命令信号を生成する（ステップＳ０４、及びステップＳ０５）。命令の解析は、例えば形態素解析等の言語処理を用いて行うことができる。一方、音２１ａから抽出された特徴量が登録されたものでない場合は、命令の解析、及び命令信号の生成は行わない（ステップＳ０４）。

図４Ｃでは、ステップＳ０５に示す処理の具体例として、音２１ａに含まれる命令が「曲の種類を変える」である場合を示している。図４Ｃに示すように、「曲の種類を変える」という命令が含まれる音２１ａが処理部１５に入力されると、「曲の種類を変える」という命令を表す命令信号２５が出力される。命令信号２５は、送受信部１６へ出力される。なお、図４Ｃにおいて、例えば「曲の種類をｘｘｘｘｘに変える」という旨を、「曲の種類を変える　Ｔｏ：ｘｘｘｘｘ」と記載して示す。他の図においても同様とする。

なお、例えば音２１ａに「曲の種類を変える」という命令を含ませるには、例えば登録された声紋を持つ者が「曲の種類を変える」という旨の言葉を発すればよい。当該言葉を含む音を音検知部１１が音２１として検知し、音分離部１２が音２１に含まれる音声を音２１ａとして分離することで、音２１ａに「曲の種類を変える」という命令を含ませることができる。よって、音響装置１０は音声認識を行う機能を有するということができる。

次に、音分離部１２が分離した、音声以外の音である音２１ｂに対して、音２１ｂをキャンセルするための処理を、処理部１５が行う（ステップＳ０６）。例えば、図５Ａに示すように、音２１ｂを処理部１５に入力し、音２１ｂと位相を反転させた音２６を出力する。

その後、処理部１５による処理が行われた音である音２６と、情報端末２２が発する音と、を送受信部１６が合成し、音出力部１７に出力する（ステップＳ０７）。ここで、情報端末２２が発する音は、例えば情報端末２２が音楽を流している場合は当該音楽とすることができる。

また、処理部１５が命令信号２５を生成し、送受信部１６へ出力した場合、つまり音分離部１２が分離した音声である音２１ａの特徴量が登録されたものである場合は、送受信部１６が、命令信号２５を情報端末２２に出力する（ステップＳ０８、ステップＳ０９）。

ステップＳ０７乃至ステップＳ０９の具体例を図５Ｂに示す。図５Ｂでは、音２１ｂの位相を反転させた音である音２６と、「曲の種類を変える」という命令を表す命令信号２５と、情報端末２２から発せられる音２７と、が送受信部１６に入力される例を示している。音２６と音２７を送受信部１６が合成し、音出力部１７に出力する。音出力部１７に入力された音は、音響装置１０の外部に発せられる。音響装置１０の使用者は、音検知部１１が検知した音２１と、音出力部１７が出力した音２６及び音２７と、の合成音を耳２３で聴くことができる。

前述のように、音２６は、音２１に含まれる雑音等の成分である音２１ｂを分離し、例えば位相を反転させた音である。よって、音響装置１０の使用者は、例えば雑音がキャンセルされた音を聞くことができる。

また、送受信部１６に命令信号２５が入力された場合、送受信部１６は命令信号２５を情報端末２２に出力する。情報端末２２は、命令信号２５が表す命令を実行する。例えば、情報端末２２が音楽を流しており、命令信号２５が「曲の種類を変える」という命令を表す場合、情報端末２２が流す曲を、指定されたものに変えることができる。以上が音響装置１０の動作方法の一例である。

音分離部１２が分離した、音声等の音の特徴量が登録されたものである場合のみ、処理部１５が命令信号２５を生成することにより、例えば登録の有無にかかわらず命令信号２５を生成する場合より、情報端末２２の誤動作を抑制することができる。例えば、情報端末２２の使用者の音声の特徴量を音響装置１０に登録する場合、情報端末２２の使用者以外の音声に反応して、情報端末２２の使用者が意図しない動作が行われることを抑制することができる。

図３等に示す動作方法では、命令信号２５が表す命令の内容にかかわらず、送受信部１６は命令信号２５を情報端末２２に出力するが、本発明の一態様はこれに限らない。命令の内容により、送受信部１６は命令信号２５を情報端末２２以外に出力してもよい。

図６は、音響装置１０の使用時の動作方法の一例を示すフローチャートであり、図３に示す動作方法の変形例である。図６に示す動作方法は、ステップＳ０５がステップＳ０５ａに置き換わり、ステップＳ０９がステップＳ０９ａに置き換わっている点が、図３に示す動作方法と異なる。

ステップＳ０５ａでは、音分離部１２が分離した、音声である音２１ａに含まれる命令を解析し、命令の内容、及び命令の出力先を表す命令信号２５を生成する。命令の出力先は、例えば命令の種類に応じて決定することができる。また、ステップＳ０９ａでは、送受信部１６が、命令信号２５を所定の出力先に出力する。

図６に示すステップＳ０７、ステップＳ０８、及びステップＳ０９ａの具体例を図７Ａ及び図７Ｂに示す。図７Ａは、命令信号２５が「曲の種類を変える」という命令を表す場合を示している。この場合、送受信部１６が命令信号２５を情報端末２２に出力し、情報端末２２は、流す曲を指定されたものに変えることができる。

図７Ｂは、命令信号２５が「音量を変える」という命令を表す例を示している。この場合、送受信部１６が命令信号２５を音出力部１７に出力し、情報端末２２から発せられる音２７の大きさを、音出力部１７が変えることができる。

なお、命令信号２５の出力先は、例えば音響装置１０の使用者が指定できるようにしてもよい。例えば、登録された声紋を持つ者が、命令信号２５の出力先を指定する言葉を発することにより、命令信号２５の出力先を指定できるようにしてもよい。

図３等に示す動作方法では、音分離部１２が分離した音２１に音声である音２１ａが含まれている場合、音２１ａから抽出された特徴量が登録されたものでなくても、処理部１５は音２１ａをキャンセルする処理を行わないものとしているが、本発明の一態様はこれに限らない。音２１ａから抽出された特徴量が登録されたものでない場合、処理部１５は、音声以外の音２１ｂだけでなく、音声である音２１ａもキャンセルする処理を行ってもよい。

図８は、音響装置１０の使用時の動作方法の一例を示すフローチャートであり、図３に示す動作方法の変形例である。図８に示す動作方法は、音２１ａから抽出された特徴量が登録されたものでない場合（ステップＳ０４）、ステップＳ０６の代わりにステップＳ０６ａを行う点が、図３に示す動作方法と異なる。図９は、ステップＳ０６ａの詳細を説明する模式図である。

ステップＳ０６ａでは、音検知部１１が検知した音２１の全てをキャンセルする処理を、処理部１５が行う。例えば、図９に示すように、音２１を処理部１５に入力し、音２１と位相を反転させた音を音２６として出力する。

また、音２１ａから抽出された特徴量が登録されたものでない場合、処理部１５は、音２１ａの大きさを小さくする処理を行ってもよい。

図１０は、音響装置１０の使用時の動作方法の一例を示すフローチャートであり、図８に示す動作方法の変形例である。図１０に示す動作方法は、ステップＳ０６ａがステップＳ０６ｂに置き換わっている点が、図８に示す動作方法と異なる。

図１１は、ステップＳ０６ｂの詳細を説明する模式図である。ステップＳ０６ｂでは、音分離部１２が分離した音２１のうち、音声である音２１ａの大きさを小さくし、音声以外の音である音２１ｂをキャンセルする処理を、処理部１５が行う。例えば、図１１に示すように、音２１ａ、及び音２１ｂを処理部１５に入力する。そして、処理部１５が音２１ａの位相を反転させ、かつ振幅を小さくする処理を行う。また、音２１ｂの位相を反転させる処理を行う。処理部１５が処理を行った音を、音２６として出力する。

以上、本実施の形態に示す方法を用いることで、情報端末２２の誤動作を抑制することができる。また、雑音等をキャンセルすることができるため、情報端末２２が高精度の音声認識を行うことができる。

１０：音響装置、１１：音検知部、１２：音分離部、１３：音判定部、１４：記憶部、１５：処理部、１６：送受信部、１７：音出力部、２１：音、２１ａ：音、２１ｂ：音、２２：情報端末、２３：耳、２４：データ、２５：命令信号、２６：音、２７：音、３０：ジェネレータ、３１：音データ、３２：ラベル、３３：学習結果、４１：音データ、４２：ラベル、４３：学習結果

Claims

　音検知部と、音分離部と、音判定部と、処理部と、を有し、
　前記音検知部は、第１の音を検知する機能を有し、
　前記音分離部は、前記第１の音を、第２の音と、第３の音と、に分離する機能を有し、
　前記音判定部は、音の特徴量を登録する機能を有し、
　前記音判定部は、前記第２の音の特徴量が前記登録されたものか否かを、機械学習モデルを用いて判定する機能を有し、
　前記処理部は、前記第２の音の特徴量が前記登録されたものである場合は、前記第２の音に含まれる命令を解析し、前記命令の内容を表す信号を生成する機能を有し、
　前記処理部は、前記第３の音に対して、前記第３の音をキャンセルするための処理を行うことにより、第４の音を生成する機能を有する音響装置。
　請求項１において、
　前記機械学習モデルの学習は、音声を学習データ、前記登録を行うか否かを表すラベルを教師データとする、教師あり学習を用いて行われる音響装置。
　請求項１又は２において、
　前記機械学習モデルは、ニューラルネットワークモデルである音響装置。
　請求項１乃至３のいずれか一項において、
　前記第４の音は、前記第３の音に対して逆位相の音である音響装置。
　第１の音を検知し、
　前記第１の音を、第２の音と、第３の音と、に分離し、
　前記第２の音の特徴量が登録されたものか否かを、機械学習モデルを用いて判定し、
　前記第２の音の特徴量が登録されたものである場合は、前記第２の音に含まれる命令を解析し、前記命令の内容を表す信号を生成し、
　前記第３の音に対して、前記第３の音をキャンセルするための処理を行うことにより、第４の音を生成する音響装置の動作方法。
　請求項５において、
　前記機械学習モデルの学習は、音声を学習データ、登録を行うか否かを表すラベルを教師データとして用いる教師あり学習を用いて行われる、音響装置の動作方法。
　請求項５又は６において、
　前記機械学習モデルは、ニューラルネットワークモデルである音響装置の動作方法。
　請求項５乃至７のいずれか一項において、
　前記第４の音は、前記第３の音に対して逆位相の音である音響装置の動作方法。