WO2020084680A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2020084680A1
WO2020084680A1 PCT/JP2018/039313 JP2018039313W WO2020084680A1 WO 2020084680 A1 WO2020084680 A1 WO 2020084680A1 JP 2018039313 W JP2018039313 W JP 2018039313W WO 2020084680 A1 WO2020084680 A1 WO 2020084680A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
abnormal sound
abnormality
abnormal
determination
Prior art date
Application number
PCT/JP2018/039313
Other languages
English (en)
French (fr)
Inventor
啓吾 川島
岡登 洋平
辰彦 斉藤
聖崇 加藤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2018/039313 priority Critical patent/WO2020084680A1/ja
Priority to JP2020551739A priority patent/JP6827602B2/ja
Publication of WO2020084680A1 publication Critical patent/WO2020084680A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

取得された音から生成された信号である音響信号の入力を受け付ける信号入力部(110)と、音響信号に基づいて、取得された音が異常音であるか否かを判定する異常音検出部(130)と、音響信号に基づいて、取得された音が棄却対象音であるか否かの判定を行い、その判定結果から、異常音検出部(130)で検出される異常音を棄却するか否かを判定する棄却部(120)と、異常音検出部(130)が、取得された音が異常音であると判定し、かつ、棄却部(120)が、異常音を棄却しないと判定した場合に、異常が発生したと判定し、異常音検出部(130)が、取得された音が異常音ではないと判定した場合、又は、棄却部(120)が、異常音を棄却すると判定した場合に、異常が発生していないと判定する異常判定部(140)とを備える。

Description

情報処理装置、プログラム及び情報処理方法
 本発明は、情報処理装置、プログラム及び情報処理方法に関する。
 従来から、乳幼児の泣き声を検出する装置がある。例えば、特許文献1に記載された乳幼児泣き声検出装置は、乳幼児の泣き声の特徴を踏まえ、一定の音圧レベル以上の第1の音声信号と、一定の音圧レベル以下で継続時間が第1の音声信号より短い第2の音声信号とが少なくとも2回交互に繰り返され、且つ、第1の音声区間が倍音構造を含み倍音構造に変化が見られる場合に、音声を泣き声と判定することで、泣き声と、その他の類似する報知音とを区別している。
特開2016-102822号公報
 従来の技術は、泣き声の特徴に基づく検出を行っているが、似た倍音構造の変化を持つサイレン又は音楽等を、泣き声として検出してしまうという問題がある。
 本発明の1又は複数の態様は、上記のような問題点を解決するためになされたもので、泣き声等の検出したい異常音とは異なる音を棄却することで、異常の検出精度を改善することを目的とする。
 本発明の第1の態様に係る情報処理装置は、取得された音から生成された信号である音響信号の入力を受け付ける信号入力部と、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部と、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部と、前記異常音検出部が、前記取得された音が前記異常音であると判定し、かつ、前記棄却部が、前記異常音を棄却しないと判定した場合に、異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、又は、前記棄却部が、前記異常音を棄却すると判定した場合に、前記異常が発生していないと判定する異常判定部と、を備えることを特徴とする。
 本発明の第2の態様に係る情報処理装置は、取得された音から生成された信号である音響信号を含む入力信号の入力を受け付ける信号入力部と、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部と、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部と、前記入力信号に基づいて、異常が発生する状況か否かを判定する異常状況判定部と、前記異常音検出部が、前記取得された音が前記異常音であると判定し、前記棄却部が、前記異常音を棄却しないと判定し、かつ、前記異常状況判定部が、前記異常が発生する状況であると判定した場合に、前記異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、前記棄却部が、前記異常音を棄却すると判定した場合、又は、前記異常状況判定部が、前記異常が発生する状況ではないと判定した場合に、前記異常が発生していないと判定する異常判定部と、を備えることを特徴とする。
 本発明の第1の態様に係るプログラムは、コンピュータを、取得された音から生成された信号である音響信号の入力を受け付ける信号入力部、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部、及び、前記異常音検出部が、前記取得された音が前記異常音であると判定し、かつ、前記棄却部が、前記異常音を棄却しないと判定した場合に、異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、又は、前記棄却部が、前記異常音を棄却すると判定した場合に、前記異常が発生していないと判定する異常判定部、として機能させることを特徴とする。
 本発明の第2の態様に係るプログラムは、コンピュータを、取得された音から生成された信号である音響信号を含む入力信号の入力を受け付ける信号入力部、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部、前記入力信号に基づいて、異常が発生する状況か否かを判定する異常状況判定部、及び、前記異常音検出部が、前記取得された音が前記異常音であると判定し、前記棄却部が、前記異常音を棄却しないと判定し、かつ、前記異常状況判定部が、前記異常が発生する状況であると判定した場合に、前記異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、前記棄却部が、前記異常音を棄却すると判定した場合、又は、前記異常状況判定部が、前記異常が発生する状況ではないと判定した場合に、前記異常が発生していないと判定する異常判定部、として機能させることを特徴とする。
 本発明の第1の態様に係る情報処理方法は、取得された音から生成された信号である音響信号の入力を受け付け、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定し、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音を棄却するか否かを判定し、前記取得された音が前記異常音であると判定され、かつ、前記異常音を棄却しないと判定された場合に、異常が発生したと判定し、前記取得された音が前記異常音ではないと判定された場合、又は、前記異常音を棄却すると判定された場合に、前記異常が発生していないと判定することを特徴とする。
 本発明の第2の態様に係る情報処理方法は、取得された音から生成された信号である音響信号を含む入力信号の入力を受け付け、前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定し、前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音を棄却するか否かを判定し、前記入力信号に基づいて、異常が発生する状況か否かを判定し、前記取得された音が前記異常音であると判定され、前記異常音を棄却しないと判定され、かつ、前記異常が発生する状況であると判定された場合に、前記異常が発生したと判定し、前記取得された音が前記異常音ではないと判定された場合、前記異常音を棄却すると判定された場合、又は、前記異常が発生する状況ではないと判定された場合に、前記異常が発生していないと判定することを特徴とする。
 本発明の1又は複数の態様によれば、泣き声等の検出したい異常音とは異なる音を棄却することで、異常の検出精度を改善することができる。
実施の形態1に係る乳幼児異常音検出装置の構成を概略的に示すブロック図である。 実施の形態1に係る乳幼児異常音検出装置のハードウェア構成を概略的に示すブロック図である。 実施の形態1に係る乳幼児異常音検出装置の動作を示すフローチャートである。 (A)~(D)は、音声言語判定部が音響信号に対応する音が音声か否かを判定する動作例を示す概略図である。 (A)~(C)は、棄却判定部が棄却するか否かを判定する動作例を示す概略図である。 (A)~(E)は、異常音判定部の動作例を示す概略図である。 実施の形態1に係る乳幼児異常音検出装置の動作の変形例を示すフローチャートである。 実施の形態2に係る乳幼児異常音検出装置の構成を概略的に示すブロック図である。 実施の形態2に係る乳幼児異常音検出装置の動作を示すフローチャートである。 異常度合いの強さを説明するための概略図である。 実施の形態3に係る乳幼児異常音検出装置の構成を概略的に示すブロック図である。 実施の形態3に係る乳幼児異常音検出装置の動作を示すフローチャートである。 (A)~(C)は、異常状況判定部が、異常が発生する状況であるか否かを判定する動作を説明するための概略図である。
実施の形態1.
 図1は、実施の形態1に係る情報処理装置としての乳幼児異常音検出装置100の構成を概略的に示すブロック図である。
 乳幼児異常音検出装置100は、信号入力部110と、棄却部120と、異常音検出部130と、異常判定部140とを備える。
 信号入力部110は、取得された音から生成された信号である音響信号を含む入力信号の入力を受け付ける。ここでは、音響信号は、少なくとも取得された音の特徴量を抽出することのできる信号であるものとする。実施の形態1では、音響信号は、図示しないマイク等の集音装置により取得された音を示す信号であるものとする。信号入力部110は、入力信号を棄却部120及び異常音検出部130に与える。
 なお、音響信号は、取得された音の特徴量を抽出することのできる信号であればよく、音声波形の振幅値の系列そのもの、符号化されたデータ、又は、属性情報等が付与されたデータを示す信号であってもよい。
 入力信号は、音響信号だけで構成されていてもよく、音響信号と同期された静止画、動画等の画像信号、周辺機器の動作状況、天気又は気温等の機器周辺の情報等のその他の情報を含んでいてもよい。なお、音響信号は、取得された音の特徴量そのものを示す信号であってもよい。
 棄却部120は、音響信号に基づいて、取得された音が棄却対象音であるか否かを判定し、その判定結果から、異常音検出部130で検出される異常音を棄却するか否かを判定する。例えば、棄却部120は、音響信号に基づいて、取得された音が音声か否かの判定、及び、音響信号に基づいて、取得された音が言語情報を含むか否かの判定の少なくともどちらか一方を行い、その判定結果に応じて、異常音検出部130で検出される異常音を棄却するか否かを判定する。ここでは、棄却対象音は、言語情報を含む音声及び非音声の少なくとも何れか一方である。
 棄却部120は、音声言語特徴量抽出部121と、音声言語判定基準記憶部122と、音声言語判定部123と、棄却判定基準記憶部124と、棄却判定部125とを備える。
 音声言語特徴量抽出部121は、音響信号から、取得された音が棄却対象音であるか否かを判定するために用いることのできる特徴量である棄却対象判定用特徴量としての音声言語判定用特徴量を抽出する棄却対象判定用特徴量抽出部である。
 例えば、音声言語判定用特徴量は、取得された音が音声か非音声かを判定するための特徴量、及び、取得された音が言語情報を含むか否かを判定するための特徴量の少なくとも何れか一方であればよい。具体的には、音声言語判定用特徴量は、音圧又はピッチであってもよい。また、音声言語判定用特徴量は、周波数特性、スペクトル包絡、フォルマント位置、ケプストラム又はメルケプストラム等の周波数特徴量であってもよい。さらに、音声言語判定用特徴量は、零交差数等の特徴量であってもよい。
 なお、音声言語判定用特徴量は、以上に記載された特徴量の動的特徴量等であってもよい。さらに、音声言語判定用特徴量は、以上に記載された特徴量の時系列情報、又は、平均値若しくは分散等の統計値であってもよい。
 抽出された音声言語判定用特徴量は、音声言語判定部123に与えられる。
 音声言語判定基準記憶部122は、音声言語判定用特徴量から、取得された音が棄却対象音であるか否かを判定するための棄却対象音判定基準である音声言語判定基準を示す棄却対象音判定基準データである音声言語判定基準データを記憶する棄却対象音判定基準記憶部である。
 音声言語判定基準は、例えば、音声言語判定用特徴量を基に、取得された音が音声か非音声かを判定するためのパラメータ若しくはモデル、又は、取得された音が言語情報を含むか否かを判定するためのパラメータ若しくはモデルであればよい。具体的には、音声言語判定基準は、一定値以上か否かで判定する際の閾値であってもよい。また、音声言語判定基準は、GMM(ガウス混合分布)等の統計モデルであってもよい。さらに、音声言語判定基準は、SVM(サポートベクターマシン)又はニューラルネット等による識別器のパラメータ又はネットワーク情報等であってもよい。
 音声言語判定部123は、音声言語判定基準データで示される音声言語判定基準を参照して、音声言語判定用特徴量に基づいて、取得された音が棄却対象音であるか否かを判定する棄却対象音判定部である。例えば、音声言語判定部123は、音声言語判定基準を参照して、音声言語判定用特徴量に対応する音が音声か否かの判定、及び、音声言語判定用特徴量に対応する音が言語情報を含むか否かの判定の少なくともどちらか一方の判定処理を行う。
 そして、音声言語判定部123は、そのような判定処理の結果である棄却対象音判定結果としての音声言語判定結果を、棄却判定部125に与える。
 音声言語判定結果は、取得された音が棄却対象音であるか否かを示す判定結果を含む情報であればよい。例えば、音声言語判定結果は、取得された音が棄却対象音であるか否かの2値情報であってもよい。また、音声言語判定結果は、取得された音が棄却対象音であるか否かの度合いを示す数値情報であってもよい。さらに、音声言語判定結果は、取得された音が棄却対象音であるか否かを、一定時間毎に示す時系列情報であってもよい。
 棄却判定基準記憶部124は、音声言語判定結果に基づいて、異常音検出部130で検出された異常音を棄却するか否かを判定するための棄却判定基準を示す棄却判定基準データを記憶する。例えば、棄却判定基準は、一定値以上か否かで判定する際の閾値であってもよい。また、棄却判定基準は、GMM等の統計モデルにより複数時間を利用して学習された棄却判定用のモデルであってもよい。このような場合には、そのモデルに対する近さから棄却判定が行われる。さらに、棄却判定基準は、SVM又はニューラルネット等により学習された識別器であってもよい。
 棄却判定部125は、棄却判定基準データで示される棄却判定基準を参照して、異常音検出部130で検出される異常音を棄却するか否かを判定する。そして、棄却判定部125は、その判定結果である棄却判定結果を異常判定部140に与える。
 棄却判定結果は、棄却するかしないかの2値情報であってもよい。また、棄却判定結果は、棄却の度合いを表現した数値情報であってもよい。さらに、棄却判定結果は、棄却ではなく受理するか否かの情報であってもよい。さらにまた、棄却判定結果は、一定時間毎に、棄却するか否かを示す時系列情報であってもよい。
 異常音検出部130は、音響信号に基づいて、取得された音が異常音であるか否かを判定する。
 異常音検出部130は、異常音特徴量抽出部131と、異常音判定基準記憶部132と、異常音判定部133とを備える。
 異常音特徴量抽出部131は、音響信号から、取得された音が異常音であるか否かを判定するために用いることのできる特徴量である異常音判定用特徴量を抽出する。
 例えば、異常音判定用特徴量は、音圧又はピッチであってもよい。また、異常音判定用特徴量は、周波数特性、スペクトル包絡、フォルマント位置、ケプストラム又はメルケプストラム等の周波数特徴量であってもよい。さらに、異常音判定用特徴量は、それらの動的特徴量であってもよい。さらにまた、異常音判定用特徴量は、以上に記載された特徴量の時系列情報であってもよく、以上に記載された特徴量の平均値又は分散等の統計値であってもよい。
 異常音判定基準記憶部132は、異常音判定用特徴量から、取得された音が異常音であるか否かを判定するための異常音判定基準を示す異常音判定基準データを記憶する。
 異常音判定基準は、異常音判定用特徴量を基に、取得された音が異常音であるか否かを判定するためのパラメータ又はモデルであってもよい。例えば、異常音判定基準は、一定値以上か否かで判定する際の閾値であってもよい。また、異常音判定基準は、GMM等の統計モデルであってもよい。さらに、異常音判定基準は、SVM又はニューラルネット等による識別器のパラメータ又はネットワーク情報等であってもよい。
 異常音判定部133は、異常音判定基準データで示される異常音判定基準を参照して、異常音判定用特徴量に基づいて、取得された音が異常音であるか否かを判定する。
 そして、異常音判定部133は、そのような判定処理の結果である異常音検出結果を、異常判定部140に与える。
 異常音検出結果は、取得された音が異常音であるか否かを示す情報であればよい。例えば、異常音検出結果は、取得された音が異常音であるか否かの2値情報であってもよい。また、異常音検出結果は、取得された音が異常音である確率を表現した数値情報であってもよい。
 異常判定部140は、棄却部120での棄却判定結果、及び、異常音検出部130での異常音検出結果に応じて、異常が発生したか否かを判定する。例えば、異常判定部140は、異常音検出部130が、取得された音が異常音であると判定し、かつ、棄却部120が、異常音を棄却しないと判定した場合に、異常が発生したと判定する。また、異常判定部140は、異常音検出部130が、取得された音が異常音ではないと判定した場合、又は、棄却部120が、異常音を棄却すると判定した場合に、異常が発生していないと判定する。
 そして、異常判定部140は、異常が発生したか否かの判定結果を示す異常判定結果を出力する。
 異常判定結果は、取得された音が異常か否かの2値情報であってもよい。また、異常判定結果は、異常である確率あるいは正常である確率を表現した数値情報であってもよい。
 図2は、実施の形態1に係る乳幼児異常音検出装置100のハードウェア構成を概略的に示すブロック図である。
 図2に示されているように、乳幼児異常音検出装置100は、メモリ101と、プロセッサ102と、インタフェース(I/F)103とを備える。
 メモリ101は、乳幼児異常音検出装置100での処理に必要なプログラム及びデータを記憶する。
 例えば、メモリ101は、コンピュータを、音声言語特徴量抽出部121、音声言語判定部123、棄却判定部125、異常音特徴量抽出部131、異常音判定部133及び異常判定部140として機能させるプログラムを記憶する。
 このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
 また、メモリ101は、音声言語判定基準データ、棄却判定基準データ及び異常音判定基準データを記憶する。このため、メモリ101は、音声言語判定基準記憶部122、棄却判定基準記憶部124及び異常音判定基準記憶部132として機能する。
 また、メモリ101は、入力信号、棄却判定結果、音声言語判定用特徴量、音声言語判定結果、異常音検出結果、異常音判定用特徴量及び異常判定結果といった中間データも記憶する。
 プロセッサ102は、メモリ101からプログラムを読み出して実行するCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等の回路である。このため、プロセッサ102は、音声言語特徴量抽出部121、音声言語判定部123、棄却判定部125、異常音特徴量抽出部131、異常音判定部133及び異常判定部140として機能する。
 I/F103は、信号及び指示の入力を受け付ける。
 I/F103は、音響I/F104、画像I/F105、入力I/F106及びネットワークI/F107を備える。
 音響I/F104は、音を取得する集音装置としてのマイクから音響信号の入力を受けるインタフェースである。
 また、音響I/F104は、異常判定結果を異常音自体又は報知音として、出力手段としてのスピーカーへ出力するインタフェースである。
 乳幼児異常音検出装置100が、マイクによる録音、及び、スピーカーによる再生を必要としない構成となっていれば、音響I/F104は、不要である。
 画像I/F105は、撮像装置としてのカメラから画像信号の入力を受けるインタフェースである。
 また、画像I/F105は、異常判定結果をテキスト又は画像として表示するために、異常判定結果をモニタ等の表示装置へ出力するインタフェースである。
 乳幼児異常音検出装置100が、カメラでの撮影、及び、表示装置での表示を必要としない構成となっていれば、画像I/F105は、不要である。
 入力I/F106は、メモリ101におけるデータ又はネットワーク上のデータを参照する場合に、位置を指定するためのテキスト情報等の入力を受け付ける入力装置としてのキーボード又はマウス等を接続するためのインタフェースである。
 乳幼児異常音検出装置100が、キーボード又はマウス等による入力を必要としない構成となっていれば、入力I/F106は、不要である。
 ネットワークI/F107は、ネットワーク上のデータから参照する場合、又は、ストリームデータを入力する場合に、通信するためのインタフェースである。
 また、ネットワークI/F107は、異常判定結果をネットワーク上の別の機器へ送信する場合に、通信するためのインタフェースである。
 乳幼児異常音検出装置100が、通信を必要としない構成となっていれば、ネットワークI/F107は、不要である。
 なお、図2において、メモリ101は、乳幼児異常音検出装置100の内部に配置したが、メモリ101は、USB(Universal Serial Bus)メモリ等の外部メモリにより構成されてもよい。また、メモリ101は、乳幼児異常音検出装置100の内部メモリ及び外部メモリにより構成されていてもよい。
 次に、実施の形態1における動作について説明する。
 図3は、実施の形態1に係る乳幼児異常音検出装置100の動作を示すフローチャートである。
 図3に示されているフローチャートは、信号入力部110が入力信号の入力を受け付けることで、開始される。なお、信号入力部110は、入力信号を、棄却部120の音声言語特徴量抽出部121及び異常音検出部130の異常音特徴量抽出部131に与える。なお、実施の形態1では、入力信号に、音響信号が含まれているものとする。
 入力信号は、マイク又はカメラ等の音響信号が取得可能なデバイスから入力を受け付ければよい。また、キーボード又はマウス等のデバイスを介して、メモリ又はネットワーク上のデータを選択することで、信号入力部110は、選択された入力信号を読み込んでもよい。さらに、信号入力部110は、通信又は他の装置から取得したストリームデータを示す信号を入力信号として入力を受け付けてもよい。
 まず、音声言語特徴量抽出部121は、入力信号に含まれている音響信号から音声言語判定用特徴量を抽出する(S10)。抽出された音声言語判定用特徴量は、音声言語判定部123に与えられる。
 次に、音声言語判定部123は、音声言語判定基準記憶部122に記憶されている音声言語判定基準データで示されている音声言語判定基準を参照して、音声言語判定用特徴量から、音響信号に対応する音が音声か非音声か、及び、音響信号に対応する音が言語情報を含むか否かを判定し、その判定結果である音声言語判定結果を生成する(S11)。生成された音声言語判定結果は、棄却判定部125に与えられる。
 音響信号に対応する音が音声か否かを判定する場合、例えば、音圧、ピッチ又は周波数特性等の短時間での変動幅又は動的特徴量が、一定以上の揺らぎがあれば、音響信号に対応する音は、機械音ではない可能性が高く、音声であると判定することが可能である。
 図4(A)~(D)は、ステップS11において、音声言語判定部123が音響信号に対応する音が音声か否かを判定する動作例を示す概略図である。
 図4(A)は、音声の音圧の時間変動を示す概略図であり、図4(B)は、機械音の音圧の時間変動を示す概略図である。
 図4(C)は、図4(A)に示されている音圧の時間における変動幅を示す概略図であり、図4(D)は、図4(B)に示されている音圧の時間における変動幅を示す概略図である。
 図4(C)及び図4(D)に示されている音圧の変動幅を、例えば、音声言語判定基準で示されている閾値を用いて、一定時間以上、音圧の変動幅が閾値を超えたか否かにより、音声か非音声かを判断することができる。
 一般に、音声と比べて機械音等の非音声は、一定の値の連続又は線形的な変化である場合が多いため、短時間変動幅又は動的特徴量に差が出るためである。
 なお、音声言語判定部123での動作は、図4に示されているような閾値判定に限定されるものではない。
 例えば、音声言語判定基準が、GMM等の統計モデルにより予め学習された音声モデル及び非音声モデルである場合には、音響信号に対応する音がどちらのモデルが近いかにより音声及び非音声の判定が行われてもよい。また、音声言語判定部123は、音響信号に対応する音の、音声モデル及び非音声モデルに対する近さ(尤度)を算出することにより、その近さが一定値以上である場合に、音声又は非音声と判定してもよい。
 また、音声言語判定基準が、SVM又はニューラルネット等により学習された識別器である場合には、音声言語判定部123は、その識別器を用いて、音響信号に対応する音を音声又は非音声と判定してもよい。なお、音声言語判定部123は、その他の公知の判定手法を用いて、音声又は非音声の判定を行ってもよい。
 また、音声言語判定部123は、言語情報を含むか否かを判定する場合には、スペクトル包絡、フォルマント位置又はケプストラム等の音韻に応じて変化する特徴量を音声言語特徴量として利用し、前記の音声又は非音声の判定と同様の処理を行えばよい。
 さらに、音声言語判定部123は、音声認識処理を利用し、単語に対する尤度が一定値以上であった場合に言語情報を含むと判定するようにしてもよい。
 また、音声言語判定部123は、RNN(Recurrent Neural Network)又はCNN(Convolution Neural Network)等を利用した深層ニューラルネットにより学習されたネットワークパラメータを用いて、入力信号に含まれている音響信号を入力とし、音声か非音声か、及び、言語情報を含むか否かを直接判定するようにしてもよい。その場合には、音声言語特徴量抽出部121は、不要である。
 また、上記の動作例では、音声言語判定部123は、入力信号に対して一つの音声言語判定結果を生成しているが、実施の形態1はこのような例に限定されない。例えば、音声言語判定部123は、一定時間毎に区切った単位をシフトしながら判定結果を算出し、算出された判定結果の系列を音声言語判定結果としてもよい。
 図3に戻り、棄却判定部125は、棄却判定基準記憶部124に記憶されている棄却判定基準データで示される棄却判定基準を参照して、音声言語判定結果から、異常音検出部130で検出される異常音を棄却するか否かを判定する(S12)。その判定結果を示す棄却判定結果は、異常判定部140に与えられる。
 図5(A)~(C)は、ステップS12において、棄却判定部125が棄却をするか否かを判定する動作例を示す概略図である。
 図5(A)は、音声言語判定結果の一例を示す概略図である。図5(A)に示されている例では、音声言語判定結果は、時系列情報として示されている。
 図5(A)に示されている音声言語判定結果では、音声であるか否かの判定は、1(音声)と0(非音声)の2値で示されており、言語情報を含むか否かは、言語情報を含む確率で示されている。
 図5(B)は、棄却判定基準を示す概略図である。図5(B)に示されている例では、棄却判定基準は、条件1と、条件2とを備えている。
 条件1は、音声であるか否かの判定が0(非音声)であることを示している。
 条件2は、音声であるか否かの判定が1(音声)であり、かつ、言語情報を含むか否かの判定として示された確率が0.5を超えていることを示している。
 図5(C)は、棄却判定部125による判定結果を示す概略図である。図5(C)に示されている例では、図5(A)に示されている時系列に従って、棄却するか否かが示されている。
 ここでは、棄却判定部125は、条件1及び条件2の何れかの条件が満たされた場合に、棄却すると判断している。
 図5に示されている棄却判定基準は、条件1と条件2とのOR条件になっているが、実施の形態1は、このような例に限定されない。
 例えば、条件2に示されている音声か否かの判定結果と、言語情報を含むか否かの判定結果とを、それぞれ条件3と条件4とに分け、条件3及び条件4のAND条件としてもよい。このような場合、棄却判定基準は、条件1と、条件3及び条件4のAND条件とのOR条件となる。
 なお、棄却判定部125での動作は、図5に示されているような閾値判定に限定されるものではない。
 例えば、棄却判定基準が、GMM等の統計モデルにより予め学習された、複数時間を思料した棄却判定用のモデルである場合には、音声言語判定結果のモデルに対する近さから棄却判定が行われてもよい。
 また、棄却判定基準が、SVM又はニューラルネット等により学習された識別器である場合には、棄却判定部125は、その識別器を用いて、棄却するか否かを判定してもよい。なお、棄却判定部125は、その他の公知の判定手法を用いて、棄却するか否かの判定を行ってもよい。
 図3に戻り、異常音特徴量抽出部131は、入力信号に含まれている音響信号から異常音判定用特徴量を抽出する(S13)。抽出された異常音判定用特徴量は、異常音判定部133に与えられる。
 なお、音声言語判定用特徴量及び異常音判定用特徴量として同じ特徴量が利用される場合には、音声言語特徴量抽出部121及び異常音特徴量抽出部131の何れかでのみ処理が行われればよい。
 次に、異常音判定部133は、異常音判定基準記憶部132に記憶されている異常音判定基準データで示される異常音判定基準を参照して、異常音判定用特徴量から、音響信号に対応する音が異常音であるか否かを判定する(S14)。そして、異常音判定部133は、その判定結果を示す異常音検出結果を異常判定部140に与える。
 図6(A)~(E)は、ステップS14における異常音判定部133の動作例を示す概略図である。
 図6(A)は、音響信号に対応する音が幼児の泣き声である場合の周波数スペクトルを示す概略図である。幼児の泣き声は、一般的に、スペクトル傾斜がプラスとなり、平均ピッチが高い周波数となる。
 図6(B)は、音響信号に対応する音が大人の普通の話し声である場合の周波数スペクトルを示す概略図である。大人の話し声は、一般的に、スペクトル傾斜がマイナスとなり、平均ピッチが低い周波数となる。
 図6(C)は、音響信号に対応する音が大人の大声である場合の周波数スペクトルを示す概略図である。大人の大声は、一般的に、スペクトル傾斜がプラスとなり、平均ピッチが低い周波数となる。
 図6(D)は、異常音判定基準の一例を示す概略図である。図6(D)に示されている異常音判定基準は、幼児の泣き声を異常音として検出する場合の基準である。図6(D)に示されているように、異常音判定用特徴量としてのスペクトル傾斜がプラスであり、かつ、異常音判定用特徴量としてのピッチが、400Hz以上の周波数である場合に、音響信号に対応する音が異常音であると判定される。
 図6(E)は、異常音判定部133での異常音の判定結果を示す概略図である。図6(D)に示されている異常音判定基準によれば、スペクトル傾斜がプラスであり、ピッチが400Hz以上であるという条件により、図6(A)に示されている幼児の泣き声が、異常音として検出される。
 なお、図6(D)に示されている異常音判定基準は、異常音の検出条件をAND条件としているが、OR条件であってもよい。
 また、例えば、条件1:「スペクトル傾斜がプラス」、条件2:「ピッチが400Hz以上」、及び、条件3:「音圧が50dB以上」として、(条件1AND条件2)OR条件3により、異常音の判定が行われてもよい。
 なお、異常音判定部133での動作は、図6に示されているような閾値判定に限定されるものではない。
 例えば、異常音判定基準が、GMM等の統計モデルにより予め学習された異常音モデルである場合には、音響信号に対応する音の異常音モデルへの近さにより異常音であるか否かの判定が行われてもよい。
 また、異常音判定基準が、SVM又はニューラルネット等により学習された識別器である場合には、異常音判定部133は、その識別器を用いて、音響信号に対応する音が異常音であるか否かを判定してもよい。なお、異常音判定部133は、その他の公知の判定手法を用いて、異常音であるか否かの判定を行ってもよい。
 また、異常音判定部133は、RNN又はCNN等を利用した深層ニューラルネットにより学習されたネットワークパラメータを用いて、入力信号に含まれている音響信号を入力とし、異常音か否かを直接判定するようにしてもよい。その場合には、異常音特徴量抽出部131は、不要である。
 また、異常音判定部133は、異常音判定基準に対応付けて、過去の異常音の検出頻度を保持しておくことで、その検出頻度が閾値よりも高い場合には、取得された音が異常音と判定しづらくなるように異常音判定基準を変更することにより、異常音と判定しないようにしてもよい。この場合、例えば泣き癖のある子に対して過度に異常音の検出を行わないようにすることができる。
 さらに、異常音判定部133は、過去の異常音の検出頻度に応じて、異常音判定基準を変更するようにしてもよい。例えば、異常音判定部133は、その検出頻度が高い場合には、異常音判定基準において、異常音として検出するための条件を厳しくするようにしてもよい。例えば、異常音判定部133は、検出頻度が高い場合に、ピッチをより高い周波数に変更するなどにより、検出頻度が閾値以下となるようにすることもできる。この場合、例えば泣き癖のある子に対して過度に検出しないようにし、且つ、通常と比べて異常な特徴を示す場合には、異常とみなすことができる。
 図3に戻り、異常判定部140は、棄却判定結果及び異常音検出結果に従って、異常の判定を行う(S15)。例えば、異常判定部140は、棄却判定結果において棄却しないと判定され、かつ、異常音検出結果において異常音であると判定された場合に、異常と判定する。そして、異常判定部140は、その判定結果を異常判定結果として出力する。
 なお、図3に示されているフローチャートでは、棄却部120での処理の後に、異常音検出部130での処理が行われているが、実施の形態1は、以上のような例に限定されない。例えば、異常音検出部130での処理の後に、棄却部120での処理が行われてもよく、棄却部120での処理と、異常音検出部130での処理とが並列して行われてもよい。
 また、図7に示されているフローチャートのように、図3に示されているフローチャートのステップS12と、ステップS13との間に、ステップS16を設けてもよい。
 この場合には、ステップS16において、棄却部120は、異常音を棄却すると判定したか否かを判断する。
 そして、異常音を棄却すると判定した場合(ステップS16でYes)には、棄却部120は、異常音検出部130での処理を行わずに、異常ではないと判定して、動作を終了してもよい。
 さらに、この場合には、図3に示されているステップS15の処理を行わずに、異常音検出部130が異常音であると判断した場合に、異常音検出部130が、その旨を示す異常判定結果を出力すればよい。このため、異常判定部140は不要である。
 以上のように、実施の形態1では、音響信号に基づいて、取得された音が棄却対象音であるか否かを判定し、その判定結果から、異常音検出部130で検出される異常音を棄却するか否かを判定する。そして、その判定結果に応じて、異常判定部140が、異常音検出部130で異常音が検出されたとしても、その異常音を棄却する。
 これにより、異常音検出部130に、幼児の泣き声と区別が困難な音、例えば、サイレン等の騒音又は高い声の大人の大声等、が入力された場合にも、異常判定部140で異常との判定を行わないようにすることができる。従って、実施の形態1によれば、異常の検出精度を改善することができる。
 また、棄却判定基準を変更可能とすることで、幼児の泣き声以外にも、例えば、大人の怒号も異常音として検知するように修正することができ、異常音の検出対象を変更等することができる。
 また、棄却部120が棄却すると判定した場合に、後段の処理を行わず異常ではないと判断することで、異常音検出の処理コストを削減することができる。
 また、過去の異常音の検出頻度が閾値よりも高い場合に、異常音と検出しないようにした場合、泣き癖がある子等に対して、過度に異常を検出することを抑制でき、異常の検出精度を改善することができる。
 また、過去の異常音の検出頻度に応じて異常音判定基準を調整するようにした場合、泣き癖がある子等に対し、特徴が通常より強く出ている場合にのみ検出することが可能であり、過度に検出することを抑制でき、異常の検出精度を改善することができる。
実施の形態2.
 以上の実施の形態1では、音響信号に基づいて、取得された音が異常か否かを判定する際に、音声が含まれているか否か及び言語情報が含まれているか否かに基づき、異常音を棄却するか否かを判定している。そして、異常音を棄却しない場合には、異常との判定が行われている。実施の形態2では、異常音を検出する際に、異常の度合いを推定し、異常判定結果に含めて出力する実施の形態を示す。
 図8は、実施の形態2に係る情報処理装置としての乳幼児異常音検出装置200の構成を概略的に示すブロック図である。
 乳幼児異常音検出装置200は、信号入力部110と、棄却部120と、異常音検出部230と、異常判定部240とを備える。
 実施の形態2における信号入力部110及び棄却部120は、実施の形態1における信号入力部110及び棄却部120と同様である。
 異常音検出部230は、音響信号に基づいて、取得された音が異常音であるか否かを判定するとともに、取得された音が異常音であると判定した場合に、異常の度合いを示す異常度合いを推定する。
 実施の形態2における異常音検出部230は、異常音特徴量抽出部131と、異常音判定基準記憶部132と、異常音判定部133と、異常度合推定部234とを備える。
 実施の形態2における異常音特徴量抽出部131、異常音判定基準記憶部132及び異常音判定部133は、実施の形態1における異常音特徴量抽出部131、異常音判定基準記憶部132及び異常音判定部133と同様である。
 異常度合推定部234は、異常音判定部133から異常音検出結果を取得して、その異常音検出結果が異常音であることを示している場合に、異常音判定用特徴量から、異常度合いを推定する。そして、異常度合推定部234は、異常音判定部133から与えられた異常音検出結果に、推定された異常度合いを追加した度合付き異常音検出結果を、異常判定部240に与える。
 度合付き異常音検出結果は、音響信号に対応する音が異常音であるか否か及びその異常度合いを示す情報であればよい。異常音であるか否かは2値情報であってもよく、異常音である確率を表現した数値情報であってもよい。異常度合いは、予め定義された離散化された数値又はシンボルであってもよく、度合いを示す連続値であってもよい。
 異常判定部240は、棄却部120での棄却判定結果、及び、異常音検出部230での度合付き異常音検出結果に応じて、異常か否かを判定する。
 そして、異常判定部240は、取得された音が異常状態か否かの判定結果を示す異常判定結果を出力する。
 異常判定結果は、音響信号に基づいて、取得された音が異常状態か否か及びその異常度合を示す判定結果を含む情報であればよい。
 実施の形態2に係る乳幼児異常音検出装置200のハードウェア構成は、図2に示されている構成と同様である。
 ここで、プロセッサ102は、異常度合推定部234及び異常判定部240としても機能する。
 次に、実施の形態2における動作について説明する。
 図9は、実施の形態2に係る乳幼児異常音検出装置200の動作を示すフローチャートである。
 図9に示されているステップS10~S14までの処理は、図3のステップS10~S14までの処理と同様である。
 但し、ステップS14において、異常音判定部133は、異常音検出結果及び異常音判定用特徴量を異常度合推定部234に与える。そして、処理は、ステップS20に進む。
 ステップS20では、異常度合推定部234は、異常音検出結果及び異常音判定用特徴量を受け取り、異常音検出結果が異常音であることを示している場合に、検出された異常音の異常度合いを推定し、その推定結果を含む度合付き異常音検出結果を異常判定部240に与える。
 異常度合いの強さを乳幼児の泣き声の強さとした場合、音圧、ピッチ、1泣き中のピッチの変化、1泣きの長さ、息継ぎの量及び周波数の倍音構造の強さにおいて、図10に示されているような変化が見られることが多い。このため、異常度合推定部234は、異常度合いとして、これらの特徴量の少なくとも1つの値そのもの又は離散化した値を出力すればよい。
 なお、「1泣き」は、例えば、「音圧が一定値以上の連続する信号」、「音圧が一定以下となる無音区間に挟まれた信号区間」、又は、その他の公知の発話区間検出方法によって定められる単位を1泣きと想定すればよい。なお、統計モデルの学習時においては、人手でラベル付けされたデータにより「1泣き」が特定されればよい。
 また「息継ぎの量」は、例えば、息継ぎの音声から抽出したスペクトル情報を利用して、GMM又はHMMによる統計的な識別モデルにより検出されればよい。その他、ピッチの検出されない瞬時的な大きい音圧(閾値判定)等により、「息継ぎの量」が検出されればよい。
 また、GMM等の統計モデルにより異常度合いの強い音を予め学習して、そのモデルに対する近さから異常度合いが推定されてもよい。
 さらに、SVM又はニューラルネット等により異常度合い毎の識別器を学習し、その識別器を用いて、異常度合いが推定されてもよい。
 その他の公知の識別手法を用いられて、異常度合いが推定されてもよい。
 また、異常音検出結果が、異常音が含まれている確率である場合、その値を異常度合いとしてもよい。
 次に、異常判定部240は、棄却判定結果及び度合付き異常音検出結果に従って、異常の判定を行う(S21)。例えば、異常判定部240は、棄却判定結果において棄却しないと判定され、かつ、異常音検出結果において異常音であると判定された場合に、異常と判定する。そして、異常判定部240は、その判定結果及び異常度合いを含む異常判定結果を度合付き異常判定結果として出力する。
 以上のように、実施の形態2では、異常度合推定部234により異常度合いが推定されている。これにより、異常の通知先に異常の深刻さを含む情報を通知することができ、高度化できるという効果がある。
 また、乳幼児の泣き声と相関のある特徴量である音圧、ピッチ、1泣き中のピッチの変化、1泣きの長さ、息継ぎの量及び周波数の倍音構造の強さの少なくとも一つを特徴量として、異常度合いを推定し出力するように構成した場合には、泣き声に関する異常度合いの推定精度が向上するという効果がある。
実施の形態3.
 実施の形態3は、周辺環境から異常が発生する状況か否かを判定し、異常が発生する状況でなければ棄却判定を行う形態を示す。
 図11は、実施の形態3に係る情報処理装置としての乳幼児異常音検出装置300の構成を概略的に示すブロック図である。
 乳幼児異常音検出装置300は、信号入力部110と、棄却部120と、異常音検出部130と、異常判定部340と、異常状況判定基準記憶部350と、異常状況判定部360とを備える。
 実施の形態3における信号入力部110、棄却部120及び異常音検出部130は、実施の形態1における信号入力部110、棄却部120及び異常音検出部130と同様である。
 異常状況判定基準記憶部350は、入力信号から異常が発生する状況か否かを判定するための基準である異常状況判定基準を示す異常状況判定基準データを記憶する。
 異常状況判定基準は、入力信号を基に異常が発生する状況かを判定するためのパラメータ又はモデルであればよい。具体的には、異常状況判定基準は、一定値以上か否かで判定する際の閾値であってもよい。また、異常状況判定基準は、GMM等の統計モデルであってもよい。さらに、異常状況判定基準は、SVM又はニューラルネット等による識別器のパラメータ又はネットワーク情報等であってもよい。
 異常状況判定部360は、異常状況判定基準データで示される異常状況判定基準を参照して、入力信号に基づいて、異常が発生する状況か否かを判定する。そして、異常状況判定部360は、異常が発生しない状況であれば、異常音検出部130で検出された異常音を棄却するための状況基準棄却判定結果を異常判定部340に与える。
 状況基準棄却判定結果は、異常が発生しない状況であると判断された場合に、異常音検出部130で検出された異常音を棄却するための情報であればよい。具体的には、状況基準棄却判定結果は、棄却するかしないかの2値情報であってもよく、棄却する度合いを表現した数値情報であってもよい。また、状況基準棄却判定結果は、棄却ではなく受理するか否かの情報であってもよい。また、状況基準棄却判定結果は、一定時間毎に算出された時系列情報であってもよい。
 異常判定部340は、棄却判定結果、異常音検出結果及び状況基準棄却判定結果に基づいて、異常か否かを判定し、その判定結果である異常判定結果を出力する。例えば、異常判定部340は、異常音検出部130が、取得された音が異常音であると判定し、棄却部120が、異常音を棄却しないと判定し、かつ、異常状況判定部360が、異常が発生する状況であると判定した場合に、異常が発生したと判定する。また、異常判定部340は、異常音検出部130が、取得された音が異常音ではないと判定した場合、棄却部120が、異常音を棄却すると判定した場合、又は、異常状況判定部360が、異常が発生する状況ではないと判定した場合に、異常が発生していないと判定する。
 実施の形態3に係る乳幼児異常音検出装置300のハードウェア構成は、図2に示されている構成と同様である。
 ここで、メモリ101は、異常状況判定基準記憶部350としても機能する。また、プロセッサ102は、異常状況判定部360及び異常判定部340としても機能する。
 次に、実施の形態3における動作について説明する。
 図12は、実施の形態3に係る乳幼児異常音検出装置300の動作を示すフローチャートである。
 図9に示されているステップS10~S14までの処理は、図3のステップS10~S14までの処理と同様である。
 但し、ステップS14の処理の後に、処理はステップS30に進む。
 ステップS30では、異常状況判定部360は、異常状況判定基準データで示される異常状況判定基準を参照して、入力信号に基づいて、異常が発生する状況か否かを判定する。そして、異常状況判定部360は、異常が発生しない状況であると判定した場合には、状況基準棄却判定結果を異常判定部340に与える。
 例えば、車内への乳幼児の置き去りを、異常判定部340で検出すべき異常と想定すると、大人が存在する場合、又は、空調が動作しており、かつ、置き去りにされてから短時間である場合等において、問題とならない可能性が高い。
 図13(A)~(C)は、異常状況判定部360が、異常が発生する状況であるか否かを判定する動作を説明するための概略図である。
 図13(A)は、入力信号に、周辺機器情報と、環境情報とが含まれている例を示す。
 周辺情報は、例えば、空調の稼動状態及び窓の状態を示す情報であり、環境情報は、人物検出結果、天気、外気温及び時刻を示す情報である。
 図13(B)は、異常情報判定基準の一例を示す概略図である。
 異常情報判定基準は、条件1~条件3を含んでおり、条件1~条件3の何れかが満たされた場合に、異常が発生しない状況であると判定される。
 図13(C)に示されているように、周辺機器情報及び環境情報が、異常状況判定基準の条件1と合致することから、異常が発生しない状態であると判定される。
 なお、異常状況判定部360は、数値化したデータである入力信号から閾値を用いて、異常が発生する状況であるか否かを判定してもよい。
 また、異常状況判定部360は、GMM等の統計モデルにより異常度合の強い音を予め学習されたモデルに対する近さから異常度合いを推定して、異常が発生する状況であるか否かを判定してもよい。
 さらに、異常状況判定部360は、SVM又はニューラルネット等により異常度合い毎の識別器を学習し、学習された識別器を用いて異常度合いを推定し、異常が発生する状況であるか否かを判定してもよい。
 なお、異常状況判定部360は、その他の公知の識別手法を用いて、異常が発生する状況であるか否かを判定してもよい。
 図12に戻り、異常判定部340は、棄却判定結果、異常音検出結果及び状況基準棄却判定結果に基づいて、異常か否かを判断する(S31)。例えば、異常判定部340は、棄却判定結果及び異常音検出結果の入力を受けて、棄却判定結果が棄却しないことを示しており、かつ、異常音検出結果において異常音であると判定された場合でも、状況基準棄却判定結果が入力された場合には、異常はないと判断する。
 そして、異常判定部340、異常であるか否かの判定結果である異常判定結果を出力する。
 以上のように、実施の形態3は、周辺機器情報又は環境情報等を含む入力信号に基づいて、異常が発生する状況か否かを判定することで、異常が発生しない状況に検出された異常音を棄却するように構成されている。これにより、音だけでは判断できない非異常状態を考慮した異常検出が可能となり、検出精度を改善できるという効果がある。
 100,200,300 乳幼児異常音検出装置、 110 信号入力部、 120 棄却部、 121 音声言語特徴量抽出部、 122 音声言語判定基準記憶部、 123 音声言語判定部、 124 棄却判定基準記憶部、 125 棄却判定部、 130,230 異常音検出部、 131 異常音特徴量抽出部、 132 異常音判定基準記憶部、 133 異常音判定部、 234 異常度合推定部、 140,240,340 異常判定部、 350 異常状況判定基準記憶部、 360 異常状況判定部。

Claims (11)

  1.  取得された音から生成された信号である音響信号の入力を受け付ける信号入力部と、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部と、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部と、
     前記異常音検出部が、前記取得された音が前記異常音であると判定し、かつ、前記棄却部が、前記異常音を棄却しないと判定した場合に、異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、又は、前記棄却部が、前記異常音を棄却すると判定した場合に、前記異常が発生していないと判定する異常判定部と、を備えること
     を特徴とする情報処理装置。
  2.  取得された音から生成された信号である音響信号を含む入力信号の入力を受け付ける信号入力部と、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部と、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部と、
     前記入力信号に基づいて、異常が発生する状況か否かを判定する異常状況判定部と、
     前記異常音検出部が、前記取得された音が前記異常音であると判定し、前記棄却部が、前記異常音を棄却しないと判定し、かつ、前記異常状況判定部が、前記異常が発生する状況であると判定した場合に、前記異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、前記棄却部が、前記異常音を棄却すると判定した場合、又は、前記異常状況判定部が、前記異常が発生する状況ではないと判定した場合に、前記異常が発生していないと判定する異常判定部と、を備えること
     を特徴とする情報処理装置。
  3.  前記棄却対象音は、言語情報を含む音声及び非音声の少なくとも何れか一方であること
     を特徴とする請求項1又は2に記載の情報処理装置。
  4.  前記異常音検出部は、異常音判定基準を参照して、前記取得された音が前記異常音であるか否かを判定しており、前記異常音の検出頻度が予め定められた閾値よりも高い場合には、前記異常音判定基準を、前記取得された音が前記異常音であると判定しづらくなるように変更すること
     を特徴とする請求項1から3の何れか一項に記載の情報処理装置。
  5.  前記異常判定部は、前記異常が発生しているか否かの判定結果を示す異常判定結果を出力すること
     を特徴とする請求項1から4の何れか一項に記載の情報処理装置。
  6.  前記異常音検出部は、前記音響信号に基づいて、前記異常の度合いである異常度合いを推定し、
     前記異常判定部は、前記推定された異常度合いを前記異常判定結果に含めること
     を特徴とする請求項5に記載の情報処理装置。
  7.  前記異常音検出部は、前記取得された音の、音圧、ピッチ、1泣き中のピッチの変化、1泣きの長さ、息継ぎの量及び周波数の倍音構造の強さの少なくとも何れか1つを用いて、前記異常度合いを推定すること
     を特徴とする請求項6に記載の情報処理装置。
  8.  コンピュータを、
     取得された音から生成された信号である音響信号の入力を受け付ける信号入力部、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部、及び、
     前記異常音検出部が、前記取得された音が前記異常音であると判定し、かつ、前記棄却部が、前記異常音を棄却しないと判定した場合に、異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、又は、前記棄却部が、前記異常音を棄却すると判定した場合に、前記異常が発生していないと判定する異常判定部、として機能させること
     を特徴とするプログラム。
  9.  コンピュータを、
     取得された音から生成された信号である音響信号を含む入力信号の入力を受け付ける信号入力部、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定する異常音検出部、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音検出部で検出される前記異常音を棄却するか否かを判定する棄却部、
     前記入力信号に基づいて、異常が発生する状況か否かを判定する異常状況判定部、及び、
     前記異常音検出部が、前記取得された音が前記異常音であると判定し、前記棄却部が、前記異常音を棄却しないと判定し、かつ、前記異常状況判定部が、前記異常が発生する状況であると判定した場合に、前記異常が発生したと判定し、前記異常音検出部が、前記取得された音が前記異常音ではないと判定した場合、前記棄却部が、前記異常音を棄却すると判定した場合、又は、前記異常状況判定部が、前記異常が発生する状況ではないと判定した場合に、前記異常が発生していないと判定する異常判定部、として機能させること
     を特徴とするプログラム。
  10.  取得された音から生成された信号である音響信号の入力を受け付け、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定し、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音を棄却するか否かを判定し、
     前記取得された音が前記異常音であると判定され、かつ、前記異常音を棄却しないと判定された場合に、異常が発生したと判定し、
     前記取得された音が前記異常音ではないと判定された場合、又は、前記異常音を棄却すると判定された場合に、前記異常が発生していないと判定すること
     を特徴とする情報処理方法。
  11.  取得された音から生成された信号である音響信号を含む入力信号の入力を受け付け、
     前記音響信号に基づいて、前記取得された音が異常音であるか否かを判定し、
     前記音響信号に基づいて、前記取得された音が棄却対象音であるか否かの判定を行い、前記判定の結果から、前記異常音を棄却するか否かを判定し、
     前記入力信号に基づいて、異常が発生する状況か否かを判定し、
     前記取得された音が前記異常音であると判定され、前記異常音を棄却しないと判定され、かつ、前記異常が発生する状況であると判定された場合に、前記異常が発生したと判定し、
     前記取得された音が前記異常音ではないと判定された場合、前記異常音を棄却すると判定された場合、又は、前記異常が発生する状況ではないと判定された場合に、前記異常が発生していないと判定すること
     を特徴とする情報処理方法。
PCT/JP2018/039313 2018-10-23 2018-10-23 情報処理装置、プログラム及び情報処理方法 WO2020084680A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2018/039313 WO2020084680A1 (ja) 2018-10-23 2018-10-23 情報処理装置、プログラム及び情報処理方法
JP2020551739A JP6827602B2 (ja) 2018-10-23 2018-10-23 情報処理装置、プログラム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/039313 WO2020084680A1 (ja) 2018-10-23 2018-10-23 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2020084680A1 true WO2020084680A1 (ja) 2020-04-30

Family

ID=70330322

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/039313 WO2020084680A1 (ja) 2018-10-23 2018-10-23 情報処理装置、プログラム及び情報処理方法

Country Status (2)

Country Link
JP (1) JP6827602B2 (ja)
WO (1) WO2020084680A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000185609A (ja) * 1998-12-24 2000-07-04 Toppan Printing Co Ltd 車載幼児警報器
JP2003345385A (ja) * 2002-05-30 2003-12-03 Matsushita Electric Ind Co Ltd 音声認識判定装置
JP2005328410A (ja) * 2004-05-17 2005-11-24 Sony Corp 音響装置および音響装置を用いた監視方法
JP2009012891A (ja) * 2007-07-02 2009-01-22 Toshiba Elevator Co Ltd 乗客コンベア監視装置及び遠隔監視システム
JP2010232888A (ja) * 2009-03-26 2010-10-14 Ikegami Tsushinki Co Ltd 監視装置
JP2012058944A (ja) * 2010-09-08 2012-03-22 Secom Co Ltd 異常検知装置
JP2016102822A (ja) * 2014-11-27 2016-06-02 株式会社Jvcケンウッド 乳幼児泣き声検出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4354041A3 (en) * 2017-07-14 2024-05-01 Daikin Industries, Ltd. Information providing system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000185609A (ja) * 1998-12-24 2000-07-04 Toppan Printing Co Ltd 車載幼児警報器
JP2003345385A (ja) * 2002-05-30 2003-12-03 Matsushita Electric Ind Co Ltd 音声認識判定装置
JP2005328410A (ja) * 2004-05-17 2005-11-24 Sony Corp 音響装置および音響装置を用いた監視方法
JP2009012891A (ja) * 2007-07-02 2009-01-22 Toshiba Elevator Co Ltd 乗客コンベア監視装置及び遠隔監視システム
JP2010232888A (ja) * 2009-03-26 2010-10-14 Ikegami Tsushinki Co Ltd 監視装置
JP2012058944A (ja) * 2010-09-08 2012-03-22 Secom Co Ltd 異常検知装置
JP2016102822A (ja) * 2014-11-27 2016-06-02 株式会社Jvcケンウッド 乳幼児泣き声検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NANJO, HIROAKI ET AL.: "Study of Cry Recognition in Various Environments for Audio Crime Prevention System", PROCEEDINGS OF THE ACOUSTICAL SOCIETY OF JAPAN, 19 March 2009 (2009-03-19), pages 215 - 216, ISSN: 1880-7568 *

Also Published As

Publication number Publication date
JP6827602B2 (ja) 2021-02-10
JPWO2020084680A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
JP6350536B2 (ja) 音声検出装置、音声検出方法及びプログラム
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
JP3913772B2 (ja) 音識別装置
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP6436088B2 (ja) 音声検出装置、音声検出方法及びプログラム
US9959886B2 (en) Spectral comb voice activity detection
US20120185418A1 (en) System and method for detecting abnormal audio events
JP5088050B2 (ja) 音声処理装置およびプログラム
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US20060015333A1 (en) Low-complexity music detection algorithm and system
CN107093991A (zh) 基于目标响度的响度归一化方法和设备
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
Droghini et al. A combined one-class SVM and template-matching approach for user-aided human fall detection by means of floor acoustic features
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
WO2020084680A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2005284308A (ja) オーディオ情報分類装置
Zhang et al. Advancements in whisper-island detection using the linear predictive residual
JP7456498B2 (ja) 置き去り検知方法、置き去り検知装置、およびプログラム
KR101591175B1 (ko) 음성 분석을 이용한 건강 상태 진단 장치 및 방법
Lieskovska et al. Acoustic surveillance system for children’s emotion detection
JP2021167853A (ja) 異常音検知装置及びそのプログラム
WO2018117171A1 (ja) 生体音解析方法、プログラム、記憶媒体及び生体音解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18937676

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020551739

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18937676

Country of ref document: EP

Kind code of ref document: A1