JPWO2016167216A1 - マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 - Google Patents
マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JPWO2016167216A1 JPWO2016167216A1 JP2017512524A JP2017512524A JPWO2016167216A1 JP WO2016167216 A1 JPWO2016167216 A1 JP WO2016167216A1 JP 2017512524 A JP2017512524 A JP 2017512524A JP 2017512524 A JP2017512524 A JP 2017512524A JP WO2016167216 A1 JPWO2016167216 A1 JP WO2016167216A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- parameter
- series
- sequence
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 67
- 238000001228 spectrum Methods 0.000 claims description 116
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 18
- 230000002123 temporal effect Effects 0.000 description 31
- 230000006870 function Effects 0.000 description 23
- 230000005236 sound signal Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002087 whitening effect Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
Description
マッチング装置及び方法の一例について説明する。
パラメータ決定部27’には、時系列信号である第一信号が所定の時間長のごとに入力される。第一信号の例は、音声ディジタル信号又は音響ディジタル信号等の音信号である。
周波数領域変換部41には、所定の時間長の時系列信号が入力される。
スペクトル包絡推定部42には、周波数領域変換部21が得たMDCT係数列X(0),X(1),…,X(N-1)が入力される。
線形予測分析部421には、周波数領域変換部41が得たMDCT係数列X(0),X(1),…,X(N-1)が入力される。
非平滑化振幅スペクトル包絡系列生成部422には、線形予測分析部421が生成した量子化線形予測係数^β1,^β2,…,^βpが入力される。
白色化スペクトル系列生成部43には、周波数領域変換部41が得たMDCT係数列X(0),X(1),…,X(N-1)及び非平滑化振幅スペクトル包絡生成部422が生成した非平滑化振幅スペクトル包絡系列^H(0),^H(1),…,^H(N-1)が入力される。
パラメータ取得部44には、白色化スペクトル系列生成部43が生成した白色化スペクトル系列XW(0),XW(1),…,XW(N-1)が入力される。
第二系列記憶部52には、第二信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列である第二系列が記憶されている。
マッチング部51には、パラメータ決定部27’が得た第一系列及び例えば第二系列記憶部52から読み込んだ第二系列が入力される。
判定装置及び方法の一例について説明する。
パラメータ決定部27’には、時系列信号である第一信号が所定の時間長のごとに入力される。第一信号の例は、音声ディジタル信号又は音響ディジタル信号等の音信号である。
判定部53には、パラメータ決定部27’で決定された第一系列が入力される。
第一信号の種類の判定は、例えば、信号の区間の種類の判定結果に基づいて行うことができる。例えば、判定部53は、判定された信号の区間の種類ごとに第一信号の中のその種類の信号の区間が占める割合を計算して、最も割合が大きい信号の区間の種類の割合の値が処理の閾値以上又は閾値より大である場合には、第一信号はその最も割合が大きい信号の区間の種類であると判定する。
各装置又は各方法における各部をコンピュータによって実現してもよい。その場合、各装置又は各方法の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置又は各方法における各部がコンピュータ上で実現される。
Claims (10)
- パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとして、
第一信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、上記第一信号と上記第二信号との一致度合い、及び/又は、上記第一信号と上記第二信号とが一致しているかどうかを判定するマッチング部、
を含むマッチング装置。 - 請求項1のマッチング装置において、
パラメータη0及びパラメータηを正の数として、所定の方法で定められるパラメータη0を用いて、入力された所定の時間長の時系列信号に対応する周波数領域サンプル列の絶対値のη0乗をパワースペクトルと見做してスペクトル包絡の推定を行うスペクトル包絡推定部と、上記スペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列を得る白色化スペクトル系列生成部と、パラメータηを形状パラメータとする一般化ガウス分布が上記白色化スペクトル系列のヒストグラムを近似するパラメータηを求め、求まったパラメータηを上記入力された所定の時間長の時系列信号に対応するパラメータηとするパラメータ取得部と、を含むパラメータ決定部を含み、
上記パラメータ決定部は、上記第一信号を構成する少なくとも1つの所定の時間長の時系列信号のそれぞれを入力とする処理を行うことにより、上記第一系列を得る、
マッチング装置。 - 請求項1又は2のマッチング装置において、
上記第二系列が記憶されている第二系列記憶部を含み、
上記マッチング部は、上記第二系列記憶部から読み込んだ上記第二系列を用いて、上記判定を行う、
マッチング装置。 - 請求項1から3の何れかのマッチング装置において、
上記第一信号を構成する少なくとも1つの所定の時間長の時系列信号は、上記第一信号を構成する所定の時間長の時系列信号の全部又は一部であり、
上記第二信号を構成する少なくとも1つの所定の時間長の時系列信号は、上記第二信号を構成する所定の時間長の時系列信号の全部又は一部であり、
マッチング装置。 - 請求項1から3のマッチング装置において、
複数の信号のそれぞれを上記第二信号として、上記判定を行う、
マッチング装置。 - パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとし、第一信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を第一系列として、
上記第一系列に基づいて、上記第一信号の中の所定の種類の信号の区間、及び/又は、上記第一信号の種類を判定する判定部、
を含む判定装置。 - パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとして、
マッチング部51が、第一信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第一系列と、第二信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの第二系列とに基づいて、上記第一信号と上記第二信号との一致度合い、及び/又は、上記第一信号と上記第二信号とが一致しているかどうかを判定するマッチングステップ、
を含むマッチング方法。 - パラメータηを正の数として、所定の時間長の時系列信号に対応するパラメータηを、その時系列信号に対応する周波数領域サンプル列の絶対値のη乗をパワースペクトルと見做すことにより推定されたスペクトル包絡で上記周波数領域サンプル列を除算した系列である白色化スペクトル系列のヒストグラムを近似する一般化ガウス分布の形状パラメータとし、第一信号を構成する少なくとも1つの所定の時間長の時系列信号にそれぞれ対応するパラメータηの系列を第一系列として、
判定部が、上記第一系列に基づいて、上記第一信号の中の所定の種類の信号の区間、及び/又は、上記第一信号の種類を判定する判定ステップ、
を含む判定方法。 - 請求項1から5の何れかのマッチング装置又は請求項6の判定装置の各部としてコンピュータを機能させるためのプログラム。
- 請求項1から5の何れかのマッチング装置又は請求項6の判定装置の各部としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015081769 | 2015-04-13 | ||
JP2015081769 | 2015-04-13 | ||
PCT/JP2016/061683 WO2016167216A1 (ja) | 2015-04-13 | 2016-04-11 | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016167216A1 true JPWO2016167216A1 (ja) | 2018-02-08 |
JP6392450B2 JP6392450B2 (ja) | 2018-09-19 |
Family
ID=57126460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017512524A Active JP6392450B2 (ja) | 2015-04-13 | 2016-04-11 | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10147443B2 (ja) |
JP (1) | JP6392450B2 (ja) |
CN (1) | CN107851442B (ja) |
WO (1) | WO2016167216A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3270376B1 (en) * | 2015-04-13 | 2020-03-18 | Nippon Telegraph and Telephone Corporation | Sound signal linear predictive coding |
US9899038B2 (en) | 2016-06-30 | 2018-02-20 | Karen Elaine Khaleghi | Electronic notebook system |
US10235998B1 (en) | 2018-02-28 | 2019-03-19 | Karen Elaine Khaleghi | Health monitoring system and appliance |
US10559307B1 (en) | 2019-02-13 | 2020-02-11 | Karen Elaine Khaleghi | Impaired operator detection and interlock apparatus |
US10735191B1 (en) | 2019-07-25 | 2020-08-04 | The Notebook, Llc | Apparatus and methods for secure distributed communications and data access |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10253444A (ja) * | 1997-03-14 | 1998-09-25 | Tokyo Gas Co Ltd | 異常音の検出方法及びその検出値を用いた機械の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法 |
WO2013035257A1 (ja) * | 2011-09-09 | 2013-03-14 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
US7653535B2 (en) * | 2005-12-15 | 2010-01-26 | Microsoft Corporation | Learning statistically characterized resonance targets in a hidden trajectory model |
KR100738109B1 (ko) * | 2006-04-03 | 2007-07-12 | 삼성전자주식회사 | 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치 |
KR20130108281A (ko) * | 2010-09-10 | 2013-10-02 | 파나소닉 주식회사 | 부호화 장치 및 부호화 방법 |
JP5728888B2 (ja) * | 2010-10-29 | 2015-06-03 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5689844B2 (ja) * | 2012-03-16 | 2015-03-25 | 日本電信電話株式会社 | スペクトル推定装置、その方法及びプログラム |
CN103971689B (zh) * | 2013-02-04 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及装置 |
KR101480474B1 (ko) * | 2013-10-08 | 2015-01-09 | 엘지전자 주식회사 | 오디오 재생장치와 이를 포함하는 시스템 |
-
2016
- 2016-04-11 JP JP2017512524A patent/JP6392450B2/ja active Active
- 2016-04-11 WO PCT/JP2016/061683 patent/WO2016167216A1/ja active Application Filing
- 2016-04-11 CN CN201680019872.XA patent/CN107851442B/zh active Active
- 2016-04-11 US US15/562,649 patent/US10147443B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10253444A (ja) * | 1997-03-14 | 1998-09-25 | Tokyo Gas Co Ltd | 異常音の検出方法及びその検出値を用いた機械の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法 |
WO2013035257A1 (ja) * | 2011-09-09 | 2013-03-14 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107851442A (zh) | 2018-03-27 |
US20180090155A1 (en) | 2018-03-29 |
JP6392450B2 (ja) | 2018-09-19 |
WO2016167216A1 (ja) | 2016-10-20 |
US10147443B2 (en) | 2018-12-04 |
CN107851442B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6392450B2 (ja) | マッチング装置、判定装置、これらの方法、プログラム及び記録媒体 | |
JP6422813B2 (ja) | 符号化装置、復号装置、これらの方法及びプログラム | |
US11848021B2 (en) | Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium | |
JP2019049729A (ja) | 情報符号化のコンセプト | |
US20200202876A1 (en) | Periodic-combined-envelope-sequence generating device, encoder, periodic-combined-envelope-sequence generating method, coding method, and recording medium | |
JP2019079069A (ja) | 線形予測復号装置、方法、プログラム及び記録媒体 | |
EP3226243B1 (en) | Encoding apparatus, decoding apparatus, and method and program for the same | |
JP6729515B2 (ja) | 楽曲解析方法、楽曲解析装置およびプログラム | |
JP6387117B2 (ja) | 符号化装置、復号装置、これらの方法、プログラム及び記録媒体 | |
EP3751565B1 (en) | Parameter determination device, method, program and recording medium | |
CN106663110B (zh) | 音频序列对准的概率评分的导出 | |
JP2019139209A (ja) | コード推定方法およびコード推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171006 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6392450 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |