WO2015068310A1 - 電子透かし検出装置、方法及びプログラム - Google Patents

電子透かし検出装置、方法及びプログラム Download PDF

Info

Publication number
WO2015068310A1
WO2015068310A1 PCT/JP2013/080466 JP2013080466W WO2015068310A1 WO 2015068310 A1 WO2015068310 A1 WO 2015068310A1 JP 2013080466 W JP2013080466 W JP 2013080466W WO 2015068310 A1 WO2015068310 A1 WO 2015068310A1
Authority
WO
WIPO (PCT)
Prior art keywords
phase
digital watermark
watermark detection
estimation unit
detection apparatus
Prior art date
Application number
PCT/JP2013/080466
Other languages
English (en)
French (fr)
Inventor
橘 健太郎
眞弘 森田
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2013/080466 priority Critical patent/WO2015068310A1/ja
Priority to JP2015546269A priority patent/JP6193395B2/ja
Publication of WO2015068310A1 publication Critical patent/WO2015068310A1/ja
Priority to US15/150,520 priority patent/US9747907B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • Embodiments described herein relate generally to a digital watermark detection apparatus, method, and program.
  • HMM speech synthesis speech synthesis technology
  • HMM speech synthesis speech synthesis technology based on HMM (Hidden Markov Model)
  • HMM speech synthesis has been remarkably advanced.
  • the feature of HMM speech synthesis is that it is easy to adapt to a speaker, so that a speech synthesis dictionary can be created even from a small amount of speech. For this reason, even a general user can easily create a speech synthesis dictionary, and it is conceivable that speech synthesis technology will become widespread by publishing and sharing among general users in the future.
  • the recipient of the synthesized speech embedded with the digital watermark detects the watermark, and notifies the recipient user that it is a synthesized speech, thereby preventing and suppressing impersonation. It becomes possible.
  • This digital watermark embedding method can be used for all pulse-driven speech synthesis systems.
  • the problem to be solved by the present invention is to provide a digital watermark detection apparatus, method, and program capable of detecting a digital watermark embedded in synthesized speech while suppressing the amount of calculation.
  • the digital watermark detection apparatus includes a residual signal extraction unit, a voiced interval estimation unit, a storage unit, a phase estimation unit, and a watermark determination unit.
  • the residual signal extraction unit extracts a residual signal from the audio signal.
  • the voiced segment estimation unit estimates a voiced segment based on the voice signal.
  • the storage unit stores a plurality of pulse signals modulated in advance to a plurality of different phases.
  • the phase estimation unit estimates the phase of the voice signal by cutting out a voiced section for each analysis frame having a predetermined length and performing pattern matching between the residual signal in the analysis frame and a plurality of pulse signals.
  • the watermark determination unit determines the presence or absence of a digital watermark in the audio signal based on the phase sequence estimated by the phase estimation unit.
  • FIG. 1 is a block diagram illustrating a digital watermark detection apparatus according to an embodiment.
  • the digital watermark detection apparatus detects a digital watermark embedded in synthesized speech.
  • the synthesized speech is generated by performing filtering that indicates vocal tract characteristics on a sound source signal that indicates vocal cord vibration.
  • the phase of a pulse signal (voiced portion) representing vocal cord vibration of a sound source signal is modulated, and this modulation degree is used as watermark information, whereby the digital watermark is embedded in the synthesized speech.
  • synthesized speech that is phase-modulated only in the voiced part is generated (see FIG. 8).
  • FIG. 1 is a block diagram illustrating the configuration of a digital watermark detection apparatus 1 according to the embodiment.
  • the digital watermark detection apparatus 1 is realized by, for example, a general-purpose computer. That is, the digital watermark detection apparatus 1 has a function as a computer including, for example, a CPU, a storage device, an input / output device, a communication interface, and the like.
  • the digital watermark detection apparatus 1 includes a residual signal extraction unit 101, a voiced interval estimation unit 102, a storage unit 103, a phase estimation unit 104, and a watermark determination unit 105.
  • the residual signal extraction unit 101, the voiced interval estimation unit 102, the phase estimation unit 104, and the watermark determination unit 105 may each be configured by a hardware circuit or software executed by a CPU.
  • the storage unit 103 is configured by, for example, an HDD (Hard Disk Drive) or a memory. That is, the digital watermark detection apparatus 1 may be configured to realize a function by executing a digital watermark detection program.
  • the residual signal extraction unit 101 extracts a residual signal from the input voice signal and outputs the residual signal to the phase estimation unit 104. Specifically, the residual signal extraction unit 101 performs speech analysis on the input speech signal and calculates spectrum envelope information. Examples of speech analysis include linear prediction coefficient (LPC) analysis, partial autocorrelation coefficient (PARCOR) analysis, and line spectrum analysis. Then, the residual signal extraction unit 101 extracts a residual signal from the audio signal by inverse filtering the calculated spectrum envelope information.
  • LPC linear prediction coefficient
  • PARCOR partial autocorrelation coefficient
  • line spectrum analysis line spectrum analysis
  • the voiced section estimation unit 102 estimates a voiced section from the input voice signal and outputs it to the phase estimation unit 104. Specifically, the voiced interval estimation unit 102 estimates a voiced interval by extracting a fundamental frequency (F 0 ) for each predetermined frame of the input audio signal. F 0 is non-zero in the voiced part and 0 in the silent part or silent part. In addition, when the correlation coefficient for each analysis frame is greater than or equal to a predetermined threshold, when the amplitude or power of the input signal is greater than or equal to a predetermined threshold, or when these are greater than or equal to the predetermined threshold, the voiced section is estimated It may be the procedure to do. The voiced section estimation unit 102 can estimate a voiced section in units of frames.
  • the storage unit 103 stores a plurality of pulse signals (template signals) modulated in advance into a plurality of different phases. Specifically, the storage unit 103 stores a plurality of pulse signals modulated by quantizing the phase from ⁇ to ⁇ into a plurality of phase values.
  • the phase estimation unit 104 estimates the phase of the residual signal by performing pattern matching between the residual signal in the voiced section and a plurality of pulse signals (template signals) stored in the storage unit 103. Specifically, the phase estimation unit 104 performs pattern matching on the residual signal of each voiced section (frame) estimated by the voiced section estimation unit 102 using a plurality of pulse signals stored in the storage unit 103 as a template for each analysis frame. To output a phase sequence.
  • FIG. 2 is a schematic diagram illustrating the operation of the phase estimation unit 104.
  • Phase estimation unit 104 performs pattern matching directly cut for each basic frequency F 0 of the frame (frame extraction) in a pulse signal (template signal) the same length of the sub-frame (analysis frame).
  • the phase estimation unit 104 selects the pulse signal most similar to the residual signal in the analysis frame from the plurality of pulse signals stored in the storage unit 103. Then, the phase estimation unit 104 estimates the phase value by using the phase value of the selected pulse signal as the phase value of the residual signal.
  • the phase estimation unit 104 performs pattern matching based on, for example, a correlation coefficient value or a difference between amplitude values.
  • the phase estimation unit 104 first calculates correlation coefficients with all template signals, for example, for one subframe. Then, phase estimation section 104 performs the same processing for all remaining subframes to create a correlation coefficient sequence. Thereafter, the phase estimation unit 104 sets the phase value of the template signal for which the correlation coefficient value that is the maximum in the correlation coefficient series is calculated as the phase value in the subframe.
  • the phase estimation unit 104 performs these processes for each frame of the fundamental frequency F 0 , calculates a phase sequence for each frame, and outputs it.
  • the phase estimation unit 104 when performing pattern matching using a difference in amplitude value, performs processing for each subframe. That is, the phase estimation unit 104 calculates the absolute value of the difference in amplitude value from all template signals for each subframe for all subframes. Then, the phase estimation unit 104 sets the phase value of the template signal that minimizes the difference in amplitude value as the phase value in the subframe. The phase estimation unit 104 performs these processes for each frame of the fundamental frequency F 0 , calculates a phase sequence for each frame, and outputs it.
  • the phase estimation unit 104 can estimate the phase without depending on the accuracy of the pitch mark as compared with the case where the phase sequence for each frame is calculated using FFT. In addition, since the phase estimation unit 104 performs waveform pattern matching processing on the time domain, it is possible to reduce the amount of calculation compared to processing on the frequency domain.
  • the watermark determination unit 105 determines the presence or absence of a digital watermark in the audio signal based on the phase sequence estimated by the phase estimation unit 104. Specifically, the watermark determination unit 105 calculates a phase gradient indicating a digital watermark embedded in the audio signal for a sequence obtained by performing the unwrapping process on the phase sequence estimated by the phase estimation unit 104. The watermark determination unit 105 determines that there is no digital watermark when the phase gradient is close to 0 (for example, when the phase gradient is less than a predetermined threshold). Also, the watermark determination unit 105 determines that there is a digital watermark when a clear phase gradient away from 0 is calculated (for example, when the phase gradient is equal to or greater than a predetermined threshold).
  • the synthesized speech in which the digital watermark is embedded has a phase that changes linearly from ⁇ to ⁇ in the range.
  • the unwrapping process is a process of continuously connecting the phases of synthesized speech in which a digital watermark is embedded.
  • the watermark determination unit 105 linearly interpolates sections other than the voiced section.
  • the watermark determination unit 105 divides the phase series into short sections, calculates the slope of each section, and creates a slope histogram. Then, the watermark determination unit 105 calculates the phase gradient indicating the digital watermark embedded in the audio signal from the phase sequence by using the mode value of the created histogram as the phase gradient of the audio signal.
  • the watermark determination unit 105 may be configured to calculate the slope from the entire section length instead of the short section. As shown in FIG. 8, the phase gradient has a value close to 0 when no digital watermark is included, and changes depending on the modulated frequency when the digital watermark is included.
  • the watermark determination unit 105 determines the presence or absence of a digital watermark, for example, by comparing the phase gradient with a predetermined threshold. The slope of the phase is given by Equation 1 below.
  • ph f (t) indicates the phase of the component of the frequency f of the pulse centered at time t
  • a indicates the modulation frequency of the phase
  • x mod y indicates the remainder when x is divided by y.
  • FIG. 4 is a diagram illustrating a flow of processing performed by the digital watermark detection apparatus 1.
  • the residual signal extraction unit 101 extracts a residual signal from the input audio signal (S101).
  • the voiced section estimation unit 102 estimates all voiced sections (frames) from the input signal (S102).
  • the phase estimation unit 104 sets, for example, $ i indicating the frame order to 1 in the process of S103, and stores a plurality of pulse signals (templates) stored in the storage unit 103 for each frame estimated by the voiced section estimation unit 102. Signal) is used to estimate the phase (S104).
  • the phase estimation unit 104 determines whether $ i indicates the last frame (S105). If $ i does not indicate the last frame (S105: No), the phase estimation unit 104 proceeds to the process of S106. Further, when $ i indicates the final frame (S105: Yes), the phase estimation unit 104 proceeds to the process of S107.
  • the phase estimation unit 104 increases the value of $ i and causes $ i to indicate the order of the next frame (S106).
  • the watermark determination unit 105 After reaching the final frame, the watermark determination unit 105 performs an unwrapping process on the estimated phase sequence, calculates a gradient for each short-term section, and creates a phase gradient histogram (S107).
  • the watermark determination unit 105 detects the presence or absence of a digital watermark based on the mode value of the created histogram (S108).
  • FIG. 5 is a block diagram illustrating the configuration of a modified example of the digital watermark detection apparatus 1.
  • the modification of the digital watermark detection apparatus 1 includes a residual signal extraction unit 101, a voiced interval estimation unit 202, a storage unit 103, a phase estimation unit 204, and a watermark determination unit 105.
  • the same reference numerals are given to the substantially same parts as the parts constituting the digital watermark detection apparatus 1 shown in FIG.
  • the voiced segment estimation unit 202 estimates the voiced segment using the residual signal extracted by the residual signal extraction unit 101.
  • the residual signal is a signal simulating human vocal fold vibration, and as shown in FIG. 2, a pulse component appears at regular intervals.
  • the voiced section estimation unit 202 groups only points (time) at which the amplitude value or power of the residual signal is equal to or greater than a predetermined threshold, that is, pulse points. Then, the voiced interval estimation unit 202 determines a start point if the interval (pulse interval) between the preceding and following points is a predetermined value or more with respect to a certain point, and when a similar point appears next, Estimate the voiced interval.
  • the voiced section estimation unit 202 repeats this process to estimate the voiced section.
  • the voiced section estimation unit 202 extracts the fundamental frequency F 0 for each frame, calculates a sequence of the reciprocal number (pitch time) of the basic frequency F 0 , estimates a voiced section effective in the period of the pitch time, It outputs to the phase estimation part 204 (refer FIG. 6).
  • the phase estimation unit 204 cuts out a valid voiced segment as an analysis frame, and determines the time at which the amplitude value of the residual signal input from the residual signal extraction unit 101 is maximum in the head frame of the pitch time series as the head pitch. Mark. Further, the phase estimation unit 204 may obtain a local phase gradient in the first frame of the pitch time series, and may use a point (time) at which the absolute value of the gradient is maximum as the first pitch mark.
  • the reciprocal of the fundamental frequency F 0 calculated by the voiced interval estimation unit 202 is 1/100 sec. That is, the phase estimation unit 204 estimates a time advanced by the pitch time (1/100 sec) with respect to the head pitch mark as a new pitch mark. And the phase estimation part 204 estimates a pitch mark series by repeating this process.
  • phase estimation unit 204 performs pattern matching for each subframe (analysis frame) centered on the pitch mark (time) for each pitch mark, and estimates the phase sequence in the same manner as the phase estimation unit 104.
  • the phase estimation unit 204 performs pattern matching only at the pitch mark position (time), but is not limited to this.
  • the phase estimation unit 204 may be configured to perform pattern matching around the pitch mark position and to employ the phase value of the pulse signal (template signal) having the highest similarity.
  • the phase estimation unit 104 shown in FIG. 1 performs processing in units of frames, whereas the phase estimation unit 204 shown in FIG. 5 estimates the phase for each pitch mark, so that the amount of calculation is suppressed.
  • the phase can be estimated with high accuracy.
  • the watermark determination unit 105 determines the presence / absence of a digital watermark using the phase sequence estimated as described above.
  • FIG. 7 is a diagram showing a flow of processing performed by a modification of the digital watermark detection apparatus 1.
  • the residual signal extraction unit 101 extracts a residual signal from the input audio signal (S200).
  • the voiced interval estimation unit 202 extracts a sequence of the fundamental frequency F 0 for each frame, calculates a sequence of the reciprocal (pitch time) of the fundamental frequency F 0 , and outputs the sequence to the phase estimation unit 204 ( S201).
  • the phase estimator 204 estimates the top pitch mark from the first frame of the fundamental frequency F 0 (S203).
  • the phase estimation unit 204 determines whether $ i is 0 (S204). If $ i is not 0 (S204: No), the phase estimation unit 204 proceeds to the process of S205. If $ i is 0 (S204: Yes), the phase estimation unit 204 proceeds to the process of S206.
  • the phase estimation unit 204 estimates a time advanced by the pitch time with respect to the head pitch mark as a new pitch mark (S205).
  • the phase estimation unit 204 performs pattern matching using a plurality of pulse signals (template signals) stored in the storage unit 103 for each subframe (analysis frame) centered on the estimated pitch mark (time), The phase is estimated (S206).
  • the phase estimation unit 204 determines whether $ i indicates the final pitch mark (S207). If $ i does not indicate the final pitch mark (S207: No), the phase estimation unit 204 proceeds to the process of S208. Further, when $ i indicates the final pitch mark (S207: Yes), the phase estimation unit 204 proceeds to the process of S209.
  • the phase estimation unit 204 increases the value of $ i and causes $ i to indicate the order of the next pitch mark (S208).
  • the watermark determination unit 105 After reaching the final pitch mark, the watermark determination unit 105 performs an unwrapping process on the estimated phase sequence, calculates a gradient for each short period, and creates a histogram of the phase gradient (S209).
  • the watermark determination unit 105 detects the presence or absence of a digital watermark based on the mode value of the created histogram (S210).
  • the digital watermark detection apparatus 1 (or a modification of the digital watermark detection apparatus 1) is configured such that the phase estimation unit 104 shown in FIG. 1 and the phase estimation unit 204 shown in FIG. 5 can be replaced with each other. May be.
  • Each program executed in the digital watermark detection apparatus 1 and the modification of the present embodiment is a file in an installable format or an executable format, and is a CD-ROM, flexible disk (FD), CD-R, DVD (Digital Versatile).
  • the program is recorded on a computer-readable recording medium such as a disk.
  • each program of the present embodiment may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network.
  • the digital watermark detection apparatus 1 and the modified example estimate the phase of the audio signal by performing pattern matching between the residual signal in the analysis frame and the plurality of pulse signals, synthesis is performed with a reduced amount of calculation. It is possible to detect a digital watermark embedded in audio.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

 実施形態の電子透かし検出装置は、残差信号抽出部と、有声区間推定部と、記憶部と、位相推定部と、透かし判定部と、を有する。残差信号抽出部は、音声信号から残差信号を抽出する。有声区間推定部は、音声信号に基づいて有声区間を推定する。記憶部は、予め複数の異なる位相に変調された複数のパルス信号を記憶する。位相推定部は、有声区間を予め定められた長さの分析フレームごとに切り出し、分析フレームにおける残差信号と、複数のパルス信号とのパターンマッチングを行うことにより、音声信号の位相を推定する。透かし判定部は、位相推定部が推定した位相の系列に基づいて、音声信号における電子透かしの有無を判定する。

Description

電子透かし検出装置、方法及びプログラム
 本発明の実施形態は、電子透かし検出装置、方法及びプログラムに関する。
 近年、音声合成技術、特にHMM(Hidden Markov Model)に基づく音声合成技術(HMM音声合成)の技術進歩が目覚ましい。HMM音声合成は、話者適応が容易であるため、少量の音声からでも音声合成辞書を作成できることが特徴である。そのため、一般ユーザでも気軽に音声合成辞書を作成することができ、将来的に一般ユーザ間で公開、共有しあうことにより、音声合成技術が広まっていくことが考えられる。
 一方、悪意を持ったユーザが他人の音声合成辞書を使って他人になりすますといったことや、TVやインターネットといったメディア媒体から不正に入手した音声からでも音声合成辞書を作成することが可能であることから、不正に音声合成辞書が利用される懸念が高まってくる。つまり、将来的に人間とほぼ同等の品質で音声を合成できるようになると、無断で有名人の声を使って宣伝を行ったり、他人になりすまして電話をするなど、合成音声の悪用が懸念される。
 ここで、HMM音声合成に電子透かしを埋め込み、電子透かしを埋め込まれた合成音声の受け側が透かしを検出し、受け側のユーザに合成音であることを知らせることにより、なりすましの防止・抑制を行うことが可能となる。この電子透かし埋め込み方式は、パルス駆動型の音声合成システム全般に使用することができる。
橘他、"位相変調に基づくHMM音声合成向け電子透かし方式の提案"、日本音響学会講演論文集、2013年3月、p.135-136
 しかしながら、合成音声に埋め込まれた電子透かしを検出する場合、演算量が多くなり過ぎてしまうという問題があった。本発明が解決しようとする課題は、演算量を抑えて合成音声に埋め込まれた電子透かしを検出することができる電子透かし検出装置、方法及びプログラムを提供することである。
 実施形態の電子透かし検出装置は、残差信号抽出部と、有声区間推定部と、記憶部と、位相推定部と、透かし判定部と、を有する。残差信号抽出部は、音声信号から残差信号を抽出する。有声区間推定部は、音声信号に基づいて有声区間を推定する。記憶部は、予め複数の異なる位相に変調された複数のパルス信号を記憶する。位相推定部は、有声区間を予め定められた長さの分析フレームごとに切り出し、分析フレームにおける残差信号と、複数のパルス信号とのパターンマッチングを行うことにより、音声信号の位相を推定する。透かし判定部は、位相推定部が推定した位相の系列に基づいて、音声信号における電子透かしの有無を判定する。
実施形態にかかる電子透かし検出装置を例示するブロック図。 位相推定部の動作を示す模式図。 アンラッピング処理の概要を示す図。 電子透かし検出装置が行う処理の流れを示す図。 電子透かし検出装置の変形例を示すブロック図。 電子透かし検出装置の変形例の動作を示す模式図。 電子透かし検出装置の変形例が行う処理の流れを示す図。 位相変調された合成音声波形の一例を示す図。
 以下に添付図面を参照して、実施形態にかかる電子透かし検出装置について説明する。実施形態にかかる電子透かし検出装置は、合成音声に埋め込まれた電子透かしを検出する。合成音声は、声帯の振動を示す音源信号に対し、声道特性を示すフィルタリングを行うことによって生成される。また、合成音声に電子透かしを埋め込む場合、例えば音源信号の声帯振動を表すパルス信号(有声部)の位相を変調し、この変調度合を透かし情報とすることにより、合成音声に電子透かしが埋め込まれる。結果として、有声部にのみ位相変調された合成音声が生成される(図8参照)。
 図1は、実施形態にかかる電子透かし検出装置1の構成を例示するブロック図である。なお、電子透かし検出装置1は、例えば、汎用のコンピュータなどによって実現される。即ち、電子透かし検出装置1は、例えばCPU、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。
 図1に示すように、電子透かし検出装置1は、残差信号抽出部101、有声区間推定部102、記憶部103、位相推定部104及び透かし判定部105を有する。残差信号抽出部101、有声区間推定部102、位相推定部104及び透かし判定部105は、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。記憶部103は、例えばHDD(Hard Disk Drive)又はメモリなどによって構成される。つまり、電子透かし検出装置1は、電子透かし検出プログラムを実行することによって機能を実現するように構成されてもよい。
 残差信号抽出部101は、入力された音声信号から残差信号を抽出し、位相推定部104に対して出力する。具体的には、残差信号抽出部101は、入力された音声信号に対して音声分析を行い、スペクトル包絡情報を算出する。音声分析には、例えば線形予測係数(LPC)分析、部分自己相関係数(PARCOR)分析、及び線スペクトル分析などがある。そして、残差信号抽出部101は、算出したスペクトル包絡情報を逆フィルタリングすることにより、音声信号から残差信号を抽出する。
 有声区間推定部102は、入力された音声信号から有声区間を推定し、位相推定部104に対して出力する。具体的には、有声区間推定部102は、入力された音声信号に対して、所定のフレームごとに基本周波数(F)を抽出して有声区間を推定する。Fは、有声部では非ゼロとなり、無声部又は無音部では0となる。また、分析フレームごとの相関係数が所定の閾値以上である場合、入力信号の振幅若しくはパワーが所定の閾値以上である場合、又はこれらが所定の閾値以上である場合などに、有声区間と推定する手順でもよい。有声区間推定部102は、フレーム単位の有声区間を推定することができる。
 記憶部103は、予め複数の異なる位相に変調された複数のパルス信号(テンプレート信号)を記憶する。具体的には、記憶部103は、-πからπまでの位相を複数の位相値に量子化して変調された複数のパルス信号を記憶している。
 位相推定部104は、有声区間内の残差信号と、記憶部103が記憶する複数のパルス信号(テンプレート信号)とのパターンマッチングを行うことにより、残差信号の位相を推定する。具体的には、位相推定部104は、記憶部103が記憶する複数のパルス信号をテンプレートとして、有声区間推定部102が推定した有声区間(フレーム)それぞれの残差信号に対するパターンマッチングを分析フレームごとに行い、位相系列を出力する。
 図2は、位相推定部104の動作を示す模式図である。位相推定部104は、基本周波数Fのフレーム(抽出フレーム)内でパルス信号(テンプレート信号)と同じ長さのサブフレーム(分析フレーム)ごとに切り出しを行ってパターンマッチングを行う。ここで、位相推定部104は、記憶部103が記憶している複数のパルス信号の中から、分析フレームにおける残差信号に最も類似したパルス信号を選択する。そして、位相推定部104は、選択したパルス信号の位相値を残差信号の位相値とすることにより、位相値の推定を行う。
 位相推定部104は、例えば相関係数値、又は振幅値の差分などに基づいてパターンマッチングを行う。位相推定部104は、相関係数値を用いてパターンマッチングを行う場合、まず、例えば1つのサブフレームに対し、全テンプレート信号との相関係数を計算する。そして、位相推定部104は、残りの全サブフレームに対して同様の処理を行い、相関係数系列を作成する。その後、位相推定部104は、相関係数系列の中で最大となる相関係数値を算出されたテンプレート信号の位相値をサブフレーム内の位相値とする。位相推定部104は、これらの処理を基本周波数Fのフレームごとに行い、フレームごとの位相系列を算出して出力する。
 位相推定部104は、振幅値の差分を用いてパターンマッチングを行う場合も同様に、サブフレームごとに処理を行う。つまり、位相推定部104は、全サブフレームに対し、サブフレームごとに全テンプレート信号との振幅値の差分の絶対値を計算する。そして、位相推定部104は、振幅値の差分が最小となるテンプレート信号の位相値をサブフレーム内の位相値とする。位相推定部104は、これらの処理を基本周波数Fのフレームごとに行い、フレームごとの位相系列を算出して出力する。
 従って、位相推定部104は、FFTを用いてフレームごとの位相系列を算出する場合に比べて、ピッチマークの精度に依存することなく、位相を推定することができる。また、位相推定部104は、全て時間領域上で波形のパターンマッチングの処理を行うので、周波数領域上での処理に比べて、演算量を抑えることができる。
 透かし判定部105は、位相推定部104が推定した位相系列に基づいて、音声信号における電子透かしの有無を判定する。具体的には、透かし判定部105は、位相推定部104が推定した位相系列に対してアンラッピング処理を行った系列に対し、音声信号に埋め込まれた電子透かしを示す位相の傾きを算出する。透かし判定部105は、位相の傾きが0に近い値である場合(例えば位相の傾きが所定の閾値未満の場合)には、電子透かしが無いと判定する。また、透かし判定部105は、0から離れた明確な位相の傾きを算出した場合(例えば位相の傾きが所定の閾値以上の場合)には、電子透かしが有ると判定する。
 例えば、電子透かしを埋め込まれた合成音声は、図3の中段に示すように、位相が-πからπを値域として直線的に変化している。アンラッピング処理とは、電子透かしを埋め込まれた合成音声の位相を連続的に接続する処理である。
 透かし判定部105は、図3に示すように、有声区間以外の区間を線形補間することとする。透かし判定部105は、位相系列を短時間の区間ごとに区切り、区間それぞれの傾きを算出して、傾きのヒストグラムを作成する。そして、透かし判定部105は、作成したヒストグラムの最頻値をその音声信号の位相の傾きとすることにより、音声信号に埋め込まれた電子透かしを示す位相の傾きを位相系列から算出する。
 また、透かし判定部105は、短時間の区間ではなく、全体区間長から傾きを算出するように構成されてもよい。図8にも示したように、位相の傾きは、電子透かしが入っていない場合には0に近い値となり、電子透かしが入っている場合には変調した周波数によって値が変化する。透かし判定部105は、例えば位相の傾きと所定の閾値とを比較することによって電子透かしの有無を判定する。位相の傾きは、下式1によって示される。
 ph(t)=2πat mod 2π  ・・・(1)
 ここで、ph(t)は時刻tに中心があるパルスの周波数fの成分の位相を示し、aは位相の変調周波数を示し、x mod yはxをyで割った余りを示す。
 次に、電子透かし検出装置1が行う処理の流れについて説明する。図4は、電子透かし検出装置1が行う処理の流れを示す図である。まず、残差信号抽出部101は、入力された音声信号から残差信号を抽出する(S101)。次に、有声区間推定部102は、入力信号からすべての有声区間(フレーム)を推定する(S102)。
 そして、位相推定部104は、S103の処理において例えばフレームの順番を示す$iを1とし、有声区間推定部102が推定したフレームごとに、記憶部103が記憶している複数のパルス信号(テンプレート信号)を用いて位相を推定する(S104)。
 位相推定部104は、$iが最終フレームを示しているか否かを判定する(S105)。位相推定部104は、$iが最終フレームを示していない場合(S105:No)には、S106の処理に進む。また、位相推定部104は、$iが最終フレームを示している場合(S105:Yes)には、S107の処理に進む。
 位相推定部104は、$iの値を増加させ、$iに次のフレームの順番を示させる(S106)。
 透かし判定部105は、最終フレームに到達した後に、推定された位相系列にアンラッピング処理を行い、短時間の区間ごとに傾きを算出して位相の傾きのヒストグラムを作成する(S107)。
 透かし判定部105は、作成したヒストグラムの最頻値に基づいて電子透かしの有無を検出する(S108)。
(変形例)
 次に、電子透かし検出装置1の変形例について説明する。図5は、電子透かし検出装置1の変形例の構成を例示するブロック図である。電子透かし検出装置1の変形例は、残差信号抽出部101、有声区間推定部202、記憶部103、位相推定部204及び透かし判定部105を有する。なお、図5に示した電子透かし検出装置1の変形例において、図1に示した電子透かし検出装置1を構成する部分と実質的に同一の部分には同一の符号が付してある。
 有声区間推定部202は、残差信号抽出部101が抽出した残差信号を用いて有声区間の推定を行う。残差信号は、人間の声帯振動を模擬した信号であり、図2に示したように、一定間隔ごとにパルス成分が出現する。例えば、有声区間推定部202は、残差信号の振幅値又はパワーが所定の閾値以上となった点(時刻)、つまりパルスの点のみを系列化する。そして、有声区間推定部202は、ある点に対して、前後の点との間隔(パルス間隔)が所定値以上であれば、始端と定め、次に同様の点が出現した場合に、その点を終端として有声区間を推定する。有声区間推定部202は、この処理を繰り返すことにより、有声区間の推定を行う。そして、有声区間推定部202は、フレームごとの基本周波数Fを抽出し、基本周波数Fの逆数(ピッチ時刻)の系列を算出して、ピッチ時刻の周期で有効な有声区間を推定し、位相推定部204に対して出力する(図6参照)。
 位相推定部204は、有効な有声区間を分析フレームとして切り出し、ピッチ時刻の系列の先頭のフレームにおいて、残差信号抽出部101から入力される残差信号の振幅値が最大となる時刻を先頭ピッチマークとする。また、位相推定部204は、ピッチ時刻の系列の先頭のフレームにおいて、局所的な位相の傾きを求め、傾きの絶対値が最大となる点(時刻)を先頭ピッチマークとしてもよい。
 図6に示した例においては、有声区間推定部202が算出する基本周波数Fの逆数は、1/100secとなっている。つまり、位相推定部204は、先頭ピッチマークに対してピッチ時刻分(1/100sec分)だけ進んだ時刻を新たなピッチマークとして推定する。そして、位相推定部204は、この処理を繰り返し行うことにより、ピッチマーク系列を推定する。
 また、位相推定部204は、ピッチマークごとに、そのピッチマーク(時刻)を中心とするサブフレーム(分析フレーム)ごとにパターンマッチングを行い、位相推定部104と同様に位相系列を推定する。
 図6に示した例においては、位相推定部204は、ピッチマーク位置(時刻)のみでパターンマッチングを行っているが、これに限定されない。例えば、位相推定部204は、ピッチマーク位置周辺でもパターンマッチングを行い、最も類似度の高いパルス信号(テンプレート信号)の位相値を採用するように構成されてもよい。
 このように、図1に示した位相推定部104がフレーム単位で処理を行うのに対し、図5に示した位相推定部204は、ピッチマークごとに位相を推定するので、演算量を抑えつつ、精度よく位相を推定することができる。そして、透かし判定部105は、上述したように推定された位相系列を用いて電子透かしの有無を判定する。
 次に、電子透かし検出装置1の変形例が行う処理の流れについて説明する。図7は、電子透かし検出装置1の変形例が行う処理の流れを示す図である。まず、残差信号抽出部101は、入力された音声信号から残差信号を抽出する(S200)。次に、有声区間推定部202は、フレームごとの基本周波数Fの系列を抽出し、基本周波数Fの逆数(ピッチ時刻)の系列を算出して、位相推定部204に対して出力する(S201)。
 そして、位相推定部204は、S202の処理において例えばピッチマークの順番を示す$iを0とし、基本周波数Fの先頭のフレーム内から先頭ピッチマークを推定する(S203)。
 位相推定部204は、$iが0であるか否かを判定する(S204)。位相推定部204は、$iが0でない場合(S204:No)には、S205の処理に進む。また、位相推定部204は、$iが0である場合(S204:Yes)には、S206の処理に進む。
 位相推定部204は、$iが0でない場合には、先頭ピッチマークに対してピッチ時刻分だけ進んだ時刻を新たなピッチマークとして推定する(S205)。
 位相推定部204は、推定したピッチマーク(時刻)を中心とするサブフレーム(分析フレーム)ごとに、記憶部103が記憶している複数のパルス信号(テンプレート信号)を用いてパターンマッチングを行い、位相を推定する(S206)。
 位相推定部204は、$iが最終ピッチマークを示しているか否かを判定する(S207)。位相推定部204は、$iが最終ピッチマークを示していない場合(S207:No)には、S208の処理に進む。また、位相推定部204は、$iが最終ピッチマークを示している場合(S207:Yes)には、S209の処理に進む。
 位相推定部204は、$iの値を増加させ、$iに次のピッチマークの順番を示させる(S208)。
 透かし判定部105は、最終ピッチマークに到達した後に、推定された位相系列にアンラッピング処理を行い、短時間の区間ごとに傾きを算出して位相の傾きのヒストグラムを作成する(S209)。
 透かし判定部105は、作成したヒストグラムの最頻値に基づいて電子透かしの有無を検出する(S210)。
 なお、電子透かし検出装置1(又は電子透かし検出装置1の変形例)は、図1に示した位相推定部104と、図5に示した位相推定部204とが互いに置換され得るように構成されてもよい。
 本実施形態の電子透かし検出装置1及び変形例で実行される各プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
 また、本実施形態の各プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
 このように、電子透かし検出装置1及び変形例は、分析フレームにおける残差信号と、複数のパルス信号とのパターンマッチングを行うことにより、音声信号の位相を推定するので、演算量を抑えて合成音声に埋め込まれた電子透かしを検出することができる。
 また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 

Claims (16)

  1.  音声信号から残差信号を抽出する残差信号抽出部と、
     前記音声信号に基づいて有声区間を推定する有声区間推定部と、
     予め複数の異なる位相に変調された複数のパルス信号を記憶する記憶部と、
     前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、前記複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定する位相推定部と、
     前記位相推定部が推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定する透かし判定部と、
     を有する電子透かし検出装置。
  2.  前記有声区間推定部は、
     前記残差信号のパルス間隔を用いて有声区間を推定する
     請求項1に記載の電子透かし検出装置。
  3.  前記残差信号抽出部は、
     線形予測係数分析、部分自己相関係数分析、又は線スペクトル分析を用いて残差信号を抽出する
     請求項1に記載の電子透かし検出装置。
  4.  前記有声区間推定部は、
     前記音声信号の基本周波数の逆数と同じ周期で有効な有声区間を推定し、
     前記位相推定部は、
     前記有効な有声区間を前記分析フレームとして切り出してパターンマッチングを行うことにより、前記音声信号の位相を推定する
     請求項1に記載の電子透かし検出装置。
  5.  前記有声区間推定部は、
     前記残差信号の振幅値が所定の閾値以上である場合に、前記残差信号それぞれの時刻に対応する時刻系列を生成し、前記時刻系列に基づいて有声区間を推定する
     請求項2に記載の電子透かし検出装置。
  6.  前記記憶部は、
     -πからπまでの位相を複数の位相値に量子化して変調された複数のパルス信号を記憶する
     請求項1に記載の電子透かし検出装置。
  7.  前記位相推定部は、
     前記残差信号により定まるピッチマークそれぞれを中心とする前記分析フレームごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
     請求項1に記載の電子透かし検出装置。
  8.  前記位相推定部は、
     先頭ピッチマークの位相を推定した後、ピッチマークごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
     請求項1に記載の電子透かし検出装置。
  9.  前記位相推定部は、
     前記分析フレーム内で前記残差信号の振幅が最大となる時刻、又は前記分析フレーム内で前記残差信号の傾きの絶対値が最大となる時刻に基づいて、前記先頭ピッチマークを決定する
     請求項8に記載の電子透かし検出装置。
  10.  前記位相推定部は、
     前記残差信号により定まるピッチマークそれぞれを中心とする前記分析フレームごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
     請求項8に記載の電子透かし検出装置。
  11.  前記位相推定部は、
     時間領域波形に対してパターンマッチングを行う
     請求項1に記載の電子透かし検出装置。
  12.  前記位相推定部は、
     前記残差信号に対する相関係数が最大となる前記複数のパルス信号のいずれかの位相値を前記音声信号の位相として推定する
     請求項11に記載の電子透かし検出装置。
  13.  前記位相推定部は、
     前記残差信号に対する振幅値の差分が最小となる前記複数のパルス信号のいずれかの位相値を前記音声信号の位相として推定する
     請求項11に記載の電子透かし検出装置。
  14.  前記透かし判定部は、
     前記位相推定部が推定した位相の傾きの最頻値に基づいて、前記音声信号における電子透かしの有無を判定する
     請求項11に記載の電子透かし検出装置。
  15.  音声信号から残差信号を抽出する工程と、
     前記音声信号に基づいて有声区間を推定する工程と、
     前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、予め複数の異なる位相に変調された複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定する工程と、
     推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定する工程と、
     を含む電子透かし検出方法。
  16.  音声信号から残差信号を抽出するステップと、
     前記音声信号に基づいて有声区間を推定するステップと、
     前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、予め複数の異なる位相に変調された複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定するステップと、
     推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定するステップと、
     をコンピュータに実行させるための電子透かし検出プログラム。
PCT/JP2013/080466 2013-11-11 2013-11-11 電子透かし検出装置、方法及びプログラム WO2015068310A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2013/080466 WO2015068310A1 (ja) 2013-11-11 2013-11-11 電子透かし検出装置、方法及びプログラム
JP2015546269A JP6193395B2 (ja) 2013-11-11 2013-11-11 電子透かし検出装置、方法及びプログラム
US15/150,520 US9747907B2 (en) 2013-11-11 2016-05-10 Digital watermark detecting device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/080466 WO2015068310A1 (ja) 2013-11-11 2013-11-11 電子透かし検出装置、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/150,520 Continuation US9747907B2 (en) 2013-11-11 2016-05-10 Digital watermark detecting device, method, and program

Publications (1)

Publication Number Publication Date
WO2015068310A1 true WO2015068310A1 (ja) 2015-05-14

Family

ID=53041110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/080466 WO2015068310A1 (ja) 2013-11-11 2013-11-11 電子透かし検出装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US9747907B2 (ja)
JP (1) JP6193395B2 (ja)
WO (1) WO2015068310A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2605281A (en) * 2016-12-30 2022-09-28 Google Llc Modulation of packetized audio signals

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283916B (zh) * 2013-06-11 2019-06-07 株式会社东芝 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
KR102067979B1 (ko) * 2017-12-01 2020-01-21 웰빙소프트 주식회사 심전도 측정 장치
CN108053360B (zh) * 2017-12-18 2021-06-15 辽宁师范大学 基于多相关hmt模型的数字图像水印检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10512110A (ja) * 1995-01-07 1998-11-17 セントラル リサーチ ラボラトリーズ リミティド ディジタルラベル付け信号を用いたオーディオ信号の識別
JP2002169579A (ja) * 2000-12-01 2002-06-14 Takayuki Arai オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JP2003044067A (ja) * 2001-08-03 2003-02-14 Univ Tohoku 位相の周期偏移によるディジタルデータの埋めこみ・検出装置
JP2005521908A (ja) * 2002-03-28 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号の時間領域透かし

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0710211D0 (en) 2007-05-29 2007-07-11 Intrasonics Ltd AMR Spectrography
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
EP2947650A1 (en) 2013-01-18 2015-11-25 Kabushiki Kaisha Toshiba Speech synthesizer, electronic watermark information detection device, speech synthesis method, electronic watermark information detection method, speech synthesis program, and electronic watermark information detection program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10512110A (ja) * 1995-01-07 1998-11-17 セントラル リサーチ ラボラトリーズ リミティド ディジタルラベル付け信号を用いたオーディオ信号の識別
JP2002169579A (ja) * 2000-12-01 2002-06-14 Takayuki Arai オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JP2003044067A (ja) * 2001-08-03 2003-02-14 Univ Tohoku 位相の周期偏移によるディジタルデータの埋めこみ・検出装置
JP2005521908A (ja) * 2002-03-28 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号の時間領域透かし

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KENTARO TACHIBANA ET AL.: "Iso Hencho ni Motozuku HMM Onsei Gosei Muke Denshi Sukashi Hoshiki no Teian", REPORT OF THE 2013 SPRING MEETING, THE ACOUSTICAL SOCIETY OF JAPAN CD-ROM, March 2013 (2013-03-01), pages 135 - 136 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2605281A (en) * 2016-12-30 2022-09-28 Google Llc Modulation of packetized audio signals
US11482216B2 (en) 2016-12-30 2022-10-25 Google Llc Modulation of packetized audio signals
GB2605281B (en) * 2016-12-30 2023-05-03 Google Llc Modulation of packetized audio signals
US11948572B2 (en) 2016-12-30 2024-04-02 Google Llc Modulation of packetized audio signals

Also Published As

Publication number Publication date
JP6193395B2 (ja) 2017-09-06
US9747907B2 (en) 2017-08-29
JPWO2015068310A1 (ja) 2017-03-09
US20160254003A1 (en) 2016-09-01

Similar Documents

Publication Publication Date Title
JP6017591B2 (ja) 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム
JP6193395B2 (ja) 電子透かし検出装置、方法及びプログラム
CN112133277B (zh) 样本生成方法及装置
US9881623B2 (en) Digital watermark embedding device, digital watermark embedding method, and computer-readable recording medium
KR101666521B1 (ko) 입력 신호의 피치 주기 검출 방법 및 그 장치
AU2020227065B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP6347536B2 (ja) 音合成方法及び音合成装置
JP5433696B2 (ja) 音声処理装置
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
JP2014219607A (ja) 音楽信号処理装置および方法、並びに、プログラム
JP6306718B2 (ja) 欠落データにわたる正弦波内挿
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
CN112420004A (zh) 生成歌曲的方法、装置、电子设备及计算机可读存储介质
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2009237015A (ja) 音声素片接続装置及びプログラム
Ghazvini et al. Pitch period detection using second generation wavelet transform
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法
KR101626280B1 (ko) 합성음의 고조파 성분 제거 방법 및 장치
Marquez et al. Algorithms for hiding data in speech signals
JP2010276697A (ja) 音声処理装置およびプログラム
JP2011180417A (ja) 音楽音響信号のピッチ推定装置及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13896948

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015546269

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13896948

Country of ref document: EP

Kind code of ref document: A1