WO2002095731A1 - Voice signal processor - Google Patents

Voice signal processor Download PDF

Info

Publication number
WO2002095731A1
WO2002095731A1 PCT/JP2001/004266 JP0104266W WO02095731A1 WO 2002095731 A1 WO2002095731 A1 WO 2002095731A1 JP 0104266 W JP0104266 W JP 0104266W WO 02095731 A1 WO02095731 A1 WO 02095731A1
Authority
WO
WIPO (PCT)
Prior art keywords
waveform
audio signal
signal processing
predicted
value
Prior art date
Application number
PCT/JP2001/004266
Other languages
French (fr)
Japanese (ja)
Inventor
Yasutaka Kanayama
Teruyuki Sato
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2001/004266 priority Critical patent/WO2002095731A1/en
Priority to JP2002592111A priority patent/JP4426186B2/en
Publication of WO2002095731A1 publication Critical patent/WO2002095731A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Definitions

  • the present invention relates to an audio signal processing device for digital audio data such as linear PCM audio data in a communication network or a terminal.
  • Broadbanding is to increase the transmission capacity of the communication path so that huge data can be transmitted quickly
  • ip-i-dani is to send data in Ip bucket units. is there. Since packet switching does not occupy the line, it is a pay-as-you-go service based on the amount of data, and is a very important method today when dealing with huge data.
  • voice information is transmitted by the circuit switching system, and the time is charged according to the time occupying the line. Since the line is occupied, a very high quality is required during that period, and the quality is actually high to some extent.
  • VoIP Voice over IP
  • the transmission format is not particularly compressed and is expected to be the G.711 PCM format used in the current ATM network. Is done.
  • IP packet exchange is a transmission method suitable for data in which a packet can be retransmitted even if an error occurs, and to some extent in real-time information that cannot be retransmitted such as voice data. It is considered that quality deterioration occurs.
  • audio codecs used in recent mobile communications mainly use the CELP system, and this system processes linear PCM data in frame units. Parameters such as spectrum envelope information and sound source information are extracted from the frame, enabling encoding at a high compression rate.
  • typical parameters such as pitch cycle
  • weighting is used to interpolate the audio waveform near the boundary of the frame.
  • FIG. 1 is a diagram showing a state of bucket routing in an IP network. The figure shows a case where three packets are respectively transmitted in order. Even if the second and third packets are transmitted sequentially after the first packet, the second packet is transmitted to the VoIP router 1 after passing through the VoIP router 2. On the other hand, since the third packet is transmitted directly to the VoIP router 1, the third packet transmitted later passes the second packet and arrives at the destination.
  • TFO Tandem Free Operation
  • An object of the present invention is to provide an audio signal processing device that detects discontinuous points of an audio waveform that occur unspecified by examining digital audio data and compensates for quality degradation due to the discontinuous points, and in particular, a linear PCM.
  • An object of the present invention is to provide an audio signal processing device that checks data, detects a discontinuity point, immediately corrects a portion where the discontinuity point is determined, and can avoid deterioration in auditory quality. .
  • An audio signal processing apparatus is an audio signal processing apparatus for processing digital audio data in a communication network, comprising: a waveform prediction unit that detects a period of an input waveform and predicts a waveform to be received from the period; A discontinuous point detecting means for detecting a discontinuous point of the waveform from a correlation value between the detected waveform and the actually received waveform; and, when the discontinuous point is detected, the predicted waveform and the actual waveform. And a correction waveform generating means for generating a correction waveform having no discontinuous points by using the received waveforms.
  • the presence or absence of a discontinuity is detected by directly examining the received waveform. Therefore, even if a discontinuity occurs due to an unpredictable cause, the discontinuity is found and corrected.
  • the generated waveform can be generated. Therefore, it is possible to compensate not only for a case where a discontinuity occurs at a position predicted from the system configuration such as a joint between frames, but also for a deterioration in voice quality due to a discontinuity occurring at an arbitrary position in the waveform. come.
  • FIG. 1 is a diagram showing a state of bucket routing in an IP network.
  • FIG. 2 is a diagram (part 1) for explaining the principle of the embodiment of the present invention.
  • FIG. 3 is a diagram (part 2) for explaining the principle of the embodiment of the present invention.
  • FIG. 4 is a diagram (part 3) for explaining the principle of the embodiment of the present invention.
  • FIG. 5 is a diagram (part 4) for explaining the principle of the embodiment of the present invention.
  • FIG. 6 is a processing block diagram of the audio signal processing device according to the embodiment of the present invention.
  • FIG. 7 is a diagram showing an overall processing flow of the audio signal processing device according to the embodiment of the present invention.
  • FIG. 8 is a diagram illustrating an application portion and a network of the audio signal processing device according to the embodiment of the present invention.
  • means for calculating a cycle from past input data means for predicting a future voice waveform from the obtained cycle, and comparing the predicted waveform with the actual waveform to determine whether correction is necessary
  • a means for correcting the waveform by using means such as weighting for a discontinuous point requiring correction.
  • 2 to 5 are diagrams illustrating the principle of the embodiment of the present invention.
  • FIG. 2 shows an example of a speech waveform, where k corresponds to the pitch period.
  • the pitch period can be extracted by using a method such as calculation of an autocorrelation coefficient. If the autocorrelation value is high to some extent, it is possible to predict the future waveform (expected waveform) within a certain error range by using the pitch period. In Figure 2, if the pitch period is determined to be k, k samples before The predicted waveform can be obtained by using the value of the linear PCM data as the current value.
  • the discontinuous point is detected by comparing the actual waveform and the predicted waveform in each sample, and the vicinity of the discontinuous point is interpolated using the predicted waveform.
  • Figure 4 shows an enlarged view of the vicinity of. In FIG. 4, the neighborhood of a 0 a 2 ,... & 2 and 13. Near 13. 2,, b 2 whether it is possible to check the disturbed significantly waveform by Mel seek local correlation.
  • the sample determined to be a discontinuous point is corrected, but there is a method using weighting and the like as a correction method.
  • the weighting method is used.
  • D view to 5 show the manner in which is gradually corrected to the actual waveform from predicted waveform by weight.
  • interpolation is performed with the predicted waveform shown by the broken line.
  • the interpolation method is such that when the correction waveform indicated by the bold line is close to the discontinuity d, the correction waveform has a shape close to the predicted waveform, and gradually approaches the actual waveform.
  • FIG. 6 is a processing block diagram of the audio signal processing device according to the embodiment of the present invention.
  • FIG. 7 is a diagram showing an overall processing flow of the audio signal processing device according to the embodiment of the present invention.
  • a (0) is a sample to determine whether or not to correct
  • a (— 1) is a sample one past.
  • a (1), ⁇ , a (4) are the sample values after a (0). In the present embodiment, since it is necessary to reach the sample W to be collected four times after the sample value a (0) and to reach the sum W directly, in actual processing, up to the value four samples after the sample value to be corrected Perform processing after reading.
  • the period detection unit 10 in FIG. 6 uses several tens of samples before a (0) (here Then, a segment is formed with 40 samples), and the following calculation is performed.
  • the past reused PCM data from the input is stored in the storage unit 14, and the data is read into the period detection unit 10 from here. .
  • the number of samples required for detecting the periodicity is set to 40 samples here, but actually, the number of samples is determined so that one period of the pitch of the audio data can be used for period detection. Should. Normally, it is sufficient to have about 40 samples for detecting the pitch period of audio data. If the sampling frequency is different, use an appropriate number of samples according to the frequency. S l, 2,, 50
  • the numerator in order to prevent waveforms with opposite phases or waveforms with low power from affecting the correction, the numerator must be set to a threshold value that is positive in parentheses and has two terms each multiplied by the denominator. Only when exceeded. That is, the numerator is always a positive number because it is squared, but the expressions in parentheses of the numerator have the same waveform. In this case, the value indicates a large positive value, and when the waveform is out of phase, it indicates a negative value and a large absolute value.
  • each term of the denominator is a formula for calculating the power of the voice. By setting these values to a predetermined value or more, a voice waveform with a low power can be removed. Removing a low-power voice waveform is likely to be affected by noise in the case of a low-power voice waveform. The actual voice waveform is different from the past waveform, but is affected by noise.
  • the above threshold value should be appropriately determined by those skilled in the art who try to use the present embodiment experimentally.
  • S it is determined whether or not S exceeds a certain threshold. If it exceeds, it is determined that the waveform is a periodic one, and the value of the period k is determined and sent to the prediction unit 11 in FIG. If not exceeded, it is determined that it is not periodic, and the processing of the prediction unit 11, the judgment unit 12, and the correction unit 13 is not performed.
  • the threshold value for the determination of S should also be appropriately set by those skilled in the art through experiments and the like.
  • the prediction unit 11 predicts that the neighborhood of a (0) looks like the neighborhood of a (— k).
  • the neighborhood of a (0) is a (— 2), ⁇ , a (4)
  • the neighborhood of a (1 k) is a (– k – 2), ⁇ , a (— k + 4)
  • the prediction unit 11 sends the predicted waveform to the comparison determination unit 12.
  • the predicted waveform is a waveform consisting of a (-k-- 2) to a (-k + 4) samples near a (_k), which is determined to be similar to the vicinity of a (0). It is.
  • the following calculation is performed for the predicted waveform (near a (-k)) and the actual waveform (near a (0)) in a short section. Note that the calculation here is performed for seven samples near each of a (0) and a (— k). ing. This is a calculation that selects a neighborhood that is sufficiently smaller than one cycle of the speech waveform, but large enough to average the noise-like change for each sample. That is, if the number of samples to be calculated is too large, it is not possible to detect a local discontinuity of the waveform, and if the number of samples is too small, the waveform is discontinuous even if the sample value changes like noise.
  • this T exceeds a certain threshold value. If not, it is determined that the waveform is significantly disturbed at that point, and a correction instruction is issued to the correction unit 13 by the comparison determination unit 12. Is issued. However, in this case as well, the case where the two terms multiplied by the denominator are smaller than a certain threshold is excluded. If the value inside the parentheses of the numerator is negative, it is assumed to be 1 ⁇ . Again, by using only the case where each term of the denominator is larger than the predetermined threshold, the case where the sound power is small is removed.When the parenthesis of the numerator is negative, the value of It is made negative so that it does not exceed the threshold.
  • the correction unit 13 Upon receiving the correction instruction, the correction unit 13 performs interpolation by weighting as described below, and outputs s (corrected audio data sample value).
  • ⁇ samples The corrected waveform should be sufficiently smooth and almost coincide with the actual waveform.
  • the value of n should also be set appropriately by those skilled in the art), and during this period, the functions of period detection, prediction, and comparison judgment are stopped.
  • ⁇ set is the value of a (—1)-a (—k—l) when the correction instruction is issued.
  • the storage unit 14 stores the values as a (4) ⁇ a (3), a (3) ⁇ a (2), a (i) ⁇ a (i-1), and so on. Update. Note that s ⁇ a ( ⁇ 1), and the correction result is reflected in the past waveform data stored in the storage unit 14.
  • one sample of the linear PCM data is input from the input (1)
  • Data is sequentially input, and the latest sample value is input to the direct comparison determination unit 12 and the correction unit 13.
  • the storage unit 14 outputs a predetermined number (for example, about 40 samples) of past sample values before the latest sample value.
  • FIG. 7 is a flowchart showing the overall processing of the embodiment of the present invention.
  • step S1 an autocorrelation coefficient is calculated.
  • the calculation here corresponds to the calculation of S in the above description.
  • step S2 it is determined whether or not there is periodicity.
  • step S3 waveform prediction, that is, a past waveform one cycle before is obtained as a predicted waveform, and in step S4, the current waveform is obtained. Compare with the predicted waveform.
  • step S4 is to calculate the above-mentioned T. For a small number of samples in the vicinity of the target sample, the correlation value between the current waveform and the predicted waveform is obtained, and the correlation value becomes smaller than a predetermined threshold value. It is to judge whether it is larger or not, but the process of step S 4 is called “comparison”. Therefore, by performing “comparison” in step S4, it is determined whether or not there is a discontinuity in the current waveform.
  • step S5 it is determined whether or not the waveform needs to be corrected according to whether or not the current voice waveform has a discontinuity as a result of the comparison in step S4. If there are no discontinuities in the voice waveform, it is determined that correction is not necessary, and the process proceeds to steps S7 and S8. In step S2, the same processing as when there is no periodicity is performed. If it is determined in step S5 that the correction is necessary, in step S6, the sample value of the audio waveform is corrected by the above-mentioned weighting operation, and this is output in step S7. In S8, the corrected sample value is stored in the storage unit 14, and the oldest sample value is discarded.
  • FIG. 8 is a diagram illustrating an application portion and a network of the audio signal processing device according to the embodiment of the present invention.
  • the public line network 22 is connected to the mobile network 23 via the network 20.
  • the mobile network 23 may be another public network, or the public network 22 may be another mobile network.
  • Network 20 is IP such as the Internet
  • the network is based on a packet switching system. In this case, in order to transmit and receive voice via the network 20, a method called VoIP is adopted.
  • a gateway 21 is provided as a boundary device between the network 20 and the public network 22.
  • a gateway 21 is provided as a boundary device between the mobile network 23 and the network 20.
  • the audio signal processing device is mounted on the gateway 21 as these boundary devices. That is, for example, an audio signal input to the gateway 21 from the public line network 22 is converted into linear PCM data, and then subjected to the audio signal processing of the embodiment of the present invention. Sent in IP format.
  • the gateway 21 receiving the voice data transmitted to the network 20 converts the received voice signal into linear PCM data, performs the voice signal processing according to the embodiment of the present invention, and finally executes the mobile network 2. Send to 3.
  • the gateway is mentioned as an application portion of the audio signal processing device according to the embodiment of the present invention, but the present invention is not limited to this.
  • the present invention can be applied to the case where the received voice is reproduced in a mobile device such as a mobile terminal of the mobile network 23, or in a base station of the mobile network 23 or a telephone of the public network 22. It is also possible to perform the audio signal processing according to the embodiment of the present invention on the audio signal in the state of the lithium PCM data.
  • auditory quality deterioration can be suppressed irrespective of the cause of the occurrence of a discontinuity in the audio waveform. Also, processing can be performed without significant delay.

Abstract

An auto-correlation value is determined approximately over a cycle with regard to a voice waveform generated from linear PCM data, and a pitch cycle of the voice waveform is extracted on the basis of the auto-correlation value. In the vicinity of a sampled value of an objective voice waveform, the voice waveform from a cycle before the sampled value of the objective voice waveform is used as a predicted waveform to determine the correlation value between the actual voice waveform and the predicted waveform, and a discontinuous point in the actual voice waveform, if any, is detected from the magnitude of the correlation between the predicted waveform and the actual voice waveform. If a discontinuous point is detected, a corrected voice waveform which is similar to the predicted waveform in the vicinity of the discontinuous point and gradually approaches the actual waveform is formed by the interpolation between the predicted waveform and the actual voice waveform.

Description

明細書 音声信号処理装置 技術分野  Description Audio signal processing device Technical field
本発明は、 通信ネットワークや端末機におけるリニア P C M音声データなど のデジタル音声データを対象とした音声信号処理装置に関する。 背景技術  The present invention relates to an audio signal processing device for digital audio data such as linear PCM audio data in a communication network or a terminal. Background art
今日の情報通信社会において、 様々な情報がネットワークを通してやりとり されているが、 一昔前に比べるとその扱っているデータは非常に大きくなつて おり、 そしてまた多様化している。 今後もこの傾向は続くと思われる。  In today's information and communication society, various types of information are exchanged via networks, but the data handled is very large and diversified compared to a time ago. This trend is expected to continue in the future.
ネットワークはそのような増え続ける情報量に対応しなければならないが、 最近では、 そのためのキーワードとして 「ブロードバンド化」、 「I P化」 など の言葉を良く目にする。  Networks must deal with such an ever-increasing amount of information, but recently keywords such as “broadband” and “IP” have been frequently used.
「ブロードバンド化」 とは、 通信経路の伝送能力を高くし、 巨大なデータを 速やかに伝送できるようにすることであり、 「i pィ匕」とはデータを I pバケツ ト単位で送るというものである。 パケット交換は回線を占有するわけではない ため、 データの量に応じた従量課金となり、 巨大なデータを扱う今日において 非常に重要な方式と言える。  "Broadbanding" is to increase the transmission capacity of the communication path so that huge data can be transmitted quickly, and "ip-i-dani" is to send data in Ip bucket units. is there. Since packet switching does not occupy the line, it is a pay-as-you-go service based on the amount of data, and is a very important method today when dealing with huge data.
ところで、 音声はというと、 現在のところ音声情報は回線交換方式で伝送さ れており、 回線を占有している時間に応じた時間課金となっている。 回線を占 有するわけなので、その間の品質についてはかなり高いものが要求され、また、 実際品質はある程度高いと言える。  By the way, speaking of voice, at present, voice information is transmitted by the circuit switching system, and the time is charged according to the time occupying the line. Since the line is occupied, a very high quality is required during that period, and the quality is actually high to some extent.
し力、し、 時代の流れの中で、 音声も I Pパケットにより伝送することが検討 されており、 近い将来 「VoIP」 とよばれるサービスが始まると考えられる。 つ まり、 音声データも他のデータと同様にパケット交換によって情報のやりとり を行うことになる。 Considering the transmission of voice using IP packets in the tide of the times It is expected that a service called “VoIP” will start in the near future. In other words, voice data exchanges information by packet exchange like other data.
その際音声データは、 音声以外のデータのサイズと比較して非常に小さいた め、 伝送フォーマットは特に圧縮は行わず、 現在の A TM網で使われている G.711PCMフォーマツトとなることが予想される。  At this time, since the audio data is very small compared to the size of the data other than audio, the transmission format is not particularly compressed and is expected to be the G.711 PCM format used in the current ATM network. Is done.
しかし、 IPバケツト交換はエラーが発生してもバケツトの再送が可能なデー タなどに適した伝送方法であり、 音声デ"タのように再送のきかないリアルタ ィム系の情報においてはある程度の品質劣化が起こると考えられる。  However, IP packet exchange is a transmission method suitable for data in which a packet can be retransmitted even if an error occurs, and to some extent in real-time information that cannot be retransmitted such as voice data. It is considered that quality deterioration occurs.
このような品質劣化に起因する音声波形の不連続点があると聴覚上大きな品 質劣化が起こることは良く知られているが、 音声波形の不連続というのはいろ いろな原因で起こるものである。  It is well known that such audio waveform discontinuities due to quality degradation can cause a large amount of auditory quality degradation.However, discontinuities in audio waveforms are caused by various causes. is there.
例えば、 最近の移動体通信で使われている音声コーデックは C E L P方式な どが主であるが、 この方式の場合リニア P C Mデータをフレーム単位で処理す る。フレームからはスぺクトル包絡情報や音源情報などのパラメータを抽出し、 高い圧縮率での符号化を可能にしている。 しかし、 フレーム単位で符号化され たデータを 号する場合、 フレームとフレームの境目には不連続点が生じやす い。このような不連続点が生じないようにするために、代表的なパラメータ(ピ ツチ周期など) を用い、 重み付けを用いてフレームの境目付近で音声波形の補 間を行っている。  For example, audio codecs used in recent mobile communications mainly use the CELP system, and this system processes linear PCM data in frame units. Parameters such as spectrum envelope information and sound source information are extracted from the frame, enabling encoding at a high compression rate. However, when encoding data encoded in frame units, discontinuities are likely to occur at the boundaries between frames. In order to avoid such discontinuities, typical parameters (such as pitch cycle) are used, and weighting is used to interpolate the audio waveform near the boundary of the frame.
他にも、 聴覚上の音質を改善するためにフィルタ処理を行う方法などが知ら れている。 また、 無線区間における符号化データフレーム (パケット) の消失 ゃデータエラーなどによっても不連続点は生じる。 そのときはエラーが起こつ たことを外部チエックにより伝えてもらい、 音声データのレベルを落とす処理 などを行うことで聴覚上の品質劣化を抑えている。 このような手法の例として は、 特開平 7 _ 1 0 5 6 3 7ゃ特開平 6 _ 3 2 6 6 2 2がある。 In addition, a method of performing a filtering process to improve auditory sound quality is known. In addition, discontinuous points also occur due to loss of coded data frames (packets) in the wireless section and data errors. At that time, an external check is used to notify the user of the occurrence of the error, and processing such as lowering the level of the audio data is performed to reduce the deterioration in auditory quality. Examples of such techniques There are Japanese Patent Application Laid-Open Nos. 7-106566-1995 and 6-326266-2.
上記のようにフレームの境目で補間を行う場合ゃデータのエラーが生じた場 合などは不連続が起こつた場所、 あるいは不連続が起こる可能性がある場所が 予め分かった上での処理であり、 主に音声符号化ゃ復号とあわせて行われるも のである。 しかし、 P CMデータをパケット単位で伝送する A TM網や I P網 において、 パケットが消失したり原因不明のビットエラーが起こった場合、 そ こで生じた不連続点はどこらかもチェックを受けることなく品質劣化の原因を 抱えたまま伝送されることになる。  When interpolation is performed at the boundary of a frame as described above. ゃ When a data error occurs, the processing is performed after knowing in advance where a discontinuity has occurred or where a discontinuity may occur. This is mainly performed together with speech coding and decoding. However, in an ATM network or IP network that transmits PCM data in packet units, if a packet is lost or an unknown bit error occurs, the discontinuity that occurs is not checked at any point. It will be transmitted with the cause of quality degradation.
特に、 I P網ではパケットの伝送ルートが可変であるため、 ルーティングの 状態によっては時間的に後に発行されたバケツトが先に発行されたバケツトを 追い越してしまう状況も考えられ、 その場合にも不連続点は生じる。  In particular, since the packet transmission route is variable in the IP network, there is a possibility that a bucket issued later in time may pass a bucket issued earlier, depending on the routing condition, and in that case, discontinuity may occur. Dots arise.
図 1は、 I P網におけるバケツトルーティングの様子を示した図である。 同図では、 3つのパケットがそれぞれ順に送信された場合を示している。 第 1のパケッ トの後に、 第 2、 第 3のパケットが順次送信されても、 第 2のパケ ットは、 V o l Pルータ 2を通ってから V o I Pルータ 1に送信されている。 一方、 第 3のパケットは、 直接 V o I Pルータ 1に送信されているため、 後か ら送信された第 3のパケットが、 第 2のパケットを追い越して、 送信先に到着 することになる。  FIG. 1 is a diagram showing a state of bucket routing in an IP network. The figure shows a case where three packets are respectively transmitted in order. Even if the second and third packets are transmitted sequentially after the first packet, the second packet is transmitted to the VoIP router 1 after passing through the VoIP router 2. On the other hand, since the third packet is transmitted directly to the VoIP router 1, the third packet transmitted later passes the second packet and arrives at the destination.
また、 IMT-2000 向けの移動体通信網においては、 端末機同士での接続の場 合に T F O (Tandem Free Operation) と呼ばれる方式を使うことが検討 されている。 この方式はタンデム接続による品質の劣化を回避する目的がある 、 タンデム接続から T F Oへの移行、 あるいはその逆が行われる時、 方式的 に不連続点が生じる可能性がある。 しカゝし、 それをチェックし、 捕正する技術 はない。 発明の開示 In the mobile communication network for IMT-2000, the use of a method called TFO (Tandem Free Operation) is being studied for connection between terminals. This method has the purpose of avoiding the deterioration of quality due to the tandem connection. When the transition from the tandem connection to the TFO or vice versa, there may be systematic discontinuities. There is no technology to check and capture it. Disclosure of the invention
本発明の課題では、 不特定に生じる音声波形の不連続点をデジタル音声デー タを調べることにより検出し、 不連続点に起因する品質劣化を補償する音声信 号処理装置、 特には、 リニア P C Mデータをチェックし、 不連続点を検出し、 不連続点を判定された部分には即座に補正をかけ、 聴覚上の品質劣化を回避す ることの出来る音声信号処理装置を提供することである。  An object of the present invention is to provide an audio signal processing device that detects discontinuous points of an audio waveform that occur unspecified by examining digital audio data and compensates for quality degradation due to the discontinuous points, and in particular, a linear PCM. An object of the present invention is to provide an audio signal processing device that checks data, detects a discontinuity point, immediately corrects a portion where the discontinuity point is determined, and can avoid deterioration in auditory quality. .
本発明の音声信号処理装置は、 通信ネットワークにおけるデジタル音声デー タの処理を行う音声信号処理装置において、 入力波形の周期を検出し、 該周期 から受信する波形を予測する波形予測手段と、 該予測された波形と実際に受信 された波形との相関値から波形の不連続点を検出する不連続点検出手段と、 該 不連続点が検出された場合に、 該予測された波形と該実際に受信された波形と を用いて不連続点のない補正波形を生成する補正波形生成手段とを備えること を特徴とする。  An audio signal processing apparatus according to the present invention is an audio signal processing apparatus for processing digital audio data in a communication network, comprising: a waveform prediction unit that detects a period of an input waveform and predicts a waveform to be received from the period; A discontinuous point detecting means for detecting a discontinuous point of the waveform from a correlation value between the detected waveform and the actually received waveform; and, when the discontinuous point is detected, the predicted waveform and the actual waveform. And a correction waveform generating means for generating a correction waveform having no discontinuous points by using the received waveforms.
本発明によれば、 受信した波形を直接調べて、 不連続点の有無を検出するの で、 予測できないような原因で不連続点が生じても、 不連続点を見つけて、 こ れを補正した波形を生成することが出来る。従って、フレームのつなぎ目など、 システムの構成から予測される位置に不連続点が生じた場合のみではなく、 波 形の任意の位置に発生した不連続点による音声品質の劣化を補償することが出 来る。  According to the present invention, the presence or absence of a discontinuity is detected by directly examining the received waveform. Therefore, even if a discontinuity occurs due to an unpredictable cause, the discontinuity is found and corrected. The generated waveform can be generated. Therefore, it is possible to compensate not only for a case where a discontinuity occurs at a position predicted from the system configuration such as a joint between frames, but also for a deterioration in voice quality due to a discontinuity occurring at an arbitrary position in the waveform. come.
これにより、 本発明では、 パケット交換方式による通信ネットワークを介し て音声を送受信しても品質の良い音声通信を提供することが出来る。 図面の簡単な説明  As a result, according to the present invention, high-quality voice communication can be provided even when voice is transmitted and received via a communication network based on the packet switching system. BRIEF DESCRIPTION OF THE FIGURES
図 1は、 I P網におけるバケツトルーティングの様子を示した図である。 図 2は、 本発明の実施形態の原理を説明する図 (その 1 ) である。 図 3は、 本発明の実施形態の原理を説明する図 (その 2 ) である。 FIG. 1 is a diagram showing a state of bucket routing in an IP network. FIG. 2 is a diagram (part 1) for explaining the principle of the embodiment of the present invention. FIG. 3 is a diagram (part 2) for explaining the principle of the embodiment of the present invention.
図 4は、 本発明の実施形態の原理を説明する図 (その 3 ) である。  FIG. 4 is a diagram (part 3) for explaining the principle of the embodiment of the present invention.
図 5は、 本発明の実施形態の原理を説明する図 (その 4 ) である。  FIG. 5 is a diagram (part 4) for explaining the principle of the embodiment of the present invention.
図 6は、 本発明の実施形態の音声信号処理装置の処理プロック図である。 図 7は、 本発明の実施形態の音声信号処理装置の全体の処理フローを示す図 である。  FIG. 6 is a processing block diagram of the audio signal processing device according to the embodiment of the present invention. FIG. 7 is a diagram showing an overall processing flow of the audio signal processing device according to the embodiment of the present invention.
図 8は、 本発明の実施形態に従った音声信号処理装置の適用部分とネットヮ ークを説明する図である。 発明を実施するための最良の形態  FIG. 8 is a diagram illustrating an application portion and a network of the audio signal processing device according to the embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
本発明では、 過去の入力データから周期を求める手段と、 求められた周期か ら未来の音声波形を予測する手段と、 予測波形と実際の波形を比較し、 補正が 必要であるかどうかを判断する手段と、 補正が必要な不連続点に対して、 重み 付けなどの手段を用 1ヽて波形を補正する手段を具備する。  In the present invention, means for calculating a cycle from past input data, means for predicting a future voice waveform from the obtained cycle, and comparing the predicted waveform with the actual waveform to determine whether correction is necessary And a means for correcting the waveform by using means such as weighting for a discontinuous point requiring correction.
図 2〜5は、 本発明の実施形態の原理を説明する図である。  2 to 5 are diagrams illustrating the principle of the embodiment of the present invention.
音声波形を観察すると、 有音部分においてはある一定の周期をもって類似し た波形が連続して現れることが知られている。 これはピッチと呼ばれるもので あり、 音声を高圧縮する際のパラメータの 1つとして、 最近の音声符号化方式 でも使われている重要なパラメータである。 本発明の実施形態では、 目的とす る音声波形の補正に、 このピッチ周期を利用する。 図 2は、 音声波形の例を示 しており、 kがピッチ周期に相当する。  When observing a speech waveform, it is known that a similar waveform appears continuously with a certain period in a sound part. This is called pitch, and is an important parameter used in recent speech coding methods as one of the parameters for high compression of speech. In the embodiment of the present invention, this pitch period is used for correcting a target speech waveform. FIG. 2 shows an example of a speech waveform, where k corresponds to the pitch period.
ピッチ周期は自己相関係数の計算などの方法を使うことで抽出が可能である。 自己相関がある程度高い数値を出している場合、 ピッチ周期を用いることによ り未来の波形 (期待する波形) をある程度の誤差の範囲で予測することが可能 である。 図 2で言えば、 ピッチ周期が kと求められている場合、 kサンプル前 のリニア P CMデータの値を現在の値として用いることで予測波形を求めるこ とが出来る。 The pitch period can be extracted by using a method such as calculation of an autocorrelation coefficient. If the autocorrelation value is high to some extent, it is possible to predict the future waveform (expected waveform) within a certain error range by using the pitch period. In Figure 2, if the pitch period is determined to be k, k samples before The predicted waveform can be obtained by using the value of the linear PCM data as the current value.
通常の音声波形では図 2のようにきちんとピッチ周期が現れている場合は、 実際の波形が予測波形から大きく外れることはあまりない。 し力 し、 図 3に示 すように、 予測波形に対し実際の波形が著しく異なる場合、 それは音声波形上 の不連続点となり、 聴覚上大きく品質を落とす可能性を含むことになる。 その ため本実施形態では、 毎サンプルで実際の波形と予測波形を比較して不連続点 を検出し、 不連続点周辺を予測波形を用いて補間する。  If the pitch period appears properly in the normal voice waveform as shown in Fig. 2, the actual waveform does not deviate significantly from the predicted waveform. However, as shown in Fig. 3, if the actual waveform is significantly different from the predicted waveform, it will be a discontinuity on the audio waveform, which may result in a significant loss of audio quality. Therefore, in the present embodiment, the discontinuous point is detected by comparing the actual waveform and the predicted waveform in each sample, and the vicinity of the discontinuous point is interpolated using the predicted waveform.
実際の波形と予測波形との比較方法として、 局所的な相関係数の計算などが 挙げられる。 図 3の点 a。の近傍を拡大したのが、 図 4である。 図 4において a 0の近傍 a ·2、 … & 2と 13。の近傍13 .2、 、 b 2について局所的な相関を求 めることで著しく波形が乱れたかどうかをチェックする事が出来る。 As a method of comparing the actual waveform with the predicted waveform, there is a method of calculating a local correlation coefficient or the like. Figure 3, point a. Figure 4 shows an enlarged view of the vicinity of. In FIG. 4, the neighborhood of a 0 a 2 ,… & 2 and 13. Near 13. 2,, b 2 whether it is possible to check the disturbed significantly waveform by Mel seek local correlation.
不連続点と判断されたサンプルについては補正がかけられるが、 補正方法と しては重み付けを用いる方法などがあるが、 特に、 本実施形態においては、 重 み付けの方法を使用することを説明する D 図 5は重み付けにより予測波形から 実際の波形へと徐々に補正されていく様子を示している。 すなわち、 実線でし めされる実際の波形に不連続点 dがある場合、 破線で示される予測波形との補 間を行う。 補間の仕方は、 太線で示される補正波形が、 不連続点 dに近いとこ ろでは、 予測波形に近い形状となり、 徐々に、 実際の波形に近づいていくよう にする。 The sample determined to be a discontinuous point is corrected, but there is a method using weighting and the like as a correction method. In particular, in the present embodiment, it is explained that the weighting method is used. D view to 5 show the manner in which is gradually corrected to the actual waveform from predicted waveform by weight. In other words, if there is a discontinuity d in the actual waveform shown by the solid line, interpolation is performed with the predicted waveform shown by the broken line. The interpolation method is such that when the correction waveform indicated by the bold line is close to the discontinuity d, the correction waveform has a shape close to the predicted waveform, and gradually approaches the actual waveform.
図 6は、 本発明の実施形態の音声信号処理装置の処理プロック図である。 ま た、 図 7は、 本発明の実施形態の音声信号処理装置の全体の処理フローを示す 図である。  FIG. 6 is a processing block diagram of the audio signal processing device according to the embodiment of the present invention. FIG. 7 is a diagram showing an overall processing flow of the audio signal processing device according to the embodiment of the present invention.
本発明の実施形態を図 6と図 7を用いて説明する。  An embodiment of the present invention will be described with reference to FIGS.
リニア P CMデータのサンプル列を a .(_ i )、 · · ■、 a ( 0 )、 · · ■、 a (4) とする。 a (0) が補正すべきかどうかが判断されるサンプルであり、 a (— 1) がそのひとつ過去のサンプルである。 また、 a (1)、 · · ·、 a (4) は a (0) の後のサンプル値である。 本実施形態では、 捕正すべきサンプル値 a (0) より時間的に 4サンプル後のサンプ W直まで必要となるので、 実際の 処理においては、 補正すベきサンプル値の 4サンプル後の値まで読み込んでか ら処理を行う。 A. (_ I), ···, a (0), ···, a (4). a (0) is a sample to determine whether or not to correct, and a (— 1) is a sample one past. A (1), ···, a (4) are the sample values after a (0). In the present embodiment, since it is necessary to reach the sample W to be collected four times after the sample value a (0) and to reach the sum W directly, in actual processing, up to the value four samples after the sample value to be corrected Perform processing after reading.
まず、 a (0) のサンプルが含まれている部分の波形が周期性を持っている かどうかを調べるために図 6の周期検出部 10では a (0) の前の数十サンプ ル (ここでは 40サンプル) でセグメントを形成し、 以下の計算を行う。  First, in order to check whether or not the waveform of the portion including the sample of a (0) has periodicity, the period detection unit 10 in FIG. 6 uses several tens of samples before a (0) (here Then, a segment is formed with 40 samples), and the following calculation is performed.
なお、 a (0) の前の数十サンプルは、 記憶部 14に、 入力からの過去のリ ユア PCMデータが記憶されており、 ここから、 データを周期検出部 10に読 み込むようにする。 また、 周期性の検出のために必要なサンプル数は、 ここで は、 40サンプルとしているが、 実際には、 音声データのピッチの一周期を周 期検出に使用できるようにサンプル数を決定すべきである。 通常、 音声データ のピッチ周期の検出には、 40サンプル程度有れば十分である。 サンプリング 周波数が異なる場合などにおいては、 その周波数に応じて適当なサンプル数を 使用するようにする。 S l,2, ,50 In addition, in the dozens of samples before a (0), the past reused PCM data from the input is stored in the storage unit 14, and the data is read into the period detection unit 10 from here. . In addition, the number of samples required for detecting the periodicity is set to 40 samples here, but actually, the number of samples is determined so that one period of the pitch of the audio data can be used for period detection. Should. Normally, it is sufficient to have about 40 samples for detecting the pitch period of audio data. If the sampling frequency is different, use an appropriate number of samples according to the frequency. S l, 2,, 50
Figure imgf000009_0001
Figure imgf000009_0001
この計算で Sが最大となる時の kの値と Sの値を求める。 ただし、 逆位相の 波形やパワーが小さい波形が補正に影響を及ぼさないようにするため、 分子は 括弧の中が正であり、 かつ、 分母で掛け合わされている 2つの項がそれぞれあ る閾値を超えている場合のみを対象とする。 すなわち、 分子は、 2乗されてい るために、 常に正の数であるが、 分子の括弧の中の式は、 波形が一致している 場合に正の大きい値を示し、 波形が逆位相となっている場合には、 負であって 絶対値の大きな値を示す。 従って、 波形が逆位相となっている場合には、 波形 の一致が見られないにも関わらず、 上記 Sが大きな値となってしまうので、 こ れを取り除くため、 分子の括弧の中が正の場合に限定する。 また、 分母の各項 の大きさが所定の閾値以上とするのは、 音声のパワーが小さい場合を取り除く 意味である。 分母の各項は、 音声のパワーを計算する式となっており、 これら の値を所定値以上とすることによって、 パワーの小さい音声波形を除去するこ とが出来る。 パワーの小さい音声波形を取り除くのは、 パワーが小さい音声波 形の場合、 雑音の影響を受ける可能性が高く、 実際の音声波形は、 過去の波形 と異なるのに、 雑音の影響で、 上記式で計算した結果、 偶然に波形が一致する と判断されてしまう場合を避けるためである。 なお、 上記閾値は、 実験的に本 実施形態を利用しようとする各当業者によって適宜決定されるべきものである。 次に、 Sがある閾値を超えているかどうかを判断する。 超えていた場合は周 期的な波形となっていると判断され、 周期である kの値を決定し、 図 6の予測 部 1 1へ送る。 超えていない場合は周期的でないと判断され、 予測部 1 1や判 定部 1 2、 補正部 1 3の処理は行わない。 なお、 Sの判断のための閾値も、 実 験などを行って、 当業者によって適宜設定されるべきものである。 In this calculation, the value of k and the value of S when S is maximized are obtained. However, in order to prevent waveforms with opposite phases or waveforms with low power from affecting the correction, the numerator must be set to a threshold value that is positive in parentheses and has two terms each multiplied by the denominator. Only when exceeded. That is, the numerator is always a positive number because it is squared, but the expressions in parentheses of the numerator have the same waveform. In this case, the value indicates a large positive value, and when the waveform is out of phase, it indicates a negative value and a large absolute value. Therefore, if the waveforms are out of phase, the above S will be a large value even though the waveforms do not match, and to eliminate this, the parentheses in the numerator must be positive. Limited to the case. The reason why the magnitude of each term of the denominator is equal to or larger than a predetermined threshold is to eliminate a case where the voice power is low. Each term of the denominator is a formula for calculating the power of the voice. By setting these values to a predetermined value or more, a voice waveform with a low power can be removed. Removing a low-power voice waveform is likely to be affected by noise in the case of a low-power voice waveform.The actual voice waveform is different from the past waveform, but is affected by noise. This is to avoid the case where the waveforms are accidentally determined to match as a result of the calculation in. The above threshold value should be appropriately determined by those skilled in the art who try to use the present embodiment experimentally. Next, it is determined whether or not S exceeds a certain threshold. If it exceeds, it is determined that the waveform is a periodic one, and the value of the period k is determined and sent to the prediction unit 11 in FIG. If not exceeded, it is determined that it is not periodic, and the processing of the prediction unit 11, the judgment unit 12, and the correction unit 13 is not performed. The threshold value for the determination of S should also be appropriately set by those skilled in the art through experiments and the like.
予測部 1 1では a (0) の近傍が a (— k) の近傍のようになっていると予 測する。 ここでは、 a (0) の近傍を a (— 2)、 · · ■、 a (4)、 a (一 k) の近傍を a (— k一 2)、 · ■ ·、 a (— k + 4) とする。 予測部 1 1は予測波 形を比較判定部 1 2に送る。 ここで、 予測波形は、 a (0) の近傍と同様にな つていると判断された a (_k) の近傍の a (— k— 2) 〜a (-k + 4) の サンプルからなる波形である。 そして、 予測波形 (a (— k) の近傍) と実際 の波形 (a (0) の近傍) について短区間で以下の計算を行う。 なお、 ここで の計算は、 a (0) と a (— k) のそれぞれの近傍の 7サンプルについて行つ ている。 これは、 音声波形の一周期よりは十分小さいが、 1サンプル毎の雑音 的な変化を平均化できる程度に大きい近傍を選択して計算するものである。 す なわち、 あまり計算するサンプル数が大きすぎると、 波形の局所的な不連続を 検出することができなくなり、 あまりサンプル数が小さすぎると、 雑音的なサ ンプル値の変化でも波形の不連続点と判断してしまうなど、 サンプル値の変化 に対して敏感になりすぎてしまうので、 7サンプル程度がちょうど良いと考え たものである。 し力 し、 本実施形態では、 このサンプル数は、 必ずしも 7サン プルに限定するものではなく、 実験などによって当業者が適宜定めるべきもの である。 τThe prediction unit 11 predicts that the neighborhood of a (0) looks like the neighborhood of a (— k). Here, the neighborhood of a (0) is a (— 2), ···, a (4), and the neighborhood of a (1 k) is a (– k – 2), ···, a (— k + 4) The prediction unit 11 sends the predicted waveform to the comparison determination unit 12. Here, the predicted waveform is a waveform consisting of a (-k-- 2) to a (-k + 4) samples near a (_k), which is determined to be similar to the vicinity of a (0). It is. Then, the following calculation is performed for the predicted waveform (near a (-k)) and the actual waveform (near a (0)) in a short section. Note that the calculation here is performed for seven samples near each of a (0) and a (— k). ing. This is a calculation that selects a neighborhood that is sufficiently smaller than one cycle of the speech waveform, but large enough to average the noise-like change for each sample. That is, if the number of samples to be calculated is too large, it is not possible to detect a local discontinuity of the waveform, and if the number of samples is too small, the waveform is discontinuous even if the sample value changes like noise. Since it is too sensitive to changes in sample values, for example, it is judged to be a point, we thought that about 7 samples were just right. However, in the present embodiment, the number of samples is not necessarily limited to 7 samples, and should be appropriately determined by those skilled in the art through experiments and the like. τ
Figure imgf000011_0001
Figure imgf000011_0001
次に、 この Tが、 ある閾値を超えているかどうかを判断し、 超えていない場 合はその点で著しく波形が乱れたと判断し、 補正部 1 3に対して比較判定部 1 2から補正指示が出される。 ただし、 この場合も分母でかけ合わされている 2 つの項がある閾値よりも小さい場合は除くようにする。 分子の括弧の中が負の 場合は一 Τとする。 ここでも、 分母の各項が所定閾値よりも大きい場合のみを 使用することにより、 音声パワーが小さい場合を取り除き、 また、 分子の括弧 の中が負の場合は、 一 Τとして、 Τの値が負になるようにして、 閾値よりも大 きくならないようにしている。すなわち、分子の括弧の中が負の場合、つまり、 波形が逆位相になっている場合を排除する意味である。また、上述の各閾値は、 やはり、 実験などにより当業者が適宜決定すべきものである。  Next, it is determined whether or not this T exceeds a certain threshold value. If not, it is determined that the waveform is significantly disturbed at that point, and a correction instruction is issued to the correction unit 13 by the comparison determination unit 12. Is issued. However, in this case as well, the case where the two terms multiplied by the denominator are smaller than a certain threshold is excluded. If the value inside the parentheses of the numerator is negative, it is assumed to be 1Τ. Again, by using only the case where each term of the denominator is larger than the predetermined threshold, the case where the sound power is small is removed.When the parenthesis of the numerator is negative, the value of It is made negative so that it does not exceed the threshold. In other words, it means to exclude the case where the parenthesis of the numerator is negative, that is, the case where the waveforms are in opposite phases. Each of the above-mentioned thresholds should be appropriately determined by those skilled in the art through experiments and the like.
補正指示を受けた補正部 1 3では以下に示すような重み付けにより補間を行 い、 s (補正後の音声データサンプル値) を出力する。 一度補正指示がでたら ηサンプル (補正後の波形が十分滑らかに実際の波形にほぼ一致するようにな るように: この nの値も当業者によって適宜設定されるべきものである) につ いて補正を行い、 その間は周期検出、 予測、 比較判定の機能は停止する。 Upon receiving the correction instruction, the correction unit 13 performs interpolation by weighting as described below, and outputs s (corrected audio data sample value). Once the correction instruction is given, η samples (The corrected waveform should be sufficiently smooth and almost coincide with the actual waveform. Like this: The value of n should also be set appropriately by those skilled in the art), and during this period, the functions of period detection, prediction, and comparison judgment are stopped.
1 n 1  1 n 1
s = _a(0) +—— {a(-k) + (offset x (k - m)) / k} 1 = l,2,...,n -1, m = 0,l,...,k n n ここで、 o f ί s e tとは補正指示がでたときの a (— 1) - a (—k— l) の値であり、 補正を行う時に 1周期 (kサンプル) 前の値 (予測波形) と補正 後の波形を滑らかにつなぐために必要な量である。  s = _a (0) + —— {a (-k) + (offset x (k-m)) / k} 1 = l, 2, ..., n -1, m = 0, l, .. ., Knn where of ί set is the value of a (—1)-a (—k—l) when the correction instruction is issued. When correction is performed, the value of one cycle (k samples) earlier ( This is the amount required to smoothly connect the predicted waveform) and the corrected waveform.
補正指示がでていない場合は、  If no correction instruction is given,
s = a (0)  s = a (0)
となる。  Becomes
捕正部の処理が終わった後、 記憶部 14は a (4) →a (3)、 a (3) →a (2)、 a ( i) →a ( i一 1) という具合に値を更新する。 なお、 s→a (— 1 )とし、補正結果を記憶部 14に記憶される過去の波形データに反映させる。 なお、 図 6の構成においては、 入力からはリニア P CMデータの 1サンプル ■ データが順次入力され、 最新のサンプル値は、 直接比較判定部 12及び補正部 13に入力される。 記憶部 14からは、 最新のサンプル値以前の過去のサンプ ル値が所定数 (例えば、 40サンプル程度) 出力される。 例えば、 上述の例で 言えば、 a (4) は、 入力から直接比較判定部 1 2、 補正部 13に入力される 力 a (3) 〜a (— 40) は、 記憶部 14からそれぞれの部に入力される。 図 7は、 本発明の実施形態の全体の処理を示すフローチャートである。  After the processing of the capturing unit is completed, the storage unit 14 stores the values as a (4) → a (3), a (3) → a (2), a (i) → a (i-1), and so on. Update. Note that s → a (−1), and the correction result is reflected in the past waveform data stored in the storage unit 14. In the configuration of FIG. 6, one sample of the linear PCM data is input from the input (1) Data is sequentially input, and the latest sample value is input to the direct comparison determination unit 12 and the correction unit 13. The storage unit 14 outputs a predetermined number (for example, about 40 samples) of past sample values before the latest sample value. For example, in the above example, a (4) is a direct input from the input to the comparison / decision unit 12 and the correction unit 13, and a (3) to a (−40) are input from the storage unit 14 to Input to the department. FIG. 7 is a flowchart showing the overall processing of the embodiment of the present invention.
まず、 ステップ S 1において、 自己相関係数を計算する。 ここでの計算は、 上述の説明における Sの算出にあたる。 そして、 ステップ S 2において、 周期 性があるか否かを判断する。 この周期性の判断は、 前述の通り、 Sの値が所定 閾値よりも大きいか否かを判断することにより行い、 周期 kを決定する。 kと は、 音声波形の 1周期の長さをサンプル数で示したものである。 周期性が無い と判断された場合には、 ステップ S 7に進む。 この場合、 ステップ S 7では、 s = a ( 0 ) となり、 何ら補正をせずに音声波形のサンプル値を出力する。 そ して、 ステップ S 8において、 新しいサンプル値 1つを記憶部 1 4に格納する と共に、 一番古いサンプル値を 1つ破棄する。 First, in step S1, an autocorrelation coefficient is calculated. The calculation here corresponds to the calculation of S in the above description. Then, in step S2, it is determined whether or not there is periodicity. As described above, the periodicity is determined by determining whether or not the value of S is greater than a predetermined threshold, thereby determining the period k. k is the length of one cycle of the audio waveform in the number of samples. No periodicity If it is determined, the process proceeds to step S7. In this case, in step S7, s = a (0), and the sample value of the audio waveform is output without any correction. Then, in step S8, one new sample value is stored in the storage unit 14 and one oldest sample value is discarded.
ステップ S 2において、 周期性があると判断された場合には、 ステップ S 3 において、 波形予測、 すなわち、 一周期前の過去の波形を予測波形として取得 し、 ステップ S 4において、 現在の波形と予測波形とを比較する。 このステツ プ S 4における演算は、 前述の Tを算出することであり、 目的のサンプル の 近傍の少ないサンプル数について、 現在の波形と予測波形の相関値を求め、 そ の相関値が所定閾値より大きいか否かを判断することであるが、 ステップ S 4 の処理を 「比較」 と称している。 従って、 ステップ S 4の 「比較」 を行うこと によって、 現在の波形に不連続点があるか否かが判断される。  If it is determined in step S2 that there is periodicity, in step S3, waveform prediction, that is, a past waveform one cycle before is obtained as a predicted waveform, and in step S4, the current waveform is obtained. Compare with the predicted waveform. The calculation in this step S4 is to calculate the above-mentioned T. For a small number of samples in the vicinity of the target sample, the correlation value between the current waveform and the predicted waveform is obtained, and the correlation value becomes smaller than a predetermined threshold value. It is to judge whether it is larger or not, but the process of step S 4 is called “comparison”. Therefore, by performing “comparison” in step S4, it is determined whether or not there is a discontinuity in the current waveform.
そして、 ステップ S 4の比較の結果、 現在の音声波形に不連続点があるか否 かに従って、 ステップ S 5において、 波形の補正が必要か否かを判断する。 音 声波形に不連続点が無い場合には、 補正が必要ないとして、 ステップ S 7、 S 8に進み、 ステップ S 2において、 周期性がない場合と同様の処理を行う。 ステップ S 5において、 補正が必要と判断された場合には、 ステップ S 6に おいて、 前述の重み付け演算により、 音声波形のサンプル値の補正を行い、 こ れをステップ S 7において出力し、 ステップ S 8において、 補正後のサンプル 値を記憶部 1 4に格納すると共に、 最も古いサンプル値を破棄する。  Then, in step S5, it is determined whether or not the waveform needs to be corrected according to whether or not the current voice waveform has a discontinuity as a result of the comparison in step S4. If there are no discontinuities in the voice waveform, it is determined that correction is not necessary, and the process proceeds to steps S7 and S8. In step S2, the same processing as when there is no periodicity is performed. If it is determined in step S5 that the correction is necessary, in step S6, the sample value of the audio waveform is corrected by the above-mentioned weighting operation, and this is output in step S7. In S8, the corrected sample value is stored in the storage unit 14, and the oldest sample value is discarded.
図 8は、 本発明の実施形態に従った音声信号処理装置の適用部分とネットヮ ークを説明する図である。  FIG. 8 is a diagram illustrating an application portion and a network of the audio signal processing device according to the embodiment of the present invention.
公衆回線網 2 2は、 ネットワーク 2 0を介して移動体網 2 3に接続される。 なお、 移動体網 2 3は、 別の公衆回線網であってもよいし、 公衆回線網 2 2が 別の移動体網であってもよい。 ネットワーク 2 0は、 インターネットなど I P パケット交換方式によるネットワークなどである。 この場合、 ネットワーク 2 0を介して音声を送受するために、 V o I Pという方式が採用される。 ネット ワーク 2 0と公衆回線網 2 2との境界装置としてゲートゥヱイ 2 1が設けられ る。 また、 同様に、 移動体網 2 3とネットワーク 2 0の境界装置としてゲート ウェイ 2 1が設けられる。 The public line network 22 is connected to the mobile network 23 via the network 20. The mobile network 23 may be another public network, or the public network 22 may be another mobile network. Network 20 is IP such as the Internet The network is based on a packet switching system. In this case, in order to transmit and receive voice via the network 20, a method called VoIP is adopted. A gateway 21 is provided as a boundary device between the network 20 and the public network 22. Similarly, a gateway 21 is provided as a boundary device between the mobile network 23 and the network 20.
本発明の実施形態に従った音声信号処理装置は、 これら境界装置としてのゲ 一トウエイ 2 1に搭載される。 すなわち、 例えば、 公衆回線網 2 2からゲート ウェイ 2 1に入力された音声信号は、 リニア P C Mデータに変換された後、 本 発明の実施形態の音声信号処理を施され、 ネットワーク 2 0に V o I Pのフォ 一マツトで送信される。 ネットワーク 2 0に送出された音声データを受信した ゲートウェイ 2 1は、 受信した音声信号をリニア P CMデータに変換し、 やは り、 本発明の実施形態の音声信号処理を施し、 移動体網 2 3に送出する。 移動体網 2 3から公衆回線網 2 2に音声信号を送信する場合も同様である。 また、 上記説明では、 本発明の実施形態の音声信号処理装置の適用箇所とし てゲートウェイを挙げたが、 実際には、 これには限定されない。 すなわち、 移 動体網 2 3の携帯端末などの移動機内において、 受信した音声を再生する場合 にも適用可能であるし、 移動体網 2 3の基地局、 あるいは、 公衆回線網 2 2の 電話機内に設けて、 リユア P CMデータの状態にした音声信号に本発明の実施 形態の音声信号処理を行うことも可能である。 産業上の利用可能性  The audio signal processing device according to the embodiment of the present invention is mounted on the gateway 21 as these boundary devices. That is, for example, an audio signal input to the gateway 21 from the public line network 22 is converted into linear PCM data, and then subjected to the audio signal processing of the embodiment of the present invention. Sent in IP format. The gateway 21 receiving the voice data transmitted to the network 20 converts the received voice signal into linear PCM data, performs the voice signal processing according to the embodiment of the present invention, and finally executes the mobile network 2. Send to 3. The same applies to the case where a voice signal is transmitted from the mobile network 23 to the public network 22. Further, in the above description, the gateway is mentioned as an application portion of the audio signal processing device according to the embodiment of the present invention, but the present invention is not limited to this. That is, the present invention can be applied to the case where the received voice is reproduced in a mobile device such as a mobile terminal of the mobile network 23, or in a base station of the mobile network 23 or a telephone of the public network 22. It is also possible to perform the audio signal processing according to the embodiment of the present invention on the audio signal in the state of the lithium PCM data. Industrial applicability
以上本発明によれば、 音声波形における不連続点の生じる原因によらず、 聴 覚上の品質劣化を抑えることが出来る。 また、 大きな遅延を伴わずに処理を行 うことが出来る。  As described above, according to the present invention, auditory quality deterioration can be suppressed irrespective of the cause of the occurrence of a discontinuity in the audio waveform. Also, processing can be performed without significant delay.

Claims

請求の範囲 The scope of the claims
1 . 通信ネットワークにおけるデジタル音声データの処理を行う音声信号処理 装置において、 1. In an audio signal processing device that processes digital audio data in a communication network,
入力波形の周期を検出し、 該周期から受信する波形を予測する波形予測手段 と、  Waveform prediction means for detecting a cycle of the input waveform and predicting a waveform to be received from the cycle;
該予測された波形と実際に受信された波形との相関値から波形の不連続点を 検出する不連続点検出手段と、  Discontinuous point detecting means for detecting a discontinuous point of the waveform from a correlation value between the predicted waveform and the actually received waveform;
該不連続点が検出された場合に、 該予測された波形と該実際に受信された波 形とを用いて不連続点のない補正波形を生成する補正波形生成手段と、 を備えることを特徴とする音声信号処理装置。  Correction waveform generating means for generating a correction waveform having no discontinuity using the predicted waveform and the actually received waveform when the discontinuity is detected. Audio signal processing device.
2 . 前記入力波形の周期は、 該入力波形の自己相関値が所定値以上であること を検出することによって検出されることを特徴とする請求項 1に記載の音声信 号処理装置。 2. The audio signal processing device according to claim 1, wherein the period of the input waveform is detected by detecting that an autocorrelation value of the input waveform is equal to or greater than a predetermined value.
3 . 前記自己相関値は、 前記入力波形の略一周期について演算することを特徴 とする請求項 2に記載の音声信号処理装置。 3. The audio signal processing device according to claim 2, wherein the autocorrelation value is calculated for substantially one cycle of the input waveform.
4 . 前記これから受信する波形の予測は、 予測すべき波形の一周期前の波形を 予測波形として行うことを特徴とする請求項 1に記載の音声信号処理装置。 4. The audio signal processing device according to claim 1, wherein the prediction of the waveform to be received from now on is performed using a waveform one cycle before the waveform to be predicted as a predicted waveform.
5 . 前記不連続点の検出は、 不連続点が存在するか否かを判断すべきサンプル 点の前後数サンプル点について、 前記予測された波形と前記実際に受信された 波形との相関値を演算することによって得られることを特徴とする請求項 1に 記載の音声信号処理装置。 5. The detection of the discontinuous point is performed by calculating a correlation value between the predicted waveform and the actually received waveform for several sample points before and after a sample point to determine whether or not a discontinuous point exists. Claim 1 characterized by being obtained by performing an operation An audio signal processing device as described in the above.
6 . 前記補正波形は、 前記予測された波形のサンプル値と前記実際に受信され た波形のサンプル値について重み付け補間演算を行うことにより生成されるこ とを特徴とする請求項 1に記載の音声信号処理装置。 6. The voice according to claim 1, wherein the correction waveform is generated by performing a weighted interpolation operation on the sample value of the predicted waveform and the sample value of the actually received waveform. Signal processing device.
7 . 前記重み付け補間演算は、 前記予測された波形のサンプル値にオフセッ ト 量を加えて行われ、 前記補正波形と過去に実際に受信された波形とが連続的に 接続されることを特徴とする請求項 6に記載の音声信号処理装置。 7. The weighted interpolation operation is performed by adding an offset amount to a sample value of the predicted waveform, and the corrected waveform and a waveform actually received in the past are continuously connected. 7. The audio signal processing device according to claim 6, wherein:
8 . 前記オフセッ ト量は、 前記入力波形の周期から割り出される 2つのサンプ ル値に基づいて演算されることを特徴とする請求項 7に記載の音声信号処理装 8. The audio signal processing device according to claim 7, wherein the offset amount is calculated based on two sample values calculated from a cycle of the input waveform.
9 . 前記通信ネットワークは、 音声信号をバケツト交換方式により伝送するこ とを特徴とする請求項 1に記載の音声信号処理装置。 9. The audio signal processing device according to claim 1, wherein the communication network transmits the audio signal by a bucket switching method.
1 0 . 前記通信ネットワークは、 A TM網あるいは I P網であることを特徴と する請求項 9に記載の音声信号処理装置。 10. The audio signal processing device according to claim 9, wherein the communication network is an ATM network or an IP network.
1 1 . 前記デジタル音声データは、 リニア P CMデータであることを特徴とす る請求項 1に記載の音声信号処理装置。 11. The audio signal processing device according to claim 1, wherein the digital audio data is linear PCM data.
1 2 . 通信ネットワークにおけるデジタル音声データの処理を行う音声信号処 理方法において、 入力波形の周期を検出し、 該周期から受信する波形を予測する波形予測ステ ップと、 1 2. In an audio signal processing method for processing digital audio data in a communication network, A waveform prediction step of detecting a cycle of the input waveform and predicting a waveform to be received from the cycle;
該予測された波形と実際に受信された波形との相関値から波形の不連続点を 検出する不連続点検出ステップと、  A discontinuous point detecting step of detecting a discontinuous point of the waveform from a correlation value between the predicted waveform and the actually received waveform;
該不連続点が検出された場合に、 該予測された波形と該実際に受信された波 形とを用いて不連続点のなレ、補正波形を生成する補正波形生成ステツプと、 を備えることを特徴とする音声信号処理方法。  And a correction waveform generation step of generating a correction waveform by using the predicted waveform and the actually received waveform when the discontinuity point is detected. An audio signal processing method characterized by the following.
1 3 . 前記入力波形の周期は、 該入力波形の自己相関値が所定値以上であるこ とを検出することによって検出されることを特徴とする請求項 1 2に記載の音 声信号処理方法。 13. The audio signal processing method according to claim 12, wherein the cycle of the input waveform is detected by detecting that an autocorrelation value of the input waveform is equal to or greater than a predetermined value.
1 4 . 前記自己相関値は、 前記入力波形の略一周期について演算することを特 徴とする請求項 1 3に記載の音声信号処理方法。 14. The audio signal processing method according to claim 13, wherein the autocorrelation value is calculated for substantially one cycle of the input waveform.
1 5 . 前記これから受信する波形の予測は、 予測すべき波形の一周期前の波形 を予測波形として行うことを特徴とする請求項 1 2に記載の音声信号処理方法。 15. The audio signal processing method according to claim 12, wherein the waveform to be received from now on is predicted using a waveform one cycle before the waveform to be predicted as a predicted waveform.
1 6 . 前記不連続点の検出は、 不連続点が存在するか否かを判断すべきサンプ ル点の前後数サンプル点について、 前記予測された波形と前記実際に受信され た波形との相関値を演算することによって得られることを特徴とする請求項 1 2に記載の音声信号処理方法。 16. The detection of the discontinuous point is based on the correlation between the predicted waveform and the actually received waveform for several sample points before and after the sample point at which it is determined whether or not the discontinuous point exists. 13. The audio signal processing method according to claim 12, wherein the method is obtained by calculating a value.
1 7 . 前記補正波形は、 前記予測された波形のサンプル値と前記実際に受信さ れた波形のサンプル値について重み付け補間演算を行うことにより生成される ことを特徴とする請求項 1 2に記載の音声信号処理方法。 17. The corrected waveform is generated by performing a weighted interpolation operation on the sample value of the predicted waveform and the sample value of the actually received waveform. 13. The audio signal processing method according to claim 12, wherein:
1 8 . 前記重み付け補間演算は、 前記予測された波形のサンプル値にオフセッ ト量を加えて行われ、 前記補正波形と過去に実際に受信された波形とが連続的 に接続されることを特徴とする請求項 1 7に記載の音声信号処理方法。 18. The weighted interpolation operation is performed by adding an offset amount to a sample value of the predicted waveform, and the corrected waveform and a waveform actually received in the past are continuously connected. 18. The audio signal processing method according to claim 17, wherein
1 9 . 前記オフセット量は、 前記入力波形の周期から割り出される 2つのサン プノレ値に基づいて演算されることを特徴とする請求項 1 8に記載の音声信号処 理方法。 19. The audio signal processing method according to claim 18, wherein the offset amount is calculated based on two sample values calculated from a cycle of the input waveform.
2 0 . 前記通信ネットワークは、 音声信号をバケツト交換方式により伝送する ことを特徴とする請求項 1 2に記載の音声信号処理方法。 20. The audio signal processing method according to claim 12, wherein the communication network transmits the audio signal by a bucket switching method.
2 1 . 前記通信ネットワークは、 A TM網あるいは I P網であることを特徴と する請求項 2 0に記載の音声信号処理方法。 21. The audio signal processing method according to claim 20, wherein the communication network is an ATM network or an IP network.
2 2 . 前記デジタル音声データは、 リニア P CMデータであることを特徴とす る請求項 1 2に記載の音声信号処理方法。 22. The audio signal processing method according to claim 12, wherein the digital audio data is linear PCM data.
PCT/JP2001/004266 2001-05-22 2001-05-22 Voice signal processor WO2002095731A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2001/004266 WO2002095731A1 (en) 2001-05-22 2001-05-22 Voice signal processor
JP2002592111A JP4426186B2 (en) 2001-05-22 2001-05-22 Audio signal processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/004266 WO2002095731A1 (en) 2001-05-22 2001-05-22 Voice signal processor

Publications (1)

Publication Number Publication Date
WO2002095731A1 true WO2002095731A1 (en) 2002-11-28

Family

ID=11737335

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/004266 WO2002095731A1 (en) 2001-05-22 2001-05-22 Voice signal processor

Country Status (2)

Country Link
JP (1) JP4426186B2 (en)
WO (1) WO2002095731A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918196B2 (en) 2005-01-31 2014-12-23 Skype Method for weighted overlap-add

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59152496A (en) * 1983-02-18 1984-08-31 富士通株式会社 Voice analysis synthesization system
JPS62194300A (en) * 1986-02-21 1987-08-26 株式会社日立製作所 Pitch extraction system
JPH0193799A (en) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> Voice pitch conversion
JPH0612095A (en) * 1992-06-29 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> Voice decoding method
JPH07334191A (en) * 1994-06-06 1995-12-22 Nippon Telegr & Teleph Corp <Ntt> Method of decoding packet sound
JPH10503299A (en) * 1995-05-10 1998-03-24 フィリップス エレクトロニクス エヌ ベー Transmission system and method for speech coding with improved pitch detection
JPH11219200A (en) * 1998-01-30 1999-08-10 Sony Corp Delay detection device and method, and speech encoding device and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59152496A (en) * 1983-02-18 1984-08-31 富士通株式会社 Voice analysis synthesization system
JPS62194300A (en) * 1986-02-21 1987-08-26 株式会社日立製作所 Pitch extraction system
JPH0193799A (en) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> Voice pitch conversion
JPH0612095A (en) * 1992-06-29 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> Voice decoding method
JPH07334191A (en) * 1994-06-06 1995-12-22 Nippon Telegr & Teleph Corp <Ntt> Method of decoding packet sound
JPH10503299A (en) * 1995-05-10 1998-03-24 フィリップス エレクトロニクス エヌ ベー Transmission system and method for speech coding with improved pitch detection
JPH11219200A (en) * 1998-01-30 1999-08-10 Sony Corp Delay detection device and method, and speech encoding device and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918196B2 (en) 2005-01-31 2014-12-23 Skype Method for weighted overlap-add
US9047860B2 (en) 2005-01-31 2015-06-02 Skype Method for concatenating frames in communication system
US9270722B2 (en) 2005-01-31 2016-02-23 Skype Method for concatenating frames in communication system

Also Published As

Publication number Publication date
JPWO2002095731A1 (en) 2004-09-09
JP4426186B2 (en) 2010-03-03

Similar Documents

Publication Publication Date Title
JP3967338B2 (en) Wireless packet transfer device
US8320391B2 (en) Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
EP1346553B1 (en) Audio signal quality enhancement in a digital network
Singh et al. VoIP: State of art for global connectivity—A critical review
JP4308533B2 (en) Mobile communications using high-bandwidth terminals that enable non-tandem operation
US8391175B2 (en) Generic on-chip homing and resident, real-time bit exact tests
EP1746581B1 (en) Sound packet transmitting method, sound packet transmitting apparatus, sound packet transmitting program, and recording medium in which that program has been recorded
EP2140637B1 (en) Method of transmitting data in a communication system
WO2006009087A1 (en) Stream data reception/reproduction device and stream data reception/reproduction method
WO2006083826A1 (en) Frame erasure concealment in voice communications
JP5245622B2 (en) Noise detection apparatus and noise detection method
JP5668687B2 (en) Voice quality analysis apparatus, voice quality analysis method and program
JPWO2004068098A1 (en) Voice packet loss concealment device, voice packet loss concealment method, receiving terminal, and voice communication system
Sanneck et al. Speech-property-based FEC for Internet telephony applications
WO2008047560A1 (en) Voice transmission apparatus
WO2011090185A1 (en) Audio quality measurement apparatus, audio quality measurement method, and program
WO2002052240A1 (en) Method and a communication apparatus in a communication system
EP2109950A2 (en) Method of transmitting data in a communication system
WO2002095731A1 (en) Voice signal processor
US20100135185A1 (en) Voice communication quality assessing system
JP2014068087A (en) Buffer controller, control method by buffer controller, media communication device, and computer program
KR20090025355A (en) Audio data decoding device
JPH07212320A (en) Voice band signal packeting device
JP2002290628A (en) Multi-codec data transmission system
Kim Enhanced timing recovery using active jitter estimation for voice-over IP networks

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2002592111

Country of ref document: JP

122 Ep: pct application non-entry in european phase