WO1997026647A1 - Changeur de vitesse de lecture - Google Patents

Changeur de vitesse de lecture Download PDF

Info

Publication number
WO1997026647A1
WO1997026647A1 PCT/JP1997/000097 JP9700097W WO9726647A1 WO 1997026647 A1 WO1997026647 A1 WO 1997026647A1 JP 9700097 W JP9700097 W JP 9700097W WO 9726647 A1 WO9726647 A1 WO 9726647A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
voice
output
voiced
sound
Prior art date
Application number
PCT/JP1997/000097
Other languages
English (en)
French (fr)
Inventor
Hiroaki Takeda
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US08/913,326 priority Critical patent/US6085157A/en
Priority to EP97900454A priority patent/EP0817168A4/en
Publication of WO1997026647A1 publication Critical patent/WO1997026647A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Definitions

  • the present invention relates to an audio signal reproduction speed conversion device, and more particularly to a device suitable for reproducing an audio signal recorded on a recording medium at a desired reproduction speed.
  • a reproduction speed conversion technique of an audio signal that converts an audio signal into a digital signal, records it on a recording medium, and then converts and outputs a reproduction speed without changing a pitch has been put into practical use.
  • a speech speed conversion method such as a TDHS (time domain harmonic scaling) method or a PICOLA (pointer interval control overlap and add) method is often used.
  • FIG. 13 is a block diagram showing a configuration of a conventional reproduction speed conversion device. As shown in FIG. 13, first, the input audio signal 1 a is transmitted from the audio signal storage memory 1 to the speech speed conversion unit 4. Next, the speech rate converted speech signal 1 e calculated in the speech rate conversion section 4 is recorded in the output speech signal storage memory 6. By performing the above processing, an audio signal with speed conversion can be obtained.
  • the present invention solves the above-mentioned conventional problem. By switching the processing between a voiced portion and an unvoiced portion, it is possible to change the speed of the voice signal without disturbing the waveform of the voiceless portion of the voice signal. It is therefore an object of the present invention to provide a playback speed conversion device capable of obtaining a clear speed conversion sound.
  • the present invention controls whether to output the original voice signal as it is or to output the voice signal after the speech rate conversion by using the result of the voiced sound Z unvoiced sound determination and the switching switch. It is configured as follows.
  • the speech speed can be converted without changing the pitch of the original voice signal and without breaking the waveform of the unvoiced sound portion, and a clear speed-converted voice can be obtained.
  • a data recording means for recording and holding an audio signal as a digital signal
  • Voiced / unvoiced sound determination means for determining whether a voiced sound or unvoiced sound is present in an arbitrary section of the audio signal held in the data recording means;
  • a speech speed conversion means for changing and outputting only the length of time comprising: a data output unit capable of outputting a signal corresponding to a determined frame length of an output signal of the speech speed conversion unit.
  • data recording means for recording and holding an audio signal as a digital signal
  • Voiced / unvoiced sound determination means for determining whether a voiced sound or unvoiced sound is present in an arbitrary section of the audio signal held in the data recording means;
  • the voice of the section determined to be unvoiced by the voiced / unvoiced sound determination means is output as it is, and the pitch of the voice of the section determined to be voiced is changed.
  • the output signal is controlled by controlling the address for reading the voiced sound part according to the time length of the unvoiced sound part using the judgment result of the voiced / unvoiced sound judgment means.
  • Speech speed conversion means having means for controlling reading of an audio signal from the data recording means so as to give a value close to the reproduction speed of
  • a reproduction speed conversion device comprising: a data output unit capable of outputting a signal corresponding to a determined frame length of an output signal of the speech speed conversion unit.
  • a data recording means for recording and holding a voice signal as a digital signal
  • Voiced / unvoiced sound determination means for determining whether a voiced sound or an unvoiced sound in an arbitrary section of the audio signal held in the data recording means
  • a data switching unit that can switch an output destination of an audio signal transmitted from the data recording unit according to a determination result from the voiced / unvoiced sound determination unit;
  • Speech speed conversion means capable of changing only the time length of the voice signal transmitted from the data recording means without changing the pitch
  • a data addition unit that can add the output signal of the speech speed conversion unit and the output signal of the data switching unit
  • a reproduction speed conversion device comprising: an output data recording unit capable of recording a processed audio signal which is an output signal of the data processing unit.
  • data recording means for recording and holding an audio signal as a digital signal
  • Voiced / unvoiced sound determination means for determining whether a voiced sound or an unvoiced sound in an arbitrary section of the audio signal held in the data recording means
  • Speech speed conversion means capable of changing only the time length of the voice signal transmitted from the data recording means without changing the pitch
  • Signal control means for receiving an output signal of the data recording means and an output signal of the speech speed conversion means, and outputting one of them according to the judgment result of the voiced / unvoiced sound judgment means;
  • a data output means for outputting a signal corresponding to a predetermined frame length of an output signal of the signal control means. It is.
  • FIG. 1 is a block diagram showing a configuration of a reproduction speed conversion device according to a first embodiment of the present invention.
  • FIG. 2 is a part of a flowchart showing a signal processing procedure in the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 3 is a part of a flowchart showing a signal processing procedure in the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 4 is a part of a flowchart showing a signal processing request in the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 5 is a part of a flowchart showing a signal processing procedure in the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 6 is an explanatory diagram showing a data windowing operation in the data rendering section at the time of fast listening processing of the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 7 is an explanatory diagram showing a data superimposing operation in the data calculation unit at the time of fast listening processing of the reproduction speed conversion device according to the first embodiment of the present invention.
  • FIG. 8 is a waveform diagram illustrating the processing of steps S110 and S111 in FIG.
  • FIG. 9 is a waveform diagram illustrating the process of step S115 in FIG.
  • FIG. 10 is a waveform diagram illustrating the processing of step S116 in FIG.
  • FIG. 11 shows a configuration of a playback speed conversion device according to a second embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of a reproduction speed conversion device according to the third embodiment of the present invention.
  • Fig. 13 is a block diagram showing the configuration of a playback speed conversion device in a conventional example.o Best mode for carrying out the invention
  • FIG. 1 is a block diagram showing a reproduction speed conversion device according to a first embodiment of the present invention.
  • an audio signal storage memory 1 which operates as a data recording means is for recording and holding an audio signal.
  • an audio signal as a digital signal read from a recording medium (not shown) is recorded.
  • the output signal of the audio signal storage memory 1 is a voiced sound Z that determines whether the audio signal is a voiced sound or an unvoiced sound in an arbitrary section.
  • the unvoiced sound determination unit 2 (voiced / unvoiced sound determination means), and the pitch of the audio signal is not changed.
  • the speech speed conversion unit 4 (speech speed conversion means) is capable of indicating the processing address in the voice signal storage memory 1 based on the result of the speech speed conversion and the result of the voiced / unvoiced sound determination. Configuration.
  • the output signal of the voice speed converter 4 is supplied to an output audio signal frame buffer 8 (data output means) capable of outputting a signal of a predetermined frame length at a fixed timing.
  • 1a is an input audio signal given from the voice signal storage memory 1 to the voiced / unvoiced sound judging unit 2
  • 1b is a switching flag given from the voiced / unvoiced sound judging unit 2 to the speech speed converting unit 4
  • 1c Is the input speech signal for speech speed conversion given from the speech signal storage memory 1 to the speech speed conversion unit 4
  • 1 e is the speech speed conversion unit 4
  • 1 g is a frame output signal outputted from output speech signal frame buffer 8
  • 1 h is given to speech signal storage memory 1 from speech rate converter 4 It is an address signal.
  • each block other than the audio signal storage memory 1 can be configured by a CPU (Central Processing Unit) or a DSP (Digital Signal Processor).
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • step S101 initialization is performed in the speech speed conversion unit 4. That is, the values of (processing start position l i), (unvoiced sound correction value l o), and (frame buffer appointment 1 p) are set to 0, respectively.
  • (Process start position 1 i) is an address in the audio signal storage memory 1, which is an end point of data transfer described later, and defines an address of a position where the next process is started.
  • the (unvoiced sound correction value l o) indicates how long the unvoiced sound portion has existed, and is a value that is updated based on the determination time length when the voice is determined to be unvoiced as described later.
  • (Frame buffer pointer lp) indicates the data amount of the output audio signal frame buffer 8.
  • step S102 it is determined whether or not the value of (frame buffer pointer 1p) is larger than (frame length lm). If it is larger, the process proceeds to step S103. If not, the process proceeds to step 105. Migrate.
  • step S103 the output audio signal frame buffer 8 outputs the frame output signal 1 g to the outside.
  • step S104 the value of (frame buffer pointer lp) — (frame length lm) is set in (frame buffer pointer 1p).
  • step S105 the value of (processing start position 1 i) is set to (transfer start position 1 n).
  • (Transfer start position In) defines the address of the transfer start position of the data of the speech speed conversion input audio signal 1c in the audio signal storage memory 1.
  • the voiced / unvoiced sound determination unit 4 determines whether the input voice signal 1a transmitted from the voice signal storage memory 1 is a voiced voice or unvoiced voice, and the result is used as the switching flag 1b as the speech speed. Transmit to conversion unit 4.
  • the time length of the input voice signal 1a determined by the voiced / unvoiced sound determination unit 4 is set to (determination time length 11). This time length can be the same as the above (frame length lm), that is, about 20 ms to 40 ms.
  • step S107 the process is controlled by the switching flag 1b that is the result of the determination in step S106. If the input voice signal 1a is a voiced sound, the process proceeds to step S109; otherwise, the process proceeds to step S108. That is, in the case of an unvoiced sound, the waveform of the unvoiced sound portion is prevented from being collapsed and deteriorated by outputting the unvoiced sound without performing the windowing process (S110) described later.
  • step S108 the value of (unvoiced sound correction value 10) is set to ⁇ (unvoiced sound correction value 1o) + (judgment time length 1 1) ⁇ , and the value of (processing start position 1i) is set to ⁇ (processing Start position 1 i) + (judgment time length 1 1) ⁇ respectively, and the process proceeds to step S 118.
  • This is the time length of the input audio signal 1a for the determination because it is determined that the sound was determined to be unvoiced by the switching flag 1 (the determination time length). Since 1) can be treated as almost unvoiced, this process is performed.
  • step S109 the pitch period of the speech speed conversion input speech signal 1c transmitted from the speech signal storage memory 1 is calculated in the speech speed conversion unit 4, and is set as (pitch information 1j).
  • the frequency of the fundamental tone of the voice for a general male is 50 to 100 Hz, and in this case (pitch information 1 j) is 1 Oms to 20 ms.
  • the input speech signal 1c for speech rate conversion is multiplied by weight window data as shown in FIG. 6, and data of adjacent bit periods are added together as shown in FIG.
  • (double-speed audio signal 1q) which is the time length of (bit information 1j), is calculated.
  • the (double-speed audio signal 1 q) is overwritten with the address ⁇ (processing start position) + (pitch information 1 j) ⁇ on the audio signal storage memory 1 as the top.
  • (data shift amount 1 k) is calculated.
  • (Data shift amount 1 k) can be calculated by the following formula.
  • R is the time length magnification in the speech rate conversion.
  • the speech rate conversion unit 4 reduces the speech signal 1 c for speech rate conversion to 1/2 time length (the speech rate is 2 Works twice).
  • (data shift amount 1k) is equal to (pitch information 1j).
  • FIG. 8 is a waveform diagram illustrating the processing of steps S110 and Sll1.
  • step S112 it is determined whether or not (unvoiced sound correction value lo) is greater than zero. If (unvoiced sound correction value 1o) is greater than 0, the process proceeds to step S114, otherwise to step S113.
  • step S113 the value of (processing start position 1i) is set to ⁇ (processing start position 1i) + (data shift amount lk) + (pitch information 1j) ⁇ , and The process moves to step S117.
  • step S114 it is determined whether the value of (unvoiced sound correction value 10) is larger than (data shift amount 1k). If it is larger, the process proceeds to step S115, and if not, the process proceeds to step S116.
  • step S115 the value of (processing start position 1 i) is set to ⁇ (processing start position 1 i) + (pitch information 1 j) ⁇ , and the value of (unvoiced sound correction value 1 o) is set to ⁇ (unvoiced sound correction Value 10) — (data shift amount 1 k) ⁇ , and the process proceeds to step S 117.
  • step S116 the value of (processing start position 1 i) is changed to ((processing start position 1 i) + (bit information 1 j) + (data shift amount 1 k) one (unvoiced sound correction value 1 o) ⁇ , And then set the value of (unvoiced sound correction value 10) to 0.
  • step S117 the value of (transfer start position 1n) is set to ⁇ (transfer start position 1n) + (pitch information 1j) ⁇ .
  • step S118 the speech speed converted speech signal 1e is output to the output speech signal frame buffer 8.
  • the speech speed converted voice signal 1 e is data from the address (transfer start position 1 n) to the address (process start position 1 i) in the voice signal storage memory 1.
  • processing start position 1 i transfer start position 1 n, so the data in step 118 The transfer amount is 0.
  • step S 119 the value of (frame buffer point lp) is set to ⁇ (frame buffer pointer 1 p) + (processing start position 1 i) one (transfer start position 1 n) ⁇ ,
  • step S102 By performing the above processing, unvoiced sound is output as it is, voiced sound is subjected to windowing processing and speech speed conversion by addition, and the sound signal is converted to the original sound signal with a time length R times (R ⁇ 1). Speed change without breaking the unvoiced waveform The replacement audio signal can be sequentially reproduced. If the unvoiced sound continues for a long time, steps S115 and S111 in Fig. 5 are performed so that the portion where the windowing process is not performed is increased and the desired playback speed cannot be obtained.
  • the address of the processing start position is controlled to reduce the actual voice data transfer amount. Therefore, when the user sets a desired reproduction speed, according to the present invention, a reproduction speed close to the desired reproduction speed can be obtained even for an audio signal in which many unvoiced sounds are generated.
  • FIG. 11 is a block diagram showing a reproduction speed conversion device according to a second embodiment of the present invention.
  • 1 is a voice signal storage memory for recording and holding a voice signal
  • 2 is a voiced sound Z that determines whether the voice signal is voiced or unvoiced in an arbitrary section
  • 3 is a voice signal determination unit.
  • a switch for switching the output destination 4 is a speech speed conversion unit that can change only the time length of an audio signal without changing the pitch
  • 5 is an adder that can add multiple signals
  • 6 is a processed voice.
  • An output audio signal storage memory capable of recording signals.
  • l a is an input voice signal
  • l b is a switching flag
  • l c is a voice speed conversion input voice signal
  • 1 d is a voice speed non-converted voice signal
  • le is a voice speed converted voice signal
  • e is the speech speed converted output audio signal.
  • the playback speed conversion device configured as described above will be described in further detail below together with its operation.
  • the input voice signal 1 a is transmitted from the voice signal storage memory 1 to the voiced / unvoiced sound determination unit 2 and the switching switch 3.
  • Voiced / unvoiced sound judgment unit 2 Determines whether the input voice signal 1a is voiced or unvoiced, and transmits the result to the switching switch 3 as the switching flag lb.
  • the switching switch 3 determines whether the input audio signal 1a is a voiced sound or an unvoiced sound from the switching flag 1b.
  • the input voice signal 1a is transmitted to the voice speed conversion unit 4 as the voice speed conversion input voice signal 1c, and further, the voiceless non-converted voice signal 1d is added to the silent voice data 1d.
  • the input voice signal 1a and the input voice signal 1c for speech speed conversion are equivalent.
  • the input voice signal 1a is transmitted to the adder 5 as the voice speed non-converted voice signal 1d
  • the voiceless data is transmitted to the voice speed conversion unit 4 as the voice speed conversion input voice signal 1c.
  • the input audio signal 1a and the speech speed non-converted audio signal 1d are equivalent.
  • the speech rate conversion section 4 performs speech rate conversion processing on the input speech signal 1c for speech rate conversion to calculate a speech rate converted speech signal 1e.
  • the adder 5 adds the voice speed non-converted voice signal 1 d and the voice speed converted voice signal 1 e, and outputs the result as the voice speed converted output voice signal 1 f to the output voice signal storage memory 6.
  • the output audio signal storage memory 6 records the speech speed converted output audio signal 1 f.
  • FIG. 12 is a block diagram showing a reproduction speed conversion device according to the third embodiment of the present invention.
  • 1 is an audio signal storage memory that records and holds an audio signal
  • 2 is a voiced / unvoiced sound determination unit that determines whether the audio signal is voiced or unvoiced in an arbitrary section
  • 4 is an audio signal.
  • a speech speed conversion unit that can change only the time length without changing the pitch
  • 7 is an output switching switch that outputs any one of multiple input signals by an external control signal
  • 8 is a fixed timing It is an output audio signal frame buffer that can output a signal of the frame length determined by the video.
  • la is the input audio signal
  • lb is the switching flag
  • lc is the input audio signal for speech speed conversion
  • le is the speech speed converted audio signal
  • If is the speech speed converted output audio signal
  • 1 g is the frame output signal.
  • the playback speed conversion device configured as described above will be described in further detail below together with its operation.
  • the input voice signal 1 a is transmitted from the voice signal storage memory 1 to the voiced / unvoiced sound determination unit 2.
  • the voiced / unvoiced sound determination unit 2 determines whether the input voice signal 1a is a voiced sound or an unvoiced sound, and transmits the result as a switching flag 1b to the speech speed conversion unit 4 and the output switching switch 7. Only when the switching flag 1b indicates a voiced sound, the voice speed conversion unit 4 performs voice speed conversion processing of the voice speed conversion input voice signal 1c transmitted from the voice signal storage memory 1, and obtains voice speed converted voice. Output signal 1e. When the switching flag 1b indicates an unvoiced sound, the speech speed conversion unit 4 does not perform the speech speed conversion processing of the input speech signal 1c for speech speed conversion.
  • the speech speed converted audio signal 1e is output as the speech speed converted output audio signal 1f to the output audio signal frame buffer 8, and the switching flag 1b is output. If unvoiced sound is indicated, the input audio signal 1a is output to the output audio signal frame buffer 8 as the speech speed converted output audio signal 1f.
  • the above processing is repeated until the amount of data in the output audio signal frame buffer 8 reaches a predetermined constant value.
  • the above processing is temporarily stopped.
  • the output audio signal frame buffer 8 outputs the frame output signal 1 g to the outside at an arbitrary determined timing. After outputting the frame output signal lg, resume the paused process.
  • the pitch of the original audio signal is not changed, and Speech rate conversion without breaking the waveform of the unvoiced part can be performed.
  • the output time of the voiced sound is controlled in accordance with the time length of the unvoiced sound, so that the original audio signal is almost faithful to the set compression ratio and operates in the frame processing. Speech rate conversion can be performed without changing the voice of the unvoiced sound and without breaking the waveform of the unvoiced sound portion.
  • the output of speech rate converted speech signal 1 e and input speech signal 1 a output from speech rate conversion section 4 is switched according to the result of voiced / unvoiced speech decision section 2.
  • switch 7 By switching to switch 7 and outputting to the output audio signal frame buffer 8, it can operate in frame processing and perform speech rate conversion without changing the pitch of the original audio signal and without breaking the waveform of the unvoiced sound part .
  • the voiced sound / unvoiced sound determination unit 2 and the switching switch 3 do not perform the speech speed conversion processing on the unvoiced sound portion of the voice signal, thereby changing the pitch of the original voice signal.
  • the speech speed can be converted without breaking the waveform of the unvoiced sound portion.
  • the present invention only the voiced sound is compressed using the result of the voiced sound Z unvoiced sound determination and the unvoiced sound is output as it is, so that the pitch of the original voice signal is not changed.
  • speech rate conversion can be performed without breaking the waveform of the unvoiced portion.
  • the address of the voice signal storage memory to control the output time length of voiced sound according to the time length of unvoiced sound using the result of voiced sound unvoiced sound judgment, It is almost faithful, does not require a switch, operates on frame processing, and Speech speed conversion can be performed without changing the pitch of the signal and without breaking the waveform of the unvoiced sound portion, and a clear speed-converted voice can be obtained.
  • the result of the voiced / unvoiced sound determination and the switching switch are used to control whether to output the original audio signal as it is or to output the audio signal after the speech speed conversion, so that the original Speech speed conversion can be performed without changing the pitch of the voice signal and without breaking the waveform of the unvoiced sound portion, and a clear speed-converted voice can be obtained.
  • the result of the voiced sound Z unvoiced sound determination and the switching ⁇ switch are controlled so as to output either the original voice signal or the voice signal after the speech speed conversion. It can operate and perform speech speed conversion without changing the pitch of the original voice signal and without breaking the waveform of the unvoiced sound portion, and can obtain a clear speed-converted voice.
  • the present invention can be applied to a device that performs so-called fast listening by setting the reproduction speed at the time of reading the audio signal from the recording medium higher than the speed at the time of recording, and reproducing the audio from an optical disk, a magneto-optical disk, a VTR, and the like. It can be suitably used for dictation devices and answering machines.

Description

明 細 書
再生速度変換装置 技術分野
本発明は、 音声信号の再生速度変換装置に関し、 特に記録媒体に記録 された音声信号を所望の再生速度で再生することに適したものに関する。 背景技術
近年、 音声信号をデジタル信号に変換し、 記録媒体に記録した後、 再 生速度を音程を変更することなく変換して出力する音声信号の再生速度 変換技術が実用化されている。 また、 それらを実現するための方式につ いては T D H S ( time domain harmonic scal ing) 方式や P I C O L A (pointer interval control overlap and add) 方式などの話速変換方 式がよく用いられている。
以下に従来の話速変換方式を具現化した再生速度変換装置について図 面を参照しながら説明する。
図 1 3は従来の再生速度変換装置の構成を示すブロック図である。 図 1 3に示すように、 まず、 音声信号蓄積メモリ 1から入力音声信号 1 aを話速変換部 4に送信する。 次に、 話速変換部 4内において算出さ れた話速変換音声信号 1 eを出力音声信号蓄積メモリ 6に記録する。 以 上のような処理を行うことにより、 速度変換を行った音声信号が得られ る
上記従来の再生速度変換装置において話速変換を行うには、 音声信号 のピッチ情報に基づき音声に窓掛け処理を行い、 隣り合う 2つのピッチ 周期のデータ同士を重ね合わせている。 そして、 音声信号の無声音部分 にも有声音部分と同様の処理を行っていた。 ところで、 音声信号の特徴 として有声音部分は比較的ピッチ周期で定常的な波形が現れるが、 無声 音部分は定常的ではない波形が現れる。 このため、 有声音部分では比較 的定常的な波形のため、 従来例による話速変換方式でも元の波形が崩れ にくいが、 無声音部分では波形が定常的ではないため、 話速変換後は元 の波形が崩れてしまうという問題を有していた。 発明の開示
本発明は、 上記従来の問題を解決するものであり、 有声音部分と無声 音部分での処理を切り替えることにより、 音声信号の無声音部分の波形 を崩すことなく音声信号の速度を変更することができ、 したがって、 明 瞭な速度変換音声を得ることができるようにした再生速度変換装置を提 供することを目的とする。
上記目的を達成するために本発明は、 有声音 Z無声音判定を行った結 果及び切り替えスィツチで元の音声信号をそのまま出力するか、 又は話 速変換後の音声信号を出力するかを制御するように構成したものである。
これにより、 元の音声信号の音程を変えずに、 かつ無声音部分の波形 を崩さずに話速変換を行うことができ、 明瞭な速度変換音声を得ること ができる。
すなわち本発明によれば、 デジタル信号として音声信号を記録し、 保 持するデータ記録手段と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音ノ無声音判定手段と、
前記デ一夕記録手段から読み出される音声信号に対し前記有声音/無 声音判定手段により無声音部分と判定された区間の音声はそのまま出力 し、 有声音部分と判定された区間の音声は、 音程を変更せすに時間長の み変更して出力する話速変換手段と、 前記話速変換手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段とを備えた再生速度変換装置が提供さ れる。
したがって、 音声信号の音程を変化させずに、 かつ音声信号中の無声 音部分の波形を崩さずに音声信号の再生速度を任意に速くすることが可 能となる。
また、 本発明によれば、 デジタル信号として音声信号を記録し、 保持 するデータ記録手段と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音ノ無声音判定手段と、
前記データ記録手段から読み出される音声信号に対し前記有声音/無 声音判定手段により無声音部分と判定された区間の音声はそのまま出力 し、 有声音部分と判定された区間の音声は、 音程を変更せずに時間長の み変更して出力するに際し、 前記有声音/無声音判定手段の判定結果を 用いて無声音部分の時間長に応じて、 有声音部分の読み出しのアドレス を制御して出力信号が所望の再生速度に近い値を与えるものとなるよう 前記データ記録手段からの音声信号の読み出しを制御する手段を有する 話速変換手段と、
前記話速変換手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段とを備えた再生速度変換装置が提供さ れる。
したがって、 設定した圧縮率に対してほぼ忠実に、 少ないメモリ量で 音声信号の音程を変化させずに、 かつ音声信号中の無声音部分の波形を 崩さずに音声信号の再生速度を任意に速くすることが可能となる。 、 また、 本発明によれば、 デジタル信号として音声信亏を記録し、 保持 するデータ記録手段と、 前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段と、
前記有声音/無声音判定手段からの判定結果に応じて前記データ記録 手段から送信される音声信号の出力先を切り替えることができるデータ 切り替え手段と、
前記データ記録手段から送信される音声信号を音程を変更せずに時間 長のみ変更できる話速変換手段と、
前記話速変換手段の出力信号と前記データ切り替え手段の出力信号を を加算することができるデータ加算手段と、
前記データ加箅手段の出力信号である処理された音声信号を記録する ことができる出力データ記録手段とを備えた再生速度変換装置が提供さ れ 。
したがって、 音声信号の音程を変化させずに、 かつ音声信号中の無声 音部分の波形を崩さずに音声信号の再生速度を任意に速くすることが可 能となる。
さらに、 本発明によれば、 デジタル信号として音声信号を記録し、 保 持するデータ記録手段と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段と、
前記データ記録手段から送信される音声信号を音程を変更せずに時間 長のみ変更できる話速変換手段と、
前記データ記録手段の出力信号と前記話速変換手段の出力信号を受信 して、 前記有声音/無声音判定手段の判定結果によりそのうちの 1つを 出力する信号制御手段と、
前記信号制御手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段とを備えた再生速度変換装置が提供さ れる。
したがって、 少ないメモリ量で音声信号の音程を変化させずに、 かつ 音声信号中の無声音部分の波形を崩さずに音声信号の再生速度を任意に 速くすることが可能となる。 図面の簡単な説明
図 1は、 本発明の第 1の実施の形態による再生速度変換装置の構成 を示すプロック図である。
図 2は、 本発明の第 1の実施の形態による再生速度変換装置における 信号処理手順を示すフローチャートの一部である。
図 3は、 本発明の第 1の実施の形態による再生速度変換装置における 信号処理手順を示すフローチヤ一卜の一部である。
図 4は、 本発明の第 1の実施の形態による再生速度変換装置における 信号処理手願を示すフローチャートの一部である。
図 5は、 本発明の第 1の実施の形態による再生速度変換装置における 信号処理手順を示すフローチャートの一部である。
図 6は、 本発明の第 1の実施の形態による再生速度変換装置の速聞き 処理時のデータ演箅部におけるデータ窓掛け動作を示す説明図である。 図 7は、 本発明の第 1の実施の形態による再生速度変換装置の速聞き 処理時のデータ演算部におけるデータ重ね合わせ動作を示す説明図であ る。
図 8は、 図 4のステップ S 1 1 0、 S 1 1 1の処理を説明する波形図 である。
図 9は、 図 5のステップ S 1 1 5の処理を説明する波形図である。 図 1 0は、 図 5のステップ S 1 1 6の処理を説明する波形図である。 図 1 1は、 本発明の第 2の実施の形態による再生速度変換装置の構成 を示すプロック図である。
図 1 2は、 本発明の第 3の実施の形態による再生速度変換装置の構成 を示すプロック図である。
図 1 3は、 従来例における再生速度変換装置の構成を示すプロック図 でめる o 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 図面を参照しながら説明する。 (第 1の実施の形態)
図 1は本発明の第 1の実施の形態による再生速度変換装置を示すプロ ック図である。 図 1において、 データ記録手段として動作する音声信号 蓄積メモリ 1は音声信号を記録し、 保持するためのものであり、 例えば 図示省略の記録媒体から読み出されたデジタル信号としての音声信号が 記録されているものとする。 音声信号蓄積メモリ 1の出力信号は、 任意 の区間において音声信号が有声音か無声音かを判定する有声音 Z無声音 判定部 2 (有声音ノ無声音判定手段) と、 音声信号を音程を変更せずに 時間長のみ変更でき、 かつ話速変換の結果及び有声音 無声音判定の結 果から音声信号蓄積メモリ 1に処理番地を示すことが可能な話速変換部 4 (話速変換手段) に供給される構成となっている。 話速変換部 4の出 力信号は、 一定のタイミングで決められたフレーム長分の信号を出力す ることができる出力音声信号フレームバッファ 8 (データ出力手段) に 供給される。
また、 1 aは音声信号蓄積メモリ 1から有声音/無声音判定部 2に与 えられる入力音声信号、 1 bは有声音/無声音判定部 2から話速変換部 4に与えられる切り替えフラグ、 1 cは音声信号蓄積メモリ 1から話速 変換部 4へ与えられる話速変換用入力音声信号、 1 eは話速変換部 4か ら出力音声信号フレームパッファ 8へ与えられる話速変換音声信号、 1 gは出力音声信号フレームバッファ 8から出力されるフレーム出力信号、 1 hは話速変換部 4から音声信号蓄積メモリ 1に与えられるアドレス信 号である。
なお、 図 1の構成において、 音声信号蓄積メモリ 1以外の各ブロック は、 CPU (中央演算処理装置) 又は D SP (デジタルシグナルブロセ ッサ) により構成することができる。
以上のように構成された再生速度変換装置について、 以下、 図 2ない し図 5に示すフローチャート、 図 6に示すデータ演算部におけるデータ 窓掛け動作説明図及び図 7に示すデータ演算部におけるデータ重ね合わ せ動作説明図を参照しながらその動作と共に更に詳細に説明する。
まず、 ステップ S 10 1では話速変換部 4内で初期設定を行う。 すな わち、 (処理開始位置 l i) 、 (無声音補正値 l o) 、 (フレームバッ フアポイン夕 1 p) の値をそれぞれ 0に設定する。 (処理開始位置 1 i) は、 音声信号蓄積メモリ 1におけるアドレスで後述するデータ転送の終 了点であり、 かつ次の処理を開始する位置のァドレスを定めるものであ る。 (無声音補正値 l o) は無声音部がどれだけの時間長存在したかを 示すものであり、 後述するように無声音と判定されたときの判定時間長 により更新される値である。 (フレームバッファポインタ l p) は出力 音声信号フレームパッファ 8のデータ量を示すものである。
次のステップ S 102では (フレームバッファポィンタ 1 p) の値が (フレーム長 lm) より大きいか否かを判定し、 大きい場合にはステツ プ S 103へ、 そうでない場合にはステップ 105へ処理を移行する。
(フレーム長 lm) としては、 20ms〜4 Oms程度があらかじめ設 定されているものとする。 ステップ S 103では、 出力音声信号フレー ムパッファ 8からフレーム出力信号 1 gを外部に出力する。 次のステツ ブ S 104では、 (フレームバッファポインタ 1 p) に、 (フレームパ ヅフアポインタ l p) — (フレーム長 lm) の値を設定する。 これらの ステップ S 102、 S 103、 S 104はフレームバッファ 8のデータ がフレーム長 1 mとなる毎に、 そのデ一夕を外部に出力して、 フレーム ノ、'ヅフアポイ ン夕 1 pをリセッ トするものである。
ステップ S 105では、 (転送開始位置 1 n) に (処理開始位置 1 i) の値を設定する。 (転送開始位置 I n) は音声信号蓄積メモリ 1におけ る話速変換用入力音声信号 1 cのデータの転送閧始位置のァドレスを定 めるものである。 次のステップ S 106では、 有声音/無声音判定部 4 において、 音声信号蓄積メモリ 1から送信される入力音声信号 1 aが有 声音か無声音かを判定し、 その結果を切り替えフラグ 1 bとして話速変 換部 4に送信する。 このとき、 有声音無声音判定部 4において判定する 入力音声信号 1 aの時間長を (判定時間長 1 1) とおく。 この時間長は、 前述の (フレーム長 lm) と同程度、 すなわち、 20ms〜40ms程 度とすることができる。
次のステップ S 107では、 ステヅブ S 106での判定結果である切 り替えフラグ 1 bにより処理を制御する。 入力音声信号 1 aが有声音の 場合にはステップ S 109へ、 無声音の場合にはステヅプ S 108へ処 理を移行する。 すなわち、 無声音の場合は後述する窓掛け処理 (S 1 1 0 ) を行わないで、 そのまま出力することにより、 無声音部の波形がつ ぶれて劣化することが防止される。 ステップ S 108では、 (無声音補 正値 10 ) の値を { (無声音補正値 1 o ) + (判定時間長 1 1 ) } に、 また、 (処理開始位置 1 i) の値を { (処理閧始位置 1 i) + (判定時 間長 1 1) } にそれぞれ設定し、 処理をステップ S 1 18へ移行する。 これは、 切り替えフラグ 1わにより、 無声音と判断されたことがわかる ので、 その判定のための入力音声信号 1 aの時間長である (判定時間長 1 1) は概ね無声音であるとして扱えるので、 このような処理を行って いるのである。
ステップ S 109では、 話速変換部 4内において音声信号蓄積メモリ 1から送信される話速変換用入力音声信号 1 cのピッチ周期を算出し、 それを (ピッチ情報 1 j ) とする。 一般の男性の場合の音声の基音の周 波数は 50〜 100 Hzであるので、 この場合 (ピッチ情報 1 j ) は 1 Oms〜 20msとなる。 次のステップ S I 10では話速変換用入力音 声信号 1 cに対して図 6で示すような重み窓データを掛け、 さらに、 図 7で示す通りに隣り合うビツチ周期のデータ同士を足し合わせることに より、 (ビツチ情報 1 j ) 分の時間長である (倍速音声信号 1 q) を算 出する。 (倍速音声信号 1 q) は、 音声信号蓄積メモリ 1上の { (処理 開始位置) + (ピッチ情報 1 j ) } 番地を先頭として上書きされる。 次 のステップ S 1 1 1では (データシフ ト量 1 k) を算出する。 (データ シフ ト量 1 k) は以下の式で算出できる。
(データシフ ト量 l k) = {RZ ( l— R) } x (ビツチ情報 1 j)
ただし、 (R : 0<R< 1)
Rは話速変換における時間長倍率であり、 例えば、 R= 1/2のとき、 話速変換部 4は話速変換用音声信号 1 cを 1/2倍の時間長に (話速は 2倍に) するように動作する。 なお、 上記式から分かるように、 R== l 2のとき、 (データシフト量 1 k) は (ピッチ情報 1 j ) と等しくな る。 図 8はステップ S 1 10と S l l 1の処理を例示した波形図である。 次のステップ S 1 12では (無声音補正値 l o) が 0より大きいか否 かを判定する。 (無声音補正値 1 o) が 0より大きい場合にはステップ S 1 14へ、 そうでない場合にはステップ S 1 13へ処理を移行する。 ステップ S 1 13では、 (処理開始位置 1 i) の値を { (処理開始位置 1 i) + (データシフ ト量 l k) + (ピッチ情報 1 j ) } に設定し、 ス テツプ S 1 17へ処理を移行する。 ステップ S 1 14では、 (無声音補 正値 10 ) の値が (データシフト量 1 k) よりも大きいか否かを判定す る。 大きかった場合にはステップ S 1 1 5へ、 そうでない場合にはステ ップ S 1 16へ処理を移行する。
ステップ S 1 1 5では (処理閧始位置 1 i) の値を { (処理開始位置 1 i) + (ピッチ情報 1 j ) } に、 (無声音補正値 1 o) の値を { (無 声音補正値 10 ) — (データシフ ト量 1 k) } にそれそれ設定し、 処理 をステップ S 1 17へ移行する。 ステップ S 1 16では、 (処理開始位 置 1 i) の値を { (処理開始位置 1 i) + (ビツチ情報 1 j ) + (デー 夕シフ ト量 1 k) 一 (無声音補正値 1 o) } に設定し、 その後に (無声 音補正値 10 ) の値を 0に設定する。 図 9、 図 10はステップ S 1 1 5 と S 1 1 6の処理を例示する波形図である。 ステヅブ S 1 17では、 (転送開始位置 1 n) の値を { (転送開始位置 1 n) + (ピッチ情報 1 j ) } に設定する。 次のステップ S 1 18では、 話速変換音声信号 1 e を出力音声信号フレームバッファ 8に出力する。 話速変換音声信号 1 e は音声信号蓄積メモリ 1内の (転送開始位置 1 n) 番地から (処理開始 位置 1 i) 番地までのデータである。 図 9から分かるように、 (無声音 補正値 10 ) の値が (データシフ ト量 l k) よりも大きいときは、 処理 開始位置 1 i=転送開始位置 1 nとなるので、 ステップ 1 18でのデー 夕転送量は 0である。
次のステップ S 1 19では、 (フレームパヅフアポイン夕 l p) の値 を { (フレームバッファポインタ 1 p) + (処理開始位置 1 i) 一 (転 送開始位置 1 n) } に設定し、 ステップ S 102に処理を移行する。 以上の処理を行うことにより、 無声音はそのまま出力し、 有声音は窓 掛け処理及び加算による話速変換を行い、 元の音声信号に対して R倍 (R< 1 ) の時間長で、 音声信号の無声音部分の波形を崩さない話速変 換音声信号を逐次再生することができる。 なお、 無声音が長く続く場合 は、 窓掛け処理を行わない部分が増加して、 所望の再生速度を得られな いような事態が生じないよう、 図 5のステップ S 1 1 5と S 1 1 6の処 理により、 処理開始位置のアドレスを制御して、 実際の有声音のデータ 転送量を減少させている。 よって、 ユーザが所望の再生速度を設定した とき、 本発明によれば、 例え無声音が多く生じる音声信号であっても、 所望の再生速度に近い再生速度を得ることができる。
次に、 本発明の第 2の実施の形態と第 3の実施の形態について説明す るが、 第 1の実施の形態と同一又は対応する機能のプロック部分は同一 参照符号を付し、 その詳細な説明は省略する。
(第 2の実施の形態)
図 1 1は本発明の第 2の実施の形態による再生速度変換装置を示すブ ロック図である。
図 1 1において、 1は音声信号を記録し、 保持する音声信号蓄積メモ リ、 2は任意の区間において音声信号が有声音か無声音かを判定する有 声音 Z無声音判定部、 3は音声信号の出力先を切り替える切り替えスィ ツチ、 4は音声信号を音程を変更せずに時間長のみ変更できる話速変換 部、 5は複数の信号を加算することができる加算器、 6は処理された音 声信号を記録することができる出力音声信号蓄積メモリである。
また、 l aは入力音声信号、 l bは切り替えフラグ、 l cは話速変換 用入力音声信号、 1 dは話速無変換音声信号、 l eは話速変換音声信号、
1 : eは話速変換出力音声信号である。
以上のように構成された再生速度変換装箧について、 以下、 その動作 と共に更に詳細に説明する。
ます、 音声信号蓄積メモリ 1から入力音声信号 1 aを有声音/無声音 判定部 2と切り替えスィツチ 3に送信する。 有声音/無声音判定部 2で は、 入力音声信号 1 aが有声音か無声音かを判定し、 その結果を切り替 えフラグ l bとして切り替えスィツチ 3に送信する。 切り替えスィッチ 3では、 切り替えフラグ 1 bから入力音声信号 1 aが有声音であるか無 声音であるかを判断する。 有声音の場合には入力音声信号 1 aを話速変 換用入力音声信号 1 cとして話速変換部 4に送信し、 さらに話速無変換 音声信号 1 dとして無音デ一夕を加算器 5に送信する。 このとき、 入力 音声信号 1 aと話速変換用入力音声信号 1 cは等価なのものである。 無 声音の場合には入力音声信号 1 aを話速無変換音声信号 1 dとして加算 器 5に送信し、 話速変換用入力音声信号 1 cとして無音データを話速変 換部 4に送信する。 このとき、 入力音声信号 1 aと話速無変換音声信号 1 dは等価なものである。
話速変換部 4において、 話速変換用入力音声信号 1 cを話速変換処理 し、 話速変換音声信号 1 eを算出する。 加算器 5において、 話速無変換 音声信号 1 dと話速変換音声信号 1 eを加算し、 話速変換出力音声信号 1 f として出力音声信号蓄積メモリ 6に出力する。 出力音声信号蓄積メ モリ 6は話速変換出力音声信号 1 f を記録する。
以上の処理を行うことにより、 音声信号の無声音部分の波形を崩さな い話速変換音声信号を得ることができる。
(第 3の実施の形態)
図 1 2は本発明の第 3の実施の形態による再生速度変換装置を示すブ ロヅク図である。
図 1 2において、 1は音声信号を記録し、 保持する音声信号蓄積メモ リ、 2は任意の区間において音声信号が有声音か無声音かを判定する有 声音/無声音判定部、 4は音声信号を音程を変更せずに時間長のみ変更 できる話速変換部、 7は外部からの制御信号により複数の入力信号のう ちの任意の 1つを出力する出力切り替えスィツチ、 8は一定のタイミン グで決められたフレーム長分の信号を出力することができる出力音声信 号フレームバッファである。
また、 l aは入力音声信号、 l bは切り替えフラグ、 l cは話速変換 用入力音声信号、 l eは話速変換音声信号、 I f は話速変換出力音声信 号、 1 gはフレーム出力信号である。
以上のように構成された再生速度変換装置について、 以下、 その動作 と共に更に詳細に説明する。
まず、 音声信号蓄積メモリ 1から入力音声信号 1 aを有声音/無声音 判定部 2に送信する。 有声音/無声音判定部 2では、 入力音声信号 1 a が有声音か無声音かを判定し、 その結果を切り替えフラグ 1 bとして話 速変換部 4及び出力切り替えスィツチ 7に送信する。 話速変換部 4では、 切り替えフラグ 1 bが有声音を示した場合のみ音声信号蓄積メモリ 1か ら送信される話速変換用入力音声信号 1 cの話速変換処理を行い、 話速 変換音声信号 1 eを箅出する。 切り替えフラグ 1 bが無声音を示したと き、 話速変換部 4では話速変換用入力音声信号 1 cの話速変換処理を行 わない。 出力切り替えスィッチ 7では、 切り替えフラグ 1 bが有声音を 示した場合、 話速変換音声信号 1 eを話速変換出力音声信号 1 f として 出力音声信号フレームバッファ 8に出力し、 切り替えフラグ 1 bが無声 音を示した場合、 入力音声信号 1 aを話速変換出力音声信号 1 f として 出力音声信号フレームバヅファ 8に出力する。
以上の処理を、 出力音声信号フレームパッファ 8内のデータ量が決め られた一定値になるまで繰り返し行う。 出力音声信号フレームバッファ 8内のデ一夕量が決められた一定値に達した場合、 上記処理を一時停止 する。 出力音声信号フレームバッファ 8は、 任意の決められたタイミン グでフレーム出力信号 1 gを外部に出力する。 フレーム出力信号 l gの 出力後、 一時停止していた処理を再開する。 以上の処理を行うことにより、 音声信号の無声音部分の波形を崩さな い話速変換音声信号を逐次再生することができる。
以上のように第 1の実施の形態によれば、 有声音/無声音判定部 2、 話速変換部 4及び出力音声信号フレームバッファ 8を備えることにより、 元の音声信号の音程を変えず、 かつ無声音部分の波形を崩さない話速変 換を行うことができる。 なお、 第 1の実施の形態では、 無声音の時間長 に応じて有声音の出力時間を制御しているので、 設定した圧縮率に対し てほぼ忠実で、 フレーム処理で動作し、 元の音声信号の音声を変えずに、 かつ無声音部分の波形を崩さない話速変換を行うことができる。
また、 第 2の実施の形態によれば、 有声音/無声音判定部 2の結果に よって、 話速変換部 4の出力である話速変換音声信号 1 eと入力音声信 号 1 aを出力切り替えスィツチ 7で切り替えて出力音声信号フレームバ ヅファ 8に出力することにより、 フレーム処理で動作し、 元の音声信号 の音程を変えず、 かつ無声音部分の波形を崩さない話速変換を行うこと ができる。
また、 第 3の実施の形態によれば、 有声音/無声音判定部 2及び切り 替えスィツチ 3で音声信号の無声音部分について話速変換処理を行わな いことにより、 元の音声信号の音程を変えずに、 かつ無声音部分の波形 を崩さずに話速変換することができる。
以上説明したように本発明によれば、 有声音 Z無声音判定を行った結 果を用いて有声音のみを圧縮処理し、 無声音はそのまま出力するので、 元の音声信号の音程を変えずに、 かつ無声音部分の波形を崩さずに話速 変換することができる。 また、 有声音ノ無声音判定を行った結果を用い て無声音の時間長に応じて有声音の出力時間長を制御すべく音声信号蓄 積メモリの番地を制御することにより、 設定した圧縮率に対してほぼ忠 実で、 切り替えスィッチが不要で、 フレーム処理で動作し、 元の音声信 号の音程を変えずに、 かつ無声音部分の波形を崩さずに話速変換を行う ことができ、 明瞭な速度変換音声を得ることができる。
また、 本発明によれば有声音/無声音判定を行った結果及び切り替え スィツチで元の音声信号をそのまま出力するか、 又は話速変換後の音声 信号を出力するかを制御することにより、 元の音声信号の音程を変えず に、 かつ無声音部分の波形を崩さずに話速変換を行うことができ、 明瞭 な速度変換音声を得ることができる。
さらに本発明によれば、 有声音 Z無声音判定を行った結果及び切り替 ぇスィツチで元の音声信号と話速変換後の音声信号のいずれかを出力す るように制御することにより、 フレーム処理で動作し、 元の音声信号の 音程を変えずに、 かつ無声音部分の波形を崩さずに話速変換を行うこと ができ、 明瞭な速度変換音声を得ることができる。 産業上の利用可能性
以上のように、 本発明によれば元の音声信号の音程を変えずに、 かつ 無声音部分の波形を崩さずに話速変換を行うことができ、 明瞭な速度変 換音声を得ることができるので、 記録媒体からの音声信号の読み出し時 に再生速度を、 記録時の速度より速く して、 いわゆる速聞きを行う装置 に適用可能であり、 光ディスクや光磁気ディスク、 V T Rからの音声再 生、 ディクテーシヨン装置、 留守番電話などに好適に利用可能である。

Claims

請 求 の 範 囲
1 . デジタル信号として音声信号を記録し、 保持するデ一夕記録手段 ( 1 ) と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段 ( 2 ) と、
前記デ一夕記録手段から読み出される音声信号に対し前記有声音 Z無 声音判定手段により無声音部分と判定された区間の音声はそのまま出力 し、 有声音部分と判定された区間の音声は、 音程を変更せずに時間長の み変更して出力する話速変換手段 (4 ) と、
前記話速変換手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段 ( 8 ) とを備えた再生速度変換装置。
2 . デジタル信号として音声信号を記録し、 保持するデータ記録手段 ( 1 ) と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段 ( 2 ) と、
前記データ記録手段から読み出される音声信号に対し前記有声音/無 声音判定手段により無声音部分と判定された区間の音声はそのまま出力 し、 有声音部分と判定された区間の音声は、 音程を変更せずに時間長の み変更して出力するに際し、 前記有声音/無声音判定手段の判定結果を 用いて無声音部分の時間長に応じて、 有声音部分の読み出しのァドレス を制御して出力信号が所望の再生速度に近い値を与えるものとなるよう 前記データ記録手段からの音声信号の読み出しを制御する手段を有する 話速変換手段 (4 ) と、
前記話速変換手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段 ( 8 ) とを備えた再生速度変換装置。
3. デジタル信号として音声信号を記録し、 保持するデータ記録手段 ( 1 ) と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段 ( 2 ) と、
前記有声音 Z無声音判定手段からの判定結果に応じて前記デ一夕記録 手段から送信される音声信号の出力先を切り替えることができるデータ 切り替え手段 ( 3 ) と、
前記データ記録手段から送信される音声信号を音程を変更せずに時間 長のみ変更できる話速変換手段 (4 ) と、
前記話速変換手段の出力信号と前記データ切り替え手段の出力信号を を加算することができるデータ加算手段 ( 5 ) と、
前記データ加算手段の出力信号である処理された音声信号を記録する ことができる出力データ記録手段 ( 6) とを備えた再生速度変換装置。
4. デジタル信号として音声信号を記録し、 保持するデータ記録手段 ( 1 ) と、
前記データ記録手段に保持された音声信号の任意の区間において有声 音か無声音かを判定する有声音/無声音判定手段 ( 2 ) と、
前記データ記録手段から送信される音声信号を音程を変更せずに時間 長のみ変更できる話速変換手段 (4 ) と、
前記データ記録手段の出力信号と前記話速変換手段の出力信号を受信 して、 前記有声音ノ無声音判定手段の判定結果によりそのうちの 1つを 出力する信号制御手段 ( 7) と、
前記信号制御手段の出力信号の決められたフレーム長分の信号を出力 することができるデータ出力手段 ( 8 ) とを備えた再生速度変換装置,
PCT/JP1997/000097 1996-01-19 1997-01-20 Changeur de vitesse de lecture WO1997026647A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US08/913,326 US6085157A (en) 1996-01-19 1997-01-20 Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound
EP97900454A EP0817168A4 (en) 1996-01-19 1997-01-20 READING SPEED CHANGER

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8/7061 1996-01-19
JP8007061A JPH09198089A (ja) 1996-01-19 1996-01-19 再生速度変換装置

Publications (1)

Publication Number Publication Date
WO1997026647A1 true WO1997026647A1 (fr) 1997-07-24

Family

ID=11655561

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/000097 WO1997026647A1 (fr) 1996-01-19 1997-01-20 Changeur de vitesse de lecture

Country Status (6)

Country Link
US (1) US6085157A (ja)
EP (1) EP0817168A4 (ja)
JP (1) JPH09198089A (ja)
KR (1) KR19980702887A (ja)
CN (1) CN1181830A (ja)
WO (1) WO1997026647A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001242520A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Speech rate conversion
DE60025158T2 (de) * 2000-04-06 2006-07-06 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, Verwendung des Verfahrens, und Anordnung zur Durchführung des Verfahrens
KR100806155B1 (ko) * 2000-08-09 2008-02-22 톰슨 라이센싱 오디오 속도 변환을 가능하게 하는 방법 및 시스템
EP1308050B1 (en) * 2000-08-10 2004-11-24 Thomson Licensing S.A. System and method for enabling audio speed conversion
KR20030009515A (ko) 2001-04-05 2003-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의시간 스케일 변경
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
GB0228245D0 (en) 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
JP2007183410A (ja) * 2006-01-06 2007-07-19 Nec Electronics Corp 情報再生装置および方法
KR101349797B1 (ko) * 2007-06-26 2014-01-13 삼성전자주식회사 전자기기에서 음성 파일 재생 방법 및 장치
JP4924513B2 (ja) * 2008-03-31 2012-04-25 ブラザー工業株式会社 タイムストレッチシステムおよびプログラム
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4878907A (ja) * 1972-01-03 1973-10-23
JPS5982608A (ja) * 1982-11-01 1984-05-12 Nippon Telegr & Teleph Corp <Ntt> 音声の再生速度制御方式
JPH04219797A (ja) * 1990-12-20 1992-08-10 Sanyo Electric Co Ltd 時間軸圧縮伸長方法
JPH05257490A (ja) * 1992-03-10 1993-10-08 Nippon Hoso Kyokai <Nhk> 話速変換方法および装置
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH07210192A (ja) * 1994-01-14 1995-08-11 Tomosato Yamagoshi 出力データ制御方法及び装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468804A (en) * 1982-02-26 1984-08-28 Signatron, Inc. Speech enhancement techniques
US4841382A (en) * 1986-10-20 1989-06-20 Fuji Photo Film Co., Ltd. Audio recording device
GB2232024B (en) * 1989-05-22 1994-01-12 Seikosha Kk Method and apparatus for recording and/or producing sound
US5130864A (en) * 1989-10-11 1992-07-14 Matsushita Electric Industrial Co., Ltd. Digital recording and reproducing apparatus or digital recording apparatus
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5630013A (en) * 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
US5511237A (en) * 1993-07-13 1996-04-23 Nec Corporation Digital portable telephone apparatus with holding function and holding tone transmission method therefor
KR100372208B1 (ko) * 1993-09-09 2003-04-07 산요 덴키 가부시키가이샤 음성신호의시간축압축/신장방법
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
US5742688A (en) * 1994-02-04 1998-04-21 Matsushita Electric Industrial Co., Ltd. Sound field controller and control method
US5792970A (en) * 1994-06-02 1998-08-11 Matsushita Electric Industrial Co., Ltd. Data sample series access apparatus using interpolation to avoid problems due to data sample access delay
US5633983A (en) * 1994-09-13 1997-05-27 Lucent Technologies Inc. Systems and methods for performing phonemic synthesis
US5828995A (en) * 1995-02-28 1998-10-27 Motorola, Inc. Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4878907A (ja) * 1972-01-03 1973-10-23
JPS5982608A (ja) * 1982-11-01 1984-05-12 Nippon Telegr & Teleph Corp <Ntt> 音声の再生速度制御方式
JPH04219797A (ja) * 1990-12-20 1992-08-10 Sanyo Electric Co Ltd 時間軸圧縮伸長方法
JPH05257490A (ja) * 1992-03-10 1993-10-08 Nippon Hoso Kyokai <Nhk> 話速変換方法および装置
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH07210192A (ja) * 1994-01-14 1995-08-11 Tomosato Yamagoshi 出力データ制御方法及び装置

Also Published As

Publication number Publication date
JPH09198089A (ja) 1997-07-31
US6085157A (en) 2000-07-04
EP0817168A1 (en) 1998-01-07
KR19980702887A (ko) 1998-08-05
EP0817168A4 (en) 1999-10-27
CN1181830A (zh) 1998-05-13

Similar Documents

Publication Publication Date Title
EP0910065B1 (en) Speaking speed changing method and device
WO1997026647A1 (fr) Changeur de vitesse de lecture
JP3852348B2 (ja) 再生及び送信切替装置及びプログラム
JP3308567B2 (ja) ディジタル音声処理装置及びディジタル音声処理方法
JP2004221951A (ja) 伝送データのジッター補正方法
JP2000311445A (ja) ディジタルデータプレーヤー、そのデータ処理方法及び記録媒体
JP3378672B2 (ja) 話速変換装置
JPH10143350A (ja) 先入れ先出しメモリ制御システム
JP3081469B2 (ja) 話速変換装置
US5956670A (en) Speech reproducing device capable of reproducing long-time speech with reduced memory
JPH09146587A (ja) 話速変換装置
JP2874607B2 (ja) 音声時間軸変換装置
JPH08211894A (ja) 音声通信機および音声通信システム
JPH05344594A (ja) 録音再生機能付き音響信号処理装置
JP2518205B2 (ja) 記録再生装置
JPH0983673A (ja) 音声通信システム、音声通信方法および送受信装置
JPS61103200A (ja) 音声蓄積再生装置
JPH03237695A (ja) 音声記録再生装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JP2002063781A (ja) 音声情報処理装置及び方法
JPH09154107A (ja) 映像・音声再生装置
JPH09198796A (ja) 音響信号記録再生装置およびそれを用いたビデオカメラ
JP2002063761A (ja) 音声情報処理装置及び方法
JPH0422280B2 (ja)
JP2000194398A (ja) 携帯録音再生装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97190172.4

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR SG US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1019970706295

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 08913326

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1997900454

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1997900454

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1019970706295

Country of ref document: KR

WWW Wipo information: withdrawn in national office

Ref document number: 1997900454

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1019970706295

Country of ref document: KR