WO2004025625A1 - 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム - Google Patents

信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
WO2004025625A1
WO2004025625A1 PCT/JP2003/010824 JP0310824W WO2004025625A1 WO 2004025625 A1 WO2004025625 A1 WO 2004025625A1 JP 0310824 W JP0310824 W JP 0310824W WO 2004025625 A1 WO2004025625 A1 WO 2004025625A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
input
frequency component
processing
class code
Prior art date
Application number
PCT/JP2003/010824
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Masaaki Hattori
Tsutomu Watanabe
Hiroto Kimura
Sakon Yamamoto
Akihiko Arimitsu
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP03795239A priority Critical patent/EP1538602B1/en
Priority to DE60325741T priority patent/DE60325741D1/de
Priority to US10/495,295 priority patent/US7668319B2/en
Publication of WO2004025625A1 publication Critical patent/WO2004025625A1/ja
Priority to US12/571,592 priority patent/US7986797B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation

Definitions

  • the present invention relates to a signal processing system, a signal processing device and method, a recording medium, and a program, and more particularly to a signal that accurately restores a high-frequency component of a narrow-band signal in which a high-frequency component is suppressed.
  • the present invention relates to a processing system, a signal processing device and method, a recording medium, and a program. Background art
  • Reference 1 Japanese Unexamined Patent Publication No. Hei 7-36490 (hereinafter referred to as Reference 1) discloses a method in which a lost harmonic component is generated by calculation based on an input audio signal spectrum. Addition methods are disclosed.
  • Ref. 2 A paper by Saitama University at the Acoustical Society of Japan (hereinafter referred to as Ref. 2) announced a method of generating a voiced sound source waveform by autocorrelation calculation of an input speech signal and using this as a high-frequency component. Have been.
  • Reference 3 discloses D / A at a higher sampling frequency than the input signal.
  • a sample value interpolation method for performing the conversion is disclosed.
  • Japanese Patent Application Laid-Open No. 6-118995 (hereinafter referred to as Document 4) associates a beta-quantization codepock of a wideband speech signal with a beta-quantization codepock of a narrow-band speech signal. Discloses a method for restoring a wideband audio signal. '
  • Document 1 is based on the technique of removing the high-frequency signal lost in the compression process of a relatively wideband audio signal such as MP3 (Moving Picture Experts Group-1 Audio Layer-3). It is a predictive addition, and it is difficult to apply it to, for example, double the bandwidth of an extremely narrow band signal such as a telephone voice band.
  • MP3 Motion Picture Experts Group-1 Audio Layer-3
  • the technique of Reference 3 is an extension of the interpolation filter that sets the level of the interpolated sample value to a value that is considered appropriate when observing the change situation of several samples before and after when performing sample value interpolation processing to increase the sampling frequency. It is a technology on the wire and does not restore lost frequency components.
  • the present invention has been made in view of such a situation, and it is an object of the present invention to accurately restore a high frequency component of a narrowband signal in which a high frequency component is suppressed.
  • the first signal processing device includes: first signal input means for inputting a first signal having a wide frequency component; and a high frequency component of the first signal is suppressed.
  • Second signal input means for inputting the obtained narrow-band second signal, extraction means for extracting high-frequency components from the first signal input by the first signal input means, A first determining means for determining a first class code based on the second signal input by the signal inputting means; and an extracting means for each first class code determined by the first determining means.
  • Storage means for accumulating the extracted high frequency components, the second signal processing device comprising: third signal input means for inputting a narrow-band third signal in which the high frequency components are suppressed; Based on the third signal input by the third signal input means A second determining means for determining a second class code, corresponding to the second class code determined by the second determining means, the accumulation means A synthesizing means for synthesizing the accumulated high frequency component, a third signal input by the third signal input means, and an output means for outputting a synthesized signal generated by the synthesizing means. I do.
  • the first signal processing device includes: a first signal input control step of controlling an input of a first signal having a wide frequency component; A second signal input control step for controlling the input of a narrow-band second signal in which the high-frequency component is suppressed; and a first signal input control step for controlling the input by the processing of the first signal input control step.
  • the first signal processing device of the present invention comprises: first signal input means for inputting a first signal having a wide frequency component, and a narrow band in which a high frequency component of the first signal is suppressed. Second signal input means for inputting a high-frequency component from the first signal input by the first signal input means, and second signal input means for inputting a high-frequency component from the first signal input by the first signal input means. Determining means for determining a class code based on the input second signal; and storing means for storing the high frequency components extracted by the extracting means for each class code determined by the determining means. It is characterized by.
  • a first signal input control step of controlling an input of a first signal having a wide frequency component, and a high frequency component of the first signal is suppressed
  • a second signal input control step for controlling the input of a narrow-band second signal, and an extraction for extracting a high-frequency component from the first signal whose input is controlled by the processing of the first signal input control step A step for determining a class code based on the step and the second signal whose input is controlled by the processing of the second signal input control step; and for each class code determined by the processing of the determining step.
  • an accumulating step of accumulating the high frequency components extracted by the processing of the extracting step is accumulating the high frequency components extracted by the processing of the extracting step.
  • the program of the first recording medium comprises: a first signal input control step of controlling input of a first signal having a wide frequency component; and a high frequency component of the first signal is suppressed.
  • a second signal input control step for controlling the input of the narrow-band second signal, and a high-frequency component from the first signal whose input is controlled by the processing of the first signal input control step.
  • An extracting step of extracting, a class code is determined based on the second signal whose input is controlled by the processing of the second signal input control step, a determining step, and a class code determined by the processing of the determining step. And accumulating the high frequency components extracted by the processing of the extracting step.
  • a first program includes a first signal input control step of controlling an input of a first signal having a wide frequency component, and a narrow signal in which a high frequency component of the first signal is suppressed.
  • a second signal input control step of controlling input of a second signal in a band, and an extraction step of extracting a high frequency component from the first signal whose input is controlled by the processing of the first signal input control step.
  • a determination step of determining a class code based on the second signal whose input is controlled by the processing of the second signal input control step, and an extraction for each class code determined by the processing of the determination step.
  • a storing step of storing the high frequency components extracted by the processing of the step.
  • An audio signal can be input to the input means of the first signal processing device of the present invention.
  • the determining means can determine the class code based on the signal on which the weighting process based on the equal loudness characteristic is performed. .
  • the determining means includes a class code based on the position of the average power value and the maximum power value of the voice signal spectrum. The decision can be made.
  • the determining means includes: 1/2 of the lowest frequency of the high frequency component stored in the storage means, or 1 It is possible to determine the class code of a spectral component having a frequency equal to or higher than Z three times.
  • An image signal can be input to the input means of the first signal processing device of the present invention.
  • the determining means includes an AC average power value, a DC power value, and an AC component of a spectrum of the image signal.
  • the class code can be determined based on the peak power value.
  • the high frequency components extracted by the extraction means can be stored in the storage means of the first signal processing device of the present invention in association with the specific information.
  • the specific information of the first signal processing device of the present invention may be a telephone number of a telephone.
  • the signal processing apparatus may further include a generation unit configured to generate a second signal by thinning out the first signal at predetermined time intervals.
  • a second signal processing device comprises: signal input means for inputting a narrow-band signal in which high-frequency components are suppressed; and determination means for determining a class code based on the signal input by the signal input means. And storage means for storing high frequency components, A high frequency component stored in the storage means corresponding to the class code determined by the stage; a synthesis means for synthesizing the signal input by the signal input means; and a synthesized signal generated by the synthesis means. Output means.
  • a second signal processing method is based on a signal input control step of controlling input of a narrow-band signal in which a high-frequency component is suppressed, and a signal whose input is controlled by the signal input control step.
  • a storage step of controlling the storage of the high frequency components and a storage control step corresponding to the class code determined by the processing of the determination step.
  • the program of the second recording medium of the present invention is based on a signal input control step of controlling input of a narrow-band signal in which a high frequency component is suppressed, and a signal whose input is controlled by the processing of the signal input control step.
  • the storage step is controlled by the storage control step corresponding to the class code determined by the determination step.
  • a second program includes a signal input control step of controlling input of a narrow-band signal in which a high-frequency component is suppressed, and a signal whose input is controlled by the processing of the signal input control step.
  • causing the computer to execute a synthesizing step of synthesizing the frequency component and the signal input by the processing of the signal input control step, and an output control step of controlling the output of the synthesized signal generated by the processing of the synthesizing step.
  • An audio signal can be input to the input means of the second signal processing device of the present invention.
  • the determining unit is configured to determine a class code based on the signal on which the weighting process based on the equal loudness characteristic is performed. be able to.
  • the determining means includes a class code based on the position of the average power value and the maximum power value of the audio signal spectrum. The decision can be made.
  • the determination means includes: 1/2 times the lowest frequency of the high frequency component stored in the storage means, or 1 It is possible to determine a class code of a spectrum component having a frequency three times or more.
  • An image signal can be inputted to the input means of the second signal processing device of the present invention.
  • the determining means includes an AC average power value, a DC power value, and an AC component peak power of a spectrum of the image signal.
  • the class code can be determined based on the value.
  • the high frequency components stored by the storage means of the second signal processing device of the present invention can be updated at a predetermined timing.
  • the high frequency components can be stored in the storage means of the second signal processing device of the present invention in association with the specific information.
  • the specific information of the second signal processing device of the present invention may be a telephone number of a telephone.
  • the first signal processing device extracts a high-frequency component from the first signal having a wide frequency component, and outputs a high-frequency component of the first signal. Based on the narrow-band second signal whose frequency components have been suppressed, Four
  • One class code is determined, and high frequency components are accumulated for each class code.
  • the second class code is determined based on the narrow-band third signal in which the high-frequency component is suppressed, and the stored high-frequency band corresponding to the second class code is determined. The frequency component and the third signal are combined.
  • a high-frequency component is extracted from the first signal having a wide frequency component, and the high-frequency component of the first signal is suppressed.
  • a class code is determined based on the narrow band second signal thus obtained, and a high frequency component is accumulated for each class code.
  • a class code is determined based on a narrow band signal in which a high frequency component is suppressed, and a high frequency component corresponding to the class code is determined.
  • a narrow band signal is synthesized, and a synthesized signal is output.
  • the signal processing device may be an independent device, or may be a block that performs signal processing of one device.
  • FIG. 1 is a block diagram illustrating a configuration example of a voice broadband device according to a first embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration example of the class classification unit in FIG.
  • FIG. 3 is a flowchart for explaining the audio band broadening process of the audio band broadening device of FIG.
  • FIG. 4A is a diagram showing an example of data of the voice broadening process.
  • FIG. 4B is a diagram showing an example of data of the voice broadening process.
  • FIG. 4C is a diagram showing an example of data of the voice broadening process.
  • FIG. 5A illustrates the basic principle of the classification process.
  • FIG. 5B is a diagram illustrating the basic principle of the classification process. 2003/010824
  • FIG. 6 is a flowchart illustrating the class classification processing in step S3 in FIG.
  • FIG. 7 is a diagram illustrating an equal loudness curve of a sound.
  • FIG. 8 is a diagram showing an A characteristic curve for correcting the frequency of the sound.
  • FIG. 9 is a view for explaining the process of step S25 in FIG.
  • FIG. 10 is a block diagram showing a configuration example of a speech signal learning device.
  • FIG. 11 is a flowchart illustrating a learning process of the learning device in FIG. 10.
  • FIG. 12A is a diagram illustrating an example of data of an audio signal in the learning process.
  • FIG. 12B is a diagram illustrating an example of data of an audio signal in the learning processing.
  • FIG. 12C is a diagram illustrating an example of data of an audio signal in a learning process.
  • FIG. 12D is a diagram illustrating an example of audio signal data in the learning process.
  • FIG. 12E is a diagram illustrating an example of data of an audio signal in a learning process.
  • FIG. 12F is a diagram illustrating an example of data of an audio signal in a learning process.
  • FIG. 13 is a flowchart illustrating the class classification processing in step S53 of FIG.
  • FIG. 14 is a block diagram showing a configuration example of an image signal broadening apparatus according to the second embodiment of the present invention.
  • FIG. 15 is a block diagram illustrating a configuration example of the class classification unit in FIG.
  • FIG. 16A is a diagram showing an example of data of the image signal broadening process.
  • FIG. 16B is a diagram showing an example of data of the image signal broadening process.
  • FIG. 16C is a diagram showing an example of data of the image signal broadening process.
  • FIG. 17 is a flowchart for explaining the class classification processing of the image signal broadening apparatus in FIG.
  • FIG. 18 is a view for explaining the processing in step S92 of FIG.
  • FIG. 19 is a block diagram showing a configuration example of the image signal learning device.
  • FIG. 2OA is a diagram illustrating an example of data of an image signal in a learning process.
  • FIG. 2 OB is a diagram showing an example of image signal data of the learning process.
  • FIG. 2 OC is a diagram illustrating an example of data of an image signal in a learning process.
  • FIG. 2OD is a diagram showing an example of data of an image signal in the learning process.
  • FIG. 20E is a diagram illustrating an example of data of an image signal in a learning process.
  • FIG. 20F is a diagram illustrating an example of data of an image signal in a learning process.
  • FIG. 21 is a flowchart illustrating a class classification process of the learning device in FIG.
  • FIG. 22 is a block diagram illustrating a configuration example of a transmission system according to the third embodiment of the present invention.
  • FIG. 23 is a block diagram showing a configuration example of the mobile phone shown in FIG.
  • FIG. 24 is a block diagram illustrating a configuration example of the transmission unit in FIG.
  • FIG. 25 is a block diagram illustrating a configuration example of the receiving unit in FIG.
  • FIG. 26 is a block diagram illustrating a configuration example of the encoding unit in FIG. 24 when the learned table is provided as fixed information.
  • FIG. 27 is a block diagram illustrating a configuration example of the decoding unit in FIG. 25 when the learned table is given as fixed information.
  • FIG. 28 is a block diagram illustrating a configuration example of the encoding unit in FIG. 24 when the learned table is updated at a predetermined timing.
  • FIG. 29 is a block diagram illustrating a configuration example of the decoding unit in FIG. 25 when the learned table is updated at a predetermined timing.
  • FIG. 30 is a flowchart illustrating a transmission process of the transmission unit in FIG.
  • FIG. 31 is a flowchart for explaining the memory data transmission process in step S202 of FIG.
  • FIG. 32 is a flowchart illustrating the encoding process in step S205 of FIG.
  • FIG. 33 is a flowchart illustrating a reception process of the reception unit in FIG. 25.
  • FIG. 34 is a flowchart for explaining the memory data update process in step S252 of FIG.
  • FIG. 35 is a flowchart for explaining the decoding process in step S254 of FIG.
  • FIG. 36 is a block diagram showing a configuration example of a computer according to an embodiment of the present invention.
  • FIG. 1 shows a configuration example of a voice broadband device according to a first embodiment of the present invention.
  • a narrow-band audio signal having a low-frequency component (no high-frequency component) is input to the frame cutout unit 11.
  • the input audio signal is divided into predetermined frames (unit time) and output to a DCT (Discrete Cosine Transform) converter 12.
  • DCT Discrete Cosine Transform
  • the DCT converter 12 converts the audio signal on the time axis input from the frame cutout unit 11 into a signal on the frequency axis for each frame, and the classification unit 13 and the spectrum coupling unit 1 Output to 6 respectively.
  • M-DCT Modified DCT
  • M-DCT Modified DCT
  • DFT Discrete Fourier transform
  • the class classification unit 13 calculates a class code by class classification processing (the details of which will be described later with reference to FIG. 6) based on the input spectrum signal, and outputs the class code to the learned table 14. .
  • the learned table 14 is a table memory having class codes as addresses. Each class code address is obtained by a learning device described later with reference to FIG. The vector data of the obtained audio signal spectrum of the high frequency component is stored. The learned table 14 reads the vector data of the audio signal spectrum of the high-frequency component corresponding to the class code address input from the class classification unit 13 and outputs the read data to the gain adjustment unit 15.
  • the gain adjusting unit 15 adjusts the gain of the audio signal spectrum data of the high frequency component input from the learned table 14 and the low frequency component combined by the spectrum combining unit 16. Adjust to match the gain of the audio signal spectrum data.
  • the spectrum coupling unit 16 converts the beta data of the audio signal spectrum of the high frequency component input from the gain adjustment unit 15 into the low frequency component of the low frequency component input from the DCT conversion unit 12. It is combined with the last row of the beta data of the audio signal spectrum and output to the inverse DCT converter 17.
  • the inverse DCT transform unit 17 converts the spectrum data on the frequency axis into the spectrum on the time axis by performing the inverse transform of the M-DCT transform, and outputs the spectrum data to the frame combining unit 18. .
  • the frame combining unit 18 outputs an audio signal after performing a process of adding a frame overlap portion to prevent audio from becoming discontinuous at a frame boundary.
  • FIG. 2 shows a detailed configuration example of the class classification unit 13 in FIG.
  • the DCT spectrum data output from the DCT converter 12 and subjected to the M-DCT conversion is input to the power value converter 31.
  • the input DCT spectrum data is converted into a power value, further converted into a power dB (decibel) value, and output to the weighting processing unit 32.
  • the weighting processing unit 32 performs a weighting process on the input DCT spectrum data in consideration of the equal loudness characteristic described later with reference to FIG. 7, and outputs the data to the spectrum extraction unit 33.
  • the spectrum extraction unit 3 3 converts the DCT spectrum data of the input low frequency component into a DCT that is at least 1/2 or 1/3 times the lowest frequency of the high frequency component to be restored.
  • the spectrum data is extracted and output to the sub-band division unit 34.
  • the sub-band division unit 34 divides the DCT spectrum data extracted by the spectrum extraction unit 33 into a predetermined number of sub-bands and outputs the sub-band to the quantization unit 35.
  • the quantization unit 35 combines the DCT spectrum data divided into sub-bands in sub-band units, and obtains an average value of the input power values (extracted by the spectrum extraction unit 33). Then, the average value is quantized to generate a class code, the subband position that takes the maximum power value is determined, and the class code is generated based on the position.
  • the two class codes are output to the class code determination unit 36.
  • the class code determination unit 36 multiplexes the class code based on the average power value input from the quantization unit 35 and the class code based on the maximum power position, generates one class code, and has learned Output to Table 14 ( Figure 1).
  • step S1 the frame cutout unit 11 frames the audio signal, which has been input to the audio broadband device 1 and in which the high frequency components are suppressed, into frames. That is, the audio signal is divided into blocks every predetermined frame (unit time).
  • step S2 the DCT conversion section 12 performs M-DCT conversion on the audio signal framed in step S1.
  • FIG. 4A shows data obtained by subjecting a one-frame audio signal to M-DCT conversion (hereinafter, referred to as DCT spectrum data).
  • step S3 the class classification unit 13 performs a class classification process described later with reference to FIG. 6, and calculates a class code.
  • step S4 the learned table 14 reads out the DCT vector data of the high frequency component spectrum stored in the address corresponding to the class code output from the classifying unit 13 in step S3. .
  • FIG. 4B shows the DCT spectrum data of the high frequency component read in this way.
  • step S5 the spectrum coupling unit 16 converts the DCT spectrum data of the low-frequency component (the portion shown as a spectrum in FIG. 4A) input to the speech broadband device 1, DCT of high frequency component read from learned table 14 Combine the spectral data (shown as spectrum ⁇ in Figure 4B). That is, as shown in FIG. 4C, the front end (low-frequency side) of the spectrum is connected to the rear end (high-frequency side) of the spectrum A L. Since the number of data in one frame output by the DCT converter 12 is N and the number of data read from the learned table 14 is also N, the number of combined data is 2 N.
  • step S6 the inverse DCT transform section 17 performs inverse M-DCT transform on the spectrum-coupled DCT spectrum data.
  • step S7 the frame combiner 18 performs overlap addition processing on the frame boundary, outputs the result, and ends the audio band broadening processing. This overlapping process prevents the sound from becoming discontinuous even at the frame boundaries.
  • Figure 5A shows the band width 2B.
  • Fig. 5B shows the bandwidth B generated by removing the harmonic components from the teacher DCT spectrum. This is a student DCT spectrum having only a narrow band low frequency component.
  • Classification processing is performed based on the assumption that the amount of high-frequency components contained in the narrow-band signal and the frequency components whose spectral shape is to be restored have a link relationship.
  • the band width B in FIG. 5B is assumed.
  • a signal equal to three times the harmonic component is included in the region Q of approximately half of the high frequency side of the band width 2 B 0 of FIG. 5 A of It is expected that.
  • the spectrum hardly exists in the region P, it is expected that the signal is not likely to exist in the region Q.
  • step S22 the weighting processing unit 32 performs a weighting process on the decibel value PWR dB of the power calculated in step S23 in consideration of the characteristics of the human ear.
  • Fig. 7 The relationship between the loudness of sound (the amount of sensation) and the sound pressure level (physical amount) that can be subjectively felt by humans can be represented by an equal loudness curve as shown in Fig. 7. This shows the relationship between the sound pressure level and the frequency of a pure sound that a person with normal hearing perceives as equal. As this curve shows, our human ear is less sensitive at lower and higher frequencies.
  • step S2 The process of performing frequency correction based on the characteristics of the human ear is described in step S2.
  • step S23 the spectrum extraction unit 33 generates a high-frequency component to be restored from the input low-frequency component spectrum data.
  • the spectrum data having a frequency equal to or more than 1/2 or 1/3 of the lowest frequency is extracted and output to the subband division unit 34. This is performed based on the basic principle of the class classification processing described above.
  • the lowest frequency in the region Q in FIG. 5A as the high frequency component to be restored is f.
  • Scan Bae-vector is extracted in the half of the frequency f Q / 2 or more regions P.
  • subband splitting unit 3 4 scan Bae spectrum region P from the frequency f Q / 2 of the scan Bae-vector data (Fig. 5 B extracted in step S 2 3 until the frequency f Q Is divided into a predetermined number of subbands, for example, 32 subbands, and the spectrum data is collected in subband units.
  • step S25 as shown in FIG. 9, the average power value P AV of the 32 entire sub-bands and the sub-band with the largest decibel power value PWR dB of the 32 sub-bands
  • the position B n is determined.
  • the range of the decibel power value of the spectrum is, for example, 0 to 127 [dB].
  • step S 2 6 the class code determining unit 3-6, and the class code based on the average power value P AV output in step S 2 5, multiplexes a class code by the maximum power position B n.
  • One of the four types is output as a class code.
  • the learning device 50 is provided, for example, by a manufacturer that manufactures the voice broadband device 1.
  • a wide-band audio signal including a high-frequency component serving as teacher data and a narrow-band audio signal in which the high-frequency component of the teacher data is suppressed are prepared as student data.
  • the student data is generated by thinning out the sample of the low frequency component generated by removing the high frequency component of the teacher data by half by the decimation circuit 65. Therefore, assuming that the frame length of the student data input to the frame cutout unit 66 is N, the frame length of the teacher data input to the frame cutout unit 61 is 2N. At this time, the data of each frame is synchronized.
  • the functions of the frame cutout unit 61 and the frame cutout unit 66, and the DCT conversion unit 62 and the DCT conversion unit 67 are the same as those of the frame cutout unit 11 and the DCT conversion unit 12 in FIG. .
  • the high frequency component extraction section 63 extracts half of the spectrum of the teacher data on the high frequency side, and outputs it to the addition section 64.
  • the class classifying unit 68 generates the same class code as described above in the class classifying unit 13 in FIG. 1, further calculates the class appearance frequency, and outputs it to the integration table 69.
  • the integration table 69 inputs the class code output by the class classification unit 68 as an address, reads out the DCT vector data stored at that address, and outputs it to the addition unit 64.
  • the adder 64 adds the DCT vector data of the N high-frequency components output from the high-frequency component extractor 63 and the N DCT vector data output from the integration table 69 by vector addition. Then, the result is output to the same class code address as when the integration table 69 was output. Since one class code address stores N DCT vector data, the accumulated table 69 becomes a table having the number of data of (N X class number).
  • the integration table 69 divides the vector data stored in each class code address by the class appearance frequency output from the class classification unit 68 to obtain the learned table 70. Output to
  • the learned table 70 stores (the number of NX classes) DCT vector data output from the integration table 69.
  • the data in the learned table 70 is transferred to the voice broadband device 1 via the network, and stored in the learned table 14.
  • the data of the learned table 70 is written into a semiconductor memory or the like, and is incorporated as the learned table 14 of the audio band widening apparatus 1. Since the configuration of the classifying unit 68 of the learning device 50 is the same as that of the classifying unit 13 of the speech broadband device 1, the configuration of the classifying unit 13 in FIG.
  • the configuration of the 0 class classification unit 68 is also referred to as appropriate.
  • step S51 the teacher data spectrum and the student data spectrum are framed. That is, the frame cutout unit 61 frames the input teacher data for each unit time, and performs 2N samplings for one frame.
  • the thinning circuit 65 generates student data by extracting only low frequency components from the teacher data and thinning out every other low frequency component.
  • the frame cutout unit 66 frames the student data for each unit time, and performs N samplings for one frame.
  • step S52 the DCT converter 62 and the DCT converter 67 perform M-DCT conversion on the teacher data and the student data, respectively.
  • Figure 12A shows the DCT spectrum data after the teacher data has been M-DCT transformed
  • Figure 12B shows the DCT spectrum data after the student data has been M-DCT transformed. I have.
  • the DCT spectrum of the student data in Fig. 12B corresponds to the low frequency component of the M-DCT spectrum of the teacher data in Fig. 12A.
  • step S53 the class classification unit 68 performs a class classification process described later with reference to FIG. 13 based on the spectrum of the student data, and calculates the class code and the appearance frequency of the class. Output to integration table 69.
  • step S54 the integration table 69 reads the vector data stored in the address corresponding to the class code output by the class classification unit 68.
  • step S55 the high frequency component extraction unit 63 extracts the high frequency component of the teacher data input from the DCT conversion unit 62.
  • Figure 12C shows the extracted DCT spectrum of the high frequency component. This corresponds to the high frequency side portion R in the entire DCT spectrum of the teacher data in Fig. 12A.
  • step S56 the addition unit 64 extracts the vector data (data shown in FIG. 12D) read from the integration table 69 in step S54 and the teacher data in step S55. The vector data of the obtained high-frequency component vector data (data shown in Fig. 12C) is added.
  • FIG. 12E shows the DCT spectrum data after the vector addition in step S56.
  • step S57 the adding section 64 adds the vector data calculated in step S56 (the data shown in FIG. 12E) to the address of the same class code as when the integration table 69 was read. Store in place.
  • step S58 it is determined whether the learning process has been completed. If it is determined that the learning process has not been completed, the process returns to step S51, and the subsequent processes are repeated. If it is determined that the learning process has been completed, the process proceeds to step S59.
  • step S59 the integration table 69 stores the N vector data at the address of each class code in the classifying unit 6
  • the average value of the vector data is calculated by dividing by the class appearance frequency of the corresponding class code output from 8 and output to the learned table 70, stored, and the learning process is terminated.
  • FIG. 12F shows an example of N pieces of solid data stored in the address of one class code in the learned table 70.
  • step S53 of FIG. 11 will be described with reference to the flowchart of FIG.
  • steps S71 to S76 is the same as that of steps S21 to S26 of the class classification processing in the speech band broadening apparatus of FIG.
  • a class code based on the average power value P AV of the student data and a class code based on one of the maximum powers B n are multiplexed.
  • step S77 the class code determination unit 36 (similar to that of the voice broadband device 1 in FIG. 2) counts the class code determined in step S76 by one. The number of occurrences of each class code is output to the integration table 69, and the classification process is completed.
  • the class classification process of the voice broadening device 1 and the class classification process of the learning device 50 are the same until the class code is calculated, and thereafter, only whether or not to calculate the class appearance frequency is determined. different.
  • FIG. 14 shows an example of the configuration of an image signal broadening device according to a second embodiment of the present invention.
  • the above-described audio signal broadening apparatus 1 has an input signal which is a one-dimensional audio signal and performs processing in units of frames, whereas the image signal broadening apparatus 80 has a two-dimensional image signal. Therefore, processing is performed in units of blocks (for example, 8 ⁇ 8 pixels).
  • the block cutout 91, DCT transform 92, class classifier 93, trained table 94, combining 95, and inverse DCT transform 96 in Fig. 14 are the frame cutout 1 in Fig. 1. 1, which has basically the same functions as the DCT transform section 12, class classification section 13, trained table 14, spectrum coupling section 16, and inverse DCT transform section 17. Therefore, the description is omitted.
  • the gain adjuster 15 and the frame combiner 18 shown in FIG. 1 are omitted in the case of an image signal because they are not necessarily required.
  • FIG. 15 shows a detailed configuration example of the class classification unit 93 of FIG.
  • the DCT data subjected to M-DCT conversion from the DCT converter 92 is input to the power value converter 101.
  • the input DCT data is converted into a power value, further converted into a decibel value of the power, and output to the quantization unit 102 in the same manner as in the above-described audio broadband device 1.
  • the quantization unit 102 calculates the DC component power value, the average power value of the AC component, and the position of the DCT data that takes the peak value of the AC component for the DCT data in the DCT block, and the class code based on them is calculated. Is generated and output to the class code determination unit 103.
  • the class code determination unit 103 multiplexes the class code based on the input quantized data of the DCT block to form one class code, and outputs the class code to the learned table 94 (FIG. 14) for storage. .
  • step S1 the block cutout unit 91 cuts out the image signal, in which the high frequency components are suppressed, input to the image signal broadening device 80, in units of blocks (for example, 22 pixels).
  • step S2 the 0 ⁇ conversion section 92 performs M-DCT conversion on the image signal blocked in step S1.
  • FIG. 16A shows data obtained by subjecting an image signal of one block to M-DCT conversion (hereinafter, referred to as DCT data).
  • step S3 the class classification unit 93 performs a class classification process described later with reference to FIG. 17 to calculate a class code.
  • step S4 the learned table 94 reads the DCT coefficient vector data stored in the address corresponding to the class code output from the classifying unit 93 in step S3.
  • FIG. 16B shows the vector data of the DCT coefficients of the high frequency components read at this time.
  • step S5 the combining unit 95 generates the DCT data of the low frequency component (FIG. 16A) input to the image signal broadening device 80 and the high frequency component read from the learned table 94.
  • the DCT data of the component (Fig. 16B) is added by vector.
  • Figure 16C shows the combined DCT block data.
  • step S6 the inverse 1) ( ⁇ transform section 96 performs inverse M-DCT transform on the combined DCT data.
  • step S7 the overlap processing in step S7 does not necessarily need to be performed, and thus the processing in step S7 is not performed and the image signal broadening processing ends.
  • the class classification processing performed by the class classification unit 93 will be described with reference to the flowchart in FIG.
  • step S91 the power value converter 101 converts the DCT data input from the DCT converter 92 into a power value, and further converts it into a decibel value of power. This process is the same as the above-described case of the audio signal.
  • the quantization unit 102 calculates the AC average power value and the DC power value of the DCT block data, and detects the AC component peak power position.
  • a DCT block BL of 4 ⁇ 4 pixels as shown in FIG. 18 is input, the DCT data of each pixel is c [n], and the power range is 0 to 127. [dB].
  • the AC average power value is the average value of the DCT data c [l] to c [15] in the area AC in Fig. 18, and the DC power value is the DCT data c [0] in the area DC in Fig. 18.
  • Is the value of The AC component peak power position is n (one of 1 to 15) having the maximum power value among the DCT data c [l] to c [15].
  • step S93 the class classification unit 93 multiplexes the class code based on the three values obtained in step S92 as one class code, outputs the multiplexed class code to the learned table 94, and performs the class classification process.
  • FIG. 19 is a configuration example of a learning device 120 that generates the high frequency component beta data stored for each class code, which is written in the learned table 94 of the image signal broadening device 80.
  • Block cutout section 131, DCT conversion section 1332, high frequency component extraction section 1333, addition section 134, decimation circuit 1 35, block cutout section 1 36, DCT conversion section 1 in Fig. 19 3 7, Class classification section 1 3 8 and integrated tape 1 3 9 are the frame cutout section 6 1, DCT conversion section 6 2, high frequency extraction section 6 3, addition section 6 4, Circuit 65, Frame cutout 66, DCT converter 67, the classifying unit 68, and the accumulation table 69 have basically the same configuration and function, and a description thereof will be omitted.
  • step S51 DCT data of teacher data and DCT data of student data are cut out into blocks. That is, the block cutout unit 1331 blocks the input teacher data for every 2N ⁇ 2N pixels.
  • the thinning circuit 135 generates student data by extracting only low-frequency components from the teacher data and thinning out the low-frequency components alternately in the horizontal and vertical directions. .
  • the block cutout unit 1336 blocks the student data for every N ⁇ N pixels.
  • step S52 the DCT converters 13 and 13 perform M-DCT conversion on teacher data and student data, respectively.
  • Figure 2 OA shows the DCT data (4 x 4 data) after the teacher data was converted to M-DCT
  • Figure 20B shows the DCT data (M-DCT converted from the student data). 2 X 2 data).
  • step S53 the classifying unit 138 performs the classifying process described below with reference to FIG. 21 on the DCT data as the student data, calculates the class code and the appearance frequency of the class, and Output to Table 1 39.
  • step S54 the integration table 1339 reads the vector data stored in the address corresponding to the class code output by the classification unit 1338.
  • step S55 the high frequency component extraction section 133 extracts the high frequency component of the teacher data.
  • FIG. 20C shows the extracted high-frequency components. This is the part P (4 ⁇ 4 pixels excluding the upper left 2 ⁇ 2 pixel of the teacher data of FIG. 20A). ).
  • step S56 the adder 1 34 outputs the integration table 1 in step S564.
  • FIG. 20E shows the DCT data after the vector addition in step S56.
  • step S57 the adder 1334 converts the vector data calculated in step S56 (the data shown in FIG. 20E) into the address of the same class code as when the integration table 1339 was read. In the location.
  • step S58 it is determined whether the learning process has been completed. If it is determined that the learning process has not been completed, the process returns to step S51, and the subsequent processes are repeated. If it is determined that the learning process has been completed, the process proceeds to step s
  • step S59 the integration table 1339 stores (3 NXN) vector data at the address of each class code in the class The average value of the vector data is calculated by dividing by the class appearance frequency of the corresponding class code output from the classifying unit 1338, output to the learned table 140, and the process ends.
  • Figure 2 OF is the learned table 1
  • steps S101 to S103 is the same as that of steps S91 to S93 of the class classification processing in the image signal broadening apparatus of FIG. 17, and a description thereof will be omitted. That is, the process of calculating the class code is performed in the same manner as in the image signal broadband device. By this processing, the class code based on the AC average power value, the DC power value, and the AC component peak power position is multiplexed as one class code.
  • the class code determination unit 103 increases the count of the class code determined in step S103 by one, and counts the number of occurrences of the class code and the integration table 13 Output to 9 and end the classification process.
  • FIG. 22 shows a transmission system according to the third embodiment to which the present invention is applied (a system refers to a device in which a plurality of devices are logically aggregated, and whether or not the devices of each configuration are in the same housing. Does not matter).
  • the portable telephone 30 and 3 0 1 2 performs transmission and reception by radio, each base station 3 0 2t and 3 0 2 2 , by performing the transmission and reception to and from the switching station 3 0 3, finally, between the mobile telephone 3 0 3 0 1 2, the base station 3 0 2 and 3 0 2 2, the switching center to the parallel beauty Voice transmission and reception can be performed via 303.
  • the base station 3 0 2i and 3 0 2 2 may be the same base station, or may be a different base station.
  • FIG. 23 shows a configuration example of the mobile phone 30 of FIG. Since the portable phone 3 0 1 2 are also configured similarly to the cellular phone 3 0 1 ⁇ described below, and a description thereof will be omitted.
  • Antenna 3 1 1 receives the radio waves from the base station 3 0 2L or 3 0 2 2, the reception signal, and supplies the modem unit 3 1 2, a signal from the modem part 3 1 2, Telecommunications in, and transmits to the base station 3 0 2i or 3 0 2 2.
  • the modulation and demodulation unit 312 demodulates a signal from the antenna 311 by, for example, a CDMA (Code Division Multiple Access) method or the like, and supplies a demodulated signal obtained as a result to the reception unit 314. Further, the modulation and demodulation unit 312 modulates the transmission data supplied from the transmission unit 3113 by, for example, a CDMA method or the like, and supplies a modulated signal obtained as a result to the antenna 311.
  • CDMA Code Division Multiple Access
  • the transmission unit 3 13 is configured to encode a user's voice input thereto. Processing is performed, transmission data is obtained, and supplied to the modulation and demodulation unit 312.
  • the receiving section 314 receives the received data, which is a demodulated signal from the modem section 314, and decodes and outputs high-quality sound.
  • the operation unit 315 is operated by the user when inputting a telephone number of a call destination, a predetermined command, or the like, and an operation signal corresponding to the operation is transmitted by the transmission unit 313 or the reception unit 314. Supplied to
  • FIG. 24 shows an example of the configuration of the transmission section 3 13 in FIG.
  • the microphone 3 2 1 receives the user's voice, and the microphone 3 2 1 converts the user's voice into an A / D
  • the / 0 converter 322 converts the analog audio signal from the microphone 321 into AZD, thereby converting the analog audio signal into digital audio data and outputting the digital audio data to the encoder 323.
  • the encoding unit 3 22 3 encodes the audio data from the A / D conversion unit 3 22 by a predetermined encoding method, multiplexes the class code, and controls the transmission of the encoded audio data obtained as a result. Output to section 3 2 4.
  • the management unit 327 manages the telephone number of the call destination, the telephone number of the caller, and other necessary information that are input by operating the operation unit 315 as necessary. , And outputs the result to the encoding unit 323 and the transmission control unit 324.
  • the transmission control unit 324 controls transmission of the encoded voice data output from the encoding unit 323 and the data output from the management unit 327. That is, the transmission control unit 3224 selects the encoded voice data output from the encoding unit 3223 or the data output from the management unit 3227, and, at a predetermined transmission timing, transmits the data as a modulation / demodulation unit as transmission data. Output to 3 1 2 (Fig. 23).
  • FIG. 25 shows an example of the configuration of the receiving section 314 of FIG.
  • Received data as a demodulated signal output from the modulation and demodulation unit 312 in FIG. 23 is supplied to the reception control unit 331, and the reception control unit 331 receives the received data. Then, when the received data is coded voice data, the reception control unit 331 supplies the coded voice data to the decoding unit 3332. Alternatively, when the received data is the telephone number or other information of the caller, the reception control unit 331 transmits such information to the management unit 335 or the transmission unit as necessary. 3 1 3 (to the management section 3 2 7).
  • the decoding unit 3332 separates the encoded audio data supplied from the reception control unit 331 from the class code, adds a high frequency component, and converts the resulting decoded audio data into a DZA ( (Digital / Analog) converter 3 3 3
  • the D / A conversion section 333 performs D / A conversion on the digital decoded audio data output from the decoding section 332, and supplies an analog audio signal obtained as a result to the speaker 334.
  • the speaker 334 outputs a sound corresponding to the sound signal from the DZA converter 333.
  • the management unit 335 receives the telephone number of the caller from the reception control unit 331 when receiving a call, and supplies the telephone number to the decoding unit 332.
  • FIG. 26 and FIG. 27 show configuration examples of the encoding unit 323 and the decoding unit 332 when the learned table is given as fixed information.
  • the functions of the frame cutout unit 351 and the DCT conversion unit 352 are the same as those of the frame cutout unit 11 and the DCT conversion unit 12 of the voice broadband device 1 in FIG.
  • the high-frequency component removal unit 355 3 removes the high-frequency components of the input DCT spectrum data and generates the low-frequency components to class code multiplexing with the class classification unit 354. Output to part 3 5 5
  • the compression rate depends on the removal rate of the high frequency components. For example, if the band is compressed in half, the data amount is reduced to half. The final data amount is obtained by adding several codes of the class codes multiplexed in the Las code multiplexing unit 355.
  • the classifying unit 354 applies the DCT spectrum data of the low-frequency component input from the high-frequency component removing unit 353 to the classifying unit 13 of the audio band widening apparatus 1. The same class classification processing as described above is performed, and the class code is output to the class code multiplexing unit 355.
  • the class code multiplexing unit 355 multiplexes the class code output from the classifying unit 354 and the DCT spectrum data of the low frequency component output from the high frequency component removing unit 353. And outputs it to the inverse DCT converter 356.
  • the class code multiplexing unit 355 multiplexes the class code output from the classifying unit 354 and the DCT spectrum data of the low frequency component output from the high frequency component removing unit 353. And outputs it to the inverse DCT converter 356.
  • By multiplexing the class code with DCT spectrum data of low-frequency components it is possible to improve the error resistance of the class code on the code transmission line, and to improve the decoding capability of the decoding unit 33 (Fig. 27) described later. It is also possible to detect and correct errors in the multiplexed class code by examining the degree of coincidence between the multiplexed class code and the class code obtained by performing the class classification process again.
  • ⁇ Transformer 356 performs inverse M-DCT transform on the multiplexed data of the input class code and DCT spectrum data of low frequency components, and outputs it to frame combiner 357 I do.
  • the frame combining section 357 performs the same frame overlap processing as in the frame combining section 18 of the voice broadband device 1, and transmits the coded voice data to the transmission control section 32 4 (FIG. 24). Output.
  • the frame cut-out unit 37 1 and the DCT conversion unit 37 2 have the same functions as the frame cut-out unit 11 and the DCT conversion unit 12 of the voice broadband device 1 in FIG. Omitted.
  • the class code separation unit 373 separates the multiplexed DCT spectrum data into a class code and DCT spectrum data of low frequency components, and generates low frequency components.
  • the DCT spectrum data of the corresponding minutes is output to the spectrum coupling section 376, and the class code is output to the learned table 374.
  • the learned table 374 reads the DCT spectrum data of the high frequency components stored in the address corresponding to the class code output by the class code separation unit 373, and outputs it to the gain adjustment unit 375 I do.
  • the gain adjuster 3775 like the gain adjuster 15 of the audio broadband device 1, performs learning so as to match the gain of the low-frequency component spectrum combined by the spectrum combiner 3776.
  • the gain adjustment is performed on the spectrum of the high frequency component output from the processing table 374, and the spectrum is output to the spectrum coupling unit 376.
  • the spectrum combining unit 3756 includes the DCT spectrum data of the low-frequency component output from the class code separating unit 3773 and the DCT spectrum of the high-frequency component output from the gain adjusting unit 3775.
  • the vector data is combined and output to the inverse DCT converter 377.
  • Inverse DCT transform section 377 performs inverse M-DCT transform of the input spectrum data, and outputs the result to frame combining section 378.
  • the frame combining section 378 performs frame overlap processing and outputs the result to the D / A conversion section 333 as a wideband audio signal.
  • Fig. 28 and Fig. 29 the learned table that stores the spectrum data of the high frequency components is stored in association with each telephone number of the caller, and the table information for the caller is updated each time it is used
  • the same reference numerals are given to portions corresponding to those in FIGS. 26 and 27, and the description thereof will be omitted below.
  • the spectrum dividing section 3881 divides the input DCT spectrum data into a high frequency component and a low frequency component, and outputs the high frequency component to the table memory 382. Then, the low frequency components are output to the class classification section 354 and the class code multiplexing section 355.
  • the class classification unit 354 calculates the class code and outputs the class code to the table memory 382 and the class code multiplexing unit 355.
  • the table memory 382 stores the DCT spectrum data of the high frequency component input from the spectrum dividing section 381 in an address corresponding to the class code output from the class categorizing section 354.
  • the contents of the table memory are transferred to a table memory 391 (FIG. 29) of the decoding unit 3332 described later at a predetermined timing.
  • the spectrum data of the high frequency component for each caller is stored in the table memory 38 2. It becomes. Since the contents of the table memory 382 are a kind of statistical information, it is expected that the more information is entered, the more likely it will be to converge to an appropriate bias in class code units. As the number increases, higher-precision decoding will be performed.
  • Other configurations in FIG. 28 are the same as those in FIG.
  • the table memory 391 reads out DCT spectrum data of a high frequency component stored at a position designated as an address corresponding to the class code output from the class code separation section 3733, and a gain adjustment section. Output to 3 7 5
  • the mobile telephone 3 0 1 lambda transmitting unit 3 1 3 of the transmission process will be described which performs a source.
  • Step S 2 0 the user operates the operating unit 3 1 5 (2 3), entering the mobile phone 3 0 1 2 phone number as the called party, the management unit 3 2 7, call Detect the start of.
  • the transmission unit 313 performs a memory data transmission process described later with reference to FIG. That is, the transmission unit 3 1 3, table memory 3 8 2 (2 8) a DCT vector data of a high frequency component spectrum stored in receiver side of the mobile phone 3 0 1 2 table memory 3 9 Send to 1 (Fig. 29) and switch to voice call.
  • step S203 the microphone 3221 inputs the user's voice.
  • step S204 the A / D conversion section 322 performs A / D conversion on the audio signal input from the microphone 321 and outputs it to the encoding section 323 as a digital audio signal.
  • step S205 the encoding unit 3233 performs an encoding process. The details will be described later with reference to FIG. 32.
  • the audio signal input from the A / D converter 322 is divided into a high frequency component and a low frequency component. Then, the high frequency components are stored in the table memory 382, and the low frequency components are multiplexed with the class code, and output to the transmission control unit 324 as encoded voice data.
  • the transmission control section 324 transmits the encoded voice data input from the encoding section 323 to the modem section 313 (FIG. 23).
  • step S207 the management unit 327 determines whether or not the call has ended. If it is determined that the call has not been completed, the management unit 327 returns the process to step S203, and the subsequent processes are repeated. When it is determined that the call has ended, the management unit 327 ends the transmission process.
  • step S 2 2 transmission control unit 3 2 4, the cellular phone 3 0 1 2 telephone numbers entered by the operation unit 3 1 5 is operated, by outputting as transmission data, the mobile phone A call to 3 0 1 2 is made.
  • step S 2 2 transmission control unit 3 2 4 establishes a communication link between the terminating side of the mobile phone 3 0 1 2, the process proceeds to step S 2 2 3.
  • step S223 the management unit 327 reads out the data stored in the table memory 382 of the encoding unit 323 and supplies it to the transmission control unit 324. Further, in step S223, the transmission control section 324 selects the memory data from the management section 327 and transmits it as transmission data. The memory data is transmitted together with update information indicating the date and time when the memory data was obtained by learning.
  • step S 2 2 3 to S 2 2 4 the management section 3 2 7 determines ready notification is whether transmitted from the cellular phone 3 0 1 2 at the incoming side.
  • step S 2 2 4 such Ready notification, whether sent is determined from the mobile phone 3 0 1 2. If it is determined in step S224 that the preparation completion notification has not been transmitted, the process returns to step S224 and waits until the preparation completion notification has been transmitted. Then, in step S224, when it is determined that the preparation completion notification has been transmitted, the process proceeds to step S225, where the transmission control unit 324 selects the output of the encoding unit 323. As a result, voice communication is enabled, and the memory data transmission process ends.
  • step S205 in FIG. 30 will be described with reference to the flowchart in FIG.
  • step S231 the frame cutout unit 351 converts the audio signal input from the A / D conversion unit 322 into a frame.
  • the audio signal input here has both high frequency components and low frequency components.
  • step S232 the DCT conversion section 352 performs M-DCT conversion on the audio signal framed in step S231 and converts the signal into DCT spectrum data. 8 Output to 1.
  • step S233 the spectrum dividing section 3811 divides the DCT spectrum data into a high frequency component and a low frequency component, and divides the high frequency component into table memory. And the low-frequency components are output to the classifying section 354.
  • step S 234 the class classification section 354 determines the class code by the class classification processing, and outputs it to the class code multiplexing section 355 and the table memory 382.
  • the class classification process here is the same as the class classification process of the audio broadband device 1 described above with reference to FIG. 6, and a description thereof will be omitted.
  • step S 235 the table memory 382 stores the DCT of the high frequency component input from the spectrum division section 381 into the address corresponding to the class code output from the classification section 354. Stores spectrum data.
  • step S 236 the class code multiplexing section 355 converts the class code input from the class classification section 354 and the DCT spectrum of the low frequency component input from the spectrum division section 381.
  • the vector data is multiplexed and output to the inverse DCT converter 356.
  • step S 237 the inverse 0 ( ⁇ transform section 356 performs inverse DCT transform on the multiplexed DCT spectrum data of the low frequency components.
  • step S 2308 the frame combining section 357 performs an overlap process to create encoded voice data.
  • step S251 the management unit 335 detects the reception of the radio wave via the reception control unit 331.
  • step S252 the receiving unit 314 performs a memory data update process described later with reference to FIG. That is, the receiving unit 314 updates the DCT vector data of the high frequency component spectrum stored in the table memory 391 (FIG. 29), and performs voice communication (encoded voice data). Switch to.
  • step S 253 when the reception data input to reception control section 331 is switched to encoded audio data, reception control section 331 converts the encoded audio data to decoding section 33. Output to 2.
  • step S254 the decoding unit 332 performs a decoding process. As will be described later in detail with reference to FIG. 35, by this processing, the decoding unit 332 separates the coded audio data in which the class code is multiplexed into a class code and a low frequency component. The high frequency components stored at the address corresponding to the class code are read out, combined with the low frequency components, and output as a wideband audio signal.
  • step S255 the D / A conversion section 333 performs D / A conversion on the wideband audio signal input from the decoding section 332, and outputs the signal to the speaker 334.
  • step S256 the speaker 3334 outputs the analog audio signal input from the D / A conversion section 3333.
  • step S257 the management unit 335 determines whether or not the call has ended. When it is determined that the call has not ended, the management unit 335 returns the process to step S253, and the subsequent processes are repeated. When it is determined that the call has ended, the management unit 335 ends the reception processing.
  • step S271 the reception control unit 3331 determines whether or not the user has set the operation unit 315 to the off-hook state by operating the operation unit 315. Return to step S27.
  • step S 272 the reception control unit 331 establishes a communication link, and proceeds to step S 273.
  • step S 273 the reception control section 331 receives the reception data including the latest memory data transmitted from the transmitting-side mobile phone 30, and supplies the reception data to the management section 335. That is, in the memory data transmission process of FIG. 31, as described above, in step S223, the mobile phone 30 transmits the latest memory data together with the update information in step S223. Then, the memory data and the update information are received.
  • step S 274 the management unit 3 3 5 refers to the update information received from the calling mobile phone 3 0 1 ⁇ . 0 1! It is determined whether the latest memory data for the user is stored.
  • step S274 If it is determined in step S274 that the latest memory data for the user of the mobile phone 301 on the calling side has already been stored in the decoding unit 3332, the process proceeds to step S275.
  • the management unit 335 discards the memory data and the update information received in step S2773, and proceeds to step S277.
  • step S274 If it is determined in step S274 that the latest memory data for the user of the calling mobile phone 30 has not yet been stored in the decryption unit 3332, the flow advances to step S276.
  • the management unit 335 has transmitted the latest memory data obtained in step S 273 together with the telephone number of the calling mobile phone 30 received at the time of the incoming call, and the memory data.
  • the contents of the table memory 391 of the decoding unit 3332 are updated by storing the information in the decoding unit 3332 in association with the update information.
  • step S277 the management unit 3335 controls the transmission control unit 3224 of the transmission unit 3113 to transmit a preparation completion notification indicating that the preparation for the voice call is completed.
  • the data is transmitted as transmission data, and the flow advances to step S278.
  • step S 278 the reception control section 33 1 outputs the encoded voice data included in the reception data supplied thereto to the decoding section 3 32, and is in a state where voice communication is possible, and the memory The data update processing ends.
  • step S291 the frame cutout unit 371 frames the encoded voice data input from the reception control unit 331.
  • step S292 the DCT conversion section 3772 performs M-DCT conversion on the encoded voice data framed in step S291, and as DCT spectrum data, the class code separation section 3772 Output to
  • step S293 the class code separation unit 3733 separates the DCT spectrum data into a class code and low-frequency components, outputs the class code to the table memory 391, and outputs The band frequency component is output to the spectrum coupling section 3776.
  • step S294 the table memory 3991 adjusts the gain of the DCT spectrum data of the high frequency component stored in the address corresponding to the class code output by the class code separation unit 373. Output to section 3 7 5.
  • step S295 the spectrum coupling section 376 converts the high-frequency component input with the gain adjusted in the gain adjustment section 375 with the low-frequency component input from the class code separation section 373.
  • the components are spectrally combined and output to the inverse DCT transformer 377.
  • step S296 the inverse DCT transform section 377 performs the inverse DCT transform on the combined DCT spectrum data.
  • step S297 the frame combining section 378 performs an overlap process and outputs it to the D / A conversion section 333 (FIG. 25) as a wideband digital audio signal.
  • the cellular phone 3 0 1 2 Odor incoming side Te as long as the latest memory data about the user of the mobile phone 3 0 outgoing side is not stored, always stored contents Will be updated.
  • the user only to request the updating of the memory data when needed, only when the request is turned on, may be performed update processing described above c
  • the telephone number transmitted from the calling side at the time of an incoming call is used as the specific information for specifying the calling side.
  • a unique ID (Identification) can be assigned to a user or the like, and that ID can be used as specific information.
  • the operation when the memory is fixed is the memory data transmission process (the process shown in FIG. 31) in step S202 of FIG. 30 and the memory data update process (the process shown in step S252) of FIG. This is the same as the case where the processing shown in Fig. 34) is omitted.
  • the above-described series of processing can be performed by hardware or can be performed by software.
  • a program constituting the software is installed on a general-purpose computer or the like.
  • FIG. 36 shows a configuration example of an embodiment of a computer in which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 405 or ROM 403 as a recording medium built in the computer.
  • the program is a flexible disk, CD-ROM (Compact Disc)
  • Disc a magnetic disk, a semiconductor memory, or other removable recording medium 411, which can be temporarily or permanently stored (recorded).
  • a removable recording medium 411 can be provided as so-called package software.
  • the program can be installed on the computer from the removable recording medium 411 as described above, or transmitted from the download site to a computer via a satellite for digital satellite broadcasting by wireless, LAN ( Local Area
  • Network Via a network such as the Internet, the data is transferred to the computer by wire, and the computer transfers the program transferred in that way. It can be received by the communication unit 408 and installed on the built-in hard disk 405.
  • the computer has a built-in CPU (Central Processing Unit) 402.
  • CPU Central Processing Unit
  • the CPU 402 is connected to an input / output interface 410 via a bus 401, and the CPU 402 is connected to the keyboard and mouse by the user via the input / output interface 410.
  • a command is input by operating the input unit 407 including a microphone or the like, a program stored in a ROM (Read Only Memory) 403 is executed in accordance with the command.
  • the CPU 402 is a program stored in the hard disk 405, a program transferred from a satellite or a network, received by the communication unit 408, and installed in the hard disk 405, or a drive.
  • the program read from the removable recording medium 411 mounted on the 409 and installed on the hard disk 405 is loaded into a RAM (Random Access Memory) 404 and executed.
  • the CPU 402 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 402 transmits the processing result from an output unit 406 configured by an LCD (Liquid Crystal Display), a speaker, or the like, as necessary, for example, via an input / output interface 410. It is output or transmitted from the communication unit 408, and further recorded on the hard disk 405.
  • an output unit 406 configured by an LCD (Liquid Crystal Display), a speaker, or the like
  • processing steps for describing a program for causing a computer to perform various kinds of processing do not necessarily need to be processed in a time series in the order described as a flowchart, and may be performed in parallel or in parallel. It also includes processes that are executed individually (for example, parallel processing or processing by objects).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers.
  • the program in the form of a good c present even executed by being transferred to a remote computer, the present invention, audio (image signal) broadening apparatus and a voice call by the cellular phone each other has been described in the case of applying to a transmission system that performs
  • the present invention can be widely applied to systems for performing voice communication, such as improving sound quality of fixed telephone voice, AM (Amplitude modulation) / FM (Frequency Modulation) radio broadcast received voice, and analog TV (Television) broadcast received voice.
  • the term “system” refers to an overall device including a plurality of devices, means, and the like. Industrial applicability
  • a system capable of accurately restoring a high frequency component of a narrowband signal in which a high frequency component is suppressed is provided. Can be realized.
  • the high frequency of the narrow band signal in which the high frequency component is suppressed with respect to the other signal processing devices The components can be accurately restored.
  • the second signal processing device As described above, according to the second signal processing device, the signal processing method, the recording medium, and the program of the present invention, it is possible to accurately restore the high frequency component of the narrowband signal in which the high frequency component is suppressed. become.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Picture Signal Circuits (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は、高域周波数成分が抑圧された狭帯域信号の高域周波数成分を精度よく復元できるようにする信号処理システム、信号処理装置および方法、記録媒体、並びにプログラムに関する。低域周波数成分をもつ狭帯域な音声信号が、フレーム切り出し部11でフレーム化され、DCT変換部12で周波数軸上の信号にスペクトル変換される。学習済テーブル14は、クラス分類部13から供給されるクラスコードに対応するアドレスから高域周波数成分のスペクトルデータを抽出する。抽出された高域周波数成分のスペクトルデータは、DCT変換部12から出力された低域周波数成分のスペクトルデータとスペクトル結合部16で結合される。そして、高域周波数成分と低域周波数成分が結合された広帯域な音声信号として出力される。本発明は、携帯電話機に適用できる。

Description

明細書
信号処理システム、 信号処理装置および方法、 記録媒体、 並びにプログラム 技術分野
本発明は、 信号処理システム、 信号処理装置および方法、 記録媒体、 並びにプ ログラムに関し、 特に、 高域周波数成分が抑圧された狭帯域信号の高域周波数成 分を精度よく復元するようにした信号処理システム、 信号処理装置おょぴ方法、 記録媒体、 並びにプログラムに関する。 背景技術
周波数の帯域が狭い音声信号を広帯域に拡張する技術について、 これまでもさ まざまな提案がなされている。
例えば、 特開平 7— 3 6 4 9 0号公報 (以下、 文献 1と称する) には、 入力さ れた音声信号スぺク トルに基づいて、 失われた倍音成分を演算により生成して付 加する方法が開示されている。
また、 埼玉大学による日本音響学会での論文 (以下、 文献 2と称する) により、 入力された音声信号の自己相関演算により、 有声音源波形を生成し、 これを高域 成分として利用する方法が発表されている。
さらに、 特開平 1 1— 1 2 6 0 9 7号公報、 特開平 1 1一 6 8 5 1 5号公報 (以下、 文献 3と称する) には、 入力信号より高い標本化周波数で D/A変換を 行う際のサンプル値補間方法が開示されている。
また、 特開平 6— 1 1 8 9 9 5号公報 (以下、 文献 4と称する) には、 広帯域 音声信号のベタトル量子化コードプックと、 狭帯域音声信号のベタ トル量子化コ 一ドプックを対応付けることにより、 広帯域音声信号を復元する方法が開示され ている。 '
文献 1の技術は、 MP 3 (Moving Picture Experts Group- 1 Audio Layer - 3 ) 等の比較的広帯域な音声信号において、 その圧縮過程で失われた高域信号を 予測して付加するものであり、 電話音声帯域のような極端に狭帯域化された信号 の帯域を、 例えば、 2倍に拡張する場合には、 適用することが困難である。
また、 文献 2の技術は、 有声音のみに対する処理であり、 無声音 (子音部) の 復元ができないという課題がある。
さらに、 文献 3の技術は、 標本化周波数を上げるサンプル値補間処理の際に、 補間サンプル値のレベルを前後数サンプルの変化状況を眺めて適切と思われる値 に設定する、 という補間フィルタの延長線上の技術であり、 失われた周波数成分 を復元するものではない。
最後の文献 4の技術は、 処理の中核に LPC (Liner Predi ction Coeffi ci ent) 分析および合成処理を使っていることから、 入力信号に声道モデルを想定してい るものと考えられる。 そのため、 楽音への適用が困難である。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 高域周波数成分が抑 圧された狭帯域信号の高域周波数成分を精度よく復元することができるようにす るものである。
本発明の信号処理システムは、 第 1の信号処理装置は、 周波数成分が広帯域な 第 1の信号を入力する第 1の信号入力手段と、 第 1の信号のうちの、 高域周波数 成分が抑圧された狭帯域な第 2の信号を入力する第 2の信号入力手段と、 第 1の 信号入力手段により入力された第 1の信号から高域周波数成分を抽出する抽出手 段と、 第 2の信号入力手段により入力された第 2の信号に基づいて、 第 1のクラ スコードを決定する第 1の決定手段と、 第 1の決定手段により決定された第 1の ク スコードごとに、 抽出手段により抽出された高域周波数成分を蓄積する蓄積 手段とを備え、 第 2の信号処理装置は、 高域周波数成分が抑圧された狭帯域な第 3の信号を入力する第 3の信号入力手段と、 第 3の信号入力手段により入力され た第 3の信号に基づいて、 第 2のクラスコードを決定する第 2の決定手段と、 第 2の決定手段により決定された第 2のクラスコードに対応する、 蓄積手段により 蓄積された高域周波数成分と、 第 3の信号入力手段により入力された第 3の信号 を合成する合成手段と、 合成手段により生成された合成信号を出力する出力手段 とを備えることを特徴とする。
本発明の信号処理システムの信号処理方法は、 第 1の信号処理装置は、 周波数 成分が広帯域な第 1の信号の入力を制御する第 1の信号入力制御ステップと、 第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号の入力を制 御する第 2の信号入力制御ステツプと、 第 1の信号入力制御ステップの処理によ り入力が制御された第 1の信号から高域周波数成分を抽出する抽出ステップと、 第 2の信号入力制御ステツプの処理により入力が制御された第 2の信号に基づい て、 第 1のクラスコードを決定する第 1の決定ステップと、 第 1の決定ステップ の処理により決定された第 1のクラスコードごとに、 抽出ステップの処理により 抽出された高域周波数成分を蓄積する蓄積ステップとを含み、 第 2の信号処理装 置は、 高域周波数成分が抑圧された狭帯域な第 3の信号の入力を制御する第 3の 信号入力制御ステップと、 第 2の信号入力制御ステップの処理により入力が制御 された第 3の信号に基づいて、 第 2のクラスコードを決定する第 2の決定ステツ プと、 第 2の決定ステップの処理により決定された第 2のクラスコードに対応す る、 蓄積ステップの処理により蓄積された高域周波数成分と、 第 3の信号入力制 御ステップの処理により入力が制御された第 3の信号を合成する合成ステップと、 合成ステップの処理により生成された合成信号の出力を制御する出力制御ステツ プとを含むことを特徴とする。
本発明の第 1の信号処理装置は、 周波数成分が広帯域な第 1の信号を入力する 第 1の信号入力手段と、 第 1の信号のうちの、 高域周波数成分が抑圧された狭帯 域な第 2の信号を入力する第 2の信号入力手段と、 第 1の信号入力手段により入 力された第 1の信号から高域周波数成分を抽出する抽出手段と、 第 2の信号入力 手段により入力された第 2の信号に基づいて、 クラスコードを決定する決定手段 と、 決定手段により決定されたクラスコードごとに、 抽出手段により抽出された 高域周波数成分を蓄積する蓄積手段とを備えることを特徴とする。 本発明の第 1の信号処理方法は、 周波数成分が広帯域な第 1の信号の入力を制 御する第 1の信号入力制御ステップと、 第 1の信号のうちの、 高域周波数成分が 抑圧された狭帯域な第 2の信号の入力を制御する第 2の信号入力制御ステップと、 第 1の信号入力制御ステップの処理により入力が制御された第 1の信号から高域 周波数成分を抽出する抽出ステップと、 第 2の信号入力制御ステップの処理によ り入力が制御された第 2の信号に基づいて、 クラスコードを決定する決定ステッ プと、 決定ステップの処理により決定されたクラスコードごとに、 抽出ステップ の処理により抽出された高域周波数成分を蓄積する蓄積ステップとを含むことを 特徴とする。
本発明の第 1の記録媒体のプログラムは、 周波数成分が広帯域な第 1の信号の 入力を制御する第 1の信号入力制御ステップと、 第 1の信号のうちの、 高域周波 数成分が抑圧された狭帯域な第 2の信号の入力を制御する第 2の信号入力制御ス テツプと、 第 1の信号入力制御ステップの処理により入力が制御された第 1の信 号から高域周波数成分を抽出する抽出ステップと、 第 2の信号入力制御ステップ の処理により入力が制御された第 2の信号に基づいて、 クラスコードを決定する 決定ステップと、 決定ステップの処理により決定されたクラスコードごとに、 抽 出ステップの処理により抽出された高域周波数成分を蓄積する蓄積ステップとを 含むことを特徴とする。
本発明の第 1のプログラムは、 周波数成分が広帯域な第 1の信号の入力を制御 する第 1の信号入力制御ステップと、 第 1の信号のうちの、 高域周波数成分が抑 圧された狭帯域な第 2の信号の入力を制御する第 2の信号入力制御ステップと、 第 1の信号入力制御ステップの処理により入力が制御された第 1の信号から高域 周波数成分を抽出する抽出ステップと、 第 2の信号入力制御ステップの処理によ り入力が制御された第 2の信号に基づいて、 クラスコードを決定する決定ステツ プと、 決定ステップの処理により決定されたクラスコードごとに、 抽出ステップ の処理により抽出された高域周波数成分を蓄積する蓄積ステップとをコンビユー タに実行させることを特徴とする。 本発明の第 1の信号処理装置の入力手段には、 音声信号を入力させるようにす ることができる。
本発明の第 1の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 等ラウドネス特性に基づく重み付け処理を行った信号に基づいて、 ク ラスコードを決定させることができる。
本発明の第 1の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 音声信号スぺク トルの平均パワー値と最大パワー値の位置に基づいて、 クラスコードを決定させるようにすることができる。
本発明の第 1の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 記憶手段に記憶されている高域周波数成分の最低の周波数の 1 / 2倍、 または 1 Z 3倍の周波数以上のスぺクトル成分のクラスコードを決定させるよう にすることができる。
本発明の第' 1の信号処理装置の入力手段には、 画像信号を入力させるようにす ることができる。
本発明の第 1の信号処理装置に入力された信号が、 画像信号である場合、 決定 手段には、 画像信号のスぺク トルの交流平均パワー値、 直流パワー値、 およぴ交 流成分ピークパヮ一値に基づいて、 クラスコードを決定させるようにすることが できる。
本発明の第 1の信号処理装置の蓄積手段には、 抽出手段により抽出された高域 周波数成分を、 特定情報に対応付けて蓄積させるようにすることができる。
本発明の第 1の信号処理装置の特定情報は、 電話機の電話番号であるようにす ることができる。
本発明の第 1の信号処理装置の第 1の信号を所定の時間間隔で間引いて第 2の 信号を生成する生成手段をさらに設けることができる。
本発明の第 2の信号処理装置は、 高域周波数成分が抑圧された狭帯域な信号を 入力する信号入力手段と、 信号入力手段により入力された信号に基づいて、 クラ スコードを決定する決定手段と、 高域周波数成分を記憶する記憶手段と、 決定手 段により決定されたクラスコードに対応する、 記憶手段に記憶された高域周波数 成分と、 信号入力手段により入力された信号を合成する合成手段と、 合成手段に より生成された合成信号を出力する出力手段とを備えることを特徴とする。 本発明の第 2の信号処理方法は、 高域周波数成分が抑圧された狭帯域な信号の 入力を制御する信号入力制御ステップと、 信号入力制御ステップの処理により入 力が制御された信号に基づいて、 クラスコードを決定する決定ステップと、 高域 周波数成分の記憶を制御する記憶制御ステップと、 決定ステップの処理により決 定されたクラスコードに対応する、 記憶制御ステップの処理により記憶が制御さ れた高域周波数成分と、 信号入力制御ステップの処理により入力された信号を合 成する合成ステップと、 合成ステップの処理により生成された合成信号の出力を 制御する出力制御ステップとを含むことを特徴とする。
本発明の第 2の記録媒体のプログラムは、 高域周波数成分が抑圧された狭帯域 な信号の入力を制御する信号入力制御ステップと、 信号入力制御ステップの処理 により入力が制御された信号に基づいて、 クラスコードを決定する決定ステップ と、 高域周波数成分の記憶を制御する記憶制御ステップと、 決定ステップの処理 により決定されたクラスコードに対応する、 記憶制御ステップの処理により記憶 が制御された高域周波数成分と、 信号入力制御ステップの処理により入力された 信号を合成する合成ステップと、 合成ステップの処理により生成された合成信号 の出力を制御する出力制御ステップとを含むことを特徴とする。
本発明の第 2のプログラムは、 高域周波数成分が抑圧された狭帯域な信号の入 力を制御する信号入力制御ステップと、 信号入力制御ステップの処理により入力 が制御された信号に基づいて、 クラスコードを決定する決定ステップと、 高域周 波数成分の記憶を制御する記憶制御ステップと、 決定ステップの処理により決定 されたクラスコードに対応する、 記憶制御ステップの処理により記憶が制御され た高域周波数成分と、 信号入力制御ステップの処理により入力された信号を合成 する合成ステツプと、 合成ステップの処理により生成された合成信号の出力を制 御する出力制御ステップとをコンピュータに実行させることを特徴とする。 本発明の第 2の信号処理装置の入力手段には、 音声信号を入力させるようにす ることができる。
本発明の第 2の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 等ラウドネス特性に基づく重み付け処理を行った信号に基づいて、 ク ラスコードを決定させるようにすることができる。
本発明の第 2の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 音声信号スぺク トルの平均パワー値と最大パワー値の位置に基づいて、 クラスコードを決定させるようにすることができる。
本発明の第 2の信号処理装置に入力された信号が、 音声信号である場合、 決定 手段には、 記憶手段に記憶されている高域周波数成分の最低の周波数の 1 / 2倍、 または 1 / 3倍の周波数以上のスぺク トル成分のクラスコードを決定させるよう にすることができる。
本発明の第 2の信号処理装置の入力手段には、 画像信号を入力させるようにす ることができる。
本発明の第 2の信号処理装置に入力された信号が、 画像信号である場合、 決定 手段には、 画像信号のスぺク トルの交流平均パワー値、 直流パワー値、 および交 流成分ピークパワー値に基づいて、 クラスコードを決定させるようにすることが できる。
本発明の第 2の信号処理装置の記憶手段により記憶された高域周波数成分は、 所定のタイミングで更新させるようにすることができる。
本発明の第 2の信号処理装置の記憶手段には、 特定情報に対応付けて高域周波 数成分を記憶させるようにすることができる。
本発明の第 2の信号処理装置の特定情報は、 電話機の電話番号であるようにす ることができる。
本発明の信号処理システムおよび信号処理方法においては、 第 1の信号処理装 置で、 周波数成分が広帯域な第 1の信号から高域周波数成分が抽出され、 第 1の 信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号に基づいて、 第 4
8
1のクラスコードが決定され、 クラスコードごとに高域周波数成分が蓄積される。 第 2の信号処理装置で、 高域周波数成分が抑圧された狭帯域な第 3の信号に基づ いて、 第 2のクラスコードが決定され、 第 2のクラスコードに対応する蓄積され た高域周波数成分と、 第 3の信号が合成される。
第 1の信号処理装置、 および方法、 記録媒体、 並びにプログラムにおいては、 周波数成分が広帯域な第 1の信号から高域周波数成分が抽出され、 第 1の信号の うちの、 高域周波数成分が抑圧された狭帯域な第 2の信号に基づいて、 クラスコ ードが決定され、 クラスコードごとに高域周波数成分が蓄積される。
第 2の信号処理装置、 および方法、 記録媒体、 並びにプログラムにおいては、 高域周波数成分が抑圧された狭帯域な信号に基づいて、 クラスコードが決定され、 クラスコードに対応する高域周波数成分と、 狭帯域な信号が合成され、 合成信号 が出力される。
信号処理装置は、 独立した装置であっても良いし、 1つの装置の信号処理を行 ぅブロックであっても良い。 図面の簡単な説明
図 1は、 本発明の第 1実施の形態である音声広帯域化装置の構成例を示すプロ ック図である。
図 2は、 図 1のクラス分類部の構成例を示すブロック図である。
図 3は、 図 1の音声広帯域化装置の音声広帯域化処理を説明するフローチヤ一 トである。
図 4 Aは、 音声広帯域化処理のデータ例を示す図である。
図 4 Bは、 音声広帯域化処理のデータ例を示す図である。
図 4 Cは、 音声広帯域化処理のデータ例を示す図である。
図 5 Aは、 クラス分類処理の基本原理を説明する図である。
図 5 Bは、 クラス分類処理の基本原理を説明する図である。 2003/010824
9 図 6は、 図 3のステップ S 3のクラス分類処理を説明するフローチャートであ る。
図 7は、 音の等ラウドネス曲線を説明する図である。
図 8は、 音を周波数補正する A特性カーブを示す図である。
図 9は、 図 6のステップ S 2 5の処理を説明する図である。
図 1 0は、 音声信号の学習装置の構成例を示すブロック図である。
図 1 1は、 図 1 0の学習装置の学習処理を説明するフローチャートである。 図 1 2 Aは、 学習処理の音声信号のデータ例を示す図である。
図 1 2 Bは、 学習処理の音声信号のデータ例を示す図である。
図 1 2 Cは、 学習処理の音声信号のデータ例を示す図である。
図 1 2 Dは、 学習処理の音声信号のデータ例を示す図である。
図 1 2 Eは、 学習処理の音声信号のデータ例を示す図である。
図 1 2 Fは、 学習処理の音声信号のデータ例を示す図である。
図 1 3は、 図 1 1のステップ S 5 3のクラス分類処理を説明するフローチヤ一 トである。
図 1 4は、 本発明の第 2実施の形態である画像信号広帯域化装置の構成例を示 すブロック図である。
図 1 5は、 図 1 4のクラス分類部の構成例を示すプロック図である。
図 1 6 Aは、 画像信号広帯域化処理のデータ例を示す図である。
図 1 6 Bは、 画像信号広帯域化処理のデータ例を示す図である。
図 1 6 Cは、 画像信号広帯域化処理のデータ例を示す図である。
図 1 7は、 図 1 4の画像信号広帯域化装置のクラス分類処理を説明するフロー チヤ一トである。
図 1 8は、 図 1 7のステップ S 9 2の処理を説明する図である。
図 1 9は、 画像信号の学習装置の構成例を示すプロック図である。
図 2 O Aは、 学習処理の画像信号のデータ例を示す図である。
図 2 O Bは、 学習処理の画像信号のデータ例を示す図である。 図 2 O Cは、 学習処理の画像信号のデータ例を示す図である。
図 2 O Dは、 学習処理の画像信号のデータ例を示す図である。
図 2 0 Eは、 学習処理の画像信号のデータ例を示す図である。
図 2 0 Fは、 学習処理の画像信号のデータ例を示す図である。
図 2 1は、 図 1 9の学習装置のクラス分類処理を説明するフローチャートであ る。
図 2 2は、 本発明の第 3実施の形態である伝送システムの構成例を示すブロッ ク図である。
図 2 3は、 図 2 2の携帯電話機の構成例を示すプロック図である。
図 2 4は、 図 2 3の送信部の構成例を示すブロック図である。
図 2 5は、 図 2 3の受信部の構成例を示すブロック図である。
図 2 6は、 学習済テーブルが固定の情報として与えられる場合の図 2 4の符号 化部の構成例を示すブロック図である。
図 2 7は、 学習済テーブルが固定の情報として与えられる場合の図 2 5の復号 部の構成例を示すプロック図である。
図 2 8は、 学習済テーブルが所定のタイミングで更新される場合の図 2 4の符 号化部の構成例を示すプロック図である。
図 2 9は、 学習済テーブルが所定のタイミングで更新される場合の図 2 5の復 号部の構成例を示すプロック図である。
図 3 0は、 図 2 4の送信部の送信処理を説明するフローチャートである。
図 3 1は、 図 3 0のステップ S 2 0 2のメモリデータ送信処理を説明するフロ 一チヤ一トである。
図 3 2は、 図 3 0のステップ S 2 0 5の符号化処理を説明するフローチヤ一ト である。
図 3 3は、 図 2 5の受信部の受信処理を説明するフローチャートである。
図 3 4は、 図 3 3のステップ S 2 5 2のメモリデータ更新処理を説明するフロ 一チヤ一トである。 図 3 5は、 図 3 3のステップ S 2 5 4の復号処理を説明するフローチヤ一トで ある。
図 3 6は、 本発明を適用したコンピュータの一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
図 1は、 本発明の第 1実施の形態である音声広帯域化装置の構成例を示してい る。
低域周波数成分をもつ (高域周波数成分を有さない) 狭帯域な音声信号は、 フ レーム切り出し部 1 1に入力される。 入力された音声信号は、 所定のフレーム (単位時間) でブロック化され、 DCT (Di screte Cos ine Trans form;離散コサ イン変換) 変換部 1 2に出力される。
DCT変換部 1 2は、 フレーム切り出し部 1 1から入力された時間軸上の音声信 号を、 フレーム毎に周波数軸上の信号にスペク トル変換し、 クラス分類部 1 3と スペク トル結合部 1 6にそれぞれ出力する。 スペク トル変換する方法として、 こ こでは、 両隣のブロックを半分ずつオーバーラップさせる M-DCT (モデフアイド DCT) 変換が用いられる。
上述した M-DCT変換以外のスペクトル変換としては、 DFT (Discrete
Fourier T進 sform;離散フー Uェ変換) 、 DCT (Di screte Cosine
Transform;離散コサイン変換) 、 FFT (Fast Fourier Transform;高速フーリ ェ変換) 、 または、 LPCなどの方法があり、 時間軸上の音声信号を周波数軸上の 信号に変換するものであれば、 何でもよい。
クラス分類部 1 3は、 入力されたスペク トル信号に基づいて、 クラス分類処理 (その詳細は、 図 6を参照して後述する) により、 クラスコードを算出し、 学習 済テーブル 1 4に出力する。
学習済テーブル 1 4は、 クラスコードをァドレスとしたテーブルメモリであり、 それぞれのクラスコードアドレスには、 図 1 0で後述する学習装置によって求め られた高域周波数成分の音声信号スぺクトルのベタトルデータが格納されている。 学習済テーブル 1 4は、 クラス分類部 1 3から入力されたクラスコードァドレス に対応する高域周波数成分の音声信号スぺクトルのベタトルデータを読み出し、 ゲイン調整部 1 5に出力する。
ゲイン調整部 1 5は、 学習済テーブル 1 4より入力された高域周波数成分の音 声信号スぺク トルデータのゲインを、 スぺク トル結合部 1 6で結合される低域周 波数成分の音声信号スぺクトルデータのゲインに合うように調整する。
スぺクトル結合部 1 6は、 ゲイン調整部 1 5より入力された高域周波数成分の 音声信号スぺク トルのベタトルデータを、 DCT変換部 1 2より入力された低域周 波数成分の音声信号スぺクトルのベタトルデータの最終列以降に結合して、 逆 DCT変換部 1 7に出力する。
逆 DCT変換部 1 7は、 M-DCT変換の逆変換を行うことによって、 周波数軸上の スぺク トルデータを時間軸上のスぺク トルに変換し、 フレーム結合部 1 8に出力 する。
フレーム結合部 1 8は、 音声がフレームの境界部において不連続にならないた めのフレームオーバーラップ部分の加算処理を行った後、 音声信号を出力する。 図 2は、 図 1のクラス分類部 1 3の詳細な構成例を示している。
パワー値変換部 3 1には、 DCT変換部 1 2が出力した、 M- DCT変換された DCT スぺク トルデータが入力される。 入力された DCTスペクトルデータは、 パワー 値に変換され、 さらにパワーの d B (デシベル) 値に変換されて、 重み付け処理 部 3 2に出力される。
重み付け処理部 3 2は、 入力された DCTスぺク トルデータに、 図 7を参照し て後述する等ラウドネス特性を考慮した重み付け処理を施し、 スぺク トル抽出部 3 3に出力する。
スぺク トル抽出部 3 3は、 入力された低域周波数成分の DCTスぺク トルデー タから、 復元する高域周波数成分の最低の周波数の 1/2または 1/3倍の周波数 以上の DCTスぺク トルデータを抽出し、 サブパンド分割部 3 4に出力する。 サブパンド分割部 3 4は、 スぺク トル抽出部 3 3において抽出された DCTス ぺクトルデータを所定の数のサブパンドに分割して量子化部 3 5に出力する。 量子化部 3 5は、 サブバンドに分割された DCTスぺク トルデータをサブバン ド単位にまとめ、 入力された (スペク トル抽出部 3 3において抽出された) 部分 のパワー値の平均値を求め、 その平均値を量子化してクラスコードを生成すると ともに、 最大パワー値を取るサブバンド位置を求め、 それに基づいてクラスコー ドを生成する。 2つのクラスコードは、 クラスコード決定部 3 6に出力される。 クラスコード決定部 3 6は、 量子化部 3 5より入力されたパワー平均値に基づ くクラスコードと、 最大パワー位置に基づくクラスコードを多重化して、 1つの クラスコードを生成し、 学習済テーブル 1 4 (図 1 ) に出力する。
次に、 図 3のフローチャートと図 4 A乃至 IU 4 Cを参照して、 音声広帯域化装 置 1の音声広帯域化処理について説明する。
ステップ S 1において、 フレーム切り出し部 1 1は、 音声広帯域化装置 1に入 力された高域周波数成分が抑圧された音声信号をフレーム化する。 すなわち、 音 声信号は、 所定のフレーム (単位時間) 毎にブロック化される。
ステップ S 2において、 DCT変換部 1 2は、 ステップ S 1でフレーム化された 音声信号を M- DCT変換する。 図 4 Aは、 1フレームの音声信号が M- DCT変換さ れたデータ (以下、 DCTスペク トルデータと称する) を示している。
ステップ S 3において、 クラス分類部 1 3は、 図 6を参照して後述するクラス 分類処理を行い、 クラスコードを算出する。
ステップ S 4において、 学習済テーブル 1 4は、 ステップ S 3でクラス分類部 1 3から出力されたクラスコードに対応するァドレスに記憶されている高域周波 数成分スペク トルの DCTベク トルデータを読み出す。 図 4 Bは、 このようにし て読み出された高域周波数成分の DCTスぺクトルデータを示している。
ステップ S 5において、 スぺク トル結合部 1 6は、 音声広帯域化装置 1に入力 された低域周波数成分の DCTスぺク トルデータ (図 4 Aにスぺクトル として 示される部分) と、 学習済テーブル 1 4から読み出された高域周波数成分の DCT スペク トルデータ (図 4 Bにスペクトル ^として示される部分) を結合する。 すなわち、 図 4 Cに示されるように、 スペク トル ALの後端 (周波数の高い側) にスぺクトル の先端 (周波数の低い側) が接続される。 DCT変換部 1 2が出 力する 1フレームのデータ数は、 N個であり、 学習済テーブル 1 4より読み出さ れるデータも N個なので、 結合されたデータの数は、 2 N個となる。
ステップ S 6において、 逆 DCT変換部 1 7は、 スペク トル結合された DCTス ぺクトルデータを逆 M-DCT変換する。
ステップ S 7において、 フレーム結合部 1 8は、 フレームの境界部にオーバー ラップの加算処理を施し、 出力して、 音声広帯域化処理を終了する。 このオーバ 一ラップ処理により、 音声がフレームの境界部においても不連続にならなくなる。 次に、 図 3のステップ S 3のクラス分類処理について説明する。
初めに、 図 5 Aおよび図 5 Bを参照して、 クラス分類処理の基本原理について 説明する。 図 5 Aは、 パンド幅 2 B。の低域周波数成分と高調波成分を有する教師 DCTスぺク トルであり、 図 5 Bは、 教師 D C Tスぺク トルから高調波成分を削除 して生成した、 バンド幅 B。の狭帯域な低域周波数成分だけをもつ生徒 DCTスぺ クトルである。
狭帯域信号に含まれる高域周波数成分の量と、 スぺク トル形状を復元すべき周 波数成分は、 リ ンク関係にあるという前提に基づいて、 クラス分類処理は行われ る。 すなわち、 音声信号が、 ピッチの周波数とその高調波成分から構成される、 というモデルを想定した場合、 図 5 Bのパンド幅 B。の約半分の高域側の領域 P の 2倍、 または、 3倍の高調波成分に相当する信号が、 図 5 Aのバンド幅 2 B0の 約半分の高域側の領域 Qに含まれることが予想される。 反対に、 領域 Pにスぺク トルがほとんど存在しないような場合には、 領域 Qにも信号が存在する可能性は 低いと予想される。
次に、 図 6を参照してクラス分類処理について説明する。
ステップ S 2 1において、 パワー値変換部 3 1は、 D C T変換部 1 2より入力 されたスペク トルデータをパワー値に変換し、 さらにそのパワー値を d B (デシ ベル) 値に変換する。 すなわち、 入力されたスペク トルデータ X [k] (k = 0 , 1, · ■ ■, N-1 ) は、 次式
Figure imgf000017_0001
により平均パワー値 PWRに変換され、 さらに、 次式
PWRdB = 1 O log10 (PWR)
によりパワー値 PWRが d B (デシベル) 値 PWRiBに変換される。
ステップ S 2 2において、 重み付け処理部 3 2は、 ステップ S 2 3で計算され たパワーのデシベル値 PWRdBに対し、 人間の耳の特性を考慮した重み付け処理を 行う。
人間が主観的に感じる音の大きさ (感覚量) と音圧レベル(物理量)の関係は、 図 7に示されるような等ラウドネス曲線で表すことができる。 これは、 正常な聴 覚をもつ人が、 等しい大きさに感じる純音の音圧レベルと周波数の関係を示して いる。 この曲線が示すように、 我々人間の耳は、 低い周波数や高い周波数では、 感度が低くなる。
このような人間の耳の特性に基づいた周波数補正を行う処理が、 ステップ S 2
2で行われる重み付け処理であり、 具体的には、 図 8に記号 Aで示される A特 性カーブと言われる補正が入力信号に施される。
ステップ S 2 2で重み付け処理が行われた後、 ステップ S 2 3において、 スぺ ク トル抽出部 3 3は、 入力された低域周波数成分のスぺク トルデータから、 復元 したい高域周波数成分の最低の周波数の 1/2または 1/3倍の周波数以上のスぺ タ トルデータを抽出し、 サブバンド分割部 3 4に出力する。 これは、 上述したク ラス分類処理の基本原理に基づいて、 行われるものである。
すなわち、 復元したい高域周波数成分としての図 5 Aの領域 Qの最低の周波数 は f 。であり、 低域周波数成分としての図 5 Bのスペク トルデータから、 例えば、 この周波数 f 。の 1/2の周波数 f Q/ 2以上の領域 Pのスぺク トルが抽出される。 ステップ S 2 4において、 サブバンド分割部 3 4は、 ステップ S 2 3で抽出さ れたスぺク トルデータ (図 5 Bの周波数 f Q/ 2から周波数 f Qまでの領域 Pのス ぺクトルデータ) を、 所定の数、 例えば、 3 2個のサブバンドに分割し、 サブバ ンド単位にスぺク トノレデータをまとめる。
ステップ S 2 5において、 図 9で示されるように、 3 2個の全体のサブバンド の平均パワー値 PAVと、 3 2個のサブバンドのなかで、 デシベルパワー値 PWRdB が最大であるサブパンド位置 Bnが求められる。 尚、 ここで、 スペク トルのデシ ベルパワー値の範囲は、 例えば、 0乃至 1 2 7 [dB]とされている。
ステップ S 2 6において、 クラスコード決定部 3 6は、 ステップ S 2 5で出力 された平均パワー値 PAVによるクラスコードと、 最大パワー位置 Bnによりクラス コードを多重化する。 図 9の例では、 最大パワー位置 Bnによるクラスコードは、 0乃至 3 1の 3 2通りあり、 平均パワー値 PAVによるクラスコードは、 0乃至 1 2 7までの 1 2 8通りが考えられる。 従って、 合成されたクラスコードの数は、 3 2 X 1 2 8 = 4 0 9 6通りとなる。 4 0 9 6通りのいずれか 1つが、 クラスコ ードとして出力される。
尚、 スペク トル形状をモデル化する方法としては、 上述した他に、 複数のスぺ タトルピークを検出したり、 スペク トルの傾斜やパワー分布を検出したり、 ある いは、 サブバンド数を変えるなどの方法も考えられる。
次に、 図 1の音声広帯域化装置 1の学習済テーブル 1 4に書き込まれる、 クラ スコード毎に記憶された高域周波数成分のベタトルデータを生成する学習装置に ついて、 図 1 0を参照して説明する。 この学習装置 5 0は、 例えば、 音声広帯域 化装置 1を製作するメーカが有している。
初めに、 教師データとなる高域周波数成分を含む広帯域な音声信号と、 生徒デ ータとして、 教師データの高域周波数成分が抑圧された狭帯域な音声信号が用意 される。 図 1 0の例では、 生徒データは、 間引き回路 6 5により、 教師データ高 域周波数成分を除去して生成した低域周波数成分を半分にサンプル間引きして生 成されている。 したがって、 フレーム切り出し部 6 6に入力される生徒データのフレーム長を Nとすると、 フレーム切り出し部 6 1に入力される教師データのフレーム長は、 2 Nとなる。 また、 このときの各フレームのデータは同期している。
フレーム切り出し部 6 1とフレーム切り出し部 6 6、 および、 DCT変換部 6 2 と DCT変換部 6 7の機能は、 図 1のフレーム切り出し部 1 1、 および、 DCT変換 部 1 2のそれと同様である。
高域周波数成分抽出部 6 3は、 教師データのスぺク トルのうち、 高周波側の半 分を抽出し、 加算部 6 4に出力する。
クラス分類部 6 8は、 図 1のクラス分類部 1 3で上述したのと同様のクラスコ ードを生成するとともに、 さらに、 クラス出現頻度を計算し、 積算テーブル 6 9 に出力する。
積算テーブル 6 9は、 クラス分類部 6 8が出力したクラスコードをァドレスと して入力し、 そのアドレスに格納されている DCT ベタ トルデータを読み出して、 加算部 6 4に出力する。 加算部 6 4は、 高域周波数成分抽出部 6 3から出力され た N個の高域周波数成分の DCTベクトルデータと、 積算テーブル 6 9から出力 された N個の DCTベタトルデータをべクトル加算し、 その結果を積算テーブル 6 9が出力した際と同じクラスコードァドレスの場所に出力する。 1つのクラス コードアドレスには、 N個の DCTべクトルデータが格納されるため、 積算テープ ル 6 9は、 (N Xクラス数) のデータ数をもつテーブルとなる。 また、 所定のタ イミングにおいて、 積算テーブル 6 9は、 それぞれのクラスコードアドレスに格 納されているべクトルデータをクラス分類部 6 8から出力されたクラス出現頻度 で除算し、 学習済テーブル 7 0に出力する。
学習済テーブル 7 0は、 積算テーブル 6 9から出力された (N Xクラス数) 個 の DCTベタ トルデータを記憶する。 学習済テーブル 7 0のデータは、 ネットヮ ークを介して、 音声広帯域化装置 1に転送され、 学習済テーブル 1 4に記憶され る。 あるいはまた、 学習済テーブル 7 0のデータは、 半導体メモリ等に書き込ま れ、 音声広帯域化装置 1の学習済テーブル 1 4として組み込まれる。 学習装置 5 0のクラス分類部 6 8の構成は、 音声広帯域化装置 1のクラス分類 部 1 3のそれと同様なため、 図 2のクラス分類部 1 3の構成は、 必要に応じて、 図 1 0のクラス分類部 6 8の構成としても適宜引用する。
次に、 図 1 1のフローチャートを参照して学習装置 5 0の学習処理について説 明する。
ステップ S 5 1において、 教師データのスぺク トルと生徒データのスぺク トル がフレーム化される。 すなわち、 フレーム切り出し部 6 1は、 入力された教師デ ータを単位時間毎にフレーム化し、 1フレームについて 2 N個のサンプリングを 行う。 間引き回路 6 5は、 教師データから低域周波数成分だけを抽出し、 その低 域周波数成分を 1つおきに間引くことで生徒データを生成する。 フレーム切り出 し部 6 6は、 生徒データを単位時間毎にフレーム化し、 1フレームについて N個 のサンプリングを行う。
ステップ S 5 2において、 DCT変換部 6 2と DCT変換部 6 7は、 教師データと 生徒データをそれぞれ M-DCT変換する。 図 1 2 Aは、 教師データを M-DCT変換 した後の DCTスペク トルデータを示しており、 図 1 2 Bは、 生徒データを M - DCT 変換した後の DCTスぺク トルデータを示している。 両者を比較して明らかなよ うに、 図 1 2 Bの生徒データの DCTスペク トラムは、 図 1 2 Aの教師データの M - DCTスぺクトラムの低域周波数成分に対応している。
ステップ S 5 3において、 クラス分類部 6 8は、 生徒データのスペク トルに基 づいて、 図 1 3を参照して後述するクラス分類処理を行い、 クラスコードとクラ スの出現頻度を計算し、 積算テーブル 6 9に出力する。
ステップ S 5 4において、 積算テーブル 6 9は、 クラス分類部 6 8が出力した クラスコードに対応するァドレスに格納されているベタ トルデータを読み出す。 ステップ S 5 5において、 高域周波数成分抽出部 6 3は、 DCT変換部 6 2より 入力された教師データの高域周波数成分を抽出する。 図 1 2 Cは、 抽出された高 域周波数成分の DCTスペク トルを示す。 これは、 図 1 2 Aの教師データの DCT スぺク トルの全体のなかの、 高域周波数側の部分 Rに相当する。 ステップ S 5 6において、 加算部 6 4は、 ステップ S 5 4で積算テーブル 6 9 から読み出されたベク トルデータ (図 1 2 Dに示されるデータ) と、 ステップ S 5 5で教師データから抽出された高域周波数成分のベタ トルデータ (図 1 2 Cに 示されるデータ) をベク トル加算する。 図 1 2 Eは、 ステップ S 5 6でベク トル 加算された後の DCTスぺク トルデータを示している。
ステップ S 5 7において、 加算部 6 4は、 ステップ S 5 6で算出したベタ トル データ (図 1 2 Eに示されるデータ) を、 積算テーブル 6 9の読み出した時と同 じクラスコードのァドレスの場所に格納する。
ステップ S 5 8において、 学習処理が終了したか否かが判定される。 学習処理 が終了していないと判断された場合、 処理をステップ S 5 1に戻し、 それ以降の 処理が繰り返される。 学習処理が終了したと判断された場合、 処理をステップ S 5 9に進める。
ステップ S 5 8で学習処理が終了したと判断された場合、 ステップ S 5 9にお いて、 積算テーブル 6 9は、 それぞれのクラスコードのアドレスに有する N個の ベク トルデータを、 クラス分類部 6 8から出力された、 対応するクラスコードの クラス出現頻度で除算して、 ベク トルデータの平均値を算出し、 学習済テーブル 7 0に出力し、 記憶させて学習処理を終了する。 図 1 2 Fは、 学習済テーブル 7 0の 1つのクラスコードのァドレスに格納された N個のベタ トノレデータの例を示 している。
次に、 図 1 3のフローチヤ一トを参照して、 図 1 1のステップ S 5 3のクラス 分類処理について説明する。
ステップ S 7 1乃至ステップ S 7 6の処理は、 図 6の音声広帯域化装置におけ るクラス分類処理のステップ S 2 1乃至ステップ S 2 6と同様であるため、 説明 は省略するが、 これらの処理により、 生徒データの平均パワー値 P AVに基づくク ラスコードと、 最大パワーの一 B nに基づくクラスコードが多重化される。
ステップ S 7 7において、 クラスコード決定部 3 6 (図 2の音声広帯域化装置 1のそれと同様) は、 ステップ S 7 6で決定されたクラスコードのカウントを 1 だけ増やし、 どのクラスコードがどれだけ出現したかというカウント数を積算テ 一ブル 6 9に出力し、 クラス分類処理を終了する。
このように、 音声広帯域化装置 1のクラス分類処理と、 学習装置 5 0のクラス 分類処理は、 クラスコードを算出するまでは同様であり、 その後、 クラス出現頻 度を計算するか否かだけが異なる。
図 1 4は、 本発明の第 2実施の形態である画像信号広帯域化装置の構成例を示 している。 上述の音声信号広帯域化装置 1は、 入力信号が 1次元の音声信号であ り、 フレーム単位で処理を行うのに対して、 画像信号広帯域化装置 8 0は、 入力 信号が 2次元の画像信号であるので、 ブロック (例えば、 8 X 8画素) 単位で処 理を行うこととなる。 図 1 4のブロック切り出し部 9 1、 DCT変換部 9 2、 クラ ス分類部 9 3、 学習済テープル 9 4、 結合部 9 5、 および逆 DCT 変換部 9 6は、 図 1のフレーム切り出し部 1 1、 DCT変換部 1 2、 クラス分類部 1 3、 学習済テ 一ブル 1 4、 スぺク トル結合部 1 6、 および逆 DCT変換部 1 7と基本的に同様 の機能を有するものであるため、 その説明は省略する。 なお、 図 1で示されてい るゲイン調整部 1 5とフレーム結合部 1 8は、 画像信号の場合、 必ずしも必要で ないため省略されている。
図 1 5は、 図 1 4のクラス分類部 9 3の詳細な構成例を示している。
パワー値変換部 1 0 1には、 DCT変換部 9 2より M- DCT変換された DCTデー タが入力される。 入力された DCTデータは、 上述の音声広帯域化装置 1と同様 に、 パワー値に変換され、 さらにパワーのデシベル値に変換されて、 量子化部 1 0 2に出力される。
量子化部 1 0 2は、 DCTプロック内の DCTデータについて、 直流成分のパワー 値と、 交流成分の平均パワー値、 交流成分のピーク値を取る DCTデータの位置 を算出し、 それらに基づくクラスコードを生成して、 クラスコード決定部 1 0 3 に出力する。 クラスコード決定部 1 0 3は、 入力された DCTプロックの量子化データに基 づくクラスコードを多重化して、 1つのクラスコードとし、 学習済テーブル 9 4 (図 1 4 ) に出力し、 記憶させる。
次に、 画像広帯域化装置 8 0の画像広帯域化処理について説明するが、 フロー チャートは、 図 3の音声広帯域化装置 1のそれと同様であるので、 図 3のフロー チャートを引用して説明する。
ステップ S 1において、 ブロック切り出し部 9 1は、 画像信号広帯域化装置 8 0に入力された高域周波数成分の抑圧された画像信号をプロック単位 (例えば、 2 2画素) に切り出す。
ステップ S 2において、 0 ^変換部9 2は、 ステップ S 1でブロック化された 画像信号を M-DCT変換する。 図 1 6 Aは、 1つのブロックの画像信号が M-DCT 変換されたデータ (以下、 DCTデータと称する) を示している。
ステップ S 3において、 クラス分類部 9 3は、 図 1 7を参照して後述するクラ ス分類処理を行い、 クラスコードを算出する。
ステップ S 4において、 学習済テーブル 9 4は、 ステップ S 3でクラス分類部 9 3から出力されたクラスコードに対応するァドレスに格納されている DCT係 数のベクトルデータを読み出す。 図 1 6 Bは、 このとき読み出された高域周波数 成分の DCT係数のべクトルデータを示している。
ステップ S 5において、 結合部 9 5は、 画像信号広帯域化装置 8 0に入力され た低域周波数成分の DCTデータ (図 1 6 A ) と、 学習済テーブル 9 4から読み 出された高域周波数成分の DCTデータ (図 1 6 B ) をベク トル加算する。 図 1 6 Cは、 結合された DCTプロックデータを示している。
ステップ S 6において、 逆1)(^変換部9 6は、 結合された DCTデータを逆 M - DCT変換する。
ステップ S 7のオーバーラップ処理は、 上述したように画像信号の場合、 必ず しも行う必要はないので、 ステップ S 7の処理を行わず画像信号広帯域化処理を 終了する。 次に、 図 1 7のフローチャートを参照して、 クラス分類部 9 3が行うクラス分 類処理について説明する。
ステップ S 9 1において、 パワー値変換部 1 0 1は、 DCT変換部 9 2より入力 された DCT データをパワー値に変換し、 さらにパワーのデシベル値に変換する。 この処理は、 上述の音声信号の場合と同様である。
ステップ S 9 2において、 量子化部 1 0 2は、 DCTプロックデータの交流平均 パワー値と直流パワー値を算出し、 交流成分ピークパワー位置を検出する。 例え ば、 図 1 8に示されるような 4 X 4画素の DCTブロック B Lが入力され、 それ ぞれの画素の DCTデータは、 c[n]で、 そのパワーの範囲は、 0乃至 1 2 7 [dB] とする。 交流平均パワー値は、 図 1 8の領域 AC内の DCTデータ c[l]乃至 c[15]の平均値であり、 直流パワー値は、 図 1 8の領域 DC内の DCTデータ c[0]の値である。 また、 交流成分ピークパワー位置は、 DCTデータ c[l]乃至 c[15]のうちの、 パワー値が最大である n (1乃至 1 5のいずれか) となる。
ステップ S 9 3において、 クラス分類部 9 3は、 ステップ S 9 2で求められた 3つの値に基づくクラスコードを、 1つのクラスコードとして多重化し、 学習済 テーブル 9 4に出力してクラス分類処理を終了する。 クラスコードは、 上述の例 の場合、 交流平均パワー値に基づくクラスの数 1 2 8通り、 直流パワー値に基づ くクラスの数 1 2 8通り、 交流成分ピークパワー位置に基づくクラスの数 1 5通 りであるので、 合わせて 1 2 8 x 1 2 8 x 1 5 = 24 5 7 6 0通りのうちのいず れかとなる。
図 1 9は、 画像信号広帯域化装置 8 0の学習済テーブル 94に書き込まれる、 クラスコード毎に記憶された高域周波数成分のベタトルデータを生成する学習装 置 1 2 0の構成例である。 図 1 9のプロック切り出し部 1 3 1、 DCT変換部 1 3 2、 高域周波数成分抽出部 1 3 3、 加算部 1 34、 間引き回路 1 3 5、 プロック 切り出し部 1 3 6、 DCT変換部 1 3 7、 クラス分類部 1 3 8、 および積算テープ ノレ 1 3 9は、 図 1 0のフレーム切り出し部 6 1、 DCT変換部 6 2、 高域周波数抽 出部 6 3、 加算部 6 4、 間引き回路 6 5、 フレーム切り出し部 6 6、 DCT変換部 6 7、 クラス分類部 6 8、 および積算テーブル 6 9と基本的に同様の構成と機能 を有するのもであるため、 その説明は省略する。
次に、 学習装置 1 2 0の学習処理について説明するが、 フローチャートは、 図 1 1の音声広帯域化装置 1のそれと同様であるので、 図 1 1のフローチャートを 引用して説明する。
ステップ S 5 1において、 教師データの DCTデータと生徒データの DCTデー タがプロックに切り出される。 すなわち、 プロック切り出し部 1 3 1は、 入力さ れた教師データを、 2 N X 2 N画素毎にブロック化する。 間引き回路 1 3 5は、 教師データから、 低域周波数成分だけを抽出し、 その低域周波数成分を、 水平方 向と垂直方向のそれぞれにおいて、 1つおきに間引くことで、 生徒データを生成 する。 ブロック切り出し部 1 3 6は、 生徒データを N X N画素毎にブロック化す る。
ステップ S 5 2において、 DCT変換部 1 3 2と DCT変換部 1 3 7は、 教師デー タと生徒データをそれぞれ M-DCT変換する。 図 2 O Aは、 教師データを M - DCT 変換した後の DCTデータ (4 X 4個のデータ) を示しており、 図 2 0 Bは、 生 徒データを M- DCT変換した後の DCT データ (2 X 2個のデータ) を示している。 ステップ S 5 3において、 クラス分類部 1 3 8は、 生徒データとしての DCT データに対して図 2 1を参照して後述するクラス分類処理を行い、 クラスコード とクラスの出現頻度を算出し、 積算テーブル 1 3 9に出力する。
ステップ S 5 4において、 積算テーブル 1 3 9は、 クラス分類部 1 3 8が出力 したクラスコードに対応するァドレスに格納されているベタトルデータを読み出 す。
ステップ S 5 5において、 高域周波数成分抽出部 1 3 3は、 教師データの高域 周波数成分を抽出する。 図 2 0 Cは、 抽出された高域周波数成分を示し、 これは、 図 2 0 Aの教師データの全体のなかの部分 P ( 4 X 4画素のうち、 左上の 2 X 2 画素を除く部分) に相当する。 ステップ S 5 6において、 加算部 1 3 4は、 ステップ S 5 4で積算テーブル 1
3 9から読み出されたベクトルデータ (図 2 O Dに示されるデータ) と、 ステツ プ S 5 5で教師データから抽出された高域周波数成分のベタトルデータ (図 2 0 Cに示されるデータ) をベク トル加算する。 図 2 0 Eは、 ステップ S 5 6でべク トル加算された後の DCTデータを示している。
ステップ S 5 7において、 加算部 1 3 4は、 ステップ S 5 6で算出したべクト ルデータ (図 2 0 Eに示されるデータ) を、 積算テーブル 1 3 9の読み出した時 と同じクラスコードのァドレスの場所に格納する。
ステップ S 5 8において、 学習処理が終了したか否かが判定される。 学習処理 が終了していないと判断された場合、 処理をステップ S 5 1に戻し、 それ以降の 処理が繰り返される。 学習処理が終了したと判断された場合、 処理をステップ s
5 9に進める。
ステップ S 5 8で学習処理が終了したと判断された場合、 ステップ S 5 9にお いて、 積算テーブル 1 3 9は、 それぞれのクラスコードのアドレスに有する (3 N X N) 個のベクトルデータを、 クラス分類部 1 3 8から出力された対応するク ラスコードのクラス出現頻度で除算して、 ベクトルデータの平均値を算出し、 学 習済テーブル 1 4 0に出力して処理を終了する。 図 2 O Fは、 学習済テーブル 1
4 0の 1つのクラスコードのアドレスに格納された (3 N X N) 個のベク トルデ ータを DCTプロックとして示したものである。
次に、 図 2 1のフローチヤ一トを参照して、 図 1 9のクラス分類部 1 3 8が行 うクラス分類処理について説明する。
ステップ S 1 0 1乃至ステップ S 1 0 3の処理は、 図 1 7の画像信号広帯域化 装置におけるクラス分類処理のステップ S 9 1乃至ステップ S 9 3と同様である ため、 その説明は省略する。 すなわち、 クラスコードを算出する処理は、 画像信 号広帯域化装置と同様に行われる。 この処理により、 交流平均パワー値、 直流パ ヮー値、 および交流成分ピークパワー位置に基づくクラスコードが 1つのクラス コードとして多重化される。 ステップ S 1 04において、 クラスコード決定部 1 0 3は、 ステップ S 1 0 3 で決定されたクラスコードのカウントを 1だけ増やし、 どのクラスコードがどれ だけ出現したかというカウント数を積算テーブル 1 3 9に出力し、 クラス分類処 理を終了する。
図 2 2は、 本発明を適用した第 3実施の形態の伝送システム (システムとは、 複数の装置が論理的に集合した物をいい、 各構成の装置が同一筐体中にあるか否 かは問わない) の構成を示している。
この伝送システムでは、 携帯電話機 30 と 3 0 12が、 基地局 3 0 2iと 3 0 22それぞれとの間で、 無線による送受信を行うとともに、 基地局 3 0 2tと 3 0 22それぞれが、 交換局 3 0 3との間で送受信を行うことにより、 最終的には、 携帯電話機 3 0 と 3 0 12との間において、 基地局 3 0 2 および 3 0 22、 並 びに交換局 3 0 3を介して、 音声の送受信を行うことができるようになっている。 なお、 基地局 3 0 2iと 3 0 22は、 同一の基地局であっても良いし、 異なる基地 局であっても良い。
ここで、 以下、 特に区別する必要がない限り、 携帯電話機 3 0 3^と 30 12を、 携帯電話機 3 0 1と記述する。
図 2 3は、 図 2 2の携帯電話機 3 0 の構成例を示している。 なお、 携帯電 話機 3 0 12も、 以下説明する携帯電話機 3 0 1^と同様に構成されるため、 その 説明は省略する。
アンテナ 3 1 1は、 基地局 3 0 2Lまたは 3 0 22からの電波を受信し、 その受 信信号を、 変復調部 3 1 2に供給するとともに、 変復調部 3 1 2からの信号を、 電波で、 基地局 3 0 2iまたは 3 0 22に送信する。 変復調部 3 1 2は、 アンテナ 3 1 1力 らの信号を、 例えば、 CDMA (Code Division Multiple Access)方 式等によって復調し、 その結果得られる復調信号を、 受信部 3 1 4に供給する。 また、 変復調部 3 1 2は、 送信部 3 1 3から供給される送信データを、 例えば、 CDMA方式等で変調し、 その結果得られる変調信号を、 アンテナ 3 1 1に供給 する。 送信部 3 1 3は、 そこに入力されるユーザの音声を符号化する等の所定の 処理を行い、 送信データを得て、 変復調部 3 1 2に供給する。 受信部 3 1 4は、 変復調部 3 1 2からの復調信号である受信データを受信し、 高音質の音声を復号 して出力する。
操作部 3 1 5は、 発呼先の電話番号や、 所定のコマンド等を入力するときに、 ユーザによって操作され、 その操作に対応する操作信号は、 送信部 3 1 3や受信 部 3 1 4に供給される。
なお、 送信部 3 1 3と受信部 3 1 4との間では、 必要に応じて情報をやりとり することができるようになつている。
図 2 4は、 図 2 3の送信部 3 1 3の構成例を示している。
マイクロホン 3 2 1には、 ユーザの音声が入力され、 マイクロホン 3 2 1は、 そのユーザの音声を、 電気信号としての音声信号として、 A/ D
(Analog/Digital)変換部 3 2 2に出力する。 / 0変換部3 2 2は、 マイクロ ホン 3 2 1からのアナログの音声信号を AZD変換することにより、 デジタルの 音声データとし、 符号化部 3 2 3に出力する。
符号化部 3 2 3は、 A/D変換部 3 2 2からの音声データを所定の符号化方式 によって符号化するとともに、 クラスコードを多重化し、 その結果得られる符号 化音声データを、 送信制御部 3 2 4に出力する。
管理部 3 2 7は、 操作部 3 1 5が操作されることによって入力される、 発信先 の電話番号や発信元である自身の電話番号、 その他の必要な情報を、 必要に応じ て管理し、 符号化部 3 2 3と送信制御部 3 2 4に出力する。
送信制御部 3 2 4は、 符号化部 3 2 3が出力する符号化音声データと、 管理部 3 2 7が出力するデータの送信制御を行う。 即ち、 送信制御部 3 2 4は、 符号化 部 3 2 3が出力する符号化音声データ、 または管理部 3 2 7が出力するデータを 選択し、 所定の送信タイミングにおいて、 送信データとして、 変復調部 3 1 2 (図 2 3 ) に出力する。
図 2 5は、 図 2 3の受信部 3 1 4の構成例を示している。 図 2 3の変復調部 3 1 2が出力する復調信号としての受信データは、 受信制御 部 3 3 1に供給され、 受信制御部 3 3 1は、 その受信データを受信する。 そして、 受信制御部 3 3 1は、 受信データが符号化音声データである場合には、 その符号 化音声データを、 復号部 3 3 2に供給する。 あるいは、 その受信データが、 発信 元の電話番号その他の情報である場合には、 受信制御部 3 3 1は、 そのような情 報を、 必要に応じて、 管理部 3 3 5や、 送信部 3 1 3 (の管理部 3 2 7 ) に供給 する。
復号部 3 3 2は、 受信制御部 3 3 1から供給される符号化音声データを、 クラ スコードと分離し、 また、 高域周波数成分を付加し、 その結果得られる復号音声 データを、 D Z A (Di gital/Analog)変換部 3 3 3に供給する。
D /A変換部 3 3 3は、 復号部 3 3 2が出力するデジタルの復号音声データを D /A変換し、 その結果得られるアナログの音声信号を、 スピーカ 3 3 4に供給 する。 スピーカ 3 3 4は、 D ZA変換部 3 3 3からの音声信号に対応する音声を 出力する。
管理部 3 3 5は、 着呼時に、 受信制御部 3 3 1から、 発信元の電話番号を受信 し、 その電話番号を復号部 3 3 2に供給する。
図 2 6と図 2 7は、 学習済テーブルが固定の情報として与えられる場合の符号 化部 3 2 3と復号部 3 3 2の構成例を示している。
初めに、 図 2 6の符号化部 3 2 3の構成について説明する。
フレーム切り出し部 3 5 1と DCT変換部 3 5 2の機能は、 図 1の音声広帯域 化装置 1のフレーム切り出し部 1 1と DCT 変換部 1 2のそれと同様であるので、 その説明は省略する。
高域周波数成分除去部 3 5 3は、 入力された DCTスぺク トルデータの高域周 波数成分を除去して生成した低域周波数成分を、 クラス分類部 3 5 4とクラスコ ード多重化部 3 5 5に出力する。 圧縮率は、 高域周波数成分の除去率に依存し、 例えば、 帯域を半分に圧縮すれば 1/2のデータ量となるが、 これに後述するク ラスコード多重化部 3 5 5において多重化されるクラスコードの数ヮード分を付 加したものが最終的なデータ量となる。
クラス分類部 3 5 4は、 高域周波数成分除去部 3 5 3から入力された低域周波 数成分の DCTスぺク トルデータに対して、 音声広帯域化装置 1のクラス分類部 1 3における場合と同様のクラス分類処理を施し、 クラスコードをクラスコード 多重化部 3 5 5に出力する。
クラスコード多重化部 3 5 5は、 クラス分類部 3 5 4から出力されたクラスコ ードと、 高域周波数成分除去部 3 5 3から出力された低域周波数成分の DCTス ぺクトルデータを多重化し、 逆 DCT変換部 3 5 6に出力する。 クラスコードを 低域周波数成分の DCTスペクトルデータと多重化することで、 クラスコードの 符号伝送路でのエラー耐性を高めることが可能であるとともに、 後述する復号部 3 3 2 (図 2 7 ) において、 再度クラス分類処理を行って求められたクラスコー ドと、 多重化されたクラスコードの一致度を調べることにより、 多重化されたク ラスコードのエラー検出や修正を行うことも可能である。
逆1)(^変換部3 5 6は、 入力されたクラスコードと低域周波数成分の DCTス ぺクトルデータが多重化されたデータを逆 M-DCT変換し、 フレーム結合部 3 5 7に出力する。
フレーム結合部 3 5 7は、 音声広帯域化装置 1のフレーム結合部 1 8における 場合と同様のフレームオーバーラップの処理を施し、 符号化音声データとして送 信制御部 3 2 4 (図 2 4 ) に出力する。
次に、 図 2 7の復号部 3 3 2の構成について説明する。
フレーム切り出し部 3 7 1と DCT変換部 3 7 2は、 図 1の音声広帯域化装置 1のフレーム切り出し部 1 1と DCT変換部 1 2と同様の機能を有するものであ るので、 その説明は省略する。
クラスコード分離部 3 7 3は、 多重化された DCTスペク トルデータを、 クラ スコードと、 低域周波数成分の DCTスぺク トルデータに分離し、 低域周波数成 分の DCTスぺク トルデータをスぺクトル結合部 3 7 6に出力し、 クラスコード を学習済テーブル 3 7 4に出力する。
学習済テーブル 3 7 4は、 クラスコード分離部 3 7 3が出力したクラスコード に対応するァドレスに格納されている高域周波数成分の DCTスぺクトルデータ を読み出し、 ゲイン調整部 3 7 5に出力する。
ゲイン調整部 3 7 5は、 音声広帯域化装置 1のゲイン調整部 1 5と同様に、 ス ぺクトル結合部 3 7 6で結合される低域周波数成分スぺクトルのゲインと合うよ うに、 学習済テーブル 3 7 4から出力された高域周波数成分のスぺク トルをゲイ ン調整し、 スぺク トル結合部 3 7 6に出力する。
スペクトル結合部 3 7 6は、 クラスコード分離部 3 7 3から出力された低域周 波数成分の DCTスぺク トルデータと、 ゲイン調整部 3 7 5から出力された高域 周波数成分の DCT スぺクトルデータを結合し、 逆 DCT変換部 3 7 7に出力する。 逆 DCT変換部 3 7 7は、 入力されたスぺク トルデータの逆 M- DCT変換を行い、 フレーム結合部 3 7 8に出力する。
フレーム結合部 3 7 8は、 フレームオーバーラップの処理を行い、 広帯域な音 声信号として、 D/A変換部 3 3 3に出力する。
一方、 図 2 8と図 2 9は、 高域周波数成分のスペク トルデータを蓄積する学習 済テーブルが発信元の電話番号ごとに対応付けて記憶され、 使用するたびに通話 者に対するテーブル情報を更新するようにした場合の、 符号化部 3 2 3と復号部 3 3 2の構成例を示している。 なお、 図中、 図 2 6と図 2 7における場合と対応 する部分については、 同一の符号を付してあり、 以下では、 その説明は、 省略す る。
初めに、 図 2 8の符号化部 3 2 3の構成について説明する。
スぺク トル分割部 3 8 1は、 入力された DCTスぺク トルデータを、 高域周波 数成分と低域周波数成分に分割し、 高域周波数成分をテーブルメモリ 3 8 2に出 力し、 低域周波数成分をクラス分類部 3 5 4とクラスコード多重化部 3 5 5に出 力する。 クラス分類部 3 5 4は、 クラスコードを算出し、 そのクラスコードをテーブル メモリ 3 8 2とクラスコード多重化部 3 5 5に出力する。
テーブルメモリ 3 8 2は、 クラス分類部 3 5 4が出力したクラスコードに対応 するァドレスに、 スぺク トル分割部 3 8 1より入力された高域周波数成分の DCT スペク トルデータを格納する。 このテーブルメモリの内容は、 所定のタイミング において、 後述する復号部 3 3 2のテーブルメモリ 3 9 1 (図 2 9 ) に転送され る。
以上のように構成される符号化部 3 2 3においては、 通話がなされるたびに、 テーブルメモリ 3 8 2に、 通話者ごとの高域周波数成分のスぺクトルデータが蓄 積されていくこととなる。 テーブルメモリ 3 8 2の内容は、 一種の統計情報であ るため、 情報を入力すればするほど、 クラスコード単位で適切な偏りに収束して いくことが予想され、 この効果により、 使用回数が増えていくと、 より高精度な 復号がなされるようになっていくことになる。 図 2 8のその他の構成は、 図 2 6 における場合と同様である。
次に、 図 2 9の復号部 3 3 2の構成について説明する。
テープルメモリ 3 9 1は、 クラスコード分離部 3 7 3が出力したクラスコード に対応するァドレスとして指定された位置に格納されている高域周波数成分の DCTスぺク トルデータを読み出し、 ゲイン調整部 3 7 5に出力する。
以下において、 図 2 8と図 2 9の構成で示される、 学習済テーブルが発信元の 電話番号に対応付けて記憶され、 所定のタイミングで更新される場合の携帯電話 機 3 0 1の動作について説明する。
初めに、 図 3 0のフローチャートを参照して、 発信元である携帯電話機 3 0 1 λの送信部 3 1 3が行う送信処理について説明する。
ステップ S 2 0 1で、 ユーザが、 操作部 3 1 5 (図 2 3 ) を操作して、 着信側 としての携帯電話機 3 0 1 2の電話番号を入力すると、 管理部 3 2 7は、 通話の 開始を検出する。 ステップ S 2 0 2で、 送信部 3 1 3は、 図 3 1を参照して後述するメモリデー タ送信処理を行う。 すなわち、 送信部 3 1 3は、 テーブルメモリ 3 8 2 (図 2 8 ) に記憶された高域周波数成分スペク トルの DCTベク トルデータを、 着信側 の携帯電話機 3 0 1 2のテーブルメモリ 3 9 1 (図 2 9 ) に送信し、 音声通話に 切り換える。
ステップ S 2 0 3で、 マイクロホン 3 2 1は、 ユーザの音声を入力する。
ステップ S 2 0 4で、 A/D変換部 3 2 2は、 マイクロホン 3 2 1から入力され た音声信号を A/D変換し、 デジタルの音声信号として、 符号化部 3 2 3に出力 する。
ステップ S 2 0 5で、 符号化部 3 2 3は、 符号化処理を行う。 その詳細は、 図 3 2を参照して後述するが、 この処理により、 A/D変換部 3 2 2より入力された 音声信号が、 高域周波数成分と低域周波数成分に分割される。 そして、 高域周波 数成分は、 テーブルメモリ 3 8 2に記憶され、 低域周波数成分は、 クラスコード と多重化されて、 符号化音声データとして、 送信制御部 3 2 4に出力される。 ステップ S 2 0 6で、 送信制御部 3 2 4は、 符号化部 3 2 3から入力された符 号化音声データを変復調部 3 1 2 (図 2 3 ) に送信する。
ステップ S 2 0 7で、 管理部 3 2 7は、 通話が終了したか否かを判定する。 通 話が終了していないと判定された場合、 管理部 3 2 7は、 処理をステップ S 2 0 3に戻し、 それ以降の処理が繰り返される。 通話が終了したと判定された場合、 管理部 3 2 7は、 送信処理を終了する。
次に、 図 3 1のフローチャートを参照して、 図 3 0のステップ S 2 0 2におけ る、 メモリデータ送信処理について説明する。
ステップ S 2 2 1において、 送信制御部 3 2 4が、 操作部 3 1 5が操作される ことにより入力された携帯電話機 3 0 1 2の電話番号を、 送信データとして出力 することにより、 携帯電話機 3 0 1 2の呼び出しが行われる。
そして、 携帯電話機 3 0 1 2のユーザが、 携帯電話機 3 0 からの呼び出しに 応じて、 操作部 3 1 5を操作することにより、 携帯電話機 3 0 1 2をオフフック 状態にすると、 ステップ S 2 2 2に進み、 送信制御部 3 2 4は、 着信側の携帯電 話機 3 0 1 2との間の通信リンクを確立し、 ステップ S 2 2 3に進む。
ステップ S 2 2 3では、 管理部 3 2 7は、 符号化部 3 2 3のテーブルメモリ 3 8 2に記憶されているデータを読み出し、 送信制御部 3 2 4に供給する。 さらに、 ステップ S 2 2 3では、 送信制御部 3 2 4が、 管理部 3 2 7からのメモリデータ を選択し、 送信データとして送信する。 なお、 メモリデータは、 そのメモリデー タが学習によって得られた日時を表す更新情報とともに送信される。
その後、 ステップ S 2 2 3から S 2 2 4に進み、 管理部 3 2 7は、 準備完了通 知が、 着信側の携帯電話機 3 0 1 2から送信されてきたかどうかを判定する。
即ち、 着信側の携帯電話機 3 0 1 2は、 通常の音声通話が可能な状態になると、 音声通話の準備が完了したことを表す準備完了通知を送信するようになっており (後述する図 3 4のステップ S 2 7 7 ) 、 ステップ S 2 2 4では、 そのような準 備完了通知が、 携帯電話機 3 0 1 2から送信されてきたかどうかが判定される。 ステップ S 2 2 4において、 準備完了通知が送信されてきていないと判定され た場合、 ステップ S 2 2 4に戻り、 準備完了通知が送信されてくるまで待つ。 そして、 ステップ S 2 2 4において、 準備完了通知が送信されてきたと判定さ れた場合、 ステップ S 2 2 5に進み、 送信制御部 3 2 4は、 符号化部 3 2 3の出 力を選択することにより、 音声通話が可能な状態となって、 メモリデータ送信処 理を終了する。
次に、 図 3 2のフローチャートを参照して、 図 3 0のステップ S 2 0 5におけ る、 符号化処理について説明する。
ステップ S 2 3 1において、 フレーム切り出し部 3 5 1は、 A/D変換部 3 2 2 より入力された音声信号をフレーム化する。 ここで入力される音声信号は、 高域 周波数成分と低域周波数成分の両方を有している。
ステップ S 2 3 2において、 DCT変換部 3 5 2は、 ステップ S 2 3 1でフレー ム化された音声信号を M-DCT変換し、 DCTスぺク トルデータとして、 スぺク トル 分割部 3 8 1に出力する。 ステップ S 2 3 3において、 スぺク トル分割部 3 8 1は、 DCTスぺク トルデー タを、 高域周波数成分と低域周波数成分に分割し、 高域周波数成分をテーブルメ モリ 3 8 2に出力し、 低域周波数成分をクラス分類部 3 5 4に出力する。
ステップ S 2 3 4において、 クラス分類部 3 5 4は、.クラス分類処理により、 クラスコードを決定し、 クラスコード多重化部 3 5 5とテーブルメモリ 3 8 2に 出力する。 ここにおけるクラス分類処理は、 図 6において上述した音声広帯域化 装置 1のクラス分類処理と同様であるため、 その説明は省略する。
ステップ S 2 3 5において、 テーブルメモリ 3 8 2は、 クラス分類部 3 5 4が 出力したクラスコードに対応するァドレスに、 スぺク トル分割部 3 8 1から入力 された高域周波数成分の DCTスぺク トルデータを格納する。
ステップ S 2 3 6において、 クラスコード多重化部 3 5 5は、 クラス分類部 3 5 4から入力されたクラスコードと、 スぺクトル分割部 3 8 1から入力された低 域周波数成分の DCTスぺクトルデータを多重化し、 逆 DCT変換部 3 5 6に出力 する。
ステップ S 2 3 7において、 逆0(^変換部3 5 6は、 多重化された低域周波 数成分の DCTスペク トルデータを逆 DCT変換する。
最後に、 ステップ S 2 3 8において、 フレーム結合部 3 5 7は、 オーバーラッ プの処理を施し、 符号化音声データを作成する。
次に、 以上の送信側である携帯電話機 3 0 が行う図 3 0の送信処理に対応 して、 着信側である携帯電話機 3 0 1 2の受信部 3 1 4が行う受信処理について、 図 3 3を参照して説明する。
ステップ S 2 5 1において、 管理部 3 3 5は、 受信制御部 3 3 1を介して電波 の受信を検知する。
ステップ S 2 5 2において、 受信部 3 1 4は、 図 3 4を参照して後述するメモ リデータ更新処理を行う。 すなわち、 受信部 3 1 4は、 テーブルメモリ 3 9 1 (図 2 9 ) に記憶された高域周波数成分スぺク トルの DCTべク トルデータを更 新し、 音声通話 (符号化音声データ) に切り換える。 ステップ S 2 5 3において、 受信制御部 3 3 1に入力される受信データが、 符 号化音声データに切り換えられると、 受信制御部 3 3 1は、 その符号化音声デー タを復号部 3 3 2に出力する。
ステップ S 2 5 4において、 復号部 3 3 2は、 復号処理を行う。 その詳細は、 図 3 5を参照して後述するが、 この処理により、 復号部 3 3 2は、 クラスコード が多重化された符号化音声データを、 クラスコードと低域周波数成分に分離し、 クラスコードに対応するアドレスに記憶された高域周波数成分を読み出し、 低域 周波数成分と結合して、 広帯域な音声信号として出力する。
ステップ S 2 5 5において、 D/A変換部 3 3 3は、 復号部 3 3 2より入力され た広帯域な音声信号を D/A変換し、 スピーカ 3 3 4に出力する。
ステップ S 2 5 6において、 スピーカ 3 3 4は、 D/A変換部 3 3 3より入力さ れたアナ口グの音声信号を出力する。
ステップ S 2 5 7において、 管理部 3 3 5は、 通話が終了したか否かを判定す る。 通話が終了していないと判定された場合、 管理部 3 3 5は、 処理をステップ S 2 5 3に戻し、 それ以降の処理が繰り返される。 通話が終了したと判定された 場合、 管理部 3 3 5は、 受信処理を終了する。
次に、 図 3 4のフローチヤ一トを参照して、 図 3 3のステップ S 2 5 2におけ るメモリデータ更新処理について説明する。
ステップ S 2 7 1において、 受信制御部 3 3 1は、 ユーザが操作部 3 1 5を操 作することによりオフフック状態としたかどうかを判定し、 オフフック状態とさ れていないと判定した場合、 ステップ S 2 7 1に戻る。
また、 ステップ S 2 7 1において、 オフフック状態にされたと判定された場合、 ステップ S 2 7 2に進み、 受信制御部 3 3 1は、 通信リンクを確立し、 ステップ S 2 7 3に進む。 ステップ S 2 7 3では、 受信制御部 3 3 1は、 発信側の携帯電 話機 3 0 から送信されてくる最新のメモリデータを含む受信データを受信し、 管理部 3 3 5に供給する。 即ち、 図 3 1のメモリデータ送信処理では、 上述したように、 ステップ S 2 2 3において、 携帯電話機 3 0 が、 最新のメモリデータを、 更新情報とともに 送信してくるので、 ステップ S 2 7 3では、 そのメモリデータと更新情報が受信 される。
その後、 ステップ S 2 7 4に進み、 管理部 3 3 5は、 発信側の携帯電話機 3 0 1^から受信した更新情報を参.照し、 復号部 3 3 2に、 発信側の携帯電話機 3 0 1!のユーザについての最新のメモリデータが記憶されているかどうかを判定す る。
ステップ S 2 7 4において、 復号部 3 3 2に、 発信側の携帯電話機 3 0 1 の ユーザについての最新のメモリデータが既に記憶されていると判定された場合、 ステップ S 2 7 5に進み、 管理部 3 3 5は、 ステップ S 2 7 3で受信したメモリ データと更新情報を破棄し、 ステップ S 2 7 7に進む。
また、 ステップ S 2 7 4において、 復号部 3 3 2に、 発信側の携帯電話機 3 0 のユーザについての最新のメモリデータがまだ記憶されていないと判定され た場合、 ステップ S 2 7 6に進み、 管理部 3 3 5は、 ステップ S 2 7 3で得た最 新のメモリデータを、 着呼時に受信した発信側の携帯電話機 3 0 の電話番号、 さらには、 そのメモリデータとともに送信されてきた更新情報と対応付けて、 復 号部 3 3 2に記憶させることにより、 復号部 3 3 2のテーブルメモリ 3 9 1の內 容を更新する。
そして、 ステップ S 2 7 7に進み、 管理部 3 3 5は、 送信部 3 1 3の送信制御 部 3 2 4を制御することにより、 音声通話の準備が完了したことを表す準備完了 通知を、 送信データとして送信させ、 ステップ S 2 7 8に進む。
ステップ S 2 7 8では、 受信制御部 3 3 1は、 そこに供給される受信データに 含まれる符号化音声データを復号部 3 3 2に出力する、 音声通話が可能な状態と なって、 メモリデータ更新処理を終了する。
次に、 図 3 5を参照して、 図 3 3のステップ S 2 5 4における復号処理につい て説明する。 ステップ S 2 9 1において、 フレーム切り出し部 3 7 1は、 受信制御部 3 3 1 より入力された符号化音声データをフレーム化する。
ステップ S 2 9 2において、 DCT変換部 3 7 2は、 ステップ S 2 9 1でフレー ム化された符号化音声データを M-DCT変換し、 DCTスペク トルデータとして、 ク ラスコード分離部 3 7 3に出力する。
ステップ S 2 9 3において、 クラスコード分離部 3 7 3は、 DCTスぺク トルデ ータを、 クラスコードと低域周波数成分に分離し、 クラスコードをテーブルメモ リ 3 9 1に出力し、 低域周波数成分をスぺクトル結合部 3 7 6に出力する。
ステップ S 2 9 4において、 テーブルメモリ 3 9 1は、 クラスコード分離部 3 7 3が出力したクラスコードに対応するァドレスに記憶されている高域周波数成 分の DCTスぺク トルデータをゲイン調整部 3 7 5に出力する。
ステップ S 2 9 5において、 スペク トル結合部 3 7 6は、 ゲイン調整部 3 7 5 においてゲイン調整されて入力された高域周波数成分と、 クラスコード分離部 3 7 3から入力された低域周波数成分をスぺク トル結合し、 逆 DCT変換部 3 7 7 に出力する。
ステップ S 2 9 6において、 逆 DCT変換部 3 7 7は、 結合された DCTスぺク トルデータを逆 DCT変換する。
最後に、 ステップ S 2 9 7において、 フレーム結合部 3 7 8は、 オーバーラッ プの処理を施し、 広帯域なデジタルの音声信号として D/A変換部 3 3 3 (図 2 5 ) に出力する。
図 3 4のメモリデータ更新処理によれば、 着信側の携帯電話機 3 0 1 2におい て、 発信側の携帯電話機 3 0 のユーザについての最新のメモリデータが記憶 されていない限り、 必ず、 記憶内容が更新されることになる。
しかしながら、 これに限らず、 ユーザが必要な時だけメモリデータの更新を要 求し、 その要求がオンされたときだけ、 上述の更新処理を行うようにしてもよい c また、 本実施の形態では、 着信側において、 着呼時に、 発信側から送信されて くる電話番号を、 発信側を特定する特定情報とするようにしたが、 その他、 例え ば、 ユーザ等に、 ユニークな I D (Identification) を割り当てておき、 その I Dを特定情報として用いることも可能である。
以上に、 学習済テーブルが発信元の電話番号に対応付けて記憶され、 所定のタ イミングで更新される場合について説明したが、 図 2 6と図 2 7における、 学習 済テーブル 3 7 4 (テーブルメモリ) が固定の場合の動作は、 図 3 0のステップ S 2 0 2におけるメモリデータ送信処理 (図 3 1に示される処理) と、 図 3 3の ステップ S 2 5 2におけるメモリデータ更新処理 (図 3 4に示される処理) が省 略された場合と同様である。
上述した一連の処理は、 ハードウェアにより行うこともできるし、 ソフ トゥェ ァにより行うこともできる。 一連の処理をソフトウェアによって行う場合には、 そのソフトウエアを構成するプログラムが、 汎用のコンピュータ等にィンストー ノレされる。
そこで、 図 3 6は、 上述した一連の処理を実行するプログラムがインス トール されるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードデイス ク 4 0 5や R O M 4 0 3に予め記録しておくことができる。
あるいはまた、 プログラムは、 フレキシブノレディスク、 CD- ROM (Compact Disc
Read Only Memory) , M0 (Magneto optical)アイスク, DVD (Digital Versatile
Disc) , 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 4 1 1に、 一 時的あるいは永続的に格納 (記録) しておくことができる。 このようなリムーバ ブル記録媒体 4 1 1は、 いわゆるパッケージソフトウェアとして提供することが できる。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 4 1 1からコンビ ユータにインス トールする他、 ダウンロードサイ トから、 デジタル衛星放送用の 人工衛星を介して、 コンピュータに無線で転送したり、 LAN (Local Area
Network) インターネッ トといったネットワークを介して、 コンピュータに有 線で転送し、 コンピュータでは、 そのようにして転送されてくるプログラムを、 通信部 4 0 8で受信し、 内蔵するハードディスク 4 0 5にインストールすること ができる。
コンピュータは、 CPU (Central Proces sing Unit) 4 0 2を内蔵している。
CPU 4 0 2には、 バス 4 0 1を介して、 入出力インタフェース 4 1 0が接続され ており、 CPU 4 0 2は、 入出力インタフェース 4 1 0を介して、 ユーザによって、 キーボードや、 マウス、 マイク等で構成される入力部 4 0 7が操作等されること により指令が入力されると、 それにしたがって、 ROM (Read Only Memory) 4 0 3に格納されているプログラムを実行する。 あるいは、 また、 CPU 4 0 2は、 ハードディスク 4 0 5に格納されているプログラム、 衛星若しくはネットワーク から転送され、 通信部 4 0 8で受信されてハードディスク 4 0 5にインス トール されたプログラム、 またはドライブ 4 0 9に装着されたリムーバブル記録媒体 4 1 1から読み出されてハードディスク 4 0 5にィンストールされたプログラムを、 RAM (Random Access Memory) 4 0 4にロードして実行する。 これにより、 CPU 4 0 2は、 上述したフローチャートにしたがった処理、 あるいは上述したブロック 図の構成により行われる処理を行う。 そして、 CPU 4 0 2は、 その処理結果を、 必要に応じて、 例えば、 入出力インタフェース 4 1 0を介して、 LCD (Liquid Crystal Di splay)やスピーカ等で構成される出力部 4 0 6から出力、 あるいは、 通信部 4 0 8から送信、 さらには、 ハードディスク 4 0 5に記録等させる。
ここで、 本明細書において、 コンピュータに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチャートとして記載された順 序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良い し、 複数のコンピュータによって分散処理されるものであっても良い。 さらに、 プログラムは、 遠方のコンピュータに転送されて実行されるものであっても良い c 本実施の形態では、 本発明を、 音声 (画像信号) 広帯域化装置、 および、 携帯 電話機どうしで音声通話を行う伝送システムに適用した場合について説明したが、 その他、 本発明は、 固定電話音声、 AM (Amplitude modulation) / F M (Frequency Modulation)ラジオ放送受信音声、 アナログ T V (Television)放送 受信音声の音質改善など、 音声通信を行うシステムに広く適用可能である。 また、 本明細書において、 システムの用語は、 複数の装置、 手段などより構成 される全体的な装置を表すものである。 産業上の利用可能性
以上のごとく本発明の信号処理システム、 および信号処理システムの信号処理 方法によれば、 高域周波数成分が抑圧された狭帯域信号の高域周波数成分を、 精 度よく復元することが可能なシステムを実現することができる。
以上のごとく本発明の第 1の信号処理装置、 信号処理方法、 記録媒体、 並びに プログラムによれば、 他の信号処理装置に対して、 高域周波数成分が抑圧された 狭帯域信号の高域周波数成分を精度よく復元させることが可能になる。
以上のごとく本発明の第 2の信号処理装置、 信号処理方法、 記録媒体、 並びに プログラムによれば、 高域周波数成分が抑圧された狭帯域信号の高域周波数成分 を精度よく復元することが可能になる。

Claims

請求の範囲
1 . 入力信号を加工して蓄積する第 1の信号処理装置と、
入力信号を加工して出力する第 2の信号処理装置と
を備える信号処理システムにおいて、
前記第 1の信号処理装置は、
周波数成分が広帯域な第 1の信号を入力する第 1の信号入力手段と、 前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号 を入力する第 2の信号入力手段と、
前記第 1の信号入力手段により入力された前記第 1の信号から高域周波数成 分を抽出する抽出手段と、
前記第 2の信号入力手段により入力された前記第 2の信号に基づいて、 第 1 のクラスコードを決定する第 1の決定手段と、
前記第 1の決定手段により決定された前記第 1のクラスコードごとに、 前記 抽出手段により抽出された前記高域周波数成分を蓄積する蓄積手段と
を備え、
前記第 2の信号処理装置は、
高域周波数成分が抑圧された狭帯域な第 3の信号を入力する第 3の信号入力 手段と、
前記第 3の信号入力手段により入力された前記第 3の信号に基づいて、 第 2 のクラスコードを決定する第 2の決定手段と、
前記第 2の決定手段により決定された前記第 2のクラスコードに対応する、 前記蓄積手段により蓄積された前記高域周波数成分と、 前記第 3の信号入力手段 により入力された前記第 3の信号を合成する合成手段と、
前記合成手段により生成された合成信号を出力する出力手段と
を備えることを特徴とする信号処理システム。
2 . 入力信号を加工して蓄積する第 1の信号処理装置と、
入力信号を加工して出力する第 2の信号処理装置と を備える信号処理システムの信号処理方法において、
前記第 1の信号処理装置は、
周波数成分が広帯域な第 1の信号の入力を制御する第 1の信号入力制御ステ ップと、
前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号 の入力を制御する第 2の信号入力制御ステップと、
前記第 1の信号入力制御ステップの処理により入力が制御された前記第 1の 信号から高域周波数成分を抽出する抽出ステップと、
前記第 2の信号入力制御ステップの処理により入力が制御された前記第 2の 信号に基づいて、 第 1のクラスコードを決定する第 1の決定ステップと、
前記第 1の決定ステップの処理により決定された前記第 1のクラスコードご とに、 前記抽出ステップの処理により抽出された前記高域周波数成分を蓄積する を含み、
前記第 2の信号処理装置は、
高域周波数成分が抑圧された狭帯域な第 3の信号の入力を制御する第 3の信 号入力制御ステップと、
前記第 2の信号入力制御ステップの処理により入力が制御された前記第 3の 信号に基づいて、 第 2のクラスコードを決定する第 2の決定ステツプと、
前記第 2の決定ステップの処理により決定された前記第 2のクラスコードに 対応する、 前記蓄積ステップの処理により蓄積された前記高域周波数成分と、 前 記第 3の信号入力制御ステップの処理により入力が制御された前記第 3の信号を 合成する合成ステップと、
前記合成ステップの処理'により生成された合成信号の出力を制御する出力制 御ステップと
を含むことを特徴とする信号処理方法。
3 . 周波数成分が広帯域な第 1の信号を入力する第 1の信号入力手段と、 前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号を 入力する第 2の信号入力手段と、
前記第 1の信号入力手段により入力された前記第 1の信号から高域周波数成分 を抽出する抽出手段と、
前記第 2の信号入力手段により入力された前記第 2の信号に基づいて、 クラス コードを決定する決定手段と、
前記決定手段により決定された前記クラスコードごとに、 前記抽出手段により 抽出された前記高域周波数成分を蓄積する蓄積手段と
を備えることを特徴とする信号処理装置。
4 . 前記第 1の信号と前記第 2の信号は、 音声信号である
ことを特徴とする請求の範囲第 3項に記載の信号処理装置。
5 . 前記決定手段は、 等ラウドネス特性に基づく重み付け処理を行った前記第 2の信号に基づいて、 前記クラスコードを決定する
ことを特徴とする請求の範囲第 4項に記載の信号処理装置。
6 . 前記決定手段は、 音声信号スペク トルの平均パワー値と最大パワー値の位 置に基づいて、 前記クラスコードを決定する
ことを特徴とする請求の範囲第 4項に記載の信号処理装置。
7 . 前記決定手段は、 前記抽出手段により抽出される前記高域周波数成分の最 低の周波数の 1 / 2倍、 または 1 Z 3倍の周波数以上のスぺク トル成分の前記ク ラスコードを決定する
ことを特徴とする請求の範囲第 4項に記載の信号処理装置。
8 . 前記第 1の信号と前記第 2の信号は、 画像信号である
ことを特徴とする請求の範囲第 3項に記載の信号処理装置。
9 . 前記決定手段は、 前記画像信号のスペク トルの交流平均パワー値、 直流パ ヮー値、 および交流成分ピークパワー値に基づいて、 前記クラスコードを決定す る
ことを特徴とする請求の範囲第 8項に記載の信号処理装置。
1 0 . 前記蓄積手段は、 前記抽出手段により抽出された前記高域周波数成分を、 特定情報に対応付けて蓄積する
ことを特徴とする請求の範囲第 3項に記載の信号処理装置。
1 1 . 前記特定情報は、 電話機の電話番号である
ことを特徴とする請求の範囲第 1 0項に記載の信号処理装置。
1 2 . 前記第 1の信号を所定の時間間隔で間引いて前記第 2の信号を生成する 生成手段を
さらに備えることを特徴とする請求の範囲第 3項に記載の信号処理装置。
1 3 . 入力信号を加工して蓄積する信号処理装置の信号処理方法において、 周波数成分が広帯域な第 1の信号の入力を制御する第 1の信号入力制御ステッ プと、
前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号の 入力を制御する第 2の信号入力制御ステツプと、
前記第 1の信号入力制御ステップの処理により入力が制御された前記第 1の信 号から高域周波数成分を抽出する抽出ステップと、
前記第 2の信号入力制御ステップの処理により入力が制御された前記第 2の信 号に基づいて、 クラスコードを決定する決定ステップと、
前記決定ステップの処理により決定された前記クラスコードごとに、 前記抽出 ステップの処理により抽出された前記高域周波数成分を蓄積する蓄積ステップと を含むことを特徴とする信号処理方法。
1 4 . 入力信号を加工して蓄積する信号処理装置のプログラムであって、 周波数成分が広帯域な第 1の信号の入力を制御する第 1の信号入力制御ステツ プと、
前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号の 入力を制御する第 2の信号入力制御ステツプと、
前記第 1の信号入力制御ステップの処理により入力が制御された前記第 1の信 号から高域周波数成分を抽出する抽出ステップと、 前記第 2の信号入力制御ステップの処理により入力が制御された前記第 2の信 号に基づいて、 クラスコードを決定する決定ステップと、
前記決定ステップの処理により決定された前記クラスコードごとに、 前記抽出 ステップの処理により抽出された前記高域周波数成分を蓄積する蓄積ステツプと を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録され ている記録媒体。
1 5 . 入力信号を加工して蓄積する信号処理装置を制御するコンピュータに、 周波数成分が広帯域な第 1の信号の入力を制御する第 1の信号入力制御ステツ プと、
前記第 1の信号のうちの、 高域周波数成分が抑圧された狭帯域な第 2の信号の 入力を制御する第 2の信号入力制御ステップと、
前記第 1の信号入力制御ステップの処理により入力が制御された前記第 1の信 号から高域周波数成分を抽出する抽出ステップと、
前記第 2の信号入力制御ステップの処理により入力が制御された前記第 2の信 号に基づいて、 クラスコードを決定する決定ステップと、
前記決定ステップの処理により決定された前記クラスコードごとに、 前記抽出 ステップの処理により抽出された前記高域周波数成分を蓄積する蓄積ステップと を実行させることを特徴とするプログラム。
1 6 . 高域周波数成分が抑圧された狭帯域な信号を入力する信号入力手段と、 前記信号入力手段により入力された前記信号に基づいて、 クラスコードを決定 する決定手段と、
高域周波数成分を記憶する記憶手段と、
前記決定手段により決定された前記クラスコードに対応する、 前記記憶手段に 記憶された高域周波数成分と、 前記信号入力手段により入力された前記信号を合 成する合成手段と、
前記合成手段により生成された合成信号を出力する出力手段と
を備えることを特徴とする信号処理装置。
1 7 . 前記信号入力手段が入力する信号は、 音声信号である
ことを特徴とする請求の範囲第 1 6項に記載の信号処理装置。
1 8 . 前記決定手段は、 等ラウドネス特性に基づく重み付け処理を行った前記 信号に基づいて、 前記クラスコードを決定する
ことを特徴とする請求の範囲第 1 7項に記載の信号処理装置。
1 9 . 前記決定手段は、 音声信号スぺク トルの平均パワー値と最大パワー値の 位置に基づいて、 前記クラスコードを決定する
ことを特徴とする請求の範囲第 1 7項に記載の信号処理装置。
2 0 . 前記決定手段は、 前記記憶手段に記憶されている前記高域周波数成分の 最低の周波数の 1 Z 2倍、 または 1 Z 3倍の周波数以上のスペク トル成分の前記 クラスコードを決定する
ことを特徴とする請求の範囲第 1 7項に記載の信号処理装置。
2 1 . 前記信号入力手段が入力する信号は、 画像信号である
ことを特徴とする請求の範囲第 1 6項に記載の信号処理装置。
2 2 . 前記決定手段は、 画像信号のスペク トルの交流平均パワー値、 直流パヮ 一値、 および交流成分ピークパワー値に基づいて、 前記クラスコードを決定する ことを特徴とする請求の範囲第 2 1項に記載の信号処理装置。
2 3 . 前記記憶手段により記憶された前記高域周波数成分は、 所定のタイミン グで更新される
ことを特徴とする請求の範囲第 1 6項に記載の信号処理装置。
2 4 . 前記記憶手段は、 特定情報に対応付けて、 前記高域周波数成分を記憶す る
ことを特徴とする請求の範囲第 1 6項に記載の信号処理装置。
2 5 . 前記特定情報は、 電話機の電話番号である
ことを特徴とする請求の範囲第 2 4項に記載の信号処理装置。
2 6 . 入力信号を加工して出力する信号処理装置の信号処理方法において、 高域周波数成分が抑圧された狭帯域な信号の入力を制御する信号入力制御ステ ップと、
前記信号入力制御ステツプの処理により入力が制御された前記信号に基づいて、 クラスコードを決定する決定ステップと、
高域周波数成分の記憶を制御する記憶制御ステップと、
前記決定ステップの処理により決定された前記クラスコードに対応する、 前記 記憶制御ステップの処理により記憶が制御された高域周波数成分と、 前記信号入 力制御ステップの処理により入力された前記信号を合成する合成ステップと、 前記合成ステップの処理により生成された合成信号の出力を制御する出力制御 ステップと
を含むことを特徴とする信号処理方法。 - 2 7 . 入力信号を加工して出力する信号処理装置のプログラムであって、 高域周波数成分が抑圧された狭帯域な信号の入力を制御する信号入力制御ステ ップと、
前記信号入力制御ステップの処理により入力が制御された前記信号に基づいて、 クラスコードを決定する決定ステップと、
高域周波数成分の記憶を制御する記憶制御ステップと、
前記決定ステップの処理により決定された前記クラスコードに対応する、 前記 記憶制御ステップの処理により記憶が制御された高域周波数成分と、 前記信号入 力制御ステップの処理により入力された前記信号を合成する合成ステップと、 前記合成ステップの処理により生成された合成信号の出力を制御する出力制御 ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録され ている記録媒体。
2 8 . 入力信号を加工して出力する信号処理装置を制御するコンピュータに、 高域周波数成分が抑圧された狭帯域な信号の入力を制御する信号入力制御ステ ップと、 前記信号入力制御ステップの処理により入力が制御された前記信号に基づいて、 クラスコードを決定する決定ステップと、
高域周波数成分の記憶を制御する記憶制御ステップと、
前記決定ステップの処理により決定された前記クラスコードに対応する、 前記 記憶制御ステップの処理により記憶が制御された高域周波数成分と、 前記信号入 力制御ステップの処理により入力された前記信号を合成する合成ステップと、 前記合成ステップの処理により生成された合成信号の出力を制御する出力制御 ステップと
を実行させることを特徴とするプログラム。
PCT/JP2003/010824 2002-09-12 2003-08-27 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム WO2004025625A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP03795239A EP1538602B1 (en) 2002-09-12 2003-08-27 Wideband synthesis from a narrowband signal
DE60325741T DE60325741D1 (de) 2002-09-12 2003-08-27 Breitbandsynthese von schmalbandigen signalen
US10/495,295 US7668319B2 (en) 2002-09-12 2003-08-27 Signal processing system, signal processing apparatus and method, recording medium, and program
US12/571,592 US7986797B2 (en) 2002-09-12 2009-10-01 Signal processing system, signal processing apparatus and method, recording medium, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002266327A JP3879922B2 (ja) 2002-09-12 2002-09-12 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP2002/266327 2002-09-12

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US10495295 A-371-Of-International 2003-08-27
US12/571,592 Division US7986797B2 (en) 2002-09-12 2009-10-01 Signal processing system, signal processing apparatus and method, recording medium, and program

Publications (1)

Publication Number Publication Date
WO2004025625A1 true WO2004025625A1 (ja) 2004-03-25

Family

ID=31986636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/010824 WO2004025625A1 (ja) 2002-09-12 2003-08-27 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム

Country Status (7)

Country Link
US (2) US7668319B2 (ja)
EP (1) EP1538602B1 (ja)
JP (1) JP3879922B2 (ja)
KR (1) KR101001475B1 (ja)
CN (1) CN1302457C (ja)
DE (1) DE60325741D1 (ja)
WO (1) WO2004025625A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818541B2 (en) 2009-01-16 2014-08-26 Dolby International Ab Cross product enhanced harmonic transposition
CN109688531A (zh) * 2017-10-18 2019-04-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
EP1672618B1 (en) * 2003-10-07 2010-12-15 Panasonic Corporation Method for deciding time boundary for encoding spectrum envelope and frequency resolution
CN101656073B (zh) * 2004-05-14 2012-05-23 松下电器产业株式会社 解码装置、解码方法以及通信终端和基站装置
BRPI0510014B1 (pt) * 2004-05-14 2019-03-26 Panasonic Intellectual Property Corporation Of America Dispositivo de codificação, dispositivo de decodificação e método do mesmo
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP5383008B2 (ja) * 2007-07-09 2014-01-08 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法
ATE477572T1 (de) * 2007-10-01 2010-08-15 Harman Becker Automotive Sys Effiziente audiosignalverarbeitung im subbandbereich, verfahren, vorrichtung und dazugehöriges computerprogramm
JP2009300707A (ja) * 2008-06-13 2009-12-24 Sony Corp 情報処理装置および方法、並びにプログラム
ES2805349T3 (es) 2009-10-21 2021-02-11 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
CN102436820B (zh) * 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN105761724B (zh) * 2012-03-01 2021-02-09 华为技术有限公司 一种语音频信号处理方法和装置
KR101897455B1 (ko) 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
US10008198B2 (en) * 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JPH09101798A (ja) * 1995-10-05 1997-04-15 Matsushita Electric Ind Co Ltd 音声帯域拡大方法および音声帯域拡大装置
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
EP0945852A1 (en) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Speech synthesis
US6658155B1 (en) * 1999-03-25 2003-12-02 Sony Corporation Encoding apparatus
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
JP4596196B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP3879922B2 (ja) * 2002-09-12 2007-02-14 ソニー株式会社 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JPH09101798A (ja) * 1995-10-05 1997-04-15 Matsushita Electric Ind Co Ltd 音声帯域拡大方法および音声帯域拡大装置
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HOSOKI M. ET AL.: "Speech signal band width extension and noise remova using subband-HMM", PROC. IEEE ICASSP'02, vol. 1, 13 May 2002 (2002-05-13) - 17 May 2002 (2002-05-17), pages I-245 - I-248, XP002975699 *
YOSHIHISA NAKATOH ET AL.: "Spectrum senkei shazo ni yoru taiiki seigen onsei no kotaiikika", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, D-II, vol. J83, no. 11, 25 November 2000 (2000-11-25), pages 2246 - 2254, XP002975697 *
YUKI YOSHIDA ET AL.: "Code book mapping ni yoru kyotaiiki onsei kara kotaiiki onsei no seiseiho", THE TRANSACTIONS OF THE INSITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, D-II, vol. J78, no. 3, March 1995 (1995-03-01), pages 391 - 399, XP002975698 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818541B2 (en) 2009-01-16 2014-08-26 Dolby International Ab Cross product enhanced harmonic transposition
US9799346B2 (en) 2009-01-16 2017-10-24 Dolby International Ab Cross product enhanced harmonic transposition
US10192565B2 (en) 2009-01-16 2019-01-29 Dolby International Ab Cross product enhanced harmonic transposition
US10586550B2 (en) 2009-01-16 2020-03-10 Dolby International Ab Cross product enhanced harmonic transposition
US11031025B2 (en) 2009-01-16 2021-06-08 Dolby International Ab Cross product enhanced harmonic transposition
US11682410B2 (en) 2009-01-16 2023-06-20 Dolby International Ab Cross product enhanced harmonic transposition
US11935551B2 (en) 2009-01-16 2024-03-19 Dolby International Ab Cross product enhanced harmonic transposition
US12119011B2 (en) 2009-01-16 2024-10-15 Dolby International Ab Cross product enhanced harmonic transposition
CN109688531A (zh) * 2017-10-18 2019-04-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质

Also Published As

Publication number Publication date
KR101001475B1 (ko) 2010-12-14
JP2004102095A (ja) 2004-04-02
EP1538602A4 (en) 2007-07-18
US20050073986A1 (en) 2005-04-07
EP1538602A1 (en) 2005-06-08
CN1602516A (zh) 2005-03-30
KR20050037431A (ko) 2005-04-21
EP1538602B1 (en) 2009-01-07
DE60325741D1 (de) 2009-02-26
US7668319B2 (en) 2010-02-23
CN1302457C (zh) 2007-02-28
JP3879922B2 (ja) 2007-02-14
US20100020827A1 (en) 2010-01-28
US7986797B2 (en) 2011-07-26

Similar Documents

Publication Publication Date Title
US7986797B2 (en) Signal processing system, signal processing apparatus and method, recording medium, and program
US10559313B2 (en) Speech/audio signal processing method and apparatus
US8688440B2 (en) Coding apparatus, decoding apparatus, coding method and decoding method
US6539355B1 (en) Signal band expanding method and apparatus and signal synthesis method and apparatus
JP5933965B2 (ja) 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法
JP3579047B2 (ja) オーディオ復号装置と復号方法およびプログラム
RU2383943C2 (ru) Кодирование звуковых сигналов
WO2013027629A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US20100138219A1 (en) Coding Apparatus and Decoding Apparatus
WO2006049204A1 (ja) 符号化装置、復号化装置、符号化方法及び復号化方法
JP2000305599A (ja) 音声合成装置及び方法、電話装置並びにプログラム提供媒体
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
JP2005107255A (ja) サンプリングレート変換装置、符号化装置、および復号化装置
JP6073456B2 (ja) 音声強調装置
JP2015507764A (ja) オーディオ・データを処理するための方法、装置、及びシステム
JP2007187905A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR20060131793A (ko) 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
US20020173969A1 (en) Method for decompressing a compressed audio signal
JP2006018023A (ja) オーディオ信号符号化装置、および符号化プログラム
EP1136986A2 (en) Audio datastream transcoding apparatus
JP5031006B2 (ja) スケーラブル復号化装置及びスケーラブル復号化方法
JP2003186499A (ja) 符号化装置及び復号化装置
JP3594829B2 (ja) Mpegオーディオの復号化方法
JP2002208860A (ja) データ圧縮装置とそのデータ圧縮方法及びデータ圧縮用プログラムを記録したコンピュータ読み取り可能な記録媒体、並びにデータ伸長装置とそのデータ伸長方法
JP3504485B2 (ja) 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

WWE Wipo information: entry into national phase

Ref document number: 2003795239

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020047007114

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20038017334

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 10495295

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003795239

Country of ref document: EP