WO2009128666A2 - 오디오 신호를 처리하는 방법 및 장치 - Google Patents
오디오 신호를 처리하는 방법 및 장치 Download PDFInfo
- Publication number
- WO2009128666A2 WO2009128666A2 PCT/KR2009/001988 KR2009001988W WO2009128666A2 WO 2009128666 A2 WO2009128666 A2 WO 2009128666A2 KR 2009001988 W KR2009001988 W KR 2009001988W WO 2009128666 A2 WO2009128666 A2 WO 2009128666A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio signal
- reverberation
- parameter
- reverberation characteristic
- signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 322
- 238000000034 method Methods 0.000 title claims abstract description 134
- 238000012545 processing Methods 0.000 title claims abstract description 38
- 230000033001 locomotion Effects 0.000 claims abstract description 51
- 230000005284 excitation Effects 0.000 claims description 35
- 230000004044 response Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 33
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 16
- 239000010949 copper Substances 0.000 description 8
- 229910052802 copper Inorganic materials 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000012434 pretzels Nutrition 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 229910001369 Brass Inorganic materials 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Definitions
- the present invention relates to a method and apparatus for processing an audio signal. More particularly, the present invention relates to encoding, decoding, retrieving, or retrieving an audio signal using motion, reverberation characteristics, or semantic objects of a sound source included in the audio signal. A method and apparatus for processing an audio signal capable of editing.
- a method of compressing or encoding an audio signal which is a transform-based audio signal encoding method and a method of encoding a frequency domain coefficient and encoding and compressing the audio signal, and all audio signals.
- There is a parametric based audio signal coding method which is classified into three legends of a tone, noise, and transient signal, and a method of encoding and compressing the parameters of the classified three legends.
- Transform-based audio signal coding methods require a lot of information and require separate metadata for semantic-based media control, and parametric-based audio signal coding methods require high-level semantic descriptors for semantic-based media control. It is difficult to connect with semantic descriptors, wide range and type of audio signal to be represented by noise, and high quality coding is difficult.
- a technique for estimating the location information of a sound source from an audio signal and distributing the output to a plurality of speakers according to the location information of the sound source at the output unit to output an audio signal has been studied.
- the positional information is estimated on the assumption that the sound source is fixed, and thus the movement of the sound source can be expressed only limitedly.
- a technology for providing an effect as if the listener is listening in the field even when the listener is listening in a place other than the actual concert hall or theater using acoustic characteristics of the space such as a concert hall or a theater is used.
- the reverberation characteristics of the new space are applied to the audio signal, the original reverberation component and the newly added reverberation component are interference because the reverberation component is already included in the original audio signal. This can happen.
- FIG. 1 is a diagram schematically illustrating a configuration of an audio signal encoding and decoding apparatus for reverberation processing according to an embodiment of the present invention.
- FIG. 2 is a flowchart schematically illustrating a flow of an audio signal encoding and decoding method for reverberation processing according to an embodiment of the present invention.
- FIG. 3 is a diagram schematically illustrating an audio signal encoding and decoding apparatus for reverberation processing according to an embodiment of the present invention.
- FIG. 4 is a flowchart illustrating an audio signal encoding and decoding method flow for reverberation processing according to an embodiment of the present invention.
- 5A to 5C are diagrams illustrating a principle of encoding an audio signal using a dynamic trajectory of a moving sound source according to an embodiment of the present invention.
- FIG 6 illustrates dynamic trajectory information according to an embodiment of the present invention.
- FIG. 7 is a diagram illustrating a method of representing a moving line of a sound source as a plurality of points according to an embodiment of the present invention.
- FIG. 8 is a diagram schematically illustrating a configuration of an audio signal encoding and decoding apparatus using dynamic track information according to an embodiment of the present invention.
- FIG. 9 is a diagram schematically illustrating a flow of an audio signal encoding and decoding method using dynamic trajectory information according to an embodiment of the present invention.
- FIG. 10 illustrates an audio signal encoding method using a semantic object according to an embodiment of the present invention.
- 11A to 11C illustrate examples of physical models of semantic objects.
- 12A to 12D are diagrams showing examples of excitation signals of semantic objects.
- FIG. 13 is a diagram schematically illustrating a configuration of an apparatus for encoding and decoding an audio signal using a semantic object according to an embodiment of the present invention.
- FIG. 14 is a diagram schematically illustrating a flow of a method of encoding and decoding an audio signal using a semantic object according to an embodiment of the present invention.
- an embodiment of an audio signal encoding method includes: receiving an audio signal including at least one moving sound source; Receiving location information on the sound source; Generating dynamic trajectory information representing the movement of the position of the sound source using the position information; And encoding the audio signal and the dynamic trajectory information.
- the dynamic track information includes a plurality of points representing a moving line representing the movement of the position of the sound source.
- the copper line is a Bezier curve (Bézier curve) to the control points (control points).
- the dynamic track information is characterized in that it comprises the number of frames to which the copper wire is applied.
- an audio signal decoding method for receiving an audio signal including at least one moving sound source and a signal obtained by encoding dynamic track information indicating a motion of a position of the sound source. step; And decoding the audio signal and the dynamic trajectory information from the received signal.
- the method further comprises distributing output to the plurality of speakers corresponding to the dynamic track information.
- the method may further include changing a frame rate of the audio signal by using the dynamic trajectory information.
- the method may further include changing the number of channels of the audio signal using the dynamic track information.
- using the dynamic trajectory information characterized in that it comprises the step of searching for a portion of the audio signal corresponding to the movement characteristic of the sound source.
- the dynamic trajectory information includes a plurality of points representing a moving line representing the movement of the position of the sound source, and the searching may be performed by using the points.
- the dynamic track information includes the number of frames to which the copper line is applied, and the searching may be performed using the number of frames.
- an embodiment of an audio signal encoding method includes: receiving an audio signal; Separately receiving reverberation characteristics of the audio signal; And encoding the audio signal and the reverberation characteristic.
- the audio signal is recorded in a predetermined space, and the reverberation characteristic is a reverberation characteristic of the space.
- the reverberation characteristic is characterized by an impulse response.
- the encoding comprises an initial impulse response (IRR) filter having a high order of initial reverberation of the impulse response, and an infinite impulse response filter having a low order of reverberation of the impulse response. It is characterized by the configuration and encoding.
- IRR initial impulse response
- a method of decoding an audio signal including: receiving an audio signal having a first reverberation characteristic and a signal encoding the first reverberation characteristic; And decoding the audio signal from the received signal.
- decoding the first reverberation characteristic from the received signal Obtaining an inverse function of the first reverberation characteristic; And obtaining an audio signal from which the first reverberation property is removed by applying the inverse function to the audio signal.
- receiving a second reverberation characteristic And generating an audio signal having a second reverberation characteristic by applying the second reverberation characteristic to the audio signal from which the first reverberation characteristic is removed.
- the receiving of the second reverberation characteristic may include receiving the second reverberation characteristic input by a user from an input device, or receiving the second reverberation characteristic previously stored in a memory from a memory.
- the audio signal is recorded in a predetermined space
- the first reverberation characteristic is a reverberation characteristic of the space.
- an embodiment of an audio signal encoding method includes: receiving an audio signal recorded in a predetermined space; Receiving a reverberation characteristic of the space; Obtaining an inverse function of the reverberation characteristic; Obtaining an audio signal from which the reverberation property is removed by applying the inverse function to the audio signal; And encoding the reverberation characteristic and the audio signal from which the reverberation characteristic is removed.
- an embodiment of an audio signal decoding method includes: receiving a signal encoding an audio signal and a reverberation characteristic; Decoding the audio signal from the received signal; Decoding the reverberation characteristic from the received signal; And applying the reverberation characteristic to the audio signal to obtain an audio signal having the reverberation characteristic.
- an embodiment of an audio signal decoding method includes: receiving an audio signal and a signal encoding a first reverberation characteristic; Decoding the audio signal from the received signal; Receiving a second reverberation characteristic; And generating an audio signal having a second reverberation property by applying the second reverberation property to the audio signal.
- a method of encoding an audio signal comprising: at least one characteristic representing at least one semantic object constituting the audio signal Receiving a parameter of; And encoding the parameter.
- the parameter comprises: a note list representing the pitch and time signature of the semantic object; A physical model representing physical characteristics of the semantic object; And an actuating signal for exciting the semantic object.
- the physical model includes a transfer function for the semantic object, which is a ratio of an output signal and an excitation signal in a frequency domain.
- the step of encoding is characterized in that for coding the coefficients in the frequency domain of the excitation signal.
- the step of encoding is characterized in that for encoding the coordinates of a plurality of points in the time domain of the excitation signal.
- the parameter is characterized in that it includes position information indicating the position of the semantic object.
- the parameter comprises spatial information indicating the reverberation characteristics of the space in which the audio of the semantic object occurs.
- the method further includes receiving spatial information indicating a reverberation characteristic of a space in which the audio signal is generated, and wherein the encoding comprises encoding the spatial information.
- the spatial information includes an impulse response indicating the reverberation characteristic.
- a method of decoding an audio signal comprising: receiving an input signal encoding at least one parameter representing a characteristic of at least one semantic object constituting an audio signal; And decoding the parameter from the input signal.
- the method further comprises restoring the audio signal using the parameter.
- the parameter comprises: a score indicating a pitch and a beat of the semantic object; A physical model representing physical characteristics of the semantic object; And an excitation signal for exciting the semantic object.
- the parameter is characterized in that it includes position information indicating the position of the semantic object.
- the method further comprises distributing output to the plurality of speakers corresponding to the position information.
- the parameter comprises spatial information indicating the reverberation characteristics of the space in which the audio of the semantic object occurs.
- the input signal is encoded including spatial information representing a reverberation characteristic of a space in which the audio signal is generated, and further comprising the step of decoding the spatial information from the input signal.
- the method may further include restoring the audio signal using the parameter and the spatial information.
- the method comprises processing the parameter.
- the processing comprises searching for a parameter corresponding to a predetermined audio characteristic among the at least one parameter.
- said processing comprises editing said parameter.
- the method further comprises generating an edited audio signal using the edited parameters.
- editing said parameter comprises deleting a semantic object from said audio signal, inserting a new semantic object into said audio signal, or replacing a semantic object of said audio signal with a new semantic object. It is characterized by.
- editing said parameter comprises deleting said parameter, inserting a new parameter into said audio signal, or replacing said parameter with a new parameter.
- an embodiment of an audio signal encoding apparatus includes: a receiver for receiving an audio signal including at least one moving sound source and position information on the sound source; A dynamic trajectory information generation unit for indicating the movement of the position of the sound source using the position information; And an encoder which encodes the audio signal and the dynamic track information.
- the dynamic track information includes a plurality of points representing a moving line representing the movement of the position of the sound source.
- the copper line is a Bezier curve (Bézier curve) to the control points (control points).
- the dynamic track information is characterized in that it comprises the number of frames to which the copper wire is applied.
- an audio signal decoding apparatus for receiving an audio signal including at least one moving sound source and a signal encoding dynamic track information indicating a movement of a position of the sound source.
- Receiving unit And a decoder which decodes the audio signal and the dynamic trajectory information from the received signal.
- the apparatus further comprises an output distribution unit for distributing output to a plurality of speakers corresponding to the dynamic track information.
- the decoder further comprises changing a frame rate of the audio signal using the dynamic trajectory information.
- the decoder changes the number of channels of the audio signal using the dynamic trajectory information.
- the decoder uses the dynamic trajectory information to search for a portion of the audio signal in which the movement of the sound source corresponds to a predetermined movement characteristic.
- the dynamic trajectory information includes a plurality of points representing a moving line representing the movement of the position of the sound source, and the decoder detects using the points.
- the dynamic trajectory information includes the number of frames to which the copper line is applied, and the decoding unit searches using the number of frames.
- an embodiment of an audio signal encoding apparatus includes: a receiver configured to receive an audio signal and a reverberation characteristic of the audio signal; And an encoder which encodes the audio signal and the reverberation characteristic.
- the audio signal is recorded in a predetermined space
- the reverberation characteristic is a reverberation characteristic of the space.
- the reverberation characteristic is characterized by an impulse response.
- the encoder is configured in the form of an infinite impulse response (IIR) filter of the initial reverberation of the impulse response, and the late reverberation of the impulse response in the form of an infinite impulse response filter of low order It is characterized by the configuration and encoding.
- IIR infinite impulse response
- an audio signal decoding apparatus including: a receiver configured to receive an audio signal having a first reverberation characteristic and a signal encoding the first reverberation characteristic; And a decoder which decodes the audio signal from the received signal.
- the decoder decodes the first reverberation characteristic from the received signal, obtains an inverse function of the first reverberation characteristic, and applies the inverse function to the audio signal to obtain an audio signal from which the first reverberation characteristic is removed.
- a reverberation removing unit characterized in that it further comprises.
- the receiver includes a reverberation adder which receives a second reverberation characteristic and generates an audio signal having a second reverberation characteristic by applying the second reverberation characteristic to the audio signal from which the first reverberation characteristic is removed. It is characterized by.
- the receiver may receive the second reverberation characteristic input by a user from an input apparatus, or the second reverberation characteristic pre-stored in a memory from a memory.
- an embodiment of an audio signal encoding apparatus includes: a receiver configured to receive an audio signal recorded in a predetermined space and a reverberation characteristic of the space; A reverberation remover obtaining an inverse function of the reverberation characteristic and obtaining an audio signal from which the reverberation characteristic is removed by applying the inverse function to the audio signal; And an encoder for encoding the reverberation characteristic and the audio signal from which the reverberation characteristic is removed.
- an embodiment of an audio signal decoding apparatus comprises: a receiving unit receiving a signal encoding an audio signal and a reverberation characteristic; A decoder which decodes the audio signal and the reverberation characteristic from the received signal; And a reverberation restoring unit which obtains an audio signal having the reverberation property by applying the reverberation property to the audio signal.
- an apparatus for decoding an audio signal according to an embodiment of the present invention.
- a decoder which decodes the audio signal from the received signal;
- a reverberation adder configured to apply the second reverberation characteristic to the audio signal to generate an audio signal having a second reverberation characteristic.
- an apparatus for encoding an audio signal comprising: at least one representing a characteristic of at least one semantic object constituting the audio signal A receiving unit for receiving a parameter of the; And an encoding unit encoding the parameter.
- the parameter comprises: a score indicating a pitch and a beat of the semantic object; A physical model representing physical characteristics of the semantic object; And an excitation signal for exciting the semantic object.
- the physical model includes a transfer function for the semantic object, which is a ratio of an output signal and an excitation signal in a frequency domain.
- the encoder is characterized in that for coding the coefficients in the frequency domain of the excitation signal.
- the encoder is characterized in that for encoding the coordinates of a plurality of points in the time domain of the excitation signal.
- the parameter is characterized in that it includes position information indicating the position of the semantic object.
- the parameter comprises spatial information indicating the reverberation characteristics of the space in which the audio of the semantic object occurs.
- the receiver receives spatial information indicating a reverberation characteristic of a space in which the audio signal is generated, and the encoding unit encodes the spatial information.
- the spatial information includes an impulse response indicating the reverberation characteristic.
- an apparatus for decoding an audio signal comprising: receiving an input signal encoding at least one parameter representing a characteristic of at least one semantic object constituting an audio signal; And a decoder which decodes the parameter from the input signal.
- the apparatus may further include a restoration unit for restoring the audio signal using the parameter.
- the parameter comprises: a score indicating a pitch and a beat of the semantic object; A physical model representing physical characteristics of the semantic object; And an excitation signal for exciting the semantic object.
- the parameter is characterized in that it includes position information indicating the position of the semantic object.
- the apparatus further includes an output distribution unit for distributing output to a plurality of speakers corresponding to the position information.
- the parameter comprises spatial information indicating the reverberation characteristics of the space in which the audio of the semantic object occurs.
- the input signal is encoded including spatial information representing a reverberation characteristic of a space in which the audio signal is generated,
- the decoder may decode the spatial information from the input signal.
- the apparatus may further include a restoration unit which restores the audio signal using the parameter and the spatial information.
- it comprises a processing unit for processing the parameter.
- the processing unit comprises a search unit for searching for a parameter corresponding to a predetermined audio characteristic among the at least one parameter.
- the processing unit comprises an editing unit for editing the parameter.
- the apparatus may further include a generation unit generating the edited audio signal using the edited parameter.
- the editing unit may delete a semantic object from the audio signal, insert a new semantic object into the audio signal, or replace the semantic object of the audio signal with a new semantic object.
- the editing unit may delete the parameter, insert a new parameter into the audio signal, or replace the parameter with a new parameter.
- FIG. 1 is a diagram schematically illustrating a configuration of an audio signal encoding and decoding apparatus for reverberation processing according to an embodiment of the present invention.
- an audio signal encoding apparatus 110 for reverberation processing includes a receiver 111 and an encoder 112.
- the receiver 111 receives the audio signal s1 (n) recorded in the space A and H1 (z) representing the reverberation characteristic of the space A.
- s1 (n) records the original audio signal s (n) having no reverberation component in the space A, and has the reverberation characteristic of the space A.
- the reverberation characteristic H1 (z) of space A is an impulse response that represents the acoustic characteristics of space A.
- a signal having an instantaneous strong energy such as a gunshot, that is, a signal similar to an impulse signal, is generated in space A, and a sound that reacts in space A is recorded to obtain an impulse response h1 (n) in the time domain.
- the obtained h1 (n) is converted to obtain an impulse response H1 (z) in the frequency domain.
- H1 (z) may be implemented in the form of a finite impulse response (FIR) or in the form of an infinite impulse response (IIR).
- the impulse response H1 (z) is represented in the form of an [infinite] impulse response represented by Equation (1).
- the initial reverberation part (for example, a section within 0.4 seconds) that includes most of the information representing the reverberation property faithfully expresses the reverberation property by increasing M and N, and the remaining late reverberation parts represent M and N. You can use a method to reduce the size of the data by making it small.
- the initial reverberation of the impulse response may be in the form of a finite impulse response, and the late reverberation may be represented in the form of an infinite impulse response.
- the audio signal s1 (n) and the reverberation characteristic H1 (z) may be generated by mechanically synthesizing using software or hardware, without obtaining actual sound.
- the encoder 112 encodes the recorded audio signal s1 (n) and the reverberation characteristic H1 (z), and the encoded signal t (n) is transmitted to the decoding apparatus according to the present invention.
- s1 (n) and H1 (z) may be encoded together or may be encoded respectively.
- H1 (z) may be inserted in various forms such as metadata, mode, and header information.
- the encoding method may use a variety of methods known to those skilled in the art, which are well known in the art, and the detailed description thereof will not unnecessarily obscure the subject matter of the present invention.
- An audio signal decoding apparatus 120 for reverberation processing includes a receiver 121, a decoder 112, a reverberation remover 123, a reverberation adder 124, a memory 125, and an input.
- Device 126 may be included.
- the receiver 121 receives the signal t (n) encoded by the encoder 112, and also receives a reverberation characteristic H2 (z) desired by the user.
- the receiving unit 121 may receive a reverberation characteristic input by the user through the input device 126 from the input device 126, or from the memory 125 to the memory 125 in the decoding device. It may also receive one of a variety of reverberation characteristics previously stored in.
- the decoder 112 decodes the audio signal s1 (n) recorded in the space A and H1 (z) representing the reverberation characteristic of the space A from the received t (n).
- the decoding method corresponds to the encoding method used in the encoding apparatus, which is also known in the art and will not be described.
- the reverberation removing unit 123 obtains the inverse function H1 -1 (z) of H1 (z) and applies it to s1 (n) to obtain the original audio signal s (n) from which the reverberation characteristic of the space A is removed.
- the reverberation adding unit 124 applies the reverberation characteristic H2 (z) desired by the user to the audio signal s (n) having no reverberation characteristic to generate the audio signal s2 (n) having the reverberation characteristic desired by the user.
- the listener by completely removing the reverberation characteristics of the space from the audio signal recorded in the specific space, and adding a new reverberation characteristic desired by the user, the listener has a high-quality reverberation effect without interference between different reverberation characteristics. I can feel it. Therefore, the listener can feel the realism of the world famous concert hall or the user's preferred space.
- FIG. 2 is a flowchart schematically illustrating a flow of an audio signal encoding and decoding method for reverberation processing according to an embodiment of the present invention.
- an audio signal s1 (n) recorded in space A is received (S211), and a reverberation characteristic of space A
- the audio signal decoding method (S220) for reverberation processing includes the step of receiving t (n) (S221), and the audio signal s1 (n recorded in the space A from the received t (n).
- S224 applying this to s1 (n) to obtain the original audio signal s (n) from which the reverberation characteristic of the space A has been removed (S225), and receiving a reverberation characteristic H2 (z) desired by the user (S226).
- FIG. 3 is a diagram schematically illustrating an audio signal encoding and decoding apparatus for reverberation processing according to an embodiment of the present invention.
- an audio signal encoding apparatus 310 for reverberation processing includes a receiver 311, a reverberation remover 312, and an encoder 313.
- the receiver 311 receives the audio signal s1 (n) recorded in the space A and H1 (z) representing the reverberation characteristic of the space A.
- the reverberation removing unit 312 obtains the inverse function H1 -1 (z) of H1 (z), and applies it to s1 (n) to obtain the original audio signal s (n) from which the reverberation characteristic of the space A is removed.
- the encoder 313 encodes the audio signal s (n) and the reverberation characteristic H1 (z) from which the reverberation characteristic of the space A has been removed, and the encoded signal t (n) is transmitted to the decoding apparatus according to the present invention.
- s (n) and H1 (z) may be encoded together or may be encoded respectively.
- An audio signal decoding apparatus 320 for reverberation processing includes a receiver 321, a decoder 322, a reverberation restorer 323, a reverberation adder 324, a memory 325, and an input.
- Device 326 may be included.
- the receiver 321 receives the signal t (n) encoded by the encoder 313, and also receives a reverberation characteristic H2 (z) desired by the user.
- the receiving unit 321 may receive reverberation characteristics input by the user through the input device 326 from the input device 326 or from the memory 325 in the decoding device to the memory 325. It may also receive one of several pre-stored reverberation characteristics.
- the decoder 322 decodes the audio signal s (n) from which the reverberation characteristic is removed from the received t (n) and H1 (z) representing the reverberation characteristic of the space A.
- the reverberation restoring unit 323 restores s1 (n) having the reverberation characteristic of the space A by applying H1 (z) representing the reverberation characteristic of the space A to the audio signal s (n) from which the reverberation characteristic is removed.
- the reverberation adding unit 324 applies the reverberation characteristic H2 (z) desired by the user to the audio signal s (n) having no reverberation characteristic to generate the audio signal s2 (n) having the reverberation characteristic desired by the user.
- the audio signal recorded in a specific space is separated from each other and transmitted after the audio signal having no reverberation characteristic and the reverberation characteristic of the space is separated from each other, so that a desired reverberation characteristic is added without interference between different reverberation characteristics at a receiving side. It is possible to generate a high quality audio signal.
- FIG. 4 is a flowchart illustrating an audio signal encoding and decoding method flow for reverberation processing according to an embodiment of the present invention.
- an audio signal s1 (n) recorded in space A is received (S411), and a reverberation characteristic of space A
- Receiving H1 (z) indicating the first reverberation characteristic (S412), obtaining an inverse function H1 -1 (z) of H1 (z) (S413), and applying this to s1 (n) to reverberation of space A
- the audio signal decoding method (S420) for reverberation processing includes receiving the t (n) (S421), and removing the reverberation characteristic from the received t (n). ) (S422), decoding the H1 (z) representing the reverberation characteristics of the space A from the received t (n) (S423), applying this to s (n) having a reverberation characteristic of the space A Obtaining the audio signal s1 (n) (S424), receiving the user's desired reverberation characteristic H2 (z) (S425) and applying it to the audio signal s (n) having no reverberation characteristic to apply the user's desired reverberation characteristic.
- the branch includes a step S426 of generating the audio signal s2 (n).
- 5A to 5C are diagrams illustrating a principle of encoding an audio signal using a dynamic trajectory of a moving sound source according to an embodiment of the present invention.
- FIG. 5A illustrates a motion 510 of a sound source, which a content producer intended to represent and express a high performance decoding apparatus and many speakers.
- FIG. 5B illustrates a case where the location 530 of the sound source is sampled and encoded according to a constant frame rate.
- the encoded signal since the encoded signal has only sampled location information of a predetermined interval, only limited movement can be represented.
- the speed at which the sound source moves is very fast compared to the frame rate, the sangled position information cannot faithfully express the original motion of the sound source.
- the original motion of the sound source is pretzel like the motion 510 of FIG. 5A, but the motion of the sound source of the encoded signal is zigzag like the motion 520 of FIG.
- the continuous movement of the sound source itself that is, the dynamic trajectory information of the sound source
- the position of the sampled sound source to express the motion of the sound source
- the information of the curved parts that cannot be represented in FIG. Since the content creator can reproduce the motion 510 of the original sound source intended by the content creator, the more accurate the position of the sound source can be reproduced as the frame rate is increased on the receiving side.
- the amount of data can be reduced by encoding only the minimum information necessary to represent the moving line of the moving sound source, without encoding all the position information of each frame at the transmitting side.
- the home audio system Since the home audio system is different for each environment, it is necessary to convert multichannel audio signals into smaller multichannel audio signals (for example, to convert 22.2 channel audio signals to 5.1 channel audio signals), that is, downmixing.
- the dynamic orbital information according to the present invention since continuous information on the movement of the sound source can be obtained, it is possible to express the sound source moving more naturally than when using the positional information sampled in a discrete manner. do. For example, when the sound source proceeds rapidly, when the sound source expressed in the multi-channel is represented in the smaller multi-channel, the distance between the speakers is widened so that the sound source may be discontinuously if there is no processing in the decoder.
- the decoder uses intermittently sampled location information, the space between the speakers is wider in the case of smaller channels, and the range of physical image formation is wider. As it happens, the movement of the sound source between two images per unit time can only be expressed monotonously. However, when the sound source is expressed as a movement, the decoder can give information about the intended image of the sound producer, so it can be effectively expressed regardless of the spacing between the speakers in a fast channel and a smaller channel environment.
- the dynamic trajectory information of the sound source may be represented by a plurality of points representing a moving line representing the continuous movement of the position of the sound source, which are shown as points 550 in FIG. 5C.
- points 550 A method of expressing a continuous copper line using a plurality of points will be described in detail later.
- FIG. 6 illustrates dynamic trajectory information according to an embodiment of the present invention.
- two moving sound sources exist in the audio signal, respectively, represented as moving sound source 1 and moving sound source 2.
- the moving sound source 1 exists from frame 1 to frame 4, and the moving line from frame 1 to frame 4 is represented by two points, that is, control point 11 and control point 12.
- the dynamic track information on the moving sound source 1 includes a control point 11, a control point 12, and the number 4 of frames to which the moving line represented by the control points is applied, and the dynamic track information is inserted into the frame 1 as additional information 610.
- the moving sound source 2 exists from frame 1 to frame 9, and the moving line from frame 1 to frame 3 is represented by three points, that is, control points 21 to control point 23, and the moving line from frame 4 to frame 9 has four points, control point. Expressed from 24 to control point 27.
- the dynamic track information of the moving sound source 2 among the additional information 610 inserted into the frame 1 includes the control points 21 to 23 and the number 3 of frames to which the moving lines represented by the control points are applied.
- the additional information 620 inserted into the frame 4 includes control points 24 to 27 as dynamic track information for the moving sound source 2, and the number 6 of frames to which the moving line represented by the control points is applied.
- the movement of the sound source is more precisely expressed.
- the moving line is represented by the same control points it is possible to represent the moving speed of the sound source by varying the number of frames applied. In other words, if the number of frames is small, the sound source moves quickly. If the number of frames is large, the sound source moves slowly.
- the amount of data can be reduced by inserting only the information necessary for representing the moving line of the moving sound source into some frames without inserting all the positional information about each moving sound source in each frame.
- FIG. 7 illustrates a method of representing a moving line of a sound source with a plurality of points according to an embodiment of the present invention.
- a curve connected from P0 to P3 represents a copper line of the sound source, and the points of P0 to P3 are a plurality of points representing the copper line.
- the copper line of the sound source may be represented by a Bezier curve, and the plurality of points P0 to P3 representing the same are control points of the Bezier curve.
- a Bezier curve with N + 1 control points is represented by equation (2).
- Pi ie P0 through Pn, is the coordinate of the control point.
- Equation 3 the expression representing the moving line of the sound source is represented by Equation 3 below.
- the dynamic trajectory information it is possible to search for a specific position in accordance with the movement characteristics of the sound source in the audio signal. For example, there may be a static scene where characters are talking in a movie, or there may be a dynamic scene such as a fight or a car chase scene. You can search and see the scenes. In addition, you can search for and listen to the desired part of the song using the motion information of the singers. According to an embodiment, when searching for an audio signal according to a motion characteristic, the search may be performed using a distribution shape or a frame number of control points in the dynamic track information.
- FIG. 8 is a diagram schematically illustrating a configuration of an audio signal encoding and decoding apparatus using dynamic track information according to an embodiment of the present invention.
- an audio signal encoding apparatus 810 includes a receiver 811, a dynamic trajectory information generator 812, and an encoder 813.
- the receiver 811 receives an audio signal including one or more moving sound sources and position information on each moving sound source, and the dynamic track information generation unit 812 uses the position information to indicate a dynamic track indicating the movement of the position of the sound source.
- the information is generated, and the encoder 813 encodes the audio signal and the dynamic trajectory information.
- the dynamic trajectory information may be encoded in various forms such as metadata, mode, and header information.
- the encoding method may use a variety of methods known to those skilled in the art, which are well known in the art, and the detailed description thereof will not unnecessarily obscure the subject matter of the present invention.
- An audio signal decoding apparatus 820 includes a receiver 821, a decoder 822, and a channel divider 823.
- the receiver 821 receives a signal encoded by the encoder 813, and the decoder 822 decodes an audio signal and dynamic track information from the received signal.
- the channel distribution unit 823 distributes the output to the plurality of speakers so as to correspond to the dynamic track information, so that the listener can hear the sound of the sound source located through the speaker.
- the channel distribution unit 823 knows the position of the speaker, the sound distribution is controlled by using the dynamic trajectory information of the sound source so that the sound image is formed along the dynamic trajectory of the sound source.
- an output may be allocated to each speaker so that sound images may be formed along a dynamic trajectory of a sound source under the assumption that the distance between the speakers is constant.
- the method for distributing the speaker output so that the sound image is formed at a specific position may use various methods known to those skilled in the art, which are known in the art and the detailed description thereof will be directed to the gist of the present invention. It may be unnecessarily blurred and will not be described.
- the decoder 822 may change the frame rate of the audio signal or change the number of channels so that the motion of the sound source can be accurately represented using the dynamic trajectory information.
- the dynamic track information may be used to search for a portion of the audio signal in which the sound source exhibits a specific motion characteristic.
- FIG. 9 is a diagram schematically illustrating a flow of an audio signal encoding and decoding method using dynamic trajectory information according to an embodiment of the present invention.
- the audio signal decoding method using the dynamic track information according to an embodiment of the present invention (S920), the step of receiving the encoded signal (S921), the step of decoding the audio signal and dynamic track information from the received signal (S922) Changing the frame rate of the audio signal using the dynamic track information (S923), changing the channel number of the audio signal using the dynamic track information (S924), and the sound source in the audio signal using the red track information.
- Each of the above steps is not necessarily performed in order, but may be performed in parallel or selectively.
- Encoding an audio signal using a semantic object is a method of encoding a parameter capable of subdividing the audio objects constituting the audio signal into minimal objects having meanings and expressing the subdivided objects.
- FIG. 10 illustrates an audio signal encoding method using a semantic object according to an embodiment of the present invention.
- the sound source for generating the audio signal 1010 may be distinguished from the semantic semantic objects 1021 to 1023, and the semantic object may be distinguished.
- the physical model 1040 is defined, the excitation signal 1050 and the music note 1030 of the physical model are encoded and compressed.
- the position information 1060 of the semantic object, the spatial information 1070, and the spatial information 1080 of the audio signal may be encoded together.
- Each parameter information may be encoded every frame or every predetermined time interval, or may be encoded every time a parameter is changed.
- all parameter information may be encoded or only a parameter changed from a previous parameter may be encoded.
- the physical model 1040 of the semantic object is a model expressing the physical characteristics of the semantic object, and can be efficiently used to express repetitive generation / destruction of a sound source. Examples of the physical model 1040 of the semantic object are shown in FIGS. 11A-11C.
- FIG. 11A is an example of a physical model of a violin, a stringed instrument
- FIG. 11B is an example of a physical model of a cymbal, which is a percussion instrument
- FIG. 11C is an example of a physical model of a clarinet, which is a wind instrument.
- the physical model 1040 of the semantic object is modeled with coefficients of the transfer function, for example Fourier synthesis coefficients. If the excitation signal applied to the semantic object is called x (t) and the audio signal generated from the semantic object is y (t), in one embodiment, the physical model H (s) of the semantic object is represented by Equation 4. Can be.
- the excitation signal applied to the instrument and the sound generated by the instrument can be used to determine the coefficient of the transfer function, which is a physical model of the instrument.
- a coefficient of a frequently used transfer function may be stored in advance in a decoding apparatus, and the difference value between the coefficient of the transfer function previously stored in the decoding apparatus and the coefficient of the transfer function of the semantic object may be encoded.
- a plurality of physical models may be defined for one musical instrument, and one of them may be selected and used according to the pitch.
- 12A to 12D show examples of an excitation signal 1050 of a semantic object, which is an example of an excitation signal of a woodwind instrument, a string instrument, a brass instrument, and a keyboard instrument, respectively.
- the excitation signal 1050 refers to a signal that is externally applied to generate sound in the semantic object.
- the piano's excitation signal is the signal that is applied when the piano's keyboard is pressed
- the violin's excitation signal is the signal that is applied when the violin's bow is turned on. This may be represented as a change over time as shown in FIG. 12D and reflects a main musical symbol, a player's playing style, and the like.
- the musical symbol is mainly represented by the magnitude and speed of the excitation signal
- the player's playing style is mainly represented by the slope of the excitation signal.
- the excitation signal 1050 may reflect not only the playing style but also the characteristics of the musical instrument. For example, when the violin is bowed, the string is pulled to one side by the friction of the bow, and when it reaches a certain threshold, the string is returned to its original position. It takes the form of a sawtooth wave of FIG. 12B.
- the excitation signal 1050 may be converted into a frequency domain and then represented and encoded as a function. If the excitation signal 1050 is a function having periodicity as shown in FIGS. 12A to 12C, the Fourier synthesis coefficients may be encoded. In another embodiment, the coordinates of the major points representing the characteristics of the waveform in the time domain may be encoded (eg, a vocal cord / tract model of the speech codec). For example, in FIG. 12D, (t1, a1), (t2, T (t) can be expressed by encoding a2), (t3, a3) and (t4,0). This method is particularly useful where it is not possible to encode the excitation signal 1050 with simple coefficients.
- the score 1030 is information indicating pitch and time signature.
- the pitch of the score may be used to change the excitation signal.
- the sine wave corresponding to the pitch of the score is multiplied by the excitation signal 1050 and used as the input of the physical model 1040.
- the physical model may be changed using the pitch of the score, and as described above, one physical model may be selected and used according to the pitch of the score.
- the parameter of the semantic object may include location information 1060 of each semantic object.
- the location information is information representing a location where each semantic object exists, and the semantic object may be positioned using the semantic object.
- the positional information of the semantic object may be encoded in its absolute coordinates, or the amount of data may be reduced by encoding a motion vector indicating a change in the absolute coordinates.
- the dynamic trajectory information described above may be encoded.
- the parameter of the semantic object may include spatial information 1070 of each semantic object.
- Spatial information represents the reverberation characteristics in the space in which the semantic object exists. By using this, the listener can have an effect as if the listener is listening in the field.
- spatial information 1080 for the entire audio signal may be encoded instead of spatial information for each semantic object.
- the encoding method of the audio signal using the semantic object it is possible to search and edit using the semantic object.
- searching for, separating, or editing a specific semantic object or a specific parameter for example, only the sound of a specific instrument is searched for, or deleted from the sound of a specific instrument, or the sound of a specific instrument, for example, in an audio signal containing an orchestra's performance.
- FIG. 13 is a diagram schematically illustrating a configuration of an apparatus for encoding and decoding an audio signal using a semantic object according to an embodiment of the present invention.
- an apparatus 1310 for encoding an audio signal using a semantic object includes a receiver 1311 and an encoder 1312.
- the receiver 1311 receives parameters representing characteristics of semantic objects constituting the audio signal and spatial information 1080 of a space in which the audio signal is generated, and the encoder 1312 encodes them.
- the encoding method may use a variety of methods known to those skilled in the art, which are well known in the art, and the detailed description thereof will not unnecessarily obscure the subject matter of the present invention.
- An apparatus 1320 for decoding an audio signal using a semantic object includes a receiver 1321, a decoder 1322, a processor 1323, a decompressor 1326, and an output distributor 1327. It may include.
- the receiver 1321 receives the signal encoded by the encoder 1312, and the decoder 1322 decodes the received signal to extract parameters of each semantic object and spatial information 1080 of the audio signal.
- the processing unit 1323 includes a searching unit 1324 and an editing unit 1325, and the searching unit 1234 searches for a specific semantic object or a specific parameter or specific spatial information, and the editing unit 1325 makes a specific semantic object or parameter Edit or separate, delete, add or replace spatial information.
- the reconstruction unit 1326 reconstructs the audio signal using the decoded parameter and spatial information 1080 of the audio signal, or generates an edited audio signal using the edited parameter and spatial information of the audio signal.
- the output distribution unit 1327 distributes the output to the plurality of speakers using the decoded position information or the edited position information.
- FIG. 14 is a diagram schematically illustrating a flow of a method of encoding and decoding an audio signal using a semantic object according to an embodiment of the present invention.
- a method of decoding an audio signal using a semantic object includes receiving the encoded signal (S1421), decoding the parameters of each semantic object from the received signal (S1422), Decoding spatial information of the audio signal from the received signal (S1423), processing spatial information of the parameters and the audio signal (S1428), restoring the audio signal using the spatial information of the parameters and the audio signal
- the processing step (S1428) is a step of searching for a specific semantic object or a specific parameter or specific spatial information (S1424) and editing, such as separating, deleting, adding or replacing the specific semantic object or parameter or spatial information.
- a step S1425 is included. Each of the above steps is not necessarily performed in order, but may be performed in parallel or selectively.
- the invention can also be embodied as computer readable code on a computer readable recording medium.
- Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system.
- Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include.
- the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
- functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Mathematical Physics (AREA)
Abstract
오디오 신호를 처리하는 방법 및 장치를 개시한다. 본 발명은 오디오 신호에 포함된 음원의 움직임, 잔향 특성 및 의미 객체(semantic object)를 이용하여 오디오 신호를 부호화 및 복호화함으로써, 오디오를 보다 충실하게 재생하고 효율적으로 검색 및 편집하는 것이 가능하게 한다.
Description
본 발명은 오디오 신호를 처리하는 방법 및 장치에 관한 것으로서, 보다 상세하게는 오디오 신호에 포함된 음원의 움직임, 잔향 특성, 또는 의미 객체(semantic object)를 이용하여 오디오 신호를 부호화, 복호화, 검색 또는 편집하는 것이 가능한 오디오 신호를 처리하는 방법 및 장치에 관한 것이다.
오디오 신호를 압축(compressing) 또는 부호화(encoding) 하는 방법으로, 오디오 신호를 주파수 변환하여 주파수 영역의 계수를 부호화 하여 압축하는 방식인 트랜스폼(Transform) 기반의 오디오 신호 부호화 방식 및 모든 오디오 신호를 톤(tone), 노이즈(noise), 트랜지언트(transient) 신호의 3가지 범례로 분류하고, 분류된 3가지 범례의 파라미터를 부호화 하여 압축하는 방식인 파라메트릭(Parametric) 기반의 오디오 신호 부호화 방식이 있다.
트랜스폼 기반의 오디오 신호 부호화 방식은 정보량이 많고, 의미 기반의 미디어 제어를 위해서 별도의 메타데이터가 필요하며, 파라메트릭 기반의 오디오 신호 부호화 방식은 의미 기반의 미디어 제어를 위한 상위 의미 디스크립터(High level semantic descriptor)와 연결이 어렵고, 노이즈로 표현해야 할 오디오 신호의 종류와 범위가 넓고 고음질 코딩이 어렵다.
또한, 앞으로 다가올 미래기술인 UD(Ultra Definition)에 대응하기 위해 오디오 파트에서도 다채널(22.2ch)대한 연구가 활발히 진행 중이다. 일반 가정의 오디오 시스템은 각 환경에 따라 구성이 다르며, 이에 미래에는 다채널의 오디오를 일반 가정의 오디오 시스템에 맞게 효과적으로 다운믹싱(down-mix)할 필요성이 대두될 것으로 예상된다. 움직이는 음원을 다운믹싱하여 더 작은 채널로 나타내는 경우, 스피커의 간격이 떨어져 있는 만큼 움직이는 음원을 부드럽게 표현할 수 없다.
오디오 신호로부터 음원의 위치 정보를 추정하여, 출력부에서 음원의 위치 정보에 따라 복수 개의 스피커에 출력을 배분하여 오디오 신호를 출력함으로써 청취자가 입체적인 소리를 느낄 수 있도록 하는 기술이 연구되고 있다. 이 경우 음원이 고정되어 있다는 가정하에 위치 정보를 추정하는바 음원의 움직임을 제한적으로만 표현할 수 있으며, 매 프레임마다 위치 정보를 포함시키게 되면 데이터 량이 크게 된다.
또한, 콘서트 홀이나 극장과 같은 공간의 음향학적 특성, 즉 잔향 특성 정보를 이용하여 청취자가 실제 콘서트 홀이나 극장이 아닌 곳에서 듣는 경우에도 마치 현장에서 듣는 듯한 효과를 제공하는 기술이 연구되고 있다. 그러나 오디오 신호에 새로운 공간의 잔향 특성을 적용하는 경우, 원래의 오디오 신호에 이미 잔향 성분이 들어 있음에도 불구하고 이에 추가하여 다른 잔향 효과를 부가하는 것이기 때문에 원래의 잔향 성분과 새로 부가한 잔향 성분의 간섭이 발생할 수 있다.
이를 개선하기 위하여, 오디오 신호에서 잔향 성분을 추정하여 잔향 성분과 잔향이 없는 오디오 신호를 분리하여 부호화 및 전송하는 방법이 연구되고 있는데, 이 경우 오디오 신호에서 잔향 성분을 정확히 추정하기 어렵기 때문에 순수한 음원만을 완벽히 분리해 내는 것이 어려운바, 상기와 같은 간섭이 완전히 제거되지 않는다.
도 1은 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 장치을 개략적으로 도시한 도면이다.
도 4는 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 방법 흐름을 도시한 흐름도이다.
도 5a 내지 도 5c는 본 발명의 일 실시예에 의한 움직이는 음원의 동적궤도를 이용한 오디오 신호의 부호화의 원리를 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 의한 동적 궤도 정보를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따라 음원의 동선을 복수 개의 점들로 나타내는 방법을 도시한 도면이다.
도 8은 본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 9는 본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 도면이다.
도 10은 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호 부호화 방법을 도시한 도면이다.
도 11a 내지 11c는 의미 객체의 물리적 모델의 예를 도시한 도면이다.
도 12a 내지 12d는 의미 객체의 여기 신호의 예를 도시한 도면이다.
도 13은 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 14는 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 도면이다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 방법 의 일 실시예는 적어도 하나의 움직이는 음원을 포함하는 오디오 신호를 수신하는 단계; 상기 음원에 대한 위치 정보를 수신하는 단계; 상기 위치 정보를 이용하여, 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 생성하는 단계; 및 상기 오디오 신호 및 상기 동적 궤도 정보를 부호화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동선은 상기 점들을 제어점(control point)들로 하는 베지어 곡선(Bézier curve)인 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 방법 의 일 실시예는 적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 부호화한 신호를 수신하는 단계; 및 상기 수신한 신호로부터 상기 오디오 신호 및 상기 동적 궤도 정보를 복호화 하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 프레임율을 변화시키는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 채널 수를 변화시키는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보를 이용하여, 상기 오디오 신호에서 상기 음원의 움직임이 소정의 움직임 특성에 해당하는 부분을 검색하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하며, 상기 검색하는 단계는 상기 점들을 이용하여 검색하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하며, 상기 검색하는 단계는 상기 프레임의 개수를 이용하여 검색하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 방법 의 일 실시예는 오디오 신호를 수신하는 단계; 상기 오디오 신호가 가지는 잔향 특성을 별도로 수신하는 단계; 및 상기 오디오 신호 및 상기 잔향 특성을 부호화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 오디오 신호는 소정의 공간에서 녹음된 것이며, 상기 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 한다.
바람직하게는, 상기 잔향 특성은 임펄스 응답으로 나타내는 것을 특징으로 한다.
바람직하게는, 상기 부호화 하는 단계는 상기 임펄스 응답의 초기 잔향부는 차수가 높은 무한 임펄스 응답(Infinite Impulse Response; IIR) 필터 형태로 구성하고, 상기 임펼스 응답의 후기 잔향부는 차수가 낮은 무한 임펄스 응답 필터 형태로 구성하여 부호화하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 방법 의 일 실시예는 제 1 잔향 특성을 가지는 오디오 신호 및 상기 제 1 잔향 특성을 부호화한 신호를 수신하는 단계; 및 상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 수신한 신호로부터 상기 제 1 잔향 특성을 복호화하는 단계; 상기 제 1 잔향 특성의 역함수를 구하는 단계; 및 상기 오디오 신호에 상기 역함수를 적용하여 상기 제 1 잔향 특성이 제거된 오디오 신호를 구하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 제 2 잔향 특성을 수신하는 단계; 및 상기 제 1 잔향 특성이 제거된 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 제 2 잔향 특성을 수신하는 단계는 사용자가 입력한 상기 제 2 잔향 특성을 입력장치로부터 수신하거나, 또는 메모리에 기 저장된 상기 제 2 잔향 특성을 메모리로부터 수신하는 것을 특징으로 한다.
바람직하게는, 상기 오디오 신호는 소정의 공간에서 녹음된 것이며, 상기 제 1 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 방법 의 일 실시예는 소정의 공간에서 녹음된 오디오 신호를 수신하는 단계; 상기 공간의 잔향 특성을 수신하는 단계; 상기 잔향 특성의 역함수를 구하는 단계; 상기 오디오 신호에 상기 역함수를 적용하여 상기 잔향 특성이 제거된 오디오 신호를 구하는 단계; 및 상기 잔향 특성이 제거된 오디오 신호 및 상기 잔향 특성을 부호화하는 단계를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 방법 의 일 실시예는 오디오 신호 및 잔향 특성을 부호화한 신호를 수신하는 단계; 상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계; 상기 수신한 신호로부터 상기 잔향 특성을 복호화하는 단계; 및 상기 오디오 신호에 상기 잔향 특성을 적용하여 상기 잔향 특성을 가진 오디오 신호를 구하는 단계를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 방법 의 일 실시예는 오디오 신호 및 제 1 잔향 특성을 부호화한 신호를 수신하는 단계; 상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계; 제 2 잔향 특성을 수신하는 단계; 및 상기 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 단계를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 방법 의 일 실시예는 오디오 신호를 부호화 하는 방법에 있어서, 상기 오디오 신호를 구성하는 적어도 하나의 의미 객체(semantic object)의 특성를 나타내는 적어도 하나의 파라미터를 수신하는 단계; 및 상기 파라미터를 부호화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 음높이 및 박자를 나타내는 악보(note list); 상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델(physical model); 및 상기 의미 객체를 여기시키는 여기 신호(actuating signal)를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 물리적 모델은 상기 의미 객체에 대하여, 주파수 영역에서의 출력 신호와 여기 신호의 비율인 전달함수를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 부호화 하는 단계는 상기 여기 신호의 주파수 영역에서의 계수를 부호화는 것을 특징으로 한다.
바람직하게는, 상기 부호화 하는 단계는 상기 여기 신호의 시간 영역에서의 복수 개의 점들의 좌표를 부호화하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 수신하는 단계를 더 포함하며, 상기 부호화 하는 단계는 상기 공간 정보를 포함하여 부호화하는 것을 특징으로 한다.
바람직하게는, 상기 공간 정보는 상기 잔향 특성을 나타내는 임펄스 응답을 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 방법 의 일 실시예는 오디오 신호를 구성하는 적어도 하나의 의미 객체의 특성을 나타내는 적어도 하나의 파라미터를 부호화한 입력 신호를 수신하는 단계; 및 상기 입력 신호로부터 상기 파라미터를 복호화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 이용하여 상기 오디오 신호를 복원하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 음높이 및 박자를 나타내는 악보; 상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및 상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 위치 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 입력 신호는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하여 부호화된 것이며, 상기 입력 신호로부터 상기 공간 정보를 복호화하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터 및 상기 공간 정보를 이용하여 상기 오디오 신호를 복원하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 처리하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 처리하는 단계는 상기 적어도 하나의 파라미터 중에서 소정의 오디오 특성에 해당하는 파라미터를 검색하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 처리하는 단계는 상기 파라미터를 편집하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 편집된 파라미터를 이용하여 편집된 오디오 신호를 생성하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 편집하는 단계는 상기 오디오 신호로부터 의미 객체를 삭제하거나, 상기 오디오 신호에 새로운 의미 객체를 삽입하거나, 또는 상기 오디오 신호의 의미 객체를 새로운 의미 객체로 대체하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 편집하는 단계는 상기 파라미터를 삭제하거나, 상기 오디오 신호에 새로운 파라미터를 삽입하거나, 또는 상기 파라미터를 새로운 파라미터로 대체하는 단계를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 장치 의 일 실시예는 적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원에 대한 위치 정보를 수신하는 수신부; 상기 위치 정보를 이용하여, 상기 음원의 위치의 움직임을 나타내는 동적궤도정보생성부; 및 상기 오디오 신호 및 상기 동적 궤도 정보를 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동선은 상기 점들을 제어점(control point)들로 하는 베지어 곡선(Bézier curve)인 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 장치 의 일 실시예는 적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 부호화한 신호를 수신하는 수신부; 및 상기 수신한 신호로부터 상기 오디오 신호 및 상기 동적 궤도 정보를 복호화 하는 복호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 출력분배부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 복호화부는 상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 프레임율을 변화시키는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 복호화부는 상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 채널 수를 변화시키는 것을 특징으로 한다.
바람직하게는, 상기 복호화부는 상기 동적 궤도 정보를 이용하여, 상기 오디오 신호에서 상기 음원의 움직임이 소정의 움직임 특성에 해당하는 부분을 검색하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하며, 상기 복호화부는 상기 점들을 이용하여 검색하는 것을 특징으로 한다.
바람직하게는, 상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하며, 상기 복호화부는 상기 프레임의 개수를 이용하여 검색하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 장치 의 일 실시예는 오디오 신호 및 상기 오디오 신호가 가지는 잔향 특성을 수신하는 수신부; 및 상기 오디오 신호 및 상기 잔향 특성을 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 오디오 신호는 소정의 공간에서 녹음된 것이며, 상기 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 한다. 바람직하게는, 상기 잔향 특성은 임펄스 응답으로 나타내는 것을 특징으로 한다.
바람직하게는, 상기 부호화부는 상기 임펄스 응답의 초기 잔향부는 차수가 높은 무한 임펄스 응답(Infinite Impulse Response; IIR) 필터 형태로 구성하고, 상기 임펼스 응답의 후기 잔향부는 차수가 낮은 무한 임펄스 응답 필터 형태로 구성하여 부호화하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 장치 의 일 실시예는 제 1 잔향 특성을 가지는 오디오 신호 및 상기 제 1 잔향 특성을 부호화한 신호를 수신하는 수신부; 및 상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 복호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 복호화부는 상기 수신한 신호로부터 상기 제 1 잔향 특성을 복호화하며, 상기 제 1 잔향 특성의 역함수를 구하고 상기 오디오 신호에 상기 역함수를 적용하여 상기 제 1 잔향 특성이 제거된 오디오 신호를 구하는 잔향제거부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 수신부는 제 2 잔향 특성을 수신하고, 상기 제1 잔향 특성이 제거된 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 잔향추가부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 수신부는 사용자가 입력한 상기 제 2 잔향 특성을 입력장치로부터 수신하거나, 또는 메모리에 기 저장된 상기 제2 잔향 특성을 메모리로부터 수신하는 것을 특징으로 한다.
바람직하게는, 상기 오디오 신호는 소정의 공간에서 녹음된 것이며, 상기 제 1 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 한다. 상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 장치 의 일 실시예는 소정의 공간에서 녹음된 오디오 신호 및 상기 공간의 잔향 특성을 수신하는 수신부; 상기 잔향 특성의 역함수를 구하고, 상기 오디오 신호에 상기 역함수를 적용하여 상기 잔향 특성이 제거된 오디오 신호를 구하는 잔향제거부; 및 상기 잔향 특성이 제거된 오디오 신호 및 상기 잔향 특성을 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 장치 의 일 실시예는 오디오 신호 및 잔향 특성을 부호화한 신호를 수신하는 수신부; 상기 수신한 신호로부터 상기 오디오 신호 및 상기 잔향 특성을 복호화하는 복호화부; 및 상기 오디오 신호에 상기 잔향 특성을 적용하여 상기 잔향 특성을 가진 오디오 신호를 구하는 잔향복원부를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 장치 의 일 실시예는 오디오 신호 및 제 1 잔향 특성을 부호화한 신호 및 제 2 잔향 특성을 수신하는 수신부; 상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 복호화부; 및 상기 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 잔향추가부를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 부호화 장치 의 일 실시예는 오디오 신호를 부호화 하는 장치에 있어서, 상기 오디오 신호를 구성하는 적어도 하나의 의미 객체(semantic object)의 특성를 나타내는 적어도 하나의 파라미터를 수신하는 수신부; 및 상기 파라미터를 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 음높이 및 박자를 나타내는 악보; 상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및 상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 물리적 모델은 상기 의미 객체에 대하여, 주파수 영역에서의 출력 신호와 여기 신호의 비율인 전달함수를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 부호화부는 상기 여기 신호의 주파수 영역에서의 계수를 부호화는 것을 특징으로 한다.
바람직하게는, 상기 부호화부는 상기 여기 신호의 시간 영역에서의 복수 개의 점들의 좌표를 부호화하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 수신부는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 수신하고, 상기 부호화부는 상기 공간 정보를 포함하여 부호화하는 것을 특징으로 한다.
바람직하게는, 상기 공간 정보는 상기 잔향 특성을 나타내는 임펄스 응답을 포함하는 것을 특징으로 한다.
상기 기술적 과제를 해결하기 위한, 본 발명에 의한 오디오 신호 복호화 장치 의 일 실시예는 오디오 신호를 구성하는 적어도 하나의 의미 객체의 특성을 나타내는 적어도 하나의 파라미터를 부호화한 입력 신호를 수신하는 수신부; 및 상기 입력 신호로부터 상기 파라미터를 복호화하는 복호화부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 이용하여 상기 오디오 신호를 복원하는 복원부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 음높이 및 박자를 나타내는 악보; 상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및 상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 위치 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 출력분배부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터는 상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 입력 신호는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하여 부호화된 것이며,
상기 복호화부는 상기 입력 신호로부터 상기 공간 정보를 복호화하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터 및 상기 공간 정보를 이용하여 상기 오디오 신호를 복원하는 복원부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 파라미터를 처리하는 처리부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 처리부는 상기 적어도 하나의 파라미터 중에서 소정의 오디오 특성에 해당하는 파라미터를 검색하는 검색부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 처리부는 상기 파라미터를 편집하는 편집부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 편집된 파라미터를 이용하여 편집된 오디오 신호를 생성하는 생성부를 더 포함하는 것을 특징으로 한다.
바람직하게는, 상기 편집부는 상기 오디오 신호로부터 의미 객체를 삭제하거나, 상기 오디오 신호에 새로운 의미 객체를 삽입하거나, 또는 상기 오디오 신호의 의미 객체를 새로운 의미 객체로 대체하는 것을 특징으로 한다.
바람직하게는, 상기 편집부는 상기 파라미터를 삭제하거나, 상기 오디오 신호에 새로운 파라미터를 삽입하거나, 또는 상기 파라미터를 새로운 파라미터로 대체하는 것을 특징으로 한다.
상기한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 더욱 분명해 질 것이다. 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성요소에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략할 것이다. 또한 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 설명의 편의를 위하여 필요한 경우에는 장치와 방법을 함께 서술하도록 한다.
이하에서, 본 발명의 기술적 사상을 명확화하기 위하여 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하도록 한다. 도면들 중 동일한 구성요소들에 대하여는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들을 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 또한 도면 상에서 각 구성요소의 크기는 설명의 명료성을 위하여 과장되어 있을 수 있다.
공간 정보를 이용한 오디오 신호 부호화 및 복호화
도 1은 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예 의한 잔향 처리를 위한 오디오 신호 부호화 장치(110)는 수신부(111) 및 부호화부(112)를 포함한다. 수신부(111)는 공간 A에서 녹음된 오디오 신호 s1(n) 및 공간 A의 잔향 특성을 나타내는 H1(z)를 수신한다. 여기서 s1(n)은, 잔향 성분이 없는 원래의 오디오 신호 s(n)을 공간 A에서 녹음한 것으로, 공간 A의 잔향 특성을 가지고 있다.
일 실시예에서, 공간 A의 잔향 특성 H1(z)는 공간 A의 음향학적 특성을 나타내는 임펄스 응답이다. 이를 얻기 위하여, 공간 A에서 총소리와 같은 순간적으로 강한 에너지를 갖는 신호, 즉 임펄스 신호와 유사한 신호를 발생하고 이때 공간 A에서 반응하는 소리를 녹음하여 시간 영역의 임펄스 응답 h1(n)을 획득한 후, 획득한h1(n)을 변환하여 주파수 영역의 임펄스 응답 H1(z)를 구한다. 실시예에 따라, H1(z)는 유한 임펄스 응답(Finite Impulse Response; FIR)의 형태 또는 무한 임펄스 응답(Infinite Impulse Response; IIR)의 형태로 구현할 수 있다.
일 실시예에서 임펄스 응답 H1(z)은 수학식 1로 표현되는 [ 무한] 임펄스 응답의 형태로 나타낸다.
여기서 계수 를 아래에서 설명할 부호화부(112)에서 부호화하게 되며, M과 N을 크게 할수록 잔향 특성을 표현하는 충실도가 증가한다. 일 실시예에서, 잔향 특성을 나타내는 정보의 대부분을 포함하는 초기 잔향부(예를 들어 0.4초 이내의 구간)는 M과 N을 크게 하여 잔향 특성을 충실히 표현하고, 나머지 후기 잔향부는 M과 N을 작게 하여 데이터의 크기를 줄이는 방법을 사용할 수 있다.
다른 실시예에서, 임펄스 응답의 초기 잔향부는 유한 임펄스 응답의 형태로, 후기 잔향부는 무한 임펄스 응답의 형태로 나타낼 수도 있다.
실시예에 따라, 오디오 신호 s1(n) 및 잔향 특성 H1(z)은 실제 소리를 녹음하여 얻지 않고 소프트웨어 또는 하드웨어를 이용하여 기계적으로 합성하여 생성할 수도 있다.
부호화부(112)는 상기 녹음된 오디오 신호 s1(n) 및 잔향 특성 H1(z)을 부호화하며, 부호화 된 신호 t(n)은 본 발명에 의한 복호화 장치로 전송된다. 실시예에 따라 s1(n) 및H1(z)를 함께 부호화할 수도 있으며, 각각 부호화할 수도 있다. s1(n) 및 H1(z)를 함께 부호화하는 경우 H1(z)는 메타데이터, 모드, 헤더정보 등 다양한 형태로 삽입될 수 있다. 부호화 방법은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 알려진 다양한 방법을 사용할 수 있으며, 이는 공지기술로서 이에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있는바 상술하지 않는다.
본 발명의 일 실시예 의한 잔향 처리를 위한 오디오 신호 복호화 장치(120)는 수신부(121), 복호화부(112), 잔향제거부(123), 잔향추가부(124), 메모리(125) 및 입력장치(126)를 포함할 수 있다.
수신부(121)는 부호화부(112)에 의해 부호화된 신호 t(n)을 수신하며, 또한 사용자가 원하는 잔향 특성 H2(z)를 수신한다. 실시예에 따라 수신부(121)는 사용자가 입력장치(126)를 통해 입력한 잔향 특성을 입력장치(126)로부터 수신할 수 있으며, 또는 본 복호화 장치 내의 메모리로(125)부터 상기 메모리(125)에 미리 저장되어 있는 여러 가지 잔향 특성들 중 하나를 수신할 수도 있다.
복호화부(112)는 수신된 t(n)으로부터 공간 A에서 녹음된 오디오 신호 s1(n) 및 공간 A의 잔향 특성을 나타내는 H1(z)을 복호화 한다. 복호화 방법은 상기 부호화 장치에서 사용한 부호화 방법에 대응되는 것으로, 이 또한 공지기술인바 상술하지 않는다.
잔향제거부(123)는 H1(z)의 역함수 H1-1(z)을 구하고, 이를 s1(n)에 적용하여 공간 A의 잔향 특성이 제거된 원래의 오디오 신호 s(n)을 구한다. 잔향추가부(124)는 사용자가 원하는 잔향 특성 H2(z)를 잔향 특성이 없는 오디오 신호 s(n)에 적용하여, 사용자가 원하는 잔향 특성을 가지는 오디오 신호 s2(n)을 생성한다.
상기한 바와 같이, 본 발명에 따르면 특정 공간 에서 녹음된 오디오 신호에서 그 공간의 잔향 특성을 완전히 제거한 후 사용자가 원하는 새로운 잔향 특성을 부가함으로써, 청취자는 서로 다른 잔향 특성 간의 간섭이 없는 고음질의 잔향 효과를 느낄 수 있다. 따라서 청취자는 세계적으로 유명한 콘서트 홀이나 사용자가 선호하는 공간의 현장감을 그대로 느낄 수 있게 된다.
도 2는 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 흐름도이다.
도 2를 참조하면, 본 발명에 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 방법(S210)은 공간 A에서 녹음된 오디오 신호 s1(n)을 수신하는 단계(S211), 공간 A의 잔향 특성인 제 1 잔향 특성을 나타내는 H1(z)를 수신하는 단계(S212), 상기 녹음된 오디오 신호 s1(n) 및 잔향 특성 H1(z)을 부호화하여 t(n)을 생성하는 단계(S213)을 포함한다.
본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 복호화 방법(S220)은 상기 t(n)을 수신하는 단계(S221), 수신된 t(n)으로부터 공간 A에서 녹음된 오디오 신호 s1(n)을 복호화 하는 단계(S222), 수신된 t(n)으로부터 공간 A의 잔향 특성을 나타내는 H1(z)을 복호화 하는 단계(S223), H1(z)의 역함수 H1-1(z)을 구하는 단계(S224), 이를 s1(n)에 적용하여 공간 A의 잔향 특성이 제거된 원래의 오디오 신호 s(n)을 구하는 단계(S225), 사용자가 원하는 잔향 특성 H2(z)를 수신하는 단계(S226) 및 이를 잔향 특성이 없는 오디오 신호 s(n)에 적용하여 사용자가 원하는 잔향 특성을 가지는 오디오 신호 s2(n)을 생성하는 단계(S227)를 포함한다. s1(n), H1(z) 또는 H2(z) 등 각 신호에 관한 설명은 상술하였으므로 생략한다. 상기 각 단계는 반드시 순서대로 수행되어야 하는 것이 아니고 병렬적으로, 또는 선택적으로 수행될 수 있다.
도 3은 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 장치을 개략적으로 도시한 도면이다.
도 3을 참조하면, 본 발명의 일 실시예 의한 잔향 처리를 위한 오디오 신호 부호화 장치(310)는 수신부(311), 잔향제거부(312) 및 부호화부(313)를 포함한다. 수신부(311)는 공간 A에서 녹음된 오디오 신호 s1(n) 및 공간 A의 잔향 특성을 나타내는 H1(z)를 수신한다.
잔향제거부(312)는H1(z)의 역함수 H1-1(z)을 구하고, 이를 s1(n)에 적용하여 공간A의 잔향 특성이 제거된 원래의 오디오 신호 s(n)을 구한다. 부호화부(313)는 상기 공간 A의 잔향 특성이 제거된 오디오 신호 s(n) 및 잔향 특성 H1(z)을 부호화하며, 부호화 된 신호 t(n)은 본 발명에 의한 복호화 장치로 전송된다. 실시예에 따라 s(n) 및 H1(z) 함께 부호화할 수도 있으며, 각각 부호화할 수도 있다.
본 발명의 일 실시예 의한 잔향 처리를 위한 오디오 신호 복호화 장치(320)는 수신부(321), 복호화부(322), 잔향복원부(323), 잔향추가부(324), 메모리(325) 및 입력장치(326)를 포함할 수 있다.
수신부(321)는 부호화부(313)에 의해 부호화된 신호 t(n)을 수신하며, 또한 사용자가 원하는 잔향 특성 H2(z)를 수신한다. 실시예에 따라 수신부(321)는 사용자가 입력장치(326)를 통해 입력한 잔향 특성을 입력장치(326)로부터 수신할 수 있으며, 또는 본 복호화 장치 내의 메모리(325)로부터 상기 메모리(325)에 미리 저장되어 있는 여러 가지 잔향 특성들 중 하나를 수신할 수도 있다.
복호화부(322)는 수신된 t(n)으로부터 잔향 특성이 제거된 오디오 신호 s(n) 및 공간 A의 잔향 특성을 나타내는 H1(z)을 복호화 한다. 잔향복원부(323)는 잔향 특성이 제거된 오디오 신호 s(n)에 공간 A의 잔향 특성을 나타내는 H1(z)를 적용하여 를 공간 A의 잔향 특성을 가지는 s1(n)을 복원한다.
잔향추가부(324)는 사용자가 원하는 잔향 특성 H2(z)를 잔향 특성이 없는 오디오 신호 s(n)에 적용하여, 사용자가 원하는 잔향 특성을 가지는 오디오 신호 s2(n)을 생성한다.
상기한 바와 같이, 특정 공간에서 녹음된 오디오 신호로부터 그 공간의 잔향 특성 및 잔향 특성이 없는 오디오 신호를 서로 분리하여 부호화하여 전송함으로써, 수신측에서 서로 다른 잔향 특성 간의 간섭이 없이 원하는 잔향 특성이 부가된 고음질의 오디오 신호를 생성할 수 있게 된다.
도 4는 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 및 복호화 방법 흐름을 도시한 흐름도이다.
도 4를 참조하면, 본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 부호화 방법(S410)은 공간 A에서 녹음된 오디오 신호 s1(n)을 수신하는 단계(S411), 공간 A의 잔향 특성인 제 1 잔향 특성을 나타내는 H1(z)를 수신하는 단계(S412), H1(z)의 역함수 H1-1(z)을 구하는 단계(S413), 이를 s1(n)에 적용하여 공간 A의 잔향 특성이 제거된 원래의 오디오 신호 s(n)을 구하는 단계(S414), 상기 잔향 특성이 제거된 오디오 신호 s(n) 및 잔향 특성 H1(z)을 부호화하여 t(n)을 생성하는 단계(S415)을 포함한다.
본 발명의 일 실시예에 의한 잔향 처리를 위한 오디오 신호 복호화 방법(S420)은 상기 t(n)을 수신하는 단계(S421), 수신된 t(n)으로부터 잔향 특성이 제거된 오디오 신호 s (n)을 복호화 하는 단계(S422), 수신된 t(n)으로부터 공간 A의 잔향 특성을 나타내는 H1(z)을 복호화 하는 단계(S423), 이를 s(n)에 적용하여 공간 A의 잔향 특성을 가지는 오디오 신호 s1(n)을 구하는 단계(S424), 사용자가 원하는 잔향 특성 H2(z)를 수신하는 단계(S425) 및 이를 잔향 특성이 없는 오디오 신호 s(n)에 적용하여 사용자가 원하는 잔향 특성을 가지는 오디오 신호 s2(n)을 생성하는 단계(S426)을 포함한다. 상기 각 단계는 반드시 순서대로 수행되어야 하는 것이 아니고 병렬적으로, 또는 선택적으로 수행될 수 있다.
움직이는 음원의 동적 궤도를 이용한 오디오 신호 부호화 및 복호화
도 5a 내지 도 5c는 본 발명의 일 실시예에 의한 움직이는 음원의 동적궤도를 이용한 오디오 신호의 부호화의 원리를 보여주는 도면이다.
도 5a에 컨텐츠 제작자가 성능이 좋은 복호화 장치와 많은 스피커를 가정하고 표현하고자 하였던 음원의 움직임(510)이 도시되어 있다. 도 5b에는 일정한 프레임율에 따라 음원의 위치(530)를 샘플링하여 부호화하는 경우가 도시되어 있다. 이 경우, 부호화된 신호는 일정 간격의 샘플링된 위치 정보만 가지고 있으므로 제한적인 움직임만을 표현할 수 있다. 특히 음원이 움직이는 속도가 프레임율에 비해 매우 빠르다면 생플링된 위치 정보는 음원의 원래 움직임을 충실히 표현할 수 없게 된다. 도시된 예를 보면, 음원의 원래 움직임은 도 5a의 움직임(510)과 같이 꽈배기 형태를 이루나, 부호화된 신호의 음원의 움직임은 도 5b의 움직임(520)과 같이 지그재그 형태를 이루게 된다. 이 경우 수신측에서 음원의 움직임을 보다 정교하게 나타내기 위하여 위치를 나타내는 프레임율을 높이더라도, 각 샘플링된 위치 사이의 위치에 대한 정보가 없기 때문에 원래의 움직임인 꽈배기 형태를 재현할 수는 없다.
그러나 음원의 움직임을 표현하기 위하여 샘플링 된 음원의 위치 대신 음원의 연속적인 움직임 자체, 즉 음원의 동적 궤도 정보를 이용한다면 도 5c의 움직임(540) 같이 도 5b에서 표현하지 못하는 곡선 부분들의 정보까지 정확하게 표현할 수 있어 컨텐츠 제작자가 의도한 원래의 음원의 움직임(510)을 재현할 수 있으며, 수신측에서 프레임율을 높일수록 더욱 정확한 음원의 위치를 재현할 수 있게 된다. 또한 송신측에서 매 프레임의 위치 정보를 모두 부호화하지 않고, 움직이는 음원의 동선을 나타내는 데에 필요한 최소한의 정보만을 부호화함으로써 데이터 량을 감소 시킬 수 있다.
가정의 오디오 시스템은 각 환경에 따라 다르므로, 다채널의 오디오 신호를 더 작은 다채널 오디오 신호로 변환(예를 들면 22.2채널의 오디오 신호를 5.1채널의 오디오 신호로 변환), 즉 다운믹싱할 필요가 있는데, 본 발명에 따른 동적 궤도 정보를 이용할 경우 음원의 움직임에 대한 연속적(continous)인 정보를 얻을 수 있으므로, 단속적(discrete)으로 샘플링된 위치 정보를 이용하는 경우보다 더욱 자연스럽게 움직이는 음원을 표현할 수 있게 된다. 예를 들어, 음원이 빠르게 진행하는 경우, 다채널에서 표현되던 음원을 더 작은 다채널에서 표현될 경우에는 스피커간의 간격이 넓어지기 때문에 디코더에서 아무런 processing이 없다면 음원이 불연속적으로 표현될 수 있다. 이를 해결하기 위해 디코더에서 단속적으로 샘플링 된 위치 정보를 이용한다면, 더 작은 채널의 경우는 스피커간의 간격이 넓기 때문에 물리적으로 음상이 맺히는 범위도 넓어지며, 더욱이 빠른 음원의 경우 단위시간당 맺히는 음상의 차이가 벌어지므로 단위시간당 두 음상 사이에 음원의 움직임은 단조롭게 표현될 수 밖에 없다. 그러나 음원을 움직임으로 표현시에는 디코더에서 음원제작자가 의도한 음상에 대한 정보를 줄 수 있으므로 음원의 빠름여부와 더 작은 채널 환경에서 스피커간의 간격에 관계없이 이를 효과적으로 표현해 줄 수 있다.
본 발명의 일 실시예에서, 음원의 동적 궤도 정보는 음원의 위치의 연속적인 움직임을 나타내는 동선을 표현하는 복수 개의 점들로 나타낼 수 있으며 이러한 점들이 도 5c에 점(550)들로 도시되어 있다. 복수 개의 점들을 이용하여 연속적인 동선을 표현하는 방법은 뒤에서 상세히 설명한다.
도 6은 본 발명의 일 실시예에 의한 동적 궤도 정보를 도시한 도면이다. 도 6를 참조하면, 오디오 신호에 두 개의 움직이는 음원이 존재하며, 각각 움직이는 음원 1과 움직이는 음원 2로 나타낸다. 움직이는 음원 1은 프레임 1부터 프레임 4까지 존재하며, 프레임 1부터 프레임 4까지의 동선은 두 개의 점들, 즉 제어점 11과 제어점 12로 표현된다. 움직이는 음원 1에 대한 동적 궤도 정보에는 제어점 11, 제어점 12 및 이 제어점들로 표현되는 동선이 적용되는 프레임의 개수 4가 포함되며, 이러한 동적 궤도 정보가 프레임 1에 부가 정보(610)로 삽입된다.
움직이는 음원 2는 프레임 1부터 프레임 9까지 존재하며, 프레임 1부터 프레임 3까지의 동선은 세 개의 점들, 즉 제어점 21 내지 제어점 23으로 표현되고, 프레임 4부터 프레임 9까지의 동선은 네 개의 점들, 제어점 24 내지 제어점 27로 표현된다. 프레임 1에 삽입되는 부가정보(610) 중 움직이는 음원 2에 대한 동적 궤도 정보에는 제어점 21 내지 제어점 23과 이 제어점들로 표현되는 동선이 적용되는 프레임의 개수 3이 포함된다. 프레임 4에 삽입되는 부가정보(620)에는 움직이는 음원 2에 대한 동적 궤도 정보로서 제어점 24 내지 제어점 27과 이 제어점들로 표현되는 동선이 적용되는 프레임의 개수 6이 포함된다.
여기서, 동일한 동선을 나타낼 때 제어점들의 개수가 많아질수록 음원의 움직임이 보다 정교하게 표현되게 된다. 또한, 같은 제어점들로 나타내는 동선이라도 그 적용되는 프레임 개수를 달리 함으로써 음원의 움직이는 속도를 나타낼 수 있게 된다. 즉 프레임 개수가 작으면 음원이 빠르게 움직이게 되고, 프레임 개수가 크면 음원이 느리게 움직이게 된다.
이러한 방식으로, 각 프레임마다 각 움직이는 음원에 대한 모든 위치 정보를 삽입하지 않고, 움직이는 음원의 동선을 나타내는 데에 필요한 정보만을 일부 프레임에 삽입함으로써 데이터 량을 감소 시킬 수 있게 된다.
도 7에 본 발명의 일 실시예에 따라 음원의 동선을 복수 개의 점들로 나타내는 방법이 도시되어 있다. 도 7을 참조하면, P0에서 P3로 연결된 곡선이 음원의 동선을 나타내며, P0 내지 P3의 점들이 이 동선을 표현하는 복수 개의 점들이다.
일 실시예에서, 음원의 동선은 베지어 곡선(Bézier curve)로 나타낼 수 있으며, 이를 표현하는 복수 개의 점들 P0 내지 P3는 베지어 곡선의 제어점(control point)들이다. N+1개의 제어점들을 가지는 베지어 곡선은 수학식 2에 의해 표현된다.
여기서 Pi, 즉 P0 내지 Pn은 제어점의 좌표이다.
도 7에 도시된 예에서는 제어점이 4개이므로, 음원의 동선을 나타내는 식은 수학식 3이 된다.
이 경우, 단지 네 개의 점에 대한 좌표만을 부호화함으로써 P0에서 P3로 이어지는 연속적인 곡선상의 모든 점을 표현할 수 있게 된다.
본 발명에 의한 동적 궤도 정보를 이용하면, 오디오 신호에서 음원의 움직임 특성에 따라 특정 위치를 검색할 수 있게 된다. 예를 들면, 영화에서 등장인물들이 대화를 나누는 정적인 장면이 있을 수 있고, 격투나 자동차 추격 장면과 같이 동적인 장면이 있을 수 있는데, 동적 궤도 정보를 이용하여 정적인 장면을 검색하여 보거나, 동적인 장면을 검색하여 볼 수 있다. 또한 가수들의 움직임 정보를 이용하여 노래에서 원하는 부분을 검색하여 들을 수도 있다. 실시예에 따라, 움직임 특성에 따라 오디오 신호를 검색할 때 상기 동적 궤도 정보 중 제어점들의 분포 모양이나 프레임 개수를 이용하여 검색할 수 있다.
도 8은 본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 8을 참조하면, 본 발명의 일 실시예에 의한 오디오 신호 부호화 장치(810)는 수신부(811), 동적궤도정보생성부(812) 및 부호화부(813)을 포함한다. 수신부(811)은 하나 이상의 움직이는 음원을 포함하는 오디오 신호 및 각 움직이는 음원에 대한 위치 정보를 수신하며, 동적궤도정보생성부(812)은 상기 위치 정보를 이용하여 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 생성하고, 부호화부(813)은 상기 오디오 신호 및 동적 궤도 정보를 부호화한다. 동적 궤도 정보는 메타데이터, 모드, 헤더정보 등 다양한 형태로 부호화 될 수 있다. 부호화 방법은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 알려진 다양한 방법을 사용할 수 있으며, 이는 공지기술로서 이에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있는바 상술하지 않는다.
본 발명의 일 실시예에 의한 오디오 신호 복호화 장치(820)는 수신부(821), 복호화부(822) 및 채널분배부(823)를 포함한다. 수신부(821)는 부호화부(813)에서 부호화된 신호를 수신하며, 복호화부(822)는 수신한 신호로부터 오디오 신호와 동적 궤도 정보를 복호화 한다. 채널분배부(823)는 상기 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하여 청취자가 스피커를 통하여 정위된 음원의 소리를 들을 수 있도록 한다.
채널분배부(823)가 스피커의 위치를 알고 있는 경우, 음원의 동적 궤도 정보를 이용하여 음상이 음원의 동적궤도를 따라가며 맺힐 수 있도록 제어하고, 스피커의 위치가 임의로 분포되어 있어 그 위치를 모르는 경우, 스피커의 간격이 일정하게 떨어져 있다는 가정하에 음상이 음원의 동적궤도를 따라가며 맺힐 수 있도록 각 스피커에 출력을 할당할 수 있다. 음상이 특정한 위치에 맺히도록 스피커 출력을 분배하는 방법은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 알려진 다양한 방법을 사용할 수 있으며, 이는 공지기술로서 이에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있는바 상술하지 않는다.
위에서 설명했듯이, 복호화부(822)는 동적 궤도 정보를 이용하여 음원의 움직임을 정확히 표현할 수 있도록 오디오 신호의 프레임율을 변화시키거나 채널 수를 변화시킬 수 있다. 또한 동적 궤도 정보를 이용하여 오디오 신호에서 음원이 특정한 움직임 특성을 나타내는 부분을 검색할 수 있다.
도 9는 본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 도면이다.
도 9를 참조하면, 본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 부호화 방법(S910)은 하나 이상의 움직이는 음원을 포함하는 오디오 신호를 수신하는 단계(S911), 각 음원에 대한 위치 정보를 수신하는 단계(S912), 상기 위치 정보를 이용하여 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 생성하는 단계(S913) 및 상기 오디오 신호 및 상기 동적 궤도 정보를 부호화하는 단계(S914)를 포함한다.
본 발명의 일 실시예에 의한 동적 궤도 정보를 이용한 오디오 신호 복호화 방법(S920)은 상기 부호화된 신호를 수신하는 단계(S921), 수신한 신호로부터 오디오 신호 및 동적 궤도 정보를 복호화 하는 단계(S922), 동적 궤도 정보를 이용하여 오디오 신호의 프레임율을 변화시키는 단계(S923), 동적 궤도 정보를 이용하여 오디오 신호의 채널 수를 변화시키는 단계(S924), 적 궤도 정보를 이용하여 오디오 신호 내에서 음원이 특정한 움직임 특성을 갖는 부분을 검색하는 단계(S925), 및 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 단계(S926)를 포함한다. 상기 각 단계는 반드시 순서대로 수행되어야 하는 것이 아니고 병렬적으로, 또는 선택적으로 수행될 수 있다.
의미 객체를 이용한 오디오 신호 부호화 및 복호화
의미 객체(semantic object)를 이용한 오디오 신호의 부호화는 오디오 신호를 구성하는 오디오 객체들을 의미를 갖는 최소한의 객체들로 세분화하고 세분화된 객체들을 표현할 수 있는 파라미터를 부호화 하는 방법이다.
도 10은 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호 부호화 방법을 도시한 도면이다.
도 10을 참조하면, 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호 부호화는 오디오 신호(1010)를 발생시키는 음원을 식별 가능한 의미 객체(1021 내지 1023)들로 구별하고, 구별된 의미 객체 별로 물리적 모델(1040; physical model)을 정의한 뒤, 물리적 모델의 여기 신호(1050; actuating signal)와 악보(1030; note list)를 부호화 하여 압축한다. 또한 의미 객체의 위치 정보(1060)와 공간 정보(1070), 그리고 오디오 신호의 공간정보(1080)를 함께 부호화 할 수 있다. 각 파라미터 정보는 실시예에 따라 매 프레임마다, 또는 일정 시간 간격마다 부호화할 수 있으며, 파라미터가 변화될 때마다 부호화할 수도 있다. 또한 실시예에 따라 항상 모든 파라미터 정보를 부호화할 수도 있고, 이전 파라미터에서 변화된 파라미터만 부호화할 수도 있다.
의미 객체의 물리적 모델(1040)은 의미 객체의 물리적인 특성을 표현하는 모델로서, 음원의 반복적인 생성/소멸을 표현하는 데에 효율적으로 사용할 수 있다. 의미 객체의 물리적 모델(1040)의 예가 도 11a 내지 11c에 도시되어 있다. 도 11a는 현악기인 바이올린의 물리적 모델의 예이며, 도 11b는 타악기인 심벌즈의 물리적 모델)의 예이고, 도 11c는 관악기인 클라리넷의 물리적 모델의 예이다.
본 발명의 일 실시예에서, 의미 객체의 물리적 모델(1040)은 전달함수의 계수, 예를 들면 푸리에 합성 계수(Fourier synthesis coefficient) 등으로 모델링한다. 의미 객체에 가해지는 여기 신호를 x(t)라 하고, 의미 객체에서 발생하는 오디오 신호를 y(t)라 하면, 일 실시예에서 의미 객체의 물리적 모델 H(s)는 수학식 4로 표현될 수 있다.
따라서 악기에 가해지는 여기 신호와 악기에서 발생하는 소리를 이용하여 악기의 물리적 모델인 전달함수의 계수를 구할 수 있다. 실시예에 따라, 빈번하게 쓰이는 전달함수의 계수는 복호화 장치에 미리 저장해 놓고, 부호화 시 복호화 장치에 미리 저장된 전달함수의 계수와 의미 객체의 전달함수의 계수의 차이 값을 부호화할 수 있다.
실시예에 따라, 하나의 악기에 대하여 복수 개의 물리적 모델을 정의하고, 음 높이 등에 따라 그 중 하나를 선택하여 사용할 수도 있다.
도 12a 내지 12d는 의미 객체의 여기 신호(1050)의 예를 도시한 도면으로, 각각 목관악기, 현악기, 금관악기, 그리고 건반악기의 여기 신호의 예이다.
여기 신호(1050)는 의미 객체에서 소리가 발생하도록 외부에서 가해지는 신호를 말한다. 예를 들면 피아노의 여기 신호는 피아노의 건반을 누를 때 가해지는 신호, 바이올린의 여기 신호는 바이올린의 활을 켤 때 가해지는 신호가 된다. 이는 도 12d와 같이 시간에 따른 변화로 나타낼 수 있으며, 주요 악상 기호, 연주자의 연주 스타일 등을 반영한다. 시간 영역에서, 악상 기호는 주로 여기 신호의 크기와 빠르기로 나타나며, 연주자의 연주 스타일은 주로 여기 신호의 기울기로 나타난다.
여기 신호(1050)에는 연주 스타일 등뿐만 아니라 악기의 특성도 반영될 수 있다. 예를 들어, 바이올린을 활로 켤 때 활의 마찰에 의해 현이 한쪽으로 당겨지다가 어느 임계치에 도달하면 제자리로 돌아가게 되며, 다시 활의 마찰에 의해 같은 쪽으로 당겨지기를 반복하게 되므로, 바이올린의 여기 신호는 도 12b의 톱니 파의 형태를 띠게 된다.
일 실시예에서, 여기 신호(1050)를 주파수 영역으로 변환한 후 함수로 표현하여 부호화할 수 있다. 여기 신호(1050)가 도 12a 내지 12c와 같이 주기성을 갖는 함수일 경우, 푸리에 합성 계수를 부호화할 수 있다. 다른 실시예에서는, 시간 영역에서 파형의 특징을 나타내는 주요 점들의 좌표를 부호화할 수 있다.(예: 음성코덱의 vocal cord/tract 모델) 예를 들어 도 12d에서는 (t1,a1), (t2,a2), (t3,a3), (t4,0)을 부호화함으로써 T(t)를 표현할 수 있다. 이러한 방법은 여기 신호(1050)를 간단한 계수로 부호화하는 것이 불가능한 경우에 특히 유용하다.
악보(1030)는 음높이 및 박자를 나타내는 정보이다. 일 실시예에서 악보의 음높이를 이용하여 여기 신호를 변화시킬 수 있다. 예를 들어, 악보의 음높이에 해당하는 정현파를 여기 신호(1050)에 곱하여 물리적 모델(1040)의 입력으로 사용한다.
다른 실시예에서, 악보의 음높이를 이용하여 물리적 모델을 변화시킬 수도 있으며, 상기하였듯이 복수 개의 물리적 모델 중에서 악보의 음높이에 따라 하나의 물리적 모델을 선택하여 사용할 수도 있다.
의미 객체의 파라미터는 각 의미 객체의 위치 정보(1060)를 포함할 수 있다. 위치 정보는 각 의미 객체가 존재하는 위치를 나타내는 정보로, 이를 이용하여 의미 객체를 정위할 수 있다. 의미 객체의 위치 정보는 실시예에 따라 그 절대 좌표를 부호화할 수도 있고, 또는 절대 좌표의 변화를 나타내는 움직임 벡터를 부호화하여 데이터 량을 줄일 수도 있다. 또한 앞에서 설명한 동적 궤도 정보를 부호화 할 수도 있다.
의미 객체의 파라미터는 각 의미 객체의 공간 정보(1070)를 포함할 수 있다. 공간 정보는 의미 객체가 존재하는 공간에서의 잔향 특성을 나타내는 것으로, 이를 이용하여 청취자가 마치 현장에서 듣고 있는 듯한 효과를 낼 수 있다. 실시예에 따라, 각 의미 객체 별 공간 정보가 아니라 오디오 신호 전체에 대한 공간정보(1080)를 포함하여 부호화할 수도 있다.
본 발명에 의한 의미 객체를 이용한 오디오 신호의 부호화 방법을 이용하면,의미 객체를 이용한 검색 및 편집이 가능하게 된다. 즉, 특정한 의미 객체 또는 특정한 파라미터를 검색, 분리, 또는 편집함으로써, 예를 들어 오케스트라의 연주를 담은 오디오 신호에서 특정 악기의 소리만 검색하여 듣거나, 특정 악기의 소리만 삭제하거나, 특정 악기의 소리를 다른 악기의 소리로 대체하거나, 특정 악기의 소리를 같은 악기의 다른 연주자 연주 스타일로 변경하거나, 특정 악기의 위치를 다른 곳으로 옮기는 등의 편집이 가능하게 된다.
도 13은 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 및 복호화 장치의 구성을 개략적으로 도시한 도면이다.
도 13을 참조하면, 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 장치(1310)는 수신부(1311) 및 부호화부(1312)를 포함한다. 수신부(1311)는 오디오 신호를 구성하는 의미 객체들의 특성를 나타내는 파라미터들과 오디오 신호가 발생하는 공간의 공간정보 (1080) 를 수신하며, 부호화부(1312)는 이들을 부호화한다. 부호화 방법은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 알려진 다양한 방법을 사용할 수 있으며, 이는 공지기술로서 이에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있는바 상술하지 않는다.
본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 복호화 장치(1320)는 수신부(1321), 복호화부(1322), 처리부(1323), 복원부(1326) 및 출력분배부(1327)을 포함할 수 있다. 수신부(1321)는 상기 부호화부(1312)에 의해 부호화된 신호를 수신하며, 복호화부(1322)는 수신한 신호를 복호화하여 각 의미 객체의 파라미터들과 오디오 신호의 공간 정보 (1080) 를 추출해 낸다. 처리부(1323)는 검색부(1324) 및 편집부(1325)를 포함하며, 검색부(1234)는 특정한 의미 객체나 특정한 파라미터, 또는 특정한 공간 정보를 검색하고, 편집부(1325)는 특정한 의미 객체나 파라미터, 또는 공간 정보에 대하여 분리, 삭제, 추가 또는 대체 등의 편집을 한다. 복원부(1326)는 복호화된 파라미터 및 오디오 신호의 공간정보 (1080) 를 이용하여 오디오 신호를 복원하거나, 편집된 파라미터 및 오디오 신호의 공간정보 를 이용하여 편집된 오디오 신호를 생성한다. 출력분배부(1327)는 복호화된 위치 정보 또는 편집된 위치 정보를 이용하여 복수 개의 스피커에 출력을 분배한다.
도 14는 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 및 복호화 방법의 흐름을 개략적으로 도시한 도면이다.
도 14를 참조하면, 본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 부호화 방법(S1410)은 오디오 신호를 구성하는 의미 객체들의 특성을 나타내는 파라미터들을 수신하는 단계(S1411), 오디오 신호가 발생하는 공간의 공간정보를 수신하는 단계(S1412) 및 이들을 부호화하는 단계(S1413)를 포함한다.
본 발명의 일 실시예에 의한 의미 객체를 이용한 오디오 신호의 복호화 방법(S1420)은 상기 부호화된 신호를 수신하는 단계(S1421), 수신한 신호로부터 각 의미 객체의 파라미터들을 복호화하는 단계(S1422), 수신한 신호로부터 오디오 신호의 공간정보를 복호화하는 단계(S1423), 파라미터들과 오디오 신호의 공간정보를 처리하는 단계(S1428), 파라미터들과 오디오 신호의 공간정보를 이용하여 오디오 신호를 복원하는 단계(S1426), 위치 정보를 이용하여 복수 개의 스피커에 출력을 분배하는 단계(S1427)을 포함한다. 상기 처리하는 단계(S1428)는 특정한 의미 객체나 특정한 파라미터, 또는 특정한 공간 정보를 검색하는 단계(S1424) 및 특정한 의미 객체나 파라미터, 또는 공간 정보에 대하여 분리, 삭제, 추가 또는 대체 등의 편집을 수행하는 단계(S1425)를 포함한다. 상기 각 단계는 반드시 순서대로 수행되어야 하는 것이 아니고 병렬적으로, 또는 선택적으로 수행될 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
지금까지 본 발명에 대하여 도면에 도시된 바람직한 실시예들을 중심으로 상세히 살펴보았다. 이러한 실시예들은 이 발명을 한정하려는 것이 아니라 예시적인 것에 불과하며, 한정적인 관점이 아닌 설명적인 관점에서 고려되어야 한다. 본 명세서에 특정한 용어들이 사용되었으나 이는 단지 본 발명의 개념을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 청구범위에서 청구하는 본 발명의 본질적인 기술사상에서 벗어나지 않는 범위에서 본 발명의 원리를 구현하는 다양한 변형 형태 및 균등한 타 실시예로 구현될 수 있음을 이해할 수 있을 것이다.
본 발명의 진정한 기술적 보호범위는 전술한 설명이 아니라 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 하며, 그와 동등한 범위 내에 있는 모든 구조적 및 기능적 균등물은 본 발명에 포함되는 것으로 해석되어야 할 것이다. 이러한 균등물은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 구성요소를 포함하는 것으로 이해되어야 한다.
Claims (92)
- 【청구항 1】적어도 하나의 움직이는 음원을 포함하는 오디오 신호를 수신하는 단계;상기 음원에 대한 위치 정보를 수신하는 단계;상기 위치 정보를 이용하여, 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 생성하는 단계; 및상기 오디오 신호 및 상기 동적 궤도 정보를 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 2】제 1항에 있어서, 상기 동적 궤도 정보는상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 3】제 2항에 있어서, 상기 동선은상기 점들을 제어점(control point)들로 하는 베지어 곡선(Bézier curve)인 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 4】제 2항에 있어서, 상기 동적 궤도 정보는상기 동선이 적용되는 프레임의 개수를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 5】적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 부호화한 신호를 수신하는 단계; 및상기 수신한 신호로부터 상기 오디오 신호 및 상기 동적 궤도 정보를 복호화 하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 6】제 5항에 있어서,상기 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 7】제 5항에 있어서,상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 프레임율을 변화시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 8】제 5항에 있어서,상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 채널 수를 변화시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 9】제 5항에 있어서,상기 동적 궤도 정보를 이용하여, 상기 오디오 신호에서 상기 음원의 움직임이 소정의 움직임 특성에 해당하는 부분을 검색하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 10】제 9항에 있어서,상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하며,상기 검색하는 단계는 상기 점들을 이용하여 검색하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 11】제 10항에 있어서,상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하며,상기 검색하는 단계는 상기 프레임의 개수를 이용하여 검색하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 12】오디오 신호를 수신하는 단계;상기 오디오 신호가 가지는 잔향 특성을 별도로 수신하는 단계; 및상기 오디오 신호 및 상기 잔향 특성을 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 13】제 12항에 있어서,상기 오디오 신호는 소정의 공간에서 녹음된 것이며,상기 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 14】제 12항에 있어서,상기 잔향 특성은 임펄스 응답으로 나타내는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 15】제 14항에 있어서, 상기 부호화 하는 단계는상기 임펄스 응답의 초기 잔향부는 차수가 높은 무한 임펄스 응답(Infinite Impulse Response; IIR) 필터 형태로 구성하고, 상기 임펼스 응답의 후기 잔향부는 차수가 낮은 무한 임펄스 응답 필터 형태로 구성하여 부호화하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 16】제 1 잔향 특성을 가지는 오디오 신호 및 상기 제 1 잔향 특성을 부호화한 신호를 수신하는 단계; 및상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 17】제 16항에 있어서,상기 수신한 신호로부터 상기 제 1 잔향 특성을 복호화하는 단계;상기 제 1 잔향 특성의 역함수를 구하는 단계; 및상기 오디오 신호에 상기 역함수를 적용하여 상기 제 1 잔향 특성이 제거된 오디오 신호를 구하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 18】제 17항에 있어서,제 2 잔향 특성을 수신하는 단계; 및상기 제 1 잔향 특성이 제거된 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 19】제 18항에 있어서, 상기 제 2 잔향 특성을 수신하는 단계는사용자가 입력한 상기 제 2 잔향 특성을 입력장치로부터 수신하거나, 또는 메모리에 기 저장된 상기 제 2 잔향 특성을 메모리로부터 수신하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 20】제 16항에 있어서,상기 오디오 신호는 소정의 공간에서 녹음된 것이며,상기 제 1 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 21】소정의 공간에서 녹음된 오디오 신호를 수신하는 단계;상기 공간의 잔향 특성을 수신하는 단계;상기 잔향 특성의 역함수를 구하는 단계;상기 오디오 신호에 상기 역함수를 적용하여 상기 잔향 특성이 제거된 오디오 신호를 구하는 단계; 및상기 잔향 특성이 제거된 오디오 신호 및 상기 잔향 특성을 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 22】오디오 신호 및 잔향 특성을 부호화한 신호를 수신하는 단계;상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계;상기 수신한 신호로부터 상기 잔향 특성을 복호화하는 단계; 및상기 오디오 신호에 상기 잔향 특성을 적용하여 상기 잔향 특성을 가진 오디오 신호를 구하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 23】오디오 신호 및 제 1 잔향 특성을 부호화한 신호를 수신하는 단계;상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 단계;제 2 잔향 특성을 수신하는 단계; 및상기 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 24】오디오 신호를 부호화 하는 방법에 있어서,상기 오디오 신호를 구성하는 적어도 하나의 의미 객체(semantic object)의 특성를 나타내는 적어도 하나의 파라미터를 수신하는 단계; 및상기 파라미터를 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 25】제 24항에 있어서, 상기 파라미터는상기 의미 객체의 음높이 및 박자를 나타내는 악보(note list);상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델(physical model); 및상기 의미 객체를 여기시키는 여기 신호(actuating signal)를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 26】제 25항에 있어서, 상기 물리적 모델은상기 의미 객체에 대하여, 주파수 영역에서의 출력 신호와 여기 신호의 비율인 전달함수를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 27】제 25항에 있어서, 상기 부호화 하는 단계는상기 여기 신호의 주파수 영역에서의 계수를 부호화는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 28】제 25항에 있어서, 상기 부호화 하는 단계는상기 여기 신호의 시간 영역에서의 복수 개의 점들의 좌표를 부호화하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 29】제 24항에 있어서, 상기 파라미터는상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 30】제 24항에 있어서, 상기 파라미터는상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 31】제 24항에 있어서,상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 수신하는 단계를 더 포함하며,상기 부호화 하는 단계는 상기 공간 정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 32】제 30항 또는 31항 중 어느 한 항에 있어서, 상기 공간 정보는상기 잔향 특성을 나타내는 임펄스 응답을 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 【청구항 33】오디오 신호를 구성하는 적어도 하나의 의미 객체의 특성을 나타내는 적어도 하나의 파라미터를 부호화한 입력 신호를 수신하는 단계; 및상기 입력 신호로부터 상기 파라미터를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 34】제 33항에 있어서,상기 파라미터를 이용하여 상기 오디오 신호를 복원하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 35】제 33항에 있어서, 상기 파라미터는상기 의미 객체의 음높이 및 박자를 나타내는 악보;상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 36】제 33항에 있어서, 상기 파라미터는상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 37】제 36항에 있어서,상기 위치 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 38】제 33항에 있어서, 상기 파라미터는상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 39】제 33항에 있어서,상기 입력 신호는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하여 부호화된 것이며,상기 입력 신호로부터 상기 공간 정보를 복호화하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 40】제 39항에 있어서,상기 파라미터 및 상기 공간 정보를 이용하여 상기 오디오 신호를 복원하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 41】제 33항에 있어서,상기 파라미터를 처리하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 42】제 41항에 있어서, 상기 처리하는 단계는상기 적어도 하나의 파라미터 중에서 소정의 오디오 특성에 해당하는 파라미터를 검색하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 43】제 41항에 있어서, 상기 처리하는 단계는상기 파라미터를 편집하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 44】제 43항에 있어서,상기 편집된 파라미터를 이용하여 편집된 오디오 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 45】제 43항에 있어서, 상기 파라미터를 편집하는 단계는상기 오디오 신호로부터 의미 객체를 삭제하거나, 상기 오디오 신호에 새로운 의미 객체를 삽입하거나, 또는 상기 오디오 신호의 의미 객체를 새로운 의미 객체로 대체하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 46】제 43항에 있어서, 상기 파라미터를 편집하는 단계는상기 파라미터를 삭제하거나, 상기 오디오 신호에 새로운 파라미터를 삽입하거나, 또는 상기 파라미터를 새로운 파라미터로 대체하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 복호화 방법.
- 【청구항 47】적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원에 대한 위치 정보를 수신하는 수신부;상기 위치 정보를 이용하여, 상기 음원의 위치의 움직임을 나타내는 동적궤도정보생성부; 및상기 오디오 신호 및 상기 동적 궤도 정보를 부호화하는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 48】제 47항에 있어서, 상기 동적 궤도 정보는상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 49】제 48항에 있어서, 상기 동선은상기 점들을 제어점(control point)들로 하는 베지어 곡선(Bézier curve)인 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 50】제 48항에 있어서, 상기 동적 궤도 정보는상기 동선이 적용되는 프레임의 개수를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 51】적어도 하나의 움직이는 음원을 포함하는 오디오 신호 및 상기 음원의 위치의 움직임을 나타내는 동적 궤도 정보를 부호화한 신호를 수신하는 수신부; 및상기 수신한 신호로부터 상기 오디오 신호 및 상기 동적 궤도 정보를 복호화 하는 복호화부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 52】제 51항에 있어서,상기 동적 궤도 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 출력분배부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 53】제 51항에 있어서, 상기 복호화부는상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 프레임율을 변화시키는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 54】제 51항에 있어서, 상기 복호화부는상기 동적 궤도 정보를 이용하여 상기 오디오 신호의 채널 수를 변화시키는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 55】제 51항에 있어서, 상기 복호화부는상기 동적 궤도 정보를 이용하여, 상기 오디오 신호에서 상기 음원의 움직임이 소정의 움직임 특성에 해당하는 부분을 검색하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 56】제 55항에 있어서,상기 동적 궤도 정보는 상기 음원의 위치의 움직임을 나타내는 동선을 표현하는 복수 개의 점들을 포함하며,상기 복호화부는 상기 점들을 이용하여 검색하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 57】제 56항에 있어서,상기 동적 궤도 정보는 상기 동선이 적용되는 프레임의 개수를 포함하며,상기 복호화부는 상기 프레임의 개수를 이용하여 검색하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 58】오디오 신호 및 상기 오디오 신호가 가지는 잔향 특성을 수신하는 수신부; 및상기 오디오 신호 및 상기 잔향 특성을 부호화하는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 59】제 58항에 있어서,상기 오디오 신호는 소정의 공간에서 녹음된 것이며,상기 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 60】제 58항에 있어서,상기 잔향 특성은 임펄스 응답으로 나타내는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 61】제 60항에 있어서, 상기 부호화부는상기 임펄스 응답의 초기 잔향부는 차수가 높은 무한 임펄스 응답(Infinite Impulse Response; IIR) 필터 형태로 구성하고, 상기 임펼스 응답의 후기 잔향부는 차수가 낮은 무한 임펄스 응답 필터 형태로 구성하여 부호화하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 62】제 1 잔향 특성을 가지는 오디오 신호 및 상기 제 1 잔향 특성을 부호화한 신호를 수신하는 수신부; 및상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 복호화부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 63】제 62항에 있어서,상기 복호화부는 상기 수신한 신호로부터 상기 제 1 잔향 특성을 복호화하며, 상기 제 1 잔향 특성의 역함수를 구하고 상기 오디오 신호에 상기 역함수를 적용하여 상기 제 1 잔향 특성이 제거된 오디오 신호를 구하는 잔향제거부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 64】제 63항에 있어서,상기 수신부는 제 2 잔향 특성을 수신하고,상기 제 1 잔향 특성이 제거된 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 잔향추가부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 65】제 64항에 있어서, 상기 수신부는사용자가 입력한 상기 제 2 잔향 특성을 입력장치로부터 수신하거나, 또는 메모리에 기 저장된 상기 제 2 잔향 특성을 메모리로부터 수신하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 66】제 62항에 있어서,상기 오디오 신호는 소정의 공간에서 녹음된 것이며,상기 제 1 잔향 특성은 상기 공간의 잔향 특성인 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 67】소정의 공간에서 녹음된 오디오 신호 및상기 공간의 잔향 특성을 수신하는 수신부;상기 잔향 특성의 역함수를 구하고, 상기 오디오 신호에 상기 역함수를 적용하여 상기 잔향 특성이 제거된 오디오 신호를 구하는 잔향제거부; 및상기 잔향 특성이 제거된 오디오 신호 및 상기 잔향 특성을 부호화하는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 68】오디오 신호 및 잔향 특성을 부호화한 신호를 수신하는 수신부;상기 수신한 신호로부터 상기 오디오 신호 및 상기 잔향 특성을 복호화하는 복호화부; 및상기 오디오 신호에 상기 잔향 특성을 적용하여 상기 잔향 특성을 가진 오디오 신호를 구하는 잔향복원부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 69】오디오 신호 및 제 1 잔향 특성을 부호화한 신호 및 제 2 잔향 특성을 수신하는 수신부;상기 수신한 신호로부터 상기 오디오 신호를 복호화하는 복호화부; 및상기 오디오 신호에 상기 제 2 잔향 특성을 적용하여 제 2 잔향 특성을 가진 오디오 신호를 생성하는 잔향추가부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 70】오디오 신호를 부호화 하는 장치에 있어서,상기 오디오 신호를 구성하는 적어도 하나의 의미 객체(semantic object)의 특성를 나타내는 적어도 하나의 파라미터를 수신하는 수신부; 및상기 파라미터를 부호화하는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 71】제 70항에 있어서, 상기 파라미터는상기 의미 객체의 음높이 및 박자를 나타내는 악보;상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 72】제 71항에 있어서, 상기 물리적 모델은상기 의미 객체에 대하여, 주파수 영역에서의 출력 신호와 여기 신호의 비율인 전달함수를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 73】제 71항에 있어서, 상기 부호화부는상기 여기 신호의 주파수 영역에서의 계수를 부호화는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 74】제 71항에 있어서, 상기 부호화부는상기 여기 신호의 시간 영역에서의 복수 개의 점들의 좌표를 부호화하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 75】제 70항에 있어서, 상기 파라미터는상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 76】제 70항에 있어서, 상기 파라미터는상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 77】제 70항에 있어서,상기 수신부는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 수신하고,상기 부호화부는 상기 공간 정보를 포함하여 부호화하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 78】제 76항 또는 77항 중 어느 한 항에 있어서, 상기 공간 정보는상기 잔향 특성을 나타내는 임펄스 응답을 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
- 【청구항 79】오디오 신호를 구성하는 적어도 하나의 의미 객체의 특성을 나타내는 적어도 하나의 파라미터를 부호화한 입력 신호를 수신하는 수신부; 및상기 입력 신호로부터 상기 파라미터를 복호화하는 복호화부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 80】제 79항에 있어서,상기 파라미터를 이용하여 상기 오디오 신호를 복원하는 복원부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 81】제 79항에 있어서, 상기 파라미터는상기 의미 객체의 음높이 및 박자를 나타내는 악보;상기 의미 객체의 물리적인 특성을 표현하는 물리적 모델; 및상기 의미 객체를 여기시키는 여기 신호를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 82】제 79항에 있어서, 상기 파라미터는상기 의미 객체의 위치를 나타내는 위치 정보를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 83】제 82항에 있어서,상기 위치 정보에 상응하도록 복수 개의 스피커에 출력을 분배하는 출력분배부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 84】제 79항에 있어서, 상기 파라미터는상기 의미 객체의 오디오가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 85】제 79항에 있어서,상기 입력 신호는 상기 오디오 신호가 발생하는 공간의 잔향 특성을 나타내는 공간 정보를 포함하여 부호화된 것이며,상기 복호화부는 상기 입력 신호로부터 상기 공간 정보를 복호화하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 86】제 85항에 있어서,상기 파라미터 및 상기 공간정보를 이용하여 상기 오디오 신호를 복원하는 복원부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 87】제 79항에 있어서,상기 파라미터를 처리하는 처리부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 88】제 87항에 있어서, 상기 처리부는상기 적어도 하나의 파라미터 중에서 소정의 오디오 특성에 해당하는 파라미터를 검색하는 검색부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 89】제 87항에 있어서, 상기 처리부는상기 파라미터를 편집하는 편집부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 90】제 89항에 있어서,상기 편집된 파라미터를 이용하여 편집된 오디오 신호를 생성하는 생성부를 더 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 91】제 89항에 있어서, 상기 편집부는상기 오디오 신호로부터 의미 객체를 삭제하거나, 상기 오디오 신호에 새로운 의미 객체를 삽입하거나, 또는 상기 오디오 신호의 의미 객체를 새로운 의미 객체로 대체하는 것을 특징으로 하는 오디오 신호 복호화 장치.
- 【청구항 92】제 89항에 있어서, 상기 편집부는상기 파라미터를 삭제하거나, 상기 오디오 신호에 새로운 파라미터를 삽입하거나, 또는 상기 파라미터를 새로운 파라미터로 대체하는 것을 특징으로 하는 오디오 신호 복호화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/988,430 US9294862B2 (en) | 2008-04-17 | 2009-04-16 | Method and apparatus for processing audio signals using motion of a sound source, reverberation property, or semantic object |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7121308P | 2008-04-17 | 2008-04-17 | |
US61/071,213 | 2008-04-17 | ||
KR1020090032756A KR20090110242A (ko) | 2008-04-17 | 2009-04-15 | 오디오 신호를 처리하는 방법 및 장치 |
KR10-2009-0032756 | 2009-04-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2009128666A2 true WO2009128666A2 (ko) | 2009-10-22 |
WO2009128666A3 WO2009128666A3 (ko) | 2010-02-18 |
Family
ID=41199583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2009/001988 WO2009128666A2 (ko) | 2008-04-17 | 2009-04-16 | 오디오 신호를 처리하는 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9294862B2 (ko) |
KR (1) | KR20090110242A (ko) |
WO (1) | WO2009128666A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103270508A (zh) * | 2010-09-08 | 2013-08-28 | Dts(英属维尔京群岛)有限公司 | 对漫射声音的空间音频编码和再现 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8762158B2 (en) * | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
AU2011354441B2 (en) | 2011-01-07 | 2014-07-17 | Hfi Innovation Inc. | Method and apparatus of improved intra luma prediction mode coding |
JP5675716B2 (ja) * | 2012-06-29 | 2015-02-25 | 日立オートモティブシステムズ株式会社 | 熱式空気流量センサ |
US9489954B2 (en) * | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
KR20140047509A (ko) | 2012-10-12 | 2014-04-22 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
US9336791B2 (en) * | 2013-01-24 | 2016-05-10 | Google Inc. | Rearrangement and rate allocation for compressing multichannel audio |
TWI615834B (zh) * | 2013-05-31 | 2018-02-21 | Sony Corp | 編碼裝置及方法、解碼裝置及方法、以及程式 |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
EP3099030A1 (en) * | 2015-05-26 | 2016-11-30 | Thomson Licensing | Method and device for encoding/decoding a packet comprising data representative of a haptic effect |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US10706859B2 (en) * | 2017-06-02 | 2020-07-07 | Apple Inc. | Transport of audio between devices using a sparse stream |
GB2563635A (en) | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
US11019450B2 (en) | 2018-10-24 | 2021-05-25 | Otto Engineering, Inc. | Directional awareness audio communications system |
KR102586699B1 (ko) | 2019-05-15 | 2023-10-10 | 애플 인크. | 오디오 프로세싱 |
CN113519023A (zh) * | 2019-10-29 | 2021-10-19 | 苹果公司 | 具有压缩环境的音频编码 |
CN118020319A (zh) * | 2021-09-29 | 2024-05-10 | 北京字跳网络技术有限公司 | 用于空间音频渲染的系统、方法和电子设备 |
US20240236597A1 (en) * | 2023-01-09 | 2024-07-11 | Samsung Electronics Co., Ltd. | Automatic loudspeaker directivity adaptation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0646499A (ja) * | 1992-07-24 | 1994-02-18 | Clarion Co Ltd | 音場補正装置 |
KR20000037593A (ko) * | 1998-12-01 | 2000-07-05 | 정선종 | 인공 실내 충격 응답 함수의 합성 방법 |
KR20040103443A (ko) * | 2003-05-29 | 2004-12-08 | 마이크로소프트 코포레이션 | 고도의 대화형 인터페이스를 위한 의미 객체 동기 이해 |
KR20060000780A (ko) * | 2004-06-29 | 2006-01-06 | 학교법인연세대학교 | 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치 |
KR100786022B1 (ko) * | 2006-11-07 | 2007-12-17 | 팅크웨어(주) | 측위점을 이용하여 거리를 측정하는 방법 및 장치 |
Family Cites Families (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
US5162923A (en) | 1988-02-22 | 1992-11-10 | Canon Kabushiki Kaisha | Method and apparatus for encoding frequency components of image information |
US4953160A (en) | 1988-02-24 | 1990-08-28 | Integrated Network Corporation | Digital data over voice communication |
US5109352A (en) | 1988-08-09 | 1992-04-28 | Dell Robert B O | System for encoding a collection of ideographic characters |
US5673362A (en) | 1991-11-12 | 1997-09-30 | Fujitsu Limited | Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network |
US5581653A (en) | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
KR100289733B1 (ko) | 1994-06-30 | 2001-05-15 | 윤종용 | 디지탈 오디오 부호화 방법 및 장치 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US6188769B1 (en) * | 1998-11-13 | 2001-02-13 | Creative Technology Ltd. | Environmental reverberation processor |
US6300888B1 (en) | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US7185049B1 (en) | 1999-02-01 | 2007-02-27 | At&T Corp. | Multimedia integration description scheme, method and system for MPEG-7 |
JP3739959B2 (ja) | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
US6748362B1 (en) * | 1999-09-03 | 2004-06-08 | Thomas W. Meyer | Process, system, and apparatus for embedding data in compressed audio, image video and other media files and the like |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7015978B2 (en) | 1999-12-13 | 2006-03-21 | Princeton Video Image, Inc. | System and method for real time insertion into video with occlusion on areas containing multiple colors |
JP2001333389A (ja) | 2000-05-17 | 2001-11-30 | Mitsubishi Electric Research Laboratories Inc | ビデオ再生システムおよびビデオ信号処理方法 |
JP2004507141A (ja) | 2000-08-14 | 2004-03-04 | クリアー オーディオ リミテッド | 音声強調システム |
US20020066101A1 (en) | 2000-11-27 | 2002-05-30 | Gordon Donald F. | Method and apparatus for delivering and displaying information for a multi-layer user interface |
AUPR212600A0 (en) | 2000-12-18 | 2001-01-25 | Canon Kabushiki Kaisha | Efficient video coding |
WO2002084646A1 (en) | 2001-04-18 | 2002-10-24 | Koninklijke Philips Electronics N.V. | Audio coding |
AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
US6946715B2 (en) | 2003-02-19 | 2005-09-20 | Micron Technology, Inc. | CMOS image sensor and method of fabrication |
WO2004003721A2 (en) | 2002-07-01 | 2004-01-08 | Sony Ericsson Mobile Communications Ab | Entering text into an electronic communications device |
US20040153963A1 (en) | 2003-02-05 | 2004-08-05 | Simpson Todd G. | Information entry mechanism for small keypads |
US9818136B1 (en) | 2003-02-05 | 2017-11-14 | Steven M. Hoffberg | System and method for determining contingent relevance |
KR101015497B1 (ko) | 2003-03-22 | 2011-02-16 | 삼성전자주식회사 | 디지털 데이터의 부호화/복호화 방법 및 장치 |
US7353169B1 (en) | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
WO2005004113A1 (ja) | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
US7179980B2 (en) | 2003-12-12 | 2007-02-20 | Nokia Corporation | Automatic extraction of musical portions of an audio stream |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
US7660779B2 (en) | 2004-05-12 | 2010-02-09 | Microsoft Corporation | Intelligent autofill |
JP4546151B2 (ja) * | 2004-05-26 | 2010-09-15 | 株式会社日立製作所 | 音声コミュニケーション・システム |
ATE539431T1 (de) | 2004-06-08 | 2012-01-15 | Koninkl Philips Electronics Nv | Kodierung von tonsignalen mit hall |
US8117540B2 (en) | 2005-05-18 | 2012-02-14 | Neuer Wall Treuhand Gmbh | Method and device incorporating improved text input mechanism |
US7886233B2 (en) | 2005-05-23 | 2011-02-08 | Nokia Corporation | Electronic text input involving word completion functionality for predicting word candidates for partial word inputs |
KR20060123939A (ko) | 2005-05-30 | 2006-12-05 | 삼성전자주식회사 | 영상의 복부호화 방법 및 장치 |
EP1908057B1 (en) * | 2005-06-30 | 2012-06-20 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US7630882B2 (en) | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
KR101304480B1 (ko) | 2005-07-20 | 2013-09-05 | 한국과학기술원 | 멀티미디어 컨텐츠 부호화방법 및 장치와, 부호화된멀티미디어 컨텐츠 응용방법 및 시스템 |
KR20070011092A (ko) | 2005-07-20 | 2007-01-24 | 삼성전자주식회사 | 멀티미디어 컨텐츠 부호화방법 및 장치와, 부호화된멀티미디어 컨텐츠 응용방법 및 시스템 |
KR100717387B1 (ko) | 2006-01-26 | 2007-05-11 | 삼성전자주식회사 | 유사곡 검색 방법 및 그 장치 |
DE602007004451D1 (de) * | 2006-02-21 | 2010-03-11 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
SG136836A1 (en) | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
FR2903562A1 (fr) * | 2006-07-07 | 2008-01-11 | France Telecom | Spatialisation binaurale de donnees sonores encodees en compression. |
KR101393298B1 (ko) | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
US20080025353A1 (en) * | 2006-07-28 | 2008-01-31 | Govorkov Sergei V | Wavelength locked diode-laser bar |
CN101617360B (zh) | 2006-09-29 | 2012-08-22 | 韩国电子通信研究院 | 用于编码和解码具有各种声道的多对象音频信号的设备和方法 |
KR20080071804A (ko) * | 2007-01-31 | 2008-08-05 | 삼성전자주식회사 | 오디오 신호 인코딩 장치 및 방법, 그리고 오디오 신호디코딩 장치 및 방법 |
US20080182599A1 (en) | 2007-01-31 | 2008-07-31 | Nokia Corporation | Method and apparatus for user input |
US8078978B2 (en) | 2007-10-19 | 2011-12-13 | Google Inc. | Method and system for predicting text |
JP4871894B2 (ja) | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
EP2156316A4 (en) | 2007-05-07 | 2013-03-06 | Fourthwall Media Inc | PROVISION OF PERSONALIZED RESOURCES ON REQUEST BY A BROADBAND NETWORK TO APPLICATIONS OF A CONSUMER DEVICE |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8726194B2 (en) | 2007-07-27 | 2014-05-13 | Qualcomm Incorporated | Item selection using enhanced control |
CN103442201B (zh) | 2007-09-24 | 2018-01-02 | 高通股份有限公司 | 用于语音和视频通信的增强接口 |
US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
KR101439205B1 (ko) * | 2007-12-21 | 2014-09-11 | 삼성전자주식회사 | 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치 |
ES2629453T3 (es) | 2007-12-21 | 2017-08-09 | Iii Holdings 12, Llc | Codificador, descodificador y procedimiento de codificación |
US20090198691A1 (en) | 2008-02-05 | 2009-08-06 | Nokia Corporation | Device and method for providing fast phrase input |
KR20090110244A (ko) | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
US8312032B2 (en) | 2008-07-10 | 2012-11-13 | Google Inc. | Dictionary suggestions for partial user entries |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US20110087961A1 (en) | 2009-10-11 | 2011-04-14 | A.I Type Ltd. | Method and System for Assisting in Typing |
US8898586B2 (en) | 2010-09-24 | 2014-11-25 | Google Inc. | Multiple touchpoints for efficient text input |
-
2009
- 2009-04-15 KR KR1020090032756A patent/KR20090110242A/ko not_active IP Right Cessation
- 2009-04-16 US US12/988,430 patent/US9294862B2/en not_active Expired - Fee Related
- 2009-04-16 WO PCT/KR2009/001988 patent/WO2009128666A2/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0646499A (ja) * | 1992-07-24 | 1994-02-18 | Clarion Co Ltd | 音場補正装置 |
KR20000037593A (ko) * | 1998-12-01 | 2000-07-05 | 정선종 | 인공 실내 충격 응답 함수의 합성 방법 |
KR20040103443A (ko) * | 2003-05-29 | 2004-12-08 | 마이크로소프트 코포레이션 | 고도의 대화형 인터페이스를 위한 의미 객체 동기 이해 |
KR20060000780A (ko) * | 2004-06-29 | 2006-01-06 | 학교법인연세대학교 | 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치 |
KR100786022B1 (ko) * | 2006-11-07 | 2007-12-17 | 팅크웨어(주) | 측위점을 이용하여 거리를 측정하는 방법 및 장치 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103270508A (zh) * | 2010-09-08 | 2013-08-28 | Dts(英属维尔京群岛)有限公司 | 对漫射声音的空间音频编码和再现 |
US9728181B2 (en) | 2010-09-08 | 2017-08-08 | Dts, Inc. | Spatial audio encoding and reproduction of diffuse sound |
Also Published As
Publication number | Publication date |
---|---|
US9294862B2 (en) | 2016-03-22 |
WO2009128666A3 (ko) | 2010-02-18 |
KR20090110242A (ko) | 2009-10-21 |
US20110060599A1 (en) | 2011-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2009128666A2 (ko) | 오디오 신호를 처리하는 방법 및 장치 | |
WO2012148112A9 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
KR0129829B1 (ko) | 음향 변속 재생장치 | |
WO2019139301A1 (ko) | 전자 장치 및 그 자막 표현 방법 | |
KR101582358B1 (ko) | 입력 신호값 시퀀스의 타임 스케일링을 위한 방법 | |
WO2020145472A1 (ko) | 화자 적응형 모델을 구현하고 합성 음성 신호를 생성하는 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 | |
GB0320578D0 (en) | Processing an audio signal | |
KR100256718B1 (ko) | 음피치 변환 장치 | |
WO2022059869A1 (ko) | 영상의 음질을 향상시키는 디바이스 및 방법 | |
WO2014163231A1 (ko) | 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 | |
Zhang et al. | Research on the application of computer music making technology in new media environment | |
Lee et al. | Toward a framework for interactive systems to conduct digital audio and video streams | |
WO2022108040A1 (ko) | 음성의 보이스 특징 변환 방법 | |
CN113747337B (zh) | 音频处理方法、介质、装置和计算设备 | |
Lee et al. | iSymphony: an adaptive interactive orchestral conducting system for digital audio and video streams | |
Collins et al. | klipp av: Live algorithmic splicing and audiovisual event capture | |
Brice | Multimedia and virtual reality engineering | |
WO2014112793A1 (ko) | 채널 신호를 처리하는 부호화/복호화 장치 및 방법 | |
KR200447608Y1 (ko) | 디에스피를 이용한 가라오케용 고음질 멀티채널 오디오 시스템 | |
WO2023096119A1 (ko) | 전자 장치 및 그 동작 방법 | |
WO2023219413A1 (en) | Method and system for modifying audio content for listener | |
WO2023132534A1 (ko) | 전자 장치 및 그 동작 방법 | |
WO2019041186A1 (zh) | 一种音频变声方法、智能设备及存储介质 | |
WO2022124872A1 (ko) | 전자 장치 및 전자 장치의 동작 방법 | |
WO2016163724A1 (en) | Method and system for outputting performance and creating performance content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09732837 Country of ref document: EP Kind code of ref document: A2 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12988430 Country of ref document: US |
|
NENP | Non-entry into the national phase in: |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09732837 Country of ref document: EP Kind code of ref document: A2 |