WO2009123409A2 - 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 - Google Patents
다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 Download PDFInfo
- Publication number
- WO2009123409A2 WO2009123409A2 PCT/KR2009/001615 KR2009001615W WO2009123409A2 WO 2009123409 A2 WO2009123409 A2 WO 2009123409A2 KR 2009001615 W KR2009001615 W KR 2009001615W WO 2009123409 A2 WO2009123409 A2 WO 2009123409A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- audio signal
- preset information
- bitstream
- preset
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Definitions
- the present invention relates to a method and apparatus for generating a side information bitstream of a multi-object audio signal.
- a plurality of audio objects composed of various channels cannot be variously combined according to a user's needs, and thus one audio content cannot be consumed in various forms.
- the user can only consume audio content passively.
- a multichannel audio signal is encoded into a downmixed mono channel or stereo channel signal and spatial cue information, and a high quality multichannel signal is transmitted even at a low bit rate.
- an audio signal is analyzed for each subband, and an original multichannel audio signal is recovered from the downmixed mono channel or stereo channel signal based on spatial cue information corresponding to each subband.
- the spatial cue information includes information for reconstruction of the original signal in the decoding process, and determines the sound quality of the audio signal reproduced in the SAC decoding apparatus.
- MPEG is a standardization of SAC technology under the name of MPEG Surround (MPS), and uses CLD (Channel Level Difference) as a spatial cue.
- the SAC as a multichannel audio signal, only one audio object can be encoded and decoded, so that a multi-object audio signal composed of multiple channels, for example, audio of various objects composed of mono channels, stereo channels, and 5.1 channels The signal cannot be encoded and decoded.
- Binaural Cue Coding (BCC) technique since a multi-object audio signal composed of only a mono channel can be encoded and decoded, a multi-object audio signal composed of multiple channels other than a mono channel is generated. It cannot be encoded and decoded.
- the present invention includes preset information in a frame region of an additional information bitstream generated when encoding a multi-object audio signal, thereby changing sound scene information set according to the intention of an editor or a sound engineer while the multi-object audio signal is reproduced. It is an object of the present invention to provide a method and apparatus that can be used.
- an apparatus for generating an additional information bitstream of a multi-object audio signal includes: a spatial cue information input unit for receiving spatial cue information generated from an apparatus for encoding a multi-object audio signal, and a multi-object audio signal.
- a preset information input unit configured to receive preset information on the sub information, and a sub information bit stream generator which generates the sub information bit stream using the spatial cue information and the preset information, wherein the sub information bit stream includes a header area and a frame area.
- the preset information may be included in the frame area.
- the present invention also provides an apparatus for analyzing an additional information bitstream of a multi-object audio signal, comprising: an additional information bitstream input unit for receiving an additional information bitstream and spatial cue information extraction using the additional information bitstream And a preset information extracting unit extracting preset information using the additional information bitstream, wherein the additional information bitstream includes a header area and a frame area, and the preset information is included in the frame area.
- the present invention also provides an apparatus for encoding a multi-object audio signal, comprising: an encoding unit for downmixing an audio signal composed of a plurality of objects and generating spatial cue information for an audio signal composed of a plurality of objects, and spatial cue information and audio And an additional information bitstream generator for generating additional information bitstreams using preset information on a signal, wherein the additional information bitstream includes a header area and a frame area, and the preset information is included in the frame area. do.
- the present invention also provides an apparatus for decoding a multi-object audio signal, comprising: an additional information bitstream analyzer for receiving an additional information bitstream, extracting spatial cue information and preset information included in the additional information bitstream, and downmixed input audio
- a decoding unit for restoring an audio signal composed of a plurality of objects using spatial cue information from the signal, and a rendering unit for rendering an audio signal composed of a plurality of objects using the preset information as an audio signal composed of a plurality of channels
- the additional information bitstream may include a header area and a frame area, and the preset information may be included in the frame area.
- the present invention also provides a method for generating an additional information bitstream of a multi-object audio signal, the method comprising: receiving spatial cue information generated from an apparatus for encoding a multi-object audio signal, and receiving preset information for the multi-object audio signal And generating an additional information bitstream using the spatial cue information and the preset information, wherein the additional information bitstream includes a header area and a frame area, and preset information is included in the frame area. It is done.
- the present invention provides a method for analyzing a side information bitstream of a multi-object audio signal, comprising: receiving a side information bitstream, extracting spatial cue information using the side information bitstream, and And extracting preset information, wherein the additional information bitstream includes a header area and a frame area, and the preset information is included in the frame area.
- the present invention provides a method for encoding a multi-object audio signal, the method comprising: downmixing an audio signal composed of a plurality of objects, generating spatial cue information for an audio signal composed of a plurality of objects, and performing spatial cue information and an audio signal And generating the additional information bitstream using the preset information for the additional information bitstream, wherein the additional information bitstream includes a header area and a frame area, and the preset information is included in the frame area.
- the present invention also provides a method for decoding a multi-object audio signal, comprising: receiving an additional information bitstream, extracting spatial cue information and preset information included in the additional information bitstream, and performing spatial cue information from the downmixed input audio signal. Restoring an audio signal composed of a plurality of objects by using a plurality of objects; and rendering an audio signal composed of a plurality of objects by using an preset information as an audio signal composed of a plurality of channels, wherein the additional information bitstream includes a header. And an area and a frame area, and the preset information may be included in the frame area.
- FIG. 1 is a block diagram illustrating a process of encoding, decoding and rendering a multi-object audio signal according to an embodiment of the present invention.
- FIG. 2 is a structural diagram for explaining a structure of a side information bitstream generated using a multi-object audio signal.
- FIG. 3 is a structural diagram for explaining a structure of a side information bitstream used in an embodiment of the present invention.
- FIG. 4 is a structural diagram for explaining a structure of a side information bitstream used in another embodiment of the present invention.
- FIG. 5 is a structural diagram for explaining a structure of a side information bitstream according to another embodiment of the present invention.
- the present invention relates to a compression / restore technique of a multichannel / multi-object audio signal.
- Multi-object audio encoding is a technique for compressing and transmitting different audio objects, and is based on a recently introduced spatial cue-based audio coding scheme (SAC).
- SAC spatial cue-based audio coding scheme
- an audio signal composed of a plurality of objects is input, and the input audio signal is downmixed and transmitted to the decoder.
- the side information bitstream is transmitted together with the downmixed signal.
- the additional information bitstream includes information necessary to reproduce the input multi-object audio signal, one of which is preset information (Preset-ASI: Preset Audio Scene Information). Listeners who listen to multi-object audio signals can enjoy a variety of acoustic scenes through this preset information provided by settings such as editors or sound engineers.
- the side information bitstream is divided into a header area and a frame area.
- This preset information is included only in the header area. Accordingly, the listener is provided with only the default preset information included in the header area, and the preset information cannot be updated later.
- the present invention is to solve this problem, and relates to a technique for providing a more realistic sound scene to the listener by updating the preset information during the reproduction of the multi-object audio signal.
- the present invention allows preset information to be included in the frame region of the side information bitstream. By including the preset information in the frame region and transmitting the preset information, the listener may receive not only the default preset information included in the header region but also the optimum preset information corresponding to each frame.
- the chorus sound source which was located in front of the main vocal, can be located backward in a specific time zone by the updated preset information.
- FIG. 1 is a block diagram illustrating a process of encoding, decoding, and rendering a multi-object audio signal according to an embodiment of the present invention.
- the encoding, decoding, and rendering of a multi-object audio signal is performed by the SAOC encoder 102, the bitstream formatter 104, the SAOC decoder 106, and the bitstream analyzer 108. ), The rendering matrix generator 110 and the renderer 112.
- SAOC Spatial Audio Object Coding
- a signal input as an audio object is encoded.
- Each audio object is restored by the decoder.
- the reconstructed objects are not reproduced independently, but are rendered using information about an audio object to compose a specific sound scene and output as multi-object audio signals having various channels. Accordingly, in order to obtain a specific sound scene using the multi-object audio signal according to an embodiment of the present invention, an apparatus capable of rendering information about an input audio object is required.
- the SAOC encoder 102 is a spatial cue based encoder and encodes an input audio signal as an audio object.
- the audio object input to the SAOC encoder 102 may be a mono or stereo signal.
- the SAOC encoder 102 outputs a downmixed signal from one or more input audio objects.
- the downmix signal output is a mono or stereo signal.
- the SAOC encoder 102 extracts a multi-object related spatial cue parameter required for decoding the downmixed signal and transmits it to the bitstream formatter 104.
- the SAOC encoder 102 may analyze the input audio object signal using a "heterogeneous layout SAOC" or "Faller" technique.
- the extracted spatial cue parameter includes spatial cue information. Spatial cues are generally analyzed and extracted in units of frequency domain subbands.
- the spatial cue is information used in the process of encoding and decoding an audio signal and is extracted in a frequency domain and includes information such as magnitude difference, delay difference, and correlation between two input signals. For example, a channel level difference (CLD) between audio signals representing power gain information of an audio signal, an inter-channel level difference (ICLD) between audio signals, and an inter channel time difference between audio signals.
- CLD channel level difference
- ICLD inter-channel level difference
- ICC inter-channel correlation
- Virtual Source Location Information Virtual Source Location Information
- the spatial cue parameter includes information for spatial cue and audio signal recovery and control.
- the header information included in the spatial cue parameter includes information for reconstruction and reproduction of a multi-object audio signal composed of various channels, and mono, stereo, and multichannel by defining channel information about the audio object and the ID of the corresponding audio object.
- Decoding information about an audio object may be provided.
- ID and object-specific information may be defined to distinguish whether a specific encoded audio object is a mono audio signal or a stereo audio signal.
- the bitstream formatter 104 generates a side information bitstream (SAOC bitstream) by using the spatial cue parameter transmitted from the SAOC encoder 102 and preset information (Preset-ASI) input from the outside.
- SAOC bitstream side information bitstream
- Preset-ASI preset information
- the SAOC decoder 106 reconstructs the downmixed signal output from the SAOC encoder 102 into a multi-object audio signal using the spatial cue parameter output from the bitstream analyzer 108.
- the SAOC decoder 106 may be replaced with an MPEG Surround decoder, a BCC decoder, or the like.
- the bitstream analyzer 108 analyzes the side information bitstream output from the bitstream formatter 104 to extract spatial cue parameters and preset information.
- the extracted spatial cue parameter is transmitted to the SAOC decoder 106 and preset information is transmitted to the rendering matrix generator 110.
- the rendering matrix generator 110 generates a rendering matrix using preset information output from the bitstream analyzer 108 and user control input from the outside. If preset information is not transmitted from the bitstream analyzer 108, the preset information is set to a default value.
- the renderer 112 renders the multi-object audio signal output from the SAOC decoder 106 into a multi-channel audio signal using the rendering matrix output from the rendering matrix generator 110.
- the additional information bitstream according to the present invention is not necessarily limited to the embodiment shown in FIG. That is, in the process of processing a multi-object signal, the present invention may be applied to a case in which the multi-object signal is rendered by using preset information included in the additional information bitstream.
- FIG. 2 is a structural diagram for explaining a structure of a side information bitstream generated using a multi-object audio signal.
- the side information bitstream includes a header area and a frame area.
- the header area includes header information described above, that is, channel information on the audio object, ID information of the corresponding audio object, and information on the number of audio objects for each channel.
- the frame area includes information on an actual audio signal, for example, spatial cue information.
- the preset information indicates audio object control information and layout information of the speaker.
- the preset information includes layout information of the speaker and position and level information of each audio object for configuring an audio scene suitable for the layout information of the speaker.
- the preset information may be directly expressed or may be expressed in a matrix form.
- the preset information is displayed in the playback system's layout (mono / stereo / multichannel), audio object ID, audio object layout (mono or stereo), audio object position, orientation (Azimuth, 0 degree to 360 degree), When playing stereo, it may include height (-50 degree to 90 degree) and audio object level information (-50 dB to 50 dB).
- the preset information When expressed as a matrix, the preset information has a form of a P matrix satisfying Equation 1 below.
- Preset information expressed in a matrix includes power gain information or phase information as element vectors for mapping each audio object to an output channel as in the case of direct expression.
- the preset information may define various sound scenes for different reproduction scenarios for the same content.
- some useful preset information suitable for a stereo / multichannel (5.1, 7.1, etc.) playback system may be generated and transmitted in accordance with the intention of the content creator or the purpose of the playback service.
- the side information bitstream includes preset information for rendering the multi-object audio signal.
- preset information is included only in the header area of the side information bitstream and not in the frame area. Therefore, the user (or listener) could listen to the multi-object audio signal using only the default preset information included in the header area.
- FIG. 3 is a structural diagram illustrating a structure of an additional information bitstream used in an embodiment of the present invention.
- the additional information bitstream may include preset information not only in the header region but also in the frame region, thereby making the default preset included in the header region at a specific point (or frame) during playback of the multi-object image. It is possible to provide preset information different from the information.
- the side information bitstream includes a header area and a frame area.
- the header area includes header information and default preset information. Since header information is mentioned above, a detailed description thereof will be omitted.
- the default preset information may be provided to the user early in the reproduction of the multi-object audio signal.
- the frame area includes one or more frames. This means that the first frame, the second frame,. And the like. Various information may be included in each frame area, but FIG. 3 shows that spatial cue information and preset information are included for convenience of description. As shown in FIG. 3, the first frame region includes not only the first spatial cue information but also the first preset information. Similarly, the second frame region includes second preset information along with second spatial cue information.
- the bitstream analyzer 108 shown in FIG. 1 may sequentially analyze the side information bitstream received from the bitstream formatter 104.
- the bitstream analyzer 108 which analyzes the header region and extracts the default preset information, continuously analyzes the frame region, extracts preset information included in the frame region, and provides the extracted preset information to the rendering matrix generator 110. . Therefore, when each frame region is analyzed, new preset information can be extracted and used for rendering the multi-object audio signal at the corresponding point (frame).
- each frame is rendered using the default preset information included in the header area, and when a frame including the new preset information according to an embodiment of the present invention appears, new preset information for only the corresponding frame is displayed. You can also apply new preset information to all frames that are subsequently rendered. (Of course, for a frame that contains this preset information and another preset information, the other preset information can be applied.)
- a method of utilizing the default preset information included in the header area the viewer can It is also possible to provide more preset information by providing both the default preset information of the area and the new preset information included in the frame.
- FIG. 4 is a structural diagram for explaining the structure of a side information bitstream used in another embodiment of the present invention.
- the additional information bitstream is divided into a header region and a frame region.
- the header area includes header information and default preset information.
- the frame area includes the first frame, the second frame,... And one or more frames.
- the first frame includes a plurality of preset information, that is, first preset information, second preset information, and the like. As such, by including a plurality of preset information per frame, the user may be provided with more various preset information in the section corresponding to the first frame.
- the second frame may also include a plurality of preset information like the first frame, and conversely, may not include any preset information.
- each frame regularly include preset information.
- preset information can be included as shown.
- one or more frames including preset information corresponding to each frame may be included in the frame area.
- FIG. 5 is a structural diagram illustrating a structure of a side information bitstream according to another embodiment of the present invention.
- a side information bitstream includes a preset information region (Preset-ASI Region).
- the preset information area includes a plurality of preset information (Preset-ASI (default), Preset-ASI (1) to (N)).
- One preset information includes control information and layout information of an audio object.
- the preset information may be expressed directly or in the form of a matrix. In the case of direct expression, object ID, object type, location, speaker layout, sound level information, etc. are included as many as the number of objects.
- the preset information may be expressed in a matrix form having these elements as element vectors.
Abstract
Description
Claims (20)
- 다객체 오디오 신호의 부가정보 비트스트림을 생성하는 장치에 있어서,상기 다객체 오디오 신호의 부호화 장치로부터 생성된 공간큐 정보를 입력받는 공간큐 정보 입력부;상기 다객체 오디오 신호에 대한 프리셋 정보를 입력받는 프리셋 정보 입력부; 및상기 공간큐 정보 및 상기 프리셋 정보를 이용하여 상기 부가정보 비트스트림을 생성하는 부가정보 비트스트림 생성부를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부가정보 비트스트림 생성 장치.
- 제 1항에 있어서,상기 프레임 영역은하나 이상의 프레임을 포함하고,상기 프레임 중 적어도 하나는하나 이상의 프리셋 정보를 포함하는 다객체 오디오 신호의 부가정보 비트스트림 생성 장치.
- 제 1항에 있어서,상기 프리셋 정보는상기 프리셋 정보를 포함하는 프레임에 대응하는 다객체 오디오 신호의 렌더링에 이용되는 다객체 오디오 신호의 부가정보 비트스트림 생성 장치.
- 제 1항에 있어서,상기 헤더 영역은 디폴트 프리셋 정보를 포함하고,상기 프레임 영역에 대응하는 다객체 오디오 신호의 렌더링에는, 상기 프리셋 정보 또는 상기 디폴트 프리셋 정보 중 적어도 하나가 이용되는 다객체 오디오 신호의 부가정보 비트스트림 생성 장치.
- 다객체 오디오 신호의 부가정보 비트스트림을 분석하는 장치에 있어서,상기 부가정보 비트스트림을 입력받는 부가정보 비트스트림 입력부;상기 부가정보 비트스트림을 이용하여 공간큐 정보를 추출하는 공간큐 정보 추출부; 및상기 부가정보 비트스트림을 이용하여 프리셋 정보를 추출하는 프리셋 정보 추출부를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부가정보 비트스트림 분석 장치.
- 제 5항에 있어서,상기 프레임 영역은하나 이상의 프레임을 포함하고,상기 프레임 중 적어도 하나는하나 이상의 프리셋 정보를 포함하는 다객체 오디오 신호의 부가정보 비트스트림 분석 장치.
- 제 5항에 있어서,상기 프리셋 정보는상기 프리셋 정보를 포함하는 프레임에 대응하는 다객체 오디오 신호의 렌더링에 이용되는 다객체 오디오 신호의 부가정보 비트스트림 분석 장치.
- 제 5항에 있어서,상기 헤더 영역은 디폴트 프리셋 정보를 포함하고,상기 프레임 영역에 대응하는 다객체 오디오 신호의 렌더링에는, 상기 프리셋 정보 또는 상기 디폴트 프리셋 정보 중 적어도 하나가 이용되는 다객체 오디오 신호의 부가정보 비트스트림 분석 장치.
- 다객체 오디오 신호의 부호화 장치에 있어서,다수의 객체로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐 정보를 생성하는 인코딩부; 및상기 공간큐 정보 및 상기 오디오 신호에 대한 프리셋 정보를 이용하여 부가정보 비트스트림을 생성하는 부가정보 비트스트림 생성부를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부호화 장치.
- 다객체 오디오 신호의 복호화 장치에 있어서,부가정보 비트스트림을 입력받고, 상기 부가정보 비트스트림에 포함된 공간큐 정보 및 프리셋 정보를 추출하는 부가정보 비트스트림 분석부;다운믹스된 입력 오디오 신호로부터 상기 공간큐 정보를 이용하여 다수의 객체로 구성된 오디오 신호를 복원하는 디코딩부; 및상기 프리셋 정보를 이용하여 상기 다수의 객체로 구성된 오디오 신호를 다수의 채널로 구성된 오디오 신호로 렌더링하는 렌더링부를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 복호화 장치.
- 다객체 오디오 신호의 부가정보 비트스트림을 생성하는 방법에 있어서,상기 다객체 오디오 신호의 부호화 장치로부터 생성된 공간큐 정보를 입력받는 단계;상기 다객체 오디오 신호에 대한 프리셋 정보를 입력받는 단계; 및상기 공간큐 정보 및 상기 프리셋 정보를 이용하여 상기 부가정보 비트스트림을 생성하는 단계를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부가정보 비트스트림 생성 방법.
- 제 11항에 있어서,상기 프레임 영역은하나 이상의 프레임을 포함하고,상기 프레임 중 적어도 하나는하나 이상의 프리셋 정보를 포함하는 다객체 오디오 신호의 부가정보 비트스트림 생성 방법.
- 제 11항에 있어서,상기 프리셋 정보는상기 프리셋 정보를 포함하는 프레임에 대응하는 다객체 오디오 신호의 렌더링에 이용되는 다객체 오디오 신호의 부가정보 비트스트림 생성 방법.
- 제 11항에 있어서,상기 헤더 영역은 디폴트 프리셋 정보를 포함하고,상기 프레임 영역에 대응하는 다객체 오디오 신호의 렌더링에는, 상기 프리셋 정보 또는 상기 디폴트 프리셋 정보 중 적어도 하나가 이용되는 다객체 오디오 신호의 부가정보 비트스트림 생성 방법.
- 다객체 오디오 신호의 부가정보 비트스트림을 분석하는 방법에 있어서,상기 부가정보 비트스트림을 입력받는 단계;상기 부가정보 비트스트림을 이용하여 공간큐 정보를 추출하는 단계; 및상기 부가정보 비트스트림을 이용하여 프리셋 정보를 추출하는 단계를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부가정보 비트스트림 분석 방법.
- 제 15항에 있어서,상기 프레임 영역은하나 이상의 프레임을 포함하고,상기 프레임 중 적어도 하나는하나 이상의 프리셋 정보를 포함하는 다객체 오디오 신호의 부가정보 비트스트림 분석 방법.
- 제 15항에 있어서,상기 프리셋 정보는상기 프리셋 정보를 포함하는 프레임에 대응하는 다객체 오디오 신호의 렌더링에 이용되는 다객체 오디오 신호의 부가정보 비트스트림 분석 방법.
- 제 15항에 있어서,상기 헤더 영역은 디폴트 프리셋 정보를 포함하고,상기 프레임 영역에 대응하는 다객체 오디오 신호의 렌더링에는, 상기 프리셋 정보 또는 상기 디폴트 프리셋 정보 중 적어도 하나가 이용되는 다객체 오디오 신호의 부가정보 비트스트림 분석 방법.
- 다객체 오디오 신호의 부호화 방법에 있어서,다수의 객체로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐 정보를 생성하는 단계; 및상기 공간큐 정보 및 상기 오디오 신호에 대한 프리셋 정보를 이용하여 부가정보 비트스트림을 생성하는 단계를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 부호화 방법.
- 다객체 오디오 신호의 복호화 방법에 있어서,부가정보 비트스트림을 입력받고, 상기 부가정보 비트스트림에 포함된 공간큐 정보 및 프리셋 정보를 추출하는 단계;다운믹스된 입력 오디오 신호로부터 상기 공간큐 정보를 이용하여 다수의 객체로 구성된 오디오 신호를 복원하는 단계; 및상기 프리셋 정보를 이용하여 상기 다수의 객체로 구성된 오디오 신호를 다수의 채널로 구성된 오디오 신호로 렌더링하는 단계를 포함하고,상기 부가정보 비트스트림은 헤더 영역 및 프레임 영역을 포함하며, 상기 프리셋 정보는 상기 프레임 영역에 포함되는 다객체 오디오 신호의 복호화 방법.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009801117984A CN101981617B (zh) | 2008-03-31 | 2009-03-30 | 多对象音频信号的附加信息比特流产生方法和装置 |
US12/933,019 US9299352B2 (en) | 2008-03-31 | 2009-03-30 | Method and apparatus for generating side information bitstream of multi-object audio signal |
EP09727018.5A EP2273492B1 (en) | 2008-03-31 | 2009-03-30 | Method and apparatus for generating additional information bit stream of multi-object audio signal |
EP16193463.3A EP3147899B1 (en) | 2008-03-31 | 2009-03-30 | Method and apparatus for analysing a side information bitstream of a multi-object audio signal |
ES09727018.5T ES2622060T3 (es) | 2008-03-31 | 2009-03-30 | Método y aparato para generar flujo de bits de información adicional de señal de audio multiobjeto |
US15/041,209 US20160165375A1 (en) | 2008-03-31 | 2016-02-11 | Method and apparatus for generating side information bitstream of multi-object audio signal |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080029562 | 2008-03-31 | ||
KR10-2008-0029562 | 2008-03-31 | ||
KR20080034161 | 2008-04-14 | ||
KR10-2008-0034161 | 2008-04-14 | ||
KR10-2009-0024374 | 2009-03-23 | ||
KR1020090024374A KR101461685B1 (ko) | 2008-03-31 | 2009-03-23 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US12/933,019 A-371-Of-International US9299352B2 (en) | 2008-03-31 | 2009-03-30 | Method and apparatus for generating side information bitstream of multi-object audio signal |
US15/041,209 Continuation US20160165375A1 (en) | 2008-03-31 | 2016-02-11 | Method and apparatus for generating side information bitstream of multi-object audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2009123409A2 true WO2009123409A2 (ko) | 2009-10-08 |
WO2009123409A3 WO2009123409A3 (ko) | 2009-11-26 |
Family
ID=41136037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2009/001615 WO2009123409A2 (ko) | 2008-03-31 | 2009-03-30 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9299352B2 (ko) |
EP (2) | EP3147899B1 (ko) |
KR (2) | KR101461685B1 (ko) |
CN (3) | CN102800320B (ko) |
ES (2) | ES2705100T3 (ko) |
WO (1) | WO2009123409A2 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2508011A1 (en) * | 2009-11-30 | 2012-10-10 | Nokia Corp. | Audio zooming process within an audio scene |
EP2511908A2 (en) * | 2009-12-11 | 2012-10-17 | Electronics and Telecommunications Research Institute | Audio authoring apparatus and audio playback apparatus for an object-based audio service, and audio authoring method and audio playback method using same |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5941610B2 (ja) | 2006-12-27 | 2016-06-29 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute | トランスコーディング装置 |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
KR101619578B1 (ko) * | 2010-12-03 | 2016-05-18 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 기하학 기반의 공간 오디오 코딩을 위한 장치 및 방법 |
KR20120071072A (ko) * | 2010-12-22 | 2012-07-02 | 한국전자통신연구원 | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 |
AU2012230440C1 (en) | 2011-03-18 | 2016-09-08 | Dolby International Ab | Frame element positioning in frames of a bitstream representing audio content |
WO2014187990A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
ES2643789T3 (es) * | 2013-05-24 | 2017-11-24 | Dolby International Ab | Codificación eficiente de escenas de audio que comprenden objetos de audio |
IL302328B1 (en) | 2013-05-24 | 2024-01-01 | Dolby Int Ab | Encoding audio scenes |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
US9756448B2 (en) | 2014-04-01 | 2017-09-05 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
WO2015150480A1 (en) * | 2014-04-02 | 2015-10-08 | Dolby International Ab | Exploiting metadata redundancy in immersive audio metadata |
EP4318466A3 (en) * | 2014-09-04 | 2024-03-13 | Sony Group Corporation | Transmission device, transmission method, reception device and reception method |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
KR20180093676A (ko) | 2017-02-14 | 2018-08-22 | 한국전자통신연구원 | 스테레오 오디오 신호에 대한 태그 삽입 장치 및 태그 삽입 방법, 그리고, 태그 추출 장치 및 태그 추출 방법 |
US10891962B2 (en) * | 2017-03-06 | 2021-01-12 | Dolby International Ab | Integrated reconstruction and rendering of audio signals |
CN108550369B (zh) * | 2018-04-14 | 2020-08-11 | 全景声科技南京有限公司 | 一种可变长度的全景声信号编解码方法 |
GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
US11750745B2 (en) * | 2020-11-18 | 2023-09-05 | Kelly Properties, Llc | Processing and distribution of audio signals in a multi-party conferencing environment |
KR20220151953A (ko) | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6624873B1 (en) * | 1998-05-05 | 2003-09-23 | Dolby Laboratories Licensing Corporation | Matrix-encoded surround-sound channels in a discrete digital sound format |
US6931371B2 (en) * | 2000-08-25 | 2005-08-16 | Matsushita Electric Industrial Co., Ltd. | Digital interface device |
US7378586B2 (en) * | 2002-10-01 | 2008-05-27 | Yamaha Corporation | Compressed data structure and apparatus and method related thereto |
EP1427252A1 (en) * | 2002-12-02 | 2004-06-09 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for processing audio signals from a bitstream |
EP1647010B1 (de) * | 2003-07-21 | 2017-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiodateiformatumwandlung |
JP2005149608A (ja) * | 2003-11-14 | 2005-06-09 | Renesas Technology Corp | 音声データ記録/再生システムとその音声データ記録媒体 |
DE10355146A1 (de) | 2003-11-26 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Tieftonkanals |
AU2006266579B2 (en) * | 2005-06-30 | 2009-10-22 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
KR20070005468A (ko) * | 2005-07-05 | 2007-01-10 | 엘지전자 주식회사 | 부호화된 오디오 신호의 생성방법, 그 부호화된 오디오신호를 생성하는 인코딩 장치 그리고 그 부호화된 오디오신호를 복호화하는 디코딩 장치 |
US8755442B2 (en) * | 2005-10-05 | 2014-06-17 | Lg Electronics Inc. | Method of processing a signal and apparatus for processing a signal |
WO2007083958A1 (en) * | 2006-01-19 | 2007-07-26 | Lg Electronics Inc. | Method and apparatus for decoding a signal |
KR101294022B1 (ko) | 2006-02-03 | 2013-08-08 | 한국전자통신연구원 | 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치 |
KR100897809B1 (ko) * | 2006-02-07 | 2009-05-15 | 엘지전자 주식회사 | 부호화/복호화 장치 및 방법 |
BRPI0708047A2 (pt) * | 2006-02-09 | 2011-05-17 | Lg Eletronics Inc | método para codificar e decodificar sinal de áudio com base em objeto e equipamento para o mesmo |
KR20070088958A (ko) * | 2006-02-27 | 2007-08-30 | 한국전자통신연구원 | 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치 |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US20080004729A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
EP2084703B1 (en) * | 2006-09-29 | 2019-05-01 | LG Electronics Inc. | Apparatus for processing mix signal and method thereof |
CA2666640C (en) * | 2006-10-16 | 2015-03-10 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
KR101120909B1 (ko) * | 2006-10-16 | 2012-02-27 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체 |
AU2007328614B2 (en) * | 2006-12-07 | 2010-08-26 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
JP5941610B2 (ja) * | 2006-12-27 | 2016-06-29 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute | トランスコーディング装置 |
ATE526659T1 (de) * | 2007-02-14 | 2011-10-15 | Lg Electronics Inc | Verfahren und vorrichtung zum kodieren von einem audiosignal |
KR20080082916A (ko) | 2007-03-09 | 2008-09-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 이의 장치 |
PL2137725T3 (pl) * | 2007-04-26 | 2014-06-30 | Dolby Int Ab | Urządzenie i sposób do syntetyzowania sygnału wyjściowego |
US8055708B2 (en) * | 2007-06-01 | 2011-11-08 | Microsoft Corporation | Multimedia spaces |
US8073125B2 (en) * | 2007-09-25 | 2011-12-06 | Microsoft Corporation | Spatial audio conferencing |
CA2701457C (en) * | 2007-10-17 | 2016-05-17 | Oliver Hellmuth | Audio coding using upmix |
US20090136087A1 (en) * | 2007-11-28 | 2009-05-28 | Joseph Oren | Replacement Based Watermarking |
JP5243553B2 (ja) * | 2008-01-01 | 2013-07-24 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
KR20100131467A (ko) * | 2008-03-03 | 2010-12-15 | 노키아 코포레이션 | 복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치 |
US8229191B2 (en) * | 2008-03-05 | 2012-07-24 | International Business Machines Corporation | Systems and methods for metadata embedding in streaming medical data |
-
2009
- 2009-03-23 KR KR1020090024374A patent/KR101461685B1/ko active IP Right Grant
- 2009-03-30 WO PCT/KR2009/001615 patent/WO2009123409A2/ko active Application Filing
- 2009-03-30 EP EP16193463.3A patent/EP3147899B1/en not_active Not-in-force
- 2009-03-30 CN CN201210234051.1A patent/CN102800320B/zh not_active Expired - Fee Related
- 2009-03-30 US US12/933,019 patent/US9299352B2/en not_active Expired - Fee Related
- 2009-03-30 CN CN2009801117984A patent/CN101981617B/zh not_active Expired - Fee Related
- 2009-03-30 EP EP09727018.5A patent/EP2273492B1/en not_active Not-in-force
- 2009-03-30 CN CN201210234052.6A patent/CN102800321B/zh not_active Expired - Fee Related
- 2009-03-30 ES ES16193463T patent/ES2705100T3/es active Active
- 2009-03-30 ES ES09727018.5T patent/ES2622060T3/es active Active
-
2014
- 2014-01-28 KR KR1020140010718A patent/KR101506837B1/ko active IP Right Grant
-
2016
- 2016-02-11 US US15/041,209 patent/US20160165375A1/en not_active Abandoned
Non-Patent Citations (2)
Title |
---|
None |
See also references of EP2273492A4 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2508011A1 (en) * | 2009-11-30 | 2012-10-10 | Nokia Corp. | Audio zooming process within an audio scene |
EP2508011A4 (en) * | 2009-11-30 | 2013-05-01 | Nokia Corp | AUDIO ZOOM PROCEDURE IN AN AUDIOSCENE |
US8989401B2 (en) | 2009-11-30 | 2015-03-24 | Nokia Corporation | Audio zooming process within an audio scene |
EP2511908A2 (en) * | 2009-12-11 | 2012-10-17 | Electronics and Telecommunications Research Institute | Audio authoring apparatus and audio playback apparatus for an object-based audio service, and audio authoring method and audio playback method using same |
EP2511908A4 (en) * | 2009-12-11 | 2013-07-31 | Korea Electronics Telecomm | AUDIO CREATING APPARATUS AND AUDIO PLAYING APPARATUS FOR AUDIO BASED OBJECT BASED SERVICE, AND AUDIO CREATING METHOD AND AUDIO PLAYING METHOD USING THE SAME |
Also Published As
Publication number | Publication date |
---|---|
KR101506837B1 (ko) | 2015-03-31 |
ES2622060T3 (es) | 2017-07-05 |
EP2273492A4 (en) | 2012-06-13 |
EP2273492A2 (en) | 2011-01-12 |
US9299352B2 (en) | 2016-03-29 |
KR20090104674A (ko) | 2009-10-06 |
US20110015770A1 (en) | 2011-01-20 |
CN102800320B (zh) | 2017-04-12 |
KR20140028094A (ko) | 2014-03-07 |
US20160165375A1 (en) | 2016-06-09 |
CN102800320A (zh) | 2012-11-28 |
KR101461685B1 (ko) | 2014-11-19 |
CN101981617A (zh) | 2011-02-23 |
WO2009123409A3 (ko) | 2009-11-26 |
CN101981617B (zh) | 2012-08-29 |
EP3147899B1 (en) | 2018-11-07 |
CN102800321B (zh) | 2017-04-12 |
CN102800321A (zh) | 2012-11-28 |
EP2273492B1 (en) | 2017-01-11 |
ES2705100T3 (es) | 2019-03-21 |
EP3147899A1 (en) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2009123409A2 (ko) | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 | |
WO2010143907A2 (ko) | 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더 | |
JP6088444B2 (ja) | 3次元オーディオサウンドトラックの符号化及び復号 | |
US6829018B2 (en) | Three-dimensional sound creation assisted by visual information | |
EP3059732B1 (en) | Audio decoding device | |
WO2014021588A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20080029940A (ko) | 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법 | |
WO2014171706A1 (ko) | 가상 객체 생성을 이용한 오디오 신호 처리 방법 | |
US20050273322A1 (en) | Audio signal encoding and decoding apparatus | |
WO2015037905A1 (ko) | 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법 | |
WO2014175668A1 (ko) | 오디오 신호 처리 방법 | |
WO2019054559A1 (ko) | Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치 | |
KR20140046980A (ko) | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 | |
KR20080086552A (ko) | 오디오 신호의 디코딩 방법 및 장치 | |
KR102370672B1 (ko) | 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치 | |
WO2014021586A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
WO2012087042A2 (ko) | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 | |
KR102439339B1 (ko) | 멀티미디어 데이터 생성 장치 및 방법, 멀티미디어 데이터 재생 장치 및 방법 | |
CN110782865B (zh) | 一种三维声音创作交互式系统 | |
WO2013073810A1 (ko) | 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법 | |
JP4124702B2 (ja) | 立体音響信号符号化装置、立体音響信号符号化方法および立体音響信号符号化プログラム | |
WO2014171791A1 (ko) | 다채널 오디오 신호 처리 장치 및 방법 | |
KR102631005B1 (ko) | 멀티미디어 데이터 생성 장치 및 방법, 멀티미디어 데이터 재생 장치 및 방법 | |
WO2016108655A1 (ko) | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 | |
KR102217997B1 (ko) | 멀티미디어 데이터 생성 장치 및 방법, 멀티미디어 데이터 재생 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 200980111798.4 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09727018 Country of ref document: EP Kind code of ref document: A2 |
|
REEP | Request for entry into the european phase |
Ref document number: 2009727018 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2009727018 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12933019 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |