WO2015152661A1 - Method and apparatus for rendering audio object - Google Patents

Method and apparatus for rendering audio object Download PDF

Info

Publication number
WO2015152661A1
WO2015152661A1 PCT/KR2015/003326 KR2015003326W WO2015152661A1 WO 2015152661 A1 WO2015152661 A1 WO 2015152661A1 KR 2015003326 W KR2015003326 W KR 2015003326W WO 2015152661 A1 WO2015152661 A1 WO 2015152661A1
Authority
WO
WIPO (PCT)
Prior art keywords
type
audio object
audio
determining
spread parameter
Prior art date
Application number
PCT/KR2015/003326
Other languages
French (fr)
Korean (ko)
Inventor
전상배
김선민
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2015152661A1 publication Critical patent/WO2015152661A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention is directed to a method and apparatus for rendering an audio object.
  • the audio object When object rendering is performed on an audio signal including at least one audio object, such as Moving Picture Experts Group-H (MPEG-H), the audio object may be positioned at a virtual source location.
  • MPEG-H Moving Picture Experts Group-H
  • the interference between channels increases, so that the sound field and the space sense intended by the creator for each object may not be properly expressed. Can be.
  • the present invention relates to a method and apparatus for rendering an audio object for effectively expressing a color, a feeling, a distance, a feeling of space, etc. of a sound according to a creator's intention by determining a degree of spread of the audio object based on the type of the audio object.
  • the audio object may be output in an optimal state according to the producer's intention to provide to the listener.
  • FIG. 1 is a diagram illustrating an example of rendering an audio object in a two-dimensional space according to an embodiment.
  • FIG. 2 is a diagram illustrating an example of rendering an audio object in a 3D space according to an embodiment.
  • FIG. 3 is a diagram illustrating an example of rendering an audio object spread in a plurality of directions according to an embodiment.
  • FIG. 4 is a flowchart illustrating a method of determining a spread parameter based on a type of an audio object according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a method of determining a type of an audio object according to an exemplary embodiment.
  • FIG. 6 is a block diagram illustrating an internal structure of an apparatus for rendering an audio object according to an exemplary embodiment.
  • a method of rendering an audio object may include obtaining information related to the audio object; Determining a spread parameter representing a degree to which the audio object spreads in at least one direction based on the information related to the obtained object; Determining, according to the determined parameter, at least one direction in which the audio object is located; Based on the determined direction, rendering the audio object.
  • the information related to the object includes information about a type of an object, and the type of the object is classified according to whether the audio object provides a sense of space or reverberation to a listener.
  • the type of the audio object includes at least one of a direct type, an ambience type, an applause type, a soft decision type, and a dialog type.
  • the determining of the spread parameter includes determining the spread parameter to a value less than or equal to a reference value when the obtained object type is an ambience type or an applause type.
  • the determining of the spread parameter may include determining a spread parameter based on information indicating a degree of spatiality of the audio object when the obtained object type is a soft decision type.
  • the determining of the spread parameter includes determining the spread parameter based on at least one feature of the object and a rendering environment when the obtained object type is a direct type.
  • the determining of the spread parameter includes determining the spread parameter as a value equal to or greater than a reference value when the obtained object type is a dialog type.
  • an apparatus for rendering an audio object includes a receiver configured to receive an audio signal including at least one audio object and to extract an audio object from the audio signal; Acquiring information related to the audio object, determining a spread parameter indicating a degree to which the audio object spreads in at least one direction based on the information related to the obtained object, and according to the determined parameter, A controller which determines at least one orientation to be positioned and renders the audio object based on the determined direction; And a sound output unit configured to output the rendered audio object.
  • any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • a part is “connected” with another part, this includes not only the case where it is “directly connected” but also the case where it is “electrically connected” with another element between them.
  • part refers to a hardware component, such as software, FPGA or ASIC, and “part” plays certain roles. However, “part” is not meant to be limited to software or hardware.
  • the “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors.
  • a “part” refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables.
  • the functionality provided within the components and “parts” may be combined into a smaller number of components and “parts” or further separated into additional components and “parts”.
  • an audio object refers to each of sound components included in an audio signal.
  • One audio signal may include various audio objects.
  • the audio signal generated by recording the performance of an orchestra includes a plurality of audio objects generated from a plurality of musical instruments such as guitar, violin, and oboe.
  • the sound image means a position where the listener feels as where the sound source occurs.
  • the actual sound is output from the speaker, but the point where each sound source is virtually called a sound image.
  • the size and position of the sound image may vary according to the speaker from which sound is output. When the position of the sound of each sound source is clear and the sound of each sound source is well heard by the listener, it may be determined that the sound position is excellent.
  • the described technique is described based on the MPEG-H standard, but is not limited thereto, and may be applied to other audio coding techniques.
  • FIG. 1 is a diagram illustrating an example of rendering an audio object in a two-dimensional space according to an embodiment.
  • the audio object 100 may be output through the speakers 1 and 2 110 and 120.
  • the audio object 100 may be rendered and output to the speakers 1 and 2 110 and 120.
  • the volume of the sound constituting the audio object 100 output through the speakers 1 and 2 110 and 120 may be determined.
  • the speakers 1 and 2 110 may be positioned so that the sound image of the audio object 100 may be located at a position close to the speaker 1 110. 120 may be adjusted.
  • the acoustic size of the audio object 100 output through the speaker 1 110 may be greater than the acoustic size of the audio object 100 output through the speaker 2 120.
  • Equation 1 The sound of the audio object 100 that may be output through each speaker described above may be represented by Equation 1 below.
  • Direction vector indicating the sound image position of the audio object 100 Is a unit direction vector representing the output positions of the speakers 1 and 2 (110, 120) as It can be expressed as. Each direction vector may be determined according to the position of the sound image or the position of the speaker with respect to the position 130 of the listener.
  • g 1 and g 2 are gain factors that can be applied to the direction vectors of speakers 1 and 2, And A value that can be determined based on the value of.
  • the gain factor value corresponding to the sound volume of the audio objects 100 output to the speakers 1 and 2 may be determined according to the sound image of the audio object 100 and the positions of the speakers.
  • FIG. 2 is a diagram illustrating an example of rendering an audio object in a 3D space according to an embodiment.
  • an audio object may be output through three speakers by being rendered in channels m, n, and k. Since the position of the virtual sound source where the sound image of the audio object can be located is within a triangle formed by the channels m, n and k, the audio object may be output through the speakers of the channels m, n and k.
  • the direction vector p represents the position of the sound image on which the audio object is positioned with respect to the position 210 of the listener.
  • the vectors l m , l n , l k of the channels m, n, k indicate the positions of the channels m, n, k, respectively, with respect to the position 210 of the listener, and are unit vectors of size 1.
  • the direction vector p of the audio object may be expressed as Equation 2, similarly to Equation 1.
  • the gain factor values g m , g n , and g k corresponding to the loudness of the audio object 210 output to the speakers of channels m, n, and k are the sound of the audio object 210 and the speakers of channels m, n, and k. Can be determined according to their location.
  • the sound image of the audio object 100 may be positioned at a plurality of positions as well as one position as shown in FIGS. 1 and 2.
  • the sound image of the audio object 100 may exist in a plurality of directions spread within a predetermined range about the reference direction. This will be described in more detail with reference to FIG. 3.
  • FIG. 3 is a diagram illustrating an example of rendering an audio object spread in a plurality of directions according to an embodiment.
  • a sound image of an audio object may be positioned in a plurality of directions spreading in a range of an angle ⁇ about a reference direction 210 according to a multiple-direction amplitude panning (MDAP) method.
  • MDAP multiple-direction amplitude panning
  • the audio object When the audio object is output only in the reference direction 210, the audio object may be output through speakers 1, 2, and 5 constituting a triangle in which the reference direction 210 is located.
  • the audio objects when the audio objects are output in a plurality of directions as shown in FIG. 3, the audio objects may be output through the speakers 1, 2, 5, and 3 according to positions where sound images in each direction are located.
  • An audio object may be output through three speakers constituting a triangle at positions where sound images in each direction are positioned.
  • the plurality of directions p m in which the sound image of the audio object may be positioned may be determined according to a vector p 0 and an angle ⁇ representing the reference direction of the audio object, as shown in Equation 3 below.
  • Angle ⁇ represents a spread parameter to be described later.
  • p m ' is a direction vector value that can be determined according to a p 0 value representing a reference direction and a coordinate value corresponding to the p 0 value.
  • p m ' is a value that can be determined based on the reference position where the sound image of the audio object is located.
  • m may be determined as an integer value of 0 or more according to the number of directions in which the sound image of the audio object may be positioned.
  • a gain factor g value that can be applied to the p m value may be obtained according to Equation 1 or 2 described above.
  • the gain factor value may be determined based on the vector p m value for each direction in which the audio object is positioned and the direction vector value of the speaker from which each p m value is output.
  • the direction vector of the 330 is located in a triangle formed by the speakers 2, 3, and 5. Accordingly, the gain factor value for the direction vector of 330 may be determined based on the direction vector values of speakers 2, 3, and 5, which originate from the position 320 of the listener.
  • Equation 3 is merely an example, and the direction vector value in which the sound image of the audio object can be positioned can be obtained in various ways.
  • the degree of spreading between the direction vectors in which the sound image of the audio object may be positioned may be determined according to an ⁇ value that may be determined by the spread parameter. As the value of ⁇ increases, the maximum angle between the direction vectors in which the sound image may be positioned increases, so that the audio object may be output through more speakers.
  • the spread parameter of the audio object may be determined to provide a listener with a sense of space, reverberation, etc. according to the intention of the producer.
  • the apparatus may determine the spread parameter so that the audio object can be output with the intention or the optimal state of the producer according to the characteristics of the audio object.
  • the audio object provides the listener with reverberation or a sense of space
  • the greater the number of channels through which the audio object is output the higher the correlation between channels. Therefore, when the number of channels to which the audio object is output is large, the reverberation or space of the audio object may not be optimally provided to the listener.
  • the apparatus for rendering an audio object may determine a spread parameter according to a type of an audio object representing a characteristic of the audio object. As the spread parameter is determined according to the type of the audio object, the number of speakers to which the audio object is output may be adjusted according to the characteristics of the audio object.
  • the spread parameter may be determined according to an audio object type including a digitized value.
  • an audio object type including a digitized value may include a value according to a soft decision method.
  • the soft decision means a method of displaying data with information indicating the certainty of a data value, such as 1 close to 0 or 1 close to 1.
  • it means a data display method that displays data by using information of a real value rather than an integer or further includes other additional information.
  • the spread parameter may be determined according to the digitized data of the audio object belonging to the soft decision type.
  • FIG. 4 is a flowchart illustrating a method of determining a spread parameter based on information related to an audio object according to an exemplary embodiment.
  • the apparatus may obtain information related to an audio object to be rendered.
  • the information related to the audio object may include location information of the object, characteristic information, and the like.
  • the characteristic information of the object may include, for example, information about the type of the object.
  • the type of object may be classified according to whether the audio object provides a sense of space or reverberation to the listener. In addition, the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels. For example, a spread parameter for a type of an audio object in which a change in output performance or characteristics of an audio object is insignificant as output to a plurality of channels may be determined as a relatively large value.
  • the type of the object is not limited thereto, and may be classified in various ways.
  • the type of the audio object may be obtained from information about the type of the audio object signaled through the bitstream, or the type of the audio object may be determined based on a result of analyzing the characteristics of the audio object.
  • the types of audio objects may be classified according to whether they provide a listener with a sense of space or reverberation.
  • the type of the audio object may be classified into a direct type, an ambience type, an appliance type, a soft decision type, a dialog type, and the like.
  • the ambience type may include an audio object that provides a sense of space by providing reverberation to the listener.
  • the applause type may include transient, transient, transient audio objects, such as claps or rain.
  • the dialog type may include an audio object including a human voice, a conversation, and the like.
  • the direct type may include an audio object from which spread parameters may be determined based on at least one feature of the object and the rendering environment.
  • the soft decision type may include an audio object whose spread parameters may be determined in accordance with artistic information of the sound associated with the spread parameters determined by the producer.
  • the information about the soft decision type audio object type may include specifically digitized information representing artistic information of a sound associated with a spread parameter.
  • Spread parameters may be determined based on the quantified information described above.
  • the digitized information may include a value indicating a degree of spatial sense of sound.
  • the digitized information may directly include spread parameter values.
  • the type of the audio object may be determined as one of a direct type and a soft decision type.
  • the device may determine a type more suitable for rendering the audio object of the two types, and render the audio object according to the determined object type.
  • One of the two types may be determined as the type of the audio object based on the characteristics of the audio object or the output environment of the audio object.
  • the apparatus may determine the spread parameter based on the information about the audio object to be rendered.
  • the spread parameter for the audio object may be determined to be a value below the reference value for the audio object of the ambience type or the applause type, which may provide a sense of space or reverberation.
  • the spread parameter may be determined to be a value less than or equal to a reference value for rendering with fewer channels for audio objects belonging to the ambience type or the applause type.
  • the spread parameter may be determined as a specific value below the reference value for each object type according to the intention of the producer.
  • the spread parameter may be determined as a specific value that allows the audio object to be optimally output among values below the reference value.
  • the audio object belonging to the dialog type is output in multiple channels due to its characteristics, the output performance of the audio object is not significantly affected. Dialog type audio objects are hardly affected by interference that may occur as they are output in multiple channels. Therefore, the spread parameter of the dialog type may be determined to be a value more than the reference value.
  • the spread parameter of an object belonging to the direct type may be determined based on at least one feature of the object and the rendering environment.
  • the spread parameter of the object belonging to the soft decision type may be determined as a value to be output as intended by the producer.
  • Spread parameters of the object may be determined based on specifically quantified information indicative of the intention of the producer.
  • the spread parameter may be determined based on not only the type of the object but also information related to the object, for example, location information of the object, characteristic information, and the like.
  • the device may determine at least one direction in which the sound image of the audio object is positioned based on the spread parameter determined in operation S420.
  • a plurality of directions that may be determined in step S430 will be referred to as a panning direction below.
  • the panning direction represents a vector value that can be determined within an angular range according to the spread parameter value about the reference direction.
  • the device may render the audio object based on the direction in which the audio object determined in operation S430 is positioned.
  • the device may obtain a gain factor for each panning direction of the audio object.
  • the gain factor may be determined based on a direction vector value indicating a position of each panning direction and channels forming a triangle in which each panning direction is located.
  • the device may render the audio object into a plurality of channels based on the panning direction and the gain factor of the audio object.
  • FIG. 5 is a flowchart illustrating a method of determining a type of an audio object according to an exemplary embodiment.
  • the device may acquire a type of an audio object.
  • the object types may be classified in various ways based on the degree to which the reverberation of the sound that may be provided to the listener, the sense of space, and the like may vary according to the extent to which the audio object is spread.
  • the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels.
  • the type of the audio object may be obtained from information about the type of the audio object signaled through the bitstream, or the type of the audio object may be determined based on a result of analyzing the characteristics of the audio object.
  • the device may determine whether the type of the audio object acquired in operation S510 is an ambience type or an applause type.
  • step S530 if it is determined in step S520 that the type of the audio object is an ambience type or an applause type, the device may determine the spread parameter to be a value less than or equal to the reference value. Audio objects of the ambience type or the applause type may provide a listener with a sense of space or reverberation. Therefore, as the audio object belonging to the above type is rendered in a large number of channels, the interference phenomenon may increase. The apparatus may determine the spread parameter to a value below the reference value so as to minimize the interference phenomenon.
  • the apparatus may determine the spread parameter to a value capable of outputting the audio object optimally in consideration of the characteristics of the audio object, the output environment of the audio object, a user setting, and the like.
  • the device may determine whether the type of the audio object belongs to the direct type.
  • the apparatus may obtain a spread parameter based on at least one feature of the object and the rendering environment.
  • the device may determine whether the type of the audio object belongs to the dialog type.
  • the device may determine the spread parameter to be a value greater than or equal to the reference value according to the type of the audio object. Even if an audio object belonging to the dialog type is output in multiple channels, the output performance of the audio object is not significantly affected. Dialog type audio objects are hardly affected by interference that may occur as they are output in multiple channels. Therefore, the spread parameter of the dialog type may be determined to be a value greater than or equal to the reference value.
  • the device may determine the spread parameter so that the audio object is output through many channels, but may determine the spread parameter to a value less than or equal to the reference value according to the type of the audio object.
  • the device may determine that the audio object is a soft decision type.
  • the spread parameter may be determined by the spread parameter of the object based on specifically digitized information representing the intention of the producer. For example, the spread parameter may be determined based on a numerical value indicating the degree of spatiality of the object.
  • the device may render the audio object using the spread parameters determined in operations S530, S550, S570, and S580.
  • the rendered audio object may be output through at least one rendered channel.
  • FIG. 6 is a block diagram illustrating an internal structure of an apparatus for rendering an audio object according to an exemplary embodiment.
  • an apparatus 600 for rendering an audio object may be a terminal apparatus that may be used by a user.
  • the device 600 may be a smart television, ultra high definition (UHD) TV, monitor, personal computer (PC), notebook computer, mobile phone, tablet PC, navigation terminal, smart Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
  • UHD ultra high definition
  • PC personal computer
  • notebook computer mobile phone
  • tablet PC personal digital assistants
  • PMPs portable multimedia players
  • digital broadcast receivers digital broadcast receivers.
  • the apparatus 600 for rendering an audio object may include a receiver 610, a controller 620, and a sound output unit 630.
  • the receiver 610 may receive an audio signal including an audio object for rendering from the outside. In addition, the receiver 610 may extract an audio object from the audio signal.
  • the audio signal may be received in the form of a bit stream, and the receiver 610 may extract an audio object from the bit stream including the audio signal.
  • the receiver 610 may extract information for analyzing the characteristics of the audio object or information for determining the type of the audio object from the bit stream.
  • the controller 620 may determine the spread parameter based on the information related to the audio object, and render the audio object according to the determined spread parameter.
  • the information related to the audio object may include location information of the object, characteristic information, and the like.
  • the characteristic information of the object may include, for example, information about the type of the object.
  • the spread parameter may be determined depending on whether the audio object provides a sense of space or reverberation to the listener.
  • the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels.
  • the spread parameter of the object belonging to the soft decision type of the object type may be determined based on specifically digitized information indicating the intention of the producer.
  • the sound output unit 630 may output the audio object rendered by the controller 620 through a plurality of channels.
  • the audio object may be output in an optimal state according to the producer's intention to provide to the listener.
  • the method according to some embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Disclosed is a method for rendering an audio object, comprising the steps of: obtaining information related to the audio object; determining, on the basis of the obtained information related to the object, a spread parameter indicating the degree of the audio object spreading in at least one direction; determining at least one direction in which the audio object is located in accordance with the determined parameters; and rendering, on the basis of the determined direction, the audio object.

Description

오디오 오브젝트를 렌더링하는 방법 및 장치Method and device for rendering audio objects
본 발명은 오디오 오브젝트를 렌더링하는 방법 및 장치에 대한 것이다.The present invention is directed to a method and apparatus for rendering an audio object.
MPEG-H(Moving Picture Experts Group-H)과 같이 적어도 하나의 오디오 오브젝트를 포함하는 오디오 신호에 대해 오브젝트 렌더링이 수행되는 경우, 가상의 음원(virtual source) 위치에 오디오 오브젝트가 정위될 수 있다. 가상의 음원 위치에 오디오 오브젝트가 정위될 수 있도록 하나의 오브젝트가 다수의 채널에 믹싱되는 경우, 채널 간 간섭(correlation)이 높아지게 되므로 각 오브젝트 별로 창작자에 의해 의도된 음장감, 공간감 등이 제대로 표현되지 않을 수 있다.When object rendering is performed on an audio signal including at least one audio object, such as Moving Picture Experts Group-H (MPEG-H), the audio object may be positioned at a virtual source location. When an object is mixed with multiple channels so that an audio object can be located at a virtual sound source location, the interference between channels increases, so that the sound field and the space sense intended by the creator for each object may not be properly expressed. Can be.
따라서, 각 오브젝트 별로 창작자의 의도에 따라 오디오 신호가 출력될 수 있도록 오브젝트를 렌더링하는 방법이 문제된다.Therefore, there is a problem in the method of rendering the object so that the audio signal can be output for each object according to the intention of the creator.
본 발명은 오디오 오브젝트의 타입에 기초하여 오디오 오브젝트가 퍼지는 정도를 결정함으로써, 창작자의 의도에 따라 음향의 색감, 느낌, 거리감, 공간감 등을 효과적으로 표현하기 위한 오디오 오브젝트를 렌더링하기 위한 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for rendering an audio object for effectively expressing a color, a feeling, a distance, a feeling of space, etc. of a sound according to a creator's intention by determining a degree of spread of the audio object based on the type of the audio object. will be.
일 실시 예에 의하면, 청취자에게 제공하고자 하는 제작자의 의도에 따라 최적의 상태로 오디오 오브젝트가 출력될 수 있다.According to an embodiment, the audio object may be output in an optimal state according to the producer's intention to provide to the listener.
도 1은 일 실시 예에 의한 2차원 공간에서 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.1 is a diagram illustrating an example of rendering an audio object in a two-dimensional space according to an embodiment.
도 2는 일 실시 예에 있어서, 3차원 공간에서 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.2 is a diagram illustrating an example of rendering an audio object in a 3D space according to an embodiment.
도 3은 일 실시 예에 있어서 다수의 방향으로 퍼진 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.3 is a diagram illustrating an example of rendering an audio object spread in a plurality of directions according to an embodiment.
도 4는 일 실시 예에 의한 오디오 오브젝트의 타입에 기초하여 스프레드 파라미터를 결정하는 방법을 나타낸 순서도이다.4 is a flowchart illustrating a method of determining a spread parameter based on a type of an audio object according to an exemplary embodiment.
도 5는 일 실시 예에 의한 오디오 오브젝트의 타입을 결정하는 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method of determining a type of an audio object according to an exemplary embodiment.
도 6은 일 실시 예에 의한 오디오 오브젝트를 렌더링하는 장치의 내부 구조를 나타낸 블록도이다.6 is a block diagram illustrating an internal structure of an apparatus for rendering an audio object according to an exemplary embodiment.
일 실시 예에 의한, 오디오 오브젝트를 렌더링하는 방법은 상기 오디오 오브젝트에 관련된 정보를 획득하는 단계; 상기 획득된 오브젝트에 관련된 정보에 기초하여, 상기 오디오 오브젝트가 적어도 하나의 방향으로 퍼지는 정도를 나타내는 스프레드 파라미터를 결정하는 단계; 상기 결정된 파라미터에 따라, 상기 오디오 오브젝트가 정위되는 방향을 적어도 하나 결정하는 단계; 상기 결정된 방향에 기초하여, 상기 오디오 오브젝트를 렌더링하는 단계를 포함한다.According to an embodiment, a method of rendering an audio object may include obtaining information related to the audio object; Determining a spread parameter representing a degree to which the audio object spreads in at least one direction based on the information related to the obtained object; Determining, according to the determined parameter, at least one direction in which the audio object is located; Based on the determined direction, rendering the audio object.
상기 오브젝트에 관련된 정보는 오브젝트의 타입에 관한 정보를 포함하고, 상기 오브젝트의 타입은 상기 오디오 오브젝트가 청취자에게 공간감 또는 잔향감을 제공하는지 여부에 따라 구분된다.The information related to the object includes information about a type of an object, and the type of the object is classified according to whether the audio object provides a sense of space or reverberation to a listener.
상기 오디오 오브젝트의 타입은 다이렉트 타입, 앰비언스타입, 어플라우즈 타입, 연판정 타입, 다이어로그 타입 중 적어도 하나를 포함한다.The type of the audio object includes at least one of a direct type, an ambience type, an applause type, a soft decision type, and a dialog type.
상기 스프레드 파라미터를 결정하는 단계는 상기 획득된 오브젝트 타입이 앰비언스 타입 또는 어플라우즈 타입인 경우, 상기 스프레드 파라미터를 기준값 이하의 값으로 결정하는 단계를 포함한다.The determining of the spread parameter includes determining the spread parameter to a value less than or equal to a reference value when the obtained object type is an ambience type or an applause type.
상기 스프레드 파라미터를 결정하는 단계는 상기 획득된 오브젝트 타입이 연판정 타입인 경우, 상기 오디오 오브젝트의 공간감 정도를 나타내는 정보에 기초하여, 스프레드 파라미터를 결정하는 단계를 포함한다.The determining of the spread parameter may include determining a spread parameter based on information indicating a degree of spatiality of the audio object when the obtained object type is a soft decision type.
상기 스프레드 파라미터를 결정하는 단계는 상기 획득된 오브젝트 타입이 다이렉트 타입인 경우, 상기 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여, 상기 스프레드 파라미터를 결정하는 단계를 포함한다.The determining of the spread parameter includes determining the spread parameter based on at least one feature of the object and a rendering environment when the obtained object type is a direct type.
상기 스프레드 파라미터를 결정하는 단계는 상기 획득된 오브젝트 타입이 다이어로그 타입인 경우, 상기 스프레드 파라미터를 기준값 이상의 값으로 결정하는 단계를 포함한다.The determining of the spread parameter includes determining the spread parameter as a value equal to or greater than a reference value when the obtained object type is a dialog type.
일 실시 예에 의한 오디오 오브젝트를 렌더링하는 장치는 적어도 하나의 오디오 오브젝트를 포함하는 오디오 신호를 수신하고, 상기 오디오 신호로부터 오디오 오브젝트를 추출하는 수신부; 상기 오디오 오브젝트에 관련된 정보를 획득하고, 상기 획득된 오브젝트에 관련된 정보에 기초하여, 상기 오디오 오브젝트가 적어도 하나의 방향으로 퍼지는 정도를 나타내는 스프레드 파라미터를 결정하고, 상기 결정된 파라미터에 따라, 상기 오디오 오브젝트가 정위되는 방향을 적어도 하나 결정하고, 상기 결정된 방향에 기초하여, 상기 오디오 오브젝트를 렌더링하는 제어부; 및 상기 렌더링된 오디오 오브젝트를 출력하는 음향 출력부를 포함한다.According to an embodiment, an apparatus for rendering an audio object includes a receiver configured to receive an audio signal including at least one audio object and to extract an audio object from the audio signal; Acquiring information related to the audio object, determining a spread parameter indicating a degree to which the audio object spreads in at least one direction based on the information related to the obtained object, and according to the determined parameter, A controller which determines at least one orientation to be positioned and renders the audio object based on the determined direction; And a sound output unit configured to output the rendered audio object.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, in the following description and the accompanying drawings, detailed descriptions of well-known functions or configurations that may obscure the subject matter of the present invention will be omitted. In addition, it should be noted that like elements are denoted by the same reference numerals as much as possible throughout the drawings.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.The terms or words used in the specification and claims described below should not be construed as being limited to the ordinary or dictionary meanings, and the inventors are properly defined as terms for explaining their own invention in the best way. It should be interpreted as meaning and concept corresponding to the technical idea of the present invention based on the principle that it can. Therefore, the embodiments described in the present specification and the configuration shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all of the technical ideas of the present invention, and various alternatives may be substituted at the time of the present application. It should be understood that there may be equivalents and variations.
첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.In the accompanying drawings, some components are exaggerated, omitted, or schematically illustrated, and the size of each component does not entirely reflect the actual size. The invention is not limited by the relative size or spacing drawn in the accompanying drawings.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. When any part of the specification is to "include" any component, this means that it may further include other components, except to exclude other components unless otherwise stated. In addition, when a part is "connected" with another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element between them.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.In addition, the term "part" as used herein refers to a hardware component, such as software, FPGA or ASIC, and "part" plays certain roles. However, "part" is not meant to be limited to software or hardware. The “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors. Thus, as an example, a "part" refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables. The functionality provided within the components and "parts" may be combined into a smaller number of components and "parts" or further separated into additional components and "parts".
또한, 본 명세서에서, 오디오 오브젝트는 오디오 신호에 포함된 음향 성분들 각각을 지칭한다. 하나의 오디오 신호에는 다양한 오디오 오브젝트가 포함될 수 있다. 예를 들어, 오케스트라의 공연 실황을 녹음하여 생성된 오디오 신호에는 기타, 바이올린, 오보에 등의 다수개의 악기로부터 발생한 다수개의 오디오 오브젝트가 포함된다.Also, in the present specification, an audio object refers to each of sound components included in an audio signal. One audio signal may include various audio objects. For example, the audio signal generated by recording the performance of an orchestra includes a plurality of audio objects generated from a plurality of musical instruments such as guitar, violin, and oboe.
또한, 본 명세서에서, 음상은 청취자가 음원이 발생하는 곳으로 느껴지는 위치를 의미한다. 실제 소리는 스피커에서 출력되지만 각각의 음원이 가상으로 맺히는 지점을 음상이라 한다. 음향이 출력되는 스피커에 따라 음상의 크기 및 위치가 달라질 수 있다. 각 음원의 소리의 위치가 뚜렷하고, 청취자에게 각 음원의 소리가 따로 잘 들릴 때, 음상 정위가 뛰어나다고 판단될 수 있다.In addition, in this specification, the sound image means a position where the listener feels as where the sound source occurs. The actual sound is output from the speaker, but the point where each sound source is virtually called a sound image. The size and position of the sound image may vary according to the speaker from which sound is output. When the position of the sound of each sound source is clear and the sound of each sound source is well heard by the listener, it may be determined that the sound position is excellent.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
일 실시 예에 있어서, 설명된 기술은 MPEG-H 표준에 기초하여 설명되었으나 이에 제한되지 않고, 다른 오디오 코딩 기술에도 적용될 수 있다.In one embodiment, the described technique is described based on the MPEG-H standard, but is not limited thereto, and may be applied to other audio coding techniques.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings.
도 1은 일 실시 예에 의한 2차원 공간에서 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.1 is a diagram illustrating an example of rendering an audio object in a two-dimensional space according to an embodiment.
도 1을 참조하면, 오디오 오브젝트(100)는 스피커 1 및 2(110, 120)에 렌더링됨에 따라, 오디오 오브젝트(100)는 스피커 1 및 2(110, 120)를 통해 출력될 수 있다. 오디오 오브젝트(100)의 음상이 스피커 1(110)과 스피커 2(120) 사이에 위치함에 따라, 오디오 오브젝트(100)는 스피커 1 및 2(110, 120)에 렌더링되어 출력될 수 있다.Referring to FIG. 1, as the audio object 100 is rendered to the speakers 1 and 2 110 and 120, the audio object 100 may be output through the speakers 1 and 2 110 and 120. As the sound image of the audio object 100 is located between the speaker 1 110 and the speaker 2 120, the audio object 100 may be rendered and output to the speakers 1 and 2 110 and 120.
오디오 오브젝트(100)의 음상의 위치에 따라서, 스피커 1 및 2(110, 120)를 통해 출력되는 오디오 오브젝트(100)를 구성하는 음향의 크기가 결정될 수 있다. 도 1을 참조하면, 오디오 오브젝트(100)가 스피커 1(110)에 가까이 위치함에 따라, 오디오 오브젝트(100)의 음상이 스피커 1(110)과 가까운 위치에 정위될 수 있도록 스피커 1, 2(110, 120)의 출력이 조절될 수 있다. 스피커 1(110)을 통해 출력되는 오디오 오브젝트(100)의 음향 크기는 스피커 2(120)를 통해 출력되는 오디오 오브젝트(100)의 음향 크기보다 더 클 수 있다.According to the position of the sound image of the audio object 100, the volume of the sound constituting the audio object 100 output through the speakers 1 and 2 110 and 120 may be determined. Referring to FIG. 1, as the audio object 100 is located closer to the speaker 1 110, the speakers 1 and 2 110 may be positioned so that the sound image of the audio object 100 may be located at a position close to the speaker 1 110. 120 may be adjusted. The acoustic size of the audio object 100 output through the speaker 1 110 may be greater than the acoustic size of the audio object 100 output through the speaker 2 120.
상술한 각 스피커를 통해 출력될 수 있는 오디오 오브젝트(100)의 음향은 이하 수학식 1로 표현될 수 있다.The sound of the audio object 100 that may be output through each speaker described above may be represented by Equation 1 below.
오디오 오브젝트(100)의 음상 위치를 나타내는 방향 벡터
Figure PCTKR2015003326-appb-I000001
는 수학식 1과 같이 스피커 1 및 2(110, 120)의 출력 위치를 나타내는 유닛 방향 벡터인
Figure PCTKR2015003326-appb-I000002
로 표현될 수 있다. 각 방향 벡터는 청취자의 위치(130)를 기준으로 음상의 위치 또는 스피커의 위치에 따라 결정될 수 있다.
Direction vector indicating the sound image position of the audio object 100
Figure PCTKR2015003326-appb-I000001
Is a unit direction vector representing the output positions of the speakers 1 and 2 (110, 120) as
Figure PCTKR2015003326-appb-I000002
It can be expressed as. Each direction vector may be determined according to the position of the sound image or the position of the speaker with respect to the position 130 of the listener.
수학식 1
Figure PCTKR2015003326-appb-M000001
Equation 1
Figure PCTKR2015003326-appb-M000001
g1 및 g2는 스피커 1 및 2의 방향 벡터에 적용될 수 있는 게인 팩터(gain factor)로,
Figure PCTKR2015003326-appb-I000003
Figure PCTKR2015003326-appb-I000004
의 값에 기초하여 결정될 수 있는 값이다. 스피커 1 및 2로 출력되는 오디오 오브젝트(100)의 음향 크기와 대응되는 게인 팩터 값은 오디오 오브젝트(100)의 음상과 스피커들의 위치에 따라 결정될 수 있다.
g 1 and g 2 are gain factors that can be applied to the direction vectors of speakers 1 and 2,
Figure PCTKR2015003326-appb-I000003
And
Figure PCTKR2015003326-appb-I000004
A value that can be determined based on the value of. The gain factor value corresponding to the sound volume of the audio objects 100 output to the speakers 1 and 2 may be determined according to the sound image of the audio object 100 and the positions of the speakers.
도 2는 일 실시 예에 있어서, 3차원 공간에서 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.2 is a diagram illustrating an example of rendering an audio object in a 3D space according to an embodiment.
도 2를 참조하면, 오디오 오브젝트는 채널 m, n, k에 렌더링됨으로써 3개의 스피커를 통해 출력될 수 있다. 오디오 오브젝트의 음상이 정위될 수 있는 가상 음원의 위치가 채널 m, n, k가 이루는 삼각형 내에 존재하므로, 오디오 오브젝트는 채널 m, n, k의 스피커를 통해 출력될 수 있다.Referring to FIG. 2, an audio object may be output through three speakers by being rendered in channels m, n, and k. Since the position of the virtual sound source where the sound image of the audio object can be located is within a triangle formed by the channels m, n and k, the audio object may be output through the speakers of the channels m, n and k.
방향 벡터 p는 청취자의 위치(210)를 기준으로 오디오 오브젝트가 정위되는 음상의 위치를 나타낸다. 채널 m, n, k의 벡터 lm, ln, lk는 청취자의 위치(210)를 기준으로 각각 채널 m, n, k의 위치를 나타내며, 크기가 1인 유닛 벡터이다.The direction vector p represents the position of the sound image on which the audio object is positioned with respect to the position 210 of the listener. The vectors l m , l n , l k of the channels m, n, k indicate the positions of the channels m, n, k, respectively, with respect to the position 210 of the listener, and are unit vectors of size 1.
오디오 오브젝트의 방향 벡터 p는 수학식 1과 유사하게, 수학식 2와 같이 표현될 수 있다.The direction vector p of the audio object may be expressed as Equation 2, similarly to Equation 1.
수학식 2
Figure PCTKR2015003326-appb-M000002
Equation 2
Figure PCTKR2015003326-appb-M000002
채널 m, n, k의 스피커로 출력되는 오디오 오브젝트(210)의 음향 크기와 대응되는 게인 팩터 값 gm, gn, gk은 오디오 오브젝트(210)의 음상과 채널 m, n, k의 스피커들의 위치에 따라 결정될 수 있다.The gain factor values g m , g n , and g k corresponding to the loudness of the audio object 210 output to the speakers of channels m, n, and k are the sound of the audio object 210 and the speakers of channels m, n, and k. Can be determined according to their location.
한편, 오디오 오브젝트(100)의 음상은 도 1 및 2에 도시된 바와 같이 하나의 위치뿐만 아니라 다수의 위치에 정위될 수도 있다. 오디오 오브젝트(100)의 음상은 기준 방향을 중심으로 소정 범위 내에 퍼진(spread) 복수의 방향에 존재할 수 있다. 도 3을 참조하여 더 자세히 설명하기로 한다.Meanwhile, the sound image of the audio object 100 may be positioned at a plurality of positions as well as one position as shown in FIGS. 1 and 2. The sound image of the audio object 100 may exist in a plurality of directions spread within a predetermined range about the reference direction. This will be described in more detail with reference to FIG. 3.
도 3은 일 실시 예에 있어서 다수의 방향으로 퍼진 오디오 오브젝트가 렌더링되는 일 예를 나타낸 예시 도면이다.3 is a diagram illustrating an example of rendering an audio object spread in a plurality of directions according to an embodiment.
도 3을 참조하면, MDAP(multiple-direction amplitude panning) 방법에 따라 오디오 오브젝트의 음상은 기준 방향(210)을 중심으로 각도 α 만큼의 범위에서 퍼진 다수의 방향에 정위될 수 있다. 오디오 오브젝트의 음상이 다수의 방향에 정위됨에 따라서, 오디오 오브젝트는 하나의 방향으로 정위될 때보다 퍼진 각도의 크기만큼 더 많은 스피커를 통해 출력될 수 있다.Referring to FIG. 3, a sound image of an audio object may be positioned in a plurality of directions spreading in a range of an angle α about a reference direction 210 according to a multiple-direction amplitude panning (MDAP) method. As the sound image of the audio object is positioned in a plurality of directions, the audio object may be output through more speakers by the size of the spread angle than when it is positioned in one direction.
기준 방향(210)으로만 오디오 오브젝트가 출력되는 경우, 기준 방향(210)이 위치한 삼각형을 구성하는 스피커 1, 2, 5를 통해 오디오 오브젝트가 출력될 수 있다. 반면에, 도 3에 도시된 바와 같이 다수의 방향으로 오디오 오브젝트가 출력되는 경우, 각 방향의 음상이 정위된 위치에 따라서, 오디오 오브젝트는 스피커 1, 2, 5, 3을 통해 출력될 수 있다. 각 방향의 음상이 정위된 위치에서 삼각형을 구성하는 3개의 스피커를 통해 오디오 오브젝트가 출력될 수 있다.When the audio object is output only in the reference direction 210, the audio object may be output through speakers 1, 2, and 5 constituting a triangle in which the reference direction 210 is located. On the other hand, when the audio objects are output in a plurality of directions as shown in FIG. 3, the audio objects may be output through the speakers 1, 2, 5, and 3 according to positions where sound images in each direction are located. An audio object may be output through three speakers constituting a triangle at positions where sound images in each direction are positioned.
오디오 오브젝트의 음상이 정위될 수 있는 다수의 방향 pm은 수학식 3과 같이 오디오 오브젝트의 기준 방향을 나타내는 벡터 p0 및 각도 α에 따라 결정될 수 있다. 각도 α는 후술될 스프레드 파라미터를 나타낸다.The plurality of directions p m in which the sound image of the audio object may be positioned may be determined according to a vector p 0 and an angle α representing the reference direction of the audio object, as shown in Equation 3 below. Angle α represents a spread parameter to be described later.
수학식 3
Figure PCTKR2015003326-appb-M000003
Equation 3
Figure PCTKR2015003326-appb-M000003
pm'은 기준 방향을 나타내는 p0값과, p0값과 대응되는 좌표값에 따라 결정될 수 있는 방향 벡터 값이다. pm'은 오디오 오브젝트의 음상이 정위되는 기준 위치에 기초하여 결정될 수 있는 값이다. m은 오디오 오브젝트의 음상이 정위될 수 있는 방향의 개수에 따라 0 이상의 정수값으로 결정될 수 있다. α'는 0.001도에서 90도 사이의 값을 갖는 α값을 의미한다.p m 'is a direction vector value that can be determined according to a p 0 value representing a reference direction and a coordinate value corresponding to the p 0 value. p m 'is a value that can be determined based on the reference position where the sound image of the audio object is located. m may be determined as an integer value of 0 or more according to the number of directions in which the sound image of the audio object may be positioned. α 'means an α value having a value between 0.001 and 90 degrees.
pm값에 적용될 수 있는 게인 팩터 g 값은 상술된 수학식 1 또는 2에 따라 획득될 수 있다. 게인 팩터 값은 오디오 오브젝트가 정위되는 각 방향에 대한 벡터 pm값과, 각 pm값이 출력되는 스피커의 방향 벡터 값에 기초하여 결정될 수 있다.A gain factor g value that can be applied to the p m value may be obtained according to Equation 1 or 2 described above. The gain factor value may be determined based on the vector p m value for each direction in which the audio object is positioned and the direction vector value of the speaker from which each p m value is output.
예를 들어, 오디오 오브젝트가 정위될 수 있는 방향 중 도 3에 도시된 방향 330을 참조하면, 330의 방향 벡터는 스피커 2, 3, 5가 이루는 삼각형에 위치한다. 따라서, 330의 방향 벡터에 대한 게인 팩터 값은, 청취자의 위치(320)를 원점으로 하는 스피커 2, 3, 5의 방향 벡터 값에 기초하여 결정될 수 있다.For example, referring to the direction 330 illustrated in FIG. 3 among the directions in which the audio object may be positioned, the direction vector of the 330 is located in a triangle formed by the speakers 2, 3, and 5. Accordingly, the gain factor value for the direction vector of 330 may be determined based on the direction vector values of speakers 2, 3, and 5, which originate from the position 320 of the listener.
수학식 3은 예시에 불과하고, 오디오 오브젝트의 음상이 정위될 수 있는 방향 벡터 값은 다양한 방법으로 획득될 수 있다.Equation 3 is merely an example, and the direction vector value in which the sound image of the audio object can be positioned can be obtained in various ways.
스프레드 파라미터로 결정될 수 있는 α값에 따라 오디오 오브젝트의 음상이 정위될 수 있는 방향 벡터들 간 퍼지는 정도가 결정될 수 있다. α값이 커짐에 따라 음상이 정위될 수 있는 방향 벡터들 간 최대 각도가 커지므로, 오디오 오브젝트는 더 많은 스피커를 통해 출력될 수 있다.The degree of spreading between the direction vectors in which the sound image of the audio object may be positioned may be determined according to an α value that may be determined by the spread parameter. As the value of α increases, the maximum angle between the direction vectors in which the sound image may be positioned increases, so that the audio object may be output through more speakers.
오디오 오브젝트의 특성과 오디오 오브젝트가 출력되는 채널의 개수에 따라 청취자가 느끼는 음향의 공간감, 잔향감 등의 느낌이 달라질 수 있다. 제작자의 의도에 따라 청취자에게 공간감, 잔향감 등을 제공하도록 오디오 오브젝트의 스프레드 파라미터가 결정될 수 있다. 장치는, 오디오 오브젝트의 특성에 따라 제작자의 의도 또는 최적의 상태로 오디오 오브젝트가 출력될 수 있도록 스프레드 파라미터를 결정할 수 있다.Depending on the characteristics of the audio object and the number of channels through which the audio object is output, a feeling such as spatial feeling and reverberation of a sound that the listener feels may vary. The spread parameter of the audio object may be determined to provide a listener with a sense of space, reverberation, etc. according to the intention of the producer. The apparatus may determine the spread parameter so that the audio object can be output with the intention or the optimal state of the producer according to the characteristics of the audio object.
오디오 오브젝트가 잔향감 또는 공간감을 청취자에게 제공하는 경우, 오디오 오브젝트가 출력되는 채널의 개수가 많아질수록 채널 간 간섭도(correlation)가 높아질 수 있다. 따라서, 오디오 오브젝트가 출력되는 채널의 개수가 많은 경우, 오디오 오브젝트의 잔향감 또는 공간감이 청취자에게 최적의 상태로 제공되지 않을 수 있다.When the audio object provides the listener with reverberation or a sense of space, the greater the number of channels through which the audio object is output, the higher the correlation between channels. Therefore, when the number of channels to which the audio object is output is large, the reverberation or space of the audio object may not be optimally provided to the listener.
일 실시 예에 의한, 오디오 오브젝트를 렌더링하는 장치는 오디오 오브젝트의 특성을 나타내는 오디오 오브젝트의 타입에 따라 스프레드 파라미터를 결정할 수 있다. 오디오 오브젝트의 타입에 따라 스프레드 파라미터가 결정됨으로써, 오디오 오브젝트의 특성에 따라 오디오 오브젝트가 출력되는 스피커의 개수가 조절될 수 있다.According to an embodiment, the apparatus for rendering an audio object may determine a spread parameter according to a type of an audio object representing a characteristic of the audio object. As the spread parameter is determined according to the type of the audio object, the number of speakers to which the audio object is output may be adjusted according to the characteristics of the audio object.
또한, 스프레드 파라미터는 수치화된 값을 포함하는 오디오 오브젝트 타입에 따라 결정될 수 있다. 예를 들면, 수치화된 값을 포함하는 오디오 오브젝트 타입은 연판정(soft decision) 방법에 따른 값을 포함할 수 있다. 연판정이란, 0에 가까운 1이나 1에 가까운 1과 같이 데이터 값의 확실함을 나타내는 정보로 데이터를 표시하는 방법을 의미한다. 예를 들면 정수가 아닌 실수 값의 정보로 데이터를 표시하거나, 다른 부가 정보를 더 포함하는 데이터 표시 방법을 의미한다. 일 실시 예에 있어서, 연판정 타입에 속하는 오디오 오브젝트는 구체적으로 수치화된 데이터에 따라 스프레드 파라미터가 결정될 수 있다.In addition, the spread parameter may be determined according to an audio object type including a digitized value. For example, an audio object type including a digitized value may include a value according to a soft decision method. The soft decision means a method of displaying data with information indicating the certainty of a data value, such as 1 close to 0 or 1 close to 1. For example, it means a data display method that displays data by using information of a real value rather than an integer or further includes other additional information. According to an embodiment, the spread parameter may be determined according to the digitized data of the audio object belonging to the soft decision type.
이하 도 4 및 도 5를 참조하여, 일 실시 예에 있어서, 오브젝트에 관련된 정보에 기초하여 스프레드 파라미터를 결정하는 방법에 대해 더 자세히 설명하기로 한다.Hereinafter, a method of determining a spread parameter based on information related to an object will be described in detail with reference to FIGS. 4 and 5.
도 4는 일 실시 예에 의한 오디오 오브젝트에 관련된 정보에 기초하여 스프레드 파라미터를 결정하는 방법을 나타낸 순서도이다.4 is a flowchart illustrating a method of determining a spread parameter based on information related to an audio object according to an exemplary embodiment.
도 4를 참조하면, 단계 S410에서, 일 실시 예에 의한 장치는 렌더링하고자 하는 오디오 오브젝트에 관련된 정보를 획득할 수 있다. 오디오 오브젝트에 관련된 정보는 오브젝트의 위치 정보, 특성 정보 등을 포함할 수 있다. 오브젝트의 특성 정보는, 예를 들면, 오브젝트의 타입에 관한 정보를 포함할 수 있다.Referring to FIG. 4, in operation S410, the apparatus may obtain information related to an audio object to be rendered. The information related to the audio object may include location information of the object, characteristic information, and the like. The characteristic information of the object may include, for example, information about the type of the object.
오브젝트의 타입은 오디오 오브젝트가 청취자에게 공간감 또는 잔향감을 제공하는지 여부에 따라 구분될 수 있다. 또한, 오브젝트의 타입은 오디오 오브젝트가 다수의 채널로 출력될수록 오디오 오브젝트의 출력 성능 또는 출력 특성이 변화하는지 여부에 기초하여 구분될 수 있다. 예를 들면, 다수의 채널로 출력될수록 오디오 오브젝트의 출력 성능 또는 특성의 변화가 미미한 오디오 오브젝트의 타입에 대한 스프레드 파라미터는 상대적으로 큰 값으로 결정될 수 있다. 이에 한하지 않고, 오브젝트의 타입은 다양한 방법으로 구분될 수 있다.The type of object may be classified according to whether the audio object provides a sense of space or reverberation to the listener. In addition, the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels. For example, a spread parameter for a type of an audio object in which a change in output performance or characteristics of an audio object is insignificant as output to a plurality of channels may be determined as a relatively large value. The type of the object is not limited thereto, and may be classified in various ways.
또한, 오디오 오브젝트의 타입은 비트스트림을 통해 시그널링된 오디오 오브젝트의 타입에 관한 정보로부터 획득되거나, 오디오 오브젝트의 특성이 분석된 결과에 기초하여, 오디오 오브젝트의 타입이 결정될 수 있다.In addition, the type of the audio object may be obtained from information about the type of the audio object signaled through the bitstream, or the type of the audio object may be determined based on a result of analyzing the characteristics of the audio object.
예를 들면, 오디오 오브젝트의 타입은 공간감 또는 잔향감을 청취자에게 제공하는지 여부에 따라 구분될 수 있다. 이 경우, 오디오 오브젝트의 타입은, 다이렉트 타입, 앰비언스(ambience) 타입, 어플라우즈(applause) 타입,연판정 타입, 다이어로그(dialogue) 타입 등으로 구분될 수 있다.For example, the types of audio objects may be classified according to whether they provide a listener with a sense of space or reverberation. In this case, the type of the audio object may be classified into a direct type, an ambience type, an appliance type, a soft decision type, a dialog type, and the like.
앰비언스 타입은 청취자에게 잔향감을 제공함으로써 공간감을 느낄 수 있도록 하는 오디오 오브젝트를 포함할 수 있다.The ambience type may include an audio object that provides a sense of space by providing reverberation to the listener.
어플라우즈 타입은 박수 소리나 빗소리와 같이 트랜지언트(transient)한, 순간적이고 일시적인 신호가 많은 오디오 오브젝트를 포함할 수 있다.The applause type may include transient, transient, transient audio objects, such as claps or rain.
다이어로그 타입은 사람의 목소리, 대화 등을 포함하는 오디오 오브젝트를 포함할 수 있다.The dialog type may include an audio object including a human voice, a conversation, and the like.
다이렉트 타입은 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여, 스프레드 파라미터가 결정될 수 있는 오디오 오브젝트를 포함할 수 있다.The direct type may include an audio object from which spread parameters may be determined based on at least one feature of the object and the rendering environment.
연판정 타입은 제작자에 의해 결정된 스프레드 파라미터와 관련된 음향의 예술적인(artistic) 정보에 따라 스프레드 파라미터가 결정될 수 있는 오디오 오브젝트를 포함할 수 있다. 연판정 타입의 오디오 오브젝트 타입에 관한 정보는 스프레드 파라미터와 관련된 음향의 예술적인 정보를 나타내는 구체적으로 수치화된 정보를 포함할 수 있다. 스프레드 파라미터는 상술된 수치화된 정보에 기초하여 결정될 수 있다. 예를 들면, 수치화된 정보는 음향의 공간감의 정도를 나타내는 값을 포함할 수 있다. 또는 수치화된 정보는 직접적으로 스프레드 파라미터 값을 포함할 수도 있다.The soft decision type may include an audio object whose spread parameters may be determined in accordance with artistic information of the sound associated with the spread parameters determined by the producer. The information about the soft decision type audio object type may include specifically digitized information representing artistic information of a sound associated with a spread parameter. Spread parameters may be determined based on the quantified information described above. For example, the digitized information may include a value indicating a degree of spatial sense of sound. Alternatively, the digitized information may directly include spread parameter values.
오디오 오브젝트의 특성 분석에 따라 결정된 오디오 오브젝트의 타입이 앰비언스 타입, 어플라우즈 타입, 다이어로그 타입에 속하지 않는 경우, 오디오 오브젝트의 타입은 다이렉트 타입 및 연판정 타입 중 하나로 결정될 수 있다. 장치는 두 가지 타입 중 오디오 오브젝트를 렌더링하기에 더 적합한 타입을 결정하고, 결정된 오브젝트 타입에 따라 오디오 오브젝트를 렌더링할 수 있다. 오디오 오브젝트의 특성 또는 오디오 오브젝트의 출력 환경에 기초하여 위 두 가지 타입 중 하나가 오디오 오브젝트의 타입으로 결정될 수 있다.When the type of the audio object determined according to the characteristic analysis of the audio object does not belong to the ambience type, the applause type, or the dialog type, the type of the audio object may be determined as one of a direct type and a soft decision type. The device may determine a type more suitable for rendering the audio object of the two types, and render the audio object according to the determined object type. One of the two types may be determined as the type of the audio object based on the characteristics of the audio object or the output environment of the audio object.
단계 S420에서, 장치는 렌더링하고자 하는 오디오 오브젝트에 관한 정보에 기초하여 스프레드 파라미터를 결정할 수 있다.In operation S420, the apparatus may determine the spread parameter based on the information about the audio object to be rendered.
예를 들면, 오디오 오브젝트에 대한 스프레드 파라미터는 공간감 또는 잔향감을 제공할 수 있는 앰비언스 타입 또는 어플라우즈 타입의 오디오 오브젝트에 대하여 기준값 이하의 값으로 결정될 수 있다. 공간감 또는 잔향감을 제공할 수 있는 오디오 오브젝트의 경우, 많은 채널로 렌더링될수록 간섭(correlation)으로 인해 오디오 오브젝트가 청취자에게 공간감 또는 잔향감을 제대로 제공하지 못할 수 있다. 따라서, 스프레드 파라미터는 앰비언스 타입 또는 어플라우즈 타입에 속하는 오디오 오브젝트에 대하여 보다 적은 채널로 렌더링되기 위한 기준값 이하의 값으로 결정될 수 있다. For example, the spread parameter for the audio object may be determined to be a value below the reference value for the audio object of the ambience type or the applause type, which may provide a sense of space or reverberation. In the case of an audio object that can provide a sense of space or reverberation, an audio object may not properly provide a sense of space or reverberation to a listener due to interference when rendered in many channels. Accordingly, the spread parameter may be determined to be a value less than or equal to a reference value for rendering with fewer channels for audio objects belonging to the ambience type or the applause type.
스프레드 파라미터는 제작자의 의도에 따라 오브젝트 타입 별로 기준값 이하의 특정한 값으로 결정될 수 있다. 또한, 스프레드 파라미터는 기준값 이하의 값 중 오디오 오브젝트가 최적의 상태로 출력되도록 하는 특정한 값으로 결정될 수 있다.The spread parameter may be determined as a specific value below the reference value for each object type according to the intention of the producer. In addition, the spread parameter may be determined as a specific value that allows the audio object to be optimally output among values below the reference value.
반면, 다이어로그 타입에 속하는 오디오 오브젝트는 그 특성상 다채널로 출력되더라도 오디오 오브젝트의 출력 성능은 이에 큰 영향을 받지 않는다. 다이어로그 타입의 오디오 오브젝트는 다채널로 출력됨에 따라 발생될 수 있는 간섭 현상의 영향을 거의 받지 않는다. 따라서, 다이어로그 타입의 스프레드 파라미터는 기준값 이상의 값으로 결정될 수 있다.On the other hand, although the audio object belonging to the dialog type is output in multiple channels due to its characteristics, the output performance of the audio object is not significantly affected. Dialog type audio objects are hardly affected by interference that may occur as they are output in multiple channels. Therefore, the spread parameter of the dialog type may be determined to be a value more than the reference value.
다이렉트 타입에 속하는 오브젝트의 스프레드 파라미터는 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여 결정될 수 있다.The spread parameter of an object belonging to the direct type may be determined based on at least one feature of the object and the rendering environment.
연판정 타입에 속하는 오브젝트의 스프레드 파라미터는 제작자의 의도대로 출력되기 위한 값으로 결정될 수 있다. 제작자의 의도를 나타내는 구체적으로 수치화된 정보에 기초하여 오브젝트의 스프레드 파라미터가 결정될 수 있다.The spread parameter of the object belonging to the soft decision type may be determined as a value to be output as intended by the producer. Spread parameters of the object may be determined based on specifically quantified information indicative of the intention of the producer.
또한, 스프레드 파라미터는 오브젝트의 타입뿐만 아니라 오브젝트에 관련된 정보, 예를 들면, 오브젝트의 위치 정보, 특성 정보 등에 기초하여 결정될 수 있다.In addition, the spread parameter may be determined based on not only the type of the object but also information related to the object, for example, location information of the object, characteristic information, and the like.
단계 S430에서, 장치는 단계 S420에서 결정된 스프레드 파라미터에 기초하여 오디오 오브젝트의 음상이 정위되는 방향을 적어도 하나 결정할 수 있다. 단계 S430에서 결정될 수 있는 다수의 방향은, 이하에서 패닝 방향(panning direction)으로 지칭하기로 한다. 패닝 방향은 기준 방향을 중심으로 스프레드 파라미터 값에 따른 각도 범위 이내에 결정될 수 있는 벡터값을 나타낸다. In operation S430, the device may determine at least one direction in which the sound image of the audio object is positioned based on the spread parameter determined in operation S420. A plurality of directions that may be determined in step S430 will be referred to as a panning direction below. The panning direction represents a vector value that can be determined within an angular range according to the spread parameter value about the reference direction.
단계 S440에서, 장치는 단계 S430에서 결정된 오디오 오브젝트가 정위되는 방향에 기초하여 오디오 오브젝트를 렌더링할 수 있다. 장치는, 오디오 오브젝트의 각 패닝 방향에 대한 게인 팩터를 구할 수 있다. 게인 팩터는 상술한 바와 같이 각 패닝 방향 및 각 패닝 방향이 위치한 삼각형을 이루는 채널들의 위치를 나타내는 방향 벡터 값에 기초하여 결정될 수 있다. 그리고, 장치는 오디오 오브젝트의 패닝 방향 및 게인 팩터에 기초하여, 오디오 오브젝트를 다수의 채널로 렌더링할 수 있다.In operation S440, the device may render the audio object based on the direction in which the audio object determined in operation S430 is positioned. The device may obtain a gain factor for each panning direction of the audio object. As described above, the gain factor may be determined based on a direction vector value indicating a position of each panning direction and channels forming a triangle in which each panning direction is located. The device may render the audio object into a plurality of channels based on the panning direction and the gain factor of the audio object.
이하 도 5를 참조하여, 오디오 오브젝트의 타입을 결정하는 방법에 대하여 더 자세히 설명하기로 한다.Hereinafter, a method of determining the type of an audio object will be described in more detail with reference to FIG. 5.
도 5는 일 실시 예에 의한 오디오 오브젝트의 타입을 결정하는 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method of determining a type of an audio object according to an exemplary embodiment.
도 5를 참조하면, 단계 S510에서, 장치는 오디오 오브젝트의 타입을 획득할 수 있다. 오브젝트의 타입은 오디오 오브젝트가 퍼지는 정도에 따라 청취자에게 제공될 수 있는 음향의 잔향감, 공간감 등이 달라지는 정도에 기초하여 다양한 방법으로 구분될 수 있다. 또한, 오브젝트의 타입은 오디오 오브젝트가 다수의 채널로 출력될수록 오디오 오브젝트의 출력 성능 또는 출력 특성이 변화하는지 여부에 기초하여 구분될 수 있다.Referring to FIG. 5, in operation S510, the device may acquire a type of an audio object. The object types may be classified in various ways based on the degree to which the reverberation of the sound that may be provided to the listener, the sense of space, and the like may vary according to the extent to which the audio object is spread. In addition, the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels.
또한, 오디오 오브젝트의 타입은 비트스트림을 통해 시그널링된 오디오 오브젝트의 타입에 관한 정보로부터 획득되거나, 오디오 오브젝트의 특성이 분석된 결과에 기초하여, 오디오 오브젝트의 타입이 결정될 수 있다.In addition, the type of the audio object may be obtained from information about the type of the audio object signaled through the bitstream, or the type of the audio object may be determined based on a result of analyzing the characteristics of the audio object.
단계 S520에서, 장치는 단계 S510에서 획득된 오디오 오브젝트의 타입이 앰비언스 타입 또는 어플라우즈 타입인지 여부를 결정할 수 있다.In operation S520, the device may determine whether the type of the audio object acquired in operation S510 is an ambience type or an applause type.
단계 S530에서, 단계 S520에서 오디오 오브젝트의 타입이 앰비언스 타입 또는 어플라우즈 타입인 것으로 결정된 경우, 장치는 스프레드 파라미터를 기준 값 이하의 값으로 결정할 수 있다. 앰비언스 타입 또는 어플라우즈 타입의 오디오 오브젝트는 청취자에게 공간감 또는 잔향감을 제공할 수 있다. 따라서, 위 타입에 속하는 오디오 오브젝트가 많은 수의 채널로 렌더링될 수록 간섭 현상이 심해질 수 있다. 장치는, 간섭 현상을 최소화할 수 있도록 스프레드 파라미터를 기준 값 이하의 값으로 결정할 수 있다.In step S530, if it is determined in step S520 that the type of the audio object is an ambience type or an applause type, the device may determine the spread parameter to be a value less than or equal to the reference value. Audio objects of the ambience type or the applause type may provide a listener with a sense of space or reverberation. Therefore, as the audio object belonging to the above type is rendered in a large number of channels, the interference phenomenon may increase. The apparatus may determine the spread parameter to a value below the reference value so as to minimize the interference phenomenon.
또한, 장치는, 오디오 오브젝트의 특성, 오디오 오브젝트의 출력 환경, 사용자 설정 등을 더 고려하여 오디오 오브젝트가 최적의 상태로 출력될 수 있는 값으로 스프레드 파라미터를 결정할 수 있다.In addition, the apparatus may determine the spread parameter to a value capable of outputting the audio object optimally in consideration of the characteristics of the audio object, the output environment of the audio object, a user setting, and the like.
단계 S540에서, 장치는 오디오 오브젝트의 타입이 다이렉트 타입에 속하는지 여부를 판단할 수 있다. 단계 S550에서, 오디오 오브젝트의 타입이 다이렉트 타입에 속하는 경우, 장치는, 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여 스프레드 파라미터를 획득할 수 있다.In operation S540, the device may determine whether the type of the audio object belongs to the direct type. In operation S550, when the type of the audio object belongs to the direct type, the apparatus may obtain a spread parameter based on at least one feature of the object and the rendering environment.
단계 S560에서, 장치는 오디오 오브젝트의 타입이 다이어로그 타입에 속하는지 여부를 판단할 수 있다. 단계 S570에서, 장치는 오디오 오브젝트의 타입에 따라 스프레드 파라미터를 기준값 이상의 값으로 결정할 수 있다. 다이어로그 타입에 속하는 오디오 오브젝트는 그 특성상 다채널로 출력되더라도 오디오 오브젝트의 출력 성능은 이에 큰 영향을 받지 않는다. 다이어로그 타입의 오디오 오브젝트는 다채널로 출력됨에 따라 발생될 수 있는 간섭 현상의 영향을 거의 받지 않는다. 따라서, 다이어로그 타입의 스프레드 파라미터는 기준값 이상의 값으로 결정될 수 있다.In operation S560, the device may determine whether the type of the audio object belongs to the dialog type. In operation S570, the device may determine the spread parameter to be a value greater than or equal to the reference value according to the type of the audio object. Even if an audio object belonging to the dialog type is output in multiple channels, the output performance of the audio object is not significantly affected. Dialog type audio objects are hardly affected by interference that may occur as they are output in multiple channels. Therefore, the spread parameter of the dialog type may be determined to be a value greater than or equal to the reference value.
스프레드 파라미터가 큰 값을 가질수록 오디오 오브젝트는 더 많은 방향 및 채널을 통해 출력될 수 있다. 또한, 오디오 오브젝트가 시간 흐름에 따라 이동할 때, 오디오 오브젝트가 많은 채널을 통해 출력될수록 최적의 상태로 오디오 오브젝트가 출력될 수 있다. 따라서, 장치는 오디오 오브젝트가 많은 채널을 통해 출력되도록 스프레드 파라미터를 결정하되, 오디오 오브젝트의 타입에 따라서, 스프레드 파라미터를 기준값 이하의 값으로 결정할 수 있다.The larger the spread parameter, the more the audio object can be output through more directions and channels. In addition, when the audio object moves over time, the audio object may be output in an optimal state as the audio object is output through many channels. Accordingly, the device may determine the spread parameter so that the audio object is output through many channels, but may determine the spread parameter to a value less than or equal to the reference value according to the type of the audio object.
단계 S580에서, 장치는 오디오 오브젝트가 연판정 타입인 것으로 판단할 수 있다. 스프레드 파라미터는 제작자의 의도를 나타내는 구체적으로 수치화된 정보에 기초하여 오브젝트의 스프레드 파라미터가 결정될 수 있다. 예를 들면, 스프레드 파라미터는 오브젝트의 공간감 정도를 나타내는 수치값에 기초하여 결정될 수 있다.In operation S580, the device may determine that the audio object is a soft decision type. The spread parameter may be determined by the spread parameter of the object based on specifically digitized information representing the intention of the producer. For example, the spread parameter may be determined based on a numerical value indicating the degree of spatiality of the object.
단계 S590에서, 장치는 단계 S530, S550, S570, S580에서 결정한 스프레드 파라미터를 이용하여 오디오 오브젝트를 렌더링할 수 있다. 렌더링된 오디오 오브젝트는 각 렌더링된 적어도 하나의 채널을 통하여 출력될 수 있다.In operation S590, the device may render the audio object using the spread parameters determined in operations S530, S550, S570, and S580. The rendered audio object may be output through at least one rendered channel.
이하 도 6을 참조하여, 오디오 오브젝트를 렌더링하는 장치에 대하여 자세히 설명하기로 한다.Hereinafter, an apparatus for rendering an audio object will be described in detail with reference to FIG. 6.
도 6은 일 실시 예에 의한 오디오 오브젝트를 렌더링하는 장치의 내부 구조를 나타낸 블록도이다.6 is a block diagram illustrating an internal structure of an apparatus for rendering an audio object according to an exemplary embodiment.
일 실시 예에 의한 오디오 오브젝트를 렌더링하는 장치(600)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 장치(600)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다.According to an embodiment, an apparatus 600 for rendering an audio object may be a terminal apparatus that may be used by a user. For example, the device 600 may be a smart television, ultra high definition (UHD) TV, monitor, personal computer (PC), notebook computer, mobile phone, tablet PC, navigation terminal, smart Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
일 실시 예에 의한 오디오 오브젝트를 렌더링하는 장치(600)는 수신부(610), 제어부(620) 및 음향 출력부(630)를 포함할 수 있다.The apparatus 600 for rendering an audio object according to an embodiment may include a receiver 610, a controller 620, and a sound output unit 630.
수신부(610)는 외부로부터 렌더링하기 위한 오디오 오브젝트를 포함하는 오디오 신호를 수신할 수 있다. 또한, 수신부(610)는 오디오 신호로부터 오디오 오브젝트를 추출할 수 있다. 오디오 신호는 비트 스트림의 형태로 수신될 수 있으며, 수신부(610)는 오디오 신호를 포함하는 비트 스트림으로부터 오디오 오브젝트를 추출할 수 있다. 또한, 수신부(610)는 비트 스트림으로부터 오디오 오브젝트의 특성을 분석하기 위한 정보 또는 오디오 오브젝트의 타입을 결정하기 위한 정보를 추출할 수 있다.The receiver 610 may receive an audio signal including an audio object for rendering from the outside. In addition, the receiver 610 may extract an audio object from the audio signal. The audio signal may be received in the form of a bit stream, and the receiver 610 may extract an audio object from the bit stream including the audio signal. In addition, the receiver 610 may extract information for analyzing the characteristics of the audio object or information for determining the type of the audio object from the bit stream.
제어부(620)는 오디오 오브젝트에 관련된 정보에 기초하여 스프레드 파라미터를 결정하고, 결정된 스프레드 파라미터에 따라 오디오 오브젝트를 렌더링할 수 있다. 오디오 오브젝트에 관련된 정보는 오브젝트의 위치 정보, 특성 정보 등을 포함할 수 있다. 오브젝트의 특성 정보는, 예를 들면, 오브젝트의 타입에 관한 정보를 포함할 수 있다. 스프레드 파라미터는 오디오 오브젝트가 공간감 또는 잔향감을 청취자에게 제공하는지 여부에 따라 결정될 수 있다. 또한, 오브젝트의 타입은 오디오 오브젝트가 다수의 채널로 출력될수록 오디오 오브젝트의 출력 성능 또는 출력 특성이 변화하는지 여부에 기초하여 구분될 수 있다. 또한, 오브젝트의 타입 중 연판정 타입에 속하는 오브젝트의 스프레드 파라미터는 제작자의 의도를 나타내는 구체적으로 수치화된 정보에 기초하여 결정될 수 있다.The controller 620 may determine the spread parameter based on the information related to the audio object, and render the audio object according to the determined spread parameter. The information related to the audio object may include location information of the object, characteristic information, and the like. The characteristic information of the object may include, for example, information about the type of the object. The spread parameter may be determined depending on whether the audio object provides a sense of space or reverberation to the listener. In addition, the type of the object may be classified based on whether the output performance or output characteristics of the audio object change as the audio object is output through a plurality of channels. In addition, the spread parameter of the object belonging to the soft decision type of the object type may be determined based on specifically digitized information indicating the intention of the producer.
음향 출력부(630)는 제어부(620)에 의해 렌더링된 오디오 오브젝트를 다수의 채널로 출력할 수 있다.The sound output unit 630 may output the audio object rendered by the controller 620 through a plurality of channels.
일 실시 예에 의하면, 청취자에게 제공하고자 하는 제작자의 의도에 따라 최적의 상태로 오디오 오브젝트가 출력될 수 있다.According to an embodiment, the audio object may be output in an optimal state according to the producer's intention to provide to the listener.
일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The method according to some embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.Although the foregoing description has been focused on the novel features of the invention as applied to various embodiments, those skilled in the art will appreciate that the apparatus and method described above without departing from the scope of the invention. It will be understood that various deletions, substitutions, and changes in form and detail of the invention are possible. Accordingly, the scope of the invention is defined by the appended claims rather than in the foregoing description. All modifications within the scope of equivalents of the claims are to be embraced within the scope of the present invention.

Claims (15)

  1. 오디오 오브젝트를 렌더링하는 방법에 있어서,In the method of rendering an audio object,
    상기 오디오 오브젝트에 관련된 정보를 획득하는 단계;Obtaining information related to the audio object;
    상기 획득된 오브젝트에 관련된 정보에 기초하여, 상기 오디오 오브젝트가 적어도 하나의 방향으로 퍼지는 정도를 나타내는 스프레드 파라미터(spread parameter)를 결정하는 단계;Determining a spread parameter indicative of the extent to which the audio object spreads in at least one direction based on the obtained information related to the obtained object;
    상기 결정된 파라미터에 따라, 상기 오디오 오브젝트가 정위되는 방향을 적어도 하나 결정하는 단계;Determining, according to the determined parameter, at least one direction in which the audio object is located;
    상기 결정된 방향에 기초하여, 상기 오디오 오브젝트를 렌더링하는 단계를 포함하는, 방법.Based on the determined direction, rendering the audio object.
  2. 제1항에 있어서, 상기 오브젝트에 관련된 정보는 오브젝트의 타입에 관한 정보를 포함하고,The method of claim 1, wherein the information related to the object includes information about a type of an object.
    상기 오브젝트의 타입은The type of the object
    상기 오디오 오브젝트가 청취자에게 공간감(spaciousness) 또는 잔향감(reverberation)을 제공하는지 여부에 따라 구분되는, 방법.And whether the audio object provides a listener with spatiality or reverberation.
  3. 제2항에 있어서, 상기 오디오 오브젝트의 타입은The method of claim 2, wherein the type of the audio object
    다이렉트 타입, 앰비언스(ambience) 타입, 어플라우즈(applause) 타입, 연판정 타입, 다이어로그(dialogue) 타입 중 적어도 하나를 포함하는, 방법.And at least one of a direct type, an ambience type, an applause type, a soft decision type, and a dialog type.
  4. 제2항에 있어서, 상기 스프레드 파라미터를 결정하는 단계는The method of claim 2, wherein determining the spread parameter
    상기 획득된 오브젝트 타입이 앰비언스 타입 또는 어플라우즈 타입인 경우, 상기 스프레드 파라미터를 기준값(reference value) 이하의 값으로 결정하는 단계를 포함하는, 방법.If the obtained object type is an ambience type or an applause type, determining the spread parameter to a value less than or equal to a reference value.
  5. 제2항에 있어서, 상기 스프레드 파라미터를 결정하는 단계는The method of claim 2, wherein determining the spread parameter
    상기 획득된 오브젝트 타입이 연판정 타입인 경우, 상기 오디오 오브젝트의 공간감 정도를 나타내는 정보에 기초하여, 스프레드 파라미터를 결정하는 단계를 포함하는, 방법.If the obtained object type is a soft decision type, determining a spread parameter based on information indicating a degree of spatiality of the audio object.
  6. 제2항에 있어서, 상기 스프레드 파라미터를 결정하는 단계는The method of claim 2, wherein determining the spread parameter
    상기 획득된 오브젝트 타입이 다이렉트 타입인 경우, 상기 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여, 상기 스프레드 파라미터를 결정하는 단계를 포함하는, 방법.If the obtained object type is a direct type, determining the spread parameter based on at least one feature of the object and a rendering environment.
  7. 제2항에 있어서, 상기 스프레드 파라미터를 결정하는 단계는The method of claim 2, wherein determining the spread parameter
    상기 획득된 오브젝트 타입이 다이어로그 타입인 경우, 상기 스프레드 파라미터를 기준값(reference value) 이상의 값으로 결정하는 단계를 포함하는, 방법.If the obtained object type is a dialog type, determining the spread parameter to a value equal to or greater than a reference value.
  8. 오디오 오브젝트를 렌더링하는 장치에 있어서, An apparatus for rendering an audio object,
    적어도 하나의 오디오 오브젝트를 포함하는 오디오 신호를 수신하고, 상기 오디오 신호로부터 오디오 오브젝트를 추출하는 수신부;A receiver which receives an audio signal including at least one audio object and extracts an audio object from the audio signal;
    상기 오디오 오브젝트에 관련된 정보를 획득하고, 상기 획득된 오브젝트에 관련된 정보에 기초하여, 상기 오디오 오브젝트가 적어도 하나의 방향으로 퍼지는 정도를 나타내는 스프레드 파라미터를 결정하고, 상기 결정된 파라미터에 따라, 상기 오디오 오브젝트가 정위되는 방향을 적어도 하나 결정하고, 상기 결정된 방향에 기초하여, 상기 오디오 오브젝트를 렌더링하는 제어부; 및Acquiring information related to the audio object, determining a spread parameter indicating a degree to which the audio object spreads in at least one direction based on the information related to the obtained object, and according to the determined parameter, A controller which determines at least one orientation to be positioned and renders the audio object based on the determined direction; And
    상기 렌더링된 오디오 오브젝트를 출력하는 음향 출력부를 포함하는, 장치.And a sound output unit for outputting the rendered audio object.
  9. 제8항에 있어서, 상기 오브젝트에 관련된 정보는 오브젝트의 타입에 관한 정보를 포함하고, 상기 오브젝트의 타입은The method of claim 8, wherein the information related to the object includes information regarding a type of an object, and the type of the object
    상기 오디오 오브젝트가 청취자에게 공간감 또는 잔향감을 제공하는지 여부에 따라 구분되는, 장치.And whether the audio object provides a sense of space or reverberation to the listener.
  10. 제9항에 있어서, 상기 오디오 오브젝트의 타입은The method of claim 9, wherein the type of the audio object
    다이렉트 타입, 앰비언스 타입, 어플라우즈 타입, 연판정 타입, 다이어로그 타입 중 적어도 하나를 포함하는, 장치.And at least one of a direct type, an ambience type, an applause type, a soft decision type, and a dialog type.
  11. 제9항에 있어서, 상기 제어부는The method of claim 9, wherein the control unit
    상기 획득된 오브젝트 타입이 앰비언스 타입 또는 어플라우즈 타입인 경우, 상기 스프레드 파라미터를 기준값 이하의 값으로 결정하는, 장치.And if the obtained object type is an ambience type or an applause type, determining the spread parameter to a value below a reference value.
  12. 제9항에 있어서, 상기 제어부는The method of claim 9, wherein the control unit
    상기 획득된 오브젝트 타입이 연판정 타입인 경우, 상기 오디오 오브젝트의 공간감 정도를 나타내는 정보에 기초하여, 스프레드 파라미터를 결정하는, 장치.And if the obtained object type is a soft decision type, determine a spread parameter based on information indicating a degree of spatiality of the audio object.
  13. 제9항에 있어서, 상기 제어부는The method of claim 9, wherein the control unit
    상기 획득된 오브젝트 타입이 다이렉트 타입인 경우, 상기 오브젝트 및 렌더링 환경 중 적어도 하나의 특징에 기초하여, 상기 스프레드 파라미터를 결정하는, 장치.And if the obtained object type is a direct type, determining the spread parameter based on at least one feature of the object and a rendering environment.
  14. 제9항에 있어서, 상기 제어부는The method of claim 9, wherein the control unit
    상기 획득된 오브젝트 타입이 다이어로그 타입인 경우, 상기 스프레드 파라미터를 기준값 이상의 값으로 결정하는, 장치.And determine the spread parameter to a value equal to or greater than a reference value when the obtained object type is a dialog type.
  15. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.8. A computer-readable recording medium according to any one of claims 1 to 7, wherein a program for implementing the method is recorded.
PCT/KR2015/003326 2014-04-02 2015-04-02 Method and apparatus for rendering audio object WO2015152661A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461974052P 2014-04-02 2014-04-02
US61/974,052 2014-04-02

Publications (1)

Publication Number Publication Date
WO2015152661A1 true WO2015152661A1 (en) 2015-10-08

Family

ID=54240883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/003326 WO2015152661A1 (en) 2014-04-02 2015-04-02 Method and apparatus for rendering audio object

Country Status (1)

Country Link
WO (1) WO2015152661A1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US20190306651A1 (en) 2018-03-27 2019-10-03 Nokia Technologies Oy Audio Content Modification for Playback Audio
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
CN111213202A (en) * 2017-10-20 2020-05-29 索尼公司 Signal processing device and method, and program
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062773A (en) * 2008-12-02 2010-06-10 한국전자통신연구원 Apparatus for playing audio contents
KR20100065121A (en) * 2008-12-05 2010-06-15 엘지전자 주식회사 Method and apparatus for processing an audio signal
US20110013790A1 (en) * 2006-10-16 2011-01-20 Johannes Hilpert Apparatus and Method for Multi-Channel Parameter Transformation
WO2011020067A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. System for adaptively streaming audio objects
KR20140017684A (en) * 2011-07-01 2014-02-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and tools for enhanced 3d audio authoring and rendering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013790A1 (en) * 2006-10-16 2011-01-20 Johannes Hilpert Apparatus and Method for Multi-Channel Parameter Transformation
KR20100062773A (en) * 2008-12-02 2010-06-10 한국전자통신연구원 Apparatus for playing audio contents
KR20100065121A (en) * 2008-12-05 2010-06-15 엘지전자 주식회사 Method and apparatus for processing an audio signal
WO2011020067A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. System for adaptively streaming audio objects
KR20140017684A (en) * 2011-07-01 2014-02-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and tools for enhanced 3d audio authoring and rendering

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10433096B2 (en) 2016-10-14 2019-10-01 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11044570B2 (en) 2017-03-20 2021-06-22 Nokia Technologies Oy Overlapping audio-object interactions
US11604624B2 (en) 2017-05-05 2023-03-14 Nokia Technologies Oy Metadata-free audio-object interactions
US11442693B2 (en) 2017-05-05 2022-09-13 Nokia Technologies Oy Metadata-free audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111213202A (en) * 2017-10-20 2020-05-29 索尼公司 Signal processing device and method, and program
US12100381B2 (en) 2017-10-20 2024-09-24 Sony Group Corporation Signal processing device, signal processing method, and program
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
US20190306651A1 (en) 2018-03-27 2019-10-03 Nokia Technologies Oy Audio Content Modification for Playback Audio

Similar Documents

Publication Publication Date Title
WO2015152661A1 (en) Method and apparatus for rendering audio object
US10674262B2 (en) Merging audio signals with spatial metadata
US10206030B2 (en) Microphone array system and microphone array control method
WO2013147547A1 (en) Audio apparatus and method of converting audio signal thereof
CN104995681B (en) The video analysis auxiliary of multichannel audb data is produced
WO2012161555A2 (en) Signal-separation system using a directional microphone array and method for providing same
WO2016089049A1 (en) Method and device for outputting audio signal on basis of location information of speaker
JP2020504384A (en) Apparatus and related methods in the field of virtual reality
WO2017052056A1 (en) Electronic device and method of audio processing thereof
WO2014171706A1 (en) Audio signal processing method using generating virtual object
WO2017209477A1 (en) Audio signal processing method and device
WO2014061931A1 (en) Device and method for playing sound
EP2737727A2 (en) Method and apparatus for processing audio signal
US10140088B2 (en) Visual spatial audio
WO2014175668A1 (en) Audio signal processing method
JP7536733B2 (en) Computer system and method for achieving user-customized realism in connection with audio - Patents.com
US9584761B2 (en) Videoconference terminal, secondary-stream data accessing method, and computer storage medium
WO2016123901A1 (en) Terminal and method for directionally playing audio signal thereby
EP2743917B1 (en) Information system, information reproducing apparatus, information generating method, and storage medium
WO2018101600A1 (en) Electronic apparatus and control method thereof
JP2018019294A (en) Information processing system, control method therefor, and computer program
KR20220071867A (en) Computer system for realizing customized being-there in assocation with audio and method thereof
WO2018012727A1 (en) Display apparatus and recording medium
WO2023231787A1 (en) Audio processing method and apparatus
WO2016167464A1 (en) Method and apparatus for processing audio signals on basis of speaker information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15773932

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase
122 Ep: pct application non-entry in european phase

Ref document number: 15773932

Country of ref document: EP

Kind code of ref document: A1