KR20240080841A - Transparency mode providing method using mixing metadata and audio apparatus - Google Patents

Transparency mode providing method using mixing metadata and audio apparatus Download PDF

Info

Publication number
KR20240080841A
KR20240080841A KR1020220164561A KR20220164561A KR20240080841A KR 20240080841 A KR20240080841 A KR 20240080841A KR 1020220164561 A KR1020220164561 A KR 1020220164561A KR 20220164561 A KR20220164561 A KR 20220164561A KR 20240080841 A KR20240080841 A KR 20240080841A
Authority
KR
South Korea
Prior art keywords
sound
mixing
mixing metadata
user terminal
signal
Prior art date
Application number
KR1020220164561A
Other languages
Korean (ko)
Inventor
허정권
Original Assignee
주식회사 캔딧
Filing date
Publication date
Application filed by 주식회사 캔딧 filed Critical 주식회사 캔딧
Publication of KR20240080841A publication Critical patent/KR20240080841A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/66Digital/analogue converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers

Abstract

믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법은 오디오 장치가 마이크를 통해 외부 소리를 입력받는 단계, 상기 오디오 장치가 사용자 단말로부터 음향 신호를 전달받는 단계, 상기 오디오 장치가 상기 사용자 단말로부터 믹싱 메타데이터를 전달받는 단계, 상기 오디오 장치가 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 음향 신호를 믹싱하여 출력 신호를 생성하는 단계 및 상기 오디오 장치가 상기 출력 신호를 드라이버 유닛을 통해 출력하는 단계를 포함하되, 상기 믹싱 메타데이터는 상기 출력 신호 중 상기 외부 소리와 상기 음향 신호를 믹싱하는 비율을 나타낸다.A method of providing a transparent mode using mixing metadata includes the following steps: an audio device receiving external sound through a microphone, the audio device receiving a sound signal from a user terminal, and the audio device receiving mixing metadata from the user terminal. Receiving data, the audio device mixing the external sound and the sound signal based on the mixing metadata to generate an output signal, and the audio device outputting the output signal through a driver unit. Including, the mixing metadata indicates a mixing ratio of the external sound and the sound signal among the output signals.

Description

믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법 및 오디오 장치{TRANSPARENCY MODE PROVIDING METHOD USING MIXING METADATA AND AUDIO APPARATUS}Method and audio device for providing transparent mode using mixing metadata {TRANSPARENCY MODE PROVIDING METHOD USING MIXING METADATA AND AUDIO APPARATUS}

이하 설명하는 기술은 이어폰과 같은 오디오 장치에서 투명 모드 동작을 제어하는 기법에 관한 것이다. The technology described below relates to a technique for controlling transparent mode operation in an audio device such as earphones.

최근 스마트폰과 같은 사용자 단말을 이용한 콘텐츠 서비스 시장이 급격하게 성장하고 있다. 스마트 기기 제조사도 스마트폰과 연동되는 다양한 무선 이어폰(헤드폰) 제품을 출시하고 있다. 이어폰을 사용하는 시간이 늘어나면서, 최신 이어폰은 이어폰을 착용한 상태에서 외부 소리를 들을 수 있는 동작 모드를 제공한다. 이어폰은 사용자의 제어에 따라 사용자 단말이 전달하는 음향 신호와 함께 외부 소리를 사용자에게 제공할 수 있다. Recently, the content service market using user terminals such as smartphones has been growing rapidly. Smart device manufacturers are also releasing a variety of wireless earphone (headphone) products that work with smartphones. As the time spent using earphones increases, the latest earphones provide an operation mode that allows you to hear external sounds while wearing the earphones. Earphones can provide external sounds to the user along with sound signals transmitted by the user terminal under the user's control.

미국등록특허 US 10,034,092US registered patent US 10,034,092

이하 설명하는 기술은 사용자의 개입 없이 외부 소리와 음향 신호를 믹싱하여 출력하는 투명 모드를 제공하고자 한다. 이하 설명하는 기술은 외부 객체에서 음향 신호와 함께 전달되는 믹싱 메타데이터를 기준으로 외부 소리와 음향 신호를 믹싱하여 동적이며 인터랙티브한 투명 모드를 제공하고자 한다.The technology described below seeks to provide a transparent mode that mixes external sounds and acoustic signals and outputs them without user intervention. The technology described below seeks to provide a dynamic and interactive transparent mode by mixing external sounds and sound signals based on mixing metadata transmitted together with the sound signals from external objects.

믹싱 메타데이터를 이용하여 투명 모드를 제공하는 오디오 장치는 외부 소리를 입력받는 마이크, 상기 마이크에서 출력되는 신호를 변환하는 ADC(Analog Digital Converter), 음향 신호 및 믹싱 메타데이터를 입력받는 입력 인터페이스, 상기 입력 인터페이스로부터 상기 음향 신호 및 상기 믹싱 메타데이터를 입력받고, 상기 ADC로부터 변환된 외부 소리를 입력받고, 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 음향 신호를 믹싱하여 출력 신호를 생성하는 믹서(mixer), 상기 믹서의 출력 신호를 아날로그 신호로 변환하는 DAC(Digital Analog Converter), 상기 DAC 신호를 증폭하는 증폭기 및 상기 증폭기의 출력 신호를 출력하는 드라이버 유닛을 포함한다.An audio device that provides a transparent mode using mixing metadata includes a microphone that receives external sound, an ADC (Analog Digital Converter) that converts the signal output from the microphone, an input interface that receives sound signals and mixing metadata, and A mixer that receives the sound signal and the mixing metadata from an input interface, receives external sound converted from the ADC, and generates an output signal by mixing the external sound and the sound signal based on the mixing metadata ( mixer), a DAC (Digital Analog Converter) that converts the output signal of the mixer into an analog signal, an amplifier that amplifies the DAC signal, and a driver unit that outputs the output signal of the amplifier.

믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법은 오디오 장치가 마이크를 통해 외부 소리를 입력받는 단계, 상기 오디오 장치가 사용자 단말로부터 음향 신호를 전달받는 단계, 상기 오디오 장치가 상기 사용자 단말로부터 믹싱 메타데이터를 전달받는 단계, 상기 오디오 장치가 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 음향 신호를 믹싱하여 출력 신호를 생성하는 단계 및 상기 오디오 장치가 상기 출력 신호를 드라이버 유닛을 통해 출력하는 단계를 포함하되, 상기 믹싱 메타데이터는 상기 출력 신호 중 상기 외부 소리와 상기 음향 신호를 믹싱하는 비율을 나타낸다.A method of providing a transparent mode using mixing metadata includes the following steps: an audio device receiving external sound through a microphone, the audio device receiving a sound signal from a user terminal, and the audio device receiving mixing meta data from the user terminal. Receiving data, the audio device mixing the external sound and the sound signal based on the mixing metadata to generate an output signal, and the audio device outputting the output signal through a driver unit. Including, the mixing metadata indicates a mixing ratio of the external sound and the sound signal among the output signals.

이하 설명하는 기술은 콘텐츠 서비스 제공자 등의 주체가 이어폰의 투명 모드를 동적으로 제어할 수 있도록 한다. 따라서, 이하 설명하는 기술은 서비스 제공자가 투명 모드를 적극적으로 활용하여 새로운 경험의 사용자 서비스를 제공하게 한다.The technology described below allows entities such as content service providers to dynamically control the transparent mode of the earphone. Accordingly, the technology described below allows service providers to actively utilize the transparent mode to provide users with a new experience of service.

도 1은 종래 투명 모드를 지원하는 오디오 장치에 대한 예이다.
도 2는 믹싱 메타데이터를 사용한 투명 모드 제공 시나리오에 대한 예이다.
도 3은 믹싱 메타데이터를 사용하여 투명 모드를 제어하는 오디오 장치에 대한 예이다.
도 4는 믹싱 메타데이터를 포함하는 오디오 패킷에 대한 예이다.
도 5는 투명 모드 기반의 음향 서비스 제공 과정에 대한 예이다.
도 6은 투명 모드 기반의 음향 서비스 제공 과정에 대한 다른 예이다.
도 7은 투명 모드 기반의 음향 서비스 제공 과정에 대한 또 다른 예이다.
도 8은 믹싱 메타데이터를 이용하여 투명 모드 기반 서비스를 제어하는 과정에 대한 예이다.
도 9는 믹싱 메타데이터를 이용하여 음원 서비스를 제공하는 과정에 대한 예이다.
도 10은 믹싱 메타데이터를 이용하여 영화 서비스를 제공하는 과정에 대한 예이다.
Figure 1 is an example of a conventional audio device supporting transparent mode.
Figure 2 is an example of a transparent mode provision scenario using mixing metadata.
Figure 3 is an example of an audio device controlling transparent mode using mixing metadata.
Figure 4 is an example of an audio packet containing mixing metadata.
Figure 5 is an example of a transparent mode-based sound service provision process.
Figure 6 is another example of a transparent mode-based sound service provision process.
Figure 7 is another example of a transparent mode-based sound service provision process.
Figure 8 is an example of a process for controlling a transparent mode-based service using mixing metadata.
Figure 9 is an example of a process for providing a sound source service using mixing metadata.
Figure 10 is an example of a process for providing a movie service using mixing metadata.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The technology described below may be subject to various changes and may have various embodiments, and specific embodiments will be illustrated in the drawings and described in detail. However, this is not intended to limit the technology described below to specific embodiments, and should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the technology described below.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, B, etc. may be used to describe various components, but the components are not limited by the terms, and are only used for the purpose of distinguishing one component from other components. It is used only as For example, a first component may be named a second component without departing from the scope of the technology described below, and similarly, the second component may also be named a first component. The term and/or includes any of a plurality of related stated items or a combination of a plurality of related stated items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.In terms used in this specification, singular expressions should be understood to include plural expressions, unless clearly interpreted differently from the context, and terms such as “including” refer to the described features, numbers, steps, operations, and components. , it means the existence of parts or a combination thereof, but should be understood as not excluding the possibility of the presence or addition of one or more other features, numbers, step operation components, parts, or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Before providing a detailed description of the drawings, it would be clarified that the division of components in this specification is merely a division according to the main function each component is responsible for. That is, two or more components, which will be described below, may be combined into one component, or one component may be divided into two or more components for more detailed functions. In addition to the main functions it is responsible for, each of the components described below may additionally perform some or all of the functions handled by other components, and some of the main functions handled by each component may be performed by other components. Of course, it can also be carried out exclusively by .

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.In addition, when performing a method or operation method, each process that makes up the method may occur in a different order from the specified order unless a specific order is clearly stated in the context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the opposite order.

이하 설명하는 기술은 이어폰 또는 헤드폰과 같은 오디오 장치에서의 신호 처리 기술에 관한 것이다. 이어폰 및 헤드폰은 각각 물리적인 형태가 다르지만 입력되는 음향 신호를 스피커(드라이버 유닛)로 출력하는 기술적 구성은 유사한 장치이다. 이어폰 및 헤드폰은 유선 또는 무선으로 음향 신호를 입력 내지 수신하고, 해당 음향 신호를 아날로그 신호로 변환하여 드라이버 유닛으로 출력하는 구성을 공통적으로 포함한다. 이하 이어폰 및 헤드폰은 오디오 장치라고 명명한다. 따라서, 이하 오디오 장치는 사용자 머리 또는 귀에 착용하는 형태의 장치이고, 외부에서 입력되는 음향 신호를 아날로그 신호로 변환하고 증폭하여 사용자 귀에 전달하는 장치를 의미한다. The technology described below relates to signal processing technology in audio devices such as earphones or headphones. Earphones and headphones each have different physical forms, but the technical structure of outputting the input sound signal to a speaker (driver unit) is similar. Earphones and headphones commonly include a configuration that inputs or receives sound signals wired or wirelessly, converts the sound signals into analog signals, and outputs them to a driver unit. Hereinafter, earphones and headphones are referred to as audio devices. Therefore, the audio device hereinafter refers to a device that is worn on the user's head or ears, and converts and amplifies sound signals input from the outside into analog signals and transmits them to the user's ears.

이하 설명하는 기술은 오디오 장치에서의 투명 모드(transparency mode)에 관한 것이다. 오디오 장치는 일반적으로 사용자의 귀를 덮거나 막는 형태로 착용된다. 따라서, 사용자는 오디오 장치를 통해 음향 신호를 듣는 동안 외부 소리를 듣기 어렵다. 투명 모드는 오디오 장치가 음향 신호와 함께 외부 소리도 사용자에게 제공하기 위한 모드이다. 투명 모드는 제품 및 서비스에 따라 다른 이름으로 명명되기도 한다. 다만, 이하 설명에서는 오디오 장치가 외부(주변)의 소리를 음향 신호와 함께 제공하는 동작을 투명 모드 내지 투명 모드 동작이라고 명명한다.The technology described below relates to transparency mode in audio devices. Audio devices are generally worn in a way that covers or blocks the user's ears. Therefore, it is difficult for the user to hear external sounds while listening to the acoustic signal through the audio device. Transparent mode is a mode in which an audio device provides external sounds to the user along with acoustic signals. Transparent mode may be named differently depending on the product or service. However, in the following description, the operation in which an audio device provides external (surrounding) sounds together with an acoustic signal is referred to as a transparent mode or transparent mode operation.

도 1은 종래 투명 모드를 지원하는 오디오 장치(100)에 대한 예이다. 도 1은 이어폰 형태의 오디오 장치를 도시한 예이다. 도 1은 한쪽 귀에 착용하는 하나의 이어폰을 도시한다. 도 1은 오디오 장치 구성 중 투명 모드 관련 구성을 중심으로 도시한다. 오디오 장치(100)는 입력 장치(110), 마이크(120), 신호 처리부(130) 및 스피커(140)를 포함한다. 물론 오디오 장치(110)는 전력 공급 장치, 신호 입출력 인터페이스 장치, 하우징 등을 더 포함할 수 있다.Figure 1 is an example of an audio device 100 supporting a conventional transparent mode. Figure 1 is an example of an audio device in the form of an earphone. Figure 1 shows one earphone worn on one ear. Figure 1 mainly shows the transparent mode-related configuration among the audio device configurations. The audio device 100 includes an input device 110, a microphone 120, a signal processor 130, and a speaker 140. Of course, the audio device 110 may further include a power supply device, a signal input/output interface device, a housing, etc.

마이크(120)는 하나 이상의 마이크 유닛을 포함할 수 있다. 마이크(120)는 이어폰의 외부 소리를 입력받는다. 외부 소리는 주변 환경에 따라 다양한 소리일 수 있다.Microphone 120 may include one or more microphone units. The microphone 120 receives external sounds from the earphone. External sounds can be various sounds depending on the surrounding environment.

신호 처리부(130)는 기본적으로 음향 신호를 일정하게 처리하여 아날로그 신호로 변환하고 증폭한다. 음향 신호는 오디오 소스에서 전달되는 신호를 말한다. 음향 신호는 유선 또는 무선으로 오디오 소스(예컨대, 사용자 단말)로부터 전달될 수 있다.The signal processing unit 130 basically processes acoustic signals to a certain extent, converts them into analog signals, and amplifies them. An acoustic signal refers to a signal transmitted from an audio source. The acoustic signal may be transmitted from an audio source (eg, a user terminal) wired or wirelessly.

드라이버 유닛(140)은 아날로그 음향 신호를 출력한다.The driver unit 140 outputs an analog sound signal.

입력 장치(110)는 사용자의 터치 또는 누름과 같은 인터페이스 명령을 입력받을 수 있다. 도 1에서 입력 장치(110)는 물리적으로 구현된 장치를 도시한다. 입력 장치(110)는 투명 모드 시작 또는 종료에 해당하는 명령을 입력받는다. 오디오 장치(100)가 음향 신호만 출력하는 상황에서 입력 장치(110)로부터 인터페이스 명령이 입력되면 투명 모드를 시작할 수 있다. The input device 110 may receive an interface command such as a user's touch or press. In Figure 1, input device 110 shows a physically implemented device. The input device 110 receives a command corresponding to starting or ending the transparent mode. When the audio device 100 outputs only sound signals and an interface command is input from the input device 110, the transparent mode can be started.

투명 모드에서 신호 처리부(130)는 마이크(120)를 통해 전달되는 외부 소리를 디지털 신호로 변환하고, 음향 신호와 믹싱(mixing)한 후 디지털 신호로 변환하여 최종 출력 신호를 생성한다. 즉, 최종 출력 신호는 외부 소리와 음향 신호가 합성된 신호이다. 신호 처리부(130)는 사전에 설정된 값에 따라 외부 소리와 음향 신호를 적절한 레벨로 조정하여 최종 출력 신호를 생성할 수 있다. 드라이버 유닛(140)이 최종 출력 신호를 출력하면 사용자는 음향 신호와 동시에 외부 소리도 듣게 된다.In transparent mode, the signal processor 130 converts the external sound transmitted through the microphone 120 into a digital signal, mixes it with the acoustic signal, and then converts it into a digital signal to generate a final output signal. In other words, the final output signal is a signal that combines external sounds and acoustic signals. The signal processing unit 130 may generate a final output signal by adjusting external sounds and acoustic signals to an appropriate level according to preset values. When the driver unit 140 outputs the final output signal, the user hears the external sound at the same time as the acoustic signal.

이와 같이 종래 오디오 장치(100)는 사용자의 선택(명령)에 따라 투명 모드를 제공한다. In this way, the conventional audio device 100 provides a transparent mode according to the user's selection (command).

이하 설명하는 기술은 오디오 장치가 투명 모드 제공을 위한 메타 데이터를 이용하여 투명 모드를 제공한다. 메타 데이터는 오디오 장치가 외부 소리와 음향 신호를 믹싱하는데 사용된다. 따라서, 메타 데이터는 믹싱 계수를 포함할 수 있다. 이하 투명 모드 제어를 위한 메타 데이터를 믹싱 메타데이터라고 명명한다.In the technology described below, an audio device provides a transparent mode using metadata for providing the transparent mode. Metadata is used by audio devices to mix external sounds and acoustic signals. Accordingly, metadata may include mixing coefficients. Hereinafter, metadata for transparent mode control is referred to as mixing metadata.

도 2는 믹싱 메타데이터를 사용한 투명 모드 제공 시나리오에 대한 예이다. 사용자 단말과 오디오 장치는 유선 또는 무선으로 음향 신호 및/또는 믹싱 메타데이터를 수신할 수 있다. 사용자 단말은 스마트폰, 음원 재생기, 음원 처리 장치 등 다양할 수 있다. 사용자 단말은 입력되는 또는 저장한 음원 데이터를 디지털 신호로 출력할 수 있다. 사용자 단말은 디지털 신호를 오디오 장치에 전달한다. 사용자 단말은 음원 데이터를 일정한 코덱에 따라 디코딩하여 디지털 신호로 변환할 수도 있다. Figure 2 is an example of a transparent mode provision scenario using mixing metadata. The user terminal and audio device may receive sound signals and/or mixing metadata wired or wirelessly. The user terminal may be diverse, such as a smartphone, a sound source player, or a sound source processing device. The user terminal can output input or stored sound source data as a digital signal. The user terminal transmits a digital signal to the audio device. The user terminal may decode sound source data according to a certain codec and convert it into a digital signal.

도 2(A)는 사용자 단말이 음향 신호와 믹싱 메타데이터를 제공하는 예이다. 도 2(A)에서 오디오 장치는 사용자 단말로부터 음향 신호와 믹싱 메타데이터를 수신하고, 오디오 장치가 수집하는 외부 소리와 음향 신호를 믹싱하여 출력한다. 오디오 장치는 수신한 믹싱 메타데이터를 기준으로 외부 소리와 음향 신호를 일정한 비율로 믹싱한다. Figure 2(A) is an example in which a user terminal provides sound signals and mixing metadata. In Figure 2(A), the audio device receives sound signals and mixing metadata from the user terminal, mixes the external sounds and sound signals collected by the audio device, and outputs them. The audio device mixes external sounds and acoustic signals at a certain ratio based on the received mixing metadata.

도 2(B)는 서비스 서버가 음향 신호와 믹싱 메타데이터를 제공하는 예이다. 서비스 서버는 음원 콘텐츠를 제공하는 구성이다. 서비스 서버는 음향 신호와 믹싱 메타데이터를 사용자 단말에 송신한다. 오디오 장치는 사용자 단말을 통해 음향 신호와 믹싱 메타데이터를 수신하고, 오디오 장치가 수집하는 외부 소리와 음향 신호를 믹싱하여 출력한다. 오디오 장치는 수신한 믹싱 메타데이터를 기준으로 외부 소리와 음향 신호를 일정한 비율로 믹싱한다. Figure 2(B) is an example in which a service server provides sound signals and mixing metadata. The service server is a component that provides sound source content. The service server transmits the sound signal and mixing metadata to the user terminal. The audio device receives sound signals and mixing metadata through the user terminal, mixes the external sounds and sound signals collected by the audio device, and outputs them. The audio device mixes external sounds and acoustic signals at a certain ratio based on the received mixing metadata.

도 2(C)는 서비스 서버가 믹싱 메타데이터를 제공하는 예이다. 도 2(C)에서 사용자 단말은 음원 신호를 저장하고, 일정한 음향 신호를 제공한다. 사용자 단말은 서비스 서버로부터 믹싱 메타데이터를 수신할 수 있다. 오디오 장치는 사용자 단말을 통해 음향 신호와 믹싱 메타데이터를 수신하고, 오디오 장치가 수집하는 외부 소리와 음향 신호를 믹싱하여 출력한다. 오디오 장치는 수신한 믹싱 메타데이터를 기준으로 외부 소리와 음향 신호를 일정한 비율로 믹싱한다. Figure 2(C) is an example of a service server providing mixing metadata. In Figure 2(C), the user terminal stores the sound source signal and provides a constant sound signal. The user terminal can receive mixing metadata from the service server. The audio device receives sound signals and mixing metadata through the user terminal, mixes the external sounds and sound signals collected by the audio device, and outputs them. The audio device mixes external sounds and acoustic signals at a certain ratio based on the received mixing metadata.

도 2(D)는 서비스 서버가 믹싱 메타데이터 및 음향 신호를 제공하는 예이다. 도 2(D)에서 음향 신호를 제공하는 제1 서비스 서버와 믹싱 메타데이터를 제공하는 제2 서비스 서버가 별도로 존재한다. 즉, 제1 서비스 서버는 음원을 사용자 단말에 제공하는 장치이고, 제2 서비스 서버는 음원과는 별도로 투명 모드를 제어하기 위한 믹싱 메타데이터를 제공하는 장치이다. 사용자 단말은 제1 서비스 서버로부터 음향 신호를 수신하고, 제2 서비스 서버로부터 믹싱 메타데이터를 수신한다. 오디오 장치는 사용자 단말을 통해 음향 신호와 믹싱 메타데이터를 수신하고, 오디오 장치가 수집하는 외부 소리와 음향 신호를 믹싱하여 출력한다. 오디오 장치는 수신한 믹싱 메타데이터를 기준으로 외부 소리와 음향 신호를 일정한 비율로 믹싱한다. Figure 2(D) is an example in which a service server provides mixing metadata and sound signals. In Figure 2(D), there are separate first service servers that provide sound signals and second service servers that provide mixing metadata. That is, the first service server is a device that provides sound sources to the user terminal, and the second service server is a device that provides mixing metadata for controlling the transparent mode separately from the sound source. The user terminal receives an audio signal from the first service server and receives mixing metadata from the second service server. The audio device receives sound signals and mixing metadata through the user terminal, mixes the external sounds and sound signals collected by the audio device, and outputs them. The audio device mixes external sounds and acoustic signals at a certain ratio based on the received mixing metadata.

도 3은 믹싱 메타데이터를 사용하여 투명 모드를 제어하는 오디오 장치(200)에 대한 예이다. 도 3은 설명의 편의를 위하여 일부 구성만을 도시한 예이다. 예컨대, 오디오 장치(200)는 전원 공급 장치, 무선 통신 모듈 등과 같은 구성을 더 포함할 수 있다. 도 3의 오디오 장치(200)는 하나의 이어폰과 같이 한쪽 장치를 예로 도시한다. 도 3에서 L은 스테레오 신호 중 왼쪽 채널(왼쪽에 착용하는 오디오 장치)에 전달되는 신호를 말한다. 오른쪽 채널에 대한 오디오 장치도 오른쪽 채널 신호를 입력받아 도 3과 동일한 동작을 수행할 수 있다.Figure 3 is an example of an audio device 200 that controls transparent mode using mixing metadata. Figure 3 is an example showing only a partial configuration for convenience of explanation. For example, the audio device 200 may further include components such as a power supply device and a wireless communication module. The audio device 200 in FIG. 3 is shown as an example of one device, such as an earphone. In Figure 3, L refers to a signal transmitted to the left channel (audio device worn on the left) among stereo signals. The audio device for the right channel can also receive the right channel signal and perform the same operation as in Figure 3.

오디오 장치(200)는 입력단(210), 마이크(220), ADC(Analog Digital Converter, 230), DSP(digital signal processor, 240), DAC(Digital Analog Converter, 250), 증폭기(amplifier, 260) 및 드라이버 유닛(270)을 포함한다. The audio device 200 includes an input terminal 210, a microphone 220, an analog digital converter (ADC) 230, a digital signal processor (DSP) 240, a digital analog converter (DAC) 250, an amplifier 260, and Includes a driver unit 270.

입력단(210)은 소스 음향 신호(source audio) 입력받는 구성이다. 입력단(210)은 데이터 및 정보를 입력받는 입력 인터페이스 장치를 의미한다. 소스 음향 신호는 오디오 장치(200)에 최초 입력되는 음원 신호를 의미한다. 입력단(210)은 사용자 단말로부터 소스 음향 신호를 수신할 수 있다. 입력단(210)은 소스 음향 신호 L을 DSP(240)에 전달한다. 입력단(210)이 입력받는 신호는 기본적으로 디지털 신호라고 가정한다.The input terminal 210 is configured to receive a source audio signal. The input terminal 210 refers to an input interface device that receives data and information. The source sound signal refers to the sound source signal that is initially input to the audio device 200. The input terminal 210 may receive a source sound signal from the user terminal. The input terminal 210 transmits the source sound signal L to the DSP 240. It is assumed that the signal received by the input terminal 210 is basically a digital signal.

입력단(210)은 소스 음향 신호를 유선 또는 무선으로 입력받을 수 있다. 입력단(210)은 소스 오디오 신호를 무선으로 입력받을 수도 있다. 이 경우 입력단(210)은 무선 신호 수신을 위한 통신 모듈을 포함할 수 있다. 예컨대, 입력단(210)은 블루투스 모듈을 통해 사용자 단말로부터 소스 음향 신호를 수신할 수 있다.The input terminal 210 can receive a source sound signal wired or wirelessly. The input terminal 210 may receive a source audio signal wirelessly. In this case, the input terminal 210 may include a communication module for receiving wireless signals. For example, the input terminal 210 may receive a source sound signal from the user terminal through a Bluetooth module.

또한, 입력단(210)은 믹싱 메타데이터 M을 유선 또는 무선으로 입력받을 수 있다. 입력단(210)은 사용자 단말로부터 믹싱 메타데이터를 수신할 수 있다.Additionally, the input terminal 210 can receive mixing metadata M wired or wirelessly. The input terminal 210 may receive mixing metadata from the user terminal.

마이크(220)는 오디오 장치의 주변에서 발생하는 외부 소리를 입력받는다. 마이크(220)는 아날로그 신호를 입력받아 아날로그 신호 SA를 출력할 수 있다. 이 경우, ADC(230)는 마이크(220)가 출력하는 아날로그 신호 SA를 입력받아 디지털 신호 S로 변환할 수 있다. 한편, 마이크(220)가 아날로그 신호를 디지털 신호로 변환하는 구성을 포함하는 디지털 마이크(MEMS MIC)일 수도 있다. 이 경우 ADC가 필요 없다.The microphone 220 receives external sounds generated around the audio device. The microphone 220 can receive an analog signal and output an analog signal S A. In this case, the ADC 230 can receive the analog signal S A output from the microphone 220 and convert it into a digital signal S. Meanwhile, the microphone 220 may be a digital microphone (MEMS MIC) that includes a component that converts an analog signal into a digital signal. In this case, no ADC is needed.

DSP(240)는 오디오 신호를 일정하게 처리한다. DSP(240)는 오디오 신호 처리 장치라고 명명할 수도 있다. DSP(240)는 입력단(210)으로부터 소스 음향 신호 L을 수신하고, 마이크(220)를 통해 수집한 외부 소리 S를 입력받는다. 또한, DSP(240)는 입력단(210)으로부터 믹싱 메타데이터 M을 수신한다.The DSP 240 processes audio signals consistently. The DSP 240 may also be called an audio signal processing device. The DSP 240 receives the source sound signal L from the input terminal 210 and receives the external sound S collected through the microphone 220. Additionally, the DSP 240 receives mixing metadata M from the input terminal 210.

DSP(240)는 믹싱 메타데이터 M을 이용하여 소스 음향 신호 L과 외부 소리 S를 일정하게 믹싱한다. 즉, 이때 DSP(240)는 디지털 믹서(mixer)에 해당한다. DSP(240)는 믹싱 메타데이터 M에 포함된 믹싱 계수에 따라 소스 음향 신호 L과 외부 소리 S을 하나의 신호 S/LM로 합성한다. 이때 믹싱 메타데이터는 음향 신호 L과 외부 소리 S 각각에 대한 레벨을 정의할 수 있다. 나아가, DSP(240)는 오디오 신호에 대한 레벨 조절, 특정 대역 필터링, 노이즈 캔슬링, 크로스오버(cross over) 등과 같은 동작을 수행할 수도 있다. The DSP 240 consistently mixes the source sound signal L and the external sound S using mixing metadata M. That is, at this time, the DSP 240 corresponds to a digital mixer. The DSP 240 synthesizes the source sound signal L and the external sound S into one signal S/L M according to the mixing coefficient included in the mixing metadata M. At this time, the mixing metadata can define the levels for each of the sound signal L and external sound S. Furthermore, the DSP 240 may perform operations such as level adjustment, specific band filtering, noise cancellation, and crossover for audio signals.

한편, 오디오 장치는 소스 음향 신호 L과 외부 소리 S을 믹싱하는 별도의 믹서(mixer)를 포함할 수도 있다. 이 경우, 믹서가 믹싱 메타데이터 M에 포함된 믹싱 계수에 따라 소스 음향 신호 L과 외부 소리 S을 하나의 신호로 합성한다. 이후 필요에 따라 DSP(240)가 믹싱된 신호를 입력받아 일정한 후처리를 수행할 수 있다. Meanwhile, the audio device may include a separate mixer that mixes the source sound signal L and external sound S. In this case, the mixer synthesizes the source sound signal L and the external sound S into one signal according to the mixing coefficient included in the mixing metadata M. Afterwards, if necessary, the DSP 240 can receive the mixed signal and perform certain post-processing.

DSP(240)는 소스 음향 신호 L과 외부 소리 S가 믹싱된 S/LM을 DAC(250)로 전달한다. DAC(250)는 DSP(240)의 출력 신호를 아날로그 신호 S/LM A로 변환한다. 증폭기(140)는 변환된 아날로그 신호 S/LM A를 일정하게 증폭한다. 드라이버 유닛(270)은 증폭된 아날로그 신호 S/LM A'를 출력한다. 드라이버 유닛(151)은 복수의 유닛으로 구성될 수도 있다.The DSP (240) transmits S/L M , which is a mixture of the source sound signal L and the external sound S, to the DAC (250). The DAC 250 converts the output signal of the DSP 240 into an analog signal S/L M A. The amplifier 140 constantly amplifies the converted analog signal S/L M A. The driver unit 270 outputs the amplified analog signal S/L M A '. The driver unit 151 may be composed of multiple units.

도 4는 믹싱 메타데이터를 포함하는 오디오 패킷에 대한 예이다. 도 4의 오디오 패킷은 사용자 단말 또는 오디오 장치가 수신하는 패킷일 수 있다. Figure 4 is an example of an audio packet containing mixing metadata. The audio packet in FIG. 4 may be a packet received by a user terminal or an audio device.

도 4(A)는 하나의 믹싱 메타데이터 필드에 있는 데이터가 다수의 오디오 신호 구간(스트림)들에 대한 믹싱 정보를 포함하는 경우이다. 오디오 패킷은 헤더(header), 믹싱 메타데이터 필드 및 오디오 데이터 필드를 포함한다. 도 4(A)는 믹싱 메타데이터 필드를 별로도 도시하였지만, 믹싱 메타데이터 필드는 헤더에 정의된 하나의 필드일 수도 있다. 오디오 데이터 필드는 재생할 오디오 스트림을 저장한다. 믹싱 메타데이터는 다양한 방식으로 정의될 수 있다. 도 4(A)는 4가지 유형의 믹싱 메타데이터를 도시한다. Figure 4(A) shows a case where data in one mixing metadata field includes mixing information for multiple audio signal sections (streams). An audio packet includes a header, mixing metadata field, and audio data field. Although FIG. 4(A) shows mixing metadata fields separately, the mixing metadata field may be one field defined in the header. The audio data field stores the audio stream to be played. Mixing metadata can be defined in various ways. Figure 4(A) shows four types of mixing metadata.

믹싱 메타데이터 (a)는 믹싱을 위한 비율 및 시간 구간을 포함한다. 비율은 일정한 전체 오디오 레벨을 기준으로 외부 신호와 음향 신호의 출력 비율을 정의한다. 시간 구간은 하나의 오디오 스트림이 출력되는 연속된 시간 구간 중 적어도 일부를 정의한다. 시간 구간은 투명 모드로 동작하는 시간을 말한다. 오디오 장치는 믹싱 메타데이터에 정의된 시간 구간에서 외부 신호와 음향 신호를 정의된 비율로 믹싱하여 출력하게 된다. 믹싱 메타데이터 (a)는 다수의 단위 정보를 포함할 수 있다. 하나의 단위 정보는 {비율, 시간 구간}으로 정의된다.Mixing metadata (a) includes the rate and time interval for mixing. The ratio defines the output ratio of the external signal and the acoustic signal based on a constant overall audio level. The time section defines at least a portion of a continuous time section in which one audio stream is output. The time section refers to the time it operates in transparent mode. The audio device mixes external signals and sound signals at a defined ratio and outputs them in a time period defined in the mixing metadata. Mixing metadata (a) may include multiple unit information. One unit of information is defined as {rate, time interval}.

믹싱 메타데이터 (b)는 믹싱을 위한 비율, 시작점 및 종료점을 포함한다. 비율은 일정한 전체 오디오 레벨을 기준으로 외부 신호와 음향 신호의 출력 비율을 정의한다. 시작점은 투명 모드에 따른 신호 처리가 시작되는 시간을 정의한다. 종료점은 투명 모드에 따른 신호 처리가 종료되는 시간을 정의한다. 오디오 장치는 믹싱 메타데이터에 정의된 시간 구간(시작점 ~ 종료점)에서 외부 신호와 음향 신호를 정의된 비율로 믹싱하여 출력한다. 믹싱 메타데이터 (b)는 다수의 단위 정보를 포함할 수 있다. 하나의 단위 정보는 {비율, 시작점, 종료점}으로 정의된다.Mixing metadata (b) includes ratio, start point, and end point for mixing. The ratio defines the output ratio of the external signal and the acoustic signal based on a constant overall audio level. The starting point defines the time at which signal processing according to the transparent mode begins. The end point defines the time at which signal processing according to transparent mode ends. The audio device mixes the external signal and the sound signal at a defined ratio in the time interval (start point ~ end point) defined in the mixing metadata and outputs them. Mixing metadata (b) may include multiple unit information. One unit of information is defined as {ratio, start point, end point}.

믹싱 메타데이터 (c)는 믹싱을 위한 외부 신호 레벨, 음향 신호 레벨 및 시간 구간을 포함한다. 외부 신호 레벨은 투명 모드에서 외부 신호의 레벨을 정의한다. 음향 신호 레벨은 투명 모드에서 음향 신호의 레벨을 정의한다. 시간 구간은 하나의 오디오 스트림이 출력되는 연속된 시간 구간 중 적어도 일부를 정의한다. 시간 구간은 투명 모드로 동작하는 시간을 말한다. 오디오 장치는 믹싱 메타데이터에 정의된 시간 구간에서 외부 신호와 음향 신호를 각각 정의된 레벨로 출력될 수 있도록 믹싱하여 출력한다. 믹싱 메타데이터 (c)는 다수의 단위 정보를 포함할 수 있다. 하나의 단위 정보는 {외부 신호 레벨, 음향 신호 레벨, 시간 구간}으로 정의된다.Mixing metadata (c) includes external signal level, sound signal level, and time period for mixing. External signal level defines the level of the external signal in transparent mode. The acoustic signal level defines the level of the acoustic signal in transparent mode. The time section defines at least a portion of a continuous time section in which one audio stream is output. The time section refers to the time it operates in transparent mode. The audio device mixes and outputs the external signal and the sound signal so that they can be output at defined levels, respectively, in the time interval defined in the mixing metadata. Mixing metadata (c) may include multiple unit information. One unit of information is defined as {external signal level, acoustic signal level, time section}.

믹싱 메타데이터 (d)는 믹싱을 위한 외부 신호 레벨, 음향 신호 레벨, 시작점 및 종료점을 포함한다. 외부 신호 레벨은 투명 모드에서 외부 신호의 레벨을 정의한다. 음향 신호 레벨은 투명 모드에서 음향 신호의 레벨을 정의한다. 시작점은 투명 모드에 따른 신호 처리가 시작되는 시간을 정의한다. 종료점은 투명 모드에 따른 신호 처리가 종료되는 시간을 정의한다. 오디오 장치는 믹싱 메타데이터에 정의된 시간 구간(시작점 ~ 종료점)에서 외부 신호와 음향 신호를 각각 정의된 레벨로 출력될 수 있도록 믹싱하여 출력한다. 믹싱 메타데이터 (d)는 다수의 단위 정보를 포함할 수 있다. 하나의 단위 정보는 {외부 신호 레벨, 음향 신호 레벨, 시작점, 종료점}으로 정의된다.Mixing metadata (d) includes external signal level, acoustic signal level, start point and end point for mixing. External signal level defines the level of the external signal in transparent mode. The acoustic signal level defines the level of the acoustic signal in transparent mode. The starting point defines the time at which signal processing according to the transparent mode begins. The end point defines the time at which signal processing according to transparent mode ends. The audio device mixes and outputs the external signal and the sound signal so that they can be output at defined levels in the time interval (start point ~ end point) defined in the mixing metadata. Mixing metadata (d) may include multiple unit information. One unit of information is defined as {external signal level, sound signal level, start point, end point}.

도 4(B)는 하나의 믹싱 메타데이터 필드에 있는 데이터가 하나의 오디오 구간(스트림)에 대한 믹싱 정보를 포함하는 경우이다. 오디오 패킷은 헤더(header), 믹싱 메타데이터 필드 및 오디오 데이터 필드를 포함한다. 믹싱 메타데이터 필드는 메타 데이터를 저장한다. 오디오 데이터 필드는 재생할 오디오 스트림을 저장한다. 도 4(B)의 패킷은 다수의 오디오 스트림들을 저장할 수 있다. 도 4(B)에서 오디오 데이터 1 및 오디오 데이터 2는 서로 다른 2개의 오디오 스트림 각각을 저장한다. 하나의 오디오 스트림은 연속된 오디오 스트림이다. 믹싱 메타데이터 필드는 특정 오디오 스트림에 대한 믹싱 데이터를 저장한다. 예컨대, 믹싱 메타데이터 필드 1은 오디오 데이터 1에 대한 믹싱 메타데이터를 저장한다. 믹싱 메타데이터 필드 2는 오디오 데이터 2에 대한 믹싱 메타데이터를 저장한다. 즉, 도 4(B)는 믹싱 메타데이터 필드가 따라오는 오디오 데이터 필드에 저장된 오디오 데이터에 대한 믹싱 정보를 정의한다.Figure 4(B) shows a case where data in one mixing metadata field includes mixing information for one audio section (stream). An audio packet includes a header, mixing metadata field, and audio data field. The mixing metadata field stores metadata. The audio data field stores the audio stream to be played. The packet in Figure 4(B) can store multiple audio streams. In Figure 4(B), audio data 1 and audio data 2 respectively store two different audio streams. One audio stream is a continuous audio stream. The mixing metadata field stores mixing data for a specific audio stream. For example, mixing metadata field 1 stores mixing metadata for audio data 1. Mixing metadata field 2 stores mixing metadata for audio data 2. That is, Figure 4(B) defines mixing information for audio data stored in the audio data field followed by the mixing metadata field.

믹싱 메타데이터는 다양한 방식으로 정의될 수 있다. 도 4(B)는 4가지 유형의 믹싱 메타데이터를 도시한다. 설명의 편의를 위하여 믹싱 메타데이터 1과 오디오 데이터 1을 기준으로 설명한다.Mixing metadata can be defined in various ways. Figure 4(B) shows four types of mixing metadata. For convenience of explanation, the explanation is based on mixing metadata 1 and audio data 1.

믹싱 메타데이터 (e)는 믹싱을 위한 비율을 포함한다. 비율은 일정한 전체 오디오 레벨을 기준으로 외부 신호와 음향 신호의 출력 비율을 정의한다. 오디오 장치는 믹싱 메타데이터 필드에 따라오는 오디오 데이터 필드에 저장된 오디오 데이터 1에 대하여 외부 신호와 음향 신호를 정의된 비율로 믹싱하여 출력하게 된다.Mixing metadata (e) contains ratios for mixing. The ratio defines the output ratio of the external signal and the acoustic signal based on a constant overall audio level. The audio device mixes the external signal and the sound signal at a defined ratio with respect to the audio data 1 stored in the audio data field following the mixing metadata field and outputs the mixture.

믹싱 메타데이터 (f)는 믹싱을 위한 외부 신호 레벨 및 음향 신호 레벨을 포함한다. 외부 신호 레벨은 투명 모드에서 외부 신호의 레벨을 정의한다. 음향 신호 레벨은 투명 모드에서 음향 신호의 레벨을 정의한다. 오디오 장치는 믹싱 메타데이터 필드에 따라오는 오디오 데이터 필드에 저장된 오디오 데이터 1에 대하여 외부 신호와 음향 신호를 각각 정의된 레벨로 출력될 수 있도록 믹싱하여 출력한다.Mixing metadata (f) includes external signal levels and acoustic signal levels for mixing. External signal level defines the level of the external signal in transparent mode. The acoustic signal level defines the level of the acoustic signal in transparent mode. The audio device mixes the external signal and the sound signal for audio data 1 stored in the audio data field following the mixing metadata field so that they can be output at defined levels.

전술한 투명 모드 기반의 서비스는 다양한 분야에서 활용될 수 있다. The above-described transparent mode-based service can be used in various fields.

예컨대, 투명 모드 기반의 서비스는 전시장에서 도스튼(docent) 서비스에 활용될 수 있다. 미술 전시장이나 공연장에 배경 음향이 재생되는 상황에서 사용자가 사용자 단말을 소지하고 특정 전시품에 접근한다고 가정한다. 사용자 단말은 오디오 장치에 도스튼을 위한 음성 데이터와 믹싱 메타데이터를 전달한다. 오디오 장치는 믹싱 메타데이터를 이용하여 외부 소리(배경 음향)과 음성 데이터를 믹싱하여 출력할 수 있다. 이 경우 투명 모드 기반의 서비스는 사용자의 위치에 따라 믹싱 데이터를 전달하여 맞춤형 투명 모드를 제공한다. 사용자 위치는 사용자 단말을 이용하여 GPS 또는 실내 위치 검출 기법으로 결정될 수 있다. 또는 사용자 단말이 특정 객체와 근접하면 특정 객체(송신 장치)가 송신하는 비콘을 수신하여 믹싱 데이터를 결정할 수도 있다.For example, services based on transparent mode can be used for docent services in exhibition halls. Assume that a user is holding a user terminal and accessing a specific exhibit while background sound is playing in an art exhibition or performance hall. The user terminal transmits voice data and mixing metadata for doston to the audio device. An audio device can mix external sound (background sound) and voice data and output it using mixing metadata. In this case, a transparent mode-based service provides a customized transparent mode by delivering mixing data according to the user's location. The user's location can be determined using GPS or indoor location detection techniques using the user terminal. Alternatively, when the user terminal is close to a specific object, mixing data may be determined by receiving a beacon transmitted by the specific object (transmitting device).

도 5는 투명 모드 기반의 음향 서비스 제공 과정(300)에 대한 예이다. Figure 5 is an example of a sound service provision process 300 based on transparent mode.

사용자 단말은 전용 애플리케이션을 구동한다(301). 예컨대, 전용 애플리케이션은 도스튼 서비스를 제공하는 프로그램일 수 있다. The user terminal runs a dedicated application (301). For example, the dedicated application may be a program that provides DoStone services.

사용자 단말의 자신의 위치 정보를 서비스 서버에 전송한다(311). 위치 정보는 GPS에 따른 절대적 위치 또는 실내 측위 기법에 의한 상대적 위치일 수도 있다.경우에 따라서, 사용자 단말의 위치 정보는 다른 외부 객체가 서비스 서버에 전달할 수도 있다. 서비스 서버는 사용자 위치를 기준으로 결정되는 믹싱 메타데이터 1을 사용자 단말에 전송한다(312).The user terminal's own location information is transmitted to the service server (311). The location information may be an absolute location based on GPS or a relative location using an indoor positioning technique. In some cases, the location information of the user terminal may be transmitted to the service server by another external object. The service server transmits mixing metadata 1 determined based on the user location to the user terminal (312).

사용자 단말은 음향 데이터 1을 선택한다(321). 사용자 단말이 사전에 다양한 음향 데이터를 저장할 수 있다. 또는 경우에 따라서 사용자 단말이 서비스 서버나 다른 객체로부터 음향 데이터를 수신할 수도 있다. 사용자 단말은 자신의 위치 정보에 따라 음향 데이터 1을 선택할 수 있다. 사용자 단말은 선택한 음향 데이터 1과 믹싱 메타데이터 1을 오디오 장치에 전달한다(322). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal selects sound data 1 (321). The user terminal can store various sound data in advance. Alternatively, in some cases, the user terminal may receive sound data from a service server or other object. The user terminal can select sound data 1 according to its location information. The user terminal transmits the selected sound data 1 and mixing metadata 1 to the audio device (322). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 1을 기준으로 음향 신호 1과 외부 소리를 믹싱하여 출력한다(331). The audio device mixes sound signal 1 and external sound based on the received mixing metadata 1 and outputs it (331).

이후 사용자가 위치를 이동한다고 가정하다. 사용자 단말의 자신의 위치 정보를 서비스 서버에 전송한다(341). 서비스 서버는 사용자 위치를 기준으로 결정되는 믹싱 메타데이터 2를 사용자 단말에 전송한다(342).Afterwards, assume that the user moves location. The user terminal's own location information is transmitted to the service server (341). The service server transmits mixing metadata 2 determined based on the user location to the user terminal (342).

사용자 단말은 음향 데이터 2를 선택한다(351). 사용자 단말은 자신의 위치 정보에 따라 음향 데이터 2를 선택할 수 있다. 사용자 단말은 선택한 음향 데이터 2와 믹싱 메타데이터 2를 오디오 장치에 전달한다(352). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal selects sound data 2 (351). The user terminal can select sound data 2 according to its location information. The user terminal transmits the selected sound data 2 and mixing metadata 2 to the audio device (352). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 2를 기준으로 음향 신호 1과 외부 소리를 믹싱하여 출력한다(361).The audio device mixes sound signal 1 and external sound based on the received mixing metadata 2 and outputs it (361).

도 6은 투명 모드 기반의 음향 서비스 제공 과정(400)에 대한 예이다.Figure 6 is an example of a transparent mode-based sound service provision process 400.

사용자 단말은 전용 애플리케이션을 구동한다(401). 예컨대, 전용 애플리케이션은 도스튼 서비스를 제공하는 프로그램일 수 있다. The user terminal runs a dedicated application (401). For example, the dedicated application may be a program that provides DoStone services.

사용자 단말은 주변 장치로부터 주변 정보를 수신한다(411). 주변 장치는 전시장의 특정 콘텐츠에 인접한 비콘 장치일 수 있다. 또는 주변 장치는 다른 사용자 단말일 수도 있다. 주변 정보는 특정 콘텐츠의 식별 정보 또는 위치 정보를 포함할 수 있다. 경우에 따라서 주변 정보는 믹싱 메타데이터를 포함할 수도 있다.The user terminal receives surrounding information from a nearby device (411). The peripheral device may be a beacon device adjacent to specific content in the exhibition hall. Alternatively, the peripheral device may be another user terminal. Surrounding information may include identification information or location information of specific content. In some cases, surrounding information may include mixing metadata.

사용자 단말이 사전에 다양한 음향 데이터를 저장할 수 있다. 또는 경우에 따라서 사용자 단말이 서비스 서버나 다른 객체로부터 음향 데이터를 수신할 수도 있다. 사용자 단말은 주변 정보를 기준으로 음향 데이터 1을 선택한다(421). 또한 사용자 단말은 주변 정보를 기준으로 믹싱 메타데이터 1을 선택할 수도 있다(421). 만약, 사용자 단말이 주변 장치로부터 믹싱 메타데이터를 수신하는 경우, 믹싱 메타데이터를 선택하는 과정은 수행하지 않는다. 사용자 단말은 선택한 음향 데이터 1과 믹싱 메타데이터 1을 오디오 장치에 전달한다(422). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal can store various sound data in advance. Alternatively, in some cases, the user terminal may receive sound data from a service server or other object. The user terminal selects sound data 1 based on surrounding information (421). Additionally, the user terminal may select mixing metadata 1 based on surrounding information (421). If the user terminal receives mixing metadata from a peripheral device, the process of selecting mixing metadata is not performed. The user terminal transmits the selected sound data 1 and mixing metadata 1 to the audio device (422). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 1을 기준으로 음향 신호 1과 외부 소리를 믹싱하여 출력한다(431). The audio device mixes sound signal 1 and external sound based on the received mixing metadata 1 and outputs it (431).

이후 사용자가 위치를 이동한다고 가정하다. 사용자 단말은 주변 장치로부터 주변 정보를 수신한다(441). 주변 정보는 특정 콘텐츠의 식별 정보 또는 위치 정보를 포함할 수 있다. 경우에 따라서 주변 정보는 믹싱 메타데이터를 포함할 수도 있다.Afterwards, assume that the user moves location. The user terminal receives surrounding information from a nearby device (441). Surrounding information may include identification information or location information of specific content. In some cases, surrounding information may include mixing metadata.

사용자 단말은 주변 정보를 기준으로 음향 데이터 2를 선택한다(451). 또한 사용자 단말은 주변 정보를 기준으로 믹싱 메타데이터 2를 선택할 수도 있다(451). 만약, 사용자 단말이 주변 장치로부터 믹싱 메타데이터를 수신하는 경우, 믹싱 메타데이터를 선택하는 과정은 수행하지 않는다. 사용자 단말은 선택한 음향 데이터 2와 믹싱 메타데이터 2를 오디오 장치에 전달한다(452). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal selects sound data 2 based on surrounding information (451). Additionally, the user terminal may select mixing metadata 2 based on surrounding information (451). If the user terminal receives mixing metadata from a peripheral device, the process of selecting mixing metadata is not performed. The user terminal transmits the selected sound data 2 and mixing metadata 2 to the audio device (452). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 2를 기준으로 음향 신호 2와 외부 소리를 믹싱하여 출력한다(461).The audio device mixes sound signal 2 and external sound based on the received mixing metadata 2 and outputs it (461).

도 7은 투명 모드 기반의 음향 서비스 제공 과정(500)에 대한 예이다.Figure 7 is an example of a transparent mode-based sound service provision process 500.

사용자 단말은 전용 애플리케이션을 구동한다(501). 예컨대, 전용 애플리케이션은 도스튼 서비스를 제공하는 프로그램일 수 있다. The user terminal runs a dedicated application (501). For example, the dedicated application may be a program that provides DoStone services.

사용자 단말은 주변 장치로부터 주변 정보를 수신한다(511). 주변 장치는 전시장의 특정 콘텐츠에 인접한 비콘 장치일 수 있다. 또는 주변 장치는 다른 사용자 단말일 수도 있다. 주변 정보는 특정 콘텐츠의 식별 정보 또는 위치 정보를 포함할 수 있다. The user terminal receives surrounding information from a nearby device (511). The peripheral device may be a beacon device adjacent to specific content in the exhibition hall. Alternatively, the peripheral device may be another user terminal. Surrounding information may include identification information or location information of specific content.

사용자 단말은 주변 정보를 서비스 서버에 전달한다(521). 서비스 서버는 주변 정보를 기준으로 결정되는 믹싱 메타데이터 1을 사용자 단말에 전송한다(522). The user terminal transmits surrounding information to the service server (521). The service server transmits mixing metadata 1 determined based on surrounding information to the user terminal (522).

사용자 단말이 사전에 다양한 음향 데이터를 저장할 수 있다. 또는 경우에 따라서 사용자 단말이 서비스 서버나 다른 객체로부터 음향 데이터를 수신할 수도 있다. 사용자 단말은 주변 정보를 기준으로 음향 데이터 1을 선택한다(531). 사용자 단말은 선택한 음향 데이터 1과 믹싱 메타데이터 1을 오디오 장치에 전달한다(532). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal can store various sound data in advance. Alternatively, in some cases, the user terminal may receive sound data from a service server or other object. The user terminal selects sound data 1 based on surrounding information (531). The user terminal transmits the selected sound data 1 and mixing metadata 1 to the audio device (532). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 1을 기준으로 음향 신호 1과 외부 소리를 믹싱하여 출력한다(541). The audio device mixes sound signal 1 and external sound based on the received mixing metadata 1 and outputs it (541).

이후 사용자가 위치를 이동한다고 가정하다. 사용자 단말은 주변 장치로부터 주변 정보를 수신한다(551). 주변 장치는 전시장의 특정 콘텐츠에 인접한 비콘 장치일 수 있다. 또는 주변 장치는 다른 사용자 단말일 수도 있다. 주변 정보는 특정 콘텐츠의 식별 정보 또는 위치 정보를 포함할 수 있다. Afterwards, assume that the user moves location. The user terminal receives surrounding information from a nearby device (551). The peripheral device may be a beacon device adjacent to specific content in the exhibition hall. Alternatively, the peripheral device may be another user terminal. Surrounding information may include identification information or location information of specific content.

사용자 단말은 주변 정보를 서비스 서버에 전달한다(561). 서비스 서버는 주변 정보를 기준으로 결정되는 믹싱 메타데이터 2를 사용자 단말에 전송한다(562). The user terminal transmits surrounding information to the service server (561). The service server transmits mixing metadata 2 determined based on surrounding information to the user terminal (562).

사용자 단말은 주변 정보를 기준으로 음향 데이터 2를 선택한다(571). 사용자 단말은 선택한 음향 데이터 2와 믹싱 메타데이터 2를 오디오 장치에 전달한다(572). 사용자 단말은 유선 또는 무선 네트워크로 데이터를 오디오 장치에 전달할 수 있다.The user terminal selects sound data 2 based on surrounding information (571). The user terminal transmits the selected sound data 2 and mixing metadata 2 to the audio device (572). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 2를 기준으로 음향 신호 2와 외부 소리를 믹싱하여 출력한다(581).The audio device mixes sound signal 2 and external sound based on the received mixing metadata 2 and outputs it (581).

한편, 투명 모드 기반의 서비스는 진행하고 있는 투명 모드 동작을 일정하게 제어하는 기능으로 활용될 수도 있다. 예컨대, 사용자가 특정 환경에서 투명 모드로 외부 소리를 듣는 상황에서 외부 소리를 줄이고 긴급한 음향 신호를 정확하게 듣게 할 수 있다. 사용자가 전시장, 공연장, 교육 기관 등에서 오디오 장치를 착용하면서 투명 모드로 외부 소리를 듣는 상황이라고 가정한다. 이때 서비스 서버 또는 이동통신시스템에서 안전과 관련된 알람을 사용자 단말에 전달할 수 있다. 이 경우 사용자 단말은 오디오 장치에 해당 알람과 함께 믹싱 메타데이터를 전달하여, 오디오 장치가 외부 소리를 줄이거나 차단하도록 할 수 있다.Meanwhile, transparent mode-based services can also be used as a function to constantly control ongoing transparent mode operations. For example, in a situation where a user listens to external sounds in a transparent mode in a specific environment, external sounds can be reduced and urgent acoustic signals can be heard accurately. Assume that a user is wearing an audio device in an exhibition hall, performance hall, educational institution, etc. and listening to external sounds in transparent mode. At this time, the service server or mobile communication system can deliver a safety-related alarm to the user terminal. In this case, the user terminal can transmit mixing metadata along with the corresponding alarm to the audio device, allowing the audio device to reduce or block external sounds.

도 8은 믹싱 메타데이터를 이용하여 투명 모드 기반 서비스를 제어하는 과정(600)에 대한 예이다.Figure 8 is an example of a process 600 for controlling a transparent mode-based service using mixing metadata.

오디오 장치는 사용자 단말로부터 음향 신호를 제공받으면서 투명 모드로 동작한다(601). 따라서, 현재 사용자는 음향 신호와 함께 외부 소리를 같이 듣고 있다.The audio device operates in transparent mode while receiving sound signals from the user terminal (601). Therefore, the user is currently hearing external sounds along with the acoustic signal.

재난 안내 서버가 알람 정보를 사용자 단말에 전달한다(611). 재난 안내 서버는 이동통신시스템 및/또는 인터넷을 통해 알람 정보를 사용자 단말에 전송할 수 있다. 알람 정보는 알람 데이터(텍스트 내지 음성 포함) 및 알람 식별자를 포함할 수 있다. 또는 알람 정보는 알람 데이터와 믹싱 메타데이터를 포함할 수도 있다.The disaster information server delivers alarm information to the user terminal (611). The disaster information server may transmit alarm information to the user terminal through a mobile communication system and/or the Internet. Alarm information may include alarm data (including text or voice) and an alarm identifier. Alternatively, alarm information may include alarm data and mixing metadata.

사용자 단말은 알람 식별자를 기준으로 믹싱 메타데이터를 선택할 수 있다(621). 또는 사용자 단말은 알람 정보에 포함되어 있는 믹싱 메타데이터를 이용할 수도 있다.The user terminal may select mixing metadata based on the alarm identifier (621). Alternatively, the user terminal may use mixing metadata included in alarm information.

사용자 단말은 알람 데이터 및 믹싱 메타데이터를 오디오 장치에 전달한다(622). 사용자 단말은 유선 또는 무선 네트워크를 통해 데이터를 오디오 장치에 전달할 수 있다.The user terminal transmits alarm data and mixing metadata to the audio device (622). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터를 기준으로 알람 데이터와 외부 소리를 믹싱하여 출력한다(631). 이때 알람 데이터는 음성이나 음향 데이터에 해당한다. 예컨대, 오디오 장치는 이전 투명 모드에 비하여 외부 소리의 레벨을 줄이고 알람 데이터를 출력할 수 있다. 또는, 오디오 장치는 외부 소리를 출력하지 않고 알람 데이터만을 출력할 수도 있다. 이 경우 믹싱 메타데이터의 믹싱 계수는 0일 수 있다. 0은 외부 소리의 믹싱 정도를 의미한다.The audio device mixes alarm data and external sounds based on the received mixing metadata and outputs them (631). At this time, alarm data corresponds to voice or sound data. For example, the audio device can reduce the level of external sounds and output alarm data compared to the previous transparent mode. Alternatively, the audio device may output only alarm data without outputting external sounds. In this case, the mixing coefficient of the mixing metadata may be 0. 0 means the degree of mixing of external sounds.

다른 예로, 투명 모드 기반의 서비스는 다수의 음향을 조합하여 사용자에게 제공하는 서비스에 활용될 수 있다. 예컨대, 사용자가 일정한 음악을 들으면서 악기(예컨대, 기타)를 연주할 수 있다. 사용자는 오디오 장치를 착용한 상태에서 자신이 기타를 합주하는 형태로 오디오 데이터를 만들거나 연습을 할 수 있다. 사용자는 외부 스피커에서 출력되는 기본 음원(외부 소리)을 들으면서 자신이 연주한 기타 소리를 오디오 장치의 내부 출력으로 들어볼 수 있다. As another example, a transparent mode-based service can be used to provide services to users by combining multiple sounds. For example, a user can play a musical instrument (eg, guitar) while listening to certain music. Users can create audio data or practice playing guitar while wearing an audio device. Users can hear the guitar sound they played through the internal output of the audio device while listening to the basic sound source (external sound) output from an external speaker.

도 9는 믹싱 메타데이터를 이용하여 음원 서비스를 제공하는 과정(700)에 대한 예이다.Figure 9 is an example of a process 700 for providing a sound source service using mixing metadata.

기본 스피커는 계속 기본 음원을 출력한다(701).The basic speaker continues to output the basic sound source (701).

사용자 음향 장치(악기)는 사용자 입력에 따라 일정한 음원을 생성한다. 사용자 음향 장치는 악기 음원 정보를 사용자 단말에 전달한다(711). 악기 음원 정보는 사용자 음향 장치가 생성한 음원을 포함한다. 나아가, 악기 음원 정보는 해당 음원의 소리 레벨을 포함할 수 있다.A user sound device (musical instrument) generates a certain sound source according to user input. The user sound device transmits instrument sound source information to the user terminal (711). Instrument sound source information includes sound sources generated by a user sound device. Furthermore, instrument sound source information may include the sound level of the corresponding sound source.

사용자 단말은 스마트폰 또는 사용자 음향 장치와 연결된 음향 제어 장치일 수도 있다. 사용자 단말은 악기 음원 정보를 기준으로 믹싱 메타데이터 1을 선택한다(721). 사용자 단말은 악기 음원 정보에 포함된 음원의 소리 레벨에 따라 믹싱 메타데이터를 선택할 수 있다. 사용자 단말은 음원의 소리 레벨에 따라 동적으로 믹싱 메타데이터를 선택할 수 있다. 사용자 단말은 악기 음원 정보에 포함된 음향 데이터 1과 믹싱 메타데이터 1을 오디오 장치에 전달한다(722). 사용자 단말은 유선 또는 무선 네트워크를 통해 데이터를 오디오 장치에 전달할 수 있다.The user terminal may be a smartphone or a sound control device connected to the user sound device. The user terminal selects mixing metadata 1 based on the instrument sound source information (721). The user terminal can select mixing metadata according to the sound level of the sound source included in the instrument sound source information. The user terminal can dynamically select mixing metadata according to the sound level of the sound source. The user terminal transmits sound data 1 and mixing metadata 1 included in the instrument sound source information to the audio device (722). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 1을 기준으로 음향 신호 1과 외부 소리를 믹싱하여 출력한다(731). The audio device mixes sound signal 1 and external sound based on the received mixing metadata 1 and outputs it (731).

이후 사용자 음향 장치(악기)는 사용자 입력에 따라 일정한 음원을 생성한다. 사용자 음향 장치는 악기 음원 정보를 사용자 단말에 전달한다(741). Afterwards, the user sound device (musical instrument) generates a certain sound source according to the user input. The user sound device transmits instrument sound source information to the user terminal (741).

사용자 단말은 악기 음원 정보를 기준으로 믹싱 메타데이터 2를 선택한다(751). 사용자 단말은 악기 음원 정보에 포함된 음원의 소리 레벨에 따라 믹싱 메타데이터를 선택할 수 있다. 사용자 단말은 음원의 소리 레벨에 따라 동적으로 믹싱 메타데이터를 선택할 수 있다. 사용자 단말은 악기 음원 정보에 포함된 음향 데이터 2와 믹싱 메타데이터 2를 오디오 장치에 전달한다(752). 사용자 단말은 유선 또는 무선 네트워크를 통해 데이터를 오디오 장치에 전달할 수 있다.The user terminal selects mixing metadata 2 based on the instrument sound source information (751). The user terminal can select mixing metadata according to the sound level of the sound source included in the instrument sound source information. The user terminal can dynamically select mixing metadata according to the sound level of the sound source. The user terminal transmits sound data 2 and mixing metadata 2 included in the instrument sound source information to the audio device (752). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 2를 기준으로 음향 신호 2와 외부 소리를 믹싱하여 출력한다(761). The audio device mixes sound signal 2 and external sound based on the received mixing metadata 2 and outputs it (761).

또 다른 실시예로, 투명 모드 기반의 서비스는 배리어 프리(Barrier Free) 영화와 같은 콘텐츠에 적용될 수 있다. 배리어 프리 영화는 시각장애인을 위하여 화면 해설 음성을 영화 사운드 트랙에 믹싱한 버전이다. 배리어 프리 영화는 전용 상영관에서 상영된다. 정상인도 배리어 프리 영화를 볼 수 있지만, 영화 콘텐츠의 내용 및 상황이 음성을 출력되어 영화 관람에 방해가 될 수 있다. 시각장애인이 일반 상영관에서 출력되는 외부 소리(영화 오리지널 사운드 트랙)와 함께 화면 해설 음성을 오디오 장치(헤드폰)을 통해 동시에 들을 수 있다. 상영관은 영화 내용에 따라 소리 크기 및 소리 방향을 달리 하여 현장감있는 음향을 출력한다. 따라서, 시각장애인도 전술한 투명 모드를 제공하는 오디오 장치를 이용하여 현장감있는 외부 음향과 함께 화면 해설 음성을 동시에 제공받을 수 있다.In another embodiment, a transparent mode-based service can be applied to content such as barrier-free movies. Barrier-free movies are versions in which on-screen commentary audio is mixed into the movie soundtrack for the visually impaired. Barrier-free films are screened in dedicated theaters. Normal people can also watch barrier-free movies, but the contents and situations of the movie content may be interrupted by audio output. Visually impaired people can simultaneously listen to the on-screen commentary audio through an audio device (headphones) along with the external sound (original movie sound track) output in a general theater. The theater outputs realistic sound by varying the sound volume and direction depending on the movie content. Accordingly, even visually impaired people can simultaneously receive realistic external sounds and on-screen commentary audio using an audio device that provides the above-described transparent mode.

도 10은 믹싱 메타데이터를 이용하여 영화 서비스를 제공하는 과정(800)에 대한 예이다.Figure 10 is an example of a process 800 for providing a movie service using mixing metadata.

상영관 스피커는 계속 기본 음향을 출력한다(801). 기본 음향은 영화 콘텐츠에 있는 오리지널 사운드 트랙이다.The theater speakers continue to output basic sound (801). The default sound is the original soundtrack from the movie content.

사용자 단말은 전용 애플리케이션을 구동한다(811). 예컨대, 전용 애플리케이션은 배리어 프리 영화를 제공하는 서비스 프로그램일 수 있다.The user terminal runs a dedicated application (811). For example, the dedicated application may be a service program that provides barrier-free movies.

해설 음성 제공 장치는 해설 음성을 제공하는 서버 또는 상영관 현장에 설치된 음원 제공 장치일 수 있다. 해설 음성 제공 장치는 무선통신 네트워크를 통해 일정한 음원 및 데이터를 사용자 단말에 송신할 수 있다. 해설 음성 제공 장치는 영화 콘텐츠 내용에 따른 해설 음원 정보를 제공한다(821). 해설 음성 제공 장치는 해설 음원 정보와 함께 믹싱 메타데이터 1을 제공할 수 있다(821).The commentary voice providing device may be a server that provides commentary voice or a sound source providing device installed at the theater site. The commentary voice providing device can transmit certain sound sources and data to the user terminal through a wireless communication network. The commentary sound providing device provides commentary sound source information according to the movie content (821). The commentary voice providing device may provide mixing metadata 1 along with commentary sound source information (821).

경우에 따라 사용자 단말은 해설 음원 정보를 기준으로 믹싱 메타데이터 1을 선택할 수도 있다(822). In some cases, the user terminal may select mixing metadata 1 based on commentary sound source information (822).

사용자 단말은 해설 음원 정보에 포함된 음성 데이터 1과 믹싱 메타데이터 1을 오디오 장치에 전달한다(823). 사용자 단말은 유선 또는 무선 네트워크를 통해 데이터를 오디오 장치에 전달할 수 있다.The user terminal transmits voice data 1 and mixing metadata 1 included in the commentary sound source information to the audio device (823). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 1을 기준으로 음성 데이터 1과 외부 소리를 믹싱하여 출력한다(831). The audio device mixes voice data 1 and external sound based on the received mixing metadata 1 and outputs it (831).

이후 해설 음성 제공 장치는 영화 진행에 따라 다른 해설 음성 정보를 제공한다(841). 해설 음성 제공 장치는 해설 음원 정보와 함께 믹싱 메타데이터 2를 제공할 수 있다(841).Afterwards, the commentary voice providing device provides different commentary voice information according to the progress of the movie (841). The commentary voice providing device may provide mixing metadata 2 along with commentary sound source information (841).

경우에 따라 사용자 단말은 해설 음원 정보를 기준으로 믹싱 메타데이터 2를 선택할 수도 있다(851). In some cases, the user terminal may select mixing metadata 2 based on commentary sound source information (851).

사용자 단말은 해설 음원 정보에 포함된 음성 데이터 2와 믹싱 메타데이터 2를 오디오 장치에 전달한다(852). 사용자 단말은 유선 또는 무선 네트워크를 통해 데이터를 오디오 장치에 전달할 수 있다.The user terminal transmits voice data 2 and mixing metadata 2 included in the commentary sound source information to the audio device (852). The user terminal can transmit data to the audio device through a wired or wireless network.

오디오 장치는 수신한 믹싱 메타데이터 2를 기준으로 음성 데이터 2와 외부 소리를 믹싱하여 출력한다(861). The audio device mixes voice data 2 and external sound based on the received mixing metadata 2 and outputs it (861).

또한, 상술한 바와 같은 오디오 신호 처리 방법 내지 투명 모드 제어 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.Additionally, the audio signal processing method or transparent mode control method described above may be implemented as a program (or application) including an executable algorithm that can be executed on a computer. The program may be stored and provided in a temporary or non-transitory computer readable medium.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.A non-transitory readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as registers, caches, and memories. Specifically, the various applications or programs described above include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), and EPROM (Erasable PROM, EPROM). Alternatively, it may be stored and provided in a non-transitory readable medium such as EEPROM (Electrically EPROM) or flash memory.

일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.Temporarily readable media include Static RAM (SRAM), Dynamic RAM (DRAM), Synchronous DRAM (SDRAM), Double Data Rate SDRAM (DDR SDRAM), and Enhanced SDRAM (Enhanced RAM). It refers to various types of RAM, such as SDRAM (ESDRAM), synchronous DRAM (Synclink DRAM, SLDRAM), and Direct Rambus RAM (DRRAM).

본 실시예 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.This embodiment and the drawings attached to this specification only clearly show some of the technical ideas included in the above-described technology, and those skilled in the art can easily understand them within the scope of the technical ideas included in the specification and drawings of the above-described technology. It is self-evident that all inferable modifications and specific embodiments are included in the scope of rights of the above-described technology.

Claims (9)

외부 소리를 입력받는 마이크;
상기 마이크에서 출력되는 신호를 변환하는 ADC(Analog Digital Converter);
음향 신호 및 믹싱 메타데이터를 입력받는 입력 인터페이스;
상기 입력 인터페이스로부터 상기 음향 신호 및 상기 믹싱 메타데이터를 입력받고, 상기 ADC로부터 변환된 외부 소리를 입력받고, 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 음향 신호를 믹싱하여 출력 신호를 생성하는 믹서(mixer);
상기 믹서의 출력 신호를 아날로그 신호로 변환하는 DAC(Digital Analog Converter);
상기 DAC 신호를 증폭하는 증폭기; 및
상기 증폭기의 출력 신호를 출력하는 드라이버 유닛을 포함하는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 오디오 장치.
Microphone that receives external sound;
ADC (Analog Digital Converter) that converts the signal output from the microphone;
Input interface for receiving sound signals and mixing metadata;
A mixer that receives the sound signal and the mixing metadata from the input interface, receives external sound converted from the ADC, and generates an output signal by mixing the external sound and the sound signal based on the mixing metadata. (mixer);
A DAC (Digital Analog Converter) that converts the output signal of the mixer into an analog signal;
An amplifier that amplifies the DAC signal; and
An audio device that provides a transparent mode using mixing metadata including a driver unit that outputs the output signal of the amplifier.
제1항에 있어서,
상기 믹싱 메타데이터는 상기 사용자 단말의 위치 또는 상기 사용자 단말과 외부 객체 사이의 거리에 따라 결정되는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to paragraph 1,
A method of providing a transparent mode using mixing metadata, wherein the mixing metadata is determined according to the location of the user terminal or the distance between the user terminal and an external object.
제1항에 있어서,
상기 믹싱 메타데이터는 서비스 서버 또는 상기 사용자 단말에 근접한 송신 장치로부터 전달되는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to paragraph 1,
A method of providing a transparent mode using mixing metadata transmitted from a service server or a transmission device close to the user terminal.
제1항에 있어서,
상기 믹싱 메타데이터는 상기 음향 신호 중 일정 시간 구간에 대한 정보 및 상기 시간 구간의 음향 신호에 대한 상기 비율을 포함하는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to paragraph 1,
A method of providing a transparent mode using mixing metadata, wherein the mixing metadata includes information about a certain time section of the sound signal and the ratio to the sound signal of the time section.
오디오 장치가 마이크를 통해 외부 소리를 입력받는 단계;
상기 오디오 장치가 사용자 단말로부터 음향 신호를 전달받는 단계;
상기 오디오 장치가 상기 사용자 단말로부터 믹싱 메타데이터를 전달받는 단계;
상기 오디오 장치가 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 음향 신호를 믹싱하여 출력 신호를 생성하는 단계; 및
상기 오디오 장치가 상기 출력 신호를 드라이버 유닛을 통해 출력하는 단계를 포함하되, 상기 믹싱 메타데이터는 상기 출력 신호 중 상기 외부 소리와 상기 음향 신호를 믹싱하는 비율을 나타내는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
An audio device receiving external sound through a microphone;
The audio device receiving an audio signal from a user terminal;
The audio device receiving mixing metadata from the user terminal;
generating, by the audio device, an output signal by mixing the external sound and the sound signal based on the mixing metadata; and
A step of the audio device outputting the output signal through a driver unit, wherein the mixing metadata indicates a ratio of mixing the external sound and the sound signal among the output signals to set a transparent mode. How to provide.
제5항에 있어서,
상기 믹싱 메타데이터는 상기 사용자 단말의 위치 또는 상기 사용자 단말과 외부 객체 사이의 거리에 따라 결정되는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to clause 5,
A method of providing a transparent mode using mixing metadata, wherein the mixing metadata is determined according to the location of the user terminal or the distance between the user terminal and an external object.
제5항에 있어서,
상기 믹싱 메타데이터는 서비스 서버 또는 상기 사용자 단말에 근접한 송신 장치로부터 전달되는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to clause 5,
A method of providing a transparent mode using mixing metadata transmitted from a service server or a transmission device close to the user terminal.
제5항에 있어서,
상기 믹싱 메타데이터는 상기 음향 신호 중 일정 시간 구간에 대한 정보 및 상기 시간 구간의 음향 신호에 대한 상기 비율을 포함하는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
According to clause 5,
A method of providing a transparent mode using mixing metadata, wherein the mixing metadata includes information about a certain time section of the sound signal and the ratio to the sound signal of the time section.
오디오 장치가 마이크를 통해 외부 소리를 입력받는 단계;
상기 오디오 장치가 사용자 단말로부터 음향 신호를 전달받는 단계;
상기 오디오 장치가 상기 외부 소리와 상기 음향 신호를 사전에 설정된 계수에 따라 믹싱하여 드라이버 유닛을 통해 출력하는 단계;
상기 오디오 장치가 상기 사용자 단말로부터 새로운 음향 신호 및 믹싱 메타데이터를 전달받는 단계; 및
상기 오디오 장치가 상기 믹싱 메타데이터를 기준으로 상기 외부 소리와 상기 새로운 음향 신호를 믹싱하여 출력하는 단계를 포함하되, 상기 믹싱 메타데이터는 상기 출력 신호 중 상기 외부 소리와 상기 새로운 음향 신호를 믹싱하는 비율을 나타내는 믹싱 메타데이터를 이용하여 투명 모드를 제공하는 방법.
An audio device receiving external sound through a microphone;
The audio device receiving an audio signal from a user terminal;
The audio device mixing the external sound and the sound signal according to a preset coefficient and outputting the mixture through a driver unit;
The audio device receiving new sound signals and mixing metadata from the user terminal; and
A step of mixing and outputting, by the audio device, the external sound and the new sound signal based on the mixing metadata, wherein the mixing metadata is a mixing ratio of the external sound and the new sound signal among the output signals. A method of providing transparent mode using mixing metadata representing .
KR1020220164561A 2022-11-30 Transparency mode providing method using mixing metadata and audio apparatus KR20240080841A (en)

Publications (1)

Publication Number Publication Date
KR20240080841A true KR20240080841A (en) 2024-06-07

Family

ID=

Similar Documents

Publication Publication Date Title
KR101844388B1 (en) Systems and methods for delivery of personalized audio
US11075609B2 (en) Transforming audio content for subjective fidelity
CA2992510C (en) Synchronising an audio signal
JP2013501969A (en) Method, system and equipment
AU2016293318B2 (en) Personal audio mixer
EP3323251B1 (en) A method of augmenting an audio content
JP5909100B2 (en) Loudness range control system, transmission device, reception device, transmission program, and reception program
US20190182557A1 (en) Method of presenting media
KR20240080841A (en) Transparency mode providing method using mixing metadata and audio apparatus
WO2008015733A1 (en) Sound control device, sound control method, and sound control program
KR20160079339A (en) Method and system for providing sound service and device for transmitting sound