KR20190025816A - 음성 신호를 포함하는 오디오 신호의 라우드니스 레벨의 자동 교정 - Google Patents

음성 신호를 포함하는 오디오 신호의 라우드니스 레벨의 자동 교정 Download PDF

Info

Publication number
KR20190025816A
KR20190025816A KR1020187032335A KR20187032335A KR20190025816A KR 20190025816 A KR20190025816 A KR 20190025816A KR 1020187032335 A KR1020187032335 A KR 1020187032335A KR 20187032335 A KR20187032335 A KR 20187032335A KR 20190025816 A KR20190025816 A KR 20190025816A
Authority
KR
South Korea
Prior art keywords
signal
channel
gain
audio input
audio
Prior art date
Application number
KR1020187032335A
Other languages
English (en)
Other versions
KR102622459B1 (ko
Inventor
토비아스 뮌히
아른트 헨스겐스
Original Assignee
하만 베커 오토모티브 시스템즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만 베커 오토모티브 시스템즈 게엠베하 filed Critical 하만 베커 오토모티브 시스템즈 게엠베하
Publication of KR20190025816A publication Critical patent/KR20190025816A/ko
Application granted granted Critical
Publication of KR102622459B1 publication Critical patent/KR102622459B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/22Automatic control in amplifiers having discharge tubes
    • H03G3/24Control dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/48Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Abstract

본 발명은 N 채널 오디오 출력 신호를 생성하기 위해, N 채널 오디오 입력 신호의 이득을 조절하기 위한 방법에 관한 것인데, N 채널 오디오 입력 신호는 음성 입력 채널(21) - 만일 존재하면, 음성 신호 성분은 N 채널 오디오 입력 신호 내에 존재함 - 및 다른 오디오 입력 채널(20)을 포함하되, N 채널 오디오 입력 신호의 인지된 라우드니스는 동적으로 결정되고, 음성 신호 성분이 음성 입력 채널(21) 내에 존재하는지가 결정된다. 이러한 경우라면, 음성 입력 채널의 이득은 다른 오디오 입력 채널의 이득에 비해 상이하게 조절된다.

Description

음성 신호를 포함하는 오디오 신호의 라우드니스 레벨의 자동 교정
본 출원은, 서로 다른 신호 레벨 범위를 가진 적어도 두 개의 서로 다른 트랙을 포함하고, 가능하면 음성 신호 성분을 포함하는 N 채널 오디오 입력 시호의 이득을 조정하기 위한 방법에 관한 것이다. 더구나, 이것에 대응되는 시스템이 제공된다.
기술 분야에서, 음악 및/또는 음성을 포함하는 오디오 신호의 많고 다양한 소스가 알려져 있다. 음악 신호는 CD, DVD 또는 임의의 다른 저장 매체에 저장될 수 있다. 특히, MPEG과 같은 새로운 압축 스킴의 발전에 따라, 다양한 장르와 아티스트를 담은 오디오 신호가 저장 매체에 저장되고, 사용자에게 재생될 플레이리스트에 결합될 수 있다. 특히, 자동차 환경에서, 승객에 의해 인지되는 오디오 신호는 오디오 신호 자체와 도로 타이어 잡음, 공기 역학적 잡음 및 엔진 잡음을 포함한다. 서로 다른 오디오 소스의 서로 다른 오디오 신호는 종종 서로 다른 신호 및 동적인 압축 레벨을 가진다. 종종, 오디오 출력 신호의 서로 다른 트랙은, 서로 다른 라우드니스 레벨(loudness level)로 사용자에 의해 인지되는 서로 다른 신호 레벨 범위를 가진다. 특히, 차량 환경에서, 수신된 오디오 신호는 사용자에게 인지가능한데, 이는, 차량 내에 존재하는 잡음을 초과해야 한다는 것을 의미한다. 동시에, 전반적인 오디오 신호 레벨은, 청각 손상이 발생될 수 있거나 사용자에게 인지하는데 고통스러운 특정 레벨을 초과해서는 아니된다.
차량 환경에서 멀티채널 오디오를 가진 영화를 재생할 때, 중앙 채널은 음성과 대화를 재생한다. 그러나, 음성 재료의 인지된 라우드니스는 종종 충분하지 않아서, 대화가 사용자에 의해 적절히 인지될 수 없다.
이에 따라, 특히 시끄러운 환경에서 오디오 신호에 존재하는 음성 신호의 우수한 인지성을 유지하면서, 오디오 신호의 라우드니스 레벨의 동적인 자동 교정을 허용하는 요구가 존재한다.
이러한 요구는 독립항의 특징에 의해 충족된다. 종속항에서, 본 발명의 바람직한 실시예가 기술된다.
제1 양태에 따르면, N 채널 오디오 출력 신호를 생성하기 위해, N 채널 오디오 입력 신호의 이득을 조절하기 위한 방법이 제공되는데, N 채널 오디오 입력 신호는 음성 입력 채널 - 만일 존재하면, 음성 신호 성분은 N 채널 오디오 입력 신호 내에 존재함 - 을 포함한다. N 채널 오디오 입력 신호는 다른 오디오 입력 채널을 더 포함한다. 본 방법의 제1 단계에 따르면, N 채널 오디오 입력 신호의 인지된 라우드니스는 동적으로 결정된다. 더구나, 음성 신호 성분이 음성 입력 채널 내에 존재하는지가 결정된다. 음성 신호 성분이 음성 입력 채널 내에 존재한다면, 다른 오디오 입력 채널의 이득은, 제1 이득 파라미터를 가진 N 채널 오디오 입력 신호의 결정되고 인지된 라우드니스에 기초하여, 제1 이득 제어 유닛 내에서 동적으로 조절되어서, 제1 이득 제어 유닛으로부터 출력된 다른 오디오 출력 채널의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 미리정의된 라우드니스 범위로 제한된다. 음성 입력 채널의 이득은, 제2 이득 파라미터를 가진 N 채널 오디오 입력 신호의 결정된 라우드니스에 기초하여, 제2 이득 제어 유닛 내에서 동적으로 조절되어서, 제2 이득 제어 유닛으로부터 출력된 음성 출력 채널의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 라우드니스 범위로 제한된다. 제2 이득 파라미터는 본원에서 제1 이득 파라미터와 상이하다.
더구나, N 채널 오디오 입력 신호의 이득을 조절하도록 구성된 대응 시스템이 제공된다. 시스템은 N 채널 오디오 입력 신호의 인지된 라우드니스를 결정하도록 구성된 라우드니스 결정 유닛을 포함한다. 더구나, 음성 신호 성분이 음성 입력 채널 내에 존재하는지를 결정하도록 구성된 음성 검출 유닛이 제공된다. 제1 이득 제어 유닛이 제공되어서 다른 입력 채널의 이득을 제어하도록 구성되고, 제2 이득 제어 유닛이 제공되어 음성 입력 채널의 이득을 제어하도록 구성된다. 음성 신호 성분이 음성 입력 신호 내에 존재한다면, 제1 이득 제어 유닛이 제1 이득 파라미터를 가진 N 채널 오디오 입력 신호의 결정되고 인지된 라우드니스에 기초하여, 다른 오디오 입력 채널의 이득을 동적으로 조절하여서, 제1 이득 제어 유닛으로부터 출력된 다른 오디오 출력 채널의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 미리정의된 라우드니스 범위로 제한된다. 제2 이득 제어 유닛이 제2 이득 파라미터를 가진 N 채널 오디오 입력 신호의 결정된 라우드니스에 기초하여, 음성 입력 채널의 이득을 동적으로 조절하여서, 제2 이득 제어 유닛으로부터 출력된 음성 출력 채널의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 라우드니스 범위로 제한된다. 제1 이득 제어 유닛과 제2 이득 제어 유닛은, 서로 다른 이득 파라미터가 서로 다르게 제1 이득과 제2 이득을 결정한다.
음성 성분의 명료성을 개선시키기 위해, 음성 입력 채널의 이득은 다른 오디오 입력 채널의 이득에 비해 더 높은 정도만큼 증가될 수 있다. 예를 들어, 제1 이득 파라미터와 제2 이득 파라미터는, 음성 출력 신호의 신호 레벨에 대한 음성 입력 신호의 신호 레벨의 비율이, 다른 오디오 출력 채널의 신호 레벨에 대한 다른 오디오 입력 채널의 신호 레벨의 비율보다 더 작도록 결정될 수 있다. 다시 말해, 이는, 다른 오디오 입력 채널에 비해, 음성 입력 채널에 더 높은 이득이 적용된다는 것을 의미한다.
추가적인 예시로서, 제1 이득 파라미터와 제2 이득파라미터는, 음성 입력 신호의 신호 레벨이, 제1 이득 파라미터에 의해 증가된 다른 오디오 입력 채널의 신호 레벨에 비해 더 높은 정도만큼, 제2 이득 파라미터에 의해 증가되도록 결정된다.
미리정의된 범위의 신호 레벨로 신호 레벨을 유지시키기 위해, N 채널 오디오 입력 신호의 신호 레벨이 감소된다면, 음성 입력 신호의 신호 레벨이, 제1 이득 파라미터에 의해 감소된 다른 오디오 입력 채널의 신호 레벨에 비해 더 적은 정도만큼, 제2 이득 파라미터에 의해 감소되도록, 제1 이득 파라미터와 제2 이득 파라미터가 결정될 수 있다.
상기에 언급된 특징이나 이하에 설명될 특징은 표시된 각각의 조합뿐만 아니라, 본 출원의 범위에서 벗어나지 않고 다른 조합이나 분리되어 사용될 수 있다는 것을 이해해야 한다. 상기 언급된 양태 실시예의 특징은, 다른 명시적 언급이 없으면, 다른 실시예와 서로 조합될 수 있다.
본 출원의 상기 및 추가적인 특징과 효과는, 유사한 참조 번호는 유사한 요소를 말하는, 첨부 도면과 함께 읽을 때, 이하의 상세한 설명으로부터 명백해질 것이다.
도 1은 N 채널 오디오 입력 신호의 이득을 조정하는데 사용되는 시스템을 개략적으로 나타낸다.
도 2는 오디오 입력 신호의 라우드니스를 결정하고, N 채널 오디오 입력 신호의 음성 입력 채널 내의 음성 신호 성분을 검출하는데 사용되는 오디오 분석 유닛의 좀 더 상세한 뷰를 나타낸다.
도 3은 이득 조정 없이, 오디오 입력 신호와 추정된 라우드니스의 예시를 나타내며, 이는 자연스러운 라우드니스에 대한 상이한 시상수, 즉, 증가하는 라우드니스에 대한 빠른 반응과 감소하는 라우드니스 레벨에서의 지연된 반응을 포함한다.
도 4는, 전체 신호 콘텐트가 알려질 때, 이상적으로 교정된, 자동화 라우드니스 조절을 위해 조절되어야 하는, 도 3의 오디오 입력 신호의 동적인 레벨 조절을 나타낸다.
도 5는 음성 신호 성분이 도 2의 오디오 분석 유닛에서 사용된 음성 검출 유닛에서 어떻게 검출되는지를 개략적으로 나타낸다.
도 6은 N 채널 오디오 입력 신호의 하나의 블록에서 또 다른 블록으로 이득 변화를 나타내는 오디오 신호로 시상수 도입을 개략적으로 나타낸다.
도 7은 자동화 라우드니스 조절 이전과 이후의 N 채널 오디오 입력 신호의 신호 레벨을 나타내는데, 신호 레벨은 신호 레벨의 정의된 범위 내에 있도록 하기 위해 감소된다.
도 8은 자동화 라우드니스 조절 이전과 이후의 N 채널 오디오 입력 신호의 신호 레벨의 또 다른 예시를 나타내는데, 신호 레벨은 증가된다.
도 9는 음성 신호 성분이 다른 신호 성분과 상이한 방법으로 조절되는 시스템의 개략도를 나타낸다.
이하에서, 본 발명의 실시예는 첨부 도면을 참조하여 상세히 기술될 것이다. 실시예의 다음 설명은 제한적인 의미로 여겨지지 않는다는 것을 이해해야 한다. 본 발명의 범위는 이하에서 기술된 실시예에 의해, 또는 증명적으로만 여겨야 하는 도면에 의해 제한되는 것으로 의도되지 않는다.
도면은 표현적으로 간주되어야 하고, 도면에 도시된 요소는 반드시 스케일대로 도시되는 것은 아니다. 그보다는, 다양한 요소들은, 이들의 기능과 일반적인 목적이 기술 분야의 통상의 기술자에게 명백해지도록 표현된다. 도면에 도시되거나 본원에서 기술된, 기능적 블록, 디바이스, 구성요소 또는 물리적 기능성 유닛들간의 임의의 연결이나 결합은 간접적인 연결이나 결합에 의해 실행될 수 있다. 구성요소들 간의 결합은 유선이나 무선 연결을 통해 구축될 수 있다. 더구나, 기능성 블록은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합물로 실행될 수 있다.
도 1에서, N 채널 오디오 입력 신호의 라우드니스가 조절될 수 있는 시스템이 도시된다. N 채널 오디오 입력 신호는 5.1 또는 7.1 오디오 신호일 수 있고, CD 또는 DVD 또는 하드 디스크와 같은 임의의 다른 저장 유닛에 저장될 수 있다. N 채널 오디오 입력 신호는, 존재한다면 입력 신호 내에 음성 신호 성분이 존재하는 음성 입력 채널(21)을 포함한다. 5.1 또는 7.1 오디오 신호에서, 음성 입력 채널은 중앙 채널일 수 있다. 더구나, N 채널 오디오 입력 채널은 다른 오디오 입력 채널(20)을 포함한다.
도시된 시스템은 오디오 신호 분석 유닛(30)을 포함하는데, 그 중에서도, 채널 오디오 입력 신호의 라우드니스는 청각의 음향 심리학적 로컬리제이션 모델을 사용하여, 그리고 신호 통계학을 사용하여 결정된다.
신호 분석 유닛(30)에서, 라우드니스는 청각의 음향 심리학적 모델에 기초하여, 그리고 신호 통계학에 기초하여 결정된다. 이하에 더욱 자세히 기술되는 바와 같이, 음향 심리학적 모델은 사운드의 로컬리제이션을 위해 라우드니스를 추정하고, 가령, 정지 또는 두 개의 트랙 사이 동안에, 잡음이 오디오 입력 신호 내에 우성 인자로 존재하는지를 결정하는데 사용된다. 신호 통계학은 라우드니스를 결정하거나 추정하고, 잡음이 있는 정지가 오디오 신호 내에 존재하는지를 결정하기 위한 두 번째 기준이다. 예를 들어, 엔터테인먼트 오디오 신호의 신호 세기가 결정될 수 있다. 음향 심리학적 모델 단독 또는 통계적 신호 모델과의 조합에 기초하여, 이하에 더 자세히 기술될 바와 같이, 적응적 시상수를 동적으로 결정함에 의해, 라우드니스 조절이 결정된다.
도 2에서, 오디오 신호 분석 유닛(30)의 좀 더 상세한 뷰가 도시된다.
오디오 신호 분석 유닛(30)에서, N 채널 오디오 입력 신호는 다운믹싱 유닛(36) 내에서 다운믹스될 수 있다. 본 예시에서, 다운믹싱은 N 채널 오디오 입력 신호에서 서로 다른 채널이 신호 분석 유닛(30)에서 별도로 분석되는지, 또는 특정 그룹의 오디오 신호가 생성되는지를 다운믹싱 유닛에서 결정되는 것을 의미한다. 예를 들어, 5.1 서라운드 신호의 전방 신호 채널들은 함께 하나의 그룹 또는 전방 신호 채널 및 중앙 채널로 그룹화되는 반면, 후방 채널이나 서라운드 채널은 또 다른 그룹으로 그룹화된다. 이에 따라, 다운 믹싱 유닛에서, 이러한 그룹에서 오디오 입력 신호의 서로 다른 입력 채널이 처리되는지 또는 모든 채널이 별도로 처리되는지 결정된다. 더구나, 음성 입력 채널(20)은, 음성 성분이 음성 입력 채널에 존재하는지 검출되는 음성 검출 유닛(37)으로 공급된다. 대화와 같은 음성 신호 성분들이 N 채널 오디오 입력 신호에 존재한다면, 이들은 음성 입력 채널에 존재한다. 다른 오디오 입력 채널(20)은 음성 신호 성분을 포함하지 않는다. 음성 검출 유닛은 도 5를 참조하여 이후에 더 상세히 설명된다.
더구나, 오디오 신호 분석 유닛은, 수신된 오디오 입력 신호의 라우드니스를 추정하는 라우드니스 결정 유닛(31)을 포함한다. 라우드니스 결정 유닛(31)은 기술 분야에서 알려진, 특히 ITU-R BS 1770-1에 기술된 방법으로 라우드니스를 결정할 수 있다. N 채널 오디오 입력 신호의 로컬리제이션 및 라우드니스의 결정의 추가적인 세부사항을 위해, 참조문헌도 있는데, 이는 2003년 10월의 115번째 컨벤션, Audio Engineering Society Convention Paper 5864에서 Wolfgang Hess et al에 의한 "Acoustical Evaluation of Virtual Rooms by Means of 바이노럴 Activity Patterns"와, 1986년 12월, Journal of Acoustic Society of America의 p. 1608-1622, Vol. 80 (6)에서의 W. Lindemann "Extension of a 바이노럴 Cross-Correlation Model by Contralateral Inhibition. I. Simulation of Lateralization for Stationary Signals"와, 및 ITU-R BS 1770-1이다. 그러나, 기술 분야에 알려진 오디오 신호의 라우드니스를 결정하기 위한 임의의 다른 방법이 사용될 수 있다는 것은 언급되어야 한다.
더구나, 라우드니스 결정 유닛(31)은 라우드니스를 결정하고, 상기 오디오 입력 신호를 들을 때, 입력 신호(20 및 21)가 사용자에 의해 로컬라이즈되는지, 어디에서 되는지를 결정하기 위해, 청각의 바이노럴 모델을 사용할 수 있다. 이러한 바이노럴 모델은 오디오 입력 신호의 공간적 인지를 시뮬레이트하고, 오디오 입력 신호가 주로 잡음을 포함하는지 또는 음악이나 음성과 같은 임의의 다른 입력 신호를 포함하는지 결정한다. 오디오 입력 신호의 로컬리제이션은 본 출원의 이전에 언급된 문헌에 좀 더 자세히 기술되거나, EP 1 522 868 A1, W. Lindemann의 문헌이나 상기 언급된 Audio Engineering Society Convention Paper 5864에서 언급된다. 이러한 로컬리제이션 테크닉은 다른 사운드 신호로부터 잡음을 구별할 수 있고, 오디오 입력 신호에서 잡음만 검출된다면, 이러한 잡음은 증가된 이득을 가진 출력되는 것을 회피하는데 도움을 줄 수 있다. 정지가 검출되었을 때, 시상수 생성 유닛(32)에 의해 생성된 적응형 시상수를 리셋할 수도 있다. 라우드니스 결정 유닛(31)은 청각의 음향 심리학적 모델을 사용하여, 오디오 입력 신호의 라우드니스를 추정한다. 두 개의 연속 트랙들 사이의 정지의 검출은 정지 검출 유닛(33)에 의해 개략적으로 나타난다.
더구나, 라우드니스 결정 유닛(31)은, 오디오 입력 신호의 라우드니스를 추정하거나 신호 정치를 검출하기 위해, 통계적 신호 처리를 추가적으로 사용할 수 있다. 오디오 입력 신호의 통계적 분석에서, 오디오 입력 신호의 서로 다른 샘플의 실제 신호 레벨이 결정된다. 예를 들어, 입력 신호의 여러 개의 연속 샘플의 신호 레벨이 가우시안 분포를 따른다면, 처리된 샘플은 잡음을 포함하고 다른 오디오 신호는 포함하지 않는다는 것을 추론할 수 있다.
그리고 나서, 오디오 신호 분석 유닛은 라우드니스 추정의 결과를 사용하여, 오디오 입력 신호(20 및 21) 내로 도입되는 시상수를 계산할 수 있다. 도 2에서, 시상수의 계산은 시상수 생성부(32)에 의해 부호화된다. 시상수는 도 6을 참조하여 자세히 기술되는 바와 같이, 이득을 조절하는데 도움을 준다.
오디오 신호 분석 유닛(30)은, 음성 입력 채널(21)과 다른 오디오 이벽 채널(20)의 이득을 조절하는 이득 결정 유닛(35)을 더 포함한다. 라우드니스 결정 유닛(31)은 음악 입력 신호의 특정 부분, 가령, dB 라우드니스 등가(dBLEQ)를 발산함에 의해 여러 샘플을 포함하는 블록에 대한 라우드니스를 제공한다. 이득 결정 유닛(35)은, 가령, 도면의 하단 부분의 도 7 및 8에 도시된 -12 dB 또는 임의의 다른 신호 레벨 스레숄드와 같은, 오디오 신호를 출력할 때 충족되어야 하는 미리정의된 신호 레벨을 가진다. 이득 결정 유닛(35)에서, 결정된 라우드니스는, 이득을 계산하기 위해, 획득될 평균 신호 레벨에서 차감된다. 예를 들어, 결정된 라우드니스가 -5dB에 대응되고, 타겟이 -12 dB 전체 스케일이라면, 이득은, 약 -12 dB의 평균 신호 레벨을 갖기 위해, 이득을 감소시킴에 따라 조절되어야 한다. 이득 결정 유닛은 다른 오디오 입력 채널(20)에 대한 제1 이득 파라미터를 결정하고, 음성 입력 채널(21)에 대한 제2 이득 파라미터를 결정한다. 이득 결정 유닛은, 도 6과 관련하여 설명될, 이득을 조절하는데 사용되는 시상수를 계산한다.
이득 결정 유닛은, 음성 입력 채널과 다른 오디오 입력 채널의 이득을 조절하도록 구성되어서, 음성 입력 채널에 존재하는 대화가 사용자에 의해 더 잘 인지될 수 있도록 한다.
예를 들어, 전반적인 신호 레벨이 증가될 때, 제2 이득 파라미터에 의해 증가되는 음성 입력 신호의 신호 레벨은, 제1 이득 파라미터에 의해 증가되는 다른 오디오 입력 채널의 신호 레벨에 비해, 더 높은 양만큼 증가될 수 있다. 다시 말해, 이는, 제1 이득 파라미터와 제2 파라미터는, 음성 출력 신호의 신호 레벨에 대한 음성 입력 신호의 신호 레벨의 비율이 다른 오디오 출력 채널의 신호 레벨에 대한 다른 오디오 입력 채널의 신호 레벨의 비율보다 더 작도록 결정된다는 것을 의미한다.
그러나, 신호가 특정 범위 내로 유지되기 위해, 오디오 신호의 전체 신호 레벨이 감소되어야 할 때, 제1 이득 파라미터와 제2 이득 파라미터는, 음성 입력 신호의 신호 레벨이 감소되어서, 제2 이득 파라미터에 의해 감소되는 음성 입력 신호의 신호 레벨이, 제1 이득 파라미터에 의해 감소되는 다른 오디오 입력 채널의 신호 레벨에 비해 더 적은 양만큼 감소되도록 결정될 수 있다.
차량 환경에서, 사용되는 차량에 의존하여, 서로 다른 주변 잡음이 차량의 승객에 의해 인지된다. 차량 사운드 신호는 잡음 성분과 오디오 신호 성분을 포함한다. 잡음 신호 성분은 도로 타이어 잡음, 공기역학적 잡음 또는 엔진 잡음일 수 있다. 잡음은 60 내지 85 dB SPL(신호 압력 레벨) 사이의 값을 가질 수 있다. 청각 고통 스레숄드가 120 dB SPL이므로, 오디오 신호 성분에 대한 범위는 20~40 dB SPL이다.
다시 도 1을 참조하면, 음성 입력 채널에 대한 오디오 신호 분석 유닛의 신호 출력(38)과 다른 오디오 입력 채널에 대한 신호 출력(39)은 신호 제어 유닛(40) 내로 입력된다. 시상수 형태로 이득 조절을 기술하는 신호 출력(38)은 이득 제어 유닛(44)으로 공급되는 반면, 신호 출력(39)은 이득 제어 유닛(43)으로 공급된다. 다른 오디오 입력 채널(21)은 제1 지연 소자(41)로 입력된다. 지연 소자는, 신호 분석 유닛 내의 이득의 결정을 위해 필요하고, 가능하면 음성 신호 성분을 검출하는데 필요한, 다른 것보다도 입력 신호(20) 내로 지연을 도입한다. 지연 소자는, 신호 분석 유닛(30)에 의해 처리된 신호가, 결정되었던 오디오 신호에 대응되는 정확한 시상수로 실제로 제어되는 것을 보장하는데 도움을 준다. 동일한 방법으로, 음성 입력 신호(21)가 제2 지연 유닛(42)으로 공급되고, 대응되는 지연이 음성 입력 신호 내로 도입된다. 도시된 실시예에서, 두 개의 서로 다른 지연 유닛(41 및 42)이 제공되지만, 신호(20 및 21) 내로 도입되는 지연이 바람직하게는 동일하기 때문에, 하나의 지연 유닛이 사용될 수 있다.
더구나, 신호 제어 유닛(40)은 다른 오디오 입력 채널을 위한 이득 제어 유닛(43) 및 음성 입력 채널(21)을 위한 이득 제어 유닛(44)을 포함한다. 이득 제어 유닛(43, 44)은, 이득 결정 유닛(35)에 의해 결정된 이득이 이득 제어 유닛(43)으로부터 출력된 다른 오디오 출력 채널(45)의 신호 출력 레벨 또는 이득 제어 유닛(44)으로부터 출력된 음성 출력 채널(46)의 신호 출력 레벨에 실제로 어느 정도 영향을 주는지 결정하는데 도움을 준다. 이를 위해, 사용자 인터페이스(미도시)가 제공될 수 있는데, 사용자는 오디오 신호 분석 유닛(30)에 의한 이득 교정이 몇 퍼센트 출력에 사용되는지를 표시할 수 있다. 이득의 100%가 조합된 출력 신호(60)에 존재하는 것과 같이 출력되어야 한다면, 이득 결정 유닛(35)에 의해 결정된 것과 같은 값이 대체된다. 그러나, 사용자는 이득 조절을 원하지 않을 수도 있는데, 가령, 그 또는 그녀는 음악 한 곡에서 라우드니스 전개를 유지하기 원할 수도 있다. 이러한 예시에서, 사용자는 이득 제어 유닛(43)에서의 이득 조절을 0%로 설정할 수 있고, 이는 유닛(30)에서 결정된 것과 같이 교정이 출력에 대해 사용되지 않는다는 것을 의미한다. 이득 제어 유닛(43)에서, 이득 교정의 정도는 가령, 0% 내지 100% 인자를 설정함에 의해 결정된다. 0%의 인자가 설정되면, 이득은 시상수의 영향 없이 결정된다.
사용자 인터페이스에 추가하거나 사용자 인터페이스 대신에, 잡음 추정기(50)가 제공되어서, 차량 캐빈 내의 주변 잡음을 추정할 수 있다. 상기에서 언급된 바와 같이, 차량 속도는 차량 캐빈 내의 잡음에 강하게 영향을 준다. 차량이 매우 느린 속도로 이동하거나 정차한다면, 이득 결정 유닛에 의해 결정되는 이득 조절은 반드시 고려해야되지는 않는다. 유닛(30)에서 결정된 것과 같이 교정이 출력에 사용되지 않는다는 것을 의미하는, 출력 신호(60)가 이득 결정 유닛에 의해 전혀 영향을 받지 않아야 한다면, 이득 제어 유닛은, 출력 신호가 유닛(30)에서 수행된 계산에 의해 영향을 받는 인자를 0%로 설정할 수 있다. 잡음 추정기(50)는 차량 속도를 수신할 수 있고, 차량 속도와 잡음 간의 관계까 제공되는 테이블(51)에 액세스 할 수 있다. 이 테이블은 차량 제조자에 의해 설정된 미리정의된 테이블일 수 있다. 일반적으로, 운전자는 테이블(51)에서 주어진 값을 조절할 수 없어야 한다. 그러나, 테이블에서 주어진 값은 가령, 사운드 설정이 조절될 수 있는 소프트웨어 툴에 의해 변경될 수 있다. 차량 속도가 더 빨라질 때, 주변 잡음도 80 dB(A)일 수 있다. 이러한 예시에서, 105 dB(A)의 스레숄드가 초과되지 않아야 한다면, 오직 25 dB(A)가 유지된다. 80 dB(A)의 주변 잡음으로, 오디오 출력 신호의 라우드니스는 상기 기술된 바와 같이 이득 결정 유니셍 의해 동적으로 결정될 수 있다. 이득 결정 유닛은 주변 잡음에 기초하여 0% 내지 100%의 인자를 결정할 수 있고, 이러한 퍼센티지는 라우드니스가 상기 기술된 바와 같이 조절되어야 하는 정도를 기술한다. 도시된 실시예에서, 차량 속도만 주변 잡음을 결정하기 위한 변수이다. 그러나, 마이크로폰(미도시)에 의해 결정된 주변 잡음과 같은 다른 인자가 단독으로 또는 차량 속도와 조합하여 사용될 수 있다.
도 3의 상단 부분에서, 오디오 입력 신호의 신호 레벨이 전체 스케일로 도시되는데, 0 dB 실물 스케일(0 dBFS)은 디지털 도메인에서 최대 가능한 신호 레벨에 할당되는 것을 의미하고, dB 실물 스케일은 실물 스케일에 대한 데시벨을 의미한다. 도 3의 상단 부분에서 볼 수 있는 바와 같이, 신호 레벨과 그래서 사용자에 의해 인지된 신호에 대응되는 라우드니스 레벨은 상당히 가변한다. 도 3의 하단 부분에서, 대응되는 라우드니스는 신호 입력 레벨로부터 추정되었다. 라우드니스 추정에 대한 하나의 가능성은 추천 ITU-R BS. 1770-1 ("Algorithms to Measure Audio Program Loudness and to a Peak Audio Level")에 기술된다. 본 출원에서, 라우드니스는 바이노럴 로컬리제이션 모델을 통해 추정될 수 있다. 도 3에 도시된 사운드 신호가 차량 내에서 사용자에게 재생된다면, 오디오 신호의 어떤 부분은 불쾌한 라우드니스로 인지될 수 있는 반면, 오디오 신호의 다른 부분은 사용자에 의해 정확하게 인지하기에 너무 낮게 여겨질 수 있다. 도 4에서, 도 3의 신호의 이상적으로 조절된 레벨이 도시된다. 예를 들어, 범위(201)에서의 신호 샘플은 더 낮은 신호 레벨로 조절되는 반면, 범위(202) 내의 신호는 사용자에 의한 우수한 인지를 위해 더 높은 신호 레벨로 조절되어야 한다. 마찬가지로, 범위(203)에서의 신호는 강하게 감소된 신호 레벨로 출력되어야 한다.
도 4의 하단 부분에서, 상단 부분의 이상적으로 조절된 레벨의 대응되는 추정된 라우드니스가 도시된다. 도 2의 하단 부분이 도 4의 하단 부분과 비교될 때, 도 4에 도시된 라우드니스 추정은 도 3에 도시된 라우드니스 추정보다 선호된다는 것이 추론될 수 있다. 도 4의 라우드니스 추정은 도 3의 라우드니스 추정보다 더 잘 인지될 수 있다. 자연스럽고, 비교적 일정한 라우드니스가 도달되고, 여기에 시각화된다.
도 5는 음성 검출 유닛의 부분의 좀 더 상세한 뷰를 나타낸다. 음성 검출 유닛은, 음성 입력 신호가 음성 성분을 포함하는지 아닌지를 결정해야 한다. 이를 위해, 음성 입력 신호는 세그멘테이션 유닛(370)에서 정의된 길이의 프레임으로 분리될 수 있는데, 가령, 2초 및 각각의 프레임에 대해, 특징 추출 유닛(371)에서 특징이 계산되고 추출된다. 따라서, 음성 입력 신호는 프레임으로 세그멘트되고, 특징 추출을 위해 버퍼 내로 입력되며, 각각의 버퍼 콘텐트에 대해, 특징 추출이 수행된다. 추출된 특징에 기초하여, 분류가 유닛(372)에서 수행된다. 예를 들어, 평균과 표준 편차가 계산될 수 있다. 마지막으로, 유닛(373)에서, 클러스터링(clustering)이 수행된다. 이러한 클러스터링 유닛(373)에서, 특징 공간에서 클러스터링 중앙을 결정하기 위해 각각의 프레임에 대한 클래스 레벨을 찾도록 시도하고, 각각의 특징 벡터를 가장 가까운 중앙에 할당한다. 예를 들어, K-평균 알고리즘이 사용될 수 있다.
유닛(371) 내의 추출된 특징은 전체 스펙트럴 전력, 제로-크로싱율 또는 멜-주파수 셉스트럴 계수(MFCCs)와 같은 특징을 포함할 수 있다.
기술 분야에서 알려진 임의의 다른 방법이 음성 입력 신호 내의 음성 신호 성분을 검출하는데 사용될 수 있다는 것을 이해해야 한다. 음성 검출은 특히, 노래에서 발생하는 음성과 문자를 식별하도록 구성되어야 한다. 언급된 언어의 음성 성분만 식별되어서, 이들 성분은 N 채널 오디오 입력 신호 내의 다른 비-음성 성분과 비교하여, 이득 결정 유닛에 의해 상이하게 핸들링될 수 있다.
음성 검출 유닛의 출력은 0% 내지 100% 일 가능성이 있을 수 있다. 이러한 가능성이 특정 레벨 위에 있다면, 음성 검출 유닛은, 음성이 음성 입력 채널에 존재하고, 이에 따라 이득 결정 유닛에 알려져서, 후자가 다른 오디오 입력 채널에 비해 상이한 방법으로 음성 입력 채널을 제어할 수 있다고 가정한다. 음성이 음성 입력 채널에 존재하지 않는다고 음성 검출 유닛이 가정한다면, 음성 입력 채널과 다른 오디오 입력 채널 모두가 동일한 방법으로 조절될 수 있다.
도 6에서, 하나의 음성 출력 채널(46)의 서로 다른 샘플들(61 내지 63)이 서로 다른 시상수(71 내지 73)에 의해 분리되어 도시된다. 시상수(71 내지 73)는 라우드니스가 하나의 샘플에서 다음 샘플까지 얼마나 조절되어야 하는지를 나타낸다. 시상수는 상승 시상수 또는 하강 시상수일 수 있다. 상승 시상수는 신호 이득이 하나의 샘플에서 다음 샘플까지 얼마나 증가되는지를 나타내는 반면, 하강 시상수는 이득이 하나의 샘플에서 다음 샘플까지 얼마나 감소되는지를 나타낸다. 시상수(71 내지 73)는, 상승 시상수가 하강 시상수보다 훨씬 빠르게 조절될 수 있는 방식으로 결정된다. 예를 들어, 신호 정지가 두 개의 트랙 사이에서, 또는 하나의 트랙 내에서 결정된다면, 오디오 신호 레벨은 잡음의 증폭을 피하기 위해 증가되지 않아야 한다. 새로운 트랙이 시작될 때, 높은 신호 레벨은 매우 낮은 신호 레벨 이후에 바로 발생할 수 있다. 라우드니스 추정치의 상승 시상수는, 새로운 트랙의 시작점에서의 신호 레벨이 심하게 증가되는 것을 피하기 위해, 이에 따라 조절될 수 있다. 오디오 신호 레벨이 감소하는 경우에서의 하강 시상수는, 증가에 비해 신호 레벨의 더 느린 감소만 허용한다. 더구나, 시상수는, 트랙이 길수록 시상수 반응이 더 느리다는 것을 의미하는 적응형 시상수이다. 이는 증가하고 감소하는 시상수에 대해 유효할 수 있다. 자연스러운 라우드니스 추정은, 사람이 라우드니스를 인지하는 것과 같은 방법의 라우드니스 추정도 보장한다. 피크와 딥(dip)은 사람 청각계에 의해 제거된다. 시상수가 오디오 트랙의 시간 증가와 함께 더 느리게 가변된다는 사실은 오디오 신호의 동적성을 유지하는데 도움을 준다. 그러나, 음악 신호의 실행 시간이 도달되면, 증가하는 라우드니스의 더 짧은 반응 시간은 빠른 신호 증가에 적절한 응답을 보장한다. 더구나, 시상수는, 음성 출력 채널 내의 음성을 포함하는 성분이 다른 오디오 출력 채널의 성분과 상이한 방법으로 조절되도록 한다. 더구나, 도 6의 상단 부분은 서로 다른 시상수(91 내지 93)에 의해 분리된 다른 오디오 출력 채널(45)의 서로 다른 샘플을 나타낸다.
도 6의 하단 부분에서, 이득 증가와 이득 감소가 시간에 따른 출력 신호(45 및 46)에 대해 도시된다. 음악 샘플의 제1 블록(64)에 있어서, 제1 이득(75)이 도시된 바와 같이 결정된다. 이후의 신호 블록(65)에 있어서, 증가된 이득이 결정되고, 이후에 약간 감소된 이득을 가진 신호 블록(66)이 있어서, 이득 감소는 76에 의한 부호화된 것과 같이 적용된다. 시상수를 사용하여 라우드니스 조절에 기초하여, 각각의 블록에 대한 이득, 즉, 각각의 블록에 대한 타겟 이득이 결정된다. 그리고 나서, 블록(n)에 대한 타겟 이득은 이전 블록(n-1)의 타겟 이득으로부터 시작하는 선형 경사로 획득된다. 하단 부분에 도시된 예시에서, 이득 증가와 감소는, 대응되는 이득(95 및 96)을 가진 서로 다른 샘플(84 내지 86)을 포함하는 음성 출력 채널에 대해 도시된다. 블록(64)의 종점 이후에 음성이 검출된다고 가정한다. 더구나, 음성 신호 성분은 음성 성분의 명료성(intelligibility)을 증가시키기 위해, 다른 성분에 비해 증가되어야 한다. 이득(75)이 이득(95)과 비교될 때, 음성 출력 채널(46)은 다른 오디오 출력 채널(45)에 비해 더 강한 증분을 수신해야한 다는 것을 추론할 수 있다.
트랙 내에 또는 두 개의 트랙 사이에 정지가 결정되면, 시상수는 리셋될 수 있다. 도 2의 신호 분석 유닛(30) 내에서 수행된 정지 검출이나 트랙 검출은 정지 검출 유닛(33)과 트랙 검출 유닛(34)에 의해 부호화된다. 도 2의 실시예에서, 라우드니스 결정 유닛(31), 시상수 생성 유닛(32), 정지 및 트랙 검출 유닛(33 및 34), 이득 결정 유닛(35), 다운-믹스 유닛(36) 및 음성 검출 유닛(37)은 별도의 유닛으로 도시된다. 그러나, 서로 다른 유닛이 더 적은 유닛으로 통합될 수 있다는 것과, 유닛이 여러 유닛 또는 심지어 하나의 유닛으로 결합될 수 있다는 것은, 기술 분야의 당업자에게 명백하다. 더구나, 신호 분석 유닛은 하드웨어 요소 또는 소프트웨어 요소 또는 하드웨어와 소프트웨어의 조합물에 의해 설계될 수 있다.
도 7에서, 자동화 라우드니스 조절의 제1 예시가 도시된다. 도 7의 상단 부분에서, 라우드니스 추정 이전의 오디오 입력 신호가 도시된다. 오디오 입력 신호의 두 채널로부터 볼 수 있는 바와 같이, 입력 신호는 서로 다른 입력 레벨 범위를 커버한다. 최대 입력 레벨은 0 dB 실제 스케일일 수 있다. 도 7의 하단 부분에서, 라우드니스 추정과 이득 조절 이후의 오디오 출력 신호(19)가 도시된다. 도 7의 하단 부분으로부터 볼 수 있는 바와 같이, 평균 신호 레벨이 -12 dB 실제 스케일로 설정된다. 이와 동시에, 오디오 신호의 동적인 구조가 보존된다.
도 8에서, 입력 레벨이 -20 dB 실제 스케일의 최대 입력 레벨을 가지는 또 다른 예시가 도시된다. 도 8의 하단 부분에서, 라우드니스 추정과 이득 조절 이후의 오디오 출력 신호(19)가 도시된다. 다시 동적인 구조가 보존되고, 평균 신호 레벨이 다시 -12 dB 실제 스케일이다. 도 7 및 8의 상단 부분에 도시된 입력 신호가 사용자에게 출력된다면, 사용자는 불쾌하게 높은 신호 레벨을 피하고, 신호 레벨이 듣기에 너무 낮은 오디오 신호의 부분에 대핸 신호를 증가시키기 위해, 빈번하게 볼륨을 조절해야한다.
도 9는 시스템(400)의 개략적인 구조도를 나타낸다. 시스템(400)은 다른 도면들과 관련하여 상기에서 논의된 모든 단계를 수행하도록 구성될 수 있다. 시스템(400)은 세부적으로 도시되지 않은, 입력 유닛과 출력 유닛과의 인터페이스(410)를 포함한다. 인터페이스는 도 1에 도시된 결합된 출력 신호(60)를 출력하기 위해 제공된다. 또한, 인터페이스는 도 1과 관려하여 상기에서 논의된 서로 다른 입력 신호(20, 21)를 수신하도록 구성된다.
더구나, 시스템(400)의 동작을 책임지는 프로세싱 유닛(420)이 제공된다. 가령, 디지털 신호 프로세서(DSP)와 같은 하나 이상의 프로세서를 포함하는 프로세싱 유닛(420)은 메모리(430)에 저장된 명령어를 수행할 수 있는데, 메모리는 리드-온리 메모리, 랜덤 액세스 메모리, 대량 저장소 등을 포함할 수 있다. 더구나, 메모리는, 도 1 내지 8과 관련하여 상기에서 논의된 바와 같이, 음성 신호 성분이 N 채널 오디오 입력 신호의 다른 오디오 입력 채널에 비해 서로 다른 방식으로 조절되는 시스템의 상기 기술된 기능을 실행하기 위해, 프로세싱 유닛(420)에 의해 실행될 적합한 프로그램 코드를 포함한다.
본 출원으로, 시스템이 라우드니스를 추정하고, 출력하기 전에 자동으로 및 동적으로 이득을 정렬하기 때문에, 사용자에 의한 빈번한 볼륨 조절이 더 이상 필요하지 않는다. 더구나, 서로 다른 성분의 이득은, N 채널 신호에 존재하는 음성 성분이 더 잘 이해될 수 있도록 조절된다.

Claims (20)

  1. N 채널 오디오 출력 신호를 생성하기 위해, N 채널 오디오 입력 신호의 이득을 조절하기 위한 방법에 있어서, N 채널 오디오 입력 신호는 음성 입력 채널(21) - 만일 존재하면, 음성 신호 성분은 N 채널 오디오 입력 신호 내에 존재함 - 및 다른 오디오 입력 채널(20)을 포함하되, 상기 방법은,
    - N 채널 오디오 입력 신호의 인지된 라우드니스(loudness)를 동적으로 결정하는 단계와,
    - 음성 신호 성분이 음성 입력 채널(21) 내에 존재하는지를 결정하는 단계를 포함하되,
    음성 신호 성분이 음성 입력 채널(21) 내에 존재한다면,
    - 제1 이득 파라미터(39)를 가진 N 채널 오디오 입력 신호의 결정되고 인지된 라우드니스에 기초하여, 제1 이득 제어 유닛(43) 내의 다른 오디오 입력 채널(20)의 이득을 동적으로 조절하여서, 제1 이득 제어 유닛(43)으로부터 출력된 다른 오디오 출력 채널(45)의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 미리정의된 라우드니스 범위로 제한되도록 하고,
    - 제2 이득 파라미터(38)를 가진 N 채널 오디오 입력 신호의 결정된 라우드니스에 기초하여, 제2 이득 제어 유닛(44) 내의 음성 입력 채널(21)의 이득을 동적으로 조절하여서, 제2 이득 제어 유닛(44)으로부터 출력된 음성 출력 채널(46)의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 라우드니스 범위로 제한되도록 하되, 제2 이득 파라미터(38)는 제1 이득 파라미터(39)와 상이한, 방법.
  2. 제 1 항에 있어서, 제1 이득 파라미터(39)와 제2 이득 파라미터(38)는, 음성 출력 신호(52)의 신호 레벨에 대한 음성 입력 신호(21)의 신호 레벨의 비율이, 다른 오디오 출력 채널(51)의 신호 레벨에 대한 다른 오디오 입력 채널(20)의 신호 레벨의 비율보다 더 작도록 결정되는, 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 제1 이득 파라미터(39)와 제2 이득 파라미터(38)는, 음성 입력 신호의 신호 레벨이, 제1 이득 파라미터(39)에 의해 증가된 다른 오디오 입력 채널의 신호 레벨에 비해 더 높은 정도만큼, 제2 이득 파라미터(38)에 의해 증가되도록 결정되는, 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 제1 이득 파라미터(39)와 제2 이득 파라미터(38)는, 음성 입력 신호(21)의 신호 레벨이, 제1 이득 파라미터(39)에 의해 감소된 다른 오디오 입력 채널의 신호 레벨에 비해 더 적은 정도만큼, 제2 이득 파라미터에 의해 감소되도록 결정되는, 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 인지된 라우드니스는 전체적으로 모든 N 채널에 대한 N 채널 오디오 입력 신호에 대해 결정되는, 방법.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 인지된 라우드니스는 N 채널 오디오 입력 신호의 개개의 그룹에 대해, 개별적으로 결정되는, 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 음성 신호 성분이 음성 입력 채널(21) 내에 존재하는지 결정하는 단계는,
    - 음성 입력 채널을 오디오 프레임으로 세그멘팅하는 단계와,
    - 프레임 베이스 당 특징 추출을 수행하는 단계와,
    - 특징 공간 내에 추출된 특징을 클러스터링하는 단계를 포함하는, 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, N 채널 오디오 입력 신호가 출력되는 공간 내의 주변 잡음을 추정하는 단계를 더 포함하되, 다른 오디오 입력 채널과 음성 입력 채널의 이득은 추정된 주변 잡음을 고려하여 조절되는, 방법.
  9. 제 8 항에 있어서, N 채널 오디오 입력 신호는 차량의 내부로 출력되고, 주변 잡음을 추정하는 단계는 차량 속도를 결정하는 단계 및 결정된 차량 속도에 기초하여 주변 잡음을 결정하는 단계를 포함하는, 방법.
  10. 제 1 항 내지 제 9 항에 있어서, 음성 신호 성분이 음성 입력 채널 내에 존재하지 않는다면, 다른 오디오 입력 채널(20)과 음성 입력 채널(21)이 동일한 이득으로 조절되는, 방법.
  11. N 채널 오디오 출력 신호를 생성하기 위해, N 채널 오디오 입력 신호의 이득을 조절하도록 구성된 시스템에 있어서, N 채널 오디오 입력 신호는 음성 입력 채널(21) - 만일 존재하면, 음성 신호 성분은 N 채널 오디오 입력 신호 내에 존재함 - 및 다른 오디오 입력 채널(20)을 포함하되, 상기 시스템은,
    - N 채널 오디오 입력 신호의 인지된 라우드니스를 결정하도록 구성된 라우드니스 결정 유닛(31)과,
    - 음성 신호 성분이 음성 입력 채널(21) 내에 존재하는지를 결정하도록 구성된 음성 검출 유닛(37)과,
    - 다른 오디오 입력 채널(20)의 이득을 제어하도록 구성된 제1 이득 제어 유닛(43)과,
    - 음성 입력 채널(20)의 이득을 제어하도록 구성된 제2 이득 제어 유닛(40)을 포함하되,
    음성 검출 유닛이 음성 입력 신호 내에 존재하는 음성 신호 성분을 검출한다면,
    - 제1 이득 제어 유닛(43)이 제1 이득 파라미터(39)를 가진 N 채널 오디오 입력 신호의 결정되고 인지된 라우드니스에 기초하여, 다른 오디오 입력 채널(20)의 이득을 동적으로 조절하여서, 제1 이득 제어 유닛(43)으로부터 출력된 다른 오디오 출력 채널(51)의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 미리정의된 라우드니스 범위로 제한되도록 하고,
    - 제2 이득 제어 유닛(44)이 제2 이득 파라미터(38)를 가진 N 채널 오디오 입력 신호의 결정된 라우드니스에 기초하여, 음성 입력 채널(21)의 이득을 동적으로 조절하여서, 제2 이득 제어 유닛(44)으로부터 출력된 음성 출력 채널(52)의 적어도 두 개의 연속 트랙이 미리정의된 범위의 신호 레벨 또는 라우드니스 범위로 제한되도록 하되, 제2 이득 파라미터는 제1 이득 파라미터와 상이한, 시스템.
  12. 제 11 항에 있어서, 제1 이득 제어 유닛(43)과 제2 이득 제어 유닛(44)은, 음성 출력 신호(52)의 신호 레벨에 대한 음성 입력 신호(21)의 신호 레벨의 비율이, 다른 오디오 출력 채널(51)의 신호 레벨에 대한 다른 오디오 입력 채널(20)의 신호 레벨의 비율보다 더 작도록 제1 이득 파라미터와 제2 이득 파라미터를 결정하는, 시스템.
  13. 제 11 항 또는 제 12 항에 있어서, 제1 이득 제어 유닛(43)과 제2 이득 제어 유닛(44)은, 음성 입력 신호의 신호 레벨이, 제1 이득 파라미터에 의해 증가된 다른 오디오 입력 채널의 신호 레벨에 비해 더 높은 정도만큼, 제2 이득 파라미터에 의해 증가되도록 제1 이득 파라미터와 제2 이득 파라미터를 결정하는, 시스템.
  14. 제 11 항 내지 제 13 항 중 어느 한 항에 있어서, 제1 이득 제어 유닛(43)과 제2 이득 제어 유닛(44)은, 음성 입력 신호(21)의 신호 레벨이, 제1 이득 파라미터에 의해 감소된 다른 오디오 입력 채널의 신호 레벨에 비해 더 적은 정도만큼, 제2 이득 파라미터에 의해 감소되도록 제1 이득 파라미터와 제2 이득 파라미터를 결정하는, 시스템.
  15. 제 11 항 내지 제 14 항 중 어느 한 항에 있어서, 라우드니스 결정 유닛(31)은 조합된 라우드니스 레벨로서 함께 모든 N 채널에 대한 N 채널 오디오 입력 신호에 대해 인지된 라우드니스를 결정하도록 구성되는, 시스템.
  16. 제 11 항 내지 제 14 항 중 어느 한 항에 있어서, 라우드니스 결정 유닛(31)은 N 채널 오디오 입력 신호의 개개의 그룹에 대해 인지된 라우드니스를 개별적으로 결정하도록 구성되는, 시스템.
  17. 제 11 항 내지 제 16 항 중 어느 한 항에 있어서,
    - 음성 입력 채널을 오디오 프레임으로 세그멘팅하는 단계와,
    - 프레임 베이스 당 특징 추출을 수행하는 단계와,
    - 특징 공간 내에 추출된 특징을 클러스터링하는 단계
    를 포함하는 단계에 기초하여, 음성 신호 성분이 음성 입력 채널 내에 존재하는지를 음성 검출 유닛(37)이 결정하도록 구성되는, 시스템.
  18. 제 11 항 내지 제 17 항 중 어느 한 항에 있어서, N 채널 오디오 입력 신호가 출력되는 공간 내의 주변 잡음을 추정하도록 구성된 잡음 추정기(50)를 더 포함하되, 제1 이득 제어 유닛(43)과 제2 이득 제어 유닛(44)은 다른 오디오 입력 채널과 음성 입력 채널의 이득을 추정된 주변 잡음을 고려하여 조절하도록 구성되는, 시스템.
  19. 제 11 항 내지 제 18 항 중 어느 한 항에 있어서, N 채널 오디오 입력 신호는 차량의 내부로 출력되고, 잡음 추정기는 차량 속도를 결정하고, 결정된 차량 속도에 기초하여 주변 잡음을 결정하도록 구성되는, 시스템.
  20. N 채널 오디오 출력 신호를 생성하기 위해, N 채널 오디오 입력 신호의 이득을 조절하도록 구성된 시스템(400)에 있어서, N 채널 오디오 입력 신호는 음성 입력 채널 - 만일 존재하면, 음성 신호 성분은 N 채널 오디오 입력 신호 내에 존재함 - 및 다른 오디오 입력 채널을 포함하되, 상기 시스템은,
    - 적어도 하나의 프로세서(420)와,
    - 상기 적어도 하나의 프로세서에 의해 실행가능한 명령어를 포함하는 메모리(430)를 포함하되, 상기 시스템은 제1항 내지 제10항 중 어느 한 항에서 언급된 방법을 수행하도록 작동되는, 시스템(400).
KR1020187032335A 2016-07-04 2016-07-04 음성 신호를 포함하는 오디오 신호의 라우드니스 레벨의 자동 교정 KR102622459B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/065661 WO2018006927A1 (en) 2016-07-04 2016-07-04 Automatic correction of loudness level in audio signals containing speech signals

Publications (2)

Publication Number Publication Date
KR20190025816A true KR20190025816A (ko) 2019-03-12
KR102622459B1 KR102622459B1 (ko) 2024-01-08

Family

ID=56360391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187032335A KR102622459B1 (ko) 2016-07-04 2016-07-04 음성 신호를 포함하는 오디오 신호의 라우드니스 레벨의 자동 교정

Country Status (6)

Country Link
US (1) US10861481B2 (ko)
EP (1) EP3479378B1 (ko)
JP (1) JP6902049B2 (ko)
KR (1) KR102622459B1 (ko)
CN (1) CN109643555B (ko)
WO (1) WO2018006927A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3073694B1 (fr) * 2017-11-16 2019-11-29 Augmented Acoustics Procede de sonorisation live, au casque, tenant compte des caracteristiques de perception auditive de l’auditeur
KR102522567B1 (ko) * 2018-09-03 2023-04-18 삼성전자주식회사 전자 장치 및 그 동작 방법
US11595730B2 (en) * 2021-03-08 2023-02-28 Tencent America LLC Signaling loudness adjustment for an audio scene
CN113345447B (zh) * 2021-08-09 2021-10-29 北京百瑞互联技术有限公司 防止广告干扰的音频编解码方法、系统、发射器及接收器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040213420A1 (en) * 2003-04-24 2004-10-28 Gundry Kenneth James Volume and compression control in movie theaters
KR20100138804A (ko) * 2009-06-23 2010-12-31 주식회사 더바인코퍼레이션 명료도 향상장치와 이를 이용한 음성출력장치
KR20110103355A (ko) * 2010-03-12 2011-09-20 하만 베커 오토모티브 시스템즈 게엠베하 오디오 신호에서 음량 레벨의 자동 보정
KR20160072255A (ko) * 2013-10-22 2016-06-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 장치에 대한 조합된 동적 범위 압축 및 안내 클리핑 방지를 위한 개념

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4321049B2 (ja) 2002-07-29 2009-08-26 パナソニック電工株式会社 自動利得制御装置
ATE502311T1 (de) 2003-10-10 2011-04-15 Harman Becker Automotive Sys System und verfahren zur bestimmung der position einer schallquelle
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
JP4844622B2 (ja) * 2008-12-05 2011-12-28 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置
US9424743B2 (en) * 2012-10-12 2016-08-23 Tata Consultancy Services Limited Real-time traffic detection
US9413322B2 (en) 2012-11-19 2016-08-09 Harman International Industries, Incorporated Audio loudness control system
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9520851B2 (en) * 2014-06-26 2016-12-13 Kirusa, Inc. Predictive automatic gain control in a media processing system
JP6594721B2 (ja) * 2015-09-28 2019-10-23 アルパイン株式会社 音声認識システム、ゲイン設定システム及びコンピュータプログラム
CN105448290B (zh) * 2015-11-16 2019-03-01 南京邮电大学 一种变帧率的音频特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040213420A1 (en) * 2003-04-24 2004-10-28 Gundry Kenneth James Volume and compression control in movie theaters
KR20100138804A (ko) * 2009-06-23 2010-12-31 주식회사 더바인코퍼레이션 명료도 향상장치와 이를 이용한 음성출력장치
KR20110103355A (ko) * 2010-03-12 2011-09-20 하만 베커 오토모티브 시스템즈 게엠베하 오디오 신호에서 음량 레벨의 자동 보정
KR20160072255A (ko) * 2013-10-22 2016-06-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 장치에 대한 조합된 동적 범위 압축 및 안내 클리핑 방지를 위한 개념

Also Published As

Publication number Publication date
KR102622459B1 (ko) 2024-01-08
CN109643555B (zh) 2024-01-30
US20190362735A1 (en) 2019-11-28
EP3479378A1 (en) 2019-05-08
JP2019525213A (ja) 2019-09-05
US10861481B2 (en) 2020-12-08
WO2018006927A1 (en) 2018-01-11
JP6902049B2 (ja) 2021-07-14
CN109643555A (zh) 2019-04-16
EP3479378B1 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
EP2367286B1 (en) Automatic correction of loudness level in audio signals
US10586557B2 (en) Voice activity detector for audio signals
US10861481B2 (en) Automatic correction of loudness level in audio signals containing speech signals
EP2624449B1 (en) Peak detection when adapting a signal gain based on signal loudness
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant