KR100916959B1

KR100916959B1 - 압축된 오디오에서의 신호 전력 추정

Info

Publication number: KR100916959B1
Application number: KR1020037000456A
Authority: KR
Inventors: 스텔라알레시오; 네스바드바잔에이디; 바비에리마우로; 스나이지더프레디
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-05-11
Filing date: 2002-05-08
Publication date: 2009-09-14
Also published as: US7356464B2; CN1612607A; CN1462427A; EP1393301A1; CN100380441C; JP2004520627A; EP1393301B1; ATE438968T1; US7617095B2; CN100348034C; WO2002093801A2; US20040138880A1; WO2002093552A1; CN1462426A; KR20030027938A; EP1393480B1; JP2004531766A; CN1244900C; DE60233223D1; DE60217484D1

Abstract

압축된 오디오 신호[A]에서 신호 전력을 추정하는 방법이 제공되며, 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비한다. 추정은 압축된 오디오 신호로부터 스케일 팩터들의 세트를 추출하고, 스케일 펙터들의 조합에 기초하여 주어진 블록에서 신호 전력을 추정하여 실행된다. 유리하게, 상기 추출하는 단계 및 추정하는 단계는 스케일 팩터들의 세트의 서브세트에 대해서만 실행된다. 신호 전력 추정은 수신기(1)에서 이용하기 위해 무성 검출기(11)에서 이용될 수 있다.

오디오 신호, 스케일 팩터, 수신기, 협대역 서브 신호

Description

압축된 오디오에서의 신호 전력 추정{Estimating signal power in compressed audio}

본 발명은 압축된 오디오 신호에서의 신호 전력 추정에 관한 것이다. 또한 본 발명은 무성 검출(silence detection) 및 이러한 무성 검출을 이용하는 수신기에 관한 것이다.

WO 96/3271 A1은 디지털 전송을 위해 오디오 신호들을 압축 및 압축해제하는 시스템을 개시하고 있으며, 보조 데이터는 오디오 데이터와 함께 다중화 및 인코딩되며 보조 데이터가 디코딩되는 방식으로 전송될 수 있다. 이 문헌은 159페이지에 오디오가 있는지를 인식하기 위해 다른 채널에서 찾은 최소 스케일 팩터값(minimum scale factor)의 계산을 개시하고 있다.

본 발명의 목적은 압축된 오디오 신호들에서의 유용한 신호 전력 추정을 제공하는 것이다. 이를 위하여, 본 발명은 신호 전력을 추정하는 장치 및 방법, 무성 검출기(silence detector) 및 종속 청구항에 정의되는 수신기를 제공한다. 유리한 실시예들은 종속 청구항에 정의된다.

본 발명의 제 1 양상에 따라, 신호 전력은 양자화된 샘플들의 블록들을 포함하는 압축된 오디오 신호에서 추정되고, 주어진 블록은 스케일 팩터들의 세트를 구비한다. 스케일 팩터들의 세트는 압축된 오디오 신호로부터 추출되고, 신호 전력은 스케일 팩터들의 조합에 기초하여 주어진 블록에서 추정된다. 상기 주어진 블록은 하나 또는 그 이상의 오디오 프레임들 또는 오디오 프레임의 일부일 수 있다. 스케일 팩터들은 압축된 오디오 신호로부터 용이하게 추출될 수 있다. 본 발명은, 스케일 팩터는 스케일 팩터가 관련된 샘플들의 최대 가능한 값을 나타낸다는 통찰에 기초한다. 따라서, 스케일 팩터들의 조합, 예를 들어 제곱된 스케일 팩터들의 합은, 제한된 계산 부하만을 필요로 하는, 신호 전력의 대략적인 추정(rough estimation)을 준다. 상기 대략적인 추정은 예를 들어, 커머셜 검출기들(commercial detectors)에서의 무성 검출과 같은 몇몇 어플리케이션들에 꽤 충분하다.

바람직한 실시예에서는 스케일 팩터들의 서브세트만이 이용된다. 스케일 팩터들의 총 세트의 서브세트만을 이용하여 계산 부하를 더 감소시킨다. 이것은 정확도가 낮다는 결과를 가져올 수도 있지만, 이는 커머셜 검출들 등에서 무성 검출과 같은 몇몇 어플리케이션들에 대해 수용될 수 있다.

스케일 팩터들의 서브세트를 형성하는 것은 시간 방향에서 및/또는 주파수 방향에서 스케일 팩터들을 생략함으로써 수행될 수 있다. 예를 들어, 상기 서브세트는 압축된 오디오 신호에서 이용가능한 복수의 협대역 서브 신호들의 서브세트만을 포함할 수 있으며, 상기 서브세트는 바람직하게는 다수의 더 낮은 주파수의 서브 신호들의 스케일 팩터들을 포함한다.

압축된 오디오 신호가 스테레오 또는 멀티 채널 신호(multi-channel signal)인 경우에, 이용가능한 채널들의 서브세트만이 이용될 수 있다.

도 1은 본 발명의 실시예에 따른 수신기를 도시하는 도면.

도 2는 32개의 서브대역들을 포함하는 전형적인 오디오 프레임을 도시하는 것으로, 각 서브대역은 3개의 블록들로 세분화되며, 각 블록은 12개의 양자화된 샘플들을 포함하고 스케일 팩터가 제공되는 도면.

도 3은 도 2의 전형적인 오디오 프레임을 도시하는 것으로, 각 서브대역에 대한 최대 스케일 팩터가 선택되고, 가능한 선택이 회색으로 강조되는 도면.

도 4는 전형적인 도형을 도시하는 것으로, 원들은 검출된 무성들의 국부 신호 전력들을 나타내고, 십자표들은 이 국부 신호 전력들의 평균을 나타내는 도면.

도 5는 도 4에 관련된 예시적인 근사 함수(likelihood function)를 도시하는 도면.

도면들은 오직 본 발명의 실시예들을 이용하는데 도움이 되는 요소들을 도시한다.

도 1은 압축된 오디오 신호[A]를 수신하기 위한 본 발명의 실시예에 따른 수신기(1)를 도시한다. 수신기(1)는 압축된 오디오 신호[A]를 얻기 위한 입력부(10)를 포함한다. 입력부(10)는 안테나, 네트워크 접속, 판독 장치 등일 수 있다. 수신기(1)는 압축된 오디오 신호에서 무성들을 검출하기 위한 무성 검출기(11), 및 상기 무성들의 검출에 의존하는 오디오 신호에 작용하기 위한 작용 블록(12; influencing block)을 더 포함한다. 상기 블록(12)은 예를 들어 압축된 오디오 신호를 디코딩하기 위한 디코더일 수 있으며, 상기 디코딩은 검출된 무성들에 의존한다. 상기 블록(12)은 검출된 무성들에 의존하여 압축된 오디오의 일부들을 스킵하는 스킵핑 블록(skipping block)일 수 있다. 무성 검출기(11)는 커머셜 검출기를 형성하도록 개선될 수 있다. 검출된 커머셜물들은 디코딩동안 스킵될 수 있다. 디코딩되거나 여전히 압축되는 작용된 오디오 신호 A는 출력부(13)에 출력될 수 있다. 상기 출력부(13)는 네트워크 접속, 재생 장치 또는 기록 장치일 수 있다. 압축된 오디오 신호[A]는 프로그램 스트림에 포함될 수 있고, 이 프로그램 스트림은 비디오 신호를 더 포함한다. 그런 경우에, 프로그램 신호는 압축된 오디오 신호에서 검출된 무성들에 적어도 부분적으로 의존하는 블록(12)에서 작용할 수 있다. 비커머셜 내용만을 저장하는 저장 장치에 적용하면 유리하다.

본 발명의 실시예들은 예를 들어, 커머셜 검출에서 이용하기 위한 무성 검출의 상황에서 기술되어 있다. EP 1 006 685 A2가 텔레비전 신호를 처리하고, 상기 텔레비전 신호에서 커머셜물들의 존재를 검출하는 방법 및 장치를 개시한다는 것에 주목한다. 커머셜 후보 섹션 검출기(commercial candidate section detector)는 정적 섹션 및 장면 변화 지점에 기초하여 커머셜 후보 섹션을 검출한다. 커머셜 특징 양 검출기는, 커머셜 후보 섹션이 커머셜물들의 여러 특징들을 가지는지를 판단하고, 그 판단 결과에 기초하여 미리 결정된 값을 커머셜 특징값에 부가한다. 커머셜 특징 양 검출기는 최종 커머셜 특징값을 미리 결정된 문턱값과 비교하고, 그 비교 결과에 기초하여 커머셜 후보 섹션이 커머셜 섹션인지를 판단한다. 정적 섹션 검출기는 정적 섹션들을 검출하도록 디지털화된 오디오 신호의 레벨을 문턱값과 비교하고, 그 비교 결과를 장면 변화 검출기에 출력한다. 또한 EP 1 087 557 A2를 참조한다.

본 발명의 실시예에 따른 커머셜 검출기는 시청각 스트림들에서 커머셜 블록들을 자동적으로 검출한다. 이는 키 프레임 추출, 편집 또는 재생과 같은 어떤 종류의 처리동안 커머셜물들을 스킵하는 것을 허용한다. 여러 오디오 특징들에 있어서, 국부 통계치들은 변화하는 윈도우에서 측정되며 커머셜물들의 통계 모델들과 비교된다. 이러한 비교에 의해, 오디오 신호가 얼마나 커머셜물들과 국부적으로 유사한지를 나타내는 정규화된 근사 함수(normalized likelihood function)가 유도된다. 근사 함수는 커머셜 검출을 위해 적당히 유발될 수 있다. 통계적 윈도우는 국부적인 분석에서 상세하게 되고 국부적인 불규칙들과 변동들에 대하여 강건하도록 선택되고, 이는 검출에 영향을 미치지 않는다. 알고리즘은 어떤 조건들에 적응적이고, 알고리즘은 단일 스트림 또는 하나의 스트림과 다른 스트림 사이에 따라 변경될 수 있다. 알고리즘은 비디오 독립적이다. 그럼에도 불구하고, 비디오 분석은 분류를 강화하거나 확정하기 위해 포함될 수 있다. 상기 알고리즘은 여러 종류의 저장 시스템들에 적용될 수 있다.

다수의 오디오 코더들(예를 들어, MPEG-1 레이어 1/2/3, MPEG-2 레이어 1/2/3, MPEG-2 AAC, MPEG-4 AAC, AC-3)은 주파수 영역 코더들이다. 이들은 소스 스펙트럼을 다수의 협대역 서브 신호들로 나누고, 각 주파수 성분 또는 샘플을 별도로 양자화한다. 주파수 성분들 또는 샘플들은 스케일 팩터와 비트 할당에 따라 양자화된다. 이 스케일 팩터들은 주파수 성분들 또는 샘플들의 최대값의 지시기들(indicators)로서 여겨질 수 있다.

AC-3에서, 주파수 성분들은 가수.2^(-지수)에 의해 표현될 수 있다. 여기서 지수는 2^(-지수)와 같은 각 가수(mantissa)에 대한 스케일 팩터로서 작용한다.

MPEG-1 레이어 2에서, 협대역 서브 신호들은 12개의 양자화된 샘플들의 그룹으로 분할되고, 각 그룹은 해당 스케일 팩터를 갖는다. 이 스케일 팩터는 스케일 팩터가 관련된 샘플들의 최대값에 대응한다.

검출 알고리즘은 바람직하게는 스케일 팩터들의 서브세트를 이용한다. 협대역 서브 신호들의 모든 또는 서브세트에서, 신호 전력의 상한은 스케일 팩터들을 제곱하여 계산된다.

이제 MPEG 오디오 압축을 이용한 실시예를 보다 상세하게 기술한다. MPEG-1 레이어 2에서, 오디오 신호는 48 kHz, 44.1 kHZ 또는 32 kHz의 샘플링 레이트을 위해 24 msec, 26.1 msec 또는 36 msec의 시간 간격들로 각각 나뉘어진다. 각각의 이 간격들에서, 상기 신호는 프레임에서 인코딩된다. 도 1을 참조하면, 각 프레임 간격은 3개의 부분들로 나뉘어지고 그 신호는 32개의 서브대역 성분들로 분해된다. 각 서브대역 성분 및 프레임(도 1에서 하나의 직사각형)의 각 세 번째에 대해, 12개의 샘플들은 스케일 팩터 및 적당히 선택된 다수의 비트들에 따라 양자화된다. 스케일 팩터는 12개의 샘플들의 절대값의 상한 추정치를 준다. 이 추정치는 매우 정확하지 않을 수 있으나, 이는 커머셜 검출을 위해 필요하지 않다. 스케일 팩터들은 무시할만 한 계산 부하로 각 오디오 프레임으로부터 추출될 수 있는데, 스케일 팩터들이 의사 대수 인덱스들(pseudo logarithmic indexes)로서 프레임에서 직접 이용할 수 있기 때문이다. 단지 몇몇 제한된 프레임 헤더 디코딩만이 필요하다. 어떠한 압축해제(decompression)가 필요하지 않다.

스테레오 모드에서, 각 채널은 프레임마다 그 자신의 96개의 스케일 팩터들을 갖는다. 검출 알고리즘은 왼쪽 또는 오른쪽 채널(도 2 참조)의 각 서브대역에서 최대 스케일 팩터만을 선택하는데, 즉 32개의 값들은 버퍼링되고 선형(대수 아님) 형태로 변환된다. 이를테면, 48 kHz 오디오 샘플링 레이트를 위해, 단지 서브대역들 0...26은 표준에 따라 이용되는데, 이것은 27개의 샘플들에 1125 샘플들/초 즉, 커머셜 검출기를 위해 가장 적당한 입력 데이터 레이트인 매 24 msec를 준다. 상기 버퍼링된 스케일 팩터들의 제곱들은 서브대역 신호 전력들에 관한 경계를 얻도록 계산된다. 이어서, 이들은 다음과 같이 이용된다.

(1) 그의 합은 총 단시간 전력에 관한 상한을 준다.

(2) 그들은 짧은 대역폭 추정치를 계산하는데 이용될 수 있다.

하기의 표는 MPEG-1 레이어 2(ISO/IEC 11172-3: 1993을 참조)표 B.1에서 스케일 펙터들을 위해 약간의 의사 대수 인덱스들을 준다.

인덱스	스케일팩터
0	2.0000
1	1.5874
2	1.2599
3	1.0000
4	0.7937
5	0.6299

오디오 프레임 j을 위한 단시간 전력의 추정은 아래와 같다.

대안적으로 스케일 팩터를 찾기 위해 룩업테이블을 이용하는 것이 가능하다. 합계는 주어진 시간예에서 서브대역들의 수에 대해 실행될 것이다. 서브대역들의 서브세트가 이용될 때, 합계는 응용에 따라 서브 대역들의 총수 또는 이용된 서브 대역들에 대해 실행되어야 한다.

무성 검출은

1) 예컨대 위에서 표시된 바와 같은 Frame_power를 이용한, 국부 신호 전력 레벨,

2) 무성 지속기간 및,

다음의 파라미터들, 즉

3) 무성 동안의 국부 전력 선형 편차(deviation),

4) 무성 시작 전의 국부 전력 강하 비율, 및

5) 무성 끝에서 국부 전력 상승 비율 중 적어도 하나에 대해 만들어진 문턱값에 기초한다.

신호 전력 특성들이 무성 검출기가 동작하는 환경에 상당히 의존하기 때문에, 무성 검출기는 바람직하게는 적응적이다. 따라서, 적응적이기 위해서는, 국부 전력 레벨 관련 파라미터들(예를 들어, 1), 3), 및/또는 4))은 일정 시간 후에 그들의 평균값들과 비교된다. 국부 신호 전력을 위한 통상적인 문턱값은 0.01인데, 즉, 국부 신호 전력은 신호 전력의 시간 평균의 1퍼센트 미만이어야 한다. 시간 평균은 길이 w 프레임들로 적응 윈도우를 이용하여 계산된다.

j는 프레임 인덱스이다.

무성 지속기간은 국부 신호 전력 레벨이 주어진 고정된 또는 적응형 문턱 전력 레벨보다 아래인 지속기간이다. 선형 편차는 무성 지속기간의 적어도 일부 이상(프레임 전력-평균 프레임 전력)의 합계이다. 선형 편차 및 강하/상승 비율은 무성들의 일부를 필터링하기 위해 이용되고, 이는 지각적 있을 수 있지만 커머셜 검출에 대해 관련이 없다. 상기 국부 신호 전력 레벨은 예를 들어 오디오 프레임 또는 오디오 프레임의 일부마다 상기 기술된 바와 같이 스케일 팩터들을 이용함으로써 바람직하게 결정된다.

커머셜 블록에서의 커머셜들간의 무성 지속기간 브레이크 동안의 실제 범위는 3/25초 내지 20/25초이다.

무성 시작 시간, 무성 지속기간 및 무성 국부 전력 레벨의 값들은 하기 언급된 통계적인 계산들을 위해 버퍼링된다. 커머셜물들은 하기의 특징들, 즉

1) 2개의 연속하는 검출된 무성들 사이의 시간 간격,

2) 검출된 무성들(절대 및/또는 상대)의 국부 신호 전력 레벨,

3) 무성 지속기간, 및

4) 오디오 신호의 국부 대역폭의 국부 통계 모델을 특징으로 한다.

오디오 프레임 j의 국부 대역폭은 하기 방법에서 스케일 팩터들로부터 계산될 수 있다.

각 특징을 위해 0과 1 사이의 값들을 갖는, 0.5 정규화된 근사 함수가 얻어진다. 그것은 이 특성의 국부 통계들이 얼마나 커머셜물들의 것과 유사한지를 나타낸다. 이어서, 서로 다른 근사 함수들은 정보를 모두 동시에 이용하는, 여전히 0.5 정규화된 글로벌 근사 함수를 얻도록 서로 다른 가중치들과 조합된다. 글로벌 근사 함수는 시간축의 각 점에서 계산되고, 이것은 무성 시작 순간으로서 버퍼링된다. 값 0.5는 기본적으로 "총 불확실성" 또는 "커머셜 블록 내부에 있는 0.5 확률"을 의미한다. 상기 근사 함수는 서로 다른 방식으로 이용될 수 있다. 이것은 커머셜 경계들을 검출하도록 적당히 유발될 수 있다. 그것은 선택적으로 또한 비디오 특징들을 이용한, 그 이상의 분석과 분류들을 만드는 알고리즘들에 의해 (커머셜물들과 비커머셜물들 사이의 정규화된 소프트 분류로서) 사용될 수 있다. (모노 휘도(luminance), 모노 색도(chrominance) 프레임 검출, 장면 변화 검출과 같은) 서로 다른 레벨들의 비디오 특징들은, 동일한 근사 방법 또는 다른 방법들을 적용한 오디오 특징들과 함께 통계적으로 분석될 수 있다. 리필링(refilling)을 이용하는 유발된 커머셜 검출이 이전에 기술된 오디오 분석에 근거하여 발전되고 시험되었다. 0.5 정규화된 근사 함수 L(t)는, 검출된 무성이 커머셜 블록에 속하는지를 결정하도록 이용될 수 있다. 이것은 함수 Q(L(t))에 의해 행해질 수 있고, 하기와 같이 정의된다.

Q(L(t))= 1 if L(t)>0.5

Q(L(t))= 0 if L(t)<=0.5,

0 및 1의 값은 검출된 무성이 비커머셜 블록 및 커머셜 블록에 각각 속함을 의미한다.

실제적인 실시예에서, 커머셜물들의 시퀀스는 적어도 60초간 지속되는 경우에만 검출된다. 45초보다 낮은 짧은 간격에 대해서 근사 함수가 0.5보다 아래이기만 하면, Q(t)는 1로 설정된다. 이 절차를 "내부 리필링"으로 불렸다. 이 내부 리필링은 때때로 발생하는 내부의 놓치는 검출들을 제거한다. "외부 리필링"은 커머셜물들의 시작과 끝에 적용된다. 이를테면 만약에:

t_j, t_j+1,.., t_j+N이, 검출된 무성들이 시작하는 시퀀스의 예들이며,

L(t_i)=0.2

L(t_i+1)=0.4

L(t_i+2)=0.6

각 j=i+3,...,i+N에 대해 L(t_j)>0.5

j>i+N에 대해 L(t_j)<0.5이고,

만약 t_i+2-t_i+1<45.0초

t_i+N+1-t_i+N<45.0초이면,

이어서

Q(L(t_i))=0

Q(L(t_i+1))=1

Q(L(t_i+2))=1

...

Q(L(t_i+N+1))=1

j>i+N+1에 대해 Q(L(t_i))=0이다.

외부 리필링(external refilling)은 첫 번째와 마지막 지점들의 조직적인 분실을 피할 때 유효하다. 이러한 사실은 윈도윙 세부사항에 관계가 있다. 상기 외부 및 내부 리필링은 상부 구동되는 특정한 비선형 필터링으로 간주될 수 있다. 커머셜 블록들의 범용 통계 모델이 이용될 수 있다. 하루의 상이한 시간들 동안 서로 다른 커머셜 블록 모델들 및/또는 상이한 종류의 프로그램들(드라마, 토크쇼, 축구 시합, 등) 및/또는 상이한 채널들을 이용하여 통계 세부사항을 정제할 수 있다. 이것이 만족스런 성능을 얻는데 반드시 필요하지 않더라도, 이는 물론 성능을 개선할 수 있다. 이는 타깃 시스템의 복잡성과 그 성능 간의 트레이드 오프(trade off)의 문제이다. 상황들이 단일 채널을 위해 제때 바뀌는 것과 같은 검출의 적응성이 바람직하다. 게다가 채널 스위칭에 대한 적응성이 바람직하다. 특히 국부 최소 잡음 레벨은 단일 채널을 위해 제때 바뀔 수 있고, 하나의 채널에서 다른 채널로 많이 바꿀 수 있다. 즉 이는 무성 검출에 중요하다. 게다가, 커머셜 블록들의 통계 모델에서의 적응성은 중요하지 않지만 유용하다. 상기 시스템은 국부 최소 잡음 레벨에서 충분히 자기-훈련(적응적으로)으로 구현될 수 있다. 유일한 제약은 채널이 스위칭될 때마다 알고리즘의 재설정을 적용하는 것이다. 이는, 적응성과 정밀도 사이에 트래드 오프의 문제들에 대해, 적응성은 초기 기간에서 빠르고 다음에서 느리기 때문이다. 알고리즘이 언제라도 빨리 적응한다면, 커머셜 블록들 내부에서 비교적 빠른 적응이 정밀도를 감소시킬 것이기 때문에, 검출의 정밀도는 감소할 것이다. 실제적인 실시예에서, 단일 채널을 따르는 적응성(along-a-single-channel adaptability)이 항상 유지되는 동안, 스위치 적응성은 처음 순간들(예를 들어, 소정의 연속하는 스위치를 위한 재설정)에만 유효하다. 적응성의 안정도는 비대칭 구조(asymmetric scheme)에 의해 보장된다. 최소 잡음 레벨이 감소할 때, 적응성은 최소 잡음 레벨이 증가할 때보다 더 빠르다. 이는 예를 들어, 무성 검출을 위한 국부 전력 에너지 문턱값이, 무성이 이전에 검출된 것보다 더 낮은 국부 전력 에너지로 검출될 때, 상대적으로 빠르다는 것을 의미한다. 발생할 수 있는 2가지 종류의 오류들 즉, 분실 커머셜 검출(missing commercial detection) 또는 잘못된 커머셜 검출(false commercial detection)이 있다. 둘 다 비교적 낮고, 커머셜 블록들의 시작 또는 끝 부분에 한정된다. 이 알고리즘은 어쨌든 유연하여, 결정 파라미터들은 어느 쪽이 더 관련이 있는지에 따라, 2개의 오류 비율들 간의 트레이드 오프를 다양하게 할 수 있다. 이를 테면, 커머셜 블록 검출이 자동 키 프레임 추출을 위한 사전처리하면, 이어서 낮은 분실 검출 비율이 더 중요하다. 낮은 잘못된 검출은 단순한 재생의 경우에 더 관련이 있다. 선택된 특징들을 참조하면(그러나 다른 것들이 부가될 수 있음), 서브대역 분석 없이 국부 전력 에너지 및 대역폭을 별도로 평가하는 것이 가능하다. 이 대역폭의 값은 2분(다른 값들이 선택될 수 있음) 대칭 슬라이딩 윈도우에서 낮은 샘플링 레이트로 요구된다. 따라서, 이를테면 그것은 지점들의 낮은 수를 갖는 연속하는 짧은 간격 FFT을 평균하는 것에 의해 추정될 수 있다. 항마다(term by term) 또는 전체적으로(globally), 하나 또는 몇몇 근사 함수들의 조합들 및 상이한 종류의 정규화들을 구현하는 것이 가능하다. 실제 구현은 항마다 또는 전체적으로 재정규화로 곱 조합(product combination)에 기초한다. 그 곱은 기본적으로 불 세트(Boolean set) {0,1}으로부터 연속 간격[0,1]으로 연장된 논리 AND(Boolean AND)이다. 이는 우수한 선택성을 보장한다. 대략 말하자면, 서로 다른 조건들은 모두 동시에 약간씩 부과된다. 그것들은 완전히 모두 이행될 필요는 없지만 그것들은 대부분 모두 이행될 필요가 있다. 대신 추가 조합은 논리 OR(boolean OR)의 일종의 연장이었을 것이고, 이는 충분한 선택성을 보장하지 않는다. 또한 선택성 및 강건함은 지속기간 문턱값을 갖는 근사에 대한 하드 결정(hard decision)에 의해 보장된다. 근사 잡음 내구성은 내부 리필링에 의해서도 보장된다.

하기예에서는 36분의 기록이 고려된다. 상기 기록은 영화의 마직막 부분에서 시작한다. 초들[646,866]은 커머셜물들을 포함한다. 초 866에서, TV 쇼가 시작한다. 다른 커머셜물들은 간격 [1409,1735] 초 내에 있다. 도 4는 각 검출된 무성동안 계산된 국부 신호 전력들인 원들로 구성한다. 십자표는 이 값들의 역방향 평균을 나타낸다. 커머셜 무성들(간격들[646,866] 및 [1409,1735])이 주로 더 낮은 전력으로 잘려진 무성들인 것이 명백하다. 이는 커머셜물들 내부의 무성들의 상이한 분포가 대충 알 수 있다. 이를 테면 이들 대부분은 10 내지 30 초 떨어져 있다. 도시된 것과 같은 통계 세부항목들은 근사 함수 추정에서 이용된다. 도 5는 얻어진 근사 함수를 도시한다. 채워진 유발(triggering) [648,866] 및 [1408,1735]를 검출한다.

가능한 변화들

1) 스케링 팩터들의 더 큰 일부를 버퍼링하는 것이 가능하다. 또한 스케링 팩터들을 서브샘플링하는 것이 가능하다. 96 좌측 채널 스케일 팩터에서의 32의 현재 선택은 효과적인 것으로 입증되었다.

2) 오디오 특성들의 상이한 세트를 선택하는 것이 가능하다. 다른 특성들을 도입하기 전에 물론 신중한 조사가 필요하다.

3) 상기 언급된 바와 같이, 하나 또는 여러 근사 함수들의 조합들 및 상이한 종류의 정규화들을 구현하는 것이 가능하다. 현재 구현은 재정규화와 곱 조합에 기초한다. 그 곱은 기본적으로 불 세트{0,1}로부터 연속 간격[0,1]에 연장된 논리 AND이다. 이는 우수한 선택성을 보장한다. 세미-합(semi-sum)은 논리 OR의 일종의 연장이지만, 이는 선택성을 충분히 보장하지 않는다.

4) 이를테면 상이한 윈도윙 양상들(modalities) 및/또는 상이한 오디오 특성들이 이용되면, 리필링으로 글로벌 근사 함수를 유발하는 선택이 사용될 수 있다.

5) 다수의 방송장치들에 의해 커머셜 블록들의 시작 및/또는 끝에 규칙적으로 놓는 것들과 같이, 특정 오디오 시퀀스들의 인식은 또한 스케일 팩터들을 직접 처리하는 것에 의해 달성될 수도 있다.

송신기 측에서, 예를 들어 그것들의 신호 전력을 낮추는 것에, 무성 지속기간을 적응시키는 것에, 신호 전력 강하 비율을 증가시키는 것에, 및/또는 무성 동안 전력 편차를 감소시키는 것에 의해, 그것들은 보다 낫게 검출하는 방식으로, 잘린 무성들을 적응시킴으로써, 근사 함수를 돕는 것이 가능하다. 이에 반해, 또한 그것들의 신호 전력을 증가시키는 것에 의해, 예를 들어, 잡음을 도입시키는 것에 의해, 무성 지속기간을 적응시키는 것에 의해, 신호 전력 강하 비율을 감소시키는 것에 의해, 및/또는 무성 동안 전력 편차를 증가시키는 것에 의해, 잘린 무성들의 검출성을 낮게 하는 것이 가능하다. 게다가, 또한 신호에 가짜의 잘린 무성들을 도입시키는 것이 가능하다. 실제적인 실시예에서, 잘린 무성의 것과 유사한 낮은 전력을 갖는 0.15 초의 가짜의 잘린 무성 및 30 초의 간격(separation)은 아마도 커머셜 블록 검출을 망칠 것이다. 가짜의 잘린 무성들은 음성 무성들과 같은 이미 존재하는 무성들에 삽입되는 것이 바람직하다. 그런 경우에, 가짜의 잘린 무성들은 보통 사용자에 의해 거의 인식되지 않을 것이다.

이 알고리즘은 시청각 자료에서 커머셜 블록들을 검출하고 블록들의 경계들을 구분한다. 이어서, 커머셜 블록들은 브라우징, 자동 트레일러 생성, 편집 또는 단순한 재생과 같은 어떤 종류의 처리 동안 스킵될 수 있다. 이 기능은 매우 낮은 부가의 비용으로 여러 종류의 저장 시스템들에 통합될 수 있다. 이는 데이터의 획득 동안의 실시간으로 또는 오프라인으로 저장된 자료에 적용될 수 있다.

상기 언급된 실시예들이 본 발명을 제한하기 보다 오히려 설명하고 있고, 본 분야에 숙련된 자들이 첨부된 청구범위의 범위로부터 벗어나지 않고 많은 대안의 실시예들을 설계할 수 있다는 것을 알아야 한다. 청구범위에서, 괄호 사이에 놓인 어떤 참조 부호들은 청구범위를 제한하는 것으로 해석되지 않을 것이다. 단어 "포함하는"는 청구항에 열거된 것과는 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별적 요소들을 포함하는 하드웨어에 의해, 적당히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단들을 나열하는 장치 청구항에서, 여러 이 수단은 하드웨어의 하나 및 같은 아이템에 의해 구현될 수 있다. 어떤 방법이 상호간에 서로 다른 종속항들에서 재인용된다는 단순한 사실은 이 방법의 조합 이 유리하게 이용될 수 없다는 것을 나타내진 않는다.

Claims

신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위해 압축된 오디오 신호에서 신호 전력을 추정하는 방법으로서, 상기 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비하는, 상기 신호 전력 추정 방법에 있어서,

상기 압축된 오디오 신호로부터 상기 스케일 팩터들의 세트를 추출하는 단계; 및

상기 스케일 팩터들의 조합에 기초하여 상기 주어진 블록에서 상기 신호 전력을 추정하는 단계를 포함하며,

상기 하나 또는 그 이상의 무성들은, 무성 기간 동안에 국부 전력 레벨 선형 편차(deviation), 무성 기간 전의 국부 전력 레벨 강하 비율, 및 무성 기간 끝에서 국부 전력 레벨 상승 비율 중 적어도 하나와, 상기 신호 내에서 무성 기간들 동안에 상기 신호의 국부 전력 레벨을 분석함으로써 식별되는, 신호 전력 추정 방법.
제 1 항에 있어서,

상기 추출하는 단계 및 추정하는 단계는 상기 스케일 팩터들의 세트의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
제 1 항 또는 제 2 항에 있어서,

상기 오디오 신호는 복수의 협대역 서브 신호들을 포함하고, 각 협대역 서브 신호는 신호 블록들로 세분화되며(subdivided), 각 블록은 양자화된 샘플들을 포함하고, 각 블록은 하나 또는 그 이상의 스케일 팩터들을 구비하며, 상기 추출하는 단계는 하나 또는 그 이상의 상기 서브 신호들에 대해서 실행되는, 신호 전력 추정 방법.
제 3 항에 있어서,

상기 추출하는 단계는 상기 복수의 서브 신호들의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
제 4 항에 있어서,

상기 서브세트는 주로 다수의 저주파 서브 신호들의 상기 스케일 팩터들을 포함하는, 신호 전력 추정 방법.
제 2 항에 있어서,

상기 블록들은 적어도 2개의 서브블록들로 세분화되며, 각 서브블록은 스케일 팩터를 구비하며, 상기 추정하는 단계에서 이용하기 위해 블록마다 최대 스케일 팩터만이 추출되는, 신호 전력 추정 방법.
제 1 항 또는 제 2 항에 있어서,

상기 압축된 오디오 신호는 스테레오 또는 멀티 채널 신호이며, 상기 추출하는 단계는 이용가능한 채널들의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위해 압축된 오디오 신호에서 신호 전력을 추정하는 장치로서, 상기 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비하는, 상기 신호 전력 추정 장치에 있어서,

상기 압축된 오디오 신호로부터 상기 스케일 팩터들의 세트를 추출하는 수단; 및

상기 스케일 팩터들의 조합에 기초하여 상기 주어진 블록에서 상기 신호 전력을 추정하는 수단을 포함하며,

상기 하나 또는 그 이상의 무성들은, 무성 기간 동안에 국부 전력 레벨 선형 편차(deviation), 무성 기간 전의 국부 전력 레벨 강하 비율, 및 무성 기간 끝에서 국부 전력 레벨 상승 비율 중 적어도 하나와, 상기 신호 내에서 무성 기간들 동안에 상기 신호의 국부 전력 레벨을 분석함으로써 식별되는, 신호 전력 추정 장치.
압축된 오디오 신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위한 무성 검출기에 있어서,

상기 압축된 오디오 신호의 신호 전력의 추정(estimate)을 얻기 위한 제 8 항에 청구되는 장치; 및

상기 오디오 신호에서 무성들(silences)을 검출하기 위하여 상기 신호 전력의 추정을 평가하는 수단을 포함하는, 무성 검출기.
압축된 오디오 신호를 수신하는 수신기에 있어서,

압축된 오디오 신호를 얻는 입력부;

상기 압축된 오디오 신호에서 하나 또는 그 이상의 무성들을 검출하기 위한 제 9 항에 청구되는 무성 검출기; 및

상기 오디오 신호에 작용하기 위한 수단을 포함하며, 상기 작용은 적어도 부분적으로 상기 하나 또는 그 이상의 무성들의 검출에 의존하는, 수신기.