KR100916959B1 - 압축된 오디오에서의 신호 전력 추정 - Google Patents

압축된 오디오에서의 신호 전력 추정 Download PDF

Info

Publication number
KR100916959B1
KR100916959B1 KR1020037000456A KR20037000456A KR100916959B1 KR 100916959 B1 KR100916959 B1 KR 100916959B1 KR 1020037000456 A KR1020037000456 A KR 1020037000456A KR 20037000456 A KR20037000456 A KR 20037000456A KR 100916959 B1 KR100916959 B1 KR 100916959B1
Authority
KR
South Korea
Prior art keywords
signal
audio signal
compressed audio
scale factors
unvoiced
Prior art date
Application number
KR1020037000456A
Other languages
English (en)
Other versions
KR20030015385A (ko
Inventor
스텔라알레시오
네스바드바잔에이디
바비에리마우로
스나이지더프레디
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20030015385A publication Critical patent/KR20030015385A/ko
Application granted granted Critical
Publication of KR100916959B1 publication Critical patent/KR100916959B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Abstract

압축된 오디오 신호[A]에서 신호 전력을 추정하는 방법이 제공되며, 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비한다. 추정은 압축된 오디오 신호로부터 스케일 팩터들의 세트를 추출하고, 스케일 펙터들의 조합에 기초하여 주어진 블록에서 신호 전력을 추정하여 실행된다. 유리하게, 상기 추출하는 단계 및 추정하는 단계는 스케일 팩터들의 세트의 서브세트에 대해서만 실행된다. 신호 전력 추정은 수신기(1)에서 이용하기 위해 무성 검출기(11)에서 이용될 수 있다.
오디오 신호, 스케일 팩터, 수신기, 협대역 서브 신호

Description

압축된 오디오에서의 신호 전력 추정{Estimating signal power in compressed audio}
본 발명은 압축된 오디오 신호에서의 신호 전력 추정에 관한 것이다. 또한 본 발명은 무성 검출(silence detection) 및 이러한 무성 검출을 이용하는 수신기에 관한 것이다.
WO 96/3271 A1은 디지털 전송을 위해 오디오 신호들을 압축 및 압축해제하는 시스템을 개시하고 있으며, 보조 데이터는 오디오 데이터와 함께 다중화 및 인코딩되며 보조 데이터가 디코딩되는 방식으로 전송될 수 있다. 이 문헌은 159페이지에 오디오가 있는지를 인식하기 위해 다른 채널에서 찾은 최소 스케일 팩터값(minimum scale factor)의 계산을 개시하고 있다.
본 발명의 목적은 압축된 오디오 신호들에서의 유용한 신호 전력 추정을 제공하는 것이다. 이를 위하여, 본 발명은 신호 전력을 추정하는 장치 및 방법, 무성 검출기(silence detector) 및 종속 청구항에 정의되는 수신기를 제공한다. 유리한 실시예들은 종속 청구항에 정의된다.
본 발명의 제 1 양상에 따라, 신호 전력은 양자화된 샘플들의 블록들을 포함하는 압축된 오디오 신호에서 추정되고, 주어진 블록은 스케일 팩터들의 세트를 구비한다. 스케일 팩터들의 세트는 압축된 오디오 신호로부터 추출되고, 신호 전력은 스케일 팩터들의 조합에 기초하여 주어진 블록에서 추정된다. 상기 주어진 블록은 하나 또는 그 이상의 오디오 프레임들 또는 오디오 프레임의 일부일 수 있다. 스케일 팩터들은 압축된 오디오 신호로부터 용이하게 추출될 수 있다. 본 발명은, 스케일 팩터는 스케일 팩터가 관련된 샘플들의 최대 가능한 값을 나타낸다는 통찰에 기초한다. 따라서, 스케일 팩터들의 조합, 예를 들어 제곱된 스케일 팩터들의 합은, 제한된 계산 부하만을 필요로 하는, 신호 전력의 대략적인 추정(rough estimation)을 준다. 상기 대략적인 추정은 예를 들어, 커머셜 검출기들(commercial detectors)에서의 무성 검출과 같은 몇몇 어플리케이션들에 꽤 충분하다.
바람직한 실시예에서는 스케일 팩터들의 서브세트만이 이용된다. 스케일 팩터들의 총 세트의 서브세트만을 이용하여 계산 부하를 더 감소시킨다. 이것은 정확도가 낮다는 결과를 가져올 수도 있지만, 이는 커머셜 검출들 등에서 무성 검출과 같은 몇몇 어플리케이션들에 대해 수용될 수 있다.
스케일 팩터들의 서브세트를 형성하는 것은 시간 방향에서 및/또는 주파수 방향에서 스케일 팩터들을 생략함으로써 수행될 수 있다. 예를 들어, 상기 서브세트는 압축된 오디오 신호에서 이용가능한 복수의 협대역 서브 신호들의 서브세트만을 포함할 수 있으며, 상기 서브세트는 바람직하게는 다수의 더 낮은 주파수의 서브 신호들의 스케일 팩터들을 포함한다.
압축된 오디오 신호가 스테레오 또는 멀티 채널 신호(multi-channel signal)인 경우에, 이용가능한 채널들의 서브세트만이 이용될 수 있다.
도 1은 본 발명의 실시예에 따른 수신기를 도시하는 도면.
도 2는 32개의 서브대역들을 포함하는 전형적인 오디오 프레임을 도시하는 것으로, 각 서브대역은 3개의 블록들로 세분화되며, 각 블록은 12개의 양자화된 샘플들을 포함하고 스케일 팩터가 제공되는 도면.
도 3은 도 2의 전형적인 오디오 프레임을 도시하는 것으로, 각 서브대역에 대한 최대 스케일 팩터가 선택되고, 가능한 선택이 회색으로 강조되는 도면.
도 4는 전형적인 도형을 도시하는 것으로, 원들은 검출된 무성들의 국부 신호 전력들을 나타내고, 십자표들은 이 국부 신호 전력들의 평균을 나타내는 도면.
도 5는 도 4에 관련된 예시적인 근사 함수(likelihood function)를 도시하는 도면.
도면들은 오직 본 발명의 실시예들을 이용하는데 도움이 되는 요소들을 도시한다.
도 1은 압축된 오디오 신호[A]를 수신하기 위한 본 발명의 실시예에 따른 수신기(1)를 도시한다. 수신기(1)는 압축된 오디오 신호[A]를 얻기 위한 입력부(10)를 포함한다. 입력부(10)는 안테나, 네트워크 접속, 판독 장치 등일 수 있다. 수신기(1)는 압축된 오디오 신호에서 무성들을 검출하기 위한 무성 검출기(11), 및 상기 무성들의 검출에 의존하는 오디오 신호에 작용하기 위한 작용 블록(12; influencing block)을 더 포함한다. 상기 블록(12)은 예를 들어 압축된 오디오 신호를 디코딩하기 위한 디코더일 수 있으며, 상기 디코딩은 검출된 무성들에 의존한다. 상기 블록(12)은 검출된 무성들에 의존하여 압축된 오디오의 일부들을 스킵하는 스킵핑 블록(skipping block)일 수 있다. 무성 검출기(11)는 커머셜 검출기를 형성하도록 개선될 수 있다. 검출된 커머셜물들은 디코딩동안 스킵될 수 있다. 디코딩되거나 여전히 압축되는 작용된 오디오 신호 A는 출력부(13)에 출력될 수 있다. 상기 출력부(13)는 네트워크 접속, 재생 장치 또는 기록 장치일 수 있다. 압축된 오디오 신호[A]는 프로그램 스트림에 포함될 수 있고, 이 프로그램 스트림은 비디오 신호를 더 포함한다. 그런 경우에, 프로그램 신호는 압축된 오디오 신호에서 검출된 무성들에 적어도 부분적으로 의존하는 블록(12)에서 작용할 수 있다. 비커머셜 내용만을 저장하는 저장 장치에 적용하면 유리하다.
본 발명의 실시예들은 예를 들어, 커머셜 검출에서 이용하기 위한 무성 검출의 상황에서 기술되어 있다. EP 1 006 685 A2가 텔레비전 신호를 처리하고, 상기 텔레비전 신호에서 커머셜물들의 존재를 검출하는 방법 및 장치를 개시한다는 것에 주목한다. 커머셜 후보 섹션 검출기(commercial candidate section detector)는 정적 섹션 및 장면 변화 지점에 기초하여 커머셜 후보 섹션을 검출한다. 커머셜 특징 양 검출기는, 커머셜 후보 섹션이 커머셜물들의 여러 특징들을 가지는지를 판단하고, 그 판단 결과에 기초하여 미리 결정된 값을 커머셜 특징값에 부가한다. 커머셜 특징 양 검출기는 최종 커머셜 특징값을 미리 결정된 문턱값과 비교하고, 그 비교 결과에 기초하여 커머셜 후보 섹션이 커머셜 섹션인지를 판단한다. 정적 섹션 검출기는 정적 섹션들을 검출하도록 디지털화된 오디오 신호의 레벨을 문턱값과 비교하고, 그 비교 결과를 장면 변화 검출기에 출력한다. 또한 EP 1 087 557 A2를 참조한다.
본 발명의 실시예에 따른 커머셜 검출기는 시청각 스트림들에서 커머셜 블록들을 자동적으로 검출한다. 이는 키 프레임 추출, 편집 또는 재생과 같은 어떤 종류의 처리동안 커머셜물들을 스킵하는 것을 허용한다. 여러 오디오 특징들에 있어서, 국부 통계치들은 변화하는 윈도우에서 측정되며 커머셜물들의 통계 모델들과 비교된다. 이러한 비교에 의해, 오디오 신호가 얼마나 커머셜물들과 국부적으로 유사한지를 나타내는 정규화된 근사 함수(normalized likelihood function)가 유도된다. 근사 함수는 커머셜 검출을 위해 적당히 유발될 수 있다. 통계적 윈도우는 국부적인 분석에서 상세하게 되고 국부적인 불규칙들과 변동들에 대하여 강건하도록 선택되고, 이는 검출에 영향을 미치지 않는다. 알고리즘은 어떤 조건들에 적응적이고, 알고리즘은 단일 스트림 또는 하나의 스트림과 다른 스트림 사이에 따라 변경될 수 있다. 알고리즘은 비디오 독립적이다. 그럼에도 불구하고, 비디오 분석은 분류를 강화하거나 확정하기 위해 포함될 수 있다. 상기 알고리즘은 여러 종류의 저장 시스템들에 적용될 수 있다.
다수의 오디오 코더들(예를 들어, MPEG-1 레이어 1/2/3, MPEG-2 레이어 1/2/3, MPEG-2 AAC, MPEG-4 AAC, AC-3)은 주파수 영역 코더들이다. 이들은 소스 스펙트럼을 다수의 협대역 서브 신호들로 나누고, 각 주파수 성분 또는 샘플을 별도로 양자화한다. 주파수 성분들 또는 샘플들은 스케일 팩터와 비트 할당에 따라 양자화된다. 이 스케일 팩터들은 주파수 성분들 또는 샘플들의 최대값의 지시기들(indicators)로서 여겨질 수 있다.
AC-3에서, 주파수 성분들은 가수.2(-지수)에 의해 표현될 수 있다. 여기서 지수는 2(-지수)와 같은 각 가수(mantissa)에 대한 스케일 팩터로서 작용한다.
MPEG-1 레이어 2에서, 협대역 서브 신호들은 12개의 양자화된 샘플들의 그룹으로 분할되고, 각 그룹은 해당 스케일 팩터를 갖는다. 이 스케일 팩터는 스케일 팩터가 관련된 샘플들의 최대값에 대응한다.
검출 알고리즘은 바람직하게는 스케일 팩터들의 서브세트를 이용한다. 협대역 서브 신호들의 모든 또는 서브세트에서, 신호 전력의 상한은 스케일 팩터들을 제곱하여 계산된다.
이제 MPEG 오디오 압축을 이용한 실시예를 보다 상세하게 기술한다. MPEG-1 레이어 2에서, 오디오 신호는 48 kHz, 44.1 kHZ 또는 32 kHz의 샘플링 레이트을 위해 24 msec, 26.1 msec 또는 36 msec의 시간 간격들로 각각 나뉘어진다. 각각의 이 간격들에서, 상기 신호는 프레임에서 인코딩된다. 도 1을 참조하면, 각 프레임 간격은 3개의 부분들로 나뉘어지고 그 신호는 32개의 서브대역 성분들로 분해된다. 각 서브대역 성분 및 프레임(도 1에서 하나의 직사각형)의 각 세 번째에 대해, 12개의 샘플들은 스케일 팩터 및 적당히 선택된 다수의 비트들에 따라 양자화된다. 스케일 팩터는 12개의 샘플들의 절대값의 상한 추정치를 준다. 이 추정치는 매우 정확하지 않을 수 있으나, 이는 커머셜 검출을 위해 필요하지 않다. 스케일 팩터들은 무시할만 한 계산 부하로 각 오디오 프레임으로부터 추출될 수 있는데, 스케일 팩터들이 의사 대수 인덱스들(pseudo logarithmic indexes)로서 프레임에서 직접 이용할 수 있기 때문이다. 단지 몇몇 제한된 프레임 헤더 디코딩만이 필요하다. 어떠한 압축해제(decompression)가 필요하지 않다.
스테레오 모드에서, 각 채널은 프레임마다 그 자신의 96개의 스케일 팩터들을 갖는다. 검출 알고리즘은 왼쪽 또는 오른쪽 채널(도 2 참조)의 각 서브대역에서 최대 스케일 팩터만을 선택하는데, 즉 32개의 값들은 버퍼링되고 선형(대수 아님) 형태로 변환된다. 이를테면, 48 kHz 오디오 샘플링 레이트를 위해, 단지 서브대역들 0...26은 표준에 따라 이용되는데, 이것은 27개의 샘플들에 1125 샘플들/초 즉, 커머셜 검출기를 위해 가장 적당한 입력 데이터 레이트인 매 24 msec를 준다. 상기 버퍼링된 스케일 팩터들의 제곱들은 서브대역 신호 전력들에 관한 경계를 얻도록 계산된다. 이어서, 이들은 다음과 같이 이용된다.
(1) 그의 합은 총 단시간 전력에 관한 상한을 준다.
(2) 그들은 짧은 대역폭 추정치를 계산하는데 이용될 수 있다.
하기의 표는 MPEG-1 레이어 2(ISO/IEC 11172-3: 1993을 참조)표 B.1에서 스케일 펙터들을 위해 약간의 의사 대수 인덱스들을 준다.
인덱스 스케일팩터
0 2.0000
1 1.5874
2 1.2599
3 1.0000
4 0.7937
5 0.6299
오디오 프레임 j을 위한 단시간 전력의 추정은 아래와 같다.
Figure 112003000979282-pct00001
대안적으로 스케일 팩터를 찾기 위해 룩업테이블을 이용하는 것이 가능하다. 합계는 주어진 시간예에서 서브대역들의 수에 대해 실행될 것이다. 서브대역들의 서브세트가 이용될 때, 합계는 응용에 따라 서브 대역들의 총수 또는 이용된 서브 대역들에 대해 실행되어야 한다.
무성 검출은
1) 예컨대 위에서 표시된 바와 같은 Frame_power를 이용한, 국부 신호 전력 레벨,
2) 무성 지속기간 및,
다음의 파라미터들, 즉
3) 무성 동안의 국부 전력 선형 편차(deviation),
4) 무성 시작 전의 국부 전력 강하 비율, 및
5) 무성 끝에서 국부 전력 상승 비율 중 적어도 하나에 대해 만들어진 문턱값에 기초한다.
신호 전력 특성들이 무성 검출기가 동작하는 환경에 상당히 의존하기 때문에, 무성 검출기는 바람직하게는 적응적이다. 따라서, 적응적이기 위해서는, 국부 전력 레벨 관련 파라미터들(예를 들어, 1), 3), 및/또는 4))은 일정 시간 후에 그들의 평균값들과 비교된다. 국부 신호 전력을 위한 통상적인 문턱값은 0.01인데, 즉, 국부 신호 전력은 신호 전력의 시간 평균의 1퍼센트 미만이어야 한다. 시간 평균은 길이 w 프레임들로 적응 윈도우를 이용하여 계산된다.
Figure 112003000979282-pct00002
j는 프레임 인덱스이다.
무성 지속기간은 국부 신호 전력 레벨이 주어진 고정된 또는 적응형 문턱 전력 레벨보다 아래인 지속기간이다. 선형 편차는 무성 지속기간의 적어도 일부 이상(프레임 전력-평균 프레임 전력)의 합계이다. 선형 편차 및 강하/상승 비율은 무성들의 일부를 필터링하기 위해 이용되고, 이는 지각적 있을 수 있지만 커머셜 검출에 대해 관련이 없다. 상기 국부 신호 전력 레벨은 예를 들어 오디오 프레임 또는 오디오 프레임의 일부마다 상기 기술된 바와 같이 스케일 팩터들을 이용함으로써 바람직하게 결정된다.
커머셜 블록에서의 커머셜들간의 무성 지속기간 브레이크 동안의 실제 범위는 3/25초 내지 20/25초이다.
무성 시작 시간, 무성 지속기간 및 무성 국부 전력 레벨의 값들은 하기 언급된 통계적인 계산들을 위해 버퍼링된다. 커머셜물들은 하기의 특징들, 즉
1) 2개의 연속하는 검출된 무성들 사이의 시간 간격,
2) 검출된 무성들(절대 및/또는 상대)의 국부 신호 전력 레벨,
3) 무성 지속기간, 및
4) 오디오 신호의 국부 대역폭의 국부 통계 모델을 특징으로 한다.
오디오 프레임 j의 국부 대역폭은 하기 방법에서 스케일 팩터들로부터 계산될 수 있다.
Figure 112003000979282-pct00003
각 특징을 위해 0과 1 사이의 값들을 갖는, 0.5 정규화된 근사 함수가 얻어진다. 그것은 이 특성의 국부 통계들이 얼마나 커머셜물들의 것과 유사한지를 나타낸다. 이어서, 서로 다른 근사 함수들은 정보를 모두 동시에 이용하는, 여전히 0.5 정규화된 글로벌 근사 함수를 얻도록 서로 다른 가중치들과 조합된다. 글로벌 근사 함수는 시간축의 각 점에서 계산되고, 이것은 무성 시작 순간으로서 버퍼링된다. 값 0.5는 기본적으로 "총 불확실성" 또는 "커머셜 블록 내부에 있는 0.5 확률"을 의미한다. 상기 근사 함수는 서로 다른 방식으로 이용될 수 있다. 이것은 커머셜 경계들을 검출하도록 적당히 유발될 수 있다. 그것은 선택적으로 또한 비디오 특징들을 이용한, 그 이상의 분석과 분류들을 만드는 알고리즘들에 의해 (커머셜물들과 비커머셜물들 사이의 정규화된 소프트 분류로서) 사용될 수 있다. (모노 휘도(luminance), 모노 색도(chrominance) 프레임 검출, 장면 변화 검출과 같은) 서로 다른 레벨들의 비디오 특징들은, 동일한 근사 방법 또는 다른 방법들을 적용한 오디오 특징들과 함께 통계적으로 분석될 수 있다. 리필링(refilling)을 이용하는 유발된 커머셜 검출이 이전에 기술된 오디오 분석에 근거하여 발전되고 시험되었다. 0.5 정규화된 근사 함수 L(t)는, 검출된 무성이 커머셜 블록에 속하는지를 결정하도록 이용될 수 있다. 이것은 함수 Q(L(t))에 의해 행해질 수 있고, 하기와 같이 정의된다.
Q(L(t))= 1 if L(t)>0.5
Q(L(t))= 0 if L(t)<=0.5,
0 및 1의 값은 검출된 무성이 비커머셜 블록 및 커머셜 블록에 각각 속함을 의미한다.
실제적인 실시예에서, 커머셜물들의 시퀀스는 적어도 60초간 지속되는 경우에만 검출된다. 45초보다 낮은 짧은 간격에 대해서 근사 함수가 0.5보다 아래이기만 하면, Q(t)는 1로 설정된다. 이 절차를 "내부 리필링"으로 불렸다. 이 내부 리필링은 때때로 발생하는 내부의 놓치는 검출들을 제거한다. "외부 리필링"은 커머셜물들의 시작과 끝에 적용된다. 이를테면 만약에:
tj, tj+1,.., tj+N이, 검출된 무성들이 시작하는 시퀀스의 예들이며,
L(ti)=0.2
L(ti+1)=0.4
L(ti+2)=0.6
각 j=i+3,...,i+N에 대해 L(tj)>0.5
j>i+N에 대해 L(tj)<0.5이고,
만약 ti+2-ti+1<45.0초
ti+N+1-ti+N<45.0초이면,
이어서
Q(L(ti))=0
Q(L(ti+1))=1
Q(L(ti+2))=1
...
Q(L(ti+N+1))=1
j>i+N+1에 대해 Q(L(ti))=0이다.
외부 리필링(external refilling)은 첫 번째와 마지막 지점들의 조직적인 분실을 피할 때 유효하다. 이러한 사실은 윈도윙 세부사항에 관계가 있다. 상기 외부 및 내부 리필링은 상부 구동되는 특정한 비선형 필터링으로 간주될 수 있다. 커머셜 블록들의 범용 통계 모델이 이용될 수 있다. 하루의 상이한 시간들 동안 서로 다른 커머셜 블록 모델들 및/또는 상이한 종류의 프로그램들(드라마, 토크쇼, 축구 시합, 등) 및/또는 상이한 채널들을 이용하여 통계 세부사항을 정제할 수 있다. 이것이 만족스런 성능을 얻는데 반드시 필요하지 않더라도, 이는 물론 성능을 개선할 수 있다. 이는 타깃 시스템의 복잡성과 그 성능 간의 트레이드 오프(trade off)의 문제이다. 상황들이 단일 채널을 위해 제때 바뀌는 것과 같은 검출의 적응성이 바람직하다. 게다가 채널 스위칭에 대한 적응성이 바람직하다. 특히 국부 최소 잡음 레벨은 단일 채널을 위해 제때 바뀔 수 있고, 하나의 채널에서 다른 채널로 많이 바꿀 수 있다. 즉 이는 무성 검출에 중요하다. 게다가, 커머셜 블록들의 통계 모델에서의 적응성은 중요하지 않지만 유용하다. 상기 시스템은 국부 최소 잡음 레벨에서 충분히 자기-훈련(적응적으로)으로 구현될 수 있다. 유일한 제약은 채널이 스위칭될 때마다 알고리즘의 재설정을 적용하는 것이다. 이는, 적응성과 정밀도 사이에 트래드 오프의 문제들에 대해, 적응성은 초기 기간에서 빠르고 다음에서 느리기 때문이다. 알고리즘이 언제라도 빨리 적응한다면, 커머셜 블록들 내부에서 비교적 빠른 적응이 정밀도를 감소시킬 것이기 때문에, 검출의 정밀도는 감소할 것이다. 실제적인 실시예에서, 단일 채널을 따르는 적응성(along-a-single-channel adaptability)이 항상 유지되는 동안, 스위치 적응성은 처음 순간들(예를 들어, 소정의 연속하는 스위치를 위한 재설정)에만 유효하다. 적응성의 안정도는 비대칭 구조(asymmetric scheme)에 의해 보장된다. 최소 잡음 레벨이 감소할 때, 적응성은 최소 잡음 레벨이 증가할 때보다 더 빠르다. 이는 예를 들어, 무성 검출을 위한 국부 전력 에너지 문턱값이, 무성이 이전에 검출된 것보다 더 낮은 국부 전력 에너지로 검출될 때, 상대적으로 빠르다는 것을 의미한다. 발생할 수 있는 2가지 종류의 오류들 즉, 분실 커머셜 검출(missing commercial detection) 또는 잘못된 커머셜 검출(false commercial detection)이 있다. 둘 다 비교적 낮고, 커머셜 블록들의 시작 또는 끝 부분에 한정된다. 이 알고리즘은 어쨌든 유연하여, 결정 파라미터들은 어느 쪽이 더 관련이 있는지에 따라, 2개의 오류 비율들 간의 트레이드 오프를 다양하게 할 수 있다. 이를 테면, 커머셜 블록 검출이 자동 키 프레임 추출을 위한 사전처리하면, 이어서 낮은 분실 검출 비율이 더 중요하다. 낮은 잘못된 검출은 단순한 재생의 경우에 더 관련이 있다. 선택된 특징들을 참조하면(그러나 다른 것들이 부가될 수 있음), 서브대역 분석 없이 국부 전력 에너지 및 대역폭을 별도로 평가하는 것이 가능하다. 이 대역폭의 값은 2분(다른 값들이 선택될 수 있음) 대칭 슬라이딩 윈도우에서 낮은 샘플링 레이트로 요구된다. 따라서, 이를테면 그것은 지점들의 낮은 수를 갖는 연속하는 짧은 간격 FFT을 평균하는 것에 의해 추정될 수 있다. 항마다(term by term) 또는 전체적으로(globally), 하나 또는 몇몇 근사 함수들의 조합들 및 상이한 종류의 정규화들을 구현하는 것이 가능하다. 실제 구현은 항마다 또는 전체적으로 재정규화로 곱 조합(product combination)에 기초한다. 그 곱은 기본적으로 불 세트(Boolean set) {0,1}으로부터 연속 간격[0,1]으로 연장된 논리 AND(Boolean AND)이다. 이는 우수한 선택성을 보장한다. 대략 말하자면, 서로 다른 조건들은 모두 동시에 약간씩 부과된다. 그것들은 완전히 모두 이행될 필요는 없지만 그것들은 대부분 모두 이행될 필요가 있다. 대신 추가 조합은 논리 OR(boolean OR)의 일종의 연장이었을 것이고, 이는 충분한 선택성을 보장하지 않는다. 또한 선택성 및 강건함은 지속기간 문턱값을 갖는 근사에 대한 하드 결정(hard decision)에 의해 보장된다. 근사 잡음 내구성은 내부 리필링에 의해서도 보장된다.
하기예에서는 36분의 기록이 고려된다. 상기 기록은 영화의 마직막 부분에서 시작한다. 초들[646,866]은 커머셜물들을 포함한다. 초 866에서, TV 쇼가 시작한다. 다른 커머셜물들은 간격 [1409,1735] 초 내에 있다. 도 4는 각 검출된 무성동안 계산된 국부 신호 전력들인 원들로 구성한다. 십자표는 이 값들의 역방향 평균을 나타낸다. 커머셜 무성들(간격들[646,866] 및 [1409,1735])이 주로 더 낮은 전력으로 잘려진 무성들인 것이 명백하다. 이는 커머셜물들 내부의 무성들의 상이한 분포가 대충 알 수 있다. 이를 테면 이들 대부분은 10 내지 30 초 떨어져 있다. 도시된 것과 같은 통계 세부항목들은 근사 함수 추정에서 이용된다. 도 5는 얻어진 근사 함수를 도시한다. 채워진 유발(triggering) [648,866] 및 [1408,1735]를 검출한다.
가능한 변화들
1) 스케링 팩터들의 더 큰 일부를 버퍼링하는 것이 가능하다. 또한 스케링 팩터들을 서브샘플링하는 것이 가능하다. 96 좌측 채널 스케일 팩터에서의 32의 현재 선택은 효과적인 것으로 입증되었다.
2) 오디오 특성들의 상이한 세트를 선택하는 것이 가능하다. 다른 특성들을 도입하기 전에 물론 신중한 조사가 필요하다.
3) 상기 언급된 바와 같이, 하나 또는 여러 근사 함수들의 조합들 및 상이한 종류의 정규화들을 구현하는 것이 가능하다. 현재 구현은 재정규화와 곱 조합에 기초한다. 그 곱은 기본적으로 불 세트{0,1}로부터 연속 간격[0,1]에 연장된 논리 AND이다. 이는 우수한 선택성을 보장한다. 세미-합(semi-sum)은 논리 OR의 일종의 연장이지만, 이는 선택성을 충분히 보장하지 않는다.
4) 이를테면 상이한 윈도윙 양상들(modalities) 및/또는 상이한 오디오 특성들이 이용되면, 리필링으로 글로벌 근사 함수를 유발하는 선택이 사용될 수 있다.
5) 다수의 방송장치들에 의해 커머셜 블록들의 시작 및/또는 끝에 규칙적으로 놓는 것들과 같이, 특정 오디오 시퀀스들의 인식은 또한 스케일 팩터들을 직접 처리하는 것에 의해 달성될 수도 있다.
송신기 측에서, 예를 들어 그것들의 신호 전력을 낮추는 것에, 무성 지속기간을 적응시키는 것에, 신호 전력 강하 비율을 증가시키는 것에, 및/또는 무성 동안 전력 편차를 감소시키는 것에 의해, 그것들은 보다 낫게 검출하는 방식으로, 잘린 무성들을 적응시킴으로써, 근사 함수를 돕는 것이 가능하다. 이에 반해, 또한 그것들의 신호 전력을 증가시키는 것에 의해, 예를 들어, 잡음을 도입시키는 것에 의해, 무성 지속기간을 적응시키는 것에 의해, 신호 전력 강하 비율을 감소시키는 것에 의해, 및/또는 무성 동안 전력 편차를 증가시키는 것에 의해, 잘린 무성들의 검출성을 낮게 하는 것이 가능하다. 게다가, 또한 신호에 가짜의 잘린 무성들을 도입시키는 것이 가능하다. 실제적인 실시예에서, 잘린 무성의 것과 유사한 낮은 전력을 갖는 0.15 초의 가짜의 잘린 무성 및 30 초의 간격(separation)은 아마도 커머셜 블록 검출을 망칠 것이다. 가짜의 잘린 무성들은 음성 무성들과 같은 이미 존재하는 무성들에 삽입되는 것이 바람직하다. 그런 경우에, 가짜의 잘린 무성들은 보통 사용자에 의해 거의 인식되지 않을 것이다.
이 알고리즘은 시청각 자료에서 커머셜 블록들을 검출하고 블록들의 경계들을 구분한다. 이어서, 커머셜 블록들은 브라우징, 자동 트레일러 생성, 편집 또는 단순한 재생과 같은 어떤 종류의 처리 동안 스킵될 수 있다. 이 기능은 매우 낮은 부가의 비용으로 여러 종류의 저장 시스템들에 통합될 수 있다. 이는 데이터의 획득 동안의 실시간으로 또는 오프라인으로 저장된 자료에 적용될 수 있다.
상기 언급된 실시예들이 본 발명을 제한하기 보다 오히려 설명하고 있고, 본 분야에 숙련된 자들이 첨부된 청구범위의 범위로부터 벗어나지 않고 많은 대안의 실시예들을 설계할 수 있다는 것을 알아야 한다. 청구범위에서, 괄호 사이에 놓인 어떤 참조 부호들은 청구범위를 제한하는 것으로 해석되지 않을 것이다. 단어 "포함하는"는 청구항에 열거된 것과는 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 본 발명은 여러 개별적 요소들을 포함하는 하드웨어에 의해, 적당히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단들을 나열하는 장치 청구항에서, 여러 이 수단은 하드웨어의 하나 및 같은 아이템에 의해 구현될 수 있다. 어떤 방법이 상호간에 서로 다른 종속항들에서 재인용된다는 단순한 사실은 이 방법의 조합 이 유리하게 이용될 수 없다는 것을 나타내진 않는다.

Claims (10)

  1. 신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위해 압축된 오디오 신호에서 신호 전력을 추정하는 방법으로서, 상기 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비하는, 상기 신호 전력 추정 방법에 있어서,
    상기 압축된 오디오 신호로부터 상기 스케일 팩터들의 세트를 추출하는 단계; 및
    상기 스케일 팩터들의 조합에 기초하여 상기 주어진 블록에서 상기 신호 전력을 추정하는 단계를 포함하며,
    상기 하나 또는 그 이상의 무성들은, 무성 기간 동안에 국부 전력 레벨 선형 편차(deviation), 무성 기간 전의 국부 전력 레벨 강하 비율, 및 무성 기간 끝에서 국부 전력 레벨 상승 비율 중 적어도 하나와, 상기 신호 내에서 무성 기간들 동안에 상기 신호의 국부 전력 레벨을 분석함으로써 식별되는, 신호 전력 추정 방법.
  2. 제 1 항에 있어서,
    상기 추출하는 단계 및 추정하는 단계는 상기 스케일 팩터들의 세트의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 오디오 신호는 복수의 협대역 서브 신호들을 포함하고, 각 협대역 서브 신호는 신호 블록들로 세분화되며(subdivided), 각 블록은 양자화된 샘플들을 포함하고, 각 블록은 하나 또는 그 이상의 스케일 팩터들을 구비하며, 상기 추출하는 단계는 하나 또는 그 이상의 상기 서브 신호들에 대해서 실행되는, 신호 전력 추정 방법.
  4. 제 3 항에 있어서,
    상기 추출하는 단계는 상기 복수의 서브 신호들의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
  5. 제 4 항에 있어서,
    상기 서브세트는 주로 다수의 저주파 서브 신호들의 상기 스케일 팩터들을 포함하는, 신호 전력 추정 방법.
  6. 제 2 항에 있어서,
    상기 블록들은 적어도 2개의 서브블록들로 세분화되며, 각 서브블록은 스케일 팩터를 구비하며, 상기 추정하는 단계에서 이용하기 위해 블록마다 최대 스케일 팩터만이 추출되는, 신호 전력 추정 방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    상기 압축된 오디오 신호는 스테레오 또는 멀티 채널 신호이며, 상기 추출하는 단계는 이용가능한 채널들의 서브세트에 대해서만 실행되는, 신호 전력 추정 방법.
  8. 신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위해 압축된 오디오 신호에서 신호 전력을 추정하는 장치로서, 상기 오디오 신호는 양자화된 샘플들의 블록들을 포함하고, 주어진 블록은 스케일 팩터들의 세트를 구비하는, 상기 신호 전력 추정 장치에 있어서,
    상기 압축된 오디오 신호로부터 상기 스케일 팩터들의 세트를 추출하는 수단; 및
    상기 스케일 팩터들의 조합에 기초하여 상기 주어진 블록에서 상기 신호 전력을 추정하는 수단을 포함하며,
    상기 하나 또는 그 이상의 무성들은, 무성 기간 동안에 국부 전력 레벨 선형 편차(deviation), 무성 기간 전의 국부 전력 레벨 강하 비율, 및 무성 기간 끝에서 국부 전력 레벨 상승 비율 중 적어도 하나와, 상기 신호 내에서 무성 기간들 동안에 상기 신호의 국부 전력 레벨을 분석함으로써 식별되는, 신호 전력 추정 장치.
  9. 압축된 오디오 신호 내에서 하나 또는 그 이상의 무성들(silences)을 식별하기 위한 무성 검출기에 있어서,
    상기 압축된 오디오 신호의 신호 전력의 추정(estimate)을 얻기 위한 제 8 항에 청구되는 장치; 및
    상기 오디오 신호에서 무성들(silences)을 검출하기 위하여 상기 신호 전력의 추정을 평가하는 수단을 포함하는, 무성 검출기.
  10. 압축된 오디오 신호를 수신하는 수신기에 있어서,
    압축된 오디오 신호를 얻는 입력부;
    상기 압축된 오디오 신호에서 하나 또는 그 이상의 무성들을 검출하기 위한 제 9 항에 청구되는 무성 검출기; 및
    상기 오디오 신호에 작용하기 위한 수단을 포함하며, 상기 작용은 적어도 부분적으로 상기 하나 또는 그 이상의 무성들의 검출에 의존하는, 수신기.
KR1020037000456A 2001-05-11 2002-05-08 압축된 오디오에서의 신호 전력 추정 KR100916959B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01201730 2001-05-11
EP01201730.7 2001-05-11
PCT/IB2002/001561 WO2002093552A1 (en) 2001-05-11 2002-05-08 Estimating signal power in compressed audio

Publications (2)

Publication Number Publication Date
KR20030015385A KR20030015385A (ko) 2003-02-20
KR100916959B1 true KR100916959B1 (ko) 2009-09-14

Family

ID=8180284

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020037000456A KR100916959B1 (ko) 2001-05-11 2002-05-08 압축된 오디오에서의 신호 전력 추정
KR10-2003-7000454A KR20030027938A (ko) 2001-05-11 2002-05-10 무성 검출

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR10-2003-7000454A KR20030027938A (ko) 2001-05-11 2002-05-10 무성 검출

Country Status (8)

Country Link
US (2) US7356464B2 (ko)
EP (2) EP1393301B1 (ko)
JP (2) JP4365103B2 (ko)
KR (2) KR100916959B1 (ko)
CN (3) CN100380441C (ko)
AT (1) ATE438968T1 (ko)
DE (2) DE60217484T2 (ko)
WO (2) WO2002093552A1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60202881T2 (de) 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
US8014882B2 (en) * 2004-04-06 2011-09-06 Panasonic Corporation Particular program detection device, method, and program
CN1934650A (zh) * 2004-06-18 2007-03-21 松下电器产业株式会社 Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路
US9053754B2 (en) * 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
WO2007039998A1 (ja) * 2005-09-30 2007-04-12 Pioneer Corporation 本編外シーン抽出装置およびそのプログラム
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US7773813B2 (en) 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
GB2447985B (en) * 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
US8081313B2 (en) * 2007-05-24 2011-12-20 Airbus Operations Limited Method and apparatus for monitoring gas concentration in a fluid
JP2008009442A (ja) * 2007-07-23 2008-01-17 Video Research:Kk 音声データ処理方法
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB0813715D0 (en) * 2008-07-28 2008-09-03 Airbus Uk Ltd A monitor and a method for measuring oxygen concentration
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
WO2010103422A2 (en) 2009-03-10 2010-09-16 Koninklijke Philips Electronics N.V. Apparatus and method for rendering content
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US10116902B2 (en) * 2010-02-26 2018-10-30 Comcast Cable Communications, Llc Program segmentation of linear transmission
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
FI20145493A (fi) 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN108665657B (zh) * 2017-03-30 2019-12-10 国基电子(上海)有限公司 传感器及应用该传感器的监控系统
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672669A (en) * 1983-06-07 1987-06-09 International Business Machines Corp. Voice activity detection process and means for implementing said process
EP0450631A2 (en) * 1990-04-06 1991-10-09 Kabushiki Kaisha Video Research Automatic commercial message recognition device
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
EP1073209A2 (en) * 1999-07-26 2001-01-31 Matsushita Electric Industrial Co., Ltd. Subband encoding and decoding system for data compression and decompression

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS63118197A (ja) * 1986-11-06 1988-05-23 松下電器産業株式会社 音声検出装置
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
WO1996003271A1 (fr) 1993-01-25 1996-02-08 Jean Alphonse David Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire
US5334947A (en) * 1993-07-06 1994-08-02 Aphex Systems, Ltd. Logic enhanced noise gate
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JPH08237135A (ja) * 1994-10-28 1996-09-13 Nippon Steel Corp 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置
US6041295A (en) * 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
JPH1055150A (ja) * 1996-08-12 1998-02-24 Syst Works:Kk 音声割り込み方法及びその装置
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
DE69831991T2 (de) * 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
CN1117343C (zh) * 1997-04-30 2003-08-06 日本放送协会 声音区域的检测方法及其装置,以及利用这个方法及装置的话速变换方法及其装置
US6324188B1 (en) * 1997-06-12 2001-11-27 Sharp Kabushiki Kaisha Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
CN1094280C (zh) * 1998-08-17 2002-11-13 英业达股份有限公司 网络电话中的静音检测方法
JP2000165806A (ja) 1998-11-30 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2000214872A (ja) * 1999-01-20 2000-08-04 Matsushita Electric Ind Co Ltd 音声検出装置
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
US6658027B1 (en) * 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
EP1087557A3 (en) 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
JP3697967B2 (ja) * 1999-09-22 2005-09-21 松下電器産業株式会社 オーディオ送信装置及びオーディオ受信装置
US6993245B1 (en) * 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672669A (en) * 1983-06-07 1987-06-09 International Business Machines Corp. Voice activity detection process and means for implementing said process
EP0450631A2 (en) * 1990-04-06 1991-10-09 Kabushiki Kaisha Video Research Automatic commercial message recognition device
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
EP1073209A2 (en) * 1999-07-26 2001-01-31 Matsushita Electric Industrial Co., Ltd. Subband encoding and decoding system for data compression and decompression

Also Published As

Publication number Publication date
US7356464B2 (en) 2008-04-08
CN1612607A (zh) 2005-05-04
CN1462427A (zh) 2003-12-17
EP1393301A1 (en) 2004-03-03
CN100380441C (zh) 2008-04-09
JP2004520627A (ja) 2004-07-08
EP1393301B1 (en) 2007-01-10
ATE438968T1 (de) 2009-08-15
US7617095B2 (en) 2009-11-10
CN100348034C (zh) 2007-11-07
WO2002093801A2 (en) 2002-11-21
US20040138880A1 (en) 2004-07-15
WO2002093552A1 (en) 2002-11-21
CN1462426A (zh) 2003-12-17
KR20030027938A (ko) 2003-04-07
EP1393480B1 (en) 2009-08-05
JP2004531766A (ja) 2004-10-14
CN1244900C (zh) 2006-03-08
DE60233223D1 (de) 2009-09-17
DE60217484D1 (de) 2007-02-22
DE60217484T2 (de) 2007-10-25
JP4365103B2 (ja) 2009-11-18
JP4560269B2 (ja) 2010-10-13
KR20030015385A (ko) 2003-02-20
WO2002093801A3 (en) 2003-01-30
US20040125961A1 (en) 2004-07-01
EP1393480A2 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
KR100916959B1 (ko) 압축된 오디오에서의 신호 전력 추정
US7346517B2 (en) Method of inserting additional data into a compressed signal
US6680753B2 (en) Method and apparatus for skipping and repeating audio frames
US20090279840A1 (en) Image Digesting Apparatus
US7451091B2 (en) Method for determining time borders and frequency resolutions for spectral envelope coding
US20140257824A1 (en) Apparatus and a method for encoding an input signal
US7835906B1 (en) Encoding method, apparatus and device and decoding method
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
KR100763899B1 (ko) 앵커 샷 검출 방법 및 장치
JP2011059504A (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
EP2198424B1 (en) A method and an apparatus for processing a signal
US20070192086A1 (en) Perceptual quality based automatic parameter selection for data compression
CA2423861C (en) Method for synchronizing digital signals
US8014606B2 (en) Image discrimination apparatus
US20040133420A1 (en) Method of analysing a compressed signal for the presence or absence of information content
US20020078438A1 (en) Video signal analysis and storage
EP3384491B1 (en) Audio encoding using video information

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120830

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130829

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140903

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150827

Year of fee payment: 7