KR100871607B1 - 오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법 - Google Patents
오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법 Download PDFInfo
- Publication number
- KR100871607B1 KR100871607B1 KR1020037015335A KR20037015335A KR100871607B1 KR 100871607 B1 KR100871607 B1 KR 100871607B1 KR 1020037015335 A KR1020037015335 A KR 1020037015335A KR 20037015335 A KR20037015335 A KR 20037015335A KR 100871607 B1 KR100871607 B1 KR 100871607B1
- Authority
- KR
- South Korea
- Prior art keywords
- time
- audio
- audio signal
- auditory
- signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012512 characterization method Methods 0.000 title description 2
- 230000003595 spectral effect Effects 0.000 claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000003491 array Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000005259 measurement Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
하나의 신호가 다른 신호에서 도출되었거나 또는 양측 신호가 또 다른 신호에서 도출된, 오디오 신호를 타임 정렬하는 방법은 오디오 신호들의 감쇄된 정보 특성을 도출하는, 오디토리 신 분석을 포함한다. 하나의 특성을 계산된 다른 특성에 관한 타임 오프셋과, 오디오 신호들을 서로에 관한 시간적 관계는 타임 오프셋에 응답하여 수정되므로 오디오 신호들은 서로 부합하게 된다. 이러한 원리들은 또한 차분 타임 오프셋에 적용되는 비디오 신호와 오디오 신호를 타임 정렬시키기 위한 방법에 적용된다.
Description
본 발명은 오디오 신호들에 관한 것이다. 더 상세하게는, 본 발명은 오디오 신호를 특성 지우는 것과 오디오 신호들을 타임 정렬 또는 동기화시키기 위해 특성을 사용하는 것에 관한 것으로, 하나의 신호가 다른 신호에서 도출되었거나 또는 양측 신호가 동일한 다른 신호에서 도출되었다. 그러한 동기화는, 예를 들면, 텔레비젼 오디오를 비디오 동기화(립-싱크)에 저장시 그리고 오디오 신호에 삽입된 워터마크(워터마크된 신호가 신호의 워터마크되지 않은 버전과 비교된다)를 검출시 유용하다. 본 발명은, 낮은 프로세싱 파워 프로세스가 그러한 오디오 신호들을 실질적인 시간적 정렬로 이르게 하도록 구현될 수 있다.
별개로 인지되는 단위체로의 사운드 분리는 때때로 "오디토리 이벤트 분석(auditory event analysis)" 또는 "오디토리 신 분석(auditory scene analysis)"("ASA")으로서 언급된다. 오디토리 신 분석의 광범위한 논의는 알버트 에스. 브레그맨의 저서에 진술되어 있다. Auditory Scene Analysis - The Perceptual Organization of Sound, 메사츄세츠 인스터튜트 오브 테크날러지, 1991, 4판, 2001, 제 2 MIT 출판부. 또한, Bhadkamkar 등의 1999년 12월 14일자 미국 특허 제6,002,776호는 "오디토리 신 분석에 의한 사운드 분리에 관한 종래 기술 연구"로서 1976년까지의 공보를 인용한다. 그러나, Bhadkamkar 등의 특허는 오디토리 신 분석의 실제 사용을 낙담시켜, "오디토리 신 분석을 포함하는 기술들이, 비록 과학적 관점에서 사람의 오디토리 프로세싱의 모델로서 중요하더라도, 현재는 너무 계산적 요구가 지나치며 특별히 기초적인 발전이 이루어질 때까지는 사운드 분리를 위한 실제 기술로 고려되지 않는다"고 결론을 내린다.
브레그맨은 "우리는 사운드가 음색, 피치, 소리 세기, 또는 (더 작은 의미로) 공간에서의 위치에서 갑자기 변동할 때 이산 단위체를 듣는다"고 어느 한 페이지에 언급한다. (Auditory Scene Analysis - The Perceptual Organization of Sound, 페이지 469). 브레그맨은, 예를 들면, 다중 동시 사운드 스트림들이 주파수에서 구별될 때 그 스트림의 인식을 또한 논의한다.
오디오에서 특징 또는 특색을 추출하는 수많은 상이한 방법들이 있다. 특색 또는 특징이 적절하게 정의내려진다면, 그 추출은 자동 프로세스를 사용하여 실행될 수 있다. 예를 들면, "ISO/IEC JTC 1/SC 29/WG 11"(MPEG)가 현재 다양한 오디오 기술어(descriptor)를 MPEG-7 표준의 부분으로서 표준화하고 있다. 그러한 방법들의 공통적인 결함은 그것들이 ASA를 무시한다는 것이다. 그러한 방법들은, 피치, 진폭, 파워, 화성 구조 및 스펙트럼 평탄도와 같은 일정한 "규격" 신호 프로세싱 파라미터를 주기적으로 측정하고자 한다. 그러한 파라미터들은, 유용한 정보를 제공하더라도, 사람의 인지에 따른 개별적인 것으로서 인식되는 엘리먼트로 오디오 신호들을 분석 및 특징 지우지 못한다.
오디토리 신 분석은 사람의 인식과 유사한 방식으로 사람의 인지에 따른 개별적인 엘리먼트들을 식별하여 오디오 신호들을 특징 지우고자 한다. 그러한 방법들을 개발하여, 이전에는 사람의 보조를 요구하여왔던 임무를 정확하게 실행하는 자동 프로세스들을 구현할 수 있다.
개별적으로 인식된 엘리먼트들의 식별은 전체 신호 자체보다도 대체로 적은 정보를 사용하여 오디오 신호의 독특한 식별을 허용한다. 오디토리 이벤트에 기초한 컴팩트하며 독특한 식별은, 예를 들면, 또 다른 신호에서 복사된(또는 또 다른 신호로서 동일한 오리지날 신호에서 복사된) 신호를 식별하기 위해 사용된다.
개시되는 방법은 오디오 신호를 식별하기 위해 사용되는 오디오 신호의 독특한 감소된 정보 특징을 발생시킨다. 상기 특징은 오디오 신호의 "시그너쳐(signature)" 또는 "핑거프린트(fingerprint)"라고 한다. 본 발명에 따르면, 오디토리 신 분석(ASA)은 오디오 신호를 특징 지우기 이한 기초로서 오디토리 이벤트를 식별하도록 실행된다. 이상적으로, 오디토리 신 분석은, 오디오가 로우 비트 레이트 코딩 또는 라우드스피커를 통한 음향 전송과 같은 프로세싱을 겪은 이후에 조차도 청취자에 의해 가장 인식되기 쉬운 오디토리 이벤트를 식별한다. 오디오 신호는 오디토리 이벤트의 경계 위치에 의해 그리고 선택적으로는 각 오디토리 이벤트의 지배적인 주파수 서브밴드에 의해 특징 지워진다. 결과적인 정보 패턴은, 빠르게 및/또는 낮은 프로세싱 파워로 오리지날 오디오 신호들간의 타임 오프셋을 결정하기 위해 관련 오디오 신호의 핑거프린트 또는 시그너쳐에 비교되는 컴팩트 오디오 핑거프린트 또는 시그너쳐를 구성한다. 감축된 정보 특성은 대체로 동일한 상대적 타이밍들을 그것들이 표시하는 오디오 신호들로서 갖는다.
본 발명에 따른 오디토리 신 분석 방법은, 오디토리 이벤트 정보를 포함한 시그너쳐들을 비교함으로써 2개의 오디오 신호, 특히 음악을 타임 정렬시키는 빠르면서 정확한 방법을 제공한다. ASA는 오디오 신호들(이를테면 피치 진폭, 파워, 및 화성 구조)간의 유사성을 인지하는데 덜 중요한 특색을 추출하는 종래의 방법들에 대조적으로 유사성의 인지를 강조하는 정보를 추출한다. ASA의 사용은 중요한 프로세싱, 이를테면 로우 비트 코딩 또는 라우드스피커를 통한 음향 전송을 겪었던 제재(material)에서 유사성을 발견하는, 그리고 타임 정렬시키는 기회를 개선시킨다.
하기에 논의 실시예들에서, 논의되는 2개의 오디오 신호가 공통 소스에서 도출된다고 추정한다. 본 발명의 방법은 하나의 오디오 신호를 다른 신호에 관해 오프셋을 결정하여 그 신호들이 서로에 관해 거의 정확한 동시 발생하게 된다.
비록 원칙적으로 본 발명이 아날로그 또는 디지털 도메인(또는 그 2개의 조합)중 어느 하나에서 실행되더라도, 발명의 일 실시예에서 오디오 신호들은 데이터 블럭의 샘플로 표현되며 프로세싱은 디지털 도메인에서 행하여진다.
도 1A를 참조하면, 오디토리 신 분석(2)은 오디오 신호에 관련한 "시그너쳐" 또는 "핑거프린트"를 생성시키기 위해 오디오 신호에 적용된다. 이 경우, 2개 오디오 신호가 중요하다. 그것들은 하나가 다른 하나에서 도출되거나 또는 둘 모두 동일한 오리지날 신호에서 이미 도출되었다는 점에서 유사하다. 그러므로, 오디토리 신 분석은 양측 신호에 적용된다. 간략하게 하기 위해, 도 1A는 하나의 신호에 ASA의 적용만을 나타낸다. 도 1B에 나타난 것처럼, 2개 오디오 신호의 시그너쳐, 시그너쳐 1과 시그너쳐 2가 2개 시그너쳐간의 상대적 타임 오프셋의 척도인 "오프셋(offset)" 출력을 계산하는 타임 오프셋 계산 함수부(4)에 적용된다.
시그너쳐들이 오디오 신호들을 대표하지만 그것들이 도출되었던 오디오 신호들보다도 대체로 더 짧으므로(즉, 그것들은 더 컴팩트하거나 또는 더 적은 비트를 가짐), 시그너쳐간의 타임 오프셋은 오디오 신호들간의 타임 오프셋을 결정하는 것보다 더 빠르게 결정될 수 있다. 게다가, 시그너쳐들은 그것들이 도출되는 오디오 신호들로서 대체로 동일한 상대적 타이밍 관계를 유지하므로, 시그너쳐간의 오프셋의 계산은 오리지날 오디오 신호들을 타임 정렬할 수 없다. 그러므로, 함수부(4)의 오프셋 출력이 타임 정렬 함수부(6)에 적용된다. 타임 정렬 함수부는 또한 2개 오디오 신호, 오디오 신호 1과 오디오 신호 2를 수신하고(여기서 시그너쳐 1과 2가 도출된다), 2개 오디오 신호 출력, 오디오 신호 3과 오디오 신호 4를 제공한다. 오디오 신호들이 타임 정렬(동기)에 있거나 또는 거의 타임 정렬에 있도록 오디오 신호 1의 상대적 타이밍을 오디오 신호 2에 대해 조정하는 것이 바람직하다. 이를 달성하기 위해서, 하나의 신호가 다른 신호에 대해 타임 시프트되거나 또는 원칙적으로 양측 신호가 타임 시프트된다. 사실상, 오디오 신호중 하나는 오디오 신호 1 또는 오디오 신호 2의 "패스 쓰로우(pass through)"이며(즉, 대체로 동일 신호이다) 다른 신호는 오디오 신호 3과 오디오 신호 4가 오프셋 계산과 타임 정렬 함수부의 분해능 정확성에 따라 타임 동기에 있거나 또는 거의 타임 동기에 있도록 시간적으 로 수정되어왔던 다른 오디오 신호의 타임 시프트된 버전이다. 더 큰 정렬 정확성이 요구된다면, 부가적인 프로세싱은 본 발명의 아닌 부분을 형성하는 1개 이상의 다른 프로세스에 의해 오디오 신호 3 및/또는 오디오 신호 4에 적용될 것이다.
신호들의 타임 정렬은, 예를 들면, 텔레비전 오디오를 비디오 동기화(리-싱크)에 재저장시 그리고 오디오 신호에 있는 워터마크를 검출시 유용하다. 전자의 경우에, 오디오의 시그너쳐는 동기를 벗어나는 오디오 및 비디오의 결과를 나타내는 전송 또는 저장 이전의 비디오 신호에 삽입된다. 복제점에서, 시그너쳐는 오디오 신호에서 도출되며 그 동기를 저장하기 위해서 비디오 신호에 내장된 시그너쳐에 비교된다. 오디토리 신 분석에 기초한 특성을 사용하지 않는 그런 유형의 시스템은 미국 특허 Re 33,535, 5,202,761, 6,211,919 및 6,246,439 에 기술되어있으며, 이 모두는 본문에 참조로 포함된다. 후자의 경우에 있어서, 오디오 신호의 오리지날 버전은 워터마크를 복원하기 위해서 오디오 신호의 워터마킹된 버전에 비교된다. 그러한 복원은 2개 오디오 신호의 근접한 시간적 정렬을 요구한다. 이는, 본문에 설명된 것처럼, 오리지날 오디오 신호들의 타임 정렬에 조력하도록 각 오디오 신호의 시그너쳐를 도출함으로써 적어도 제 1 정렬의 정도로 달성될 것이다. 도 1A와 1B의 상세한 사항은 하기에 진술된다.
몇몇 어플리케이션을 위해, 도 1A와 1B의 프로세스들은 실시간이어야 한다. 다른 어플리케이션을 위해, 프로세스들은 실시간일 필요는 없다. 실시간 어플리케이션에서, 프로세스는 각 입력 신호에 대한 오디토리 신 분석의 히스토리(예를 들면, 몇 초)를 저장한다. 주기적으로, 그 이벤트 히스토리는 타임 오프셋을 지속적 으로 정장하기 위해서 오프셋 계산을 갱신하는데 사용된다. 각각의 입력 신호들에 대한 오디토리 신 분석 정보는 실시간으로 발생되거나, 또는 신호들중 어느 하나에 대한 정보가 이미 존재한다(몇몇 오프라인 오디토리 신 분석 프로세싱이 이미 실행된 것으로 추정한다). 실시간 시스템의 한가지 사용예는, 예를 들면, 상기 언급된 것처럼 오디오/비디오 정렬기이다. 일련의 이벤트 경계들은 오디오에서 도출된다; 다른 일련의 이벤트 경계들은 비디오에서 복원된다(비디오로 오디오 이벤트 경계들의 사전 삽입을 추정). 2개 이벤트 경계 시퀀스들은 예를 들면 립 싱크를 개선하기 위해서 오디오와 비디오간의 타임 오프셋을 결정하도록 주기적으로 비교될 수 있다.
그러므로, 양측 시그너쳐는, 시그너쳐들의 타임 오프셋이 그들의 실제적 부합을 달성하기 위해 오디오 신호들의 정렬을 수정하데 계산 및 사용되는 오디오 신호들에서 거의 동시에 발생된다. 이와 달리, 비교되는 시그너쳐중 하나는, 예를 들면, 시그너쳐를 또 다른 신호에, 이를테면 방금 기술된 것처럼 오디오 및 비디오의 경우에 비디오 신호에 삽입시킴으로써, 그것이 도출되었던 오디오 신호와 함께 전송된다. 다른 대안으로서, 양측 시그너쳐가 미리 발생되고 단지 비교와 타이밍 수정이 실시간으로 실행된다. 예를 들면, 동일한 텔레비젼 프로그램의 2개 소스(비디오와 오디오)의 경우에, 오디오 시그너쳐들이 함께 삽입되어, 각각의 텔레비젼 신호들(동반하는 오디오와 함께)은 복원된 시그너쳐를 비교하여 동기화될 수 있다(비디오 및 오디오). 각 텔레비젼 신호에서 비디오와 오디오의 상대적인 타이밍 관계는 변경되지 않고 유지된다. 텔레비젼 신호 동기화는 실시간으로 발생하지만, 어느 시그너쳐도 그 시간에 또는 동시에 발생되지 않는다.
본 발명의 양태에 따르면, 오디오를 개별적으로 인식되는 임시 세그먼트 또는 "오디토리 이벤트"로 분할하기 위한 계산적으로 효율적인 프로세스가 제공된다.
인지된 오디토리 이벤트의 시작부 또는 말단부의 유력한 지시자는 스펙트럼 콘텐츠에서 변동이 있는 것으로 여겨진다. 음색과 피치(스펙트럼 콘텐츠)에서의 변동과, 부수적 결과로서, 진폭에서의 일정한 변동을 검출하기 위해서, 본 발명의 양태에 따른 오디오 이벤트 검출 프로세스는 시간에 따른 스펙트럼 콘텐츠에서의 변동을 검출한다. 선택적으로, 본 발명의 다른 양태에 따라, 프로세스는 시간에 따른 스펙트럼 조합에서의 변동을 검출함으로써 검출되지 않은 시간에 따른 진폭에서의 변동을 검출한다.
최소한의 계산적 요구를 하는 구현예에서, 프로세스는, 오디오 신호의 전체 주파수 대역(전체 대역폭 오디오) 또는 대체로 전체 주파수 대역을 분석하고(실제 구현예에서, 스펙트럼 종단에서 대역 제한 필터링이 종종 사용됨) 가장 큰 가중을 가장 시끄러운 오디오 신호 성분에 둠으로써 오디오를 타임 세그먼트로 분할한다. 이러한 접근법은 소형 타임 스케일(20msec)에서 귀가 일정한 시간에 단일 오디토리 이벤트에 집중하는 경향이 있는 심리음향 현상을 이용한다. 이는 다수의 이벤트가 동시에 발생하며, 하나의 성분이 지각적으로 가장 현저한 경향이 있으며 마치 이벤트만이 발생하는 것처럼 개별적으로 프로세싱됨을 의미한다. 이러한 효과를 이용하는 것은 또한 오디토리 이벤트 검출이 프로세싱되는 오디오의 복잡도로 스케일하도록 한다. 입력 보이스 신호와 유사하게 스피치의 개별 성분들, 자음과 모음은 예를 들면 개별 오디오 엘리먼트로서 식별될 것이다. 오디오(이를테면, 드럼비트 또는 다수의 기기와 보이스를 갖는 음악)의 복잡성이 증가함에 따라, 오디토리 이벤트 검출은 임의의 순간에 가장 현저한(즉, 가장 시끄러운) 오디오 엘리먼트를 식별한다. 이와 달리, "가장 현저한" 오디오 엘리먼트는 가청 임계와 주파수 응답을 고려하여 결정된다.
선택적으로, 본 발명의 다른 양태에 따르면, 커다란 계산적 복잡성에 비하여, 프로세스는 전체 대역폭보다는 이산 주파수 대역들(고정 또는 동적으로 결정된, 또는 고정 및 동적으로 결정된 대역들)의 시간에 따른 스펙트럼 조합에서의 변동을 고려한다. 이러한 대안적 접근법은, 단일 스펙트럼만이 특정 시간에 인식될 수 있다는 추정보다는 서로 다른 주파수 대역의 1개 이상의 오디오 스트림을 고려한다.
심지어 오디오를 세그먼트하기 위한 본 발명의 양태에 따른 간다하며 계산적으로 효율적인 프로세스는 오디토리 이벤트를 식별하는데 유용한 것으로 밝혀져왔다.
본 발명의 오디토리 이벤트 검출 프로세스는, 타임 도메인 오디오 파형을 시간 간격 또는 블럭들로 분할하고 그후 각 블럭의 데이터를 필터 뱅크 또는 시간-주파수 변환, 이를테면 이산 퓨리에 변환(DFT)을 사용하여 주파수 도메인으로 컨버트함으로써 구현된다(속도를 위해 패스트 퓨리에 변환(FFT)으로서 구현된다). 각 블럭의 스펙트럼 콘텐츠의 진폭은 진폭 변동의 효과를 제거 또는 감소시키기 위해 정규화된다. 각각의 결과적인 주파수 도메인 표시는 특정 블럭에 있는 오디오의 스펙 트럼 콘텐츠의 지시(진폭을 주파수 함수로서)를 제공한다. 연속 블럭들의 스펙트럼 콘텐츠가 비교되고 임계보다 더 큰 변동은 오디토리 이벤트의 시간적 시작점 또는 시간적 종단점을 지시하도록 취하여 질 것이다.
계산적 복잡성을 최소화시키기 위해서, 타임 도메인 오디오 파형의 주파수중 단일 대역만이, 바람직하게는 스펙트럼의 전체 주파수 대역(이는 평균 품질 음악 시스템의 경우에, 약 50Hz 내지 15kHz이다) 또는 대체로 전체 주파수 대역(예를 들면, 대역 제한 필터가 고주파수와 저주파수 극한을 제외한다)이 프로세싱된다.
바람직하게는, 주파수 도메인 데이터가 하기에 기술된 것처럼 정규화된다. 주파수 도메인 데이터가 정규화될 필요가 있는 정도가 진폭의 지시를 제공한다. 그러므로, 이러한 정도의 변동이 소정의 임계를 초과하면, 그것은 또한 이벤트 경계를 지시하도록 취하여진다. 스펙트럼 변동으로부터 그리고 진폭 변동으로부터 야기되는 이벤트 시작점과 종단점들이 함께 OR되어 양측 유형의 변동으로부터 야기되는 이벤트 경계가 식별된다.
오디오가 블럭들로 분할된 샘플들로 표시되는 실제 실시예에서, 각 오디토리 이벤트 시간적 시작점과 종단점 경계는 타임 도메인 오디오 파형이 분할되는 블럭의 경계와 일치한다. 실시간 프로세싱 요건(대형 블럭들이 적은 프로세싱 오버헤드를 요구)과 이벤트 위치의 분해능(소형 블럭들이 오디토리 이벤트에 대한 더 상세한 정보를 제공)간의 트레이드 오프이다.
부가적인 선택으로서, 상기에 제시된 것처럼, 그러나 커다란 계산적 복잡성을 희생시켜가며, 단일 대역의 주파수의 타임 도메인 파형의 스펙트럼 콘텐츠를 프 로세싱하는 대신에, 주파수 도메인 컨버젼 이전의 타임 도메인 파형의 스펙트럼이 2개 이상의 주파수 대역으로 분할된다. 각각의 주파수 대역들이 주파수 도메인으로 컨버트되고 그후 마치 독립 채널인 냥 프로세싱된다. 결과적인 이벤트 경계들은 그후 그 채널에 대한 이벤트 경계를 규정하도록 함께 OR된다. 다수의 주파수 대역들은 고정형, 적응형, 또는 고정형과 적응형의 조합이다. 오디오 노이즈 감쇄에 사용된 트랙킹 필터 기술들과 기타 기술들은, 예를 들면, 적응형 주파수 대역을 규정하도록 사용된다(예를 들면, 800Hz와 2kHz에서 지배적인 동시 사인파들이 2개의 주파수에 집중되는 2개의 적응적으로 결정되는 대역의 결과로 나타날 수 있다).
오디토리 신 분석을 제공하기 위한 다른 기술들은 본 발명의 오디토리 이벤트를 식별하는데 사용된다.
도 1A는 본 발명에 따라 오디오 신호에서 시그너쳐의 추출 프로세스를 나타내는 순서도이다. 오디오 신호는, 예를 들면, 음악(예를 들면, 음악 저작물 또는 "노래")을 나타낸다.
도 1B는 본 발명에 따라 2개 오디오 신호의 타임 정렬을 위한 프로세스를 도시하는 순서도이다.
도 2는 본 발명에 따라 오디오 신호에서 지배적인 서브대역의 선택적 추출과 오디오 이벤트 위치의 추출 프로세스를 도시하는 순서도이다.
도 3은 본 발명에 따라 스펙트럼 분석의 단계를 도시하는 개략적인 개념도이다.
도 4A와 4B는 본 발명에 따라 다수의 오디토리 이벤트 위치와 오디토리 이벤트 경계를 나타내는 이상적인 오디오 파형이다.
발명의 실제 실시예에서, 오디오 신호는 512 샘플의 블럭으로 프로세싱되는 샘플로 표시되며, 이는 44.1kHz의 샘플링 레이트에서 약 11.6msec의 입력 오디오에 해당한다. 가장 짧은 인식 가능한 오디토리 이벤트의 기간(약 20msec)보다 적은 시간을 갖는 블럭 길이가 바람직하다. 본 발명의 양태들은 그러한 실제 실시예로 제한되지 않음이 이해될 것이다. 발명의 원리들은 오디토리 이벤트를 결정하기 이전에 오디오를 샘플 블럭들로 정렬하는 것을 요구하지 않을 뿐만 아니라, 그렇더라도, 일정한 길이의 블럭들을 제공하는 것을 요구하지 않는다. 그러나, 복잡성을 최소화하기 위해서, 512 샘플의 고정 블럭 길이(또는 샘플중 2개 수자의 다른 멱(power))가 3가지 주요 이유 때문에 유용하다. 첫째, 상기 길이는 실시간 프로세싱 어플리케이션에 허용가능한 낮은 충분한 지연을 제공한다. 둘째, 상기 길이는 샘플중 2개 수자의 멱으로, 패스트 퓨리에 변환(FFT) 분석에 유용하다. 셋째, 상기 길이는 유용한 오디토리 신 분석을 실행하도록 적절한 대형 윈도우 사이즈를 제공한다.
하기 논의에서는, 입력 신호들이 [-1, +1] 범위의 진폭값을 갖는 데이터인 것으로 추정된다.
오디토리 신 분석(2) 1A)
오디오 입력 데이터 블럭킹(도시되지 않음)에 이어, 입력 오디오 신호가 오 디토리 이벤트로 분할되며, 그 각각은 도 1A의 프로세스(2)("오디토리 신 분석")에서, 개별적인 것으로서 인식되는 경향이 있다. 오디토리 신 분석은 상기 논의된 오디토리 신 분석(ASA) 프로세스에 의해 달성될 수 있다. 비록 오디토리 신 분석을 실행하기 위한 한가지 적절한 프로세스가 하기에 더 상세히 기술되어 있더라도, 본 발명은 ASA를 실행하기 위한 다른 유용한 기술이 사용될 수 있음을 고려한다.
도 2는 도 1A의 오디토리 신 분석 프로세스로서 사용되는 본 발명의 기술에 따른 프로세스를 약술한다. ASA 단계 또는 프로세스(2)는 3개의 일반적인 프로세싱 서브단계로 이루어진다. 제 1 서브단계(2-1)("스펙트럼 분석을 실행")는 오디오 신호를 취득하여, 그것을 블럭들로 분할하고 각각의 블럭에 대해 스펙트럼 프로파일 또는 스펙트럼 콘텐츠를 계산한다. 스펙트럼 분석은 오디오 신호를 단기 주파수 도메인으로 변환시킨다. 이는 임의의 필터뱅크; 대역-통과 필터의 변환 또는 뱅크중 어느 하나에 기초하여, 그리고 선형 또는 왜곡된(warped) 주파수 스페이스(이를테면 바크 스케일(Bark scale) 또는 임계 대역, 이것이 사람 귀의 특성에 더 잘 근접하다)에서 사용하여 실행될 수 있다. 임의의 필터뱅크에는 시간과 주파수간에 트레이드오프가 있다. 시간 분해능이 클 수록, 그리고 시간 간격이 짧을 수록 더 낮은 주파수 분해능을 야기한다. 주파수 분해능이 클 수록, 그리고 서브대역일 더 협소할 수록 더 긴 시간 간격을 야기한다.
제 1 서브단계(2-1)는 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산한다. 하기된 실시예에서, ASA 블럭 사이즈는 512 샘플의 입력 오디오 신호이다(도 3). 제 2 서브단계(2-2)에서, 블럭간 스펙트럼 콘텐츠의 차가 결정된다(" 스펙트럼 프로파일 차 측정을 실행"). 그러므로, 제 2 서브단계는 오디오 신호의 연속 타임 세그먼트간에 스펙트럼 콘텐츠의 차를 계산한다. 제 3 서브단계(2-3)("오디토리 이벤트 경계의 위치를 식별")에서, 하나의 스펙트럼-프로파일 블럭과 다음 블럭간의 스펙트럼 차가 임계보다 클 때, 블럭 경계는 오디토리 이벤트 경계로 여겨진다. 그러므로, 제 3 서브단계는, 그러한 연속 타임 세그먼트간의 스펙트럼 프로파일 콘텐츠의 차가 임계를 초과할 때 연속 타임 세그먼트간에 오디토리 이벤트 경계를 설정한다. 상기 논의된 것처럼, 인식된 오디토리 이벤트의 시작부와 말단부의 유력한 지시자는 스펙트럼 콘텐츠에 변동이 있는 것으로 여겨진다. 이벤트 경계의 위치들이 시그너쳐로서 저장된다. 선택적 프로세스 단계(2-4)("지배적 서브대역을 식별")는 시그너쳐의 부분으로서 또한 저장되는 지배적인 주파수 서브대역을 식별하기 위해 스펙트럼 콘텐츠를 사용한다.
본 실시예에서, 오디토리 이벤트 경계들은 최소 길이의 1개 스펙트럼 프로파일 블럭을 갖는 정수 배수의 스펙트럼 프로파일 블럭들인 길이를 갖는 오디토리 이벤트를 규정한다(본 예에서, 512 샘플). 원칙적으로, 이벤트 경계들은 그렇게 제한될 필요가 없다.
오디오의 중첩 또는 비중첩 세그먼트들이 윈도우되며 입력 오디오의 스펙트럼 프로파일을 연산하는데 사용된다. 중첩은 오디토리 이벤트의 위치에 관해 더 미세한 분해능을 야기하며 또한 과도현상과 같은 이벤트를 덜 놓치기 쉽게 한다. 그러나, 시간 분해능이 증가함에 따라, 주파수 분해능이 감소한다. 중첩 또한 연산 복잡성을 증가시킨다. 그러므로, 중첩이 생략될 수 있다. 도 3은 이산 퓨리에 변환(DFT)에 의해 주파수 도메인으로 윈도우 및 변환되는 비-중첩 512 샘플 블럭의 개략도를 나타낸다. 각 블럭은 이를테면 DFT를 사용하여 윈도우 및 변환되며, 바람직하게는 스피드를 위해 패스트 퓨리에 변환(FFT)으로서 구현된다.
하기 변수들은 입력 블럭의 스펙트럼 프로파일을 연산하는데 사용된다:
N = 입력 신호에서의 샘플 개수
M = 스펙트럼 프로파일을 연산하는데 사용된 윈도우된 샘플의 개수
P = 스펙트럼 연산 중첩의 샘플 개수
Q = 연산된 스펙트럼 윈도우/영역 개수
일반적으로, 임의의 정수들이 상기 변수로 사용될 수 있다. 그러나, 구현예는 만일 M이 2의 멱으로 설정되어 표준 FFT가 스펙트럼 프로파일 계산을 위해 사용된다면 더 효율적일 것이다. 오디토리 이벤트 신 분석 프로세스의 실시예에서, 목록에 나타난 파라미터들이 다음과 같이 설정될 수 있다:
M = 512 샘플(또는 44.1kHz에서 11.6msec)
P = 0 샘플(중첩없음)
상기 목록의 값들은 실험적으로 결정되었으며 일반적으로 오디토리 이벤트의 위치와 기간을 충분한 정확도로 식별하는 것으로 밝혀졌다. 그러나, P의 값을 256 샘플(50% 중첩)로 설정하면 일부 찾기 어려운 이벤트들을 식별하는데 유용한 것으로 밝혀졌다. 수많은 서로 다른 유형의 윈도우들은 윈도우잉으로 인한 스펙트럼 가공물을 최소화시키는데 사용되지만, 스펙트럼 프로파일 연산에 사용된 윈도우는 M-포인트 해닝, 카이저-베셀 또는 다른 적절한, 바람직하게는 비-지각, 윈도우이다. 상기 지시된 값들과 해닝 윈도우형은 폭넓은 실험 분석후 선택된 것으로서 그것들은 넓은 범위의 오디오 재제에 대한 우수한 결과를 제공하는 것으로 나타낸다. 비-직각 윈도우잉은 주로 저주파수 콘텐츠를 지닌 오디오 신호의 프로세싱을 위해 바람직하다. 직각 윈도우잉은 이벤트의 부정확한 검출을 야기하는 스펙트럼 가공물을 생성한다. 일정한 코덱 어플리케이션과 달리 전반적인 중첩/부가 프로세스가 일정한 레벨을 제공하여야 하지만, 그러한 제약은 본문에 적용되지 않으며 윈도우는 그 시간/주파수 분해능과 저지-대역 삭제와 같은 특성을 위해 선택된다.
서브단계(2-1)에서, 각 M-샘플 블럭의 스펙트럼은 데이터를 M-포인트 해닝, 카이저-베셀 또는 다른 적절한 윈도우로 윈도우잉하며, M-포인트 패스트 퓨리에 변환을 사용하여 주파수 도메인으로 컨버트하고, FFT 계수의 크기를 계산하여 연산된다. 결과적인 데이터가 정규화되어 최대 진폭이 단위체로 설정되고, M개의 정규화된 어레이가 로그 도메인으로 컨버트된다. 상기 어레이는 로그 도메인으로 컨버트될 필요가 없지만, 컨버젼은 서브단계(2-2)에서 차 측정의 계산을 간략하게 한다. 더욱이, 로그 도메인이 사람 청각 시스템의 로그 도메인 진폭 특성에 더 밀접히 일치한다. 결과적인 로그 도메인 값들은 마이너스 무한대에서 제로의 범위를 갖는다. 실시예에서, 낮은 제한이 값들의 범위에 부가될 수 있다; 상기 제한이, 예를 들면 -60dB로 고정되거나 또는 주파수 의존적이어서 저주파수 또는 매우 고주파수에서 조용한 사운드의 더 낮은 가청도를 반영한다. (FFT가 네거티브 뿐만 아니라 포지티브 주파수를 표시한다는 점에서 어레이의 사이즈를 M/2로 감소시키는 것이 가능함에 유의한다).
서브단계(2-2)는 인접한 블럭들의 스펙트럼간의 차 측정을 계산한다. 각 블럭에 대해, 서브단계(2-1)에서 각각의 M(log) 스펙트럼 계수들이 선행 블럭에 대해 해당 계수에서 감하여지고, 차이의 크기가 계산된다(부호는 무시됨). 이러한 M 차이가 그후에는 하나의 수로 합산된다. 그러므로, 전체 오디오 신호에 대해, 상기 결과는 Q 포지티브 개수의 어레이이다; 수가 클 수록 블럭이 선행 블럭의 스펙트럼과 더 상이하다. 이러한 차 측정은 또한 차 측정을 합산에 사용된 스펙트럼 계수(이 경우 M 계수)의 수로 나누어 스펙트럼 계수당 평균 차로서 표현될 수 있다.
서브단계(2-3)는 임계값을 갖는 서브단계(2-2)로부터 차 측정치의 어레이에 임계치를 적용하여 오디토리 이벤트 경계의 위치를 식별한다. 차 측정치가 임계를 초과할 때, 스펙트럼의 변동이 새로운 이벤트의 신호에 충분한 것으로 간주되고 변동의 블럭 넘버가 이벤트 경계로서 저장된다. 상기 주어진 M과 P값에 대해 그리고 dB 단위로 표현된 로그 도메인 값(서브단계(2-1))에 대해, 임계치는 만일 완전한 크기의 FFT(거울상 부분을 포함)가 비교된다면 2500으로 설정되거나 또는 만일 FFT의 1/2이 비교된다면 1250으로 설정된다(상기 언급된 것처럼, FFT는 네거티브 이외에 포지티브 주파수를 표시한다 - FFT의 크기에 대해, 하나는 다른 것의 거울상이다). 이 값은 실험적으로 선택되었으며 그것은 양호한 오디토리 이벤트 경계 검출을 제공한다. 이 파라미터 값은 이벤트의 검출을 감소(임계를 증가) 또는 증가(임계를 감소)시키도록 변동된다. 본 실시예의 상세한 사항들이 중요하지는 않다. 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산하며, 연속 타임 세그먼트간의 차를 계산하고, 그러한 연속 타임 세그먼트간에 스펙트럼 프로파일 콘텐츠 의 차가 임계를 초과할 때 연속 타임 세그먼트간의 각 경계에서 오디토리 이벤트 경계를 설정하는 다른 방식들이 사용될 수 있다.
Q 블럭들(사이즈 M 블럭들)로 이루어진 오디오 신호에 대해, 도 1A의 함수부(2)의 오디토리 신 분석 프로세스의 출력이 오디토리 이벤트 경계의 위치를 나타내는 정보의 B(q) 어레이이며, 여기서 q = 0, 1, .., Q-1이다. M=512 샘플의 블럭 사이즈, P = 0 샘플의 중첩 및 44.1kHz의 신호-샘플링 레이트에 대해, 오디토리 신 분석 함수부(2)는 1초당 대략 86값을 출력한다. 바람직하게는, 어레이 B(q)가 시그너쳐로서 저장되므로, 그 기본적 형태에서, 선택적인 지배적 서브대역 주파수 정보없이, 오디오 신호의 시그너쳐는 오디토리 이벤트 경계의 스트링을 표시하는 어레이 B(q)이다.
2개의 차동 신호에 대한 오디토리 신 분석의 결과의 예가 도 4A와 4B에 나타나 있다. 도 4A는, 오디토리 이벤트 경계들이 샘플 1024와 1536에서 식별되었을 경우의 오디토리 신 프로세싱의 결과를 나타낸다. 도 4B는 샘플 1024, 2048 및 3072에서 이벤트 경계의 식별을 나타낸다.
지배적인 서브대역을 식별(선택적임)
각 블럭에 대해, ASA 프로세싱의 선택적 부가 단계(도 2에 나타남)는 블럭의 지배적인 주파수 "서브대역"을 지시하는 오디오 신호에서 정보를 추출하는 것이다(주파수 도메인으로 각 블럭에 있는 데이터의 컨버젼이 주파수 서브대역으로 분할된 정보의 결과를 나타낸다). 이 블럭 기반 정보가 오디토리 이벤트 기반 정보로 컨버트되므로, 지배적인 주파수 서브대역이 매 오디토리 이벤트로 식별된다. 매 오디토 리 이벤트에 대한 이 정보는 오디토리 이벤트 경계 정보에 더하여 부가적인 정보를 지닌 상관 프로세싱(하기 기술됨)을 제공한다.
지배적인(가장 큰 진폭) 서브대역은 다수의 서브대역들, 3 또는 4에서 선택되며, 예를 들면, 그것은 사람 귀가 가장 민감한 주파수의 범위 또는 대역내에 있다. 이와 달리, 서브대역들을 선택하기 위해 다른 기준이 사용될 수 있다. 스펙트럼은, 예를 들면, 3개 서브대역으로 분할될 수 있다. 서브대역의 바람직한 주파수 범이는 다음과 같다:
서브대역 1 301Hz 내지 560Hz
서브대역 2 560Hz 내지 1938Hz
서브대역 3 1938Hz 내지 9948Hz
지배적인 서브대역을 결정하기 위해서, 크기 스펙트럼(또는 파워 크기 스펙트럼)의 제곱이 각 서브대역에 대해 합산된다. 각 서브대역에 대한 합산 결과가 계산되고 가장 큰 합이 선택된다. 서브대역들은 또한 가장 큰 합산을 선택하기 이전에 가중될 수 있다. 상기 가중 단계는 각 서브대역에 대한 합산을 서브대역의 스펙트럼 값의 수로 나누는 형태를 취하거나, 또는 이와 달리 덧셈 또는 곱셈의 형태를 취하여 다른 것보다 대역의 중요성을 강조한다. 이는 일부 서브대역들이 다른 서브대역들보다도 평균하여 더 많은 에너지를 갖지만 지각적으로 덜 중요하다.
Q 블럭으로 이루어진 오디오 신호를 고려하면, 지배적인 서브대역 프로세싱의 출력은 각 블럭의 지배적인 서브대역을 나타내는 정보의 DS(q) 어레이이다(q=0, 1,.., Q-1). 바람직하게는, 어레이 DS(q)가 어레이 B(q)와 함께 시그너쳐에 저장된 다. 그러므로, 선택적인 지배적인 서브대역 정보와 함께, 오디오 신호의 시그너쳐는 2개 어레이 B(q)와 DS(q)이며, 각각 오디토리 이벤트 경계의 스트링과 각 서브대역내의 지배적인 주파수 서브대역을 나타낸다. 그러므로, 이상적인 예에서, 상기 2개 어레이는 다음의 값을 가질 수 있다(본 케이스에 대해 3개의 가능한 지배적인 서브대역이 있다).
1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 (이벤트 경계)
1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1 (지배적인 서브대역)
대부분의 경우에, 지배적인 서브대역은 본 예에 나타난 것처럼 각 오디토리 이벤트내에 동일하게 남거나, 또는 이벤트내의 모든 블럭에 대해 균일하지 않다면 평균값을 갖는다. 그러므로, 지배적인 서브대역은 각 오디토리 이벤트에 대해 결정되며 어레이 DS(q)는 동일한 지배적인 서브대역이 이벤트내의 각 블럭에 할당됨을 제공하도록 수정된다.
오프셋 계산
시그너쳐 추출의 출력(도 1A)은 상기된 것처럼 시그너쳐로서 저장되는 오디토리 신 분석 정보의 1개 이상의 어레이이다. 타임 오프셋 계산 함수부(도 1B)는 2개 시그너쳐를 취득하고 그 타임 오프셋의 척도를 계산한다. 이는 공지된 교차 상관 방법을 사용하여 실행된다.
S1(길이 N1)이 시그너쳐 1의 어레이이며 S2(길이 N2)가 시그너쳐 2의 어레이이다. 우선 상관-관계 어레이 를 계산한다(예를 들면, 존 지. 프로아키스, 디 미트리스 지. 마노라키스, Digital Signal Processing:Principles, Algorithms, and Applications, 맥밀란 출판사, 1992, ISBN 0-02-396815-X 참조).
실시예에서, 교차-상관은 실행 시간을 감소시키기 위해 표준 FFT 기반 기술을 사용하여 실행된다.
S1과 S2가 유한 길이이므로, 의 비-제로 구성요소는 Q1+Q2-1의 길이를 갖는다. S1과 S2가 유사하다고 추정하면, 에서 최대 엘리먼트에 해당하는 지연(l)은 S1에 비례하는 S2의 타임 오프셋을 표시한다.
이러한 오프셋은 동일 유니트를 시그너쳐 어레이 S1과 S2로서 갖는다. 실시예에서, S1과 S2의 엘리먼트는 어레이를 발생시키는데 사용된 오디오 블럭 사이즈 마이너스 인접한 블럭들의 중첩에 대응하는 갱신율을 갖는다: 즉, M-P=512-0=512 샘플. 따라서, 오프세슨 512 오디오 샘플의 유니트를 갖는다.
타임 정렬
타임 정렬 함수부(6)(도 1B)는 계산된 오프셋을 사용하여 2개 오디오 신호를 타임 정렬시킨다. 입력으로 오디오 신호 1과 2(2개 시그너쳐를 발생시키는데 사용됨)를 취득하고 하나를 다른 하나와 관련하여 오프셋시켜 그 신호들이 시간에서 더 밀접하게 정렬된다. 2개의 정렬된 신호들은 오디오 신호 3과 4로서 출력된다. 적용되는 딜레이 또는 오프셋의 양은 샘플에서 시그너쳐의 분해능(M-P)과 시그너쳐(S1과 S2)간의 상대적인 시그너쳐 딜레이(lpeak)의 곱이다.
2개 소스에 공통 통로(passage)만이 중요한 어플리케이션에 대해(마킹되지 않은 신호와 마킹된 신호가 직접적으로 비교되는 워터마크 검출의 경우에서 처럼), 2개 소스가 절단되어 그 공통 통로만을 유지한다.
어떠한 정보도 손실되지 않는 어플리케이션에 대해, 하나의 신호는 선두 샘플의 삽입에 의해 오프셋된다. 예를 들면, x1(n)은 N1 샘플의 길이를 갖는 오디오 신호 1의 샘플이며 x2(n)는 N2 샘플의 길이를 갖는 오디오 신호 2라고 하자. 또한 lpeak는 M-P 오디오 샘플의 단위로 S1에 비례하는 S2의 오프셋을 표시한다.
오디오 신호 1에 비례하는 오디오 신호 2의 샘플 오프셋(D21)은 시그너쳐 오프셋 lpeak 와 M-P의 곱이다.
D21 = lpeakㆍ(M-P) (3)
만일 D21이 제로라면, 양측 입력 신호들은 신호 3과 4처럼 수정되지 않은 채 출력된다(도 1B 참조). 만일 D21이 포지티브라면 입력 신호 x1(n)은 선두 샘플들을 삽입시킴으로써 수정된다.
신호 x'1(n)과 x2(n)이 신호 3과 4처럼 출력된다(도 1B 참조). 만일 D21이 네거티브라면 입력 신호 x2(n)은 선두 샘플들을 삽입시킴으로써 수정된다.
연산 복잡성과 정확성
오프셋을 계산하는데 요구되는 연산적 파워는 시그너쳐 어레이의 길이, Q1과 Q2에 비례한다. 개시된 프로세스는 몇몇 오프셋 에러를 가지므로, 본 발명의 타임 정렬 프로세스에 이어 시그너쳐 보다는 오디오 신호와 직접적으로 작동하는 미세한 분해능을 갖는 종래 프로세스가 이어진다. 예를 들면, 그러한 프로세스는 정렬된 오디오 신호들의 섹션들을 취득하고 상기 섹션들을 직접적으로 교차 상관하여 정확한 샘플 에러 또는 미세한 오프셋을 결정한다.
시그너쳐 어레이들은 샘플 오프셋을 계산하는데 사용되므로, 타임 정렬 방법의 정확성은 시그너쳐를 발생시키는데 사용된 오디오 블럭 사이즈로 제한된다: 본 구현예에서, 512 샘플. 다시 말해서, 본 방법은 블럭 사이즈의 대략 +/- 1/2의 샘플 오프셋에 에러를 갖는다: 본 구현예에서 ±256 샘플.
이러한 에러는 시그너쳐들의 분해능을 증가시킴으로써 감쇄될 수 있다; 그러 나, 정확성과 연산 복잡성간에 트레이드오프가 있을 수 있다. 하위 오프셋 에러는 시그너쳐 어레이(더 많은 어레이 엘리먼트)에서 미세한 분해능을 요구하며 이는 교차 상관을 연산시 높은 프로세싱 파워를 요구한다. 상위 오프셋 에러는 시그너쳐 어레이(적은 어레이 엘리먼트)에서 조잡한 분해능을 요구하며 이는 교차 상관을 연산히 낮은 프로세싱 파워를 요구한다.
어플리케이션
워터마킹은, 다른 신호들의 부가를 포함하여, 소정의 방식으로 신호를 변경하여 신호에 정보를 삽입하는 단계를 수반하여 마킹된 신호를 생성한다. 삽입된 정보의 검출 또는 추출은 종종 오리지날 소스와 마킹된 신호의 비교에 좌우한다. 또한 마킹된 신호는 종종 오디오 코딩 및 스피커/마이크로폰 음향 경로 전송을 포함하는 다른 프로세싱을 겪는다. 본 발명은 마킹된 신호를 정렬하는 방법을 오리지날 소스에 제공하여 삽입된 정보의 추출을 용이하게 한다.
오디오 코더 품질을 결정하는 주관적 및 객관적 방법은, 신호 저하의 척도를 생성하기 위해서, 코딩된 신호를 발생시키는데 사용된, 오리지날 소스와 코딩된 신호를 비교한다(예를 들면, ITU-R 5 포인트 손상 스코어).
상기 비교는 코딩된 오디오 신호와 오리지날 소스 신호의 타임 정렬에 좌우한다. 이러한 방법은 소스와 코딩된 신호들을 타임 정렬하는 수단을 제공한다.
본 발명의 다른 어플리케이션들은, 예를 들면, 상기 언급된 것처럼 오디오 및 비디오 신호의 립-싱크를 개선시키는 것이다.
본 발명의 다른 변형 및 수정들과 그 다양한 양태들의 구현예가 당업자에게 자명할 것이며, 본 발명이 개시된 특정 실시예로 제한되지 않음이 이해되어야 한다. 따라서, 본 발명과 모든 수정, 변형, 또는 본문에 개시 및 청구된 기본적인 주요 원리의 사상 및 범위내에 있는 등가물에 의해 보호됨이 고려된다.
본 발명과 그 다양한 양태들은 디지털 신호 프로세서에서 실행되는 소프트웨어 함수, 프로그래밍된 범용 디지털 컴퓨터, 및/또는 특정 디지털 컴퓨터로서 구현될 수 있다. 아날로그와 디지털 신호 스트림간의 인터페이스는 적절한 하드웨어로 및/또는 소프트웨어 및/또는 펌웨어의 함수로 실행될 수 있다.
Claims (9)
- 제 1 및 제 2 오디오 신호를 타임 정렬하는데, 하나의 오디오 신호가 다른 오디오 신호로부터 도출되거나 또는 양측 오디오 신호가 다른 오디오 신호로부터 도출되는, 타임 정렬 방법에 있어서,상기 제 1 및 제 2 오디오 신호 각각의 감축된 정보 특성을 도출하는 단계로서, 각 특성은 도출되는 오디오 신호보다 적은 정보로 구성되는데, 상기 감축된 정보 특성들은 오디토리 신(scene) 분석에 기초하며, 상기 특성들은 시간 분해능의 특성에 동일하게 적용되는 서로에 대한 타이밍 관계를, 도출되는 오디오 신호들의 서로에 대한 타이밍 관계로서 갖는, 감축된 정보 특성을 도출하는 단계;하나의 특성을 다른 특성에 대해 타임 오프셋을 계산하는 단계; 및상기 오디오 신호들이 더 밀접하게 정렬되도록 상기 타임 오프셋에 응답하여 상기 오디오 신호들의 시간적 관계를 서로 수정하는 단계;에 의해 타임 정렬하는 방법.
- 제1항에 있어서, 각각의 상기 오디오 신호들은 수반하는 다른 신호를 가지고, 각각의 상기 감축된 정보 특성은, 상기 계산 단계 및 수정 단계 이전에, 각 감축된 정보 특성이 도출되었던 오디오 신호의 수반하는 다른 신호로 삽입(embed)되는 것을 특징으로 하는 타임 정렬하는 방법.
- 제2항에 있어서, 상기 다른 신호들은 비디오 신호들인 것을 특징으로 하는 타임 정렬하는 방법.
- 제1항에 있어서, 타임 오프셋을 계산하는 단계는 상기 특성들의 교차-상관을 수행하는 단계를 포함하는 것을 특징으로 하는 타임 정렬하는 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서, 오디토리 신 이벤트에 기초한 상기 감축된 정보 특성들은 적어도 오디토리 이벤트 경계들의 위치를 나타내는 정보의 어레이들이고, 상기 위치는 시간 분해능의 특성에 적용을 받는 것을 특징으로 하는 타임 정렬하는 방법.
- 제5항에 있어서, 상기 오디토리 이벤트 경계들은,상기 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산하는 단계;상기 오디오 신호의 연속 타임 세그먼트 간의 스펙트럼 콘텐츠에서의 차이(difference)를 계산하는 단계; 및연속 타임 세그먼트 간의 스펙트럼 콘텐츠에서의 차이가 임계를 초과할 때 오디토리 이벤트 경계를 연속 타임 세그먼트 간의 경계로서 식별하는 단계;를 포함하는 것을 특징으로 하는 타임 정렬하는 방법.
- 제5항에 있어서, 상기 정보의 어레이들은 또한 각각의 상기 오디토리 이벤트들의 지배적인 주파수 서브대역을 나타내는 것을 특징으로 하는 타임 정렬하는 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 오디오 신호들의 감축된 정보 특성들은 동일한 방식으로 각각 도출되는 것을 특징으로 하는 타임 정렬하는 방법.
- 삭제
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29382501P | 2001-05-25 | 2001-05-25 | |
US60/293,825 | 2001-05-25 | ||
US4564402A | 2002-01-11 | 2002-01-11 | |
US10/045,644 | 2002-01-11 | ||
US35149802P | 2002-01-23 | 2002-01-23 | |
US60/351,498 | 2002-01-23 | ||
PCT/US2002/004317 WO2002084645A2 (en) | 2001-04-13 | 2002-02-12 | High quality time-scaling and pitch-scaling of audio signals |
USPCT/US02/04317 | 2002-02-12 | ||
PCT/US2002/005806 WO2002097791A1 (en) | 2001-05-25 | 2002-02-25 | Method for time aligning audio signals using characterizations based on auditory events |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040004647A KR20040004647A (ko) | 2004-01-13 |
KR100871607B1 true KR100871607B1 (ko) | 2008-12-02 |
Family
ID=39362827
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037015333A KR100873396B1 (ko) | 2001-05-25 | 2002-02-22 | 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법 |
KR1020037015335A KR100871607B1 (ko) | 2001-05-25 | 2002-02-25 | 오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법 |
KR1020037015336A KR100911679B1 (ko) | 2001-05-25 | 2002-02-26 | 오디오 신호를 오디토리 이벤트로 세그먼트하는 방법 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037015333A KR100873396B1 (ko) | 2001-05-25 | 2002-02-22 | 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037015336A KR100911679B1 (ko) | 2001-05-25 | 2002-02-26 | 오디오 신호를 오디토리 이벤트로 세그먼트하는 방법 |
Country Status (11)
Country | Link |
---|---|
EP (2) | EP1390942B1 (ko) |
JP (2) | JP4906230B2 (ko) |
KR (3) | KR100873396B1 (ko) |
CN (2) | CN1272765C (ko) |
AT (1) | ATE470927T1 (ko) |
DE (1) | DE60236648D1 (ko) |
DK (1) | DK1393300T3 (ko) |
ES (1) | ES2400700T3 (ko) |
HK (2) | HK1066087A1 (ko) |
MX (2) | MXPA03010751A (ko) |
WO (1) | WO2002097791A1 (ko) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
EP1386312B1 (en) | 2001-05-10 | 2008-02-20 | Dolby Laboratories Licensing Corporation | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
CA2992097C (en) | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
CA2581982C (en) | 2004-09-27 | 2013-06-18 | Nielsen Media Research, Inc. | Methods and apparatus for using location information to manage spillover in an audience monitoring system |
MX2007015118A (es) | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
US7948557B2 (en) * | 2005-06-22 | 2011-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a control signal for a film event system |
JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
DE602007011594D1 (de) | 2006-04-27 | 2011-02-10 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
RU2009100847A (ru) * | 2006-06-13 | 2010-07-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Идентификационная метка, устройство, способ для идентификации и синхронизации видеоданных |
JP5040425B2 (ja) * | 2007-05-10 | 2012-10-03 | カシオ計算機株式会社 | コンテンツ再生方法、再生装置、及びプログラム |
GB2457694B (en) * | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
EP2425426B1 (en) * | 2009-04-30 | 2013-03-13 | Dolby Laboratories Licensing Corporation | Low complexity auditory event boundary detection |
US8855101B2 (en) | 2010-03-09 | 2014-10-07 | The Nielsen Company (Us), Llc | Methods, systems, and apparatus to synchronize actions of audio source monitors |
CN102142257B (zh) * | 2010-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种音频信号处理方法及装置 |
WO2013017966A1 (en) * | 2011-08-03 | 2013-02-07 | Nds Limited | Audio watermarking |
WO2012163013A1 (zh) * | 2011-10-19 | 2012-12-06 | 华为技术有限公司 | 音乐查询方法和装置 |
WO2013158787A1 (en) * | 2012-04-17 | 2013-10-24 | Sirius Xm Radio Inc. | Server side crossfade for progressive download media |
MX356063B (es) | 2011-11-18 | 2018-05-14 | Sirius Xm Radio Inc | Sistemas y metodos que implementan la transicion gradual, los intersticiales y otros efectos corriente abajo. |
US20150309844A1 (en) | 2012-03-06 | 2015-10-29 | Sirius Xm Radio Inc. | Systems and Methods for Audio Attribute Mapping |
EP2648418A1 (en) * | 2012-04-05 | 2013-10-09 | Thomson Licensing | Synchronization of multimedia streams |
US9596386B2 (en) | 2012-07-24 | 2017-03-14 | Oladas, Inc. | Media synchronization |
US20140114456A1 (en) * | 2012-10-22 | 2014-04-24 | Arbitron Inc. | Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems |
US9021516B2 (en) | 2013-03-01 | 2015-04-28 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by measuring a crest factor |
US9118960B2 (en) * | 2013-03-08 | 2015-08-25 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by detecting signal distortion |
US9191704B2 (en) | 2013-03-14 | 2015-11-17 | The Nielsen Company (Us), Llc | Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures |
US9979829B2 (en) | 2013-03-15 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
WO2015116162A1 (en) | 2014-01-31 | 2015-08-06 | Thomson Licensing | Method and apparatus for synchronizing playbacks at two electronic devices |
CN104036794A (zh) * | 2014-06-27 | 2014-09-10 | 广东远峰汽车电子有限公司 | 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置 |
US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US9848222B2 (en) | 2015-07-15 | 2017-12-19 | The Nielsen Company (Us), Llc | Methods and apparatus to detect spillover |
US10394518B2 (en) * | 2016-03-10 | 2019-08-27 | Mediatek Inc. | Audio synchronization method and associated electronic device |
EP3497697B1 (en) * | 2016-11-04 | 2024-01-31 | Hewlett-Packard Development Company, L.P. | Dominant frequency processing of audio signals |
GB2556058A (en) | 2016-11-16 | 2018-05-23 | Nokia Technologies Oy | Distributed audio capture and mixing controlling |
WO2019088853A1 (en) * | 2017-11-03 | 2019-05-09 | Klaps Limited | Live audio replacement in a digital stream |
CN110476960B (zh) * | 2019-09-19 | 2021-06-15 | 河北省农林科学院植物保护研究所 | 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用 |
CN111489759A (zh) * | 2020-03-23 | 2020-08-04 | 天津大学 | 基于光纤语音时域信号波形对齐的噪声评估方法 |
CN112651429B (zh) * | 2020-12-09 | 2022-07-12 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
EP0372155A2 (en) * | 1988-12-09 | 1990-06-13 | John J. Karamon | Method and system for synchronization of an auxiliary sound source which may contain multiple language channels to motion picture film, video tape, or other picture source containing a sound track |
US5040081A (en) | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
WO1991019989A1 (en) * | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
US6211919B1 (en) | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
JPH05181464A (ja) * | 1991-12-27 | 1993-07-23 | Sony Corp | 楽音認識装置 |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
KR100236974B1 (ko) * | 1996-12-13 | 2000-02-01 | 정선종 | 동화상과 텍스트/음성변환기 간의 동기화 시스템 |
JP3379624B2 (ja) * | 1997-02-17 | 2003-02-24 | 日本電信電話株式会社 | 波形同期方法 |
JP3511360B2 (ja) * | 1998-03-09 | 2004-03-29 | 日本電信電話株式会社 | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 |
JP2000181449A (ja) * | 1998-12-15 | 2000-06-30 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6321200B1 (en) * | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
JP4458581B2 (ja) * | 1999-08-17 | 2010-04-28 | 大日本印刷株式会社 | 信号監視用音楽演奏装置 |
-
2002
- 2002-02-12 MX MXPA03010751A patent/MXPA03010751A/es active IP Right Grant
- 2002-02-12 MX MXPA03010750A patent/MXPA03010750A/es active IP Right Grant
- 2002-02-22 DE DE60236648T patent/DE60236648D1/de not_active Expired - Lifetime
- 2002-02-22 AT AT02706372T patent/ATE470927T1/de not_active IP Right Cessation
- 2002-02-22 CN CNB028106709A patent/CN1272765C/zh not_active Expired - Fee Related
- 2002-02-22 KR KR1020037015333A patent/KR100873396B1/ko not_active IP Right Cessation
- 2002-02-25 KR KR1020037015335A patent/KR100871607B1/ko not_active IP Right Cessation
- 2002-02-25 WO PCT/US2002/005806 patent/WO2002097791A1/en active IP Right Grant
- 2002-02-25 EP EP02707896A patent/EP1390942B1/en not_active Expired - Lifetime
- 2002-02-25 JP JP2003500892A patent/JP4906230B2/ja not_active Expired - Fee Related
- 2002-02-25 CN CNB028106725A patent/CN1264137C/zh not_active Expired - Fee Related
- 2002-02-26 DK DK02721201.8T patent/DK1393300T3/da active
- 2002-02-26 KR KR1020037015336A patent/KR100911679B1/ko active IP Right Grant
- 2002-02-26 EP EP12189110.5A patent/EP2549475B1/en not_active Expired - Lifetime
- 2002-02-26 JP JP2003500893A patent/JP4763965B2/ja not_active Expired - Lifetime
- 2002-02-26 ES ES02721201T patent/ES2400700T3/es not_active Expired - Lifetime
-
2004
- 2004-11-10 HK HK04108859A patent/HK1066087A1/xx not_active IP Right Cessation
- 2004-12-14 HK HK04109871.1A patent/HK1066902A1/xx not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
US5040081A (en) | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
EP0372155A2 (en) * | 1988-12-09 | 1990-06-13 | John J. Karamon | Method and system for synchronization of an auxiliary sound source which may contain multiple language channels to motion picture film, video tape, or other picture source containing a sound track |
WO1991019989A1 (en) * | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
US6211919B1 (en) | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
Also Published As
Publication number | Publication date |
---|---|
JP4763965B2 (ja) | 2011-08-31 |
HK1066902A1 (en) | 2005-04-01 |
KR20040004648A (ko) | 2004-01-13 |
HK1066087A1 (en) | 2005-03-11 |
KR20040004647A (ko) | 2004-01-13 |
MXPA03010751A (es) | 2005-03-07 |
JP4906230B2 (ja) | 2012-03-28 |
WO2002097791A1 (en) | 2002-12-05 |
EP1390942B1 (en) | 2012-08-01 |
ATE470927T1 (de) | 2010-06-15 |
CN1511311A (zh) | 2004-07-07 |
CN1272765C (zh) | 2006-08-30 |
KR100873396B1 (ko) | 2008-12-11 |
ES2400700T3 (es) | 2013-04-11 |
KR100911679B1 (ko) | 2009-08-10 |
EP2549475B1 (en) | 2019-07-31 |
CN1264137C (zh) | 2006-07-12 |
CN1620684A (zh) | 2005-05-25 |
DK1393300T3 (da) | 2013-03-18 |
EP2549475A1 (en) | 2013-01-23 |
DE60236648D1 (de) | 2010-07-22 |
EP1390942A1 (en) | 2004-02-25 |
MXPA03010750A (es) | 2004-07-01 |
JP2004528601A (ja) | 2004-09-16 |
KR20040004646A (ko) | 2004-01-13 |
JP2004528600A (ja) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100871607B1 (ko) | 오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법 | |
CA2448178C (en) | Method for time aligning audio signals using characterizations based on auditory events | |
US7461002B2 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
US7283954B2 (en) | Comparing audio using characterizations based on auditory events | |
US7711123B2 (en) | Segmenting audio signals into auditory events | |
AU2002242265A1 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
AU2002240461A1 (en) | Comparing audio using characterizations based on auditory events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121107 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20131108 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20141107 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20151106 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |