KR20180088807A - 비디오 정보를 이용한 오디오 인코딩 - Google Patents

비디오 정보를 이용한 오디오 인코딩 Download PDF

Info

Publication number
KR20180088807A
KR20180088807A KR1020187013807A KR20187013807A KR20180088807A KR 20180088807 A KR20180088807 A KR 20180088807A KR 1020187013807 A KR1020187013807 A KR 1020187013807A KR 20187013807 A KR20187013807 A KR 20187013807A KR 20180088807 A KR20180088807 A KR 20180088807A
Authority
KR
South Korea
Prior art keywords
audio encoder
audio
mode selector
video
video data
Prior art date
Application number
KR1020187013807A
Other languages
English (en)
Other versions
KR102419514B1 (ko
Inventor
탄 펭
랜달 브라운
야세르 엠. 칸
지앙페이 예
Original Assignee
에이티아이 테크놀로지스 유엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에이티아이 테크놀로지스 유엘씨 filed Critical 에이티아이 테크놀로지스 유엘씨
Publication of KR20180088807A publication Critical patent/KR20180088807A/ko
Application granted granted Critical
Publication of KR102419514B1 publication Critical patent/KR102419514B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

다양한 오디오 인코더 및 이를 사용하는 방법이 개시된다. 일 실시형태에서, 오디오 인코더(80) 및 오디오 인코더 모드 선택기(60)를 포함하는 장치가 제공된다. 오디오 인코더 모드 선택기는 비디오 데이터를 분석하고 분석된 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능하다

Description

비디오 정보를 이용한 오디오 인코딩
관련 출원에 대한 상호 참조
본 출원은 2015 12월 1일 출원된 미국 특허 출원 제14/955,549 호에 기초한 우선권을 주장하며, 그 내용 전체는 본 발명에 참고자료로 포함된다.
본 발명은 일반적으로 오디오 비주얼 신호 처리에 관한 것으로, 특히 오디오 신호를 인코딩하는 방법 및 장치에 관한 것이다.
사운드와 함께 동영상을 레코딩하는 프로세스는 비디오 이미지 및 사운드 모두의 획득을 수반하고, 콘텐츠의 각 유형의 경우, 획득은 정보의 연속적 흐름의 샘플링을 수반한다. 예를 들어, 비디오 이미지는 초당 24 프레임의 속도로 빈번히 샘플링된다. 오디오는 아날로그 전압 신호를 디지털 데이터로 변환하기 위해 소정의 비트 또는 샘플링 레이트로 다음에 샘플링될 아날로그 신호로 레코딩된다. 아날로그-디지털 변환의 품질은 디지털로 표현될 수 있는 가능한 전압 레벨의 수와 같은 여러 요소에 따라 달라진다. 단순히 모든 오디오 샘플을 녹음하거나 저장하는 것이 가능할 수도 있지만, 디스크 또는 하드 드라이브와 같은 일부 형식의 매체에 저장하기 전에 샘플링된 오디오 신호의 일종의 오디오 인코딩을 수행하는 것이 일반적으로 더 효율적이다.
현재의 많은 오디오 인코더들은 압축된 데이터를 재생 또는 저장 장치에 보내기 전에 샘플링된 오디오 신호를 압축하기 위해 다양한 기술을 사용한다. 이러한 압축 기술의 예로는 예측, 양자화(벡터 및 스칼라 모두) 및 허프만 코딩이 포함된다. 많은 오디오 비주얼 레코딩은 레코딩이 지속되는 동안 비디오 및 오디오 콘텐츠에 상당한 변화를 수반한다. 한 장면은 거의 대화없이 시끄러운 오디오 콘텐츠와 함께 거친 동작 시퀀스를 포함할 수 있으며, 다음 장면은 배경 음악이 거의 또는 전혀없는 인물들 간의 친밀한 대화를 포함할 수 있다.
현재의 오디오 인코더는 장면 변경, 대화 집약적 장면의 존재와 같은 귀중한 비디오 정보일 수 있는 것을 고려하지 않고 오디오 신호를 인코딩한다. 결과적으로, 현재의 오디오 인코더는 통상적으로 비디오 신호 보조 또는 부가 정보없이 모드(즉, 예측 온/오프), 비트 레이트 할당 및 양자화 파라미터를 결정한다. 따라서, 오디오 인코더 사용자는 해당되는 경우 오디오 인코더를 개선하기 위해 비디오 정보를 이용할 수가 없다.
Yamaha Corporation은 모델 YAS-103 및 YAS-93 하에서 프론트 서라운드 시스템(사운드 바)을 판매한다. 이 모델들은 사용자가 비디오 콘텐츠를 볼 때 음성의 품질을 향상시키기 위한 소위 "선명한 음성"(clear voice) 이라 불리는 기능을 사용한다. 선명한 음성이 활성화되면 사운드 바는 사운드 바의 스피커로 보내지기 직전에 아날로그 오디오 신호를 조정한다. 이러한 처리는 디지털-아날로그 변환을 거친 아날로그 신호에 대해 수행되기 때문에 오디오 인코딩과 다르다.
본 발명은 전술한 단점들 중 하나 이상의 효과의 극복 또는 감소를 지향한다.
본 발명의 일 실시형태에 따르면, 오디오 인코더 및 오디오 인코더 모드 선택기를 포함하는 장치가 제공된다. 오디오 인코더 모드 선택기는 비디오 데이터를 분석하고 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능하다.
본 발명의 다른 실시형태에 따르면, 오디오 데이터를 오디오 인코더로 인코딩하고, 비디오 데이터의 분석에 기초하여 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는, 오디오 데이터를 인코딩하는 방법이 제공된다.
본 발명의 다른 실시형태에 따르면, 오디오 데이터를 인코딩하는 방법이 제공되며, 이 방법은 레코딩 장치로 비디오 및 오디오를 레코딩하여 비디오 데이터 및 오디오 데이터를 생성하는 단계를 포함한다. 오디오 데이터는 오디오 인코더로 인코딩되고, 오디오 인코더의 오디오 인코딩 모드는 비디오 데이터 분석에 기초하여 조정된다.
본 발명의 다른 실시형태에 따르면, 방법 실행을 위한 컴퓨터 판독가능 명령어를 가진 비-일시적 컴퓨터 판독가능 매체가 제공된다. 상기 방법은 오디오 인코더로 오디오 데이터를 인코딩하고, 비디오 데이터 분석에 기초하여 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함한다.
본 발명의 전술한 장점 및 다른 장점은 다음의 상세한 설명을 읽고 도면을 참조하여 명백해질 것이다:
도 1은 제어 가능한 오디오 인코딩 스테이지를 포함하는 예시적인 오디오 비주얼 시스템의 개략도다.
도 2는 오디오 인코딩 모드 선택 스테이지를 포함하는 일례의 오디오 인코더의 개략도다.
도 3은 일례의 제어가능 오디오 인코더의 일례의 반도체 칩 구현예다.
도 4는 일례의 레코딩 장치-기반 선택적 모드 오디오 인코더다.
도 5는 일례의 오디오 인코딩 방법의 순서도다.
대응하는 비디오 데이터로부터 추론된 정보를 사용하여 오디오 인코딩 효율 및/또는 품질을 개선하기 위한 메커니즘이 개시된다. 비디오 정보는 비디오 분석기/인코더에서 오디오 인코더로 중계된다. 오디오 인코더는 비디오 정보를 다른 결정 파라미터와 함께 가중화하여, 이에 따라 오디오 인코딩 거동을 조정한다. 오디오 인코딩을 조정하는 데 사용될 수 있는 비디오 정보의 예에는 장면 변경 및 비디오 내 사람 대화의 위 또는 아래 틱이 포함된다. 추가 세부 사항이 이제 설명될 것이다.
아래에서 설명되는 도면에서, 동일한 요소가 하나보다 많은 도면에 나타나도록 일반적으로 참조 번호가 반복된다. 이제 도면, 특히, 도 1을 참조하면, 장면 1, 장면 2 등과 같은 다수의 장면들로부터 비디오 및 오디오를 레코딩할 수 있는, 그리고, 그 후 여기서 개시되는 신규한 인코딩 기법을 이용하여 레코딩된 비디오 및 오디오를 처리할 수 있는, 예시적인 오디오 비주얼(AV) 시스템(10)의 개략도가 도시되어 있다. 장면 1, 장면 2, 등을 기록하기 위해 마이크로폰(20)을 포함하는 카메라(15)와 같은 레코딩 장치가 사용될 수 있다. 카메라의 비디오 출력(25)은 비디오 샘플링 스테이지(30)로 전달될 수 있으며, 이 스테이지는 비디오 프레임(35) 형태로 비디오 데이터를 출력하는 잘 알려진 샘플링 작동을 수행하도록 동작가능하다. 이러한 비디오 샘플링 스테이지(30)는 출력(25)이 아날로그 출력이거나 디지털 샘플링 기능을 할 수 있는 경우에 고전적인 아날로그-디지털 변환을 수행할 수 있다. 비디오 프레임(35)은 비디오 인코더(40)에 전달된다. 비디오 인코더(40)는 하드웨어, 소프트웨어 또는 이 둘의 조합으로서 구현될 수 있다. 예를 들어, 비디오 인코더(40)는 비 일시적인(non-transitory) 컴퓨터 판독가능 매체 상의 명령어 및 데이터 형태를 취할 수 있다. 비디오 인코더(40)는 인코딩된 비디오(45)를 저장 장치(50) 또는 몇몇 다른 위치로 전달하도록 동작가능하다. 또한, 비디오 인코더(40)는 비디오 정보(55)를 오디오 인코더 모드 선택 스테이지(60)에 전달하는 능력을 가지며, 이 스테이지는 아래 더 상세히 설명되는 바와 같이 마이크로폰(20)로부터의 오디오 신호의 처리를 제어하는데 사용된다.
마이크로폰은 출력(65)을 오디오 샘플링 스테이지(70)에 전달하며, 이 스테이지는 고전적인 아날로그-디지털 샘플러로 기능할 수 있다. 오디오 샘플링 스테이지(70)의 출력은 오디오 인코더(80)에 전송되는 오디오 프레임(75) 형태의 오디오 데이터로 구성된다. 오디오 인코더(80)는 인코딩된 오디오(85)를 저장 장치(50) 또는 원하는 다른 위치로 전달하도록 동작가능하다. 아래의 추가 도면들과 관련하여 설명되는 바와 같이, 오디오 인코더(80)는 오디오 인코더 모드 선택 스테이지(60)로부터 제어 신호(87)를 수신하도록 동작가능하며, 이 스테이지는 상기 언급된 바와 같이, 오디오 프레임(75)의 인코딩을, 그리고 궁극적으로, 인코딩된 오디오(85)의 콘텐츠를 제어하기 위해 비디오 인코더(40)로부터 전송되는 비디오 정보(55)에 응답한다. 이러한 방식으로, 오디오 인코더(80)는 비디오 정보(55)에 기초하여 오디오 프레임(75)의 인코딩을 맞춤화할 수 있다. 예를 들어, 장면 1은 묘사된 퓨마(90)와 같은 자연의 장면을 포함할 수 있고, 따라서 대화를 거의 또는 전혀 포함하지 않으며, 반면 장면 2는 아들(95)과 엄마(100) 간의 대화와 같은, 카메라(15)로의 더욱 대화 집약적인 멀티미디어 입력을 포함할 수 있다. 비디오 인코더(40)는 이러한 장면 변화 및/또는 예를 들어 대화의 증가 또는 감소를 감지하고 이러한 변화의 검출을 나타내는 비디오 정보(55)를 오디오 인코더 모드 선택기(60)에 전달하도록 동작가능하며, 따라서 이 선택기는 그 후 제어 신호(87)에 따라 오디오 인코더(80)의 설정을 수정할 수 있다.
장치 및 스테이지 통합의 레벨은 다수의 가능성을 취할 수 있다. 예를 들어, 비디오 인코더, 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 모두 카메라(15)에 통합될 수 있다. 비디오 샘플링 스테이지(30) 및 오디오 샘플링 스테이지(70)의 경우도 마찬가지다. 다른 실시예에서, 비디오 인코더(40), 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 개별 장치/소프트웨어로 구현될 수 있다. 다른 실시예에서, 비디오 인코더(40), 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 개별 장치/소프트웨어로서 구현될 수 있다. 예를 들어, 오디오 인코더(80) 및/또는 오디오 인코더 모드 선택기(60)는 비-일시적인 컴퓨터 판독가능 매체상의 명령어 및 데이터의 형태를 취할 수 있다. 이는 기능적 통합의 몇 가지 예를 나타낼 뿐이다.
오디오 인코더(80)는 매우 다양한 종류의 구현예를 취할 수 있다. 도 2는 널리 공지된 DTSTM 인코더 기법을 추적하는 오디오 인코더의 한 유형의 개략도를 나타낸다. 이 예시적인 실시예에서, 오디오 인코더(80)는 직교 미러 필터 뱅크(QMF 뱅크)(105)를 포함할 수 있다. QMF 뱅크(105)는 복수의 대역을 포함할 수 있으며, 그 중 2 개가 도시되며, 각각 서브밴드 0 및 서브밴드 n으로 표시된다. 서브밴드들의 수 n은 가변적일 수 있다. 예시적인 실시예에서, QMF 뱅크(105)는 32 개의 상이한 서브밴드들을 이용할 수 있고, n=31 이다. 오디오 프레임(75)은 48 kHz, 24 비트 샘플링 또는 원하는 다른 주파수 및 비트 길이를 사용하여 QMF 뱅크(105)에 전달될 수 있다. 전역 비트 레이트 모듈(112)은 서브밴드 0.. 서브밴드 n에 대한 에 대한 신호 처리 비트 레이트를 선택적으로 설정하도록 동작가능하다. 서브밴드 0은 QMF 뱅크(105)로부터 출력(110)을 수신한다. 서브밴드 0은 신호 패커(120)에 전달되는 인코딩된 오디오 출력(115)의 압축을 용이하게 하기 위한 하나 이상의 다양한 스테이지를 포함하는 압축 파이프 라인(114)을 포함할 수 있다. 예를 들어, 서브밴드 0에 포함될 수 있는 적응성 예측 모듈(120)은 QMF 뱅크(105)의 출력(110)을 수신하고 선형 스케일 양자화 스테이지(130)에 입력으로서 출력(125)을 전달한다. 디지털 신호 처리에서의 양자화는 소정의 정밀 단위로 반올림하는 것과 같이, 큰 세트의 입력 값을 (카운팅가능한) 보다 작은 세트로 매핑하는 과정을 수반한다. 예를 들어, 중간-트레드 양자화를 사용하는 선형 스케일 양자화 스테이지(130)의 출력은 다음과 같이 표현될 수 있다:
Figure pct00001
이 경우 sgn(x)는 (시그넘 함수로도 알려진) 사인 함수이고, Δ는 양자화 스텝 크기다. 스텝 크기 Δ는, 예를 들어, 선형 양자화 스테이지(130)에 할당될 비트 수를 감소 또는 증가시킴으로써, 제어 신호(160)에 응답하여 변경될 수 있다. 또한, 출력(110)은 벡터 양자화 스테이지(135)에 전달된다. 벡터 양자화는 프로토타입 벡터의 분포에 의한 확률 밀도 함수의 모델링을 가능하게 하는 신호 처리로부터의 양자화 기술이다. 이것은 샘플링된 오디오 신호와 같은 큰 세트의 포인트(벡터)를 이에 가장 가까운 대략 동일 개수의 점들을 가진 그룹으로 나눔으로써 작용한다. 각각의 그룹은 k-평균(k-means) 및 일부 다른 클러스터링 알고리즘에서와 같이 중심점(centroid point)에 의해 표현된다. 벡터 양자화 스테이지(135)의 출력(140)은 출력(115)으로 이어진다. 마지막으로, 허프만 코드 스테이지(145)를 이용하여 선형 스케일 양자화 스테이지(130)의 출력을 선택적으로 인코딩하여, 오디오 데이터를 원하는대로 출력(115)으로 더 압축할 수 있다.
적응성 예측 스테이지(120)는 선형 스케일 양자화 스테이지(130) 및 벡터 양자화 스테이지(135)와 협력하여 동작한다. 적응성 예측 스테이지(120)는 예측 잔차의 분산을 서브밴드 샘플(즉, 입력(110)에서의 샘플)의 분산과 비교함으로써 예측 이득을 연속적으로 컴퓨팅한다. 예측 이득이 충분히 크다면, 예측 잔차는 선형 스케일 양자화 스테이지(130)에서 중간 트레드 스칼라 양자화를 사용하여 양자화되고, 예측 계수는 벡터 양자화 스테이지(135)에 의해 벡터 양자화된다. 그러나, 컴퓨팅된 예측 이득이 소정의 원하는 임계치를 초과하지 않으면, 입력(110)으로부터의 서브밴드 샘플은 중간 트레드 스칼라 양자화를 사용하여 선형 스케일 양자화 스테이지(130)에 의해 양자화된다. 이 예시적인 실시예에서, 비디오 정보(55)는 오디오 인코더 모드 선택기(60)에 전송된다. 오디오 인코더 모드 선택기(60)는 예측 이득 및 비디오 정보(55)의 가중치를 계산하고, 그 비교 결과에 기초하여, 벡터 양자화 스테이지(135)를 이용하여 이들 샘플들을 양자화하는 대신, 중간 트레드 스칼라 양자화를 이용하여 입력(110)으로부터 서브밴드 0 샘플들을 양자화하도록 선형 스케일 양자화 스테이지(130)에 지시하기 위한 제어 신호(160)를 제공한다.
서브밴드 n과 같은 다른 서브밴드들은 유사하게 QMF 뱅크(105)의 출력(150)을 수신할 수 있고, 적응성 예측 스테이지(120), 선형 스케일 양자화 스테이지(130), 벡터 양자화 스테이지(135) 및 허프만 코드 스테이지(145), 또는 패커(120)에 출력(155)를 전달하도록 동작가능한 이들의 일부 서브세트를 포함할 수 있다. 패커(120)는 여기서 기술되는 바와 같이 소정의 위치로 인코딩된 오디오(85)를 전달하도록 동작가능하다. 서브밴드 n은 적응성 예측 스테이지 온/오프, 전역 비트 레이트, 양자화 스테이지 파라미터 또는 기타와 같은 인코딩 모드에 지시하는 제어 신호(165)를 오디오 인코더 모드 선택기(60)로부터 수신한다.
오디오 인코더 모드 선택기(60)는 제어 신호(160, 165)를 서브밴드들, 서브밴드 0.. 서브밴드 n에 전달하도록 동작가능하다. 이러한 제어 신호(도 1에서 집합 적으로 87로 표시됨)는 비디오 프레임(35)의 콘텐츠에, 그리고, 다양한 장면들, 장면 1, 장면 2, 등의 특성에 기초하여 비디오 인코더(40)로부터 전송되는 비디오 정보(55)에 따라 다양한 서브밴드 0... 서브밴드 n 을 인코딩하도록 선형 스케일 양자화 스테이지(130)에 의해 사용되는 다양한 파라미터를 제어할 수 있다. 2개의 예가 이제 기술될 것이다.
예시 # 1 - 비디오 장면 변경 알림 사용
장면 1에서 장면 2로의 비디오 장면 변경 동안, 오디오 프레임(75)은 동시에 변경될 가능성이 있으며 결과적으로 이전 오디오 프레임(75)을 참조로 사용하는 것은 비효율적이다. 앞의 배경 기술 단락에서 설명한 것처럼 기존 오디오 인코더의 모드 선택은 비디오 장면 변화에 영향받지 않는다. 그러나, 개시된 실시예에서, 비디오 인코더(40)는 임의의 장면 변화를 오디오 인코더 모드 선택기(60)에 알리도록 비디오 정보(55)를 공급한다. 다른 파라미터와의 가중화 후, 오디오 인코더 모드 선택기(60)는 (차동 펄스 코드 변조 또는 라인 스펙트럼 쌍 예측과 같이) 프레임-간 예측 기술을 수행하도록 적응성 예측 스테이지(120)를 이용하지 않고, 더 효율적인 모드로 오디오 프레임(75)을 인코딩하도록 제어 신호(160, 165)를 통해 오디오 인코더(80)에 지시할 수 있다. 오디오 인코더 모드 선택기(60)에 의해 변경될 수 있는 다른 파라미터는 보다 양호한 인코딩 효율 및/또는 품질을 달성하기 위해 선형 스케일 양자화 스테이지(130) 및 벡터 양자화 스테이지(135)에 의해 사용되는 오디오 인코더 전역 비트 레이트 및/또는 양자화 파라미터를 포함한다.
예시 #2 - 대화 장면 알림 사용
위의 배경기술 단락에서 언급했듯이 기존 오디오 인코더는 오디오 인코딩 모드를 조정하기 위한 사람 대화 상자와 같이 비디오 장면의 내용을 사용하지 않는다. 그러나, 개시된 실시예들에서, 비디오 인코더(40)는 장면 2와 같이 대화 장면이 검출될 때 오디오 인코더 모드 선택기(60)에 알리도록 비디오 정보(55)를 공급한다. 오디오 인코더 모드 선택기(60)는, 이벤트를 다른 결정 파라미터들과 가중화 후, 오디오 신호의 주파수를 높이거나 낮추기보다 스피치 신호의 범위를 증가시키도록 필터 설정(가령, QMF 뱅크(105)의 설정)을 변경하거나 보다 높은 비트 레이트를 이용하여 인코딩하도록 제어 신호(160, 165)를 통해 오디오 인코더(80)에 지시할 수 있다. 이는 더욱 우수한 재구성된 오디오 신호 품질 및/또는 효율을 가능하게 한다.
상술한 바와 같이, 다양한 레벨의 장치 및 코드 통합이 개시되는 실시예에 따라 실현될 수 있다. 예를 들어, 도 3은 반도체 칩 형태의 집적 회로(200)의 개략도를 도시하며, 그 안에 또는 그 위에 비디오 정보(55)를 전달하도록 동작가능한 비디오 인코더(40), 오디오 인코더 선택기(60) 및 오디오 인코더(80)를 구현할 수 있다. 이는 코더/디코더(CODEC) 또는 다른 유형의 집적 회로와 같이, 보다 큰 소정의 디지털 신호 처리 장치의 일부분으로 또는 개별 IC로 구현될 수 있다.
도 4는 비디오 정보 제어 오디오 인코더 시스템을 위한 다른 유형의 장치 및 코드 통합을 나타내는 개략도다. 여기서, 카메라(15)와 같은 레코딩 장치는 오디오 인코더 모드 선택기(60)에, 그리고 궁극적으로 오디오 인코더(80)에 비디오 정보(55)를 전달하도록 동작가능한 비디오 인코더(40)를 통합시키는 회로 보드 또는 다른 기판을 포함할 수 있다.
도 5는 개시되는 실시예에 따라 예시적인 신호 처리 방법을 도시하는 예시적 순서도다. 단계(300)에서 시작한 다음, 프레임 형태, 등의 비디오 콘텐츠가 단계(310)에서 비디오 인코더에 입력된다. 이는 도 1에 도시되는 비디오 인코더(40)에 비디오 프레임(35)의 전달을 수반할 수 있다. 이 단계는 개별 장치를 이용하여 레코딩 과정 후 소정 시간에 이루어지거나, 비디오 프레임의 실제 녹화와 동시에 진행될 수 있다. 단계(320)에서, 비디오 프레임은 특정 오디오 인코딩 모드를 암시하는 특성에 대해 분석된다. 단계(320)는 오디오 인코딩 기법에 대한 변화 가능성을 암시하는 장면 변화, 대화 증가 또는 기타 장면 표시의 증가를 수반할 수 있다. 단계(330)에서, 비디오 인코더(40)가 단계(340)에서 오디오 인코딩 변화를 암시하는 조건을 검출할 경우, 비디오 정보가 도 1에 도시되는 오디오 인코더 모드 선택기(60)로 전송된다. 그러나, 단계(330)에서 비디오 인코더(40)가 오디오 인코딩 변화를 암시하는 특성을 검출하지 못할 경우, 비디오 프레임 분석을 계속하기 위해 단계(320)으로 복귀한다. 비디오 정보가 단계(340)에서 오디오 인코더에 전송되면, 단계(350)에서, 오디오 인코더 모드가 전송된 비디오 정보에 기초하여 선택된다. 다시, 이는 적응성 예측을 선택하거나 또는 적응성 예측을 전혀 선택하지 않거나, 오디오 인코더 내 데이터 압축과 관련된 소정의 다른 파라미터의 선택을 수반할 수 있다. 그 다음 단계(360)에서 오디오가 인코딩되어, 단계(370)에서 최종적으로, 인코딩된 오디오가 예를 들어, 도 2에 도시되는 패커(120)로 출력된다.
발명의 실시예는 다양한 변형 및 대안의 형태를 취할 수 있으나, 구체적인 실시예가 여기서 세부적으로 기술되고 도면에서 예를 들어 도시되었다. 그러나, 본 발명은 개시된 특정 형태에 한정되는 것으로 의도되지 않는다는 것을 이해해야 한다. 오히려, 본 발명은 다음의 첨부된 특허 청구 범위에 의해 규정되는 본 발명의 사상 및 범위 내에 있는 모든 변형, 등가물 및 대안을 포함한다.

Claims (22)

  1. 오디오 인코더(80)와,
    오디오 인코더 모드 선택기(60)를 포함하되,
    상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한
    장치.
  2. 제1항에 있어서,
    상기 오디오 인코더 및/또는 상기 오디오 인코더 모드 선택기는 컴퓨터 판독가능 명령어들을 가진 비-일시적 컴퓨터 판독가능 매체를 포함하는, 장치.
  3. 제1항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나를 포함하는 반도체 칩(200)을 포함하는 장치.
  4. 제1항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나를 포함하는 레코딩 장치(15)를 포함하는 장치.
  5. 제1항에 있어서,
    상기 오디오 인코더 모드 선택기는 장면 변경 또는 사람 대화의 변경을 위해 상기 비디오 데이터를 분석하도록 동작가능한, 장치.
  6. 제1항에 있어서,
    상기 오디오 인코더는 상기 오디오 인코더 모드 선택기의 상기 인코딩 모드 조정에 응답하는 데이터 압축 파이프라인을 포함하는, 장치.
  7. 제6항에 있어서,
    상기 데이터 압축 파이프 라인은 양자화 스테이지, 예측 스테이지, 또는 허프만(Huffman) 코딩 스테이지를 포함하는 장치.
  8. 제1항에 있어서,
    비디오 및 오디오를 레코딩하기 위한 레코딩 장치를 포함하고,
    상기 오디오 인코더 및 상기 오디오 인코더 모드 선택기는 상기 레코딩 장치의 일부인 장치.
  9. 오디오 데이터를 오디오 인코더(80)로 인코딩하는 단계와,
    비디오 데이터의 분석에 기초하여 상기 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는,
    오디오 데이터 인코딩 방법.
  10. 제9항에 있어서,
    오디오 인코더 모드 선택기(60)로 상기 비디오 데이터를 분석하는 단계를 포함하고,
    상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 상기 분석된 비디오 데이터에 기초하여 상기 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한, 방법.
  11. 제9항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 컴퓨터 판독가능 명령어들을 갖는 비-일시적 컴퓨터 판독가능 매체를 포함하는 방법.
  12. 제9항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 반도체 칩(200)의 일부를 포함하는, 방법.
  13. 제9항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 레코딩 장치(15)의 일부를 포함하는, 방법.
  14. 제9항에 있어서,
    상기 비디오 데이터의 분석은, 장면 변경 또는 인간 대화 변경을 인지하는 단계를 포함하는, 방법.
  15. 제9항에 있어서,
    상기 오디오 인코더는 상기 오디오 인코더 모드 선택기의 상기 인코딩 모드 조정에 응답하는 데이터 압축 파이프라인을 포함하는 방법.
  16. 제15항에 있어서,
    상기 데이터 압축 파이프 라인은 양자화 스테이지, 예측 스테이지 또는 허프만 코딩 스테이지를 포함하는, 방법.
  17. 레코딩 장치(15)로 비디오 및 오디오를 레코딩하여 비디오 데이터 및 오디오 데이터를 생성하는 단계와,
    상기 오디오 데이터를 오디오 인코더(80)로 인코딩하는 단계와,
    상기 비디오 데이터의 분석에 기초하여 상기 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는
    오디오 데이터 인코딩 방법.
  18. 제17항에 있어서,
    오디오 인코더 모드 선택기(60)로 상기 비디오 데이터를 분석하는 단계를 포함하고,
    상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한, 방법.
  19. 제17항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 컴퓨터 판독가능 명령어들을 갖는 비-일시적 컴퓨터 판독가능 매체를 포함하는, 오디오 인코딩 방법.
  20. 제17항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 반도체 칩(200)의 일부를 포함하는 방법.
  21. 제17항에 있어서,
    상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 레코딩 장치(15)의 일부를 구성하는, 방법.
  22. 제17항에 있어서,
    상기 비디오 데이터의 분석은 장면 변경 또는 인간 대화의 변화를 인식하는 단계를 포함하는, 방법.
KR1020187013807A 2015-12-01 2016-10-21 비디오 정보를 이용한 오디오 인코딩 KR102419514B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/955,549 2015-12-01
US14/955,549 US10762911B2 (en) 2015-12-01 2015-12-01 Audio encoding using video information
PCT/CA2016/051220 WO2017091887A1 (en) 2015-12-01 2016-10-21 Audio encoding using video information

Publications (2)

Publication Number Publication Date
KR20180088807A true KR20180088807A (ko) 2018-08-07
KR102419514B1 KR102419514B1 (ko) 2022-07-11

Family

ID=58777722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013807A KR102419514B1 (ko) 2015-12-01 2016-10-21 비디오 정보를 이용한 오디오 인코딩

Country Status (6)

Country Link
US (1) US10762911B2 (ko)
EP (1) EP3384491B1 (ko)
JP (1) JP6856644B2 (ko)
KR (1) KR102419514B1 (ko)
CN (1) CN108292506B (ko)
WO (1) WO2017091887A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080152310A1 (en) * 2006-12-20 2008-06-26 Eiji Miyagoshi Audio/video stream compressor and audio/video recorder
JP2009098510A (ja) * 2007-10-18 2009-05-07 Sanyo Electric Co Ltd 音声記録装置
KR20090076924A (ko) * 2006-10-18 2009-07-13 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 분석 필터뱅크, 합성 필터뱅크, 인코더, 디코더, 믹서 및 회의 시스템
US20140233917A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202820A (ja) 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
KR20040103158A (ko) * 2003-05-31 2004-12-08 주식회사 대우일렉트로닉스 돌비 프로로직 오디오 신호 출력 장치
US8311120B2 (en) * 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
TWI344308B (en) * 2007-08-09 2011-06-21 Inventec Appliances Corp Dynamic multimedia coding method for of cell phone
US8780978B2 (en) 2009-11-04 2014-07-15 Qualcomm Incorporated Controlling video encoding using audio information
FR2999373B1 (fr) * 2012-12-12 2018-04-06 Harmonic Inc. Procede d'adaptation dynamique du codage d'un flux audio et/ou video transmis a un dispositif
US9800905B2 (en) * 2015-09-14 2017-10-24 Comcast Cable Communications, Llc Device based audio-format selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090076924A (ko) * 2006-10-18 2009-07-13 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 분석 필터뱅크, 합성 필터뱅크, 인코더, 디코더, 믹서 및 회의 시스템
US20080152310A1 (en) * 2006-12-20 2008-06-26 Eiji Miyagoshi Audio/video stream compressor and audio/video recorder
JP2009098510A (ja) * 2007-10-18 2009-05-07 Sanyo Electric Co Ltd 音声記録装置
US20140233917A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Simone Fug, et al. Design, Coding and Processing of Metadata for Object-Based Interactive Audio. 137th Audio Engineering Society Convention. 2014.10.09. *

Also Published As

Publication number Publication date
WO2017091887A1 (en) 2017-06-08
KR102419514B1 (ko) 2022-07-11
US10762911B2 (en) 2020-09-01
JP2019504340A (ja) 2019-02-14
EP3384491A4 (en) 2019-04-10
EP3384491A1 (en) 2018-10-10
JP6856644B2 (ja) 2021-04-07
CN108292506A (zh) 2018-07-17
EP3384491B1 (en) 2023-06-21
CN108292506B (zh) 2023-10-31
US20170154634A1 (en) 2017-06-01

Similar Documents

Publication Publication Date Title
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
EP2272062B1 (en) An audio signal classifier
EP1905000B1 (en) Selectively using multiple entropy models in adaptive coding and decoding
US9269366B2 (en) Hybrid instantaneous/differential pitch period coding
MY141174A (en) Method and device for robust predictiving vector quantization of linear prediction parameters in variable bit rate speech coding
AU2009353896A1 (en) Hearing aid with audio codec and method
JP2002530705A (ja) 音声の無声セグメントの低ビットレート符号化
KR20060135699A (ko) 신호 복호화 장치 및 신호 복호화 방법
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
US8914280B2 (en) Method and apparatus for encoding/decoding speech signal
CN112767955A (zh) 音频编码方法及装置、存储介质、电子设备
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
KR102419514B1 (ko) 비디오 정보를 이용한 오디오 인코딩
JP5379871B2 (ja) オーディオ符号化のための量子化
US10734005B2 (en) Method of encoding, method of decoding, encoder, and decoder of an audio signal using transformation of frequencies of sinusoids
JP2008046405A (ja) 適応差分パルス符号変調方式の符号化方法及び復号化方法
JP6552986B2 (ja) 音声符号化装置、方法及びプログラム
JP3091828B2 (ja) ベクトル量子化装置
EP3252763A1 (en) Low-delay audio coding
KR20090100664A (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법
CA2511516A1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant