KR20180088807A

KR20180088807A - 비디오 정보를 이용한 오디오 인코딩

Info

Publication number: KR20180088807A
Application number: KR1020187013807A
Authority: KR
Inventors: 탄 펭; 랜달 브라운; 야세르 엠. 칸; 지앙페이 예
Original assignee: 에이티아이 테크놀로지스 유엘씨
Priority date: 2015-12-01
Filing date: 2016-10-21
Publication date: 2018-08-07
Also published as: EP3384491B1; CN108292506A; WO2017091887A1; EP3384491A1; JP6856644B2; KR102419514B1; US20170154634A1; EP3384491A4; JP2019504340A; US10762911B2; CN108292506B

Abstract

다양한 오디오 인코더 및 이를 사용하는 방법이 개시된다. 일 실시형태에서, 오디오 인코더(80) 및 오디오 인코더 모드 선택기(60)를 포함하는 장치가 제공된다. 오디오 인코더 모드 선택기는 비디오 데이터를 분석하고 분석된 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능하다

Description

비디오 정보를 이용한 오디오 인코딩

관련 출원에 대한 상호 참조

본 출원은 2015 12월 1일 출원된 미국 특허 출원 제14/955,549 호에 기초한 우선권을 주장하며, 그 내용 전체는 본 발명에 참고자료로 포함된다.

본 발명은 일반적으로 오디오 비주얼 신호 처리에 관한 것으로, 특히 오디오 신호를 인코딩하는 방법 및 장치에 관한 것이다.

사운드와 함께 동영상을 레코딩하는 프로세스는 비디오 이미지 및 사운드 모두의 획득을 수반하고, 콘텐츠의 각 유형의 경우, 획득은 정보의 연속적 흐름의 샘플링을 수반한다. 예를 들어, 비디오 이미지는 초당 24 프레임의 속도로 빈번히 샘플링된다. 오디오는 아날로그 전압 신호를 디지털 데이터로 변환하기 위해 소정의 비트 또는 샘플링 레이트로 다음에 샘플링될 아날로그 신호로 레코딩된다. 아날로그-디지털 변환의 품질은 디지털로 표현될 수 있는 가능한 전압 레벨의 수와 같은 여러 요소에 따라 달라진다. 단순히 모든 오디오 샘플을 녹음하거나 저장하는 것이 가능할 수도 있지만, 디스크 또는 하드 드라이브와 같은 일부 형식의 매체에 저장하기 전에 샘플링된 오디오 신호의 일종의 오디오 인코딩을 수행하는 것이 일반적으로 더 효율적이다.

현재의 많은 오디오 인코더들은 압축된 데이터를 재생 또는 저장 장치에 보내기 전에 샘플링된 오디오 신호를 압축하기 위해 다양한 기술을 사용한다. 이러한 압축 기술의 예로는 예측, 양자화(벡터 및 스칼라 모두) 및 허프만 코딩이 포함된다. 많은 오디오 비주얼 레코딩은 레코딩이 지속되는 동안 비디오 및 오디오 콘텐츠에 상당한 변화를 수반한다. 한 장면은 거의 대화없이 시끄러운 오디오 콘텐츠와 함께 거친 동작 시퀀스를 포함할 수 있으며, 다음 장면은 배경 음악이 거의 또는 전혀없는 인물들 간의 친밀한 대화를 포함할 수 있다.

현재의 오디오 인코더는 장면 변경, 대화 집약적 장면의 존재와 같은 귀중한 비디오 정보일 수 있는 것을 고려하지 않고 오디오 신호를 인코딩한다. 결과적으로, 현재의 오디오 인코더는 통상적으로 비디오 신호 보조 또는 부가 정보없이 모드(즉, 예측 온/오프), 비트 레이트 할당 및 양자화 파라미터를 결정한다. 따라서, 오디오 인코더 사용자는 해당되는 경우 오디오 인코더를 개선하기 위해 비디오 정보를 이용할 수가 없다.

Yamaha Corporation은 모델 YAS-103 및 YAS-93 하에서 프론트 서라운드 시스템(사운드 바)을 판매한다. 이 모델들은 사용자가 비디오 콘텐츠를 볼 때 음성의 품질을 향상시키기 위한 소위 "선명한 음성"(clear voice) 이라 불리는 기능을 사용한다. 선명한 음성이 활성화되면 사운드 바는 사운드 바의 스피커로 보내지기 직전에 아날로그 오디오 신호를 조정한다. 이러한 처리는 디지털-아날로그 변환을 거친 아날로그 신호에 대해 수행되기 때문에 오디오 인코딩과 다르다.

본 발명은 전술한 단점들 중 하나 이상의 효과의 극복 또는 감소를 지향한다.

본 발명의 일 실시형태에 따르면, 오디오 인코더 및 오디오 인코더 모드 선택기를 포함하는 장치가 제공된다. 오디오 인코더 모드 선택기는 비디오 데이터를 분석하고 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능하다.

본 발명의 다른 실시형태에 따르면, 오디오 데이터를 오디오 인코더로 인코딩하고, 비디오 데이터의 분석에 기초하여 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는, 오디오 데이터를 인코딩하는 방법이 제공된다.

본 발명의 다른 실시형태에 따르면, 오디오 데이터를 인코딩하는 방법이 제공되며, 이 방법은 레코딩 장치로 비디오 및 오디오를 레코딩하여 비디오 데이터 및 오디오 데이터를 생성하는 단계를 포함한다. 오디오 데이터는 오디오 인코더로 인코딩되고, 오디오 인코더의 오디오 인코딩 모드는 비디오 데이터 분석에 기초하여 조정된다.

본 발명의 다른 실시형태에 따르면, 방법 실행을 위한 컴퓨터 판독가능 명령어를 가진 비-일시적 컴퓨터 판독가능 매체가 제공된다. 상기 방법은 오디오 인코더로 오디오 데이터를 인코딩하고, 비디오 데이터 분석에 기초하여 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함한다.

본 발명의 전술한 장점 및 다른 장점은 다음의 상세한 설명을 읽고 도면을 참조하여 명백해질 것이다:
도 1은 제어 가능한 오디오 인코딩 스테이지를 포함하는 예시적인 오디오 비주얼 시스템의 개략도다.
도 2는 오디오 인코딩 모드 선택 스테이지를 포함하는 일례의 오디오 인코더의 개략도다.
도 3은 일례의 제어가능 오디오 인코더의 일례의 반도체 칩 구현예다.
도 4는 일례의 레코딩 장치-기반 선택적 모드 오디오 인코더다.
도 5는 일례의 오디오 인코딩 방법의 순서도다.

대응하는 비디오 데이터로부터 추론된 정보를 사용하여 오디오 인코딩 효율 및/또는 품질을 개선하기 위한 메커니즘이 개시된다. 비디오 정보는 비디오 분석기/인코더에서 오디오 인코더로 중계된다. 오디오 인코더는 비디오 정보를 다른 결정 파라미터와 함께 가중화하여, 이에 따라 오디오 인코딩 거동을 조정한다. 오디오 인코딩을 조정하는 데 사용될 수 있는 비디오 정보의 예에는 장면 변경 및 비디오 내 사람 대화의 위 또는 아래 틱이 포함된다. 추가 세부 사항이 이제 설명될 것이다.

아래에서 설명되는 도면에서, 동일한 요소가 하나보다 많은 도면에 나타나도록 일반적으로 참조 번호가 반복된다. 이제 도면, 특히, 도 1을 참조하면, 장면 1, 장면 2 등과 같은 다수의 장면들로부터 비디오 및 오디오를 레코딩할 수 있는, 그리고, 그 후 여기서 개시되는 신규한 인코딩 기법을 이용하여 레코딩된 비디오 및 오디오를 처리할 수 있는, 예시적인 오디오 비주얼(AV) 시스템(10)의 개략도가 도시되어 있다. 장면 1, 장면 2, 등을 기록하기 위해 마이크로폰(20)을 포함하는 카메라(15)와 같은 레코딩 장치가 사용될 수 있다. 카메라의 비디오 출력(25)은 비디오 샘플링 스테이지(30)로 전달될 수 있으며, 이 스테이지는 비디오 프레임(35) 형태로 비디오 데이터를 출력하는 잘 알려진 샘플링 작동을 수행하도록 동작가능하다. 이러한 비디오 샘플링 스테이지(30)는 출력(25)이 아날로그 출력이거나 디지털 샘플링 기능을 할 수 있는 경우에 고전적인 아날로그-디지털 변환을 수행할 수 있다. 비디오 프레임(35)은 비디오 인코더(40)에 전달된다. 비디오 인코더(40)는 하드웨어, 소프트웨어 또는 이 둘의 조합으로서 구현될 수 있다. 예를 들어, 비디오 인코더(40)는 비 일시적인(non-transitory) 컴퓨터 판독가능 매체 상의 명령어 및 데이터 형태를 취할 수 있다. 비디오 인코더(40)는 인코딩된 비디오(45)를 저장 장치(50) 또는 몇몇 다른 위치로 전달하도록 동작가능하다. 또한, 비디오 인코더(40)는 비디오 정보(55)를 오디오 인코더 모드 선택 스테이지(60)에 전달하는 능력을 가지며, 이 스테이지는 아래 더 상세히 설명되는 바와 같이 마이크로폰(20)로부터의 오디오 신호의 처리를 제어하는데 사용된다.

마이크로폰은 출력(65)을 오디오 샘플링 스테이지(70)에 전달하며, 이 스테이지는 고전적인 아날로그-디지털 샘플러로 기능할 수 있다. 오디오 샘플링 스테이지(70)의 출력은 오디오 인코더(80)에 전송되는 오디오 프레임(75) 형태의 오디오 데이터로 구성된다. 오디오 인코더(80)는 인코딩된 오디오(85)를 저장 장치(50) 또는 원하는 다른 위치로 전달하도록 동작가능하다. 아래의 추가 도면들과 관련하여 설명되는 바와 같이, 오디오 인코더(80)는 오디오 인코더 모드 선택 스테이지(60)로부터 제어 신호(87)를 수신하도록 동작가능하며, 이 스테이지는 상기 언급된 바와 같이, 오디오 프레임(75)의 인코딩을, 그리고 궁극적으로, 인코딩된 오디오(85)의 콘텐츠를 제어하기 위해 비디오 인코더(40)로부터 전송되는 비디오 정보(55)에 응답한다. 이러한 방식으로, 오디오 인코더(80)는 비디오 정보(55)에 기초하여 오디오 프레임(75)의 인코딩을 맞춤화할 수 있다. 예를 들어, 장면 1은 묘사된 퓨마(90)와 같은 자연의 장면을 포함할 수 있고, 따라서 대화를 거의 또는 전혀 포함하지 않으며, 반면 장면 2는 아들(95)과 엄마(100) 간의 대화와 같은, 카메라(15)로의 더욱 대화 집약적인 멀티미디어 입력을 포함할 수 있다. 비디오 인코더(40)는 이러한 장면 변화 및/또는 예를 들어 대화의 증가 또는 감소를 감지하고 이러한 변화의 검출을 나타내는 비디오 정보(55)를 오디오 인코더 모드 선택기(60)에 전달하도록 동작가능하며, 따라서 이 선택기는 그 후 제어 신호(87)에 따라 오디오 인코더(80)의 설정을 수정할 수 있다.

장치 및 스테이지 통합의 레벨은 다수의 가능성을 취할 수 있다. 예를 들어, 비디오 인코더, 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 모두 카메라(15)에 통합될 수 있다. 비디오 샘플링 스테이지(30) 및 오디오 샘플링 스테이지(70)의 경우도 마찬가지다. 다른 실시예에서, 비디오 인코더(40), 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 개별 장치/소프트웨어로 구현될 수 있다. 다른 실시예에서, 비디오 인코더(40), 오디오 인코더 모드 선택기(60) 및 오디오 인코더(80)는 개별 장치/소프트웨어로서 구현될 수 있다. 예를 들어, 오디오 인코더(80) 및/또는 오디오 인코더 모드 선택기(60)는 비-일시적인 컴퓨터 판독가능 매체상의 명령어 및 데이터의 형태를 취할 수 있다. 이는 기능적 통합의 몇 가지 예를 나타낼 뿐이다.

오디오 인코더(80)는 매우 다양한 종류의 구현예를 취할 수 있다. 도 2는 널리 공지된 DTS^TM 인코더 기법을 추적하는 오디오 인코더의 한 유형의 개략도를 나타낸다. 이 예시적인 실시예에서, 오디오 인코더(80)는 직교 미러 필터 뱅크(QMF 뱅크)(105)를 포함할 수 있다. QMF 뱅크(105)는 복수의 대역을 포함할 수 있으며, 그 중 2 개가 도시되며, 각각 서브밴드 0 및 서브밴드 n으로 표시된다. 서브밴드들의 수 n은 가변적일 수 있다. 예시적인 실시예에서, QMF 뱅크(105)는 32 개의 상이한 서브밴드들을 이용할 수 있고, n=31 이다. 오디오 프레임(75)은 48 kHz, 24 비트 샘플링 또는 원하는 다른 주파수 및 비트 길이를 사용하여 QMF 뱅크(105)에 전달될 수 있다. 전역 비트 레이트 모듈(112)은 서브밴드 0.. 서브밴드 n에 대한 에 대한 신호 처리 비트 레이트를 선택적으로 설정하도록 동작가능하다. 서브밴드 0은 QMF 뱅크(105)로부터 출력(110)을 수신한다. 서브밴드 0은 신호 패커(120)에 전달되는 인코딩된 오디오 출력(115)의 압축을 용이하게 하기 위한 하나 이상의 다양한 스테이지를 포함하는 압축 파이프 라인(114)을 포함할 수 있다. 예를 들어, 서브밴드 0에 포함될 수 있는 적응성 예측 모듈(120)은 QMF 뱅크(105)의 출력(110)을 수신하고 선형 스케일 양자화 스테이지(130)에 입력으로서 출력(125)을 전달한다. 디지털 신호 처리에서의 양자화는 소정의 정밀 단위로 반올림하는 것과 같이, 큰 세트의 입력 값을 (카운팅가능한) 보다 작은 세트로 매핑하는 과정을 수반한다. 예를 들어, 중간-트레드 양자화를 사용하는 선형 스케일 양자화 스테이지(130)의 출력은 다음과 같이 표현될 수 있다:

이 경우 sgn(x)는 (시그넘 함수로도 알려진) 사인 함수이고, Δ는 양자화 스텝 크기다. 스텝 크기 Δ는, 예를 들어, 선형 양자화 스테이지(130)에 할당될 비트 수를 감소 또는 증가시킴으로써, 제어 신호(160)에 응답하여 변경될 수 있다. 또한, 출력(110)은 벡터 양자화 스테이지(135)에 전달된다. 벡터 양자화는 프로토타입 벡터의 분포에 의한 확률 밀도 함수의 모델링을 가능하게 하는 신호 처리로부터의 양자화 기술이다. 이것은 샘플링된 오디오 신호와 같은 큰 세트의 포인트(벡터)를 이에 가장 가까운 대략 동일 개수의 점들을 가진 그룹으로 나눔으로써 작용한다. 각각의 그룹은 k-평균(k-means) 및 일부 다른 클러스터링 알고리즘에서와 같이 중심점(centroid point)에 의해 표현된다. 벡터 양자화 스테이지(135)의 출력(140)은 출력(115)으로 이어진다. 마지막으로, 허프만 코드 스테이지(145)를 이용하여 선형 스케일 양자화 스테이지(130)의 출력을 선택적으로 인코딩하여, 오디오 데이터를 원하는대로 출력(115)으로 더 압축할 수 있다.

적응성 예측 스테이지(120)는 선형 스케일 양자화 스테이지(130) 및 벡터 양자화 스테이지(135)와 협력하여 동작한다. 적응성 예측 스테이지(120)는 예측 잔차의 분산을 서브밴드 샘플(즉, 입력(110)에서의 샘플)의 분산과 비교함으로써 예측 이득을 연속적으로 컴퓨팅한다. 예측 이득이 충분히 크다면, 예측 잔차는 선형 스케일 양자화 스테이지(130)에서 중간 트레드 스칼라 양자화를 사용하여 양자화되고, 예측 계수는 벡터 양자화 스테이지(135)에 의해 벡터 양자화된다. 그러나, 컴퓨팅된 예측 이득이 소정의 원하는 임계치를 초과하지 않으면, 입력(110)으로부터의 서브밴드 샘플은 중간 트레드 스칼라 양자화를 사용하여 선형 스케일 양자화 스테이지(130)에 의해 양자화된다. 이 예시적인 실시예에서, 비디오 정보(55)는 오디오 인코더 모드 선택기(60)에 전송된다. 오디오 인코더 모드 선택기(60)는 예측 이득 및 비디오 정보(55)의 가중치를 계산하고, 그 비교 결과에 기초하여, 벡터 양자화 스테이지(135)를 이용하여 이들 샘플들을 양자화하는 대신, 중간 트레드 스칼라 양자화를 이용하여 입력(110)으로부터 서브밴드 0 샘플들을 양자화하도록 선형 스케일 양자화 스테이지(130)에 지시하기 위한 제어 신호(160)를 제공한다.

서브밴드 n과 같은 다른 서브밴드들은 유사하게 QMF 뱅크(105)의 출력(150)을 수신할 수 있고, 적응성 예측 스테이지(120), 선형 스케일 양자화 스테이지(130), 벡터 양자화 스테이지(135) 및 허프만 코드 스테이지(145), 또는 패커(120)에 출력(155)를 전달하도록 동작가능한 이들의 일부 서브세트를 포함할 수 있다. 패커(120)는 여기서 기술되는 바와 같이 소정의 위치로 인코딩된 오디오(85)를 전달하도록 동작가능하다. 서브밴드 n은 적응성 예측 스테이지 온/오프, 전역 비트 레이트, 양자화 스테이지 파라미터 또는 기타와 같은 인코딩 모드에 지시하는 제어 신호(165)를 오디오 인코더 모드 선택기(60)로부터 수신한다.

오디오 인코더 모드 선택기(60)는 제어 신호(160, 165)를 서브밴드들, 서브밴드 0.. 서브밴드 n에 전달하도록 동작가능하다. 이러한 제어 신호(도 1에서 집합 적으로 87로 표시됨)는 비디오 프레임(35)의 콘텐츠에, 그리고, 다양한 장면들, 장면 1, 장면 2, 등의 특성에 기초하여 비디오 인코더(40)로부터 전송되는 비디오 정보(55)에 따라 다양한 서브밴드 0... 서브밴드 n 을 인코딩하도록 선형 스케일 양자화 스테이지(130)에 의해 사용되는 다양한 파라미터를 제어할 수 있다. 2개의 예가 이제 기술될 것이다.

예시 # 1 - 비디오 장면 변경 알림 사용

장면 1에서 장면 2로의 비디오 장면 변경 동안, 오디오 프레임(75)은 동시에 변경될 가능성이 있으며 결과적으로 이전 오디오 프레임(75)을 참조로 사용하는 것은 비효율적이다. 앞의 배경 기술 단락에서 설명한 것처럼 기존 오디오 인코더의 모드 선택은 비디오 장면 변화에 영향받지 않는다. 그러나, 개시된 실시예에서, 비디오 인코더(40)는 임의의 장면 변화를 오디오 인코더 모드 선택기(60)에 알리도록 비디오 정보(55)를 공급한다. 다른 파라미터와의 가중화 후, 오디오 인코더 모드 선택기(60)는 (차동 펄스 코드 변조 또는 라인 스펙트럼 쌍 예측과 같이) 프레임-간 예측 기술을 수행하도록 적응성 예측 스테이지(120)를 이용하지 않고, 더 효율적인 모드로 오디오 프레임(75)을 인코딩하도록 제어 신호(160, 165)를 통해 오디오 인코더(80)에 지시할 수 있다. 오디오 인코더 모드 선택기(60)에 의해 변경될 수 있는 다른 파라미터는 보다 양호한 인코딩 효율 및/또는 품질을 달성하기 위해 선형 스케일 양자화 스테이지(130) 및 벡터 양자화 스테이지(135)에 의해 사용되는 오디오 인코더 전역 비트 레이트 및/또는 양자화 파라미터를 포함한다.

예시 #2 - 대화 장면 알림 사용

위의 배경기술 단락에서 언급했듯이 기존 오디오 인코더는 오디오 인코딩 모드를 조정하기 위한 사람 대화 상자와 같이 비디오 장면의 내용을 사용하지 않는다. 그러나, 개시된 실시예들에서, 비디오 인코더(40)는 장면 2와 같이 대화 장면이 검출될 때 오디오 인코더 모드 선택기(60)에 알리도록 비디오 정보(55)를 공급한다. 오디오 인코더 모드 선택기(60)는, 이벤트를 다른 결정 파라미터들과 가중화 후, 오디오 신호의 주파수를 높이거나 낮추기보다 스피치 신호의 범위를 증가시키도록 필터 설정(가령, QMF 뱅크(105)의 설정)을 변경하거나 보다 높은 비트 레이트를 이용하여 인코딩하도록 제어 신호(160, 165)를 통해 오디오 인코더(80)에 지시할 수 있다. 이는 더욱 우수한 재구성된 오디오 신호 품질 및/또는 효율을 가능하게 한다.

상술한 바와 같이, 다양한 레벨의 장치 및 코드 통합이 개시되는 실시예에 따라 실현될 수 있다. 예를 들어, 도 3은 반도체 칩 형태의 집적 회로(200)의 개략도를 도시하며, 그 안에 또는 그 위에 비디오 정보(55)를 전달하도록 동작가능한 비디오 인코더(40), 오디오 인코더 선택기(60) 및 오디오 인코더(80)를 구현할 수 있다. 이는 코더/디코더(CODEC) 또는 다른 유형의 집적 회로와 같이, 보다 큰 소정의 디지털 신호 처리 장치의 일부분으로 또는 개별 IC로 구현될 수 있다.

도 4는 비디오 정보 제어 오디오 인코더 시스템을 위한 다른 유형의 장치 및 코드 통합을 나타내는 개략도다. 여기서, 카메라(15)와 같은 레코딩 장치는 오디오 인코더 모드 선택기(60)에, 그리고 궁극적으로 오디오 인코더(80)에 비디오 정보(55)를 전달하도록 동작가능한 비디오 인코더(40)를 통합시키는 회로 보드 또는 다른 기판을 포함할 수 있다.

도 5는 개시되는 실시예에 따라 예시적인 신호 처리 방법을 도시하는 예시적 순서도다. 단계(300)에서 시작한 다음, 프레임 형태, 등의 비디오 콘텐츠가 단계(310)에서 비디오 인코더에 입력된다. 이는 도 1에 도시되는 비디오 인코더(40)에 비디오 프레임(35)의 전달을 수반할 수 있다. 이 단계는 개별 장치를 이용하여 레코딩 과정 후 소정 시간에 이루어지거나, 비디오 프레임의 실제 녹화와 동시에 진행될 수 있다. 단계(320)에서, 비디오 프레임은 특정 오디오 인코딩 모드를 암시하는 특성에 대해 분석된다. 단계(320)는 오디오 인코딩 기법에 대한 변화 가능성을 암시하는 장면 변화, 대화 증가 또는 기타 장면 표시의 증가를 수반할 수 있다. 단계(330)에서, 비디오 인코더(40)가 단계(340)에서 오디오 인코딩 변화를 암시하는 조건을 검출할 경우, 비디오 정보가 도 1에 도시되는 오디오 인코더 모드 선택기(60)로 전송된다. 그러나, 단계(330)에서 비디오 인코더(40)가 오디오 인코딩 변화를 암시하는 특성을 검출하지 못할 경우, 비디오 프레임 분석을 계속하기 위해 단계(320)으로 복귀한다. 비디오 정보가 단계(340)에서 오디오 인코더에 전송되면, 단계(350)에서, 오디오 인코더 모드가 전송된 비디오 정보에 기초하여 선택된다. 다시, 이는 적응성 예측을 선택하거나 또는 적응성 예측을 전혀 선택하지 않거나, 오디오 인코더 내 데이터 압축과 관련된 소정의 다른 파라미터의 선택을 수반할 수 있다. 그 다음 단계(360)에서 오디오가 인코딩되어, 단계(370)에서 최종적으로, 인코딩된 오디오가 예를 들어, 도 2에 도시되는 패커(120)로 출력된다.

발명의 실시예는 다양한 변형 및 대안의 형태를 취할 수 있으나, 구체적인 실시예가 여기서 세부적으로 기술되고 도면에서 예를 들어 도시되었다. 그러나, 본 발명은 개시된 특정 형태에 한정되는 것으로 의도되지 않는다는 것을 이해해야 한다. 오히려, 본 발명은 다음의 첨부된 특허 청구 범위에 의해 규정되는 본 발명의 사상 및 범위 내에 있는 모든 변형, 등가물 및 대안을 포함한다.

Claims

오디오 인코더(80)와,
오디오 인코더 모드 선택기(60)를 포함하되,
상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한
장치.
제1항에 있어서,
상기 오디오 인코더 및/또는 상기 오디오 인코더 모드 선택기는 컴퓨터 판독가능 명령어들을 가진 비-일시적 컴퓨터 판독가능 매체를 포함하는, 장치.
제1항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나를 포함하는 반도체 칩(200)을 포함하는 장치.
제1항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나를 포함하는 레코딩 장치(15)를 포함하는 장치.
제1항에 있어서,
상기 오디오 인코더 모드 선택기는 장면 변경 또는 사람 대화의 변경을 위해 상기 비디오 데이터를 분석하도록 동작가능한, 장치.
제1항에 있어서,
상기 오디오 인코더는 상기 오디오 인코더 모드 선택기의 상기 인코딩 모드 조정에 응답하는 데이터 압축 파이프라인을 포함하는, 장치.
제6항에 있어서,
상기 데이터 압축 파이프 라인은 양자화 스테이지, 예측 스테이지, 또는 허프만(Huffman) 코딩 스테이지를 포함하는 장치.
제1항에 있어서,
비디오 및 오디오를 레코딩하기 위한 레코딩 장치를 포함하고,
상기 오디오 인코더 및 상기 오디오 인코더 모드 선택기는 상기 레코딩 장치의 일부인 장치.
오디오 데이터를 오디오 인코더(80)로 인코딩하는 단계와,
비디오 데이터의 분석에 기초하여 상기 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는,
오디오 데이터 인코딩 방법.
제9항에 있어서,
오디오 인코더 모드 선택기(60)로 상기 비디오 데이터를 분석하는 단계를 포함하고,
상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 상기 분석된 비디오 데이터에 기초하여 상기 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한, 방법.
제9항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 컴퓨터 판독가능 명령어들을 갖는 비-일시적 컴퓨터 판독가능 매체를 포함하는 방법.
제9항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 반도체 칩(200)의 일부를 포함하는, 방법.
제9항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 레코딩 장치(15)의 일부를 포함하는, 방법.
제9항에 있어서,
상기 비디오 데이터의 분석은, 장면 변경 또는 인간 대화 변경을 인지하는 단계를 포함하는, 방법.
제9항에 있어서,
상기 오디오 인코더는 상기 오디오 인코더 모드 선택기의 상기 인코딩 모드 조정에 응답하는 데이터 압축 파이프라인을 포함하는 방법.
제15항에 있어서,
상기 데이터 압축 파이프 라인은 양자화 스테이지, 예측 스테이지 또는 허프만 코딩 스테이지를 포함하는, 방법.
레코딩 장치(15)로 비디오 및 오디오를 레코딩하여 비디오 데이터 및 오디오 데이터를 생성하는 단계와,
상기 오디오 데이터를 오디오 인코더(80)로 인코딩하는 단계와,
상기 비디오 데이터의 분석에 기초하여 상기 오디오 인코더의 오디오 인코딩 모드를 조정하는 단계를 포함하는
오디오 데이터 인코딩 방법.
제17항에 있어서,
오디오 인코더 모드 선택기(60)로 상기 비디오 데이터를 분석하는 단계를 포함하고,
상기 오디오 인코더 모드 선택기는 비디오 데이터를 분석하여 분석된 비디오 데이터에 기초하여 오디오 인코더의 인코딩 모드를 조정하도록 동작가능한, 방법.
제17항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 컴퓨터 판독가능 명령어들을 갖는 비-일시적 컴퓨터 판독가능 매체를 포함하는, 오디오 인코딩 방법.
제17항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 반도체 칩(200)의 일부를 포함하는 방법.
제17항에 있어서,
상기 오디오 인코더와 상기 오디오 인코더 모드 선택기 중 적어도 하나는 레코딩 장치(15)의 일부를 구성하는, 방법.
제17항에 있어서,
상기 비디오 데이터의 분석은 장면 변경 또는 인간 대화의 변화를 인식하는 단계를 포함하는, 방법.