TW201143445A - Controlling video encoding using audio information - Google Patents

Controlling video encoding using audio information Download PDF

Info

Publication number
TW201143445A
TW201143445A TW099137987A TW99137987A TW201143445A TW 201143445 A TW201143445 A TW 201143445A TW 099137987 A TW099137987 A TW 099137987A TW 99137987 A TW99137987 A TW 99137987A TW 201143445 A TW201143445 A TW 201143445A
Authority
TW
Taiwan
Prior art keywords
video
frame
audio
data
mode
Prior art date
Application number
TW099137987A
Other languages
English (en)
Inventor
Chandra Mouli Polisetty
Aditya Bhuvanagiri
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW201143445A publication Critical patent/TW201143445A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

201143445 六、發明說明: 【發明所屬之技術領域】 本發明係關於結合音訊編碼之視訊編峰。 【先前技術】 數位視訊能力可併入至寬廣範圍之器件中,包括數位電 視、數位直播系統、無線廣播系統、個人數位助理 (PDA)、膝上型或桌上型電腦、數位相機、數位記錄器 件、視訊遊戲器件、視訊遊戲控制台、蜂巢式或衛星無線 電電活視°孔電傳會議器件及其類似者。數位視訊器件實 施視訊壓縮技術(諸如,由mpeg_2、MpEG_4、ιτυ_τ Η.263或ITU_T H.264/MpEG_4第1〇部分進階視訊編碼 (AVC)定義之標準以及此等標準之擴展中所描述的視訊壓 縮技術)以較有效率地傳輸及接收數位視訊資訊。 視訊壓縮技術執行空間預測及/或時間預測以減少或移 除視訊序列中固有之冗餘。對於基於區塊之視訊編碼,可 將視訊訊框或切片分割成巨集區塊。可進-步分割每一巨 集區塊。使用_於相鄰巨集區塊之空間預測來編碼框内 編I ()之„iUC:或切片中的巨集區塊。框間編碼(p或B)之訊 框或切片中的巨集區塊可使用相對於同—訊框或切片中之 相鄰巨集區塊之空間預測或相對於其他參考訊框之時間預 【發明内容】 大體而言, 讯資料的技術 本發明描述用於基於對應音訊資訊而編碼視 。該等技術涉及根據與對應於視訊單元之音 15I994.doc 201143445 訊資料相關聯之靜寂資訊控制視訊編碼視訊資料。在—個 實例中,一音訊編碼器可編碼一音訊單元,該音訊單元包 括關於曰Λ巩框疋否包括語音(例如,該音訊訊框是否為 靜寂的)的一指示。一視訊編碼器可接收對應於該音訊資 料之視_貝料的音訊資訊並基於該音訊資料是否為靜寂的 之該指示而控制該視訊資料的編碼。舉例而言,在該音訊 資料並非靜寂的時,該視訊編碼器可按照一第一模式編碼 Ο Ο 該料。然而,在該音訊資料為靜寂的⑼如,不包 括吾音貧料)時,該視訊編碼器可按照不同於該第一模式 之ί二模式編碼該視訊資料。該第二模式可為經選擇以: 於節省頻寬的修正模式。 座於戈f例巾種方法包括藉由—視訊編竭ϋ接收對 之視訊資料的經編碼之音訊資料是否包括語音 一措、θ不’在該音訊資料包括語音資料時,按昭一第 ;料:編:該對應視訊資料;及在該音訊資料不包括語音 =時’按照-不同於該第-模式之第二模式編碼該視訊 在另-實例中,一種裝置包括一 碼器包含:一编踩s ^ 該視訊編 、編碼早兀’其經組態以按照一第—模式或一 第-不同模式編碼視訊#料;及―模 、二 態以接收對應於該待編碼 料 ’其經組 疋否包括語音資料的一指示,其 巧之曰㈣料 資料時,哕槿1f k s忒資料包括語音 了口亥模式選擇早元將按照 料的-信號發送至該編碼單元,且其^^式編碼該視訊資 丹〒在該音訊資料不包 I5I994.doc 201143445 括語音資料時,該模式選擇單元將按照該第二模式編碼該 視訊育料的一信號發送至該編碼單元。 、在另—實財,—種裝置包括用於接收對應於待編碼之 視訊資料的經編碼之音訊資料是否包括語音資料的一指干 的構件;用於在該音訊資料包括語音資料時按照一第一模 式編碼料應視訊資料的構件;及用於在該音訊資料不包 括語音資料時按照一不同於該第一模式之第二模式編碼該 視訊資料的構件。 本發明中所描述之該等技術可以硬體、軟體、㈣或其 任何組合來實施。若以硬體來實施,則一裝置可作為一積 體電路、-處理器、離散邏輯電路或其任何組合來實現。 若以軟體來實施,則可在一或多個處理器(諸如,微處理 器、特殊應用㈣電路(ASIC)、場可程式化㈣列(fpga) 或數位信號處理器(DSP))中執行該軟體。執行該等技術之 該軟體最初可儲存於-電腦可讀媒體中且載入於該處理器 中並在該處理器中執行。 在另-實例中’ _種電腦可讀儲存媒體編碼有用於使一 視訊編碼裝置之-可程式化處理器進行以下操作之指令: 接收對應於待編碼之視訊資料的經編碼之音訊資料是否包 括語音資料的一指示;在該音訊資料包括語音資料時,按 照-第-模式編碼該對應視訊資料;及在該音訊資料不包 括語音資料時,按照-不同於該第一模式之第二模式編碼 該視訊資料。 -或多個實例之細節陳述於隨附圖式及以下描述中。其 151994.doc 201143445 他特徵、目標及優勢將自該描述及該等圖式以及自申請專 利範圍而顯而易見。 【實施方式】 大體而έ,本發明之技術係關於使用音訊資料來控制對 . 應視訊資料之編碼。視訊及音訊資料可為諸如訊框之視訊 ; 及音訊單元,但可為其他視訊或音訊單元。其他視訊單元 之實例包括視訊切片及視訊區塊。出於說明之目的,將在 纟發明中描述視訊及音訊訊框n編碼器可使用存在於 視訊流中之資訊執行速率控制(諸如,訊框速率或編碼位 π率控制)。本發明中所描述之技術認識到,可藉由利用 與音訊資料相關聯之靜寂資訊來達成額外視訊壓縮。該靜 寂資訊可與由音訊編碼器或話音編碼器(聲碼器)產生之語 音相關聯。 當音訊編碼器編碼一音訊訊框時,該音訊編碼器可將一 描述經編碼之音訊訊框是否為靜寂的之指示包括於該音訊 〇 訊框中。該指示可採用指示該音訊訊框是否為靜寂的之資 訊的形式,諸如「訊框類型」攔位。因為講話的人自然地 按照各種間隔停頓(例如,以允許另一人講話),所以典型 話音呼叫將具有交錯及/或嵌入之靜寂及語音。 在一些音訊編碼技術中,音訊訊框可包括一訊框類型 (FT)攔位,其指示用於該音訊訊框之編碼速率。攔位之 值「15」指示編碼速率對應於「N〇_Data」,如「 Payload Format for the G.729.1 Audio Codec j (A.
So—d,Netw〇rk Working Gr〇up,尺零如加 c〇jnment 151994.doc 201143445
(RFC) 4749,2006 年 10 月)所描述。具有 rN〇 DA — 」 音訊訊框指示該音訊訊框為靜寂訊框,亦即,不含有語音 之訊框。因此,音訊編碼器可將一訊框類型攔位包括於一 音訊訊框之標頭中,該訊框類型攔位指示該音訊訊框是否 為靜寂的(例如,在一個實例中,具有值「丨5」指示該音 訊訊框為靜寂的)。雖然大體描述為「靜寂」訊框,但應 理解,關於經編碼之音訊訊框的術語「靜寂」指示該音訊 訊框不包括對應於語音(例如,一或多個語音音素)之聲 音。因此,「靜寂的」經編碼之音訊訊框可包括非語音聲 音(諸如,背景噪音)。 舉例而言,如「G.729」RTP Payl〇ad F〇rmat办飯 Discontinuous Transmission (DTX) Supportj (A. Sollaud > Network Working Group,RFC 5459,2009^1^ , 音訊編碼n可將-靜寂插人描述符(sid)包括於該音訊編 碼斋已判定為不包括語音的經編碼之音訊訊框中。亦即, 根據不連續傳輸(DTX)柄式音訊編碼,按照MX模式編碼 音訊訊框的音訊編碼器可作出關於一輸入音訊訊框為語音 抑或靜寂之決策。在一些實例中,音訊編碼器週期性地包 括SID ’以使得在人不講話時,可由音訊解碼器以最小 頻寬利用來再現自然背景噪音。在一些實例中,音訊編馬 將―灿包括於每8個連續靜寂音訊訊框中的-者中。 如RFC 5459所描述,包含sm之音訊訊框之訊框類型且 訊框類型值「…。因此,音訊編„可將—仙以及指: 該之存在的訊框類型值「14」包括於一不包括語音之 151994.doc 201143445 音訊訊框(例如’靜寂之音訊訊框或僅包括背景噪音而不 • 包括5吾音之音訊訊框)中。 ,根據本發明之技術’視訊編碼器可分析與音訊訊框相關 聯之資訊以針對對應視訊訊框作出視訊編碼決策。該資訊 可包括中繼資料(諸如,訊框類型攔位資料或SID)。本發 ; 明之技術認識到,在視訊電傳會議期間,諸如面部移動之 運動通常與語音有關。視訊編碼器可基於視訊資料中之運 自而判定視訊訊框速率及經編碼之輪出大小(亦即,經編 碼之視訊單元之大小),且另—經編碼之訊框(諸如,前 一、下一或後一經編碼之訊框)之品質或位元率可視運動 及前一訊框之輸出位元率而定。 本發明之技術假定:除利用來自運動之現有資訊之外, 視訊編碼器亦可利用與語音内容中之靜寂訊框有關之資气 (例如’ SID或訊框類型欄位之值)來針對以下各項作出決 策:(1)所發送之視訊之品質;及⑺發送經編碼之視訊^ Ο ㈣或發送跳過的巨集區塊、跳過的視訊訊框或按照減;;、 之編碼速率編瑪的訊框。任_個或兩個決策可減小⑼ 視訊呼叫或會議呼叫中所使用之頻寬。舉例而言,視㈣ 碼器可自一音訊訊框標頭之訊柩類型搁位掏取訊框 料。 貝 視訊編碼料進-步藉由分析音訊㈣之資訊來判定立 訊訊框是否為靜寂訊框。當視訊編碼器判定一音訊訊框: 静寂的(例如,訊框類型在各種實例中具有值「μ」或 「15」)時,視訊編碼器可跳過對應視訊訊框之編碼」。或 151994.doc 201143445 者’視訊編媽器可(例如)藉由減小用於編碼對應於連續靜 寂音訊訊框之連續視訊訊框的訊框速率、減小用於編碼視 訊訊框之位元率及/或增加用於編碼視訊訊框之量化參數 來減小對應於靜寂音訊訊框之視訊訊框之編碼速率。 作為-實例,當-視訊電傳會議之參與者正講話時,音 訊編碼器可編碼音訊訊框且指示該等音訊訊框並非靜寂 的,且視訊編碼器可按照第一模式編碼對應視訊訊框。铁 而,當該視訊電傳會議之參與者並不講話時,音訊編碼器 可編碼曰訊Dfl框且指不該等音訊訊框為靜寂的,且視訊編 碼器可按照不同於該第—模式之第二模式編碼對應視訊訊 框。可基於-靜寂音訊訊框之痛測來選擇第二視訊編碼模 式。舉例而言,冰笙__描4 i 弟一模式中,視訊編碼器可跳過對應視 訊訊框之編碼或減小該等對應視訊訊框之編碼層級⑽ 如,減小位元率或調整量化參數)。此等技術可導致視訊 之!質與有效率頻寬利用之間的取捨。(例如)由於跳過視 说貝枓之特定部分的編碼及/或按照減小之編碼速率編碼 視訊貧料(例如,藉由在編碼期間減小用於編碼之位元率 或更改量化參數以增加視訊資料之量化),因此第二模式 可導致在傳輸按照第二模式編碼之視訊資料時的減小 寬利用。 以此方式’視訊編碼器可改良(例如)在諸如視訊電傳會 :!!對:頻寬之環境中的頻寬之有效率利用。視訊電傳 持靜寂:二:可發現檢視講話之參與者之視訊比檢視保 ? °孔重要’此係因為講話之參與者之移動的 151994.doc -10- 201143445 觀察可對通彳S有幫助。因此,本發明之技術可使得能夠將 頻寬優先分配給參與者正講話之視訊片段,其中背離保持 靜寂之參與者分配頻寬。因此,使用此等技術之視訊電傳 會議中之參與者可接收到正講話之參與者之較高品質的視 訊,此係因為較高量之頻寬可分配給講話之參與者。此情 形可為理想的’以使得傾聽之參與者能夠清楚地檢視講話 之參與者之移動、手勢、面部表情及發音,此可使得傾聽 者能夠更好地理解講話之參與者所說之内容且提供較高品 質之視訊電傳會議的體驗。 圖1為說明一實例系統10之方塊圖,在實例系統10中, 音訊/視訊(A/V)源器件20根據對應的經編碼之音訊訊框之 靜寂資訊選擇性地編碼視訊訊框。詳言之,在圖1之實例 中’ A/V源器件20包含音訊編碼器26及視訊編碼器28,且 視訊編碼器28基於自音訊編碼器26所接收之音訊編碼資訊 3 6而作出視訊編碼判定。圖!之實例系統1 〇可對應於視訊 電傳會議系統。在一些實例中,A/V源器件20及A/V目的 地器件40可執行雙向資訊交換’亦即,能夠編碼及解碼 (以及傳輸及接收)音訊及視訊資料。在下文參看圖2更詳細 地論述此器件之實例。在一些實例中,音訊編碼器26可包 含一話音編碼器(亦稱作聲碼器)。 A/V源器件20可自講話之參與者12獲得音訊及視訊資 料。在圖1之實例中’ A/V源器件20包含音訊源22及視訊源 24。舉例而言,音訊源22可包含一麥克風,其產生待由音 訊編碼器26編碼之音訊資料。視訊源24可包含一視訊相 151994.doc 201143445 機,其產生待由視訊編碼器28編碼之視訊資料。原始音訊 及視訊資料可包含類比或數位資料。類比資料可在由音訊 編碼器26及/或視訊編碼器28編碼之前經數位化。音訊源 22在講話之參與者12講話的同時自講話之參與者12獲得音 讯=貝料,且視訊源24獲得講話之參與者丨2之視訊資料。在 ,、他實例中,曰汛源22可包含一包含所儲存之音訊資料的 電腦可讀儲存媒體,且視訊源24可包含一包含所儲存之視 訊資料的電腦可讀儲存媒體。以此方式,本發明中所描述 之技術可應用於實況串流音訊及視訊資料或所封存之音訊 及視訊資料。 音訊編碼器26可經組態以按照不連續傳送(DTx)編碼模 式操作。因此,音訊編碼器26可經組態以判定由音訊源Μ 自講話之參與者12獲得的音訊資料是否包括語音資料。音 訊編碼器26可將指示一經編碼之音訊訊框是否包括語音資 料的資訊(諸如,中繼資料)包括於該經編碼之音訊訊框 中。該中繼資料可包含訊框類型指示符或訊框類型值。該 訊框類型指示符除指示經編碼之音訊訊框是否包括語立^ 外,亦可用以指示-音訊編碼模式(諸如,音訊編碼:元 率)。在任何狀況下,訊框類型指示符之至少一可能值可 對應於無語音包括於經編碼之音訊訊框中之情形,亦即, 指示一靜寂訊框。 如上文所論述,在㈣RFC 4749之實财,訊框類型值 可包含值「15」以指示在經編瑪之音訊訊框中無資料。在 另-實例中,根據RFC 5459,訊框類型值可包含值「Η 15l994.doc -12- 201143445 以指示經編碼之音訊邙 一 ° 匕括一靜寂插入描述符(SID)。 ^ ° 包3 SID之經編碼之音訊訊框可被視為靜寂 即,π包括語音資料之訊框)。雖然,此音訊訊框 括背景噪音資料,但音訊訊框仍可在音訊訊框不包括 語音資料時被視為「靜寂」訊框。 立畜粗為:益26可包括關於經編碼之音訊訊框是否包括語 指示。音訊編碼器26將經編碼之音訊資料36發 Ο Ο 送至視訊編碼器28。在—些實例中,音訊編碼器%亦可將 經編碼之音訊資料36發送至傳輸器30。在其他實例中,視 :石馬器28可將經編碼之音訊資料36轉遞至傳輸器30。在 立:狀况下’視机編碼器28自音訊編碼器%接收經編碼之 曰§fL訊框3 6。 =本發明之技術,視訊編碼器28可經組態以基於經編 媽之θ訊訊框36中所句扭+次 之貝汛(諸如,中繼資料)而作出 視訊編碼決策。舉例而言, 框包括注立資料眛、 資訊扣不一經編碼之音訊訊 對岸m編碼器28可按照一正常模式編碼 訊框,但當中繼資料指示該經編碼之音訊訊框不 訊框包含—靜寂訊框時料不該經編碼之音訊 M ^ )硯訊編碼器28可應用第二編碼 評编 例’在第二模式巾’視訊編碼㈣可減小 之装侦切+ 之編料率及/或採取可節省頻寬 岸視U;T各種實例中’視訊編碼器28可完全跳過對 =視讯訊框之編碼’減小視訊訊框之編碼位元率,或在編 碼視訊訊框之同時調整用於 ^ 钒仃I化之置化參數(QP)以便 151994.doc •13· 201143445 增加量化。在一些實例中,視訊編碼器可減小視訊訊框速 率’以跳過對應於各自包含靜寂音訊訊框的一序列連續的 經編碼之音訊訊框的特定數目個視訊訊框。在各種實例 中,當跳過一訊框之編碼時,視訊解碼器可重複一鄰近吨 框代替跳過之訊框或内插一跳過之訊框。然而,編碼器無 需傳輸一跳過之訊框。 以此方式,視訊編碼器28可經組態以執行一方法,該方 法包括:接收對應於一待編碼之視訊訊框的一經編碼之音 訊訊框,判定該經編碼之音訊訊框之中繼資料是否指示該 經編碼之音訊訊框包括語音資料;及在該中繼資料指示該 音訊訊框不包括語音資料時’減小_用於編碼對應於該經 編碼之音訊訊框的該視訊訊框的編碼速率。 )對應於視訊訊框之音訊訊框大體上為含有由音訊源。與 該等視訊訊框内所含有的由視訊源24俘獲之視訊資料同時 俘獲的音訊資料的音訊訊框。亦即,講話之參與者Η大體 上藉由講話產生音訊資料’音訊源22俘獲該音訊資料,且 視訊源24同時(亦即’在音訊源22俘獲該音訊資料的同時) 俘獲講話之參與者12的視訊資料。因&,_音訊訊框可在 時間上對應於一或多個特定視訊訊框。因此,一音訊訊框 對應於一視訊訊框之情形大體上對應於以下情形:音^資 料與視訊資料係同時俘獲且因而,音訊訊框及視訊二框分 別包含同時俘獲之音訊資料及視訊資料。 在一些實例中,音訊編碼器26可將—表示記錄經編碼之 音訊訊框之音訊資料的時間的時間戳記編碼於每一經編碼 151994.doc •14· 201143445 奶日λ。凡框中’且類似地,視訊編碼器28可將一表示記錄 一編碼之視訊訊框之視訊資料的時間的時間戮記編碼於每 一經編碼之視訊訊財。在此等實財,—音訊訊框對岸 力一視訊訊框之情形可包含以下情形:一音訊訊框包含一 • ^間戳°己且一視訊訊框包含同一時間戳記。A/V源器件20 . 彳包括―内料脈,音訊編媽器26及/或視訊編碼器28可 口自該内部時脈產生該等時間戳記,或音訊源22及視訊源24 彳使用該内部時脈來使音訊及視訊資料分別與-時間戮記 相關聯。在一些實例中’音訊源22可將對應於記錄音訊資 料之時間的資料發送至音訊編碼器26,且視訊源24可將對 應於記錄視訊資料之時間的資料發送至視訊編碼器28。在 二實例中,音訊編碼器26可將—序列識別符編碼於經編 碼之音訊資料中,以指示經編碼之音訊資料之一相對時間 排序而不必指示記錄該音訊資料之絕對時間,且類似地, 視訊編碼器28亦可使用序列識別符來指示經編碼之視訊資 〇 料之一相對時間排序。類似地,在一些實例中,可將一序 列識別符映射至一時間戳記或以其他方式使該序列識別符 與一時間戳記相關。 亦應理解,在一些實例中,音訊訊框及視訊訊框可對應 ' 於不同時間長度或不同訊框速率。舉例而言,音訊編碼器 26可編瑪各自表示20毫秒(ms)之音訊資料之音訊訊框。視 訊編碼器28可按照各種訊框速率(諸如,15訊框/秒、3〇訊 框/秒或60訊框/秒)編碼視訊資料。因此,—個音訊訊框可 對應於一個視訊訊框或複數個視訊訊框。同樣,一個視訊 151994.doc 15· 201143445 訊框可對應於-個音訊訊框或複數個音訊訊框。因此,片 語「音訊訊框對應於視訊訊框」之使用應理解為包括以下 情形·後數個視訊訊框中之任—者包括與複數個音訊訊框 中之任I中所包括之音訊資料同時俘獲的視訊資料。 大體而言’對「指示經編碼之音訊訊框包括語音資料的 經編碼之音訊訊框之中繼資料」的引用應理解為:表示由 g訊編碼器26關於藉由中繼資料描述的經 是否包括語音資料作出之判定的中繼資料。在:些= I ’此中繼資料將「訊框類型」攔位之值包括於經編碼之 音訊訊框中。在其他實例中’中繼資料可將-SID或由該 音訊訊框來編碼-SID之一指示包括於音訊訊框中。其他 實例可使用關於音訊訊框是否包括語音之其他中繼資料或 類似表示,例如,在音訊訊框包括語音資料時設定且在音 訊訊框不包括語音資料時清除之i•位元「語音」旗標。曰 減少用於編碼對應於經編碼之音訊訊框(其包括指示經 編碼之音訊訊框為靜寂的之中繼資料)之視訊訊框的編碼 迷率可包括-或?個編碼料減小。舉㈣言,編碼速率 減何包括訊框速率之減小、用於編碼視訊訊框之位元率 之減小、用於量化經編碼之視訊訊框之量化參數的修正或 完全跳過對應於靜寂音訊訊框之料訊框之編碼。 」乍為一實例,-個音訊訊框可包含相當於1〇〇 ms的音訊 " 且視Λ "貝料可按照50訊框/秒來編碼,此情形將導 致-個音訊訊框對應於五個視訊訊框。在此實例中,去立 訊編碼II 26編碼音訊訊框且包括指示該音訊訊框為靜:二 I5I994.doc • 16 - 201143445 之中繼資料時,視訊編碼器28可藉由編碼該音訊訊框所對 應的五個視訊訊框中之第一視訊訊框且跳過其他四個視訊 訊框之編碼來減小編碼速率。視訊編碼器28亦可藉由以下 各項來減小訊框速率:根據複數個連續音訊訊框之各別中 繼資料判定該等音訊訊框各自為靜寂的,且選擇性地跳過 該等連續音訊訊框所對應的特定數目個視訊訊框之編碼。 Ο Ο 作為另一實例,視訊編碼器28可藉由根據對應於靜寂音 訊訊框(亦即,包括指示音訊訊框不包括語音資料之中繼 資料的音訊訊框)之視訊訊框之較低位元率來最佳化速率 失真成本而減小編碼速率。視訊編碼器28可根據拉格朗日 (lagrangian)計算使用方程式「速率失真成本=失真+λ*速 率」來最佳化速率失真成本,其中「失真」指示特定區塊 之失真(例如,自SAD、SSD、MAD、MSD或其類似者計算 之錯誤),「λ」指示拉格朗日乘數,且「速率」指示位元 率。亦即,視訊編碼器28可將較小值用於方程式中表示分 配給個別訊框之位元率的「速率」,且根據分配給個別: 框之較小位元率值來最佳化速率失真成本。 作為另一實例,視訊編碼器28可藉由跳過對應於靜寂音 訊訊框(亦即,包括指示音訊訊框不包括語音資料之中: 資料的音訊純)之視訊純之編碼㈣小編碼速率。舉 例而言’在於音訊訊框與視訊訊框之間存在-對-關係的 情況下’視tfl編碼!t28可跳料隸靜寂音職 訊框之編碼。作為另 視訊 — 作為另一實例,在於音訊訊框與視訊訊框之 a子 m係的情況τ ’視訊編碼器28可跳過對應於 151994.doc 17- 201143445 一個靜寂音訊訊框之複數個視訊訊框中之每一者的編碼。 作為又實例,在複數個音訊訊框對應於一個視訊訊框之 情況下,視訊編碼器28可在該視訊訊框所對應之音訊訊框 中之每一者為靜寂音訊訊框時跳過該視訊訊框之編碼。視 訊編碼器28亦可使用上文所描述之實例方法中之任一者或 全部的組合來減小對應於包括指示音訊訊框*包括語音資 料之中繼資料之-或多個音訊訊框的—或多個視訊訊框之 編碼速率。 視訊編碼器28、視訊解碼 =·仙、哪,盃zo、首訊解 碼_、音訊編碼解碼器56及視訊編碼解碼器咐自在適 用時可實施為多種合適的編碼器或解碼器電路中之任一 ^諸如,-或多個微處理器、數位信號處理器(Dsp)、 積體電路叫場可程式化閘陣列(PPM)、離 ::視訊解™中之每-者可包括於-或多個IS ^碼器+,該-或多個料器或解碼器中之任—者^ :為:組合視訊編碼器/解竭器(編碼解碼器)之部 ^ ^編碼H26及音轉^辦之每 :多個編碼器或解碼器t,該—或多個編碼器或 之II者可^為—組合音訊編碼_碼器⑷馬解媽器) 刀。 包括視訊編碼器2 8 . 器26、音訊解碼器46、音气編J 碼器化、音訊編碼 解碼器66之裝置可包含一積體電碼:56及/或視訊編碼 無線通信器件(諸如,蜂巢式電話)。、—微處理器及/或- 151994.doc -18- 201143445 作為修正模式編碼之實例,視訊編碼器可大體上(例如) 藉由以下各項來減小視訊訊框之編碼速率:跳過視訊訊框 或其他視訊單元之編碼,減小用於視訊訊框或視訊單元之 編碼的位元率’增加用於視訊訊框之編碼之量化參數 (QP) ’或減小用於對應於一序列連續靜寂音訊訊框之複數 個視訊訊框之編碼的訊框速率。以此方式,本發明之技術 可改良頻寬利用之效率,此係因為相比於對應於靜寂音訊
讯框之視訊訊框之編碼,較多頻寬可分配給與語音資料相 關聯的視訊訊框之編碼。 圖2為說明一實例音訊/視訊器件50之方塊圖,音訊/視訊 态件5 0能夠編碼及解碼音訊及視訊資料以及傳輸及接收經 編碼之曰訊及視祝資料。舉例而言,A/γ器件$ 〇可包含視 Λ電傳會議系統或用於視訊電信之其他器件,諸如,個人 電腦MiA數位助理(PDA)、無線通信手機或其類似者。 圖之貫例中,A/V器件50包括作為使用者介面之揚聲器 52、麥克風54、顯示器62及相機64。a/v器件咒亦包括音 訊編碼解碼H56及視㈣碼解碼祕。本發明使用術^ 「編碼解碼器」來指代包含編碼器與解碼器兩者之單元或 模組因此’音訊編碼解碼㈣可編碼音訊資料且解碼經 編碼之音訊訊框1樣,視訊編销碼器&可編碼視訊資 :碼之視訊訊框。在一些實例中’音訊編碼解 ’諸如經組態以執行語音資料及非語 二,靜叔或無聲音訊)資料之DTX模式音訊編碼 崎器。 十 151994.doc 19 201143445 明解碼器%自麥克風54接收音訊資料。根據本發 月之技術,音訊編碼解碼器56可將音訊資料編碼為一 赌絲料經編碼之音訊肺料至視訊編碼解 :η’音訊編碼解碼器56可將指示該等音訊訊 :者疋否包含語音資料之中繼資料包括於該音訊 2匡。舉例而言,音訊編碼解碼器56可將指示經編碼之 曰訊隸是否包括語音資料或音訊訊框是否為「靜寂的 =即’不包括語音資料)的訊框類型值包括料音訊訊框 =出於僅編碼背景噪音的目的,音訊編㈣碼器56亦可 ㈠曰讀編碼之音訊訊框不包括語音資料的助包括於梦 音訊訊桓中。 、 音訊編碼解碼器56將經編碼之音訊訊框發送至視訊編碼 '視I編竭器66可基於來自接收自音訊編碼解碼器% 的經編碼之音訊訊框的資料而作出編碼決策。舉例而+ ㈣編碼器66可分析經編碼之音訊訊框以(例如)藉由料 L編碼之音訊訊框中之訊框類型值及/或仙值而判定 音訊訊框是否包括語音資料。詳言之,視訊編媽器6何針 對對應於該等經編碼之音訊訊框的接收自相機6 *之視 框作出編碼決策。 ° ^ 舉例而言’斜於對應於包括語音資料之經編碼之音訊訊 才[的視afUfi框,視訊編碼器66可根據第一編碼模式編碼該 等視訊訊框。在第-編碼模式中,視訊編碼器66可正常= (例如’按照預定位元率及/或預定訊框速率)編碼該等視訊 訊框’、、、而’對於對應於不包括語音資料之經編碼之音訊 151994.doc •20· 201143445 訊框的視訊訊框,視訊編 沿OO 使用不同於第一 • 式之第二編碼模式編# I 4 、 楚… …碣㈣視訊訊框。舉例而言,在按照 第一不同編碼模式編% pi,ia % & ' ' • *…-玄弓期間視訊編碼器66可減小訊框速 ^減小位增加量化參數,或跳過對應於一或多個 . 飞夕個視讯訊框之編碼,或使用此等方 法之任何組合來減小編碼速率。 t制碼解碼H56可將經編碼之音訊訊框 器/接收器(收發器)6〇,且得輸 〇 視訊、為碼解碼器66可將經編碼之 視訊訊框發送至收發器6〇。或者,在一些實例中音 碼解媽器56可僅將經編碼之音訊訊框發送至視訊編瑪解媽 器66,且視訊編碼解碼器66可將該等經編碼之音訊訊框連 同對應的經編碼之視訊訊框一起轉遞至收發器60。在任何 狀況下*)文發器60使用天線68來傳輸經編碼之音訊及視訊 訊框。以此方式’ A/V器件5〇可將經編碼之音訊及視訊訊 框傳輸至(例如)另-不同A/v器件,該另一不同a/v器件可 〇 _於抑器件5G。雖然大體上關於經由天線以無線方式 傳輸經編碼之音訊及視訊訊框的收發器來描述,但應理 解,本發明之技術亦適用於經由有線連接來發送及接收經 ' 編碼之資料。 A/V器件50亦可藉由收發器6〇在天線“處接收經編碼之 音訊及視訊訊框。在一個實例中,當收發器6〇接收到經編 碼之音訊訊框時,收發器6〇將該經編碼之音訊訊挥發送至 音訊編碼解碼器56以用於解碼,且當收發器60接收到經編 碼之視訊訊框時,收發器60將該經編碼之視訊訊框發送至 I51994.doc •21 · 201143445 視訊編碼解碼器66。在另一實例中,收發器6〇可將經編碼 之音訊訊框及經編碼之視訊訊框發送至視訊編碼解碼器 66,且視訊編碼解碼器66可將該等經編碼之音訊訊框轉遞 至音訊編碼解碼器5 6。 音訊編碼解碼器56解碼經編碼之音訊訊框,且視訊編碼 解^器66解碼經編碼之視絲框。在—些實财,經編碼 之音訊訊框及經編碼之視訊訊框包括指示音訊訊框與視訊 訊框之間的對應性的時間戳記。在此等實例中,音訊編碼 解碼器56及視訊編碼解碼器66可根據時間戳記或序列識別 符分別將經解碼之音訊及視訊訊框發送至揚聲器52及顯示 器62。在一些實例中,A/v器件5〇可進一步包括時脈或其 他同步單元,以確保對應音訊及視訊訊框由揚聲器52及顯 示器62同時播放。 揚聲器52可對應於一或多個揚聲器或用於自音訊資料產 f聲音之其他單元。顯示器62可包含—或多個視訊顯示 諸如’液曰曰顯示器(LCD)電視或監視器、電聚電視或 監視器、陰極射線管(CRT)電視或監視器、投影儀或其類 似者。在一些實例中,揚聲器52及/或顯示器62可在A/v器 件50外部,在該狀況下,揚聲器52及/或顯示器62可藉由 有線或無線連接而耦接至A/V器件50。 圖3為說明與本發明一致之視訊編碼器28之—實例的方 塊圖,視訊編碼器28可實施用於基於對應的經編碼之音訊 之靜叔> afl而編碼視訊訊框的技術。雖然描述為A/V 源器件20(圖丨)之視訊編碼器28,但圖3中所描繪之視訊編 151994.doc •22· 201143445 碼器可用於其他情形下並由其他器件使用。舉例而言,視 訊編碼解碼器66(圖2)可包括類似於如圖3中所描繪之視訊 、.爲碼器2 8的視訊編碼器。另外,組件之其他配置可由執行 類似功能之視訊編碼器使用。視訊編碼器28可根據任何已 知視訊標準(例如,動晝壓縮標準(MPEG)-2、MPEG-4、國 際電信聯盟(ΙΤυ)Η·263、Ιτυ Η·264、進階視訊編碣 (AVC),或其類似者)執行視訊訊框、視訊切片、區塊序列 ❹ Ο (例如,圖像群組)或視訊資料之其他獨立經編碼單元内之 區塊的框内及/或框間編碼。榫内編碼依賴於空間預測以 減少或移除給定視訊訊框内之視訊之空間冗餘。框間編瑪 依賴於時間預測以減少或移除一視訊序列之鄰近訊框内之 視訊的時間冗餘。 杧内模式(I-模式)可指代若干基於空間之壓縮模式令之 任者’且框間模式(諸如,預測模式(Ρ_模式)或雙向模式 (Β-模式))可指代若干基於時間之壓縮模式中之任一者。可 在框間編碼與框内編碼兩者㈣應用本發明之技術。 Τ所展示’視訊編碼器28接收待編碼之視訊訊框 田月〗視訊區塊。在圖3之實例中,視訊編碼器28包括 動補作單元84、運動估計單it 82、框内預測單元86、模 擇單元88、參考訊框儲存器104、求和器90、變換單 元92、量仆置Sriyin 疋94及熵編碼單元96。對於視訊區塊重新建 構視訊編碼器28亦包括逆量化單元%、逆變換單元刚 。求和盗1 02。亦可包括解區塊渡波器(圖3中未展示)以對 區塊邊H皮以自經重新建構之視訊移除區塊效應假影。 151994.doc •23· 201143445 在需要時,該解區塊濾波器通常將對求和器1〇2之輸出濺 波。 在編碼程序期間,視訊編碼器28接收待編碼之視訊訊 框、切片或巨集區塊序列(例如,圖像群組其可大體上稱 作經編碼單元或視訊單元)。訊框、切片或序列可劃分成 多個視訊區塊。根據本發明之技術,該等視訊區塊中之每 -者對應於'經編碼之音訊訊框1式選擇單元88最初判 定-視訊區塊所對應之音訊訊框是否含有語音資料。舉例 而言,模式選擇單元88可分析一音訊訊框之訊框類型值以 判定該訊框類型值是否指示該音訊訊框包括語音資料。告 模式選擇單元88判定一經編碼之音訊訊框不包括語音資^ 時,模式選擇單元88可選擇篦一描 模式)。當模式選擇單元88判〜:式(八可為一正常編瑪 早兀88判疋一經編碼之音訊訊框不包 =音資料時,模式選擇單元88可選擇不同於該第一模式 之第二模式。在該第二握4 、 視,視訊編碼器28可減小對應 視=編碼早兀之編碼速率。當模式選 :音訊訊r括語音資料時,模式選擇單元财二 碼器28正$地編碼視訊編碼單元。 模式選料元88可料 單元-及框内預測單元86編碼早:82、運動補償 來控制視訊編碼單元之編碼。模式、或多個區塊 音訊資料是否包括語音資料㈣;^擇早7088亦基於對應 第-π π绝 I ; |疋按照第一編碼模式抑或 第-不同編碼模式(例如 模式)編碼視訊資料。運^、頻寬之降低品質編碼 什早元82及運動補償單元84 151994.doc -24- 201143445 相對於錯存於參考訊框儲存器1〇4中之 *的-或多個區塊來執行所接收之視訊區塊= 碼,以提供時間壓縮。框内 間預測編 所接r 内制早⑽相對於與待編碼的 接收之視汛區塊相同的訊框或切 媸氺益—乃平之―或多個相鄰區 執仃該區塊之框内預測編碼,以提供空間麼縮。 =擇單,例如)基於錯誤結果來選㈣^ (框内或框間)中之一者, Ο 編碼之區塊提供至… 内編碼或經框間 求 :。WO以產生殘餘區塊資料且提供至 攄太恭W重新建構經編碼之區塊以用作參考訊框。根 的所^ 模式選擇单凡88亦根據對應於視訊區塊 =所接收之經編碼之音訊訊框來判定是否編碼該等視訊區 % 〇 :之i式選擇單元啊(例如)自音訊編碼器或音訊 ^解碼器接收經編碼之音訊訊框。該等經編碼之音訊訊 立之每—者可包括指㈣經編碼之音訊隸是否包括語 Ο 9貧料之中繼資料。模式選擇單元88經組態以分析經編碼 之音訊訊框之中繼資料以判定該經編碼之音訊訊框是否包 音資料。基於此判定’模式選擇單元88可判定按照第 模式(例如,正常地)編碼對應視訊訊框抑或按照第二模 式(例如由減小該等對應視訊訊框之編妈速率)編碼該 等視讯訊框。該第一模式及該第二模式可各自包括框内 或忙間預測模式編碼兩者。舉例而言,模式選擇單元 Μ可經組態以藉由以下各項來減小編碼速率:減小訊框速 、減】位元率,増加量化參數,跳過對應於靜寂音訊訊 151994.doc -25- 201143445 框之視訊訊框之編喝,或此等編碼速率減小之任何組入 及/或用於減小用於按照第二模式編碼之編碼速率之其: 方法。 、 在-序列之靜寂音訊訊_間’模式選擇單元88可判定 跳過對應於該序列之靜寂音訊訊框的視訊訊框中之每一者 之編碼。因此,在-些實例中,模式選擇單元⑽可按昭預 設選擇框内編碼模式用於對應於在此序列之靜寂音訊訊框 後的包括語音資料之音訊訊框的視訊訊框。在其他實例 中,模式選擇單元88可判定框内編碼模式抑或框間編碼模 式會最有效率地編碼對應於在一序列之靜寂音訊訊框後的 語音音訊訊框之視訊訊框。 舉例而言,模式選擇單元88可試圖參考先前編碼之參考 訊框來框間編碼視訊訊框,計算經框間編碼之視訊訊框之 重新建構與原始視訊訊框之間的差異值(例如,絕對差 和、平方差和、平均絕對差或平均平方差),且判定該差 異是否超過一臨限值。當該差異超過該臨限值時,模式選 擇單元8 8可選擇使視訊編碼器2 8框内編碼該視訊訊框之模 式,但當該差異不超過該臨限值時,模式選擇單元以可選 擇使視訊編碼器28框間編碼該訊框之模式。用以判定框間 編碼抑或框内編碼之臨限值可根據選定之編碼模式而變 化,該選定之編碼模式與對應音訊資料是否包括語音資料 有關。舉例而言,由模式選擇單元88選擇以用於編碼對應 於不包括語音之音訊資料之視訊資料的第一編碼模式之臨 限值可經紐態以便使視訊編碼器28較可能框間編碼該視訊 151994.doc -26- 201143445 資料。然而’由模式選擇單元88選擇以用於編碼對應於包 括語音之音訊資料之視訊資料的第二編碼模式之臨限值可 經組態以使視訊編碼器28較可能框内編碼該視訊資料。以 ,方式,模式選擇單元88可選擇具有經組態以使視訊編碼 器2 8較可能或較少可能框内編碼視訊資料的臨限值之編碼 模式,此情形可導致針對具有經組態以使視訊編喝器轉 可能框間編碼對應於靜寂音訊資料(亦即,不具有語音之 音訊資料)之視訊資料的臨限值之編碼模式的頻寬節約。
Ο 運動估計單元82與運動補償單元84可高度整合,但出於 概念目的而分開說明。運動估計為產生運動向量之程序,、 該等運動向量估計視訊區塊之運動。舉例而言,運動向量 ° #曰示預測f·生參考訊框(或其他經編碼單元)内之預測性區 塊相對於當前訊框(或其他經編碼單元)㈣正編碼之當前 區塊的移位。預測性區塊為發現在像素差異方面緊密匹配 待編踢之區塊的區塊,該像素差異可藉由絕對差和 (SAD)、平方差和(SSD)或其他差異量度來判定。 運動向ϊ亦可指示巨集區塊之分割區之移位。運動補償 可v及基於藉由運動估計而判定之運動向量來提取或產生 預”區塊。此外,運動估計單元82與運動補償單元84可 在功能上整合。 運動估叶早兀82藉由比較經樞間編碼之訊框之視訊區塊 y t + 儲存器1G4中之參考訊框之視訊區塊來計算該 =訊11塊之運動向量。運動補償單以4亦可内插參考訊框 ^ 1訊框或P_訊框)之子整數像素。ITU H.264標準將 151994.doc •27· 201143445 =考訊框稱作「清單」。因此,儲存於參考訊框儲存器ι〇4 中之貧料亦可被視為清單。運動估計單元82比較來自參考 訊枢健存HHM之-或多個參考訊框(或清單)之區塊盘當前 讯框(例如’ P-訊框或B_訊框)之待編碼之區塊。當參考訊 框健存器H)4中之參考訊框包括子整數像素之值時,由運 動估計單元82計算之運動向量可指代參考訊框之子整數像 素位置。運動估計單元82將所計算之運動向量發送至 碼單元96及運動補償單元84。藉由運動向量識別之參考訊 框區塊可稱作預測性區塊。運動補償單元料計算 之預測性區塊之錯誤值。 〃考°才 模式選擇單元88可經組態以在選擇框間編碼模式或框内 編碼模式之前關於對應音訊資料是否包括語音而選擇用於 編碼視訊資料之編碼模式。因此,初始模式選擇(亦即, 基於對應於視訊資料之音訊資料是否包括語音而 選:)可導致關於編碼模式之決策’該編碼模式係關於: =出框間編碼抑或框内編碼該視訊資料之決策而以不同 式組態。可基於框内週期、網路容量、輸出之品質或1 他因素來決定將特定視訊訊框編碼為卜訊框抑仏訊框了 :忙通常佔據較多位凡’且因此,當模式選擇單元Μ判 疋作出模式選擇之對應於視訊資料之音訊資料時,模 =早兀88可(例如)藉由以下各項來選擇經組態以編碼 較多Ρ-訊框,模式:藉由具有經組態之框内週期、經組態 限值的選定之模式,或藉由使視訊編瑪器28 選擇相對純之㈣其他㈣m選擇準則可 15I994.doc -28- 201143445 藉此節約頻寬’此係因為模式選擇單元88將較可能選擇經 組態以使視訊編碼器28將訊框編碼為p_訊框之模式。 此外’視訊編碼器28在決定使用框間模式抑或框内模式 編碼來編碼訊框之後另外執行關於如何編碼訊框之個別巨 集區塊的編碼模式決策。巨集區塊之編碼模式決策針對 訊框及p-訊框而不同。舉例而言,關於Η·264,基於sad 而針對P-訊框之個別巨集區塊作出使用框間模式抑或框内 模式來編碼巨集區塊之模式決策。相比於經框間編碼之巨 〇 集區塊,經框内編碼之巨集區塊通常佔據較多位元,因 此,當對應於視訊資料之音訊資料為靜寂的(亦即,不含 有語音資料)時,選定之編碼模式可使視訊編碼器28較可 能框間編碼巨集區塊,此情形可藉此減小頻寬消耗。對於 I-訊框,視訊編碼器28亦基於SAD而作出預測模式選擇。 I-訊框之巨集區塊之預測模式可導致個別地編碼巨集區塊 之4x4像素分割區或將每一 16><16巨集區塊作為整體來編 〇 碼。通常,相比於16X16編碼模式,4X4像素分割區編碼模 式導致較多位元使用。因此,當在音訊資料中存在靜寂 時,選定之編碼模式可使視訊編碼器28較可能按照ΐ6χΐ6 編碼模式而非4x4編碼模式來編碼^訊框之巨集區塊。 運動補償單元84可基於預測性區塊來計算預測資料。視 訊編碼器28藉由自正編碼之原始視訊區塊減去來自運動補 償單元84之預測資料而形成殘餘視訊區塊。求和器9〇表示 執行此減法運算之一或多個組件。變換單元92對該殘餘區 塊應用變換(諸如,離散餘弦變換(DCT)或概念上類似之變 151994.doc -29- 201143445 換),從而產生一包含殘餘變換係數值之視訊區塊。變換 單元92可執行概念上類似於DCT之其他變換(諸如,由 H.264標準定義之變換)。亦可使用小波變換、整數變換、 次頻帶變換或其他類型之變換。在任何狀況下,變換單元 92對殘餘區塊應用變換,從而產生—殘餘變換係數區塊。 該變換可將殘餘貢訊自像素值域轉換為變換域(諸如,頻 域)。詳言之,變換單元92根據量化參數來執行變換,該 量化參數指示待於該變換期間應用之量化之量。模式選擇 單元88可基於對應於正編碼並量化之視訊資料之音訊資料 是否包括語音資料而調整量化參數。 量化單元94量化該等殘餘變換係數以進一步減小位元 率。該量化程序可減小與該等係數中之—些或全部相關聯 的位元深度。在一些實例中,量化單元94在特定視訊訊框 之巨集區塊之量化朗應用量化參數Qp,其中根據對應的 經編碼之音訊訊框包括語音資料抑或音訊訊框為靜寂的而 判疋QP值。舉例而s ’當對應的經編碼之音訊訊框包括語 音時,該QP值可相對較低,而當對應的經編碼之音訊訊框 不包括語音(例如,為靜寂的)時,該砂值可相對較高。 在量化之後,熵編碼單元96熵編碼經量化之變換係數。 舉例而言’熵編碼單元96可執行内容自適應性可變長度編 碼(CAVLC)上下文自適應性二進位算術編碼AC)或 另熵 '-扁碼技術。在由燜編碼單元%滴編碼之後,可將經 編碼之視訊傳輸至另_器件或封存以供稍後傳輸或搁取。 經編碼之位元流可包括經熵編碼之殘餘變換係數區塊、此 151994.doc -30- 201143445 等區塊之運動向量及其他語法元素,包括(例如)巨集區塊 類型識別符值、指示經編碼單元中之巨集區塊之最大大小 的經編碼單元標頭、Qp值、經編碼區塊型樣(cBp)值及變 、大j旗標i纟上下文自適應性二進位算術編碼之狀況 下,上下文可基於相鄰巨集區塊。 . 在些狀况下,熵編碼單元96或視訊編碼器28之另一單 元可、”呈、’且L以執行除熵編碼之外的其他編碼功能。舉例而 〇 H編碼單元96可執行區塊或巨集區塊中之係數的行程 長度扁碼洋3之,熵編碼單元96可應用鑛齒形掃描或其 他掃描型樣以掃描巨集區塊中之變換係數並編碼零之行程 、用於進步壓縮。熵編碼單元96亦可建構具有適當語法 兀素之標頭資訊以用於在經編碼之視訊位元流中傳輸。 逆量化單元98及逆變換單元1〇〇分別應用逆量化及逆變 換以在像素域中重新建構殘餘區塊(例如)以供稍後用作參 考區塊。運動補償單元84可藉由將殘餘區塊與參考訊框儲 ◎ 存器104之讯框中之一者的預測性區塊相加來計算參考區 塊。運動補償單元84亦可將一或多個内插渡波器應用於經 . 重新建構之殘餘區塊以計算子整數像素值。求和器1〇2將 ’差重新建構之殘餘區塊與由運動補償單元產生之經運動 補償之預測區塊相力,以I生經重新建構之視訊區塊以儲 存於參考訊框儲存器1〇4中。經重新建構之視訊區塊可由 運動估《十單元82及運動補償單元84用作參考區塊以框間編 碼後續視訊訊框中之區塊。 圖4為說明視訊解碼器48之組件之一實例組態的方塊 151994.doc -31 - 201143445 圖。經編碼之視訊序料包括根據對應的經 框編Γ的視訊訊框及/或視訊巨集區塊。雖然描述為 的地斋件40(圖1)之視气解 L…/圖4中所描繪之視訊 、·扁碼器可用於其他情形下並由其他器件使用。舉例而古, 視訊編碼解碼器66(圖2)可包括類似於如圖4中所描繪之視 I編碼H48的視訊解碼^在,之實财,視訊 48包括熵解碼單元12〇、 ^ 硬動補该早兀122、框内預測單元 124、逆量化單元126、逆變換單元58、參考訊框館存器 "2及求和器130。在一些實例中’視訊解碼器48可執行大 體上與關於視訊編竭器28(圖3)所描述之編碼階段相反的解 碼階段。運動補償單元122可基於自熵解碼單元12〇所接收 之運動向量而產生預測資料。 熵解碼單元120熵解碼所接收之位元流以產生經量化之 係數及語法元素(例如,運動向量、CBp值、Qp值及/或變 換大小旗標值)。熵解碼單元120可剖析該位元流以識別經 編碼單元(諸如,訊框、切片及/或巨集區塊標頭)中之語法 負訊。一區塊之語法資訊(例如)視該區塊之編碼模式而自 熵編碼單元52轉遞至運動補償單元122或框内預測單元 55 ° 運動補償單元122可使用在位元流中所接收之運動向量 來識別參考訊框儲存器132中之參考訊框中的預測區塊。 框内預測單元124可使用在位元流中所接收之框内預測模 式來自空間上鄰近之區塊形成預測區塊。逆量化單元126 逆量化(亦即,解量化)位元流中所提供的且由熵解碼單元 J51994.doc -32- 201143445 120解碼的經量化之區塊係數。該逆量化程序可包括(例如) . 如由H.264解碼標準定義的習知程序。該逆量化程序亦可 . 包括使用由編碼器針對每一巨集區塊計算之量化參數Qp 值以判定量化之等級且同樣判定應應用之逆量化之等級。 • 逆變換單几128對變換係數應用逆變換(例如,逆DCT、 ; 逆整數變換或概念上類似之逆變換程序)以便在像素域中 產生殘餘區塊。運動補償單元122產生經運動補償之區 〇 塊,從而有可能基於内插濾波器來執行内插。待用於具有 子像素精度之運動估計之内插濾波器的識別符可包括於語 法元素中。運動補償單元j 22可使用如由視訊編碼器Μ在 視訊區塊之編碼期間使用之内插濾波器來計算參考區塊之 子整數像素的經内插之值。運動補償單元122可根據所接 收之法資訊來判疋由視訊編碼器28使用之内插濾波器且 使用該等内插濾波器來產生預測性區塊。 運動補償單元122使用語法資訊中之一些語法資訊來判 〇 定·用以編碼經編碼之視訊序列之(多個)訊框的巨集區塊 之大小、描述經編碼之視訊序列之一訊框的每一巨集區塊 如何为割的分割區資訊、指示如何編碼每一分割區的模 式、每一經框間編碼之巨集區塊或分割區之一或多個參考 訊框(或清單)及用以解碼經編碼之視訊序列之其他資訊。 求和器130將殘餘區塊與由運動補償單元122或框内預測 單元產生之對應預測區塊加總以形成經解碼之區塊。在需 要時,亦可應用解區塊濾波器來對經解碼之區塊濾波以便 移除區塊效應假影。接著將經解碼之視訊區塊儲存於參考 151994.doc •33· 201143445 訊框儲存器132中,參考 補償之參考區塊且亦產^器132提供用於後續運動 器^諸如,圖i之視訊輸於呈現於顯示 藉由解碼對應於經編立 ,之θ讯矾框的經編碼之視mq 框,視訊解碼器48可產生 〈視訊訊 資粗 據對應曰讯訊框是否包括語音 貝枓而變化的視訊資料。舉 3當一序列經編碼之音 包括語音資料,由視轉碼_解碼 =可包含具有平均品質等級的視訊流。另m 序列經編碼之音訊訊框不包括扭立 田 匕栝。口曰貝枓時,由視訊解碼器 解竭之對應視訊資料可包含較m訊資料、間斷 之視訊訊拖’或由於減小之訊框速率、減小之位元率、增 加之量化參數或跳過的視訊訊框而顯現為凍結影像之; 料。然而’品質降低可導致較有效率之頻寬分配。 圖5為說明用於按照第-模式或第二模式編馬視訊資料 之一實例方法的流程圖。大體而言,編碼器(諸如,視訊 編碼器叫可執行圖5之方法以判定按照第_模式抑或第二 模式來編碼對應於音訊資料之視訊資料。 八隨而言,相對 於按照第一模式編碼視訊資料而言,按日„ ^ 牧…、弟二模式編碼視 机資料可導致消耗相對較少之頻寬的經編碼之資料。舉例 而言,第二模式可包括使用減小之位元率、 用以增加量化 之修正之量化參數及/或減小之訊框速率來編碼 最初’模式選擇單元88接收待編碼之視訊訊框(14〇)。 :然大體上關於視訊訊框來描述’但應理解,圖5之技術 亦可應用於其他經編碼單元(諸如,片、圖像群組、個 J51994.doc -34- 201143445 別區塊或其他經編碼視訊單元)。模式選擇單元88亦判定 對應於視訊訊框之經編碼之音訊訊框的資訊指示該音訊訊 框為靜寂的抑或含有語音資料(142)。舉例而言,該資訊可 包含一訊框類型值及/或一靜寂資訊描述符(SiD)。 ❹
當模式選擇單元88判㈣f訊指隸編碼之音訊訊框包 括語音資料時(142之「是」分支),模式選擇單㈣選擇第 -編碼模式(144)。然而,當模式選擇單元88判定該資訊指 示、、二編碼之音讯讯框不包括語音資料時(1C之「否」分 j),楔式選擇單元88選擇第二編碼模式(146)。大體而 舌’相比於第一編碼模式而言,第二編碼模式可導致消耗 相對較少之頻寬的經編碼之資料。舉例而言,第二編碼模 式可利用較録元率、導致增加之量化的修正之量化參數 及/或減小之訊框速率。在—些實财,第二編碼模式可 包含完全跳過視訊訊框之編碼。 、根據圖5之實例方法包括:藉由—視訊編碼器接收對應 於待編碼之視訊資料的經編碼之音訊資料是否包括語音資 :的指不,在該音訊資料包括語音資料時,按照第一模 :編竭該對應視訊資料;及在該音訊資料不包括語音資料 按照不同於該第一模式之第-γ 4 〜 A ^弟一楔式編碼該視訊資料。 杈照第二模式編碼可包括以 — 谷項中之任一者.相對於第 揭式減小用於編碼視訊資料 相#一 貝朴之編碼速率;減小用於編碼 旦 卞1化參數以使視訊編碼器之一 里化單元增加視訊資料之至少— 楹a #分的量化;相對於第— 、式减小用於編碼視訊資料之 <讯*框速率以跳過視訊資料之 151994.d〇c -35- 201143445 至少一視訊訊框之編碼;及/或跳過對應於不包括語音資 料之音訊貧料之視訊資料的編碼。 圖6為說明用於編碼音訊資料與視訊資料兩者以便根據 經編碼之音訊資料之語音及靜寂資訊來編碼視訊資料的一 實例方法的流程圖。出於解釋之目的,關於圖1之A/V源器 件20之實例來描述圖6之方法。然而,應理解,包括音訊 與視訊編碼器兩者或音訊與視訊編碼解碼器兩者(諸如, 聲碼器及視訊編碼器或視訊編碼解碼器)之其他系統可執 行圖6之方法。 最初,音訊編碼器2 6 (例如)自音訊源2 2接收音訊資料 (1 50)。音訊編碼器26可根據任何已知音訊編碼標準來編碼 音訊資料,已知音訊編碼標準例如:碼激勵線性預測 (CELP)、DTX、Qualcomm CELP(QCELP)、自適應性差動 脈衝-碼調變(ADPCM)、具有最大似然量化之多脈衝 LPC(MPC-MLQ)、脈衝-碼調變(PCM)或增強型可變速率編 碼解碼器(EVRC))。在編碼音訊資料之同時,音訊編碼器 26亦(例如)根據DTX模式音訊編碼(例如)藉由執行話音活 動偵測(VAD)演算法來判定所接收之音訊資料是否包括語 音資料(152)。大體而言,執行一 VAD演算法以區分語音與 非語音噪音及靜寂。VAD演算法經設計以處理音訊信號以 識別對應於語音之參數。音訊編碼器26亦將音訊資料劃分 成個別編碼之音訊訊框。 當音訊編碼器26判定音訊資料之一部分含有語音資料時 (1 52之「是」分支),音訊編碼器26將一包含該音訊資料之 151994.doc -36- 201143445 音訊訊框編喝為一語音訊框(154)。詳言之’音訊編碼器26 可設定該語音訊框之一訊框類型值以指示經編碼之音訊訊 框中之語音資料的存在。舉例而言,音訊編碼器26可將訊 框類型值較至指4音㈣存在的料編碼模式或編碼 速率。 當音訊編碼器26判定音訊資料之該部分不含有語音資料 時(152之「否」分支),音訊編碼器%將包含該音訊資料之 Ο ο 音訊訊框編碼為一靜寂訊框(156)。雖然描述為靜寂訊框, 但應理解,經編碼之音職框可根^Βτχ模式音訊編石馬而 包含SID資料。亦即’經編碼之靜寂訊框可包含非語音背 景資料以改良傾聽者在傾聽經編碼之音訊資料之最終解石馬 版本時的舒適度。因此,在__個實例中,& 了編碼靜寂訊 框,音訊編4器26可設定訊框類型*以指示該音訊訊框不 包括資料。在另一實例中,音訊編碼器26可將一SID包括 於-經編碼之靜寂訊框中且設定訊框類型值以指示該灿 之存在,該訊框類型值亦指示經編碼之音訊訊框不/ 音資料。 °° 在音訊編碼器26编碼音訊訊框(無論作為語音訊框抑 靜寂訊框)之後’音訊編碼!!26可將來自經編碼之音訊: 框之資訊發送至視訊編碼器28(158)。在一些實例中Y二汛 編碼器26亦可將來自經編碼之音^^ 3訊 a甙讯框之資訊發送至傳於 器3 0 ’而在其他實例中,視t编满吳ο 〇 1 11 兄巩編碼15 28可經組態以將來白 經編碼之音訊訊框之資訊轉遞至傳輸器%。 曰 在任何狀況下,視訊編碼器28可自 J目s讯編碼器26接收對 151994.doc •37- 201143445 應於待編碼之視訊f料的經 資料可包含對雍於立 訊讯框(160)。該視訊 拒:^對應於音訊資料的-視訊訊框或-序列視訊訊 框。視§fl編碼器2 8可II由μ_ H ° 之視碼之音訊純與待編碼 之視戒讯框的時間戳記央 訊訊框$…“ 編碼之音訊訊框與該視 曰、士應性。視訊編碼器2 之音訊訊框是否包括J接者判疋-經編碼 疋否包括6吾音資料(162)。在一 編碼器28可分析該經編 ^ — 、$之a訊況框之一訊框類型值以判 疋5亥經編碼之音訊訊框是否包括語音資料。 例而言’該喃類型值可指讀編碼之音訊訊框包括 DM Μ #枓’在該狀況下’視訊編碼器28可判定 该音訊訊框不包括語音資料(162之「否」分支)。因此視 讯編碼器2阿跳過對應視訊訊框之編碼(Μ)。或者,視訊 =碼器Μ可按照減小之訊框速率(例如,減小之訊框速 ;;咸】之位元率或使用肖加之量化參婁t來編碼對應於 該音訊訊框之視訊訊框或一序列視訊訊框。 該訊框類型值可(例如)藉由描述經編碼之語音資料之編 碼速率而改為指示經編碼之音訊訊框確實包括語音資料, 在该狀況下’視訊編碼器28可判定該音訊訊框包括語音資 料(162之「β \ 疋」/刀支)。因此,視訊編碼器28可按照正常編 碼速率來編碼對應於該音訊訊框之視訊訊框或一序列視訊 訊框。 在編碼该視訊訊框或該序列視訊訊框之後,或在指示跳 、 視訊Α框之編碼之後’視訊編碼器2 8可將經編碼之視 汛讯框或其他視訊資料發送至傳輸器30(168)。在一些實例 151994.doc • 38· 201143445 中’視訊編碼器28亦可將經編碼之音訊訊框轉遞至傳輪器 3〇。料H30可接著(例如)將經料之音訊及視訊訊框傳 輸至指定接收器或藉由廣播經編碼之音訊及視訊訊框來傳 輸。在一些實例中,並非傳輸或以其他方式發送經編石馬之 . ㈣資料’視訊編碼器肩視訊資料儲存於電腦可讀媒體 . 巾例如,以用於長期儲存或用於缓衝該資料以用於進行 串流之目的。 〇 圖7為說明用於根據對應的經編碼之音訊資料之語音或 靜寂資訊來編碼視訊資料的一實例方法的流程圖。出於解 釋目的_於圖1之A/V源器件2〇之實例來描述圖7之方 <’、;而應理解,包括視訊編碼器或視訊編碼解碼器之 其他系統(例如,圖2之A/v器件5〇)可執行圖7之方法。 最初’視訊編碼器28可接收來自經編碼之音訊訊框之資 訊(180) j例如,來自音訊編碼器%或類似音訊編碼單元 (諸如聲碼器或音訊編碼解碼器)之中繼資料。雖然在一 〇 @實例中’視訊編碼器28可接收整個經編碼之音訊訊框, 但在其他實例中,視訊編碼器28可僅接收指示音訊訊框包 &語音資料抑或音訊訊框為靜寂的之資訊。視訊編碼器Μ 亦可(例如)自視訊源2 4接收對應於經編碼之音訊訊框的待 :編碼之視訊訊框(182)。在各種實例中,視訊編碼器28可在 接收到-經編碼之音訊訊框之前、之後或同時接收對應於 忒、”呈編碼之音讯訊框的待編碼之視訊訊框。 視訊編碼器28之模式選擇單元88(圖3)可判定該視訊訊 私對應於n編碼之音訊訊框。舉例而言,模式選擇單元 151994.doc -39· 201143445 88可比較該視訊訊框之一時間戳記與該經編碼之音訊訊框 之一時間戳記且在該等時間戳記匹配時判定該視訊訊框對 應於該經編碼之音訊訊框。模式選擇單元88亦可判定該經 編碼之音§flsfL框是否包含語音資料(184)。詳言之,模式選 擇單元88可判定經編碼之音訊訊框之訊框類型值。當經編 碼之音訊訊框之訊框類型值指示該音訊訊框包括語音資料 時(184之「否」分支)’模式選擇單元88可判定該經編碼之 音訊訊框包括語音資料。因此,模式選擇單元8 8可針對對 應視訊訊框選擇框内編碼或框間編碼模式且使運動估計單 元82、運動補償單元84及/或框内預測單元86按照正常編 碼速率編碼該對應視訊訊框(丨88)。 另一方面,當經編碼之音訊訊框之訊框類型值指示經編 碼之音訊訊框不包括資料或包括一 SID值時,模式選擇單 元88可判定該經編碼之音訊訊框不包括語音資料(丨討之 「是」分支)。在圖7之實例方法中,模式選擇單元88接著 判定是否存在足夠頻寬用於(例如)按照減小之編碼速率來 編碼該視訊訊框(;1 86)。 當模式選擇單元88判定存在不足的頻寬用於甚至按照減 小之編碼速率來傳輸經編碼之視訊訊框時(180之「否」分 支)’模式選擇單元88可使運動估計單元82、運動補償軍 元84及/或框内預測單元86跳過該視訊訊框之編碼(19〇)。 舉例而言,模式選擇單元88可使運動估計單元82發送用於 正編碼之視訊訊框之區塊的一或多個運動向量,以使得該 等運動向里4曰示§亥視訊訊框尚未發生運動,且模式選擇翠 151994.doc • 40- 201143445 =:運動補償單元84不計算參考視訊訊框與 • 視訊矾框之間的殘餘。 、 另一方面,當模式選擇單元88判定頻寬可用於按照減小 之編碼速率來傳輸經編碼之視訊訊框時(1 86之「是」八 幻帛式選擇單元88減小編石馬速率且使運動估計單元 • 82,、運動補償單元84及/或框内預測單元86按照減小之編 馬k率(例如,較低訊框速率、較低位元率或較高量化參 數)編碼對應視訊訊框(192)。舉例而言,模式選擇單㈣ 可將關於待於編碼視訊訊框時使用 及/或量化參數的—或多個信號發送至運動估率 運動補償單元84及/或框内預測單元%。 在一些實例中’模式選擇單元88可或者或另外使關於是 否編%對應於靜叔音訊訊框之視訊訊框的決策基於用於該 視訊Λ框之編碼的訊框類型。舉例而言,模式選擇單元Μ 了判疋編瑪經指定用於編碼為訊框的所有訊框,而無關 〇 於該等1_訊框是否對應於靜寂音訊訊框。在此實例中,模 式選擇單元88可使框内預測單元86編碼經指定用於框内編 碼的所有視訊訊框,而無關於該等視訊訊框是否對應於靜 寂音訊訊框(亦即,不包括語音資料的音訊訊框)。 •在任何狀況下,在視訊編碼器28已編碼一視訊訊框或跳 過一視訊訊框之編碼之後,視訊編碼器28可將視訊編碼資 訊(包含一或多個經編碼之視訊訊框或一或多個跳過的視 訊訊框的指示)發送至傳輸器30(194)。 圖8Α至圖8F為說明經編碼之音訊訊框及對應的經編碼 151994.doc -41 201143445 之視訊訊框的實例序列的概念圖。圖8八為對應音訊及視气 訊框的實例序列200,其中:按照正常編碼速率編碼對應 於包括語音資料之經編碼之音訊訊框的視訊訊框,而跳過 對應於不包括語音資料之經編碼之音訊訊框的視訊訊框。 詳言之’序列200包括語音音訊訊框202及2〇6及靜寂音訊 訊框204Α至204D(靜寂音訊訊框204)。音訊編碼器、音訊 編碼解碼器或聲碼器經由使用中繼資料(諸如,訊框類型 值)而指定經編碼之音訊訊框是否包括語音資料。因此, 语音音訊訊框202、206包括指示經編碼之音訊訊框2〇2、 206包括語音資料的各別中繼資料。然而,靜寂音訊訊框 204各自包括指示經編碼之音訊訊框2〇4中之各別者不包括 語音資料的中繼資料。 同樣,根據本發明之技術,視訊編碼器或視訊編碼解碼 器(諸如,視訊編碼器28)接收經編碼之音訊訊框2〇2、 204、206且判定每一經編碼之音訊訊框是否包括語音資 料。在圖8A之實例中,視訊編碼器28經組態以跳過對應於 靜寂音訊訊框(亦即,不包括語音資料的經編碼之音訊訊 框)之所有視讯讯框的編碼。因此,視訊編碼器2 8產生對 應於語音音訊訊框202的經編碼之視訊訊框212,及對應於 語音音訊訊框206的經編碼之視訊訊框2丨6。然而,視訊編 碼器28跳過對應於靜寂音訊訊框2〇4之視訊訊框的編碼, 此情形導致跳過的視訊訊框214A至21 4D(跳過的視訊訊框 214)。跳過的視訊訊框214可各自包括最小資料集(諸如, 標頭及指示無運動的運動向量)。跳過的視訊訊框214亦可 151994.doc -42- 201143445 各自包括指示已跳過編碼跳過的視訊訊框214中之各別者 的經編碼區塊型樣。 圖8B為說明經編碼之音訊及視訊訊框的實例序列220的 方塊圖。序列220包括語音音訊訊框222及226及靜寂音訊 訊框224A至224D(靜寂音訊訊框224)。序列220亦包括分別 對應於語音音訊訊框222及226的經編碼之視訊訊框228及 232。經編碼之視訊訊框228及232(例如)根據未更改之位元 率、按照未更改之訊框速率且使用未更改之量化參數來正 常地編碼。序列220亦包括對應於靜寂音訊訊框224中之各 別者的經編碼之視訊訊框230A至230D(經編碼之視訊訊框 230)。經編碼之視訊訊框230使用減小之位元率及/或用以 增加量化之修正之量化參數中的至少一者來編碼。在圖8B 之實例中,未更改經編碼之視訊訊框230的訊框速率。然 而,由於用於經編碼之視訊訊框23 0的減小之位元率及/或 增加之量化參數,因此經編碼之視訊訊框23 0的傳輸可消 耗較少頻寬。 圖8C為說明經編碼之音訊及視訊訊框的實例序列240的 方塊圖。序列240包括語音音訊訊框242及246及靜寂音訊 訊框244A至244D(靜寂音訊訊框244)。序列240亦包括對應 於語音音訊訊框242及246的經編碼之視訊訊框252及258。 另外,序列240包括經編碼之視訊訊框256A至256B(經編碼 之視訊訊框256)及跳過的視訊訊框254A至254B(跳過的視 訊訊框254)。經編碼之視訊訊框256及跳過的視訊訊框254 對應於靜寂音訊訊框244中之各別者。在圖8C之實例中, 151994.doc -43- 201143445 視訊編碼器2 8經組態以藉由將訊框速率減小一半而減小編 碼速率。另外,經編碼之視訊訊框乃6可使用減小之位元 率及/或增加之量化參數來編碼。 圖8D為說明經編碼之音訊及視訊訊框的實例序列的 方鬼圖其中複數個視訊區塊對應於一個經編碼之音訊訊 框。在圖8D之實例中,言吾音音訊訊框262對應於經編碼之 視訊訊框268、270,靜寂音訊訊框264對應於經編碼之視 訊訊框272及跳過的視訊訊框274,且語音音訊訊框對 應於經編碼之視訊訊框276、27卜在此實例中,視訊編碼 器28經組態以藉由減小對應於靜寂音訊訊框(諸如,靜寂 曰汛Dfl框264)之視訊訊框的訊框速率(此導致跳過的視訊訊 框274)來減小編碼速率。另外,經編碼之視訊訊框可 使用減小之位元率及/或增加之量化參數來編碼。 圖8E為說明經編碼之音訊及視訊訊框的另一實例序列 280的方塊圖,其中複數個視訊區塊對應於一個經編碼之 音訊訊框。為了便於解釋,並未說明對應於語音音訊訊框 282的所有視訊訊框。如圖犯之實例令所描繪,語音音訊 訊框282對應於經編碼之視訊訊框286、288,且靜寂音訊 訊框284對應於經編碼之視訊訊框29〇及跳過的視訊訊框 292A至292C(跳過的視訊訊框292)。在圖犯之實例中,視 訊編碼器28經組態以僅編碼對應於一靜寂音訊訊框(諸 如,靜寂音訊訊框284)之複數個視訊訊框中的第一視訊訊 C亦即視訊編碼器28編碼視訊訊框290但跳過視訊訊 框292之編碼。在一些實例中,視訊編碼器28可藉由按照 I51994.doc • 44- 201143445 減J之位元率或使用增加之量化參數來編碼視訊訊框29〇 .而進一步減小編碼速率。 圖8F為說明經編碼之音訊及視訊訊框的另一實例序列 3〇〇的方塊圖,其中複數個視訊區塊對應於一個經編碼之 音訊訊框。如圖8F之實例中所描繪’語音音訊訊框302對 ; 應於經編碼之視訊訊框306及,且靜寂音訊訊框3〇4對 應於、.星編碼之視讯訊框3丨〇A至3丨〇B(經編碼之視訊訊框 ❹ 31〇)及跳過的視訊訊框312A至312B(跳過的視訊訊框 312)。在圖盯之實例中,視訊編碼器28經組態以將用於編 碼對應於靜寂音訊訊框(諸如,靜寂音訊訊㈣4)之視訊訊 C的訊框速率減小一半。在其他實例令,視訊編碼器μ可 經組態以將訊框速率減小其他因子(例如,三分之一、四 刀之、二分之二或四分之三)。視訊編碼器28亦可使用 減小之位元率及/或增加之量化參數來編碼經編碼之視訊 訊框310。 〇 在—或多個例示性實施例中,可以硬體、軟體、勃體或 ,任何組合來實施所描述之功能。若以軟體來實施,則該 功能可作為—或多個指令或程式❹儲存於電腦可讀媒 體上或經由電腦可讀媒體來傳輸。電腦可讀媒體可包括電 歸料儲存媒體或通信媒體,通信媒體包括促進將電腦程 式自-處傳送至另一處之任何媒體。資料儲存媒體可為可 由一或多個電腦或-或多個處理器存取以擷取用於實施本 發明中所描述之技術的指令、程式碼及/或資料結構之任 何可用媒體。舉例而言但不限於,此等電腦可讀媒體可包 151994.doc -45· 201143445 3 RAM、ROM、EEPR〇M、CDr〇m或其他光碟儲存器 件、磁碟儲存器件或其他磁性儲存器件或可用於载運或 儲存呈士曰7或貝料結構之形式的所要程式碼且可由電腦存 取之任何其他媒體。又,可將任何連接恰當地稱為電腦可 "賣媒體。舉例而言’ 使用同軸電镜、光纖線境、雙絞 線數位用戶線(DSL)或諸如紅外線、無線電及微波之無 線技術自網站、飼服器或其他遠端源傳輸軟體,則同轴電 緵、光纖線缓、雙絞線、DSL或諸如紅外線、無線電及微 波之無線技街包括於媒體之定義中。如本文中所使用,磁 3及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位 〜曰光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以 磁!·生方式再現資料,而光碟藉由雷射以光學方式再現資 料:上述各項之組合亦應包括在電腦可讀媒體之範疇内。 可由-或多個處理器(諸如’一或多個數位信號處理器 ()通用微處理器、特殊應用積體電路(ASIC)、場可 ㈣化邏輯陣列(FPGA)或其他均等積體或離散邏輯電路) 匕^程式馬因此,如本文中所使用之術語「處理器」可 指代上述結構或適於實施本文中所描述之技術的任何其他 結構中之任一去 e ^ 另卜,在一些態樣中,本文中所描述之 可提供於經組態以用於編碼及解碼的專用硬體模組 々或軟體杈組内或併入於組合之編碼解碼器中。又,該 等技術可凡全實施於一或多個電路或邏輯元件中。 可在包括無線手機、積體電路(1C)或一組1C(亦即,晶片 組)之廣泛多種器件或裝置中實施本發明之技術。在本發 151994.doc -46· 201143445 明中“述各種組件、模組或單元以強調經組態以執行所 示之技術的器件之功能態樣,但未必需要藉由不同硬體單 兀來實現。實情為,如上文所描述,各種單元可組合於編 碼解碼器硬體單元中或由交互作用之硬體單元之集合(包 .括如上文所描述之一或多個處理器)結合合適軟體及/或韌 體來提供。 已描述各種實例。此等及其他實例在以下申請專利範圍 之範内。 ^ 【圖式簡單說明】 圖1為說明一實例系統之方塊圖,在該實例系統中,一 音讯/視訊(Α/ν)源器件經組態以根據對應經編碼之音訊資 料之靜寂資訊選擇性地編碼視訊資料; 圖2為說明一實例音訊/視訊器件之方塊圖,該實例音訊/ 視訊器件經組態以編碼及解碼音訊及視訊資料以及傳輸及 接收經編碼之音訊及視訊資料; Q 圖3為說明一視訊編碼器之一實例之方塊圖,該視訊編 碼器實施用於基於對應經編碼之音訊資料之靜寂資訊而編 碼視訊貧料的技術; 圖4為說明一視訊解碼器之組件之一實例組態的方塊 : 圖; 圖5為說明用於按照一第一模式或一第二模式編碼視訊 資料之一實例方法的流程圖; 圖6為說明用於編碼音訊資料與視訊資料兩者以便根據 經編碼之音訊資料之語音及靜寂資訊來編碼視訊資料的一 151994.doc -47· 201143445 只例方法的流程圖; 圖7為說明用於根據對應經編 寂資訊來編碼視訊資料的—實例方法的流語音或靜 、圖从至_為說明經編碼之音訊訊框及對應經編碼之 視訊訊框的貫例序列的概念圖。 【主要元件符號說明】 10 實例系統 12 講話之參與者 14 傾聽之參與者 20 音訊/視訊(A/V)源器件 22 音訊源 24 視訊源 26 音訊編碼器 28 視況編碼器 30 傳輸器 34 接收器 36 音訊編碼資訊 40 A/V目的地器件 42 音訊輸出 44 視訊輸出 46 音訊解碼器 48 視訊解碼器 50 實例音訊/視訊器件 52 揚聲器 151994.doc •48- 201143445 Ο ❹ 54 麥克風 56 音訊編碼解碼器 58 視訊編碼解碼器 60 傳輸器/接收器(收發器) 62 顯示器 64 相機 66 視訊編碼解碼器 68 天線 82 運動估計單元 84 運動補償單元 86 框内預測單元 88 模式選擇單元 90 求和器 92 變換單元 94 量化單元 96 熵編碼單元 98 逆量化單元 100 逆變換單元 102 求和器 104 參考訊框儲存器 120 熵解碼單元 122 運動補償單元 124 框内預測單元 126 逆量化單元 151994.doc -49- 201143445 128 逆變換單元 130 求和器 132 參考訊框儲存器 200 實例序列 202 語音音訊訊框 204 靜寂音訊訊框 204A 靜寂音訊訊框 204B 靜寂音訊訊框 204C 靜寂音訊訊框 204D 靜寂音訊訊框 206 語音音訊訊框 212 經編碼之視訊訊框 214 跳過的視訊訊框 214A 跳過的視訊訊框 214B 跳過的視訊訊框 214C 跳過的視訊訊框 214D 跳過的視訊訊框 216 經編碼之視訊訊框 220 實例序列 222 語音音訊訊框 224 靜寂音訊訊框 224A 靜寂音訊訊框 224B 靜寂音訊訊框 224C 靜寂音訊訊框 151994.doc -50- 201143445 224D 靜寂音訊訊框 226 語音音訊訊框 228 經編碼之視訊訊框 230 經編碼之視訊訊框 ' 230A 經編碼之視訊訊框 230B 經編碼之視訊訊框 230C 經編碑之視訊訊框 230D 經編碼之視訊訊框 Ο 232 經編瑪之視訊訊框 240 實例序列 242 語音音訊訊框 244 靜寂音訊訊框 244Α 靜寂音訊訊框 244Β 靜寂音訊訊框 244C 靜寂音訊訊框 ,、 244D 靜寂音訊訊框 246 語音音訊訊框 252 經編媽之視訊訊框 ' 254 跳過的視訊訊框 ! 254Α 跳過的視訊訊框 254Β 跳過的視訊訊框 256 經編碼之視訊訊框 256Α 經編碼之視訊訊框 256Β 經編碼之視訊訊框 151994.doc -51 - 201143445 258 經編碼之視訊訊框 260 實例序列 262 語音音訊訊框 264 靜寂音訊訊框 266 語音音訊訊框 268 經編碼之視訊訊框 270 經編碼之視訊訊框 272 經編碼之視訊訊框 274 跳過的視訊訊框 276 經編碼之視訊訊框 278 經編碼之視訊訊框 280 實例序列 282 語音音訊訊框 284 靜寂音訊訊框 286 經編碼之視訊訊框 288 經編碼之視訊訊框 290 經編瑪之視訊訊框 292 跳過的視訊訊框 292A 跳過的視訊訊框 292B 跳過的視訊訊框 292C 跳過的視訊訊框 300 實例序列 302 語音音訊訊框 304 靜寂音訊訊框 •52- 151994.doc 201143445 306 經編碼之視訊訊框 308 經編媽之視訊訊框 310 經編瑪之視訊訊框 310A 經編媽之視訊訊框 31 OB 經編碼之視訊訊框 312 跳過的視訊訊框 312A 跳過的視訊訊框 312B Ο 跳過的視訊訊框 53- 151994.doc

Claims (1)

  1. 201143445 七、申請專利範園: i 一:方法,其包含: 由視§fl編碼器接收對應於待編碼之視訊資料的經 =之9 δΐ1資料是否包括語音資料的一指示; 在4音訊資料包括語音資料時,按照一第一模式編碼 該視訊資料; Ο + : q訊資料不包括語音資料時,按照一不同於該第 模式之第二模式編碼該視訊資料。 如請求項^ , 7 I万法,其中按照一第二模式編碼該視訊資 料L 3相對於該第一模式減小一用於編碼該視訊資料的 編瑪速率。 3.如叫求項2之方法,其中減小用於編碼該視訊資料的該 編碼速率包含減小一用於編碼該視訊資料的位元率。 4 ·如β求項2之方法’其中減小該編碼速率包含調整一量 >數以使s亥視§孔編碼器之一量化單元增加該視訊資料 之至少一部分的量化。 5. 如請求項1之方法,其中按照一第二模式編碼該視訊資 料包含相對於該第一模式減小一用於編碼該視訊資料的 5fl框速率以跳過該視訊資料之至少一視訊訊框之編碼。 6. 如請求項1之方法,其中按照一第二模式編碼該視訊資 料包含跳過對應於不包括語音資料之音訊資料的該視訊 資料的編碼。 7.如6月求項1之方法’其中該指示包含該音訊資料之一經 編碼之音訊訊框的一訊框類型值,該訊框類型值指示該 151994.doc 201143445 經編碼之音訊訊框是否包括語音資料。 如月求項7之方法,其中在該訊框類型值包含一指示該 經編碼之音訊訊框不包括資料之值時,該訊框類型值指 示該經編碼之音訊訊框不包括語音資料。 9.如請求項7之方法,其中在該經編碼之音訊訊框之該訊 忙類i值包含一指示該經編碼之音訊訊框中之一靜寂插 入描述符(SID)的存在之值時,該訊框類型值指示該經編 碼之音訊訊框包括語音資料。 1 〇·如吻求項i之方法,其中按照一不連續傳輸⑴τχ)模式來 編碼該經編碼之音訊資料。 11·種裝置,其包含一視訊編碼器,該視訊編碼器包含: 一編碼單元,其經組態以按照—第一模式或一第二不 同模式編碼視訊資料;及 模式選擇單元,其經組態以接收對應於該待編碼之 視訊資料的經編碼之音訊資料是否包括語音資料的—指 示,其中在該音訊資料包括語音資料時,該模式選擇單 元將按照該第一模式編碼該視訊資料的一信號發送至該 編馬單元,且其中在該音訊資料不包括語音資料時,該 才*、弋遥擇單元將知照忒第一模式編碼該視訊資料的—信 號發送至該編碼單元。 12_如請求項11之裝置,其中在該編碼單元經組態以按照該 第二模式編碼該視訊資料時,該編碼單元按照相對於該 第一模式之一減小之編碼速率來編碼該視訊資料。 13.如請求項12之裝置,其中在該編碼單元經組態以按照該 151994.doc 201143445 第二模式編碼該視訊資料時,兮 y ^该編碼單元按照一減小之 位元率來編碼該視訊資料。 14.如請求項12之裝置,其中 仕占竭碼早兀經組態以按照該 第二模式編碼㈣訊資料時,該編碼單元調整—量化參 數錢該編碼單元之—I化單元增加該視訊資料之至少 一部分的量化。 15.如請求仙之裝置’其中在該編碼單元經組態以按照該 〇 第:模式編碼該視訊資料時,該編碼單元按照相對於該 第-模式之—減小之訊框速率來編碼該視訊資料以跳過 該視訊資料之至少一視訊訊框之編碼。 16.如請求項R裝置’其中該指示包含該音訊資料之一經 編碼之音訊訊框的-訊框類型值,該訊框類型值指示該 經編碼之音訊訊框是否包括語音資料。 17·如請求項16之裝置,其中該模式選擇單元經組態以在該 扎杧類型值私示該經編碼之音訊訊框不包括資料時將 O n亥第二模式編碼對應於該經編碼之音訊訊框的該視 訊資料的該信號發送至該編碼單元。 18. 如請求項16之裝置,其中該模式選擇單元經組態以在該 訊框類型值指示該經編碼之音訊訊框中之一靜寂插入描 ' 述符(SID)的存在時,將按照該第二模式編碼對應於該經 編碼之音訊訊框的該視訊資料的該信號發送至該編碼單 元。 19. 如叫求項11之裝置,其進一步包含一音訊編碼器,該音 訊編碼器經組態以按照一不連續傳輸(DTX)模式來編碼 151994.doc 201143445 來自所捿收之音訊 訊吒框袼^ 身枓的该θ訊訊框且將該經編碼之音 Μ框發送至該模式選擇單元。 ^曰 20.如請求項丨丨之裝置,复 一者: 〃中該裝置包含以下各項中之至少 一積體電路; 一微處理器;及 21 -無線通信器件’其包括該視訊編碼器。 -種裝置,其包含: 用於接收對應於待編碼之視訊資 料是否包括語音警祖^ 、、二、扁碼之音訊資 口曰貝枓的一指示的構件; 用於在該音訊資料包括語音資料時按照一第 碼該視訊資料的構件;及 模式編 該音訊資料不包括語音資料時按照—不同於該 模式之第二模式編碼該視訊資料的構件。 22^請求項21之裝置’其中用於按照_第二模式編碼 :貧枓的該構件包含用於相對於該第―模式減小—用於 編碼该視訊資料的編碼速率的構件。 ; 23·如請求項22之裝置,其中用於減小用於編碼該視訊資料 的忒編碼速率的該構件包含用於減小—用 ^ 資料的位元率的構件。 ;,.碼該視訊 24.如請求項22之裝i,其進一步包含用 的拔从计山 置化該視訊資料 Γ 於減小該編碼速率的該構件包含用㈣ 正-量化參數以使視訊編碼器之用於量化的 該視訊資料之至少一部分的量化的構件。 曰σ I51994.doc 201143445 25. 26. 27. Ο 28. 29. Ο 30. Λ « 31. 如請求項21之裝置’其中用於按照—第二模式編碼該視 訊資料的該構件包含用於相對於該第—模式減小一用於 編碼該視訊資料的訊框速率以跳過該視訊資料之至少一 視訊訊框之編碼的構件。 Ζ求項21之裝置,其中用於按照—第:模式編碼該視 汛貝料的該構件包含用於跳過對應於不包括語音資料之 音讯貧料的該視訊資料的編碼的構件。 如叫求項21之裝置’其中該指示包含該音訊資料之一經 編碼之音訊訊框的一訊框類型值,該訊框類型值指示該 經編碼之音訊訊框是否包括語音資料。 如请求項27之裝置,其中在該訊框類型值包含一指示該 經編碼之音訊訊框不包括資料之值時,該訊框類型值指 不該經編碼之音訊訊框不包括語音資料。 如清求項27之裝置,其中在該經編碼之 音訊訊柩之該訊 框類型值包含一指示該經編碼之音訊訊框中之一靜寂插 入描述符(SID)的存在之值時,該訊框類型值指示該經編 碼之音讯訊框包括語音資料。 如β求項21之裝置,其進一步包含用於按照一不連續傳 輸(DTX)模式來編碼音訊資料的構件。 一種電腦可讀儲存媒體,其編碼有用於使一視訊編碼裝 置之一可程式化處理器進行以下操作之指令: 接收對應於待編碼之視訊資料的經編碼之音訊資料是 否包括§吾音資料的一指示; 在該音訊資料包括語音資料時,按照一第一模式編碼 151994.doc 201143445 該視訊資料; 在該音訊資料不包括語音資料時,按照一不同於該第 一模式之第二模式編碼該視訊資料。 32_如請求項31之電腦可讀儲存媒體,其中用於按照一第二 模式編碼該視訊資料的該等指令包含用於相對於該第一 模式減小一用於編碼該視訊資料的編碼速率的指令。 33. 如請求項32之電腦可讀儲存媒體,其中用於減小用於編 碼該視訊資料的該編碼速率的該等指令包含用於減小一 用於編碼該視訊資料的位元率的指令。 34. 如請求項32之電腦可讀儲存媒體,其中用於減小該編碼 速率的該等指令包含詩調整—量化參數以使該視訊編 碼裳置之-量化單元增加該視訊資料之至少—部分的量 化的指令。 35. 如請求項31之電腦可讀儲存媒體,其中用於按照一第二 模式編碼該視訊資料的該等指彳包含用於相對於該第一 模式減小-用於編碼該視訊㈣的訊框速率以跳過該視 訊資料之至少一視訊訊框之編碼的指令。 36_如請求項31之電腦可讀儲存媒體,其中用於按照一第二 模式編碼該視訊f料的料指令包含用於跳過對應於不 包括語音資料之音訊資料的該視訊資料的編碼的指γ。 37. 如請求項之電腦可讀儲存媒體,其中該指示包含該音 Λ資料之-經編碼之音訊訊框的—訊框類型值,該訊框 類型值指示該經編碼之音訊訊框是否包括語音資料。 38. 如請求項37之電腦可讀健存媒體,其中在該訊樞類型值 151994.doc 201143445 包含一指示該經編碼之音訊訊框不包括資料之值時,該 訊框類型值指示該經編碼之音訊訊框不包括語音資料。 39. 40. Ο 如請求項37之電腦可讀儲存媒體,其中在該經編碼之音 訊訊框之該訊框類型值包含一指示該經編碼之音訊訊框 中之一靜寂插入描述符(SID)的存在之值時,該訊框類型 值指示該經編碼之音訊訊框包括語音資料。 如請求項31之電腦可讀儲存媒體’其進一步包含用於按 照一不連續傳輸(DTX)模式來編碼音訊資料的指令。 ❹ 151994.doc
TW099137987A 2009-11-04 2010-11-04 Controlling video encoding using audio information TW201143445A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/612,104 US8780978B2 (en) 2009-11-04 2009-11-04 Controlling video encoding using audio information

Publications (1)

Publication Number Publication Date
TW201143445A true TW201143445A (en) 2011-12-01

Family

ID=43302956

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099137987A TW201143445A (en) 2009-11-04 2010-11-04 Controlling video encoding using audio information

Country Status (3)

Country Link
US (1) US8780978B2 (zh)
TW (1) TW201143445A (zh)
WO (1) WO2011056942A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345446A (zh) * 2021-06-01 2021-09-03 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9214004B2 (en) 2008-12-18 2015-12-15 Vmware, Inc. Watermarking and scalability techniques for a virtual desktop planning tool
US9674562B1 (en) 2008-12-18 2017-06-06 Vmware, Inc. Quality evaluation of multimedia delivery in cloud environments
US8788079B2 (en) * 2010-11-09 2014-07-22 Vmware, Inc. Monitoring audio fidelity and audio-video synchronization
US20120057629A1 (en) * 2010-09-02 2012-03-08 Fang Shi Rho-domain Metrics
US8910228B2 (en) 2010-11-09 2014-12-09 Vmware, Inc. Measurement of remote display performance with image-embedded markers
US9336117B2 (en) 2010-11-09 2016-05-10 Vmware, Inc. Remote display performance measurement triggered by application display upgrade
EP2685718B1 (en) * 2011-03-10 2018-08-29 Sharp Kabushiki Kaisha Image decoding apparatus
DE102012212068A1 (de) * 2012-07-11 2014-01-16 Siemens Aktiengesellschaft Verfahren und Vorrichtungen zum Erzeugen und Transcodieren eines codierten Videodatenstroms
US9118940B2 (en) * 2012-07-30 2015-08-25 Google Technology Holdings LLC Video bandwidth allocation in a video conference
US9201755B2 (en) 2013-02-14 2015-12-01 Vmware, Inc. Real-time, interactive measurement techniques for desktop virtualization
US9035992B1 (en) 2013-04-08 2015-05-19 Google Inc. Bandwidth modulation system and method
US9384520B2 (en) 2013-06-21 2016-07-05 Signs & Wonders Unlimited, Llc System and method for encoding and authenticating a digital image
US20160379330A1 (en) * 2013-06-21 2016-12-29 Signs & Wonders Unlimited, Llc Method and apparatus for protecting digital photos from alteration
US9210381B2 (en) * 2013-06-24 2015-12-08 Dialogic Corporation Resource-adaptive video encoder sharing in multipoint control unit
WO2015093319A1 (ja) * 2013-12-19 2015-06-25 オリンパス株式会社 画像撮影システム
US20150358622A1 (en) * 2014-06-10 2015-12-10 Empire Technology Development Llc Video Encoding for Real-Time Streaming Based on Audio Analysis
US9445049B2 (en) * 2014-08-20 2016-09-13 Cisco Technology, Inc. Identifying and enhancing motion video in a conference call channel by detecting audio
US10097823B1 (en) * 2015-11-13 2018-10-09 Harmonic, Inc. Failure recovery for real-time audio and video encoding, decoding, and transcoding
US10762911B2 (en) * 2015-12-01 2020-09-01 Ati Technologies Ulc Audio encoding using video information
WO2017099092A1 (ja) * 2015-12-08 2017-06-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10694227B2 (en) * 2017-01-13 2020-06-23 Panasonic Intellectual Property Management Co., Ltd. Video transmission system and video transmission method
US10958948B2 (en) * 2017-08-29 2021-03-23 Charter Communications Operating, Llc Apparatus and methods for latency reduction in digital content switching operations
US11317098B2 (en) * 2018-12-07 2022-04-26 Intel Corporation System and method for rendered scene change detection with remotely hosted graphics applications
KR20200100387A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 실시간 비트레이트 제어 방법 및 이를 위한 전자 장치
US11050807B1 (en) * 2019-05-16 2021-06-29 Dialpad, Inc. Fully integrated voice over internet protocol (VoIP), audiovisual over internet protocol (AVoIP), and artificial intelligence (AI) platform
US20230034162A1 (en) * 2020-01-09 2023-02-02 Sony Group Corporation Transmission apparatus and transmission method
US11398216B2 (en) * 2020-03-11 2022-07-26 Nuance Communication, Inc. Ambient cooperative intelligence system and method
KR20220016676A (ko) * 2020-08-03 2022-02-10 삼성전자주식회사 전자 장치 및 이를 이용한 영상 데이터와 오디오 데이터 동기화 방법
CN112153463B (zh) * 2020-09-04 2023-06-16 上海七牛信息技术有限公司 一种多素材视频合成方法、装置、电子设备及存储介质
CN112599140A (zh) * 2020-12-23 2021-04-02 北京百瑞互联技术有限公司 一种优化语音编码速率和运算量的方法、装置及存储介质
US11758206B1 (en) * 2021-03-12 2023-09-12 Amazon Technologies, Inc. Encoding media content for playback compatibility
CN112969068B (zh) * 2021-05-19 2021-08-03 四川省商投信息技术有限责任公司 一种监控视频数据存储播放方法及装置
WO2022242880A1 (en) * 2021-05-21 2022-11-24 Telefonaktiebolaget Lm Ericsson (Publ) Encoding of a three-dimensional representation of a user and decoding of the same

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5260783A (en) * 1991-02-21 1993-11-09 Gte Laboratories Incorporated Layered DCT video coder for packet switched ATM networks
JPH0654322A (ja) 1992-07-28 1994-02-25 Fujitsu Ltd 多地点制御装置を用いたtv会議の画像データ適応制御方式
JPH07202820A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
US6373855B1 (en) * 1998-03-05 2002-04-16 Intel Corporation System and method for using audio performance to control video bandwidth
US6556587B1 (en) 1999-02-26 2003-04-29 Telefonaktiebolaget Lm Ericsson (Publ) Update of header compression state in packet communications
US6987728B2 (en) * 2001-01-23 2006-01-17 Sharp Laboratories Of America, Inc. Bandwidth allocation system
GB2384932B (en) 2002-01-30 2004-02-25 Motorola Inc Video conferencing system and method of operation
US6922718B2 (en) 2002-02-01 2005-07-26 Dell Products L.P. Method and system for participating locations in a multi-point video conference
US6963352B2 (en) * 2003-06-30 2005-11-08 Nortel Networks Limited Apparatus, method, and computer program for supporting video conferencing in a communication system
US7376567B2 (en) * 2004-02-16 2008-05-20 Celtro Ltd Method and system for efficiently transmitting encoded communication signals
US7811288B2 (en) * 2004-12-02 2010-10-12 Zimmer Spine, Inc. Instruments and methods for adjusting separation distance of vertebral bodies with a minimally invasive spinal stabilization procedure
US7446795B2 (en) * 2004-12-03 2008-11-04 Motorola Inc Push to video service mode selection using device settings
US8325797B2 (en) * 2005-04-11 2012-12-04 Maxim Integrated Products, Inc. System and method of reduced-temporal-resolution update for video coding and quality control
US20070019931A1 (en) * 2005-07-19 2007-01-25 Texas Instruments Incorporated Systems and methods for re-synchronizing video and audio data
JP2007194845A (ja) * 2006-01-18 2007-08-02 Sony Corp コンテンツ再生システム及びコンテンツ再生方法
US7768543B2 (en) * 2006-03-09 2010-08-03 Citrix Online, Llc System and method for dynamically altering videoconference bit rates and layout based on participant activity
US7898950B2 (en) * 2006-08-18 2011-03-01 Microsoft Corporation Techniques to perform rate matching for multimedia conference calls

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345446A (zh) * 2021-06-01 2021-09-03 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质
CN113345446B (zh) * 2021-06-01 2024-02-27 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
US8780978B2 (en) 2014-07-15
WO2011056942A1 (en) 2011-05-12
US20110103468A1 (en) 2011-05-05

Similar Documents

Publication Publication Date Title
TW201143445A (en) Controlling video encoding using audio information
US11601681B2 (en) Reducing latency in video encoding and decoding
KR100763269B1 (ko) 화상 부호화 데이터의 전환 방법 및 장치, 시스템 및 프로그램을 기록한 기록 매체
TW525387B (en) Frame-level rate control for plug-in video codecs
US8885710B2 (en) Method and device for encoding/decoding video signals using base layer
EP1173028A2 (en) Scalable encoding of media streams
JP2006087125A (ja) ビデオフレームシーケンスを符号化する方法、符号化ビットストリーム、画像又は画像シーケンスを復号する方法、データの送信又は受信を含む使用、データを送信する方法、符号化及び/又は復号装置、コンピュータプログラム、システム、並びにコンピュータ読み取り可能な記憶媒体
JP4983917B2 (ja) 動画像配信システム、変換装置および動画像配信方法
Järvinen et al. Media coding for the next generation mobile system LTE
KR20080104072A (ko) 동화상 변환 방법, 동화상 변환 장치, 동화상 변환 시스템 및 서버 장치 및 프로그램이 기록된 기록 매체
WO2011145987A1 (en) Encoder adaption in teleconferencing system
WO2013102403A1 (zh) 一种音频信号处理方法、装置及终端
KR100651566B1 (ko) 이동통신 단말기에서 출력 버퍼링을 이용한 멀티미디어재생 장치 및 그 제어 방법
JPWO2009013958A1 (ja) マルチメディア提供サービス
WO2010027082A1 (ja) カンファレンスサーバとビデオカンファレンスシステムと方法並びプログラム
JPWO2009013957A1 (ja) マルチメディア通信システム、マルチメディア通信装置及び端末
JP2004304410A (ja) 通信処理装置、および通信処理方法、並びにコンピュータ・プログラム
JP2005341347A (ja) 多地点接続装置および方法
TWI416962B (zh) 在併合視訊壓縮中用於框架預測以致動暫時可擴充性之方法、裝置、及電腦可讀取媒體
JPWO2009013956A1 (ja) マルチメディア提供サービス
KR20080077537A (ko) 저지연 영상 통신 시스템 및 방법
JP2010172003A (ja) 復号再生方法及び復号再生装置
JP2008211294A (ja) 符号化装置および符号化方法
KR20090127049A (ko) 영상 전화 시스템에서의 초기 영상 화질 개선 방법
JP2005123722A (ja) 動画像復号再生方法及び動画像復号再生装置