TWI544480B - 于清擦音或塞擦音起段或迄段之時間性近處使用提高的時間解析度之音訊編碼器、音訊解碼器、系統、方法及電腦程式 - Google Patents
于清擦音或塞擦音起段或迄段之時間性近處使用提高的時間解析度之音訊編碼器、音訊解碼器、系統、方法及電腦程式 Download PDFInfo
- Publication number
- TWI544480B TWI544480B TW103103526A TW103103526A TWI544480B TW I544480 B TWI544480 B TW I544480B TW 103103526 A TW103103526 A TW 103103526A TW 103103526 A TW103103526 A TW 103103526A TW I544480 B TWI544480 B TW I544480B
- Authority
- TW
- Taiwan
- Prior art keywords
- time
- bandwidth extension
- squeak
- audio
- resolution
- Prior art date
Links
- 230000002123 temporal effect Effects 0.000 title claims description 91
- 238000000034 method Methods 0.000 title claims description 80
- 238000004590 computer program Methods 0.000 title claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 7
- 230000036962 time dependent Effects 0.000 claims 1
- 238000009432 framing Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000007493 shaping process Methods 0.000 description 9
- 230000035807 sensation Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000010076 replication Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008054 signal transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
根據本發明之實施例係關於一種基於輸入音訊資訊提供編碼音訊資訊之音訊編碼器。
根據本發明之其他實施例係關於一種基於編碼音訊資訊提供解碼音訊資訊之音訊解碼器。
根據本發明之其他實施例係關於一種包含音訊編碼器及音訊解碼器之系統。
根據本發明之其他實施例係關於一種基於輸入音訊資訊提供編碼音訊資訊之方法。
根據本發明之其他實施例係關於一種基於編碼音訊資訊提供解碼音訊資訊之方法。
根據本發明之其他實施例係關於一種執行該等方法中之一者的電腦程式。
根據本發明之其他實施例係關於一種用於語音
之音訊頻寬擴展中清擦音或塞擦音之起段或迄段建模。
近年來,對音訊信號,特定而言,對語音信號之數位儲存及傳輸的需求愈來愈大。在某些類似例如行動通訊應用的情況下,要求獲得相對低的位元率。
然而,為了在位元率與音訊品質(或語音品質)之間獲得良好的平衡,存在方法來使用相對高的精度編碼音訊信號之低頻部分(例如,最高達近似6kHz的頻率部分),且依賴於頻寬擴展重構音訊內容之高頻部分(例如,高於近似6kHz或7kHz的頻率部分)。舉例而言,頻寬擴展可基於使用相對少之參數重構音訊內容之高頻部分,其中參數可例如以粗略方式描述頻譜包絡。
頻寬擴展之熟知實行方案為頻寬複製(SBR),此實行方案已在MPEG(動畫專家組)中進行標準化。
舉例而言,國際標準ISO/IEC 14496-3:200X(E)第4子部分中第4.6.18及4.6.19章中描述了有關頻寬複製之某些細節。
此外,亦參閱了專利申請案第US 2011/0099018 A1號,該案描述一種使用頻譜傾斜受控式定框計算頻寬擴展資料的設備及方法。該專利申請案描述一種計算頻寬擴展系統中音訊信號之頻寬擴展資料的設備,其中第一頻寬用第一數目個位元編碼,且不同於第一頻寬之第二頻寬用第二數目個位元編碼,第二數目個位元少於第一數目個位
元。設備具有可控頻寬擴展參數計算器,該可控頻寬擴展參數計算器針對音訊信號之第一序列個訊框以逐訊框方式計算第二頻寬之頻寬擴展參數。每一訊框具有可控開始時間瞬時。設備額外包括頻譜傾斜偵測器,該偵測器偵測音訊信號的時間部分中之頻譜傾斜且取決於頻譜傾斜而信號傳遞音訊信號之個別訊框的開始時間瞬時。
然而,已發現在頻寬擴展之許多習知方法中,清擦音或塞擦音存在之情況下所獲得之聽覺效果實質上有所劣化。舉例而言,習知頻寬擴展技術可能引起前回聲及後回聲。此外,在使用習知頻寬擴展技術時,清擦音或塞擦音可能會聽起來過於尖銳。
鑒於上述情形,需要創建允許改進之音訊品質的頻寬擴展概念。
根據本發明之實施例創建一種基於輸入音訊資訊提供編碼音訊資訊的音訊編碼器。音訊編碼器包含經組配以使用可變時間解析度提供頻寬擴展資訊的頻寬擴展資訊提供器。音訊編碼器亦包含經組配以偵測清擦音或塞擦音之起段的偵測器。音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊。
根據本發明之此實施例基於如下發現,若針對偵測到清擦音或塞擦音之起段的時間的整個環境,以高的時間解析度提供頻寬擴展資訊,則可達成良好聽覺品質。因此,以高的時間解析度(至少關於頻寬擴展資訊)編碼清擦音或塞擦音之整個起段,該整個起段通常包含偵測到清擦音或塞擦音之起段的時間之前的特定時間擴展及實際偵測到清擦音或塞擦音之起段的時間之後的特定週期(時間擴展),從而有助於避免前回聲且亦有助於避免不自然之聽覺感覺。通常,無法非常精確地偵測到清擦音或塞擦音之起段,因為清擦音或塞擦音之起段的偵測常常基於臨界交叉的偵測,而此交叉在清擦音或塞擦音之起段的剛剛開始處顯然並未出現。因此,(實際)偵測到清擦音或塞擦音之起段的時間在時間上在清擦音或塞擦音之剛剛開始(或起段)之後。因此,藉由確保至少針對(實際)偵測到清擦音或塞擦音之起段的時間之前的預定時間週期,以提高的時間解析度(與「正常的」時間解析度相比)提供頻寬擴展資訊,可達成:亦可以良好解析度重現清擦音或塞擦音之起段剛剛開始處的細節,其中已發現,甚至在清擦音或塞擦音之起段剛剛開始處之此類細節對於良好聽覺感覺而言重要。因此,藉由至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期,以提高的時間解析度提供頻寬擴展資訊,不僅有助於避免前回聲,亦使得能夠重現清擦音或塞擦音之起段的細節。類似地,藉由確保針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析
度提供頻寬擴展資訊,使得能夠重現清擦音或塞擦音之起段的細節,此類細節對於聽力感覺而言重要。
因此,本文所描述之概念使得能夠以高的時間解析度重現清擦音或塞擦音之整個起段,此有助於避免聽力感覺之劣化,而此劣化例如由清擦音或塞擦音之起段剛剛開始處或自清擦音或塞擦音之起段至穩定信號部分之過渡處(頻寬擴展資訊之)過於粗略的時間解析度引起。
在較佳實施例中,音訊編碼器經組配以回應於偵測到清擦音或塞擦音之起段,自用於提供頻寬擴展資訊之第一時間解析度切換至用於提供頻寬擴展資訊之第二時間解析度,其中第二時間解析度高於第一時間解析度。因此,執行用於提供頻寬擴展資訊之兩個不同時間解析度之間的切換,其中該切換係由偵測到清擦音或塞擦音之起段來控制。因此,創建一種簡單控制方案,該方案可容易地實施於音訊編碼器或音訊解碼器中。
在較佳實施例中,頻寬擴展資訊提供器經組配以提供頻寬擴展資訊,以使得頻寬擴展資訊與具有相等時間長度的時間上規則的時間間隔(可形成用於提供頻寬擴展資訊之基礎但可細分的時間網格)相關聯。頻寬擴展資訊提供器經組配以當使用第一時間解析度(例如,相對較低的時間解析度)時,針對具有給定時間長度的時間間隔提供頻寬擴展資訊之單個集合。此外,頻寬擴展資訊提供器可經組配以當使用第二時間解析度(例如,相對較高的時間解析度)時,針對具有給定時間長度的時間間隔提供與子時間間隔
相關聯之頻寬擴展資訊之多個集合。
藉由將具有相等時間長度的時間上規則的時間間隔(例如,訊框)用作用於提供頻寬擴展資訊之(基礎)時間網格,音訊編碼器可得以容易地實施。舉例而言,頻寬擴展資訊提供器僅需要在兩個離散的時間解析度之間切換,此切換可在無需過多工作量之情況下得以實施。舉例而言,頻寬擴展資訊提供器可僅需實施以基於具有給定時間長度的時間間隔提供頻寬擴展資訊之單個集合,且基於具有給定時間長度的時間間隔的預定(及固定)數目個(具有相等長度)之子間隔提供頻寬擴展資訊之多個集合。因此,以下可例如為充分的:頻寬擴展資訊提供器經組配以基於具有給定時間長度的時間間隔提供頻寬擴展資訊之單個集合,或基於四個子時間間隔提供頻寬擴展資訊之四個集合,該等子時間間隔中之每一者的長度等於給定時間長度之四分之一。此外,藉由使用此類概念,提供頻寬擴展資訊的時間間隔期間信號傳遞可能要求的信號傳遞工作量可保持為小,因為僅需要在「粗略解析度」(例如,針對具有給定時間長度的時間間隔的頻寬擴展資訊之單個集合)與「精細解析度」(例如,與具有相等長度之n個子時間間隔相關聯的頻寬擴展資訊之n個集合)之間進行選擇。因此,提供用於提供頻寬擴展資訊之特定有效之概念。
在較佳實施例中,音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得與頻寬擴展資訊之一個集合相關聯的至少一個子時間間隔緊接在另一
子時間間隔之前,該另一子時間間隔與頻寬擴展資訊之另一集合相關聯且在該另一子時間間隔期間偵測到清擦音或塞擦音之起段,以使得在偵測到清擦音或塞擦音之起段的子時間間隔之前的至少一個子時間間隔中使用提高的時間解析度。因此,有可能甚至在清擦音或塞擦音之起段剛剛開始處以高的時間解析度提供頻寬擴展資訊,亦即,甚至在實際可偵測到清擦音或塞擦音之起段之前以高的時間解析度提供頻寬擴展資訊。
在較佳實施例中,音訊編碼器經組配以若針對具有給定時間長度之給定時間間隔使用提高的時間解析度提供頻寬擴展資訊,則將具有給定時間長度之給定時間間隔細分為具有相等長度之四個子時間間隔,以使得針對具有給定時間長度之給定時間間隔提供頻寬擴展資訊之四個集合(例如,頻寬擴展參數之四個集合,每一集合與子時間間隔中之一者相關聯)。因此,可達成頻寬擴展資訊之高的時間解析度,因為頻寬擴展資訊之四個集合可例如針對四個子間隔獨立地描述音訊內容之高頻信號部分的包絡。因此,可考慮四個子時間間隔之高頻信號部分的頻譜包絡的差異,因為頻寬擴展資訊之集合中之每一者可表示子時間間隔中之一者的高頻部分的頻率包絡(或頻譜包絡)。
在較佳實施例中,音訊編碼器經組配以若在第二時間間隔內偵測到清擦音或塞擦音之起段且若偵測到清擦音或塞擦音之起段的時間與第一時間間隔與第二時間間隔之間的邊界之間的時間距離小於預定時間距離,則針對具
有給定時間長度之第二時間間隔之前的具有給定時間長度之第一時間間隔,選擇性地使用提高的時間解析度提供頻寬擴展資訊。因此,甚至在偵測到清擦音或塞擦音之起段的時間位於後續第二時間間隔(例如,後續第二訊框)內的情況下,若假設清擦音或塞擦音之起段剛剛開始處(通常位於實際偵測到清擦音或塞擦音之起段的時間之前)位於第一時間間隔內,則以提高的時間解析度(與「正常的」時間解析度相比)提供第一時間間隔(例如,第一訊框)的頻寬擴展資訊。因此,清擦音或塞擦音之整個起段包括清擦音或塞擦音之起段剛剛開始處及有可能甚至清擦音或塞擦音之起段之前的一定時間量,經評估,針對該整個起段,提供頻寬擴展資訊時使用高的時間解析度,從而形成良好語音重現。並非僅避免前回聲,清擦音或塞擦音之起段可得以精確重現而並無過量之尖銳度或其他實質假影。
在較佳實施例中,音訊編碼器經組配以執行時間先行,以使得回應於在第二時間間隔內偵測到清擦音或塞擦音之起段,針對具有給定時間長度之第二時間間隔之前的具有給定時間長度之第一時間間隔,使用提高的時間解析度提供頻寬擴展資訊。因此,針對清擦音或塞擦音之整個起段(及有可能甚至清擦音或塞擦音之起段之前的較短時間週期),有可能以提高的時間解析度提供頻寬擴展資訊,從而獲得改進之音訊品質。
在較佳實施例中,音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對偵
測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以相同之提高的時間解析度提供頻寬擴展資訊。藉由使用相等的時間解析度,與在偵測到清擦音或塞擦音之起段的時間之前及之後使用不同時間解析度的情況相比,頻寬擴展資訊之提供有所簡化。此外,藉由針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,使用相同之提高的時間解析度,信號傳遞工作量有所減少。
在較佳實施例中,音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對第一子時間間隔、第二子時間間隔及第三子時間間隔,以相同之提高的時間解析度提供頻寬擴展資訊之集合,其中第一子時間間隔緊接在第二子時間間隔之前,其中在第二子時間間隔內偵測到清擦音或塞擦音之起段,且其中第三子時間間隔緊跟在第二子時間間隔之後。因此,當提供頻寬擴展資訊之集合時,用相同的時間解析度處理「嵌有」期間偵測到清擦音或塞擦音之起段之第二子時間間隔的第一子時間間隔及第三子時間間隔。因此,當提供頻寬擴展資訊時,以高的時間解析度處置清擦音或塞擦音之起段之實質部分,或甚至清擦音或塞擦音之整個起段。此外,藉由針對第一子時間間隔、第二子時間間隔及第三子時間間隔使用相同之(提高的,或「高的」)時間解析度,編碼及解碼變簡單,且信號傳遞管理負擔(用於信號傳遞時間解析度)
變小。
在較佳實施例中,偵測器經組配以偵測清擦音或塞擦音之訖段。在此種情況下,音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊。根據本發明之此實施例基於如下發現,針對清擦音或塞擦音之訖段,亦應以高的時間解析度執行頻寬擴展。已發現,人類聽覺實際上對於清擦音或塞擦音之訖段亦敏感,因此值得耗費位元率管理負擔以高的時間解析度(關於頻寬擴展資訊)編碼清擦音或塞擦音之訖段。此外,已發現,在清擦音或塞擦音之訖段期間以低的時間解析度提供頻寬擴展資訊通常會導致清擦音或塞擦音之訖段期間不當之尖銳聽覺感覺,此感覺被視為假影。
此外,應注意,關於回應於清擦音或塞擦音之起段而調整頻寬擴展資訊提供器所使用的時間解析度,上文所提及之概念中之任何概念亦可有利地回應於偵測到清擦音或塞擦音之訖段而應用。換言之,上文所描述之概念可以類似方式應用,其中「清擦音或塞擦音之訖段」替代「清擦音或塞擦音之起段」。
在較佳實施例中,偵測器經組配以評估越零率,及/或能量比及/或頻譜傾斜,以便偵測清擦音或塞擦音之起段。已發現,上文提及之量(越零率,能量比,頻譜傾斜)
中之一或多者的評估達成清擦音或塞擦音之起段的合理準確偵測。舉例而言,上文提及之值中之一或多者,或自上文提及之量之組合導出的值可與臨界值比較,以便偵測清擦音或塞擦音之存在。
在較佳實施例中,編碼器經組配以選擇性地調整頻寬擴展資訊提供器所使用的時間解析度,以使得僅針對語音信號部分而並非音樂信號部分,回應於偵測到清擦音或塞擦音之起段,以提高的時間解析度提供頻寬擴展資訊。此概念基於如下發現,與音樂信號部分之感覺相比,清擦音或塞擦音對語音之感覺更重要。因此,對於音樂信號部分而言,使用提高的時間解析度提供頻寬擴展資訊可引起之位元率管理負擔可得以避免,此有助於降低總位元率,或有助於針對音樂信號部分注重感覺上更重要之特徵的編碼。
在較佳實施例中,音訊編碼器經組配以針對完全覆蓋偵測到之清擦音或塞擦音之起段的多個後續時間間隔,選擇性地使用提高的時間解析度提供頻寬擴展資訊。因此,甚至當使用頻寬擴展時,以高的精度編碼清擦音或塞擦音之起段,以使得使用頻寬擴展並未實質上劣化聽覺感覺。
根據本發明之另一實施例創建一種基於輸入音訊資訊提供編碼音訊資訊的音訊編碼器。音訊編碼器包含經組配以使用可變時間解析度提供頻寬擴展資訊的頻寬擴展資訊提供器。音訊編碼器亦包含經組配以偵測清擦音或
塞擦音之訖段的偵測器。音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得回應於偵測到清擦音或塞擦音之訖段,以提高的時間解析度提供頻寬擴展資訊。
根據本發明之此實施例基於如下發現,清擦音或塞擦音之訖段對於音訊內容之感覺而言亦重要,且因此應以高的時間解析度進行編碼。特定而言,根據本發明之此實施例基於如下發現,若以頻寬擴展資訊之不足時間解析度編碼清擦音或塞擦音之訖段,清擦音或塞擦音之訖段通常被視為「過於尖銳」。因此,藉由提高頻寬擴展資訊提供器所使用的時間解析度,音訊品質(例如語音信號之音訊品質)可得以實質上改進。
在較佳實施例中,音訊編碼器經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊。因此,有可能以提高的時間解析度編碼清擦音或塞擦音之整個訖段,儘管偵測器通常僅能夠偵測到清擦音或塞擦音之訖段的中心,等等。
根據本發明之另一實施例創建一種基於編碼音訊資訊提供解碼音訊資訊的音訊解碼器。音訊解碼器經組配以基於音訊編碼器所提供之頻寬擴展資訊執行頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之起段的時間
之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。因此,音訊解碼器能夠以高的時間解析度重現清擦音或塞擦音之起段的實質部分,或甚至清擦音或塞擦音之整個起段。因此,音訊解碼器所執行之頻寬擴展可良好地適於清擦音或塞擦音之存在,以使得可以良好感覺品質重現清擦音或塞擦音之起段期間出現的音訊內容之高頻部分之頻譜包絡的改變。因此,達成良好聽覺感覺。
在較佳實施例中,音訊解碼器可包含經組配以基於解碼音訊資訊偵測清擦音或塞擦音之起段且自行決定關於用於頻寬擴展的時間解析度之調整的偵測器,該清擦音或塞擦音之起段表示音訊內容之低頻部分。本文關於音訊編碼器所論述之用於偵測清擦音或塞擦音之起段的準則中之任何準則亦可應用於音訊解碼器(假設所要資訊在音訊解碼器旁側可用)。
然而,或者,音訊解碼器可經組配以基於編碼音訊資訊之旁側資訊調整用於頻寬擴展的時間解析度。
根據本發明之另一實施例創建一種基於編碼音訊資訊提供解碼音訊資訊的音訊解碼器。音訊解碼器經組配以基於音訊編碼器所提供之頻寬擴展資訊執行頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。
根據本發明之此實施例基於如下構想,藉由在清擦音或塞擦音之訖段期間以提高的時間解析度執行頻寬擴展,可達成良好音訊品質。此外,實施例基於如下構想,清擦音或塞擦音之訖段通常擴展特定時間週期,其中偵測到清擦音或塞擦音之訖段的時間通常位於該特定時間週期內。
根據本發明之另一實施例創建一種包含如上文所描述之音訊編碼器及音訊解碼器的系統,其中該音訊解碼器經組配以接收音訊編碼器所提供之編碼音訊資訊,且基於編碼音訊資訊提供解碼音訊資訊。音訊解碼器經組配以基於音訊編碼器所提供之頻寬擴展資訊執行頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展,及/或以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。
系統允許音訊內容之編碼及解碼,其中藉由使用頻寬擴展達成相對低之位元率,且其中藉由在清擦音或塞擦音之起段之環境中及/或在清擦音或塞擦音之訖段之環境中使用提高的時間解析度,確保清擦音或塞擦音之良好重現。
根據本發明之另一實施例創建一種基於輸入音
訊資訊提供編碼音訊資訊的方法。方法包含使用可變時間解析度提供頻寬擴展資訊且偵測清擦音或塞擦音之起段。用於提供頻寬擴展資訊的時間解析度經調整以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊。此方法基於與上文所描述之音訊編碼器相同之考慮。
根據本發明之另一實施例創建一種基於輸入音訊資訊提供編碼音訊資訊的方法。方法包含使用可變時間解析度提供頻寬擴展資訊且偵測清擦音或塞擦音之訖段。用於提供頻寬擴展資訊的時間解析度經調整以使得回應於偵測到清擦音或塞擦音之訖段,以提高的時間解析度提供頻寬擴展資訊。此方法基於與上文所描述之音訊編碼器相同之考慮。
根據本發明之另一實施例創建一種基於編碼音訊資訊提供解碼音訊資訊的方法。方法包含基於音訊編碼器所提供之頻寬擴展資訊執行頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。此方法基於與上文所描述之音訊解碼器相同之考慮。
根據本發明之另一實施例創建一種基於編碼音訊資訊提供解碼音訊資訊的方法。方法包含基於音訊編碼器所提供之頻寬擴展資訊執行頻寬擴展,以使得至少針對
偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。此方法基於與上文所描述之音訊解碼器相同之考慮。
根據本發明之另一實施例創建一種用於執行上文所描述之方法中之一者的電腦程式。
根據本發明之另一實施例創建一種編碼音訊信號,該編碼音訊信號包含音訊內容之低頻部分的編碼表示及頻寬擴展參數之多個集合。至少針對音訊內容中存在清擦音或塞擦音之起段的時間之前的預定時間週期及針對音訊內容中存在清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展參數。
根據本發明之另一實施例創建一種編碼音訊信號,該編碼音訊信號包含音訊內容之低頻部分的編碼表示及頻寬擴展參數之多個集合。至少針對音訊內容中存在清擦音或塞擦音之訖段之部分,以提高的時間解析度提供頻寬擴展參數。
該等編碼音訊信號基於與上文所描述之音訊編碼器及上文所描述之音訊解碼器相同之考慮。
100、800、1120‧‧‧音訊編碼器
110‧‧‧輸入音訊資訊
112、831、812、910、1010、1130‧‧‧編碼音訊資訊
120‧‧‧偵測器
122‧‧‧時間解析度調整資訊
130‧‧‧頻寬擴展資訊提供器
132‧‧‧頻寬擴展資訊
140‧‧‧低頻編碼裝置
142‧‧‧編碼表示
200‧‧‧表示
210、310、410、510‧‧‧橫坐標
212、312、412、512‧‧‧縱坐標
220a、220b、220c、220p、220q、220t、220u‧‧‧時間邊界
230a、230b、230c、230d‧‧‧清擦音或塞擦音邊界
300、400、500‧‧‧光譜圖
330a~330h、330p、330q、330s、330t、330u‧‧‧訊框邊界
340a~340d‧‧‧子訊框
430‧‧‧第一橢圓
440‧‧‧第二橢圓
450‧‧‧橢圓
610、710‧‧‧時間軸線
620a~620f、720a~720f‧‧‧時間間隔
Tf‧‧‧時間
810‧‧‧輸入音訊資訊
820‧‧‧偵測器
822‧‧‧時間解析度調整資訊
830‧‧‧頻寬擴展資訊提供器
832‧‧‧頻寬擴展資訊
840‧‧‧低頻編碼裝置
842‧‧‧編碼表示
900‧‧‧音訊解碼器
912、1012、1150‧‧‧解碼音訊資訊
920、1020‧‧‧低頻解碼裝置
930‧‧‧頻寬擴展裝置
932‧‧‧頻寬擴展裝置
1000、1140‧‧‧音訊解碼器
1030‧‧‧頻寬擴展裝置
1032‧‧‧頻寬擴展資訊
1100‧‧‧系統
1110‧‧‧輸入音訊資訊
1200、1300‧‧‧方法
1210、1220、1310、1320‧‧‧步驟
下文將參閱附隨圖式描述根據本發明之實施例:圖1展示根據本發明實施例之音訊編碼器的方塊示意圖;圖2展示以習知頻寬擴展(BWE)定框之原始語音信號
的光譜圖及偵測到之清擦音或塞擦音邊界;圖3展示以本發明頻寬擴展(BWE)定框之原始語音信號的光譜圖;圖4展示以習知頻寬擴展(BWE)定框之編碼語音的光譜圖;圖5展示以本發明頻寬擴展(BWE)定框之編碼語音的光譜圖;圖6展示根據本發明之實施例提供頻寬擴展資訊之集合所針對的時間間隔及子時間間隔的示意性表示;圖7展示根據本發明之實施例提供頻寬擴展資訊之集合所針對的時間間隔及子時間間隔的示意性表示;圖8展示根據本發明另一實施例之音訊編碼器的方塊示意圖;圖9展示根據本發明另一實施例之音訊解碼器的方塊示意圖;圖10展示根據本發明另一實施例之音訊解碼器的方塊示意圖;圖11展示根據本發明實施例之用於音訊編碼及音訊解碼之系統的方塊示意圖;圖12展示根據本發明實施例之基於輸入音訊資訊提供編碼音訊資訊的方法的流程圖;以及圖13展示根據本發明實施例之基於輸入音訊資訊提供解碼音訊資訊的方法的流程圖。
1.根據圖1之音訊編碼器
圖1展示根據本發明實施例之音訊編碼器的方塊示意圖。
音訊編碼器100經組配以接收輸入音訊資訊110,且基於輸入音訊資訊110提供編碼音訊資訊112。
音訊編碼器100包含偵測器120,該偵測器120可例如接收輸入音訊資訊110。偵測器120經組配以例如基於輸入音訊資訊110偵測清擦音或塞擦音之起段。偵測器120可提供時間解析度調整資訊122。
音訊編碼器100亦包含頻寬擴展資訊提供器130,該頻寬擴展資訊提供器130經組配以使用可變時間解析度提供頻寬擴展資訊132。舉例而言,頻寬擴展資訊提供器130可經組配以接收輸入音訊資訊(及可能之額外預處理音訊資訊)。此外,頻寬擴展資訊提供器130亦可經組配以自偵測器120接收時間解析度調整資訊122。
音訊編碼器100亦可包含低頻編碼裝置140,該低頻編碼裝置140可例如編碼輸入音訊資訊110所表示之音訊內容的低頻部分,從而提供輸入音訊資訊110所表示之音訊內容之低頻部分的編碼表示142。因此,編碼音訊資訊112可包含頻寬擴展資訊132及音訊內容之低頻部分的編碼表示142。然而,有關低頻編碼裝置之細節並非本發明之重要部分。
下文將更詳細描述音訊編碼器100之功能性。
低頻編碼裝置140可編碼輸入音訊資訊110所表示之音訊內容的低頻部分。舉例而言,音訊內容中頻率低於近似6kHz或低於近似7kHz(或低於任何其他預定頻率限值)的部分可使用低頻編碼裝置140編碼。低頻編碼裝置140可例如使用熟知音訊編碼技術中的任何一種,類似變換域編碼或線性預測域編碼。換言之,低頻編碼裝置140可例如使用音訊編碼概念,該概念可基於熟知「進階音訊編碼」(AAC)或可基於熟知「線性預測編碼」。舉例而言,低頻編碼裝置140可包含(或使用)修改之「進階音訊編碼」,如國際標準ISO/IEC 23003-3中所描述之。或者或補充地,低頻編碼裝置140可包含(或使用)線性預測編碼,例如,如國際標準ISO/IEC 23003-3中所描述之。然而,低頻編碼裝置140亦可包含(修改之或未修改之)「進階音訊編碼」與線性預測域音訊編碼之間的切換。然而,應注意,原則上,音訊信號之編碼領域中已知之任何概念皆可用於低頻編碼裝置140,以便提供輸入音訊資訊所表示之音訊內容之低頻部分的編碼表示142。
然而,頻寬擴展資訊提供器130可提供頻寬擴展資訊(例如,呈頻寬擴展參數之形式),該頻寬擴展資訊使得能夠重構輸入音訊資訊110所表示之音訊內容的高頻部分,該高頻部分並未由低頻編碼裝置140所提供之編碼表示142表示。舉例而言,頻寬擴展資訊提供器130可經組配以提供頻寬複製參數中之某些或全部,該等參數在國際標準ISO/IEC 14496-3(或涉及ISO/IEC 14496-3之任何其他標準)
中描述。
舉例而言,頻寬擴展資訊提供器可經組配以提供國際標準ISO/IEC 14496-3之「SBR工具」及/或「低延遲SBR」章節中所描述之參數中之某些或全部。舉例而言,頻寬擴展資訊提供器130可經組配以提供以下語法元件中之某些或全部:「sbr_extension_data()」、「sbr_header()」、「sbr_data()」、「sbr_single_channel_element()」、「sbr_channel_pair_element()」或其中所參考之其他位元流元件,例如國際標準ISO/IEC 14496-3中所界定之。換言之,頻寬擴展資訊提供器130可提供頻寬複製參數,該等頻寬複製參數可例如粗略地描述輸入音訊資訊110所表示之音訊內容的高頻部分之頻譜包絡。然而,頻寬擴展資訊提供器130亦可包含用於描述輸入音訊資訊110所表示之音訊內容的高頻部分中之雜訊的參數,及/或可包含用於描述輸入音訊資訊110所表示之音訊內容的高頻部分中所包括之一或多個正弦信號的參數。另外,頻寬擴展資訊提供器130可例如提供大量組配參數,亦如國際標準ISO/IEC 14496-3中關於頻寬複製工具所描述之。舉例而言,頻寬擴展資訊提供器130可提供一或多個表示時間解析度之參數,該時間解析度用於提供頻寬擴展資訊之集合,例如可藉以使用以提供表示輸入音訊資訊所表示之音訊內容的高頻部分之頻譜包絡的更新參數集合的時間解析度。舉例而言,頻寬擴展提供器130可提供控制參數,該控制參數指示每音訊訊框提供頻譜包絡參數之一個集合還是四個集合。舉例而言,頻寬
擴展資訊提供器130所提供之控制參數可類似於或甚至等於語法元件「sbr_grid()」中之「FIXFIX」情況下提供的參數,如國際標準ISO/IEC 14496-3中所描述之。
然而,頻寬擴展提供器130可或者經組配以提供控制資訊,該控制資訊類似於或甚至等於位元流元件「sbr_ld_grid()」中所包括之控制資訊,該位元流元件「sbr_ld_grid()」在例如國際標準ISO/IEC 14496-3之第4.6.19.3.2章中描述。
舉例而言,2-位元值可用於編碼每音訊訊框頻寬擴展資訊提供器130提供包絡形狀參數之多少集合(比較,如ISO/IEC 14496-3之第4.6.19.3.2章中所描述之位元流元件「bs_num_env」)。
較佳地,信號傳遞可如針對「FIXFIX」情況所指示之執行,此在ISO/IEC 14496-3之第4.6.19章「低延遲SBR」中所描述。
結論如下,頻寬擴展資訊提供器130提供頻寬擴展資訊132,其中時間解析度(例如,表示輸入音訊資訊110所表示之音訊內容的高頻部分之頻譜包絡的更新參數之間的時間週期)取決於時間解析度調整資訊122而調整,該時間解析度調整資訊122由偵測器120提供。因此,頻寬擴展資訊提供器130所使用的時間解析度(例如,用於提供描述輸入音訊資訊110所表示之音訊內容的高頻部分之頻譜包絡之更新參數集合)適用於輸入音訊資訊110。
舉例而言,音訊編碼器100經組配以使得回應於
偵測器120偵測到清擦音或塞擦音之起段,提高頻寬擴展資訊提供器130所使用的時間解析度(與正常的時間解析度比較。然而,提高頻寬擴展資訊提供器所使用的時間解析度,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊(例如,頻寬擴展資訊之頻譜包括參數)。因此,以頻寬擴展資訊之提高的時間解析度編碼清擦音或塞擦音之「整個」起段(或清擦音或塞擦音之起段之至少足夠大部分)。因此,可以足夠準確性編碼(及解碼)清擦音或塞擦音之起段,以使得可聽到的假影得以避免,且音訊品質之劣化亦可得以避免。
因此,包含頻寬擴展資訊132且通常亦包含輸入音訊資訊110所表示之音訊內容的低頻部分之編碼表示142的編碼音訊資訊112允許以良好品質解碼輸入音訊資訊110所表示之音訊內容,同時所要求之位元率可維持為合理小。
此外,應注意,本文所描述之其他特徵及功能性之任何特徵及功能性亦可實施至音訊編碼器100。特定而言,音訊編碼器100可額外經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得回應於偵測到清擦音或塞擦音之訖段(其中偵測器110亦可經組配以偵測清擦音或塞擦音之訖段),以提高的時間解析度提供頻寬擴展資訊。
下文將參閱圖2至圖7描述有關音訊編碼器100之功能性的某些額外細節。
圖2展示以習知頻寬擴展定框之原始語音信號的光譜圖及偵測到之清擦音或塞擦音邊界。圖2展示由一基於傾斜之偵測器所偵測之清擦音邊界相對原始es06_48m的光譜圖。
黑色垂直線指示清擦音邊界且洋紅色線指示一SBR定框。圖2展示以習知BWE定框之原始語音信號的光譜圖(洋紅色垂直虛線條)及偵測到之清擦音邊界(黑色垂直虛線)。橫坐標210描述時間(就時區而言),且縱坐標212指定QMF次頻帶。因此,根據圖2之表示200表示音訊信號能量隨時間在不同QMF次頻帶上之分佈。
如圖所示,洋紅色垂直虛線指定習知頻寬擴展定框的時間邊界220a,220b,...。此外,黑色垂直虛線指定偵測到之清擦音或塞擦音邊界230a,230b,230c,230d,...。偵測到之清擦音或塞擦音邊界230a,230b,230c,230d,...可使用基於傾斜之偵測器偵測。如圖所示,具有相等長度的時間間隔(可視為頻寬擴展訊框或通常視為訊框)由(習知)頻寬擴展定框之邊界220a,...,220u界定。換言之,在根據文件D1之習知概念中,頻寬擴展資訊可與具有相等時間長度的時間上規則的時間間隔(由習知頻寬擴展定框之邊界分離)相關聯。
如圖所示,偵測到之清擦音或塞擦音邊界可位於習知頻寬擴展定框之兩個後續邊界所界定的時間間隔內某處。
然而,圖2中所展示之習知頻寬擴展訊框方案並
未慮及音訊內容之高頻部分的特定良好之重現,如稍後將描述。
圖3展示以本發明頻寬擴展定框之原始語音信號的光譜圖(其中本發明頻寬擴展定框由黑色垂直實線指示)。圖3展示由一SBR編碼器所產生之參數包絡相對USAC2 es06_48m_autoSibs4的光譜圖。
黑/白交替指示正常的包絡,綠色指示瞬時對準包絡,黑色垂直線指示包絡邊界,及洋紅色線指示SBR定框。圖3展示以本發明BWE定框之原始語音信號的光譜圖(黑色垂直實線)。橫坐標310描述就時區而言的時間,且縱坐標312描述就QMF次頻帶而言之頻率。圖3之光譜圖300展示音訊內容(或音訊信號)之能量(或通常,強度)隨頻率(或隨QMF次頻帶)及隨時間的分佈。如圖所示,仍然存在規則(基本或基礎)定框,該定框由垂直線330a-330u指示,其中兩個後續訊框邊界之間(例如,訊框邊界330a與330b之間,或訊框邊界330b與330c之間)之訊框可視為具有相等長度的時間間隔。然而,應注意,回應於偵測到清擦音或塞擦音之起段及回應於偵測到清擦音或塞擦音之訖段,提高時間解析度。舉例而言,在訊框邊界330b與330c之間的時間間隔中偵測到清擦音或塞擦音之起段的作用如下:訊框邊界330b與330c之間之訊框(或時間間隔)被細分為四個子訊框(或子時間間隔)340a、340b、340c及340d。此外,應注意,回應於在訊框邊界330b與330c之間偵測到清擦音或塞擦音之起段,不僅提高訊框邊界330b與330c之間之訊框中的時
間解析度,亦提高訊框邊界330c與330d及訊框邊界330d與330e所定界之兩個後續訊框中的時間解析度。因此,回應於在單個訊框(或時間間隔)中偵測到清擦音或塞擦音之起段,亦即在訊框邊界330b與330c所定界的時間間隔中偵測到清擦音或塞擦音之起段,提高的時間解析度應用至兩個額外訊框(亦即,訊框邊界330c與330d以及時間邊界330d及330e所定界之訊框)。因此,可以確保,在清擦音或塞擦音之整個起段(或清擦音或塞擦音之起段之至少大部分)的持續時間期間,使用提高的時間解析度(與標準的時間解析度比較)提供頻寬擴展資訊(或頻寬擴展參數)。因此,解碼器旁側之頻寬擴展可在清擦音或塞擦音之整個起段期間以提高的時間解析度執行,因為可針對子時間間隔中之每一者(例如,子時間間隔340a-340d中之每一者)提供頻寬擴展參數之個別集合(例如,描述音訊內容之高頻部分之包絡的參數)。此外,可以看出,回應於在訊框邊界330e與330f之間之訊框中偵測到清擦音或塞擦音之訖段,將提高的時間解析度應用至三個後續訊框,亦即,訊框邊界330e與330f、訊框邊界330f與343g以及訊框邊界330g與330h所定界之訊框。換言之,訊框邊界330e與330h之間之訊框被細分為四個獨立子訊框(或子時間間隔),其中針對子訊框(例如,子時間間隔)中之每一者提供頻寬擴展參數之個別集合。因此,針對訊框邊界330e與330f所定界的時間間隔中偵測到之清擦音或塞擦音之整個訖段,可以提高的時間解析度提供頻寬擴展參數。
然而,在訊框邊界330h與330p之間,使用「正常的」時間解析度(而非「提高的」時間解析度)。此外,回應於在訊框邊界330p與330q所定界之訊框(或時間間隔)中偵測到清擦音或塞擦音之起段,針對訊框邊界330p與330s之間之訊框,使用提高的時間解析度提供頻寬擴展資訊。
類似地,回應於在訊框邊界330t與330u之間之訊框(或時間間隔)中偵測到清擦音或塞擦音之訖段,針對訊框邊界330t與330w之間之訊框(或時間間隔),使用提高的時間解析度提供頻寬擴展資訊。
結論如下,在音訊編碼器100中使用均一(基礎)定框提供頻寬擴展資訊,其中頻寬擴展資訊與具有相等時間長度的時間上規則之訊框(時間間隔)相關聯。
然而,頻寬擴展資訊提供器經組配以在使用第一(「正常的」)時間解析度時,針對訊框(亦即,具有給定時間長度的時間間隔)提供頻寬擴展資訊之單個集合。舉例而言,針對訊框邊界330a與330b之間之訊框,提供頻寬擴展資訊之單個集合,且針對時間邊界330h與330p之間之八個訊框中之每一者,提供頻寬擴展資訊之單個集合。然而,頻寬擴展資訊提供器亦經組配以在使用第二(「提高的」)時間解析度時,針對具有給定時間長度之訊框(時間間隔)提供與子時間間隔相關聯之頻寬擴展資訊之多個集合。舉例而言,針對訊框邊界330b與訊框邊界330h之間之六個訊框中之每一者、針對訊框邊界330p與330s之間之三個訊框中之每一者,且針對訊框邊界330t與330w之間之三個訊框
中之每一者,提供頻寬擴展資訊之四個集合。如圖所示,以高的時間解析度提供頻寬擴展資訊之訊框中之每一者被細分為具有相等長度之四個子訊框(或子時間間隔)(例如,子時間間隔340a至340d),其中針對子時間間隔中之每一者,提供頻寬擴展參數之一個集合。此外,應注意,緊接期間偵測到清擦音或塞擦音之起段的子時間訊框之前或期間偵測到清擦音或塞擦音之訖段的子時間訊框之前,通常存在至少一個子時間訊框,針對該至少一個子時間訊框提供頻寬擴展參數之一個集合。舉例而言,若假設在訊框邊界330b與330c之間之訊框的後一半中偵測到清擦音或塞擦音,則緊接期間偵測到清擦音或塞擦音的子時間訊框之前存在至少兩個子時間訊框(位於訊框邊界330b與330c之間之訊框的前一半中)。因此,甚至在實際偵測到清擦音或塞擦音之起段或實際偵測到清擦音或塞擦音之訖段的時間之前,使用提高的時間解析度提供頻寬擴展參數。因此,可以高的時間解析度處理(其中以高的時間解析度提供頻寬擴展參數)清擦音或塞擦音之「全部」起段或清擦音或塞擦音之「全部」訖段。因此,音訊解碼器旁側可能獲得良好重現,該音訊解碼器接收音訊編碼器100所提供之編碼音訊資訊。
現參閱圖4及圖5,將描述音訊編碼器100優於習知音訊編碼器之某些優勢。
圖4展示以習知頻寬擴展定框之編碼語音的光譜圖。圖4展示以習知BWE定框之編碼語音信號的光譜圖,其
中黃色橢圓指示習知BWE定框所引起之典型假影。橫坐標410描述時間,且縱坐標412描述頻率。此外,黃色橢圓指示習知頻寬擴展定框所引起之典型假影。因此,圖4之光譜圖400描述語音信號之能量隨頻率及隨時間的分佈。
第一橢圓430描述由習知頻寬擴展定框引起之前回聲。此外,習知頻寬擴展定框之作用如下:橢圓430中所示之起段被視為非常強烈之起段。
此外,第二橢圓440指出後回聲,該回聲亦由習知頻寬擴展定框引起。此外,橢圓440所指示之區域中之訖段通常被視為非常強烈之訖段,聽起來會很不自然。
橢圓450展示來自基帶之元音洩漏,該洩漏亦由習知頻寬擴展定框引起。
因此,如圖所示,習知頻寬擴展定框(例如,圖2中所示之頻寬擴展定框)產生許多假影。
圖5展示以本發明頻寬擴展定框之編碼語音的光譜圖(與圖4之光譜圖相比)。圖5展示用以與與圖4相比之本發明BWE定框之編碼語音信號的光譜圖。可以看到圖4中所指示之問題區域得以實質上改進。又,橫坐標510描述時間,且縱坐標512描述頻率,以使得光譜圖500表示作為頻率之函數及作為時間之函數的編碼語音信號(或自編碼語音信號導出之解碼語音信號)之能量。如圖所示,橢圓430、440及450所高顯之問題區域得以實質上改進,如圖4中指示。換言之,使用高的時間解析度提供頻寬擴展資訊有助於減少或甚至避免前回聲、清擦音或塞擦音之起段的不當
強烈感受、清擦音或塞擦音之訖段的後回聲以及清擦音或塞擦音之訖段的不當強烈感受。此外,本發明中使用提高的時間解析度亦有助於避免來自基帶之元音洩漏,如圖4中之橢圓450處所展示。
下文將參閱圖6及圖7解釋有關提供頻寬擴展資訊之某些細節。
圖6展示用於提供頻寬擴展資訊的時間間隔及子時間間隔的示意性表示。
時間軸線指定為610。如圖所示,時間(由時間軸線610表示)細分為時間間隔620a、620b、620c、620d、620e及620f,該等時間間隔可例如包含相等長度。時間間隔可視為訊框。此外,偵測到清擦音或塞擦音之起段(或訖段)的時間指定為tf。時間tf位於時間間隔(或訊框)620e內。應注意,偵測到清擦音或塞擦音之起段(或訖段)的時間可例如由偵測器120判定,且偵測到清擦音或塞擦音之起段(或訖段)的時間通常可位於清擦音或塞擦音之起段之實際開始不久之後或清擦音或塞擦音之訖段之實際開始不久之後。
如圖6所示,針對時間間隔620a至620d及620f,以「正常的」(相對低的)解析度提供頻寬擴展資訊。舉例而言,針對時間間隔620a至620d及620f中之每一者,提供頻寬擴展資訊之一個集合。舉例而言,針對時間間隔620a至620d及620f中之每一者,由頻寬擴展參數之集合表示常見頻譜形狀(或頻譜整形),以使得頻寬擴展資訊並不表示時間間隔620a至620d及620f之單個時間間隔內頻譜形狀(或頻譜
整形)的改變。相反,音訊解碼器100經組配以調整頻寬擴展資訊提供器所使用的時間解析度,以使得在時間間隔(或訊框)620e中以提高的時間解析度提供頻寬擴展資訊。因此,回應於在時間間隔620e內偵測到清擦音或塞擦音時間tf之起段(或訖段),頻寬擴展資訊提供器130可將時間間隔620e細分為四個子時間間隔630a至630d。因此,針對子時間間隔630a至630d中之每一者,頻寬擴展資訊提供器可提供頻寬擴展資訊之一個集合。因此,針對子時間間隔630a提供之頻寬擴展資訊(例如,參數)之第一集合可描述將應用至子時間間隔630a之頻寬擴展的頻譜形狀(或頻譜整形),頻寬擴展資訊之第二集合可描述將應用至子時間間隔630b之頻寬擴展的頻譜形狀或頻譜整形,頻寬擴展資訊之第三集合可描述將應用至子時間間隔630c之頻寬擴展的頻譜形狀或頻譜整形,且頻寬擴展資訊之第四集合可描述將應用至子時間間隔630d之頻寬擴展的頻譜形狀或頻譜整形。因此,頻寬擴展資訊提供器130提供頻寬擴展資訊(或頻寬擴展參數)之個別集合,以使得將應用至時間間隔630a至630d之頻寬擴展的頻譜形狀或頻譜整形獨立地進行信號傳遞。因此,回應於在時間間隔620e內偵測到清擦音或塞擦音之起段或訖段,針對時間間隔620e,以提高的時間解析度(高於「正常的」或「低的」時間解析度)編碼頻譜形狀或頻譜整形。然而,應注意,時間間隔630a至630d可具有相等長度(例如,就時間而言或就樣本個數而言)。此外,應注意,以提高的時間解析度提供頻寬擴展資訊已用於子時間間隔
630a中,亦即,在偵測到清擦音或塞擦音之起段或訖段的時間tf之前。此外,提高的時間解析度亦用於子時間間隔630c中,亦即,在期間偵測到清擦音或塞擦音之起段或訖段的時間間隔630b之後。因此,可以良好音訊品質編碼清擦音或塞擦音之起段或訖段。
圖7展示用於提供頻寬擴展資訊的時間解析度的另一示意性表示。時間軸線指定為710。如圖所示,存在時間間隔720a至720f。進一步如圖所示,偵測到清擦音或塞擦音之起段(或訖段)的時間指定為tf且位於時間間隔720e的第一四分之一內。如圖所示,針對時間間隔720a、720b、720c及720f,以「正常的」或「低的」時間解析度提供頻寬擴展資訊(例如,每時間間隔頻寬擴展資訊之一個集合或頻寬擴展參數之一個集合)。然而,回應於在時間tf偵測到清擦音或塞擦音之起段,音訊編碼器100調整頻寬擴展資訊提供器所使用的時間解析度,以使得在時間間隔720d及720e期間使用「提高的」(或「高的」)時間解析度。因此,針對時間間隔720之四個子時間間隔及時間間隔720e之四個子時間間隔,提供頻寬擴展資訊(或頻寬擴展參數)之個別集合。因此在時間間隔720d及720e期間,以提高的頻譜解析度表示將用於頻寬擴展(在音訊解碼器旁側)的頻譜包絡或頻譜包絡整形。
舉例而言,針對時間間隔720d及720e之每一子時間間隔,可提供頻寬擴展參數之一個個別集合。
然而,應注意,提高的時間解析度亦用於時間間
隔720e之前(緊接在之前)的時間間隔720d,偵測到清擦音或塞擦音之起段(或訖段)的時間位於時間間隔720e內。然而,如所要的,根據本發明,以提高的時間解析度編碼偵測到清擦音或塞擦音之起段(或訖段)的時間間隔(或子時間間隔)之前的至少另一時間間隔(或子時間間隔),音訊編碼器100選擇提高的時間解析度提供(及編碼)時間間隔720d的頻寬擴展資訊。因此,由於偵測到清擦音或塞擦音之起段的時間位於時間間隔720e之第一子時間間隔內,音訊解碼器決定,亦應以高的時間解析度處理(前一)時間間隔720d,以使得高的時間解析度已應用至偵測到清擦音或塞擦音之起段(或訖段)的子時間間隔之前的時間間隔(子時間間隔)。
相反,若僅在時間間隔720e之第二子間隔中偵測到清擦音或塞擦音之起段(或訖段),則音訊編碼器會(可能)針對時間間隔720d(圖6中所示之情形)選擇低的時間解析度提供頻寬擴展資訊。因此,自圖7可瞭解,執行特定之「時間先行」,因為即使在定框並未要求提高的時間解析度的情況下,仍選擇提高的時間解析度提供頻寬擴展資訊。
因此,甚至以高的時間解析度處理清擦音或塞擦音之起段的開始,其中清擦音或塞擦音之起段的開始通常位於偵測器120實際偵測到清擦音或塞擦音之起段的時間之前。因此,可達成具有良好感覺品質且無主要假影的音訊重現。
總結如下:圖3、圖5、圖6及圖7展示可應用至根據本發明之音訊編碼器100的操作概念。然而,不同定框概
念可實際使用足夠長時間,只要確保至少針對偵測到清擦音或塞擦音之起段(或清擦音或塞擦音之訖段)的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段(或清擦音或塞擦音之訖段)的時間之後的預定時間週期,以提高的時間解析度(與正常的時間解析度相比)提供頻寬擴展資訊。
應注意,圖6及圖7例如表示編碼音訊信號之結構。舉例而言,編碼音訊信號可包含音訊內容之低頻部分的編碼表示。此外,編碼音訊表示可包含頻寬擴展參數之多個集合。
舉例而言,針對訊框620a至620d及620f中之每一者,可提供頻寬擴展參數之一個集合。此外,針對訊框720a、720b、720c及720f中之一者,可提供頻寬擴展資訊之一個集合。然而,至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,可以提高的時間解析度提供頻寬擴展參數之集合。舉例而言,針對訊框620e,以提高的時間解析度提供頻寬擴展參數之集合。舉例而言,針對訊框620e,可提供總計頻寬擴展參數之四個集合,以使得提高偵測到清擦音或塞擦音之起段或訖段之子訊框630b之前的子訊框630a中的時間解析度。此外,針對子訊框630c及630d,可提供頻寬擴展參數之另外兩個集合。
自圖7可瞭解類似概念,其中針對訊框620d及620e,以提高的時間解析度提供頻寬擴展參數之集合。
結論如下,至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,可以提高的時間解析度提供頻寬擴展參數。此外,針對音訊內容中偵測到清擦音或塞擦音之訖段的部分,亦可以提高的時間解析度提供頻寬擴展參數。
2. 根據圖8之音訊編碼器
圖8展示根據本發明實施例之音訊編碼器的方塊示意圖。
音訊編碼器800經組配以接收輸入音訊資訊810,且基於輸入音訊資訊810提供編碼音訊資訊812。
音訊編碼器800包含偵測器820,該偵測器820經組配以偵測清擦音或塞擦音之訖段。偵測器820例如提供時間解析度調整資訊822。此外,音訊編碼器800包含頻寬擴展資訊提供器830,該頻寬擴展資訊提供器830經組配以使用可變時間解析度提供頻寬擴展資訊832。音訊編碼器經組配以調整頻寬擴展資訊提供器830所使用的時間解析度,以使得回應於偵測到清擦音或塞擦音之訖段,以提高的時間解析度(與「正常的」時間解析度相比)提供頻寬擴展資訊832。換言之,若偵測器820偵測到清擦音或塞擦音之訖段,提高頻寬擴展資訊提供器830所使用的時間解析度,以使得以頻寬擴展資訊(或頻寬擴展參數)832之相對高的(高於正常的)時間解析度編碼清擦音或塞擦音之訖段。此外,音訊編碼器800包含低頻編碼裝置840,該低頻編碼裝置840可提
供輸入音訊資訊810所表示之音訊內容的低頻部分的編碼表示842。
此外,應注意,偵測器820可類似於上文所描述之偵測器120,且頻寬擴展資訊提供器130可類似於(或甚至等同於)上文所描述之頻寬擴展資訊提供器130。此外,低頻編碼裝置840類似於或甚至等同於上文所描述之低頻編碼裝置140。
此外,音訊編碼器800經組配以調整頻寬擴展資訊提供器830所使用的時間解析度,以使得回應於偵測到清擦音或塞擦音之訖段,以提高的時間解析度提供頻寬擴展資訊832。因此,以(至少頻寬擴展資訊之)高的時間解析度編碼清擦音或塞擦音之訖段,此有助於避免假影且形成自然之聽覺感覺。
然而,應注意,音訊編碼器800可任擇地具備上文關於音訊編碼器100以及亦關於圖3、圖5、圖6及圖7所描述之其他特徵中的任何特徵。此外,回應於偵測到清擦音或塞擦音之訖段而使用提高的時間解析度所產生之優勢可如圖5所示。
此外,應注意,回應於偵測到清擦音或塞擦音之起段及回應於偵測到清擦音或塞擦音之訖段,均可應用根據圖6及圖7之概念,且因此亦可應用至根據圖8之音訊編碼器。
3. 根據圖9之音訊解碼器
圖9展示根據本發明實施例之音訊解碼器的方塊
示意圖。音訊解碼器900經組配以接收編碼音訊資訊910,且基於編碼音訊資訊910提供解碼音訊資訊912。音訊解碼器包含低頻解碼裝置920,該低頻解碼裝置920可經組配以提供編碼音訊資訊910所表示之音訊內容的低頻部分的解碼表示。舉例而言,低頻解碼裝置920可包含通用音訊解碼,例如如國際標準ISO/IEC 14496-3中所描述之。換言之,低頻解碼裝置920可例如包含熟知MPEG-2「進階音訊編碼」(AAC),且可例如解碼音訊內容中頻率最高達近似6kHz或7kHz的低頻部分。然而,低頻解碼裝置920可使用任何其他解碼概念,諸如例如,熟知CELP解碼概念或熟知變換編碼激勵(TCX)解碼。一般而言,低頻解碼裝置920可使用任何通用音訊解碼概念或任何語音解碼概念。音訊解碼器900亦包含頻寬擴展裝置930,該頻寬擴展裝置930經組配以基於音訊編碼器所提供且通常包括於編碼音訊資訊910中之頻寬擴展資訊932執行頻寬擴展。頻寬擴展裝置930通常可使用低頻解碼裝置920所提供之資訊。舉例而言,頻寬擴展裝置930可經組配以基於音訊內容之解碼低頻部分(其中音訊內容之解碼低頻部分由低頻解碼裝置920提供)執行頻寬複製(SBR)。舉例而言,頻寬擴展裝置930可執行所謂之「SBR工具」或所謂之「低延遲SBR」之功能性,此例如在國際標準中ISO/IEC 14496-3中描述。
然而,音訊解碼器900可經組配以至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週
期,以提高的時間解析度執行頻寬擴展。因此,甚至針對清擦音或塞擦音之起段或清擦音或塞擦音之訖段,仍可達成良好音訊品質。
應注意,用於頻寬擴展的時間解析度可使用包括於頻寬擴展資訊932之旁側資訊信號傳遞。舉例而言,信號傳遞可如國際標準ISO/IEC 14496-3中第4.6.19章中所描述之執行。特定而言,時間解析度之信號傳遞可如ISO/IEC 14496-3第4子部分中第4.6.19.3.2章中所描述之執行。因此,頻寬擴展裝置930可評估該信號傳遞以決定應將何時間解析度用於頻寬擴展。
然而,或者,音訊解碼器可經組配以基於可由低頻解碼裝置920提供音訊內容之解碼低頻部分偵測清擦音或塞擦音之起段或清擦音或塞擦音之訖段。因此,音訊解碼器900可決定時間解析度以類似於上文所描述之音訊編碼器之方式用於頻寬擴展。在此類情況下,可能甚至無需使用任何額外旁側資訊來信號傳遞將用於頻寬擴展的時間解析度,此有助於降低位元率。
有關音訊解碼器900之功能性,應注意,功能性對應於根據圖1之音訊編碼器100及根據圖8之音訊編碼器800之功能性。換言之,在不存在清擦音或塞擦音之起段或不存在清擦音或塞擦音之訖段的情況下,以「正常的」或相對「低的」時間解析度執行頻寬擴展,而在存在清擦音或塞擦音之起段或存在清擦音或塞擦音之訖段的情況下,以「提高的」或相對「高的」時間解析度執行頻寬擴展。
然而,至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,亦可使用提高的時間解析度執行頻寬擴展,以使得以頻寬擴展之高的時間解析度處理清擦音或塞擦音之整個起段。因此,假影可得以避免。
4. 根據圖10之音訊解碼器
圖10展示根據本發明另一實施例之音訊解碼器的方塊示意圖。
音訊解碼器1000經組配以接收編碼音訊資訊1010,且基於編碼音訊資訊1010提供解碼音訊資訊1012。音訊解碼器包含低頻解碼裝置1020,該低頻解碼裝置1020可實質上等同於上文所描述之低頻解碼裝置920。音訊解碼器1000包含頻寬擴展裝置1030,該頻寬擴展裝置1030可實質上等同於上文所描述之頻寬擴展裝置930。然而,音訊解碼器1000經組配以基於音訊編碼器所提供之頻寬擴展資訊1032執行頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。因此,音訊解碼器1000提供以良好準確性表示清擦音或塞擦音之訖段的解碼音訊資訊。因此,假影得以避免。
此外,應注意,上文關於音訊解碼器900所提供之解釋亦應用至音訊解碼器1000。另外,應注意,音訊解碼器1000可補充有關於音訊解碼器900所描述之特徵及功
能性中之任何特徵及功能性。此外,音訊解碼器1000(以及音訊解碼器900)可補充有本文關於音訊解碼器所描述之特徵及功能性中之任何特徵及功能性,因為音訊解碼對應於上文所描述之音訊編碼。
5. 根據請求項11之系統
圖11展示根據本發明實施例之系統的方塊示意圖。系統1100包含音訊編碼器1120,該音訊編碼器1120經組配以接收輸入音訊資訊1110,且基於輸入音訊資訊1110提供編碼音訊資訊1130至音訊解碼器1140。音訊解碼器1140經組配以基於編碼音訊資訊1130提供解碼音訊資訊1150。
然而,應注意,音訊編碼器1120可等同於關於圖1所描述之音訊編碼器100或等同於關於圖8所描述之音訊編碼器800。此外,音訊解碼器1140可等同於關於圖9所描述之音訊解碼器900或等同於關於圖10所描述之音訊解碼器1000。因此,音訊解碼器可經組配以接收音訊編碼器所提供之編碼音訊資訊,且基於編碼音訊資訊提供解碼音訊資訊1150,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展,及/或以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。因此,可達成清擦音或塞擦音之
良好品質重現。
應注意,系統可補充有上文關於音訊編碼器及音訊解碼器所描述之特徵及功能性中之任何特徵及功能性。
6. 根據圖12之基於輸入音訊資訊提供編碼音訊資訊的方法
圖12展示基於輸入音訊資訊提供編碼音訊資訊的方法的流程圖。根據圖12之方法1200包含偵測清擦音或塞擦音之起段及/或清擦音或塞擦音之訖段(步驟1210)。方法亦包含使用可變時間解析度提供1220頻寬擴展資訊。用於提供頻寬擴展資訊的時間解析度可例如經調整以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度提供頻寬擴展資訊。或者,用於提供頻寬擴展資訊的時間解析度可經調整以使得回應於偵測到清擦音或塞擦音之訖段,以提高的時間解析度提供頻寬擴展資訊。
根據圖12之方法1200基於與上文所描述之音訊編碼器相同之考慮。此外,方法1200可補充有本文關於音訊編碼器(及亦關於音訊解碼器)所描述之特徵及功能性中之任何特徵及功能性。
7. 根據請求項13之提供解碼音訊資訊的方法
圖13展示根據本發明實施例之提供解碼音訊資訊的方法的流程圖。方法1300包含解碼1310音訊資訊之低頻部分,然而此部分並非方法之重要步驟。
方法1300亦包含基於音訊編碼器所提供之頻寬擴展資訊執行1320頻寬擴展,以使得至少針對偵測到清擦音或塞擦音之起段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之起段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展,及/或以使得至少針對偵測到清擦音或塞擦音之訖段的時間之前的預定時間週期及針對偵測到清擦音或塞擦音之訖段的時間之後的預定時間週期,以提高的時間解析度執行頻寬擴展。
方法1300基於與上文所描述之音訊編碼器及上文所描述之音訊解碼器相同之考慮。此外,應注意,方法1300可補充有本文關於音訊解碼器所描述之特徵及功能性中之任何特徵及功能性。此外,應注意,慮及解碼過程實質上與編碼過程相反,方法1300亦可補充有關於音訊編碼器所描述之特徵及功能性中之任何特徵及功能性。
8. 結論
從上文解釋得到如下結論,應注意,根據本發明之實施例係關於語音編碼,且特定而言,係關於使用頻寬擴展(BWE)技術之語音編碼。根據本發明之實施例旨在藉由偵測語音信號內之清擦音或塞擦音並相應地調適頻寬擴展參數驅動式後處理的時間解析度(例如,藉由調適用於提供頻寬擴展資訊之集合的時間解析度)而增強解碼信號之感覺品質。根據本發明之實施例包含偵測語音信號之清擦音或塞擦音信號部分的起段及訖段,並在該等清擦音或塞擦音信號部分的整個起段及訖段期間提供時間上細粒式頻
寬擴展後處理(其中頻寬擴展處理可例如包含在音訊編碼器旁側提供該頻寬擴展資訊,且可包含在音訊解碼器旁側執行頻寬擴展)。藉此,出現前回聲及後回聲假影之機會減小,且可以細粒式頻寬擴展參數建立清擦音或塞擦音信號部分之起段及訖段的足夠平緩的模型。藉此,清擦音或塞擦音之不良聽覺尖銳度及在編碼信號內出現惱人之前回聲及後回聲的情況得以避免。
根據本發明之實施例優於習知解決方案。舉例而言,[1]中提出將頻寬擴展參數訊框之開始時間瞬時與頻譜傾斜改變的時間點對準。頻譜傾斜改變可能表示清擦音或塞擦音信號部分的起段或突發訖段。[1]中提出之對準技術防止在頻寬擴展方法內出現清擦音或塞擦音之前回聲。然而,僅偵測到清擦音或塞擦音起段且訖段被漏失。另外,上文提及之技術並未慮及個別清擦音或塞擦音之起段及訖段頻譜時間特徵的細粒式建模。因此,此等清擦音或塞擦音之起段及訖段的聲音可能會刺耳且相當尖銳。
下文將描述根據本發明之某些實施例及態樣。
舉例而言,本發明之頻寬擴展編碼器包含清擦音或塞擦音偵測器及頻寬擴展頻譜時間解析度切換器。
清擦音或塞擦音偵測器較佳能夠偵測清擦音或塞擦音起段及訖段。此類偵測器之適當之低計算複雜性實現方法可例如基於越零率(ZCR)及能量比之評估(有關細節,例如參閱參考文獻[2]及[3])。偵測器可額外連接至語音/音樂鑑別器,以便將後續的本發明處理僅限制為語音信
號。
在某些實施例中,偵測器之特定時間先行係所要或甚至要求的,從而能夠及時切換頻寬擴展解析度,以使得在整個起段及訖段信號部分長度期間,細粒式時間解析度用於頻寬擴展參數估計/合成中。起段或訖段信號部分之持續時間可適應性地量測信號得到,或者假設固定為經驗性判定值。舉例而言,回應於偵測到清擦音或塞擦音起段或清擦音或塞擦音訖段而以高的時間解析度處理的時間間隔或子時間間隔之數目可為預定的,或取決於信號特徵而調整。舉例而言,偵測到之清擦音或塞擦音可在若干連續信號訊框(例如,兩個或三個訊框)之群組期間啟動高四倍的時間解析度,該群組完全覆蓋偵測到之清擦音或塞擦音起段或訖段。較佳地,但並非必須,高的時間解析度信號訊框之群組近似以偵測到之清擦音或塞擦音起段或訖段為中心,從而覆蓋起段或訖段之整個持續時間。在瞬時適應性頻寬擴展定框的情況下,由清擦音或塞擦音偵測所觸發之信號訊框之整個群組期間啟動較高時間解析度替代瞬時適應性定框。
下文將論述有關諸圖之某些細節。
圖2展示原始語音信號的光譜圖,其中洋紅色垂直虛線條描繪習知頻寬擴展定框。黑色虛線條表示清擦音或塞擦音邊界。
圖3展示以本發明頻寬擴展定框之原始語音信號的光譜圖,該定框適於黑色垂直實線所指示之清擦音或塞
擦音邊界。在已偵測到清擦音或塞擦音邊界(起段或訖段)的時間點,藉由在三個連續訊框之群組期間切換至高四倍的解析度而細化頻寬擴展後處理的解析度。
圖4描繪使用習知頻寬擴展定框編碼之相同語音信號的所得光譜圖。黃色橢圓指示習知頻寬擴展定框所引起之假影(自左至右):A:前回聲及強烈起段;B:後回聲及強烈訖段;C:歸因於過於粗略之定框,自前一元音洩漏至建模之清擦音或塞擦音的能量洩漏。
圖5描繪使用本發明頻寬擴展定框編碼之相同語音信號的所得光譜圖。圖4中所指示之問題區域得以實質上改進。
結論如下,本文所論述之光譜圖指示音訊品質可藉由應用根據本發明之概念而得以實質上改進。
進一步結論如下,根據本發明之實施例創建一種音訊編碼器,或一種音訊編碼方法,或一種相關電腦程式,如上文所描述。
根據本發明之其他實施例創建一種音訊解碼器,或一種音訊解碼方法,或一種相關電腦程式,如上文所描述。
此外,根據本發明之實施例創建一種編碼音訊信號或上面儲存有編碼音訊信號之儲存媒體,如上文所描述。
9. 實行方案替代
儘管已就設備之情境描述某些態樣,應明瞭,該等態樣亦表示對應方法之描述,其中方塊或裝置對應於方
法步驟或方法步驟之特徵。類似地,就方法步驟之情境描述之態樣亦表示對應方塊或項目或對應設備之特徵。方法步驟中之某些或全部可由(或使用)硬體設備執行,例如微處理器、可規劃電腦或電子電路。在某些實施例中,最重要之方法步驟中之某些一或多個可由此類設備執行。
本發明之編碼音訊信號可儲存在數位儲存媒體或可在傳輸媒體上傳輸,諸如無線傳輸媒體或有線傳輸媒體,諸如網際網路。
取決於特定實行方案要求,本發明之實施例可實施於硬體或軟體。可使用數位儲存媒體執行實行方案,例如上面儲存有電子可讀取控制信號的軟磁盤、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,該等信號與可規劃電腦系統協作(或能夠與之協作)以便執行個別方法。因此,數位儲存媒體可為電腦可讀取的。
根據本發明之某些實施例包含具有電子可讀取控制信號的資料載體,該等信號能夠與可規劃電腦系統協作,以便執行本文所描述之方法中之一者。
通常,本發明之實施例可實施為帶有程式碼之電腦程式產品,該程式碼可操作以當電腦程式產品在電腦上運行時執行上述方法中之一者。程式碼可例如儲存在機器可讀取載體上。
其他實施例包含用於執行本文所描述之方法中之一者的電腦程式,該電腦程式儲存在機器可讀取載體上。
換言之,因此,本發明方法之實施例為一種具有
程式碼的電腦程式,該程式碼用於當電腦程式在電腦上運行時執行本文所描述之方法中之一者。
因此,本發明方法之另一實施例為一種包含記錄在上面的電腦程式的資料載體(或數位儲存媒體或電腦可讀取媒體),該電腦程式用於執行本文中所描述之方法中之一者。資料載體、數位儲存媒體或記錄媒體通常為有形的及/或非暫時性的。
因此,本發明方法之另一實施例為一種表示用於執行本文中所描述之方法中之一者的電腦程式的資料串流或信號序列。資料串流或信號序列可例如經組配以經由通訊連接傳遞,例如經由網際網路。
另一實施例包含處理構件,例如電腦或可規劃邏輯裝置,該構件經組配以或適於執行本文所描述之方法中之一者。
另一實施例包含一種上面安裝有電腦程式的電腦,該電腦程式用於執行本文所描述之方法中之一者。
根據本發明之另一實施例包含一種經組配以將用於執行本文所描述之方法中之一者的電腦程式傳遞(例如,電子地或光學地)至接收器的設備或系統。接收器可例如為電腦、行動裝置、記憶體裝置或類似裝置。設備或系統可例如包含用於將電腦程式傳遞至接收器的檔案伺服器。
在某些實施例中,可規劃邏輯裝置(例如,現場可規劃閘陣列)可用於執行本文所描述之方法之功能性中
之某些或全部。在某些實施例中,現場可規劃閘陣列可與微處理器協作,以便執行本文所描述之方法中之一者。通常,方法較佳由任何硬體設備執行。
本文所描述之設備可使用硬體設備或使用電腦或使用硬體設備與電腦之組合實施。
本文所描述之方法可使用硬體設備或使用電腦或使用硬體設備與電腦之組合執行。
針對本發明之原理,上文所描述之實施僅為例示性的。應理解,熟習此項技術者將瞭解本文所描述之佈置及細節的修改及變化。因此,本發明旨在僅限於待決專利申請專利範圍之範疇,而不限於以實例方式呈現之本文實施例之描述及解釋的具體細節。
參考文獻:
[1] 美國專利第US 20110099018號,「用於使用頻譜傾斜受控式定框計算頻寬擴展資料的設備及方法(Apparatus and Method for Calculating Bandwidth Extension Data Using a Spectral Tilt Controlled Framing)」
[2] D. Ruinskiy及N. Dadush及Y. Lavner,「用於清擦音及塞擦音之自動偵測之基於頻譜及紋理特徵的系統(Spectral and textural feature-based system for automatic detection of fricatives and affricates)」,2010年在以色列舉行之第26界電子電機工程師大會(IEEEI),第771-775頁。
[3] H. Fujihara及M. Goto,「三種用於改進音樂與歌詞之間之自動同步化的技術:清擦音偵測、填充模型及
用於聲帶活動偵測之新穎特徵向量(Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection)」,2008年在美國芝加哥舉行之關於音訊、語音及信號處理之IEEE國際大會。
100‧‧‧音訊編碼器
110‧‧‧輸入音訊資訊
112‧‧‧編碼音訊資訊
120‧‧‧偵測器
122‧‧‧時間解析度調整資訊
130‧‧‧頻寬擴展資訊提供器
132‧‧‧頻寬擴展資訊
140‧‧‧低頻編碼裝置
142‧‧‧編碼表示
Claims (21)
- 一種基於一輸入音訊資訊提供一編碼音訊資訊的音訊編碼器,該音訊編碼器包含:一頻寬擴展資訊提供器,其經組配以使用一可變時間解析度提供頻寬擴展資訊;一偵測器,其經組配以偵測一清擦音或塞擦音之一起段;其中該音訊編碼器經組配以調整由該頻寬擴展資訊提供器所使用之一時間解析度,以使得至少針對偵測到一清擦音或塞擦音之一起段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該起段之該時間之後的一預定時間週期,以一提高的時間解析度提供頻寬擴展資訊;其中該頻寬擴展資訊提供器經組配以提供該頻寬擴展資訊,使得該頻寬擴展資訊與具有相等時間長度的時間上規則的時間間隔相關聯,其中該頻寬擴展資訊提供器經組配以若使用一第一時間解析度,則針對具有一給定時間長度之一時間間隔提供一單一個頻寬擴展資訊集合,以及其中該頻寬擴展資訊提供器經組配以若使用一第二時間解析度,則針對具有該給定時間長度之一時間間隔提供與時間子間隔相關聯之多個頻寬擴展資訊集合;其中該音訊編碼器經組配以調整由該頻寬擴展資 訊提供器所使用之一時間解析度,使得與一頻寬擴展資訊集合相關聯的至少一個時間子間隔緊接在另一時間子間隔之前,該另一時間子間隔與另一頻寬擴展資訊集合相關聯且在該另一時間子間隔期間偵測到一清擦音或塞擦音之一起段,使得在偵測到一清擦音或塞擦音之一起段的該時間子間隔之前的至少一個時間子間隔中使用該提高的時間解析度。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以響應於該偵測到一清擦音或塞擦音之該起段,自用於該提供該頻寬擴展資訊之一第一時間解析度切換至用於該提供該頻寬擴展資訊之一第二時間解析度,其中該第二時間解析度高於該第一時間解析度。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以若針對具有該給定時間長度之該給定時間間隔使用一提高的時間解析度提供該頻寬擴展資訊,則將具有該給定時間長度之一給定時間間隔細分為具有相等長度之四個子間隔,以使得針對具有該給定時間長度之該給定時間間隔提供四個頻寬擴展資訊集合。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以針對具有該給定時間長度之一第二時間間隔之前的具有一給定時間長度之一第一時間間隔,選擇性地使用一提高的時間解析度提 供頻寬擴展資訊,若在該第二時間間隔內偵測到一清擦音或塞擦音之一起段且若偵測到該清擦音或塞擦音之該起段的一時間與該第一時間間隔與該第二時間間隔之間的一邊界之間的一時間距離小於一預定時間距離。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以執行一時間先行,以使得響應於在該第二時間間隔內偵測到一清擦音或塞擦音之一起段,針對具有該給定時間長度之一第二時間間隔之前的具有一給定時間長度之一第一時間間隔,使用一提高的時間解析度提供頻寬擴展資訊。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得至少針對偵測到一清擦音或塞擦音之一起段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該起段之該時間之後的一預定時間週期,以一相同之提高的時間解析度提供頻寬擴展資訊。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得至少針對一第一時間子間隔、一第二時間子間隔及一第三時間子間隔,以相同之提高的時間解析度提供頻寬擴展資訊之集合,其中該第一時間子間隔緊接在該第二時間子間隔 之前;其中在該第二時間子間隔內偵測到一清擦音或塞擦音之一起段;以及其中該第三時間子間隔緊跟在該第二時間子間隔之後。
- 如請求項1之音訊編碼器,其中該偵測器經組配以偵測一清擦音或塞擦音之一訖段;以及其中該音訊編碼器經組配以調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得至少針對偵測到一清擦音或塞擦音之一訖段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該訖段之該時間之後的一預定時間週期,以一提高的時間解析度提供頻寬擴展資訊。
- 如請求項1之音訊編碼器,其中該偵測器經組配以評估一越零率,及/或一能量比及/或一頻譜傾斜,以便偵測一清擦音或塞擦音之一起段。
- 如請求項1之音訊編碼器,其中該偵測器經組配以評估一越零率,及/或一能量比及/或一頻譜傾斜,以便偵測一清擦音或塞擦音之一訖段。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以選擇性地調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得僅針對一語音信號部分而並非一音樂信號部分,響應於偵測到一清擦音或塞擦音之一起段,以 一提高的時間解析度提供頻寬擴展資訊。
- 如請求項1之音訊編碼器,其中該音訊編碼器經組配以響應於偵測到一清擦音或塞擦音之一起段或響應於偵測到一清擦音或塞擦音之一訖段,針對覆蓋偵測到一清擦音或塞擦音之一起段之一時間的多個後續時間間隔,選擇性地使用一提高的時間解析度提供頻寬擴展資訊。
- 如請求項12之音訊編碼器,其中該音訊編碼器經組配以針對完全覆蓋一偵測到之清擦音或塞擦音之一起段的多個後續時間間隔,選擇性地使用一提高的時間解析度提供頻寬擴展資訊。
- 一種基於一輸入音訊資訊提供一編碼音訊資訊的音訊編碼器,該音訊編碼器包含:一頻寬擴展資訊提供器,其經組配以使用一可變時間解析度提供頻寬擴展資訊;一偵測器,其經組配以偵測一清擦音或塞擦音之一訖段;其中該音訊編碼器經組配以調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得響應於偵測到一清擦音或塞擦音之一訖段,以一提高的時間解析度提供頻寬擴展資訊。
- 如請求項14之音訊編碼器,其中該音訊編碼器經組配以調整該頻寬擴展資訊提供器所使用之一時間解析度,以使得至少針對偵測到 一清擦音或塞擦音之一訖段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該訖段之該時間之後的一預定時間週期,以一提高的時間解析度提供頻寬擴展資訊。
- 一種基於一編碼音訊資訊提供一解碼音訊資訊的音訊解碼器,其中該音訊解碼器經組配以基於一音訊編碼器所提供之一頻寬擴展資訊執行一頻寬擴展,以使得至少針對偵測到一清擦音或塞擦音之一訖段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該訖段之該時間之後的一預定時間週期,以一提高的時間解析度執行該頻寬擴展。
- 一種用於音訊處理之系統,包含:一如請求項1至15中之一項之音訊編碼器;以及一音訊解碼器,其經組配以接收該音訊編碼器所提供之該編碼音訊資訊,且基於該編碼音訊資訊提供一解碼音訊資訊,其中該音訊解碼器經組配以基於該音訊編碼器所提供之該頻寬擴展資訊執行一頻寬擴展,以使得至少針對偵測到一清擦音或塞擦音之一起段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該起段之該時間之後的一預定時間週期,以一提高的時間解析度執行該頻寬擴展,或以使得至少針對偵測到一清擦音或塞擦音之一訖 段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該訖段之該時間之後的一預定時間週期,以一提高的時間解析度執行該頻寬擴展。
- 一種基於一輸入音訊資訊提供一編碼音訊資訊的方法,該方法包含:使用一可變時間解析度提供頻寬擴展資訊;以及偵測一清擦音或塞擦音之一起段;其中用於提供該頻寬擴展資訊之一時間解析度經調整以使得至少針對偵測到一清擦音或塞擦音之一起段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該起段之該時間之後的一預定時間週期,以一提高的時間解析度提供頻寬擴展資訊;其中該頻寬擴展資訊係提供來使得該頻寬擴展資訊與具有相等時間長度的時間上規則的時間間隔相關聯,其中若使用一第一時間解析度,則針對具有一給定時間長度之一時間間隔提供一單一頻寬擴展資訊集合,以及其中若使用一第二時間解析度,則針對具有該給定時間長度之一時間間隔提供與時間子間隔相關聯之多個頻寬擴展資訊集合;其中一使用之時間解析度係經調整使得與一頻寬擴展資訊集合相關聯的至少一個時間子間隔緊接在另一時間子間隔之前,該另一時間子間隔與另一頻寬擴展 資訊集合相關聯且在該另一時間子間隔期間偵測到一清擦音或塞擦音之一起段,使得在偵測到一清擦音或塞擦音之一起段的該時間子間隔之前的至少一個時間子間隔中使用該提高的時間解析度。
- 一種基於一輸入音訊資訊提供一編碼音訊資訊的方法,該方法包含:使用一可變時間解析度提供頻寬擴展資訊;以及偵測一清擦音或塞擦音之一訖段;其中用於提供該頻寬擴展資訊之一時間解析度經調整以使得響應於偵測到一清擦音或塞擦音之一訖段,以一提高的時間解析度提供頻寬擴展資訊。
- 一種基於一編碼音訊資訊提供一解碼音訊資訊的方法,其中該方法包含基於一音訊編碼器所提供之一頻寬擴展資訊執行一頻寬擴展,以使得至少針對偵測到一清擦音或塞擦音之一訖段之一時間之前的一預定時間週期及針對偵測到該清擦音或塞擦音之該訖段之該時間之後的一預定時間週期,以一提高的時間解析度執行該頻寬擴展。
- 一種用於音訊處理之電腦程式,當該電腦程式在一電腦上運行時執行如請求項18至20中之一項之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758078P | 2013-01-29 | 2013-01-29 | |
PCT/EP2014/051635 WO2014118179A1 (en) | 2013-01-29 | 2014-01-28 | Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201443879A TW201443879A (zh) | 2014-11-16 |
TWI544480B true TWI544480B (zh) | 2016-08-01 |
Family
ID=50033506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103103526A TWI544480B (zh) | 2013-01-29 | 2014-01-29 | 于清擦音或塞擦音起段或迄段之時間性近處使用提高的時間解析度之音訊編碼器、音訊解碼器、系統、方法及電腦程式 |
Country Status (18)
Country | Link |
---|---|
US (2) | US10438596B2 (zh) |
EP (4) | EP2951815B1 (zh) |
JP (1) | JP6218855B2 (zh) |
KR (1) | KR101804649B1 (zh) |
CN (2) | CN105190748B (zh) |
AR (1) | AR094674A1 (zh) |
AU (1) | AU2014211474B2 (zh) |
BR (1) | BR112015018019B1 (zh) |
CA (2) | CA2899540C (zh) |
ES (2) | ES2659001T3 (zh) |
HK (2) | HK1218178A1 (zh) |
MX (1) | MX348916B (zh) |
PL (2) | PL2951815T3 (zh) |
PT (2) | PT2951815T (zh) |
RU (1) | RU2651425C2 (zh) |
SG (1) | SG11201505920RA (zh) |
TW (1) | TWI544480B (zh) |
WO (1) | WO2014118179A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
US10157621B2 (en) * | 2016-03-18 | 2018-12-18 | Qualcomm Incorporated | Audio signal decoding |
WO2018201112A1 (en) * | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
US11430464B2 (en) | 2018-01-17 | 2022-08-30 | Nippon Telegraph And Telephone Corporation | Decoding apparatus, encoding apparatus, and methods and programs therefor |
EP3742441B1 (en) * | 2018-01-17 | 2023-04-12 | Nippon Telegraph And Telephone Corporation | Encoding device, decoding device, fricative determination device, and method and program thereof |
US11575407B2 (en) | 2020-04-27 | 2023-02-07 | Parsons Corporation | Narrowband IQ signal obfuscation |
EP4171065A4 (en) * | 2020-06-22 | 2023-12-13 | Sony Group Corporation | SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM |
WO2022150804A1 (en) * | 2021-01-05 | 2022-07-14 | Parsons Corporation | Method and system for time axis correlation of pulsed electromagnetic transmissions |
US11849347B2 (en) | 2021-01-05 | 2023-12-19 | Parsons Corporation | Time axis correlation of pulsed electromagnetic transmissions |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JPH10124088A (ja) * | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
SE9903552D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
ATE389934T1 (de) * | 2003-01-24 | 2008-04-15 | Sony Ericsson Mobile Comm Ab | Rauschreduzierung und audiovisuelle sprachaktivitätsdetektion |
WO2004084181A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Simple noise suppression model |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
US20050215239A1 (en) * | 2004-03-26 | 2005-09-29 | Nokia Corporation | Feature extraction in a networked portable device |
US8712768B2 (en) * | 2004-05-25 | 2014-04-29 | Nokia Corporation | System and method for enhanced artificial bandwidth expansion |
US7895034B2 (en) | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US8744862B2 (en) | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
DE602006009927D1 (de) * | 2006-08-22 | 2009-12-03 | Harman Becker Automotive Sys | Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
PT2186090T (pt) * | 2007-08-27 | 2017-03-07 | ERICSSON TELEFON AB L M (publ) | Detetor de transitórios e método para suportar codificação de um sinal de áudio |
US8373338B2 (en) | 2008-10-22 | 2013-02-12 | General Electric Company | Enhanced color contrast light source at elevated color temperatures |
WO2010003545A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | An apparatus and a method for decoding an encoded audio signal |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
CA2729971C (en) * | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | An apparatus and a method for calculating a number of spectral envelopes |
JP5010743B2 (ja) * | 2008-07-11 | 2012-08-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法 |
EP2224433B1 (en) * | 2008-09-25 | 2020-05-27 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
MX2011003824A (es) * | 2008-10-08 | 2011-05-02 | Fraunhofer Ges Forschung | Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple. |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
US9159337B2 (en) * | 2009-10-21 | 2015-10-13 | Dolby International Ab | Apparatus and method for generating a high frequency audio signal using adaptive oversampling |
EP2362376A3 (en) * | 2010-02-26 | 2011-11-02 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using envelope shaping |
CN102419977B (zh) * | 2011-01-14 | 2013-10-02 | 展讯通信(上海)有限公司 | 瞬态音频信号的判别方法 |
EP2721610A1 (en) * | 2011-11-25 | 2014-04-23 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
-
2014
- 2014-01-28 KR KR1020157023517A patent/KR101804649B1/ko active IP Right Grant
- 2014-01-28 EP EP14702516.7A patent/EP2951815B1/en active Active
- 2014-01-28 PT PT147025167T patent/PT2951815T/pt unknown
- 2014-01-28 PL PL14702516T patent/PL2951815T3/pl unknown
- 2014-01-28 ES ES14702516.7T patent/ES2659001T3/es active Active
- 2014-01-28 RU RU2015136773A patent/RU2651425C2/ru active
- 2014-01-28 PL PL17191504T patent/PL3279894T3/pl unknown
- 2014-01-28 MX MX2015009754A patent/MX348916B/es active IP Right Grant
- 2014-01-28 WO PCT/EP2014/051635 patent/WO2014118179A1/en active Application Filing
- 2014-01-28 EP EP20159123.7A patent/EP3680899B1/en active Active
- 2014-01-28 SG SG11201505920RA patent/SG11201505920RA/en unknown
- 2014-01-28 BR BR112015018019-1A patent/BR112015018019B1/pt active IP Right Grant
- 2014-01-28 EP EP24153288.6A patent/EP4336501A3/en active Pending
- 2014-01-28 EP EP17191504.4A patent/EP3279894B1/en active Active
- 2014-01-28 ES ES17191504T patent/ES2790733T3/es active Active
- 2014-01-28 CA CA2899540A patent/CA2899540C/en active Active
- 2014-01-28 CA CA2961336A patent/CA2961336C/en active Active
- 2014-01-28 PT PT171915044T patent/PT3279894T/pt unknown
- 2014-01-28 AU AU2014211474A patent/AU2014211474B2/en active Active
- 2014-01-28 CN CN201480018073.1A patent/CN105190748B/zh active Active
- 2014-01-28 JP JP2015554198A patent/JP6218855B2/ja active Active
- 2014-01-28 CN CN201910955621.8A patent/CN110853667B/zh active Active
- 2014-01-29 TW TW103103526A patent/TWI544480B/zh active
- 2014-01-29 AR ARP140100290A patent/AR094674A1/es active IP Right Grant
-
2015
- 2015-07-29 US US14/812,636 patent/US10438596B2/en active Active
-
2016
- 2016-05-27 HK HK16106049.0A patent/HK1218178A1/zh unknown
-
2018
- 2018-08-03 HK HK18110014.1A patent/HK1250834A1/zh unknown
-
2019
- 2019-08-12 US US16/538,500 patent/US11205434B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI544480B (zh) | 于清擦音或塞擦音起段或迄段之時間性近處使用提高的時間解析度之音訊編碼器、音訊解碼器、系統、方法及電腦程式 | |
CA2985115C (en) | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension | |
CA2928974C (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
CA2984562C (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
RU2676870C1 (ru) | Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора | |
TWI541798B (zh) | 用於編碼模式切換補償之技術 | |
KR20200083565A (ko) | 피치 지연 선택 |