JPWO2009038158A1 - 音声復号装置、音声復号方法、プログラム及び携帯端末 - Google Patents
音声復号装置、音声復号方法、プログラム及び携帯端末 Download PDFInfo
- Publication number
- JPWO2009038158A1 JPWO2009038158A1 JP2009533189A JP2009533189A JPWO2009038158A1 JP WO2009038158 A1 JPWO2009038158 A1 JP WO2009038158A1 JP 2009533189 A JP2009533189 A JP 2009533189A JP 2009533189 A JP2009533189 A JP 2009533189A JP WO2009038158 A1 JPWO2009038158 A1 JP WO2009038158A1
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech decoding
- frequency
- unit
- unnecessary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
Abstract
高効率の音声符号化方式で携帯端末に対し、音楽やメロディの配信を行う際の音質の劣化を軽減する。音声復号装置は、圧縮符号化された入力ビットストリームを復号し出力する音声復号化処理部110と、前記音声復号部の出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部120と、復号信号の特徴を分析し、前記周波数変換部に出力するか、前記音声復号化処理部の出力をそのまま出力するかを判別する切替部250_1、250_2と、を備える(図1)。
Description
(関連出願についての記載)
本願は、先の日本特許出願2007−245546号(2007年9月21日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声符号化方式で伝送される音楽信号やメロディ信号等の音質を改善できる音声復号装置、音声復号方法、プログラム及び携帯端末に関する。
本願は、先の日本特許出願2007−245546号(2007年9月21日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、音声符号化方式で伝送される音楽信号やメロディ信号等の音質を改善できる音声復号装置、音声復号方法、プログラム及び携帯端末に関する。
近年、携帯端末に音楽やメロディを配信するサービスが普及化してきている。例えば、携帯電話で相手に電話したときに相手が出るまでの待ち受け時に、リングバックメロディとして網側に用意した音声処理装置から携帯電話に音楽信号を流したり、音声処理装置から音楽コンテンツを携帯電話に配信するサービス等が挙げられる。
こうしたサービスを実現する場合、再生機器となる携帯端末に搭載されている音声符号化方式(例えば、非特許文献1のAMR符号化方式)と同一の方式を用いて、音楽信号や音楽コンテンツを予め圧縮符号化したビットストリームで配信することになる。
上記音楽信号や音楽コンテンツを対象としたものではないが、音質の改善を試みる文献として、特許文献1が挙げられる。特許文献1には、符号化された複数の調波の振幅と位相を入力して復号し、該復号された調波が他の調波により聴覚的にマスキングされる調波である場合にその調波の振幅を抑圧する振幅部分抑圧手段を備えた音声復号化装置が開示されている。なお、同文献には、復号後の再生信号の特徴に基づき、振幅部分抑圧手段を動作させるか否かを切り替える構成は開示されていない。
また、特許文献2には、入力音声が非音声信号であるか否かを判別する判別手段と、判別結果により聴感補正フィルタを通過させるか否かを選択する経路選択手段と、を備えた音声符号化装置及び音声復号化装置が開示されている。また、同文献の非音声信号とは、データ信号のことを指しており、入力信号が非音声(データ信号)である場合に、聴感補正フィルタを経由せず、その他の音声は聴感補正フィルタを経由して出力する構成となっている(段落0032、0099参照)。
以上の特許文献1〜2及び非特許文献1〜4の全開示内容は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
上記AMR符号化方式等のCELP(Code Excitation Linear Prediction)型音声符号化方式は、原理的に通話音声に対して最適化してあり、音声信号を圧縮符号化しても音質の劣化はわずかであるが、音楽信号を圧縮符号化すると音質が大幅に劣化してしまう。このため、これらの音声符号化方式にてメロディや音楽コンテンツを配信すると、携帯端末での再生時に音質が大幅に劣化するという問題点がある。
上記AMR符号化方式等のCELP(Code Excitation Linear Prediction)型音声符号化方式は、原理的に通話音声に対して最適化してあり、音声信号を圧縮符号化しても音質の劣化はわずかであるが、音楽信号を圧縮符号化すると音質が大幅に劣化してしまう。このため、これらの音声符号化方式にてメロディや音楽コンテンツを配信すると、携帯端末での再生時に音質が大幅に劣化するという問題点がある。
これは、音声信号に対して最適化された音声符号化方式では、モデル化できない音楽信号の成分が圧縮符号化により雑音となって再生信号に重畳し、この雑音が耳につくためと考えられる。
本発明は、上述した問題点に鑑みてなされたものであって、音声符号化方式で圧縮符号化したビットストリームにより配信された音楽やメロディを復号し、出力する際の音質の劣化を軽減することのできる音声復号装置、音声復号方法、プログラム及び携帯端末を提供することにある。
本発明の第1の視点によれば、圧縮符号化された入力ビットストリームを復号し出力する音声復号部と、前記音声復号部の出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、前記復号信号の特徴を分析し、前記聴覚マスキング整形処理部に出力するか、前記音声復号部の出力をそのまま出力するかを判別する切替部と、を備える音声復号装置が提供される。
本発明の第2の視点によれば、音声復号装置が、圧縮符号化された入力ビットストリームを復号し、前記音声復号装置が、前記復号した信号の特徴を分析し、前記復号した信号が音楽信号の特徴を有する場合に、前記音声復号装置が、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する音声復号方法が提供される。
本発明の第3の視点によれば、圧縮符号化された入力ビットストリームを復号する復号処理と、前記復号した信号の特徴を分析する処理と、前記復号した信号が音楽信号の特徴を有する場合、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する処理と、を前記コンピュータに実行させるプログラムが提供される。
本発明の第4の視点によれば、上記した音声復号装置を搭載した携帯端末が提供される。
本発明によれば、音声符号化方式で圧縮符号化され配信されたビットストリームを復号し、音声出力した際の音質の劣化を軽減することができる。その理由は、聴覚的に不要な成分や劣化の原因となる成分を除去する復号後処理を追加したことにある。
100、140 端子
110 音声復号化処理部
120 聴覚マスキング整形処理部
122 周波数変換部
124 平滑化部
126 整形部
128 周波数逆変換部
250_1、250_2 切替部
260 窓掛け加算処理部
110 音声復号化処理部
120 聴覚マスキング整形処理部
122 周波数変換部
124 平滑化部
126 整形部
128 周波数逆変換部
250_1、250_2 切替部
260 窓掛け加算処理部
圧縮符号化された入力ビットストリームを復号し出力する手段と、復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する手段と、前記復号信号の特徴を分析し、前記聴覚的に不要となる信号成分を抑圧するか、前記音声復号部の出力をそのまま出力するかを判別する手段と、を備える音声復号装置は、以下の形態に展開することができる。
前記音声復号装置は、前記入力音声信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧してから出力するよう動作させることができる。
前記聴覚的に不要となる信号成分を抑圧して出力する処理は、復号信号に対し予め定められた時間区間毎に、周波数軸上の高レベルの信号成分(マスカー)の存在により聴覚的に不要となる周波数成分(マスキー)を除去した上で、時間軸上に戻して出力することにより実現できる。
前記聴覚的に不要となる信号成分を抑圧して出力する処理手段は、例えば、入力音声信号より構成したブロックを周波数変換する周波数変換部と、前記周波数変換部の出力信号を平滑化する平滑化部と、前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、により構成することができる。
前記マスキング閾値を用いて前記周波数変換部の出力信号中の不要な周波数成分を除去する方法に代え、あるいは、該方法と併用して、周波数軸上の予め定める個数の周波数成分が残るようレベルの低い周波数成分を除去する方法を用いることができる。
また、予め定める帯域の周波数成分を前記除去対象とすることができる。
前記音声復号装置は、更に、前記聴覚的に不要となる信号成分を抑圧した信号と復号信号とを波形上で窓を掛けて加算する処理を行なう窓掛け加算処理部を備える構成することができる。
続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音声復号装置の構成を示す図である。このような音声復号装置は、冒頭に述べた音楽やメロディの配信サービスを受ける携帯端末に搭載することができる。
図1は、本発明の第1の実施形態に係る音声復号装置の構成を示す図である。このような音声復号装置は、冒頭に述べた音楽やメロディの配信サービスを受ける携帯端末に搭載することができる。
図1を参照すると、音声復号装置は、音声復号化処理部110と、聴覚マスキング整形処理部120と、切替部250_1、250_2と、を備えて構成されている。なお、上記した音声復号化処理部110、聴覚マスキング整形処理部120は、回路による構成はもちろんとして、コンピュータを上記した各処理部として機能させるプログラムによっても実現することができる。
音声復号化処理部110は、端子100から入力されたAMR符号化方式等により圧縮符号化されたビットストリームを復号化し、復号信号を出力する。
切替部250_1は、音声復号化処理部110の出力信号(復号信号)を予め定められた時間間隔に区切って種々の特徴パラメータを抽出し、得られた特徴パラメータに基づいて、聴覚マスキング整形処理を施した方がよいかどうかを判別する。例えば、切替部250_1は、特徴パラメータの値を組み合わせて判断した結果、音楽性が強い(音楽信号の特徴を有する。)と判断した場合は、聴覚マスキング整形処理部120に、音声復号化処理部110の出力信号を出力する。
聴覚マスキング整形処理部120は、前記復号信号に対し周波数軸上で聴覚心理分析に基づく処理を行い、聴覚に影響ないと判断される成分を抑圧した上で時間軸上に戻して出力する。
一方、特徴パラメータの値を組み合わせて判断した結果、音声性が強い(音楽性が弱い)と判断した場合は、切替部250_1は、切替部250_2に音声復号化処理部110の出力信号を出力する。
切替部250_2は、切替部250_1と同期して切り替え動作を行い、聴覚マスキング整形処理部120の出力信号又は音声復号化処理部110の出力信号のいずれかを出力する。
従って、音声復号化処理部110により復号された復号信号、又は、聴覚マスキング整形処理部120において聴覚的に不要な成分を除去した復号信号が、端子140を通して出力される。
続いて、図1の聴覚マスキング整形処理部120の詳細構成について図2を参照して説明する。
図2を参照すると、本実施形態に係る聴覚マスキング整形処理部120は、周波数変換部122と、平滑化部124と、整形部126と、周波数逆変換部128とから構成されている。
周波数変換部122は、図1の音声復号化処理部110から入力された復号信号を、周波数軸上の成分に変換して変換信号を生成し、平滑化部124と整形部126に出力する。
上記変換信号の生成に際して、周波数変換部122は、複数の入力信号サンプルをまとめて、1ブロックを構成し、このブロックに対して周波数変換を適用する。周波数変換の例としては、フーリエ変換、コサイン変換、KL(カルーネンレーベ)変換などを挙げることができる。これらの変換の具体的な演算に関連する技術は、非特許文献2に開示されている。ここで、非特許文献2の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、上記変換信号の生成に際して、周波数変換部122が、1ブロックの入力信号サンプルを窓関数で重み付けする構成も採用可能である。このような窓関数としては、ハミング、ハニング(ハン)、ケイザー、ブラックマンなどの窓関数が知られている。また、さらに複雑な窓関数を用いることもできる。これらの窓関数に関連する技術は、非特許文献3に開示されている。ここで、非特許文献3の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、上記周波数変換部122が入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)が生ずるようにすることもできる。例えば、ブロック長の50%のオーバラップを適用する場合には、あるブロックに属する信号サンプルの最後(後半)50%は、次のブロックに属する信号サンプルの最初(前半)50%となるように、複数のブロックで重複して用いられる。このオーバラップを有するブロック化と変換に関連する技術は、非特許文献3に開示されている。
さらに、上記した周波数変換部122を、複数の帯域通過フィルタから構成され、受信した入力信号を複数の周波数帯域に分割する帯域分割フィルタバンクで構成してもよい。帯域分割フィルタバンクの各周波数帯域は等間隔であってもよいし、不等間隔であってもよい。不等間隔に帯域分割する場合、低域では狭帯域に分割して時間分解能を低く、高域では広い帯域に分割して時間分解能を高くすることができる。不等間隔分割の代表例には、低域に向かって帯域が逐次半分になるオクターブ分割や人間の聴覚特性に対応した臨界帯域分割などがある。帯域分割フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
平滑化部124は、上記した周波数変換部122より入力された変換信号を平滑化し、整形部126に平滑化変換信号を出力する。平滑化の方法としては、非特許文献4に開示されている聴覚マスキング効果を利用する方法を挙げることができる。例えば、ある周波数成分が近傍の周波数成分をマスキングする関数を用いて、変換信号を周波数軸上で畳み込みすることにより、平滑化変換信号を生成することができる。ここで、非特許文献4の全記載内容は、本書に引用をもって繰込み記載されているものとする。
また、簡易的な平滑化方法として、次式[数1]により、S2(n)を算出し、S2(n)のエネルギレベルを下げた信号を平滑化信号としても良い。ここで、max(x,y)はxとyの大きい方を表す。E(n)は変換信号のエネルギであり、Nはブロックサイズである。
[数1]
S1(0)=E(0)
S1(n)=max(E(n),a×S1(n−1)) (n=1,…,N−1)
S2(N−1)=S1(N−1)
S2(n)=max(S1(n),b×S2(n+1)) (n=N−2,…,0)
S1(0)=E(0)
S1(n)=max(E(n),a×S1(n−1)) (n=1,…,N−1)
S2(N−1)=S1(N−1)
S2(n)=max(S1(n),b×S2(n+1)) (n=N−2,…,0)
このように算出した平滑化変換信号は、元の変換信号のエネルギレベルを平滑化したものとなり、マスキング閾値として使用することができる。即ち、このマスキング閾値よりもエネルギレベルの小さな周波数成分は聴覚上認知されないものとして除去対象となる。
整形部126は、平滑化部124から入力された平滑化変換信号を用いて、変換信号を整形する。より具体的には、整形部126は、平滑化変換信号よりもエネルギレベルが小さな周波数成分を除去することにより、変換信号を整形する。
このとき、整形部126は、平滑化変換信号に対する変換信号のエネルギレベル比が大きなものから順に、予め定めた個数の周波数成分のみを残し、他の周波数成分を除去することにより変換信号を整形するようにしても良い。更に、整形部126が、帯域制限として、低域のみ、高域のみ、あるいは低域と高域の両方を除去するようにしても良い。
周波数逆変換部128は、整形された変換信号を逆変換して整形信号を生成し、整形信号を聴覚マスキング整形処理部120の出力信号として出力する。周波数逆変換部128において実行される逆変換は、周波数変換部122が適用する変換と対応する逆変換が選択されることが望ましい。例えば、周波数変換部122が、複数の入力信号サンプルをまとめて1ブロックを構成し、このブロックに対して周波数変換を適用するときには、周波数逆変換部128は同一数のサンプルに対して対応する逆変換を適用する。また、周波数変換部122が複数の入力信号サンプルから1ブロックを構成する際に、各ブロックに重なり(オーバラップ)を許容する場合には、これに対応して、周波数逆変換部128は逆変換後の信号に対して同一のオーバラップを適用する。さらに、周波数変換部122を帯域分割フィルタバンクで構成するときには、周波数逆変換部128を帯域合成フィルタバンクで構成する。帯域合成フィルタバンクとその設計法に関連する技術は、非特許文献3に開示されている。
このようにして生成された整形信号は、上述のように平滑化部124と整形部126により、マスキング効果等の聴覚特性を利用し、聴覚上認知されない信号成分を除去した(聴覚的に不要な成分が除去された)後、時間軸上に戻された信号となる。
したがって、聴覚マスキング整形処理部120における聴覚マスキング整形処理を、AMR符号化方式等の圧縮符号化されたビットストリームの復号信号に適用した場合、聴覚的に不要な成分が除去された整形信号を得ることが可能となる。
つまり、本実施形態によれば、音楽系の信号を的確に捉えて、聴覚マスキング整形処理部120に、音声復号化処理部110の出力信号を入力させることが可能となり、携帯端末での音質の劣化を更に軽減することができる。また、本実施形態によれば、音声性が強い音声信号が聴覚マスキング整形処理部120に入力されることを考慮する必要がなくなるため、聴覚マスキング整形処理部120における処理を、より効率のよいものとすることが可能となる。
[第2の実施形態]
続いて、上記本発明の第1の実施形態に変更を加えた本発明の第2の実施形態について説明する。
続いて、上記本発明の第1の実施形態に変更を加えた本発明の第2の実施形態について説明する。
図3は、本発明の第2の実施形態に係る音声復号装置の構成を示すブロック図である。図3において、図1及び図2と同一の番号を付した構成要素は、図1及び図2と同一の動作を行うので、説明は省略する。
図3において、窓掛け加算処理部260は、聴覚マスキング整形処理部120の出力信号と音声復号化処理部110の出力信号を波形上で窓を掛けて加算する。
以上のとおり、窓掛け加算処理部260を備えた本実施形態によれば、波形が切り替わったときに波形の不連続に起因する異音の発生を防止することが可能となる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
以上、本発明の好適な実施形態を説明したが、本発明は、上記した各実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
[付記1−国際出願時請求項11]
予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声復号方法。
[付記2−国際出願時請求項12]
前記復号信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声復号方法。
[付記3−国際出願時請求項13]
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声復号方法。
[付記4−国際出願時請求項14]
予め定める帯域の周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声復号方法。
[付記5−国際出願時請求項15]
更に、前記聴覚的に不要となる信号成分が抑圧された信号と前記復号信号とを波形上で窓を掛けて加算する処理を行なう請求項9乃至13いずれか一に記載の音声復号方法。
[付記6−国際出願時請求項16]
音声復号装置を構成するコンピュータに実行させるプログラムであって、
圧縮符号化された入力ビットストリームを復号する復号処理と、
前記復号した信号の特徴を分析する処理と、
前記復号した信号が音楽信号の特徴を有する場合、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する処理と、を前記コンピュータに実行させるプログラム。
[付記1−国際出願時請求項11]
予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声復号方法。
[付記2−国際出願時請求項12]
前記復号信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声復号方法。
[付記3−国際出願時請求項13]
周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声復号方法。
[付記4−国際出願時請求項14]
予め定める帯域の周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声復号方法。
[付記5−国際出願時請求項15]
更に、前記聴覚的に不要となる信号成分が抑圧された信号と前記復号信号とを波形上で窓を掛けて加算する処理を行なう請求項9乃至13いずれか一に記載の音声復号方法。
[付記6−国際出願時請求項16]
音声復号装置を構成するコンピュータに実行させるプログラムであって、
圧縮符号化された入力ビットストリームを復号する復号処理と、
前記復号した信号の特徴を分析する処理と、
前記復号した信号が音楽信号の特徴を有する場合、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する処理と、を前記コンピュータに実行させるプログラム。
Claims (16)
- 圧縮符号化された入力ビットストリームを復号し出力する音声復号部と、
前記音声復号部の出力信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する聴覚マスキング整形処理部と、
前記音声復号部の出力信号を分析し、前記聴覚マスキング整形処理部に出力するか、前記音声復号部の出力をそのまま出力するかを判別する切替部と、を備えることを特徴とする音声復号装置。 - 前記切替部は、前記音声復号部の出力信号が音楽信号の特徴を有する場合に、前記聴覚マスキング整形処理部への出力を選択する請求項1に記載の音声復号装置。
- 前記聴覚マスキング整形処理部は、予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力する請求項1又は2に記載の音声復号装置。
- 前記聴覚マスキング整形処理部は、
前記音声復号部の出力信号より構成したブロックを周波数変換する周波数変換部と、
前記周波数変換部の出力信号を平滑化する平滑化部と、
前記平滑化部の出力信号をマスキング閾値として用いて、前記周波数変換部の出力信号中の不要な周波数成分を除去する整形部と、
前記整形部の出力信号を逆変換して整形された信号を出力する周波数逆変換部と、を含むこと、を特徴とする請求項1乃至3いずれか一に記載の音声復号装置。 - 前記聴覚マスキング整形処理部は、周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去する請求項1乃至4いずれか一に記載の音声復号装置。
- 前記聴覚マスキング整形処理部は、予め定める帯域の周波数成分を除去する請求項1乃至5いずれか一に記載の音声復号装置。
- 更に、前記聴覚マスキング整形処理部の出力信号と音声復号化処理部の出力信号を波形上で窓を掛けて加算する処理を行なう窓掛け加算処理部を備える請求項1乃至6に記載の音声復号装置。
- 請求項1乃至7いずれか一に記載の音声復号装置を搭載した携帯端末。
- 圧縮符号化された入力ビットストリームを復号し、
前記復号した信号の特徴を分析し、
前記復号した信号が音楽信号の特徴を有する場合に、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力すること、
を特徴とする音声復号方法。 - 前記復号信号が音楽信号の特徴を有する場合に、前記聴覚的に不要となる信号成分を抑圧する請求項9に記載の音声復号方法。
- 予め定められた時間区間毎に、周波数軸上で聴覚的に不要な周波数成分を除去した上で時間軸上に戻して出力することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9又は10に記載の音声復号方法。
- 前記復号信号より構成したブロックを周波数変換し、
前記周波数変換した信号を平滑化し、
前記平滑化した信号をマスキング閾値として用いて、前記周波数変換した信号から不要な周波数成分を除去し、
前記不要な周波数成分を除去した信号を逆変換することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至11いずれか一に記載の音声復号方法。 - 周波数軸上の予め定める個数の周波数成分が残るよう周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至12いずれか一に記載の音声復号方法。
- 予め定める帯域の周波数成分を除去することにより、前記聴覚的に不要となる信号成分を抑圧する請求項9乃至13いずれか一に記載の音声復号方法。
- 更に、前記聴覚的に不要となる信号成分が抑圧された信号と前記復号信号とを波形上で窓を掛けて加算する処理を行なう請求項9乃至13いずれか一に記載の音声復号方法。
- 音声復号装置を構成するコンピュータに実行させるプログラムであって、
圧縮符号化された入力ビットストリームを復号する復号処理と、
前記復号した信号の特徴を分析する処理と、
前記復号した信号が音楽信号の特徴を有する場合、前記復号信号の信号成分のうち、聴覚マスキング効果により聴覚的に不要となる信号成分を抑圧して出力する処理と、を前記コンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007245546 | 2007-09-21 | ||
JP2007245546 | 2007-09-21 | ||
PCT/JP2008/066948 WO2009038158A1 (ja) | 2007-09-21 | 2008-09-19 | 音声復号装置、音声復号方法、プログラム及び携帯端末 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2009038158A1 true JPWO2009038158A1 (ja) | 2011-01-06 |
Family
ID=40467967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009533189A Pending JPWO2009038158A1 (ja) | 2007-09-21 | 2008-09-19 | 音声復号装置、音声復号方法、プログラム及び携帯端末 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2009038158A1 (ja) |
WO (1) | WO2009038158A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332496A (ja) * | 1993-05-21 | 1994-12-02 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 |
JPH07221650A (ja) * | 1994-02-05 | 1995-08-18 | Sony Corp | 情報符号化方法及び装置並びに情報復号化方法及び装置 |
JPH0950298A (ja) * | 1995-08-07 | 1997-02-18 | Mitsubishi Electric Corp | 音声符号化装置及び音声復号化装置 |
JP2000315099A (ja) * | 1999-03-02 | 2000-11-14 | Emudasu Systems:Kk | データ圧縮装置及び音データ処理方法 |
WO2004090869A1 (ja) * | 2003-04-08 | 2004-10-21 | Nec Corporation | 符号変換方法及び装置 |
WO2006041055A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 |
-
2008
- 2008-09-19 JP JP2009533189A patent/JPWO2009038158A1/ja active Pending
- 2008-09-19 WO PCT/JP2008/066948 patent/WO2009038158A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06332496A (ja) * | 1993-05-21 | 1994-12-02 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法 |
JPH07221650A (ja) * | 1994-02-05 | 1995-08-18 | Sony Corp | 情報符号化方法及び装置並びに情報復号化方法及び装置 |
JPH0950298A (ja) * | 1995-08-07 | 1997-02-18 | Mitsubishi Electric Corp | 音声符号化装置及び音声復号化装置 |
JP2000315099A (ja) * | 1999-03-02 | 2000-11-14 | Emudasu Systems:Kk | データ圧縮装置及び音データ処理方法 |
WO2004090869A1 (ja) * | 2003-04-08 | 2004-10-21 | Nec Corporation | 符号変換方法及び装置 |
WO2006041055A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2009038158A1 (ja) | 2009-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
JP6259024B2 (ja) | フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置 | |
JP6229957B2 (ja) | 音声信号を再生するための装置および方法、符号化音声信号を生成するための装置および方法、コンピュータプログラム、および符号化音声信号 | |
KR100427753B1 (ko) | 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치 | |
JP5047268B2 (ja) | Mdct係数を使用する音声後処理 | |
CA2865533C (en) | Speech/audio signal processing method and apparatus | |
AU2010209673B2 (en) | Improved harmonic transposition | |
EP1154408B1 (en) | Multimode speech coding and noise reduction | |
JP3881946B2 (ja) | 音響符号化装置及び音響符号化方法 | |
KR20160018497A (ko) | 음향 신호의 대역폭 확장을 행하는 장치 및 방법 | |
JP2020118996A (ja) | 高調波転換 | |
JP2008026914A (ja) | 忠実度最適化可変フレーム長符号化 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
JPS63142399A (ja) | 音声分析合成方法及び装置 | |
US20100250260A1 (en) | Encoder | |
Schnell et al. | LC3 and LC3plus: The new audio transmission standards for wireless communication | |
JP3472279B2 (ja) | 音声符号化パラメータ符号化方法及び装置 | |
JP2008164823A (ja) | オーディオデータ処理装置 | |
KR102630922B1 (ko) | 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩 | |
JPWO2009038158A1 (ja) | 音声復号装置、音声復号方法、プログラム及び携帯端末 | |
EP3577647B1 (en) | Multi channel decoding | |
JPWO2009038115A1 (ja) | 音声符号化装置、音声符号化方法及びプログラム | |
JPWO2009038170A1 (ja) | 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム | |
JP5295380B2 (ja) | 符号化装置、復号化装置およびこれらの方法 | |
JP2004301954A (ja) | 音響信号の階層符号化方法および階層復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120731 |