KR20170125058A - 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법 - Google Patents
타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR20170125058A KR20170125058A KR1020177027052A KR20177027052A KR20170125058A KR 20170125058 A KR20170125058 A KR 20170125058A KR 1020177027052 A KR1020177027052 A KR 1020177027052A KR 20177027052 A KR20177027052 A KR 20177027052A KR 20170125058 A KR20170125058 A KR 20170125058A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- frequency domain
- time domain
- signal
- envelope
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 223
- 238000012545 processing Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims description 146
- 230000003595 spectral effect Effects 0.000 claims abstract description 63
- 238000000926 separation method Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 239000004065 semiconductor Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 42
- 230000001052 transient effect Effects 0.000 description 56
- 238000012360 testing method Methods 0.000 description 23
- 238000002592 echocardiography Methods 0.000 description 18
- 238000000354 decomposition reaction Methods 0.000 description 16
- 239000000203 mixture Substances 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000005259 measurement Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 238000001994 activation Methods 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 241000218228 Humulus Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000011049 filling Methods 0.000 description 5
- 238000009527 percussion Methods 0.000 description 5
- 238000004321 preservation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- XRKZVXDFKCVICZ-IJLUTSLNSA-N SCB1 Chemical compound CC(C)CCCC[C@@H](O)[C@H]1[C@H](CO)COC1=O XRKZVXDFKCVICZ-IJLUTSLNSA-N 0.000 description 3
- 101100439280 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CLB1 gene Proteins 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 244000025221 Humulus lupulus Species 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- QZOCOXOCSGUGFC-UHFFFAOYSA-N SCB3 Natural products CCC(C)CCCCC(O)C1C(CO)COC1=O QZOCOXOCSGUGFC-UHFFFAOYSA-N 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
Description
도 1은 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치의 개략적인 블록도를 보여준다.
도 2는 시간-주파수 도메인 또는 주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 3은 시간-주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치를 개략적인 블록도로 보여준다.
도 4는 주파수 도메인 처리를 사용하는 일 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 5는 시간-주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 6a - 도 6d는 일 실시예에 따른 과도부 복원의 개략도를 보여준다.
도 7은 주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 8은 오디오 신호의 하나의 세그먼트를 예시하는 개략적인 시간 도메인 다이어그램을 보여준다.
도 9a - 도 9c는 예시적인 드럼 루프로부터 분리된 상이한 하이햇 성분 신호들의 개략도들을 예시한다.
도 10a - 도 10b는 드럼 루프들의 소스 분리를 위한 소스들로서 3개의 악기들을 포함하는 타악 신호 혼합물의 개략적인 예시를 보여준다.
도 11a는 정규화된 불일치 측정 대 반복 횟수의 전개를 보여준다.
도 11b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다.
도 12a는 정규화된 불일치 측정 대 반복 횟수의 전개의 개략도를 보여준다.
도 12b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다.
도 13은 V의 온셋 이벤트들의 프로토타입 버전들(오른쪽 아래 플롯들)과 사실상 유사한 추출된 템플릿들(3개의 가장 왼쪽의 플롯들)을 예시하는 일반적인 NMF 분해 결과의 개략도를 보여준다.
도 14a는 정규화된 일관성 측정 대 반복 횟수의 전개의 개략도를 보여준다.
도 14b는 프리-에코 에너지 대 반복 횟수의 전개의 개략도를 보여준다.
도 15는 일 실시예에 따른 오디오 신호를 인코딩하기 위한 오디오 인코더를 보여준다.
도 16은 장치 및 입력 인터페이스를 포함하는 오디오 디코더를 보여준다.
도 17은 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하는 오디오 신호를 보여준다.
도 18은 일 실시예에 따른 오디오 소스 분리 프로세서의 개략적인 블록도를 보여준다.
도 19는 일 실시예에 따른 대역폭 강화 프로세서의 개략적인 블록도를 보여준다.
도 20은 대역폭 강화를 예시하는 개략적인 주파수 도메인 다이어그램을 보여준다.
도 21은 (중간) 시간 도메인 재구성의 개략적인 표현을 보여준다.
도 22는 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법의 개략적인 블록도를 보여준다.
도 23은 오디오 디코딩 방법의 개략적인 블록도를 보여준다.
도 24는 오디오 소스 분리 방법의 개략적인 블록도를 보여준다.
도 25는 인코딩된 오디오 신호의 대역폭 강화 방법의 개략적인 블록도를 보여준다.
도 26은 오디오 인코딩 방법의 개략적인 블록도를 보여준다.
Claims (25)
- 처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2)로서,
상기 오디오 신호(4)의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들에 대한 위상 값들(10)을 계산하기 위한 위상 계산기(8)를 포함하며,
상기 위상 계산기(8)는 상기 처리된 오디오 신호(6)와 관련된 타깃 시간 도메인 포락선(14)에 대한 정보를 기초로 상기 위상 값들(10)을 계산하여, 상기 처리된 오디오 신호가 적어도 근사치로 상기 타깃 시간 도메인 포락선(14) 및 상기 주파수 영역 프레임들의 시퀀스(12)에 의해 결정된 스펙트럼 포락선을 갖도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 1 항에 있어서,
상기 위상 계산기(8)는,
중첩 범위에서 중첩 블록들의 일관성을 요구하는 최적화 타깃을 사용하여 상기 스펙트럼 값들에 대한 위상 값들을 초기 위상 값들(18)에서부터 시작하여 계산하기 위해 반복 알고리즘을 수행하기 위한 반복 프로세서(16)를 포함하며,
상기 반복 프로세서(16)는 추가 반복 단계에서 상기 타깃 시간 도메인 포락선에 따라 업데이트된 위상 추정치(20)를 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 1 항 또는 제 2 항에 있어서,
상기 위상 계산기(8)는 적어도 하나의 타깃 시간 도메인 포락선(14)의 스펙트럼 표현(14')과 적어도 하나의 중간 주파수 도메인 재구성(28'), 또는 오디오 신호의 상기 적어도 하나의 타깃 시간 도메인 포락선 또는 상기 적어도 하나의 중간 주파수 도메인 재구성의 선택된 부분들 또는 대역들 또는 단지 고역 통과 부분만 또는 단지 여러 개의 대역 통과 부분들만의 컨볼루션을 적용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 3 항에 있어서,
상기 위상 계산기는,
상기 주파수 도메인 프레임들의 시퀀스(12) 및 초기 위상 값 추정치들(18) 또는 선행하는 반복 단계의 위상 값 추정치들(20)로부터 상기 오디오 신호(4)의 중간 시간 도메인 재구성(28)을 계산하기 위한 주파수-시간 변환기(22),
진폭 변조된 오디오 신호(30)를 획득하기 위해 타깃 시간 도메인 포락선(14)을 사용하여 상기 중간 시간 도메인 재구성(28)을 변조하기 위한 진폭 변조기(24), 및
상기 진폭 변조된 신호(30)를 위상 값들(10)을 갖는 주파수 도메인 프레임들의 추가 시퀀스(32)로 변환하기 위한 시간-주파수 변환기(26)를 포함하며,
상기 위상 계산기는 다음 반복 단계를 위해 상기 위상 값들 및 상기 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들을 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제1항에 따른 처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
- 제 5 항에 있어서,
상기 위상 계산기(8)는 반복 결정 조건이 충족될 때 상기 중간 시간 도메인 재구성(28)을 상기 처리된 오디오 신호(6)로서 출력하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 4 항에 있어서,
상기 위상 계산기는,
상기 오디오 신호(4)의 중간 주파수 도메인 재구성(28')을 얻기 위해 컨볼루션 커널을 적용하고, 시프트 커널을 적용하고 그리고 중심 프레임에 상기 중심 프레임의 인접 프레임의 중첩 부분을 부가하기 위한 컨볼루션 프로세서(40)를 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 4 항 또는 제 7 항에 있어서,
상기 위상 계산기(8)는 컨볼루션(34)에 의해 얻어진 위상 값들(10)을 다음 반복 단계에 대한 업데이트된 위상 값 추정치들(20)로서 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 4 항, 제 7 항 또는 제 8 항 중 어느 한 항에 있어서,
상기 타깃 시간 도메인 포락선을 상기 스펙트럼 도메인으로 변환하기 위한 타깃 포락선 변환기(36)를 더 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 4 항, 제 7 항, 제 8 항 또는 제 9 항 중 어느 한 항에 있어서,
가장 최근의 반복 단계로부터 획득된 위상 값 추정치들(10, 20) 및 상기 주파수 도메인 프레임들의 시퀀스(12)를 사용하여 상기 중간 주파수 도메인 재구성(28', 28''')으로부터 상기 시간 도메인 재구성(28'')을 계산하기 위한 주파수-시간 변환기(38)를 더 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 4 항, 제 7 항, 제 8 항, 제 9 항, 제 10 항 중 어느 한 항에 있어서,
상기 위상 계산기(8)는 상기 주파수 도메인 프레임들의 시퀀스(12)를 처리하기 위한 컨볼루션 프로세서(40)를 포함하며,
상기 컨볼루션 프로세서(40)는 시간 도메인 중첩 및 합산 프로시저를 상기 주파수 도메인에서 상기 주파수 도메인 프레임들의 시퀀스(12)에 적용하여 상기 중간 주파수 도메인 재구성을 결정하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 11 항에 있어서,
상기 컨볼루션 프로세서(40)는 현재 주파수 도메인 프레임에 기초하여, 상기 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후에 상기 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임의 일부를 결정하도록 구성되고,
상기 컨볼루션 프로세서는 상기 현재 주파수 도메인 프레임 내의 인접 주파수 도메인 프레임의 일부의 중첩 위치를 결정하고 상기 중첩 위치에서 상기 현재 주파수 도메인 프레임과 인접 주파수 도메인 프레임들의 부분들의 합산을 수행하도록 추가로 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 11 항 또는 제 12 항에 있어서,
상기 컨볼루션 프로세서(40)는 시간 도메인 합성 및 시간 도메인 분석 윈도우를 주파수-시간 변환하여, 상기 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후 상기 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임의 일부를 결정하도록 구성되고,
상기 컨볼루션 프로세서는 상기 인접 주파수 도메인 프레임의 위치를 상기 현재 주파수 도메인 프레임 내의 중첩 위치로 이동시키고 상기 인접 주파수 도메인 프레임의 일부를 상기 중첩 위치에서 상기 현재 프레임에 적용하도록 추가로 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 위상 계산기(8)는 Griffin 및 Lim에 의한 반복 신호 재구성 프로시저에 따라 반복 알고리즘을 수행하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2). - 오디오 신호를 인코딩하기 위한 오디오 인코더(100)로서,
인코딩된 오디오 신호(108)가 상기 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하게 상기 오디오 신호를 인코딩하도록 구성된 오디오 신호 프로세서(102), 및
상기 오디오 신호로부터 시간 도메인 포락선을 결정하도록 구성된 포락선 결정기(104)를 포함하며,
상기 포락선 결정기(104)는 상기 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 상기 비교를 기초로 상기 타깃 시간 도메인 포락선의 표현(14)을 결정하도록 추가로 구성되는,
오디오 신호를 인코딩하기 위한 오디오 인코더(100). - 오디오 디코더(110)로서,
제 1 항 내지 제 15 항 중 어느 한 항에 따른 장치(2), 및
인코딩된 신호(108)를 수신하기 위한 입력 인터페이스(112)를 포함하며,
상기 인코딩된 신호는 상기 주파수 도메인 프레임들의 시퀀스의 표현 및 상기 타깃 시간 도메인 포락선(18)의 표현을 포함하는,
오디오 디코더(110). - 오디오 신호(114)로서,
시간 도메인 오디오 신호(4)의 주파수 도메인 프레임들의 시퀀스의 표현(12) 및 타깃 시간 도메인 포락선의 표현(14)을 포함하는,
오디오 신호(114). - 오디오 소스 분리 프로세서(116)로서,
제 1 항 내지 제 15 항 중 어느 한 항의 처리를 위한 장치(2), 및
처리를 위해 상기 장치에 입력되는 수정된 오디오 신호를 얻기 위해 원래 오디오 신호의 스펙트럼을 마스킹하기 위한 마스커(118)를 포함하며,
상기 처리된 오디오 신호(6)는 상기 타깃 시간 도메인 포락선(14)에 관련된 분리된 소스 신호인,
오디오 소스 분리 프로세서(116). - 인코딩된 오디오 신호를 처리하기 위한 대역폭 강화 프로세서(122)로서,
상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호(127)를 생성하기 위한 강화 프로세서(126), 및
제 1 항 내지 제 15 항 중 어느 한 항에 따라 처리하기 위한 장치(2)를 포함하며,
상기 강화 프로세서(126)는 상기 인코딩된 신호에 포함된 인코딩된 표현으로부터 또는 상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 상기 타깃 시간 도메인 포락선(14)을 추출하도록 구성되는,
인코딩된 오디오 신호를 처리하기 위한 대역폭 강화 프로세서(122). - 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법(2200)으로서,
상기 오디오 신호의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들에 대한 위상 값들을 계산하는 단계를 포함하며,
상기 처리된 오디오 신호와 관련된 타깃 시간 도메인 포락선에 대한 정보를 기초로 상기 위상 값들이 계산되어, 상기 처리된 오디오 신호가 적어도 근사치로 상기 타깃 시간 도메인 포락선 및 상기 주파수 도메인 프레임들의 시퀀스에 의해 결정된 스펙트럼 포락선을 갖는,
처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법(2200). - 오디오 디코딩 방법(2300)으로서,
제 20 항의 방법;
인코딩된 신호를 수신하는 단계를 포함하며,
상기 인코딩된 신호는 상기 주파수 도메인 프레임들의 시퀀스의 표현 및 상기 타깃 시간 도메인 포락선의 표현을 포함하는,
오디오 디코딩 방법(2300). - 오디오 소스 분리 방법(2400)으로서,
제 20 항의 방법, 및
처리를 위해 장치에 입력되는 수정된 오디오 신호를 얻기 위해 원래 오디오 신호의 스펙트럼을 마스킹하는 단계를 포함하며,
상기 처리된 오디오 신호는 상기 타깃 시간 도메인 포락선에 관련된 분리된 소스 신호인,
오디오 소스 분리 방법(2400). - 인코딩된 오디오 신호의 대역폭 강화 방법(2500)으로서,
상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호를 생성하는 단계;
제 20 항의 방법을 포함하며,
상기 생성하는 단계는 상기 인코딩된 신호에 포함된 인코딩된 표현으로부터 또는 상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 상기 타깃 시간 도메인 포락선을 추출하는 단계를 포함하는,
인코딩된 오디오 신호의 대역폭 강화 방법(2500). - 오디오 인코딩 방법(2600)으로서,
인코딩된 오디오 신호가 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하도록 상기 오디오 신호를 인코딩하는 단계; 및
상기 오디오 신호로부터 시간 도메인 포락선을 결정하고 상기 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 상기 비교를 기초로 상기 타깃 시간 도메인 포락선의 표현을 결정하는 단계를 포함하는,
오디오 인코딩 방법(2600). - 컴퓨터 또는 프로세서 상에서 실행될 때, 제 20 항, 제 21 항, 제 22 항, 제 23 항 또는 제 24 항 중 어느 한 항의 방법을 수행하기 위한,
컴퓨터 프로그램.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15156704.7 | 2015-02-26 | ||
EP15156704 | 2015-02-26 | ||
EP15181118.9 | 2015-08-14 | ||
EP15181118 | 2015-08-14 | ||
PCT/EP2016/053752 WO2016135132A1 (en) | 2015-02-26 | 2016-02-23 | Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170125058A true KR20170125058A (ko) | 2017-11-13 |
KR102125410B1 KR102125410B1 (ko) | 2020-06-22 |
Family
ID=55409840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177027052A KR102125410B1 (ko) | 2015-02-26 | 2016-02-23 | 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법 |
Country Status (11)
Country | Link |
---|---|
US (1) | US10373623B2 (ko) |
EP (1) | EP3262639B1 (ko) |
JP (1) | JP6668372B2 (ko) |
KR (1) | KR102125410B1 (ko) |
CN (1) | CN107517593B (ko) |
BR (1) | BR112017018145B1 (ko) |
CA (1) | CA2976864C (ko) |
ES (1) | ES2837107T3 (ko) |
MX (1) | MX2017010593A (ko) |
RU (1) | RU2679254C1 (ko) |
WO (1) | WO2016135132A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2826044C1 (ru) * | 2019-12-05 | 2024-09-03 | Долби Лэборетериз Лайсенсинг Корпорейшн | Психоакустическая модель для аудиообработки |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6445417B2 (ja) * | 2015-10-30 | 2018-12-26 | 日本電信電話株式会社 | 信号波形推定装置、信号波形推定方法、プログラム |
WO2017143095A1 (en) * | 2016-02-16 | 2017-08-24 | Red Pill VR, Inc. | Real-time adaptive audio source separation |
US10224042B2 (en) * | 2016-10-31 | 2019-03-05 | Qualcomm Incorporated | Encoding of multiple audio signals |
EP3382701A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
EP3382702A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal |
EP3457401A1 (en) * | 2017-09-18 | 2019-03-20 | Thomson Licensing | Method for modifying a style of an audio object, and corresponding electronic device, computer readable program products and computer readable storage medium |
EP3664084B1 (en) * | 2017-10-25 | 2024-04-17 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
EP3550561A1 (en) * | 2018-04-06 | 2019-10-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value |
US10529349B2 (en) * | 2018-04-16 | 2020-01-07 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction |
EP3576088A1 (en) * | 2018-05-30 | 2019-12-04 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio similarity evaluator, audio encoder, methods and computer program |
US11991029B2 (en) * | 2018-08-20 | 2024-05-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Physical random access channel signal generation optimization for 5G new radio |
WO2020094263A1 (en) | 2018-11-05 | 2020-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs |
US10659099B1 (en) * | 2018-12-12 | 2020-05-19 | Samsung Electronics Co., Ltd. | Page scanning devices, computer-readable media, and methods for bluetooth page scanning using a wideband receiver |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
US11456007B2 (en) * | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
CN109753943B (zh) * | 2019-01-14 | 2023-09-19 | 沈阳化工大学 | 一种自适应分配变模态分解方法 |
CN110411439B (zh) * | 2019-07-15 | 2021-07-09 | 北京控制工程研究所 | 一种根据星能量等级生成仿真星点的方法、装置及介质 |
KR102294639B1 (ko) * | 2019-07-16 | 2021-08-27 | 한양대학교 산학협력단 | 다중 디코더를 이용한 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
CN110838299B (zh) * | 2019-11-13 | 2022-03-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种瞬态噪声的检测方法、装置及设备 |
CN111402858B (zh) * | 2020-02-27 | 2024-05-03 | 平安科技(深圳)有限公司 | 一种歌声合成方法、装置、计算机设备及存储介质 |
US20230232176A1 (en) * | 2020-06-11 | 2023-07-20 | Dolby Laboratories Licensing Corporation | Perceptual optimization of magnitude and phase for time-frequency and softmask source separation systems |
MX2022015652A (es) * | 2020-06-11 | 2023-01-16 | Dolby Laboratories Licensing Corp | Metodos, aparatos y sistemas para deteccion y extraccion de fuentes de audio de subbanda espacialmente identificables. |
CN112133319B (zh) * | 2020-08-31 | 2024-09-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频生成的方法、装置、设备及存储介质 |
WO2022076404A1 (en) * | 2020-10-05 | 2022-04-14 | The Trustees Of Columbia University In The City Of New York | Systems and methods for brain-informed speech separation |
CN112257577A (zh) * | 2020-10-21 | 2021-01-22 | 华北电力大学 | 一种利用线性流形投影的微震信号重构方法和系统 |
CN113191317B (zh) * | 2021-05-21 | 2022-09-27 | 江西理工大学 | 一种基于极点构造低通滤波器的信号包络提取方法和装置 |
US11682411B2 (en) | 2021-08-31 | 2023-06-20 | Spotify Ab | Wind noise suppresor |
CN113835065B (zh) * | 2021-09-01 | 2024-05-17 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN113903355B (zh) * | 2021-12-09 | 2022-03-01 | 北京世纪好未来教育科技有限公司 | 语音获取方法、装置、电子设备及存储介质 |
CN115116460B (zh) * | 2022-06-17 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 音频信号增强方法、装置、设备、存储介质及程序产品 |
CN115691541B (zh) * | 2022-12-27 | 2023-03-21 | 深圳元象信息科技有限公司 | 语音分离方法、装置及存储介质 |
CN116229999A (zh) * | 2022-12-28 | 2023-06-06 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN117745551B (zh) * | 2024-02-19 | 2024-04-26 | 电子科技大学 | 一种图像信号相位恢复的方法 |
CN118230745B (zh) * | 2024-05-23 | 2024-07-26 | 玖益(深圳)医疗科技有限公司 | 连续调制声音信号生成方法、耳鸣匹配方法及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
WO2015087107A1 (en) * | 2013-12-11 | 2015-06-18 | European Aeronautic Defence And Space Company Eads France | Phase retrieval algorithm for generation of constant time envelope with prescribed fourier transform magnitude signal |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0804787B1 (en) | 1995-11-22 | 2001-05-23 | Koninklijke Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
WO2004008437A2 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US7415392B2 (en) | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
DE102004021403A1 (de) * | 2004-04-30 | 2005-11-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung |
SG163555A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for highband burst suppression |
WO2006116024A2 (en) * | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor attenuation |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
CN101197577A (zh) * | 2006-12-07 | 2008-06-11 | 展讯通信(上海)有限公司 | 一种用于音频处理框架中的编码和解码方法 |
US7715342B2 (en) * | 2007-06-22 | 2010-05-11 | Research In Motion Limited | Location of packet data convergence protocol in a long-term evolution multimedia broadcast multicast service |
CN101521010B (zh) * | 2008-02-29 | 2011-10-05 | 华为技术有限公司 | 一种音频信号的编解码方法和装置 |
CN101662288B (zh) * | 2008-08-28 | 2012-07-04 | 华为技术有限公司 | 音频编码、解码方法及装置、系统 |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
CN101770776B (zh) | 2008-12-29 | 2011-06-08 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
PL2234103T3 (pl) * | 2009-03-26 | 2012-02-29 | Fraunhofer Ges Forschung | Urządzenie i sposób manipulacji sygnałem audio |
WO2011039668A1 (en) * | 2009-09-29 | 2011-04-07 | Koninklijke Philips Electronics N.V. | Apparatus for mixing a digital audio |
JP5651980B2 (ja) * | 2010-03-31 | 2015-01-14 | ソニー株式会社 | 復号装置、復号方法、およびプログラム |
EP2727105B1 (en) * | 2011-06-30 | 2015-08-12 | Telefonaktiebolaget LM Ericsson (PUBL) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal |
CN103258539B (zh) * | 2012-02-15 | 2015-09-23 | 展讯通信(上海)有限公司 | 一种语音信号特性的变换方法和装置 |
WO2013128322A1 (en) * | 2012-02-27 | 2013-09-06 | Ecole Polytechnique Federale De Lausanne (Epfl) | Sample processing device with detachable slide |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
US9368103B2 (en) * | 2012-08-01 | 2016-06-14 | National Institute Of Advanced Industrial Science And Technology | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system |
CN104103276B (zh) * | 2013-04-12 | 2017-04-12 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
WO2014185569A1 (ko) * | 2013-05-15 | 2014-11-20 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
-
2016
- 2016-02-23 KR KR1020177027052A patent/KR102125410B1/ko active IP Right Grant
- 2016-02-23 WO PCT/EP2016/053752 patent/WO2016135132A1/en active Application Filing
- 2016-02-23 RU RU2017133228A patent/RU2679254C1/ru active
- 2016-02-23 JP JP2017545563A patent/JP6668372B2/ja active Active
- 2016-02-23 ES ES16705948T patent/ES2837107T3/es active Active
- 2016-02-23 CA CA2976864A patent/CA2976864C/en active Active
- 2016-02-23 CN CN201680013372.5A patent/CN107517593B/zh active Active
- 2016-02-23 MX MX2017010593A patent/MX2017010593A/es active IP Right Grant
- 2016-02-23 BR BR112017018145-2A patent/BR112017018145B1/pt active IP Right Grant
- 2016-02-23 EP EP16705948.4A patent/EP3262639B1/en active Active
-
2017
- 2017-08-21 US US15/682,123 patent/US10373623B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
WO2015087107A1 (en) * | 2013-12-11 | 2015-06-18 | European Aeronautic Defence And Space Company Eads France | Phase retrieval algorithm for generation of constant time envelope with prescribed fourier transform magnitude signal |
Non-Patent Citations (1)
Title |
---|
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2826044C1 (ru) * | 2019-12-05 | 2024-09-03 | Долби Лэборетериз Лайсенсинг Корпорейшн | Психоакустическая модель для аудиообработки |
Also Published As
Publication number | Publication date |
---|---|
BR112017018145A2 (pt) | 2018-04-10 |
JP6668372B2 (ja) | 2020-03-18 |
RU2679254C1 (ru) | 2019-02-06 |
US20170345433A1 (en) | 2017-11-30 |
JP2018510374A (ja) | 2018-04-12 |
CA2976864C (en) | 2020-07-14 |
EP3262639B1 (en) | 2020-10-07 |
KR102125410B1 (ko) | 2020-06-22 |
BR112017018145B1 (pt) | 2023-11-28 |
CN107517593A (zh) | 2017-12-26 |
EP3262639A1 (en) | 2018-01-03 |
WO2016135132A1 (en) | 2016-09-01 |
CN107517593B (zh) | 2021-03-12 |
CA2976864A1 (en) | 2016-09-01 |
ES2837107T3 (es) | 2021-06-29 |
MX2017010593A (es) | 2018-05-07 |
US10373623B2 (en) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102125410B1 (ko) | 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법 | |
RU2765618C2 (ru) | Гармоническое преобразование, усовершенствованное перекрестным произведением | |
JP5467098B2 (ja) | オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法 | |
RU2591733C2 (ru) | Устройство и способ изменения звукового сигнала посредством формирования огибающей | |
CN104584124A (zh) | 带宽扩展参数生成装置、编码装置、解码装置、带宽扩展参数生成方法、编码方法、以及解码方法 | |
JPS62502572A (ja) | 音響波形の処理 | |
Dittmar et al. | Towards transient restoration in score-informed audio decomposition | |
RU2778834C1 (ru) | Гармоническое преобразование, усовершенствованное перекрестным произведением | |
RU2825717C1 (ru) | Гармоническое преобразование, усовершенствованное перекрестным произведением | |
RU2806621C1 (ru) | Гармоническое преобразование, усовершенствованное перекрестным произведением | |
Hirvonen et al. | On the Multichannel Sinusoidal Model for Coding Audio Object Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0105 | International application |
Patent event date: 20170925 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20170925 Comment text: Request for Examination of Application |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190620 Patent event code: PE09021S01D |
|
E90F | Notification of reason for final refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20200107 Patent event code: PE09021S02D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200318 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200616 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200617 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230523 Start annual number: 4 End annual number: 4 |