KR20220066316A - 오디오 코딩 방법 및 장치 - Google Patents
오디오 코딩 방법 및 장치 Download PDFInfo
- Publication number
- KR20220066316A KR20220066316A KR1020227012578A KR20227012578A KR20220066316A KR 20220066316 A KR20220066316 A KR 20220066316A KR 1020227012578 A KR1020227012578 A KR 1020227012578A KR 20227012578 A KR20227012578 A KR 20227012578A KR 20220066316 A KR20220066316 A KR 20220066316A
- Authority
- KR
- South Korea
- Prior art keywords
- parameter set
- audio
- audio data
- coding
- bit rate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000003595 spectral effect Effects 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000000873 masking effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 101150036464 aptx gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Otolaryngology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
오디오 코딩 방법 및 장치가 제공된다. 오디오 코딩 방법은 제1 오디오 데이터를 획득하는 단계와, 목표 비트율 및 블루투스 패킷 유형을 획득하는 단계 ― 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응함 ― 와, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계와, 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 제1 오디오 데이터를 코딩하여, 전송될 비트 스트림을 획득하는 단계를 포함한다. 블루투스 채널의 상태는 적응적으로 매칭될 수 있으며, 오디오 품질이 최대한 보장될 때 지속적인 오디오 청취 경험이 제공된다.
Description
본 출원은 2019년 9월 18일자로 중국 국가지식재산관리국에 출원되고 발명의 명칭이 "오디오 코딩 방법 및 장치(AUDIO CODING METHOD AND APPARATUS)"인 중국 특허출원 번호 201910883038.0에 대한 우선권을 주장하며, 이는 그 전체가 본원에 참조에 의해 통합된다.
기술분야
본 출원은 오디오 처리 기술에 관한 것으로, 특히 오디오 코딩 방법 및 장치에 관한 것이다.
트루 와이어리스 스테레오(True Wireless Stereo, TWS) 헤드셋, 스마트 사운드 박스, 스마트 워치와 같은 무선 블루투스 디바이스가 실생활에 널리 사용됨에 따라, 다양한 시나리오에서 고품질의 음악 재생 경험을 추구하는 사람들의 요구사항은 점점 더 시급한 것이 되고 있다. 블루투스 채널에 의해 데이터 전송 크기가 제한되기 때문에, 오디오 데이터는, 블루투스 디바이스의 송신단의 오디오 인코더에 의해 오디오 데이터에 대한 데이터 압축이 수행된 후에만 디코딩 및 재생을 위해 블루투스 디바이스의 수신단으로 전송될 수 있다. 현재, 주류의 블루투스 코딩 및 디코딩 기술은 디폴트 고급 오디오 분배 프로파일(Advanced Audio Distribution Profile, A2DP) 서브밴드 코딩(Sub-band Coding, SBC), 동영상 전문가 그룹(Moving Picture Experts Group, MPEG) 고급 오디오 코딩(Advanced Audio Coding, AAC), 소니(Sony) LDAC, 퀄컴(Qualcomm) aptX 등을 포함한다.
현재, 오디오 전송 프로세스에서, 오디오 품질은 블루투스 접속 링크의 처리량 및 안정성에 크게 좌우된다. 블루투스 접속 링크의 채널 품질이 간섭을 받을 때, 비트율이 크게 변동되면 전송 프로세스에서 오디오 데이터가 손실된다. 또한, 오디오 재생 중 사운드 버벅거림(stuttering) 및 중단 현상이 발생하여 사용자 경험에 큰 영향을 미친다. 비트율 변동 범위는 관련 기술을 사용하여 제어될 수 있다. 그러나, 이 제어 방법은 상대적으로 조악하기 때문에, 사운드 연속성과 오디오 품질을 모두 보장할 수는 없다.
본 출원은 블루투스 채널의 상태를 적응적으로 매칭시키고 오디오 품질을 최대로 보장하면서 지속적인 오디오 청취 경험을 제공하기 위한 오디오 코딩 방법 및 장치를 제공한다.
제1 양태에 따르면, 본 출원은, 오디오 코딩 방법으로서,
제1 오디오 데이터를 획득하는 단계와, 목표 비트율 및 블루투스 패킷 유형을 획득하는 단계 ― 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응함 ― 와, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트(bit pool parameter set), 심리음향 파라미터 세트(a psychoacoustic parameter set) 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계 ― 비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용되고, 심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용되며, 스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩 후에 획득된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용됨 ― 와, 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 제1 오디오 데이터를 코딩하여, 전송될 비트 스트림을 획득하는 단계를 포함하는, 오디오 코딩 방법을 제공한다.
본 출원에서는 블루투스 채널의 현재 상태에 대응하는 목표 비트율 및 블루투스 패킷 유형과 오디오 데이터에 기초하여, 코딩을 위한 관련 파라미터들이 신경망을 사용하여 획득된다. 이러한 방식으로, 블루투스 채널의 상태가 적응적으로 매칭될 수 있고 오디오 코딩의 비트율 변동이 효과적으로 감소될 수 있어서, 오디오 전송 중의 간섭 방지 성능을 개선하고 오디오 품질을 최대로 보장하면서 지속적인 오디오 청취 경험을 제공할 수 있다.
가능한 구현에서, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계는, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 대한 특징 추출을 수행하여 제1 특징 벡터를 획득하는 단계와, 제1 특징 벡터를 신경망에 입력하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계를 포함한다.
가능한 구현에서, 블루투스 패킷 유형은 블루투스를 통해 전송되는 패킷의 유형을 표시하고, 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함할 수 있다.
가능한 구현에서, 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용된다.
가능한 구현에서, 제1 오디오 데이터를 획득하는 단계 전에, 방법은, 신경망의 훈련 데이터 세트를 구성하는 단계 ― 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 사이의 대응관계를 포함하고, 제1 값 조합은 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이고, 제2 값 조합은 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이고, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합은 복수의 ODG 등급에 대응하고, 제2 값 조합은 최고 ODG 등급에 대응함 ― 와, 훈련 데이터 세트에 기초한 훈련을 통해 신경망을 획득하는 단계를 더 포함한다.
본 출원에서, 신경망의 훈련 프로세스에서, 목표 비트율과 블루투스 패킷 유형은 모두 블루투스 채널의 상태에 대응한다. 따라서, 목표 비트율 및 블루투스 패킷 유형에 대응하는 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트의 최적값 조합도 블루투스 채널의 상태에 대응한다. 신경망에서는 블루투스 채널의 상태 변화와, 블루투스 채널의 상태와 매칭되는 관련 파라미터들의 최적값 조합이 모두 고려됨을 알 수 있다.
가능한 구현에서, 신경망의 훈련 데이터 세트를 구성하는 단계는, 복수의 오디오 데이터를 획득하는 단계와, 제1 값 조합에서 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩하는 단계 ― 제2 오디오 데이터는 복수의 오디오 데이터 중 어느 하나임 ― 와, 코딩 결과에 기초하여 복수의 ODG 등급을 획득하는 단계와, 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 제2 값 조합으로 결정하는 단계와, 제1 값 조합 및 제2 값 조합을 훈련 데이터 세트에 추가하는 단계를 포함한다.
제2 양태에 따르면, 본 출원은, 오디오 코딩 장치로서,
제1 오디오 데이터를 획득하고, 목표 비트율 및 블루투스 패킷 유형을 획득하도록 구성된 입력 모듈 ― 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응함 ― 과, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성된 파라미터 획득 모듈 ― 비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용되고, 심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용되며, 스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩 후에 획득된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용됨 ― 과, 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 제1 오디오 데이터를 코딩하여, 전송될 비트 스트림을 획득하도록 구성된 코딩 모듈을 포함하는, 오디오 코딩 장치를 제공한다.
가능한 구현에서, 파라미터 획득 모듈은 구체적으로, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 대한 특징 추출을 수행하여 제1 특징 벡터를 획득하고, 제1 특징 벡터를 신경망에 입력하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성된다.
가능한 구현에서, 블루투스 패킷 유형은 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함한다.
가능한 구현에서, 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용된다.
가능한 구현에서, 파라미터 획득 모듈은 또한, 신경망의 훈련 데이터 세트를 구성하고 ― 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 사이의 대응관계를 포함하고, 제1 값 조합은 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이고, 제2 값 조합은 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이고, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합은 복수의 ODG 등급에 대응하고, 제2 값 조합은 최고 ODG 등급에 대응함 ―, 훈련 데이터 세트에 기초한 훈련을 통해 신경망을 획득하도록 구성된다.
가능한 구현에서, 파라미터 획득 모듈은 구체적으로, 복수의 오디오 데이터를 획득하고, 제1 값 조합에서 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩하고 ― 제2 오디오 데이터는 복수의 오디오 데이터 중 어느 하나임 ―, 코딩 결과에 기초하여 복수의 ODG 등급을 획득하고, 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 제2 값 조합으로 결정하고, 제1 값 조합 및 제2 값 조합을 훈련 데이터 세트에 추가하도록 구성된다.
제3 양태에 따르면, 본 출원은, 단말 디바이스로서,
하나 이상의 프로세서와,
하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함하는, 단말 디바이스를 제공한다.
하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서는 제1 양태의 가능한 구현들 중 어느 하나에 따른 방법을 구현할 수 있게 된다.
제4 양태에 따르면, 본 출원은 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태의 가능한 구현들 중 어느 하나에 따른 방법을 수행할 수 있게 된다.
제5 양태에 따르면, 이 출원은, 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품은 컴퓨터 프로그램 코드를 포함한다. 컴퓨터 프로그램 코드가 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태의 가능한 구현들 중 어느 하나에 따른 방법을 수행할 수 있게 된다.
도 1은 본 출원에 따른 오디오 코딩 방법이 적용되는 응용 시나리오의 예의 예시도이다.
도 2는 본 출원에 따른 오디오 코딩 시스템의 예의 예시도이다.
도 3은 본 출원에 따른 오디오 코딩 방법의 실시예의 흐름도이다.
도 4는 심리음향 프로세스의 예의 개략도이다.
도 5는 파라미터 획득 방법의 예의 개략도이다.
도 6은 훈련 데이터 세트의 구성 방법의 개략도이다.
도 7은 본 출원에 따른 오디오 코딩 장치의 실시예의 구조의 개략도이다.
도 8은 본 출원에 따른 단말 디바이스의 구조의 개략도이다.
도 2는 본 출원에 따른 오디오 코딩 시스템의 예의 예시도이다.
도 3은 본 출원에 따른 오디오 코딩 방법의 실시예의 흐름도이다.
도 4는 심리음향 프로세스의 예의 개략도이다.
도 5는 파라미터 획득 방법의 예의 개략도이다.
도 6은 훈련 데이터 세트의 구성 방법의 개략도이다.
도 7은 본 출원에 따른 오디오 코딩 장치의 실시예의 구조의 개략도이다.
도 8은 본 출원에 따른 단말 디바이스의 구조의 개략도이다.
본 출원의 목적, 기술 솔루션 및 이점을 보다 명확히 하기 위해, 다음은 본 출원의 첨부 도면을 참조하여 본 출원의 기술적 솔루션을 명확하고 완전하게 설명한다. 설명된 실시예는 본 출원의 실시예의 전부가 아니라 일부임이 명백하다. 창의적인 노력 없이 본 출원의 실시예에 기초하여 당업자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위에 속할 것이다.
본 출원에서 본 명세서의 실시예, 청구범위 및 첨부 도면에서, "제1", "제2" 등의 용어는 구별 및 설명을 위해서만 사용되며, 상대적인 중요성 또는 순서를 나타내거나 암시하는 것으로 이해될 수 없다. 또한, "포함한다" 및 "갖는다"라는 용어와 그의 임의의 파생어는 비배타적 포함을 커버하도록 의도되며, 예를 들어, 일련의 단계 또는 유닛을 포함한다. 방법, 시스템, 제품 또는 디바이스는 반드시 명시적으로 나열된 단계 또는 유닛으로 제한되지 않고, 명시적으로 나열되지 않거나 그러한 프로세스, 방법, 제품 또는 디바이스에 고유하지 않은 다른 단계 또는 유닛을 포함할 수도 있다.
본 출원에서, "적어도 하나"는 하나 이상을 의미하고 "복수"는 둘 이상을 의미하는 것으로 이해되어야 한다. "및/또는"이라는 용어는 연관된 객체들 간의 연관 관계를 설명하는 데 사용되며, 세 가지 관계가 존재할 수 있음을 나타낸다. 예를 들어, "A 및/또는 B"는, A만 존재하고, B만 존재하고, A와 B가 모두 존재하는 세 가지 경우를 나타낼 수 있는데, A와 B는 단수 또는 복수일 수 있다. 문자 "/"는 일반적으로 연관된 객체들 간의 "또는" 관계를 나타낸다. "다음 항목들(부분들) 중 적어도 하나" 또는 이와 유사한 표현은 단일 항목(부분) 또는 복수 항목(부분)의 임의의 조합을 포함하여 이러한 항목들의 임의의 조합을 나타낸다. 예를 들어, a, b 또는 c 중 적어도 하나(일부)는 a, b, c, "a 및 b", "a 및 c", "b 및 c" 또는 "a, b 및 c"를 나타낼 수 있는데, a, b 및 c는 단수 또는 복수일 수 있다.
도 1은 본 출원에 따른 오디오 코딩 방법이 적용되는 응용 시나리오의 예의 예시도이다. 도 1에 도시된 바와 같이, 응용 시나리오는 단말 디바이스와 블루투스 디바이스를 포함한다. 단말 디바이스 및 블루투스 디바이스는 블루투스 접속 기능을 갖고 AAC 표준을 지원하는 디바이스일 수 있다. 단말 디바이스는, 예를 들어, 휴대폰, 컴퓨터(노트북, 데스크탑 등을 포함함), 또는 태블릿(핸드헬드 패널, 차량 내 패널 등을 포함함)일 수 있다. 블루투스 재생 디바이스는, 예를 들어, TWS 헤드셋, 무선 머리 장착 헤드셋 또는 무선 넥밴드 헤드셋일 수 있다. 블루투스 디바이스는 또한, 예를 들어, 스마트 사운드 박스, 스마트 워치, 스마트 안경, 차량 내 사운드 박스 등일 수 있다. 이 출원에서 가장 빈번한 응용 시나리오는 휴대폰과 블루투스 디바이스 사이, 즉, 휴대폰과 TWS 헤드셋, 무선 머리 장착 헤드셋, 무선 넥밴드 헤드셋 등의 각각 사이, 또는 휴대폰과 스마트 사운드 박스, 스마트 워치, 스마트 안경, 차량 내 사운드 박스 등의 각각 사이에 존재한다. 그러나, 본 출원은 이에 제한되지는 않는다.
도 2는 본 출원에 따른 오디오 코딩 시스템의 예의 예시도이다. 도 2에 도시된 바와 같이, 오디오 코딩 시스템은 입력 모듈, 처리 모듈 및 출력 모듈을 포함한다.
입력 모듈에 의해 획득된 데이터는 오디오 펄스 코드 변조(Pulse Code Modulation, PCM) 비트 스트림과 같은 오디오 데이터와, 블루투스 채널의 상태에 기초하여 결정되는 목표 비트율 및 블루투스 패킷 유형을 포함한다. 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응한다. 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용된다. 블루투스 패킷 유형은 블루투스를 통해 전송되는 패킷의 유형을 표시한다. 블루투스 접속 링크에서, 오디오 비트스트림을 전송하기 위한 ACL(Asynchronous Connection-Less)에 사용되는 블루투스 패킷 유형은 2DH1(전송된 오디오 비트 스트림의 데이터 패킷은 최대 31바이트로 제한될 수 있음), 2DH3(전송된 오디오 비트 스트림의 데이터 패킷은 최대 356바이트로 제한될 수 있음), 2DH5(전송된 오디오 비트 스트림의 데이터 패킷은 최대 656바이트로 제한될 수 있음), 3DH1(전송된 오디오 비트 스트림의 데이터 패킷은 최대 11바이트로 제한될 수 있음), 3DH3(전송된 오디오 비트 스트림의 데이터 패킷은 최대 536바이트로 제한될 수 있음) 및 3DH5(전송된 오디오 비트 스트림의 데이터 패킷은 최대 986바이트로 제한될 수 있음) 중 어느 하나를 포함할 수 있다. 여기서, 2DH1, 2DH3 및 2DH5에 사용되는 변조 방식은 π/4 DQPSK(Differential Quadrature Reference Phase Shift Keying)이고, 3DH1, 3DH3 및 3DH5에 사용되는 변조 방식은 8DQPSK이다. 블루투스가 약간 간섭을 받고 채널이 양호한 상태일 때, 2DH5 또는 3DH5가 우선적으로 선택된다. 이 두 가지 블루투스 패킷 유형은 더 높은 데이터 전송 능력과 더 낮은 간섭 방지 능력을 가지므로, 오디오 인코더는 128kbps 초과의 목표 비트율에서 작동하여 더 높은 오디오 품질로 전송을 구현할 수 있다. 블루투스가 크게 간섭을 받고 채널이 불량한 상태일 때, 2DH3, 3DH3, 2DH1 또는 3DH1이 우선적으로 선택된다. 이러한 블루투스 패킷 유형은 더 높은 간섭 방지 능력 및 더 낮은 데이터 전송 능력을 가지므로, 오디오 인코더는 96kbps 미만의 목표 비트율에서 작동하여 오디오 전송의 연속성을 우선적으로 보장할 수 있다.
처리 모듈은 파라미터 조정 서브모듈, 코딩 서브모듈 및 보조 서브모듈을 포함한다. 파라미터 조정 서브모듈은 특징 추출 및 신경망을 통한 훈련이라는 두 가지 기능을 가지고, 입력 모듈에 의해 입력된 데이터에 기초하여 코딩 파라미터의 최적 값 조합을 결정하도록 구성된다. 코딩 서브모듈은 파라미터 구성, 코딩 및 디코딩이라는 세 가지 기능을 가지고, 코딩 파라미터들의 최적 값 조합에 기초하여 오디오 데이터를 코딩하고, 비트 스트림을 디코딩하도록 구성된다. 보조 서브모듈은 비트율 변동의 통계적 수집 및 주관적 차등 등급(즉, ODG 등급)이라는 두 가지 기능을 가지며, 코딩을 통해 생성된 데이터 패킷의 바이트량의 변화에 대한 통계 수집하고, 코딩 및 디코딩 후 오디오의 오디오 품질을 등급화하도록 구성된다. ODG 등급은 국제전기통신연합(International Telecommunication Union, ITU) BS.1387-1의 오디오 품질에 대한 지각적 평가(Perceptual Evaluation of Audio Quality, PEAQ)를 통해 획득된다. 등급의 값 범위는 -4 내지 0이다. 등급이 0에 가까울수록 코딩 및 디코딩 후 오디오의 오디오 품질이 더 높음을 나타낸다.
출력 모듈에 의해 출력되는 데이터는, 코딩을 통해 생성된 데이터 패킷이 블루투스 패킷 유형에 기초하여 캡슐화된 후에 형성된 오디오 비트 스트림이다.
도 3은 본 출원에 따른 오디오 코딩 방법의 실시예의 흐름도이다. 도 3에 도시된 바와 같이, 이 실시예의 방법은 도 1의 단말 디바이스, 예를 들어, 휴대폰, 컴퓨터(노트북, 데스크탑 등을 포함함) 또는 태블릿(핸드헬드 패널, 차량 내 패널 등을 포함함)에 의해 수행될 수 있다. 오디오 코딩 방법은 다음과 같은 단계들을 포함할 수 있다.
단계 301: 제1 오디오 데이터를 획득한다.
제1 오디오 데이터는 코딩될 오디오 데이터이다. 단말 디바이스는 로컬 메모리로부터 제1 오디오 데이터를 직접 판독할 수도 있고, 다른 디바이스로부터 제1 오디오 데이터를 수신할 수도 있다. 이것은 본 출원에서 특별히 제한되지 않는다.
단계 302: 목표 비트율 및 블루투스 패킷 유형을 획득하는데, 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응한다.
목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용된다. 즉, 목표 비트율은 제1 오디오 데이터가 코딩된 후 획득될 것으로 예상되는 데이터 패킷의 평균 바이트량인 것으로 간주될 수 있다. 복수의 요인의 영향으로 인해, 코딩을 통해 생성된 각 데이터 패킷의 바이트량(즉, 비트율)은 목표 비트율에 도달할 가능성이 작다. 따라서, 지정된 기간 동안의 복수의 데이터 패킷의 평균 비트율이 목표 비트율을 만족시킨다면, 각 데이터 패킷의 비트율은 목표 비트율 근처의 작은 범위에서 변동하는 것이 허용될 수 있다. 블루투스 패킷 유형은 블루투스를 통해 전송되는 패킷의 유형을 표시한다. 블루투스 패킷 유형은 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함할 수 있다. 각 블루투스 패킷 유형은 비트율 변동의 상한에 대응한다. 본 출원에서 목표 비트율과 블루투스 패킷 유형은 모두 블루투스 채널의 현재 상태에 대응한다. 즉, 목표 비트율과 블루투스 패킷 유형은 모두 블루투스 채널의 상태에 기초하여 결정된다. 따라서, 목표 비트율 및 블루투스 패킷 유형은 또한 블루투스 채널의 상태를 반영한다.
도 3에 도시된 실시예에서, 단계 301과 단계 302 사이에는 순서가 존재하지 않는다.
단계 303: 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득한다.
비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용된다. 관련 기술에서, 일정 비트율(Constant Bit rate, CBR) 코딩 모드에서의 비트율 변동은 비트 풀의 크기를 조정하는 것을 통해 제어되어 순간 변동 및 장기 수렴의 비트율 특징을 구현한다. 이 방법에서는 CBR 코딩 모드에서 비트율 변동이 허용된다. 더 높은 오디오 품질을 제공하기 위해 상이한 오디오 데이터에 상이한 비트량이 할당된다. 실제 할당된 비트량(비트율)이 목표 비트량(목표 비트율)보다 작을 경우, 나머지 비트는 비트 풀에 배치된다. 실제 할당된 비트량이 목표 비트량보다 많을 경우, 일부 비트는 사용을 위해 비트 풀에서 추출된다. 비트 풀은 무한하지 않기 때문에, 코딩 프로세스에서 오랜 기간 동안의 평균 비트율은 여전히 CBR 코딩 모드에서 목표 비트율에 근접하도록 제한된다. 이 방법에서 비트 풀의 상태는 모든 과거 프레임 및 현재 프레임에 의해 결정된다. 비트 풀의 상태는 과거 상태에서 현재 상태까지의 전체 기간 동안의 비트율 변동 및 압축 난이도를 반영한다. 비트 풀이 크면, 큰 비트율 변동이 허용될 수 있으므로 코딩된 오디오 품질이 높다. 비트 풀이 작으면, 작은 비트율 변동이 허용될 수 있으므로 코딩된 오디오 품질이 낮다.
심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용된다. 관련 기술에서, 코딩 프로세스에서 오디오 세그먼트 내에 확보되어야 하는 1차 정보 및 코딩 동안 무시될 수 있는 2차 정보는 심리음향 모델을 사용하여 결정된다. 예를 들어, 도 4는 심리음향 프로세스의 예의 개략도이다. 도 4에 도시된 바와 같이, 900Hz에서 높은 에너지를 갖는 마스크가 존재하고, 마스크 부근의 점선 아래의 데시벨에 대응하는 에너지를 갖는 오디오는 사람이 들을 수 없다. 이는 점선 아래의 정보가 코딩되지 않을 수 있음을 나타내는데, 이는 코딩 시에 비트량을 감소시킨다. 마스킹은 세 부분, 즉, 대역 내 마스킹 파라미터 dr, 저대역 마스킹 감쇠 속도 k1 및 고대역 마스킹 감쇠 속도 k2에 의해 결정된다. dr, k1, k2라는 3개의 파라미터는 AAC 양자화 프로세스에서 코딩을 통해 생성된 데이터 패킷의 비트량(비트율)을 직접적으로 결정한다. 데이터 패킷의 실제 비트율이 목표 비트율보다 높으면, dr이 감소된다. 데이터 패킷의 실제 비트율이 목표 비트율보다 낮으면, dr이 증가된다.
스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용된다. 차단 주파수가 높을수록 대응하는 고주파수 오디오 성분이 더 풍부하다는 것을 나타내며, 오디오 품질을 어느 정도 향상시킬 수 있다.
단말 디바이스는 제1 오디오 데이터, 목표 비트율, 및 블루투스 패킷 유형에 대한 특징 추출을 수행하여 제1 특징 벡터를 획득하고, 제1 특징 벡터를 신경망에 입력하여 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득할 수 있다. 도 5는 파라미터 획득 방법의 예의 개략도이다. 도 5에 도시된 바와 같이, 단말 디바이스는 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 대한 특징 변환을 수행하여 특징 벡터, 예를 들어, 음악 특징을 나타내는 비트율 및 멜-주파수 셉스트럴 계수(Mel-frequency cepstral coefficient) 또는 음악 특징을 나타내는 선형 예측 셉스트럴 계수를 추출한다. 특징 추출 프로세스에서, 데이터 규모가 감소되어 계산량을 더 줄일 수 있다. 단말 디바이스는 특징 벡터를 사전 훈련된 신경망에 입력하여 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득한다.
본 출원에서, 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상은 신경망을 사용하여 획득된다는 점에 유의해야 한다. 또한, 전술한 파라미터 세트는 대안적으로 인공 지능(Artificial Intelligence, AI)의 다른 방법 또는 수학적 연산과 같은 방식으로 획득될 수 있다. 이것은 본 출원에서 특별히 제한되지 않는다.
본 출원에서, 단말 디바이스는 신경망의 훈련 데이터 세트를 구성할 수 있다. 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 간의 대응관계를 포함한다. 제1 값 조합은 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이다. 제2 값 조합은 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이다. 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합은 복수의 ODG 등급에 대응한다. 제2 값 조합은 최고 ODG 등급에 대응한다. 단말 디바이스는 훈련 데이터 세트에 기초한 훈련을 통해 신경망을 획득한다.
예를 들어, 도 6은 훈련 데이터 세트의 구성 방법의 개략도이다. 도 6에 도시된 바와 같이, 단말 디바이스는 복수의 오디오 데이터를 획득한다. 단말 디바이스는 제1 값 조합에서 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩한다. 제2 오디오 데이터는 복수의 오디오 데이터 중 어느 하나이다. 단말 디바이스는 코딩 결과에 기초하여 복수의 ODG 등급을 획득한다. 단말 디바이스는 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 제2 값 조합으로 결정한다. 단말 디바이스는 훈련 데이터 세트에 제1 값 조합과 제2 값 조합을 추가한다. 구체적으로, 단말 디바이스는 먼저 대량의 음악 파일을 수집한다. 이러한 음악 파일들의 스타일, 유형 등은 상이하다. 그런 다음, 각 음악 파일의 오디오 데이터에 대해, 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형의 각 값 조합에서, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 값 조합이 지속적으로 변경되어, 대응하는 값 조합을 사용하여 오디오 데이터를 코딩한다. 또한, 코딩을 통해 생성된 복수의 데이터 패킷의 비트율 변동에 대한 통계가 수집되고, 코딩할 때마다 ODG 방법을 사용하여 등급화를 수행한다. 마지막으로, 비트율 변동 요구사항을 충족시키는 최고 ODG 등급에 대응하는 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 값 조합이 출력되어, x = (블루투스 패킷 유형, 목표 비트율 및 오디오 데이터의 값 조합)와 y = (비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 최적 값 조합) 사이의 대응관계를 획득한다. 여기서, x는 신경망의 입력이고, y는 신경망의 출력이며, (x, y)는 신경망의 훈련 데이터 세트를 나타낸다.
훈련 데이터 세트에 기초하여, 단말 디바이스는 추출된 특징 벡터를 훈련을 위해 신경망에 입력하고, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트를 출력하고, 훈련 데이터 세트에서 최적 값 조합과 이들 세트를 비교하여 신경망의 손실을 획득하고, 마지막으로 대량의 역전파 훈련(backward propagation training)을 통해 상이한 목표율, 상이한 블루투스 패킷 유형 및 상이한 오디오 데이터를 예측하는 데 사용될 수 있는 수렴된 신경망을 획득할 수 있다.
신경망 훈련 프로세스에서, 목표 비트율과 블루투스 패킷 유형은 모두 블루투스 채널의 상태에 대응한다. 따라서, 목표 비트율 및 블루투스 패킷 유형에 대응하는 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트의 최적값 조합도 블루투스 채널의 상태에 대응한다. 신경망에서는 블루투스 채널의 상태 변화와, 블루투스 채널의 상태와 매칭되는 관련 파라미터들의 최적값 조합이 모두 고려됨을 알 수 있다.
단계 304: 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 제1 오디오 데이터를 코딩하여 전송될 비트 스트림을 획득한다.
단말 디바이스는 인코더에 대해 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에서의 파라미터들을 설정하고, 제1 오디오 데이터를 코딩하여 코딩된 비트 스트림을 획득할 수 있다. 본 출원에서, 단계 303의 코딩 기술을 참조하여, 제1 오디오 데이터는 이 단계에서 획득된 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 코딩된다. 구현 원리는 유사하다. 자세한 내용은 여기에서 다시 설명되지 않는다. 이러한 방식으로, 블루투스에 대한 비트율 변동이 제한될 수 있고 비교적 높은 오디오 품질 레벨이 보장될 수 있다.
본 출원에서, 블루투스 채널의 현재 상태에 대응하는 목표 비트율 및 블루투스 패킷 유형과 오디오 데이터에 기초하여, 코딩측(즉, 단말 디바이스)은 신경망을 사용하여 코딩을 위한 관련 파라미터를 획득한다. 이러한 방식으로, 블루투스 채널의 상태는 적응적으로 매칭될 수 있고, 오디오 코딩의 비트율 변동이 효과적으로 감소되어, 오디오 전송 중의 간섭 방지 성능을 향상시키고 오디오 품질을 최대로 보장하면서 지속적인 오디오 청취 경험을 제공할 수 있다.
도 7은 본 출원에 따른 오디오 코딩 장치의 실시예의 구조의 개략도이다. 도 7에 도시된 바와 같이, 이 실시예의 장치(700)는 입력 모듈(701), 파라미터 획득 모듈(702), 및 코딩 모듈(703)을 포함할 수 있다. 입력 모듈(701)은, 제1 오디오 데이터를 획득하고, 목표 비트율 및 블루투스 패킷 유형을 획득하도록 구성되는데, 목표 비트율 및 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응한다. 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 복수의 데이터 패킷의 평균 바이트량을 표시하는 데 사용된다. 블루투스 패킷 유형은 블루투스를 통해 전송되는 패킷의 유형을 표시한다. 파라미터 획득 모듈(702)은, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성된다. 비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용된다. 심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용된다. 스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩 이후에 획득된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용된다. 코딩 모듈(703)은 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 제1 오디오 데이터를 코딩하여 전송될 비트 스트림을 획득하도록 구성된다.
가능한 구현에서, 파라미터 획득 모듈(702)은 구체적으로, 제1 오디오 데이터, 목표 비트율 및 블루투스 패킷 유형에 대해 특징 추출을 수행하여 제1 특징 벡터를 획득하고, 제1 특징 벡터를 신경망에 입력하여 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성된다.
가능한 구현에서, 블루투스 패킷 유형은 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함한다.
가능한 구현에서, 파라미터 획득 모듈(702)은 또한, 신경망의 훈련 데이터 세트를 구성하고 ― 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 사이의 대응관계를 포함하고, 제1 값은 조합은 오디오 데이터, 목표 비트율, 및 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이고, 제2 값 조합은 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이고, 비트 풀 파라미터 세트, 심리음향 파라미터 세트, 스펙트럼 대역폭 파라미터 세트의 복수 값 조합은 복수의 ODG 등급에 대응하고, 제2 값 조합은 최고 ODG 등급에 대응함 ―, 훈련 데이터 세트에 기초한 훈련을 통해 신경망을 획득하도록 구성된다.
가능한 구현에서, 파라미터 획득 모듈(702)은 구체적으로, 복수의 오디오 데이터를 획득하고, 제1 값 조합에서 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩하고 ― 제2 오디오 데이터는 복수의 오디오 데이터 중 어느 하나임 ―, 코딩 결과에 기초하여 복수의 ODG 등급을 획득하고, 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 제2 값 조합으로 결정하고, 제1 값 조합 및 제2 값 조합을 훈련 데이터 세트에 추가하도록 구성된다.
이 실시예의 장치(700)는 도 3 내지 도 6에 도시된 방법 실시예의 기술적 솔루션을 수행하도록 구성될 수 있다. 이들의 구현 원리 및 기술적 효과는 유사하며, 여기에서 다시 설명되지 않는다.
도 8은 본 출원에 따른 단말 디바이스의 구조의 개략도이다. 도 8에 도시된 바와 같이, 단말 디바이스(800)는 프로세서(801) 및 송수신기(802)를 포함한다.
선택적으로, 단말 디바이스(800)는 메모리(803)를 더 포함한다. 프로세서(801), 송수신기(802) 및 메모리(803)는 내부 접속 경로를 통해 서로 통신하여 제어 신호 및/또는 데이터 신호를 전송할 수 있다.
메모리(803)는 컴퓨터 프로그램을 저장하도록 구성된다. 프로세서(801)는 메모리(803)에 저장된 컴퓨터 프로그램을 실행하도록 구성되어, 전술한 장치 실시예에서 오디오 코딩 장치의 기능을 구현한다.
선택적으로, 메모리(803)는 프로세서(801)에 통합될 수 있거나, 프로세서(801)와 독립적일 수 있다.
선택적으로, 단말 디바이스(800)는 송수신기(802)에 의해 출력된 신호를 송신하도록 구성된 안테나(804)를 더 포함할 수 있다. 대안적으로, 송수신기(802)는 안테나를 통해 신호를 수신한다.
선택적으로, 단말 디바이스(800)는 단말 디바이스의 다양한 구성요소 또는 회로에 전력을 공급하도록 구성된 전원(805)을 더 포함할 수 있다.
또한, 단말 디바이스의 더 많은 기능을 구현하기 위해, 단말 디바이스(800)는 입력 유닛(806), 디스플레이 유닛(807)(출력 유닛으로 간주될 수도 있음), 오디오 회로(808), 카메라(809), 센서(810) 등 중 하나 이상을 더 포함할 수 있다. 오디오 회로는 스피커(8081), 마이크로폰(8082) 등을 더 포함할 수 있다. 자세한 내용은 여기에서 설명되지 않는다.
이 실시예의 장치(800)는 도 3 내지 도 6에 도시된 방법 실시예의 기술적 솔루션을 수행하도록 구성될 수 있다. 구현 원리 및 기술적 효과는 유사하며, 여기에서 다시 설명하지 않는다.
구현 프로세스에서, 전술한 방법 실시예의 단계들은, 프로세서의 하드웨어 통합형 로직 회로를 사용하거나 소프트웨어 형태의 명령어를 사용함으로써 구현될 수 있다. 프로세서는, 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 애플리케이션 특정 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gate array, FPGA) 또는 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 또는 이산 하드웨어 구성요소일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 통상적인 프로세서 등일 수 있다. 본 출원의 실시예에 개시된 방법의 단계들은 하드웨어 인코딩 프로세서를 사용하여 직접 실행 및 완료될 수 있거나, 인코딩 프로세서의 하드웨어와 소프트웨어 모듈의 조합을 사용하여 실행 및 완료될 수 있다. 소프트웨어 모듈은 당업계에서 성숙된 저장 매체, 예를 들어, 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그램 가능 판독 전용 메모리, 전기적으로 소거 가능한 프로그램 가능 메모리, 또는 레지스터에 위치할 수 있다. 저장 매체는 메모리에 위치하며, 프로세서는 메모리의 정보를 판독하고 프로세서의 하드웨어와 함께 전술한 방법의 단계들을 완료한다.
전술한 실시예의 메모리는 휘발성 메모리 또는 비휘발성 메모리일 수 있거나, 휘발성 메모리와 비휘발성 메모리 모두를 포함할 수 있다. 비휘발성 메모리는 판독 전용 메모리(read-only memory, ROM), 프로그램 가능 판독 전용 메모리(programmable ROM, PROM), 소거 가능한 프로그램 가능 판독 전용 메모리(erasable PROM, EPROM), 전기적으로 소거 가능한 프로그램 가능 판독 전용 메모리(electrically EPROM, EEPROM), 또는 플래시 메모리일 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(random access memory, RAM)일 수 있으며, 외부 캐시로 사용될 수 있다. 비제한적인 예로서, 예를 들어, 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 더블 데이터율의 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 향상된 동기식 동적 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 동기링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM), 및 다이렉트 램버스 랜덤 액세스 메모리(direct rambus RAM, DR RAM)와 같은 많은 형태의 RAM이 사용될 수 있다. 본 명세서에 설명된 시스템 및 방법의 메모리는 이러한 메모리 및 다른 적절한 유형의 임의의 메모리를 포함하지만 이에 제한되지 않는다는 점에 유의해야 한다.
당업자는 본 명세서에 개시된 실시예에서 설명된 예와 결합하여 유닛 및 알고리즘 단계들이 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있음을 인식할 수 있다. 기능이 하드웨어에 의해 수행될지 소프트웨어에 의해 수행될지는 기술적 솔루션의 특정 응용 및 설계 제약에 달려 있다. 당업자는 각각의 특정 응용의 설명된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 이러한 구현은 본 출원의 범위를 벗어나는 것으로 간주되어서는 안 된다.
전술한 시스템, 장치 및 유닛의 상세한 작업 프로세스에 대해서는 편리하고 간략한 설명을 위해 전술한 방법 실시예의 대응하는 프로세스를 참조하고, 세부 사항은 여기에서 다시 설명되지 않는다는 것이 당업자에 의해 명확히 이해될 것이다.
본 출원에 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 예를 들어, 설명된 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛으로의 분할은 단지 논리적 기능 분할이며 실제 구현에서 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 다른 시스템으로 결합되거나 통합될 수 있고, 또는 일부 기능은 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 접속은 일부 인터페이스를 사용하여 구현될 수 있다. 장치들 또는 유닛들 간의 간접 결합 또는 통신 접속은 전자적 형태, 기계적 형태 또는 다른 형태로 구현될 수 있다.
별개의 부분으로 설명된 유닛들은 물리적으로 분리되거나 분리되지 않을 수 있으며, 유닛으로 표시된 부분들은 물리적 유닛이거나 아닐 수 있으며, 한 위치에 있거나 복수의 네트워크 유닛 상에 분산될 수 있다. 유닛들의 일부 또는 전부는 실시예의 솔루션의 목적을 달성하기 위한 실제 요구사항에 기초하여 선택될 수 있다.
또한, 본 출원의 실시예의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되어 독립된 제품으로 판매 또는 사용되는 경우, 그 기능들은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 기본적으로 본 출원의 기술적 솔루션, 또는 기존 기술에 기여하는 부분 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 저장 매체에 저장되며, 본 출원의 실시예에서 설명된 방법의 단계들 중 전부 또는 일부를 수행하도록 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등)에 지시하는 여러 명령어를 포함한다. 저장 매체는, USB 플래시 드라이브, 이동식 하드 디스크, 판독 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 단지 본 출원의 특정 구현일 뿐이며, 본 출원의 보호 범위를 제한하도록 의도된 것이 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 용이하게 파악된 임의의 변형 또는 대체물은 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 보호 범위는 청구범위의 보호 범위에 따른다.
Claims (15)
- 오디오 코딩 방법으로서,
제1 오디오 데이터를 획득하는 단계와,
목표 비트율 및 블루투스 패킷 유형을 획득하는 단계 ― 상기 목표 비트율 및 상기 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응함 ― 와,
상기 제1 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트(bit pool parameter set), 심리음향 파라미터 세트(a psychoacoustic parameter set) 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계 ― 상기 비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용되고, 상기 심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용되며, 상기 스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용됨 ― 와,
상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트, 및 상기 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 상기 제1 오디오 데이터를 코딩하여, 전송될 비트 스트림을 획득하는 단계를 포함하는,
오디오 코딩 방법.
- 제1항에 있어서,
상기 제1 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계는,
상기 제1 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형에 대한 특징 추출을 수행하여 제1 특징 벡터를 획득하는 단계와,
상기 제1 특징 벡터를 상기 신경망에 입력하여, 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하는 단계를 포함하는,
오디오 코딩 방법.
- 제1항 또는 제2항에 있어서,
상기 블루투스 패킷 유형은 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함하는,
오디오 코딩 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용되는,
오디오 코딩 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 오디오 데이터를 획득하는 단계 전에,
상기 신경망의 훈련 데이터 세트를 구성하는 단계 ― 상기 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 사이의 대응관계를 포함하고, 상기 제1 값 조합은 상기 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이고, 상기 제2 값 조합은 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이고, 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 상기 복수의 값 조합은 복수의 ODG 등급에 대응하고, 상기 제2 값 조합은 최고 ODG 등급에 대응함 ― 와,
상기 훈련 데이터 세트에 기초한 훈련을 통해 상기 신경망을 획득하는 단계를 더 포함하는,
오디오 코딩 방법.
- 제5항에 있어서,
상기 신경망의 훈련 데이터 세트를 구성하는 단계는,
복수의 오디오 데이터를 획득하는 단계와,
상기 제1 값 조합에서 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 상기 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩하는 단계 ― 상기 제2 오디오 데이터는 상기 복수의 오디오 데이터 중 어느 하나임 ― 와,
코딩 결과에 기초하여 복수의 ODG 등급을 획득하는 단계와,
상기 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 상기 제2 값 조합으로 결정하는 단계와,
상기 제1 값 조합 및 상기 제2 값 조합을 상기 훈련 데이터 세트에 추가하는 단계를 포함하는,
오디오 코딩 방법.
- 오디오 코딩 장치로서,
제1 오디오 데이터를 획득하고, 목표 비트율 및 블루투스 패킷 유형을 획득하도록 구성된 입력 모듈 ― 상기 목표 비트율 및 상기 블루투스 패킷 유형은 블루투스 채널의 현재 상태에 대응함 ― 과,
상기 제1 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형에 기초한 사전 훈련을 통해 획득된 신경망을 사용하여, 비트 풀 파라미터 세트, 심리음향 파라미터 세트 및 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성된 파라미터 획득 모듈 ― 상기 비트 풀 파라미터 세트 내의 파라미터는 비트 스트림에서 코딩에 사용될 수 있는 나머지 비트의 양을 표시하는 데 사용되고, 상기 심리음향 파라미터 세트 내의 파라미터는 상이한 주파수에서의 코딩에 필요한 비트의 양의 할당을 표시하는 데 사용되며, 상기 스펙트럼 대역폭 파라미터 세트 내의 파라미터는 코딩된 오디오 스펙트럼의 최고 차단 주파수를 표시하는 데 사용됨 ― 과,
상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트, 및 상기 스펙트럼 대역폭 파라미터 세트 중 하나 이상에 기초하여 상기 제1 오디오 데이터를 코딩하여, 전송될 비트 스트림을 획득하도록 구성된 코딩 모듈을 포함하는,
오디오 코딩 장치.
- 제7항에 있어서,
상기 파라미터 획득 모듈은 구체적으로, 상기 제1 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형에 대한 특징 추출을 수행하여 제1 특징 벡터를 획득하고, 상기 제1 특징 벡터를 상기 신경망에 입력하여, 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트 중 하나 이상을 획득하도록 구성되는,
오디오 코딩 장치.
- 제7항 또는 제8항에 있어서,
상기 블루투스 패킷 유형은 2DH1, 2DH3, 2DH5, 3DH1, 3DH3 및 3DH5 중 어느 하나를 포함하는,
오디오 코딩 장치.
- 제7항 내지 제9항 중 어느 한 항에 있어서,
상기 목표 비트율은 지정된 기간 동안 코딩을 통해 생성된 데이터 패킷의 평균 바이트량을 표시하는 데 사용되는,
오디오 코딩 장치.
- 제7항 내지 제10항 중 어느 한 항에 있어서,
상기 파라미터 획득 모듈은 또한, 상기 신경망의 훈련 데이터 세트를 구성하고 ― 상기 훈련 데이터 세트는 제1 값 조합과 제2 값 조합 사이의 대응관계를 포함하고, 상기 제1 값 조합은 상기 오디오 데이터, 상기 목표 비트율 및 상기 블루투스 패킷 유형의 복수의 값 조합 중 어느 하나이고, 상기 제2 값 조합은 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 복수의 값 조합 중 하나이고, 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 상기 복수의 값 조합은 복수의 ODG 등급에 대응하고, 상기 제2 값 조합은 최고 ODG 등급에 대응함 ―, 상기 훈련 데이터 세트에 기초한 훈련을 통해 상기 신경망을 획득하도록 구성되는,
오디오 코딩 장치.
- 제11항에 있어서,
상기 파라미터 획득 모듈은 구체적으로, 복수의 오디오 데이터를 획득하고, 상기 제1 값 조합에서 상기 비트 풀 파라미터 세트, 상기 심리음향 파라미터 세트 및 상기 스펙트럼 대역폭 파라미터 세트의 상기 복수의 값 조합을 사용하여 제2 오디오 데이터를 개별적으로 코딩하고 ― 상기 제2 오디오 데이터는 상기 복수의 오디오 데이터 중 어느 하나임 ―, 코딩 결과에 기초하여 복수의 ODG 등급을 획득하고, 상기 복수의 ODG 등급 중 최고 ODG 등급에 대응하는 값 조합을 상기 제2 값 조합으로 결정하고, 상기 제1 값 조합 및 상기 제2 값 조합을 상기 훈련 데이터 세트에 추가하도록 구성되는,
오디오 코딩 장치.
- 단말 디바이스로서,
하나 이상의 프로세서와,
하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함하되,
상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서는 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현할 수 있게 되는,
단말 디바이스.
- 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체로서,
상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행할 수 있게 되는,
컴퓨터 판독가능 저장 매체.
- 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 프로그램 코드가 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행할 수 있게 되는,
컴퓨터 프로그램 제품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910883038.0 | 2019-09-18 | ||
CN201910883038.0A CN112530444B (zh) | 2019-09-18 | 2019-09-18 | 音频编码方法和装置 |
PCT/CN2020/115123 WO2021052293A1 (zh) | 2019-09-18 | 2020-09-14 | 音频编码方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220066316A true KR20220066316A (ko) | 2022-05-24 |
Family
ID=74883171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227012578A KR20220066316A (ko) | 2019-09-18 | 2020-09-14 | 오디오 코딩 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US12057129B2 (ko) |
EP (1) | EP4024394A4 (ko) |
JP (1) | JP7387879B2 (ko) |
KR (1) | KR20220066316A (ko) |
CN (1) | CN112530444B (ko) |
WO (1) | WO2021052293A1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530444B (zh) * | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
CN114550732B (zh) * | 2022-04-15 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种高频音频信号的编解码方法和相关装置 |
CN114783452B (zh) * | 2022-06-17 | 2022-12-13 | 荣耀终端有限公司 | 音频播放方法、装置及存储介质 |
CN114863940B (zh) * | 2022-07-05 | 2022-09-30 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升音质的方法、装置及介质 |
CN117440440B (zh) * | 2023-12-21 | 2024-03-15 | 艾康恩(深圳)电子科技有限公司 | 一种蓝牙耳机低延迟传输方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5185800A (en) * | 1989-10-13 | 1993-02-09 | Centre National D'etudes Des Telecommunications | Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
AU2002334720B8 (en) * | 2001-09-26 | 2006-08-10 | Interact Devices, Inc. | System and method for communicating media signals |
WO2005096273A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Ameliorations apportees a un procede et un dispositif de codage/decodage audio |
CN1677492A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US7634413B1 (en) | 2005-02-25 | 2009-12-15 | Apple Inc. | Bitrate constrained variable bitrate audio encoding |
US8010370B2 (en) | 2006-07-28 | 2011-08-30 | Apple Inc. | Bitrate control for perceptual coding |
CN101136202B (zh) * | 2006-08-29 | 2011-05-11 | 华为技术有限公司 | 音频信号处理系统、方法以及音频信号收发装置 |
US20100121632A1 (en) * | 2007-04-25 | 2010-05-13 | Panasonic Corporation | Stereo audio encoding device, stereo audio decoding device, and their method |
CN101308659B (zh) * | 2007-05-16 | 2011-11-30 | 中兴通讯股份有限公司 | 一种基于先进音频编码器的心理声学模型的处理方法 |
US20090099851A1 (en) * | 2007-10-11 | 2009-04-16 | Broadcom Corporation | Adaptive bit pool allocation in sub-band coding |
CN100562117C (zh) * | 2007-11-19 | 2009-11-18 | 华为技术有限公司 | 一种码流调度方法、装置和系统 |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
CN101853663B (zh) * | 2009-03-30 | 2012-05-23 | 华为技术有限公司 | 比特分配方法、编码装置及解码装置 |
CN101847413B (zh) * | 2010-04-09 | 2011-11-16 | 北京航空航天大学 | 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法 |
CN102479514B (zh) * | 2010-11-29 | 2014-02-19 | 华为终端有限公司 | 一种编码方法、解码方法、装置和系统 |
US8793557B2 (en) * | 2011-05-19 | 2014-07-29 | Cambrige Silicon Radio Limited | Method and apparatus for real-time multidimensional adaptation of an audio coding system |
CN102436819B (zh) * | 2011-10-25 | 2013-02-13 | 杭州微纳科技有限公司 | 无线音频压缩、解压缩方法及音频编码器和音频解码器 |
US8666753B2 (en) * | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
US8787403B2 (en) * | 2012-05-14 | 2014-07-22 | Texas Instruments Incorporated | Audio convergence control facilitating bitpool value converging to stable level |
CN103532936A (zh) * | 2013-09-28 | 2014-01-22 | 福州瑞芯微电子有限公司 | 一种蓝牙音频自适应传输方法 |
EP3120352B1 (en) * | 2014-03-21 | 2019-05-01 | Dolby International AB | Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal |
US10721471B2 (en) * | 2017-10-26 | 2020-07-21 | Intel Corporation | Deep learning based quantization parameter estimation for video encoding |
EP3483882A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11416742B2 (en) * | 2017-11-24 | 2022-08-16 | Electronics And Telecommunications Research Institute | Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function |
US10270967B1 (en) | 2017-11-30 | 2019-04-23 | Gopro, Inc. | Auto-recording of media data |
CN109981545A (zh) * | 2017-12-28 | 2019-07-05 | 北京松果电子有限公司 | 编码码率调整装置、方法及电子设备 |
CN109785847B (zh) * | 2019-01-25 | 2021-04-30 | 东华大学 | 基于动态残差网络的音频压缩算法 |
EP3771238B1 (en) * | 2019-07-26 | 2022-09-21 | Google LLC | Method for managing a plurality of multimedia communication links in a point-to-multipoint bluetooth network |
CN112530444B (zh) * | 2019-09-18 | 2023-10-03 | 华为技术有限公司 | 音频编码方法和装置 |
US20240033624A1 (en) * | 2020-07-20 | 2024-02-01 | Telefonaktiebolaget Lm Ericsson (Publ) | 5g optimized game rendering |
US20240022787A1 (en) * | 2020-10-13 | 2024-01-18 | Nokia Technologies Oy | Carriage and signaling of neural network representations |
-
2019
- 2019-09-18 CN CN201910883038.0A patent/CN112530444B/zh active Active
-
2020
- 2020-09-14 EP EP20865475.6A patent/EP4024394A4/en active Pending
- 2020-09-14 WO PCT/CN2020/115123 patent/WO2021052293A1/zh unknown
- 2020-09-14 KR KR1020227012578A patent/KR20220066316A/ko not_active Application Discontinuation
- 2020-09-14 JP JP2022517444A patent/JP7387879B2/ja active Active
-
2022
- 2022-03-17 US US17/697,455 patent/US12057129B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220208200A1 (en) | 2022-06-30 |
JP7387879B2 (ja) | 2023-11-28 |
CN112530444B (zh) | 2023-10-03 |
CN112530444A (zh) | 2021-03-19 |
EP4024394A1 (en) | 2022-07-06 |
US12057129B2 (en) | 2024-08-06 |
WO2021052293A1 (zh) | 2021-03-25 |
EP4024394A4 (en) | 2022-10-26 |
JP2022548299A (ja) | 2022-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20220066316A (ko) | 오디오 코딩 방법 및 장치 | |
US10218856B2 (en) | Voice signal processing method, related apparatus, and system | |
US11568882B2 (en) | Inter-channel phase difference parameter encoding method and apparatus | |
KR102628755B1 (ko) | 다운믹스된 신호 계산 방법 및 장치 | |
US12062379B2 (en) | Audio coding of tonal components with a spectrum reservation flag | |
US12100408B2 (en) | Audio coding with tonal component screening in bandwidth extension | |
CN113593586A (zh) | 音频信号编码方法、解码方法、编码设备以及解码设备 | |
US20230040515A1 (en) | Audio signal coding method and apparatus | |
US20230154473A1 (en) | Audio coding method and related apparatus, and computer-readable storage medium | |
US20240355342A1 (en) | Inter-channel phase difference parameter encoding method and apparatus | |
US12057130B2 (en) | Audio signal encoding method and apparatus, and audio signal decoding method and apparatus | |
CN117476021A (zh) | 量化方法、反量化方法及其装置 | |
CN111261175A (zh) | 一种蓝牙音频信号传输方法和装置 | |
CN115881138A (zh) | 解码方法、装置、设备、存储介质及计算机程序产品 | |
CN103871414B (zh) | 一种多声道语音信号的时标调制方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |