RU2020102185A - Устройство и способ оценки задержки - Google Patents
Устройство и способ оценки задержки Download PDFInfo
- Publication number
- RU2020102185A RU2020102185A RU2020102185A RU2020102185A RU2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A
- Authority
- RU
- Russia
- Prior art keywords
- current frame
- time difference
- inter
- channel time
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 31
- 239000008186 active pharmaceutical agent Substances 0.000 claims 28
- 230000003044 adaptive effect Effects 0.000 claims 27
- 230000006870 function Effects 0.000 claims 25
- 238000004364 calculation method Methods 0.000 claims 24
- 238000012417 linear regression Methods 0.000 claims 6
- 230000004913 activation Effects 0.000 claims 4
- 238000001514 detection method Methods 0.000 claims 4
- 238000009499 grossing Methods 0.000 claims 4
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Measurement Of Resistance Or Impedance (AREA)
- Stereophonic System (AREA)
Claims (170)
1. Способ оценки задержки, при этом способ содержит:
определение коэффициента взаимной корреляции многоканального сигнала текущего кадра;
определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
определение адаптивной оконной функции текущего кадра;
выполнение взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
2. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
вычисление первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисление первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
3. Способ по п. 2, в котором первый параметр ширины приподнятого косинуса получают посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
при этом win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
4. Способ по п. 3, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
5. Способ по п. 3, в котором первое смещение по высоте приподнятого косинуса получают посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
при этом win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
6. Способ по п. 5, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
7. Способ по п. 5, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
8. Способ по любому из пп. 1-7, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, …, A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
9. Способ по любому из пп. 2-7, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, дополнительно содержащий:
вычисление отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = = |reg_prv_corr - cur_itd|,
при этом smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
10. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
определение начального значения межканальной временной разности текущего кадра на основе коэффициента взаимной корреляции;
вычисление отклонения оценки межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
причем отклонение оценки межканальной временной разности текущего кадра получают посредством вычисления с использованием следующей формулы вычисления:
dist_reg = |reg_prv_corr - cur_itd_init|,
при этом dist_reg является отклонением оценки межканальной временной разности текущего кадра, reg_prv_corr является значением оценки дорожки задержки текущего кадра, а cur_itd_init является начальным значением межканальной временной разности текущего кадра.
11. Способ по п. 10, в котором определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра содержит:
вычисление второго параметра ширины приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра;
вычисление второго смещения по высоте приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
12. Способ по любому из пп. 1-7, в котором взвешенный коэффициент взаимной корреляции получают посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS),
при этом c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
13. Способ по любому из пп. 1-7, который перед определением адаптивной оконной функции текущего кадра дополнительно содержит:
определение адаптивного параметра адаптивной оконной функции текущего кадра на основе параметра кодирования предыдущего кадра относительно текущего кадра, при этом
параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, или параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, над которым выполнена обработка понижающего микширования во временной области; и адаптивный параметр используется для определения адаптивной оконной функции текущего кадра.
14. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
15. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
16. Способ по любому из пп. 1-7, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, причем информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
17. Способ по п. 16, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, а обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
определение сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновление буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
18. Способ по п. 16, в котором обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованной информации о межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра.
19. Способ по п. 15, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
20. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновление буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1',
при этом wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
21. Способ по п. 20, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
22. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
обновление буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
23. Способ по п. 19, в котором обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
24. Устройство оценки задержки, при этом устройство содержит:
блок определения коэффициента взаимной корреляции, выполненный с возможностью определения коэффициента взаимной корреляции многоканального сигнала текущего кадра;
блок оценки дорожки задержки, выполненный с возможностью определения значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
блок определения адаптивной функции, выполненный с возможностью определения адаптивной оконной функции текущего кадра;
блок взвешивания, выполненный с возможностью взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
блок определения межканальной временной разности, выполненный с возможностью определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
25. Устройство по п. 24, в котором блок определения адаптивной функции выполнен с возможностью:
вычисления первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисления первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
26. Устройство по п. 25, в котором первый параметр ширины приподнятого косинуса получается посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
27. Устройство по п. 26, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
28. Устройство по п. 26, в котором первое смещение по высоте приподнятого косинуса получается посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
29. Устройство по п. 28, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
30. Устройство по п. 28, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
31. Устройство по любому из пп. 24-30, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
32. Устройство по любому из пп. 25-30, при этом устройство дополнительно содержит:
блок определения отклонения сглаженной оценки межканальной временной разности, выполненный с возможностью вычисления отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = = |reg_prv_corr - cur_itd|, при этом
smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
33. Устройство по любому из пп. 24-30, в котором взвешенный коэффициент взаимной корреляции получается посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS), где
c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
34. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
35. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
36. Устройство по любому из пп. 24-30, при этом устройство дополнительно содержит:
блок обновления, выполненный с возможностью обновления буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, при этом информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
37. Устройство по п. 36, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, и блок обновления выполнен с возможностью:
определения сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновления буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
38. Устройство по п. 35, при этом блок обновления дополнительно выполнен с возможностью:
обновления буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
39. Устройство по п. 38, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, блок обновления выполнен с возможностью:
вычисления первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновления буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1’, где
wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
40. Устройство по п. 39, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
41. Устройство аудиокодирования, при этом устройство аудиокодирования содержит процессор и память, соединенную с процессором; и
память выполнена с возможностью нахождения под управлением процессором, и процессор выполнен с возможностью реализации способа оценки задержки по любому из пп. 1-7.
42. Считываемый компьютером носитель, на который записана программа; причем программа побуждает компьютер к исполнению способа по любому из пп. 1-7.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710515887.1A CN109215667B (zh) | 2017-06-29 | 2017-06-29 | 时延估计方法及装置 |
CN201710515887.1 | 2017-06-29 | ||
PCT/CN2018/090631 WO2019001252A1 (zh) | 2017-06-29 | 2018-06-11 | 时延估计方法及装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020102185A true RU2020102185A (ru) | 2021-07-29 |
RU2020102185A3 RU2020102185A3 (ru) | 2021-09-09 |
RU2759716C2 RU2759716C2 (ru) | 2021-11-17 |
Family
ID=64740977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020102185A RU2759716C2 (ru) | 2017-06-29 | 2018-06-11 | Устройство и способ оценки задержки |
Country Status (13)
Country | Link |
---|---|
US (2) | US11304019B2 (ru) |
EP (3) | EP4235655A3 (ru) |
JP (3) | JP7055824B2 (ru) |
KR (5) | KR102428951B1 (ru) |
CN (1) | CN109215667B (ru) |
AU (3) | AU2018295168B2 (ru) |
BR (1) | BR112019027938A2 (ru) |
CA (1) | CA3068655C (ru) |
ES (2) | ES2893758T3 (ru) |
RU (1) | RU2759716C2 (ru) |
SG (1) | SG11201913584TA (ru) |
TW (1) | TWI666630B (ru) |
WO (1) | WO2019001252A1 (ru) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
CN109862503B (zh) * | 2019-01-30 | 2021-02-23 | 北京雷石天地电子技术有限公司 | 一种扬声器延时自动调整的方法与设备 |
EP3751238A4 (en) * | 2019-03-15 | 2021-09-15 | Shenzhen Goodix Technology Co., Ltd. | CORRECTION CIRCUIT AND ASSOCIATED SIGNAL PROCESSING CIRCUIT, AND CHIP |
KR20210154807A (ko) * | 2019-04-18 | 2021-12-21 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 다이얼로그 검출기 |
CN110349592B (zh) * | 2019-07-17 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110895321B (zh) * | 2019-12-06 | 2021-12-10 | 南京南瑞继保电气有限公司 | 一种基于录波文件基准通道的二次设备时标对齐方法 |
KR20220002859U (ko) | 2021-05-27 | 2022-12-06 | 성기봉 | 열 순환 마호타일 판넬 |
CN113382081B (zh) * | 2021-06-28 | 2023-04-07 | 阿波罗智联(北京)科技有限公司 | 时延估计调整方法、装置、设备以及存储介质 |
CN114001758B (zh) * | 2021-11-05 | 2024-04-19 | 江西洪都航空工业集团有限责任公司 | 一种捷联导引头捷联解耦准确确定时间延迟的方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065786A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
AU2002343151A1 (en) * | 2001-11-23 | 2003-06-10 | Koninklijke Philips Electronics N.V. | Perceptual noise substitution |
KR101016982B1 (ko) * | 2002-04-22 | 2011-02-28 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 디코딩 장치 |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
DE602005017660D1 (de) | 2004-12-28 | 2009-12-24 | Panasonic Corp | Audiokodierungsvorrichtung und audiokodierungsmethode |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
US8112286B2 (en) | 2005-10-31 | 2012-02-07 | Panasonic Corporation | Stereo encoding device, and stereo signal predicting method |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
KR101038574B1 (ko) * | 2009-01-16 | 2011-06-02 | 전자부품연구원 | 3차원 오디오 음상 정위 방법과 장치 및 이와 같은 방법을 구현하는 프로그램이 기록되는 기록매체 |
EP2395504B1 (en) | 2009-02-13 | 2013-09-18 | Huawei Technologies Co., Ltd. | Stereo encoding method and apparatus |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
CN101533641B (zh) * | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
KR20110049068A (ko) * | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
CN103366748A (zh) * | 2010-02-12 | 2013-10-23 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102074236B (zh) | 2010-11-29 | 2012-06-06 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
US9424852B2 (en) * | 2011-02-02 | 2016-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Determining the inter-channel time difference of a multi-channel audio signal |
CN103700372B (zh) * | 2013-12-30 | 2016-10-05 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
KR102474541B1 (ko) * | 2014-10-24 | 2022-12-06 | 돌비 인터네셔널 에이비 | 오디오 신호들의 인코딩 및 디코딩 |
CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN106033672B (zh) * | 2015-03-09 | 2021-04-09 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
AU2017229323B2 (en) * | 2016-03-09 | 2020-01-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A method and apparatus for increasing stability of an inter-channel time difference parameter |
CN106209491B (zh) * | 2016-06-16 | 2019-07-02 | 苏州科达科技股份有限公司 | 一种时延检测方法及装置 |
CN106814350B (zh) * | 2017-01-20 | 2019-10-18 | 中国科学院电子学研究所 | 基于压缩感知的外辐射源雷达参考信号信杂比估计方法 |
CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
-
2017
- 2017-06-29 CN CN201710515887.1A patent/CN109215667B/zh active Active
-
2018
- 2018-06-11 EP EP23162751.4A patent/EP4235655A3/en active Pending
- 2018-06-11 KR KR1020217028193A patent/KR102428951B1/ko active IP Right Grant
- 2018-06-11 BR BR112019027938-5A patent/BR112019027938A2/pt unknown
- 2018-06-11 ES ES18825242T patent/ES2893758T3/es active Active
- 2018-06-11 EP EP18825242.3A patent/EP3633674B1/en active Active
- 2018-06-11 AU AU2018295168A patent/AU2018295168B2/en active Active
- 2018-06-11 EP EP21191953.5A patent/EP3989220B1/en active Active
- 2018-06-11 ES ES21191953T patent/ES2944908T3/es active Active
- 2018-06-11 JP JP2019572656A patent/JP7055824B2/ja active Active
- 2018-06-11 KR KR1020207001706A patent/KR102299938B1/ko active IP Right Grant
- 2018-06-11 RU RU2020102185A patent/RU2759716C2/ru active
- 2018-06-11 SG SG11201913584TA patent/SG11201913584TA/en unknown
- 2018-06-11 KR KR1020227026562A patent/KR102533648B1/ko active IP Right Grant
- 2018-06-11 KR KR1020237016239A patent/KR102651379B1/ko active IP Right Grant
- 2018-06-11 WO PCT/CN2018/090631 patent/WO2019001252A1/zh unknown
- 2018-06-11 CA CA3068655A patent/CA3068655C/en active Active
- 2018-06-11 KR KR1020247009498A patent/KR20240042232A/ko unknown
- 2018-06-13 TW TW107120261A patent/TWI666630B/zh active
-
2019
- 2019-12-26 US US16/727,652 patent/US11304019B2/en active Active
-
2022
- 2022-03-08 US US17/689,328 patent/US11950079B2/en active Active
- 2022-04-06 JP JP2022063372A patent/JP7419425B2/ja active Active
- 2022-06-09 AU AU2022203996A patent/AU2022203996B2/en active Active
-
2023
- 2023-12-28 AU AU2023286019A patent/AU2023286019A1/en active Pending
-
2024
- 2024-01-09 JP JP2024001381A patent/JP2024036349A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2020102185A (ru) | Устройство и способ оценки задержки | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
US20210383815A1 (en) | Multi-Channel Signal Encoding Method and Encoder | |
US11217257B2 (en) | Method for encoding multi-channel signal and encoder | |
US10522170B2 (en) | Voice activity modification frame acquiring method, and voice activity detection method and apparatus | |
US9374651B2 (en) | Sensitivity calibration method and audio device | |
JP6067930B2 (ja) | 複数のマイクロフォンのための自動利得整合 | |
US20160314802A1 (en) | Volume controlling method and device | |
JP2023536104A (ja) | 機械学習を用いたノイズ削減 | |
DE602006001051T2 (de) | Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen | |
Schüldt et al. | Decay rate estimators and their performance for blind reverberation time estimation | |
US9779762B2 (en) | Object sound period detection apparatus, noise estimating apparatus and SNR estimation apparatus | |
Schiildt et al. | Blind low-complexity estimation of reverberation time | |
JP7226107B2 (ja) | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 | |
Valeryan | APPLICATION RESPONSES WEIGHING OPERATION TO PROBLEMS OF DETERMINING THE MEASURING INSTRUMENTS DYNAMIC CHARACTERISTICS | |
BR122023026024A2 (pt) | Método de codificação de sinal de canal múltiplo, codificador, e meio de armazenamento legível por computador | |
JP2012019927A (ja) | 周期推定装置、周期推定方法、及びプログラム | |
JP2017534912A5 (ru) |