RU2020102185A - Устройство и способ оценки задержки - Google Patents

Устройство и способ оценки задержки Download PDF

Info

Publication number
RU2020102185A
RU2020102185A RU2020102185A RU2020102185A RU2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A RU 2020102185 A RU2020102185 A RU 2020102185A
Authority
RU
Russia
Prior art keywords
current frame
time difference
inter
channel time
value
Prior art date
Application number
RU2020102185A
Other languages
English (en)
Other versions
RU2759716C2 (ru
RU2020102185A3 (ru
Inventor
Эйал ШЛОМОТ
Хайтин ЛИ
Лэй МЯО
Original Assignee
Хуавэй Текнолоджиз Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Хуавэй Текнолоджиз Ко., Лтд. filed Critical Хуавэй Текнолоджиз Ко., Лтд.
Publication of RU2020102185A publication Critical patent/RU2020102185A/ru
Publication of RU2020102185A3 publication Critical patent/RU2020102185A3/ru
Application granted granted Critical
Publication of RU2759716C2 publication Critical patent/RU2759716C2/ru

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Measurement Of Resistance Or Impedance (AREA)
  • Stereophonic System (AREA)

Claims (170)

1. Способ оценки задержки, при этом способ содержит:
определение коэффициента взаимной корреляции многоканального сигнала текущего кадра;
определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
определение адаптивной оконной функции текущего кадра;
выполнение взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
2. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
вычисление первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисление первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
3. Способ по п. 2, в котором первый параметр ширины приподнятого косинуса получают посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
при этом win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
4. Способ по п. 3, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
5. Способ по п. 3, в котором первое смещение по высоте приподнятого косинуса получают посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
при этом win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
6. Способ по п. 5, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
7. Способ по п. 5, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
8. Способ по любому из пп. 1-7, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, …, A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
9. Способ по любому из пп. 2-7, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, дополнительно содержащий:
вычисление отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = = |reg_prv_corr - cur_itd|,
при этом smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
10. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
определение начального значения межканальной временной разности текущего кадра на основе коэффициента взаимной корреляции;
вычисление отклонения оценки межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
причем отклонение оценки межканальной временной разности текущего кадра получают посредством вычисления с использованием следующей формулы вычисления:
dist_reg = |reg_prv_corr - cur_itd_init|,
при этом dist_reg является отклонением оценки межканальной временной разности текущего кадра, reg_prv_corr является значением оценки дорожки задержки текущего кадра, а cur_itd_init является начальным значением межканальной временной разности текущего кадра.
11. Способ по п. 10, в котором определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра содержит:
вычисление второго параметра ширины приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра;
вычисление второго смещения по высоте приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
12. Способ по любому из пп. 1-7, в котором взвешенный коэффициент взаимной корреляции получают посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS),
при этом c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
13. Способ по любому из пп. 1-7, который перед определением адаптивной оконной функции текущего кадра дополнительно содержит:
определение адаптивного параметра адаптивной оконной функции текущего кадра на основе параметра кодирования предыдущего кадра относительно текущего кадра, при этом
параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, или параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, над которым выполнена обработка понижающего микширования во временной области; и адаптивный параметр используется для определения адаптивной оконной функции текущего кадра.
14. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
15. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
16. Способ по любому из пп. 1-7, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, причем информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
17. Способ по п. 16, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, а обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
определение сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновление буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
18. Способ по п. 16, в котором обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованной информации о межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра.
19. Способ по п. 15, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
20. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновление буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1',
при этом wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
21. Способ по п. 20, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
22. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
обновление буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
23. Способ по п. 19, в котором обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
24. Устройство оценки задержки, при этом устройство содержит:
блок определения коэффициента взаимной корреляции, выполненный с возможностью определения коэффициента взаимной корреляции многоканального сигнала текущего кадра;
блок оценки дорожки задержки, выполненный с возможностью определения значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
блок определения адаптивной функции, выполненный с возможностью определения адаптивной оконной функции текущего кадра;
блок взвешивания, выполненный с возможностью взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
блок определения межканальной временной разности, выполненный с возможностью определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
25. Устройство по п. 24, в котором блок определения адаптивной функции выполнен с возможностью:
вычисления первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисления первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
26. Устройство по п. 25, в котором первый параметр ширины приподнятого косинуса получается посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
27. Устройство по п. 26, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
28. Устройство по п. 26, в котором первое смещение по высоте приподнятого косинуса получается посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
29. Устройство по п. 28, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
30. Устройство по п. 28, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
31. Устройство по любому из пп. 24-30, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
32. Устройство по любому из пп. 25-30, при этом устройство дополнительно содержит:
блок определения отклонения сглаженной оценки межканальной временной разности, выполненный с возможностью вычисления отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = = |reg_prv_corr - cur_itd|, при этом
smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
33. Устройство по любому из пп. 24-30, в котором взвешенный коэффициент взаимной корреляции получается посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS), где
c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
34. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
35. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
36. Устройство по любому из пп. 24-30, при этом устройство дополнительно содержит:
блок обновления, выполненный с возможностью обновления буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, при этом информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
37. Устройство по п. 36, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, и блок обновления выполнен с возможностью:
определения сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновления буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
38. Устройство по п. 35, при этом блок обновления дополнительно выполнен с возможностью:
обновления буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
39. Устройство по п. 38, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, блок обновления выполнен с возможностью:
вычисления первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновления буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1’, где
wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
40. Устройство по п. 39, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
41. Устройство аудиокодирования, при этом устройство аудиокодирования содержит процессор и память, соединенную с процессором; и
память выполнена с возможностью нахождения под управлением процессором, и процессор выполнен с возможностью реализации способа оценки задержки по любому из пп. 1-7.
42. Считываемый компьютером носитель, на который записана программа; причем программа побуждает компьютер к исполнению способа по любому из пп. 1-7.
RU2020102185A 2017-06-29 2018-06-11 Устройство и способ оценки задержки RU2759716C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710515887.1A CN109215667B (zh) 2017-06-29 2017-06-29 时延估计方法及装置
CN201710515887.1 2017-06-29
PCT/CN2018/090631 WO2019001252A1 (zh) 2017-06-29 2018-06-11 时延估计方法及装置

Publications (3)

Publication Number Publication Date
RU2020102185A true RU2020102185A (ru) 2021-07-29
RU2020102185A3 RU2020102185A3 (ru) 2021-09-09
RU2759716C2 RU2759716C2 (ru) 2021-11-17

Family

ID=64740977

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020102185A RU2759716C2 (ru) 2017-06-29 2018-06-11 Устройство и способ оценки задержки

Country Status (13)

Country Link
US (2) US11304019B2 (ru)
EP (3) EP4235655A3 (ru)
JP (3) JP7055824B2 (ru)
KR (5) KR102428951B1 (ru)
CN (1) CN109215667B (ru)
AU (3) AU2018295168B2 (ru)
BR (1) BR112019027938A2 (ru)
CA (1) CA3068655C (ru)
ES (2) ES2893758T3 (ru)
RU (1) RU2759716C2 (ru)
SG (1) SG11201913584TA (ru)
TW (1) TWI666630B (ru)
WO (1) WO2019001252A1 (ru)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN109862503B (zh) * 2019-01-30 2021-02-23 北京雷石天地电子技术有限公司 一种扬声器延时自动调整的方法与设备
EP3751238A4 (en) * 2019-03-15 2021-09-15 Shenzhen Goodix Technology Co., Ltd. CORRECTION CIRCUIT AND ASSOCIATED SIGNAL PROCESSING CIRCUIT, AND CHIP
KR20210154807A (ko) * 2019-04-18 2021-12-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 다이얼로그 검출기
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110895321B (zh) * 2019-12-06 2021-12-10 南京南瑞继保电气有限公司 一种基于录波文件基准通道的二次设备时标对齐方法
KR20220002859U (ko) 2021-05-27 2022-12-06 성기봉 열 순환 마호타일 판넬
CN113382081B (zh) * 2021-06-28 2023-04-07 阿波罗智联(北京)科技有限公司 时延估计调整方法、装置、设备以及存储介质
CN114001758B (zh) * 2021-11-05 2024-04-19 江西洪都航空工业集团有限责任公司 一种捷联导引头捷联解耦准确确定时间延迟的方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065786A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
AU2002343151A1 (en) * 2001-11-23 2003-06-10 Koninklijke Philips Electronics N.V. Perceptual noise substitution
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602005017660D1 (de) 2004-12-28 2009-12-24 Panasonic Corp Audiokodierungsvorrichtung und audiokodierungsmethode
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US8112286B2 (en) 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101038574B1 (ko) * 2009-01-16 2011-06-02 전자부품연구원 3차원 오디오 음상 정위 방법과 장치 및 이와 같은 방법을 구현하는 프로그램이 기록되는 기록매체
EP2395504B1 (en) 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
CN103366748A (zh) * 2010-02-12 2013-10-23 华为技术有限公司 立体声编码的方法、装置
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
CN102074236B (zh) 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
KR102474541B1 (ko) * 2014-10-24 2022-12-06 돌비 인터네셔널 에이비 오디오 신호들의 인코딩 및 디코딩
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
AU2017229323B2 (en) * 2016-03-09 2020-01-16 Telefonaktiebolaget Lm Ericsson (Publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
CN106209491B (zh) * 2016-06-16 2019-07-02 苏州科达科技股份有限公司 一种时延检测方法及装置
CN106814350B (zh) * 2017-01-20 2019-10-18 中国科学院电子学研究所 基于压缩感知的外辐射源雷达参考信号信杂比估计方法
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置

Also Published As

Publication number Publication date
EP4235655A3 (en) 2023-09-13
AU2022203996A1 (en) 2022-06-30
EP3633674A1 (en) 2020-04-08
EP3989220B1 (en) 2023-03-29
RU2759716C2 (ru) 2021-11-17
JP7055824B2 (ja) 2022-04-18
KR102533648B1 (ko) 2023-05-18
ES2893758T3 (es) 2022-02-10
AU2023286019A1 (en) 2024-01-25
CA3068655C (en) 2022-06-14
TW201905900A (zh) 2019-02-01
ES2944908T3 (es) 2023-06-27
TWI666630B (zh) 2019-07-21
CN109215667A (zh) 2019-01-15
US20220191635A1 (en) 2022-06-16
CN109215667B (zh) 2020-12-22
WO2019001252A1 (zh) 2019-01-03
CA3068655A1 (en) 2019-01-03
KR20200017518A (ko) 2020-02-18
KR20210113417A (ko) 2021-09-15
JP2020525852A (ja) 2020-08-27
US11304019B2 (en) 2022-04-12
EP3633674A4 (en) 2020-04-15
KR20240042232A (ko) 2024-04-01
EP3633674B1 (en) 2021-09-15
US11950079B2 (en) 2024-04-02
EP4235655A2 (en) 2023-08-30
AU2022203996B2 (en) 2023-10-19
JP2022093369A (ja) 2022-06-23
AU2018295168B2 (en) 2022-03-10
KR20220110875A (ko) 2022-08-09
RU2020102185A3 (ru) 2021-09-09
SG11201913584TA (en) 2020-01-30
EP3989220A1 (en) 2022-04-27
KR20230074603A (ko) 2023-05-30
BR112019027938A2 (pt) 2020-08-18
JP2024036349A (ja) 2024-03-15
US20200137504A1 (en) 2020-04-30
KR102428951B1 (ko) 2022-08-03
JP7419425B2 (ja) 2024-01-22
KR102651379B1 (ko) 2024-03-26
AU2018295168A1 (en) 2020-01-23
KR102299938B1 (ko) 2021-09-09

Similar Documents

Publication Publication Date Title
RU2020102185A (ru) Устройство и способ оценки задержки
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
US20210383815A1 (en) Multi-Channel Signal Encoding Method and Encoder
US11217257B2 (en) Method for encoding multi-channel signal and encoder
US10522170B2 (en) Voice activity modification frame acquiring method, and voice activity detection method and apparatus
US9374651B2 (en) Sensitivity calibration method and audio device
JP6067930B2 (ja) 複数のマイクロフォンのための自動利得整合
US20160314802A1 (en) Volume controlling method and device
JP2023536104A (ja) 機械学習を用いたノイズ削減
DE602006001051T2 (de) Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
Schüldt et al. Decay rate estimators and their performance for blind reverberation time estimation
US9779762B2 (en) Object sound period detection apparatus, noise estimating apparatus and SNR estimation apparatus
Schiildt et al. Blind low-complexity estimation of reverberation time
JP7226107B2 (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
Valeryan APPLICATION RESPONSES WEIGHING OPERATION TO PROBLEMS OF DETERMINING THE MEASURING INSTRUMENTS DYNAMIC CHARACTERISTICS
BR122023026024A2 (pt) Método de codificação de sinal de canal múltiplo, codificador, e meio de armazenamento legível por computador
JP2012019927A (ja) 周期推定装置、周期推定方法、及びプログラム
JP2017534912A5 (ru)