RU2015112126A - Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи - Google Patents

Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи Download PDF

Info

Publication number
RU2015112126A
RU2015112126A RU2015112126A RU2015112126A RU2015112126A RU 2015112126 A RU2015112126 A RU 2015112126A RU 2015112126 A RU2015112126 A RU 2015112126A RU 2015112126 A RU2015112126 A RU 2015112126A RU 2015112126 A RU2015112126 A RU 2015112126A
Authority
RU
Russia
Prior art keywords
probability
speech
information
estimate
estimating
Prior art date
Application number
RU2015112126A
Other languages
English (en)
Other versions
RU2642353C2 (ru
Inventor
Эманюэль ХАБЕТС
Мая ТАЗЕСКА
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2015112126A publication Critical patent/RU2015112126A/ru
Application granted granted Critical
Publication of RU2642353C2 publication Critical patent/RU2642353C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

1. Устройство для обеспечения оценки вероятности речи, содержащее:первое средство (110; 210; 310) оценки вероятности речи для оценки информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле сцены речь, или в отношении того, не содержит ли звуковое поле сцены речь, ивыходной интерфейс (120; 220) для вывода оценки вероятности речи в зависимости от информации вероятности речи,при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию первой вероятности речи на основе, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.2. Устройство по п. 1,в котором устройство дополнительно содержит второе средство (215; 315) оценки вероятности речи для оценивания оценки вероятности речи, показывающей вторую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь,при этом второе средство (215; 315) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи на основе информации вероятности речи, оцененной посредством первого средства (110; 210; 310) оценки вероятности речи, и на основе одного или более сигналов акустического датчика, которые зависят от звукового поля.3. Устройство по п. 1,в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации направленности, при этом информация направленности показывает то, насколько направленным является звук звукового поля,при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию

Claims (20)

1. Устройство для обеспечения оценки вероятности речи, содержащее:
первое средство (110; 210; 310) оценки вероятности речи для оценки информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле сцены речь, или в отношении того, не содержит ли звуковое поле сцены речь, и
выходной интерфейс (120; 220) для вывода оценки вероятности речи в зависимости от информации вероятности речи,
при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию первой вероятности речи на основе, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.
2. Устройство по п. 1,
в котором устройство дополнительно содержит второе средство (215; 315) оценки вероятности речи для оценивания оценки вероятности речи, показывающей вторую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь,
при этом второе средство (215; 315) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи на основе информации вероятности речи, оцененной посредством первого средства (110; 210; 310) оценки вероятности речи, и на основе одного или более сигналов акустического датчика, которые зависят от звукового поля.
3. Устройство по п. 1,
в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации направленности, при этом информация направленности показывает то, насколько направленным является звук звукового поля,
при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации местоположения, при этом информация местоположения показывает, по меньшей мере, одно местоположение источника звука сцены, или
при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации близости, при этом информация близости показывает, по меньшей мере, одну близость, по меньшей мере, одного возможного звукового объекта к, по меньшей мере, одному датчику близости.
4. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи посредством определения оценки отношения прямого к диффузному для отношения прямого к диффузному в качестве пространственной информации, при этом отношение прямого к диффузному показывает отношение прямого звука, содержащегося в сигналах акустического датчика, к диффузному звуку, содержащемуся в сигналах акустического датчика.
5. Устройство по п. 4,
в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять оценку отношения прямого к диффузному посредством определения оценки когерентности для комплексной когерентности между первым акустическим сигналом из сигналов акустического датчика, при этом первый акустический сигнал записывается посредством первого акустического датчика p, и вторым акустическим сигналом из сигналов акустического датчика, при этом второй акустический сигнал записывается посредством второго акустического датчика q, и
при этом первое средство (110; 210; 310) оценки вероятности речи дополнительно сконфигурировано с возможностью определять отношение прямого к диффузному на основе оценки фазового сдвига для фазового сдвига прямого звука между первым акустическим сигналом и вторым акустическим сигналом.
6. Устройство по п. 5,
в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять оценку отношения прямого к диффузному
Figure 00000001
между первым акустическим сигналом и вторым акустическим сигналом посредством применения формулы:
Figure 00000002
,
где
Figure 00000003
является оценкой когерентности комплексной когерентности между первым акустическим сигналом и вторым акустическим сигналом по отношению к время-частотному интервалу (k, n), где n обозначает время и где k обозначает частоту,
где
Figure 00000004
является оценкой фазового сдвига для фазового сдвига прямого звука между первым акустическим сигналом и вторым акустическим сигналом по отношению к время-частотному интервалу (k, n), и
где
Figure 00000005
соответствует пространственной когерентности между акустическим датчиком p и акустическим датчиком q в чистом поле диффузного звука.
7. Устройство по п. 4, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи посредством определения
Figure 00000006
,
где
Figure 00000007
является оценкой отношения прямого к диффузному, и
где
Figure 00000008
является функцией преобразования, представляющей преобразование оценки отношения прямого к диффузному в значение между 0 и 1.
8. Устройство по п. 7, в котором функция преобразования
Figure 00000009
определяется посредством формулы:
Figure 00000010
,
где
Figure 00000011
является минимальным значением функции преобразования, где
Figure 00000012
является максимальным значением функции преобразования, где c является значением для управления смещением вдоль оси
Figure 00000013
, и где
Figure 00000014
определяет крутизну перехода между
Figure 00000015
и
Figure 00000016
.
9. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр местоположения
Figure 00000017
на основе распределения вероятностей оцененного местоположения источника звука и на основе области интереса, чтобы получать информацию вероятности речи.
10. Устройство по п. 9, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр местоположения
Figure 00000018
посредством использования формулы
Figure 00000019
где
Figure 00000020
является конкретным местоположением, где
Figure 00000021
является оцененным местоположением,
где
Figure 00000022
является функцией плотности условной вероятности, и
где
Figure 00000023
является функцией плотности априорной вероятности для
Figure 00000024
, и
где
Figure 00000025
является функцией плотности вероятности для
Figure 00000026
, и
где
Figure 00000027
обозначает неопределенность, ассоциированную с оценками для
Figure 00000028
, и
где
Figure 00000029
является многомерной функцией, которая описывает область интереса, при этом
Figure 00000030
.
11. Устройство по п. 4,
в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять априорную вероятность присутствия речи q(k, n) в качестве информации вероятности речи посредством применения формулы:
Figure 00000031
где
Figure 00000032
является конкретным направлением прибытия, и где
Figure 00000033
является оцененным направлением прибытия,
где
Figure 00000034
является функцией плотности условной вероятности, и
где
Figure 00000035
является функцией плотности априорной вероятности для
Figure 00000036
, и
где
Figure 00000037
является функцией плотности вероятности для
Figure 00000038
, и
где
Figure 00000039
обозначает неопределенность, ассоциированную с оценками для
Figure 00000040
и
где
Figure 00000041
представляет преобразование оценки отношения прямого к диффузному
Figure 00000042
в значение между 0 и 1, и
где
Figure 00000043
является многомерной функцией, которая описывает область интереса, при этом
Figure 00000044
.
12. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр близости в качестве пространственной информации,
при этом параметр близости имеет первое значение параметра, когда первое средство (110; 210; 310) оценки вероятности речи обнаруживает один или более возможных источников звука в пределах предварительно определенного расстояния от датчика близости, и при этом параметр близости имеет второе значение параметра, которое является меньшим, чем первое значение параметра, когда первое средство (110; 210; 310) оценки вероятности речи не обнаруживает возможные источники звука в прямой близости к датчику близости, и
при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять первое значение вероятности речи в качестве информации вероятности речи, когда параметр близости имеет первое значение параметра, и при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять второе значение вероятности речи в качестве информации вероятности речи, когда параметр близости имеет второе значение параметра, при этом первое значение вероятности речи показывает первую вероятность того, что звуковое поле содержит речь, при этом первая вероятность больше, чем вторая вероятность того, что звуковое поле содержит речь, при этом вторая вероятность показывается посредством второго значения вероятности речи.
13. Устройство для определения оценки спектральной плотности мощности шума, содержащее:
устройство (910) по п. 1, и
блок (920) оценки спектральной плотности мощности шума,
при этом устройство (910) по п. 1 сконфигурировано с возможностью обеспечивать оценку вероятности речи в блок (920) оценки спектральной плотности мощности шума, и
при этом блок (920) оценки спектральной плотности мощности шума сконфигурирован с возможностью определять оценку спектральной плотности мощности шума на основе оценки вероятности речи и множества входных аудиоканалов.
14. Устройство по п. 13,
в котором устройство (910) по п. 1 сконфигурировано с возможностью вычислять один или более пространственных параметров, при этом упомянутые один или более пространственных параметров показывают пространственную информацию о звуковом поле,
при этом устройство (910) по п. 1 сконфигурировано с возможностью вычислять оценку вероятности речи посредством использования упомянутых одного или более пространственных параметров, и
при этом блок (920) оценки спектральной плотности мощности шума сконфигурирован с возможностью определять оценку спектральной плотности мощности шума посредством обновления предыдущей матрицы спектральной плотности мощности шума в зависимости от оценки вероятности речи, чтобы получать обновленную матрицу спектральной плотности мощности шума в качестве оценки спектральной плотности мощности шума.
15. Устройство для оценки вектора управления, содержащее:
устройство (1010) по п. 1, и
блок (1020) оценки вектора управления,
при этом устройство (1010) по п. 1 сконфигурировано с возможностью обеспечивать оценку вероятности речи в блок (1020) оценки вектора управления, и
при этом блок (1020) оценки вектора управления сконфигурирован с возможностью оценивать вектор управления на основе оценки вероятности речи и множества входных аудиоканалов.
16. Устройство для уменьшения многоканального шума, содержащее:
устройство (1110) по п. 1, и
блок (1120) фильтра,
при этом блок (1120) фильтра сконфигурирован с возможностью принимать множество входных каналов аудио,
при этом устройство (1110) по п. 1 сконфигурировано с возможностью обеспечивать информацию вероятности речи в блок (1120) фильтра, и
при этом блок (1120) фильтра сконфигурирован с возможностью фильтровать множество входных каналов аудио, чтобы получать фильтрованные аудиоканалы на основе информации вероятности речи.
17. Устройство по п. 16, в котором первое средство (110; 210; 310) оценки вероятности речи устройства (1110) по п. 1 сконфигурировано с возможностью генерировать параметр компромиссного соотношения, при этом параметр компромиссного соотношения зависит от, по меньшей мере, одного пространственного параметра, показывающего пространственную информацию о звуковом поле или пространственную информацию о сцене.
18. Устройство по п. 17, в котором блок (1120) фильтра сконфигурирован с возможностью фильтровать множество входных каналов аудио в зависимости от параметра компромиссного соотношения.
19. Способ для обеспечения оценки вероятности речи, содержащий:
оценку информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь, и
вывод оценки вероятности речи в зависимости от информации вероятности речи,
при этом оценка информации первой вероятности речи основывается на, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.
20. Компьютерная программа для осуществления способа по п. 19, когда исполняется на компьютере или сигнальном процессоре.
RU2015112126A 2012-09-03 2012-09-03 Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи RU2642353C2 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/067124 WO2014032738A1 (en) 2012-09-03 2012-09-03 Apparatus and method for providing an informed multichannel speech presence probability estimation

Publications (2)

Publication Number Publication Date
RU2015112126A true RU2015112126A (ru) 2016-10-20
RU2642353C2 RU2642353C2 (ru) 2018-01-24

Family

ID=46888395

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015112126A RU2642353C2 (ru) 2012-09-03 2012-09-03 Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи

Country Status (7)

Country Link
US (1) US9633651B2 (ru)
EP (1) EP2893532B1 (ru)
JP (1) JP6129316B2 (ru)
CN (1) CN104781880B (ru)
BR (1) BR112015004625B1 (ru)
RU (1) RU2642353C2 (ru)
WO (1) WO2014032738A1 (ru)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
EP3230981B1 (en) 2014-12-12 2020-05-06 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
WO2017065092A1 (ja) 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置
RU2727883C2 (ru) * 2015-10-13 2020-07-24 Сони Корпорейшн Устройство обработки информации
CN108074582B (zh) * 2016-11-10 2021-08-06 电信科学技术研究院 一种噪声抑制信噪比估计方法和用户终端
US10219098B2 (en) * 2017-03-03 2019-02-26 GM Global Technology Operations LLC Location estimation of active speaker
CN106960672B (zh) * 2017-03-30 2020-08-21 国家计算机网络与信息安全管理中心 一种立体声音频的带宽扩展方法与装置
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
WO2019246562A1 (en) 2018-06-21 2019-12-26 Magic Leap, Inc. Wearable system speech processing
US11417351B2 (en) * 2018-06-26 2022-08-16 Google Llc Multi-channel echo cancellation with scenario memory
CN109616139B (zh) * 2018-12-25 2023-11-03 平安科技(深圳)有限公司 语音信号噪声功率谱密度估计方法和装置
WO2020180719A1 (en) 2019-03-01 2020-09-10 Magic Leap, Inc. Determining input for speech processing engine
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
WO2021064468A1 (en) * 2019-10-04 2021-04-08 Soundskrit Inc. Sound source localization with co-located sensor elements
US11315586B2 (en) * 2019-10-27 2022-04-26 British Cayman Islands Intelligo Technology Inc. Apparatus and method for multiple-microphone speech enhancement
CN110830870B (zh) * 2019-11-26 2021-05-14 北京声加科技有限公司 一种基于传声器技术的耳机佩戴者语音活动检测系统
CN112951264B (zh) * 2019-12-10 2022-05-17 中国科学院声学研究所 一种基于混合式概率模型的多通道声源分离方法
US11270720B2 (en) * 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
US11917384B2 (en) * 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
CN111192569B (zh) * 2020-03-30 2020-07-28 深圳市友杰智新科技有限公司 双麦语音特征提取方法、装置、计算机设备和存储介质
KR20210125846A (ko) * 2020-04-09 2021-10-19 삼성전자주식회사 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US20230230612A1 (en) * 2022-01-18 2023-07-20 Google Llc Privacy-preserving social interaction measurement
CN117275528B (zh) * 2023-11-17 2024-03-01 浙江华创视讯科技有限公司 语音存在概率的估计方法及装置

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6374216B1 (en) * 1999-09-27 2002-04-16 International Business Machines Corporation Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition
US6609094B1 (en) * 2000-05-22 2003-08-19 International Business Machines Corporation Maximum entropy and maximum likelihood criteria for feature selection from multivariate data
KR100400226B1 (ko) 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
DK1509065T3 (da) * 2003-08-21 2006-08-07 Bernafon Ag Fremgangsmåde til behandling af audiosignaler
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
US8788265B2 (en) * 2004-05-25 2014-07-22 Nokia Solutions And Networks Oy System and method for babble noise detection
US7518631B2 (en) * 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
US8218460B2 (en) * 2006-12-27 2012-07-10 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US7626889B2 (en) * 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
JP5215826B2 (ja) * 2008-11-28 2013-06-19 日本電信電話株式会社 複数信号区間推定装置とその方法とプログラム
KR101253102B1 (ko) * 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
US8600073B2 (en) 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
TWI530201B (zh) * 2010-12-03 2016-04-11 弗勞恩霍夫爾協會 經由自抵達方向估值提取幾何資訊之聲音擷取技術
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same

Also Published As

Publication number Publication date
US20150310857A1 (en) 2015-10-29
CN104781880B (zh) 2017-11-28
RU2642353C2 (ru) 2018-01-24
JP6129316B2 (ja) 2017-05-17
CN104781880A (zh) 2015-07-15
EP2893532B1 (en) 2021-03-24
BR112015004625A2 (pt) 2017-07-04
JP2015526767A (ja) 2015-09-10
BR112015004625B1 (pt) 2021-12-07
EP2893532A1 (en) 2015-07-15
US9633651B2 (en) 2017-04-25
WO2014032738A1 (en) 2014-03-06

Similar Documents

Publication Publication Date Title
RU2015112126A (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
JP6431884B2 (ja) シングルチャンネル音声残響除去方法及びその装置
US10334357B2 (en) Machine learning based sound field analysis
KR101910679B1 (ko) 마이크로폰 어레이를 위한 잡음 적응형 빔 형성 기법
CN105793723B (zh) 使用移动声源的麦克风自定位
JP2021533423A (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
JP5207479B2 (ja) 雑音抑圧装置およびプログラム
RU2013144058A (ru) Устройство и способ для определения показателя для воспринимаемого уровня реверберации, аудиопроцессор и способ для обработки сигнала
JP5985108B2 (ja) マイクロフォンの位置を決定するための方法及び機器
RU2013123696A (ru) Эхоподавление, содержащее моделирование компонентов поздней реверберации
CN111128210B (zh) 具有声学回声消除的音频信号处理的方法和系统
RU2015144125A (ru) Выбор фильтра для достижения пространственного звучания
KR20180073664A (ko) 소리 신호를 강화하는 소리 신호 처리 장치 및 방법
RU2016105692A (ru) Способ обработки аудиосигнала, блок обработки сигналов, стереофонический рендерер, аудиокодер и аудиодекодер
MY192210A (en) Apparatus and method for enhanced spatial audio object coding
US20190080709A1 (en) Spectral Estimation Of Room Acoustic Parameters
EP2830043A3 (en) Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
KR20170053623A (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
EP3016102A1 (en) Control device and control method
US20160171965A1 (en) Vibration source estimation device, vibration source estimation method, and vibration source estimation program
JP6858836B2 (ja) チャネル間時間差パラメータの安定性を増加させるための方法および装置
RU2019124534A (ru) Звукозапись с использованием формирования диаграммы направленности
JP2016039410A5 (ru)
KR102008745B1 (ko) 이동 디바이스들을 위한 서라운드 사운드 레코딩
JP2023133472A (ja) ギャップ信頼度を用いた背景雑音推定