KR20170106430A

KR20170106430A - 마스킹된 스피치 존에서 재생되는 스피치를 마스킹하도록 구성된 스피치 재생 디바이스

Info

Publication number: KR20170106430A
Application number: KR1020177023050A
Authority: KR
Inventors: 안드레아스 발터; 마틴 슈네이더; 엠마뉴엘 하베츠; 올리버 헬무트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-01-20
Filing date: 2016-01-13
Publication date: 2017-09-20
Also published as: US20170316773A1; AU2016208741A1; KR102038528B1; EP3248186A1; CN107210032B; BR112017015388A2; AU2021200589A1; MX2017009378A; CN107210032A; EP3248186B1; WO2016116330A1; AU2021200589B2; PL3248186T3; ES2913870T3; JP6851980B2; BR112017015388B1; JP2018506080A; RU2666675C1; EP3048608A1; AU2019201415A1

Abstract

본 발명은, 재생되는 스피치가 명료한 스피치 존에서는 이해될 수 있고 마스킹된 스피치 존에서는 이해 불가능하도록, 수신된 스피치 신호에 기초하여 스피치를 재생하기 위한 스피치 재생 디바이스에 관한 것으로, 스피치 재생 디바이스는,
스피치 신호를 수신하도록 구성된 오디오 처리 모듈;
하나 이상의 스피치 라우드스피커 신호들에 기초하여 스피치를 재생하도록 구성된 스피치 라우드스피커들의 세트; 및
하나 이상의 마스킹 사운드 라우드스피커 신호들에 기초하여 마스킹 사운드를 발생시키도록 구성된 마스킹 사운드 라우드스피커들의 세트를 포함하며, 마스킹 사운드는 마스킹된 스피치 존에서 스피치를 마스킹하고,
오디오 처리 모듈은 스피치 신호의 스펙트럼 및/또는 시간 특성들에 기초하여 하나 이상의 분석 신호들을 발생시키도록 구성된 스피치 신호 분석 모듈을 포함하며,
오디오 처리 모듈은 하나 이상의 분석 신호들에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된 마스킹 사운드 발생기를 포함한다.

Description

마스킹된 스피치 존에서 재생되는 스피치를 마스킹하도록 구성된 스피치 재생 디바이스

본 발명은 스피치 재생 및 재생되는 스피치의 마스킹에 관한 것이다. 서로 다른 상황들이 스피치 마스킹의 적용을 제안하는데, 다음에 세 가지 예들이 주어진다:

1. 공유된 사무실 공간들, 여기서 각각의 직원은 잠재적으로, 다른 사람들의 대화들이 전화를 통해 수행되는지 아니면 직접 수행되는지 상관 없이 이러한 대화들을 이해할 때, 자신들에게 할당된 작업에 집중하지 못하게 될 수 있다. 이러한 경우들에, 스피치 마스킹 시스템은 스피치 이해력을 억제함으로써 작업의 편안함을 증가시킬 수 있다. 또한, 스피치 마스킹 시스템이 이를 달성하는데 분명히 도움이 될 수 있는 대화 내용을 비밀로 유지할(즉, 스피치 프라이버시를 증가시킬) 필요가 있을 수 있다.

2. 사람이 잠재적으로 비밀인 대화를 나누는 한편, 차량 객실에 지정된 운전자가 있고 그 사이에 물리적 장벽이 없는 차내 시나리오. 이 경우, 주된 목표는 대화의 비밀을 유지하는 것일 것이며, 운전자가 산만해지지 않는 한, 운전자의 편의는 덜 중요하다.

3. 진료실에서는, 접수 담당자와의 핸즈프리 통신을 가능하게 하는 디바이스들이 종종 있다. 긴급한 경우들에: 접수 담당자는 다른 환자를 진료하고 있는 동안 해당 디바이스를 사용하여 환자에 대한 세부사항들을 언급하는 것이 필요할 수도 있다. 그 경우, 비밀성을 보장하기 위해 스피치 마스킹 시스템이 사용될 수 있다. 참석하는 환자들은 의사가 절대 비밀을 유지할 것으로 예상하므로 이 마스킹을 수락할 수도 있다.

작업 편의성을 높이는데 사용되는 스피치 마스킹 시스템들은 해당 기술분야에 잘 알려져 있다. 그러나 이러한 시스템들은 스피치 프라이버시를 제공하기에는 비효율적이다. 알려진 시스템들의 대부분은 주로 작업 편의성을 높이는 것을 의도로 하지만, 스피치 프라이버시는 부차적인 것으로 간주된다.

전기 통신 디바이스에 의해 재생된 음향 장면만을 고려할 때, 재생은 또한 빔 형성 또는 다수의 존 재생들에 의해 명료한 스피치 존에 의해 제한될 수 있다. 그러나 많은 수의 필요한 라우드스피커들을 통한 노력 외에도, 그러한 시스템은 마스킹된 스피치 존에서 달성된 절대 음압 레벨이 여전히 인간의 청력 임계치보다 훨씬 높기 때문에, 충분한 수준의 스피치 프라이버시를 결코 달성하지 못할 것이다. 이는 능동 잡음 제거/제어 접근 방식들에도 마찬가지이며, 이는 재생된 임의의 신호뿐만 아니라 로컬 인간 스피커들도 잠재적으로 제거할 수 있다. 더욱이, 이러한 기술들은 가능하게는 다수의 마이크로폰들의 사용을 필요로 하며, 필요한 적응적 필터링은 도전적인 것으로 알려진 과제이다[4]. 결국, 능동 잡음 제어는 저주파 음원들이나 배기 덕트들과 같은 단순한 시나리오들에서만 성공적으로 사용되었다[4].

널리 사용되는 방법은 마스킹 사운드의 존재시 스피치의 이해력이 억제되도록 스피치(마스키(maskee))로부터 구별(즉, 지각적으로 분리)될 수 없는 마스킹 사운드(마스커(masker))를 생성하는 것이다. 흔히 사운드 마스킹이라는 용어가 그러한 시스템들에 사용되는데, 보통 어떤 종류의 마스커 사운드는 특정 영역에서 재생되기 때문이다. 접근 방식은 공기 상태와 같은 배경 잡음을 재생하는 것이다. 이 잡음은 스피치에 오버레이하여 이해하기 어렵게 하는데 도움이 된다. 이러한 마스킹은 매우 큰 마스킹 사운드들을 재생함으로써 이루어질 수 있지만, 사운드 마스킹 기술들은 가능한 한 낮은 사운드 레벨로 적절한 마스커를 사용하려고 한다.

흔히 백색 잡음 또는 핑크 잡음이 사용되는데, 이는 낮은 재생 레벨들에서는 스피치 프라이버시가 달성될 수 있는 정도까지 스피치를 마스킹하는데 그다지 효과적이지 못하다. 유도 잡음의 마스킹 효과를 향상시키기 위해 이전에 제안된 방법들은 다음과 같이 요약된다.

[12]에서, 저자들은 문헌으로부터 바람 소리나 파도 소리와 같이 거슬리지 않는 특징 및 주파수 스펙트럼을 가진 사운드들이 스피치 프라이버시를 달성하는 데 적합하다고 언급한다. 이 문헌은 또한 사운드의 근원지가 청취자에 의해 국소화될 수 있다면 사운드가 더 거슬린다고 언급한다. 마스킹 잡음의 균일하고 국소화 가능하지 않은 분포는 일부 시나리오들에서 유리한 것으로 밝혀졌다. 따라서 [12]는 분산되고, 균일하며, 국소화되지 않은 사운드 공간을 생성하기 위한 다수의 역상관 잡음 소스들의 사용을 제안한다.

마스킹 사운드의 레벨이 예를 들어, 주변 환경 특성들 또는 마스킹되어야 하는 스피커의 음성 레벨에 대응하여 적응적으로 변화한다면 유리한 것으로 밝혀졌다(예를 들어, [10, [5] 참조). 또한, 레벨 적응 외에도 마스커의 스펙트럼 특성들의 자동 적용이 유리한 것으로 알려져 있다(예컨대, [11], [5] 참조). [6]이 이 점에 대해 제안한다: "적응적 사운드 마스킹 시스템 및 방법은 원하지 않는 사운드를 시간 블록들로 분해하고 주파수 스펙트럼 및 전력 레벨을 추정하며, 원하지 않는 사운드를 마스킹하기 위해 매칭하는 스펙트럼 및 전력 레벨을 갖는 백색 잡음을 지속적으로 생성한다."

다른 애플리케이션은 구체적으로 양호한 스피치를 마스킹[9]하거나 “소스(말하는 사람)의 특성들과 밀접하게 매칭하는”[10] 마스킹 잡음을 생성하는 능력을 갖는 특정 잡음 형상들을 생성한다. 후자의 방법들은, 스피치를 이해할 수 없게 하는 특정한 목표를 갖고, 유사한 사운드들을 인위적으로 생성하거나, 발화들의 랜덤 연결들을 데이터베이스로부터 재생함으로써 스피치 발화들과 매우 유사한 마스킹 사운드를 사용하여 제안되었다(예를 들어, [10], [2] 참조). [10]은 스피치 사운드들을 사용하여 마스킹 사운드를 거슬리지 않게 한다. 그러나 이는 예를 들어, 그 사운드에 노출된 운전자에게는 여전히 산만할 수 있다.

스피치 프라이버시를 달성하기 위해 제안된 다른 방법들은 예를 들어, 의도된 위치에서 타깃 스피치를 제거하려고 시도하는 상쇄 신호들의 생성이다. 일본 특허 출원[7]은 차량 객실들을 위한 이러한 스피치 프라이버시 보호 디바이스를 개시한다. 대화가 캡처되고, 대화를 들리지 않아야 하는 위치에 상쇄 사운드가 공급된다.

애플리케이션에 따라, 마스킹 잡음은 화자 주위의 넓은 영역에서 재생되거나 화자 자체 근처에서 발생되거나([10], [3] 참조) 물리적 수단에 의해 존들이 (추가로) 분리된다[8].

Chatter Blocker[1]는 개별적으로 또는 결합하여 재생될 수 있고 사용자에 의해 레벨이 조정될 수 있는 여러 가지 카테고리들(사운드 효과들, 음악 채터 음성)로부터의 사운드들을 마스킹하는 애플리케이션이다. 이는 재생 디바이스(예컨대, 태블릿)의 내장 라우드스피커 또는 재생 디바이스에 접속된 외부 라우드스피커들을 사용한다.

스피치의 재생 및 재생된 스피치를 마스킹하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다.

이 과제는, 재생되는 스피치가 명료한 스피치 존에서는 이해될 수 있고 마스킹된 스피치 존에서는 이해 불가능하도록, 수신된 스피치 신호에 기초하여 스피치를 재생하기 위한 스피치 재생 디바이스에 의해 달성되며, 스피치 재생 디바이스는,

스피치 신호를 수신하도록 구성된 오디오 처리 모듈;

하나 이상의 스피치 라우드스피커 신호들에 기초하여 스피치를 재생하도록 구성된 스피치 라우드스피커들의 세트; 및

하나 이상의 마스킹 사운드 라우드스피커 신호들에 기초하여 마스킹 사운드를 발생시키도록 구성된 마스킹 사운드 라우드스피커들의 세트를 포함하며, 마스킹 사운드는 마스킹된 스피치 존에서 스피치를 마스킹하고,

오디오 처리 모듈은 스피치 신호에 기초하여 하나 이상의 스피치 라우드스피커 신호들을 발생시키도록 구성된 스피치 라우드스피커 신호 발생기를 포함하고,

오디오 처리 모듈은 스피치 신호의 스펙트럼 및/또는 시간 특성들에 기초하여 하나 이상의 분석 신호들을 발생시키도록 구성된 스피치 신호 분석 모듈을 포함하며,

오디오 처리 모듈은 하나 이상의 분석 신호들에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된 마스킹 사운드 발생기를 포함하고,

오디오 처리 모듈은 하나 이상의 마스킹 사운드 신호들에 기초하여 하나 이상의 마스킹 사운드 라우드스피커 신호들을 발생시키도록 구성된 마스킹 사운드 라우드스피커 신호 발생기를 포함한다.

"스피치 라우드스피커들의 세트"라는 용어는 스피치를 재생할 수 있는 하나 이상의 라우드스피커들을 의미한다. 마찬가지로, "마스킹 사운드 라우드스피커들의 세트"라는 용어는 마스킹 사운드들을 발생시킬 수 있는 하나 이상의 라우드스피커들을 의미한다. 그러나 일반적으로는, 특정 라우드스피커가 스피치 라우드스피커들의 세트 또는 마스킹 사운드 라우드스피커들의 세트 중 어느 하나에 속하지만 두 세트들 모두에는 속하지 않도록 스피치 라우드스피커들의 세트는 마스킹 사운드 라우드스피커들의 세트와 별개이다. 그 결과, 스피치 라우드스피커들은 스피치 라우드스피커들에 의해 재생된 스피치가 대개는 명료한 스피치 존으로 지향되는 식으로 위치될 수 있는 반면, 마스킹 사운드 라우드스피커들은 스피치 라우드스피커들에 의해 생성된 마스킹 사운드가 대개는 마스킹된 스피치 존에 지향되는 식으로 위치될 수 있다.

본 발명은 다른 위치의 의도된 청취자 또는 의도된 청취자들에게는 여전히 이해할 수 있게 하면서, (도청자(들)로도 지칭될 수 있는) 의도되지 않은 청취자 또는 의도되지 않은 청취자들에게는 스피치를 이해할 수 없게 하기 위한 개선된 개념을 제공한다.

고려되는 시나리오에서, 재생되는 스피치는 명료한 스피치 존으로 지칭되는 주어진 영역에서 이해 가능하도록 의도된다. 동시에, 재생되는 스피치는 마스킹된 스피치 존으로 지칭되는 다른 주어진 영역에서는 이해될 수 없어야 하며, 여기서는 두 존들 모두가 근처에 위치될 수 있다. 이는 불가피한 도청자가 의도된 청취자 주변 내에 있어야 할 때마다 바람직하다.

스피치의 이해는 명료한 스피치 존에서 또는 명료한 스피치 존 가까이에서 재생되는 스피치(마스키)의 특성들에 따라 적응적으로 생성되는 마스킹 사운드(마스커)에 의해 금지된다. 즉: "마스키"는 마스킹되어야 하는 스피치를 나타낸다. 마스킹 사운드는 마스킹된 스피치 존에서 또는 그 근처에서 재생된다.

스피치 라우드스피커 신호 발생기는 렌더러를 포함할 수 있다. 같은 식으로, 마스킹 사운드 라우드스피커 신호 발생기는 렌더러를 포함할 수 있다.

일부 관련 기술들과는 대조적으로, 본 명세서에서 설명되는 바와 같은 개념의 목표는 하나 이상의 현재 발화자들의 스피치를 마스킹하는 것이 아니라, 재생되는 스피치를 마스킹하는 것인데, 재생되는 스피치는 예를 들어, 핸즈프리 전기 통신 디바이스에 의해 재생되며, 여기서 재생되는 스피치는 핸즈프리 전기 통신 디바이스에 의해 수신된 원단 신호를 기반으로 한다.

본 발명은 주변 직원들의 작업 편의성을 향상시키는 것보다는 스피치 프라이버시를 달성하는 것을 목표로 한다. (의도적으로 또는 의도치 않게) 발화자의 주변에 있는 사람들이 대화를 파악할 수 없거나 내용을 이해할 수 없다면 스피치 프라이버시가 부여된다. 이는 원단 상대방이 잠재적으로 도청자를 인지하지 못하는 핸즈프리 전화 통화들에 특히 중요하다.

본 발명은 전기 통신 디바이스와 같은 스피치 재생 디바이스에서의 마스킹 잡음 발생기의 최적의 통합을 포괄한다. 다음 양상들이 고려된다:

마스킹 잡음 발생기에 필요한 정보 제공

주어진 명료한 스피치 존에서 주로 명료한 스피치 신호 재생.

주어진 마스킹된 스피치 존에서 주로 마스킹 잡음 재생.

마스킹 잡음 발생기에 필요한 정보를 제공하기 위해, 수신된 스피치 신호는 스피치 재생 디바이스에서 그 재생 전에 직접 관찰된다.

본 발명에 따르면, 마스킹 사운드는 도착하는 스피치 신호에 적응된다. 이를 달성하기 위해, 스피치 신호가 스피치 라우드스피커들을 사용하여 스피치로 변환되기 전에 스피치 신호는 스피치 신호 분석기 모듈에 의해 직접 분석된다. 이와는 대조적으로, 종래 기술의 솔루션들은 마이크로폰을 사용하여 스피치를 신호로 변환하고, 그 다음 신호가 분석된다.

본 발명은 마스킹 사운드를 재생되는 스피치에 적응시키는 개선점을 제공한다. 이에 대한 한 가지 이유는 마스킹 사운드의 사전 대응적인 적응은 시간에 관해서는, 스피치가 결국 발생되기 전에 도착하는 스피치 신호의 분석이 이루어질 수 있기 때문에 가능하다. 이와는 대조적으로, 재생되는 스피치를 분석하기 위해 마이크로폰으로부터의 신호를 이용하는 종래 기술의 솔루션들에서는 마스킹 사운드의 사후 대응적인 적응만이 가능하다. 그 결과, 마스킹된 스피치 존에서 스피치를 이해할 수 없게 하기 위해 낮은 음량 및 낮은 방해도(obtrusiveness)를 갖는 마스킹 사운드가 생성될 수 있다.

"주의를 끌지 않는" 그리고 "거슬리지 않는"이라는 용어들의 구별에 관해서는 다음과 같이 언급될 수 있다: 종래 기술의 스피치 마스킹 시스템들에서, "거슬리지 않는"이라는 용어는 "주의를 끌지 않는" 것으로 또한 해석될 수 있다. 즉, 청취자는 균일한 마스커에 익숙해지고 얼마 후 그것을 무시할 것이다. 이 경우, 마스커는 너무 명백해서 무시될 수 없으며, 따라서 이는 "주의를 끌지 않는" 것이 아니라 "편안하고 산만하지 않다"는 의미에서 여전히 "거슬리지 않을" 수 있다.

마스킹은 의도된 청취자에게 거슬리지 않고 편안한 방식으로 그리고 또한 도청자가 자신에게 할당된 임의의 업무에서 산만해지지 않도록 이루어질 수 있다. 그러므로 이러한 거슬리지 않고, 또 효과적인 마스킹 사운드의 생성이 가능하다는 것이 본 발명의 추가 이점이다.

국소화 가능한 마스킹 사운드를 발생시키는 것은 제안된 개념의 경우에는, 도청자가 그의 주 업무에서 산만해지지 않는 한 중요하지 않다. 마스킹 사운드는 "주목 받지 않게" 될 필요가 없고, 영구적으로 ON일 필요는 없다(즉, 비밀 대화가 유지되지 않는다면, 마스킹 사운드는 OFF 전환될 수 있다). 도청자는 전화 통화 또는 대화가 이루어질 때(그리고 그때만), 그가 대화를 감추는 데 사용되는 마스킹 사운드를 듣게 된다는 사실을 잘 알고 있다.

그 결과, 의도된 청취자와 도청자 모두가 대화를 마스킹하기 위한 수단의 존재를 허용하는 한, 둘 다 이러한 두드러진 마스킹 사운드를 받아들일 것이다.

본 발명에 따른 스피치 마스킹은 음파들의 정확한 상쇄에 의존하지 않으므로 잡음 상쇄 시스템의 앞서 언급한 한계들을 겪지 않으며, 마스킹은 매우 큰 마스킹 사운드들을 재생함으로써 이루어질 수 있다. 대신, 이것은 스피치 신호의 음조, 스펙트럼 및 과도 구조에 의존하는 인간의 스피치 인식을 억제하는 것을 목표로 한다. 일반적으로, 마스킹 사운드는 또한 음조, 스펙트럼 또는 과도 구조(또는 이들의 결합들)를 나타낼 것이다. 마스커는 도청자의 위치에서 마스키와의 중첩이 등화된 신호가 되는 식으로 생성될 수 있으며, 여기서 구별 가능한 스피치 특징들이 제거된다. 다른 한편으로, 중첩이 충분한 확장으로 스피치의 특징들을 모호하게 하는 마스킹 사운드 특징들을 갖는 구별 가능한 스피치 특징들을 나타내도록 마스커를 사용하는 것이 또한 가능하다. 후자의 접근 방식은 마스킹 신호들의 선택에서 어느 정도의 자유도를 허용하며, 더욱이 달성하기가 더 쉽다. 두 경우들 모두, 낮은 사운드 레벨에서 적절한 마스킹 사운드가 가능하다.

본 발명은 도청자가 수행해야 하는 주된 업무로부터 주의를 산만하게 하지 않는 거슬리지 않는 마스킹 사운드를 사용함으로써 스피치를 이해하기 어렵게 만들기 위한 개념을 제공한다(예컨대, 운전자는 운전에 집중해야 한다. 실제로, 멋진 마스킹 사운드를 듣는 것이 대화를 듣는 것보다 훨씬 덜 거슬릴 수 있다! 그와 같이, 시스템은 교통 안전을 향상시키는 데 도움이 된다.).

자동차 환경이 선호되는 애플리케이션 시나리오이다. 이 시나리오에서는, 자동차 내부의 특정 조건들(예컨대, 의도된 청취자의 공간적 위치, 라우드스피커들의 도청자, 재생 공간의 음향 등…)에 대해 잘 알고 있다. 이와 같이, 서로 다른 처리 단계들을 그에 따라 적응시킬 수 있다. 이것은 범용 마스킹 시스템들에 비해 장점이다.

자동차 환경을 예로 들면, 운전자(= 도청자)가 운전에서 산만해지지 않는 것이 중요하다. 이와 같이 (예컨대, 운전자 앞에서) 국소화가 가능한 사운드 스테이지는 전혀 방해가 되지 않는다.

그러나 본 발명은 자동차 환경들에 한정되지 않는다.

본 발명의 선호되는 실시예에 따르면, 스피치 라우드스피커 신호 발생기는 복수의 스피치 라우드스피커 신호들을 발생시키고 스피치의 공간 큐들을 제어하기 위해 복수의 스피치 라우드스피커 신호들의 각각의 스피치 라우드스피커 신호의 특성들을 독립적으로 제어하도록 구성된다. 제어될 스피치 라우드스피커 신호들의 특성들은 특히, 스피치 라우드스피커 신호들 각각의 레벨 및/또는 시간 지연을 포함할 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 라우드스피커 신호 발생기는 복수의 마스킹 사운드 라우드스피커 신호들을 발생시키고 마스킹 사운드의 공간 큐들을 제어하기 위해 복수의 마스킹 사운드 라우드스피커 신호들의 각각의 마스킹 사운드 라우드스피커 신호의 특성들을 독립적으로 제어하도록 구성된다. 제어될 마스킹 사운드 라우드스피커 신호들의 특성들은 특히, 마스킹 사운드 라우드스피커 신호들 각각의 레벨 및/또는 시간 지연을 포함할 수 있다.

이러한 특징들에 의해, 공간 오디오 재생 기술들이 사용되어 스피치 라우드스피커 측뿐만 아니라 마스킹 사운드 라우드스피커 측에서도 스피치 마스킹 시스템들의 효과를 높일 수 있다.

공간 오디오 재생 수단은 명료한 스피치 존에서의 스피치 레벨을 증가시키고 동시에 마스킹된 스피치 존에서 스피치 레벨을 감소시키는데 사용될 수 있다. 반대로 마스킹 사운드에 대해서도 마찬가지이다. 그 효과를 갖는 기술들은

빔 형성

멀티 존 재생

(바람직하게는 각각의 존의 청취자와 가깝게) 라우드스피커들의 적절한 배치.

스피치 라우드스피커들을 발화자에 가까운 마스킹 사운드 라우드스피커들로서 사용하는 것은 종래 기술로 알려져 있지만 좋은 선택은 아니다: 그 경우, 마스킹 사운드는 명료한 스피치 존에서 가장 높은 강도를 갖게 되는데, 이는 바람직하지 않다. 따라서 스피치 라우드스피커들 이외의 마스킹 사운드 라우드스피커들은 마스킹된 스피치 존에 또는 그 근처에 위치될 수 있어, 마스킹 사운드가 이 위치에서 주로 재생된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 원시 마스킹 사운드 신호 및 복수의 원시 마스킹 사운드 신호 적응 모듈들을 제공하도록 구성된 복수의 마스킹 음원들을 포함하며, 원시 마스킹 사운드 신호 적응 모듈들 각각은 마스킹 음원들 중 하나에 할당되고, 할당된 마스킹 적응 모듈은 하나 이상의 마스킹 사운드 신호들 중 하나의 마스킹 사운드 신호를 발생시키기 위해 분석 신호에 기초하여 각각의 마스킹 음원의 원시 마스킹 사운드 신호를 적응시키도록 구성된다.

본 발명의 이러한 양상은 마스킹 잡음 발생기 자체를 커버한다. 이 실시예에서, 마스킹 잡음 발생기는 다수의 신호 소스들의 혼합을 사용하여 마스킹 사운드를 발생시킴으로써 종래 기술과 상이하며, 여기서 혼합된 마스킹 사운드는 스피치 신호의 분석으로부터 얻은 파라미터들을 사용하여 실시간으로 적응될 수 있다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원은 원시 음악 마스킹 사운드 신호를 제공하도록 구성된 음악 소스를 포함하고, 할당된 마스킹 적응 모듈은 하나 이상의 마스킹 사운드 신호들 중 하나의 마스킹 사운드 신호를 발생시키기 위해 분석 신호에 기초하여 원시 음악 마스킹 사운드 신호를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원은 원시 연속 잡음 마스킹 사운드 신호를 제공하도록 구성된 연속 잡음 소스를 포함하고, 할당된 마스킹 적응 모듈은 하나 이상의 마스킹 사운드 신호들 중 하나의 마스킹 사운드 신호를 발생시키기 위해 분석 신호에 기초하여 원시 연속 잡음 마스킹 사운드 신호를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원은 원시 동적 잡음 마스킹 사운드 신호를 제공하도록 구성된 동적 잡음 소스를 포함하고, 할당된 마스킹 적응 모듈은 하나 이상의 마스킹 사운드 신호들 중 하나를 발생시키기 위해 분석 신호에 기초하여 원시 동적 잡음 마스킹 사운드 신호를 적응시키도록 구성된다.

이 수단에 의해, 마스킹 사운드는 스피치를 마스킹하고, 동시에 산만하지 않은 것으로 인식되도록, 실제로는 어쩌면 심지어 나른하게 하는 것으로 인식되도록 생성될 수 있다. 최신 기술에 대한 본 발명의 개념의 이점은 마스킹 사운드가 상이한 특성들을 갖는 복수의 상이한 마스킹 사운드 신호들의 사용에 의해 생성될 수 있고, 실시간으로 현재 상황에 자동으로 적응될 수 있다는 것이다. 복수의 마스킹 사운드 신호들의 상이한 특성들로 인해, 각각이 특정 목표를 달성하도록 적용될 수 있는데, 이들은 예를 들어, 기본 마스킹 효과를 달성하기 위한 해변 사운드, 스피치의 중요한 부분을 마스킹하도록 스피치 신호에 신속하게 적응되는 필터링된 잡음, 그리고 마스킹 사운드가 짜증나지 않도록 하는 음악일 수 있다. 현재 상황으로의 마스킹 사운드 신호들의 개별적인 적응은 마스킹 사운드가 불안정한 것으로 인식되지 않으면서(예컨대, 음악 마스킹 사운드 신호는 훨씬 더 느린 시상수들을 갖고 제한된 범위 내에서 채택됨), 스피치의 변화들에 즉시 반응할 수 있게(예컨대, 잡음 마스킹 사운드 신호의 빠른 채택) 한다.

상이한 스피치 특징들은 그에 따라 상이한 타입들의 잡음에 의해 가장 효과적으로 파괴되기 때문에, 본 발명의 개념은 최신 기술보다 더 효과적이다. 이 유효성의 공유를 거래할 때, 덜 거슬리는 마스킹 사운드를 발생시키는 것이 가능하다. 본 발명에 의해 다음 양상들이 고려된다:

적절한 마스킹 신호들의 혼합 결정.

그러한 신호들의 획득 또는 생성.

정보를 얻거나 예측을 사용하여 혼합할 파라미터들의 결정.

마스킹 신호들의 적응.

보다 효과적인 마스킹 신호들이 또한 더 거슬리지 않는 경향이 있다. 마스킹 신호의 특성들의 빠른 변화들에 대해서도 마찬가지이다. 다음 타입들의 사운드들이 본 발명에서 바람직하게 사용된다:

랜덤 잡음은 종래 기술로부터 잘 알려져 있으며 다른 것들 중에서도 본 발명의 하나의 소스 신호를 구성한다. 종래 기술로부터 알려진 바와 같이, 이 신호의 스펙트럼 포락선은 그 마스킹 능력들을 최적화하도록 성형될 수 있다. 이 신호는 마스킹에 매우 효과적인 동시에, 이는 또한 거슬리지 않는 것으로 인식된다고 알려져 있다.

자연 잡음들은 실제 장소들에서 인식될 수 있는 음향 장면들의 사운드들이다. 이는 해변들, 폭포들, 거리들, 차량 엔진 근처의 장소들, 군중들 및 레스토랑들을 포함하지만 이에 한정되는 것은 아니다. 이러한 잡음들은 사람들에게 알려져 있기 때문에, 이러한 잡음들은 랜덤 잡음보다 덜 거슬리는 것으로 인식될 가능성이 높다. 여전히, 그러한 잡음들의 특성들은 흔히 고정적이지 않기 때문에, 이들의 마스킹 능력은 시간에 따라 변한다.

음악 신호들은 일반적으로 편안한 것으로 인식되지만, 이들의 마스킹 능력들은 다소 낮다. 추가로, 이들은 그 편안한 인식을 유지하기 위해 단지 서서히 (예를 들어, 레벨이) 변경될 수 있다. 마지막으로, 음악 신호들은 또한 고정적이지 않으며, 이는 자연 잡음들의 경우와 동일한 문제들을 부과한다. 그러나 이는 일부 잡음(자연 또는 랜덤)과 결합하면 효과적이다.

앞서 언급한 신호 타입들은 원시 마스킹 사운드 신호 적응 모듈들에 의해 다음과 같은 방식들로 얻어질 수 있다:

레코딩으로부터 판독하는데, 여기서 신호들이 주어지는 한편, 이들의 특성들은 사전에 알려진다. 후자의 사실은 나중에 적응을 최적화하는 데 사용될 수 있다.

모듈들에 의해 인위적으로 생성된다. 랜덤 잡음 신호들의 경우, 이것은 일반적으로 의사 랜덤 잡음일 것이다. 자연 잡음들의 경우, 잡음들의 특성들이 정의될 수 있다. 이는 레코딩된 신호들의 제어 불가능한 (비고정성)에 의해 부과된 한계들을 극복한다. 이러한 "자연" 잡음 발생기는 주어진 시나리오에 더 잘 부합하기 위해 외부 데이터 소스를 사용할 수 있다. 예컨대, 완벽하게 맞는 엔진 잡음을 모방한 차내 시나리오의 엔진 속도를 고려하는 것이 가능하다.

(예컨대, 자동차 잡음을 증폭하기 위해) 실시간으로 마이크로폰에 의해 측정됨.

(예컨대, 파도들과 같은, 바람과 같은) 편안한 마스킹 잡음의 생성은 스피치를 마스킹하도록 구체적으로 맞춰진 사운드 발생기에 의해 실시간으로 이루어질 수 있다. 추가로, 이는 (스펙트럼 시프트 및/또는 이득으로 그 스펙트럼을 성형함으로써) 상이한 스피커들 및 대화 스타일들의 특성들에 적응할 수 있다.

음악에도 동일하게 적용되는데, 이는 또한 적절한 알고리즘들에 의해 실시간으로 자동 작곡될 수 있다.

대안으로, 사전 레코딩된 음악 및 잡음이 사용될 수 있다(짧은 루프들도 아마 충분할 수도 있다).

마스킹 사운드로 혼합되는 모든 신호들은 마스킹될 스피치에 따라 개별적으로 적응될 수 있다. 개별 마스킹 신호의 유효성 및 방해도를 나타내는 파라미터들이 개발 중에 정의될 수 있으며, 이들은 이후에 최적화를 위해 비용 함수에 결합된다. 중요한 양상은 의도된 청취자가 마스킹 잡음에 자극을 받아서는 안 된다는 것이다. 의도된 청취자 위치들에서는 명료한 스피치가 우세할 것이지만, 명료한 스피치 및 마스킹 사운드의 활동은 강하게 상관될 것이므로, 이는 마스킹 사운드를 스피치에 동적으로 적응함으로써 어느 정도까지는 달성된다.

수신된 스피치 신호를 가능하게는 가장 잘 마스킹하도록 마스커 신호를 적응시키기 위한 수단은 다음을 포함한다:

마스키의 음조 구조에 대한 인식은 마스커의 다음 특성들에 의해 억제될 수 있다: 건반의 음조 구조와 다른 음조 구조. 이 구조는 랜덤(예를 들어, 음악 잡음)이거나 결정될 수 있다(예를 들어, 음악 레코딩).

스펙트럼 구조에 대한 인식은 마스킹 사운드의 다음 특성들에 의해 억제될 수 있다: 단봉형(unimodal) 또는 평평한 스펙트럼이 인지되도록 마스킹 사운드와 마스킹될 사운드의 중첩들에 스펙트럼 갭들을 채우는 것뿐만 아니라, 마스키의 스펙트럼 구조가 모호해지도록 명백한(pronounced) 공간 구조를 갖는 것.

과도 구조에 대한 인식은 마스킹 사운드의 다음 특성들에 의해 억제될 수 있다: 마스키와는 다른 과도 구조를 갖는 것; 마스커에서의 과도 현상들의 발생 빈도는 마스키에 적응될 수 있지만, 발생의 실제 트리거는 마스키와 무관함; 도청자를 더 혼란시키도록 마스커에 랜덤 과도 구조를 생성하는 것.

본 발명의 선호되는 실시예에 따르면, 오디오 처리 모듈은 스피치 신호를 기초로 적응된 스피치 신호를 제공하도록 구성된 적응적 스피치 처리 모듈을 포함하며, 스피치 라우드스피커 신호 발생기는 적응된 스피치 신호에 기초하여 하나 이상의 스피치 라우드스피커 신호들을 발생시키도록 구성된다.

스피치 재생 디바이스 내에서의 확장된 액세스로, 마스키(명료한 스피치 신호)는 마스킹을 용이하게 하도록 수정될 수 있다. 이를 달성하기 위한 조치들은 다음을 포함한다:

충분히 마스킹될 수 있는 주파수들에 대한 대역 제한.

마스킹 잡음 발생기가 마스킹 잡음을 그에 따라 적응시키는 데 더 많은 시간을 갖게 하는 지연. 더욱이, 이러한 지연은 마스킹될 신호의 재생 전에라도 마스킹 잡음을 적응시키는 것을 허용한다. 이는 음향 음향학으로부터 알려진 마스킹 효과들이 활용될 수 있는 앞으로의 방법이다. 그러나 그러한 지연은 통신 당사자들에 의해 인식되지 않게 충분히 짧아야 할 것이다.

명료한 스피치 신호에서의 과도 현상들의 조작/댐핑/억제, 이는 마스킹하기가 특히 어렵다. 이러한 조치는 의도된 청취자에 대한 이해도를 떨어뜨리지 않도록 신중하게 사용되어야 한다.

예를 들어, 동적 프로세서(예를 들어, 압축기)에 의한 레벨 변화의 감소. 이것은 또한 이 사운드가 보다 편안해지도록 최적의 마스킹 사운드의 변화를 감소시킬 것이다.

본 발명의 선호되는 실시예에 따르면, 오디오 처리 모듈은 스피치 라우드스피커들의 세트의 셋업 및/또는 마스킹 사운드 라우드스피커들의 세트의 셋업에 관한 정보를 포함하는 셋업 신호를 수신하도록 구성된다.

이러한 특징들에 의해 오디오 처리 모듈은 서로 다른 라우드스피커 구성들에 쉽게 적응될 수 있다. 셋업 신호는 스피치 라우드스피커 신호 발생기에 의해, 마스킹 사운드 라우드스피커 신호 발생기에 의해 그리고/또는 마스킹 사운드 발생기에 의해, 특히 원시 마스킹 사운드 신호 적응 모듈들에 의해 사용될 수 있다.

마스킹 사운드는 뿐만 아니라, 스피치 신호의 분석으로부터 얻어진 파라미터들을 사용하여 실시간으로 적응될 수 있다. 대신, 아래에 언급되는 바와 같이 정보의 추가 소스들이 사용될 수 있다.

마스커를 적응시키기 위한 정보의 주요 소스는 마스킹될 신호(마스키)이다. 이는 측정된 신호들을 동반할 수 있다. 인과 관계로 인해 이전 및 현재 신호 특성들만이 직접 고려될 수 있다. 그러나 스펙트럼 포락선이 수십 밀리초의 시간 범위 동안의 특정 연장으로 예측될 수 있다는 것이 스피치 코딩으로부터 알려져 있다. 이러한 예측은 마스킹 사운드를 마스킹될 사운드의 예상되는 특성들에 적응시키는데 사용될 수 있다. 이는 또한 마스킹 사운드가 보다 편안하나 것으로 인식되도록 그 사운드를 보다 천천히/부드럽게 적응시키는 것을 가능하게 할 것이다. 이것은 재생된 명료한 스피치를 지연시키는 것의 대안이라는 점에 주목한다.

제 2 정보 소스는 마스킹의 정도를 조정하는 것이 가능하도록 사용자 설정 파라미터들일 수 있다. 사소한 정도의 프라이버시만이 요구된다면, 마스킹 사운드는 매우 거슬리지는 않게 선택될 수 있다. 다른 한편으로는, 스피치 내용이 비밀이고, 도청자에 의해 이해될 수 있는 단어가 하나도 없음이 보장되어야 한다면, 처리는 그에 적응할 수 있다. 의도된 청취자와 도청자가 모두, 그 경우에는 보다 거슬리는 마스커를 받아들여야 할 것이다.

더욱이, 도청자는 사운드 처리 디바이스에 대한 제한된 액세스를 하도록 허용될 수 있어, 도청자가 마스킹 사운드를 자신의 선호도들에 맞출 수 있다(예를 들어, 도청자가 서로 다른 마스킹-음악 사이에서 선택할 수 있다). 중요한 것은 적용된 변경들 중에, 스피치가 이해될 수 있는 기간이 없어야 한다는 것이다. 따라서 모든 음악 작품/음악 스타일이 효과적으로 스피치를 마스킹하는 데 사용되기에 적합한 것은 아니기 때문에, 사용된 모든 음악이 사전 선택되어야 할 것이다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 기상 조건들에 관한 정보를 포함하는 기상 신호를 수신하고 기상 신호에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

기상 센서는 비 센서 또는 풍속 센서일 수 있는데, 이는 (예를 들어, 비와 같은 마스킹 사운드들 또는 바람과 같은 마스킹 사운드들을 사용하여) 잡음 발생을 마스킹하기 위해 실제 날씨를 고려하는데 사용될 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 광 조건들에 관한 정보를 포함하는 광 신호를 수신하고 광 신호에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 날짜 및/또는 시간에 관한 정보를 포함하는 시간 신호를 수신하고 시간 신호에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

광 신호, 특히 광 센서로부터 수신된 광 신호는 자연스럽게 주변 광 상태들에 맞는 마스킹 사운드를 발생시키는데 사용될 수 있는데, 이는 특히 주간에 의존하며, 따라서 덜 성가시게 된다. 이는 시간 신호, 특히 디지털 시계로부터 수신된 시간 신호를 사용하여 달성될 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 사운드 발생 엔진의 동작 파라미터에 관한 정보를 포함하는 엔진 신호를 수신하고 엔진 신호에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

특히, 차내 시나리오에서는 엔진으로부터 수집된 데이터가 잡음과 같은 인공적인 발생을 위한 파라미터로서 사용될 수 있다. 이 개념은 다른 운송 수단 또는 고정식 엔진들이 디바이스에 가까운 경우들에 또한 사용될 수 있다.

본 발명의 선호되는 실시예에 따르면, 스피치 재생 디바이스는 명료한 스피치 존에서 사람의 위치 및/또는 방향을 추적하고 그리고/또는 마스킹된 스피치 존에서 사람의 위치 및/또는 방향을 추적하도록 구성된 추적 디바이스를 포함하며, 추적 디바이스는 명료한 스피치 존에서의 사람의 위치 및/또는 방향 그리고/또는 마스킹된 스피치 존에서 사람의 위치 및/또는 방향을 포함하는 추적 신호를 발생시키도록 구성되고, 오디오 처리 모듈은 추적 신호를 수신하고 추적 신호에 기초하여 하나 이상의 마스킹 사운드 라우드스피커 신호들을 발생시키도록 구성된다.

추적 시스템은 발화자 및 도청자의 위치들 및 방향들에 대한 정보를 실시간으로 제공할 수 있다. 예를 들어, 이 정보는 둘이 서로 접근할 때나 도청자가 더 잘 듣기 위해 머리를 돌릴 때 마스킹 레벨을 높이는 데 사용될 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 라우드스피커 신호 발생기는 마스킹 사운드가 마스킹된 스피치 존에서의 스피치와 동일한 공간 큐들을 갖는 식으로 마스킹 사운드 라우드스피커 신호들을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 스피치 재생 디바이스는 명료한 스피치 존 및/또는 마스킹된 스피치 존에 할당된 하나 이상의 마이크로폰들을 포함하며, 마이크로폰들 각각은 마이크로폰 신호를 발생시킨다.

스피치 신호 분석 모듈에 의해 수집된 정보는 명료한 스피치 존에 또는 그 근처에 위치한 마이크로폰들에 의해 그리고/또는 마스킹된 스피치 존에 가까운 모든 마이크로폰들에서 측정된 신호들에 의해 지원될 수 있다. 본 시나리오에서는, 마스킹된 스피치 존에서 관찰된 마스키 신호에 기초하여 마스커를 변경하도록, 마스킹된 스피치 존에 마이크로폰이 추가될 수 있다.

본 발명의 선호되는 실시예에 따르면, 마이크로폰 신호들 중 적어도 2개의 마이크로폰 신호들이 마스킹 사운드 라우드스피커 신호 발생기에 공급되며, 마스킹 사운드 라우드스피커 신호 발생기는 적어도 2개의 마이크로폰 신호들에 기초하여, 마스킹된 스피치 존에서 스피치의 공간 큐들을 결정하도록 구성된다.

마스키의 도달 방향을 결정하고 이 정보에 기초하여 마스킹 사운드 라우드스피커 신호 발생기를 제어하기 위해, 예를 들어 마스키와 마스커가 유사한 공간 큐들을 갖도록, 적어도 2개의 마이크로폰들이 마스킹된 스피치 존에 또는 그 가까이에 배치될 수 있다.

이러한 특징들에 의해, 본 발명은 마스킹된 스피치 존에 도달하는 원치 않는 명료한 스피치 신호와 유사한 공간적 특성들(특히, 소스의 방향 및 우세한 반사들의 방향)을 나타내는 마스킹 사운드를 마스킹된 스피치 존에서 재생하기 위해 공간 재생 수단을 선택적으로 활용할 수 있다. 이는 도청자들이 그들의 공간 청력을 이용하여 마스킹 사운드와 마스킹될 스피치를 분리하는 것을 막는다.

본 발명의 선호되는 실시예에 따르면, 마이크로폰 신호들 중 적어도 하나의 마이크로폰 신호는 마스킹 사운드 발생기에 공급되고, 마스킹 사운드 발생기는 적어도 하나의 마이크로폰 신호에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

이러한 실시예들에서는, 마스킹된 스피치 존에서 관찰된 스피치에 기초하여 마스커를 변경하도록, 마스킹된 스피치 존에 또는 그에 가깝게 마이크로폰이 추가될 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기는 스피치 라우드스피커들의 세트로부터 명료한 스피치 존으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 마스킹 사운드 라우드스피커들의 세트로부터 명료한 스피치 존으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 스피치 라우드스피커들의 세트로부터 마스킹된 스피치 존으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 그리고/또는 마스킹 사운드 라우드스피커들의 세트로부터 마스킹된 스피치 존으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여 하나 이상의 마스킹 사운드 신호들을 발생시키도록 구성된다.

명료한 스피치 및 마스킹 잡음에 대한 재생 시스템으로부터 명료한 스피치 존 및 마스킹된 스피치 존까지의 실내 임펄스 응답들/음향 전달 함수들(전부 4개의 경로들)을 측정하여 두 존들 모두에서 실제로 재생되는 음향 장면들의 추정치들을 향상시키는 데 추가 마이크로폰이 사용될 수 있다. 이러한 추정치들은 마스킹 사운드의 적응 처리에 사용될 수 있다.

추가 양상에서, 본 발명은 재생되는 스피치가 명료한 스피치 존에서는 이해될 수 있고 마스킹된 스피치 존에서는 이해 불가능하도록, 수신된 스피치 신호에 기초하여 스피치를 재생하기 위한 방법을 제공하며, 이 방법은,

오디오 처리 모듈을 사용하여 스피치 신호를 수신하는 단계;

스피치 라우드스피커들의 세트를 사용하여 하나 이상의 스피치 라우드스피커 신호들을 기초로 스피치를 재생하는 단계;

마스킹 사운드 라우드스피커들의 세트를 사용하여 하나 이상의 마스킹 사운드 라우드스피커 신호들을 기초로 마스킹 사운드를 발생시키는 단계 ― 마스킹 사운드는 마스킹된 스피치 존에서 스피치를 마스킹함 ―;

오디오 처리 모듈의 스피치 라우드스피커 신호 발생기를 사용하여 스피치 신호를 기초로 하나 이상의 스피치 라우드스피커 신호들을 발생시키는 단계;

오디오 처리 모듈의 스피치 신호 분석 모듈을 사용하여 스피치 신호의 스펙트럼 및/또는 시간 특성들을 기초로 하나 이상의 분석 신호들을 발생시키는 단계;

오디오 처리 모듈의 마스킹 사운드 발생기를 사용하여 하나 이상의 분석 신호들을 기초로 하나 이상의 마스킹 사운드 신호들을 발생시키는 단계; 및

오디오 처리 모듈의 마스킹 사운드 라우드스피커 신호 발생기를 사용하여 하나 이상의 마스킹 사운드 신호들을 기초로 하나 이상의 마스킹 사운드 라우드스피커 신호들을 발생시키는 단계를 포함한다.

본 발명은 프로세서 상에서 실행될 때, 본 발명에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.

이어서 본 발명의 바람직한 실시예들이 첨부 도면들에 관해 논의된다.
도 1은 본 발명에 따른 스피치 재생 디바이스의 제 1 실시예를 개략도로 예시한다.
도 2는 본 발명에 따른 스피치 재생 디바이스의 제 2 실시예의 일부를 개략도로 예시한다.
도 3은 본 발명에 따른 스피치 재생 디바이스의 제 3 실시예의 일부를 개략도로 예시한다.
도 4는 본 발명에 따른 스피치 재생 디바이스의 제 4 실시예를 개략도로 예시한다.

설명한 실시예들의 디바이스들 및 방법들에 관해 다음이 언급될 것이다:

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다.

도 1은 본 발명에 따른 스피치 재생 디바이스(1)의 제 1 실시예를 개략도로 예시한다. 스피치 재생 디바이스(1)는 재생되는 스피치(SP)가 명료한 스피치 존(CSZ)에서는 이해될 수 있고 마스킹된 스피치 존(MSZ)에서는 이해 불가능하도록, 수신된 스피치 신호(SPS)에 기초하여 스피치(SP)를 재생하도록 구성된다. 스피치 재생 디바이스(1)는:

스피치 신호(SPS)를 수신하도록 구성된 오디오 처리 모듈(2);

하나 이상의 스피치 라우드스피커 신호들(S)에 기초하여 스피치(SP)를 재생하도록 구성된 스피치 라우드스피커들(4)의 세트(3); 및

하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)에 기초하여 마스킹 사운드(MN)를 발생시키도록 구성된 마스킹 사운드 라우드스피커들(6)의 세트(5)를 포함하며, 마스킹 사운드(MN)는 마스킹된 스피치 존(MSZ)에서 스피치(SP)를 마스킹하고,

오디오 처리 모듈(2)은 스피치 신호(SPS)에 기초하여 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키도록 구성된 스피치 라우드스피커 신호 발생기(7)를 포함하고,

오디오 처리 모듈(2)은 스피치 신호(SPS)의 스펙트럼 및/또는 시간 특성들에 기초하여 하나 이상의 분석 신호들(AS)을 발생시키도록 구성된 스피치 신호 분석 모듈(8)을 포함하며,

오디오 처리 모듈(2)은 하나 이상의 분석 신호들(AS)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된 마스킹 사운드 발생기(9)를 포함하고,

오디오 처리 모듈(2)은 하나 이상의 마스킹 사운드 신호들(MS)에 기초하여 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키도록 구성된 마스킹 사운드 라우드스피커 신호 발생기(10)를 포함한다.

본 발명의 선호되는 실시예에 따르면, 스피치 라우드스피커 신호 발생기(7)는 복수의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키고 스피치(SP)의 공간 큐들을 제어하기 위해 복수의 스피치 라우드스피커 신호들(S.1 … S.n)의 각각의 스피치 라우드스피커 신호(S.1 … S.n)의 특성들을 독립적으로 제어하도록 구성된다. 제어될 스피치 라우드스피커 신호들(S.1 … S.n)의 특성들은 특히, 스피치 라우드스피커 신호들(S.1 … S.n) 각각의 레벨 및/또는 시간 지연을 포함할 수 있다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 라우드스피커 신호 발생기(10)는 복수의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키고 마스킹 사운드(MN)의 공간 큐들을 제어하기 위해 복수의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)의 각각의 마스킹 사운드 라우드스피커 신호(M.1, M.2 … M.m)의 특성들을 독립적으로 제어하도록 구성된다. 제어될 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)의 특성들은 특히, 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m) 각각의 레벨 및/또는 시간 지연을 포함할 수 있다.

다른 양상에서, 본 발명은 발생되는 스피치(SP)가 명료한 스피치 존(CSZ)에서는 이해될 수 있고 마스킹된 스피치 존(MSZ)에서는 이해 불가능하도록, 수신된 스피치 신호(SPS)에 기초하여 스피치(SP)를 발생시키기 위한 방법을 제공하며, 이 방법은,

오디오 처리 모듈(2)을 사용하여 스피치 신호(SPS)를 수신하는 단계;

스피치 라우드스피커들(4.1 … 4.n)의 세트(3)를 사용하여 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 기초로 스피치(SP)를 발생시키는 단계;

마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)를 사용하여 하나 이상의 마스킹 사운드 라우드스피커 신호들을 기초로 마스킹 사운드(MN)를 발생시키는 단계 ― 마스킹 사운드(MN)는 마스킹된 스피치 존(MSZ)에서 스피치(SP)를 마스킹함 ―;

오디오 처리 모듈(2)의 스피치 라우드스피커 신호 발생기(7)를 사용하여 스피치 신호(SPS)를 기초로 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키는 단계;

오디오 처리 모듈(2)의 스피치 신호 분석 모듈(8)을 사용하여 스피치 신호(SPS)의 스펙트럼 및/또는 시간 특성들을 기초로 하나 이상의 분석 신호들(AS)을 발생시키는 단계;

오디오 처리 모듈(2)의 마스킹 사운드 발생기(9)를 사용하여 하나 이상의 분석 신호들(AS)을 기초로 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키는 단계; 및

오디오 처리 모듈(2)의 마스킹 사운드 라우드스피커 신호 발생기(10)를 사용하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 기초로 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키는 단계를 포함한다.

추가 양상에서, 본 발명은 프로세서 상에서 실행될 때, 본 발명에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.

도 2는 본 발명에 따른 스피치 재생 디바이스의 제 2 실시예의 일부를 개략도로 예시한다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 원시 마스킹 사운드 신호(RMS.1, RMS.2, RMS.3, RMS.4) 및 복수의 원시 마스킹 사운드 신호 적응 모듈(12.1, 12.2, 12.3, 12.4)을 제공하도록 구성된 복수의 마스킹 음원들(11.1, 11.2, 11.3, 11.4)을 포함하며, 원시 마스킹 사운드 신호 적응 모듈들(12.1, 12.2, 12.3, 12.4) 각각은 마스킹 음원들(11.1, 11.2, 11.3, 11.4) 중 하나에 할당되고, 할당된 마스킹 적응 모듈(12.1, 12.2, 12.3, 12.4)은 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나를 발생시키기 위해 분석 신호(AS)에 기초하여 각각의 마스킹 음원들(11.1, 11.2, 11.3, 11.4)의 원시 마스킹 사운드 신호(RMS.1, RMS.2, RMS.3, RMS.4)를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 음악 마스킹 사운드 신호(RMS.1)를 제공하도록 구성된 음악 소스(11.1)를 포함하고, 할당된 마스킹 적응 모듈(12.1)은 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.1)를 발생시키기 위해 분석 신호(AS)에 기초하여 원시 음악 마스킹 사운드 신호(RMS.1)를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 연속 잡음 마스킹 사운드 신호(RMS.2)를 제공하도록 구성된 연속 잡음 소스(11.2)를 포함하고, 할당된 마스킹 적응 모듈(12.2)은 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.2)를 발생시키기 위해 분석 신호(AS)에 기초하여 원시 연속 잡음 마스킹 사운드 신호(RMS.2)를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 동적 잡음 마스킹 사운드 신호(RMS.3)를 제공하도록 구성된 동적 잡음 소스(11.3)를 포함하고, 할당된 마스킹 적응 모듈(12.3)은 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.3)를 발생시키기 위해 분석 신호(AS)에 기초하여 원시 동적 잡음 마스킹 사운드 신호(RMS.3)를 적응시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 오디오 처리 모듈(2)은 스피치 신호(SPS)를 기초로 적응된 스피치 신호(ASPS)를 제공하도록 구성된 적응적 스피치 처리 모듈(13)을 포함하며, 스피치 라우드스피커 신호 발생기(7)는 적응된 스피치 신호(ASPS)에 기초하여 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 오디오 처리 모듈(2)은 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)의 셋업 및/또는 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)의 셋업에 관한 정보를 포함하는 셋업 신호(SI)를 수신하도록 구성된다.

도 2에 따르면, 재생될 스피치 신호(SPS)는 일례로서, 전기 통신 링크를 통해 수신되고, 명료한 스피치 존(CSZ) 내의 또는 그에 가까운 라우드스피커들(4.1 … 4.n)을 통해, 스피치 신호(SPS)가 쉽게 이해될 수 있는 레벨로 재생된다. 동시에, 재생되는 스피치가 마스킹된 스피치 존(MSZ) 내의 사람들에 의해 이해될 수 없도록, 마스킹된 스피치 존(MSZ)에서 마스킹 사운드(MN)가 발생된다.

처리 스테이지(2)는 도달하는 스피치 신호(SPS)를 분석하기 위한 스피치 신호 분석 모듈(8)을 포함한다. 분석 결과(AS)는 3개의 별개의 마스킹 컴포넌트들: 음악, 연속 잡음 및 동적 잡음에 대한 개별 적응 처리 블록들(12.1, 12.2, 12.3)에 공급된다. 동적 잡음은 합성기(11.3)에 의해 실시간으로 발생되는 한편, 음악 및 연속 잡음 원시 마스킹 사운드들(예를 들어, 해변의 레코딩)은 저장 디바이스들(11.1, 11.2)로부터 재생될 수 있다. 현재 스피치 섹션(8)의 분석 결과들에 따라, 음악 및 잡음 신호들(11.1, 11.2, 11.3)의 특성들이 양호한 마스커(MN)를 제공하도록 적응된다. 개별 처리 블록들(12.1, 12.2, 12.3)은 모노 신호를 출력할 수 있거나, 특정 다채널 효과들, 다수의 채널 신호들을 허용할 수 있다. 처리된 음악 및 잡음 신호들(MS.1, MS.2, MS.3)은 이후에 마스킹 사운드 라우드스피커 신호 발생기(10)에 의해 믹싱되어, 이용 가능한 라우드스피커들(6.1, 6.2 … 6.m)을 공급하기에 충분한 라우드스피커 신호들(M.1, M.2 … M.n)을 발생시킨다. 적응 처리, 믹싱 및 렌더링에 알려진 셋업 정보는 마스킹 효과를 달성하기 위해 주어진 특성들(예를 들어, 공간 위치, 주파수 특성, 트랜스듀서 특징 등)의 최상의 사용을 가능하게 한다.

이 분석은 스피치(SP)의 인지된 음량(이는 또한 순수하게 에너지 기반일 수 있음)의 추정치를 계산한다. 음악 신호(MS.1) 및 잡음 신호들(MS.2, MS.3)은 이들의 음량이 스피치(SP)(마스키)의 음량과 관련하여 변화하도록 연속적으로 적응된다. 처리는 3개의 모든 컴포넌트에 대해 서로 다른 적응 상수들을 사용할 수 있다. 동적 잡음은 스피치(SP)의 빠른 변화들을 마스킹하도록 신속하게 적응하지만, 연속 잡음 및 음악 신호(MS.1, MS.2)는 전반적인 사운드 인상을 편안하게 유지하도록 시간에 따른 느린 변화에 적응한다. 음악 및 동적 잡음의 경우, 이들이 스피치 일시 정지 중에 0으로 페이드되지 않도록(그리고 마스킹 사운드의 음량이 0이 되도록) 최소 레벨들이 설정된다. 이것은 편안한 인식을 더욱 향상시킨다.

도 3은 본 발명에 따른 스피치 재생 디바이스의 제 3 실시예의 일부를 개략도로 예시한다.

이전에 설명한 실시예의 제 1 변형은 적응적 스피치 처리 모듈(13)에 의해 스피치 신호(SPS)의 추가 적응 처리가 이루어지는 것이며, 적응된 스피치 신호(ASPS)는 명료한 스피치 존(CSZ)에 대한 스피치(SP)를 발생시키는 데 사용된다. 더욱이, 이 실시예에서는, 단 2개의 별개의 마스킹 컴포넌트들(MS.1, MS.4)(즉, 음악 및 잡음)만이 사용된다.

도 4는 본 발명에 따른 스피치 재생 디바이스의 제 4 실시예를 개략도로 예시한다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 기상 조건들에 관한 정보를 포함하는 기상 신호(WSI)를 수신하고 기상 신호(WSI)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 광 조건들에 관한 정보를 포함하는 광 신호(LSI)를 수신하고 광 신호(LSI)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 날짜 및/또는 시간에 관한 정보를 포함하는 시간 신호(TSI)를 수신하고 시간 신호(TSI)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 사운드 발생 엔진(EG)의 동작 파라미터에 관한 정보를 포함하는 엔진 신호(ESI)를 수신하고 엔진 신호(ESI)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 스피치 재생 디바이스(1)는 명료한 스피치 존(CSZ)에서 사람의 위치 및/또는 방향을 추적하고 그리고/또는 마스킹된 스피치 존(MSZ)에서 사람의 위치 및/또는 방향을 추적하도록 구성된 추적 디바이스(14)를 포함하며, 추적 디바이스(14)는 명료한 스피치 존(CSZ)에서의 사람의 위치 및/또는 방향 그리고/또는 마스킹된 스피치 존(MSZ)에서 사람의 위치 및/또는 방향을 포함하는 추적 신호(TRS)를 발생시키도록 구성되고, 오디오 처리 모듈(2)은 추적 신호(TRS)를 수신하고 추적 신호(TRS)에 기초하여 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 라우드스피커 신호 발생기(10)는 마스킹 사운드(MN)가 마스킹된 스피치 존(MSZ)에서의 스피치(SP)와 동일한 공간 큐들을 갖는 식으로 마스킹 사운드 라우드스피커 신호들(MSI.1, MSI.2)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 스피치 재생 디바이스(1)는 마스킹된 스피치 존(MSZ)에 할당된 하나 이상의 마이크로폰들(15.1, 15.2)을 포함하며, 마이크로폰들(15.1, 15.2) 각각은 마이크로폰 신호(MSI.1, MSI.2)를 발생시킨다.

본 발명의 선호되는 실시예에 따르면, 마이크로폰 신호들(MSI.1, MSI.2) 중 적어도 2개의 마이크로폰 신호들(MSI.1, MSI.2)이 마스킹 사운드 라우드스피커 신호 발생기(10)에 공급되며, 마스킹 사운드 라우드스피커 신호 발생기(10)는 적어도 2개의 마이크로폰 신호들(MSI.1, MSI.2)에 기초하여, 마스킹된 스피치 존(MSZ)에서 스피치(SP)의 공간 큐들을 결정하도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마이크로폰 신호들(MSI.1, MSI.2) 중 적어도 하나의 마이크로폰 신호(MSI.2)는 마스킹 사운드 발생기(9)에 공급되고, 마스킹 사운드 발생기(9)는 적어도 하나의 마이크로폰 신호(MSI.1, MSI.2)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

본 발명의 선호되는 실시예에 따르면, 마스킹 사운드 발생기(9)는 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)로부터 명료한 스피치 존(CSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)로부터 명료한 스피치 존(CSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)로부터 마스킹된 스피치 존(MSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 그리고/또는 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)로부터 마스킹된 스피치 존(MSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는데, 이는 기계 판독 가능 반송파 또는 비-일시적 저장 매체 상에 저장된다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 유리하게 수행된다.

본 발명은 여러 가지 실시예들에 관해 설명되었지만, 본 발명의 범위 내에 속하는 변경들, 치환들 및 등가물들이 존재한다. 본 발명의 방법들 및 구성들을 구현하는 많은 대안적인 방법들이 존재한다는 점이 또한 주목되어야 한다. 따라서 다음의 첨부된 청구항들은 본 발명의 진의 및 범위 내에 속하는 것으로서 이러한 모든 변경들, 치환들 및 등가물들을 포함하는 것으로 해석된다고 의도된다.

참조 부호들:

1 스피치 재생 디바이스

2 오디오 처리 모듈

3 스피치 라우드스피커들의 세트

4 스피치 라우드스피커

5 마스킹 사운드 라우드스피커들의 세트

6 마스킹 사운드 라우드스피커

7 스피치 라우드스피커 신호 발생기

8 스피치 신호 분석 모듈

9 마스킹 사운드 발생기

10 마스킹 사운드 라우드스피커 신호 발생기

11 마스킹 음원

12 원시 마스킹 사운드 신호 적응 모듈

13 적응적 스피치 처리 모듈

14 추적 디바이스

15 마이크로폰

SP 스피치

SPS 스피치 신호

CSZ 명료한 스피치 존

MSZ 마스킹된 스피치 존

S 스피치 라우드스피커 신호들

MN 마스킹 사운드

M 마스킹 사운드 라우드스피커 신호들

AS 분석 신호

MS 마스킹 사운드 신호

RMS 원시 마스킹 사운드 신호

SI 셋업 정보 신호

ASPS 적응된 스피치 신호

WSI 기상 신호

WS 기상 센서

LSI 광 신호

LS 광 센서

TSI 시간 신호

TS 시간 신호 발생기

TRS 추적 신호

MSI 마이크로폰 신호

ESI 엔진 신호

EG 엔진

참조들:

[1] Chatterblocker software: www.chatterblocker.com.

[2] Babak Arvanaghi and Joel Fechter: Method and apparatus for masking speech in a private environment. United States Patent Application No.: US 2013/0185061, 2013.

[3] Robert Bailey, Lawrence Heyl, and Stephan Schell: Systems and methods for altering speech during cellular phone use. United States Patent Application No.: US 2009/0171670, 2009.

[4] Stephen J. Elliott and Philip A. Nelson: Active noise control. In: Signal Processing Magazine, IEEE, 10(4): 12-35, 1993.

[5] Andre L. Esperance and Alex Boudreau: Auto-adjusting sound masking system and method. United States Patent No.: US　7,460,675, 2008.

[6] Rafik Goubran and Radamis Botros: Adaptive sound masking system and method. United States Patent Application No.: US　2003/0103632, 2003.

[7] Nakamura Ikuya and Ogiwara Takashi: Speech privacy protective device. Japanese Patent Applications Nos.: JP　3377220 and JP 5011780, 1991.

[8] Mai Koike, Yasushi Shimizu, Masato Hata and Takashi Yamakawa: Masker sound generation apparatus and program. United States Patent Application No.: US 2011/0182438 A1, 2011.

[9] Kenneth P. Roy, Thomas J. Johnson, Ronald Fuller and Steve Dove: Architectural sound enhancement with pre-filtered masking sound. United States Patent No.: US 7,548 854, 2009.

[10] Jeffrey Specht, Daniel Mapes-Riordan, and William DeKruif: Method and apparatus of overlapping and summing speech for an output that disrupts speech. United States Patent No.: US 7,376 .557, 2008.

[11] Richard O. Thomalla: Automatic volume and frequency controlled sound masking system. United States Patent No.: US　4,438,526, 1984.

[12] Bill G. Watters, Michael Nacey and Thomas R. Horrall: Process and apparatus for speech privacy improvement through incoherent masking noise sound generation in open-plan office spaces and the like. United States Patent No.: US　4,059,726, 1977.

Claims

재생되는 스피치(SP)가 명료한 스피치 존(CSZ)에서는 이해될 수 있고 마스킹된 스피치 존(MSZ)에서는 이해 불가능하도록, 수신된 스피치 신호(SPS)에 기초하여 상기 스피치(SP)를 재생하기 위한 스피치 재생 디바이스로서, 상기 스피치 재생 디바이스(1)는,
상기 스피치 신호(SPS)를 수신하도록 구성된 오디오 처리 모듈(2);
하나 이상의 스피치 라우드스피커 신호들(S)에 기초하여 상기 스피치(SP)를 재생하도록 구성된 스피치 라우드스피커들(4)의 세트(3); 및
하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)에 기초하여 마스킹 사운드(MN)를 발생시키도록 구성된 마스킹 사운드 라우드스피커들(6)의 세트(5)를 포함하며,
상기 마스킹 사운드(MN)는 상기 마스킹된 스피치 존(MSZ)에서 상기 스피치(SP)를 마스킹하고,
상기 오디오 처리 모듈(2)은 상기 스피치 신호(SPS)에 기초하여 상기 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키도록 구성된 스피치 라우드스피커 신호 발생기(7)를 포함하고,
상기 오디오 처리 모듈(2)은 상기 스피치 신호(SPS)의 스펙트럼 및/또는 시간 특성들에 기초하여 하나 이상의 분석 신호들(AS)을 발생시키도록 구성된 스피치 신호 분석 모듈(8)을 포함하며,
상기 오디오 처리 모듈(2)은 상기 하나 이상의 분석 신호들(AS)에 기초하여 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성된 마스킹 사운드 발생기(9)를 포함하고,
상기 오디오 처리 모듈(2)은 상기 하나 이상의 마스킹 사운드 신호들(MS)에 기초하여 상기 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키도록 구성된 마스킹 사운드 라우드스피커 신호 발생기(10)를 포함하는,
스피치 재생 디바이스.
제 1 항에 있어서,
상기 스피치 라우드스피커 신호 발생기(7)는 복수의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키고 상기 스피치(SP)의 공간 큐들을 제어하기 위해 상기 복수의 스피치 라우드스피커 신호들(S.1 … S.n)의 각각의 스피치 라우드스피커 신호(S.1 … S.n)의 특성들을 독립적으로 제어하도록 구성되는,
스피치 재생 디바이스.
제 1 항 또는 제 2 항에 있어서,
상기 마스킹 사운드 라우드스피커 신호 발생기(10)는 복수의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키고 상기 마스킹 사운드(MN)의 공간 큐들을 제어하기 위해 상기 복수의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)의 각각의 마스킹 사운드 라우드스피커 신호(M.1, M.2 … M.m)의 특성들을 독립적으로 제어하도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 원시 마스킹 사운드 신호(RMS.1, RMS.2, RMS.3, RMS.4) 및 복수의 원시 마스킹 사운드 신호 적응 모듈(12.1, 12.2, 12.3, 12.4)을 제공하도록 구성된 복수의 마스킹 음원들(11.1, 11.2, 11.3, 11.4)을 포함하며,
상기 원시 마스킹 사운드 신호 적응 모듈들(12.1, 12.2, 12.3, 12.4) 각각은 상기 마스킹 음원들(11.1, 11.2, 11.3, 11.4) 중 하나에 할당되고,
할당된 마스킹 적응 모듈(12.1, 12.2, 12.3, 12.4)은 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나를 발생시키기 위해 상기 분석 신호(AS)에 기초하여 각각의 마스킹 음원들(11.1, 11.2, 11.3, 11.4)의 원시 마스킹 사운드 신호(RMS.1, RMS.2, RMS.3, RMS.4)를 적응시키도록 구성되는,
스피치 재생 디바이스.
제 4 항에 있어서,
상기 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 음악 마스킹 사운드 신호(RMS.1)를 제공하도록 구성된 음악 소스(11.1)를 포함하고,
상기 할당된 마스킹 적응 모듈(12.1)은 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.1)를 발생시키기 위해 상기 분석 신호(AS)에 기초하여 상기 원시 음악 마스킹 사운드 신호(RMS.1)를 적응시키도록 구성되는,
스피치 재생 디바이스.
제 4 항 또는 제 5 항에 있어서,
상기 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 연속 잡음 마스킹 사운드 신호(RMS.2)를 제공하도록 구성된 연속 잡음 소스(11.2)를 포함하고,
상기 할당된 마스킹 적응 모듈(12.2)은 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.2)를 발생시키기 위해 상기 분석 신호(AS)에 기초하여 상기 원시 연속 잡음 마스킹 사운드 신호(RMS.2)를 적응시키도록 구성되는,
스피치 재생 디바이스.
제 4 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 적어도 하나의 마스킹 음원(11.1, 11.2, 11.3, 11.4)은 원시 동적 잡음 마스킹 사운드 신호(RMS.3)를 제공하도록 구성된 동적 잡음 소스(11.3)를 포함하고,
상기 할당된 마스킹 적응 모듈(12.3)은 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4) 중 하나의 마스킹 사운드 신호(MS.3)를 발생시키기 위해 상기 분석 신호(AS)에 기초하여 상기 원시 동적 잡음 마스킹 사운드 신호(RMS.3)를 적응시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 오디오 처리 모듈(2)은 상기 스피치 신호(SPS)를 기초로 적응된 스피치 신호(ASPS)를 제공하도록 구성된 적응적 스피치 처리 모듈(13)을 포함하며,
상기 스피치 라우드스피커 신호 발생기(7)는 상기 적응된 스피치 신호(ASPS)에 기초하여 상기 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 오디오 처리 모듈(2)은 상기 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)의 셋업 및/또는 상기 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)의 셋업에 관한 정보를 포함하는 셋업 신호(SI)를 수신하도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 기상 조건들에 관한 정보를 포함하는 기상 신호(WSI)를 수신하고 상기 기상 신호(WSI)에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 광 조건들에 관한 정보를 포함하는 광 신호(LSI)를 수신하고 상기 광 신호(LSI)에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 날짜 및/또는 시간에 관한 정보를 포함하는 시간 신호(TSI)를 수신하고 상기 시간 신호(TSI)에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 사운드 발생 엔진(EG)의 동작 파라미터에 관한 정보를 포함하는 엔진 신호(ESI)를 수신하고 상기 엔진 신호(ESI)에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 스피치 재생 디바이스(1)는 상기 명료한 스피치 존(CSZ)에서 사람의 위치 및/또는 방향을 추적하고 그리고/또는 상기 마스킹된 스피치 존(MSZ)에서 사람의 위치 및/또는 방향을 추적하도록 구성된 추적 디바이스(14)를 포함하며,
상기 추적 디바이스(14)는 상기 명료한 스피치 존(CSZ)에서의 사람의 위치 및/또는 방향 그리고/또는 상기 마스킹된 스피치 존(MSZ)에서 사람의 위치 및/또는 방향을 포함하는 추적 신호(TRS)를 발생시키도록 구성되고,
상기 오디오 처리 모듈(2)은 상기 추적 신호(TRS)를 수신하고 상기 추적 신호(TRS)에 기초하여 상기 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 라우드스피커 신호 발생기(10)는 상기 마스킹 사운드(MN)가 상기 마스킹된 스피치 존(MSZ)에서의 스피치(SP)와 동일한 공간 큐들을 갖는 식으로 상기 마스킹 사운드 라우드스피커 신호들(MSI.1, MSI.2)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 스피치 재생 디바이스(1)는 상기 마스킹된 스피치 존(MSZ)에 할당된 하나 이상의 마이크로폰들(15.1, 15.2)을 포함하며,
상기 마이크로폰들(15.1, 15.2) 각각은 마이크로폰 신호(MSI.1, MSI.2)를 발생시키는,
스피치 재생 디바이스.
제 15 항 및 제 16 항에 있어서,
상기 마이크로폰 신호들(MSI.1, MSI.2) 중 적어도 2개의 마이크로폰 신호들(MSI.1, MSI.2)은 상기 마스킹 사운드 라우드스피커 신호 발생기(10)에 공급되며,
상기 마스킹 사운드 라우드스피커 신호 발생기(10)는 상기 적어도 2개의 마이크로폰 신호들(MSI.1, MSI.2)에 기초하여, 상기 마스킹된 스피치 존(MSZ)에서 상기 스피치(SP)의 공간 큐들을 결정하도록 구성되는,
스피치 재생 디바이스.
제 16 항 또는 제 17 항에 있어서,
상기 마이크로폰 신호들(MSI.1, MSI.2) 중 적어도 하나의 마이크로폰 신호(MSI.2)는 상기 마스킹 사운드 발생기(9)에 공급되고,
상기 마스킹 사운드 발생기(9)는 상기 적어도 하나의 마이크로폰 신호(MSI.1, MSI.2)에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
제 1 항 내지 제 18 항 중 어느 한 항에 있어서,
상기 마스킹 사운드 발생기(9)는 상기 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)로부터 상기 명료한 스피치 존(CSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 상기 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)로부터 상기 명료한 스피치 존(CSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 상기 스피치 라우드스피커들(4.1 … 4.n)의 세트(3)로부터 상기 마스킹된 스피치 존(MSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여, 그리고/또는 상기 마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)로부터 상기 마스킹된 스피치 존(MSZ)으로의 하나 이상의 전달 함수들 및/또는 하나 이상의 실내 임펄스 응답들에 기초하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키도록 구성되는,
스피치 재생 디바이스.
재생되는 스피치(SP)가 명료한 스피치 존(CSZ)에서는 이해될 수 있고 마스킹된 스피치 존(MSZ)에서는 이해 불가능하도록, 수신된 스피치 신호(SPS)에 기초하여 상기 스피치(SP)를 재생하기 위한 방법으로서, 상기 방법은,
오디오 처리 모듈(2)을 사용하여 상기 스피치 신호(SPS)를 수신하는 단계;
스피치 라우드스피커들(4.1 … 4.n)의 세트(3)를 사용하여 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 기초로 상기 스피치(SP)를 재생하는 단계;
마스킹 사운드 라우드스피커들(6.1, 6.2 … 6.m)의 세트(5)를 사용하여 하나 이상의 마스킹 사운드 라우드스피커 신호들을 기초로 마스킹 사운드(MN)를 발생시키는 단계 ― 상기 마스킹 사운드(MN)는 상기 마스킹된 스피치 존(MSZ)에서 상기 스피치(SP)를 마스킹함 ―;
상기 오디오 처리 모듈(2)의 스피치 라우드스피커 신호 발생기(7)를 사용하여 상기 스피치 신호(SPS)를 기초로 상기 하나 이상의 스피치 라우드스피커 신호들(S.1 … S.n)을 발생시키는 단계;
상기 오디오 처리 모듈(2)의 스피치 신호 분석 모듈(8)을 사용하여 상기 스피치 신호(SPS)의 스펙트럼 및/또는 시간 특성들을 기초로 하나 이상의 분석 신호들(AS)을 발생시키는 단계;
상기 오디오 처리 모듈(2)의 마스킹 사운드 발생기(9)를 사용하여 상기 하나 이상의 분석 신호들(AS)을 기초로 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 발생시키는 단계; 및
상기 오디오 처리 모듈(2)의 마스킹 사운드 라우드스피커 신호 발생기(10)를 사용하여 상기 하나 이상의 마스킹 사운드 신호들(MS.1, MS.2, MS.3, MS.4)을 기초로 상기 하나 이상의 마스킹 사운드 라우드스피커 신호들(M.1, M.2 … M.m)을 발생시키는 단계를 포함하는,
스피치(SP)를 재생하기 위한 방법.
프로세서 상에서 실행될 때, 제 20 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램.