KR100858283B1

KR100858283B1 - 대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한장치

Info

Publication number: KR100858283B1
Application number: KR1020070002295A
Authority: KR
Inventors: 최현준
Original assignee: 최현준
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2008-09-17
Also published as: KR20080065327A

Abstract

대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한 장치가 개시된다. 사용자 자신의 음성을 디지털 음성신호로 변환하고, 그 디지털 음성신호를 소정 분량의 데이터 블록 단위로 구분하고 각 데이터 블록을 변형된 음성데이터 블록으로 변환한다. 이를 위해, 각 데이터 블록을 다수의 프레임으로 구분하여 그 다수의 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부 구간을 중첩시켜 연결하되 그 중첩구간의 샘플 데이터들을 가중처리하여 합산하는 방식으로 상기 변형된 음성데이터 블록을 만든다. 다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성한다. 변형된 음성데이터 스트림을 사용자의 실시간 대화 시에 그 대화 도청 방지를 위한 마스킹용 다중합성 노이즈 데이터로 활용할 수 있도록 한다. 사용자 자신의 목소리가 변형다중합성 노이즈로 마스킹 되어 녹음될 경우 포만트 구성상의 혼란이 더욱 가중되기 때문에 대화 음성을 파악하거나 추출해내기란 거의 불가능하다.

Description

대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한 장치 {Sound masking method and apparatus for preventing eavesdropping}

도 1은 단독으로 발성된 '아[a]' 와 '이[i]' 의 사운드 스펙트로그램이다.

도 2는 한국어 모음의 어린이와 성인 남녀의 포먼트 구성을 나타낸다.

도 3은 한국어 자음(남자 음성)의 주파수 구성을 나타낸다.

도 4는 자음들의 인접 모음에 대한 추이 특성을 정리한 것을 보여준다.

도 5의 (A), (B), (C)는 화이트 노이즈, 여성의 음성(한국어), 화이트 노이즈로 사운드 마스킹을 실시하였을 때의 주파수 구성을 보여준다.

도 6과 7은 스크램블 처리된 인접 프레임들을 최대 상호상관도(maximum cross-correlation) 지점에서 중첩시켜 중첩구간의 샘플들을 가중처리하여 합성하는 과정을 보여준다.

도 8은 남성의 대화 음성(한국어)이 자신의 변형가공된 다중합성 마스킹용 노이즈에 의하여 마스킹되었을 때의 사운드 스펙트로그램을 나타내는데, (A)는 남성의 대화 음성을, (B)는 3중 변형합성된 마스킹용 노이즈를, 그리고 (C)는 (B)의 마스킹 노이즈가 출력방사되는 상태에서의 (A)의 대화 음성을 녹음하여 스펙트로그램으로 각각 분석한 것이다.

도 9는 사운드 마스킹용 노이즈 제작 및 활용을 위한 장치(100)의 바람직한 구성을 도시한다.

본 발명은 대화가 이루어지는 사무실, 회의실, 회합장소, 식당 등에서의 대화 도청을 방지하기 방법과 그 장치에 관한 것이다.

정보화 시대가 만개하면서 남의 말을 몰래 엿듣는 도청은 저렴한 비용으로 커다란 효과를 거둘 수 있다는 매력 때문에 급증하고 있는 추세이다. 산업계에서는 경쟁기업의 전략을 파악하여 이에 대처하거나, 수주전에서 경쟁기업을 물리치고 계약을 수주하기 위하여 치열한 정보전이 전개되고 있다. 대한민국의 국가정보원은 홈페이지에서 2003년∼2006년7월까지 3년7개월동안 산업스파이로 인한 피해액(업계 추산)이 약 90조원에 달한다고 밝히고 있을 정도이다.

도청은 통신망에서 통화내용을 가로채어 엿듣는 통화 도청과, 대화가 이루어지는 사무실 등 현지에서의 대화내용을 몰래 듣거나 녹음하는 대화 도청으로 대별할 수 있는데 대화 도청은 현지 도청이라고 할 수 있다.

대화 도청의 방법으로는 고성능 마이크와 무선 송신기가 내장된 도청기를 사무실 등 대화가 이루어지는 장소에 숨겨놓고 대화내용을 녹음·저장하였다가 정해진 시간 또는 원격조정시에 무선 주파수로 송신하는 것이 주류를 이루어왔다. 이러한 무선 도청장치는 무선 주파수를 스캔하는 방식으로 탐색해왔으나, 근년들어 음성신호의 압축기술이 발달하여 녹음내용을 원하는 극히 짧은 시간에 송신하기 때문 에 찾아내기가 매우 어렵다.

특히 최근에는 레이저빔 도청기술, 전파 반사형 도청기술 등 첨단기술이 동원되기 때문에 발견 및 제거조차 불가능한 실정이다. 일례로 레이저 빔 도청은 원거리에서 대화가 이루어지는 사무실, 회의실 등에 레이저 광선을 쏘아 소리 파동으로 인한 유리창의 미세한 떨림 현상을 파악하여 음성을 복원하기 때문에 피해자 입장에서는 도청이 이루어지고 있는 지조차 알 수 없는 실정이다. 2001년 12월 7일 당시 대한민국 국방부 조달본부는 탐지범위가 반경 500 미터 이상인 레이저 도청기를 구입하기 위하여 긴급 입찰공고를 내기도 했다.

이러한 레이저빔 도청, 전파 반사형 도청 등에 대하여 국가 원수 집무실은 반대 전파나 광선을 쏘아 도청을 방해하는 재밍을 실시하기도 하지만, 방해 전파의 송신금지 등 관련법규로 인하여 주요 국가기관을 제외하고는 재밍 실시가 불가능하다.

이러한 대화 도청 즉 현지 도청에 대한 거의 유일한 대응 수단은 잡음을 방사하여 대화 음성을 뒤덮음으로써, 대화를 도청하여도 대화 음성을 알아들을 수 없도록 하는 사운드 마스킹(Sound Masking) 방법이라고 할 수 있다.

사운드 마스킹은 다른 소리 때문에 어떤 소리를 듣기 어려운 청각 현상을 말한다. 일례로 주위가 시끄러울 때 여간해서 전화 소리를 알아들을 수 없는 경우를 들 수 있다. 듣고자 하는 소리(목적음)가 다른 소리(방해음)의 마스크(가면)를 써서 알아들을 수 없는 것이다.

그러나 사람의 귀는 사운드 마스킹 청각현상과 함께 칵테일 파티 청각현상을 동시에 가지고 있다. 칵테일 파티 청각현상이란 사람이 복수의 음원에서 들리는 소리의 혼합 속에서 특정한 음원의 소리만을 골라서 들을 수 있는 것을 말한다. 술자리의 경우 옆 자리에서 많은 사람들이 시끄럽게 떠들어도 대화 상대방의 목소리를 들을 수 있는 것은, 사람이 복수의 시끄러운 소리들 속에서 특정 음원만을 별도로 청취하는 능력을 가지고 있음을 보여주는 사례이다.

이에 따라 사운드 마스킹의 효과를 거두려면 주파수 대역에 따라 달라지지만 방해음의 크기(세기)가 목적음(대화음)보다 최소 6 데시벨(dB) 이상, 즉 최소 약 4배 이상 소리가 커야 하며 통상적으로는 20 데시벨 정도 높아야 제대로 대화음성을 숨겨 사람 귀로 들을 수 없게 된다.

그러나 매우 시끄러운 방해음으로 사운드 마스킹 처리를 하였다고 하더라도 마스킹된 전체 소리에 대하여 주파수 분석 등 성문(聲紋) 분석을 실시할 경우 방해음 속에 숨어있는 대화음성(목적음)을 추출해낼 수 있다. 중요한 전략회의를 할 때 라듸오, TV, 음악을 크게 틀어놓아도 도청 방지에는 별 효과가 없는 이유도 이 때문이다.

많은 민간보안회사들이 거의 모든 주파수 범위에서 주파수 성분의 강도가 같은 세기로 골고루 분포되어 있는 화이트 노이즈(White Noise = 백색소음), 가청 주파수대역에서 모든 소리를 고르게 가지고 있는 핑크 노이즈(Pink Noise) 등을 유리창, 벽, 천장 등에 방사하는 방법으로 사운드 마스킹 처리를 하고 있지만 성문 분석을 실시할 경우 고스란히 대화음이 나타날 수밖에 없다. 또한 일부는 가청 주파수대의 불특정 노이즈를 랜덤으로 크게 발생시켜 음성의 성분배열을 파괴함으로써 해독을 지연시키는 방법을 사용하기도 하지만, 노이즈의 신호레벨과 배열에 따라 마스킹 효과가 불안정하며 가청 주파수 대역 내에서 음성 주파수에 마스킹용 노이즈를 섞어 중복 처리하는 데 어려움이 있다고 밝히고 있다.

상기와 같이 종래의 사운드 마스킹 방법은 성문 분석을 실시할 경우 대화 음성을 추출해낼 수 있기 때문에 도청 방지에 커다란 한계를 드러내고 있다. 이에 관하여 기술적으로 좀 더 구체적으로 설명한다.

인간은 성대를 울려서 음성을 만든다. 성대 진동의 결과 산출되는 일차 음향은 성도(聖道) 공명 및 여과 기능에 따라 여러개의 부분음(성분음)으로 이루어져 있다. 이 가운데 주파수가 가장 낮은 부분음이 기본음에 해당하며, 나머지는 대체로 배음들로서 기본 주파수의 2배, 3배, 4배 주파수 등 정수배에 해당하는 주파수를 갖는다. 사람마다 성대 길이 등에 따라 주파수에 차이는 있으나 대체로 음성의 주파수는 150 Hz(헤르쯔) ~ 4,000 Hz 대역으로 구성된다.

말은 음성 속에서 모음과 자음 등의 소리가 연결되어 형성된다. 각각의 모음과 자음의 고유한 성질은 주파수 구성의 차이로 나타난다. 같은 모음이라도 사람마다 주파수 구성이 달리 나타나는데, 이 것이 바로 각 개인별로 가지고 있는 성문(聲紋)이다.

음성을 분석하는 장치로서 사운드 스펙트로그램(음향분광사진기 = 음향분석기)이 있다. 컴퓨터 프로그램으로도 손쉽게 구할 수 있는 스펙트로그램은 각 음소에 대하여 그 주파수 구성을 띠영역으로 세밀하게 구분하여 그 속의 에너지 구성비율을 나타내준다.

가로축 상에는 시간의 경과가 표시되고, 세로축은 주파수를 표시한다. 주파수 대역별 구성비율, 즉 음향 스펙트럼 상에서의 강도(세기)는 명암의 차이를 통하여 표시된다. 검게 표시된 주파대는, 그 주파대에서 음향에너지가 집중되어 큰 강도로 실현되었음을 나타내며, 에너지가 없거나 작을 경우에는 공백 또는 희미한 상태로 표시된다.

도 1은 단독으로 발성된 '아[a]' 와 '이[i]' 의 사운드 스펙트로그램이다. 그림에서 보듯이 몇몇 주파대에서 유난히 검은 띠들이 형성되어 있음을 발견할 수 있다. 이는 모음을 만들 때 해당 주파대들에 음향 에너지가 집중되어져 가장 큰 폭의 진동이 일어남을 뜻한다. 즉 성대를 거친 후 조음관(성도)의 공명작용에 의하여 해당 주파대들이 특별히 강화되었다는 사실을 표시한다.

이처럼 모음에 따라 각각 특유하게 에너지가 집중되어 나타나는 주파대들을 포만트(Formant), 즉 음형대(音形帶)라고 한다. 포만트는 주파수가 낮은 아래쪽에서부터 위쪽 방향으로 제1 포만트(F1), 제2 포만트(F2), 제3 포만트(F3) … 라고 부른다.

포만트 가운데 아래에 위치하는 F1(제1 포만트), F2(제2 포만트)가 해당 모음의 고유 음색을 본질적으로 결정해주는 음형대들이다. 나머지 음형대들인 F3, F4 등은 모음의 고유 특성과는 무관하지만 발성하는 화자의 개인적인 특징을 표시해주는 이른바 부수언어적 기능과 상관되어 있다.

'아[a]' 는 F1이 700 Hz, F2가 1300 Hz로 형성되어 있다. 이에 비해 '이[i]' 는 F1이 250 Hz, F2가 2400 Hz로 구성되어 있다. 요컨대 각 모음의 F1, F2 배치구 도를 보면 모음들이 어떻게 차이나는지 바로 식별할 수 있다.

한국어의 다른 모음들도 같은 방법으로 분석하여 F1, F2의 주파수를 그려보면 도 2의 모양이 된다. 도 2에서 나타나듯이 같은 모음이라도 성별, 연령에 따라 포만트가 달라진다. 그러나 F1, F2의 실현 값은 서로 다르지만 F1과 F2 간의 간격은 거의 똑같이 유지됨을 알 수 있다.

즉 모음들은 F1, F2의 실제 값(절대 값)이 아닌, F2-F1의 차이 값이 일정하다. 동일한 모음이라도 말하는 사람마다 F1, F2는 다르다. 그래도 듣는 사람이 이들을 동일 모음으로 인지할 수 있는 근거는 인지 활동이 F1, F2의 실현 값에 기초하지 않고 F2-F1의 차이값에 의해 이루어지기 때문이다.

이러한 현상은 아무리 잡음이 심하게 섞여있는 음성이라도 컴퓨터에서 F2-F1를 찾아내어 차이값을 알 수 있다면 음성을 해독할 수 있다는 결론이 된다. 실제로 컴퓨터로 F2-F1을 분석조사하는 것이, 음성인식 방법으로 사용되고 있기도 하다.

자음의 음향구조는 모음의 경우와는 달리 불규칙적이며 일정하지 않다. 도 3에서 보듯이 자음은 음향에너지가 넓은 주파대에 걸쳐 불규칙적으로 분산되어 있기 때문에, 모음에서처럼 뚜렷한 포만트(음형대)를 발견할 수 없다. 다만 자음은 자음과 모음을 함께 음성으로 만드는 동시 조음의 원리에 따라 앞·뒤 모음의 음향구조에 영향을 주어, 해당 모음의 포만트가 올라가거나 내려가는 꼬리모양의 포만트 추이 부분이 스펙트로그램 상에 나타난다. 자음은 일정한 음향 특성을 갖추고 있기 보다는, 오히려 그 특성이 인접 모음의 음향특성 안에 곁들여 표시되어 있다고 할 수 있다. 자음을 부속음이라고도 부르는 이유도 바로 이 때문이다.

자음들을 구별해주는 단서는 인접 모음으로의 추이(Transitions) 특성으로 나타난다. 예를 들어 F2의 변화 추이가 주파수 3000 Hz대에서 시작되면 'g'음으로 인지되고, 1800 Hz대인 경우는 ' d'음으로, 700 Hz대인 경우에는 'b'음으로 각각 인지된다. F1의 추이는 성대 진동과 관련된 조음방식을 나타내어 F1이 아래쪽에서 위쪽으로 추이되면 유성자음인 ' b, d, g' 음들로, F1이 일직선인 경우에는 무성음들인 'p, t, k' 음들로 각각 인지된다. 자음들의 인접 모음에 대한 추이 특성을 정리한 것이 도 4이다.

위에서 살펴본 것처럼 사람의 음성은 매우 정교한 흔적을 남긴다. 특히 각 개인별로 각각 다른 F1, F2 등의 배치 구도는 대화 음성을 추출해내는데 매우 좋은 단서가 된다. 이에따라 사운드 마스킹 효과를 기하기 위하여 화이트 노이즈(백색잡음), 핑크 노이즈(Pink Noise), 가청 주파수대의 노이즈 등을 만들어 잡음을 강하게 방사할지라도, 주파수 분석 등 성문(聲紋) 분석을 실시할 경우 대화음성이 고스란히 드러날 수밖에 없다. 특히 미국 NSA(국가안보국) 등 각국의 정보기관들은 전세계 주요 인사들에 대하여 개인별 성문(聲紋) 기록을 확보하고 있는 실정이다. 또한 정보기관이 아니라고 하더라도 도청을 목표로 할 경우 대상 인물의 성문을 확보하는 것은 그리 어려운 일이 아니다.

도 5는 화이트 노이즈(White = 백색잡음), 여성의 음성(한국어), 화이트 노이즈로 사운드 마스킹을 실시하였을 때의 주파수 구성을 보여준다.

도 5의 (A)는 전세계적으로 사운드 마스킹 용도로 주로 사용되고 있는 화이트 노이즈(White = 백색잡음)를 사운드 스펙트로그램으로 분석한 것이다. 화이트 노이즈는 모든 주파수 대역에서 각 주파수 성분의 강도가 같은 세기로 골고루 분포되어 있는 백색잡음이므로 도 5의 (A)에서 보는 바와 같이 어떠한 포만트도 나타나지 않는다.

도 5의 (B)는 여성의 음성(한국어)을 스펙트로그램으로 분석한 것이다. 여성의 목소리이므로 다소 높은 주파대에서 포만트가 나타나고 있다.

도 5의 (C)는 도 5의 (A)의 화이트 노이즈로 도 5의 (B)의 여성의 음성을 마스킹 하였을 때의 소리를 녹음하여 스펙트로그램으로 분석한 결과이다. 마이크에서 측정한 여성의 음성은 소리 세기를 일반 대화음 수준인 62 데시벨 정도로 설정한 반면, 마스킹용 화이트 노이즈는 음성보다 소리세기가 약 63배에 달하는 80 데시벨 정도로 하여 녹음한 것이다. 63배나 큰 화이트 노이즈로 마스킹을 하였음에도 불구하고, 여성의 음성은 고스란히 남아 쉽게 추출할 수 있음을 알 수 있다.

상기 내용에서 알 수 있듯이 대화 도청을 방지하기 위한 사운드 마스킹은 화자의 성문(聲紋)이 노출되지 않아야 하며, 정밀한 주파수 분석 및 성문 분석을 실시하더라도 대화 음성(목적음)을 추출할 수 없도록 고안되어야 제대로 도청 방지의 효과를 거둘 수 있다.

본 발명은 주파수 분석 등 성문(聲紋) 분석을 실시하더라도 화자의 대화 음성을 추출해낼 수 없도록 하는 대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한 장치를 제공하는 것을 목적으로 한다.

본 발명은 도청 시도자가 노이즈와 대화 음성을 구분해낼 수 없도록 대화하 는 사람(화자)의 음성 자체를 동일 주파수 성분으로 변형하고 다중 합성하여 마스킹용 노이즈(방해음)로 사용하는 방법을 고안한 것이다. 즉 화자(도청의 대상이 되는 사람)가 과거에 발성한 음성을 채취하여 크게 변형된 오디오 신호로 가공한 후, 이를 다시 3~4종류로 다중 합성하여 마스킹용 노이즈로 사용함으로써 도청을 시도하더라도 대화 음성을 추출·파악할 수 없게 하는 것을 발명의 목적으로 한다.

본 발명은 완벽한 도청 방지용 사운드 마스킹 효과를 거두기 위하여 화자의 과거 비실시간 음성을 변형 가공하여 사운드 마스킹용 노이즈를 만드는 방법을 제시한다. 화자의 과거의 음성을 재료로 하여 동일 성문(聲紋)으로 다중 합성된 변형음성을 마스킹용 노이즈(방해음)로 사용할 경우에는 정밀한 주파수 분석 및 성문(聲紋) 분석을 실시하더라도 화자의 현재의 대화 음성(목적음)을 추출해내기가 거의 불가능하기 때문이다.

상기 목적들을 달성하기 위한 본 발명의 일 측면에 따르면, 사용자 자신의 소정분량의 디지털 음성신호를 다수의 프레임으로 구분하여 그 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부구간을 중첩시켜 합성하는 방식으로 변형된 음성데이터 블록을 생성하는 단계; 및 다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성하는 단계를 구비하여, 상기 변형된 음성데이터 스트림을 상기 사용자의 실시간 대화 시에 그 대화 도청 방지를 위한 사운드 마스킹용 다중합성 노이즈 데이터로 활용할 수 있도록 하는 사운드 마스킹 방법이 제공 된다.

상기 방법은, 복수 개의 상기 변형된 음성데이터 스트림을 다중 합성하여 상기 마스킹용 다중합성 노이즈 데이터로 만드는 단계를 더 구비할 수 있다. 이 경우, 상기 복수 개의 상기 변형된 음성데이터 스트림의 다중 합성은 각 음성데이터 스트림 별로 소정의 감축비율을 곱하여 얻어진 감축 음성데이터 스트림들을 전부 합산하는 방식으로 이루어질 수 있다.

바람직하게는, 상기 방법은 상기 다수의 프레임들 중에서 음성의 세기가 소정 수준 이상인 유음 구간에 해당되는 프레임만을 추출하여 그 추출된 프레임들만 상기 재배열의 대상으로 삼는 단계를 더 구비할 수 있다.

또한, 상기 방법은, 상기 인접 프레임들을 중첩 합성할 때, 그 인접된 두 프레임을 그들 간의 최대 상호상관도(maximum cross-correlation) 지점을 찾아내어 그 지점에서 중첩시켜 연결하되, 그 중첩구간의 기존 샘플들 대신 상기 두 프레임의 상기 중첩구간의 음성 샘플들을 가중처리하여 합산한 합성 샘플들로 대체하는 단계를 더 구비할 수 있다. 여기서, 상기 중첩구간은 소정 개수(OL)의 샘플들로 이루어지고, 중첩되는 두 프레임 중 앞프레임은 끝에서 상기 소정 개수(OL)의 샘플이 중첩구간이 되고, 뒷프레임의 경우는 이것의 맨 첫 번째 샘플이 상기 최대 상호상관도 지점에 위치할 때 상기 앞프레임과 중첩되는 상기 소정 개수(OL)의 샘플들이 중첩구간이 되며 상기 중첩 합성 시에 상기 뒷프레임의 중첩구간보다 앞에 위치하는 음성 샘플이 있으면 그 음성 샘플들은 버린다.

상기 방법에 있어서, 상기 원하는 시간 분량의 변형된 음성데이터 스트림은, 다수 개의 상기 변형가공된 음성데이터 블록들을 인접한 블록끼리 일부 구간을 중첩시켜 연결하되, 그 중첩구간의 샘플 데이터들은 가중처리하여 합산하는 것에 의해 얻어지는 것이다. 그리고 상기 인접 블록들을 중첩 합산할 때, 그 인접된 두 블록을 그들 간의 최대 상호상관도(maximum cross-correlation) 지점을 찾아내어 그 지점에서 중첩시켜 연결하되, 그 중첩구간은 상기 두 블록의 상기 중첩구간의 음성 샘플들을 가중합산하여 얻어진 합성 샘플들로 대체함으로써 인접 블록들이 부드럽게 연결되도록 하는 것이 바람직하다.

한편, 본 발명의 바람직한 실시예에 따르면, 사용자 자신의 음성을 디지털 음성신호로 변환하는 단계; 상기 디지털 음성신호를 소정 분량의 데이터 블록 단위로 구분하고 각 데이터 블록을 변형된 음성데이터 블록으로 변환하는 단계로서, 상기 각 데이터 블록을 다수의 프레임으로 구분하여 그 다수의 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부 구간을 중첩시켜 연결하되 그 중첩구간의 샘플 데이터들을 가중처리하여 합산하는 방식으로 상기 변형된 음성데이터 블록을 만드는 단계; 및 다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성하는 단계를 구비하여, 상기 변형된 음성데이터 스트림을 상기 사용자의 실시간 대화 시에 그 대화 도청 방지를 위한 마스킹용 다중합성 노이즈 데이터로 활용할 수 있도록 하는 사운드 마스킹 방법이 제공된다.

상기 방법은, 상기 변형된 음성데이터 스트림을 복수 개 합산 합성하여 상기 마스킹용 다중합성 노이즈 데이터로 만드는 단계를 더 구비할 수 있다. 이 경우, 상기 복수 개의 상기 변형된 음성데이터 스트림의 다중 합성은 각 음성데이터 스트림 별로 소정의 감축비율을 곱하여 얻어진 감축 음성데이터 스트림들을 전부 합산하는 방식으로 이루어진다.

상기 방법은 상기 마스킹용 다중합성 노이즈 데이터를 스피커를 통해 재생할 수 있는 아날로그 신호로 변환하는 단계를 더 구비할 수 있다.

한편, 본 발명의 다른 측면에 따르면, 대화 도청 방지를 위한 사운드 마스킹 장치가 제공된다. 이 장치는, 사용자의 디지털 음성신호를 소정 분량씩 순차적으로 취하여 블록 단위로 구분하고, 각 블록을 다수의 프레임으로 구분하여 그 프레임들의 시간 순서를 무작위로 뒤섞어 재배열한 다음 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부 구간을 중첩시켜 합성하는(overlap-add) 방식으로 변형가공된 음성데이터 블록들을 생성하고, 상기 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형가공된 음성데이터 스트림을 생성하며, 상기 음성데이터 스트림을 복수 개 합산합성하여 마스킹용 다중합성 노이즈 데이터를 만드는 처리를 수행하는 연산처리부; 상기 연산처리부의 연산처리를 위한 작업공간을 제공하는 메모리; 및 상기 연산처리부가 제공하는 상기 마스킹용 다중합성 노이즈 데이터를 저장하는 불휘발성 메모리를 구비하여, 사용자 자신의 음성을 이용하여 만든 마스킹용 노이즈 음성을 상기 사용자의 실시간 대화 시에 그 대화 도청 방지를 위한 마스킹 음성으로 재생할 수 있도록 하는 것을 특징으로 한다.

상기 장치는, 사용자 자신의 아날로그 음성신호를 상기 디지털 음성신호로 변환하여 상기 연산처리부에 제공하는 아날로그-디지털 변환부를 더 구비할 수 있 다. 또한, 상기 불휘발성 메모리에 저장되어 있던 상기 마스킹용 다중합성 노이즈 데이터를 상기 연산처리부를 통해 전달받아 스피커를 통해 재생할 수 있도록 아날로그 신호로 변환하는 디지털-아날로그 변환부를 더 구비할 수 있다. 나아가, 사용자의 음성을 아날로그 음성신호로 변환하여 상기 아날로그-디지털 변환기에 제공하는 마이크로폰도 더 구비할 수 있다.

나아가, 상기 장치는 인가되는 아날로그 음성신호를 음성으로 출력하는 내장 스피커; 및 상기 마이크로폰과 상기 내장 스피커에 각각 전기적으로 연결된 이어폰잭을 더 구비할 수 있다. 이 경우, 상기 장치는 상기 이어폰잭이 휴대폰의 이어폰잭과 전기적으로 연결되면 상기 휴대폰의 통화 시 마이크가 있는 이어폰 장치로서 기능할 수 있다.

상기 마스킹용 노이즈 데이터의 제작에 있어 사용자의 과거 음성을 재료로 사용하는 바 사용자의 음성을 입력받는 방법은, 별도로 책자 등을 낭독하도록 요구하는 것 보다는, 전화기 등 통신기기에 연결하여 통화 음성을 채취함으로써 자연스럽게 확보하는 것이 사용자의 편의성을 높여주는 방법이 된다. 특히 전화기에서 통화 음성을 전달받을 경우에는 타인의 음성도 함께 채취되어 구분이 어렵기 때문에, 각종 전화기에 연결되는 마이크부착 이어폰 등 별도의 기기를 통하여 통화하도록 함으로써 화자 1명의 음성만을 확보하는 것이 더 바람직하다.

이하 사운드 마스킹용 노이즈 제작 및 활용방법의 바람직한 실시예에 관해 구체적으로 설명한다. 음성 마스킹용 노이즈 제작은 여러 단계의 음성 신호의 가공 절차를 거쳐 얻어진다. 각 단계별로 음성 신호의 가공 방법을 상세하게 설명한다.

(1) 제1단계

입력된 화자의 음성을 디지타이징하여 비압축의 PCM 신호로 기록되는 디지털 오디오 데이터로 변환한 후 저장수단에 저장한다. 음성임을 감안하여 디지털 샘플들로 변환할 때 샘플링레이트는 16 K, 레졸루션은 16 bit 정도가 적당하다. 이에 따라 1초 분량의 오디오 데이터 용량은 32 KBytes가 되며, 1분 분량으로는 1,920 KBytes로서 약 1.9 MBytes가 된다.

(2) 제2단계

저장수단에 저장된 디지털 오디오 데이터를 일정 길이의 블록 단위로 구분한다. 블록 단위로 구분하는 이유는 1개 블록을 단위로 하여 오디오 데이터를 변환가공(후술함)하기 위해서다. 처리 용량 등을 감안할 때 1 블록의 길이를 대략 1분(60초) 정도 분량의 오디오 데이터로 하는 것이 적당할 것이다.

(3) 제3단계

각 블록마다 다음과 같은 처리를 한다. 우선, 한 블록 내의 디지털 오디오 데이터를 소정 크기의 연속적인 다수의 프레임들로 나눈다. 1개 프레임의 크기는 모음 1개의 발성 시간인 50 밀리 초(ms) ~ 300 밀리 초의 범위 이내에서 랜덤으로 정한다. 샘플링레이트가 16 K일 경우 오디오 샘플 개수로는 800개 ~ 4,800개의 범위에서 한 프레임의 크기를 임의로 정하면 될 것이다. 60초 분량의 1개 블록을 평균 150 밀리 초의 프레임들로 나눈다면 프레임의 개수는 400개가 된다.

(4) 제4단계

한 블록 내의 전체 프레임들 중에서 음성의 세기가 소정 기준 이상인 프레임 만을 선별해내는 작업을 한다. 이를 위해, 50 밀리 초 ~ 300 밀리 초(16 K의 경우 샘플 개수 800개 ∼ 4,800개)의 크기로 잘라진 각 프레임이 일정 수준 이상의 음성 세기를 가지고 있는지를 조사한다. 사운드 마스킹용 노이즈로서 실용성이 있으려면 프레임이 무음구간이어서는 안 되며, 유음구간의 프레임이더라도 음성의 진폭이 일정 수준 이상이어야 하기 때문이다. 프레임 내 각 샘플의 진폭 절대값을 더하여 샘플개수로 나누면 평균 음성 세기가 산출된다. 예컨대 16 bit 레졸루션의 경우 각 샘플의 음성 세기(진폭)는 -32,768 ~ +32,767의 값을 가지는데, 평균 음성 세기가 대략 5,000 이상인 프레임만을 선택하여 마스킹용 노이즈 제작을 위한 음원 재료로 사용하는 것이 바람직하다.

(5) 제5단계

각 블록마다 선택된 프레임들을 시간축상으로 스크램블(scramble) 처리를 한다. 즉, 각 블록에 속하는 전체 프레임들 중에서 평균 음성 세기가 일정 수준 이상이어서 선택된 프레임들의 시간 순서를 무작위적으로(randomly) 재배치한다. 블록의 크기가 60초라면 그 블록 내 프레임의 개수는 대체로 400개 안팎이 될 것이며, 이들 수백 개의 프레임들을 랜덤으로 뒤섞어 순서를 바꾸어 버린다.

(6) 제6단계

스크램블 처리된(순서가 뒤바뀐) 프레임들을 도 6에 예시된 것과 같이 최대 상호상관도(maximum cross-correlation) 및 가중함수(weighting function)를 적용한 중첩합산 방식으로 부드럽게 연결하는 작업을 수행한다. 스크램블 처리에 의해 시간순서가 바뀐 프레임들을 그대로 접합시키면 인접 프레임들 간의 경계부분 즉, 선행 프레임의 후미 샘플과 바로 다음 프레임의 선두 샘플 간에 불연속이 생겨 튀는 소리가 들리고 프레임들의 분리경계가 쉽게 노출되는 문제점이 있다.

먼저, 도 6의 (A)에 도시된 것처럼, 한 블록 내에서 재배치된 앞뒤 프레임들 R_n-1과 R_n (단, n은 1, 2, 3, ..., N이고 N은 한 블록 내에 포함된 프레임의 전체 갯수임) 사이의 접합부를 소정 길이만큼 중첩시키기로 하고, 중첩구간(OL)의 길이를 정한다. 중첩구간의 길이를 특정 길이로 고정하거나 또는 중첩결합 부분의 파악을 어렵게 하기 위하여 중첩구간의 길이는 3 밀리 초, 5 밀리 초 등 다수의 가지 수를 정해놓고 이 가운데 1가지를 랜덤으로 선택할 수도 있다.

다음으로, 도 6의 (B)에 도시된 것처럼, 중첩구간(OL)이 선택되면 중첩 구간의 앞뒤 프레임 R_n-1과 R_n 이 최대 상호상관도(maximum cross-correlation)를 갖는 지점을 탐색하는 작업을 수행한다. 앞뒤 프레임 R_n-1과 R_n을 최대 상호상관도(maximum cross-correlation) 지점에서 중첩가산(overlap-add)하면 이들 두 프레임 R_n-1과 R_n 이 보다 스무드하게 연결되어 중첩결합 부분의 파악을 어렵게 하기 때문이다. 최대 상호상관도 지점을 찾기 위해, 앞 프레임 R_n-1의 중첩구간(OL) 시작점에 뒷 프레임 R_n의 맨 앞부분을 위치시킨 후, 중첩구간(OL)에 국한하여 앞뒤 프레임 R_n-1과 R_n 간의 상호상관도(cross-correlation) 값을 계산한다.

그런 다음 뒷 프레임 R_n을 1개 샘플 또는 소정개수의 샘플만큼씩 좌측으로 이동시키면서 (즉, 뒷 프레임을 앞 프레임과 이동하는 샘플갯수만큼 더 중첩시키면 서) 매 이동시마다 중첩구간(OL)의 상호상관도 값을 계산한다. 앞뒤 프레임 R_n-1과 R_n의 중첩구간 내 샘플의 진폭 값을 각각 x, y라고 하면 상호상관도 값은 ∑x_iy_j/(∑x_i ²)^1/2 등의 산출식으로 구할 수 있다. 그러나 최대 상호상관도 값을 찾기 위하여 무한정 뒷 프레임 R_n을 좌측으로 이동시킬 수는 없다. 뒷 프레임 R_n을 좌측으로 이동시킬 수 있는 최대 범위를 탐색범위(SR)로 정하고, 그 탐색범위(SR)에 상한값을 설정할 필요가 있다. 탐색범위(SR)의 바람직한 크기는 실험 결과 약 12 밀리 초 정도가 적당한 것으로 조사되었다. 이에 따라 뒷 프레임 R_n의 최선단부를 중첩구간(OL)의 시작점에 위치시킨 후 그 뒷 프레임 R_n을 소정 이동거리만큼씩 좌측으로 이동시키면서 예컨대 12 밀리 초 즉, 탐색범위(SR)만큼 이동시키고, 매 이동시마다 중첩구간의 샘플들 간의 상호상관도를 계산한다. 여기서, 뒷 프레임 R_n이 좌측으로 한 번 이동할 때마다 이동하는 거리는 1개 샘플 또는 소정개수의 샘플만큼의 거리이다.

도 6의 (C)와 같이 뒷 프레임 R_n이 탐색범위(SR) 끝까지 이동을 완료하면, 뒷 프레임 R_n이 탐색범위(SR)의 전구간을 이동하는 과정에서 산출된 상호상관도들의 값들 중 최대값을 결정한다.

최대 상호상관도 값이 결정되면, 도 6의 (D)에 도시된 바와 같이 그 최대 상호상관도 지점에 뒷 프레임 R_n의 맨 앞부분을 위치시킨다. 그리고 그 상태에서 중첩 구간(OL)의 좌측으로 벗어나간 뒷 프레임 R_n의 앞부분을 잘라 내버리고, 그 중첩구간(OL)에 속하는 앞뒤 프레임 R_n-1과 R_n의 샘플들을 중첩합성(overlap-add)한다. 이때, 그 중첩합성은 도 7의 (A)에 도시된 바와 같이 앞 프레임 R_n-1과 뒷 프레임 R_n의 중첩구간(OL)의 샘플들(x_i와 y_i, i=1부터 L까지, L=중첩구간내의 샘플 갯수)을 가중치를 적용하여 합하는 방식으로 수행한다. 가중치 적용에 있어서, 예컨대 1차함수를 가중함수(weighting function)로 이용할 수 있을 것이다. 즉, 중첩구간 내의 앞 프레임 R_n-1과 뒷 프레임 R_n의 대응 샘플들 x_i과 y_i (i=1부터 L까지, L=중첩구간내의 샘플 갯수)을 합하되, 중첩구간(OL)의 왼쪽에서 오른쪽으로 가면서 앞 프레임 R_n-1의 샘플들 x_i은 그 비중을 점진적으로 낮추고 이에 대응하여 뒷 프레임 R_n의 샘플들 y_i의 비중은 점진적으로 높이는 방식으로 앞 뒤 프레임 R_n-1과 R_n의 샘플들의 합성비중을 조절하는 방식으로 가중합성한다.

중첩합성된 새로운 샘플들이 얻어지면, 도 7의 (B)에 도시된 것처럼 그 중첩합성된 샘플들을 앞 프레임 R_n-1의 중첩구간 부분의 샘플들을 대신하여 치환해 넣는다. 나아가 그 중첩합성된 샘플 뒤에는 뒷 프레임 R_n의 중첩구간(OL) 우측의 나머지 샘플들을 단순히 그대로 부가한다. 도 7은 1차 함수를 가중함수로 사용하여 앞뒤 프레임들 R_n-1과 R_n의 중첩구간을 중첩합산한 것을 예시한다.

이러한 최대 상호상관도(maximum cross-correlation) 및 가중함수(weighting function)를 적용한 중첩합산의 처리과정을 통해 인접하는 두 프레임 R_n-1과 R_n이 중첩합성된다. 이러한 작업은 해당 블록의 모든 프레임들(즉, n의 값을 1부터 N까지 증가시키면서)에 대하여 순차적으로 수행한다. 이를 통해 해당 블록내의 재배치된 모든 프레임들이 다시 연결되어 변형된 블록이 얻어지게 된다.

상기와 같은 방식으로 변형가공된 블록 오디오 데이터는 음성 에너지가 낮은 일부 프레임들이 버려지고 중첩합산 과정에서도 일부 오디오 샘플들이 손실되기 때문에 당초의 블록 오디오 데이터보다 다소 짧아지게 된다.

(7) 제7단계

이상의 제1단계~제6단계의 처리과정을 통해 얻어지는 변형가공된 오디오 데이터 블록들이 얻어지면, 그 블록들을 연결하여 원하는 시간 분량의 변형가공된 오디오 스트림을 제작한다. 오디오 데이터 블록들을 연결할 경우에도 연결되는 두 블록의 접합부에서 튀는 소리를 내지 않고 경계부분이 드러나지 않도록 하기 위해 앞뒤 블록들을 상기 제6단계와 동일하게 최대 상호상관도(maximum cross-correlation) 및 가중함수(weighting function)를 적용한 중첩합산 방식으로 부드럽게 연결한다.

만약 마스킹용 노이즈 음성으로 1시간 분량이 필요하고, 변형가공된 1개 블록의 길이가 30초 정도라면 1개의 변형가공된 오디오 스트림을 만드는 데 120개 이상의 변형가공된 오디오 데이터 블록들이 필요할 것이다. 상기와 같은 방식으로 변형가공된 디지털 오디오 스트림을 미리 여러 개 만들어두고 대화 도청 방지를 위해 필요할 때 적절히 활용하도록 한다.

(8) 제8단계

실시간 대화의 도청방지가 필요한 경우 위와 같이 미리 만들어둔 변형가공된 디지털 오디오 스트림을 스피커로 재생하여 노이즈 음성으로 이용하면 된다. 변형가공된 디지털 오디오 스트림을 1개만 이용하여 노이즈 음성으로 이용할 수도 있겠지만, 노이즈 음성으로서의 능력을 보다 강화하기 위해 복수 개의 변형가공된 디지털 오디오 스트림을 합성하여 이용하는 것이 바람직하다. 보다 바람직하기로는, 3개의 변형가공된 디지털 오디오 스트림을 합산합성하여 노이즈 음성으로 이용한다.

1개의 변형가공된 오디오 스트림만을 마스킹용 노이즈 음성으로 출력방사할 경우 각 음성 구간별 F1(제1 포만트) 및 F2(제2 포만트)의 짝이 마스킹용 노이즈 1짝에 대화 음성 1짝의 2종류로 단순화되어 정밀 성문분석 시 짧은 시간 안에 해독될 가능성을 배제할 수 없다. 이에 비해, 3종류 이상의 변형 가공된 오디오 스트림들을 합산합성하여 마스킹용 노이즈를 만들면 F1 및 F2의 짝이 3종류 이상 뒤섞여 F1 및 F2의 짝을 찾아내기가 매우 어렵다. 이러한 마스킹용 노이즈에 섞여있는 대화 음성은 정밀한 주파수 분석 및 성문(聲紋) 분석을 실시하더라도 해독하기가 거의 불가능하다. 사람 귀로 주의를 집중하여 대화 음성을 판별해내는 실험에서도 마이크에 입력되는 대화 음성을 62 데시벨, 마스킹용 노이즈를 80 데시벨 정도로 설정한 상태에서 1개의 변형가공된 오디오 스트림을 마스킹용 노이즈로 출력하였을 때에는 간간히 대화 음성을 인지할 수 있었으나 3개 변형가공된 오디오 스트림을 가중합산한 마스킹용 노이즈를 출력하였을 때에는 전혀 인지할 수 없었다.

변형가공된 오디오 스트림의 소리를 3개 이상 합치면 소리의 세기가 커져 사운드 마스킹에도 도움이 되지만, 진폭의 합산 값이 최대 값(16 bit 레졸루션의 경우 32,767)을 초과하는 포화(saturation) 현상이 발생할 수 있다. 이를 방지하기 위하여 각 오디오 스트림들에 1 미만의 감축비율 값을 곱하여 각각의 진폭 값을 줄이는 것이 필요하다. 감축비율 값은 합산되는 각 오디오 스트림들에게 동일한 값을 적용할 수도 있지만, 분간이 더욱 어렵도록 각각의 오디오 스트림들에 다른 감축비율 값을 곱하는 것이 바람직하다.

(9) 제9단계

3개 이상의 변형가공된 오디오 스트림들을 합산합성한 다중합성 마스킹용 노이즈를 확보해둔 다음에는, 대화 도청의 방지가 필요한 때마다 그 다중합성 마스킹용 노이즈를 디지털 신호에서 아날로그 신호로 변환한 후, 스피커를 통하여 출력 재생하는 방식으로 활용한다. 마스킹용 노이즈의 출력은 대화가 이루어지는 사무실, 회의실, 식당 등에서 유리창과 함께 도청기가 있을 만한 방향으로 스피커의 지향점을 설정하여 노이즈를 방사하면 효율적이다. 이에 따라 스피커는 최소 2개 이상으로 구성하되, 모노타입의 노이즈를 여러 개의 스피커에서 출력방사하는 것이 바람직하다. 이 때 스피커는 대화자들과 일정 거리를 이격하게 되므로 대화에 크게 지장을 주지는 않는다.

한편, 도 8은 남성의 대화 음성(한국어)이 자신의 변형가공된 다중합성 마스킹용 노이즈에 의하여 마스킹되었을 때의 사운드 스펙트로그램을 나타내는데, (A)는 남성의 대화 음성을, (B)는 3중 변형합성된 마스킹용 노이즈를, 그리고 (C)는 (B)의 마스킹 노이즈가 출력방사되는 상태에서의 (A)의 대화 음성을 녹음하여 스펙트로그램으로 각각 분석한 것이다. 도 8에서 보듯이 대화 음성은 F1(제1 포만트) 및 F2(제2 포만트)가 분명히 나타나지만, 동일 화자의 음성을 변형가공하여 3중 합성한 마스킹용 노이즈에서는 포만트들이 중첩적으로 뒤섞여 F1 및 F2를 종잡을 수 없다. 또한 마스킹 노이즈에 대화 음성이 추가된 마스킹 후의 도청음은 포만트의 구성이 마스킹용 노이즈와 달리 나타나지만 어떤 대화 음성이 추가되었는지를 도저히 파악할 수가 없다. 이에 따라 동일 화자의 과거의 음성으로 변형가공된 다중합성 마스킹용 노이즈가 음성으로 재생되어 현재의 대화 음성과 섞일 경우 정밀한 주파수 분석 및 성문(聲紋) 분석을 실시하더라도 그 실시간 대화 음성을 구별해내기란 거의 불가능하다.

사용자의 과거 음성을 재료로 하여 다중 변형가공한 마스킹용 노이즈를 만들었다고 하였더라도, 완벽한 도청방지 효과를 기하기 위하여 마스킹용 노이즈를 지속적으로 교체해주는 것이 더 바람직하다. 이를 위하여 사용자의 전화 통화음성 등을 자연스럽게 계속 채취하고 이를 재료로 새로운 마스킹용 노이즈를 제작하여, 기존의 노이즈를 대체하는 것이 좋다. 이때 기존의 마스킹용 노이즈를 한꺼번에 대체할 수도 있지만, 그렇게 하기 위해서는 사용자의 많은 분량의 음성이 필요하므로 확보될 때마다 마스킹용 노이즈를 만들어 일부분씩 꾸준히 교체하여 노이즈를 점진적으로 새롭게 하는 것이 더 현실적이다.

한편, 도 9는 위에서 설명한 사운드 마스킹용 노이즈 제작 및 활용을 위한 장치(100)의 바람직한 구성을 도시한다. 이 장치(100)는 휴대폰과 같은 이동통신단 말기(200)나 유선 전화기 등에 연결하여 사용할 수 있다. 이 장치(100)는 마이크(110), 아날로그/디지털 변환기(ADC)(120), CPU(130), 램(140), 플래시메모리(150), 디지털/아날로그 변환기(DAC)(160) 등을 구비한다.

마이크(110)는 별도의 기기에 입력되는 사용자의 음성을 아날로그 음성신호로 변환하고, ADC(120)는 마이크(110)에서 제공되는 아날로그 음성신호를 샘플링 하여 비압축 디지털 음성신호인 PCM 데이터로 변환한다. CPU(130)는 ADC(120)로부터 PCM 데이터를 가져와 저장 및 가공처리 등을 하는데 필요한 연산을 수행하며, 램(140)은 PCM 데이터를 변형가공하기 위하여 CPU(130)가 연산작업을 할 때 필요한 작업공간을 제공한다. 플래시 메모리(150)는 CPU(130)에 연결되어 가공 전 PCM 데이터와 변형가공 후의 마스킹용 노이즈 신호 등을 CPU(130)로부터 전달받아 저장한다. 플래시 메모리(150)는 불휘발성 메모리의 대표적인 예로서 제시된 것이며, 다른 불휘발성 저장소자를 플래시 메모리 대신에 채용할 수도 있다. DAC(160)는 CPU(130)가 제공하는 변형가공된 다중합성 마스킹용 노이즈를 디지털 오디오 신호에서 아날로그 오디오 신호로 변환해준다.

DAC(160)에는 마스킹용 노이즈를 다소 큰 소리로 재생 방사해주는 외부 스피커(300)가 연결되는 것이 바람직하다. 그 외부 스피커(300)는 DAC(160)가 제공하는 변형가공된 다중합성 마스킹용 노이즈를 입력받아 마스킹용 노이즈 음성으로 재생한다.

이 장치(100)는 또한 사용자가 음성 채취, 마스킹용 노이즈 제작, 마스킹용 노이즈의 재생 및 정지 등을 기기에서 선택할 수 있는 키 입력부(비도시)를 구비하 는 것이 바람직하다.

또한, 이 장치(100)는 예컨대 전화기(200)와 같은 외부 기기와 아날로그 음성신호를 주고받기 위한 이어폰 잭(180)을 더 구비할 수 있다. 이어폰 잭(180)을 통하여 전화기(200) 등 외부기기와 연결되어 그 외부기기에 사용자의 통화 음성을 아날로그 음성신호로 전달하는 한편 그 통화 음성을 사용자의 음성 재료로 채취하고, 전화기 등 외부기기가 수신하여 출력하는 통화 상대방의 아날로그 음성신호를 이 장치의 내장 스피커(170)를 통하여 통화자에게 전달할 수 있다. 이 경우, 이어폰 케이블을 이용하여 이어폰잭(180)을 통해 이 장치(100)와 휴대폰(200)을 연결하여 사용하면 이 장치(100)를 마이크가 장착된 이어폰으로 활용할 수 있다. 나아가, 이 장치(100)는 외부의 디지털 음성기기와 CPU(130)가 디지털 음성신호를 주고받을 수 있는 별도의 접속단자(185)를 더 구비할 수 있다. 또한 별도 기기의 성격에 따라서 전화기와 입출력하는 음성신호를 기기가 내부적으로 특수 가공처리하여 전달할 수도 있다.

상기의 장치(100)를 이용하여 변형가공된 다중합성 마스킹용 노이즈를 제작하는 방법은 다음과 같다. 먼저 CPU(130)가 플래쉬 메모리(150)에 저장된 사용자의 음성 데이터를 예컨대 1분 크기 등 일정 길이의 블록 단위로 읽어와 RAM(140)에 옮겨놓는다. RAM(140)에 옮겨온 1개 블록 단위의 디지털 오디오 데이터를 소정 크기의 연속적인 다수의 프레임들로 구분한다. 그리고 그 소정 크기로 잘라진 각각의 프레임들의 음성 세기(에너지 레벨)를 조사하여 일정 수준 이하의 프레임은 버리고 일정 수준 이상인 프레임만 선택한다. 그런 다음, 그 선택된 프레임들의 시간 순서 를 랜덤으로 뒤섞어 재배치한다. 재배치된 프레임들을 최대 상호상관도(maximum cross-correlation) 및 가중함수(weighting function)를 적용한 중첩합산 방식으로 부드럽게 연결하여 1개의 변형가공된 블록 오디오 데이터로 만든다.

위와 같은 절차에 따라 만들어진 변형가공된 오디오 데이터 블록들을 부드럽게 연결함으로써, 원하는 시간 분량의 변형가공된 오디오 스트림의 제작이 이루어진다. 나아가 이와 같은 방식으로 변형가공된 디지털 오디오 스트림을 여러 개 만들어 플래시 메모리(150)에 저장한다. 대화 음성에 대한 마스킹 효과를 높이기 위해, 변형가공된 디지털 오디오 스트림을 복수 개 합성한 다중변형합성 마스킹 노이즈를 만드는 것이 바람직하다. 예컨대 변형가공된 디지털 오디오 스트림을 3개 이상 감축합산 합성하여 마스킹용 노이즈로 제작한다.

제작완성된 다중변형합성 마스킹용 노이즈를 플래시 메모리(150)에 저장해두었다가 마스킹 노이즈의 사용이 필요할 때, DAC(160)로 내보내어 마스킹용 노이즈 음성으로 출력되도록 한다. 즉, 상기와 같이 3개 이상의 변형가공된 오디오 스트림들을 다중변형합성한 마스킹용 노이즈를 DAC(160)를 통해 아날로그 신호로 변환한 후, 외부 스피커(300)를 통하여 출력 재생하면 대화 음성을 도청 시도로부터 완벽하게 보호할 수 있다. 마스킹용 노이즈는 2개 이상의 스피커를 이용하여 대화가 이루어지는 사무실, 회의실, 식당 등에서 유리창과 함께 도청기가 있을 만한 방향으로 스피커 지향점을 설정하여 큰 소리로 방사하면 효율적이다.

사용자의 과거 음성을 재료로 하여 다중 변형가공한 마스킹용 노이즈를 만들었다고 하였더라도, 완벽한 도청방지 효과를 기하기 위하여 마스킹용 노이즈를 지 속적으로 교체해주는 것이 더 바람직하다. 이를 위하여 사용자의 전화 통화음성을 계속 채취하여 플래시 메모리(150)에 저장하면서 일정 분량이 확보되었을 때 이를 재료로 새로운 마스킹용 노이즈를 제작하여, 기존의 노이즈를 대체하는 것이 좋다. 이때 사용자의 음성을 많이 확보하여 기존의 마스킹용 노이즈를 한꺼번에 대체할 수도 있지만, 일정량이 확보될 때마다 마스킹용 노이즈를 소량으로 만들어 일부분씩 꾸준히 교체하여 노이즈를 점진적으로 새롭게 하는 것이 더 현실적이다.

또한 별도 장치(100)의 사용 초기에는 확보할 수 있는 사용자의 음성 분량이 많지 않으므로 동일한 음성 프레임들이라 하더라도 프레임들의 순서를 재배치하는 단계에서 이를 여러 회 실시하여 별개의 변형가공 오디오 블록들을 다수 제작한다면, 초기에 사용자의 음성 분량이 적더라도 목표로 하는 분량의 변형가공된 마스킹용 노이즈를 만들 수 있다. 이렇게 초기 마스킹용 노이즈를 제작하여 사용토록 하면서, 이후 사용자의 음성을 추가로 확보하였을 때마다 새로운 마스킹용 노이즈를 만들어 일부분씩 교체해나가면 될 것이다.

이상에서 설명된 다중변형합성 노이즈를 이용하여 사운드 마스킹을 실시할 경우 사용자는 자신의 대화 음성을 도청으로부터 완벽하게 보호할 수 있다. 본 발명은 사운드 마스킹용 노이즈를 동일한 음성 주파수 대역을 나타내는 사용자 자신의 과거 음성을 재료로 하여, 시간순서를 뒤섞어 가면서 변형가공하고 이를 다시 다중합성하여 재생 방사하기 때문에 마스킹용 노이즈와 섞여있는 대화 음성을 추출할 수 없게 해주는 장점이 있다.

특히 변형가공한 오디오 스트림을 예컨대 3가지 이상 가산하여 다중합성함으로써 각 발성구간별로 마스킹용 노이즈의 주요 음성 주파수 대역(포만트)들을 중첩 및 분산시키는 효과를 가져와, 정밀한 주파수 분석 및 성문(聲紋) 분석을 실시하더라도 마스킹용 노이즈 자체의 포만트 위치를 알아내는 것조차 매우 어렵다. 이에 따라 본 발명에서 제시된 방식으로 사용자의 대화 음성이, 자신의 목소리가 변형다중합성 노이즈로 마스킹되어 녹음될 경우 포만트 구성상의 혼란이 더욱 가중되기 때문에 대화 음성을 파악하거나 추출해내기란 거의 불가능하다.

본 발명은 컴퓨터 프로그램으로도 구현이 가능하지만, 전화기 등 통신기기에 연결하는 별도의 장치(100)로 제작할 경우 사용자의 음성 확보, 휴대 및 활용도 등의 측면에서 사용자의 편의를 극대화해줄 수 있다.

본 발명을 통하여 대화 도청을 근원적으로 방지하면 개인의 사생활(프라이버시) 보호, 도청으로 인한 산업정보 등의 유출방지 효과는 물론, 도청 불안감 및 의심으로 인한 사회 불신풍조를 잠재우고 신뢰사회를 구축해 가는데 크게 기여할 수 있을 것이다.

이상에서는 본 발명의 실시예에 따라 본 발명이 설명되었지만, 본 발명의 사상을 일탈하지 않는 범위 내에서 다양한 변형이 가능함은 본 발명이 속하는 기술분야의 당업자라면 명확히 인지할 수 있을 것이다.

Claims

사용자 자신의 소정분량의 디지털 음성신호를 다수의 프레임으로 구분하여 그 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부구간을 중첩시켜 합성하는 방식으로 변형된 음성데이터 블록을 생성하는 단계;

다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성하는 단계; 및

복수 개의 상기 변형된 음성데이터 스트림을 다중 합성하여 상기 마스킹용 다중합성 노이즈 데이터로 만드는 단계를 구비하여,

상기 변형된 음성데이터 스트림을 상기 사용자의 실시간 대화 시에 그 대화도청 방지를 위한 마스킹용 다중합성 노이즈 데이터로 활용할 수 있도록 하는 것을 특징으로 하는 대화도청방지를 위한 사운드 마스킹 방법.
삭제
제1항에 있어서, 상기 복수 개의 상기 변형된 음성데이터 스트림의 다중 합성은 각 음성데이터 스트림 별로 소정의 감축비율을 곱하여 얻어진 감축 음성데이터 스트림을 전부 합산하는 방식으로 이루어지는 것을 특징으로 하는 대화도청방지를 위한 사운드 마스킹 방법.
제 1항에 있어서, 상기 다수의 프레임들 중에서 음성의 세기가 소정 수준 이상인 유음 구간에 해당되는 프레임만을 추출하여 그 추출된 프레임들만 상기 재배열의 대상으로 삼는 단계를 더 구비하는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 1항에 있어서, 상기 인접 프레임들을 중첩 합성할 때, 그 인접된 두 프레임을 그들 간의 최대 상호상관도(maximum cross-correlation) 지점을 찾아내어 그 지점에서 중첩시켜 연결하되, 그 중첩구간의 기존 샘플들 대신 상기 두 프레임의 상기 중첩구간의 음성 샘플들을 가중처리하여 합산한 합성 샘플들로 대체하는 단계를 더 구비하는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 5항에 있어서, 상기 중첩구간은 소정 개수(OL)의 샘플들로 이루어지고, 중첩되는 두 프레임 중 앞프레임은 끝에서 상기 소정 개수(OL)의 샘플이 중첩구간이 되고, 뒷프레임은 이것의 맨 첫 번째 샘플이 상기 최대 상호상관도 지점에 위치할 때 상기 앞프레임과 중첩되는 상기 소정 개수(OL)의 샘플들이 중첩구간이 되며, 상기 중첩 합성 시에 상기 뒷프레임의 중첩구간보다 앞에 위치하는 상기 뒷프레임의 음성 샘플이 있으면 그 음성 샘플들은 버리는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 1항에 있어서, 상기 원하는 시간 분량의 변형된 음성데이터 스트림은, 다수 개의 상기 변형가공된 음성데이터 블록들을 인접한 블록끼리 일부 구간을 중첩시켜 연결하되, 그 중첩구간의 샘플 데이터들은 가중처리하여 합산하는 것에 의해 얻어지는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 7항에 있어서, 상기 인접 블록들을 중첩 합산할 때, 그 인접된 두 블록을 그들 간의 최대 상호상관도(maximum cross-correlation) 지점을 찾아내어 그 지점에서 중첩시켜 연결하되, 그 중첩구간은 상기 두 블록의 상기 중첩구간의 음성 샘플들을 가중합산하여 얻어진 합성 샘플들로 대체함으로써 인접 블록들이 부드럽게 연결되도록 하는 단계를 더 구비하는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 1항에 있어서, 상기 프레임의 길이는 50밀리초(ms) ~ 300밀리초(ms)의 시간에 해당하는 음성데이터의 길이인 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
사용자 자신의 음성을 디지털 음성신호로 변환하는 단계;

상기 디지털 음성신호를 소정분량의 데이터 블록 단위로 구분하고 각 데이터 블록을 변형된 음성데이터 블록으로 변환하는 단계로서, 상기 각 데이터 블록을 다수의 프레임으로 구분하여 그 다수의 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부 구간을 중첩시켜 연결하되 그 중첩구간의 샘플 데이터들을 가중처리하여 합산하는 방식으로 상기 변형된 음성데이터 블록을 생성하는 단계;

다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성하는 단계; 및

상기 변형된 음성데이터 스트림을 복수 개의 합산 합성하여 상기 마스킹용 다중합성 노이즈 데이터로 만드는 단계를 구비하여,

상기 변형된 음성데이터 스트림을 상기 사용자의 실시간 대화 시에 그 대화도청 방지를 위한 마스킹용 다중합성 노이즈 데이터로 활용할 수 있도록 하는 것을 특징으로 하는 대화도청방지를 위한 사운드 마스킹 방법.
삭제
제10항에 있어서, 상기 복수 개의 상기 변형된 음성데이터 스트림의 다중 합성은 각 음성데이터 스트림 별로 소정의 감축비율을 곱하여 얻어진 감축 음성데이터 스트림을 전부 합산하는 방식으로 이루어지는 것을 특징으로 하는 대화도청방지를 위한 사운드 마스킹 방법.
제 10항에 있어서, 상기 마스킹용 다중합성 노이즈 데이터를 스피커를 통해 재생할 수 있는 아날로그 신호로 변환하는 단계를 더 구비하는 것을 특징으로 하는 사운드 마스킹 방법.
제 10항에 있어서, 상기 각 데이터 블록을 구분하여 얻어진 상기 다수의 프레임들 중에서 음성의 세기가 소정 수준 이상인 유음 구간에 해당되는 프레임만을 추출하여 그 추출된 프레임들만 상기 재배열의 대상으로 삼는 단계를 더 구비하는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 10항에 있어서, 상기 인접 프레임들을 중첩 합성할 때, 그 인접된 두 프레임을 그들 간의 최대 상호상관도(maximum cross-correlation) 지점을 찾아내어 그 지점에서 중첩시켜 연결하되, 그 중첩구간의 기존 샘플들 대신 상기 두 프레임의 상기 중첩구간의 음성 샘플들을 가중처리하여 합산한 합성 샘플들로 대체하는 단계를 더 구비하는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
제 10항에 있어서, 상기 원하는 시간 분량의 변형된 음성데이터 스트림은, 다수 개의 상기 변형가공된 음성데이터 블록들을 인접한 블록끼리 일부 구간을 중첩시켜 연결하되, 그 중첩구간의 샘플 데이터들은 가중처리하여 합산하는 것에 의해 얻어지는 것을 특징으로 하는 대화도청 방지를 위한 사운드 마스킹 방법.
사용자 자신의 음성을 디지털 음성신호로 변환하는 기능과, 상기 디지털 음성신호를 소정분량의 데이터 블록 단위로 구분하고 각 데이터 블록을 변형된 음성데이터 블록으로 변환하는 기능으로서, 상기 각 데이터 블록을 다수의 프레임으로 구분하여 그 다수의 프레임들의 시간 순서를 무작위로 뒤섞어 재배열하고, 그 재배열된 전체 프레임들을 인접한 프레임들끼리 일부 구간을 중첩시켜 연결하되 그 중첩구간의 샘플 데이터들을 가중처리하여 합산하는 방식으로 상기 변형된 음성데이터 블록을 생성하는 기능과, 다수의 상기 변형된 음성데이터 블록들을 연결하여 원하는 시간 분량의 변형된 음성데이터 스트림을 생성하는 기능과, 상기 변형된 음성데이터 스트림을 복수 개의 합산 합성하여 상기 마스킹용 다중합성 노이즈 데이터로 만드는 기능을 수행하는 연산처리부;

상기 연산처리부의 연산처리를 위한 작업공간을 제공하는 메모리; 및

상기 연산처리부가 제공하는 상기 마스킹용 다중합성 노이즈 데이터를 저장하는 불휘발성 메모리를 구비하여,

사용자 자신의 음성을 이용하여 만든 마스킹용 노이즈 음성을 상기 사용자의 실시간 대화 시에 그 대화 도청 방지를 위한 마스킹 음성으로 재생하는 것을 특징으로 하는 대화 도청 방지를 위한 사운드 마스킹 장치.
제 17항에 있어서, 사용자 자신의 아날로그 음성신호를 상기 디지털 음성신호로 변환하여 상기 연산처리부에 제공하는 아날로그-디지털 변환부를 더 구비하는 것을 특징으로 하는 사운드 마스킹 장치.
제 17항에 있어서, 상기 불휘발성 메모리에 저장되어 있던 상기 마스킹용 다중합성 노이즈 데이터를 상기 연산처리부를 통해 전달받아 스피커를 통해 재생할 수 있도록 아날로그 신호로 변환하는 디지털-아날로그 변환부를 더 구비하는 것을 특징으로 하는 사운드 마스킹 장치.
제 17항에 있어서, 사용자의 음성을 아날로그 음성신호로 변환하여 상기 아날로그-디지털 변환기에 제공하는 마이크로폰을 더 구비하는 것을 특징으로 하는 사운드 마스킹 장치.
제 20항에 있어서, 인가되는 아날로그 음성신호를 음성으로 출력하는 내장 스피커; 및 상기 마이크로폰과 상기 내장 스피커에 각각 전기적으로 연결된 이어폰잭을 더 구비하여, 상기 장치는 상기 이어폰잭이 휴대폰의 이어폰잭과 전기적으로 연결되면 상기 휴대폰의 통화 시 마이크가 있는 이어폰 장치로서 기능할 수 있는 것을 특징으로 하는 사운드 마스킹 장치.