WO2021107218A1

WO2021107218A1 - 음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스

Info

Publication number: WO2021107218A1
Application number: PCT/KR2019/016711
Authority: WO
Inventors: 이태훈
Original assignee: 주식회사 공훈
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-03

Abstract

본 개시의 기술적 사상에 의한 일 양태에 따르면, 화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계와, 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계, 및 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계를 포함하는 음성 데이터의 프라이버시 보호를 위한 방법이 제공된다.

Description

음성 데이터의 프라이버시 보호를 위한 방법 및 디바이스

본 개시(disclosure)의 실시예들은 음성 상호 작용들의 분야에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 개시의 실시예들에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

음성 인식 기반 디바이스들 및 서비스들의 보급이 계속해서 증가하고 있다. 예를 들면, 네이버 클로바(Naver Clova), 카카오 미니(Kakao Mini), 아마존 에코(Amazon Echo), 구글 홈(Google Home) 등과 같은 디바이스들이 전세계의 수백만 가정에서 사용되고 있고, 삼성 빅스비(Samsung Bixby), 애플 시리(Apple Siri), 마이크로소프트 코타나(Microsoft Cortana) 등과 같은 서비스의 사용이 보편화되고 있다.

음성 인식 기반 디바이스들(혹은 서비스가 적용된 디바이스들)은, 마이크로폰을 통해 사용자들로부터의 자연스러운 스피치를 캡처하고, 사용자 질의를 분석하며, 적절한 응답 또는 서비스를 제공한다. 사용자 질의들은 해당 디바이스나 타 디바이스들을 사용할 수 있을 뿐만 아니라(예를 들면, TV의 전원을 끄는 것 등) 외부 서비스들을 사용할 수 있다(예를 들면, 일기 예보 또는 주가를 검색하는 것, 디바이스 고장에 대해 도움을 받는 것 등).

최신의 음성 인식 기반 디바이스들은 화자 인식도 수행한다. 그러한 화자 인식은 다수의 특징들, 이를테면, 사용자의 접근 제어(예를 들면, 아이는 홈 네트워크를 구성할 수 없음, 성인 영화들에 액세스할 수 없음 등), 상호 작용들의 개인화(예를 들면, 상호 작용의 어휘는 어린 아이들, 청소년들, 성인들, 또는 고령자들 중에서 선택되는 화자의 카테고리에 적응될 수 있음)를 가능하게 한다.

이러한 음성 인식 기반의 질의/응답 서비스, 화자 인식 서비스로 인해 사용자의 생활 편의성이 크게 개선되고 있지만, 개인정보 또는 프라이버시에 대한 침해 우려도 커지고 있다. 수집, 저장된 개인의 음성 정보가 유출될 가능성이 있고, 서비스 프로바이더들이 개선된 서비스의 제공을 위해 수집, 저장된 사용자의 음성 정보를 응용하는 과정에서 개인 정보가 노출될 우려가 있기 때문이다.

따라서, 개인정보 또는 프라이버시 보호를 위한 해법이 필요하다는 것이 이해될 수 있고, 본 개시는 그러한 해법을 제공한다.

본 개시의 기술적 사상이 이루고자 하는 과제는, 음성 데이터로부터 프라이버시 음성 명령 및 대화 내용을 확인할 수 없도록 음성 데이터에 대해 프라이버시 보호를 위한 처리를 수행하는 방법 및 디바이스를 제공하는데 있다.

본 개시의 기술적 사상이 이루고자 하는 기술적 과제는 위에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 개시의 기술적 사상에 의한 일 양태에 따르면, 음성 데이터의 프라이버시 보호(privacy preserving)를 위한 방법으로, 화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계; 상기 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계; 및 상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함하는 방법이 제공된다.

예시적인 실시예에 따르면, 상기 추출하는 단계는, 상기 음성 데이터를 필터링하여 상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 상기 음성 세그먼트들을 추출하는 단계;를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 변별적 특징은, 파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 음성 세그먼트들은, 각각, 음절, 낱말, 및 어절 중 어느 하나의 단위 요소일 수 있다.

예시적인 실시예에 따르면, 상기 추출하는 단계는, 상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들로 구분하는 단계; 및 기 설정된 조건에 따라, 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여, 상기 프라이버시 보호 음성 데이터를 생성하기 위한 상기 음성 세그먼트들을 추출하는 단계;를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 프라이버시 보호 음성 데이터를 생성하는 단계는, 상기 음성 세그먼트들의 적어도 일부를 셔플링하는 단계; 및 상기 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 프라이버시 보호 음성 데이터를 생성하는 단계는, 상기 음성 세그먼트들을 그대로(intactly) 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;를 포함할 수 있다.

본 개시의 기술적 사상에 의한 다른 양태에 따르면, 음성 데이터의 프라이버시 보호를 위한 디바이스로, 적어도 하나의 프로세서; 및 상기 프로세서에 전기적으로 연결된 메모리;를 포함하고, 상기 메모리는, 상기 프로세서가 실행 시에, 화자의 음성 발화를 표현하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고, 상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하도록 하는 인스트럭션들을 저장하는, 디바이스가 제공된다.

본 개시의 기술적 사상에 의한 실시예들에 따르면, 간단하면서도 효과적으로 음성 데이터로부터 관련된 개인의 사적인 대화 내용을 추출 또는 유추할 수 없도록 음성 데이터를 비식별화할 수 있는 효과가 있다.

또한, 본 개시의 기술적 사상에 의한 실시예들에 따르면, 음성 데이터를 효율적으로 관리(저장, 검색) 할 수 있도록 하고, 이를 통해 보다 용이하게 화자들의 식별을 위한 데이터베이스를 구축할 수 있게 하는 효과가 있다.

본 개시의 효과는 위에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 시스템을 설명하기 위한 예시적인 도면이다.

도 2는 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 방법을 설명하기 위한 예시적인 흐름도이다.

도 3 및 도 4는 도 2의 단계 S230의 일 실시예를 설명하기 위한 도면들이다.

도 5 및 도 6는 도 2의 단계 S250의 일 실시예를 설명하기 위한 도면들이다.

본 개시의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 개시의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 개시의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 기술적 사상의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들면, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 개시에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processor), 어플리케이션 프로세서(Application Processor), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

그리고 본 개시에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1을 참조하면, 시스템(10)은 디바이스(100) 및 데이터베이스(200)를 포함할 수 있다. 도 1에서는 편의를 위해 디바이스(100)와 데이터베이스(200)가 분리 구현되는 것으로 도시하였으나, 이는 예시적일 뿐 디바이스(100)와 데이터베이스(200)는 통합될 수 있다. 또한, 하나의 디바이스(100)와 하나의 데이터베이스(200)만을 도시하고 있으나, 디바이스(100)와 데이터베이스(200) 각각이 서로 동일한 기능을 수행하거나 일부 기능을 분담하여 수행하도록 복수개로 구현될 수 있다.

디바이스는(100)는, 이를 테면, 독립적인 음성 인식 기반의 홈 어시스턴스 디바이스, 또는 음성 인식 기반의 서비스가 적용된 셋-톱 박스, 게이트웨이, 텔레비전, 컴퓨터, 스마트폰, 태블릿 등과 같은 사용자 디바이스로 구현될 수 있고, 또는 이들에 통합될 수도 있다. 이하에서는 설명의 편의를 위해 디바이스(100)가 독립적인 홈 어시스턴스 디바이스인 경우를 예로 들어 설명한다.

디바이스(100)는 음성 데이터 획득부(110), 음성 세그먼트 추출부(130), 및 프라이버시 보호 음성 데이터 생성부(150)를 포함할 수 있다.

음성 데이터 획득부(110)는 적어도 하나의 화자의 음성 발화를 표현하는 음성 데이터를 획득할 수 있다. 도 1에 도시하지는 않았으나, 음성 데이터 획득부(110)는 사용자, 즉, 화자에 의해 생성되는 음성(voice) 발화들을 캡처하기 위해, 그리고 대응하는 아날로그 타입의 음성으로부터 디지털 타입의 음성 데이터를 생성하기 위해, 마이크로폰, 아날로그 디지털 변환기(analog-to-digital converter) 등을 포함할 수 있다.

실시예에 따라서, 음성 데이터 획득부(110)는 디바이스(100)와 통신적으로 연결된(communicatively coupled) 다른 홈 어시스턴스 디바이스, 또는 사용자 디바이스들로부터 화자의 음성 데이터를 수신할 수도 있다.

음성 세그먼트 추출부(130)는 음성 데이터 획득부(110)에 의해 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출할 수 있다.

일 실시예에서, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 음성 세그먼트들을 추출할 수 있다. 음성 세그먼트 추출부(130)에 의해 추출된 상기 적어도 일부가 변별적 특징을 갖는 음성 세그먼트들은 프라이버시 보호 음성 데이터 생성부(150)가 프라이버시 보호 음성 데이터를 생성하는데 이용될 수 있다.

상기 변별적 특징은, 음소(음운)를 분류하는데 사용되는 특징으로, 상기 획득된 음성 데이터에 대응하는 화자를 식별하는데 유리한 언어학적 특징일 수 있다. 예를 들면, 상기 변별적 특징은, 파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다. 상기 변별적 특징은, 유성성, 비유성성, 연속성, 반모음성, 비음성 등을 더 포함할 수 있다.

상기 음성 세그먼트들은, 상기 획득된 음성 데이터를 이루는 문장들의 단위 요소들일 수 있다. 예를 들면, 상기 음성 세그먼트들은, 각각 음절, 낱말 및 어절 중 어느 하나일 수 있다. 구현예에 따라서, 상기 음성 세그먼트들은 서로 동일한 단위 요소일 수 있으나 이에 한정되는 것은 아니다. 상기 음성 세그먼트들 중 적어도 일부는 서로 상이한 단위 요소일 수도 있다.

한편, 상기 음성 세그먼트들이 상기 변별적 특징을 갖는다는 것은, 상기 음성 세그먼트들의 음성 특성 값(예를 들면, 음성 특징벡터, 파라미터 값 등)이 상기 변별적 특징과 관련된 소정의 기준 값 이상일 것과 같은 기준을 충족시키는 경우를 포함하는 개념임을 알려둔다.

상술한 실시예를 더 자세히 설명한다.

음성 세그먼트 추출부(130)는, 상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들을 구분할 수 있다.

일부 실시예에서, 상기 제1 예비 음성 세그먼트들은 복수의 변별적 특징들, 예를 들면, 파찰성, 파열성 중 어느 하나의 변별적 특징을 갖는 음성 세그먼트들일 수 있다. 이 경우, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 변별적 특징 별로 상기 제1 예비 음성 세그먼트들을 추출하기 위한 과정을 반복할 수 있다. 또는, 음성 세그먼트 추출부(130)는 상기 음성 데이터로부터 모든 변별적 특징에 관한 상기 제1 예비 음성 세그먼트들을 추출하기 위한 과정을 1회 수행할 수도 있다.

일부 실시예에서, 상기 제1 예비 음성 세그먼트들은 하나의 변별적 특징, 예를 들면, 파찰성만을 갖는 음성 세그먼트들일 수 있다. 이 경우, 하나의 변별적 특징에 대한 추출 결과물인 상기 제1 예비 음성 세그먼트들이 없거나, 특성 값, 개수 등이 소정의 기준 값에 미달하면, 음성 세그먼트 추출부(130)는 다른 변별적 특징에 대한 필터링을 추가적으로 수행할 수 있다.

음성 세그먼트 추출부(130)는 상기 제1 예비 음성 세그먼트들을 제외한 나머지 음성 세그먼트들을 상기 제2 예비 음성 세그먼트들로 결정할 수 있다.

한편, 음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 적어도 일부가 중복되는지를 판단할 수 있고, 중복 여부에 따라 적어도 일부를 최종적인 제1 또는 제2 예비 음성 세그먼트로 결정할 수 있다. 여기서, 상술한 중복은 기설정된 음성 세그먼트의 단위 요소 또는 그보다 작은 단위 요소가 일치하는 경우를 포함하는 개념이다. 예를 들면, 기설정된 음성 세그먼트의 단위가 어절인 경우, 상술한 중복은 어절 자체가 일치하거나 어절보다 작은 단위 요소인 낱말이 일치하는 경우를 포함할 수 있다.

음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 일부가 중복되면, 중복되는 예비 음성 세그먼트들을 결합하여 기 설정된 음성 특성 값(예를 들면, 음성 특징벡터 및 파라미터 값)에 가까운 특성 값을 갖는예비 음성 세그먼트를 최종적인 예비 음성 세그먼트로 결정할 수 있다. 다시 말해, 음성 세그먼트 추출부(130)는 상기 중복되는 예비 음성 세그먼트들의 음성 특성 값을 분석할 수 있고, 기 설정된 값에 가까운 음성 특성 값을 갖는 예비 음성 세그먼트를 최종적인 예비 음성 세그먼트로서 결정할 수 있다.

음성 세그먼트 추출부(130)는 상기 제1 또는 제2 예비 음성 세그먼트들에서 일부가 중복되지 않으면, 이들을 그대로 최종적인 예비 음성 세그먼트들로 결정할 수 있다.

이와 같이, 음성 세그먼트 추출부(130)는 음성 세그먼트들을 추출함에 있어서 추출 및 관리의 효율성 개선을 위해 중복되는 음성 세그먼트들은 일부만을 후속 처리에 사용할 수 있다.

그러나, 이에 한정되는 것은 아니며, 음성 세그먼트 추출부(130)는 중복되는 음성 세그먼트들을 포함한 상태로, 즉 추출된 음성 세그먼트들을 그대로 최종 음성 세그먼트들로 이용할 수 있음은 물론이다.

음성 세그먼트 추출부(130)는 기 설정된 조건에 따라서 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하여 상기 프라이버시 보호 음성 데이터를 생성하는데 사용되는 음성 세그먼트들(프라이버시 보호용 음성 세그먼트들)을 추출할 수 있다. 상기 기 설정된 조건은, 상기 프라이버시 보호 음성 데이터가 화자 식별 등의 서비스에 응용되는 것을 고려하여, 상기 프라이버시 보호 음성 데이터와 관련된 화자의 특성을 표현하기에 충분한 상기 제1 예비 음성 세그먼트들의 종류, 개수 등일 수 있다.

또는, 음성 세그먼트 추출부(130)는 상기 기 설정된 조건에 따라서 소정의 비율로 상기 제1 예비 음성 세그먼트들의 일부와 상기 제2 예비 음성 세그먼트들의 일부를 선택하여 상기 프라이버시 보호용 음성 세그먼트들을 추출할 수 있다. 상기 기 설정된 조건도, 상기 프라이버시 보호 음성 데이터와 관련된 화자의 특성을 표현하기에 충분한 상기 제1 및 제2 예비 음성 세그먼트들의 종류, 개수 등일 수 있다. 상기 비율은, 상기 제1 예비 음성 세그먼트들의 개수와 상기 제2 예비 음성 세그먼트들의 개수의 비일 수 있고, 상기 제1 예비 음성 세그먼트들의 개수가 상기 제2 예비 음성 세그먼트들의 개수보다 큰 값을 가질 수 있다.

선택적으로, 음성 세그먼트 추출부(130)는 상기 프라이버시 보호용 음성 세그먼트들로 선택되지 않은 잔여 제1 및 제2 예비 음성 세그먼트들을 참조용 음성 세그먼트들로 추출할 수 있다. 상기 참조용 음성 세그먼트들은 프라이버시 보호 음성 데이터 생성부(150)가 음성인식 성능 개선을 위한 학습용 데이터 등의 참조 음성 데이터를 생성하는데 이용될 수 있다.

한편, 음성 세그먼트 추출부(130)는 상술한 바와 같이 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출하기 위해서, 음성 세그먼트들의 특징량을 추출하는 특징 분석기, 특징량에 기초하여 음성 세그먼트에 대응하는 음절, 낱말, 어절 등을 검색 식별하기 위한 분류기 등을 포함할 수 있다. 그리고, 검색에 필요한 기준 데이터 등은 디바이스(100) 자체의 소정의 저장 공간, 또는 데이터베이스(200)에 저장될 수 있다.

프라이버시 보호 음성 데이터 생성부(150)는 추출된 소정의 음성 세그먼트들, 즉, 적어도 일부가 변별적 특징을 갖는 프라이버시 보호용 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성할 수 있다. 다시 말해, 프라이버시 보호 음성 데이터 생성부(150)는, 상기 추출된 소정의 음성 세그먼트들을 재구성하여, 원래의 음성 데이터와 관련된 사용자의 음성 내용을 식별할 수 없는 형태의 프라이버시 보호 음성 데이터를 생성할 수 있다.

일 실시예에서, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들의 적어도 일부를 셔플링(shuffling)하고, 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.

예를 들면, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들의 전부 또는 일부를 랜덤하게 시간순으로 뒤섞은(셔플링) 후 뒤섞인 음성 세그먼트들을 직렬화하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.

다른 실시예에서, 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호용 음성 세그먼트들을 그대로(intactly) 직렬화하여 상기 프라이버시 보호 음성 데이터를 생성할 수 있다.

한편, 선택적으로, 프라이버시 보호 음성 데이터 생성부(150)는 상기 참조용 음성 세그먼트들을 이용하여 참조 음성 데이터를 생성할 수도 있다. 프라이버시 보호 음성 데이터 생성부(150)는 상기 프라이버시 보호 음성 데이터를 생성하는 방식과 유사하게 상기 참조용 음성 세그먼트들을 셔플링하거나 그대로 이용하여 상기 참조 음성 데이터를 생성할 수 있다.

디바이스(100)는 생성된 프라이버시 보호 음성 데이터(PRVD)와 함께 대응하는 사용자 식별 정보(ID) 등을 포함하는 태그(TAG)를 기초로 사용자의 음성 정보(PRVI)를 구성할 수 있고, 사용자의 음성 정보(PRVI)를 데이터베이스(200)로 전송할 수 있다.

또한, 디바이스(100)는 생성된 참조 음성 데이터(RVD)를 그대로 혹은 참조 음성 데이터(RVD)와 소정의 정보를 기초로 참조 음성 정보(RVI)를 구성하여 데이터베이스(200)로 전송할 수도 있다.

데이터베이스(200)는 다수의 사용자들에 대한 음성 정보(PRVI)를 저장, 관리할 수 있다. 데이터베이스(200)는 다수의 사용자들에 대한 음성 정보(PRVI)를 각각 대응하는 사용자 확인을 위한 기준 정보로 활용할 수 있도록 음성 정보(PRVI)에 포함된 데이터들을 가공하여 저장할 수도 있다.

또한, 데이터베이스(200)는 참조 음성 데이터(RVD) 및/또는 참조 음성 정보(RVI)를 저장, 관리할 수 있다. 데이터베이스(200)는 참조 음성 데이터(RVD) 및/또는 참조 음성 정보(RVI)를 음성 인식 성능 개선을 위한 기계 학습에 활용할 수 있도록 가공하여 저장할 수도 있다.

본 개시의 실시예들에 따른 디바이스(100)는 사용자의 발화된 음성에 대응하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고, 추출된 음성 세그먼트들을 이용하여 음성 데이터가 재구성된 프라이버시 보호 음성 데이터를 생성하여 데이터베이스(200)로 전송한다. 이에 따라, 데이터베이스(200)가 원래의 발화된 음성과는 달리 사용자의 발화 내용을 확인할 수 없고 또 크기가 크게 저감된 상태로 음성 정보를 저장, 관리할 수 있게 된다.

이와 같이, 본 개시의 실시예들에 따른 간단하면서도 효과적인 음성 데이터의 프라이버시 보호 처리를 통해서, 음성 데이터의 개인정보 노출, 침해를 미연에 방지할 수 있고, 음성 인식 기반의 다양한 서비스를 제공함에 있어서 음성 정보 수집에 대한 사용자의 불안감을 해소시킬 수 있다.

또한, 음성 정보와 대응하는 발화자와의 관련성을 끊는 종래의 비식별 처리와 달리, 사용자와의 관련성을 유지한 상태에서도 프라이버시 보호가 가능하여 수집된 음성 정보를 기초로 화자 식별 등 다양한 서비스에 응용이 가능한 장점이 있다.

또한, 프라이버시 보호 처리와 함께 기계 학습 등에 사용될 수 있는 데이터를 생성할 수 있어, 학습 데이터의 생산, 수집에 제약이 있는 음성 상호 작용 분야의 한계를 극복할 수 있도록 한다.

도 2는 본 개시의 일 실시예에 따른 음성 데이터의 프라이버시 보호를 위한 방법을 설명하기 위한 예시적인 흐름도이다. 도 3 및 도 4는 도 2의 단계 S230의 일 실시예를 설명하기 위한 도면들이다. 도 5 및 도 6는 도 2의 단계 S250의 일 실시예를 설명하기 위한 도면들이다. 도 2 내지 도 6에 예시된 음성 데이터의 프라이버시 보호를 위한 방법(이하, 방법이라 칭함)은 도 1을 참조하여 설명한 디바이스(100)에 의해 수행될 수 있고, 이에 따라 도 1을 참조하여 설명한 내용과 동일한 내용에 대해서는 편의를 위해 자세한 설명은 생략한다.

먼저, 도 2를 참조하면, 디바이스(100)는 음성 데이터를 획득한다(S210).

실시예에 따라서, 디바이스(100)는 사용자들, 즉 화자들에 의해 생성되는 음성들을 캡처하여 음성 데이터를 생성할 수 있고, 또는 다른 디바이스들로부터 화자들의 음성 데이터를 수신할 수도 있다.

디바이스(100)는 획득된 음성 데이터로부터 소정의 음성 세그먼트들을 추출한다(S230).

도 3 및 도 4를 더 참조하면, 디바이스(100)는 상기 음성 데이터를 필터링하여 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들을 구분한다(S231).

상기 변별적 특징은, 파열성, 파찰성, 마찰성, 유성성, 비유성성, 연속성, 반모음성, 비음성 등과 같은 음소를 분류하는데 사용되는 특징일 수 있고, 상기 변별적 특징은 앞서 예시한 특징들 중 적어도 하나 이상으로 설정될 수 있다.

화자로부터 발화된 음성 데이터가 "황사 때문인지 미세먼지 때문인지 모르겠지만, 오늘은 하늘이 진짜 뿌옇다. 추위도 추위지만 탁한 공기는 너무 싫어"이고, 변별적 특징은 파열성, 파찰성 및 마찰성이고, 어절이 세그먼트 단위인 경우를 예로 들어 설명한다.

이 경우, 디바이스(100)는 '황사'(마찰성), '때문인지'(파열성), '때문인지'(파열성), '하늘이'(마찰성), '진짜'(파찰성), '뿌옇다'(파열성), '추위도'(파찰성), '추위지만'(파찰성), '공기는'(파열성), '탁한'(파열성), '싫어'(마찰성)를 제1 예비 음성 세그먼트들로 결정할 수 있다.

디바이스(100)는 '미세먼지', '모르겠지만', '오늘은', '너무'를 제2 예비 음성 세그먼트들로 결정할 수 있다.

디바이스(100)는 기 설정된 조건에 따라 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여 프라이버시 보호용 음성 세그먼트들을 추출한다(S233).

상기 조건이 상기 제1 예비 음성 세그먼트들의 개수가 상기 제2 예비 음성 세그먼트들의 개수보다 크도록 선택하는 것으로 미리 설정된 경우를 예로 들면, 디바이스(100)는 상기 제1 예비 음성 세그먼트들 중에서 '황사'(마찰성), '하늘'(마찰성), '진짜'(파찰성), '공기'(파열성)를, 상기 제2 예비 음성 세그먼트들 중에서 '미세먼지', '오늘'을 선택하여 상기 프라이버시 보호용 음성 세그먼트들로서 추출할 수 있다.

상기 제1 예비 음성 세그먼트들과 상기 제2 예비 음성 세그먼트들의 선택은 음성 세그먼트들의 음성 특성 값에 따라서 이루어질 수 있고, 또는 랜덤하게 이루어질 수도 있다.

그리고, 도시하지는 않았으나, 상기 프라이버시 보호용 음성 세그먼트의 단위는 낱말일 수 있고, 디바이스(100)는 상기 프라이버시 보호용 음성 세그먼트들의 추출 과정에서 상기 프라이버시 보호용 음성 세그먼트와 상기 제1 및 제2 예비 음성 세그먼트의 단위를 일치시키기 위한 소정의 처리를 추가 수행할 수 있다.

선택적으로, 디바이스(100)는 단계 S233에서 선택되지 않은 잔여 제1 및 제2 예비 음성 세그먼트들을 참조용 음성 세그먼트들로 추출한다(S235).

예를 들면, 디바이스(100)는 상기 제1 예비 음성 세그먼트들 중에서 선택되지 않은 '때문인지', '때문인지', '뿌옇다', '추위도', '추위지만', '탁한', '싫어'를, 상기 제2 예비 음성 세그먼트들 중에서 선택되지 않은 '모르겠지만', '너무'를 상기 참조용 음성 세그먼트들로 추출할 수 있다.

한편, 디바이스(100)는 중복되는 예비 음성 세그먼트들, 예를 들면, '때문인지'와 '때문인지', '추위도'와 '추위지만'에서 각각 어느 하나를 상기 참조용 음성 세그먼트로 추출할 수 있다. 그러나, 이는 예시적인 것일 뿐이며, 디바이스(100)는 도 4에 도시된 바와 같이 중복되는 예비 음성 세그먼트들을 모두 상기 참조용 음성 세그먼트로 추출할 수 있음은 물론이다.

결과적으로, 디바이스(100)는 '황사', '미세먼지', '오늘', '하늘', '진짜', '공기'를 후속 단계에서 프라이버시 보호 음성 데이터 생성에 이용하기 위한 프라이버시 보호용 음성 세그먼트들로 추출할 수 있다.

또한, 디바이스(100)는 선택적으로 '때문인지', '때문인지', '모르겠지만', '뿌옇다', '추위도', '추위지만', '탁한', '너무', '싫어'를 후속 단계에서 참조 음성 데이터 생성에 이용하기 위한 참조용 음성 세그먼트들로 추출할 수도 있다.

다시 도 2를 참조하면, 디바이스(100)는 추출된 음성 세그먼트들(프라이버시 보호용 음성 세그먼트들)을 기초로 프라이버시 보호 음성 데이터를 생성한다(S250). 또한, 선택적으로, 디바이스(100)는 추출된 음성 세그먼트들(참조용 음성 세그먼트들)을 기초로 참조 음성 데이터를 생성한다(S250).

도 5 및 도 6를 더 참조하면, 디바이스(100)는 추출된 프라이버시 보호용 음성 세그먼트들의 적어도 일부를 셔플링한다(S251).

예를 들면, 디바이스(100)는 추출된 상기 프라이버시 보호용 음성 세그먼트들을 랜덤하게 시간순으로 뒤섞어 '미세먼지', '진짜', '황사', '공기', '오늘', '하늘'과 같은 순으로 재배열할 수 있다.

디바이스(100)는 셔플링된 프라이버시 보호용 음성 세그먼트들을 이용하여 프라이버시 보호 음성 데이터를 생성한다(S253).

예를 들면, 디바이스(100)는 '미세먼지', '진짜', '황사', '공기', '오늘', '하늘'을 직렬화하여 "미세먼지 진짜 황사 공기 오늘 하늘"과 같은 프라이버시 보호 음성 데이터를 생성할 수 있다.

이는 예시적인 것일 뿐이며, 디바이스(100)는 필요에 따라서 추출된 프라이버시 보호용 음성 세그먼트들을 그대로 직렬화하여 프라이버시 보호 음성 데이터를 생성할 수도 있다.

선택적으로, 디바이스(100)는 추출된 참조용 음성 세그먼트들의 적어도 일부를 셔플링한다(S255).

예를 들면, 디바이스(100)는 상기 참조용 음성 세그먼트들을 랜덤하게 시간순으로 뒤섞어 '모르겠지만', '추위도', '때문인지', '너무', '때문인지', '뿌옇다', '추위지만', '싫어'와 같은 순으로 재배열할 수 있다.

디바이스(100)는 셔플링된 참조용 음성 세그먼트들을 이용하여 참조 음성 데이터를 생성한다(S257).

예를 들면, 디바이스(100)는 '모르겠지만', '추위도', '때문인지', '너무', '때문인지', '뿌옇다', '추위지만', '싫어'를 직렬화하여 "모르겠지만 추위도 때문인지 너무 때문인지 뿌옇다 추위지만 싫어"와 같은 참조 음성 데이터를 생성할 수 있다.

이는 예시적인 것일 뿐이며, 디바이스(100)는 필요에 따라서 추출된 참조용 음성 세그먼트들을 그대로 직렬화하여 참조 음성 데이터를 생성할 수도 있다.

본 개시의 실시예들에 따른 음성 데이터의 프라이버시 보호 방법은, 원래의 음성 정보에 대응하는 음성 데이터로부터 추출된 음성 세그먼트들을 이용하여 음성 데이터와 관련된 사용자를 특정해낼 수 없도록 프라이버시 보호 음성 데이터를 생성한다.

이와 같은 간편한 방법을 통해서, 음성 데이터의 개인정보 노출, 침해를 방지할 수 있음은 물론이고, 음성 인식 기반의 다양한 서비스를 제공하기 위해 요구되는 음성 정보 수집 동의 절차에 대한 사용자의 불안감을 해소시킬 수 있다.

또한, 사용자와의 관련성은 그대로 유지한 상태로 프라이버시 보호가 가능하여 수집된 음성 정보를 기초로 화자 식별 등 다양한 서비스에 응용이 가능할 수 있다.

본 개시에 따른 디바이스(100)는 상술한 음성 데이터 획득부, 음성 세그먼트 추출부 및 프라이버시 보호 음성 데이터 생성부를 구현하기 위한 적어도 하나의 프로세서, 각종 데이터, 프로그램 데이터를 저장하고 실행하는 메모리, 데이터베이스, 서비스 오퍼레이터 등 타 장치와의 통신을 위한 통신 인터페이스 이외에도, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 더 포함할 수 있다.

그리고, 소프트웨어 모듈 또는 알고리즘으로 구현되는 상술한 본 개시에 따른 방법들은 상기 적어도 하나의 프로세서 상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 적어도 하나의 프로세서에서 실행될 수 있다.

본 개시의 이해를 위하여, 도면에 도시된 바람직한 실시예들에서 참조 부호를 기재하였으며, 본 개시의 실시예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 개시의 기술적 사상이 한정되는 것은 아니며, 본 개시의 기술적 사상은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.

본 개시는 기능적인 블록 구성들 및 다양한 프로세싱 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들면, 본 개시는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 개시에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 개시는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 프로세싱, 및/또는 데이터 프로세싱 등을 위하여 종래 기술을 채용할 수 있다. '매커니즘', '요소', '수단', '구성'과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 프로세싱들(routines)의 의미를 포함할 수 있다.

본 개시에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, '필수적인', '중요하게' 등과 같이 구체적인 언급이 없다면 본 개시의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

본 개시의 명세서(특히 특허청구범위에서)에서 '상기'의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 개시에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 실시예를 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.

마지막으로, 본 개시에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.

본 개시에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 개시의 실시예들을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims

음성 데이터의 프라이버시 보호(privacy preserving)를 위한 방법으로,

화자의 음성 발화를 표현하는 음성 데이터를 획득하는 단계;

상기 음성 데이터로부터 소정의 음성 세그먼트들을 추출하는 단계; 및

상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하는 단계;

를 포함하는, 방법.
제1 항에 있어서,

상기 추출하는 단계는,

상기 음성 데이터로부터 적어도 일부가 변별적 특징(distinctive feature)을 갖는 상기 음성 세그먼트들을 추출하는 단계;

를 포함하는, 방법.
제2 항에 있어서,

상기 변별적 특징은,

파열성, 파찰성, 및 마찰성 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
제2 항에 있어서,

상기 음성 세그먼트들은,

각각, 음절, 낱말, 및 어절 중 어느 하나의 단위 요소인 것을 특징으로 하는, 방법.
제2 항에 있어서,

상기 추출하는 단계는,

상기 음성 데이터를 필터링하여, 상기 변별적 특징을 갖는 제1 예비 음성 세그먼트들과 상기 변별적 특징을 갖지 않는 제2 예비 음성 세그먼트들로 구분하는 단계; 및

기 설정된 조건에 따라, 상기 제1 예비 음성 세그먼트들의 적어도 일부를 선택하거나 소정 비율로 상기 제1 및 제2 예비 음성 세그먼트들을 선택하여, 상기 프라이버시 보호 음성 데이터를 생성하기 위한 상기 음성 세그먼트들을 추출하는 단계;

를 포함하는, 방법.
제1 항에 있어서,

상기 프라이버시 보호 음성 데이터를 생성하는 단계는,

상기 음성 세그먼트들의 적어도 일부를 셔플링하는 단계; 및

상기 셔플링된 음성 세그먼트들을 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;

를 포함하는, 방법.
제1 항에 있어서,

상기 프라이버시 보호 음성 데이터를 생성하는 단계는,

상기 음성 세그먼트들을 그대로(intactly) 이용하여 상기 프라이버시 보호 음성 데이터를 생성하는 단계;

를 포함하는, 방법.
음성 데이터의 프라이버시 보호를 위한 디바이스로,

적어도 하나의 프로세서; 및

상기 프로세서에 전기적으로 연결된 메모리;

를 포함하고,

상기 메모리는, 상기 프로세서가 실행 시에,

화자의 음성 발화를 표현하는 음성 데이터로부터 소정의 음성 세그먼트들을 추출하고,

상기 음성 세그먼트들을 기초로 프라이버시 보호 음성 데이터를 생성하도록 하는 인스트럭션들을 저장하는, 디바이스.