KR20190067697A

KR20190067697A - 프라이버시-보존 음성 상호작용을 위한 디바이스 및 방법

Info

Publication number: KR20190067697A
Application number: KR1020180154627A
Authority: KR
Inventors: 빠트릭 퐁뗀느; 크리스또프 느만
Original assignee: 인터디지털 씨이 페이튼트 홀딩스
Priority date: 2017-12-07
Filing date: 2018-12-04
Publication date: 2019-06-17
Also published as: JP2019109503A; RU2018142910A3; CA3026205A1; US20190180759A1; CN110033774A; BR102018075377B1; MX2018015218A; US11069362B2; RU2768506C2; EP3496091B1; EP3496090A1; EP3496091A1; BR102018075377A2; JP7166900B2; RU2018142910A

Abstract

프라이버시-보존 음성 상호작용을 위한 홈 지원 디바이스(100') 및 방법. 마이크로폰(102)은 음성 사용자 질의에 대응하는 오디오 신호(102)를 캡처한다. 스피커의 아이덴티티(122)가 결정되고, 난독화된 이름(126)이 식별된 스피커에 대응하여 생성된다. 오디오 신호는 사용자의 의도(123)를 결정하도록 분석되고, 개인화된 응답(124)은 난독화된 이름과 결합하여 생성된다. 그 후 이러한 응답은 스피커 이름을 재도입함으로써 탈-난독화된다. 탈-난독화된 응답(127)은 스피커에 랜더링된다.

Description

프라이버시-보호 음성 상호 작용을 위한 디바이스 및 방법{DEVICE AND METHOD FOR PRIVACY-PRESERVING VOCAL INTERACTION}

본 개시내용은 음성 상호 작용들의 분야에 관한 것으로, 더 구체적으로, 다중-사용자 홈 어시스턴트 환경에서 사용자들의 프라이버시를 보호한다.

이 섹션은 본 기술분야의 다양한 양태들을 독자에게 소개하도록 의도되며, 그 다양한 양태들은 아래에서 설명되고 그리고/또는 청구되는 본 개시내용의 다양한 양태들에 관련될 수 있다. 이 논의는 본 개시내용의 다양한 양태들의 더 양호한 이해를 용이하게 하기 위해 배경 정보를 동작에게 제공하는 데 유용할 것으로 믿는다. 따라서, 이들 진술들은 그러한 관점에서 읽혀야 하고, 종래 기술을 허용하는 것으로 읽히지 않아야 한다.

홈 어시스턴트 디바이스들, 이를테면 아마존 에코(Amazon Echo) 또는 구글 홈(Google Home) 뿐만 아니라 홈 어시스턴트 서비스들, 이를테면 마이크로소프트 코타나(Microsoft Cortana) 또는 애플 시리(Apple Siri)를 통한 주거 환경에서의 음성 제어의 사용은 대량 시장 현실이 되었으며; 그러한 디바이스들 또는 서비스들은 수백만 가정들에서 사용된다. 홈 어시스턴트 디바이스는 마이크로폰들을 통해 가구의 사용자들로부터 자연스러운 스피치를 캡처하고, 사용자 질의를 분석하며, 적절한 응답 또는 서비스를 제공한다. 수행될 질의들은 집-내부 디바이스들을 사용할 수 있을 뿐만 아니라(예컨대, TV의 소리를 끄는 것, 셔터들을 폐쇄하는 것 등) 집-외부 서비스들을 사용할 수 있다(예컨대, 일기 예보 또는 주가들을 검색하는 것, 디바이스 고장에 대해 도움을 받는 것 등). 부가하여, 최신 세대의 홈 어시스턴트 디바이스는 또한 화자 인식을 수행한다. 그러한 인식은 다수의 특징들, 이를테면, 액세스 제어(예컨대, 아이는 홈 네트워크를 구성할 수 없음, 성인 영화들에 액세스할 수 없음 등), 상호 작용들의 개인화(예컨대, 상호 작용의 어휘는 어린 아이들, 청소년들, 성인들, 또는 고령자들 중에서 선택되는 화자의 카테고리에 적응될 수 있음)를 가능하게 한다. 그러나, 이는 사용자 프라이버시를 감소시키는 대가로 발생된다. 사실상, 이들 음성 상호 작용 에코시스템들에서 사용되는 스피치 분석들 및 대화 로직은 가정 환경 외부, 전형적으로는 클라우드에서 통상적으로 동작된다.

따라서, 종래 기술의 문제들 중 적어도 일부를 해소하는 주거 화자 인식을 위한 해법이 필요하다는 것이 이해될 수 있다. 본 개시내용은 그러한 해법을 제공한다.

본 개시내용은 프라이버시-보호 음성 상호 작용들을 위한 홈 어시스턴트 디바이스 및 방법을 설명한다. 마이크로폰은 음성 사용자 질의에 대응하는 오디오 신호를 캡처한다. 화자의 아이덴티티가 결정되고, 식별된 화자에 대응하여 난독화된 이름이 생성된다. 사용자의 의도를 결정하기 위해 오디오 신호가 분석되고, 난독화된 이름과 조합되어 개인화된 회답이 생성된다. 이어서, 이 회답은 화자 이름을 재도입함으로써 역-난독화된다. 이어서, 역-난독화된 회답은 화자에게 렌더링된다.

제1 양태에서, 본 개시내용은 프라이버시-보호 음성 상호 작용들을 수행하기 위한 디바이스에 관한 것이며, 이 디바이스는, 화자로부터의 질의에 대한 음성 발화를 표현하는 오디오 신호를 캡처하도록 구성된 마이크로폰; 캡처된 오디오 신호로부터 화자의 아이덴티티를 결정하도록 구성된 화자 식별자; 식별된 화자에 대응하는 난독화된 화자 이름을 생성하고, 화자 이름들과 난독화된 화자 이름들 간의 대응관계들의 리스트를 저장하도록 구성된 프라이버시 인포서; 통신 인터페이스를 포함하며, 이 통신 인터페이스는, 캡처된 오디오 신호 및 난독화된 화자 이름을 외부 디바이스에 제공하고; 외부 디바이스로부터 화자 질의에 대한 회답을 수신하도록 구성되고, 여기서, 프라이버시 인포서는 추가로, 수신된 회답이 리스트의 난독화된 화자 이름을 포함하는지를 결정하고, 이러한 경우, 수신된 회답에서, 난독화된 화자 이름을 대응하는 이름으로 교체함으로써 역-난독화된 회답을 생성하도록 구성된다.

제1 양태의 제1 변형예에서, 수신된 회답은 텍스트 형태이며, 디바이스는 역-난독화된 회답을 텍스트 형태로부터 오디오 신호로 변환하도록 구성된 텍스트-대-스피치 변환기를 더 포함한다.

제1 양태의 제2 변형예에서, 수신된 회답은 오디오 포맷이며, 프라이버시 인포서는 추가로, 리스트의 화자 이름을 검출하고, 대응하는 난독화된 화자 이름을 표현하는 오디오 신호로 캡처된 오디오 신호를 교체함으로써, 캡처된 오디오 신호를 난독화하도록 구성된다.

제1 양태의 제3 변형예에서, 프라이버시 인포서는 익명 모드를 턴온하거나 또는 턴오프하기 위한 세팅을 더 포함하며, 제1 경우에, 프라이버시 인포서는 화자 이름을 제공하기 전에 화자 이름을 난독화하고, 수신된 회답이 난독화된 화자 이름을 포함할 때 수신된 회답을 역-난독화하고, 제2 경우에, 프라이버시 인포서는 화자 이름을 더 이상 난독화하지 않고, 수신된 회답이 난독화된 화자 이름을 포함하는지를 더 이상 결정하지 않는다.

제2 양태에서, 본 개시내용은 프라이버시 보호 음성 상호 작용들을 수행하기 위한 방법에 관한 것이며, 이 방법은, 화자로부터의 질의에 대한 음성 발화를 표현하는 오디오 신호를 캡처하는 단계; 캡처된 오디오 신호로부터 화자를 식별하는 단계; 식별된 화자에 대응하는 난독화된 화자 이름을 생성하고, 화자 이름들과 난독화된 화자 이름들 간의 대응관계의 리스트를 저장하는 단계; 캡처된 오디오 신호와 난독화된 화자 이름을 외부 디바이스에 제공하는 단계; 외부 디바이스로부터 질의에 대한 회답을 획득하는 단계; 수신된 회답이 리스트의 난독화된 화자 이름을 포함하는지를 결정하고, 이러한 경우, 수신된 회답에서, 난독화된 화자 이름을 대응하는 이름으로 교체함으로써 역-난독화된 회답을 생성하는 단계; 및 화자에게 회답을 제공하는 단계를 포함한다.

제2 양태의 제1 변형예에서, 수신된 회답은 텍스트 형태이며, 방법은 리스트의 화자 이름을 검출하고, 대응하는 난독화된 화자 이름을 표현하는 오디오 신호로 캡처된 오디오 신호를 교체하는 단계를 더 포함한다.

제2 양태의 제2 변형예는, 익명 모드를 턴온하거나 또는 턴오프하기 위한 세팅을 더 포함하며, 제1 경우에, 화자 이름을 제공하기 전에 화자 이름을 난독화하고, 수신된 회답이 난독화된 화자 이름을 포함할 때 수신된 회답을 역-난독화하고, 제2 경우에, 화자 이름을 더 이상 난독화하지 않고, 수신된 회답이 난독화된 화자 이름을 포함하는지를 더 이상 결정하지 않는다.

제2 양태의 제3 변형예는 난독화된 화자 이름들을 갱신하는 단계를 포함한다.

제3 양태에서, 본 개시내용은, 제2 양태의 방법의 임의의 실시예를 구현하기 위해 프로세서에 의해 실행가능한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램에 관한 것이다.

제4 양태에서, 본 개시내용은, 비-일시적 컴퓨터 판독가능 매체 상에 저장되고, 제2 양태의 방법의 임의의 실시예를 구현하기 위해 프로세서에 의해 실행가능한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램 제품에 관한 것이다.

이제, 본 개시내용의 바람직한 특징들이 첨부 도면들을 참조하여 비-제한적인 예로서 설명될 것이다.
도 1a는 종래 기술에 따른 예시적인 홈 어시스턴트 에코시스템을 예시한다.
도 1b는 본 개시내용의 적어도 일부가 구현될 수 있는 예시적인 홈 어시스턴트 에코시스템을 예시한다.
도 2는 본 개시내용의 실시예에 따른 프라이버시-보호 음성 상호 작용의 방법의 예시적인 흐름도를 예시한다.

도 1a는 종래 기술에 따른 예시적인 홈 어시스턴트 에코시스템을 예시한다. 본 기술분야의 통상의 기술자는 예시된 디바이스가 명료성의 이유들로 단순화된 것을 이해할 것이다. 홈 어시스턴트 에코시스템은 통신 인터페이스(120)를 통해 서비스 제공자들과 상호 작용하는 적어도 하나의 홈 어시스턴트 디바이스(100)를 포함한다. 서비스 제공자들은 사용자에게 복수의 서비스들을 제안하며, 특히, 서비스들은 음성 상호 작용들에 기초하고, 개별 사용자들에 대해 개인화된다. 서비스들은 화자의 요청에 회답하기 위해 협력하는 전용 소프트웨어 애플리케이션들에 의해 제공된다. 이들 소프트웨어 애플리케이션들은 통상적으로 집-외부 디바이스들 상에서, 전형적으로는 클라우드에서 실행되며, 도 1a에 예시된 바와 같은 단일 서비스 오퍼레이터(140)에 의해 동작될 수 있거나, 또는 협력하는 복수의 서비스 제공자들 간에 분할될 수 있다.

홈 어시스턴트 디바이스는 음성 질의를 행하는 사용자에 의해 생성되는 음성 발화들을 캡처하기 위해 그리고 대응 오디오 신호(121)를 생성하기 위해 마이크로폰(102)을 포함한다. 화자 식별자 모듈(104)은 가구의 사용자들의 세트 중에서 화자를 식별하기 위해 오디오 신호(121)를 분석하고, 서비스 제공자(140)에게 화자 아이덴티티(122)를 제공한다. 스피치-대-의도(150)는 오디오 신호(121)를 수신하고, 오디오 신호(121)를 분석하고, 오디오 신호(121)를 텍스트로 변환하고, 의도를 생성한다. "스피치-대-의도" 기능은 "스피치-대-텍스트" 기능과 상이하다. 사실상, 의도는 의미에 대응하며, 단순한 인식되는 단어보다 더 일반적이다. 예컨대, 화자들이 "guten Tag", "bonjour", "hi" 등을 발언하는 경우, 의도는 "hello"일 수 있다. 대화 로직(160)은 의도(123) 및 화자 아이덴티티(122)를 수신한다. 화자와의 이전의 상호 작용들을 알고 있는 상태로, 대화 로직(160)은 최근의 의도에 대한 응답으로 적절한 회답(124)을 생성한다. 대화 로직이 화자 아이덴티티를 알고 있기 때문에, 대화 로직은, 예컨대 응답에 화자의 이름을 삽입함으로써 회답을 개인화한다. 회답(124)은 텍스트 스트링이고, 텍스트-대-스피치(160)에 제공되며, 그 텍스트-대-스피치(160)는 회답(124)을 오디오 신호(125)로 변환하고, 그 오디오 신호(125)는 홈 어시스턴트 디바이스에 전달되고, 라우드스피커(110) 상에서 렌더링된다.

예컨대, 도 1a에 예시된 바와 같이, 사용자 Bob이 에코시스템과 상호 작용하기를 원하는 경우, 아마존 에코시스템의 경우에, 그는 간단한 질의 "Alexa, bonjour!"로 시작한다. 에코시스템은 "Bonjour Bob"을 발언하여, 그에 따라, 인식된 화자의 이름을 삽입함으로써 응답을 개인화하여 회답할 것이다.

그러한 셋업으로, 홈 어시스턴트 디바이스(100)는 화자의 아이덴티티를 서비스 제공자들에게 제공한다. 그러나, 사용자들이 항상 이들의 아이덴티티가 공개되기를 원하지는 않으며, 이들의 프라이버시에 관한 개선들을 기대한다.

도 1b는 본 개시내용의 적어도 일부가 구현될 수 있는 예시적인 홈 어시스턴트 에코시스템을 예시한다. 홈 어시스턴트 에코시스템은 프라이버시-친화적 홈 어시스턴트 디바이스(100')를 포함하며, 화자의 프라이버시를 개선하면서, 도 1a에서 설명된 종래 기술 시스템에서와 정확히 동일한 서비스 오퍼레이터 환경(140)과 함께 동작할 수 있다.

홈 어시스턴트 디바이스(100')는 사용자들로부터의 오디오를 캡처하도록 구성된 마이크로폰(102), 가구 사용자들 중에서 화자의 아이덴티티를 검출하도록 구성된 화자 식별자(104), 화자 이름을 임시 이름으로 교체함으로써 발신 데이터에서 화자의 아이덴티티를 난독화하고, 착신 데이터에서 화자 이름을 다시 삽입하도록 구성된 프라이버시 인포서(106), 텍스트 회답들을 음성 신호로 변환하도록 구성된 선택적인 텍스트-대-스피치 변환기(108), 오디오 신호를 출력하도록 구성된 라우드스피커(110), 및 통신 인터페이스(120)를 포함한다. 홈 어시스턴트 디바이스(100')는 또한, 본 발명에 관련되지 않기 때문에 예시되지 않았으나 디바이스를 동작시키는 데 필수적인 다른 엘리먼트들(이를테면, 시스템을 구성하기 위한 버튼들, 전자 컴포넌트들을 동작시키기 위한 전원, 라우드스피커를 구동시키기 위한 오디오 증폭기 등)을 포함한다. 홈 어시스턴트 디바이스(100')는 독립형 디바이스로서 구현될 수 있거나, 또는 통상적인 소비자 디바이스, 이를테면 셋-톱 박스, 게이트웨이, 텔레비전, 컴퓨터, 스마트폰, 태블릿 등에 통합될 수 있다.

통신 인터페이스(120)는 적어도 스피치-대-의도 및 대화 로직 기능들을 수행하는 클라우드 내의 데이터 서버들 및 프로세서들과 같은 집-외부 디바이스들과 상호 작용하도록 구성된다. ADSL 케이블 모뎀, 3G 또는 4G가 이러한 목적을 위해 사용될 수 있는 통신 인터페이스들의 예들이다. 다른 통신 인터페이스들이 사용될 수 있다.

홈 어시스턴트 디바이스(100')는, 대화 로직에 의해 홈 어시스턴트 디바이스(100')에 제공되는 회답의 타입에 따라, 2개의 모드들 중 하나로 동작한다. 제1 모드는 대화 로직(160)이 텍스트 포맷으로 회답을 전달하는 경우 사용된다. 이 경우에, 서비스 제공자(140)의 텍스트-대-스피치 변환기(170)는 사용되지 않으며, 오디오로의 변환은 텍스트-대-스피치 변환기(108)에 의해 홈 어시스턴트 디바이스(100') 내에서 행해진다. 제2 모드는 레거시 서비스 제공자들과 함께 사용되며, 여기서, 회답은 오디오 신호로서 전달되고, 그에 따라, 서비스 제공자(140)의 텍스트-대-스피치 변환기(170)가 사용된다.

바람직한 실시예에 따르면, 홈 어시스턴트 에코시스템은 제1 모드로 동작한다. 화자는 음성 질의, 이를테면 "Alexa, what's the weather today?"를 행하기 위해 음성 발화를 생성한다. 마이크로폰(102)은 그 음성 발화를 캡처하고, 대응 오디오 신호(121)를 생성한다. 화자 식별자 모듈(104)은 오디오 신호(121)를 분석하고, 화자의 식별자가 XYZ-002이고 화자의 이름이 Bob인 것으로 화자를 식별한다. 예컨대, 그러한 식별은 통상적인 화자 인식 기술들, 이를테면, GMM-UBM(Gaussian Mixture Model - Universal Background Model) 모델들을 사용하는 유형을 사용하여 행해진다. 화자가 식별되었으면, 화자 이름(122)은 프라이버시 인포서(106)에 제공되며, 그 프라이버시 인포서(106)는 임시 이름(126)(도 1b의 예에서는 "tak")을 생성하고, 임시 이름(126)을 서비스 제공자(140)에게 제공함으로써, 화자의 실제 이름 및 아이덴티티를 난독화한다. 프라이버시 인포서(106)는 난독화된 이름(126)과 화자 식별자 간의 관계를 저장한다. 예컨대, 이는 식별된 화자의 이름(또는 그 이름의 로컬 식별자/프로파일)과 난독화된 이름 간의 연관을 매핑 테이블에 저장함으로써 이루어진다. 표 1은 그러한 매핑 테이블의 예를 도시한다.

표 1: 매핑 테이블

가구의 이름들과 상이한 랜덤 텍스트들의 리스트에서 하나의 엘리먼트를 랜덤으로 선택하는 것 또는 랜덤 텍스트 스트링을 생성하는 것과 같이, 난독화된 이름을 생성하기 위해, 다수의 기법들이 사용될 수 있다. 난독화된 이름은 통상적인 이름 또는 통상적인 단어에 대응하지 않는 것이 바람직하다. 이를 보장하기 위해, 생성된 랜덤 텍스트가 이름들의 딕셔너리 및 통상적인 딕셔너리의 일부가 아닌 경우에만, 그 생성된 랜덤 텍스트가 사용될 수 있다. 그렇지 않은 경우, 새로운 생성이 행해져야만 한다.

이어서, 프라이버시 인포서(106)는 오디오 신호(121') 및 난독화된 이름(126)을 서비스 오퍼레이터(140)에게 제공한다. 스피치-대-의도(150)는 수신된 오디오 신호(121')를 분석하고, 대응 의도(123)를 생성한다. 이어서, 대화 로직(160)은 의도(123)를 분석하고, 예컨대 난독화된 이름을 포함하는 개인화된 회답(124)을 생성한다. 이어서 그 회답은 텍스트 형태로 홈 어시스턴트 디바이스(100')로 바로 되돌려 전송된다. 프라이버시 인포서(106)는 수신된 회답(124)을 분석하고, 그 수신된 회답(124)이 매핑 테이블의 난독화된 이름들의 리스트의 난독화된 이름을 포함하는지 체크한다. 해당되는 경우, 검출된 난독화된 이름은 대응 화자 이름으로 교체됨으로써, 역-난독화된 회답(124')이 생성되며, 그 역-난독화된 회답(124')은 텍스트-대-스피치 변환기(108)에 의해 오디오 신호(127)로 변환되고, 라우드스피커(110)에 의해 렌더링된다.

도 1b에 예시된 예에서, Bob는 "Alexa, what's the weather today?"라고 발언한다. 화자는 "Bob"로서 식별되고, 그에 따라, 대응하는 난독화된 이름은 "tak"이다. 오디오 분석은 의도가 "weather today"였던 것을 밝힌다. 이어서, 오늘의 기상 통보가 인출되고, 회답은, "Hello tak. The weather today is …"와 같이, 화자의 이름을 부가함으로써 개인화되며, 여전히 난독화된 화자 이름을 포함한다. 회답이 분석되는 경우, 리스트의 난독화된 화자 이름들 중 하나의 난독화된 화자 이름("tak")이 검출된다. 그 하나의 난독화된 화자 이름은 대응 실제 화자 이름("Bob")로 교체되고, 그에 따라, "Hello Bob. The weather today is …"와 같이, 최종 응답이 생성된다. 그 결과, 화자 이름이 홈 어시스턴트 디바이스(100') 외부에 공개되지 않았고, 그에 따라, 홈 어시스턴트 디바이스의 복수의 사용자들의 프라이버시가 보호되었다.

대안적인 실시예에 따르면, 홈 어시스턴트 에코시스템은 제2 모드로 동작한다. 제1 모드와의 차이는, 대화 로직이 회답(124)을 생성하는 경우, 그 회답이 홈 어시스턴트 디바이스(100')에 텍스트 형태로 바로 제공되는 것이 아니라, 오디오 형태로 제공되는데, 이는 서비스 제공자(140)의 텍스트-대-스피치 변환기(170)에 의해 오디오 신호(125)가 생성되기 때문이다. 따라서, 홈 어시스턴트 디바이스(100')가 회답(125)을 수신하는 경우, 프라이버시 인포서(106)는 오디오 신호(125)를 분석하여, 난독화된 이름을 검출한다. 그러한 목적을 위해, 프라이버시 인포서는 난독화된 이름들의 오디오 표현들을 획득하고, 예컨대 2개의 오디오 신호들의 교차-상관을 사용하여, 오디오 도메인에서 오디오 신호(125) 내의 이들 표현들을 탐색한다. 난독화된 이름이 발견된 경우, 그 난독화된 이름은 대응 화자 이름으로 교체되고, 그에 따라, 라우드스피커(110)에 의해 렌더링되는 역-난독화된 회답(127)이 생성된다.

이러한 제2 모드에서, 선택된 난독화된 이름은 표 1에 예시된 바와 같이 화자 이름과 유사한 길이를 가질 수 있다. 대안적으로, 선택된 난독화된 이름은 또한, 가구의 사람들의 수를 결정하는 데 사용될 수 있는 정보를 제공하는 것을 피하기 위해 고정된 길이를 가질 수 있다. 그러한 난독화된 이름을 생성하기 위한 기법의 일 예는 고정된 수의 문자들에 걸쳐 랜덤 자음과 랜덤 모음을 교체하는 것이다. 이러한 경우에, 표 1에 대한 난독화된 이름들의 예는 "kadopabo", "jilybelo", "gatekomu" 및 "dagopasa"일 수 있다.

대안적인 실시예에서, 개선된 프라이버시를 위해, 레코딩된 오디오 신호(121)는 프라이버시 인포서에 의해 다른 오디오 신호(121')로 변형되고, 그에 따라, 레코딩된 음성의 음성 특성들이 인식될 수 없게 된다. 이는, 임의의 음성 변환 알고리즘(음성 모핑, 운율 변형, 또는 심지어, 스피치-대-텍스트에 이은 텍스트-대-스피치의 적용 등)을 사용하여 행해지고, 그에 따라, 발언된 텍스트를 변경하지 않으면서 특성들이 변환된다. 그러한 변환의 결과로, 홈 네트워크에서 나가는 모든 음성들이 동일하게 될 것이고, 그에 따라, 구별하는 것이 불가능하게 될 것이다. 이러한 부가적인 세이프가드는 모드들 둘 모두에 적용된다.

대안적인 실시예에서, 프라이버시 인포서는 또한, 레코더 오디오 신호(121)로부터 발신 오디오 신호(121')의 텍스트를 난독화한다. 이는, 예컨대 표 1의 매핑 테이블에 열거된 바와 같은, 가구의 화자들의 이름들 중 하나를 오디오 신호 내에서 검출함으로써 행해진다. 화자 이름이 발견된 경우, 그 화자 이름은 대응하는 난독화된 이름으로 교체된다. 이 실시예는 일부 상황들에서 성공적이지 않은 질의들을 초래할 수 있으므로 선택적이다. 예컨대, 이 특징이 활성화되는 경우에, 위의 표 1의 경우, 영화 "Alice in Wonderland"를 관람하는 것이 가능하지 않게 될 것인데, 이는 질의가 "okul in Wonderland"로 변환될 것이기 때문이다.

대안적인 실시예에서, 난독화는 디폴트 세팅, 사용자 선택, 또는 사용자 선호도들의 세팅의 제어 하에서, 주기적으로, 예컨대, 디바이스의 각각의 시동 시마다, 매일, 매 15분마다, 각각의 질의에 대해 등으로 갱신된다. 각각의 질의에 대해 난독화가 갱신되는 경우는 2개의 연속적인 요청들 간의 불연계성을 개선한다. 그러나, 이는 질의의 컨텍스트화가 감소되는 단점이 있는데, 이는, 추정상 새로운 화자에 의해 질의가 수행되기 때문에, 각각의 갱신 후 대화 로직이 항상 빈 컨텍스트로부터 시작할 것이기 때문이다.

실시예에 따르면, 프라이버시 인포서(106)는, 예컨대, 사용자 선택 또는 사용자 선호도들의 세팅의 제어 하에서, 턴온 또는 턴오프될 수 있다. 이는 프라이버시 인포서에 의해 제공되는 프라이버시의 레벨을 제어하고, 그에 따라, 프라이버시 레벨 세팅이라고 호칭된다. 프라이버시 레벨 세팅이 "NO_PRIVACY"인 경우, 프라이버시 인포서(106)는 완전히 투명하며: 프라이버시 인포서(106)는 홈 어시스턴트 디바이스(100')의 발신 질의에 영향을 미치지 않고, 착신 결과들을 변형시키지 않는다. 프라이버시 레벨 세팅이 "INCOGNITO"인 경우, 프라이버시 인포서(106)는 완전히 활성되고, 프라이버시 인포서(106)는 질의 내의 화자 이름을 난독화하기 위해 발신 질의들을 분석하고, 오디오로부터 어떠한 화자 이름도 제거하고, 발신 음성 질의를 변환하며, 착신 결과들 내의 화자 이름을 복원한다. 다른 중간 프라이버시 레벨 세팅들, 예컨대 음성 변환을 수행하지 않는 프라이버시 레벨 세팅이 또한 가능하다.

실시예에 따르면, 프라이버시 레벨 세팅은, 프라이버시 인포서를 인에이블하기 위한 "프라이빗 모드 시작", "익명 모드 시작", "나의 아이덴티티를 숨김" 등, 및 프라이버시 인포서를 바이패스하기 위한 "프라이빗 모드 중지", "익명 모드 중지" 등과 같이, 오디오 질의 그 자체를 사용하여 조정될 수 있다. 이러한 질의는 그에 따라 자신의 거동을 조정하는 프라이버시 인포서에 의해 검출된다.

도 2는 본 개시내용의 실시예에 따른 프라이버시-보호 음성 상호 작용의 방법의 예시적인 흐름도를 예시한다. 단계(200)에서, 마이크로폰은 음성 질의를 형성하는 사용자에 의해 수행된 음성 발화들을 캡처하고, 대응 오디오 신호를 생성한다. 단계(202)에서, 화자 식별자는 캡처된 오디오 신호의 화자의 아이덴티티를 식별하고, 단계(204)에서, 프라이버시 인포서는 난독화된 화자 이름을 생성한다. 선택적으로, 병렬 단계(206)에서, 프라이버시 인포서는 오디오 신호를 난독화한다. 단계(208)에서, 오디오 신호가 획득되고, 분석되며, 대응 의도가 생성된다. 단계(210)에서, 난독화된 화자 이름을 획득한 후, 개인화된 응답이 생성된다. 단계(212)에서, 응답은 프라이버시 인포서에 의해 분석되고, 그 프라이버시 인포서는 응답의 난독화된 이름들을 대응 화자 이름들로 교체한다. 단계(214)에서, 라우드스피커들이 역-난독화된 응답을 렌더링한다. 난독화 단계들(204 및 206) 및 역-난독화 단계(212)는 프라이버시 레벨 세팅들의 제어 하에 있고, 세팅들이 "NO_PRIVACY"인 경우 바이패스된다.

본 기술분야의 통상의 기술자에 의해 이해될 바와 같이, 위에서 설명된 본 원리들 및 특징들의 양태들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드 등), 또는 하드웨어와 소프트웨어 양태들을 조합한 실시예의 형태를 취할 수 있다. 예컨대, 화자 식별자(104), 프라이버시 인포서(106), 및 텍스트-대-스피치 변환기(108)에 대해 하드웨어 컴포넌트들을 사용하여 설명이 이루어지지만, 이들 엘리먼트들은 본 개시내용의 적어도 하나의 실시예의 방법을 실행하도록 구성된 적어도 하나의 하드웨어 프로세서, 본 개시내용의 적어도 하나의 실시예의 방법을 실행하는 데 필요한 데이터를 저장하도록 구성된 메모리, 및 본 개시내용의 적어도 하나의 실시예를 수행하기 위해 프로세서에 의해 실행가능한 컴퓨터 판독가능 프로그램 코드를 사용하여 소프트웨어 컴포넌트들로서 구현될 수 있다. 따라서, 그러한 구현에서, 하드웨어 프로세서는, 적어도, 화자 식별자(104), 프라이버시 인포서(106), 및 텍스트-대-스피치 변환기(108)의 기능들을 구현하도록, 그리고 통신 인터페이스(120)를 통해 서비스 제공자와 인터페이스하도록 구성된다. 그러한 목적을 위해, 하드웨어 프로세서는, 사용자 식별 단계(202), 이름 난독화 단계(204), 오디오 질의 난독화 단계(206), 역-난독화 단계(212), 및 회답 렌더링 단계(214)를 포함하는, 적어도 도 2의 단계들을 구현하도록 구성된다.

게다가, 상이한 대안적인 실시예들이 개별적으로 설명되었지만, 이들은 임의의 형태로 함께 조합될 수 있다.

Claims

프라이버시-보호 음성 상호 작용들을 수행하기 위한 디바이스(100')로서,
- 화자로부터의 질의에 대한 음성 발화를 표현하는 오디오 신호(121)를 캡처하도록 구성된 마이크로폰(102);
- 상기 캡처된 오디오 신호(121)로부터 화자의 아이덴티티를 결정하도록 구성된 화자 식별자(speaker identifier)(104);
- 상기 식별된 화자에 대응하는 난독화된 화자 이름(122)을 제공하고, 화자 이름들과 난독화된 화자 이름들 간의 대응관계들의 리스트를 저장하도록 구성된 프라이버시 인포서(privacy enforcer)(106);
- 통신 인터페이스(120)
를 포함하며, 상기 통신 인터페이스(120)는,
- 상기 캡처된 오디오 신호(121) 및 상기 난독화된 화자 이름(122)을 외부 디바이스에 제공하고;
- 외부 디바이스로부터 상기 화자 질의에 대한 회답(124, 125)을 수신하도록 구성되고,
상기 프라이버시 인포서는 추가로, 상기 수신된 회답이 상기 리스트의 난독화된 화자 이름을 포함하는지를 결정하고, 이러한 경우, 상기 수신된 회답에서, 상기 난독화된 화자 이름을 상기 대응하는 이름으로 교체하도록 구성되는, 디바이스.
제1항에 있어서,
상기 화자에게 상기 회답을 제공하는 것을 더 포함하는, 디바이스.
제1항에 있어서,
상기 수신된 회답(124)은 텍스트 형태인, 디바이스.
제3항에 있어서,
역-난독화된 회답(de-obfuscated answer)(124')을 텍스트 형태로부터 오디오 신호(127)로 변환하도록 구성된 텍스트-대-스피치 변환기(108)를 더 포함하는, 디바이스.
제1항에 있어서,
상기 수신된 회답(124)은 오디오 포맷인, 디바이스.
제1항에 있어서,
상기 프라이버시 인포서는 추가로, 상기 리스트의 화자 이름을 검출하고 상기 캡처된 오디오 신호(121)를 상기 대응하는 난독화된 화자 이름을 표현하는 오디오 신호로 교체함으로써, 상기 캡처된 오디오 신호(121)를 난독화하도록 구성되는, 디바이스.
제1항에 있어서,
상기 프라이버시 인포서는 익명 모드를 턴온하거나 또는 턴오프하기 위한 세팅을 더 포함하며, 제1 경우에, 상기 프라이버시 인포서는 상기 화자 이름을 제공하기 전에 상기 화자 이름을 난독화하고, 상기 수신된 회답이 난독화된 화자 이름을 포함할 때 상기 수신된 회답을 역-난독화하고, 제2 경우에, 상기 프라이버시 인포서는 상기 화자 이름을 더 이상 난독화하지 않고, 상기 수신된 회답이 난독화된 화자 이름을 포함하는지를 더 이상 결정하지 않는, 디바이스.
프라이버시 보호 음성 상호 작용들을 수행하기 위한 방법으로서,
- 화자로부터의 질의에 대한 음성 발화를 표현하는 오디오 신호를 캡처하는 단계(200);
- 상기 캡처된 오디오 신호로부터 화자를 식별하는 단계(202);
- 상기 식별된 화자에 대응하는 난독화된 화자 이름을 생성하고, 화자 이름들과 난독화된 화자 이름들 간의 대응관계의 리스트를 저장하는 단계(204);
- 상기 캡처된 오디오 신호와 상기 난독화된 화자 이름을 외부 디바이스에 제공하는 단계;
- 외부 디바이스로부터 상기 질의에 대한 회답을 획득하는 단계; 및
- 상기 수신된 회답이 상기 리스트의 난독화된 화자 이름을 포함하는지를 결정하고, 이러한 경우, 상기 수신된 회답에서, 상기 난독화된 화자 이름을 상기 대응하는 이름으로 교체하는 단계(212)
를 포함하는, 방법.
제8항에 있어서,
상기 화자에게 상기 회답을 제공하는 단계를 더 포함하는, 방법.
제8항에 있어서,
상기 수신된 회답(124)은 텍스트 형태 또는 오디오 형태인, 방법.
제8항에 있어서,
상기 리스트의 화자 이름을 검출하고 상기 캡처된 오디오 신호(121)를 상기 대응하는 난독화된 화자 이름을 표현하는 오디오 신호로 교체함으로써, 상기 캡처된 오디오 신호(121)를 난독화하는 단계를 더 포함하는, 방법.
제8항에 있어서,
익명 모드를 턴온하거나 또는 턴오프하기 위한 세팅을 더 포함하며, 제1 경우에, 상기 화자 이름을 제공하기 전에 상기 화자 이름을 난독화하고, 상기 수신된 회답이 난독화된 화자 이름을 포함할 때 상기 수신된 회답을 역-난독화하고, 제2 경우에, 상기 화자 이름을 더 이상 난독화하지 않고, 상기 수신된 회답이 난독화된 화자 이름을 포함하는지를 더 이상 결정하지 않는, 방법.
제8항에 있어서,
상기 리스트의 난독화된 화자 이름들을 갱신하는 단계를 더 포함하는, 방법.
제8항 내지 제13항 중 적어도 하나의 항에 따른 방법의 단계들을 구현하기 위해 프로세서에 의해 실행가능한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램.
비-일시적 컴퓨터 판독가능 매체 상에 저장되고, 제8항 내지 제13항 중 적어도 하나의 항에 따른 방법의 단계들을 구현하기 위해 프로세서에 의해 실행가능한 프로그램 코드 명령어들을 포함하는 컴퓨터 프로그램 제품.