KR102203562B1

KR102203562B1 - 보안 음성 바이오메트릭 인증

Info

Publication number: KR102203562B1
Application number: KR1020207013822A
Authority: KR
Inventors: 라이언 로버츠; 마이클 페이지
Original assignee: 시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date: 2017-10-20
Filing date: 2018-10-17
Publication date: 2021-01-14
Also published as: KR20200057788A; CN111213203A; WO2019077347A1; CN111213203B; GB201802193D0; GB2567703A; GB2567703B; US20190122670A1

Abstract

일 양태는 오디오 데이터 송신 모듈에서의 방법을 제공한다. 방법은 인증될 사용자로부터의 스피치를 포함하는 오디오 데이터 스트림을 획득하는 단계 - 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -; 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에서 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하는 단계; 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 단계; 음성 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 생성하는 단계; 및 하나 이상의 암호화 서명된 패킷을 출력하는 단계를 포함한다.

Description

보안 음성 바이오메트릭 인증

본 개시내용의 실시예들은 음성 바이오메트릭 인증에 관한 것으로서, 특히, 제한된 액션의 승인에 사용되는 음성 바이오메트릭 인증 프로세스의 보안을 향상시키기 위한 방법들 및 장치에 관한 것이다.

음성 사용자 인터페이스들은 사용자가 그들의 음성을 사용하여 시스템과 상호 작용할 수 있게 하도록 제공된다. 예를 들어, 스마트폰들, 태블릿 컴퓨터들 등과 같은 디바이스들에서 이것의 한 가지 이점은 사용자가 핸즈-프리 방식으로 디바이스를 동작시킬 수 있게 한다는 점이다.

하나의 통상적인 시스템에서, 사용자는 트리거 구문을 말하고, 잠재적으로는 그 후에 하나 이상의 커맨드 구문을 말함으로써 저전력 대기 모드로부터 음성 사용자 인터페이스를 깨운다. 스피치 인식 기술들은 트리거 구문이 말해졌음을 검출하고, 하나 이상의 커맨드 구문에서 요청된 액션들을 식별하는 데 사용된다.

전자 디바이스들과의 사용자 상호 작용들의 보안을 증가시키기 위해 바이오메트릭 기술들이 점점 더 많이 적용되고 있다. 예를 들어, 위에서 설명된 음성 사용자 인터페이스의 맥락에서, 요청자(즉, 화자)가 디바이스의 허가받은 사용자인지 여부를 결정하기 위해 트리거 구문(및 잠재적으로는 또한 커맨드 구문(들))에 대해 화자 인식 프로세스가 수행될 수 있다. 화자 인식 프로세스는 스피치 인식 프로세스와 독립적으로, 그리고 이와 병렬로 수행될 수 있다.

화자 인식 프로세스의 결과 및 음성 사용자 인터페이스에 적용된 보안 레벨에 따라, 전자 디바이스는 하나 이상의 제한된 액션을 수행할 수도 있고, 또는 이를 수행하는 것이 금지될 수도 있다. 예를 들어, 화자 인식 프로세스가 실패하는 경우(예를 들어, 화자가 허가받은 사용자가 아닌 경우), 전자 디바이스는 트리거 구문의 검출에 응답하여 깨워지거나 잠금 해제되지 않을 수 있다. 추가적인 예들에서는, 화자 인식 프로세스가 실패하는 경우, 커맨드 구문(들)에서 요청된 하나 이상의 액션이 수행되지 않을 수 있다.

음성 사용자 인터페이스는 화자 인식 프로세스를 스푸핑하고 허가받은 사용자의 승인없이 제한된 액션들에 대한 액세스를 획득하려고 하는 비도덕적인 제3자들로부터 공격을 받을 수 있다. 하나의 이러한 공격 방법은 "중간자(man in the middle)" 공격일 것으로 예상되며, 이로 인해 전자 디바이스 내의 모듈들 또는 회로들 사이를 통과하는 데이터는, 예를 들어, 디바이스의 프로세싱 회로 상의 멀웨어 설치를 통한 데이터의 스푸핑에 의해 차단 및/또는 대체된다. 예를 들어, 트리거 구문, 및 그 후의 하나 이상의 커맨드 구문을 포함하는 사용자 스피치의 맥락에서, 제3자는 말해진 커맨드 구문을 제3자의 이익에 해당하는 하나 이상의 대체 커맨드(예를 들어, 제3자에게 자금들을 이체하라는 금융 명령 등)로 대체하려고 할 수 있다. 화자 인식 프로세스가 트리거 구문에 대해 성공적인 경우(즉, 화자가 허가받은 사용자로서 인증되는 경우), 전자 디바이스는 실제로 사용자에 의해 말해진 해당 커맨드 구문들 대신 대체 커맨드 구문들에 대응하는 액션들을 수행할 수 있다.

본 개시내용의 실시예들은 이들 및 다른 문제들을 해결하고자 한다.

일 양태에서, 오디오 데이터 송신 모듈에서의 방법이 제공된다. 방법은 인증될 사용자로부터의 스피치를 포함하는 오디오 데이터 스트림을 획득하는 단계 - 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -; 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에서 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하는 단계; 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 단계; 음성 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 생성하는 단계; 및 하나 이상의 암호화 서명된 패킷을 출력하는 단계를 포함한다.

다른 양태에서, 오디오 송신 디바이스로서, 인증될 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 획득하기 위한 제1 입력부 - 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -; 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에서 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하기 위한 제2 입력부; 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하도록 구성되는 데이터-인증 모듈; 음성 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 생성하도록 구성되는 암호화 모듈; 및 하나 이상의 암호화 서명된 패킷을 출력하기 위한 출력부를 포함하는 오디오 송신 디바이스가 제공된다.

본 개시내용의 추가적인 양태는 오디오 데이터 수신 모듈에서의 방법을 제공한다. 방법은, 오디오 데이터 송신 모듈로부터, 바이오메트릭 인증을 요청하는 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 수신하는 단계 - 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -; 오디오 데이터 송신 모듈로부터, 스피치와 관련된 음성 바이오메트릭 인증 결과; 및 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 수신하는 단계; 수신된 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 단계; 생성된 데이터-인증 데이터를 수신된 데이터-인증 데이터와 비교하는 단계, 및 비교에 기초하여, 사용자를 허가받은 사용자로서 인증할지 여부를 결정하는 단계를 포함한다.

다른 양태는 오디오 수신 모듈로서, 오디오 데이터 송신 모듈로부터, 바이오메트릭 인증을 요청하는 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 수신하기 위한 제1 입력부 - 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -; 오디오 데이터 송신 모듈로부터, 스피치와 관련된 음성 바이오메트릭 인증 결과; 및 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 수신하기 위한 제2 입력부; 수신된 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하기 위한 데이터-인증 모듈; 및 생성된 데이터-인증 데이터를 수신된 데이터-인증 데이터와 비교하고, 비교에 기초하여, 사용자를 허가받은 사용자로서 인증할지 여부를 결정하기 위한 사용자-인증 모듈을 포함하는 오디오 수신 모듈을 제공한다.

본 개시내용의 예들을 보다 잘 이해하고, 예들이 어떻게 효과적으로 수행될 수 있는지를 보다 명확하게 나타내기 위해, 이제 이하의 도면들을 단지 예로서 참조할 것이다.
도 1은 본 개시내용의 실시예들에 따른 전자 디바이스를 도시한다.
도 2는 본 개시내용의 실시예들에 따른 오디오 송신 디바이스를 도시한다.
도 3은 본 개시내용의 실시예들에 따른 오디오 수신 디바이스를 도시한다.
도 4a, 도 4b, 도 4c 및 도 4d는 본 개시내용의 실시예들에 따른 오디오 데이터 스트림의 프로세싱을 도시하는 개략도들이다.

명확성을 위해, 이 설명은 상이한 의미들을 갖도록 의도되는 화자 인식 및 스피치 인식을 참조한다는 것에 유의할 것이다. 화자 인식은 말하는 사람의 아이덴티티에 관한 정보를 제공하는 기술을 지칭한다. 예를 들어, 화자 인식은 이전에 등록된 개인들의 그룹 중에서 화자의 아이덴티티를 결정할 수도 있고, 또는 식별 또는 인증의 목적들을 위해, 화자가 특정 개인인지 여부를 나타내는 정보를 제공할 수도 있다. 스피치 인식은 말하는 사람을 인식하기보다는 컨텐츠 및/또는 말해지는 것의 의미를 결정하기 위한 기술을 지칭한다.

도 1은 본 개시내용의 일 양태에 따른 전자 디바이스(100)를 도시한다. 디바이스는 모바일 컴퓨팅 디바이스, 예를 들어, 랩탑 또는 태블릿 컴퓨터, 게임 콘솔, 원격 제어 디바이스, 가정용 온도 또는 조명 제어 시스템을 포함하는 홈 자동화 제어기 또는 가정용 기기, 장난감, 로봇과 같은 머신, 오디오 플레이어, 비디오 플레이어 등과 같은 임의의 적절한 타입의 디바이스일 수 있지만, 이 예시적인 예에서, 디바이스는 모바일 전화, 특히, 스마트폰(100)이다. 스마트폰(100)은, 적절한 소프트웨어에 의해, 추가적인 디바이스 또는 시스템을 제어하기 위한 제어 인터페이스로서 사용될 수 있다.

디바이스(100)는 사용자의 음성을 검출하도록 동작 가능한 하나 이상의 마이크로폰(102)을 포함한다. 마이크로폰들(102)은 인증 디바이스(104)에 커플링되고, 이는 차례로 프로세싱 회로(106)에 커플링된다. 예시된 실시예 및 이하의 논의에서, 프로세싱 회로(106)는 애플리케이션 프로세서(AP)로서 기술된다. 일반적으로, 프로세싱 회로(106)는 (중앙 처리 장치(central processing unit)(CPU)와 같은) 임의의 적절한 프로세서 또는 프로세싱 회로일 수 있다.

사용 시, 사용자는 마이크로폰(들)(102)에 말하며, 여기서 스피치가 검출되고, 스피치를 포함하는 오디오 데이터 스트림이 생성된다. 오디오 데이터 스트림은 별도의 집적 회로로서 구현될 수 있는 인증 디바이스(104)로 출력된다. 여기서, 마이크로폰(들)(102)에 의해 출력된 오디오 데이터 스트림은 디지털일 수도 있고 또는 아날로그일 수도 있다는 것에 유의하도록 한다. 후자의 경우에, 인증 디바이스(104)는 오디오 데이터 스트림을 디지털 도메인으로 변환하는 아날로그-디지털 변환기(analogue-to-digital converter)(ADC)를 포함할 수 있다.

인증 디바이스(104)는 음성 바이오메트릭 인증 모듈 또는 프로세서를 포함하고, 오디오 데이터 스트림의 스피치가 허가받은 사용자의 스피치에 대응하는지 여부를 결정하기 위해 오디오 데이터 스트림에 대해 화자 인식 프로세스를 수행한다. 화자 인식 프로세스들은 본 기술분야에 널리 공지되어 있으며, 여기서는 상세히 설명되지 않을 것이다. 화자 인식은 오디오 데이터 스트림으로부터 하나 이상의 특징(적절한 예들은 멜 주파수 캡스트럼 계수들(mel frequency cepstral coefficients), 지각 선형 예측 계수들(perceptual linear prediction coefficients), 선형 예측 코딩 계수들(linear predictive coding coefficients), 심층 신경망-기반 파라미터들(deep neural network-based parameters), i-벡터들 등을 포함함)을 추출하는 것, 및 해당 추출된 특징들을 허가받은 사용자에 대한 저장된 "성문"의 하나 이상의 대응하는 특징과 비교하는 것을 포함할 수 있다. 화자 인식 프로세스의 출력은 화자가 허가받은 사용자일 가능성을 나타내는 바이오메트릭 인증 점수일 수 있다. 화자가 허가받은 사용자인지 여부를 결정하기 위해, 바이오메트릭 인증 점수는 (인증 디바이스(104) 또는 외부 디바이스 중 어느 것에서) 하나 이상의 임계값과 비교될 수 있다. 임계값(들)과의 유리한 비교는 허가받은 사용자로서 화자의 긍정적인 식별로 이어질 수 있고, 임계값(들)과의 불리한 비교는 화자가 허가받은 사용자가 아니라는 결정, 또는 화자가 허가받은 사용자로서 식별되지도 않고 또한 허가받은 사용자로서 긍정적으로 제외되지도 않는 애매한 결과로 이어질 수 있다. 후자의 경우, 사용자는 화자 인식 프로세스의 정확성을 향상시키기 위해 추가적인 스피치 입력을 제공하도록 요청받을 수 있다.

따라서, 인증 디바이스(104)는 바이오메트릭 인증 결과(바이오메트릭 인증 점수, 화자가 허가받은 사용자인지 여부에 대한 표시 또는 둘 다를 포함할 수 있음)를 AP(106)에 출력할 수 있다. 오디오 데이터 스트림 자체가 인증 디바이스(104)로부터 AP(106)로 출력되어야 한다는 것이 추가로 이해될 것이다. 예를 들어, 스피치 인식 프로세스는 인증 디바이스(104) 외부에서 AP(106) 또는 원격 서버 중 어느 것에서 구현될 수 있으며, 스피치가 인증 디바이스(104)를 통해 AP(106)로 전달될 것을 요구한다. 많은 다른 사용자의 경우들에서(즉, 화자 인식을 요구하지 않음), 마이크로폰 신호는 AP(106)로 전달되도록 요구된다. 예를 들어, 디바이스(100)가 모바일폰인 경우, 화자의 음성은 통화 동안 순방향 송신(onward transmission)을 위해 AP(106)(또는 다른 프로세싱 회로)로 전달되도록 요구된다.

유사하게, AP(106)는 인증 디바이스(104)에 신호들을 출력할 필요가 있을 수 있다. 예를 들어, AP(106)는 (인증, 등록과 같은) 바이오메트릭 프로세스를 개시하기 위해 또는 특정 동작 모드들에 대해 인증 디바이스(104)를 구성하기 위해 인증 디바이스(104)에 제어 신호들을 출력할 수 있다.

따라서, 인증 디바이스(104)와 AP(106) 사이의 인터페이스는 어느 방향으로도 신호들(제어 및/또는 데이터)의 송신을 허용할 수 있다.

디바이스(100)는 또한 데이터의 송신 및 수신을 위해 외부 디바이스들에 유선 또는 무선 인터페이스를 제공하는 인터페이스 회로(108)를 포함한다. 예를 들어, 인터페이스 회로(108)는 하나 이상의 유선 인터페이스(예를 들어, USB, 이더넷 등) 및/또는 하나 이상의 무선 인터페이스(예를 들어, 셀룰러 통신 네트워크, 무선 근거리 네트워크 등에 대한 라디오 링크 구현)를 포함할 수 있다. 후자의 경우에, 인터페이스 회로(108)는 라디오 신호들의 생성 또는 수신에 적절한 하나 이상의 안테나에 커플링된 송수신기 회로를 포함할 수 있다.

도 1은 (예를 들어, 인터페이스 회로(108)를 통해) 전자 디바이스(100)와 통신하는 외부 디바이스(120)를 추가로 도시한다. 본 개시내용의 일부 실시예들에서, 외부 디바이스(120)는 스피치 인식 프로세스를 구현하는 원격 서버를 포함할 수 있다. 따라서, 이러한 실시예들에서, 외부 디바이스는 디바이스(100)로부터 오디오 데이터 스트림을 수신하고, 오디오 데이터 스트림 내에 포함된 스피치의 컨텐츠 및/또는 의미를 결정하기 위해 데이터 스트림을 프로세싱한다. 이어서, 스피치의 컨텐츠 및/또는 의미는 추가적인 프로세싱을 위해 디바이스(100)로 다시 송신될 수 있다. 본 개시내용의 다른 실시예들에서, 외부 디바이스(120)는 오디오 수신 모듈을 구현하는 원격 서버를 추가적으로 또는 대안적으로 포함할 수 있다. 이 양태에 관한 추가적인 세부사항은 도 3과 관련하여 이하에 제공된다.

위에서 언급된 바와 같이, 도 1에 개략적으로 예시된 디바이스들에서 식별된 한 가지 문제점은 인증 디바이스(104)와 AP(106) 사이의 인터페이스가 인증 디바이스(104)에서 수행된 화자 인식 프로세스를 스푸핑하거나, 빼앗거나 또는 다른 방식으로 전복시키려고 하는 제3자들에 의한 "중간자" 공격들에 취약하다는 것이다. 예를 들어, 트리거 구문, 및 그 후의 하나 이상의 커맨드 구문을 포함하는 사용자 스피치의 맥락에서, 중간자 공격은 말해진 커맨드 구문을 제3자의 이익에 해당하는 하나 이상의 대체 커맨드(예를 들어, 제3자에게 자금들을 이체하라는 금융 명령 등)로 대체할 수 있다. 따라서, 인증 디바이스(104)로부터 AP(106)로 출력된 긍정적인 바이오메트릭 인증 결과가, 사용자에 의해 실제로 말해진 커맨드 대신에, AP(106) 또는 외부 디바이스(120)에서 대체 커맨드들이 수행되게 할 수 있다.

인증 디바이스(104)로부터 출력된 바이오메트릭 인증 결과는 결과가 중간자 보안 공격들을 겪는 것을 금지하기 위해 공개-키 암호화 인증을 겪을 수 있다. 이러한 암호화 인증 기술들은 계산 집약적이지만, 이 경우, 결과 메시지의 데이터 컨텐츠가 상대적으로 작기 때문에 실현 가능하다. 그러나, 오디오 데이터 스트림의 데이터 컨텐츠가 너무 커서 허용 불가능한 레이턴시 증가를 도입하지 않고는 암호화 인증을 적용할 수 없다.

도 2는 본 개시내용의 실시예들에 따른 오디오 송신 디바이스(또는 모듈)(200)를 도시하는 개략도이다. 오디오 송신 디바이스(200)는, 예를 들어, 도 1과 관련하여 위에서 설명된 인증 디바이스(104)에서 구현될 수 있다.

오디오 송신 디바이스(200)는 입력부에서 하나 이상의 마이크로폰(202)(이는 도 1과 관련하여 위에서 설명된 마이크로폰들(102)과 동일할 수 있음)으로부터 오디오 데이터 스트림을 수신하도록 커플링된다. 따라서, 사용자가 마이크로폰(들)(202)에 말할 때, 오디오 데이터 스트림은 사용자에 의해 말해지고 마이크로폰(들)(202)에 의해 검출되는 스피치 또는 발화를 포함한다.

예시된 실시예에서, 오디오 송신 디바이스(200)는 오디오 데이터 스트림을 수신하도록 커플링되는 음성 바이오메트릭 인증 모듈(204)(Vbio)을 포함하고, 오디오 데이터 스트림의 스피치가 허가받은 사용자에 속하는지 여부를 결정하기 위해 오디오 데이터 스트림에 대해 바이오메트릭 인증 알고리즘을 수행하도록 구성된다. 위에서 언급된 바와 같이, 화자 인식 프로세스들은 본 기술분야에 널리 공지되어 있고, 본 개시내용은 그와 관련하여 제한되지 않는다. 위에서 언급된 바와 같이, 바이오메트릭 인증 모듈(204)의 출력은 바이오메트릭 인증 결과로서, 바이오메트릭 인증 점수, 사용자가 허가받은 사용자인지 여부에 대한 표시 또는 둘 다를 포함할 수 있다.

오디오 데이터 스트림이 바이오메트릭 인증 모듈(204)에 입력되기 전에 하나 이상의 디지털 신호 프로세싱 기술을 겪을 수 있다는 것이 본 기술분야의 통상의 기술자에 의해 추가로 이해될 것이다. 예를 들어, 오디오 데이터 스트림의 잡음 레벨을 감소시키고, 이에 따라 화자 인식 프로세스의 성능을 향상시키기 위해 잡음 제거가 활용될 수 있다. 화자 인식 프로세스의 관심 대상이 아닌 주파수들을 억제하거나, 또는 화자 인식 프로세스의 관심 대상인 주파수들을 강조하는 등을 위해 오디오 데이터 스트림에 필터링이 적용될 수 있다.

오디오 송신 디바이스(200)는 데이터-인증 모듈 또는 디바이스(206)를 추가로 포함한다. 데이터-인증 모듈(206)은 오디오 데이터 스트림을 수신하도록 커플링되고, 오디오 데이터 스트림에 기초하여 데이터-인증 데이터를 생성하도록 구성된다. 이러한 맥락에서, 데이터-인증 데이터는 오디오 데이터 스트림(또는 오디오 데이터 스트림의 일부)을 인증하는 데 사용될 수 있고 그것이 기초로 하는 오디오 데이터보다 적은 데이터를 점유하는 임의의 데이터이다.

일례에서, 데이터-인증 데이터는 하나 이상의 데이터 블록 또는 세그먼트(각각의 데이터 블록 또는 세그먼트는 하나 이상의 데이터 샘플을 포함함)와 같은 오디오 데이터 스트림의 일부의 해시를 포함한다. 따라서, 데이터-인증 디바이스(206)는 오디오 데이터 스트림으로부터의 데이터를 더 작은 고정 사이즈의 데이터 구조에 매핑시키는 해싱 함수를 구현할 수 있다. 보안 해싱 알고리즘들(예를 들어, SHA-0, SHA-1, SHA-2, SHA-3 등) 중 임의의 것과 같은 임의의 적절한 해싱 함수가 활용될 수 있다. 하나의 특정 예에서, 해싱 함수는 SHA-256일 수 있지만, 본 개시내용은 그와 관련하여 제한되지 않는다.

다른 예에서, 데이터-인증 데이터는 음향 지문, 즉, 오디오 데이터 스트림 내에 포함된 음향 신호들을 특징짓는 하나 이상의 파라미터에 대한 값들을 포함한다. 음향 지문의 일부를 형성할 수 있는 파라미터들의 예들은 평균 제로 크로싱 레이트(average zero crossing rate); 평균 스펙트럼; 스펙트럼 편평도; 하나 이상의 주파수 대역에서의 두드러진 톤들; 오디오 데이터에서 시간-주파수 표현에서의 피크들의 포지션들; 신호 전력; 및 신호 엔벨로프를 포함한다. 추가적으로 또는 대안적으로, 음향 지문은 이들 파라미터들 중 임의의 것의 변화 레이트를 포함할 수 있다. 음향 지문은 스피치에서의 오디오 음소 계열(audio phoneme class)들의 표시, 예를 들어, 치찰음들, 모음들 또는 파열음들에 대한 분류자 또는 분류자들, 스피치 인식 전사 등을 추가로 포함할 수 있다.

데이터-인증 데이터는 데이터-인증 데이터가 기초로 하는 오디오 데이터 스트림의 부분들을 정의하는 시작점 및 종료점의 하나 이상의 표시를 추가로 포함할 수 있다. 시작점 및 종료점은 임의의 적절한 방법론을 사용하여 정의될 수 있다. 예를 들어, 오디오 데이터 스트림의 각각의 데이터 샘플은 타임스탬프 또는 카운트 값과 연관될 수 있으며, 이 경우, 시작점 및 종료점은 타임스탬프 또는 카운트 값을 참조하여 정의될 수 있다. 추가적으로 또는 대안적으로, 데이터 샘플들은 고정 개수 또는 가변 개수의 데이터 샘플들을 갖는 데이터 블록들, 세그먼트들 또는 프레임들로 그룹화될 수 있다. 시작점 및 종료점은 데이터 블록, 세그먼트 또는 프레임을 참조하여 정의될 수 있다. 또 다른 실시예들에서, 데이터는 시작점 및 종료점 대신 시작점 및 지속시간에 의해 표시될 수 있다.

바이오메트릭 인증 결과 및 데이터-인증 데이터는 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 데이터 패킷을 생성하는 암호화 디바이스 또는 모듈(208)로 출력된다. 즉, 일 실시예에서, 암호화 서명은 바이오메트릭 인증 결과 및 데이터-인증 데이터 모두에 조합하여 적용되어, 출력은 데이터-인증 데이터 및 바이오메트릭 인증 결과 모두를 포함하는 암호화 서명된 데이터 패킷이 된다. 다른 실시예들에서는, 암호화 서명이 바이오메트릭 인증 결과 및 데이터-인증 데이터에 개별적으로 적용될 수 있어서, 2개의 암호화 서명된 데이터 패킷이 출력되게 된다.

암호화 서명들은 본 기술분야에 공지되어 있다. 예를 들어, 오디오 송신 디바이스(200)는 연관된 개인-공개 암호화 키 쌍을 가질 수 있으며, 해당 쌍의 공개 키는 초기 핸드셰이크 프로세스 동안 (AP(106)와 같은) 연결된 디바이스들에 제공될 수 있다. 이러한 방식으로 데이터를 암호화 서명함에 있어서, 암호화 디바이스(208)는 해당 키 쌍의 개인 암호화 키를 데이터-인증 데이터와 바이오메트릭 인증 결과의 조합에 적용할 수 있다. 대안적으로, 암호화 모듈(208)은 수신 디바이스(이 경우, AP 또는 오디오 수신 모듈(300), 이하 참조)와 비밀리에 공유되는 암호화 키를 적용할 수 있다.

예시에서, 오디오 데이터 스트림은 제1 출력부(210)를 통해 오디오 송신 디바이스(200)로부터 출력되는 반면, 하나 이상의 암호화 서명된 패킷은 제2 출력부(212)를 통해 출력된다. 그러나, 이들 출력부들(210, 212)은 단일 데이터 인터페이스로 구현될 수 있다는 것이 이해될 것이다.

따라서, 도 2는 본 개시내용의 일부 실시예들에 따른 오디오 송신 디바이스(200)를 도시한다. 그러나, 첨부된 청구 범위의 범주를 벗어나지 않으면서, 예시된 실시예들에 대한 다양한 변경들이 이루어질 수 있다. 예를 들어, 도 2는 오디오 송신 디바이스(200) 내의 바이오메트릭 인증 모듈(204)을 도시한다. 대안적인 실시예들에서, 바이오메트릭 인증 모듈(204)은 오디오 송신 디바이스(200) 외부에서(예를 들어, 별도의 집적 회로에서) 구현되어, 바이오메트릭 인증 결과가 오디오 송신 디바이스의 입력부에 수신될 수 있다.

도 3은 본 개시내용의 추가적인 실시예들에 따른 오디오 수신 디바이스(300)를 도시한다. 오디오 수신 디바이스(300)는 도 2와 관련하여 위에서 설명된 오디오 송신 디바이스(200)로부터 오디오 데이터 스트림 및 하나 이상의 암호화 서명된 패킷을 수신하는 임의의 디바이스로 구현될 수 있다.

따라서, 일 실시예에서, 오디오 수신 디바이스(300)는 도 1과 관련하여 위에서 설명된 AP(106)에서 구현된다. 따라서, 이하에서 설명되는 오디오 수신 디바이스(300)를 구현함으로써, AP(106)는 오디오 데이터 스트림 및 바이오메트릭 인증 결과가 믿을만한 것이라고 결정하고, 사용자를 허가받은 사용자로서 정당하게 허가하거나 또는 다르게는 하나 이상의 제한된 액션을 수행할 수 있다. 대안적인 실시예들에서, 오디오 수신 디바이스(300)는 도 1과 관련하여 위에서 설명된 외부 디바이스(120)에서 구현될 수 있다. 이러한 실시예들에서, 오디오 데이터 스트림 및 하나 이상의 암호화 서명된 패킷은 (예를 들어, 인터페이스 회로(108)를 통해) AP(106) 및 디바이스(100)로부터 출력된다. 따라서, 외부 디바이스(120)는 오디오 데이터 스트림 및 암호화 서명된 패킷을 간접적으로 수신하지만, 그럼에도 불구하고, 바이오메트릭 인증 결과 및 연관된 오디오 데이터 스트림이 믿을만한 것이라고 결정할 수 있다.

오디오 수신 디바이스(300)는 제1 입력부(302)에서 오디오 데이터 스트림을 수신하고, 제2 입력부(304)에서 하나 이상의 암호화 서명된 패킷을 수신한다. 도 3에서는 개별적으로 예시되어 있지만, 제1 및 제2 입력부들(302, 304)은 단일 데이터 인터페이스로 구현될 수 있다는 것이 다시 이해될 것이다.

오디오 데이터 스트림은 데이터-인증 디바이스 또는 모듈(306)에 입력된다. 데이터-인증 모듈(306)은 오디오 데이터 스트림에 기초하여 데이터-인증 데이터를 생성하도록 구성된다. 특히, 데이터-인증 모듈(306)은 오디오 송신 디바이스(200)의 데이터-인증 모듈(206)에서 수행된 것과 동일한 알고리즘을 수행하도록 구성될 수 있다. 따라서, 알고리즘은, 예를 들어, 해싱 함수, 또는 음향 지문 알고리즘을 포함할 수 있다.

하나 이상의 암호화 서명된 패킷은 암호화 검증 디바이스 또는 모듈(308)에 입력된다. 암호화 검증 디바이스(308)는 데이터 패킷들을 프로세싱하고, 특히, 패킷들이 오디오 송신 디바이스(200)와 연관된 암호화 서명에 대응하는 암호화 서명에 의해 서명되었는지 여부를 검증한다. 예를 들어, 암호화 검증 디바이스(308)는 오디오 송신 디바이스(200)에 속하는 개인-공개 키의 공개 키를 적용할 수 있다. 대안적으로, 암호화 검증 디바이스(308)는 송신 디바이스(예를 들어, 인증 디바이스(104) 또는 오디오 수신 모듈(300))와 비밀리에 이전에 공유된 암호화 키를 적용할 수 있다.

검증 디바이스(308)가 암호화 서명된 패킷이 오디오 송신 디바이스(200)로부터 온 것임을 검증하는 경우(즉, 패킷 또는 패킷들이 오디오 송신 디바이스(200)에 속하는 암호화 서명과 연관되거나 매치되는 암호화 서명으로 서명된 경우), 암호화 디바이스(308)는 바이오메트릭 인증 결과 및 데이터-인증 데이터를 사용자-인증 디바이스 또는 모듈(310)에 출력한다. 데이터-인증 디바이스(306)의 출력 또한 사용자-인증 디바이스(310)에 제공된다.

사용자-인증 디바이스(310)는 적어도 디바이스(306)에 의해 생성된 데이터-인증 데이터, 암호화 디바이스(308)로부터 출력된 수신된 데이터-인증 데이터 및 바이오메트릭 인증 결과에 기초하여, 사용자가 허가받은 사용자로서 인증되어야 하는지 여부, 또는 요청된 제한된 액션이 수행되어야 하는지 여부를 결정하도록 동작 가능하다.

사용자-인증 디바이스(310)는 수신된 데이터-인증 데이터를 생성된 데이터-인증 데이터와 비교하는 비교 모듈 또는 비교기(312)를 포함한다. 이들이 상이한 경우, 이것은 오디오 수신 디바이스(300)에 의해 수신된 오디오 데이터 스트림이 오디오 송신 디바이스(200)에 의해 프로세싱된 오디오 데이터 스트림과 동일하지 않으며, 시스템이 중간자 공격을 겪었을 것이라는 표시이다. 이들이 매치되는 경우, 이것은 오디오 수신 디바이스(300)에 의해 수신된 오디오 데이터 스트림이 오디오 송신 디바이스(200)에 의해 프로세싱된 오디오 데이터 스트림과 동일하고, 따라서 오디오 데이터 스트림이 추가적인 프로세싱을 위해 사용될 수 있다는 표시이다.

비교 모듈(312)은 데이터-인증 데이터가 결정 모듈(314)에 매치되는지 여부에 대한 표시를 출력한다. 결정 모듈(314)은 또한 (예를 들어, 암호화 디바이스(308)로부터) 바이오메트릭 인증 결과를 수신하고, 해당 두 가지 표시에 기초하여, 사용자가 허가받은 사용자로서 인증되어야 하는지 여부 또는 요청된 제한된 액션이 수행되어야 하는지 여부를 결정할 수 있다. 데이터-인증 데이터가 매치되지 않는 경우, 또는 바이오메트릭 인증 결과가 부정적인 경우, 결정 모듈(314)은 사용자가 허가받은 사용자가 아니거나 또는 제한된 액션이 수행되지 않아야 한다고 결정할 수 있다. 데이터-인증 데이터가 매치되고 바이오메트릭 인증 결과가 긍정적인 경우, 결정 모듈(314)은 사용자가 허가받은 사용자이거나 또는 제한 액션이 수행되어 한다고 결정할 수 있다.

사용자가 허가받은 사용자로서 인증되어야 하는지 여부, 또는 요청된 제한된 액션이 수행되어야 하는지 여부를 결정함에 있어서 추가적인 팩터들이 고려될 수 있다는 것이 본 기술분야의 통상의 기술자에 의해 이해될 것이다. 예를 들어, 본 출원인에게 양도된 영국 특허 출원 제1621717.6호는 사용자가 허가받은 사용자로서 인증되어야 하는지 여부, 또는 요청된 제한된 액션이 수행되어야 하는지 여부를 평가함에 있어서 바이오메트릭 인증 모듈로의 신호들의 라우팅이 고려되는 방법들 및 장치들을 개시하고 있다. 이러한 실시예들에서, 바이오메트릭 인증 결과는 라우팅이 보안되었는지 또는 보안되지 않았는지에 대한 표시를 포함할 수 있다. 다른 방법들은, 예를 들어, 오디오 데이터 스트림이 진짜인지 또는 컴퓨터에 의해 생성되었는지를 결정하려고 할 수 있다. 따라서, 본 개시내용은 사용자가 인증되어야 하는지 여부 또는 제한된 액션이 수행되어야 하는지 여부를 결정함에 있어서 디바이스(306)에 의해 생성된 데이터-인증 데이터, 암호화 디바이스(308)로부터 출력된 수신된 데이터-인증 데이터 및 바이오메트릭 인증 결과의 사용에 제한되지 않는다.

유사하게, 암호화 디바이스(308)에서의 검증 프로세스가 부정적인 경우, 결정 모듈(314)은 사용자가 인증되지 않아야 하거나 또는 제한된 액션이 수행되지 않아야 한다고 결정할 수 있다. 이것은 여러 가지 방법들로 구현될 수 있다. 예를 들어, 암호화 디바이스(308)는 적절한 제어 신호를 결정 모듈(314)에 출력할 수도 있고, 또는 데이터-인증 데이터 또는 바이오메트릭 인증 결과를 출력하지 않을 수 있고, 또는 이들 중 어느 것의 유효하지 않은 버전들을 출력할 수도 있다.

따라서, 도 2 및 3은 오디오 송신 디바이스(200) 및 대응하는 오디오 수신 디바이스(300)를 도시한다. 오디오 송신 디바이스(200)는 오디오 데이터 스트림, 및 오디오 데이터 스트림과 관련하여 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 출력한다. 이러한 방식으로, 바이오메트릭 인증 결과는 오디오 데이터 스트림에 보안 방식으로 연결되어, 오디오 송신 디바이스와 오디오 수신 디바이스 사이의 인터페이스에 초점을 맞춘 중간자 공격에서 오디오 데이터가 교체되거나 변경될 수 없게 된다.

도 4a, 도 4b, 도 4c 및 도 4d는 본 개시내용의 실시예들에 따른 오디오 데이터 스트림들의 대안적인 신호 프로세싱을 개략적인 형태로 도시한다. 각각의 경우에, 오디오 데이터 스트림은 복수의 데이터 세그먼트들로 분할되고, 각각의 데이터 세그먼트는 하나 이상의 데이터 샘플을 포함한다. 데이터 세그먼트들은 오디오 데이터 스트림에서의 스피치 부분들에 대응할 수 있다. 스피치의 제1 검출된 부분은 사용자에 의해 발언된 트리거 구문, 즉, 화자 인식 프로세스에서 높은 레벨의 정확성을 획득하는 데 사용될 수 있는 미리 정의된 구문일 수 있다. 널리-공지된 예들은 "Hey Siri"(RTM) 및 "OK Google"(RTM)을 포함한다. 트리거 구문은, 예를 들어, 디바이스(100)의 저전력 음성-활동 검출 모듈에 의해 검출될 수 있다(예시 생략). 후속 데이터 세그먼트들은 트리거 구문 뒤에 오고 서비스가 수행되도록 요청 또는 커맨드를 포함하는 하나 이상의 커맨드 구문을 포함할 수 있다.

다음의 예들에서, 트리거 구문은 단일 데이터 세그먼트 내에 포함되고, 후속 데이터 세그먼트들은 커맨드 구문 발화들을 포함한다. 트리거 구문은 하나 또는 다수의 데이터 세그먼트들에 걸쳐 분할될 수 있고, 커맨드 구문도 하나 또는 다수의 데이터 세그먼트들로 유사하게 세그먼트화될 수 있다는 것이 이해될 것이다. 각각의 도면은 오디오 송신 디바이스(200)에 입력된 오디오 데이터 스트림: 바이오메트릭 인증 모듈(204)의 출력(Vbio O/P); 데이터-인증 모듈(206)의 출력(Fex O/P); 암호화 모듈(208)의 출력(Crypto O/P); 및 오디오 송신 디바이스(200)로부터 출력된 오디오 데이터 스트림을 도시한다.

도 4a에서, 입력 오디오 데이터 스트림(오디오 데이터 in)은 트리거 데이터 세그먼트 및 3개의 후속 커맨드 데이터 세그먼트를 포함하는 다수의 데이터 세그먼트들로 분할된다. 음성 바이오메트릭 인증 모듈(204)은 여기서는 트리거 데이터 세그먼트를 포함하는 하나 이상의 제1 데이터 세그먼트를 프로세싱하고, 바이오메트릭 인증 결과(OK)를 생성한다. 바이오메트릭 인증 결과는 이것을 암호화 서명하는 암호화 디바이스(208)에 출력되고, 암호화 서명된 패킷이 오디오 송신 모듈로부터 출력된다. 바이오메트릭 및 암호화 프로세싱에 의해 레이턴시가 도입되었다는 것에 유의하도록 한다.

이 실시예에서, 트리거 데이터 세그먼트는 오디오 송신 디바이스(200)로부터 오디오 수신 디바이스(300)로 출력되지 않는다. 이에 대한 몇 가지 이유들이 있을 수 있다. 예를 들어, (대부분의 바이오메트릭 정확성이 달성되는) 트리거 구문은 그것이 거기에 기록되어 나중에 (예를 들어, 오디오 수신 디바이스 상에 설치된 멀웨어에 의해) 바이오메트릭 인증 모듈을 스푸핑하는 데 사용되는 것을 금지하기 위해 오디오 수신 디바이스로부터 막아질 수 있다.

후속 데이터 세그먼트(CMD 1)가 오디오 수신 디바이스(300)에 출력된다. 또한, 후속 데이터 세그먼트(CMD 1)에 대해 데이터-인증 데이터가 생성되고(Fex1), 이것은 암호화 서명되고, 오디오 송신 디바이스(200)로부터 출력된다. 후속 커맨드 데이터 세그먼트들(CMD 2, CMD 3)이 유사하게 프로세싱된다.

따라서, 음성 바이오메트릭 인증은 하나 이상의 제1 데이터 세그먼트(여기서는, 트리거 데이터 세그먼트)에 대해 수행되는 반면, 데이터-인증 데이터는 하나 이상의 제2 데이터 세그먼트(여기서는, 커맨드 데이터 세그먼트)에 대해 생성된다. 또한, 바이오메트릭 인증 결과 및 데이터-인증 데이터는 별도의 암호화 서명된 패킷으로 출력된다.

도 4b는 대안적인 실시예에 따른 데이터 프로세싱을 도시한다. 프로세싱은 실질적으로도 4a와 관련하여 위에서 설명된 프로세싱에 대응한다. 그러나, 이 인스턴스에서는, 트리거 데이터 세그먼트에 기초하여 생성된 바이오메트릭 인증 결과가 각각의 후속 커맨드 데이터 세그먼트들에 대해 반복적으로 출력된다. 예시된 실시예에서, 바이오메트릭 인증 결과는 단일 암호화 서명된 패킷으로 각각의 데이터-인증 데이터와 결합된다. 다른 실시예들에서, 바이오메트릭 인증 결과는 별도의 암호화 서명된 패킷으로 데이터-인증 데이터에 출력될 수 있다.

도 4c에서의 프로세싱은 실질적으로도 4a에서의 프로세싱에 대응한다. 그러나, 이 인스턴스에서는, 커맨드 데이터 세그먼트들이 트리거 구문에 대해 수행되는 화자 인식 프로세스를 보충하는 데 사용된다. 이러한 양태에 대한 추가적인 세부사항은 PCT 특허 출원 PCT/GB2016/051954호에서 찾을 수 있다. 따라서, 바이오메트릭 인증 모듈(204)은 각각의 데이터 세그먼트에 대해 각각의 바이오메트릭 인증 결과들을 출력하고, 각각의 바이오메트릭 인증 결과는 "현재" 데이터 세그먼트뿐만 아니라 잠재적으로 하나 이상의 선행하는 데이터 세그먼트에 기초한다. 따라서, 오디오 데이터 스트림 내의 제n 데이터 세그먼트에 대해, 오디오 송신 디바이스(200)는 제n 데이터 세그먼트(및 잠재적으로 제(n-1) 데이터 세그먼트 등과 같은 하나 이상의 선행하는 데이터 세그먼트)에 기초하는 바이오메트릭 인증 결과 및 제n 데이터 세그먼트에 기초하는 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷뿐만 아니라, 제n 데이터 세그먼트에 대한 오디오 데이터를 출력한다.

도 4d에서의 프로세싱도 또한 실질적으로도 4a에서의 프로세싱에 대응한다. 그러나, 이 인스턴스에서는, 트리거 데이터 세그먼트가 후속하는 커맨드 데이터 세그먼트들에 더하여 오디오 송신 디바이스(200)로부터 출력된다.

따라서, 본 개시내용의 실시예들에 따르면, 오디오 송신 디바이스는 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에 대한 바이오메트릭 인증 결과, 및 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 획득한다. 오디오 송신 디바이스는 바이오메트릭 인증 결과 및 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 추가로 생성한다. 바이오메트릭 인증 결과 및 데이터-인증 데이터는 (예를 들어, 도 4a에 도시된 바와 같이) 별도로 암호화 서명된 패킷들로, 또는 (도 4b, 도 4c 또는 도 4d에 도시된 바와 같이) 동일한 암호화 서명된 패킷으로 전송될 수 있다.

하나 이상의 암호화 서명된 패킷이 오디오 데이터 스트림의 각각의 데이터 세그먼트에 대해 송신될 수 있다. 그러나, 특정 데이터 세그먼트에 대한 하나 이상의 암호화 서명된 패킷이 바이오메트릭 인증 결과 및 데이터-인증 데이터 둘 다를 포함하지는 않을 수 있다. 예를 들어, 도 4a에 도시된 바와 같이, 바이오메트릭 인증 결과는 하나의 데이터 세그먼트(예를 들어, 트리거 데이터 세그먼트)에 대해서는 암호화 서명된 패킷으로 전송될 수 있지만, 다른 데이터 세그먼트들(예를 들어, 커맨드 데이터 세그먼트들)에 대해서는 그렇지 않을 수 있다. 유사하게, 데이터-인증은 하나의 데이터 세그먼트(예를 들어, 커맨드 데이터 세그먼트)에 대해서는 암호화 서명된 패킷으로 송신될 수 있지만, 다른 데이터 세그먼트들(예를 들어, 트리거 데이터 세그먼트)에 대해서는 그렇지 않을 수 있다. 대안적으로, 특정 데이터 세그먼트에 대해 바이오메트릭 인증 결과 및 데이터-인증 데이터 둘 다를 포함하는 하나 이상의 암호화 서명된 패킷이 송신될 수 있다.

따라서, 본 개시내용은 음성 바이오메트릭 인증에 의존하는 전자 디바이스들에서의 보안을 증가시키는 방법들, 장치들 및 컴퓨터 판독 가능 매체를 제공한다.

따라서, 통상의 기술자는 전술한 장치들 및 방법들의 일부 양태들, 예를 들어, 프로세서에 의해 수행되는 계산들이, 예를 들어, 디스크, CD- 또는 DVD-ROM과 같은 비-휘발성 캐리어 매체, 판독 전용 메모리(펌웨어)와 같은 프로그래밍된 메모리, 또는 광학 또는 전기 신호 캐리어와 같은 데이터 캐리어 상에서 프로세서 제어 코드로서 구체화될 수 있다는 것을 인식할 것이다. 많은 응용들에 있어서, 본 개시내용의 실시예들은 DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit) 또는 FPGA(Field Programmable Gate Array) 상에서 구현될 것이다. 따라서, 코드는 종래의 프로그램 코드 또는 마이크로코드 또는, 예를 들어, ASIC 또는 FPGA를 셋업 또는 제어하기 위한 코드를 포함할 수 있다. 코드는 또한 재-프로그래밍 가능 로직 게이트 어레이들과 같은 재-구성 가능 장치를 동적으로 구성하기 위한 코드를 포함할 수 있다. 유사하게, 코드는 Verilog^TM 또는 VHDL(Very high speed integrated circuit Hardware Description Language)과 같은 하드웨어 기술 언어에 대한 코드를 포함할 수 있다. 통상의 기술자라면 이해하는 바와 같이, 코드는 서로 통신하는 복수의 커플링된 컴포넌트들 사이에 분산될 수 있다. 적절한 경우, 실시예들은 아날로그 하드웨어를 구성하기 위해 필드-(재)프로그래밍 가능 아날로그 어레이 또는 유사한 디바이스에서 실행되는 코드를 사용하여 구현될 수도 있다.

본 개시내용의 실시예들은 오디오 프로세싱 회로, 예를 들어, 호스트 디바이스에 제공될 수 있는 오디오 회로의 일부로서 배열될 수 있다. 본 개시내용의 실시예에 따른 회로는 집적 회로로서 구현될 수 있다.

실시예들은, 예를 들어, 호스트 디바이스, 특히, 모바일 전화, 오디오 플레이어, 비디오 플레이어, PDA, 랩탑 컴퓨터 또는 태블릿과 같은 모바일 컴퓨팅 플랫폼 및/또는 게임 디바이스와 같은 휴대용 및/또는 배터리 전력 공급형 호스트 디바이스에서 구현될 수 있다. 본 개시내용의 실시예들은 또한 호스트 디바이스에 부착될 수 있는 액세서리들, 예를 들어, 능동 스피커들 또는 헤드셋들 등에 전체적으로 또는 부분적으로 구현될 수 있다. 실시예들은 원격 제어기 디바이스, 장난감, 로봇과 같은 머신, 홈 자동화 제어기 등과 같은 다른 형태들의 디바이스로 구현될 수 있다.

전술한 실시예들은 본 개시내용을 제한하기보다는 예시하는 것이며, 본 기술분야의 통상의 기술자는 첨부된 청구 범위의 범주를 벗어나지 않고 많은 대안적인 실시예들을 설계할 수 있다는 점에 유의해야 한다. "포함하는(comprising)"이라는 단어는 청구 범위에 열거된 것들 이외의 엘리먼트들 또는 단계들의 존재를 배제하지 않고, "a" 또는 "an"은 복수를 배제하지 않으며, 단일 특징 또는 다른 유닛이 청구 범위에 기재된 여러 유닛들의 기능들을 수행할 수 있다. 청구 범위의 임의의 참조 부호들은 해당 범위를 제한하도록 해석되지 않아야 한다.

Claims

오디오 송신 디바이스로서,
인증될 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 획득하기 위한 제1 입력부 - 상기 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -;
상기 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에서 상기 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하기 위한 제2 입력부;
상기 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하도록 구성되는 데이터-인증 모듈;
상기 음성 바이오메트릭 인증 결과 및 상기 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 생성하도록 구성되는 암호화 모듈; 및
상기 하나 이상의 암호화 서명된 패킷을 출력하기 위한 출력부
를 포함하는 오디오 송신 디바이스.
제1항에 있어서, 상기 오디오 데이터 스트림은 제n 데이터 세그먼트를 포함하고 - n은 정수임 -, 상기 제1 입력부는, 상기 제n 데이터 세그먼트에 대해, 상기 제n 데이터 세그먼트를 포함하는 하나 이상의 제1 데이터 세그먼트에서 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하도록 구성되고, 상기 데이터-인증 모듈은, 상기 제n 데이터 세그먼트에 대해, 상기 제n 데이터 세그먼트를 포함하는 하나 이상의 제2 데이터 세그먼트에 대한 데이터 인증을 생성하도록 구성되는 오디오 송신 디바이스.
제2항에 있어서, 상기 하나 이상의 제1 데이터 세그먼트는, 상기 제n 데이터 세그먼트에 대해, 상기 오디오 데이터 스트림에서 상기 제n 데이터 세그먼트에 선행하는 하나 이상의 데이터 세그먼트를 추가적으로 포함하는 오디오 송신 디바이스.
제2항 또는 제3항에 있어서, 상기 하나 이상의 제2 데이터 세그먼트는, 상기 제n 데이터 세그먼트에 대해, 상기 제n 데이터 세그먼트만을 포함하는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 암호화 모듈은 상기 오디오 데이터 스트림 내의 연속적인 데이터 세그먼트들에 대해 하나 이상의 암호화 서명된 패킷을 생성하도록 구성되는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 데이터-인증 데이터는 상기 하나 이상의 제2 데이터 세그먼트에 대한 해시 값을 포함하는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 데이터-인증 데이터는 상기 하나 이상의 제2 데이터 세그먼트 내의 오디오의 음향 지문을 포함하는 오디오 송신 디바이스.
제7항에 있어서, 상기 음향 지문은 평균 제로 크로싱 레이트(average zero crossing rate); 평균 스펙트럼; 스펙트럼 편평도; 하나 이상의 주파수 대역에서의 두드러진 톤들; 상기 오디오 데이터에서 시간-주파수 표현에서의 피크들의 포지션들; 신호 전력; 신호 엔벨로프; 상기 평균 제로 크로싱 레이트, 상기 평균 스펙트럼, 상기 스펙트럼 편평도, 상기 하나 이상의 주파수 대역에서의 두드러진 톤들, 상기 오디오 데이터에서 시간-주파수 표현에서의 피크들의 포지션들, 상기 신호 전력, 및 상기 신호 엔벨로프 중 임의의 것의 변화 레이트; 및 오디오 음소 계열(audio phoneme class)들 중 하나 이상을 포함하는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 암호화 서명된 패킷은 상기 데이터-인증 데이터가 기초로 하는 오디오 데이터 스트림에서의 시작점 및 종료점 중 하나 이상의 것의 표시를 추가로 포함하는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 암호화 모듈은 개인-공개 키 쌍의 개인 키를 상기 음성 바이오메트릭 인증 결과 및 상기 데이터-인증 데이터 중 하나 이상에 적용함으로써 상기 하나 이상의 암호화 서명된 패킷을 생성하도록 구성되는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 적어도 상기 하나 이상의 제2 데이터 세그먼트를 출력하기 위한 제2 출력부를 추가로 포함하는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 제1 데이터 세그먼트는 상기 사용자에 의해 말해진 트리거 구문과 관련되는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 제2 데이터 세그먼트는 상기 사용자에 의해 말해진 커맨드 구문과 관련되는 오디오 송신 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 암호화 모듈은 상기 음성 바이오메트릭 인증 결과 및 상기 데이터-인증 데이터를 포함하는 암호화 서명된 패킷을 생성하도록 구성되는 오디오 송신 디바이스.
전자 디바이스로서,
제1항 내지 제3항 중 어느 한 항에 따른 오디오 송신 디바이스
를 포함하는 전자 디바이스.
오디오 데이터 송신 모듈에서의 방법으로서,
인증될 사용자로부터의 스피치를 포함하는 오디오 데이터 스트림을 획득하는 단계 - 상기 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -;
상기 오디오 데이터 스트림의 하나 이상의 제1 데이터 세그먼트에서 상기 스피치와 관련된 음성 바이오메트릭 인증 결과를 획득하는 단계;
상기 오디오 데이터 스트림의 하나 이상의 제2 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 단계;
상기 음성 바이오메트릭 인증 결과 및 상기 데이터-인증 데이터를 포함하는 하나 이상의 암호화 서명된 패킷을 생성하는 단계; 및
상기 하나 이상의 암호화 서명된 패킷을 출력하는 단계
를 포함하는 방법.
컴퓨터-판독 가능 기록 매체로서,
제16항에 따른 방법을 수행하기 위한 명령어들
을 포함하는 컴퓨터-판독 가능 기록 매체.
오디오 데이터 수신 모듈로서,
오디오 데이터 송신 모듈로부터, 바이오메트릭 인증을 요청하는 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 수신하기 위한 제1 입력부 - 상기 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -;
상기 오디오 데이터 송신 모듈로부터,
상기 스피치와 관련된 음성 바이오메트릭 인증 결과; 및
상기 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터
를 포함하는 하나 이상의 암호화 서명된 패킷을 수신하기 위한 제2 입력부;
상기 수신된 오디오 데이터 스트림 내의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하기 위한 데이터-인증 모듈; 및
상기 생성된 데이터-인증 데이터를 상기 수신된 데이터-인증 데이터와 비교하고, 상기 비교에 기초하여, 상기 사용자를 허가받은 사용자로서 인증할지 여부를 결정하기 위한 사용자-인증 모듈
을 포함하는 오디오 데이터 수신 모듈.
제18항에 있어서,
상기 하나 이상의 암호화 서명된 패킷이 상기 오디오 데이터 송신 모듈에 대한 저장된 서명에 대응하는 암호화 서명으로 서명된 것임을 검증하도록 구성되는 암호화 모듈
을 추가로 포함하고,
상기 사용자-인증 모듈은 상기 검증에 기초하여 상기 사용자를 허가받은 사용자로서 인증할지 여부를 결정하도록 추가로 구성되는 오디오 데이터 수신 모듈.
제19항에 있어서, 상기 암호화 모듈은 상기 오디오 데이터 송신 모듈에 대한 개인-공개 키 쌍의 공개 키를 상기 하나 이상의 암호화 서명된 패킷에 적용함으로써 검증하도록 구성되는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 데이터-인증 모듈은 상기 수신된 오디오 데이터 스트림 내의 하나 이상의 데이터 세그먼트에 데이터-인증 알고리즘을 적용함으로써 데이터-인증을 생성하도록 구성되고, 상기 데이터-인증 알고리즘은 상기 오디오 데이터 송신 모듈에 의해 상기 하나 이상의 데이터 세그먼트에 추가로 적용되는 오디오 데이터 수신 모듈.
제21항에 있어서, 상기 데이터-인증 알고리즘은 해싱 알고리즘 또는 음향 지문 알고리즘을 포함하는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 하나 이상의 암호화 서명된 패킷은 상기 데이터-인증 데이터가 기초로 하는 오디오 데이터 스트림에서의 시작점 및 종료점 중 하나 이상의 것의 표시를 추가로 포함하는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 하나 이상의 세그먼트는 상기 오디오 데이터 스트림의 제n 데이터 세그먼트를 포함하고 - n은 정수임 -, 데이터-인증 데이터를 생성하는 것은 상기 제n 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 것을 포함하는 오디오 데이터 수신 모듈.
제24항에 있어서, 상기 하나 이상의 세그먼트는 상기 오디오 데이터 스트림에서 상기 제n 데이터 세그먼트에 선행하는 하나 이상의 데이터 세그먼트를 추가적으로 포함하는 오디오 데이터 수신 모듈.
제24항에 있어서, 상기 데이터-인증 모듈은 상기 제n 데이터 세그먼트에 대해서만 데이터-인증 데이터를 생성함으로써 데이터-인증 데이터를 생성하도록 구성되는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 제2 입력부는 각각의 데이터 세그먼트에 대한 하나 이상의 암호화 서명된 패킷을 수신하기 위한 것인 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 음성 바이오메트릭 인증 결과는 상기 사용자가 허가받은 사용자라는 신뢰와 관련된 음성 바이오메트릭 인증 점수를 포함하는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 음성 바이오메트릭 인증 결과는 상기 사용자가 허가받은 사용자에 대응하는지 여부에 대한 표시를 포함하는 오디오 데이터 수신 모듈.
제18항 내지 제20항 중 어느 한 항에 있어서, 상기 제2 입력부는 상기 음성 바이오메트릭 인증 결과 및 상기 데이터-인증 데이터를 포함하는 암호화 서명된 패킷을 수신하도록 구성되는 오디오 데이터 수신 모듈.
전자 디바이스로서,
제18항 내지 제20항 중 어느 한 항에 따른 오디오 데이터 수신 모듈
을 포함하는 전자 디바이스.
제31항에 있어서, 제1항에 따른 오디오 송신 디바이스를 추가로 포함하는 전자 디바이스.
오디오 데이터 수신 모듈에서의 방법으로서,
오디오 데이터 송신 모듈로부터, 바이오메트릭 인증을 요청하는 사용자로부터의 스피치와 관련된 오디오 데이터 스트림을 수신하는 단계 - 상기 오디오 데이터 스트림은 복수의 데이터 세그먼트들을 포함함 -;
상기 오디오 데이터 송신 모듈로부터,
상기 스피치와 관련된 음성 바이오메트릭 인증 결과; 및
상기 오디오 데이터 스트림의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터
를 포함하는 하나 이상의 암호화 서명된 패킷을 수신하는 단계;
상기 수신된 오디오 데이터 스트림 내의 하나 이상의 데이터 세그먼트에 대한 데이터-인증 데이터를 생성하는 단계;
상기 생성된 데이터-인증 데이터를 상기 수신된 데이터-인증 데이터와 비교하는 단계, 및
상기 비교에 기초하여, 상기 사용자를 허가받은 사용자로서 인증할지 여부를 결정하는 단계
를 포함하는 방법.
컴퓨터-판독 가능 기록 매체로서,
제33항에 따른 방법을 수행하기 위한 명령어들
을 포함하는 컴퓨터-판독 가능 기록 매체.