KR20200037399A

KR20200037399A - 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법

Info

Publication number: KR20200037399A
Application number: KR1020207007398A
Authority: KR
Inventors: 원위안 쉬; 샤오위 지; 궈밍 장; 천 옌; 톈천 장; 타이민 장
Original assignee: 저지앙 유니버시티
Priority date: 2017-12-19
Filing date: 2018-04-17
Publication date: 2020-04-08
Also published as: KR102386155B1; US20200251117A1; WO2019119687A1; CN108172224B; US11450324B2; CN108172224A

Abstract

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하기 위한 방법은, 1) 포지티브 및 네거티브 샘플의 데이터를 수집하는 단계; 2) 수집된 포지티브 및 네거티브 샘플 데이터에 대해 데이터 분할을 수행하는 단계; 3) 샘플 특징 선택 및 정규화 단계; 4) 분류기를 선택하여 트레이닝을 수행하고 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성하는 단계; 및 5) 획득된 검출 모델을 이용하여 검출할 음성 명령을 검출하는 단계를 포함한다. 상이한 타입의 스마트 기기에 대하여, 상기 유형의 스마트 기기에 의해 정상 음성 명령 및 악성인 음성 명령을 획득해야 하며, 또한 포지티브 및 네거티브 샘플로 하여 상기 유형 기기에 대해 특정된 하나의 분류기를 트레이닝해야 한다. 이러한 맞춤형 방식에 의해, 상이한 기기에 대해 검출하고 방어할 수 없는 난제를 잘 해결할 수 있다.

Description

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법

본 발명은 인공지능 음성 어시스턴트 안전 분야에 속하는 것으로, 구체적으로, 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법에 관한 것이다.

Siri, Google Now, Alexa, Cortana, S Voice, Hi Voice 등 음성 어시스턴트는 간편하고 효과적인 인간-기계 상호작용 방법으로서 사람들의 삶에서 점점 대중화되고 있으며, 거의 모든 스마트 기기(스마트폰, 태블릿 컴퓨터, 웨어러블 및 스마트 오디오)는 모두 대응되는 음성 어시스턴트가 장착되어 있다.

그러나, 음성 어시스턴트도 다양한 안전 위험에 직면하게 되며, 예를 들어, “돌고래음 공격(Dolphin Sound Attack)”이라 불리우는 방법[Zhang, G., Yan, C., Ji, X., Zhang, T., Zhang, T., & Xu, W. (2017). DolphinAttack: Inaudible Voice Commands. arXiv preprint arXiv: 1708.09537.]은 스마트 기기 마이크로폰 회로의 취약점을 이용하여 음성 어시스턴트를 무음으로 제어함으로써 스마트 기기가 대응되는 명령을 실행하도록 명령할 수 있고, 예를 들어, 음성 어시스턴트를 무음으로 작동시켜 유료 전화 걸기 또는 전화 감청, 영상 통화, 유료 메시지 보내기, 전화기를 비행 모드로 전환하기, 아우디(Audi) 자동차의 네비게이션 시스템 작동, 쇼핑, 심지어 Nexus7의 무음 잠금 해제 등을 수행한다. 따라서, 공격자(Attacker)는 사용자 모르게 스마트 기기를 작동시켜 개인 정보 유출 및 재산 손실 등 일련의 안전 문제를 초래할 수 있다. 공격 구현 과정은 도 1에 도시된 바와 같으며, 공격자는 우선 통상적으로 들을 수 있는 음성 신호를 진폭 변조의 방식으로 초음파 주파수 대역까지 변조시킨 다음 다시 초음파 송신기를 통하여 발송시키는데 이때 사람 귀로는 들을 수 없게 된다. 그러나 스마트 기기의 마이크로폰 회로는 들을 수 있으며 또한 상기 진폭 변조 신호를 복조할 수 있어 변조 이전의 음성 신호로 복원시키며, 이때 음성 어시스턴트는 상기 음성 신호를 식별하고 또한 스마트 기기를 제어하여 악성적인 작동을 수행하도록 한다.

비록 다양한 음성 어시스턴트가 장착된 스마트 기기의 기능이 다소 미세한 차이가 있을 수 있지만, 공격자가 완성할 수 있는 악성 작동은 하기와 같다.

1. 악성 웹사이트 방문: 다음 드라이브 바이 다운로드(drive-by download) 공격을 수행한 다음 Oday 취약점을 사용하여 사용자 기기를 공격한다.

2. 모니터링: 공격자는 음성 또는 영상 통화를 걸어 사용자 주변의 사운드 및 이미지를 획득할 수 있다.

3. 허위 정보 삽입: 공격자는 사용자 기기를 사용하여 허위 메시지, 이메일을 발송하거나 허위 블로그를 게시하거나 허위 사건을 일정에 추가할 수 있다.

4. 서비스 거절: 공격자는 비행 모드를 켜고 기기 네트워크를 차단한다.

5. 은밀한 공격: 화면 표시 및 음성 피드백은 모두 공격을 노출할 수 있지만 해커는 화면 밝기나 볼륨을 감소시켜 은폐하는 목적을 달성한다.

“돌고래음 공격”은 스마트 기기의 하드웨어 취약점을 이용하여 시작된 새로운 유형의 공격으로 현재 구체적인 방어 솔루션은 없으며, 선행 기술[Zhang, G., Yan, C., Ji, X., Zhang, T., Zhang, T., & Xu, W. (2017). DolphinAttack: Inaudible Voice Commands. arXiv preprint arXiv: 1708.09537.]은 하드웨어 기반의 방어 솔루션과 소프트웨어 기반의 방어 솔루션이라는 두 가지 방어 솔루션을 제안한다.

여기서, 하드웨어 기반의 솔루션은 고주파수 사운드가 마이크로폰에 의해 수신될 수 없도록 또는 하드웨어 회로가 고주파수 사운드를 식별한 후 이것을 필터링하도록 제조 업체가 마이크로폰 회로를 다시 설계할 것을 건의하는 것이다.

소프트웨어 기반의 솔루션은 들을 수 있는 사운드와 들을 수 없는 사운드 사이의 차이를 이용하고, 머신 러닝의 방법에 의해, 정상 명령과 들을 수 없는 명령을 구분하도록 하는 것이다. 선행 기술에서는 서포트 벡터 머신(Support Vector Machine, SVM)을 이용하여 정상 사운드와 들을 수 없는 사운드 명령 “Hey”를 성공적으로 구분한다. 구체적인 작동은 하기와 같다.

1단계: 휴대폰으로 5개의 들을 수 있는 음성 명령 “Hey”를 기록하여 포지티브 샘플로 하고, 다음 들을 수 없는 음성 명령 “Hey”를 녹음하여 네거티브 샘플로 한다.

2단계: 이러한 포지티브 및 네거티브 샘플을 사용하여 SVM 분류기를 트레이닝한다.

3단계: 트레이닝된 분류기를 사용하여 들을 수 있는 것과 들을 수 없는 음성 명령을 식별한다.

3)은 2)에서 언급된 선행 기술에 존재하는 부족한 점, 즉 본 발명에서 해결하고자 하는 기술적 문제를 분석한다.

선행 기술에서 제기된 소프트웨어 및 하드웨어 기반의 방어 솔루션의 부족한 점은 하기와 같다.

1. 제조 업체는 이미 판매된 스마트 기기에 대해 하드웨어에 관한 개선을 수행할 수 없거나 리콜 비용은 제조업체가 수용할 수 없다.

2. 마이크로폰 회로가 초음파를 수신하는 기능은 계속 존재하고 있는 문제이지만 기술, 공정의 진보 및 발전에 따라 효과적으로 해결될 수 없었고, 따라서 하드웨어 기반의 방어 솔루션은 비용이 높고, 난이도가 크며, 주기가 긴 방어 솔루션으로써 현재 존재하고 있는 문제를 효과적으로 해결할 수 없다.

3. 선행 기술 중 소프트웨어 기반의 솔루션은 하나의 스마트 기기에서만 하나의 음성 명령 “Hey”를 테스트하였으므로, 상기 방법이 상이한 스마트 기기, 상이한 음성 명령, 상이한 사람 사운드에서 방어 효과를 달성할 수 있는지 여부를 확정할 수 없다.

“돌고래음 공격”을 방어하기 위해, 본 발명은 머신 러닝 기반의 “돌고래음 공격”의 방어 방법을 도출하며, 이러한 방법은 수신된 음성 명령이 악성 명령인지 정상 명령인지를 효과적으로 식별할 수 있으며, 나아가 악성 명령의 식별 및 실행을 취소함으로써 소프트웨어 측면에서 “돌고래음 공격”의 가능성을 차단한다.

본 발명의 기술적 해결수단은 구체적으로 하기와 같다.

우선 분류기의 트레이닝 단계를 수행한다.

단계1에서, 샘플 데이터를 수집한다. 정상 음성 데이터 및 악성 음성 데이터를 포지티브 및 네거티브 샘플로 사용한다.

단계2에서, 음성 신호 전처리를 수행한다. 수집된 음성 데이터를 분류(정상 음성 데이터 및 악성 음성 데이터 2가지 유형으로 분류함)하고 음성 데이터를 분할한다. 음성 데이터 분할은 각 어구의 음성 신호의 시작과 종료 부분을 찾아 데이터 분할을 수행한다.

단계3에서, 샘플 특징을 계산하고 정규화하며 라벨을 붙인다. 분할 샘플 데이터로부터 샘플 특징을 계산하고, 각각의 샘플의 모든 데이터 포인트의 최소값, 평균값, 에너지, 비대칭도（偏度）, 첨도（峰度, kurtosis）, 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차（方差, variance）, 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근（均方根, root-mean-square, RMS） 진폭, 주파수 스펙트럼 질량 중심（質心） 등 11개의 특징을 계산해야 한다. 이 부분에서입력은 샘플 데이터이고, 출력은 각각의 샘플 데이터의 시간 영역 및 주파수 영역 특징 파일이다.

분류 알고리즘의 분류 정확도를 보다 높이기 위해, 샘플 특징에 대해 정규화할 필요가 있다. 이러한 샘플 특징에 대해 정규화 처리를 수행해야 하며, 각각의 샘플 특징의 최대값은 1로 설정한다. 이 부분에서 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화한 시간 영역 및 주파수 영역 특징이다.

마지막으로, 정규화된 시간 영역 및 주파수 영역 특징에 라벨을 붙이고, 정상 음성 명령의 특징을 1로, 악성 음성 특징을 0으로 한다.

단계4에서, 서포트 벡터 머신(SVM) 분류기를 트레이닝한다. SVM의 분류 알고리즘은 검출의 핵심이다. SVM을 사용하기 이전에 포지티브 및 네거티브 샘플 데이터에 근거하여 SVM 분류기를 트레이닝해야 한다.

이상 4개 단계는 SVM 분류기의 트레이닝 단계이다. 아래는 SVM 분류기를 이용하여 악성 음성 명령을 검출하는 것이며, 음성 어시스턴트가 식별할 음성 명령을 수신하기 이전에, SVM 분류기를 거쳐 검출해야 하며, 검출 결과가 정상 명령일 경우에만 음성 식별을 진행할 수 있으며 그러지 않으면 경보를 울리거나 상기 음성 명령을 포기해야 한다.

단계5에서, 마이크로폰 회로가 수신하고 복조한 후의 음성 신호에 대해 전처리를 수행하며 단계2를 참조한다.

단계6에서, 특징을 계산하고, 정규화하며, 단계3을 참조하나 라벨을 붙이는 조작은 포함하지 않는다.

단계7에서, 정규화한 샘플 데이터를 SVM 분류기에 입력하여 식별을 수행한다.

여기서, 각각의 특징에 대한 정의는,

평균값:

에너지:

비대칭도:

첨도:

주파수 스펙트럼 평균값:

주파수 스펙트럼 평방 편차:

주파수 스펙트럼 표준 편차:

불규칙성:

평균 제곱근 진폭:

주파수 스펙트럼 질량 중심:

으로 정의되며,

여기서, N은 샘플 데이터 포인트 수이고,

은 n 번째 포인트의 전력 소비값이며,

는 표준 편차이고,

은 주파수 영역 변환 후 n 번째 주파수

의 에너지 크기이며,

는 주파수 스펙트럼 평균값이고,

는 주파수 스펙트럼 평방 편차이며, z(n)은 가중 주파수 값이고, y(n)은 샘플 포인트의 중심 주파수를 나타내며, 상기 최소값은 모든 포인트의 전력 소비 최소값이다.

SVM 분류 알고리즘을 이용하여 시간 영역 및 주파수 영역 특징에 근거하여 현재 샘플이 포지티브 샘플인지 여부를 판단할 수 있다. 이 부분에서 입력은 정규화한 시간 영역 및 주파수 영역 특징이며, 출력은 SVM 분류 예측 결과, 즉 현재 음성이 악성 음성 명령인지 여부이다.

이로부터, 악성 음성 명령의 검출 및 음성 어시스턴트에 대한 방어를 구현한다.

(1) 정상 음성 신호 및 악성 음성 신호에 대한 분석 결과, 악성 음성 신호는 고주파수 대역에서 억제됨을 알 수 있다. 즉 들을 수 없는 음성 명령으로부터 환원된 악성 음성 명령은 비교적 높은 주파수 대역에서의 강도가 비교적 작다. 상이한 휴대폰, 상이한 음성 명령, 상이한 말하는 사람(화자)은 이 부분에서 모두 같으며, 이것은 하나의 보편적인 현상이다. 따라서, 머신 러닝 방식으로 구분하고 검출할 수 있다.

(2) 임의의 머신 러닝 방법에 대하여, 최종 식별 정밀도와 신뢰성은 특징 벡터의 선택 및 분류기의 선택에 크게 의존한다. 특징 벡터의 선택은 분류기 분류 기능의 상한을 결정하고, 분류기의 트레이닝 방법은 분류를 진행하는 속도를 크게 결정한다. 음성 신호 특징 추출의 중요성을 고려해보면, 우선 음성 명령의 특성을 분석하는 것을 통하여, 정상 음성 명령 및 악성 음성 명령 사이의 차이를 반영할 수 있는 특징 벡터를 선택하고 또한 이 기초상에서 적절한 머신 러닝 알고리즘을 선택한다.

(3) 테스트 결과, 상이한 스마트 기기의 마이크로폰 회로의 비선형 작용은 매우 큰 차이가 있으며, 동일한 들을 수 없는 음성 신호에 대하여, 상이한 스마트 기기가 복조한 후의 악성 음성 신호는 일정한 차이가 존재한다. 하나의 통합적인 검출 모델을 구축하려는 것은 불가능하며 또는 저효율적이고, 하나의 통합된 모델을 구축할 필요도 없다.

상이한 타입의 스마트 기기에 대하여, 상기 유형의 스마트 기기에 의해 정상 음성 명령 및 악성 음성 명령을 획득해야 하며, 또한 포지티브 및 네거티브 샘플로 하여 상기 유형의 기기에 대해 특정된 하나의 분류기를 트레이닝해야 한다. 이러한 맞춤형 방식에 의해, 상이한 기기에 있어서 검출할 수 없는 난제를 잘 해결할 수 있다.

도 1은 음성 어시스턴트가 악성 음성 신호를 수신할 수 있는 모식도이다.
도 1의 상부는 신호의 주파수 스펙트럼을 설명한 것이고, 하부는 스마트 기기의 마이크로폰 회로를 설명한 것이다.
공격자는 들을 수 있는 저주파수 신호를 초음파 주파수 대역까지 변조하여 발송시킬 수 있는데 이때 사람 귀로는 들을 수 없으며, 스펙트로그램에는 고주파수 신호만 도시되고, 스마트 기기에서의 마이크로폰 회로는 상기 신호를 수신한 후, 변조 이전에 들을 수 있었던 저주파수 신호를 복조시키는데 이때 스펙트로그램에서 볼 수 있는 바와 같이, 저주파수 신호가 발생하고, 이 현상은 마이크로폰 회로의 비선형 작용에 의해 생성된 것이며, 이 하드웨어의 취약점이기도 하여, 음성 어시스턴트가 “들을 수 없는 음성 명령”을 식별할 수 있게 된다.
도 2는 시간 영역 및 주파수 영역에서 정상 음성 신호 및 악성 음성 신호의 비교도이다.
이 음성 명령은 “HeySiri”이며, 상부는 정상적으로 들을 수 있는 음성 신호이고, 하부는 마이크로폰 회로가 복조한 후의 음성 신호이며, 오른쪽 부분의 주파수 영역 다이어그램으로부터 볼 수 있다시피, 복조 후의 신호의 고주파수 대역에서의 강도는 정상 음성 신호의 고주파수 대역에서의 강도보다 매우 낮다.
도 3은 검출기 SVM의 트레이닝 및 악성 음성 명령의 검출 프로세스 다이어그램이다.
도 4는 개선 후의 음성 제어 흐름도이고, SVM 분류기는 새로 추가된 모듈로서, 악성 음성 신호를 검출한다.

아래에 본 발명의 바람직한 실시형태에 대해 상세하게 설명한다.

도 2는 시간 영역 및 주파수 영역에서 정상 음성 신호 및 악성 음성 신호의 비교도이다. 도 2에서 알 수 있다시피, 휴대폰으로 녹음된 일반 음성 신호와 악성 신호(복조 후의 신호)는 고주파수 대역에서 현저한 차이가 있다. 따라서, 머신 러닝 알고리즘에 의해 악성 음성 명령을 식별할 수 있다. 도 3 및 도 4에 도시된 바와 같이, 본 발명은 “돌고래음 공격”에 대해 타겟성 방어를 수행하여 “돌고래음 공격”의 무음 음성 명령을 검출할 수 있으며, 이로써 근본적으로 음성 어시스턴트, 스마트 기기가 무음 음성 명령에 의해 제어되는 가능성을 해결한다.

이하 실시예는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법이며, 테스트용 방어 기기는 iPhone SE이다. 다른 상이한 유형의 스마트 기기의 방어는 상기 방법과 일치하며 더이상 설명하지 않는다.

분류기 트레이닝 단계:

포지티브 및 네거티브 샘플의 데이터를 수집한다.

트레이닝 후의 분류기가 상이한 사람의 사운드, 음성 명령의 무음 공격을 검출할 수 있도록 하기 위해, 포지티브 및 네거티브 샘플의 획득에서 상이한 사람의 사운드와 상이한 음성 명령을 고려해야 한다.

따라서, TIMIT 음성 데이터베이스를 선택하였으며, 상기 데이터베이스는 630개의 말하는 사람의 음성을 포함하고, 그들이 말하는 언어는 미국 영어의 8개 방언을 포함하며 또한 매 사람은 10개 음성이 풍부한 문장을 열독하였다.

포지티브 샘플의 생성 방식: TIMIT 음성 데이터베이스로부터 10명의 음성(총 100개 문장을 포함함)을 선택하여 포지티브 샘플로 사용한다.

네거티브 샘플의 생성 방식: 신호 발생기(Keysight Technologies. 2017. N5172B EXG X-Series RF Vector Signal Generator, 9 kHz to 6 GHz. http://www.keysight.com/en/pdx-x201910-pn-N5172B. (2017).)를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역까지 변조하고, 초음파 스피커[Avisoft Bioacoustics. 2017. Ultrasonic Dynamic Speaker Vifa. http://www.avisoft.com/usg/vifa.htm. (2017).]에 의해 플레이하며(변조 방식은 진폭 변조, 변조 깊이는 100 %, 반송파（載波，carrier wave） 주파수 범위는 20 ~ 45 kHz), 또한 iPhone SE 휴대폰으로 이러한 사람의 귀로 들을 수 없는 사운드를 기록하고, 복조 후의 악성 음성 신호를 획득하여 네거티브 샘플(총 10명의 말하는 사람, 100개의 문장을 포함함)로 사용한다.

1. 데이터 전처리

이상 데이터를 수집한 후, 우선 포지티브 및 네거티브 샘플을 분류한다. 다음 음성 데이터를 분할한다.

하기와 같은 음성 데이터 분할 알고리즘을 사용한다.

각 어구의 명령이 시작 및 종료되는 시점을 검출하기 위해, 임계값을 사용하여 검출하고, 획득된 사운드 데이터를 20 ms의 길이로 분할하는데, 연속적인 4개의 프래그먼트의 신호 강도

(x_i는 i 번째 데이터 포인트의 값임)가 하나의 임계값보다 크면, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 시작 위치로 확정할 수 있다. 동일한 이유로, 연속적인 4개의 프래그먼트의 신호 강도가 하나의 임계값보다 작으면, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 종료 위치로 확정할 수 있다. 시작 위치 및 종료 위치에 근거하여 음성 명령을 분할할 수 있다.

2. 샘플 특징 선택, 계산 및 정규화

음성 신호의 특성을 고려해보면, 우선 생각할 수 있는 특징은 평균값, 최소값과 같은 지표이지만 이러한 지표는 정상 음성 신호와 악성 음성 신호 사이의 차이를 완전히 반영할 수 없으며, 통계 분석을 거쳐, 정상 및 비정상 음성 신호 사이의 차이를 효과적으로 반영할 수 있는 보다 많은 특징을 선택해야 한다. 일련의 최적화를 거쳐, 음성 데이터에 대해 특징 추출을 진행한 이후, 계산하여 획득된 대량의 시간 영역 및 주파수 영역 특징으로부터 정상 및 악성 음성 사이의 차이성을 가장 잘 반영할 수 있는 11개의 지표를 선택한다. 이러한 특징으로 수집된 음성 데이터를 대체하며, 이것을 다음 단계 머신 러닝 과정에서의 입력 정보로 사용한다. 특징 벡터는 최소값, 평균값, 에너지, 비대칭도, 첨도, 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차, 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근 진폭, 주파수 스펙트럼 질량 중심을 포함한다.

분류 알고리즘의 분류 정확도를 더 높이기 위해, 샘플 특징에 대해 정규화할 필요가 있다. 각각의 샘플 특징의 최대값은 1로 설정한다. 이 부분에서 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화한 시간 영역 및 주파수 영역 특징이다.

마지막으로, 정규화한 후의 시간 영역 및 주파수 영역 특징에 라벨을 붙이고, 정상 음성 명령 특징의 라벨을 1로 하고, 악성 음성 특징의 라벨을 0으로 한다.

3. 추출해야 할 특징 정보를 결정한 이후, 머신 러닝 알고리즘을 선택한다. 정상 음성과 악성 음성 데이터를 사용하여 머신 러닝의 트레이닝 샘플로 하고, 유한 샘플 학습 문제에 대한 SVM 머신 러닝 알고리즘은 이 응용 상황에 잘 적용될 수 있다.

우리가 선택한 SVM 머신 러닝 알고리즘은 하기와 같은 3가지 이점이 있다.

(1) SVM 알고리즘은 매우 빠른 트레이닝 속도 및 의사결정 속도를 가지므로, 악성 음성 명령에 대해 매우 빠르게 식별할 수 있도록 한다.

(2) SVM 알고리즘 자체의 특성에 따라 결정되는데, 상기 알고리즘은 입력 데이터에 대한 차원에 민감하지 않으며, 이러한 이점은 이후의 작업에서 새로운 구현 정보 차이의 특징을 찾을 수 있고 시스템의 효율에 영향을 미치지 않으면서 시스템에 대해 개선할 수 있도록 한다.

(3) SVM 알고리즘을 사용하면 시스템이 자가 학습 기능을 가지도록 할 수 있으며, 트레이닝하기 위한 데이터가 증가함에 따라, 분류기 트레이닝 과정에서 각각의 파라미터의 값을 끊임없이 수정할 수 있어, 이에 기초하여 하나의 비교적 완전한 검출 시스템을 구성한다.

SVM 분류기를 선택한 후 분류기의 트레이닝을 진행하고 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성한다.

악성 음성 명령 검출 과정:

트레이닝된 SVM 검출 모델을 시스템 중의 음성 어시스턴트에 이식할 수 있으며, 여기서, 우리는 컴퓨터에서 테스트를 진행하였다. 우선, 녹음된 정상, 악성인 음성 명령에 대해 전처리 및 특징 추출 등 작업을 수행한 다음, 트레이닝된 SVM 분류기로 검출한다.

상기 방법의 실행 가능성을 검증하기 위해, 우선 실험적인 방식으로 정상 음성 명령 및 악성 음성 명령에 대한 상기 방법의 분류 성능을 테스트한다.

측정할 정상 음성의 생성 과정: TIMIT 음성 데이터베이스로부터 10명의 음성을 선택하여 측정할 정상 음성으로 사용한다.

측정할 악성 음성의 생성 과정: 신호 발생기(Keysight Technologies. 2017. N5172B EXG X-Series RF Vector Signal Generator, 9 kHz to 6 GHz. http://www.keysight.com/en/pdx-x201910-pn-N5172B. (2017).)를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역까지 변조하고, 초음파 스피커[Avisoft Bioacoustics. 2017. Ultrasonic Dynamic Speaker Vifa. http://www.avisoft.com/usg/vifa.htm. (2017).]에 의해 플레이하며(변조 방식은 진폭 변조, 변조 깊이는 100 %, 반송파 주파수 범위는 25 kHz), 또한 iPhone SE 휴대폰으로 이러한 사람의 귀로 들을 수 없는 사운드를 기록하고, 복조 후의 악성 음성 신호를 획득하여 측정할 악성 음성으로 사용한다.

우리는 10명에 대해 100개의 정상 음성 및 100개의 악성 음성을 테스트하였으며, 최종 실험 결과, 말하는 사람 및 음성 명령이 어떠한지를 막론하고, 분류기는 모두 98 %의 정확도로 정상 음성 명령을 구분할 수 있으며, 94 %의 정확도로 악성 음성 명령을 구분할 수 있다.

최종 검출 결과로부터, 상이한 말하는 사람, 상이한 명령에 대하여, 우리가 제안한 방법은 “돌고래음 공격”에 대해 모두 효과적임을 알 수 있다. 따라서, 스마트 기기의 제조 업체는 단지 시스템 또는 소프트웨어를 업데이트하는 것에 의해 현재 각각의 스마트 기기에서 존재하는 안전 문제를 빠르고 효과적으로 해결할 수 있다.

Claims

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법으로서,
1) 포지티브 및 네거티브 샘플의 데이터를 수집하는 단계;
2) 수집된 포지티브 및 네거티브 샘플 데이터에 대해 데이터 분할을 수행하는 단계;
3) 샘플 특징 선택 및 정규화 단계로서, 음성 데이터에 대해 최소값, 평균값, 에너지, 비대칭도, 첨도, 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차, 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근 진폭, 주파수 스펙트럼 질량 중심을 포함하는 특징을 특별히 선택하여, 선택한 11개의 특징으로 특징 벡터를 구성하며, 특징 벡터로 수집된 음성 데이터를 대체하여 이후 과정에서의 입력 정보로 사용하며,
각각의 특징은 아래와 같이 정의되며,
평균값:

에너지:

비대칭도:

첨도:

주파수 스펙트럼 평균값:

주파수 스펙트럼 평방 편차:

주파수 스펙트럼 표준 편차:

불규칙성:

평균 제곱근 진폭:

주파수 스펙트럼 질량 중심:
,
여기서, N은 샘플 데이터 포인트 수이고,
은 n 번째 포인트의 전력 소비값이며,
는 표준 편차이고,
은 주파수 영역 변환 후 n 번째 주파수
의 에너지 크기이며,
는 주파수 스펙트럼 평균값이고,
는 주파수 스펙트럼 평방 편차이며, z(n)은 가중 주파수 값이고, y(n)은 샘플 포인트의 중심 주파수를 나타내며,
샘플 특징 벡터에 대해 정규화 처리하며, 각각의 샘플 특징 최대값을 1로 설정하고, 정규화 처리된 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화된 시간 영역 및 주파수 영역 특징이고,
마지막으로, 정규화된 시간 영역 및 주파수 영역 특징에 라벨을 붙이되, 정상 음성 명령 특징의 라벨은 1이고, 악성 음성 특징의 라벨은 0인, 샘플 특징 선택 및 정규화 단계;
4) 정규화 후 라벨을 붙인 시간 영역 및 주파수 영역 특징을 모델 입력으로 사용하고, 머신 러닝 알고리즘을 선택하여 트레이닝을 수행하며 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성하는 단계; 및
5) 단계4)에서의 트레이닝에 의해 획득된 검출 모델을 이용하여 검출할 음성 명령을 검출하는 단계를 포함하는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.
제1항에 있어서,
상기 단계1)에서 수집된 네거티브 샘플의 데이터 생성 방식은, 신호 발생기를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역으로 변조하고, 초음파 스피커를 통해 플레이하되, 상기 변조는 진폭 변조이고, 변조 깊이는 100 %이며, 반송파 주파수 범위는 20 ~ 45 kHz이고, 이러한 사운드를 녹음하여 복조 후의 악성 음성 신호를 획득하여 네거티브 샘플 데이터로 사용하는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.
제1항에 있어서,
데이터 분할 방법은, 획득된 사운드 데이터를 20 ms의 길이로 분할하며, 연속적인 4개의 프래그먼트의 신호 강도
가 하나의 임계값보다 큰 경우, 첫 번째 프래그먼트 시작 위치가 전체 어구의 시작 위치로 확정할 수 있고, 여기서 x_i는 i 번째 데이터 포인트의 값이; 동일한 이유로, 연속적인 4개의 프래그먼트 신호 강도가 하나의 임계값보다 작은 경우, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 종료 위치로 확정할 수 있으며, 시작 위치 및 종료 위치에 근거하여 음성 명령을 분할할 수 있는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.