KR20200037399A - 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법 - Google Patents

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법 Download PDF

Info

Publication number
KR20200037399A
KR20200037399A KR1020207007398A KR20207007398A KR20200037399A KR 20200037399 A KR20200037399 A KR 20200037399A KR 1020207007398 A KR1020207007398 A KR 1020207007398A KR 20207007398 A KR20207007398 A KR 20207007398A KR 20200037399 A KR20200037399 A KR 20200037399A
Authority
KR
South Korea
Prior art keywords
voice
frequency
sample
data
frequency spectrum
Prior art date
Application number
KR1020207007398A
Other languages
English (en)
Other versions
KR102386155B1 (ko
Inventor
원위안 쉬
샤오위 지
궈밍 장
천 옌
톈천 장
타이민 장
Original Assignee
저지앙 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 저지앙 유니버시티 filed Critical 저지앙 유니버시티
Publication of KR20200037399A publication Critical patent/KR20200037399A/ko
Application granted granted Critical
Publication of KR102386155B1 publication Critical patent/KR102386155B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하기 위한 방법은, 1) 포지티브 및 네거티브 샘플의 데이터를 수집하는 단계; 2) 수집된 포지티브 및 네거티브 샘플 데이터에 대해 데이터 분할을 수행하는 단계; 3) 샘플 특징 선택 및 정규화 단계; 4) 분류기를 선택하여 트레이닝을 수행하고 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성하는 단계; 및 5) 획득된 검출 모델을 이용하여 검출할 음성 명령을 검출하는 단계를 포함한다. 상이한 타입의 스마트 기기에 대하여, 상기 유형의 스마트 기기에 의해 정상 음성 명령 및 악성인 음성 명령을 획득해야 하며, 또한 포지티브 및 네거티브 샘플로 하여 상기 유형 기기에 대해 특정된 하나의 분류기를 트레이닝해야 한다. 이러한 맞춤형 방식에 의해, 상이한 기기에 대해 검출하고 방어할 수 없는 난제를 잘 해결할 수 있다.

Description

머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법
본 발명은 인공지능 음성 어시스턴트 안전 분야에 속하는 것으로, 구체적으로, 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법에 관한 것이다.
Siri, Google Now, Alexa, Cortana, S Voice, Hi Voice 등 음성 어시스턴트는 간편하고 효과적인 인간-기계 상호작용 방법으로서 사람들의 삶에서 점점 대중화되고 있으며, 거의 모든 스마트 기기(스마트폰, 태블릿 컴퓨터, 웨어러블 및 스마트 오디오)는 모두 대응되는 음성 어시스턴트가 장착되어 있다.
그러나, 음성 어시스턴트도 다양한 안전 위험에 직면하게 되며, 예를 들어, “돌고래음 공격(Dolphin Sound Attack)”이라 불리우는 방법[Zhang, G., Yan, C., Ji, X., Zhang, T., Zhang, T., & Xu, W. (2017). DolphinAttack: Inaudible Voice Commands. arXiv preprint arXiv: 1708.09537.]은 스마트 기기 마이크로폰 회로의 취약점을 이용하여 음성 어시스턴트를 무음으로 제어함으로써 스마트 기기가 대응되는 명령을 실행하도록 명령할 수 있고, 예를 들어, 음성 어시스턴트를 무음으로 작동시켜 유료 전화 걸기 또는 전화 감청, 영상 통화, 유료 메시지 보내기, 전화기를 비행 모드로 전환하기, 아우디(Audi) 자동차의 네비게이션 시스템 작동, 쇼핑, 심지어 Nexus7의 무음 잠금 해제 등을 수행한다. 따라서, 공격자(Attacker)는 사용자 모르게 스마트 기기를 작동시켜 개인 정보 유출 및 재산 손실 등 일련의 안전 문제를 초래할 수 있다. 공격 구현 과정은 도 1에 도시된 바와 같으며, 공격자는 우선 통상적으로 들을 수 있는 음성 신호를 진폭 변조의 방식으로 초음파 주파수 대역까지 변조시킨 다음 다시 초음파 송신기를 통하여 발송시키는데 이때 사람 귀로는 들을 수 없게 된다. 그러나 스마트 기기의 마이크로폰 회로는 들을 수 있으며 또한 상기 진폭 변조 신호를 복조할 수 있어 변조 이전의 음성 신호로 복원시키며, 이때 음성 어시스턴트는 상기 음성 신호를 식별하고 또한 스마트 기기를 제어하여 악성적인 작동을 수행하도록 한다.
비록 다양한 음성 어시스턴트가 장착된 스마트 기기의 기능이 다소 미세한 차이가 있을 수 있지만, 공격자가 완성할 수 있는 악성 작동은 하기와 같다.
1. 악성 웹사이트 방문: 다음 드라이브 바이 다운로드(drive-by download) 공격을 수행한 다음 Oday 취약점을 사용하여 사용자 기기를 공격한다.
2. 모니터링: 공격자는 음성 또는 영상 통화를 걸어 사용자 주변의 사운드 및 이미지를 획득할 수 있다.
3. 허위 정보 삽입: 공격자는 사용자 기기를 사용하여 허위 메시지, 이메일을 발송하거나 허위 블로그를 게시하거나 허위 사건을 일정에 추가할 수 있다.
4. 서비스 거절: 공격자는 비행 모드를 켜고 기기 네트워크를 차단한다.
5. 은밀한 공격: 화면 표시 및 음성 피드백은 모두 공격을 노출할 수 있지만 해커는 화면 밝기나 볼륨을 감소시켜 은폐하는 목적을 달성한다.
“돌고래음 공격”은 스마트 기기의 하드웨어 취약점을 이용하여 시작된 새로운 유형의 공격으로 현재 구체적인 방어 솔루션은 없으며, 선행 기술[Zhang, G., Yan, C., Ji, X., Zhang, T., Zhang, T., & Xu, W. (2017). DolphinAttack: Inaudible Voice Commands. arXiv preprint arXiv: 1708.09537.]은 하드웨어 기반의 방어 솔루션과 소프트웨어 기반의 방어 솔루션이라는 두 가지 방어 솔루션을 제안한다.
여기서, 하드웨어 기반의 솔루션은 고주파수 사운드가 마이크로폰에 의해 수신될 수 없도록 또는 하드웨어 회로가 고주파수 사운드를 식별한 후 이것을 필터링하도록 제조 업체가 마이크로폰 회로를 다시 설계할 것을 건의하는 것이다.
소프트웨어 기반의 솔루션은 들을 수 있는 사운드와 들을 수 없는 사운드 사이의 차이를 이용하고, 머신 러닝의 방법에 의해, 정상 명령과 들을 수 없는 명령을 구분하도록 하는 것이다. 선행 기술에서는 서포트 벡터 머신(Support Vector Machine, SVM)을 이용하여 정상 사운드와 들을 수 없는 사운드 명령 “Hey”를 성공적으로 구분한다. 구체적인 작동은 하기와 같다.
1단계: 휴대폰으로 5개의 들을 수 있는 음성 명령 “Hey”를 기록하여 포지티브 샘플로 하고, 다음 들을 수 없는 음성 명령 “Hey”를 녹음하여 네거티브 샘플로 한다.
2단계: 이러한 포지티브 및 네거티브 샘플을 사용하여 SVM 분류기를 트레이닝한다.
3단계: 트레이닝된 분류기를 사용하여 들을 수 있는 것과 들을 수 없는 음성 명령을 식별한다.
3)은 2)에서 언급된 선행 기술에 존재하는 부족한 점, 즉 본 발명에서 해결하고자 하는 기술적 문제를 분석한다.
선행 기술에서 제기된 소프트웨어 및 하드웨어 기반의 방어 솔루션의 부족한 점은 하기와 같다.
1. 제조 업체는 이미 판매된 스마트 기기에 대해 하드웨어에 관한 개선을 수행할 수 없거나 리콜 비용은 제조업체가 수용할 수 없다.
2. 마이크로폰 회로가 초음파를 수신하는 기능은 계속 존재하고 있는 문제이지만 기술, 공정의 진보 및 발전에 따라 효과적으로 해결될 수 없었고, 따라서 하드웨어 기반의 방어 솔루션은 비용이 높고, 난이도가 크며, 주기가 긴 방어 솔루션으로써 현재 존재하고 있는 문제를 효과적으로 해결할 수 없다.
3. 선행 기술 중 소프트웨어 기반의 솔루션은 하나의 스마트 기기에서만 하나의 음성 명령 “Hey”를 테스트하였으므로, 상기 방법이 상이한 스마트 기기, 상이한 음성 명령, 상이한 사람 사운드에서 방어 효과를 달성할 수 있는지 여부를 확정할 수 없다.
“돌고래음 공격”을 방어하기 위해, 본 발명은 머신 러닝 기반의 “돌고래음 공격”의 방어 방법을 도출하며, 이러한 방법은 수신된 음성 명령이 악성 명령인지 정상 명령인지를 효과적으로 식별할 수 있으며, 나아가 악성 명령의 식별 및 실행을 취소함으로써 소프트웨어 측면에서 “돌고래음 공격”의 가능성을 차단한다.
본 발명의 기술적 해결수단은 구체적으로 하기와 같다.
우선 분류기의 트레이닝 단계를 수행한다.
단계1에서, 샘플 데이터를 수집한다. 정상 음성 데이터 및 악성 음성 데이터를 포지티브 및 네거티브 샘플로 사용한다.
단계2에서, 음성 신호 전처리를 수행한다. 수집된 음성 데이터를 분류(정상 음성 데이터 및 악성 음성 데이터 2가지 유형으로 분류함)하고 음성 데이터를 분할한다. 음성 데이터 분할은 각 어구의 음성 신호의 시작과 종료 부분을 찾아 데이터 분할을 수행한다.
단계3에서, 샘플 특징을 계산하고 정규화하며 라벨을 붙인다. 분할 샘플 데이터로부터 샘플 특징을 계산하고, 각각의 샘플의 모든 데이터 포인트의 최소값, 평균값, 에너지, 비대칭도(偏度), 첨도(峰度, kurtosis), 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차(方差, variance), 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근(均方根, root-mean-square, RMS) 진폭, 주파수 스펙트럼 질량 중심(質心) 등 11개의 특징을 계산해야 한다. 이 부분에서입력은 샘플 데이터이고, 출력은 각각의 샘플 데이터의 시간 영역 및 주파수 영역 특징 파일이다.
분류 알고리즘의 분류 정확도를 보다 높이기 위해, 샘플 특징에 대해 정규화할 필요가 있다. 이러한 샘플 특징에 대해 정규화 처리를 수행해야 하며, 각각의 샘플 특징의 최대값은 1로 설정한다. 이 부분에서 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화한 시간 영역 및 주파수 영역 특징이다.
마지막으로, 정규화된 시간 영역 및 주파수 영역 특징에 라벨을 붙이고, 정상 음성 명령의 특징을 1로, 악성 음성 특징을 0으로 한다.
단계4에서, 서포트 벡터 머신(SVM) 분류기를 트레이닝한다. SVM의 분류 알고리즘은 검출의 핵심이다. SVM을 사용하기 이전에 포지티브 및 네거티브 샘플 데이터에 근거하여 SVM 분류기를 트레이닝해야 한다.
이상 4개 단계는 SVM 분류기의 트레이닝 단계이다. 아래는 SVM 분류기를 이용하여 악성 음성 명령을 검출하는 것이며, 음성 어시스턴트가 식별할 음성 명령을 수신하기 이전에, SVM 분류기를 거쳐 검출해야 하며, 검출 결과가 정상 명령일 경우에만 음성 식별을 진행할 수 있으며 그러지 않으면 경보를 울리거나 상기 음성 명령을 포기해야 한다.
단계5에서, 마이크로폰 회로가 수신하고 복조한 후의 음성 신호에 대해 전처리를 수행하며 단계2를 참조한다.
단계6에서, 특징을 계산하고, 정규화하며, 단계3을 참조하나 라벨을 붙이는 조작은 포함하지 않는다.
단계7에서, 정규화한 샘플 데이터를 SVM 분류기에 입력하여 식별을 수행한다.
여기서, 각각의 특징에 대한 정의는,
평균값:
Figure pct00001
에너지:
Figure pct00002
비대칭도:
Figure pct00003
첨도:
Figure pct00004
주파수 스펙트럼 평균값:
Figure pct00005
주파수 스펙트럼 평방 편차:
Figure pct00006
주파수 스펙트럼 표준 편차:
Figure pct00007
불규칙성:
Figure pct00008
평균 제곱근 진폭:
Figure pct00009
주파수 스펙트럼 질량 중심:
Figure pct00010
으로 정의되며,
여기서, N은 샘플 데이터 포인트 수이고,
Figure pct00011
은 n 번째 포인트의 전력 소비값이며,
Figure pct00012
는 표준 편차이고,
Figure pct00013
은 주파수 영역 변환 후 n 번째 주파수
Figure pct00014
의 에너지 크기이며,
Figure pct00015
는 주파수 스펙트럼 평균값이고,
Figure pct00016
는 주파수 스펙트럼 평방 편차이며, z(n)은 가중 주파수 값이고, y(n)은 샘플 포인트의 중심 주파수를 나타내며, 상기 최소값은 모든 포인트의 전력 소비 최소값이다.
SVM 분류 알고리즘을 이용하여 시간 영역 및 주파수 영역 특징에 근거하여 현재 샘플이 포지티브 샘플인지 여부를 판단할 수 있다. 이 부분에서 입력은 정규화한 시간 영역 및 주파수 영역 특징이며, 출력은 SVM 분류 예측 결과, 즉 현재 음성이 악성 음성 명령인지 여부이다.
이로부터, 악성 음성 명령의 검출 및 음성 어시스턴트에 대한 방어를 구현한다.
(1) 정상 음성 신호 및 악성 음성 신호에 대한 분석 결과, 악성 음성 신호는 고주파수 대역에서 억제됨을 알 수 있다. 즉 들을 수 없는 음성 명령으로부터 환원된 악성 음성 명령은 비교적 높은 주파수 대역에서의 강도가 비교적 작다. 상이한 휴대폰, 상이한 음성 명령, 상이한 말하는 사람(화자)은 이 부분에서 모두 같으며, 이것은 하나의 보편적인 현상이다. 따라서, 머신 러닝 방식으로 구분하고 검출할 수 있다.
(2) 임의의 머신 러닝 방법에 대하여, 최종 식별 정밀도와 신뢰성은 특징 벡터의 선택 및 분류기의 선택에 크게 의존한다. 특징 벡터의 선택은 분류기 분류 기능의 상한을 결정하고, 분류기의 트레이닝 방법은 분류를 진행하는 속도를 크게 결정한다. 음성 신호 특징 추출의 중요성을 고려해보면, 우선 음성 명령의 특성을 분석하는 것을 통하여, 정상 음성 명령 및 악성 음성 명령 사이의 차이를 반영할 수 있는 특징 벡터를 선택하고 또한 이 기초상에서 적절한 머신 러닝 알고리즘을 선택한다.
(3) 테스트 결과, 상이한 스마트 기기의 마이크로폰 회로의 비선형 작용은 매우 큰 차이가 있으며, 동일한 들을 수 없는 음성 신호에 대하여, 상이한 스마트 기기가 복조한 후의 악성 음성 신호는 일정한 차이가 존재한다. 하나의 통합적인 검출 모델을 구축하려는 것은 불가능하며 또는 저효율적이고, 하나의 통합된 모델을 구축할 필요도 없다.
상이한 타입의 스마트 기기에 대하여, 상기 유형의 스마트 기기에 의해 정상 음성 명령 및 악성 음성 명령을 획득해야 하며, 또한 포지티브 및 네거티브 샘플로 하여 상기 유형의 기기에 대해 특정된 하나의 분류기를 트레이닝해야 한다. 이러한 맞춤형 방식에 의해, 상이한 기기에 있어서 검출할 수 없는 난제를 잘 해결할 수 있다.
도 1은 음성 어시스턴트가 악성 음성 신호를 수신할 수 있는 모식도이다.
도 1의 상부는 신호의 주파수 스펙트럼을 설명한 것이고, 하부는 스마트 기기의 마이크로폰 회로를 설명한 것이다.
공격자는 들을 수 있는 저주파수 신호를 초음파 주파수 대역까지 변조하여 발송시킬 수 있는데 이때 사람 귀로는 들을 수 없으며, 스펙트로그램에는 고주파수 신호만 도시되고, 스마트 기기에서의 마이크로폰 회로는 상기 신호를 수신한 후, 변조 이전에 들을 수 있었던 저주파수 신호를 복조시키는데 이때 스펙트로그램에서 볼 수 있는 바와 같이, 저주파수 신호가 발생하고, 이 현상은 마이크로폰 회로의 비선형 작용에 의해 생성된 것이며, 이 하드웨어의 취약점이기도 하여, 음성 어시스턴트가 “들을 수 없는 음성 명령”을 식별할 수 있게 된다.
도 2는 시간 영역 및 주파수 영역에서 정상 음성 신호 및 악성 음성 신호의 비교도이다.
이 음성 명령은 “HeySiri”이며, 상부는 정상적으로 들을 수 있는 음성 신호이고, 하부는 마이크로폰 회로가 복조한 후의 음성 신호이며, 오른쪽 부분의 주파수 영역 다이어그램으로부터 볼 수 있다시피, 복조 후의 신호의 고주파수 대역에서의 강도는 정상 음성 신호의 고주파수 대역에서의 강도보다 매우 낮다.
도 3은 검출기 SVM의 트레이닝 및 악성 음성 명령의 검출 프로세스 다이어그램이다.
도 4는 개선 후의 음성 제어 흐름도이고, SVM 분류기는 새로 추가된 모듈로서, 악성 음성 신호를 검출한다.
아래에 본 발명의 바람직한 실시형태에 대해 상세하게 설명한다.
도 2는 시간 영역 및 주파수 영역에서 정상 음성 신호 및 악성 음성 신호의 비교도이다. 도 2에서 알 수 있다시피, 휴대폰으로 녹음된 일반 음성 신호와 악성 신호(복조 후의 신호)는 고주파수 대역에서 현저한 차이가 있다. 따라서, 머신 러닝 알고리즘에 의해 악성 음성 명령을 식별할 수 있다. 도 3 및 도 4에 도시된 바와 같이, 본 발명은 “돌고래음 공격”에 대해 타겟성 방어를 수행하여 “돌고래음 공격”의 무음 음성 명령을 검출할 수 있으며, 이로써 근본적으로 음성 어시스턴트, 스마트 기기가 무음 음성 명령에 의해 제어되는 가능성을 해결한다.
이하 실시예는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법이며, 테스트용 방어 기기는 iPhone SE이다. 다른 상이한 유형의 스마트 기기의 방어는 상기 방법과 일치하며 더이상 설명하지 않는다.
분류기 트레이닝 단계:
포지티브 및 네거티브 샘플의 데이터를 수집한다.
트레이닝 후의 분류기가 상이한 사람의 사운드, 음성 명령의 무음 공격을 검출할 수 있도록 하기 위해, 포지티브 및 네거티브 샘플의 획득에서 상이한 사람의 사운드와 상이한 음성 명령을 고려해야 한다.
따라서, TIMIT 음성 데이터베이스를 선택하였으며, 상기 데이터베이스는 630개의 말하는 사람의 음성을 포함하고, 그들이 말하는 언어는 미국 영어의 8개 방언을 포함하며 또한 매 사람은 10개 음성이 풍부한 문장을 열독하였다.
포지티브 샘플의 생성 방식: TIMIT 음성 데이터베이스로부터 10명의 음성(총 100개 문장을 포함함)을 선택하여 포지티브 샘플로 사용한다.
네거티브 샘플의 생성 방식: 신호 발생기(Keysight Technologies. 2017. N5172B EXG X-Series RF Vector Signal Generator, 9 kHz to 6 GHz. http://www.keysight.com/en/pdx-x201910-pn-N5172B. (2017).)를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역까지 변조하고, 초음파 스피커[Avisoft Bioacoustics. 2017. Ultrasonic Dynamic Speaker Vifa. http://www.avisoft.com/usg/vifa.htm. (2017).]에 의해 플레이하며(변조 방식은 진폭 변조, 변조 깊이는 100 %, 반송파(載波,carrier wave) 주파수 범위는 20 ~ 45 kHz), 또한 iPhone SE 휴대폰으로 이러한 사람의 귀로 들을 수 없는 사운드를 기록하고, 복조 후의 악성 음성 신호를 획득하여 네거티브 샘플(총 10명의 말하는 사람, 100개의 문장을 포함함)로 사용한다.
1. 데이터 전처리
이상 데이터를 수집한 후, 우선 포지티브 및 네거티브 샘플을 분류한다. 다음 음성 데이터를 분할한다.
하기와 같은 음성 데이터 분할 알고리즘을 사용한다.
각 어구의 명령이 시작 및 종료되는 시점을 검출하기 위해, 임계값을 사용하여 검출하고, 획득된 사운드 데이터를 20 ms의 길이로 분할하는데, 연속적인 4개의 프래그먼트의 신호 강도
Figure pct00017
(xi는 i 번째 데이터 포인트의 값임)가 하나의 임계값보다 크면, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 시작 위치로 확정할 수 있다. 동일한 이유로, 연속적인 4개의 프래그먼트의 신호 강도가 하나의 임계값보다 작으면, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 종료 위치로 확정할 수 있다. 시작 위치 및 종료 위치에 근거하여 음성 명령을 분할할 수 있다.
2. 샘플 특징 선택, 계산 및 정규화
음성 신호의 특성을 고려해보면, 우선 생각할 수 있는 특징은 평균값, 최소값과 같은 지표이지만 이러한 지표는 정상 음성 신호와 악성 음성 신호 사이의 차이를 완전히 반영할 수 없으며, 통계 분석을 거쳐, 정상 및 비정상 음성 신호 사이의 차이를 효과적으로 반영할 수 있는 보다 많은 특징을 선택해야 한다. 일련의 최적화를 거쳐, 음성 데이터에 대해 특징 추출을 진행한 이후, 계산하여 획득된 대량의 시간 영역 및 주파수 영역 특징으로부터 정상 및 악성 음성 사이의 차이성을 가장 잘 반영할 수 있는 11개의 지표를 선택한다. 이러한 특징으로 수집된 음성 데이터를 대체하며, 이것을 다음 단계 머신 러닝 과정에서의 입력 정보로 사용한다. 특징 벡터는 최소값, 평균값, 에너지, 비대칭도, 첨도, 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차, 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근 진폭, 주파수 스펙트럼 질량 중심을 포함한다.
분류 알고리즘의 분류 정확도를 더 높이기 위해, 샘플 특징에 대해 정규화할 필요가 있다. 각각의 샘플 특징의 최대값은 1로 설정한다. 이 부분에서 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화한 시간 영역 및 주파수 영역 특징이다.
마지막으로, 정규화한 후의 시간 영역 및 주파수 영역 특징에 라벨을 붙이고, 정상 음성 명령 특징의 라벨을 1로 하고, 악성 음성 특징의 라벨을 0으로 한다.
3. 추출해야 할 특징 정보를 결정한 이후, 머신 러닝 알고리즘을 선택한다. 정상 음성과 악성 음성 데이터를 사용하여 머신 러닝의 트레이닝 샘플로 하고, 유한 샘플 학습 문제에 대한 SVM 머신 러닝 알고리즘은 이 응용 상황에 잘 적용될 수 있다.
우리가 선택한 SVM 머신 러닝 알고리즘은 하기와 같은 3가지 이점이 있다.
(1) SVM 알고리즘은 매우 빠른 트레이닝 속도 및 의사결정 속도를 가지므로, 악성 음성 명령에 대해 매우 빠르게 식별할 수 있도록 한다.
(2) SVM 알고리즘 자체의 특성에 따라 결정되는데, 상기 알고리즘은 입력 데이터에 대한 차원에 민감하지 않으며, 이러한 이점은 이후의 작업에서 새로운 구현 정보 차이의 특징을 찾을 수 있고 시스템의 효율에 영향을 미치지 않으면서 시스템에 대해 개선할 수 있도록 한다.
(3) SVM 알고리즘을 사용하면 시스템이 자가 학습 기능을 가지도록 할 수 있으며, 트레이닝하기 위한 데이터가 증가함에 따라, 분류기 트레이닝 과정에서 각각의 파라미터의 값을 끊임없이 수정할 수 있어, 이에 기초하여 하나의 비교적 완전한 검출 시스템을 구성한다.
SVM 분류기를 선택한 후 분류기의 트레이닝을 진행하고 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성한다.
악성 음성 명령 검출 과정:
트레이닝된 SVM 검출 모델을 시스템 중의 음성 어시스턴트에 이식할 수 있으며, 여기서, 우리는 컴퓨터에서 테스트를 진행하였다. 우선, 녹음된 정상, 악성인 음성 명령에 대해 전처리 및 특징 추출 등 작업을 수행한 다음, 트레이닝된 SVM 분류기로 검출한다.
상기 방법의 실행 가능성을 검증하기 위해, 우선 실험적인 방식으로 정상 음성 명령 및 악성 음성 명령에 대한 상기 방법의 분류 성능을 테스트한다.
측정할 정상 음성의 생성 과정: TIMIT 음성 데이터베이스로부터 10명의 음성을 선택하여 측정할 정상 음성으로 사용한다.
측정할 악성 음성의 생성 과정: 신호 발생기(Keysight Technologies. 2017. N5172B EXG X-Series RF Vector Signal Generator, 9 kHz to 6 GHz. http://www.keysight.com/en/pdx-x201910-pn-N5172B. (2017).)를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역까지 변조하고, 초음파 스피커[Avisoft Bioacoustics. 2017. Ultrasonic Dynamic Speaker Vifa. http://www.avisoft.com/usg/vifa.htm. (2017).]에 의해 플레이하며(변조 방식은 진폭 변조, 변조 깊이는 100 %, 반송파 주파수 범위는 25 kHz), 또한 iPhone SE 휴대폰으로 이러한 사람의 귀로 들을 수 없는 사운드를 기록하고, 복조 후의 악성 음성 신호를 획득하여 측정할 악성 음성으로 사용한다.
우리는 10명에 대해 100개의 정상 음성 및 100개의 악성 음성을 테스트하였으며, 최종 실험 결과, 말하는 사람 및 음성 명령이 어떠한지를 막론하고, 분류기는 모두 98 %의 정확도로 정상 음성 명령을 구분할 수 있으며, 94 %의 정확도로 악성 음성 명령을 구분할 수 있다.
최종 검출 결과로부터, 상이한 말하는 사람, 상이한 명령에 대하여, 우리가 제안한 방법은 “돌고래음 공격”에 대해 모두 효과적임을 알 수 있다. 따라서, 스마트 기기의 제조 업체는 단지 시스템 또는 소프트웨어를 업데이트하는 것에 의해 현재 각각의 스마트 기기에서 존재하는 안전 문제를 빠르고 효과적으로 해결할 수 있다.

Claims (3)

  1. 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법으로서,
    1) 포지티브 및 네거티브 샘플의 데이터를 수집하는 단계;
    2) 수집된 포지티브 및 네거티브 샘플 데이터에 대해 데이터 분할을 수행하는 단계;
    3) 샘플 특징 선택 및 정규화 단계로서, 음성 데이터에 대해 최소값, 평균값, 에너지, 비대칭도, 첨도, 주파수 스펙트럼 평균값, 주파수 스펙트럼 평방 편차, 주파수 스펙트럼 표준 편차, 불규칙성, 평균 제곱근 진폭, 주파수 스펙트럼 질량 중심을 포함하는 특징을 특별히 선택하여, 선택한 11개의 특징으로 특징 벡터를 구성하며, 특징 벡터로 수집된 음성 데이터를 대체하여 이후 과정에서의 입력 정보로 사용하며,
    각각의 특징은 아래와 같이 정의되며,
    평균값:
    Figure pct00018

    에너지:
    Figure pct00019

    비대칭도:
    Figure pct00020

    첨도:
    Figure pct00021

    주파수 스펙트럼 평균값:
    Figure pct00022

    주파수 스펙트럼 평방 편차:
    Figure pct00023

    주파수 스펙트럼 표준 편차:
    Figure pct00024

    불규칙성:
    Figure pct00025

    평균 제곱근 진폭:
    Figure pct00026

    주파수 스펙트럼 질량 중심:
    Figure pct00027
    ,
    여기서, N은 샘플 데이터 포인트 수이고,
    Figure pct00028
    은 n 번째 포인트의 전력 소비값이며,
    Figure pct00029
    는 표준 편차이고,
    Figure pct00030
    은 주파수 영역 변환 후 n 번째 주파수
    Figure pct00031
    의 에너지 크기이며,
    Figure pct00032
    는 주파수 스펙트럼 평균값이고,
    Figure pct00033
    는 주파수 스펙트럼 평방 편차이며, z(n)은 가중 주파수 값이고, y(n)은 샘플 포인트의 중심 주파수를 나타내며,
    샘플 특징 벡터에 대해 정규화 처리하며, 각각의 샘플 특징 최대값을 1로 설정하고, 정규화 처리된 입력은 각각의 샘플의 시간 영역 및 주파수 영역 특징이고, 출력은 정규화된 시간 영역 및 주파수 영역 특징이고,
    마지막으로, 정규화된 시간 영역 및 주파수 영역 특징에 라벨을 붙이되, 정상 음성 명령 특징의 라벨은 1이고, 악성 음성 특징의 라벨은 0인, 샘플 특징 선택 및 정규화 단계;
    4) 정규화 후 라벨을 붙인 시간 영역 및 주파수 영역 특징을 모델 입력으로 사용하고, 머신 러닝 알고리즘을 선택하여 트레이닝을 수행하며 또한 악성 음성 명령을 검출하는 하나의 검출 모델을 생성하는 단계; 및
    5) 단계4)에서의 트레이닝에 의해 획득된 검출 모델을 이용하여 검출할 음성 명령을 검출하는 단계를 포함하는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.
  2. 제1항에 있어서,
    상기 단계1)에서 수집된 네거티브 샘플의 데이터 생성 방식은, 신호 발생기를 사용하여 포지티브 샘플의 음성을 초음파 주파수 대역으로 변조하고, 초음파 스피커를 통해 플레이하되, 상기 변조는 진폭 변조이고, 변조 깊이는 100 %이며, 반송파 주파수 범위는 20 ~ 45 kHz이고, 이러한 사운드를 녹음하여 복조 후의 악성 음성 신호를 획득하여 네거티브 샘플 데이터로 사용하는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.
  3. 제1항에 있어서,
    데이터 분할 방법은, 획득된 사운드 데이터를 20 ms의 길이로 분할하며, 연속적인 4개의 프래그먼트의 신호 강도
    Figure pct00034
    가 하나의 임계값보다 큰 경우, 첫 번째 프래그먼트 시작 위치가 전체 어구의 시작 위치로 확정할 수 있고, 여기서 xi는 i 번째 데이터 포인트의 값이; 동일한 이유로, 연속적인 4개의 프래그먼트 신호 강도가 하나의 임계값보다 작은 경우, 첫 번째 프래그먼트의 시작 위치가 전체 어구의 종료 위치로 확정할 수 있으며, 시작 위치 및 종료 위치에 근거하여 음성 명령을 분할할 수 있는 것을 특징으로 하는 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법.
KR1020207007398A 2017-12-19 2018-04-17 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법 KR102386155B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711374668.2 2017-12-19
CN201711374668.2A CN108172224B (zh) 2017-12-19 2017-12-19 基于机器学习的防御无声指令控制语音助手的方法
PCT/CN2018/083371 WO2019119687A1 (zh) 2017-12-19 2018-04-17 基于机器学习的防御无声指令控制语音助手的方法

Publications (2)

Publication Number Publication Date
KR20200037399A true KR20200037399A (ko) 2020-04-08
KR102386155B1 KR102386155B1 (ko) 2022-04-12

Family

ID=62522918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207007398A KR102386155B1 (ko) 2017-12-19 2018-04-17 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법

Country Status (4)

Country Link
US (1) US11450324B2 (ko)
KR (1) KR102386155B1 (ko)
CN (1) CN108172224B (ko)
WO (1) WO2019119687A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10672416B2 (en) * 2017-10-20 2020-06-02 Board Of Trustees Of The University Of Illinois Causing microphones to detect inaudible sounds and defense against inaudible attacks
CN108806702B (zh) * 2018-07-20 2020-07-03 北京航空航天大学 针对超声波语音隐藏攻击的检测方法及装置
CN110875058A (zh) * 2018-08-31 2020-03-10 中国移动通信有限公司研究院 一种语音通信处理方法、终端设备及服务器
CN112154465A (zh) * 2018-09-19 2020-12-29 华为技术有限公司 一种意图识别模型的学习方法、装置及设备
US11264029B2 (en) * 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Local artificial intelligence assistant system with ear-wearable device
US11264035B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Audio signal processing for automatic transcription using ear-wearable device
US11158315B2 (en) 2019-08-07 2021-10-26 International Business Machines Corporation Secure speech recognition
US11055652B1 (en) * 2019-11-22 2021-07-06 Anvilogic, Inc. System for sharing detection logic through a cloud-based exchange platform
US11399041B1 (en) 2019-11-22 2022-07-26 Anvilogic, Inc. System for determining rules for detecting security threats
US11290483B1 (en) 2020-04-07 2022-03-29 Anvilogic, Inc. Platform for developing high efficacy detection content
CN112216304B (zh) * 2020-09-22 2022-02-18 浙江大学 一种基于双麦克风系统检测和定位无声语音指令的方法
CN112235293B (zh) * 2020-10-14 2022-09-09 西北工业大学 一种面向恶意流量检测正负样本均衡生成的过采样方法
CN112489682B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 音频处理方法、装置、电子设备和存储介质
CN112581975B (zh) * 2020-12-11 2024-05-17 中国科学技术大学 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN112628695B (zh) * 2020-12-24 2021-07-27 深圳市轻生活科技有限公司 一种语音控制台灯的控制方法和系统
CN112839488A (zh) * 2021-01-15 2021-05-25 华南理工大学 一种深度神经网络对抗攻击的检测装置及检测方法
CN113205801B (zh) * 2021-05-08 2024-03-19 国家计算机网络与信息安全管理中心 恶意语音样本的确定方法、装置、计算机设备和存储介质
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置
CN114301569B (zh) * 2021-12-30 2024-02-20 浙江大学 一种基于电子设备陶瓷电容发声的麦克风语音注入方法
CN114049884B (zh) * 2022-01-11 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
CN114664311B (zh) * 2022-03-01 2023-05-05 浙江大学 一种记忆网络增强的变分推断无声攻击检测方法
CN114639375B (zh) * 2022-05-09 2022-08-23 杭州海康威视数字技术股份有限公司 基于音频切片调节的智能语音识别安全防御方法及装置
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
KR20160148009A (ko) * 2014-07-04 2016-12-23 인텔 코포레이션 자동 화자 검증 시스템에서의 리플레이 공격 검출

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9544067B2 (en) * 2014-02-27 2017-01-10 Verizon Patent And Licensing Inc. Method and system for transmitting information using ultrasonic messages
CN105869630B (zh) * 2016-06-27 2019-08-02 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN106531159B (zh) * 2016-12-09 2019-06-18 宁波大学 一种基于设备本底噪声频谱特征的手机来源识别方法
CN107452401A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种广告语音识别方法及装置
CN107452371B (zh) * 2017-05-27 2019-03-05 北京字节跳动网络技术有限公司 一种语音分类模型的构建方法及装置
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
GB2578386B (en) * 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) * 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
CN107393525B (zh) * 2017-07-24 2020-06-12 湖南大学 一种融合特征评估和多层感知器的语音情感识别方法
GB201801874D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
US10672416B2 (en) * 2017-10-20 2020-06-02 Board Of Trustees Of The University Of Illinois Causing microphones to detect inaudible sounds and defense against inaudible attacks
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
KR20160148009A (ko) * 2014-07-04 2016-12-23 인텔 코포레이션 자동 화자 검증 시스템에서의 리플레이 공격 검출

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"DolphinAttack: Inaudible Voice Commands", CCS’17 Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security(pp. 103-117), 2017.11.* *
"MFCC를 사용한 개선된 남성 및 여성화자의 성별인식시스템", 한국정보기술학회논문지 15(9)(pp. 23-28), 2017.9.* *

Also Published As

Publication number Publication date
WO2019119687A1 (zh) 2019-06-27
CN108172224A (zh) 2018-06-15
US20200251117A1 (en) 2020-08-06
CN108172224B (zh) 2019-08-27
KR102386155B1 (ko) 2022-04-12
US11450324B2 (en) 2022-09-20

Similar Documents

Publication Publication Date Title
KR102386155B1 (ko) 머신 러닝 기반의 무음 명령에 의해 음성 어시스턴트가 제어되는 것을 방어하는 방법
Ahmed et al. Void: A fast and light voice liveness detection system
US20200265834A1 (en) Detection of replay attack
US20190333522A1 (en) Speaker identification
US20200243067A1 (en) Environment classifier for detection of laser-based audio injection attacks
US11854553B2 (en) Cybersecurity for sensitive-information utterances in interactive voice sessions
Mao et al. Watchdog: Detecting ultrasonic-based inaudible voice attacks to smart home systems
US11900927B2 (en) Cybersecurity for sensitive-information utterances in interactive voice sessions using risk profiles
Das et al. Fingerprinting smart devices through embedded acoustic components
Zhang et al. Who activated my voice assistant? A stealthy attack on android phones without users’ awareness
Aghakhani et al. VENOMAVE: Clean-label poisoning against speech recognition
Li et al. Learning normality is enough: a software-based mitigation against inaudible voice attacks
Nassi et al. Lamphone: Passive sound recovery from a desk lamp's light bulb vibrations
US20200020330A1 (en) Detecting voice-based attacks against smart speakers
CN112216304B (zh) 一种基于双麦克风系统检测和定位无声语音指令的方法
Tian et al. Spoofing detection under noisy conditions: a preliminary investigation and an initial database
Berdich et al. Sweep-to-unlock: Fingerprinting smartphones based on loudspeaker roll-off characteristics
CN111477246B (zh) 语音处理方法、装置及智能终端
CN109634554B (zh) 用于输出信息的方法和装置
Lien et al. Attacks on voice assistant systems
Duan et al. Privacy threats of acoustic covert communication among smart mobile devices
CN108595143A (zh) 电子设备、拾音器和信号处理方法
Kokalj-Filipovic et al. Detecting acoustic backdoor transmission of inaudible messages using deep learning
Vadillo et al. On the human evaluation of audio adversarial examples
CN106937234A (zh) 音频元件的测试方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant