KR20090089674A - 휴대 단말기의 소리 인식 방법 및 장치 - Google Patents

휴대 단말기의 소리 인식 방법 및 장치 Download PDF

Info

Publication number
KR20090089674A
KR20090089674A KR1020080014968A KR20080014968A KR20090089674A KR 20090089674 A KR20090089674 A KR 20090089674A KR 1020080014968 A KR1020080014968 A KR 1020080014968A KR 20080014968 A KR20080014968 A KR 20080014968A KR 20090089674 A KR20090089674 A KR 20090089674A
Authority
KR
South Korea
Prior art keywords
sound
value
peak value
peak
signal
Prior art date
Application number
KR1020080014968A
Other languages
English (en)
Other versions
KR101496876B1 (ko
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR20080014968A priority Critical patent/KR101496876B1/ko
Priority to US12/388,188 priority patent/US8195455B2/en
Publication of KR20090089674A publication Critical patent/KR20090089674A/ko
Application granted granted Critical
Publication of KR101496876B1 publication Critical patent/KR101496876B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 소리 인식 방법 및 장치에 관한 것으로, 인식 대상 소리를 저장하는 저장부; 소리를 입력 받는 소리 입력부; 및 상기 소리의 피크치를 추출하고, 추출한 피크치를 이용하여 통계값을 산출하고, 산출한 통계값을 이용하여 상기 소리가 상기 인식 대상 소리와 동일한 소리인지를 판별하는 제어부를 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치 및 이를 이용한 방법을 제공한다.
소리 인식, neural network

Description

휴대 단말기의 소리 인식 방법 및 장치{An apparatus of sound recognition in a portable terminal and a method thereof}
본 발명은 휴대 단말기의 소리 인식 방법 및 장치에 관한 것으로, 보다 상세하게는 소리의 특징 벡터 중 피크치를 이용하여 소리를 인식하는 휴대 단말기의 소리 인식 장치 및 방법에 관한 것이다.
인간과 기계가 소리로 대화한다는 것은 인류의 꿈으로, 오래 전부터 연구되어 온 주제이다. 소리로 기계와 대화할 때의 장점은, 첫째로 숙련을 요하지 않는다. 인간에게 가장 손쉬운 입력 수단이기 때문에, 자판에 입력하는 경우와 같은 훈련을 요하지 않는다. 두 번째로 고속 입력이 가능하다. 자판으로 입력하는 것에 비해 2 내지 6 배의 속도로 입력할 수 있다. 셋째로 손발이 구속되지 않는다. 손이 다른 일을 하고 있어도 자유로이 입력할 수 있다. 또한 걸어가면서 입력할 수도 있다.
소리 인식은 일반적으로 마이크와 같은 입력 수단을 통하여 얻어진 소리 신호를 인식하는 것을 말한다. 즉, 소리 인식 기술은 특정의 소리, 예컨대, 박수 소리, 문 여닫는 소리, 초인종 소리, 부저, 차동차 경음기 소리 등의 소리를 인식하 는 기술이다. 인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있다. 이러한 소리 인식 기술은 해당 소리가 입력에 필요한 소리와 동일한 소리인지를 판별하는 데에서부터 시작한다. 이러한 판별 후에, 응용분야에 적용될 수 있을 것이다. 이러한 응용 분야로는, 소리 명령 컴퓨터는 물론 무인 전화번호 안내, 소리 명령 주문형 비디오, 각종 소리 안내 시스템, 가전제품을 비롯해 자동차 항법 장치(Car Navigation System), 홈-오토메이션, 소리 다이얼링 등 그 이용 영역이 무한하다. 그 결과 소리인식기술은 인간과 컴퓨터 간의 자연스러운 의사소통을 가능케 하며 인간에게 보다 밀착시킴으로써 인간의 생활을 보다 풍요롭게 만드는데 필수적인 최첨단 기술이다.
종래의 소리 인식 기술은 음소의 위치를 파악하고(음소 분절), 또 분절된 각 음소를 구분하고 그 내용을 알아내는(음소 인식) 방법에 각각 매우 복잡한 과정을 통해서 이루어 졌다. 이는 계산량이 많을 뿐만 아니라, 잡음의 포함 여부에 매우 민감하며 확률 계산이 많아 그 정확도 또한 떨어지는 단점을 가진다.
따라서 상술한 바와 같은 종래의 문제점을 감안한 본 발명의 목적은 적은 계산량으로 소리 인식을 수행할 수 있는 소리 인식 장치 및 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은 잡음에 강한 소리 인식 방법 및 장치를 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 휴대 단말기의 소리 인식 장치는, 인식 대상 소리를 저장하는 저장부; 소리를 입력 받는 소리 입력부; 및 상기 소리의 피크치를 추출하고, 추출한 피크치를 이용하여 통계값을 산출하고, 산출한 통계값을 이용하여 상기 소리가 상기 인식 대상 소리와 동일한 소리인지를 판별하는 제어부를 포함한다.
상기 피크치는 n이 자연수 일 때, 1차 내지 n차의 피크치를 가지며, 각 피크치는 양 및 음의 피크치를 가지는 것을 특징으로 한다.
상기 통계값은 상기 피크치의 평균 및 상기 피크치의 표준 편차를 포함하는 것을 특징으로 한다.
상기 제어부는 상기 소리의 시간 영역의 신호를 주파수 영역의 신호로 변환하는 것을 특징으로 한다.
상기 제어부는 상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 제거하는 것을 특징으로 한다.
상기 제어부는 상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 상기 피크치 추출시 고려하지 않는 것을 특징으로 한다.
상기 제어부는 상기 통계값을 이용하여 확률 거리를 산출하고, 산출한 확률 거리가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 한다.
상기 제어부는 상기 통계값을 이용하여 뉴럴 네트워크에 따른 유사도를 산출하고, 상기 유사도가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시 예에 따른 휴대 단말기의 소리 인식 방법은, 입력되는 소리의 피크치를 추출하는 과정과, 상기 피크치를 이용하여 통계값을 산출하는 과정과, 상기 통계값을 이용하여 상기 소리와 기 저장된 인식 대상 소리가 동일한 소리인지 판단하는 과정을 포함한다.
상기 피크치는 n이 자연수 일 때, 1차 내지 n차의 피크치를 가지며, 각 피크치는 양 및 음의 피크치를 가지는 것을 특징으로 한다.
상기 통계값은 상기 피크치의 평균 및 상기 피크치의 표준 편차를 포함하는 것을 특징으로 한다.
상기 소리는 시간 영역의 신호 및 주파수 영역의 신호 중 어느 하나인 것을 특징으로 한다.
상기 추출하는 과정 전, 상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 제거하는 과정을 더 포함하는 것을 특징으로 한다.
상기 추출하는 과정은, 상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 상기 피크치 추출시 고려하지 않는 것을 특징으로 한다.
상기 판단하는 과정은, 상기 통계값을 이용하여 확률 거리를 산출하고, 산출한 확률 거리가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 한다.
상기 판단하는 과정은, 상기 통계값을 이용하여 뉴럴 네트워크에 따른 유사도를 산출하고, 상기 유사도가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 한다.
본 발명의 따르면, 본 발명의 실시 예에 따른 소리 인식 장치 및 방법은, 적은 계산량으로 소리 인식을 수행할 수 있어, 장치의 리소스를 절약할 수 있는 이점이 있다. 또한, 피크치 및 고차원 피크치를 이용하여 소리 인식을 수행함으로써, 잡음에 강한 이점이 있다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
본 발명은 특정의 소리, 예컨대, 박수 소리, 문 여닫는 소리, 초인종 소리, 부저, 차동차 경음기 소리 등의 소리에서 특징들을 미리 저장하고, 입력되는 소리 와 기 저장된 소리가 동일한 소리인지를 판별하기 위한 것이다.
설명에 앞서 본 발명의 실시 예에서 소리 인식 장치는, 일반적인 휴대 단말기에 적용이 가능하며, 이러한 휴대 단말기는 이동통신 단말기, 디지털 방송 단말기, 개인 정보 단말기(PDA, Personal Digital Assistant), 스마트 폰(Smart Phone), IMT-2000(International Mobile Telecommunication 2000) 단말기, WCDMA(Wideband Code Division Multiple Access) 단말기, UMTS(Universal Mobile Telecommunication Service) 단말기, 노트북(notebook), 퍼스날 컴퓨터(personal computer), MP3 플레이어 등과 같은 모든 정보통신기기 및 멀티미디어 기기와, 그에 대한 응용에도 적용될 수 있음은 자명할 것이다.
이하 본 발명의 바람직한 실시 예에 따른 휴대 단말기의 소리 인식 장치를 살펴보기로 한다. 도 1은 본 발명의 실시 예에 따른 휴대 단말기의 소리 인식 장치의 개략적인 구성을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 휴대 단말기의 소리 인식 장치는, 소리 입력부(110), 저장부(120) 및 제어부(130)를 포함하여 구성된다. 제어부(130)는 특히 특징 추출부(131), 통계값 산출부(133) 및 소리 비교부(135)를 포함하여 구성된다.
소리 입력부(110)는 소리(sound)를 입력 받기 위한 것으로, 소리를 입력 받고, 입력 받은 소리를 제어부(130)로 전달한다.
본 발명의 실시 예에 따른 소리 인식 방법은 기 저장된 소리와 새로 입력되는 소리와의 비교를 통해 같은 소리인지를 판단하는 것이다. 이하로는 소리 입력 부(110)를 통해 기 입력되어 저장된 기 저장된 소리를 "인식 대상 소리"이라 칭하기로 한다.
저장부(120)는 인식 대상 소리 및 인식 대상 소리의 특징을 저장한다. 본 발명의 실시 예에 따른 확률거리계산 방법을 위해, 인식 대상 소리의 피크치 및 확률 계산 값들을 저장한다. 또한, 뉴럴 네트워크(neural netwokr) 방법을 위해, 히든 노드(hidden node)의 개수 및 뉴럴 네트워크(neural netwokr) 학습을 위한 데이터베이스(Data Base, 인식 대상의 소리에 대한 피크치의 히스토그램 데이터 베이스)를 저장한다. 이러한 특징에 대해서는 하기에서 더 자세히 설명하기로 한다.
제어부(130)는 소리 입력부(110)로부터 소리를 입력 받아 해당 소리의 특징을 추출하여 저장부(120)에 저장한다. 또한, 제어부(130)는 소리 입력부(110)로부터 소리를 입력 받아 인식 대상 소리와 비교하여 같은 소리인지를 판별한다.
또한, 인식 대상 소리와 같은 소리인지 판별하기 위하여 제어부(130)는 특징 추출부(131), 통계값 산출부(133) 및 소리 비교부(135)를 포함한다.
특징 추출부(131)는 입력된 소리의 시간 영역 또는 주파수 영역 신호의 피크치를 추출한다. 피크치를 추출하기 위한 소리의 파형은 시간 영역(time domain) 및 주파수 영역(frequency domain) 중 어느 것이라도 무방하다. 입력된 소리는 시간 영역의 신호이므로 주파수 영역 신호의 파형을 얻기 위해서, 특징 추출부(131)는 시간 영역의 신호를 주파수 영역의 신호로 변환한다. 바람직하게, DFT(Discrete Fourier Transform), FFT(Fast Fourier transform) 등을 이용할 수 있다.
여기서, 피크치는 양의 값을 가지는 양의 피크치 및 음의 값을 가지는 음의 피크치를 포함하며, 양의 피크치를 극대값, 음의 피크치를 극소값과 혼용하여 사용하기로 한다.
특징 추출부(131)는 입력된 소리의 피크치들을 추출하고, 추출한 피크치들의 피크치를 추출한다. 본 발명의 실시 예에서 입력된 소리의 시간영역의 신호 또는 주파수 영역의 신호로부터 추출한 피크치를 1차 피크치라고 한다. 또한, 1차 피크치들로부터 산출한 피크치를 고차 피크치라고 한다. 여기서, 고차의 피크치는 1차 피크치로부터 산출한 경우 2차 피크치라고 하며, 2차 피크치로부터 산출한 피크치를 3차 피크치라고 한다. 이와 같이, 연속해서 피크치를 추출하면 피크치가 하나만 존재하는 차수의 피크치까지 추출할 수 있다.
소리 신호는 소리 입력시의 주변 환경 및 장치의 특성 상, 노이즈를 포함한다. 따라서 특징 추출부(131)는 소리 신호에서 잡음을 제거하고, 의미있는 피크치들만 선별하여 추출하기 위하여 일정 값 이하의 신호들을 제거한다. 이를 위하여 특징 추출부(131)는 임계치를 적용하여 일정 값 이하의 신호들을 제거할 수 있다. 또한, 특징 추출부(131)는 피크치 추출시 임계치 미만의 레벨을 가지는 신호들을 고려하지 않고 피크치를 추출할 수 있다.
통계값 산출부(133)는 추출한 피크치의 극대값(양의 피크치)들 및 극소값(음의 피크치)들 각각의 평균 및 표준편차를 산출한다.
소리 비교부(135)는 확률거리방법 및 뉴럴 네트워크(neural network) 방법을 이용하여 입력된 소리가 인식 대상 소리와 같은 소리인지 판별한다. 이러한 판별을 위한 입력 값으로 소리 비교부(135)는 통계값 산출부(133)가 산출한 평균 및 표준 편차를 이용한다.
또한 도시되진 않았으나, 본 발명의 실시 예에 따른 휴대 단말기는, 해당 휴대 단말기의 이용에 따라, 무선 통신 모듈, 표시 모듈, 방송 신호 수신 모듈, 카메라 모듈, 충전용 단자, MP3 모듈과 같은 디지털 음원 재생 모듈 등의 부가 기능을 갖는 유닛들을 선택적으로 더 포함하여 구성될 수 있다. 디지털 기기의 컨버전스(convergence) 추세에 따라 휴대 기기의 변형이 매우 다양하여 모두 열거할 수는 없으나, 상기 언급된 유닛들과 동등한 수준의 유닛이 본 발명에 따른 휴대 단말기에 추가로 더 포함되어 구성될 수 있다는 것은 본 기술 분야의 통상의 지식을 가진 자라면 쉽게 이해할 수 있을 것이다.
앞서 설명한 바와 같이, 본 발명의 실시 예에 따르면 소리 신호에서 잡음을 제거하고, 의미 있는 피크치들만 선별하기 위하여 일정 값 이하의 신호들을 제거한다. 이러한 의미 있는 신호들을 선별하기 위한 방법에 대해서 설명하기로 한다. 도 2는 본 발명의 실시 예에 따른 잡음 제거 방법을 설명하기 위한 그래프이다.
도 2에 소리 입력부(110)를 통해 입력된 소리의 신호를 도시하였다. 도시한 바와 같이, 입력된 소리는 주변 환경의 소리 등의 잡음(A)이 섞여 있을 수 있다. 따라서 실제 소리인 의미 있는 신호(B)를 추출하기 위하여, 본 발명의 실시 예에서는 임계치(C)를 설정하고 임계치(C) 미만의 신호들을 제거한다. 이러한 임계치(C)는 반복되는 실험을 통해 특정 값을 도출하여 적용할 수 있다. 본 발명의 실시 예에 따른 소리 인식은 임계치 보다 더 높은 레벨의 값을 가지는 피크치를 이용함으로, 특정 임계치를 이용하여 잡음의 구분을 명확히 할 수 있는 이점이 있다. 이러 한 방법은 고차 피크치를 사용할 경우 더 명확하게 적용할 수 있다.
이러한 잡음을 제거한 후, 본 발명의 실시 예에 따르면 입력된 소리에서 피크치를 추출한다. 이러한 피크치에 대해서 설명하기로 한다. 도 3a 내지 도 3c는 본 발명의 실시 예에 따른 피크치를 설명하기 위한 그래프이다.
도 3a에 잡음을 제거한 소리의 신호를 도시하였다. 도 3a에서 도면 부호 1 내지 11은 1차 피크치들이다. 여기서, 도면 부호 1 내지 6은 양의 피크치인 극대값들이고, 도면 부호 7 내지 11은 음의 피크치인 극소값들이다. 그러면, 이와 같은 1차 피크치들에서 2차 피크치를 산출하는 방법을 양의 피크치를 이용하여 설명한다. 도 3b에 도시한 바와 같이, 1차 피크치들(1 내지 6)을 모두 연결하면, 도 3c에 도시한 바와 같은 새로운 파형이 생성된다. 이러한 파형의 피크치들이 2차 피크치(2 및 5)가 된다. 이와 같이, 1차 피크치에서 2차 피크치를 도출할 수 있으며, 같은 방법으로 2차 피크치에서 3차 피크치를 도출할 수 있다. 또한, 상기한 예에서는 양의 피크치의 예에 대해서만 설명하였지만, 음의 피크치도 같은 방법으로 고차 피크치를 도출할 수 있다.
이러한 고차 피크치들은 다음과 같은 특성을 가진다. 이하에서 설명되는 특성은 특성은 같은 값의 피크치가 다수개 존재하는 경우를 제외한다.
첫째, 연속적인 양의 피크치들 사이에는 단 하나의 음의 피크치만 존재할 수 있다. 또한, 연속적인 음의 피크치들 사이에는 단 하나의 양의 피크치만 존재할 수 있다. 여기서, 특정 파형의 일부가 상수일 경우를 제외한다.
둘째, 고차 피크치의 경우도 상기 첫째 특성이 성립된다.
셋째, 고차 피크치는 저차 피크치보다 더 낮은 피크치보다 적은 수가 존재하며, 고차 피크치는 저차 피크치에 포함된다.
넷째, 연속적인 고차의 피크치 사이에는 하나 이상의 저차 피크치가 존재한다.
다섯째, 평균적으로 고차의 피크치는 저차 피크치 보다 더 높은 레벨의 값을 가진다.
여섯째, 임의의 기간의 신호 동안(예컨대, 일 프레임), 단 하나의 양의 피크치 및 음의 피크치가 존재하는 피크치의 차수가 존재한다.
본 발명은 입력되는 소리가 상술한 첫째 내지 여섯째의 특성을 가짐을 이용하여 일차 내지 고차 피크치를 산출할 수 있다.
상술한 바와 같이 특징 추출부(131)가 입력된 소리의 피크치를 추출하면, 통계값 산출부(133)는 상기한 피크치들의 통계 값을 산출한다. 여기서, 통계 값은 양 및 음의 피크치들의 평균 및 표준 편차가 될 수 있다. 기 저장된 인식 대상 소리의 경우도 상술한 방법과 동일한 방법으로 피크치 및 통계 값을 산출하여 저장한다.
소리 비교부(135)는 입력된 소리 및 인식 대상 소리의 통계 값을 이용하여, 인식 대상 소리와 입력된 소리가 동일한 소리인지 판별한다. 이때, 확률 거리 계산 방법에 따른 방법은 다음의 <수학식 1>을 이용한다.
확률 거리 = (입력된 소리의 n차 피크치의 평균 - 인식 대상 소리의 n차 피크치의 평균) / 입력된 소리의 n차 피크치의 표준편차와 인식 대상 소리의 n차 피크치의 표준편차의 평균
<수학식 1>과 같이, 소리 비교부(135)는 확률 거리를 산출한다. 여기서, 확률 거리를 산출하기 위하여, 먼저, 피크치의 특정 차수를 기준으로, 입력된 소리의 피크치의 평균과 인식 대상 소리의 피크치의 평균의 차를 산출한다. 그런 다음, 산출된 그 차를 입력된 소리의 피크치의 표준편차와 인식 대상 소리의 피크치의 표준편차의 평균으로 나눈 값이 확률 거리가 된다.
여기서, 확률 거리는 입력된 소리와 인식 대상 소리와의 동일성을 나타내는 상대 값이다. 즉, 확률 거리를 산출한 값이 작을수록 두 소리(입력된 소리와 인식 대상 소리)가 동일한 소리라고 판별할 수 있다. 또한, 확률 거리가 특정 값 이상의 수가 나오는 경우, 두 소리(입력된 소리와 인식 대상 소리)가 동일한 소리가 아니라고 판별할 수 있다. 이러한 판별을 위하여, 본 발명의 실시 예에서는, 임계치를 설정하여 산출한 확률 거리가 임계치 미만인 경우에만 두 소리(입력된 소리와 인식 대상 소리)가 동일한 소리라고 판단한다.
한편, 뉴럴 네트워크 방법의 경우, 유사도를 산출한다. 유사도 산출은, 알려진 바와 같은 뉴럴 네트워크 방법에 따라, 1 내지 n차의 양과 음의 피크치의 평균값 및 표준 편차를 입력으로 하며, 기 설정된 히든 노드(hidden node), 및 기 저정된 인식 대상 소리의 특징(피크치 및 통계값)을 이용하여 산출할 수 있다. 그런 다음, 기 설정된 임계치 미만이 유사도가 산출된 경우, 입력된 소리를 인식 대상 소리와 동일한 소리라고 판단한다. 한편, 기 설정된 임계치 이상의 유사도가 산출된 경우 입력된 소리를 인식 대상 소리와 동일한 소리가 아니라고 판단한다.
그러면, 이러한 본 발명의 실시 예에 따른 소리 인식 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 실시 예에 따른 휴대 단말기의 소리 인식 방법을 설명하기 위한 도면이다.
여기서, 인식 대상 소리는 휴대 단말기 사용자의 댁내의 초인종 소리라고 가정한다. 즉, 휴대 단말기는 초인종 소리를 미리 입력 받고, 초인종 소리의 1 내지 기 설정된 특정 차수의 피크치들을 추출하였다고 가정한다. 또한, 추출한 피크치들에서 통계값을 산출하고, 피크치들 및 통계값을 저장부(120)에 저장하였다고 가정한다.
도 4를 참조하면, 제어부(130)는 S401 단계에서 소리 입력부(110)를 통해 소리를 입력 받는다. 이때, 입력 받은 소리는 시간 영역의 신호이다. 따라서 제어부(130)는 S403 단계에서 입력 받은 소리를 주파수 영역으로 변환할 것인지 결정한다. 이러한 주파수 영역으로 변환할 것인지 여부의 결정은, 사용자 또는 장치의 설정에 의해서 결정될 수 있다.
주파수 영역으로 변환할 경우, 제어부(130)는 S405 단계로 진행하여 시간 영역의 신호를 주파수 영역으로 변환한다. 이때, 주파수 영역으로의 변한은 FFT를 이용함이 바람직하다.
다음으로, 제어부(130)는 S407 단계에서 시간 영역 또는 주파수 영역의 신호의 잡음을 제거한다. 잡음 제거 방법은 앞서 설명한 도 2를 참조로 하는 설명에서와 같은 방법으로 수행한다. 즉, 임계치를 설정하고 임계치 미만의 신호들을 제거한다.
이와 같이, 잡음 제거는 S407 단계에서 임계치 미만의 신호를 필터를 사용하여 제거하거나, 하기의 피크치 추출시 임계치 미만의 신호를 고려하지 않는 방법이 있다. 본 발명의 실시 예에서는 두 가지 방법 중 어느 하나를 선택적으로 사용할 수 있다. 이러한 잡음 제거는 제어부(130)의 특징 추출부(131)가 수행한다.
이어서, 제어부(130)는 S409 단계에서 산출할 피크치의 차수를 선택하고, S411 단계에서 선택한 차수의 피크치를 추출한다. 여기서, 피크치는 양 및 음의 피크치를 모두 포함한다. 피크치의 추출은 제어부(130)의 특징 추출부(131)가 수행한다.
그런 다음, 제어부(130)는 S413 단계에서 산출한 피크치의 통계값을 산출한다. 예컨대, 통계값은 피크치의 평균 및 피크치의 표준 편차를 포함한다. 이어서, 제어부(130)는 S415 단계에서 앞서 산출한 피크치 및 통계값을 저장부(120)에 저장한다.
다음으로, 제어부(130)는 S417 단계에서 입력된 소리와 인식 대상 소리의 동일성을 판별하기 위한 방법으로 확률 거리 방법을 사용할 것인지, 또는 뉴럴 네트워크 방법을 사용할 것인지를 결정한다. 이러한 결정은 소리 인식 장치의 사용자 또는 제조업체의 설정 또는 결정에 따라 이루어진다.
확률 거리 방법을 사용하는 경우, 제어부(130)는 S419 단계에서 확률 거리를 산출한다. 이러한, 확률 거리 산출은 <수학식 1>에 따라 이루어진다. 먼저, 피크치의 특정 차수를 기준으로, 입력된 소리의 피크치의 평균과 인식 대상 소리의 피크치의 평균의 차를 산출한다. 그런 다음, 산출된 그 차를 입력된 소리의 피크치의 표준편차와 인식 대상 소리의 피크치의 표준편차의 평균으로 나눈 값이 확률 거리가 된다.
확률 거리 산출 후, 기 설정된 임계치 미만이 확률 거리가 산출된 경우, 제어부(130)는 S423 단계에서 입력된 소리를 인식 대상 소리와 동일한 소리라고 판단한다. 한편, 기 설정된 임계치 이상의 확률 거리가 산출된 경우 제어부(130)는 S423 단계에서 입력된 소리를 인식 대상 소리와 동일한 소리가 아니라고 판단한다.
예컨대, 입력된 소리의 피크치의 평균이 10이고, 인식 대상 소리 피크치의 평균이 8이며, 두 소리(입력된 소리 및 인식 대상 소리)의 고차원 피크치의 표준 편차의 평균이 2라고 가정한다. 그러면, 확률 거리는 1이 된다. 이때 기 설정된 임계치가 2라고 가정하면, 제어부(130)는 입력된 소리 및 인식 대상 소리의 확률 거리가 임계치보다 가까우므로, 입력된 소리는 인식 대상 소리라고 판단한다. 즉, 입력된 소리가 기 저장된 초인종 소리인 경우, 임계치 미만의 확률 거리가 도출될 것이다. 한편, 기 저장된 초인종 소리가 아닌 타인의 집에 설치된 초인종의 소리인 경우, 확률 거리는 임계치 이상이 될 것이다.
한편, 뉴럴 네트워크 방법을 사용할 경우, 제어부(130)는 S421 단계에서 유사도를 산출한다. 유사도 산출은, 알려진 바와 같은 뉴럴 네트워크 방법에 따라, 1 내지 n차의 양과 음의 피크치의 평균값 및 표준 편차를 입력으로 하며, 기 설정된 히든 노드(hidden node), 및 기 저정된 인식 대상 소리의 특징(피크치 및 통계값)을 이용하여 산출할 수 있다.
유사도 산출 후, 기 설정된 임계치 미만이 유사도가 산출된 경우, 제어 부(130)는 S423 단계에서 입력된 소리를 인식 대상 소리와 동일한 소리라고 판단한다. 한편, 기 설정된 임계치 이상의 유사도가 산출된 경우 제어부(130)는 S423 단계에서 입력된 소리를 인식 대상 소리와 동일한 소리가 아니라고 판단한다.
상술한 바와 같이, 본 발명에서는 1차 피크치 뿐만이 아니라 고차원 피크치의 통계값도 역시 특징 추출에 매우 유용하다. 아무런 임계치가 적용되지 않는다면, ZC(zero crossing)의 통계적 정보와 비슷한 특징을 가지게 되나, 피크치는 잡음의 위에 존재하므로 잡음 속에 파묻히게 되는 ZC보다는 훨씬 잡음에 강인한 특징을 보인다.
일반적으로 알고리듬의 계산량은 메모리 필요량과 계산 횟수(operation count)에 의해 특징지어 질 수 있다. 본 발명에서 사용하는 피크치 추출은 인티저(integer) 값인 피크치를 추출하는 인티저 연산(integer operation)만으로 이루어지므로, 플로팅 값을 계산하는 플로팅 포인트 알고리듬(floating point algorithm)보다 메모리 필요량 및 계산 횟수가 적다. 또한, 플로팅 포인트 알고리듬의 합산 계산에서 많이 일어나는 라운드 오프 에러(round-off error)를 벗어 날 수 있다. 게다가 1차 피크 추출은 양 데이터 포인트에서의 두 개의 비교 연산만으로 이루어지는 매우 간단한 계산이며, 2차 이상의 고차원 피크 추출 또한 입력 데이터가 피크들로 이루어져 있다는 것을 제외하고는 똑 같은 비교 연산이므로, 본 발명의 계산량은 종래의 특징 추출 방법에 비해 매우 작다는 것을 알 수 있다.
이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술 분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
도 1는 본 발명의 실시 예에 따른 휴대 단말기의 소리 인식 장치의 개략적인 구성을 설명하기 위한 도면.
도 2는 본 발명의 실시 예에 따른 잡음 제거 방법을 설명하기 위한 그래프.
도 3a 내지 도 3c는 본 발명의 실시 예에 따른 피크치를 설명하기 위한 그래프.
도 4는 본 발명의 실시 예에 따른 휴대 단말기의 소리 인식 방법을 설명하기 위한 도면.

Claims (16)

  1. 휴대 단말기의 소리 인식 장치에 있어서,
    인식 대상 소리를 저장하는 저장부;
    소리를 입력 받는 소리 입력부; 및
    상기 소리의 피크치를 추출하고, 추출한 피크치를 이용하여 통계값을 산출하고, 산출한 통계값을 이용하여 상기 소리가 상기 인식 대상 소리와 동일한 소리인지를 판별하는 제어부를 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  2. 제1항에 있어서,
    상기 피크치는
    n이 자연수 일 때, 1차 내지 n차의 피크치를 가지며,
    각 피크치는 양 및 음의 피크치를 가지는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  3. 제1항에 있어서,
    상기 통계값은
    상기 피크치의 평균 및 상기 피크치의 표준 편차를 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  4. 제1항에 있어서,
    상기 제어부는
    상기 소리의 시간 영역의 신호를 주파수 영역의 신호로 변환하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  5. 제1항에 있어서,
    상기 제어부는
    상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 제거하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  6. 제1항에 있어서,
    상기 제어부는
    상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 상기 피크치 추출시 고려하지 않는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  7. 제1항에 있어서,
    상기 제어부는
    상기 통계값을 이용하여 확률 거리를 산출하고, 산출한 확률 거리가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하 는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  8. 제1항에 있어서,
    상기 제어부는
    상기 통계값을 이용하여 뉴럴 네트워크에 따른 유사도를 산출하고, 상기 유사도가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 하는 휴대 단말기의 소리 인식 장치.
  9. 휴대 단말기의 소리 인식 방법에 있어서,
    입력되는 소리의 피크치를 추출하는 과정과,
    상기 피크치를 이용하여 통계값을 산출하는 과정과,
    상기 통계값을 이용하여 상기 소리와 기 저장된 인식 대상 소리가 동일한 소리인지 판단하는 과정을 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  10. 제9항에 있어서,
    상기 피크치는
    n이 자연수 일 때, 1차 내지 n차의 피크치를 가지며,
    각 피크치는 양 및 음의 피크치를 가지는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  11. 제9항에 있어서,
    상기 통계값은
    상기 피크치의 평균 및 상기 피크치의 표준 편차를 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  12. 제9항에 있어서,
    상기 소리는 시간 영역의 신호 및 주파수 영역의 신호 중 어느 하나인 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  13. 제9항에 있어서,
    상기 추출하는 과정 전,
    상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 제거하는 과정을 더 포함하는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  14. 제9항에 있어서,
    상기 추출하는 과정은,
    상기 소리의 파형 중 기 설정된 임계치 미만의 레벨을 가지는 신호를 상기 피크치 추출시 고려하지 않는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  15. 제9항에 있어서,
    상기 판단하는 과정은,
    상기 통계값을 이용하여 확률 거리를 산출하고, 산출한 확률 거리가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
  16. 제9항에 있어서,
    상기 판단하는 과정은,
    상기 통계값을 이용하여 뉴럴 네트워크에 따른 유사도를 산출하고, 상기 유사도가 기 설정된 임계치 미만인 경우, 상기 소리가 상기 인식 대상 소리와 동일한 소리로 판단하는 것을 특징으로 하는 휴대 단말기의 소리 인식 방법.
KR20080014968A 2008-02-19 2008-02-19 휴대 단말기의 소리 인식 방법 및 장치 KR101496876B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR20080014968A KR101496876B1 (ko) 2008-02-19 2008-02-19 휴대 단말기의 소리 인식 방법 및 장치
US12/388,188 US8195455B2 (en) 2008-02-19 2009-02-18 Apparatus and method for sound recognition in portable device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20080014968A KR101496876B1 (ko) 2008-02-19 2008-02-19 휴대 단말기의 소리 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090089674A true KR20090089674A (ko) 2009-08-24
KR101496876B1 KR101496876B1 (ko) 2015-02-27

Family

ID=40955904

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20080014968A KR101496876B1 (ko) 2008-02-19 2008-02-19 휴대 단말기의 소리 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US8195455B2 (ko)
KR (1) KR101496876B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221327B1 (ko) * 2011-04-27 2013-01-11 한국과학기술원 도플러 효과를 이용한 단말기간 무선 통신 방법 및 이를 위한 단말기

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054890A1 (en) * 2009-08-25 2011-03-03 Nokia Corporation Apparatus and method for audio mapping
TWI403304B (zh) 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN101950564A (zh) * 2010-10-13 2011-01-19 镇江华扬信息科技有限公司 一种远程数字化语音采集分析识别系统
TWI412019B (zh) * 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
JP5339316B1 (ja) * 2012-05-31 2013-11-13 楽天株式会社 識別情報管理システム、識別情報管理システムの制御方法、情報処理装置、及びプログラム
US20160048372A1 (en) 2014-08-14 2016-02-18 Nokia Corporation User Interaction With an Apparatus Using a Location Sensor and Microphone Signal(s)
CN108511002B (zh) * 2018-01-23 2020-12-01 太仓鸿羽智能科技有限公司 危险事件声音信号识别方法、终端和计算机可读存储介质
CN109974388A (zh) * 2019-03-12 2019-07-05 长虹美菱股份有限公司 智能冰箱与门禁设备的联动系统及控制方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
KR100294921B1 (ko) * 1998-09-09 2001-07-12 윤종용 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
KR100516980B1 (ko) * 2001-03-13 2005-09-26 이상하 소리에 의한 이상유무 판별장치
US6959278B1 (en) * 2001-04-05 2005-10-25 Verizon Corporate Services Group Inc. Systems and methods for implementing segmentation in speech recognition systems
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
KR100770896B1 (ko) * 2006-03-07 2007-10-26 삼성전자주식회사 음성 신호에서 음소를 인식하는 방법 및 그 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221327B1 (ko) * 2011-04-27 2013-01-11 한국과학기술원 도플러 효과를 이용한 단말기간 무선 통신 방법 및 이를 위한 단말기

Also Published As

Publication number Publication date
KR101496876B1 (ko) 2015-02-27
US8195455B2 (en) 2012-06-05
US20090210223A1 (en) 2009-08-20

Similar Documents

Publication Publication Date Title
KR20090089674A (ko) 휴대 단말기의 소리 인식 방법 및 장치
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US10373609B2 (en) Voice recognition method and apparatus
CN108694940B (zh) 一种语音识别方法、装置及电子设备
US7620547B2 (en) Spoken man-machine interface with speaker identification
KR101699720B1 (ko) 음성명령 인식 장치 및 음성명령 인식 방법
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US11133022B2 (en) Method and device for audio recognition using sample audio and a voting matrix
CN109754808B (zh) 语音转换文字的方法、装置、计算机设备及存储介质
Park et al. Acoustic event filterbank for enabling robust event recognition by cleaning robot
KR20170010978A (ko) 통화 내용 패턴 분석을 통한 보이스 피싱 방지 방법 및 장치
CN104199545A (zh) 一种基于口型执行预设操作的方法及装置
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
CN115050372A (zh) 一种音频片段的聚类方法、装置、电子设备和介质
CN111477248B (zh) 一种音频噪声检测方法及装置
CN110010131B (zh) 一种语音信息处理的方法和装置
CN112489644A (zh) 用于电子设备的语音识别方法及装置
CN108922547B (zh) 身份的识别方法、装置及电子设备
EP1387350A1 (en) Spoken man-machine interface with speaker identification
CN112885341A (zh) 一种语音唤醒方法、装置、电子设备和存储介质
CN111813940B (zh) 一种文本的领域分类方法、装置、设备及存储介质
CN110895929B (zh) 语音识别方法及装置
Abu et al. Voice-based malay commands recognition by using audio fingerprint method for smart house applications
EP3989219B1 (en) Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190130

Year of fee payment: 5