KR102351061B1 - 음성인식방법 및 음성인식장치 - Google Patents

음성인식방법 및 음성인식장치 Download PDF

Info

Publication number
KR102351061B1
KR102351061B1 KR1020140093402A KR20140093402A KR102351061B1 KR 102351061 B1 KR102351061 B1 KR 102351061B1 KR 1020140093402 A KR1020140093402 A KR 1020140093402A KR 20140093402 A KR20140093402 A KR 20140093402A KR 102351061 B1 KR102351061 B1 KR 102351061B1
Authority
KR
South Korea
Prior art keywords
audio signal
noise
input
modeling
modeling unit
Prior art date
Application number
KR1020140093402A
Other languages
English (en)
Other versions
KR102351061B9 (ko
KR20160011988A (ko
Inventor
진문용
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020140093402A priority Critical patent/KR102351061B1/ko
Publication of KR20160011988A publication Critical patent/KR20160011988A/ko
Application granted granted Critical
Publication of KR102351061B1 publication Critical patent/KR102351061B1/ko
Publication of KR102351061B9 publication Critical patent/KR102351061B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성인식장치에 관한 것으로서, 발화가 시작되지 않은 경우 복수의 마이크에서 입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주어 각각 모델링하는 모델링부, 발화가 시작되면 현재 입력된 각각의 오디오 신호에서 상기 노이즈를 각각 제거하는 노이즈제거부, 상기 노이즈가 제거된 각각의 오디오 신호에서 상기 각각의 마이크에 입력되는 시간차에 따라 오디로 신호를 증폭하는 오디오증폭부, 상기 증폭된 오디오 신호를 레코딩하고, 발화가 종료되면 상기 레코딩된 오디오 신호에서 음성을 인식하는 제어부를 포함한다.

Description

음성인식방법 및 음성인식장치{Method and apparatus for voice recognition}
본 발명은 음성인식방법 및 음성인식장치에 관한 것으로, 보다 상세하게는 발화 시작 전에 노이즈를 모델링하고, 발화가 시작되면 현재 입력된 오디오 신호에서 노이즈를 제거하며, 노이즈가 제거된 오디오 신호를 증폭하여 레코딩하고, 음성을 인식하는 음성인식방법 및 음성인식장치에 관한 것이다.
종래 물리적인 입력대신 사용자가 별도의 동작없이 편리하게 전자 기기들을 동작시키는 음성 인식 기술이 점점 보편화되어 가고 있다. 이러한 음성 인식 기술은 통신기기, 텔레비전, 자동차 네비게이션 등 다양한 전자 기기에서 구현되고 있다.
종래의 음성 인식 기술은 사용자가 특정 프로그램을 동작시켜서, 레코딩 시작, 발화, 레코딩 종료, 음성 인식 수행 등의 과정을 거칠 것이 요구된다.
음성 인식 기술은 입력되는 음성을 통계 분석하여 구분하며, 이 때 정확한 음성 인식을 위하여 발화 상황에서의 노이즈를 최소화 시키고 최적의 발화 음량으로 오디오 신호를 레코딩하는 것이 중요하다.
이러한 상황에서 최근에는 발화 배경의 노이즈를 정확하게 설정하여 제거하고, 발화자의 오디오 신호를 정확하게 입력받아 증폭시킨 후에, 음성을 인식하는 다양한 기술이 연구 중에 있다.
본 발명이 해결하고자 하는 과제는 발화 시작 전에 노이즈를 모델링하고, 발화가 시작되면 현재 입력된 오디오 신호에서 노이즈를 제거하여, 노이즈가 제거된 오디오 신호를 증폭하여 레코딩하고, 음성을 인식하는 음성인식방법 및 음성인식장치를 제공함에 있다.
입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주어 각각 모델링하는 단계, 발화가 시작되면 현재 입력된 각각의 오디오 신호에서 노이즈를 각각 제거하는 단계, 노이즈가 제거된 각각의 오디오 신호에서 각각의 마이크에 입력되는 시간차에 따라 오디오 신호를 증폭하는 단계, 증폭된 오디오 신호를 레코딩하는 단계, 발화가 종료되면 상기 레코딩된 오디오 신호에서 음성을 인식하는 단계를 포함한다.
위에서 발화 시작 여부 판단은 발화자의 전면에 설치되어 발화자를 촬영하는 단계, 촬영된 영상에서 발화자를 분석하여 발화 여부를 판단하는 단계를 포함한다.
위에서 모델링하는 단계는 오디오 신호를 주파수 영역으로 변환하여, 최근에 입력된 오디오 신호의 주파수 영역에 더 큰 가중치를 주어 모델링하는 것을 더 포함한다.
위에서, 노이즈를 제거하는 단계는 현재 입력된 오디오 신호를 주파수 영역으로 변환하여 상기 모델링 된 노이즈와 차연산하는 것을 포함한다.
위에서 오디오 신호를 증폭하는 단계는 발화자로부터 상기 각각의 마이크에 입력되는 오디오 신호의 시간차를 측정하여, 동일한 시간차로 입력된 오디오 신호만을 증폭하는 단계를 포함한다.
본 발명에 따른 음성인식장치는, 발화가 시작되지 않은 경우 복수의 마이크에서 입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주어 각각 모델링하는 모델링부, 발화가 시작되면 현재 입력된 각각의 오디오 신호에서 상기 노이즈를 각각 제거하는 노이즈제거부, 상기 노이즈가 제거된 각각의 오디오 신호에서 상기 각각의 마이크에 입력되는 시간차에 따라 오디로 신호를 증폭하는 오디오증폭부 및 상기 증폭된 오디오 신호를 레코딩하고, 발화가 종료되면 상기 레코딩된 오디오 신호를 인식하는 제어부를 포함한다.
위에서 모델링부는 발화자의 전면에 설치되어 발화자를 촬영하는 카메라를 포함하며, 촬영된 영상에서 발화자를 분석하여 발화 여부를 판단하는 것을 더 포함 한다.
위에서 모델링부는 오디오 신호를 주파수 영역으로 변환하여, 최근에 입력된 오디오 신호의 주파수 영역에 더 큰 가중치를 주어 모델링하는 것을 더 포함한다.
위에서 노이즈제거부는 현재 입력된 오디오 신호를 주파수 영역으로 변환하여 상기 모델링 된 노이즈와 차연산하는 것을 포함한다.
위에서 오디오증폭부는 발화자로부터 상기 각각의 마이크에 입력되는 오디오 신호의 시간차를 측정하여, 동일한 시간차로 입력된 오디오 신호만을 증폭하는 것을 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 음성인식방법 및 음성인식장치에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.
첫째, 발화가 시작되지 않은 경우 복수의 마이크에서 입력된 오디오 신호를노이즈로 판단하여 설정된 시간 주기마다 모델링함으로써 노이즈를 더욱 정확하게 인식하는 장점이 있다.
둘째, 노이즈 모델링시 최근에 입력된 오디오 신호의 주파수 영역에 더 큰 가중치를 줌으로써 발화 현재 시점의 노이즈를 정확하게 포착하는 장점도 있다.
셋째, 노이즈가 제거된 발화자의 오디오 신호만을 증폭함으로써 음성 인식율을 높이는 장점도 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다
도 1은 본 발명의 일 실시예에 따른 음성인식장치를 나타낸 제어블록도이다.
도 2는 도 1에 나타낸 복수의 마이크 위치를 일 실시예를 들어 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타낸 순서도이다.
도 4는 도 3의 S120, S140 단계에 따른 모델링하는 과정을 세분화한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 본 발명의 일 실시예에 의하여 음성인식장치를 설명하기 위한 도 1과도 2를 참고하여 본 발명에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 음성인식장치를 나타낸 제어블록도이다.
본 발명의 일 실시예에 따른 음성인식장치는 모델링부(100), 노이즈제거부(200), 오디오증폭부(300), 제어부(400)를 포함한다.
모델링부(100)는 마이크 1(10)과 마이크 2(20)에서 오디오 신호를 입력 받는다.
모델링부(100)는 발화가 시작되지 않은 경우 복수의 마이크에서 입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주어 각각 모델링한다.
본 발명의 실시예에서 모델링 수단은 GMM(Gaussian Mixture Model)을 이용한다.
모델링부(100)는 마이크 1(10)과 마이크 2(20)에서 설정된 시간 주기마다 오디오 신호를 입력받는다. 모델링부(100)는 발화 전에는 각 마이크에서 입력받은 오디오 신호를 각각 모델링한다. 모델링부(100)는 발화 전에 입력되는 오디오 신호를 오디오 신호의 노이즈로 판단한다. 모델링부(100)는 최초에 마이크 1(10)과 마이크 2(20)에서 입력된 오디오 신호를 각각 주파수 영역으로 변환한다. 모델링부(100)는 GMM을 이용하여 현재 입력되어 변환된 각각의 주파수 영역을 각각 모델링한다. 모델링부(100)는 GMM을 이용하여 앞서 수행한 각각의 모델링과 함께 현재 각각 입력되어 변환된 주파수 영역을 함께 각각 모델링한다. 모델링부(100)는 설정된 시간 주기가 지나면 마이크 1(10)과 마이크 2(20)에서 다시 오디오 신호를 입력 받아 모델링을 수행한다.
모델링부(100)는 각각의 오디오 신호를 주파수 영역으로 변환하여, 최근에 입력된 오디오 신호의 주파수 영역에 더 큰 가중치를 주어 각각 모델링한다.
모델링부(100)는 설정된 시간 주기가 지날 때마다, 각 마이크에서 새로운 오디오 신호를 입력받아 각각 모델링한다. 모델링부(100)는 시간적으로 나중에 입력된 각각의 오디오 신호에 더 큰 비율의 가중치를 주어 각각 모델링한다.
상기 비율은 시간 주기에 따라 다르게 설정될 수 있다. 모델링부(100)가 현재 입력받은 오디오 신호는 먼저 입력받은 오디오 신호와 나중에 입력받은 오디오 신호의 시간차가 클수록 더 오래전에 입력받은 것이다.
즉, 설정된 시간 주기가 작으면 먼저 입력된 오디오 신호는 입력된지 상대적으로 얼마 안되므로 현재 입력되는 오디오 신호의 최근 가치가 작은 것이다. 이 경우 모델링부(100)는 가중치의 비율을 상대적으로 작게 설정할 수 있다.
또한, 설정된 시간 주기가 크면 먼저 입력된 오디오 신호는 입력된지 상대적으로 오래된 것이므로 현재 입력되는 오디오 신호의 최근 가치가 큰 것이다. 이 경우 모델링부(100)는 가중치의 비율을 상대적으로 크게 설정할 수 있다.
모델링부(100)는 설정된 시간 주기와 설정된 가중치의 관계를 나타내는 함수(function)를 포함할 수 있다.
모델링부(100)는 발화자의 전면에 설치되어 발화자를 촬영하는 카메라를 포함한다. 모델링부(100)에 설치된 카메라는 발화자가 좌석에 착석한 때부터 자동으로 동작되도록 설정될 수 있다. 모델링부(100)에 포함된 카메라는 발화자의 얼굴을 촬영한다.
모델링부(100)는 촬영된 영상에서 발화자의 얼굴을 분석한다.
모델링부(100)는 DSM(driven State Monitoring, 졸음운전방지시스템)시스템에서 입을 검출한 정보를 입력받아 촬영된 영상에서 입을 인식한다.
모델링부(100)는 촬영된 영상에서 검출된 입의 좌우 길이를 측정한다. 모델링부(100)는 촬영된 영상에서 검출된 입의 상하 길이를 측정한다. 모델링부(100)는 측정된 입의 좌우 길이와 상하 길이를 이용하여 입의 대각선 길이를 산출한다. 모델링부(100)는 입의 대각선 길이를 입크기로 정한다. 모델링부(100)는 발화자가 입을 다물고 있을 때의 대각선 길이를 기준 입크기로 정한다.
모델링부(100)에 설치된 카메라는 발화자의 입을 모니터링한다.
모델링부(100)는 발화자의 입크기가 설정된 크기 이상으로 커지는 경우 발화가 시작된 것으로 판단한다.
모델링부(100)는 발화자의 발화가 종료되었는지 여부를 판단한다.
모델링부(100)는 촬영되는 영상에서 발화자의 입크기가 기준 입크기이고, 각각의 마이크에서 입력된 오디오 신호의 크기가 각각의 노이즈 오디오 신호 크기 이하이면 발화가 종료된 것으로 판단한다.
모델링부(100)는 각 마이크에 입력되는 오디오 신호의 시간차를 각각 측정한다.
모델링부(100)는 각각의 오디오 신호를 각각 모델링한 결과와 각각의 현재 오디오 신호를 주파수 영역으로 각각 변환한 결과를 노이즈제거부(200)에 각각 출력한다.
모델링부(100)는 발화 여부 판단 결과를 노이즈제거부(200)에 출력한다.
모델링부(100)는 발화 여부 판단 결과를 제어부(400)에 출력한다.
노이즈제거부(200)는 모델링부(100)에서 오디오 신호를 각각 모델링한 결과와 현재 오디오 신호를 주파수 영역으로 각각 변환한 결과를 입력받는다.
노이즈제거부(200)는 발화가 시작되면 현재 입력된 각각의 오디오 신호에서 노이즈를 차연산하여 각각 제거한다. 노이즈제거부(200)는 모델링부(100)에서 판단된 발화 시작 여부에 대한 판단결과를 입력받는다. 노이즈제거부(200)는 현재 입력된 각각의 오디오 신호를 주파수 영역으로 변환하여 모델링 된 노이즈와 각각 차연산을 한다.
노이즈제거부(200)는 노이즈가 제거된 각각의 현재 오디오 신호를 각각 오디오증폭부에 출력한다.
오디오증폭부(300)는 노이즈제거부(200)에서 노이즈가 제거된 각각의 현재 오디오 신호를 입력받는다.
오디오증폭부(300)는 노이즈가 제거된 각각의 오디오 신호에서 각각의 마이크에 입력되는 시간차에 따라 오디로 신호를 증폭한다.
오디오증폭부(300)는 발화자로부터 각각의 마이크에 입력되는 오디오 신호의 시간차가 측정되면, 동일한 시간차로 입력된 오디오 신호만을 증폭한다.
오디오증폭부(300)는 마이크 1(10)에 먼저 입력되는 오디오 신호는 왼쪽에서 오는 오디오 신호인 것으로 간주한다. 오디오증폭부(300)는 마이크 2(20)에 먼저 입력되는 오디오 신호는 오른쪽에서 오는 오디오 신호인 것으로 간주한다. 오디오증폭부(300)는 마이크 1(10)에 먼저 입력되는 오디오 신호 및/또는 마이크 2(20)에 먼저 입력되는 오디오 신호는 증폭대상에서 제외한다.
오디오증폭부(300)는 동일한 시간차로 입력된 오디오 신호는 마이크의 정면에서 오는 것으로 간주한다. 즉 각 마이크의 정면에 착석한 발화자로부터 오는 오디오 신호인것으로 간주한다. 오디오증폭부(300)는 모델링부(100)에서 측정된 시간차가 동일한 오디오 신호를 증폭한다.
오디오증폭부(300)는 증폭한 오디오 신호를 제어부(400)에 출력한다.
제어부(400)는 모델링부(100)에서 발화 여부 판단 결과를 입력받는다.
제어부(400)는 모델링부(100)에서 발화가 종료된 것으로 판단하면 증폭된 오디오 신호를 레코딩한다.
제어부(400)는 증폭된 오디오 신호를 레코딩한다. 제어부(400)는 발화가 종료되면 레코딩된 오디오 신호에서 음성을 인식한다.
제어부(400)는 음성을 인식하여 인식된 기능을 실행하는 신호를 출력한다.
도 2는 도1에 나타낸 복수의 마이크 위치를 일 실시예를 들어 도시한 것이다.
각각의 마이크는 스티어링휠(30)의 중앙에서 왼쪽과 오른쪽에 각각 설치 될 수 있다.
이하, 본 발명의 일 실시예에 의하여 음성인식방법을 설명하기 위해 도 3과도 4를 참고하여 본 발명에 대해 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타낸 순서도인데,
모델링부(100)는 발화자의 발화 여부를 판단한다.
먼저 발화 시작 여부를 판단하기 위해 모델링부(100)는 발화자의 전면에 설치된 카메라가 발화자를 촬영한다(S100). 모델링부(100)에 설치된 카메라는 발화자가 좌석에 착석한 때부터 자동으로 동작되도록 설정될 수 있다.
모델링부(100)는 촬영된 영상에서 발화자의 얼굴을 분석한다(S110).
발화가 시작되지 않은 경우 복수의 마이크 마이크 1(10)과 마이크 2(20)에서 입력된 각각의 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주어 각각 모델링한다(S120). 발화가 시작되지 않은 경우, 즉, 발화가 시작되기 전에는 발화자의 오디오 신호는 없고, 노이즈만 있는 오디오 신호가 각각 입력되게 된다.
본 발명의 실시예에서 모델링 수단은 GMM(Gaussian Mixture Model)을 이용한다.
이 노이즈 모델링 단계(120)에서 모델링부(100)는 각각의 오디오 신호를 각각 주파수 영역으로 변환하여, 최근에 입력된 각각의 오디오 신호의 주파수 영역에 더 큰 가중치를 주어 각각 모델링한다(S140 참조).
이 S120, S140 단계에서의 노이즈 모델링 과정을 도 4를 참조하여 상세하게 설명한다. 도 4는 도 3의 S120, S140 단계에 따른 노이즈 모델링 과정을 세분화한 순서도이다.
모델링부(100)는 설정된 시간 주기마다 각각의 마이크, 마이크 1(10)과 마이크 2(20)에서 각각 오디오 신호를 입력받는다(S300).
모델링부(100)는 발화 전에 입력되는 각각의 오디오 신호를 각각 오디오 신호의 노이즈로 판단한다. 모델링부(100)는 발화 전에 각 마이크에서 입력받은 각각의 오디오 신호를 각각 주파수 영역으로 변환한다(S310). 모델링부(100)는 GMM을 이용하여 현재 입력되어 변환된 각각의 주파수 영역을 각각 모델링한다(S320). 모델링부(100)는 GMM을 이용하여 앞서 수행한 각각의 모델링과 함께 현재 각각 입력되어 변환된 주파수 영역을 가중치를 주어 함께 각각 모델링한다(S320).
모델링부(100)는 설정된 시간 주기가 지날 때마다, 마이크 1(10)과 마이크 2(20)에서 에서 각각 새로운 오디오 신호를 입력받아 각각 모델링한다.
가중치를 주는 방법에 대해 일 실시예를 들어 설명하면, 모델링부(100)는 설정된 시간 주기가 지날때마다, 각 마이크에서 새로운 오디오 신호를 입력받아 각각 모델링한다. 모델링부(100)는 시간적으로 나중에 입력된 각각의 오디오 신호에 더 큰 비율의 가중치를 주어 각각 모델링한다.
상기 비율은 시간 주기에 따라 다르게 설정될 수 있다. 모델링부(100)가 현재 입력받은 오디오 신호는 먼저 입력받은 오디오 신호와 나중에 입력받은 오디오 신호의 시간차가 클수록 더 오래전에 입력받은 것이다.
즉, 설정된 시간 주기가 작으면 먼저 입력된 오디오 신호는 입력된지 상대적으로 얼마 안되므로 현재 입력되는 오디오 신호의 최근 가치는 작다. 이 경우 모델링부(100)는 가중치의 비율을 상대적으로 작게 설정할 수 있다.
또한, 설정된 시간 주기가 크면 먼저 입력된 오디오 신호는 입력된지 상대적으로 오래된 것이므로 현재 입력되는 오디오 신호의 최근 가치는 크다. 이 경우 모델링부(100)는 가중치의 비율을 상대적으로 크게 설정할 수 있다.
모델링부(100)는 설정된 시간 주기와 설정된 가중치의 관계를 나타내는 함수(function)를 포함할 수 있다.
모델링부(100)는 발화자를 분석하여 발화 시작 여부를 판단한다(S120).
모델링부(100)는 DSM(driven State Monitoring, 졸음운전방지시스템)시스템에서 입을 검출한 정보를 입력받아 촬영된 영상에서 입을 인식한다. 모델링부(100)는 촬영된 영상에서 검출된 입의 좌우 길이를 측정한다. 모델링부(100)는 촬영된 영상에서 검출된 입의 상하 길이를 측정한다. 모델링부(100)는 측정된 입의 좌우 길이와 상하 길이를 이용하여 입의 대각선 길이를 산출한다. 모델링부(100)는 입의 대각선 길이를 입크기로 정한다. 모델링부(100)는 발화자가 입을 다물고 있을 때의 대각선 길이를 기준 입크기로 정한다.
모델링부(100)는 발화자의 입크기가 설정된 크기 이상으로 커지는 경우 발화가 시작된 것으로 판단한다.
모델링부(100)에 설치된 카메라는 발화자의 입을 계속 모니터링하여 추후 발화 종료 여부를 판단한다.
모델링부(100)는 발화가 시작되지 않으면, 즉, 발화 시작 전에, 앞에서 언급한 것과 같이, 입력된 각각의 오디오 신호를 각각주파수 영역으로 변환하여, 최근에 입력된 각각의 오디오 신호의 주파수 영역에 더 큰 가중치를 주어 각각 모델링한다(S140).
모델링부(100)는 발화가 시작되면 현재 입력된 각각의 오디오 신호에서 상기 발화시작 전에 모델링된 노이즈를 차연산하여 각각 제거한다.
즉 모델링부(100)는 발화가 시작되면 현재 입력된 각각의 오디오 신호를 주파수 영역으로 각각 변환한다(S150). 모델링부(100)는 각각 변환된 주파수 영역과 각각 모델링된 노이즈를 각각 노이즈제거부(200)에 출력한다.
또한 노이즈제거부(200)는 모델링부(100)에서 변환되어 입력된 각각의 현재의 주파수 영역에서 각각 모델링된 노이즈를 각각 제거한다(S160). 노이즈제거부(200)는 현재 입력된 각각의 오디오 신호를 주파수 영역으로 변환하여 각각 모델링 된 노이즈와 각각 차연산을 한다(S160).
상기 차연산에 의해 현재 입력받은 각각의 오디오 신호에서 가장 최근에 모델링된 노이즈가 있는 각각의 오디오 신호가 제거된다. 이에 의해 발화자의 오디오 신호가 명확해진다.
오디오증폭부(300)는 노이즈제거부(200)에서 차연산 된 각각의 오디오 신호를 입력받는다.
오디오증폭부(300)는 노이즈가 제거된 각각의 오디오 신호에서 상기 각각의 마이크에 입력되는 시간차가 동일한 오디오 신호만을 증폭한다(S170).
오디오 증폭 과정에 대해 설명하면,
모델링부(100)가 각 마이크에 입력되는 오디오 신호의 시간차를 측정한다.
오디오증폭부(300)는 마이크 1(10)에 먼저 입력되는 오디오 신호는 왼쪽에서 오는 오디오 신호인 것으로 간주하고, 마이크 2(20)에 먼저 입력되는 오디오 신호는 오른쪽에서 오는 오디오 신호인 것으로 간주한다.
오디오증폭부(300)는 마이크 1(10)에 먼저 입력되는 오디오 신호 및/또는 마이크 2(20)에 먼저 입력되는 오디오 신호는 증폭대상에서 제외한다.
오디오증폭부(300)는 동일한 시간차로 입력된 오디오 신호는 마이크의 정면에서 오는 것으로 간주한다. 즉 각 마이크의 정면에 착석한 발화자로부터 오는 오디오 신호인것으로 간주한다. 오디오증폭부(300)는 모델링부(100)에서 측정된 시간차가 동일한 오디오 신호를 증폭한다.
제어부(400)는 증폭부(300)에서 증폭된 오디오 신호와, 모델링부(100)에서 발화 여부 판단 결과를 입력 받는다.
제어부(400)는 모델링부(100)에서 발화가 종료된 것으로 판단하면 증폭된 오디오 신호를 레코딩한다(S180).
모델링부(100)는 발화자의 발화가 종료되었는지 여부를 판단한다(S190).
모델링부(100)는 촬영되는 영상에서 발화자의 입크기가 기준 입크기이고, 각각의 마이크에서 입력된 오디오 신호의 크기가 배경의 오디호 신호 크기 이하이면 발화가 종료된 것으로 판단한다.
발화가 종료되면 제어부(400)는 레코딩된 오디오 신호에서 음성을 인식한다(S200).
제어부(400)는 음성을 인식하여 인식된 기능을 실행하는 신호를 출력한다(S210).
삭제
삭제
삭제
삭제
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100 : 모델링부
200 : 노이즈제거부
300 : 오디오증폭부
400 : 제어부

Claims (10)

  1. 카메라로 발화자를 촬영하여 촬영 영상에서 발화자의 입 크기를 분석하여 발화자의 발화 여부를 판단하는 단계;
    상기 발화 여부 판단 단계의 판단 결과, 발화가 시작되지 않은 경우 복수의 다른 위치에 있는 마이크에 입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주되, 시간적으로 나중에 입력된 오디오 신호에 더 큰 가중치를 주어 각각 모델링하는 단계;
    발화가 시작되면 상기 복수의 마이크 각각에 입력되는 오디오 신호에서 상기 발화가 시작되지 않은 경우에 상기 모델링 단계에서 모델링된 노이즈를 차연산하여 각각 제거하는 단계;
    상기 노이즈가 제거된 각각의 오디오 신호에서 상기 각각의 마이크에 입력되는 시간차에 따라 오디오 신호를 증폭하되, 동일한 시간차로 입력된 오디오 신호만을 증폭하는 단계;
    상기 증폭된 오디오 신호를 레코딩하는 단계; 및
    상기 발화 여부 판단 단계를 실행하여 발화가 종료된 것으로 판단되면 상기 레코딩된 오디오 신호에서 음성을 인식하는 단계를 포함하는 음성인식방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 모델링하는 단계는 각각의 오디오 신호를 주파수 영역으로 변환하여, 변환된 오디오 신호의 주파수 영역에 상기 가중치를 주는 것을 포함하는 음성인식방법.
  4. 제 1 항에 있어서 상기 모델링된 노이즈를 제거하는 단계는
    현재 입력된 오디오 신호를 주파수 영역으로 변환하여 상기 모델링 된 노이즈와 차연산을 하는 것을 포함하는 음성인식방법.
  5. 삭제
  6. 발화자를 촬영한 영상에서 발화자의 입 크기를 분석하여, 발화가 시작되지 않은 경우 복수의 다른 위치에 있는 마이크에 입력된 오디오 신호를 노이즈로 판단하여 설정된 시간 주기마다 가중치를 주되, 시간적으로 나중에 입력된 오디오 신호에 더 큰 가중치를 주어 각각 모델링하는 모델링부;
    발화가 시작되면 상기 복수의 마이크 각각에 입력되는 오디오 신호에서 상기 발화가 시작되지 않은 경우에 상기 모델링부에서 모델링된 노이즈를 차연산하여 각각 제거하는 노이즈제거부;
    상기 노이즈가 제거된 각각의 오디오 신호에서 상기 복수의 마이크 각각에 입력되는 시간차에 따라 오디오 신호를 증폭하되, 동일한 시간차로 입력된 오디오 신호만을 증폭하는 오디오증폭부; 및
    상기 증폭된 오디오 신호를 레코딩하고, 상기 모델링부로부터 발화가 종료됨을 전달받아 상기 레코딩된 오디오 신호에서 음성을 인식하는 제어부를 포함하는 음성인식장치.
  7. 삭제
  8. 제 6 항에 있어서
    상기 모델링부는 각각의 오디오 신호를 주파수 영역으로 변환하여, 변환된 오디오 신호의 주파수 영역에 상기 가중치를 주는 것을 특징으로 하는 음성인식장치.
  9. 제 6 항에 있어서
    상기 노이즈제거부는 현재 입력된 각각의 오디오 신호를 주파수 영역으로 변환하여 상기 모델링 된 노이즈와 각각 차연산을 하는 것을 포함하는 음성인식장치.
  10. 삭제
KR1020140093402A 2014-07-23 2014-07-23 음성인식방법 및 음성인식장치 KR102351061B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140093402A KR102351061B1 (ko) 2014-07-23 2014-07-23 음성인식방법 및 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140093402A KR102351061B1 (ko) 2014-07-23 2014-07-23 음성인식방법 및 음성인식장치

Publications (3)

Publication Number Publication Date
KR20160011988A KR20160011988A (ko) 2016-02-02
KR102351061B1 true KR102351061B1 (ko) 2022-01-13
KR102351061B9 KR102351061B9 (ko) 2023-05-11

Family

ID=55354490

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140093402A KR102351061B1 (ko) 2014-07-23 2014-07-23 음성인식방법 및 음성인식장치

Country Status (1)

Country Link
KR (1) KR102351061B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102141150B1 (ko) * 2018-12-31 2020-08-04 서울시립대학교 산학협력단 화자종속 언어모델을 이용한 화자인식 장치 및 화자인식 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316399A (ja) 2002-04-17 2003-11-07 It Magic Co Ltd 騒音除去方法及びそのシステム
US20120059648A1 (en) * 2000-07-19 2012-03-08 Burnett Gregory C Voice Activity Detector (VAD) -Based Multiple-Microphone Acoustic Noise Suppression

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100262602B1 (ko) * 1996-12-31 2000-08-01 정몽규 시간별 가중치에 의한 음성신호 검출방법
KR20090111739A (ko) * 2008-04-22 2009-10-27 한국전자통신연구원 잡음 제거 장치 및 방법
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
KR101987966B1 (ko) * 2012-09-03 2019-06-11 현대모비스 주식회사 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059648A1 (en) * 2000-07-19 2012-03-08 Burnett Gregory C Voice Activity Detector (VAD) -Based Multiple-Microphone Acoustic Noise Suppression
JP2003316399A (ja) 2002-04-17 2003-11-07 It Magic Co Ltd 騒音除去方法及びそのシステム

Also Published As

Publication number Publication date
KR102351061B9 (ko) 2023-05-11
KR20160011988A (ko) 2016-02-02

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9595259B2 (en) Sound source-separating device and sound source-separating method
CA2795189C (en) Automatic gain control
US20210256971A1 (en) Detection of replay attack
GB2604496A (en) Methods, apparatus and systems for biometric processes
CN102388416B (zh) 信号处理装置及信号处理方法
JP2018156044A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9959886B2 (en) Spectral comb voice activity detection
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
CN103578470A (zh) 一种电话录音数据的处理方法及系统
JP2010112994A (ja) 音声処理装置、音声処理方法およびプログラム
Nakagawa et al. Dual microphone solution for acoustic feedback cancellation for assistive listening
US20200251120A1 (en) Method and system for individualized signal processing of an audio signal of a hearing device
JP5251808B2 (ja) 雑音除去装置
KR102351061B1 (ko) 음성인식방법 및 음성인식장치
JP3838159B2 (ja) 音声認識対話装置およびプログラム
KR101811716B1 (ko) 음성 인식 방법 및 그에 따른 음성 인식 장치
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JP2018087838A (ja) 音声認識装置
JP2005338454A (ja) 音声対話装置
JP4510539B2 (ja) 特定話者音声出力装置及び特定話者判定プログラム
JP2010164992A (ja) 音声対話装置
KR20220104693A (ko) 라이브 스피치 검출
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2009025025A (ja) 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]