KR20150031896A - 음성인식장치 및 그 동작방법 - Google Patents

음성인식장치 및 그 동작방법 Download PDF

Info

Publication number
KR20150031896A
KR20150031896A KR20130111673A KR20130111673A KR20150031896A KR 20150031896 A KR20150031896 A KR 20150031896A KR 20130111673 A KR20130111673 A KR 20130111673A KR 20130111673 A KR20130111673 A KR 20130111673A KR 20150031896 A KR20150031896 A KR 20150031896A
Authority
KR
South Korea
Prior art keywords
data
speech
voice
location
speech recognition
Prior art date
Application number
KR20130111673A
Other languages
English (en)
Inventor
김동현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR20130111673A priority Critical patent/KR20150031896A/ko
Priority to US14/224,427 priority patent/US9514751B2/en
Publication of KR20150031896A publication Critical patent/KR20150031896A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

실시 예는, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈을 포함하는 음성인식장치를 제공한다.

Description

음성인식장치 및 그 동작방법{Speech recognition device and the operation method}
실시 예는 음성인식장치 및 그 동작방법에 관한 것으로서, 더욱 상세하게는 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터 입력시, 멀티센서 데이터를 이용하여 음성 데이터에 대한 음성 인식 성능을 향상시키기 용이한 음성인식장치 및 그 동작방법에 관한 것이다.
기존에 음성 이외의 정보를 이용하여 음성인식 성능을 향상시키는 기술에는 카메라 영상 정보와 음성 정보를 함께 사용하는 방법이 있다.
이러한 방법에는 직접적인 입력으로써 음성과 입술 영상을 함께 처리하는 오디오-비주얼(Audio-Visual) 음성인식 분야가 있는데, 영상 정보는 입모양 읽기(lip-reading)을 하기 위한 수단으로 이용하는 방법과 잡음에 민감한 오디오의 음향 모델을 보조하는 수단으로 연구되었다. 이러한 방법은 입술영상을 통한 음성과의 매칭을 기본으로 음향모델을 위한 추가적인 특징정보를 활용하는 방법이다.
간접적인 방법으로는 음성 끝점추출 방법의 한가지로 잡음이 심한 자동차내에서 음성인식을 하기 위해 입모양을 추적하여 음성의 시작점과 끝점을 잡아내는 기술에도 적용되었다.
최근들어, 단말기에 포함된 멀티센서를 이용하여 음성 검출하는 방법에 대한 연구가 진행 중에 있다.
실시 예의 목적은, 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터 입력시, 멀티센서 데이터를 이용하여 음성 데이터에 대한 음성 인식 성능을 향상시키기 용이한 음성인식장치 및 그 동작방법을 제공함에 있다.
실시 예에 따른 음성인식장치는, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈을 포함한다.
실시 예에 따른 멀티센서 데이터는, 상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함한다.
실시 예에 따른 모델선정모듈은, 상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부, 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부, 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부 및 상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 선정부를 포함한다.
실시 예에 따른 모델선정모듈은, 상기 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 상기 복수의 언어 및 음향 모델을 저장하는 데이터베이스를 더 포함한다.
실시 예에 따른 음성인식모듈은, 상기 음성 데이터에서 상기 특징 벡터를 추출하는 전처리부 및 상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식부를 포함한다.
실시 예에 따른 전처리부는, 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출한다.
실시 예에 따른 음성인식장치의 동작방법은, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 단계, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 단계 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계를 포함한다.
실시 예에 따른 멀티센서 데이터는, 상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함한다.
실시 예에 따른 선정 단계는, 상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 단계, 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 단계, 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 단계 및 상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 단계를 포함한다.
실시 예에 따른 전송 단계는, 상기 음성 데이터에서 상기 특징 벡터를 추출하는 단계 및 상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계를 포함한다.
실시 예에 따른 추출 단계는, 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출한다.
실시 예에 따른 음성인식장치 및 그 동작방법은, 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터를 이용하여, 화자의 음성 입력시 입력 환경에 접합한 음향 모델 및 언어 모델을 선정하여, 음성 데이터에 대한 음성 인식 성능을 향상시킨 결과를 음성인식 단말기로 전송할 수 있는 이점이 있다.
또한, 실시 예에 따른 음성인식장치 및 그 동작방법은, 음성인식 단말기와 별도로 구비됨으로 음성인식 단말기의 메모리 용량을 줄일 수 있는 이점이 있다.
도 1은 실시 예에 따른 음성인식장치의 제어구성을 나타낸 제어 블록도이다.
도 2는 실시 예에 따른 음성인식장치의 동작방법을 나타낸 순서도이다.
도 3은 도 2에 나타낸 언어모델 선정 단계를 나타낸 순서도이다.
도 4는 도 2에 나타낸 음향모델 선정 단계를 나타낸 순서도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 실시 예에 따른 음성인식장치의 제어구성을 나타낸 제어 블록도이다.
도 1을 참조하면, 음성인식장치는 통신모듈(110), 모델선정모듈(120) 및 음성인식모듈(130)을 포함할 수 있다.
실시 예에서, 음성인식장치는 음성인식서버일 수 있으며, 음성인식 단말기(10)와 별도로 구비된 장치일 수 있으며, 이에 한정을 두지 않는다.
통신모듈(110)은 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터(s1) 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터(s2)를 수신한다.
이때, 통신모듈(110)은 음성 데이터(s1) 및 멀티센서 데이터(s2)를 구분하여, 모델선정모듈(120) 및 음성인식모듈(130)로 전달할 수 있다.
먼저, 모델선정모듈(120)은 추정부(122), 데이터베이스(124) 및 선정부(126)를 포함할 수 있다.
음성인식 단말기(10)는 화자로부터 음성이 마이크(미도시)로 입력시, 상기 화자와 음성인식 단말기(10) 사이의 거리에 대한 근접 데이터를 생성하는 근접센서(미도시), 상기 화자의 영상을 촬영하여 영상 데이터를 생성하는 카메라(미도시) 및 상기 화자, 즉 음성인식 단말기(10)의 위치 및 장소에 대한 위치 데이터를 생성하는 와이파이(wifi) 및 GPS를 포함할 수 있다.
즉, 멀티센서 데이터(s2)는 상술한 바와 같은 상기 근접 데이터, 상기 영상 데이터 및 상기 위치 데이터 중 적어도 하나를 포함할 수 있으며, 이에 한정을 두지 않는다.
여기서, 추정부(122)는 상기 위치 데이터를 기반으로 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부(122a), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부(122b) 및 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부(122c)를 포함할 수 있다.
실시 예에서, 추정부(122)는 제1 내지 제3 추정부(122a ~ 122c)로 나타내고 설명하지만, 그 개수에 대하여 한정을 두지 않는다.
상기 위치 데이터는 위치기반 서비스(LBS: location based service)에 의해 생성될 수 있으며, 상기 위치기반 서비스(LBS)는 위치정보의 수집, 이용, 제공과 관련한 모든 유형의 서비스를 지칭하며 통신망이나 GPS를 통해 얻은 위치 정보를 바탕으로 사용자에게 유용한 기능을 제공하는 서비스에 사용되는 기술을 통칭한다.
상기 위치기반 서비스(LBS)는 위치측정 방식에 따라 네트워크 기반방식과 위성신호 기반방식, WiFi 신호 기반 방식, 혼합 측정 방식으로 나눌 수 있다.
네트워크 기반방식은 이동통신사 기지국의 위치 값과 기지국과 단말기간의 거리 등을 측정하여 위치를 계산하는 방식이고, 위성신호 기반방식은 GPS(global positioning system) 위성에서 송신하는 신호를 바탕으로 위치를 계산하는 방식이다. WiFi 신호 기반은 네트워크 기반의 일종으로 WiFi AP(access point)의 위치를 조회하여 단말기의 위치값을 측정하는 방식으로 WPS(WiFi positioning system)라고도 한다. 그리고 혼합측정 기반은 네트워크 기반과 위성신호 기반, WiFi 신호 기반방식의 위치를 조합하여 단말기의 위치를 측정하는 방법으로 XPS(hybrid positioning system ) 라고도 한다.
또한, 상기 연령 데이터는 얼굴인식 기술을 적용하여 화자의 연령을 추정할 수 있다. 여기서, 상기 얼굴인식 기술은 영상처리나 패턴인식, 컴퓨터 비전과 신경망과 같은 다양한 분야에서 현재 활발이 개발되고 있는 영역으로 정지 영상 및 동영상을 이용하여 사람을 인증을 하거나, 동일인을 추적하거나, 얼굴을 복원하는 등 다양하게 응용되고 있다.
얼굴 영상 인식은 크게 얼굴 영역의 분리, 얼굴 특징의 추출, 그리고 분류 과정으로 구성된다. 전통적인 에지(edge) 추출 영상을 사용하는 방법부터 명도 영상을 함께 사용하는 방법 등으로 얼굴 영역을 분리해 내고, 데이터의 고유벡터를 사용하는 KL(Karhunen-Loeve)변환과 같은 통계적인 방법과 눈, 코, 입술 등의 위치와 거리를 활용하는 구조적 방법으로 특징 추출을 하고 있다. 그리고 얼굴 인식을 위해서 통계적인 방법으로 고유영상(eigenpicture) 또는 고유얼굴(eigenface)라고 불리는 특징 벡터를 사용할 수 있는데, 입력된 영상은 고유얼굴에 의해 차원이 축소된 가중치 벡터로 표현이 가능하여, 가중치 벡터간의 거리값으로 유사성을 인식하는 방법이 있다. 신경망을 이용한 얼굴 인식 방법에는 눈썹의 두께, 코와 입의 넓이 등의 수치적 특징을 입력으로 이용하여 성별 분류, 얼굴 표정 인식 등을 할 수 있는 신경망 개발 방법이 있었다. 또한 측면 얼굴 인식과 3차원 얼굴 인식 방법도 개발되고 있다.
이러한 얼굴인식 기술의 발전과 공개 API의 보급으로 여러가지 활용 제품들이 나오고 있는데, 일본에서는 얼굴 인식으로 나이를 추정하여 담배를 파는 담배 자판기 제품도 있고, 최근에는 성별과 나이를 구별하여 광고를 디스플레이 하는 기술 제품도 나오고 있다. 특히 성별과 연령대를 구별하는 기술에는 머리 모양, 눈가, 입가의 주름과 잡티를 중심으로 얼굴 기관의 형상을 눈꼬리와 같은 방향과 눈의 크기와 같은 거리라는 매개변수로 특징을 추출하고, 이러한 특징과 위치관계를 통계적인 패턴인식과 회기 분석을 통한 추정방법 등이 사용되고 있다.
따라서, 제2 추정부(122b)는 카메라를 이용한 얼굴인식에서 성별 분류와 연령추정 성능이 향상됨에 따라 음성인식 위한 보조 정보로 화자의 성별 및 연령대를 추정하는 정보를 음성과 함께 전달하여 기 분류된 음향 및 언어모델에서 화자에 적합한 성별 및 연령대의 모델을 이용한 음성인식을 할 수 있다.
상기 근접 데이터는 음성인식 단말기(10)에 음성 입력시, 음성 외에 배경 소리의 신호대잡음비를 추정할 수 있도록 할 수 있다.
일반적으로 신호대잡음비는 무음 구간의 에너지와 음성 구간의 에너지를 측정하여 결정된다. 그리고 음성구간의 에너지를 측정하기 전에 배경 음만 가지고 전체 신호 대 잡음비를 추정하는 방법도 제안되고 있다.
상기 근접 데이터는 음성 녹음할 때 무음 구간인 배경 소리의 데시벨(db) 분석을 하는 방법과 녹음 마이크와 사람 얼굴과의 거리를 측정하는 근접센서(proximity sensor)를 함께 이용하여 신호대잡음비를 추정한다.
이 방법은 배경 소리(VN )만으로 신호대잡음비를 추정하는 방법에서 음성 녹음할 때 주변이 시끄러우면 마이크를 가까이 내는 습관을 차용한 것으로 배경 소리 데시벨에 마이크와의 거리값(D)을 보정계수(α)와 함께 설정하여 실제 잡음이 많고 적은 경우간의 차이를 뚜렷이 나타낼 수 있다. 그리고 작은 목소리로 마이크 가까이 녹음하는 경우도 처리해야 하기 때문에, 실제 음성(VS)의 데시벨을 측정하여 근접센서에서 나타낸 거리값 데이터와의 상관 관계를 측정한 [수학식 1]과 같이 하나의 예로 나타내어 추정할 수 있다.
Figure pat00001
데이터베이스(124)는 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 복수의 언어 및 음향 모델을 구분하여 저장할 수 있다.
즉, 데이터베이스(124)는 상기 음성 입력 환경에 대하여, 이전 멀티센서 데이터 입력시 추가적으로 업데이트할 수 있으며 이에 한정을 두지 않는다.
선정부(126)는 제1 내지 제3 추정부(122a ~ 122c)에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 통하여, 데이터베이스(124)에 저장된 상기 복수의 언어 및 음향 모델 중 대응하는 임의의 언어 및 음향 모델을 선정하여, 음성인식부(130)로 전달한다.
예를 들면, 선정부(126)는 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령대에 부합되는 상기 임의의 언어모델을 선정한다.
또한, 선정부(126)는 상술한 바와 같이 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령 및 제3 추정부(122c)에서 추정된 상기 신호대잡음비를 통하여 상기 임의의 음향모델을 선정한다.
음성인식모듈(130)은 전처리부(132) 및 음성인식부(134)를 포함할 수 있다.
전처리부(132)는 상기 음성 데이터에서 상기 특징 벡터를 추출한다. 즉 전처리부(132)는 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출할 수 있다.
이후, 음성인식부(134)는 상기 특징 벡터를 선정부(126)에서 선정된 상기 임의의 언어 및 음향 모델에 적용하여 상기 음성 데이터에 대한 음성인식결과를 음성인식 단말기(10)로 전송되게 통신모듈(110)을 제어한다.
도 2는 실시 예에 따른 음성인식장치의 동작방법을 나타낸 순서도, 도 3은 도 2에 나타낸 언어모델 선정 단계를 나타낸 순서도 및 도 4는 도 2에 나타낸 음향모델 선정 단계를 나타낸 순서도이다.
도 2를 참조하면, 음성인식장치는 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하고(S110), 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하고(S120) 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기(10)로 전송한다.
여기서, 도 3를 참조하면, 음성인식장치는 (S120) 단계에서 임의의 언어 모델 선정시, 상기 위치 데이터를 기반으로 음성인식 단말기(10)의 위치 및 장소를 추정하고(S210), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하여(S220), 상기 위치 및 장소 및 상기 연령을 기반으로 상기 임의의 언어 모델을 선정한다(S230).
또한, 도 4를 참조하면, 음성인식장치는 (S120) 단계에서 임의의 음향 모델 선정시, 상기 위치 데이터를 기반으로 음성인식 단말기(10)의 위치 및 장소를 추정하고(S310), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하여(S320), 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하고(S330), 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 음향 모델을 선정한다(S340).
즉, 통신모듈(110)은 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터(s1) 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터(s2)를 수신한다.
이때, 통신모듈(110)은 음성 데이터(s1) 및 멀티센서 데이터(s2)를 구분하여, 모델선정모듈(120) 및 음성인식모듈(130)로 전달할 수 있다.
추정부(122)는 상기 위치 데이터를 기반으로 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부(122a), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부(122b) 및 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부(122c)를 포함할 수 있다.
따라서, 제2 추정부(122b)는 카메라를 이용한 얼굴인식에서 성별 분류와 연령추정 성능이 향상됨에 따라 음성인식 위한 보조 정보로 화자의 성별 및 연령대를 추정하는 정보를 음성과 함께 전달하여 기 분류된 음향 및 언어모델에서 화자에 적합한 성별 및 연령대를 나타낸 음향 및 언어모델을 선정 할 수 있다.
데이터베이스(124)는 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 복수의 언어 및 음향 모델을 구분하여 저장할 수 있다.
즉, 데이터베이스(124)는 상기 음성 입력 환경에 대하여, 이전 멀티센서 데이터 입력시 추가적으로 업데이트할 수 있으며 이에 한정을 두지 않는다.
선정부(126)는 제1 내지 제3 추정부(122a ~ 122c)에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 통하여, 데이터베이스(124)에 저장된 상기 복수의 언어 및 음향 모델 중 대응하는 임의의 언어 및 음향 모델을 선정하여, 음성인식부(130)로 전달한다.
예를 들면, 선정부(126)는 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령대에 부합되는 상기 임의의 언어모델을 선정한다.
또한, 선정부(126)는 상술한 바와 같이 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령 및 제3 추정부(122c)에서 추정된 상기 신호대잡음비를 통하여 상기 임의의 음향모델을 선정한다.
음성인식모듈(130)은 전처리부(132) 및 음성인식부(134)를 포함할 수 있다.
전처리부(132)는 상기 음성 데이터에서 상기 특징 벡터를 추출한다. 즉 전처리부(132)는 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출할 수 있다.
이후, 음성인식부(134)는 상기 특징 벡터를 선정부(126)에서 선정된 상기 임의의 언어 및 음향 모델에 적용하여 상기 음성 데이터에 대한 음성인식결과를 음성인식 단말기(10)로 전송되게 통신모듈(110)을 제어한다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
110: 통신모듈 120: 모델선정모듈
130: 음성인식모듈

Claims (11)

  1. 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈;
    이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈; 및
    상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈;을 포함하는 음성인식장치.
  2. 제 1 항에 있어서,
    상기 멀티센서 데이터는,
    상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함하는 음성인식장치.
  3. 제 2 항에 있어서,
    상기 모델선정모듈은,
    상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부;
    상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부;
    상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부; 및
    상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 선정부;를 포함하는 음성인식장치.
  4. 제 2 항에 있어서,
    상기 모델선정모듈은,
    상기 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 상기 복수의 언어 및 음향 모델을 저장하는 데이터베이스;를 더 포함하는 음성인식장치.
  5. 제 1 항에 있어서,
    상기 음성인식모듈은,
    상기 음성 데이터에서 상기 특징 벡터를 추출하는 전처리부; 및
    상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식부;를 포함하는 음성인식장치.
  6. 제 5 항에 있어서,
    상기 전처리부는,
    상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출하는 음성인식장치.
  7. 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 단계;
    이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 단계; 및
    상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계;를 포함하는 음성인식장치의 동작방법.
  8. 제 7 항에 있어서,
    상기 멀티센서 데이터는,
    상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함하는 음성인식장치의 동작방법.
  9. 제 7 항에 있어서,
    상기 선정 단계는,
    상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 단계;
    상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 단계;
    상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 단계; 및
    상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 단계;를 포함하는 음성인식장치의 동작방법.
  10. 제 7 항에 있어서,
    상기 전송 단계는,
    상기 음성 데이터에서 상기 특징 벡터를 추출하는 단계; 및
    상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계;를 포함하는 음성인식장치의 동작방법.
  11. 제 9 항에 있어서,
    상기 추출 단계는,
    상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출하는 음성인식장치의 동작방법.
KR20130111673A 2013-09-17 2013-09-17 음성인식장치 및 그 동작방법 KR20150031896A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR20130111673A KR20150031896A (ko) 2013-09-17 2013-09-17 음성인식장치 및 그 동작방법
US14/224,427 US9514751B2 (en) 2013-09-17 2014-03-25 Speech recognition device and the operation method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130111673A KR20150031896A (ko) 2013-09-17 2013-09-17 음성인식장치 및 그 동작방법

Publications (1)

Publication Number Publication Date
KR20150031896A true KR20150031896A (ko) 2015-03-25

Family

ID=52668744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130111673A KR20150031896A (ko) 2013-09-17 2013-09-17 음성인식장치 및 그 동작방법

Country Status (2)

Country Link
US (1) US9514751B2 (ko)
KR (1) KR20150031896A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468892B2 (en) 2019-10-10 2022-10-11 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus
WO2024029851A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 음성 인식 방법

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
EP2325838A1 (en) * 2009-10-27 2011-05-25 verbavoice GmbH A method and system for transcription of spoken language
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10446138B2 (en) 2017-05-23 2019-10-15 Verbit Software Ltd. System and method for assessing audio files for transcription services
US11022511B2 (en) 2018-04-18 2021-06-01 Aron Kain Sensor commonality platform using multi-discipline adaptable sensors for customizable applications
US10810996B2 (en) 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning
WO2020110808A1 (ja) * 2018-11-30 2020-06-04 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
US20220157293A1 (en) * 2019-04-08 2022-05-19 Sony Group Corporation Response generation device and response generation method
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
US11257493B2 (en) * 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
KR20190114938A (ko) * 2019-09-20 2019-10-10 엘지전자 주식회사 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법
CN113554569B (zh) * 2021-08-04 2022-03-08 哈尔滨工业大学 基于双记忆字典的人脸图像复原系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US7433327B2 (en) * 2003-10-09 2008-10-07 Hewlett-Packard Development Company, L.P. Method and system for coordinating communication devices to create an enhanced representation of an ongoing event
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US9009053B2 (en) 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US9654609B2 (en) * 2011-12-16 2017-05-16 Qualcomm Incorporated Optimizing audio processing functions by dynamically compensating for variable distances between speaker(s) and microphone(s) in an accessory device
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US20140142928A1 (en) * 2012-11-21 2014-05-22 Harman International Industries Canada Ltd. System to selectively modify audio effect parameters of vocal signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468892B2 (en) 2019-10-10 2022-10-11 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus
WO2024029851A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 음성 인식 방법

Also Published As

Publication number Publication date
US20150081288A1 (en) 2015-03-19
US9514751B2 (en) 2016-12-06

Similar Documents

Publication Publication Date Title
KR20150031896A (ko) 음성인식장치 및 그 동작방법
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US9595259B2 (en) Sound source-separating device and sound source-separating method
EP3791390B1 (en) Voice identification enrollment
CN107910011B (zh) 一种语音降噪方法、装置、服务器及存储介质
CN107702706B (zh) 路径确定方法、装置、存储介质及移动终端
EP3164871B1 (en) User environment aware acoustic noise reduction
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
CN105161093A (zh) 一种判断说话人数目的方法及系统
CN112088315A (zh) 多模式语音定位
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
Choi et al. Acoustic and visual signal based context awareness system for mobile application
CN109829691B (zh) 基于位置和深度学习多重生物特征的c/s打卡方法和装置
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
CN110503957A (zh) 一种基于图像去噪的语音识别方法及装置
CN110544479A (zh) 一种去噪的语音识别方法及装置
JP2017120609A (ja) 感情推定装置、感情推定方法及びプログラム
CN113343831A (zh) 视频中说话人分类方法、装置、电子设备和存储介质
CN110765868A (zh) 唇读模型的生成方法、装置、设备及存储介质
CN114556469A (zh) 数据处理方法、装置、电子设备和存储介质
Savran et al. Energy and computation efficient audio-visual voice activity detection driven by event-cameras
JP7178331B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20140093459A (ko) 자동 통역 방법
CN114783454B (zh) 一种模型训练、音频降噪方法、装置、设备及存储介质
JP6916130B2 (ja) 話者推定方法および話者推定装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid