KR20150126214A

KR20150126214A - 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법

Info

Publication number: KR20150126214A
Application number: KR1020140053592A
Authority: KR
Inventors: 이호섭; 서영완; 최영상
Original assignee: 삼성전자주식회사
Priority date: 2014-05-02
Filing date: 2014-05-02
Publication date: 2015-11-11
Also published as: US9626962B2; KR102257910B1; US20150317998A1

Abstract

음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 방법 및 장치에 관한 것으로, 일 양상에 따른 음성 인식 장치는 다양한 위치에서 잡음 데이터를 수집하여 잡음 모델을 생성하고, 잡음 모델이 적용된 잡음-음성 인식 모델을 음성 인식에 활용함으로써, 음성 인식 성능을 향상시킬 수 있다.

Description

음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION, APPARATUS AND METHOD FOR GENERATING NOISE-SPEECH RECOGNITION MODEL}

음성 인식 기술과 관련된다.

스마트폰 및 지능형 소프트웨어의 발전으로 인해 음성인식 기술이 미래의 핵심기술로서 각광받고 있다. 이러한 음성인식 기술이 상업적으로 널리 사용되기 위해서는 여러 가지 기술적 문제들이 해결되어야 한다. 그 중 가장 중요한 문제는 음성에 부가되는 간섭신호 (Interfering signal), 즉 잡음의 영향을 최소화하는 것이다. 잡음은 실제 음성 인식의 대상이 되는 음성에 부가될 수 있는 모든 종류의 신호로서, 예를 들어, 주변소음, 통신선로 왜곡, 음향반향 (Acoustic Echo), 배경음악, 다른 사람의 말소리 등이 있을 수 있다. 이러한 잡음은 음성 인식의 대상이 되는 음성에 부가되어 음성인식 성능을 크게 저하시키게 된다.

이러한 문제를 해결하기 위해 음성향상 (Speech enhancement), 특징보상 (Feature compensation), 모델적응 (Model adaptation)등의 기법들이 개발되었지만, 아직까지 잡음환경에서 사용자들이 체감하는 음성인식의 성능은 매우 낮은 실정이다.

음성향상과 특징보상은 신호처리 및 데이터분석기술을 활용해 잡음이 섞인 음성으로부터 깨끗한 음성신호를 추정 혹은 복원하는 것을 말하며, 모델적응은 음성인식 시스템을 설계할 때부터 잡음이 섞인 음성을 고려하는 것을 말한다.

일반적으로 모델적응 기법이 음성향상 혹은 특징보상 기법에 비하여 높은 성능을 보인다고 알려져 있지만, 세상에 존재하는 모든 잡음 혹은 잡음이 섞인 음성을 수집하고 해당 잡음을 분류하는 것이 불가능하다고 여겨졌기 때문에 특정 도메인(예를 들어, ARS에서의 음성인식)에서만 제한적으로 사용되어 왔다

다양한 위치에서 잡음 데이터를 수집하여 음성 인식에 활용할 수 있는 음성 인식 장치 및 방법, 다양한 위치에서 수집된 잡음 데이터가 적용된 잡음-음성 인식 모델을 생성하기 위한 장치 및 방법을 제공하는 것을 목적으로 한다.

일 양상에 따른 음성 인식 장치는 이동 단말의 위치를 판단하는 위치 판단부, 상기 이동 단말의 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터를 이용하여 상기 이동 단말의 위치에 대응하는 잡음 모델을 생성하는 잡음 모델 생성부 및 상기 잡음 모델을 서버로 전송하는 잡음 모델 전송부를 포함할 수 있다.

상기 잡음 모델 생성부는 상기 이동 단말의 위치에서 발생하는 잡음 데이터를 수집할 수 있다.

상기 잡음 모델 생성부는 상기 이동 단말의 위치와 관련된 웹 동영상으로부터 잡음 데이터를 수집할 수 있다.

상기 음성 인식 장치는 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행하는 음성 인식부를 더 포함할 수 있다.

상기 음성 인식부는 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하고, 수신된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다.

상기 음성 인식부는 상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하고, 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신할 수 있다.

일 양상에 따른 잡음-음성 인식 모델 생성 장치는 이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 잡음 모델 수신부, 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 잡음-음성 인식 모델 생성부 및 상기 생성된 잡음-음성 인식 모델을 저장하는 저장부를 포함할 수 있다.

상기 잡음 모델은 상기 이동 단말의 위치와 관련된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함할 수 있다.

상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 잡음-음성 인식 모델 전송부를 더 포함할 수 있다.

상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 음성 인식 결과 전송부를 더 포함할 수 있다.

일 양상에 따른 음성 인식 방법은 이동 단말의 현재 위치를 판단하는 단계, 상기 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하는 단계, 상기 잡음 데이터를 이용하여 상기 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성하는 단계 및 상기 생성된 잡음 모델을 서버로 전송하는 단계를 포함할 수 있다.

상기 잡음 데이터를 수집하는 단계는 상기 이동 단말의 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.

상기 잡음 데이터를 수집하는 단계는 상기 이동 단말의 현재 위치와 관련된 웹 동영상을 검색하여 검색된 웹 동영상으로부터 잡음 데이터를 수집할 수 있다.

상기 음성 인식 방법은 음성 신호를 입력 받는 단계 및 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계를 더 포함할 수 있다.

상기 음성 인식을 수행하는 단계는 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치를 판단하는 단계, 상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하는 단계 및 상기 수신된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계를 포함할 수 있다.

상기 음성 인식을 수행하는 단계는 상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하는 단계 및 상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 단계를 포함할 수 있다.

일 양상에 따른 잡음-음성 인식 모델 생성 방법은 이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 단계, 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 단계 및 상기 생성된 잡음-음성 인식 모델을 저장하는 단계를 포함할 수 있다.

상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신하는 단계 및 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 단계를 더 포함할 수 있다.

상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신하는 단계, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계 및 상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 단계를 더 포함할 수 있다.

다양한 위치에서 다양한 잡음 데이터를 수집하고, 수집된 잡음 데이터를 음성인식을 위한 학습 데이터로 활용함으로써, 다양한 잡음환경에서 음성 인식 성능을 향상 시킬 수 있다.

도 1은 일 실시예에 따른 음성 인식 장치의 구성도,
도 2는 일 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 3은 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 4는 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 5는 잡음-음성 인식 모델 생성의 예시도,
도 6은 일 실시예에 따른 잡음 모델 생성 절차를 나타낸 순서도,
도 7은 일 실시예에 따른 음성 인식 방법의 순서도,
도 8은 다른 실시예에 따른 음성 인식 방법의 순서도,
도 9는 일 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도,
도 10은 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도,
도 11은 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.

이하, 첨부된 도면을 참조하여 실시예를 상세히 기술하기로 한다.

도 1은 일 실시예에 따른 음성 인식 장치의 구성도이다.

음성 인식 장치(100)는 휴대하여 이동할 수 있고 무선 통신을 이용하여 서버와 통신할 수 있는 이동 단말의 일 구성으로 포함될 수 있다. 예를 들어, 이동 단말은 스마트 폰, 셀룰러 폰, PDA, 랩탑 컴퓨터, 패블릿(pablet), 태블릿 PC, MP3 플레이어, 네비게이션 장치 등일 수 있다. 또한, 서버는 인터넷 망을 기반으로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.

무선 통신은 블루투스(Bluetooth), RFID, 적외선 통신, UWB(Ultra Wideband), Zigbee와 같은 근거리 무선 통신 방식 또는 Wibro, Wimax, WCDMA, HSDPA(High Speed Downlink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution Advanced)등과 같은 이동 통신 데이터망을 이용한 무선 통신 방식, 위성 통신 등 다양한 형태의 무선 통신 방식을 포함할 수 있다.

도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 위치 판단부(110), 잡음 모델 생성부(120), 잡음 모델 전송부(130) 및 음성 인식부(140)를 포함할 수 있다.

위치 판단부(110)는 이동 단말의 위치를 판단할 수 있다.

일 실시예에 따르면, 위치 판단부(110)는 다양한 측위 기술을 이용하여, 이동 단말의 현재 위치를 판단할 수 있다. 예를 들어, 이동 단말이 GPS(Global Positioning System) 센서를 구비하고 있는 경우, 위치 판단부(110)는 이동 단말의 GPS 센서를 활성화하여 GPS 센서로부터 이동 단말의 현재 위치에 대한 GPS 좌표를 획득할 수 있다. 위치 판단부(110)는 획득된 GPS 좌표를 주소로 변환한 후, 변환된 주소에 대응하는 장소를 이동 단말의 현재 위치로 판단할 수 있다.

또 다른 예로, 위치 판단부(110)는 Cell-ID 방식, TOA(Time of Arrive), 방식, TDoA(Time Difference of Arrival) 방식, RSSI(Received Signal Strength Indicator) 방식, AOA(Angle of Arrival) 방식 또는 Fingerprint 방식에 기초한 측위 기술을 이용하여 이동 단말의 현재 위치를 판단할 수 있다.

다른 실시예에 따르면, 위치 판단부(110)는 이동 단말의 사용자에 의해 입력된 정보를 이용하여 현재 위치를 판단할 수 있다. 예를 들어, 위치 판단부(110)는 이동 단말의 사용자에게 현재 위치를 질의하고, 질의에 대해 사용자 입력한 위치를 이동 단말의 현재 위치로 판단할 수 있다.

또 다른 예로, 위치 판단부(110)는 위치 기반 서비스(Location-Based Service, LBS)를 제공하는 어플리케이션을 통해 사용자가 현재 위치를 입력한 경우, 해당 위치를 이동 단말의 현재 위치로 판단할 수 있다.

잡음 모델 생성부(120)는 위치 판단부(110)를 통해 파악된 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터를 이용하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

일 실시예에 따르면, 잡음 모델 생성부(120)는 이동 단말에 구비된 마이크로폰을 활성화하고, 활성화된 마이크로폰을 통해 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.

다른 실시예에 따르면, 잡음 모델 생성부(120)는 이동 단말의 현재 위치를 질의어로 하여 웹 상에서 현재 위치와 관련된 동영상을 검색할 수 있다. 이후, 검색된 동영상에서 사운드를 추출하고, 추출된 사운드로부터 잡음 데이터를 수집할 수 있다.

잡음 모델 생성부(120)는 수집된 잡음 데이터를 소정의 시간 단위(예를 들어, 1분)으로 분할하고, 분할된 잡음 데이터에 이동 단말의 현재 위치에 대한 위치 정보를 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

예를 들어, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 이동 단말의 현재 위치를 라벨링(labeling)하여, 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

또 다른 예로, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 이동 단말의 현재 위치에 대한 정보를 메타 데이터로 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

한편, 일 실시예에 따르면, 잡음 모델은 잡음 데이터의 수집 시점 내지는 이동 단말의 식별 정보 등과 같은 부가 정보를 더 포함할 수 있다. 예를 들어, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 위치 정보와 함께 부가 정보를 라벨링할 수 있다. 예를 들어, 잡음 모델은 20130920190543_잠실야구장_device A_1.wav와 같이 라벨링 될 수 있다. 이때, 20130920190543은 잡음 데이터가 수집된 시점, 잠실야구장은 잡음 데이터가 수집된 위치, device A는 이동 단말의 식별정보, 1은 잡음 데이터의 분할 순서를 의미한다.

또 다른 예로, 잡음 모델 생성부는 수집된 잡음 데이터에 위치 정보와 함께 부가 정보를 포함하는 메타 데이터를 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

한편, 잡음 모델 전송부(130)는 잡음 모델 생성부(120)에서 생성된 잡음 모델을 서버로 전송할 수 있다. 이때, 서버는 예를 들어, 인터넷 망에 기반하여 이동 단말로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.

음성 인식부(140)는 다양한 음성 인식 알고리즘을 이용하여 음성 신호에 대한 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 예를 들어, HMM(Hidden Markov Model) 또는 신경망(Neural Network)과 같은 다양한 음성 인식 알고리즘일 수 있다.

음성 신호는 이동 단말의 마이크로폰을 이용하여 사용자로부터 입력 받을 수 있다. 구체적으로, 음성 인식부(140)는 이동 단말의 사용자로부터 음성 인식 요청이 입력된 경우, 이동 단말의 마이크로폰을 활성화하여, 사용자로부터 음성 신호를 입력 받을 수 있다. 이때, 마이크로폰을 통해 입력되는 음성 신호는 사용자의 음성과 주변의 잡음이 섞여 있게 되므로, 현재 위치와 관련된 잡음을 고려하여 입력된 음성신호에 대한 음성 인식을 수행할 수 있다면, 음성 인식의 성능을 향상시킬 수 있다.

일 실시예에 따르면, 음성 인식부(140)는 음성 신호가 입력된 경우, 음성 신호가 입력된 시점에서 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델 전송을 서버로 요청할 수 있다. 이후, 음성 인식부(140)는 서버로부터 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 수신할 수 있다.

한편, 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델은 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 의미한다. 잡음-음성 인식 모델에 대한 상세한 설명은 후술한다.

음성 인식부(140)는 수신된 잡음-음성 인식 모델을 이용하여 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다.

다른 실시예에 따르면, 음성 인식부(140)는 서버로 음성 신호가 입력된 시점에서 이동 단말의 위치 및 입력된 음성 신호를 전송하여 음성 인식을 요청하고, 서버에서 수행된 음성 인식 결과를 수신할 수 있다. 이때, 음성 인식 결과는 음성 인식 요청에 포함된 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 이용하여 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 수행된 결과일 수 있다. 한편, 음성 인식 알고리즘은 예를 들어, 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.

도 2는 일 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.

도 2를 참조하면, 음성 인식 장치(200)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)를 포함할 수 있다.

잡음 모델 수신부(210)는 적어도 하나의 이동 단말에서 생성된 잡음 모델을 수신할 수 있다.

잡음-음성 인식 모델 생성부(220)는 수신된 잡음 모델에 포함된 위치 정보에 대응하는 잡음-음성 인식 모델을 생성할 수 있다. 예를 들어, 잡음-음성 인식 모델 생성부(220)는 잡음 모델에 포함된 잡음 데이터를 베이스라인(baseline) 음성 인식 모델에 적용하여, 잡음 모델에 포함된 위치 정보에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.

이때, 베이스라인 음성 인식 모델은 잡음이 포함되지 않은 음성과 해당 음성에 대응하는 텍스트로 구성된 학습데이터일 수 있다. 이때, 음성은 음소, 단어 또는 문장 단위일 수 있다.

잡음-음성 인식 모델 생성부(220)는 수신된 잡음 모델에 포함된 잡음 데이터를 베이스라인 음성 인식 모델에 포함된 음성과 합성하고, 잡음 모델에 포함된 위치 정보를 부가함으로써, 특정 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.

구체적인 예로, 도 5을 참조하면, 잡음-음성 인식 모델 생성부(220)은 N개의 잡음 모델(510)을 베이스라인 음성 인식 모델(520)에 적용하여, N 개의 잡음-음성 인식 모델(530)을 생성할 수 있다. 이때, N 개의 잡음 모델(510)은 예를 들어, 복수의 이동 단말이 각각의 위치와 관련된 잡음 데이터를 수집하여 생성한 것일 수 있다. 또 다른 예로, N 개의 잡음 모델(510)은 하나의 이동 단말이 다양한 위치와 관련된 잡음 데이터를 수집하여 생성한 것일 수 있다.

저장부(230)는 잡음-음성 인식 모델 생성부(220)에서 생성된 잡음-음성 인식 모델을 저장할 수 있다. 저장부(230)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 등과 같은 다양한 저장매체를 포함할 수 있다.

한편, 일 실시예에 따르면, 저장부(230)는 클라우드 컴퓨팅 환경 내에 존재하는 다양한 컴퓨팅 장치에 생성된 잡음-음성 인식 모델을 분산 저장할 수 있다. 예를 들어, 컴퓨팅 장치는 이동 단말, 서버, 데스크톱 컴퓨터, 셋톱 박스, 스마트 TV 등을 포함할 수 있다.

도 3은 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.

도 3을 참조하면, 일 실시예에 따른 음성 인식 모델 생성 장치(300)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220), 저장부(230) 및 잡음-음성 인식 모델 전송부(310)를 포함할 수 있다.

도 3에 도시된 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)는 도 2에 도시된 구성과 동일하므로, 이에 대한 상세한 설명은 생략한다.

잡음-음성 인식 모델 전송부(310)는 저장부(230)에 저장된 잡음-음성 인식 모델을 이동 단말로 전송할 수 있다. 구체적으로, 잡음-음성 인식 모델 전송부(310)는 이동 단말로부터 현재 위치를 포함하는 잡음-음성 인식 모델 전송 요청이 수신된 경우, 저장부(230)에 저장된 잡음-음성 인식 모델 중 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 검색할 수 있다. 이후, 잡음-음성 인식 모델 전송부(310)는 검색된 잡음-음성 인식 모델을 잡음-음성 인식 모델 전송 요청을 전송한 이동 단말로 전송할 수 있다.

도 4는 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.

도 4를 참조하면, 일 실시예에 따른 음성 인식 모델 생성 장치(400)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220), 저장부(230) 및 음성 인식부(410) 및 음성 인식 결과 전송부(420)를 포함할 수 있다.

도 4에 도시된 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)는 도 2에 도시된 구성과 동일하므로, 이에 대한 상세한 설명은 생략한다.

음성 인식부(410)는 이동 단말로부터 현재 위치 및 음성 신호를 포함하는 음성 인식 요청이 수신된 경우, 저장부(230)에 저장된 잡음-음성 인식 모델을 이용하여, 음성 신호에 대한 음성 인식을 수행할 수 있다.

구체적으로, 음성 인식부(410)는 저장부(230)에 저장된 잡음-음성 인식 모델 중 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여, 음성 인식 알고리즘을 학습 시킬 수 있다. 이후, 음성 인식부(410)는 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다. 한편, 음성 인식 알고리즘은 예를 들어, 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.

음성 인식 결과 전송부(420)는 음성 인식부(410)에서 수행된 음성 인식 결과를 음성 인식을 요청한 이동 단말로 전송할 수 있다.

한편, 도 2 내지 4에 도시된 잡음-음성 인식 모델 생성 장치는 적어도 하나의 이동 단말과 통신하는 서버의 일 구성으로 포함될 수 있다. 이때, 서버는 예를 들어, 적어도 하나의 이동 단말로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.

도 6은 일 실시예에 따른 잡음 모델 생성 절차를 나타낸 순서도 이다.

도 6에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.

도 6을 참조하면, 이동 단말은 현재 위치를 판단하고(610), 현재 위치와 관련된 잡음 데이터를 수집할 수 있다(620).

일 실시예에 따르면, 이동 단말은 마이크로폰을 활성화하여, 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.

다른 실시예에 따르면, 이동 단말은 현재 위치를 검색어로 웹 동영상을 검색하여, 검색된 웹 동영상에서 잡음 데이터를 수집할 수 있다.

한편, 이동 단말은 수집된 잡음 데이터에 이동 단말의 현재 위치 정보를 부가하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다(630).

예를 들어, 이동 단말은 수집된 잡음 데이터를 적절한 시간 단위(예를 들어, 1분)로 분할하고, 현재 위치를 라벨링하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

또 다른 예로, 이동 단말은 수집된 잡음 데이터에 현재 위치 정보를 메타 데이터로 부가하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.

이후, 이동 단말은 생성된 잡음 모델을 서버로 전송할 수 있다(640).

도 7은 일 실시예에 따른 음성 인식 방법의 순서도이다.

도 7에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.

도 7을 참조하면, 이동 단말은 사용자로부터 음성 신호를 입력 받을 수 있다(710).

이후, 이동 단말은 음성 신호를 입력 받은 시점에서 이동 단말의 현재 위치를 판단할 수 있다(720).

이후, 이동 단말은 서버로 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델의 전송을 요청할 수 있다(730).

이후, 이동 단말은 서버로부터 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 수신할 수 있다(740).

이후, 이동 단말은 수신된 잡음-음성 인식 모델을 이용하여, 음성 신호에 대한 음성 인식을 수행할 수 있다(750). 구체적으로, 이동 단말은 서버로부터 수신된 잡음-음성 인식 모델을 이용하여, 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용함으로써, 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.

도 8은 다른 실시예에 따른 음성 인식 방법의 순서도이다.

도 8에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.

도 8을 참조하면, 이동 단말은 사용자로부터 음성 신호를 입력 받을 수 있다(810).

이후, 이동 단말은 음성 신호를 입력 받은 시점에서 이동 단말의 현재 위치를 판단할 수 있다(820).

이후, 이동 단말은 서버로 음성 인식 요청을 전송할 수 있다(830). 이때, 음성 인식 요청에는 이동 단말의 현재 위치 및 입력된 음성 신호가 포함될 수 있다.

이후, 이동 단말은 서버로부터 음성 신호에 대한 음성 인식 결과를 수신할 수 있다(840). 이때, 음성 인식 결과는 이동 단말의 현재 위치 정보에 대응하는 잡음-음성 인식 모델을 이용하여 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 수행된 음성 인식 결과일 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.

도 9는 일 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.

도 9에 도시된 각 단계는 예를 들어, 도 2에 도시된 잡음-음성 인식 모델 생성 장치(200)가 구비된 서버에 의해 수행될 수 있다.

도 9를 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 위치에 대응하는 잡음 모델을 수신할 수 있다(910).

이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(920). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.

이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(930).

도 10은 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.

도 10에 도시된 각 단계는 예를 들어, 도 3에 도시된 잡음-음성 인식 모델 생성 장치(300)가 구비된 서버에 의해 수행될 수 있다.

도 10을 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 의치에 대응하는 잡음 모델을 수신할 수 있다(1010).

이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(1020). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.

이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(1030).

한편, 서버는 이동 단말로부터 현재 위치를 포함하는 잡음-음성 인식 모델 전송 요청을 수신할 수 있다(1040).

이후, 서버는 수신된 잡음-음성 인식 모델 전송 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 잡음-음성 인식 모델 전송 요청을 전송한 이동 단말로 전송할 수 있다(1050).

도 11은 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.

도 11에 도시된 각 단계는 예를 들어, 도 4에 도시된 잡음-음성 인식 모델 생성 장치(400)가 구비된 서버에 의해 수행될 수 있다.

도 11을 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 위치에 대응하는 잡음 모델을 수신할 수 있다(1110).

이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(1120). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.

이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(1130).

한편, 서버는 이동 단말로부터 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 수신할 수 있다(1140).

이후, 서버는 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 음성 신호에 대한 음성 인식을 수행할 수 있다(1150). 구체적으로, 서버는 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.

이후, 서버는 음성 인식 결과를 음성 인식을 요청한 이동 단말로 전송할 수 있다(1160).

한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 장치에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다.

또한, 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 해당 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상에서는 실시예들을 중심으로 기술적 특징들을 설명하였다. 하지만, 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한고, 권리 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 권리범위에 포함된 것으로 해석되어야 할 것이다.

100: 음성 인식 장치
110: 위치 판단부
120: 잡음 모델 생성부
130: 잡음 모델 전송부
140: 음성 인식부
200, 300, 400: 잡음-음성 인식 모델 생성 장치
210: 잡음 모델 수신부
220: 잡음-음성 인식 모델 생성부
230: 저장부
310: 잡음-음성 인식 모델 전송부
410: 음성 인식부
420: 음성 인식 결과 전송부

Claims

이동 단말의 위치를 판단하는 위치 판단부;
상기 이동 단말의 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터를 이용하여 상기 이동 단말의 위치에 대응하는 잡음 모델을 생성하는 잡음 모델 생성부; 및
상기 잡음 모델을 서버로 전송하는 잡음 모델 전송부;를 포함하는 음성 인식 장치.
제 1 항에 있어서,
상기 잡음 모델 생성부는,
상기 이동 단말의 위치에서 발생하는 잡음 데이터를 수집하는 음성 인식 장치.
제 1 항에 있어서,
상기 잡음 모델 생성부는,
상기 이동 단말의 위치와 관련된 웹 동영상으로부터 잡음 데이터를 수집하는 음성 인식 장치.
제 1 항에 있어서,
상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행하는 음성 인식부;를 더 포함하는 음성 인식 장치.
제 4 항에 있어서,
상기 음성 인식부는,
상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하고, 수신된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행하는 음성 인식 장치.
제 4 항에 있어서,
상기 음성 인식부는,
상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하고, 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 음성 인식 장치.
이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 잡음 모델 수신부;
상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 잡음-음성 인식 모델 생성부; 및
상기 생성된 잡음-음성 인식 모델을 저장하는 저장부;를 포함하는 잡음-음성 인식 모델 생성 장치.
제 7 항에 있어서,
상기 잡음 모델은,
상기 이동 단말의 위치와 관련된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함하는 잡음-음성 인식 모델 생성 장치.
제 7 항에 있어서,
상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 잡음-음성 인식 모델 전송부;를 더 포함하는 잡음-음성 인식 모델 생성 장치.
제 7 항에 있어서,
상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 음성 인식부; 및
상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 음성 인식 결과 전송부;를 더 포함하는 잡음-음성 인식 모델 생성 장치.
이동 단말의 현재 위치를 판단하는 단계;
상기 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하는 단계;
상기 잡음 데이터를 이용하여 상기 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성하는 단계; 및
상기 생성된 잡음 모델을 서버로 전송하는 단계;를 포함하는 음성 인식 방법.
제 11 항에 있어서,
상기 잡음 데이터를 수집하는 단계는,
상기 이동 단말의 현재 위치에서 발생하는 잡음 데이터를 수집하는 음성 인식 방법.
제 11 항에 있어서,
상기 잡음 데이터를 수집하는 단계는,
상기 이동 단말의 현재 위치와 관련된 웹 동영상을 검색하여 검색된 웹 동영상으로부터 잡음 데이터를 수집하는 음성 인식 방법.
제 11 항에 있어서,
음성 신호를 입력 받는 단계; 및
상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계;를 더 포함하는 음성 인식 방법.
제 14 항에 있어서,
상기 음성 인식을 수행하는 단계는,
상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치를 판단하는 단계;
상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하는 단계; 및
상기 수신된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계;를 포함하는 음성 인식 방법.
제 14 항에 있어서,
상기 음성 인식을 수행하는 단계는,
상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하는 단계; 및
상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 단계;를 포함하는 음성 인식 방법.
이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 단계;
상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 단계; 및
상기 생성된 잡음-음성 인식 모델을 저장하는 단계;를 포함하는 잡음-음성 인식 모델 생성 방법.
제 17 항에 있어서,
상기 잡음 모델은,
상기 이동 단말의 위치와 관련된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함하는 잡음-음성 인식 모델 생성 방법.
제 17 항에 있어서,
상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신하는 단계; 및
상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 단계;를 더 포함하는 잡음-음성 인식 모델 생성 방법.
제 17 항에 있어서,
상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신하는 단계;
상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계; 및
상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 단계;를 더 포함하는 잡음-음성 인식 모델 생성 방법.