KR102257910B1 - 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법 - Google Patents

음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법 Download PDF

Info

Publication number
KR102257910B1
KR102257910B1 KR1020140053592A KR20140053592A KR102257910B1 KR 102257910 B1 KR102257910 B1 KR 102257910B1 KR 1020140053592 A KR1020140053592 A KR 1020140053592A KR 20140053592 A KR20140053592 A KR 20140053592A KR 102257910 B1 KR102257910 B1 KR 102257910B1
Authority
KR
South Korea
Prior art keywords
noise
mobile terminal
speech recognition
model
location
Prior art date
Application number
KR1020140053592A
Other languages
English (en)
Other versions
KR20150126214A (ko
Inventor
이호섭
서영완
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140053592A priority Critical patent/KR102257910B1/ko
Priority to US14/621,050 priority patent/US9626962B2/en
Publication of KR20150126214A publication Critical patent/KR20150126214A/ko
Application granted granted Critical
Publication of KR102257910B1 publication Critical patent/KR102257910B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 방법 및 장치에 관한 것으로, 일 양상에 따른 음성 인식 장치는 다양한 위치에서 잡음 데이터를 수집하여 잡음 모델을 생성하고, 잡음 모델이 적용된 잡음-음성 인식 모델을 음성 인식에 활용함으로써, 음성 인식 성능을 향상시킬 수 있다.

Description

음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION, APPARATUS AND METHOD FOR GENERATING NOISE-SPEECH RECOGNITION MODEL}
음성 인식 기술과 관련된다.
스마트폰 및 지능형 소프트웨어의 발전으로 인해 음성인식 기술이 미래의 핵심기술로서 각광받고 있다. 이러한 음성인식 기술이 상업적으로 널리 사용되기 위해서는 여러 가지 기술적 문제들이 해결되어야 한다. 그 중 가장 중요한 문제는 음성에 부가되는 간섭신호 (Interfering signal), 즉 잡음의 영향을 최소화하는 것이다. 잡음은 실제 음성 인식의 대상이 되는 음성에 부가될 수 있는 모든 종류의 신호로서, 예를 들어, 주변소음, 통신선로 왜곡, 음향반향 (Acoustic Echo), 배경음악, 다른 사람의 말소리 등이 있을 수 있다. 이러한 잡음은 음성 인식의 대상이 되는 음성에 부가되어 음성인식 성능을 크게 저하시키게 된다.
이러한 문제를 해결하기 위해 음성향상 (Speech enhancement), 특징보상 (Feature compensation), 모델적응 (Model adaptation)등의 기법들이 개발되었지만, 아직까지 잡음환경에서 사용자들이 체감하는 음성인식의 성능은 매우 낮은 실정이다.
음성향상과 특징보상은 신호처리 및 데이터분석기술을 활용해 잡음이 섞인 음성으로부터 깨끗한 음성신호를 추정 혹은 복원하는 것을 말하며, 모델적응은 음성인식 시스템을 설계할 때부터 잡음이 섞인 음성을 고려하는 것을 말한다.
일반적으로 모델적응 기법이 음성향상 혹은 특징보상 기법에 비하여 높은 성능을 보인다고 알려져 있지만, 세상에 존재하는 모든 잡음 혹은 잡음이 섞인 음성을 수집하고 해당 잡음을 분류하는 것이 불가능하다고 여겨졌기 때문에 특정 도메인(예를 들어, ARS에서의 음성인식)에서만 제한적으로 사용되어 왔다
다양한 위치에서 잡음 데이터를 수집하여 음성 인식에 활용할 수 있는 음성 인식 장치 및 방법, 다양한 위치에서 수집된 잡음 데이터가 적용된 잡음-음성 인식 모델을 생성하기 위한 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 음성 인식 장치는 이동 단말의 위치를 판단하는 위치 판단부, 상기 이동 단말의 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터를 이용하여 상기 이동 단말의 위치에 대응하는 잡음 모델을 생성하는 잡음 모델 생성부 및 상기 잡음 모델을 서버로 전송하는 잡음 모델 전송부를 포함할 수 있다.
상기 잡음 모델 생성부는 상기 이동 단말의 위치에서 발생하는 잡음 데이터를 수집할 수 있다.
상기 잡음 모델 생성부는 상기 이동 단말의 위치와 관련된 웹 동영상으로부터 잡음 데이터를 수집할 수 있다.
상기 음성 인식 장치는 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행하는 음성 인식부를 더 포함할 수 있다.
상기 음성 인식부는 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하고, 수신된 잡음-음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다.
상기 음성 인식부는 상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하고, 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신할 수 있다.
일 양상에 따른 잡음-음성 인식 모델 생성 장치는 이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 잡음 모델 수신부, 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 잡음-음성 인식 모델 생성부 및 상기 생성된 잡음-음성 인식 모델을 저장하는 저장부를 포함할 수 있다.
상기 잡음 모델은 상기 이동 단말의 위치와 관련된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함할 수 있다.
상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 잡음-음성 인식 모델 전송부를 더 포함할 수 있다.
상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 음성 인식 결과 전송부를 더 포함할 수 있다.
일 양상에 따른 음성 인식 방법은 이동 단말의 현재 위치를 판단하는 단계, 상기 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하는 단계, 상기 잡음 데이터를 이용하여 상기 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성하는 단계 및 상기 생성된 잡음 모델을 서버로 전송하는 단계를 포함할 수 있다.
상기 잡음 데이터를 수집하는 단계는 상기 이동 단말의 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.
상기 잡음 데이터를 수집하는 단계는 상기 이동 단말의 현재 위치와 관련된 웹 동영상을 검색하여 검색된 웹 동영상으로부터 잡음 데이터를 수집할 수 있다.
상기 음성 인식 방법은 음성 신호를 입력 받는 단계 및 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 서버에서 생성된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계를 더 포함할 수 있다.
상기 음성 인식을 수행하는 단계는 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치를 판단하는 단계, 상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하는 단계 및 상기 수신된 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계를 포함할 수 있다.
상기 음성 인식을 수행하는 단계는 상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하는 단계 및 상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 단계를 포함할 수 있다.
일 양상에 따른 잡음-음성 인식 모델 생성 방법은 이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 단계, 상기 잡음 모델을 베이스라인 음성 인식 모델에 적용하여 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 단계 및 상기 생성된 잡음-음성 인식 모델을 저장하는 단계를 포함할 수 있다.
상기 잡음 모델은 상기 이동 단말의 위치와 관련된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함할 수 있다.
상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신하는 단계 및 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 단계를 더 포함할 수 있다.
상기 잡음-음성 인식 모델 생성 장치는 상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신하는 단계, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계 및 상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 단계를 더 포함할 수 있다.
다양한 위치에서 다양한 잡음 데이터를 수집하고, 수집된 잡음 데이터를 음성인식을 위한 학습 데이터로 활용함으로써, 다양한 잡음환경에서 음성 인식 성능을 향상 시킬 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 구성도,
도 2는 일 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 3은 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 4는 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도,
도 5는 잡음-음성 인식 모델 생성의 예시도,
도 6은 일 실시예에 따른 잡음 모델 생성 절차를 나타낸 순서도,
도 7은 일 실시예에 따른 음성 인식 방법의 순서도,
도 8은 다른 실시예에 따른 음성 인식 방법의 순서도,
도 9는 일 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도,
도 10은 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도,
도 11은 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.
이하, 첨부된 도면을 참조하여 실시예를 상세히 기술하기로 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 구성도이다.
음성 인식 장치(100)는 휴대하여 이동할 수 있고 무선 통신을 이용하여 서버와 통신할 수 있는 이동 단말의 일 구성으로 포함될 수 있다. 예를 들어, 이동 단말은 스마트 폰, 셀룰러 폰, PDA, 랩탑 컴퓨터, 패블릿(pablet), 태블릿 PC, MP3 플레이어, 네비게이션 장치 등일 수 있다. 또한, 서버는 인터넷 망을 기반으로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.
무선 통신은 블루투스(Bluetooth), RFID, 적외선 통신, UWB(Ultra Wideband), Zigbee와 같은 근거리 무선 통신 방식 또는 Wibro, Wimax, WCDMA, HSDPA(High Speed Downlink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution Advanced)등과 같은 이동 통신 데이터망을 이용한 무선 통신 방식, 위성 통신 등 다양한 형태의 무선 통신 방식을 포함할 수 있다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 위치 판단부(110), 잡음 모델 생성부(120), 잡음 모델 전송부(130) 및 음성 인식부(140)를 포함할 수 있다.
위치 판단부(110)는 이동 단말의 위치를 판단할 수 있다.
일 실시예에 따르면, 위치 판단부(110)는 다양한 측위 기술을 이용하여, 이동 단말의 현재 위치를 판단할 수 있다. 예를 들어, 이동 단말이 GPS(Global Positioning System) 센서를 구비하고 있는 경우, 위치 판단부(110)는 이동 단말의 GPS 센서를 활성화하여 GPS 센서로부터 이동 단말의 현재 위치에 대한 GPS 좌표를 획득할 수 있다. 위치 판단부(110)는 획득된 GPS 좌표를 주소로 변환한 후, 변환된 주소에 대응하는 장소를 이동 단말의 현재 위치로 판단할 수 있다.
또 다른 예로, 위치 판단부(110)는 Cell-ID 방식, TOA(Time of Arrive), 방식, TDoA(Time Difference of Arrival) 방식, RSSI(Received Signal Strength Indicator) 방식, AOA(Angle of Arrival) 방식 또는 Fingerprint 방식에 기초한 측위 기술을 이용하여 이동 단말의 현재 위치를 판단할 수 있다.
다른 실시예에 따르면, 위치 판단부(110)는 이동 단말의 사용자에 의해 입력된 정보를 이용하여 현재 위치를 판단할 수 있다. 예를 들어, 위치 판단부(110)는 이동 단말의 사용자에게 현재 위치를 질의하고, 질의에 대해 사용자 입력한 위치를 이동 단말의 현재 위치로 판단할 수 있다.
또 다른 예로, 위치 판단부(110)는 위치 기반 서비스(Location-Based Service, LBS)를 제공하는 어플리케이션을 통해 사용자가 현재 위치를 입력한 경우, 해당 위치를 이동 단말의 현재 위치로 판단할 수 있다.
잡음 모델 생성부(120)는 위치 판단부(110)를 통해 파악된 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터를 이용하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
일 실시예에 따르면, 잡음 모델 생성부(120)는 이동 단말에 구비된 마이크로폰을 활성화하고, 활성화된 마이크로폰을 통해 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.
다른 실시예에 따르면, 잡음 모델 생성부(120)는 이동 단말의 현재 위치를 질의어로 하여 웹 상에서 현재 위치와 관련된 동영상을 검색할 수 있다. 이후, 검색된 동영상에서 사운드를 추출하고, 추출된 사운드로부터 잡음 데이터를 수집할 수 있다.
잡음 모델 생성부(120)는 수집된 잡음 데이터를 소정의 시간 단위(예를 들어, 1분)으로 분할하고, 분할된 잡음 데이터에 이동 단말의 현재 위치에 대한 위치 정보를 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
예를 들어, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 이동 단말의 현재 위치를 라벨링(labeling)하여, 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
또 다른 예로, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 이동 단말의 현재 위치에 대한 정보를 메타 데이터로 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
한편, 일 실시예에 따르면, 잡음 모델은 잡음 데이터의 수집 시점 내지는 이동 단말의 식별 정보 등과 같은 부가 정보를 더 포함할 수 있다. 예를 들어, 잡음 모델 생성부(120)는 수집된 잡음 데이터에 위치 정보와 함께 부가 정보를 라벨링할 수 있다. 예를 들어, 잡음 모델은 20130920190543_잠실야구장_device A_1.wav와 같이 라벨링 될 수 있다. 이때, 20130920190543은 잡음 데이터가 수집된 시점, 잠실야구장은 잡음 데이터가 수집된 위치, device A는 이동 단말의 식별정보, 1은 잡음 데이터의 분할 순서를 의미한다.
또 다른 예로, 잡음 모델 생성부는 수집된 잡음 데이터에 위치 정보와 함께 부가 정보를 포함하는 메타 데이터를 부가하여 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
한편, 잡음 모델 전송부(130)는 잡음 모델 생성부(120)에서 생성된 잡음 모델을 서버로 전송할 수 있다. 이때, 서버는 예를 들어, 인터넷 망에 기반하여 이동 단말로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.
음성 인식부(140)는 다양한 음성 인식 알고리즘을 이용하여 음성 신호에 대한 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 예를 들어, HMM(Hidden Markov Model) 또는 신경망(Neural Network)과 같은 다양한 음성 인식 알고리즘일 수 있다.
음성 신호는 이동 단말의 마이크로폰을 이용하여 사용자로부터 입력 받을 수 있다. 구체적으로, 음성 인식부(140)는 이동 단말의 사용자로부터 음성 인식 요청이 입력된 경우, 이동 단말의 마이크로폰을 활성화하여, 사용자로부터 음성 신호를 입력 받을 수 있다. 이때, 마이크로폰을 통해 입력되는 음성 신호는 사용자의 음성과 주변의 잡음이 섞여 있게 되므로, 현재 위치와 관련된 잡음을 고려하여 입력된 음성신호에 대한 음성 인식을 수행할 수 있다면, 음성 인식의 성능을 향상시킬 수 있다.
일 실시예에 따르면, 음성 인식부(140)는 음성 신호가 입력된 경우, 음성 신호가 입력된 시점에서 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델 전송을 서버로 요청할 수 있다. 이후, 음성 인식부(140)는 서버로부터 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 수신할 수 있다.
한편, 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델은 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 의미한다. 잡음-음성 인식 모델에 대한 상세한 설명은 후술한다.
음성 인식부(140)는 수신된 잡음-음성 인식 모델을 이용하여 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다.
다른 실시예에 따르면, 음성 인식부(140)는 서버로 음성 신호가 입력된 시점에서 이동 단말의 위치 및 입력된 음성 신호를 전송하여 음성 인식을 요청하고, 서버에서 수행된 음성 인식 결과를 수신할 수 있다. 이때, 음성 인식 결과는 음성 인식 요청에 포함된 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 이용하여 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 수행된 결과일 수 있다. 한편, 음성 인식 알고리즘은 예를 들어, 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.
도 2는 일 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.
도 2를 참조하면, 음성 인식 장치(200)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)를 포함할 수 있다.
잡음 모델 수신부(210)는 적어도 하나의 이동 단말에서 생성된 잡음 모델을 수신할 수 있다.
잡음-음성 인식 모델 생성부(220)는 수신된 잡음 모델에 포함된 위치 정보에 대응하는 잡음-음성 인식 모델을 생성할 수 있다. 예를 들어, 잡음-음성 인식 모델 생성부(220)는 잡음 모델에 포함된 잡음 데이터를 베이스라인(baseline) 음성 인식 모델에 적용하여, 잡음 모델에 포함된 위치 정보에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.
이때, 베이스라인 음성 인식 모델은 잡음이 포함되지 않은 음성과 해당 음성에 대응하는 텍스트로 구성된 학습데이터일 수 있다. 이때, 음성은 음소, 단어 또는 문장 단위일 수 있다.
잡음-음성 인식 모델 생성부(220)는 수신된 잡음 모델에 포함된 잡음 데이터를 베이스라인 음성 인식 모델에 포함된 음성과 합성하고, 잡음 모델에 포함된 위치 정보를 부가함으로써, 특정 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.
구체적인 예로, 도 5을 참조하면, 잡음-음성 인식 모델 생성부(220)은 N개의 잡음 모델(510)을 베이스라인 음성 인식 모델(520)에 적용하여, N 개의 잡음-음성 인식 모델(530)을 생성할 수 있다. 이때, N 개의 잡음 모델(510)은 예를 들어, 복수의 이동 단말이 각각의 위치와 관련된 잡음 데이터를 수집하여 생성한 것일 수 있다. 또 다른 예로, N 개의 잡음 모델(510)은 하나의 이동 단말이 다양한 위치와 관련된 잡음 데이터를 수집하여 생성한 것일 수 있다.
저장부(230)는 잡음-음성 인식 모델 생성부(220)에서 생성된 잡음-음성 인식 모델을 저장할 수 있다. 저장부(230)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 등과 같은 다양한 저장매체를 포함할 수 있다.
한편, 일 실시예에 따르면, 저장부(230)는 클라우드 컴퓨팅 환경 내에 존재하는 다양한 컴퓨팅 장치에 생성된 잡음-음성 인식 모델을 분산 저장할 수 있다. 예를 들어, 컴퓨팅 장치는 이동 단말, 서버, 데스크톱 컴퓨터, 셋톱 박스, 스마트 TV 등을 포함할 수 있다.
도 3은 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.
도 3을 참조하면, 일 실시예에 따른 음성 인식 모델 생성 장치(300)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220), 저장부(230) 및 잡음-음성 인식 모델 전송부(310)를 포함할 수 있다.
도 3에 도시된 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)는 도 2에 도시된 구성과 동일하므로, 이에 대한 상세한 설명은 생략한다.
잡음-음성 인식 모델 전송부(310)는 저장부(230)에 저장된 잡음-음성 인식 모델을 이동 단말로 전송할 수 있다. 구체적으로, 잡음-음성 인식 모델 전송부(310)는 이동 단말로부터 현재 위치를 포함하는 잡음-음성 인식 모델 전송 요청이 수신된 경우, 저장부(230)에 저장된 잡음-음성 인식 모델 중 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 검색할 수 있다. 이후, 잡음-음성 인식 모델 전송부(310)는 검색된 잡음-음성 인식 모델을 잡음-음성 인식 모델 전송 요청을 전송한 이동 단말로 전송할 수 있다.
도 4는 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 장치의 구성도이다.
도 4를 참조하면, 일 실시예에 따른 음성 인식 모델 생성 장치(400)는 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220), 저장부(230) 및 음성 인식부(410) 및 음성 인식 결과 전송부(420)를 포함할 수 있다.
도 4에 도시된 잡음 모델 수신부(210), 잡음-음성 인식 모델 생성부(220) 및 저장부(230)는 도 2에 도시된 구성과 동일하므로, 이에 대한 상세한 설명은 생략한다.
음성 인식부(410)는 이동 단말로부터 현재 위치 및 음성 신호를 포함하는 음성 인식 요청이 수신된 경우, 저장부(230)에 저장된 잡음-음성 인식 모델을 이용하여, 음성 신호에 대한 음성 인식을 수행할 수 있다.
구체적으로, 음성 인식부(410)는 저장부(230)에 저장된 잡음-음성 인식 모델 중 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여, 음성 인식 알고리즘을 학습 시킬 수 있다. 이후, 음성 인식부(410)는 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다. 한편, 음성 인식 알고리즘은 예를 들어, 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.
음성 인식 결과 전송부(420)는 음성 인식부(410)에서 수행된 음성 인식 결과를 음성 인식을 요청한 이동 단말로 전송할 수 있다.
한편, 도 2 내지 4에 도시된 잡음-음성 인식 모델 생성 장치는 적어도 하나의 이동 단말과 통신하는 서버의 일 구성으로 포함될 수 있다. 이때, 서버는 예를 들어, 적어도 하나의 이동 단말로 클라우드 컴퓨팅 서비스를 제공하는 서버일 수 있다.
도 6은 일 실시예에 따른 잡음 모델 생성 절차를 나타낸 순서도 이다.
도 6에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.
도 6을 참조하면, 이동 단말은 현재 위치를 판단하고(610), 현재 위치와 관련된 잡음 데이터를 수집할 수 있다(620).
일 실시예에 따르면, 이동 단말은 마이크로폰을 활성화하여, 현재 위치에서 발생하는 잡음 데이터를 수집할 수 있다.
다른 실시예에 따르면, 이동 단말은 현재 위치를 검색어로 웹 동영상을 검색하여, 검색된 웹 동영상에서 잡음 데이터를 수집할 수 있다.
한편, 이동 단말은 수집된 잡음 데이터에 이동 단말의 현재 위치 정보를 부가하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다(630).
예를 들어, 이동 단말은 수집된 잡음 데이터를 적절한 시간 단위(예를 들어, 1분)로 분할하고, 현재 위치를 라벨링하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
또 다른 예로, 이동 단말은 수집된 잡음 데이터에 현재 위치 정보를 메타 데이터로 부가하여 현재 위치에 대응하는 잡음 모델을 생성할 수 있다.
이후, 이동 단말은 생성된 잡음 모델을 서버로 전송할 수 있다(640).
도 7은 일 실시예에 따른 음성 인식 방법의 순서도이다.
도 7에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.
도 7을 참조하면, 이동 단말은 사용자로부터 음성 신호를 입력 받을 수 있다(710).
이후, 이동 단말은 음성 신호를 입력 받은 시점에서 이동 단말의 현재 위치를 판단할 수 있다(720).
이후, 이동 단말은 서버로 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델의 전송을 요청할 수 있다(730).
이후, 이동 단말은 서버로부터 이동 단말의 현재 위치에 대응하는 잡음-음성 인식 모델을 수신할 수 있다(740).
이후, 이동 단말은 수신된 잡음-음성 인식 모델을 이용하여, 음성 신호에 대한 음성 인식을 수행할 수 있다(750). 구체적으로, 이동 단말은 서버로부터 수신된 잡음-음성 인식 모델을 이용하여, 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용함으로써, 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.
도 8은 다른 실시예에 따른 음성 인식 방법의 순서도이다.
도 8에 도시된 각 단계는 예를 들어, 도 1에 도시된 음성 인식 장치(100)가 구비된 이동 단말에 의해 수행될 수 있다.
도 8을 참조하면, 이동 단말은 사용자로부터 음성 신호를 입력 받을 수 있다(810).
이후, 이동 단말은 음성 신호를 입력 받은 시점에서 이동 단말의 현재 위치를 판단할 수 있다(820).
이후, 이동 단말은 서버로 음성 인식 요청을 전송할 수 있다(830). 이때, 음성 인식 요청에는 이동 단말의 현재 위치 및 입력된 음성 신호가 포함될 수 있다.
이후, 이동 단말은 서버로부터 음성 신호에 대한 음성 인식 결과를 수신할 수 있다(840). 이때, 음성 인식 결과는 이동 단말의 현재 위치 정보에 대응하는 잡음-음성 인식 모델을 이용하여 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 수행된 음성 인식 결과일 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.
도 9는 일 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.
도 9에 도시된 각 단계는 예를 들어, 도 2에 도시된 잡음-음성 인식 모델 생성 장치(200)가 구비된 서버에 의해 수행될 수 있다.
도 9를 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 위치에 대응하는 잡음 모델을 수신할 수 있다(910).
이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(920). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.
이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(930).
도 10은 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.
도 10에 도시된 각 단계는 예를 들어, 도 3에 도시된 잡음-음성 인식 모델 생성 장치(300)가 구비된 서버에 의해 수행될 수 있다.
도 10을 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 의치에 대응하는 잡음 모델을 수신할 수 있다(1010).
이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(1020). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.
이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(1030).
한편, 서버는 이동 단말로부터 현재 위치를 포함하는 잡음-음성 인식 모델 전송 요청을 수신할 수 있다(1040).
이후, 서버는 수신된 잡음-음성 인식 모델 전송 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 잡음-음성 인식 모델 전송 요청을 전송한 이동 단말로 전송할 수 있다(1050).
도 11은 또 다른 실시예에 따른 잡음-음성 인식 모델 생성 절차를 나타낸 순서도이다.
도 11에 도시된 각 단계는 예를 들어, 도 4에 도시된 잡음-음성 인식 모델 생성 장치(400)가 구비된 서버에 의해 수행될 수 있다.
도 11을 참조하면, 서버는 적어도 하나의 이동 단말로부터 이동 단말의 위치에 대응하는 잡음 모델을 수신할 수 있다(1110).
이후, 서버는 수신된 잡음 모델을 이용하여 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다(1120). 예를 들어, 서버는 수신된 잡음 모델을 베이스라인 음성 인식 모델에 적용하여, 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성할 수 있다.
이후, 서버는 생성된 잡음-음성 인식 모델을 저장할 수 있다(1130).
한편, 서버는 이동 단말로부터 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 수신할 수 있다(1140).
이후, 서버는 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 음성 신호에 대한 음성 인식을 수행할 수 있다(1150). 구체적으로, 서버는 음성 인식 요청에 포함된 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 음성 인식 알고리즘을 학습시키고, 학습된 음성 인식 알고리즘에 음성 신호를 적용하여 음성 인식을 수행할 수 있다. 이때, 음성 인식 알고리즘은 신경망(Neural Network) 알고리즘 또는 HMM(Hidden Markov Model)과 같은 다양한 음성 인식 알고리즘이 이용될 수 있다.
이후, 서버는 음성 인식 결과를 음성 인식을 요청한 이동 단말로 전송할 수 있다(1160).
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 장치에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다.
또한, 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 해당 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상에서는 실시예들을 중심으로 기술적 특징들을 설명하였다. 하지만, 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한고, 권리 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 권리범위에 포함된 것으로 해석되어야 할 것이다.
100: 음성 인식 장치
110: 위치 판단부
120: 잡음 모델 생성부
130: 잡음 모델 전송부
140: 음성 인식부
200, 300, 400: 잡음-음성 인식 모델 생성 장치
210: 잡음 모델 수신부
220: 잡음-음성 인식 모델 생성부
230: 저장부
310: 잡음-음성 인식 모델 전송부
410: 음성 인식부
420: 음성 인식 결과 전송부

Claims (20)

  1. 이동 단말에 포함된 음성인식 장치에 있어서,
    이동 단말의 위치를 판단하는 위치 판단부;
    상기 이동 단말의 위치와 관련된 잡음 데이터를 수집하고, 수집된 잡음 데이터에 이동 단말의 현재 위치에 대한 위치 정보를 부가하여 상기 이동 단말의 위치에 대응하는 잡음 모델을 생성하는 잡음 모델 생성부;
    상기 잡음 모델을 서버로 전송하는 잡음 모델 전송부; 및
    상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하고, 수신된 잡음-음성 인식 모델을 이용하여 음성인식을 수행하는 음성 인식부를 포함하고,
    상기 잡음-음성 인식 모델은
    상기 서버에 의해 상기 잡음 모델을, 잡음이 포함되지 않은 음성과 대응되는 텍스트로 구성되는 학습데이터인 베이스라인 음성 인식 모델에 적용하고, 상기 잡음 모델에 포함된 위치 정보를 부가함으로써 상기 이동 단말의 현재 위치에 대하여 생성되는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 잡음 모델 생성부는,
    상기 이동 단말의 마이크로폰을 활성화하고, 활성화된 마이크로폰을 통해 이동 단말의 위치에서 발생하는 잡음 데이터를 수집하는 음성 인식 장치
  3. 제 1 항에 있어서,
    상기 잡음 모델 생성부는,
    상기 이동 단말의 위치와 관련된 웹 동영상으로부터 잡음 데이터를 수집하는 음성 인식 장치.
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    상기 음성 인식부는,
    상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하고, 상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 음성 인식 장치.
  7. 서버에 포함된 잡음-음성 인식 모델 생성 장치에 있어서,
    이동 단말로부터 이동 단말의 현재 위치에 대한 위치 정보가 부가된 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 잡음 모델 수신부;
    상기 잡음 모델을 잡음이 포함되지 않은 음성과 대응되는 텍스트로 구성되는 학습데이터인 베이스라인 음성 인식 모델에 적용하고, 상기 잡음 모델에 포함된 위치정보를 부가함으로써 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 잡음-음성 인식 모델 생성부;
    상기 생성된 잡음-음성 인식 모델을 저장하는 저장부; 및
    상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 잡음-음성 인식 모델 전송부;를 포함하는 잡음-음성 인식 모델 생성 장치.
  8. 제 7 항에 있어서,
    상기 잡음 모델은,
    상기 이동 단말의 위치와 관련하여 이동 단말의 활성화된 마이크로폰을 통하여 수집된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함하는 잡음-음성 인식 모델 생성 장치.
  9. 삭제
  10. 제 7 항에 있어서,
    상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신한 경우, 상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 음성 인식 결과 전송부;를 더 포함하는 잡음-음성 인식 모델 생성 장치.
  11. 음성 인식 장치가 구비된 이동 단말이,
    사용자로부터 음성신호를 입력 받는 단계;
    이동 단말의 현재 위치를 판단하는 단계;
    상기 이동 단말의 현재 위치와 관련된 잡음 데이터를 수집하는 단계;
    상기 잡음 데이터에 이동 단말의 현재 위치에 대한 위치 정보를 부가하여 상기 이동 단말의 현재 위치에 대응하는 잡음 모델을 생성하는 단계;
    상기 생성된 잡음 모델을 서버로 전송하는 단계; 및
    상기 서버로부터 상기 이동 단말의 현재 위치에 대응하는 잡음 모델이 적용된 잡음-음성 인식 모델을 수신하고, 수신된 잡음-음성 인식 모델을 이용하여 음성인식을 수행하는 단계를 포함하고,
    상기 잡음-음성 인식 모델은
    상기 서버에 의해 상기 잡음 모델을, 잡음이 포함되지 않은 음성과 대응되는 텍스트로 구성되는 학습데이터인 베이스라인 음성 인식 모델에 적용하고, 상기 잡음 모델에 포함된 위치 정보를 부가함으로써 상기 이동 단말의 현재 위치에 대하여 생성되는 음성 인식 방법.
  12. 제 11 항에 있어서,
    상기 잡음 데이터를 수집하는 단계는,
    상기 이동 단말의 마이크로폰을 활성화하고, 활성화된 마이크로폰을 통해 이동 단말의 현재 위치에서 발생하는 잡음 데이터를 수집하는 음성 인식 방법.
  13. 제 11 항에 있어서,
    상기 잡음 데이터를 수집하는 단계는,
    상기 이동 단말의 현재 위치와 관련된 웹 동영상을 검색하여 검색된 웹 동영상으로부터 잡음 데이터를 수집하는 음성 인식 방법.
  14. 삭제
  15. 삭제
  16. 제 11 항에 있어서,
    상기 음성 인식을 수행하는 단계는,
    상기 서버로 상기 이동 단말의 현재 위치 및 음성 신호를 포함하는 음성 인식 요청을 전송하는 단계; 및
    상기 서버로부터 상기 음성 신호가 입력된 시점에서의 상기 이동 단말의 위치에 대응하는 잡음 모델이 적용된 상기 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대해 수행된 음성 인식 결과를 수신하는 단계;를 포함하는 음성 인식 방법.
  17. 잡음-음성 인식 모델 생성 장치가 구비된 서버가,
    이동 단말로부터 상기 이동 단말의 위치에 대응하는 잡음 모델을 수신하는 단계;
    상기 잡음 모델을 잡음이 포함되지 않은 음성과 대응되는 텍스트로 구성되는 학습데이터인 베이스라인 음성 인식 모델에 적용하고, 상기 잡음 모델에 포함된 위치정보를 부가함으로써 상기 이동 단말의 위치에 대응하는 잡음-음성 인식 모델을 생성하는 단계;
    상기 생성된 잡음-음성 인식 모델을 저장하는 단계;
    상기 이동 단말로부터 현재 위치에 대한 정보가 포함된 잡음-음성 인식 모델 전송 요청을 수신하는 단계; 및
    상기 현재 위치에 대응하는 잡음-음성 인식 모델을 상기 이동 단말로 전송하는 단계;를 포함하는 잡음-음성 인식 모델 생성 방법.
  18. 제 17 항에 있어서,
    상기 잡음 모델은,
    상기 이동 단말의 위치와 관련하여 이동 단말의 활성화된 마이크로폰을 통하여 수집된 잡음 데이터 및 상기 이동 단말의 위치에 대한 정보를 포함하는 잡음-음성 인식 모델 생성 방법.
  19. 삭제
  20. 제 17 항에 있어서,
    상기 이동 단말로부터 현재 위치에 대한 정보 및 음성 신호가 포함된 음성 인식 요청을 수신하는 단계;
    상기 현재 위치에 대응하는 잡음-음성 인식 모델을 이용하여 상기 음성 신호에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식 수행 결과를 상기 이동 단말로 전송하는 단계;를 더 포함하는 잡음-음성 인식 모델 생성 방법.











KR1020140053592A 2014-05-02 2014-05-02 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법 KR102257910B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140053592A KR102257910B1 (ko) 2014-05-02 2014-05-02 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US14/621,050 US9626962B2 (en) 2014-05-02 2015-02-12 Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140053592A KR102257910B1 (ko) 2014-05-02 2014-05-02 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150126214A KR20150126214A (ko) 2015-11-11
KR102257910B1 true KR102257910B1 (ko) 2021-05-27

Family

ID=54355681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140053592A KR102257910B1 (ko) 2014-05-02 2014-05-02 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US9626962B2 (ko)
KR (1) KR102257910B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102011495B1 (ko) 2012-11-09 2019-08-16 삼성전자 주식회사 사용자의 심리 상태 판단 장치 및 방법
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US10181321B2 (en) * 2016-09-27 2019-01-15 Vocollect, Inc. Utilization of location and environment to improve recognition
WO2020241923A1 (ko) * 2019-05-29 2020-12-03 엘지전자 주식회사 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법
KR20210017392A (ko) 2019-08-08 2021-02-17 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR102423977B1 (ko) * 2019-12-27 2022-07-22 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치
CN111429929B (zh) * 2020-03-03 2023-01-03 厦门快商通科技股份有限公司 一种语音去噪方法、语音识别方法及计算机可读存储介质
WO2021258240A1 (en) * 2020-06-22 2021-12-30 Qualcomm Incorporated Voice or speech recognition in noisy environments
CN112669867B (zh) 2020-12-15 2023-04-11 阿波罗智联(北京)科技有限公司 噪声消除算法的调试方法、装置和电子设备
WO2024029851A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 음성 인식 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052062A1 (en) * 2003-10-28 2008-02-28 Joey Stanford System and Method for Transcribing Audio Files of Various Languages
JP2008242067A (ja) * 2007-03-27 2008-10-09 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法
JP2008250059A (ja) 2007-03-30 2008-10-16 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100285502B1 (ko) 1997-09-13 2001-04-02 이계철 음성 데이터베이스 구축방법
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
TWI245259B (en) 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
KR100676084B1 (ko) 2005-01-14 2007-01-31 한국정보통신대학교 산학협력단 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법
KR20090025939A (ko) 2007-09-07 2009-03-11 (주)한국파워보이스 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
KR20100101986A (ko) 2009-03-10 2010-09-20 엘지전자 주식회사 텔레매틱스 단말기, 텔레매틱스 단말기의 음성인식방법 및 컴퓨터로 읽을 수 있는 기록매체
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052062A1 (en) * 2003-10-28 2008-02-28 Joey Stanford System and Method for Transcribing Audio Files of Various Languages
JP2008242067A (ja) * 2007-03-27 2008-10-09 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法
JP2008250059A (ja) 2007-03-30 2008-10-16 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法

Also Published As

Publication number Publication date
US20150317998A1 (en) 2015-11-05
KR20150126214A (ko) 2015-11-11
US9626962B2 (en) 2017-04-18

Similar Documents

Publication Publication Date Title
KR102257910B1 (ko) 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US9646609B2 (en) Caching apparatus for serving phonetic pronunciations
US10043520B2 (en) Multilevel speech recognition for candidate application group using first and second speech commands
EP3251115B1 (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
AU2015261693B2 (en) Disambiguating heteronyms in speech synthesis
US20190079724A1 (en) Intercom-style communication using multiple computing devices
US10475461B2 (en) Periodic ambient waveform analysis for enhanced social functions
JP2022136197A (ja) 記録メディアのホットワードトリガ抑制
US11599750B2 (en) Edge devices utilizing personalized machine learning and methods of operating the same
CN104575493B (zh) 使用地理信息的声学模型适配
KR102386863B1 (ko) 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
JP2021015281A (ja) 文脈ホットワード
US9299347B1 (en) Speech recognition using associative mapping
US20160071516A1 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
KR20170094415A (ko) 개인정보 보호 트레이닝 코퍼스 선택
CN110622155A (zh) 将音乐识别为特定歌曲
US20140379346A1 (en) Video analysis based language model adaptation
US9905248B2 (en) Inferring user intentions based on user conversation data and spatio-temporal data
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
CN102270213A (zh) 一种导航系统兴趣点的搜索方法、装置及位置服务终端
CN102426015A (zh) 一种导航系统兴趣点的搜索方法及位置服务终端
JP2022527527A (ja) 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム
CN105528385B (zh) 信息取得方法、信息取得系统以及信息取得程序
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant