KR100897554B1 - 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 - Google Patents

분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 Download PDF

Info

Publication number
KR100897554B1
KR100897554B1 KR1020070017620A KR20070017620A KR100897554B1 KR 100897554 B1 KR100897554 B1 KR 100897554B1 KR 1020070017620 A KR1020070017620 A KR 1020070017620A KR 20070017620 A KR20070017620 A KR 20070017620A KR 100897554 B1 KR100897554 B1 KR 100897554B1
Authority
KR
South Korea
Prior art keywords
terminal
phoneme
server
candidate list
speech recognition
Prior art date
Application number
KR1020070017620A
Other languages
English (en)
Other versions
KR20080077873A (ko
Inventor
한익상
김규홍
김정수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070017620A priority Critical patent/KR100897554B1/ko
Priority to US11/826,346 priority patent/US20080201147A1/en
Publication of KR20080077873A publication Critical patent/KR20080077873A/ko
Application granted granted Critical
Publication of KR100897554B1 publication Critical patent/KR100897554B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기가 개시된다. 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되는 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 후보리스트를 생성하고, 리스코어링을 위하여 상기 후보 리스트를 상기 단말기로 전송하는 서버로 이루어진다.

Description

분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기{Distributed speech recognition sytem and method and terminal for distributed speech recognition}
도 1은 본 발명에 따른 분산 음성인식시스템의 개념을 설명하기 위한 도면,
도 2는 본 발명의 제1 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도,
도 3은 본 발명의 제2 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도,
도 4는 본 발명에 따른 분산 음성인식시스템에 있어서 기준패턴과 인식심볼시퀀스에 대한 매칭의 일예를 나타내는 도면, 및
도 5는 본 발명에 따른 분산 음성인식시스템과 기존 방법에 따른 분산 음성인식시스템에 있어서 송수신 데이터량을 비교한 그래프이다.
본 발명은 분산 음성인식에 관한 것으로서, 보다 구체적으로는 단말기와 서버간에 송수신되는 데이터량을 대폭 감소시키면서 음성인식 성능을 높일 수 있는 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 및 서버에 관한 것이다.
휴대폰 혹은 PDA(Personal Digital Assiatant)와 같은 단말기는 탑재된 프로세서의 성능 혹은 메모리의 용량 등의 제한으로 인하여 자체에서 대용량 음성인식을 수행하는데 한계가 있다. 따라서, 이와 같은 단말기에서는 서버와 연동하여 분산 음성인식(distributed speech recognition)을 통하여 대용량 음성인식의 성능 및 정확도를 보장하고 있다.
이와 같은 분산 음성인식을 위하여 종래방법의 일예에 따르면, 단말기에서는 입력된 음성신호를 녹음한 다음, 녹음된 음성신호를 서버로 전송한다. 서버에서는 전송된 음성신호에 대하여 대용량 음성인식을 수행하고, 인식결과를 단말기로 전송한다. 이 경우, 단말기로부터 서버로 음성파형 자체를 전송함으로써 초당 약 32 Kbytes 정도로 전송 데이터량이 증가하여 채널효율이 현저히 떨어지고, 서버의 부담이 커지는 단점이 있다.
한편, 전송 데이터량을 감소시키기 위한 종래방법의 다른 예에 따르면, 단말기에서는 입력된 음성신호로부터 특징벡터를 추출한 다음, 추출된 특징벡터를 서버로 전송한다. 서버에서는 전송된 특징벡터에 대하여 대용량 음성인식을 수행하고, 인식결과를 단말기로 전송한다. 이 경우, 단말기로부터 서버로 특징벡터를 전송함으로써 초당 약 16 Kbytes 정도로 전송 데이터량은 감소하나 채널 효율은 여전히 떨어지며, 서버의 부담이 여전히 큰 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 단말기와 서버간에 송수신되는 데이터량을 대폭 감소시키면서 음성인식 성능을 높일 수 있는 분산 음성인식시스템 및 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 분산 음성인식을 위한 단말기 및 서버를 제공하는데 있다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 최종 인식결과를 상기 단말기로 전송하는 서버를 포함하여 이루어진다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식시스템은 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되는 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및 상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 후보리스트를 생성하고, 리스코어링을 위하여 상기 후보 리스트를 상기 단말기로 전송하는 서버를 포함하여 이루어진다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식방법은 단말기에서 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계; 서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 최종 인식결과를 생성하는 단계; 및 상기 서버에서 생성된 상기 최종 인식결과를 상기 단말기에서 수신하는 단계를 포함하여 이루어진 다.
상기 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식방법은 단말기에서 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계; 서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 후보리스트를 생성하는 단계; 및 상기 서버에서 생성된 상기 후보 리스트를 상기 단말기에서 리스코어링하여 최종 인식결과를 생성하는 단계를 포함하여 이루어진다.
상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산음성인식을 위한 단말기는 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부; 상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및 상기 서버로부터 제공되는 최종 인식결과를 수신하는 수신부를 포함하여 이루어진다.
상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산음성인식을 위한 단말기는 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부; 상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및 상기 서버로부터 제공되는 상기 후보 리스트에 대하여 리스코어링을 수행하는 상세매칭부를 이루어진다.
상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식을 위한 서버는 단말기로부터 인식된 음소열을 수신하고, 상기 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및 상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어에 따라서 최종 인식결과를 생성하고, 상기 최종 인식결과를 상기 단말기로 제공하는 계산부를 포함하여 이루어진다.
상기 다른 기술적 과제를 해결하기 위하여 본 발명에 따른 분산 음성인식을 위한 서버는 단말기로부터 인식된 음소열을 수신하고, 상기 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및 상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어에 따라서 후보 리스트를 생성하고, 리스코링을 위하여 상기 후보리스트를 상기 단말기로 제공하는 계산부를 포함하여 이루어진다.
상기 분산 음성인식방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 분산 음성인식시스템의 개념을 설명하기 위한 도면으로서, 클라이언트(110), 네트워크(130), 및 서버(150)를 포함하여 이루어진다. 여기서, 클라이언트(110)는 휴대폰 혹은 PDA 등을 포함하는 단말기를 의미하며, 네트워크(130)는 유선 혹은 무선을 통한 네트워크를 의미한다. 서버(150)는 홈 서버, 차량 서버, 혹은 웹 서버 등을 포함한다.
도 1을 참조하면, 클라이언트(110)에서는 입력된 음성신호로부터 추출되는 특징벡터를 음소열로 디코딩하고, 음소열을 네트워크(130)를 통하여 서버(150)로 전송한다. 이때, 음소열로 디코딩시 사용되는 음향모델로는 화자적응형 음향모델 혹은 환경적응형 음향모델이 바람직하다. 서버(150)에서는 전송된 음소열에 대하여 대용량 음성인식을 수행하고, 인식결과 하나의 단어를 네트워크(130)를 통하여 단말기(110)로 전송한다. 다른 실시예에 따르면, 서버(150)에서는 전송된 음소열에 대하여 대용량 음성인식을 수행하고, 인식된 복수의 단어로 구성되는 후보 리스트를 네트워크(130)를 통하여 단말기(110)로 전송한다. 단말기(110)는 전송된 후보 리스트에 대하여 상세 매칭을 수행하고, 최종 인식결과를 생성한다.
도 2는 본 발명의 제1 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도로서, 클라이언트(110)는 특징추출부(210), 음소 디코딩부(230), 및 수신부(250)를 포함하고, 서버(150)는 심볼매칭부(270) 및 계산부(290)를 포함하여 이루어진다.
도 2를 참조하면, 클라이언트(110)에 있어서 특징추출부(210)는 사용자로부터 음성쿼리 즉, 음성신호를 입력받으면, 음성신호에 대한 특징벡터를 추출한다. 즉, 특징추출부(210)는 사용자로부터 입력되는 음성신호의 배경잡음을 억제하고, 사용자의 음성신호 중 음성구간을 검출한 후, 검출된 음성구간에서 음성인식에 사용될 특징벡터를 추출한다.
음소 디코딩부(230)는 특징추출부(210)로부터 제공되는 특징벡터를 음소열로 디코딩한다. 이때, 음소 디코딩부(230)는 프레임마다 활성화된 모든 스테이트의 관측확률(state log-likelihood)을 계산하고, 관측확률을 이용하여 음소열 디코딩을 수행한다. 음소 디코딩부(230)에서 출력되는 음소열은 복수개일 수 있으며, 각 음소열에 포함되는 음소에 대하여 가중치를 설정하는 것도 가능하다. 즉, 음소 디 코딩부(230)는 추출된 특징벡터를 음소 또는 트라이폰(tri-phone) 음향모델을 사용하여 단일 혹은 복수개의 음소열로 변환하는 디코딩을 수행한다. 음소 디코딩부(230)는 추출된 특징 벡터를 음소열로 변환할 때 음소레벨문법(phone-level grammar)를 적용하여 음소열에 구속장(constraints)를 부가한다. 또한, 음소 디코딩부(230)는 트라이폰 음향모델을 사용하는 경우 문맥(context)간의 연결성을 적용할 수 있다. 음소 디코딩부(230)에서 사용되는 음향모델은 화자 혹은 환경 적응형 음향모델을 사용할 수 있다.
수신부(250)는 서버(150)로부터 제공되는 인식결과를 수신하여, 클라이언트(110)에서 음성쿼리에 대하여 미리 설정된 동작, 예를 들면, 모바일 웹 검색, 서버에 내장된 대용량 음악음색 등과 같은 동작을 수행하도록 제공된다.
한편, 서버(150)에 있어서 심볼매칭부(270)는 인식된 음소열과 데이터베이스(미도시)에 등록된 인식대상 어휘목록의 음소열을 매칭한다. 이때, 심볼매칭부(270)는 동적 프로그래밍(dynamic programming) 기법에 근거하여, 인식된 음소열 즉, 인식심볼시퀀스와 등록된 음소열 즉, 기준패턴을 음소 혼동 매트릭스(phone confusion matrix) 및 언어 구속장(linguistic constraints)에 의해 도 4에 도시된 것과 같은 최적경로 검색에 대한 매칭을 수행한다. 또한, 심볼매칭부(270)는 어느 지점에서든지 매칭동작이 시작되거나 끝날 수 있도록 허용 가능하며, 단어 또는 어절 경계와 같은 언어적 지식에 근거하여 매칭동작의 시작 혹은 끝 부분을 제한할 수 있다. 한편, 음소 혼동 매트릭스에서 사용되는 심볼 세트로는 인식 심볼세트와 기준 심볼세트가 있다. 인식 심볼세트는 음소 디코딩부(230)에서 사용되는 음소세 트이다. 기준 심볼세트는 심볼매칭부(270)에서 사용되는 인식대상 어휘목록의 음소열 즉, 기준패턴을 표현하는데 사용되는 음소세트이다. 여기서, 인식 심볼세트와 기준 심볼세트는 동일하거나 다를 수 있다. 음소 혼동 매트릭스는 인식 혹은 기준 심볼들 사이의 혼동 정도를 확률값으로 표현하며, 이때 인식 심볼의 삽입 확률값과 기준 심볼의 삭제 확률값이 사용된다.
계산부(290)는 심볼매칭부(270)에서의 매칭결과에 따른 매칭스코어를 계산하여, 매칭스코어에 따른 인식결과 즉, 인식된 단어의 발음(lexicon) 정보를 클라이언트(110)의 수신부(250)로 제공한다. 이때, 계산부(290)는 가장 높은 매칭스코어를 갖는 하나의 단어를 출력하거나, 매칭스코어의 순서에 따른 복수개의 단어를 출력할 수 있다. 이때, 계산부(290)는 매칭결과에 따른 매칭스코어를 음소 혼동 매트릭스의 확률값을 사용하여 계산한다. 또한, 계산부(290)는 음소의 삽입(insertion)과 삭제(deletion) 확률도 고려하여 매칭스코어를 계산한다.
요약하면, 클라이언트(110)에서는 인식대상 어휘목록과는 독립적으로 인식된 음소열을 서버(150)로 제공하고, 서버(150)에서는 인식된 음소열에 대하여 인식대상 어휘목록에 종속적인 심볼매칭을 수행하여 인식결과를 클라이언트(110)로 제공한다.
도 3은 본 발명의 제2 실시예에 따른 분산 음성인식시스템의 구성을 나타낸 블록도로서, 클라이언트(110)는 특징추출부(310), 음소 디코딩부(330), 및 상세매칭부(350)를 포함하고, 서버(150)는 심볼매칭부(370) 및 계산부(390)를 포함하여 이루어진다. 여기서, 특징추출부(310), 음소 디코딩부(330), 심볼매칭부(370) 및 계산부(390)의 동작은 제1 실시예에서와 동일하므로 그 상세한 설명은 생략하기로하고, 주된 차이점인 상세매칭부(350)에 대하여 세부적으로 설명하기로 한다.
도 3을 참조하면, 상세매칭부(350)는 서버(150)로부터 제공되는 후보리스트에 포함되는 매칭된 음소 세그먼트를 리스코어링한다. 상세매칭부(350)는 비터비 알고리즘을 사용하며, 음소 디코딩부(330)에서와 마찬가지로 화자 혹은 환경 적응형 음향모델을 사용할 수 있다. 이때, 인식단위에 대한 관측확률값은 음소 디코딩부(330)에서 음소열을 생성할 때 사용한 값을 다시 사용하며, 인식단위 후보를 수개 내지 수십개로 줄인 상태이므로 계산량은 매우 작아진다.
요약하면, 클라이언트(110)에서는 인식대상 어휘목록과는 독립적으로 인식된 음소열을 서버(150)로 제공하고, 서버(150)에서는 인식대상 어휘목록에 종속적인 심볼매칭을 수행하여 인식결과 즉, 인식된 단어들의 발음(lexicon) 정보를 포함하는 후보리스트를 클라이언트(110)로 제공한다. 그러면, 클라이언트(110)에서는 인식결과로 제공되는 후보 리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 출력한다.
도 4는 본 발명에 따른 분산 음성인식시스템에 있어서 기준패턴과 인식심볼시퀀스에 대한 매칭의 일예를 나타내는 도면이다.
도 4를 참조하면, 가로축은 음소 디코딩부(230, 330)의 출력인 인식심볼시퀀스(recognition symbol sequence)의 일례로서 "샤랑에"를 나타내고, 세로축은 인식대상 어휘목록(word list)의 기준패턴(reference pattern)의 일례로서 "널 사랑해"를 나타낸다. 본 발명에 따른 분산 음성인식시스템은 기준패턴에서 "널(nvL)" 부 분이 인식심볼시퀀스와 매칭되지 않으므로 인식심볼시퀀스와 매칭되는 "사랑해" 부분부터 매칭시킨다.
한편, 본 발명에 따른 분산 음성인식방법과 종래기술에 따른 분산 음성인식방법의 성능을 비교하면 다음과 같다.
일반적으로 단말기는 39차의 특징벡터를 10 msec 단위로 분석 윈도우를 슬라이딩시켜가면서 추출하여 서버로 전송한다. 사용자가 "사랑해" 라고 발성하였을 때, 샘플링 레이트가 16 KHz이고, 음성검출기에서 검출한 음성의 크기를 1초라고 가정한 경우 각 방법에 따른 전송 데이터량은 다음과 같이 산출할 수 있다.
먼저, 단말기로부터 서버로 음성파형을 전송하는 경우(기존방법 1), 단말기에서 서버로 전송되는 데이터량 즉, 1초 음성을 표현하기 위한 Bytes 수는 32,000 Kbytes (= 16,000 X 2)가 된다. 한편, 서버로부터 단말기로 전송되는 데이터량은 "사랑해" 에 대응되는 6 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 32,006 Bytes가 된다.
다음, 단말기로부터 서버로 특징벡터를 전송하는 경우(기존방법 2), 단말기에서 서버로 전송되는 데이터량 즉, 1초 음성을 표현하기 위한 Bytes 수는 프레임수 X 프레임당 소요 Bytes수로서 15,600 Kbytes (= 100 X 156)가 된다. 여기서, 프레임수는 1000 msec/10 msec로부터 얻어지고, 프레임당 소요 Bytes수는 39 X 4 로부터 얻어진다. 서버로부터 단말기로 전송되는 데이터량은 "사랑해" 에 대응되는 6 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 15,606 Bytes가 된다.
한편, 본 발명의 제1 실시예(본 발명 2)의 경우, 45개의 음소세트를 사용하는 음소 디코딩부(230)에 "사랑해"를 입력한 경우 추출되는 음소열은 "s ya r a 0 e"이다. 이때, 각 음소를 표현하기 위해서는 6 비트를 필요로 하며, 다국어 확장성을 고려하여 8 비트로 표현하는 경우 6개의 음소이므로 6 bytes가 소요된다. 한편, 서버로부터 단말기로 전송되는 데이터량은 하나의 단어에 해당하는 평균 6 bytes 가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 12 Bytes가 된다.
본 발명의 제2 실시예(본 발명 1)의 경우, 상세 매칭부(350)로 제공되는 후보 리스트를 평균 6 Bytes 단어 100개로 구성할 경우, 서버로부터 단말기로 전송되는 데이터량은 약 600 Bytes가 된다. 따라서, 분산 음성인식을 위한 송수신 데이터량은 총 606 Bytes가 된다.
상기한 본 발명에 따른 분산 음성인식시스템과 기존 방법에 따른 분산 음성인식시스템에 있어서 송수신 데이터량은 도 5에 도시되어 있다. 이에 따르면, 본 발명의 경우 음성인식 성능은 저하되지 않으면서 제1 실시예의 경우 1500 배, 제2 실시예의 경우 30 배로 송수신 데이터량을 감축시켜 통신채널 효율을 증가시킬 수 있다. 또한, 단말기에서 화자 혹은 환경 적응형 음향모델을 사용할 경우 음성인식 성능을 대폭 향상시킬 수 있다. 즉, 단말기 사용자 측면에서 본다면, 단말기와 서버간 송수신 데이터량의 감축으로 인하여 분산 음성인식에 소요되는 시간이 줄어들게 되어 분산 음성인식 서비스 비용을 절약할 수 있다. 한편, 서버 측면에서 본다면, 종래에는 특징벡터에 대하여 음향모델의 관측확률을 계산하므로 계산량이 많은 반면, 본 발명에서는 음소열에 대한 심볼매칭을 수행하므로 계산량이 대폭 감소되어 서버의 부담을 줄일 수 있다. 따라서, 하나의 서버에서 동시에 제공할 수 있는 서비스 용량을 증가시킬 수 있다.
또한 본 발명에 따른 분산 음성인식방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 바와 같이 본 발명에 따르면, 단말기와 서버를 연동시킨 분산 음성인식시스템에 있어서 음성인식 성능의 저하없이 단말기와 서버간 송수신 데이터량을 대폭 감소시킬 수 있으므로 통신채널의 효율을 증대시킬 수 있다.
또한, 서버에서 음소열에 대한 심볼매칭을 수행한 후 얻어지는 후보 리스트를 단말기로 전송하면, 단말기에서 미리 계산된 관측확률값을 이용하여 후보 리스트에 대한 상세매칭을 수행함으로써 서버의 부담을 대폭 감소시킬 수 있어 서버에서 동시에 제공할 수 있는 서비스 용량을 증대시킬 수 있다.
또한, 단말기에서 음소열 디코딩 및 상세매칭시 화자 혹은 환경 적응형 음향모델을 사용함으로써, 음성인식 성능을 대폭 향상시킬 수 있다.
본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (23)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 현재 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하고, 외부로부터 전송되며 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 수신하고, 상기 수신된 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 단말기; 및
    상기 단말기로부터 제공되는 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 생성하고, 최종 인식결과를 생성하기 위한 리스코어링을 위하여 상기 후보리스트를 상기 단말기로 전송하는 서버를 포함하는 것을 특징으로 하는 분산 음성인식시스템.
  6. 제5 항에 있어서, 상기 단말기는 화자 혹은 환경 적응형 음향모델을 사용하여 상기 음소열 디코딩을 수행하는 것을 특징으로 하는 분산 음성인식시스템.
  7. 제5 항에 있어서, 상기 단말기는
    상기 음성신호로부터 특징벡터를 추출하는 특징추출부;
    상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 상기 서버로 제공하는 음소 디코딩부; 및
    상기 서버로부터 제공되는 상기 후보리스트에 대하여 리스코어링을 수행하는 상세매칭부를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식시스템.
  8. 제5 항에 있어서, 상기 서버는
    상기 단말기로부터 제공되는 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 심볼매칭부; 및
    상기 심볼매칭부에서의 매칭결과에 대한 매칭스코어를 계산하고, 상기 매칭스코어에 따른 후보 리스트를 상기 단말기로 제공하는 계산부를 포함하는 것을 특징으로 하는 분산 음성인식시스템.
  9. 삭제
  10. 삭제
  11. 현재 입력되는 음성신호로부터 특징벡터를 추출하는 특징추출부;
    상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 서버로 제공하는 음소 디코딩부; 및
    상기 서버에서 현재 입력되는 음성신호에 대한 1차 음성인식을 수행한 결과 생성되는 후보리스트를 수신하고, 상기 수신된 후보리스트에 대하여 리스코어링을 수행하여 최종 인식결과를 생성하는 상세매칭부를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식을 위한 단말기.
  12. 제11 항에 있어서, 상기 음소 디코딩부는 화자 혹은 환경 적응형 음향모델을 사용하는 것을 특징으로 하는 분산 음성인식을 위한 단말기.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 단말기에서 현재 입력되는 음성신호에 대하여 추출되는 특징벡터를 인식된 음소열로 디코딩하는 단계;
    서버에서 상기 인식된 음소열을 수신하여, 상기 인식된 음소열에 대하여 심볼 매칭을 수행하여 상기 현재 입력되는 음성신호에 대한 1차 인식결과에 해당하는 후보리스트를 생성하는 단계; 및
    상기 단말기에서 상기 서버에서 생성된 상기 현재 입력되는 음성신호의 1차 인식결과에 해당하는 후보리스트를 수신하고, 상기 수신된 후보리스트를 리스코어링하여 상기 현재 입력되는 음성신호에 대한 최종 인식결과를 생성하는 단계를 포함하는 것을 특징으로 하는 분산 음성인식방법.
  20. 제19 항에 있어서, 상기 단말기는 화자 혹은 환경 적응형 음향모델을 사용하여 상기 음소열 디코딩을 수행하는 것을 특징으로 하는 분산 음성인식방법.
  21. 제19 항에 있어서, 상기 음소열 디코딩단계는
    상기 현재 입력되는 음성신호로부터 특징벡터를 추출하는 단계; 및
    상기 추출된 특징벡터를 음소열로 디코딩하고, 디코딩된 음소열을 상기 서버로 제공하는 단계를 포함하여 이루어지는 것을 특징으로 하는 분산 음성인식방법.
  22. 제19 항에 있어서, 상기 후보리스트 생성단계는
    상기 단말기로부터 제공되는 인식된 음소열과 어휘목록에 등록된 음소열간의 매칭을 수행하는 단계; 및
    상기 매칭결과에 대한 매칭스코어를 계산하고, 상기 매칭스코어에 따른 상기 후보리스트를 상기 단말기로 제공하는 단계를 포함하는 것을 특징으로 하는 분산 음성인식방법.
  23. 제19 항 내지 제22 항 중 어느 한 항에 기재된 분산 음성인식방법을 실행할 수 있는 프로그램을 기재한 컴퓨터로 읽을 수 있는 기록매체.
KR1020070017620A 2007-02-21 2007-02-21 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 KR100897554B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070017620A KR100897554B1 (ko) 2007-02-21 2007-02-21 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US11/826,346 US20080201147A1 (en) 2007-02-21 2007-07-13 Distributed speech recognition system and method and terminal and server for distributed speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017620A KR100897554B1 (ko) 2007-02-21 2007-02-21 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기

Publications (2)

Publication Number Publication Date
KR20080077873A KR20080077873A (ko) 2008-08-26
KR100897554B1 true KR100897554B1 (ko) 2009-05-15

Family

ID=39707417

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017620A KR100897554B1 (ko) 2007-02-21 2007-02-21 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기

Country Status (2)

Country Link
US (1) US20080201147A1 (ko)
KR (1) KR100897554B1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100897553B1 (ko) 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US20090171663A1 (en) * 2008-01-02 2009-07-02 International Business Machines Corporation Reducing a size of a compiled speech recognition grammar
US9037463B2 (en) * 2010-05-27 2015-05-19 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US8489398B1 (en) * 2011-01-14 2013-07-16 Google Inc. Disambiguation of spoken proper names
US9109614B1 (en) 2011-03-04 2015-08-18 Lightsail Energy, Inc. Compressed gas energy storage system
US8613267B1 (en) 2011-07-19 2013-12-24 Lightsail Energy, Inc. Valve
US9243585B2 (en) 2011-10-18 2016-01-26 Lightsail Energy, Inc. Compressed gas energy storage system
US20130144618A1 (en) * 2011-12-02 2013-06-06 Liang-Che Sun Methods and electronic devices for speech recognition
CN103546623B (zh) * 2012-07-12 2018-11-13 百度在线网络技术(北京)有限公司 用于发送语音信息及其文本描述信息的方法、装置与设备
CN103794211B (zh) * 2012-11-02 2017-03-01 北京百度网讯科技有限公司 一种语音识别方法及系统
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
KR102434604B1 (ko) 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
CN111462751B (zh) * 2020-03-27 2023-11-03 京东科技控股股份有限公司 解码语音数据的方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020080174A (ko) * 2001-04-12 2002-10-23 엘지전자 주식회사 이동통신 단말기의 음성인식 장치 및 방법
JP2003044091A (ja) * 2001-07-31 2003-02-14 Ntt Docomo Inc 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
KR20030076601A (ko) * 2001-01-05 2003-09-26 콸콤 인코포레이티드 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
KR20050033248A (ko) * 2003-10-06 2005-04-12 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
EP0801786B1 (en) * 1995-11-04 2000-06-28 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
CN1120469C (zh) * 1998-02-03 2003-09-03 西门子公司 传输语音数据的方法
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6725195B2 (en) * 1998-08-25 2004-04-20 Sri International Method and apparatus for probabilistic recognition using small number of state clusters
US6178401B1 (en) * 1998-08-28 2001-01-23 International Business Machines Corporation Method for reducing search complexity in a speech recognition system
ATE263997T1 (de) * 1998-09-29 2004-04-15 Lernout & Hauspie Speechprod Zwischen-wörter verbindung phonemische modelle
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
CN1329861C (zh) * 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
US6442520B1 (en) * 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
WO2001065541A1 (fr) * 2000-02-28 2001-09-07 Sony Corporation Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US20020072916A1 (en) * 2000-12-08 2002-06-13 Philips Electronics North America Corporation Distributed speech recognition for internet access
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6985861B2 (en) * 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7286987B2 (en) * 2002-06-28 2007-10-23 Conceptual Speech Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
US8280640B2 (en) * 2003-08-11 2012-10-02 Eloret Corporation System and method for pattern recognition in sequential data
EP1665086A4 (en) * 2003-08-15 2009-09-02 Silverbrook Res Pty Ltd IMPROVING ACCURACY IN DIGITAL COLOR SEARCH
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US20050273327A1 (en) * 2004-06-02 2005-12-08 Nokia Corporation Mobile station and method for transmitting and receiving messages
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7747437B2 (en) * 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
KR100682909B1 (ko) * 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070129949A1 (en) * 2005-12-06 2007-06-07 Alberth William P Jr System and method for assisted speech recognition
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
US20080120094A1 (en) * 2006-11-17 2008-05-22 Nokia Corporation Seamless automatic speech recognition transfer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030076601A (ko) * 2001-01-05 2003-09-26 콸콤 인코포레이티드 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
KR20020080174A (ko) * 2001-04-12 2002-10-23 엘지전자 주식회사 이동통신 단말기의 음성인식 장치 및 방법
JP2003044091A (ja) * 2001-07-31 2003-02-14 Ntt Docomo Inc 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
KR20050033248A (ko) * 2003-10-06 2005-04-12 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법

Also Published As

Publication number Publication date
US20080201147A1 (en) 2008-08-21
KR20080077873A (ko) 2008-08-26

Similar Documents

Publication Publication Date Title
KR100897554B1 (ko) 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
US11727917B1 (en) Silent phonemes for tracking end of speech
WO2017076222A1 (zh) 语音识别方法及装置
CN109036391B (zh) 语音识别方法、装置及系统
CN107810529B (zh) 语言模型语音端点确定
US8606581B1 (en) Multi-pass speech recognition
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
EP1575030A1 (en) New-word pronunciation learning using a pronunciation graph
US20140019131A1 (en) Method of recognizing speech and electronic device thereof
US20200143799A1 (en) Methods and apparatus for speech recognition using a garbage model
US20070198266A1 (en) Time synchronous decoding for long-span hidden trajectory model
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
US20040143435A1 (en) Method of speech recognition using hidden trajectory hidden markov models
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
KR101840363B1 (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
TWI731921B (zh) 語音識別方法及裝置
JP4270732B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US11763814B2 (en) Hybrid voice command processing
US20240212673A1 (en) Keyword spotting method based on neural network
JP2010054574A (ja) 話者交替推定装置、話者識別装置、及びコンピュータプログラム
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160428

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170427

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee