KR20050021392A - 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 - Google Patents
소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 Download PDFInfo
- Publication number
- KR20050021392A KR20050021392A KR20050003877A KR20050003877A KR20050021392A KR 20050021392 A KR20050021392 A KR 20050021392A KR 20050003877 A KR20050003877 A KR 20050003877A KR 20050003877 A KR20050003877 A KR 20050003877A KR 20050021392 A KR20050021392 A KR 20050021392A
- Authority
- KR
- South Korea
- Prior art keywords
- voice recognition
- speaker
- mobile terminal
- voice
- environment
- Prior art date
Links
Landscapes
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 소형 이동 단말기의 음성 인식 방법에 관한 것이다. 소형 이동 단말기의 음성 인식 방법은, 소형의 음성인식기를 내장한 소형 이동 단말기가 화자 또는 환경 변화를 감지하면 주변 환경의 잡음 신호를 수집하거나 화자로부터 정해진 발성을 입력받아 미적응 음성신호로 변환하여 음성인식 서버로 전송하고, 음성인식 서버는 화자 또는 환경 적응 연산을 수행하여 변화된 화자 또는 환경에 적응된 모델 파라미터를 산출하여 단말기로 전송함으로써 소형 이동 단말기는 모델 파라미터를 이용하여 최적의 음성인식 성능을 보장하게 된다.
이와 같이 하면, 화자 적응이나 환경 적응을 위한 연산을 음성인식 서버가 담당하도록 함으로써 하드웨어 성능 제약 없이 빠르고 정확하게 연산을 수행하여 단말기의 음성 인식 성능이나 신뢰도를 향상시킬 수 있다.
Description
본 발명은 소형 이동 단말기의 음성 인식 방법에 관한 것으로, 특히 임의의 사용자가 임의의 소형 이동 단말기를 가지고 변화되는 환경과 화자에 적응하여 보다 높은 음성인식 성공률로 단말기를 음성으로 제어 할 수 있도록 하기 위한 소형 이동 단말기의 음성 인식 방법에 관한 것이다.
음성인식 시스템에서 소형 음성인식기가 내장되어 있는 단말기를 음성으로 제어할 경우에, 음성인식 시스템의 가장 큰 문제점 중에 하나는 주변 환경이나 화자의 불일치로 인한 음성 인식 성능의 저하를 들 수 있다.
즉, 음성인식 시스템에서 음성 제어를 위한 훈련 상황과 테스트 상황의 불일치에 의해 시스템의 급격한 성능 저하를 초래하고, 그로 인해 시스템의 신뢰도를 떨어뜨리게 된다.
따라서 음성인식 시스템은 주변 환경이나 화자의 불일치로 인한 성능저하를 효과적으로 보상할 수 있는 기술이 필요하지만, 소형 단말기의 경우에 화자적응 및 환경보상과 같이 상대적으로 계산 량이 많은 연산을 수행하기 위해 강력한 성능의 서버에 비해 많은 시간이 소요되며 하드웨어 성능에 의해 제약이 따른다는 문제점이 있다.
음성인식에 의해 단말기를 제어하는 또 다른 방법에는 단말기에서 음성특징만을 추출하는 클라이언트/서버 구조의 분산 음성인식 시스템의 경우에, 단말기에 음성인식기가 아닌 특징벡터를 추출하는 부분만 내장되어 있다.
이러한 음성인식 시스템은 소형의 음성인식기가 내장되지 않아 단말기의 부담을 덜어주고, 프로그램을 경량화 할 수 있을 뿐 아니라 강력한 서버를 통한 정확한 연산을 빠르게 수행할 수 있어 시스템의 신뢰도를 높일 수 있다.
그러나 클라이언트/서버 구조의 분산 음성인식 시스템은 클라이언트가 음성인식 서버와의 통신을 통해서만 음성인식이 가능하기 때문에 통신에 의한 시간지연으로 인해 응답시간이 느려질 수 있고, 또한 통신이 불가능한 상황에서는 음성인식은 불가능하다는 문제점이 있다.
이와 같이, 음성인식기가 단말기에 내장되어 있는 음성인식 시스템의 경우에는 하드웨어 성능 제약으로 인하여 화자 또는 환경 변화에 적극 대처하기 어렵다는 한계가 있고, 음성인식 서버를 별도로 배치하여 단말기 상에 음성특징만을 추출하는 경우에는 클라이언트가 인식서버와의 통신이 불가능한 상황에서 음성인식이 불가능하다는 한계가 있다.
음성인식 시스템에서 화자 및 환경 변화에 의해 훈련과 테스트 상황이 달라져서 발생하는 음성인식의 급격한 성능저하 현상을 보상하기 위한 기법에는 신호 자체에서 잡음을 제거하는 등의 신호레벨, 추출된 특징벡터에서 보상해 주는 특징레벨, 모델을 보상해 주는 모델레벨 등에서 단계별로 존재하지만, 휴대형 단말기(handheld device)와 같이 소형 단말기에서는 이러한 음성인식의 급격한 성능저하 현상에 적극적으로 대처하지 못하고 있는 실정이다.
본 발명이 이루고자 하는 기술적 과제는 소형의 음성인식기를 내장한 소형 이동 단말기가 음성인식 서버와 통신하여 화자적응이나 환경 적응을 위한 연산을 음성인식 서버가 담당하도록 함으로써 하드웨어 성능 제약 없이 빠르고 정확하게 연산을 수행하여 단말기의 음성 인식 성능을 높이기 위한 소형 이동 단말기의 음성 인식 방법을 제공하는 것이다.
이러한 과제를 해결하기 위해 본 발명은 음성인식기가 내장된 소형 이동 단말기가 음성인식 서버와 통신을 통해 변화된 화자나 환경에 적합한 모델을 제공받아 최적의 음성인식 성능을 보장하도록 한다.
본 발명의 특징에 따른 소형 이동 단말기의 음성 인식 방법은, 소형 이동 단말기와 음성인식 서버간에 네트워크를 통한 통신을 통해 음성인식을 수행하는 소형 이동 단말기의 음성 인식 방법에 있어서, a) 상기 소형 이동 단말기는 소형의 음성인식기를 내장하여 초기 입력된 음성데이터를 이용해 음성 인식을 수행하면서 화자 또는 환경 변화를 감지하는 단계; b) 상기 a) 단계에서 화자 또는 환경 변화가 감지된 경우에, 상기 소형 이동 단말기는 주변 환경의 잡음 신호를 수집하거나 화자로부터 정해진 발성을 입력받아 미적응 음성신호로 변환하여 상기 음성인식 서버로 전송하는 단계; c) 상기 음성인식 서버는 상기 b) 단계에서 미적응 음성신호를 전달받아 상기 변화된 화자 또는 환경 적응 연산을 수행함으로써 상기 변화된 화자 또는 환경에 적응된 모델 파라미터를 산출하여 상기 소형 이동 단말기로 전송하는 단계; 및 d) 상기 c) 단계에서 모델 파라미터를 전송받은 소형 이동 단말기는 상기 모델 파라미터를 이용하여 최적의 음성인식 성능을 보장하는 단계를 포함한다.
상기 b) 단계는 상기 주변 환경의 잡음 신호나 화자의 발성 신호에서 특징 벡터를 추출하여 상기 미적응 음성신호를 구성하는 것이 바람직하다.
상기 c) 단계는 상기 음성인식 서버가 상기 변화된 화자 또는 환경에 적합하도록 상기 모델 파라미터를 적응시키기 위한 변환 파라미터를 상기 소형 이동 단말기로 전송하는 것이 바람직하다.
상기 d) 단계는 상기 소형 이동 단말기가 상기 음성인식 서버로부터 전송받은 변환 파라미터를 이용하여 상기 단말기 자체에서 모델을 변환함으로써 보상하는 것이 바람직하다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
먼저, 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에 대하여 도 1 및 도 2를 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에 적용되는 클라이언트/서버 모델의 음성인식 시스템의 구성을 간략히 도시한 것이다.
도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에 적용되는 클라이언트/서버 모델의 음성인식 시스템은 휴대폰, PDA, 스마트 폰(Smart phone)과 같은 소형 이동 단말기(클라이언트)(10)가 네트워크를 통해 음성인식 서버(20)와 연결되어 있어 화자나 주변 환경이 변화되면 화자 적응 또는 주변 환경 적응 연산을 위해 서로 통신하게 된다.
도 2는 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에서 소형 이동 단말기와 음성인식 서버간 통신에 의해 화자 및 환경적응 연산이 수행되는 과정과 신호의 흐름을 도시한 것이다.
도 2에 나타나 있듯이, 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법은 소형 이동 단말기(10)가 소형의 음성인식기를 내장하고 있어 초기 입력된 음성 데이터를 이용해 음성인식 기능을 수행하다가 화자 또는 주변 환경의 변화를 지속적으로 감시한다.(S1)
단말기(10)는 사용자 또는 주변 환경의 변화가 감지된 경우에 사용자에게 정해진 발성을 하도록 하거나 주변 환경의 잡음 신호를 수집하여 신호 자체 혹은 특징벡터로 구성된 미적응 음성신호를 음성인식 서버(20)로 전송한다.(S2)
음성인식 서버(20)는 단말기(10)에서 전송된 미적응 음성신호를 이용해 특징 레벨 혹은 모델 레벨에서의 보상기법을 이용하여 화자 혹은 환경 적응 연산을 수행한다.(S3) 음성인식 서버(20)는 화자 또는 환경 적응 연산을 통해 변환된 모델 파라미터 또는 단말기(10)에 모델 파라미터를 적응시키기 위한 변환 파라미터를 단말기(10)로 신속하게 전송한다.(S4)
단말기(10)는 음성인식 서버(20)로부터 모델 파라미터를 전송받아 최적의 음성인식 성능을 보장한다. 한편 음성인식 서버(20)로부터 변환 파라미터가 전송된 경우에, 단말기(10)는 변환 파라미터를 이용하여 자체에서 모델을 적응하여 보상한다.
이렇게 하여, 사용자는 변환된 화자 혹은 환경에 적합한 모델 파라미터를 이용하여 단말기(10)에 음성을 입력하면 신뢰도 높은 음성인식 성능을 보장받을 수 있다.(S5, S6)
따라서 사용자는 고성능 음성인식 기능을 가진 단말기를 음성으로 제어함으로써 여러 컨텐츠 제공사업체로부터 다양한 서비스를 제공받을 수 있다.
이와 같이, 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법은 상대적으로 연산 량이 많은 화자적응이나 환경적응 연산을 하드웨어 성능 제약이 없는 음성 인식 서버에서 수행하도록 함으로써 신속 정확하게 변화된 환경이나 화자에 적합한 모델을 소형 이동 단말기가 제공받을 수 있어 단말기의 현재 상황에 최적인 인식기를 구성하도록 한다.
결국, 소형 이동 단말기에서는 잡음 환경 또는 화자가 수시로 변화할 때, 서버에서의 화자 및 환경적응 기법으로 훈련 상황과 인식환경 사이의 불일치를 보상함으로써 높은 인식률을 사용자에게 제공한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 이에 한정되는 것은 아니며, 그 외의 다양한 변경이나 변형이 가능하다.
이와 같이, 본 발명에 의한 소형 이동 단말기의 음성 인식 방법은 소형의 음성인식기를 내장한 소형 이동 단말기가 화자나 환경의 변화가 감지될 때마다 음성인식 서버와 통신하여 화자 적응이나 환경 적응을 위한 연산을 음성인식 서버가 담당하도록 함으로써 하드웨어 성능 제약 없이 빠르고 정확하게 연산을 수행하여 단말기의 음성 인식 성능이나 신뢰도를 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에 적용되는 클라이언트/서버 모델의 음성인식 시스템의 구성을 간략히 도시한 것이다.
도 2는 본 발명의 실시예에 따른 소형 이동 단말기의 음성 인식 방법에서 소형 이동 단말기와 음성인식 서버간 통신에 의해 화자 및 환경적응 연산이 수행되는 과정과 신호의 흐름을 도시한 것이다.
Claims (4)
- 소형 이동 단말기와 음성인식 서버간에 네트워크를 통한 통신을 통해 음성인식을 수행하는 소형 이동 단말기의 음성 인식 방법에 있어서,a) 상기 소형 이동 단말기는 소형의 음성인식기를 내장하여 초기 입력된 음성데이터를 이용해 음성 인식을 수행하면서 화자 또는 환경 변화를 감지하는 단계;b) 상기 a) 단계에서 화자 또는 환경 변화가 감지된 경우에, 상기 소형 이동 단말기는 주변 환경의 잡음 신호를 수집하거나 화자로부터 정해진 발성을 입력받아 미적응 음성신호로 변환하여 상기 음성인식 서버로 전송하는 단계;c) 상기 음성인식 서버는 상기 b) 단계에서 미적응 음성신호를 전달받아 상기 변화된 화자 또는 환경 적응 연산을 수행함으로써 상기 변화된 화자 또는 환경에 적응된 모델 파라미터를 산출하여 상기 소형 이동 단말기로 전송하는 단계; 및d) 상기 c) 단계에서 모델 파라미터를 전송받은 소형 이동 단말기는 상기 모델 파라미터를 이용하여 최적의 음성인식 성능을 보장하는 단계를 포함하는 소형 이동 단말기의 음성 인식 방법.
- 제1항에 있어서,상기 b) 단계는 상기 주변 환경의 잡음 신호나 화자의 발성 신호에서 특징 벡터를 추출하여 상기 미적응 음성신호를 구성하는 소형 이동 단말기의 음성 인식 방법.
- 제1항에 있어서,상기 c) 단계는 상기 음성인식 서버가 상기 변화된 화자 또는 환경에 적합하도록 상기 모델 파라미터를 적응시키기 위한 변환 파라미터를 상기 소형 이동 단말기로 전송하는 소형 이동 단말기의 음성 인식 방법.
- 제3항에 있어서,상기 d) 단계는 상기 소형 이동 단말기가 상기 음성인식 서버로부터 전송받은 변환 파라미터를 이용하여 상기 단말기 자체에서 모델을 적응함으로써 보상하는 소형 이동 단말기의 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050003877A KR100676084B1 (ko) | 2005-01-14 | 2005-01-14 | 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050003877A KR100676084B1 (ko) | 2005-01-14 | 2005-01-14 | 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050021392A true KR20050021392A (ko) | 2005-03-07 |
KR100676084B1 KR100676084B1 (ko) | 2007-01-31 |
Family
ID=37229762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20050003877A KR100676084B1 (ko) | 2005-01-14 | 2005-01-14 | 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100676084B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8234112B2 (en) | 2007-08-22 | 2012-07-31 | Electronics And Telecommunications Research Institute | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method |
US9530403B2 (en) | 2014-06-18 | 2016-12-27 | Electronics And Telecommunications Research Institute | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
KR101698369B1 (ko) * | 2015-11-24 | 2017-01-20 | 주식회사 인텔로이드 | 사용자 음성 신호를 이용하는 정보 제공 장치 및 정보 제공 방법 |
WO2017052816A1 (en) * | 2015-09-25 | 2017-03-30 | Intel Corporation | Interactive adaptive narrative presentation |
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
-
2005
- 2005-01-14 KR KR20050003877A patent/KR100676084B1/ko not_active IP Right Cessation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8234112B2 (en) | 2007-08-22 | 2012-07-31 | Electronics And Telecommunications Research Institute | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method |
US9626962B2 (en) | 2014-05-02 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model |
US9530403B2 (en) | 2014-06-18 | 2016-12-27 | Electronics And Telecommunications Research Institute | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
WO2017052816A1 (en) * | 2015-09-25 | 2017-03-30 | Intel Corporation | Interactive adaptive narrative presentation |
US9697867B2 (en) | 2015-09-25 | 2017-07-04 | Intel Corporation | Interactive adaptive narrative presentation |
KR101698369B1 (ko) * | 2015-11-24 | 2017-01-20 | 주식회사 인텔로이드 | 사용자 음성 신호를 이용하는 정보 제공 장치 및 정보 제공 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR100676084B1 (ko) | 2007-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100508029C (zh) | 语音控制单元、方法及其控制的设备和消费类电子系统 | |
US7457750B2 (en) | Systems and methods for dynamic re-configurable speech recognition | |
CN107340988B (zh) | 具有连续关键词识别的免提设备 | |
WO2004006223A3 (en) | Voice-controllable communication gateway for controlling multiple electronic and information appliances | |
US20080255852A1 (en) | Apparatuses and methods for voice command processing | |
JP2011022600A (ja) | 音声認識システムの動作方法 | |
KR100676084B1 (ko) | 소형 이동 단말기의 화자 및 환경적응 음성 인식 방법 | |
WO2007100403A3 (en) | Interactive voice browsing for mobile devices on wireless networks | |
US7764980B2 (en) | Mobile communication terminal for removing noise in transmitting signal and method thereof | |
WO2007102904A3 (en) | Interactive voice browsing server for mobile devices on wireless networks | |
CN103916511B (zh) | 信息处理的方法及电子设备 | |
WO2001095312A1 (en) | Method and system for adaptive distributed speech recognition | |
CN105551491A (zh) | 语音识别方法和设备 | |
US11056106B2 (en) | Voice interaction system and information processing apparatus | |
CN105227777A (zh) | 接听方法及语音通信装置 | |
US10292194B2 (en) | Voice input/output apparatus, wireless connection method, and voice interaction system | |
WO2007111726A3 (en) | Interactive voice browsing system for mobile devices on wireless networks | |
JP2007041089A (ja) | 情報端末および音声認識プログラム | |
US20190304457A1 (en) | Interaction device and program | |
KR102223653B1 (ko) | 음성 신호 처리 장치 및 방법, 그리고 단말 | |
US10298736B2 (en) | Apparatus and method for processing voice signal and terminal | |
US20220059079A1 (en) | Service providing system and method using voice recognition accessory | |
JP4406870B2 (ja) | 撮像機能付き携帯電話機 | |
KR20200061258A (ko) | 제한된 네트워크 환경에서의 음향 센서 기기 및 음향 분석 시스템 | |
KR20000073936A (ko) | 화자독립 음성인식 기술을 이용한 음성등록 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110104 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |