KR20020057046A - 무선 단말기의 음성인식 방법 - Google Patents

무선 단말기의 음성인식 방법 Download PDF

Info

Publication number
KR20020057046A
KR20020057046A KR1020000087282A KR20000087282A KR20020057046A KR 20020057046 A KR20020057046 A KR 20020057046A KR 1020000087282 A KR1020000087282 A KR 1020000087282A KR 20000087282 A KR20000087282 A KR 20000087282A KR 20020057046 A KR20020057046 A KR 20020057046A
Authority
KR
South Korea
Prior art keywords
parameter
lip
voice
speaker
information
Prior art date
Application number
KR1020000087282A
Other languages
English (en)
Inventor
여수진
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1020000087282A priority Critical patent/KR20020057046A/ko
Publication of KR20020057046A publication Critical patent/KR20020057046A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 차세대 이동통신 단말기(IMT-2000)에서 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시키는 기술에 관한 것이다. 이러한 본 발명은 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정에 의해 달성된다.

Description

무선 단말기의 음성인식 방법{AUDIO RECOGNIZING METHOD FOR WIRELESS TERMINAL}
본 발명은 차세대 이동통신 단말기(IMT-2000)에서의 음성인식율을 향상시키는 기술에 관한 것으로, 특히 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시킬 수 있도록 한 무선 단말기의 음성인식 방법에 관한 것이다.
근래 들어, 음성인식 기능은 사용상의 편리함으로 인하여 여러 분야에서 적용되고 있는 실정에 있다. 또한, 부호분할 다중접속방식(CDMA: Code Division Multiple Access)의 기술이 상용화 되고 휴대용 무선 단말기가 널리 보급되면서 단말기의 기능이 단순히 음성신호를 통신하는 수준에서 벗어나 멀티미디어 서비스의 영역까지 확장되고 있으며, 음성인식 기능도 적용되고 있는 추세에 있다.
종래 기술에 의한 무선 단말기에서는 화자가 임의의 단어들을 트레이닝(Training)하고, 그 트레이닝된 단어들로 구축된 데이터 베이스를 이용하여 특정 화자에 대해서만 간단한 단어 정도를 인식하게 되어 있었다. 이러한 음성인식 기능의 사용 예로써, 몇 개의 단어를 이용하여 다이얼링하거나, 간단한 메뉴를 선택하는 것 등을 들 수 있다.
이와 같이 종래 기술에 의한 무선 단말기에 있어서는 트레이닝된 단어들로 데이터 베이스를 구축하고, 이를 이용하여 특정 화자의 음성을 인식하게 되는데,깨끗한 음성 환경에서는 비교적 우수한 인식율을 나타내고 있다. 하지만, 무선 단말기의 특성상 주위의 잡음이 심한 곳에서 사용하는 경우가 많으므로 그와 같은 경우 음성 인식율이 아주 저조하여 신뢰성 있는 음성인식 서비스를 제공하는데 어려움이 있었다.
따라서, 본 발명의 목적은 화자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장하는 무선 단말기의 음성인식 방법을 제공함에 있다.
도 1은 본 발명에 의한 무선 단말기의 음성인식 방법의 신호 흐름도.
도 2는 본 발명에 적용되는 입술정보의 파라메터의 정의 예시도.
***도면의 주요 부분에 대한 부호의 설명***
S1-S7 : 제1-7단계
본 발명에 의한 무선 단말기의 음성인식 방법은, 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것으로, 이와 같은 본 발명의 작용을 첨부한 도 1 및 도 2를 참조하여 상세히 설명하면 다음과 같다.
화자가 말하고 있는 동안 화자의 입술 정보와 음성 데이터를 저장하고, 이들에 대한 입술정보 파라메터와 음성정보 파라메터를 추출하여 DTW(DTW: Dynamic Time Warping) 방법을 이용해 서로의 패턴을 비교한 다음 각각에 가중치를 부여하여 최종 결과를 판단하게 되는 것으로, 각각의 처리과정을 설명하면 다음과 같다.
먼저, 음성정보를 근거로 음성을 인식하는 과정을 설명한다. 화자가 말하고 있는 동안 화자의 음성 데이터를 저장한 후 그 저장된 음성 데이터로부터 인식에 사용될 파라메터를 설정하여 추출하고, 이렇게 추출된 파라메터와 기 저장된 기준 파라메터를 비교하는 방식으로 음성인식을 수행한다.(S1-S3)
상기 음성 정보로부터 사용될 파라메터는 일반적으로 음성의 특징을 나타내 주는 엘피씨(LPC: Linear Predictive Coding) 켑스트럼(Cepsturm) 계수를 사용한다.
한편, 상기와 같이 화자가 말하고 있는 동안 카메라를 통해 촬영되는 영상 중에서 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 저장된 이미지 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 삼는다.(S4-S6)
도 2는 입술 파라메터를 구체적으로 도시한 것으로, 여기서, H1은 입술 바깥쪽의 높이를 나타내고, H2는 입술 안쪽의 높이를 나타낸다. W1은 입술 바깥쪽의 너비를 나타내고, W2는 입술 안쪽의 너비를 나타낸다.
즉, 화자의 음성 변화에 따라 상기 각각의 길이가 변화되는 것에 착안하여 그 각각의 길이 변화를 입술 정보에 대한 파라메터로 사용하였다.
이후, 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 DTW 방법으로 패턴을 비교하고, 이렇게 구한 각각의 인식의 결과에 가중치를 부여하여 통합한 후 최종 인식의 결과로 삼는다.(S7)
이상에서 상세히 설명한 바와 같이 본 발명은, 카메라가 장착된 차세대 이동통신 단말기(IMT-2000)의 사용자가 단말기에 내장된 음성인식 기능을 사용할 경우, 사용자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여 최종의 음성인식 결과를 도출함으로써, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장할 수 있는 효과가 있다.

Claims (4)

  1. 화자의 음성정보에서 음성인식에 사용될 파라메터를 추출하여 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각의 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
  2. 제1항에 있어서, 제1과정의 음성인식에 사용될 파라메터는 엘피씨 켑스트럼 계수를 사용하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
  3. 제1항에 있어서, 제2과정의 입술 정보는 입술 바깥쪽의 높이, 입술 안쪽의 높이, 입술 바깥쪽의 너비, 입술 안쪽의 너비를 포함하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
  4. 제1항에 있어서, 제3과정은 각각의 패턴을 비교할 때 DTW 방법을 적용한 것을 특징으로 하는 무선 단말기의 음성인식 방법.
KR1020000087282A 2000-12-30 2000-12-30 무선 단말기의 음성인식 방법 KR20020057046A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000087282A KR20020057046A (ko) 2000-12-30 2000-12-30 무선 단말기의 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000087282A KR20020057046A (ko) 2000-12-30 2000-12-30 무선 단말기의 음성인식 방법

Publications (1)

Publication Number Publication Date
KR20020057046A true KR20020057046A (ko) 2002-07-11

Family

ID=27690158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000087282A KR20020057046A (ko) 2000-12-30 2000-12-30 무선 단말기의 음성인식 방법

Country Status (1)

Country Link
KR (1) KR20020057046A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101240588B1 (ko) * 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
KR20140051651A (ko) * 2012-10-23 2014-05-02 엘지전자 주식회사 휴대 단말기 및 그 제어 방법
KR101442211B1 (ko) * 2013-02-07 2014-10-16 서강대학교산학협력단 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
CN111161866A (zh) * 2018-11-07 2020-05-15 由昉信息科技(上海)有限公司 一种具有辅助身份识别机制的识别方法
CN113168227A (zh) * 2018-12-14 2021-07-23 三星电子株式会社 执行电子装置的功能的方法以及使用该方法的电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301393A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
JPH0876792A (ja) * 1994-09-02 1996-03-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09134194A (ja) * 1995-08-17 1997-05-20 Ricoh Co Ltd 読話のための画像認識システム
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JP2000311077A (ja) * 1999-04-28 2000-11-07 Fujitsu Ltd 音声情報入力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301393A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
JPH0876792A (ja) * 1994-09-02 1996-03-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09134194A (ja) * 1995-08-17 1997-05-20 Ricoh Co Ltd 読話のための画像認識システム
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JP2000311077A (ja) * 1999-04-28 2000-11-07 Fujitsu Ltd 音声情報入力装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140051651A (ko) * 2012-10-23 2014-05-02 엘지전자 주식회사 휴대 단말기 및 그 제어 방법
KR101240588B1 (ko) * 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
KR101442211B1 (ko) * 2013-02-07 2014-10-16 서강대학교산학협력단 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
CN111161866A (zh) * 2018-11-07 2020-05-15 由昉信息科技(上海)有限公司 一种具有辅助身份识别机制的识别方法
CN111161866B (zh) * 2018-11-07 2023-11-17 深圳初量科技有限公司 一种具有辅助身份识别机制的识别方法
CN113168227A (zh) * 2018-12-14 2021-07-23 三星电子株式会社 执行电子装置的功能的方法以及使用该方法的电子装置

Similar Documents

Publication Publication Date Title
US7319960B2 (en) Speech recognition method and system
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
EP1058925B1 (en) System and method for noise-compensated speech recognition
US9553979B2 (en) Bluetooth headset and voice interaction control thereof
EP1443498B1 (en) Noise reduction and audio-visual speech activity detection
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
CA2180392C (en) User selectable multiple threshold criteria for voice recognition
EP1994529B1 (en) Communication device having speaker independent speech recognition
US20020087306A1 (en) Computer-implemented noise normalization method and system
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
WO2004015686A1 (en) Method for automatic speech recognition
Yuanyuan et al. Single-chip speech recognition system based on 8051 microcontroller core
JPH01296299A (ja) 音声認識装置
FI98162C (fi) HMM-malliin perustuva puheentunnistusmenetelmä
Wöllmer et al. Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting
JP2002536691A (ja) 音声認識除去方式
KR20020057046A (ko) 무선 단말기의 음성인식 방법
Hariharan et al. Noise robust speech parameterization using multiresolution feature extraction
Li et al. An auditory system-based feature for robust speech recognition
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
JP2003177788A (ja) 音声対話システムおよびその方法
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
US20020120446A1 (en) Detection of inconsistent training data in a voice recognition system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E601 Decision to refuse application