KR20020057046A - 무선 단말기의 음성인식 방법 - Google Patents
무선 단말기의 음성인식 방법 Download PDFInfo
- Publication number
- KR20020057046A KR20020057046A KR1020000087282A KR20000087282A KR20020057046A KR 20020057046 A KR20020057046 A KR 20020057046A KR 1020000087282 A KR1020000087282 A KR 1020000087282A KR 20000087282 A KR20000087282 A KR 20000087282A KR 20020057046 A KR20020057046 A KR 20020057046A
- Authority
- KR
- South Korea
- Prior art keywords
- parameter
- lip
- voice
- speaker
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000005516 engineering process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명은 차세대 이동통신 단말기(IMT-2000)에서 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시키는 기술에 관한 것이다. 이러한 본 발명은 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정에 의해 달성된다.
Description
본 발명은 차세대 이동통신 단말기(IMT-2000)에서의 음성인식율을 향상시키는 기술에 관한 것으로, 특히 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시킬 수 있도록 한 무선 단말기의 음성인식 방법에 관한 것이다.
근래 들어, 음성인식 기능은 사용상의 편리함으로 인하여 여러 분야에서 적용되고 있는 실정에 있다. 또한, 부호분할 다중접속방식(CDMA: Code Division Multiple Access)의 기술이 상용화 되고 휴대용 무선 단말기가 널리 보급되면서 단말기의 기능이 단순히 음성신호를 통신하는 수준에서 벗어나 멀티미디어 서비스의 영역까지 확장되고 있으며, 음성인식 기능도 적용되고 있는 추세에 있다.
종래 기술에 의한 무선 단말기에서는 화자가 임의의 단어들을 트레이닝(Training)하고, 그 트레이닝된 단어들로 구축된 데이터 베이스를 이용하여 특정 화자에 대해서만 간단한 단어 정도를 인식하게 되어 있었다. 이러한 음성인식 기능의 사용 예로써, 몇 개의 단어를 이용하여 다이얼링하거나, 간단한 메뉴를 선택하는 것 등을 들 수 있다.
이와 같이 종래 기술에 의한 무선 단말기에 있어서는 트레이닝된 단어들로 데이터 베이스를 구축하고, 이를 이용하여 특정 화자의 음성을 인식하게 되는데,깨끗한 음성 환경에서는 비교적 우수한 인식율을 나타내고 있다. 하지만, 무선 단말기의 특성상 주위의 잡음이 심한 곳에서 사용하는 경우가 많으므로 그와 같은 경우 음성 인식율이 아주 저조하여 신뢰성 있는 음성인식 서비스를 제공하는데 어려움이 있었다.
따라서, 본 발명의 목적은 화자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장하는 무선 단말기의 음성인식 방법을 제공함에 있다.
도 1은 본 발명에 의한 무선 단말기의 음성인식 방법의 신호 흐름도.
도 2는 본 발명에 적용되는 입술정보의 파라메터의 정의 예시도.
***도면의 주요 부분에 대한 부호의 설명***
S1-S7 : 제1-7단계
본 발명에 의한 무선 단말기의 음성인식 방법은, 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것으로, 이와 같은 본 발명의 작용을 첨부한 도 1 및 도 2를 참조하여 상세히 설명하면 다음과 같다.
화자가 말하고 있는 동안 화자의 입술 정보와 음성 데이터를 저장하고, 이들에 대한 입술정보 파라메터와 음성정보 파라메터를 추출하여 DTW(DTW: Dynamic Time Warping) 방법을 이용해 서로의 패턴을 비교한 다음 각각에 가중치를 부여하여 최종 결과를 판단하게 되는 것으로, 각각의 처리과정을 설명하면 다음과 같다.
먼저, 음성정보를 근거로 음성을 인식하는 과정을 설명한다. 화자가 말하고 있는 동안 화자의 음성 데이터를 저장한 후 그 저장된 음성 데이터로부터 인식에 사용될 파라메터를 설정하여 추출하고, 이렇게 추출된 파라메터와 기 저장된 기준 파라메터를 비교하는 방식으로 음성인식을 수행한다.(S1-S3)
상기 음성 정보로부터 사용될 파라메터는 일반적으로 음성의 특징을 나타내 주는 엘피씨(LPC: Linear Predictive Coding) 켑스트럼(Cepsturm) 계수를 사용한다.
한편, 상기와 같이 화자가 말하고 있는 동안 카메라를 통해 촬영되는 영상 중에서 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 저장된 이미지 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 삼는다.(S4-S6)
도 2는 입술 파라메터를 구체적으로 도시한 것으로, 여기서, H1은 입술 바깥쪽의 높이를 나타내고, H2는 입술 안쪽의 높이를 나타낸다. W1은 입술 바깥쪽의 너비를 나타내고, W2는 입술 안쪽의 너비를 나타낸다.
즉, 화자의 음성 변화에 따라 상기 각각의 길이가 변화되는 것에 착안하여 그 각각의 길이 변화를 입술 정보에 대한 파라메터로 사용하였다.
이후, 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 DTW 방법으로 패턴을 비교하고, 이렇게 구한 각각의 인식의 결과에 가중치를 부여하여 통합한 후 최종 인식의 결과로 삼는다.(S7)
이상에서 상세히 설명한 바와 같이 본 발명은, 카메라가 장착된 차세대 이동통신 단말기(IMT-2000)의 사용자가 단말기에 내장된 음성인식 기능을 사용할 경우, 사용자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여 최종의 음성인식 결과를 도출함으로써, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장할 수 있는 효과가 있다.
Claims (4)
- 화자의 음성정보에서 음성인식에 사용될 파라메터를 추출하여 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각의 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
- 제1항에 있어서, 제1과정의 음성인식에 사용될 파라메터는 엘피씨 켑스트럼 계수를 사용하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
- 제1항에 있어서, 제2과정의 입술 정보는 입술 바깥쪽의 높이, 입술 안쪽의 높이, 입술 바깥쪽의 너비, 입술 안쪽의 너비를 포함하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
- 제1항에 있어서, 제3과정은 각각의 패턴을 비교할 때 DTW 방법을 적용한 것을 특징으로 하는 무선 단말기의 음성인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000087282A KR20020057046A (ko) | 2000-12-30 | 2000-12-30 | 무선 단말기의 음성인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000087282A KR20020057046A (ko) | 2000-12-30 | 2000-12-30 | 무선 단말기의 음성인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20020057046A true KR20020057046A (ko) | 2002-07-11 |
Family
ID=27690158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000087282A KR20020057046A (ko) | 2000-12-30 | 2000-12-30 | 무선 단말기의 음성인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20020057046A (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101240588B1 (ko) * | 2012-12-14 | 2013-03-11 | 주식회사 좋은정보기술 | 오디오-영상 융합 음성 인식 방법 및 장치 |
KR20140051651A (ko) * | 2012-10-23 | 2014-05-02 | 엘지전자 주식회사 | 휴대 단말기 및 그 제어 방법 |
KR101442211B1 (ko) * | 2013-02-07 | 2014-10-16 | 서강대학교산학협력단 | 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 |
CN111161866A (zh) * | 2018-11-07 | 2020-05-15 | 由昉信息科技(上海)有限公司 | 一种具有辅助身份识别机制的识别方法 |
CN113168227A (zh) * | 2018-12-14 | 2021-07-23 | 三星电子株式会社 | 执行电子装置的功能的方法以及使用该方法的电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JPH0876792A (ja) * | 1994-09-02 | 1996-03-22 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH09134194A (ja) * | 1995-08-17 | 1997-05-20 | Ricoh Co Ltd | 読話のための画像認識システム |
JPH1185190A (ja) * | 1997-09-05 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声認識方法 |
JP2000311077A (ja) * | 1999-04-28 | 2000-11-07 | Fujitsu Ltd | 音声情報入力装置 |
-
2000
- 2000-12-30 KR KR1020000087282A patent/KR20020057046A/ko not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301393A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
JPH0876792A (ja) * | 1994-09-02 | 1996-03-22 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH09134194A (ja) * | 1995-08-17 | 1997-05-20 | Ricoh Co Ltd | 読話のための画像認識システム |
JPH1185190A (ja) * | 1997-09-05 | 1999-03-30 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声認識方法 |
JP2000311077A (ja) * | 1999-04-28 | 2000-11-07 | Fujitsu Ltd | 音声情報入力装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140051651A (ko) * | 2012-10-23 | 2014-05-02 | 엘지전자 주식회사 | 휴대 단말기 및 그 제어 방법 |
KR101240588B1 (ko) * | 2012-12-14 | 2013-03-11 | 주식회사 좋은정보기술 | 오디오-영상 융합 음성 인식 방법 및 장치 |
KR101442211B1 (ko) * | 2013-02-07 | 2014-10-16 | 서강대학교산학협력단 | 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 |
CN111161866A (zh) * | 2018-11-07 | 2020-05-15 | 由昉信息科技(上海)有限公司 | 一种具有辅助身份识别机制的识别方法 |
CN111161866B (zh) * | 2018-11-07 | 2023-11-17 | 深圳初量科技有限公司 | 一种具有辅助身份识别机制的识别方法 |
CN113168227A (zh) * | 2018-12-14 | 2021-07-23 | 三星电子株式会社 | 执行电子装置的功能的方法以及使用该方法的电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7319960B2 (en) | Speech recognition method and system | |
JP4713111B2 (ja) | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 | |
EP1058925B1 (en) | System and method for noise-compensated speech recognition | |
US9553979B2 (en) | Bluetooth headset and voice interaction control thereof | |
EP1443498B1 (en) | Noise reduction and audio-visual speech activity detection | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
CA2180392C (en) | User selectable multiple threshold criteria for voice recognition | |
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
US20020087306A1 (en) | Computer-implemented noise normalization method and system | |
US6931374B2 (en) | Method of speech recognition using variational inference with switching state space models | |
JP4852584B2 (ja) | 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ | |
WO2004015686A1 (en) | Method for automatic speech recognition | |
Yuanyuan et al. | Single-chip speech recognition system based on 8051 microcontroller core | |
JPH01296299A (ja) | 音声認識装置 | |
FI98162C (fi) | HMM-malliin perustuva puheentunnistusmenetelmä | |
Wöllmer et al. | Multi-stream LSTM-HMM decoding and histogram equalization for noise robust keyword spotting | |
JP2002536691A (ja) | 音声認識除去方式 | |
KR20020057046A (ko) | 무선 단말기의 음성인식 방법 | |
Hariharan et al. | Noise robust speech parameterization using multiresolution feature extraction | |
Li et al. | An auditory system-based feature for robust speech recognition | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
JP2003177788A (ja) | 音声対話システムおよびその方法 | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
US20020120446A1 (en) | Detection of inconsistent training data in a voice recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
N231 | Notification of change of applicant | ||
E601 | Decision to refuse application |