KR20020057046A

KR20020057046A - 무선 단말기의 음성인식 방법

Info

Publication number: KR20020057046A
Application number: KR1020000087282A
Authority: KR
Inventors: 여수진
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 2000-12-30
Filing date: 2000-12-30
Publication date: 2002-07-11

Abstract

본 발명은 차세대 이동통신 단말기(IMT-2000)에서 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시키는 기술에 관한 것이다. 이러한 본 발명은 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정에 의해 달성된다.

Description

무선 단말기의 음성인식 방법{AUDIO RECOGNIZING METHOD FOR WIRELESS TERMINAL}

본 발명은 차세대 이동통신 단말기(IMT-2000)에서의 음성인식율을 향상시키는 기술에 관한 것으로, 특히 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 음성인식에 반영하여 음성인식율을 향상시킬 수 있도록 한 무선 단말기의 음성인식 방법에 관한 것이다.

근래 들어, 음성인식 기능은 사용상의 편리함으로 인하여 여러 분야에서 적용되고 있는 실정에 있다. 또한, 부호분할 다중접속방식(CDMA: Code Division Multiple Access)의 기술이 상용화 되고 휴대용 무선 단말기가 널리 보급되면서 단말기의 기능이 단순히 음성신호를 통신하는 수준에서 벗어나 멀티미디어 서비스의 영역까지 확장되고 있으며, 음성인식 기능도 적용되고 있는 추세에 있다.

종래 기술에 의한 무선 단말기에서는 화자가 임의의 단어들을 트레이닝(Training)하고, 그 트레이닝된 단어들로 구축된 데이터 베이스를 이용하여 특정 화자에 대해서만 간단한 단어 정도를 인식하게 되어 있었다. 이러한 음성인식 기능의 사용 예로써, 몇 개의 단어를 이용하여 다이얼링하거나, 간단한 메뉴를 선택하는 것 등을 들 수 있다.

이와 같이 종래 기술에 의한 무선 단말기에 있어서는 트레이닝된 단어들로 데이터 베이스를 구축하고, 이를 이용하여 특정 화자의 음성을 인식하게 되는데,깨끗한 음성 환경에서는 비교적 우수한 인식율을 나타내고 있다. 하지만, 무선 단말기의 특성상 주위의 잡음이 심한 곳에서 사용하는 경우가 많으므로 그와 같은 경우 음성 인식율이 아주 저조하여 신뢰성 있는 음성인식 서비스를 제공하는데 어려움이 있었다.

따라서, 본 발명의 목적은 화자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장하는 무선 단말기의 음성인식 방법을 제공함에 있다.

도 1은 본 발명에 의한 무선 단말기의 음성인식 방법의 신호 흐름도.

도 2는 본 발명에 적용되는 입술정보의 파라메터의 정의 예시도.

***도면의 주요 부분에 대한 부호의 설명***

S1-S7 : 제1-7단계

본 발명에 의한 무선 단말기의 음성인식 방법은, 화자의 음성 데이터에서 음성인식에 사용될 파라메터를 추출하여 기 저장된 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것으로, 이와 같은 본 발명의 작용을 첨부한 도 1 및 도 2를 참조하여 상세히 설명하면 다음과 같다.

화자가 말하고 있는 동안 화자의 입술 정보와 음성 데이터를 저장하고, 이들에 대한 입술정보 파라메터와 음성정보 파라메터를 추출하여 DTW(DTW: Dynamic Time Warping) 방법을 이용해 서로의 패턴을 비교한 다음 각각에 가중치를 부여하여 최종 결과를 판단하게 되는 것으로, 각각의 처리과정을 설명하면 다음과 같다.

먼저, 음성정보를 근거로 음성을 인식하는 과정을 설명한다. 화자가 말하고 있는 동안 화자의 음성 데이터를 저장한 후 그 저장된 음성 데이터로부터 인식에 사용될 파라메터를 설정하여 추출하고, 이렇게 추출된 파라메터와 기 저장된 기준 파라메터를 비교하는 방식으로 음성인식을 수행한다.(S1-S3)

상기 음성 정보로부터 사용될 파라메터는 일반적으로 음성의 특징을 나타내 주는 엘피씨(LPC: Linear Predictive Coding) 켑스트럼(Cepsturm) 계수를 사용한다.

한편, 상기와 같이 화자가 말하고 있는 동안 카메라를 통해 촬영되는 영상 중에서 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 저장된 이미지 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 삼는다.(S4-S6)

도 2는 입술 파라메터를 구체적으로 도시한 것으로, 여기서, H1은 입술 바깥쪽의 높이를 나타내고, H2는 입술 안쪽의 높이를 나타낸다. W1은 입술 바깥쪽의 너비를 나타내고, W2는 입술 안쪽의 너비를 나타낸다.

즉, 화자의 음성 변화에 따라 상기 각각의 길이가 변화되는 것에 착안하여 그 각각의 길이 변화를 입술 정보에 대한 파라메터로 사용하였다.

이후, 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각에 대해 DTW 방법으로 패턴을 비교하고, 이렇게 구한 각각의 인식의 결과에 가중치를 부여하여 통합한 후 최종 인식의 결과로 삼는다.(S7)

이상에서 상세히 설명한 바와 같이 본 발명은, 카메라가 장착된 차세대 이동통신 단말기(IMT-2000)의 사용자가 단말기에 내장된 음성인식 기능을 사용할 경우, 사용자의 음성신호를 근거로 하여 분석한 결과 이외에, 입술 변화를 근거로 하여 분석한 결과를 반영하여 최종의 음성인식 결과를 도출함으로써, 주위의 잡음 정도에 별다른 영향을 받지 않고 높은 수준의 음성인식율을 보장할 수 있는 효과가 있다.

Claims

화자의 음성정보에서 음성인식에 사용될 파라메터를 추출하여 기준 파라메터와 비교하는 제1과정과; 화자의 입술 이미지를 여러 프레임의 이미지 데이터로 저장하고, 그 데이터로부터 입술의 높이와 너비를 구하여 입술정보의 파라메터로 선정하는 제2과정과; 상기 음성 정보에서 추출한 파라메터와 입술 정보에서 구한 파라메터 정보 각각의 패턴을 비교하고, 각각의 인식의 결과에 가중치를 부여하여 통합한 후 이로부터 최종의 음성인식 결과를 도출하는 제3과정으로 이루어지는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
제1항에 있어서, 제1과정의 음성인식에 사용될 파라메터는 엘피씨 켑스트럼 계수를 사용하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
제1항에 있어서, 제2과정의 입술 정보는 입술 바깥쪽의 높이, 입술 안쪽의 높이, 입술 바깥쪽의 너비, 입술 안쪽의 너비를 포함하는 것을 특징으로 하는 무선 단말기의 음성인식 방법.
제1항에 있어서, 제3과정은 각각의 패턴을 비교할 때 DTW 방법을 적용한 것을 특징으로 하는 무선 단말기의 음성인식 방법.