KR100452109B1

KR100452109B1 - 음성신호 추적장치 및 그 방법

Info

Publication number: KR100452109B1
Application number: KR10-2002-0061035A
Authority: KR
Inventors: 백근우
Original assignee: 주식회사 아큐죤
Priority date: 2002-10-07
Filing date: 2002-10-07
Publication date: 2004-10-12
Also published as: KR20040031898A

Abstract

본 발명은 음성신호 추적장치 및 그 방법에 관한 것으로, 특히 음성구간과 비음성구간의 경계면에서 발생되는 이격화 현상에 의한 잡음을 제거하고, 음성구간내의 정현파 기울기를 실시간으로 보정하여 연속된 음성구간으로 재구성될 수 있도록 한 음성신호 추적장치 및 그 방법에 관한 것이다.

본 발명에 따른 음성신호 추적장치는 새로운 음향신호를 입력받아 음성신호구간과 비음성신호구간을 판단하는 음성/비음성 판단기와, 상기 음성/비음성 판단기에 의해 판단된 음성신호구간을 음성시작구간과 음성진행구간과 음성종료구간으로 구분하는 구간 판단기와, 상기 음성/비음성 판단기에 의해 판단된 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하는 이격방지 정현파생성기와, 상기 음성구간내에 존재하는 음성과 비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기와, 상기 정현파 기울기 분석기에 의해 분석된 정현파 기울기를 통해 비음성의 정현파 기울기를 실시간으로 보정하는 정현파 기울기 보정기와, 상기 정현파 기울기 보정기에 의해 보정된 정현파 기울기를 이용하여 새로운 음성신호를 재구성하는 음성신호 재구성기로 구성되는 것을 특징으로 한다.

Description

음성신호 추적장치 및 그 방법{TRACKING DEVICE AND METHOD OF VOICE SIGNAL}

통상적으로 음성 입출력 시스템은 입력된 음향 신호로부터 음성과 비음성을 구분하여 비음성을 최대한으로 제거한 후 음성신호만 관리함으로써 음성과 비음성을 처리한다. 음성을 구분하는 이론으로는 Voice Activity Detection(VAD), Silence Detection 등의 테마로써 다양한 수식을 이용하여 음성과 비음성을 구분한다. 이를 위해서 음성 입출력 시스템은 음성 입력부에 음성 감지기를 마련함으로써 음성과 비음성을 구분한다.

음성 입출력 시스템은 음성과 비음성을 구분하는 음성 감지기를 이용하여 입력된 음향신호로부터 음성과 비음성을 구분한다. 비음성에 해당하는 음향신호는 무시되며 음성으로 판단된 음향신호만을 음성데이터화 한다. 이때 무시된 비음성 음향신호는 신호 특성으로 해석할 때 0 값으로 다루어진다. 음성 데이터는 그 값들이 보존되나 비음성 구간의 배경과는 신호 샘플의 이격화 현상이 발생한다.

도 1은 종래의 음성 입출력 시스템에 입력된 음향신호를 나타내는 도면으로, 이는 비음성 신호와 음성신호가 함께 혼재되어 있다. 음성 입출력 시스템의 음성 감지기는 비음성에 해당하는 신호 구간을 제거한다.

도 2는 종래의 음성 감지기에서 비음성 신호가 제거된 음성신호를 나타내는 도면으로, 음성신호는 아날로그 음성신호로부터 8kHz의 표본화 주파수로 추출된 16비트의 해상도를 가지는 디지털 데이터이며 값의 범위는 -32768 ~ 32767 사이가 된다. 음성 데이터와 비음성 구간의 배경과는 신호 샘플의 이격화 현상은 (A), (B),(C), (D) 구간에서 발생한다. 이는 비음성 구간은 0값의 데이터를 가지는 효과를 가짐에 비해 음성 데이터는 부호화된 16비트 데이터이기 때문이다.

도 3은 도 2의 (A)구간을 나타내는 도면이고, 도 4는 도 2의 (B)구간을 나타내는 도면이며, 도 5는 도 2의 (C)구간을 나타내는 도면이고, 도 6은 도 2의 (D)구간을 나타내는 도면이다.

도 3 내지 도 6은 0값에 해당하는 비음성 구간과 음성구간의 경계면 사이의 데이터의 이격 현상을 나타내어 보인다. 도 3은 비음성 구간과 음성이 시작하는 구간의 경계가 400 정도의 수치차이를 나타내 보이고, 도 4는 음성에서 비음성 구간으로 변하는 경계가 220 정도의 수치차이를 보인다. 도 5와 도 6에서는 각각 220, 200 정도의 수치차이를 보이고 있다.

이러한 비음성 구간과 음성 구간 경계에서의 데이터 이격현상은 D/A 컨버터를 거쳐서 아날로그 신호로 재생되었을 때 잡음으로 나타나며 이러한 잡음이 발생하는 음성 입출력 시스템은 잡음 효과를 줄이기 위해 하드웨어 방식으로 잡음 제거 필터를 사용하게 된다. 그러나, 하드웨어의 회로 추가는 시스템의 복잡도를 증가시키며 효율적 설계방식에 있어서도 장애가 될 수 있다는 문제점이 있었다.

따라서, 본 발명의 목적은 음성구간의 음성데이터에 대한 정현파 특성과 정현파 파형 기울기를 사용하여 급격히 변화하는 음성구간의 음성데이터를 변형시킴으로써 음색의 변형 없이 비음성 구간과 음성 구간의 경계면에서 발생하는 잡음을 제거함에 있다.

도 1은 종래의 음성 입출력 시스템에 입력된 음향신호를 나타내는 도면.

도 2는 종래의 음성 감지기에서 비음성 신호가 제거된 음성신호를 나타내는 도면.

도 3은 도 2의 (A)구간을 나타내는 도면.

도 4는 도 2의 (B)구간을 나타내는 도면.

도 5는 도 2의 (C)구간을 나타내는 도면.

도 6은 도 2의 (D)구간을 나타내는 도면.

도 7은 본 발명의 실시예에 의한 도 3의 비음성/음성 경계면에서 계산된 정현파 기울기를 나타내는 도면.

도 8은 도 7의 정현파 기울기 각각에 적용된 이격방지 정현파를 나타내는 도면.

도 9는 본 발명의 실시예에 의한 음성구간의 정현파 기울기와 이격방지 정현파에 의해 재구성된 음성데이터를 나타내는 도면.

도 10은 본 발명의 실시예에 의한 도 3의 주파수 응답곡선을 나타내는 도면.

도 11은 본 발명의 실시예에 의한 도 9의 주파수 응답곡선을 나타내는 도면.

도 12는 본 발명의 실시예에 의한 구간별 음성신호의 에너지를 나타내는 도면.

도 13은 도 12의 음성신호의 정현파 기울기 추적 곡선을 나타내는 도면.

도 14는 본 발명의 실시예에 의한 음성/비음성 정현파 기울기 추적기의 구성을 나타내는 블록도.

도 15는 도 13에서 음성/비음성 정현파 기울기 추적기가 적용된 경우를 나타내는 도면.

도 16은 본 발명의 실시예에 의한 음성 정현파 추적기의 구성을 나타내는 블록도.

도 17은 도 16의 음성 정현파 추적기의 동작과정을 나타내는 흐름도.

< 도면의 주요부분에 대한 부호 설명>

10 : 음성/비음성 판단기 20 : 정현파 기울기 분석기

30 : 정현파 기울기 보정기 40 : 정현파 기울기 테이블

50 : 음성신호 재구성기 60 : 구간 판단기

70 : 이격방지 정현파생성기

상기 목적을 달성하기 위한 본 발명의 음성신호 추적장치는 새로운 음향신호를 입력받아 음성신호구간과 비음성신호구간을 판단하는 음성/비음성 판단기와, 상기 음성/비음성 판단기에 의해 판단된 음성신호구간을 음성시작구간과 음성진행구간과 음성종료구간으로 구분하는 구간 판단기와, 상기 음성/비음성 판단기에 의해 판단된 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하는 이격방지 정현파생성기와, 상기 음성구간내에 존재하는 음성과 비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기와, 상기 정현파 기울기 분석기에 의해 분석된 정현파 기울기를 통해 비음성의 정현파 기울기를 실시간으로 보정하는 정현파 기울기 보정기와, 상기 정현파 기울기 보정기에 의해 보정된 정현파 기울기를 이용하여 새로운 음성신호를 재구성하는 음성신호 재구성기로 구성된다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.

도 7은 본 발명의 실시예에 의한 도 3의 비음성/음성 경계면에서 계산된 정현파 기울기를 나타내는 도면이다.

도시된 바와 같이, 정현파 기울기 (ㄱ)과 (ㄴ)은 음성구간의 최초 데이터 샘플로부터 구해진다. 구하고자 하는 기울기를 N개의 샘플 개수로부터 구한다. N의 값에 따라 기울기(ㄱ)과 기울기(ㄴ)이 구해지며 사용자가 임의로 설정할 수가 있다. 이 기울기의 식은 다음과 같다.

기울기 = (N번째 데이터 크기 - 1번째 데이터 크기)/N ------ (수식 1)

계산된 기울기와 이격 방지 정현파를 적용하여 비음성/음성 구간 경계면의 이격화된 데이터를 변형한다. 이격방지 정현파 식은 다음과 같다.

이격방지 정현파 = sin(2π×k/N), k = 0, 1, 2,...,N-1 ------ (수식 2)

도 8은 도 7의 정현파 기울기 각각에 적용된 이격방지 정현파를 나타내는 도면으로 상기 수식 2에 의해 구해진다.

상기 수식 1에 의해 구해진 기울기와 상기 수식 2에 의해 구해진 이격방지 정현파는 비음성 구간과 인접해 있는 음성 구간의 음성 데이터에 적용된다. 이때, 음성 구간의 음성데이터는 16 비트 해상도에 따른 정규화 값이 된다. 정규화된 음성데이터는 기울기 및 이격방지 정현파와 함께 곱해짐으로써 이격 현상이 제거된 새로운 음성데이터로 재구성된다.

재구성 음성데이터(k)=기울기×이격방지 정현파×정규화 음성데이터(k)

(k = 0, 1, 2,...,N-1) ------ (수식 3)

도 9는 본 발명의 실시예에 의한 음성구간의 정현파 기울기와 이격방지 정현파에 의해 재구성된 음성데이터를 나타내는 도면으로, 상기 수식 1에 의해 구해진 정현파 기울기 (ㄴ)과 상기 수식 2에 의해 얻어진 이격방지 정현파(ㄴ-1)를 이용하여 상기 수식 3으로 구해진 재구성 음성데이터를 나타낸다. 즉, 기울기와 이격방지 정현파가 적용되어 이격현상이 제거된 새로운 음성신호로써 도 3에 나타난 정현파 특성과 비교하여 볼 때 음성데이터의 크기는 변형되었으나 음성데이터간의 상관관계는 변형되지 않았다.

이는 음성데이터의 주파수 응답 곡선으로 검증 가능하다.

도 10은 본 발명의 실시예에 의한 도 3의 주파수 응답곡선을 나타내는 도면이고, 도 11은 본 발명의 실시예에 의한 도 9의 주파수 응답곡선을 나타내는 도면으로 도 9의 4kHz 주파수 대역에 걸친 주파수 응답에 따른 신호압 dB 곡선은 도 3의 신호압 dB 곡선을 충실히 반영하고 있다. 이는 음성의 음색이 유지되고 있음을 나타내는 것이다.

이와 같이, 음성신호의 음색은 음성 데이터의 크기보다는 음성 데이터간의 상관관계(correlation)로 결정된다. 즉, 음성 데이터의 고유 음색은 데이터의 크기가 변하더라도 음성 데이터간의 상관관계가 유지되면 음색도 변형이 없다. 이를 이용하여 비음성 구간과 음성 구간의 경계면에서 발생하는 데이터 이격현상을 해결함으로써 음성 입출력 시스템에서 사용하고 있는 음성 감지기가 잡음을 유발하는 현상을 제거할 수 있는 것이다.

도 12는 본 발명의 실시예에 의한 구간별 음성신호의 에너지를 나타내는 도면이다.

도시된 바와 같이, 음성시작구간 (A)는 잡음 성분의 자음이 시작되는 시점이므로 에너지가 적으며, 음성진행구간(B)은 음성 성분에 해당하므로 에너지가 크다. 음성종료구간(C)은 음성이 소멸되는 시점이므로 에너지가 작다. 그리고, 음절 사이에 위치하고 있는 (C) 구간과 (A) 구간은 비음성을 결정짓는 소프트웨어적 요소에 따라 음성으로 판단될 수도 있고 비음성으로 판단될 수 있다. 음절 사이에 위치하는 음향신호가 비음성으로 판단될 경우에는 정현파 특성과 정현파 기울기를 사용하여 음성구간과 비음성구간의 이격화를 방지할 수 있으나 이 경우 음성의 연속성에장애가 될 수 있다. 따라서 음절 사이의 음향신호는 비음성으로 판단되더라도 음성신호로 해석하는 것이 음성의 연속성에 기여할 수 있다. 이를 위해서는 이전 음성신호의 정현파 기울기를 이용하여 비음성 구간의 데이터를 적절히 변형함으로써 음성의 연속성을 보장할 수가 있다.

도 13은 도 12의 음성신호의 정현파 기울기 추적 곡선을 나타내는 도면이다.

도시된 바와 같이, (B)구간에 해당하는 음성구간에서는 정현파 기울기가 원만하며 기울기의 변동시 기울기 변동의 차이가 크지 않음을 알 수가 있다. 이와는 대조적으로 (A),(C) 구간에서는 정현파 기울기가 급격하며 기울기의 변동시에도 그 변동의 차이가 큼을 알 수가 있다. (A)구간은 음성신호 특징으로 볼 때 자음에 해당하며 (C)구간은 음성신호의 맺음에 해당하므로 (A)구간과,(C)구간이 유지되어야 정확한 음성전달이 이루어지나, 비음성 구간으로 판단될 경우에는 음성전달에 있어서 큰 손실이 발생된다. 음성의 연속성에 충실을 기하기 위해서는 음성 감지기는 상기 (A),(C)구간의 데이터 손실을 최소화해야만 한다. 이를 위해서 정현파 기울기를 (A),(B),(C)구간에 관계없이 지속적으로 갱신함으로 음성신호의 크기만 변형시키고 상관관계는 유지시키는 방법을 사용한다. 이 방법은 다음과 같은 블록 다이어그램으로 나타낼 수 있다.

도 14는 본 발명의 실시예에 의한 음성/비음성 정현파 기울기 추적기의 구성을 나타내는 블록도이고, 도 15는 도 13에서 음성/비음성 정현파 기울기 추적기가 적용된 경우를 나타내는 도면이다.

도시된 바와 같이, 본 발명은 크게 입력된 음향신호 중에서 음성구간에 섞여있는 비음성 구간을 음성의 연속성에 손실 없도록 정현파 기울기 테이블(40)을 참조하며 신호를 판단하는 음성/비음성 판단기(10)와, 상기 음성/비음성 판단기(10)로부터 구분되어 전달되는 음성/비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기(20)와, 상기 정현파 기울기 분석기(20)에 의해 분석된 정현파 기울기 각각을 실시간으로 보정하는 정현파 기울기 보정기(30)와, 상기 정현파 기울기 보정기(30)에 의해 보정된 정현파 기울기를 음성 및 비음성에 적용하여 새로운 음성 및 비음성 신호로 재구성하는 음성신호 재구성기(50)로 구성된다.

그리고, 도 15에서는 상기 음성/비음성 정현파 기울기 추적기가 적용된 경우 재구성되는 도 13의 정현파 신호를 보여준다.

도 16은 본 발명의 실시예에 의한 음성 정현파 추적기의 구성을 나타내는 블록도이다.

도시된 바와 같이, 본 발명의 음성 정현파 추적기는 입력된 음향신호 중에서 음성구간에 섞여 있는 비음성 구간을 음성의 연속성에 손실 없도록 정현파 기울기 테이블(40)을 참조하며 신호를 판단하는 음성/비음성 판단기(10)와, 음성시작구간과 음성진행구간과 음성종료구간을 판단하는 구간 판단기(60)와, 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하기 위한 이격방지 정현파생성기(70)와, 상기 구간 판단기(60)와 상기 이격방지 정현파생성기(70)를 통해 상기 음성/비음성 판단기(10)로부터 구분되어 전달되는 음성/비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기(20)와, 상기 정현파 기울기 분석기(20)에 의해 분석된 정현파 기울기 각각을 실시간으로 보정하는 정현파 기울기 보정기(30)와, 상기 정현파 기울기 보정기(30)에 의해 보정된 정현파 기울기를 음성 및 비음성에 적용하여 새로운 음성 및 비음성 신호로 재구성하는 음성신호 재구성기(50)로 구성된다.

상기와 같이 구성되는 본 발명의 음성 정현파 추적기는 Voice Activity Detecter, Silence Detector 등과 같은 다양한 음성/비음성 판단기에 영향을 받지 않으면서 신호 성분 자체의 정현파 추적을 함으로써 음성구간과 비음성구간의 데이터 이격화 현상으로 인한 잡음효과를 충실히 제거하며, 음성구간내에 존재하는 비음성 구간에 대해서도 인접한 음성구간의 정현파 기울기를 통해 비음성구간에서 계산된 정편파 기울기가 보정됨으로써 음성신호의 연속성이 보장된다.

도 17은 도 16의 음성 정현파 추적기의 동작과정을 나타내는 흐름도이다.

도시된 바와 같이, S10 단계에서는 음향신호가 입력된다.

이어서, S20 단계에서는 상기 S10 단계에서 입력된 음향신호가 음성신호인지를 판단한다.

그리고, S30 단계에서는 상기 S20 단계에서 상기 음향신호가 음성신호로 판단된 경우, 음성시작구간(A)과, 음성진행구간(B)과, 음성종료구간(C)을 판단한다.

그리고, S40 단계에서는 상기 S30 단계에서 상기 음성시작구간(A)로 판단된 경우, 음성시작구간의 이격방지 정현파를 생성한다.

그리고, S50 단계에서는 상기 S30 단계에서 상기 음성진행구간(B)로 판단된 경우, 음성진행구간의 이격방지 정현파를 생성한다.

그리고, S60 단계에서는 상기 S30 단계에서 상기 음성종료구간(C)로 판단된경우, 음성종료구간의 이격방지 정현파를 생성한다.

이어서, S70 단계에서는 상기 S40 내지 S60 단계를 통해 생성된 음성신호의 정현파 기울기를 분석한다.

이어서, S80 단계에서는 상기 S70 단계에서 분석된 음성신호의 정현파 기울기를 실시간으로 보정한다.

그리고, S90 단계에서는 상기 S80 단계에서 보정된 정현파 기울기에 의해 음성신호의 연속성이 보장되는 새로운 음성신호로 재구성된다.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

상술한 바와 같이, 음성신호의 특징인 정현파의 기울기와 이격방지 정현파를 통해 하드웨어의 회로 추가 없이 음성구간과 비음성구간의 경계면에서 발생되는 이격화 현상에 의한 잡음을 효율적으로 제거할 수 있는 효과가 있다.

Claims

새로운 음향신호를 입력받아 음성신호구간과 비음성신호구간을 판단하는 음성/비음성 판단기와,

상기 음성/비음성 판단기에 의해 판단된 음성신호구간을 음성시작구간과 음성진행구간과 음성종료구간으로 구분하는 구간 판단기와,

상기 음성/비음성 판단기에 의해 판단된 비음성구간과 음성구간의 경계면에서 발생되는 이격화 현상을 제거하는 이격방지 정현파생성기와,

상기 음성구간내에 존재하는 음성과 비음성의 정현파 기울기를 분석하는 정현파 기울기 분석기와,

상기 정현파 기울기 분석기에 의해 분석된 정현파 기울기를 통해 비음성의 정현파 기울기를 실시간으로 보정하는 정현파 기울기 보정기와,

상기 정현파 기울기 보정기에 의해 보정된 정현파 기울기를 이용하여 새로운 음성신호를 재구성하는 음성신호 재구성기로 구성되는 것을 특징으로 하는 음성신호 추적장치.
제 1 항에 있어서, 상기 음성/비음성 판단기는

상기 음향신호의 샘플간 편차를 통해 음성과 비음성을 구분하는 것을 특징으로 하는 음성신호 추적장치.
제 1 항에 있어서,

상기 음성시작구간은 비음성에서 음성으로 바뀌는 신호구간이고, 상기 음성진행구간은 음성이 지속적으로 진행되는 신호구간이며, 상기 음성종료구간은 음성에서 비음성으로 바뀌는 신호구간인 것을 특징으로 하는 음성신호 추적장치.
제 1 항에 있어서, 상기 이격방지 정현파생성기는

sin(2π×k/N), k = 0, 1, 2,...,N-1 의 수식에 의해 이격방지 정현파를 생성하는 것을 특징으로 하는 음성신호 추적장치.
제 1 항에 있어서, 상기 정현파 기울기 분석기는

임의로 설정되는 N개의 샘플 개수로부터 기울기 = (N번째 데이터 크기 - 1번째 데이터 크기)/N의 수식을 이용하여 정현파 기울기를 분석하는 것을 특징으로 하는 음성신호 추적장치.
음향신호가 음성입출력 시스템으로 입력되는 과정과,

상기 음향신호가 음성신호인지의 여부를 판단하는 과정과,

상기 음향신호가 음성신호인 경우, 상기 음성신호의 음성시작구간과 음성진행구간과 음성종료구간을 판단하는 과정과,

상기 음성신호의 구간별 이격방지 정현파를 생성하는 과정과,

상기 이격방지 정현파가 적용된 새로운 음성신호의 정현파 기울기를 분석하는 과정과,

상기 분석된 음성신호의 정현파 기울기를 실시간으로 보정하는 과정과,

상기 보정된 정현파 기울기에 의해 연속적인 음성신호로 재구성되는 과정으로 이루어지는 것을 특징으로 하는 음성신호 추적방법.