KR100384898B1

KR100384898B1 - 발화속도 조절기능을 이용한 음성/영상의 동기화 방법

Info

Publication number: KR100384898B1
Application number: KR10-2000-0076638A
Authority: KR
Inventors: 김상훈; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2000-12-14
Filing date: 2000-12-14
Publication date: 2003-05-22
Also published as: KR20020046442A

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은, 발화속도 조절기능을 가지는 음성/영상 동기화 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 음성/영상 동기화 시스템에 있어서, 피치정보에 의존함으로써 잡음이 많은 신호에서 효용이 떨어지는 기존의 동기화 방법의 단점을 극복하기 위해 휴지길이와 음소유형의 에너지 및 영교차율 특성을 이용한 발화속도 조절기능을 가지는 음성/영상 동기화 방법과 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결 방법의 요지

본 발명은, 음성/영상 동기화 시스템에 적용되는 음성/영상 동기화 방법에 있어서, 입력받은 방송음성으로부터 영교차율과 에너지 곡선을 추출하여 휴지구간여부를 판단하는 제 1 단계; 상기 판단결과, 휴지구간에서 휴지구간의 길이를 조절하여 선형 방정식을 생성하고, 음성구간에서 음소유형으로부터의 분절적 단계의 조절율을 구하고, 상기 선형방정식으로부터의 초분절적 단계의 조절율을 구하는 제 2 단계; 및 상기 음소유형에 의한 분절적 단계의 조절율과 상기 선형방정식에 의한 초분절적 단계의 조절율을 이용하여, 최종 발화속도 조절율을 결정하는 제 3 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 청각장애자나 노약자 등 약청자들을 위한 방송 등에 이용됨.

Description

발화속도 조절기능을 이용한 음성/영상의 동기화 방법{A method of audio/video synchronization for speaking rate control}

본 발명은 음성/영상 동기화 방법에 관한 것으로, 특히 발화 속도 조절기능을 이용한 음성/영상 동기화 방법과 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.

티브이(TV) 등 방송에서, 청각장애자나 노약자 등 약청자인들을 대상으로 발화속도를 느리게 조절함으로써 방송이해도를 높이고자 하는, 방송 음성의 발화속도 변환에 있어, 음성의 발화속도가 변화됨으로써 음성과 영상이 시간적으로 서로 어긋나게 되는 문제점이 발생한다. 이에 본 발명은, 이러한 문제점을 최소화하기 위한 음성과 영상의 동기화 방법에 관한 것이다. 한편, 종래의 발화속도 변환을 이용한 음성/영상의 동기화 방식으로는 억양구내 억양 곡선(intonation)을 이용하여 억양구 단위로 발화속도 조절율을 가변하는 방법이 있다.

도 2 는 종래 기술에 따른 음성과 영상의 시간차이를 피치 정보를 이용해 억양구 단위로 동기화하는 방법의 설명도이다.

일반적으로 억양구(intonational phrase)의 시작 부분은 새로운 어휘나 새로운 정보가 주로 오기 때문에 이전 발화에서 전달되는 문맥 정보가 없어 발화속도가 빠를 경우 청취자들이 이해하기 어려워진다. 이에 반해 억양구의 끝부분은 문맥에 대한 정보가 억양구 시작부에서 전달되어 왔기 때문에 이 부분의 발화속도를 빨리하여도 이해하는데 무리가 없다. 이에 기존 방식에서는 억양구내 억양곡선의 특성 즉, 억양구의 시작부는 높은 피치로 시작하고, 억양구 끝으로 갈수록 점점 하강하게 되는 억양구내 억양곡선의 특성을 이용하여 억양구의 시작부는 느리게 발화속도를 조절하고 억양곡선이 하강하게 됨에 따라 발화속도를 빠르게 조절하여 일정하게 조절하였을 때 발생하는 음성과 영상의 시간차이를 억양구 단위로 동기화할 수 있었다.

그러나, 종래 기술에 따른 억양구내 억양곡선을 이용한 음성과 영상의 동기화 방법은, 억양곡선을 이루는 피치(pitch)를 방송음성과 같은 잡음환경(예: 음악, 자동차소리, 박수소리, 현장 리포터의 음성 등)이 많이 포함된 음성에서 정교하게 찾아낼 수 없기 때문에 실제 사용할 수 있는 시스템으로 구현하기가 매우 어려운 문제점이 있었다.

본 발명은, 상기와 같은 문제점을 해결하기 위하여 제안된 것으로서, 잡음에 강한 음성특징을 이용하여 음성/영상 동기화를 하는, 즉 기존 피치정보 대신 잡음에 강한 음성특징인 휴지길이(pause length)와 음소유형(모음, 유성자음, 무성자음)의 에너지 및 영교차율(ZCR: zero crossing rate) 특성을 이용하여 발화속도 조절율과 조절구간을 결정하여 음성/영상의 동기화를 제공하는 음성/영상 동기화 방법과 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 그 목적이 있다.

도 1 은 발화속도 조절기능을 가지는 음성/영상의 동기화 방식이 적용되는 음성/영상 동기화 시스템의 일실시예 구성도.

도 2 는 종래 기술에 따른 음성과 영상의 시간차이를 피치 정보를 이용해 억양구 단위로 동기화하는 방법의 설명도.

도 3 은 발화속도 조절기능을 가지는 음성/영상의 동기화 방법에 의해 분절적 단계와 초분절적 단계로 나뉜 음성/영상 동기화 방법의 설명도.

도 4 는 발화속도 조절기능을 가지는 음성/영상의 동기화 방법의 일실시예 흐름도.

* 도면의 주요 부분에 대한 부호 설명 *

101 : 사운드카드 102 : 주메모리

103 : 하드디스크 104 : 중앙처리장치

105 : 발화속도 조절장치 106 : 모니터

상기 목적을 달성하기 위한 본 발명은, 음성/영상 동기화 시스템에 적용되는 음성/영상 동기화 방법에 있어서, 입력받은 방송음성으로부터 영교차율과 에너지 곡선을 추출하여 휴지구간여부를 판단하는 제 1 단계; 상기 판단결과, 휴지구간에서 휴지구간의 길이를 조절하여 선형 방정식을 생성하고, 음성구간에서 음소유형으로부터의 분절적 단계의 조절율을 구하고, 상기 선형방정식으로부터의 초분절적 단계의 조절율을 구하는 제 2 단계; 및 상기 음소유형에 의한 분절적 단계의 조절율과 상기 선형방정식에 의한 초분절적 단계의 조절율을 이용하여, 최종 발화속도 조절율을 결정하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.

한편, 본 발명은, 대용량 프로세서를 구비한 음성/영상 동기화 시스템에, 입력받은 방송음성으로부터 영교차율과 에너지 곡선을 추출하여 휴지구간여부를 판단하는 제 1 기능; 상기 판단결과, 휴지구간에서 휴지구간의 길이를 조절하여 선형 방정식을 생성하고, 음성구간에서 음소유형으로부터의 분절적 단계의 조절율을 구하고, 상기 선형방정식으로부터의 초분절적 단계의 조절율을 구하는 제 2 기능; 및 상기 음소유형에 의한 분절적 단계의 조절율과 상기 선형방정식에 의한 초분절적 단계의 조절율을 이용하여, 최종 발화속도 조절율을 결정하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 발화속도 조절기능을 가지는 음성/영상의 동기화 방식이 적용되는 음성/영상 동기화 시스템의 일실시예 구성도이다.

도 1 에 도시된 바와 같이, 발화속도 조절기능을 가지는 음성/영상 동기화 시스템은, 사운드카드(101)로 표시되는 입/출력수단, 주메모리(102) 및 하드 디스크(103)로 표시되는 저장수단, 중앙처리장치(104)로 나타낸 연산수단, 발화속도 조절장치(105)로 나타낸 조절수단 및 모니터(106)로 표시한 디스플레이수단을 구비한다.

도 1 에 도시된 바와 같이, 발화속도 조절장치(105)는 사운드 카드(101)와 중앙처리장치(104)와 연결되고, 중앙처리장치(104)로부터 발화속도 변환을 명령받아 발화속도를 조절하여 사운드 카드(101)로 변환된 음성 신호를 전달한다.

주메모리(102)는 사운드 카드(101), 하드 디스크(103)와 중앙처리장치(104)에 연결되고, 사운드 카드(101)로부터 실시간으로 음성을 입력받아 200msec씩 버퍼링하고 하드 디스크(103)에서 프로그램을 읽어와 음성/영상 동기화를 수행하고 수행한 결과를 중앙처리장치(104)에 전달한다.

중앙처리장치(104)는 주메모리(102), 발화속도 조절장치(105)와 모니터(106)에 연결되고, 주메모리(102)로부터 상기 음성/영상 동기화 수행 결과를 입력받아 발화속도 조절장치(105)로 하여금 발화속도를 변환하도록 하고, 이때 결정된 휴지구간 및 조절율은 모니터(106)를 통해 동시 출력되도록 하여 본 변환 과정을 점검할 수 있게 한다.

발화속도 조절장치(105)는 중앙처리장치(104)와 사운드 카드(101)에 연결되고, 중앙처리장치(104)의 신호에 따라 발화속도를 조절한 후 사운드 카드(101)를 통해 최종 음성을 출력하게 된다.

도 3 은 발화속도 조절기능을 가지는 음성/영상의 동기화 방법에 의해 분절적 단계와 초분절적 단계로 나뉜 음성/영상 동기화 방법의 설명도이다.

도 3 에 도시된 바와 같이, 본 발명은 발화속도 조절에 있어서, 분절적 단계와 초분절적 단계로 나누어 계산하는데, 상기의 초분절적 단계의 경우에 휴지구간사이의 음성 전체(또는 억양구 단위내 음성)에 대한 조절을 의미하며, 상기의 분절적 단계의 경우에 음소단위의 작은 단위에서의 음소유형에 따른 조절을 의미한다.

도 3 에 도시된 바와 같이, 초분절적 단계(Suprasegmental level)에서의 조절을 위해 일정 레벨(예를 들면, 50 데시벨)이하인 에너지값과 일정한 값 이상의 영교차율(예를 들면, ZCR > 10) 값일 때를 휴지구간으로 결정한다. 상기의 휴지구간이라 함은, 관심을 갖는 음성신호가 입력되고 있지 않는 구간을 의미하고 이를 판단하기 위해 에너지값과 영교차율을 이용한다. 여기서, 에너지값은 입력 신호의 크기를 나타내고, 영교차율은 프레임내 음성의 크기가 일정 레벨의 에너지값(여기서는 휴지구간을 나누는 기준이 되는 에너지값)을 기준으로 음(-)에서 양(+)으로 변하거나 그 반대로 양(+)에서 음(-)으로 변하는 횟수를 말하며, 영교차율이 크다는 것은 일정레벨의 에너지를 중심으로 에너지의 고저변화가 심하다는 것을 의미한다. 휴지구간이 추출된 시점부터 시간에 따라 점차 감소하는 선형방정식을 생성하여 상기 도 2 의 억양곡선을 이용한 방식과 유사하게 발화속도 조절율을 결정한다. 조절구간은 다음 휴지구간이 추출될 때까지 적용한다. 만약 추출된 휴지사이의 음성의 길이가 일정 길이(예를 들면, 프레임수 > 200 이상인 경우)보다 길 경우, 일정 길이 이후에는 조절율을 일정하게 유지한다.

상기에서 설명한 선형방정식은 다음의 [수학식1]과 같다.

단, X는 초분절적 단계의 조절율이고, K는 프레임수이다.여기서, 초기조절율은 분절적 단계에서 정한 조절율을 말한다

분절적 단계(segmental level)에서는 에너지에 따른 음소유형과 발화속도와의 영향을 고려한다. 일반적으로 발화속도에 따른 음성의 길이는 모음이 가장 크게 변화하며, 유성자음, 무성자음의 순으로 길이에 영향을 받는다. 즉 발화속도를 느리게 할 경우에 모음이 가장 길어지며, 다음은 유성자음, 무성자음 순으로 길어진다. 특히 모음은 에너지가 가장 크며, 다음은 유성자음, 무성자음 순으로 에너지가 크다. 따라서 에너지 정보를 이용하여 이 프레임이 어느 유형(모음, 유성자음, 무성자음)에 속하는지 결정하고 결정된 유형에 따라 발화속도 조절율을 결정한다.

유형에 따른 발화 속도 조절율의 예를 들자면, 다음과 같다.

음소의 에너지(E)가 72데시벨보다 크다면(E > 72dB) 해당 음소를 모음으로 판단하고 조절율은 1.2 값을 갖게 되고, 음소의 에너지(E)가 65데시벨보다 크고 72데시벨이하이면(72dBE65dB) 해당 음소를 유성자음으로 판단하고 조절율은 1.1값을 가진다. 또한, 음소의 에너지(E)가 55데시벨보다 크고 65데시벨이하이면(65dBE55dB) 해당 음소를 무성자음으로 판단하고 조절율은 1.05의 값을 갖고, 음소의 에너지(E)가 50데시벨보다 크고 55데시벨이하이면(55dBE50dB) 잡음구간으로 판단하고 조절율은 1.0 값을 갖게 된다. 여기서 조절율의 값은 발화속도를 나타내는 것으로, 예를 들면 1.0은 입력받은 방송음성과 같은 속도를 의미하고, 1.2는 입력받은 방송음성의 속도보다 20% 느리게 하는 것을 의미하는 것이다.

상기와 같은 본 발명의 바람직한 실시예에서의 실험 결과, 원음성을 120% 늘렸을 경우, 108%의 길이로도 120%의 길이가 늘어난 효과를 보이면서 음성과 영상과의 동기화를 가능하게 하는 효과가 나타남을 알 수 있다.

도 4 는 발화속도 조절기능을 가지는 음성/영상의 동기화 방법의 일실시예 흐름도이다.

본 발명은 방송음성과 같이 다양한 배경잡음이 포함될 경우, 음성으로부터 정교한 피치를 추출하기 어려우므로 잡음에 강한 음성특징인 휴지길이, ZCR, 음성의 에너지를 이용하여 발화속도 조절율과 조절구간을 결정짓는데 이용하였다.

이를 위해 음성이 실시간으로 사운드 카드를 통해 입력되면(401) 200msec의 버퍼링 음성을 프레임 사이즈가 20msec인 크기로 나누어 에너지와 ZCR을 추출한다(402). 추출된 에너지와 ZCR로부터 일정 임계치를 넘는지를 조사하여 음성구간과 휴지구간으로 나눈다(403). 휴지구간이라 판정되면 다음 음성구간까지의 휴지구간을 추출하고(404), SOLA(Synchronous OverLap Add)방식을 이용해서 휴지구간 길이를 조절하고(405), 선형방정식(piece-wise linear equation)을 생성한 후에(406) 402과정으로 진행한다. 상기 휴지구간 길이를 조절(405)할 때는, 휴지구간에서는 원래길이의 50%로 휴지구간 길이를 줄인다. 즉, 휴지구간의 발화속도 조절율을 0.5로 하고 SOLA(Synchronous OverLap Add)를 적용하여 길이를 줄이게 된다. 휴지길이를 줄임으로써 전체 음성의 길이가 줄어들어 동기화에 도움이 된다.

상기의 SOLA(Synchronous OverLap Add)방식은 음성을 20~30msec의 프레임 단위로 분해하고 분해할 때 프레임간 분석주기(frame rate)를 조절(느리게 음성을 조절할 경우에 프레임주기를 크게 하고, 음성을 빠르게 조절할 때는 프레임주기를 작게 함)하여 분해된 프레임을 오버랩과 애드(overlap add)하여 발화속도가 조절된 음성을 다시 생성하게 되는데, 오버랩과 애드(overlap add)하는 구간은 이전 프레임과 현재 프레임간의 코릴레이션(Correlation)이 최대가 되는 지연 샘플(delay sample) 위치를 구하여 그 지점에서 오버랩과 애드(overlap add)를 적용하여 속도를 조절하는 방식이다.

상기 조사 결과(403), 음성구간인 경우에는 음성구간의 에너지 레벨이, 정해진 소정의 유형에 속하는지를 조사하여 모음, 유성자음, 무성자음, 잡음 등으로 나눈 뒤 각 유형에 따라 조절율을 할당한다(407). 동시에 휴지구간 다음이 음성구간이라고 판정되면 상기 생성된 선형방정식을 적용하여 초분절적 단계에서의 발화속도 조절율을 구한다(408). 최종 발화속도 조절율은 초분절적 단계와 분절적 단계에서 결정된 발화속도 조절율을 서로 더하여 결정한다(409). 발화속도 조절은 SOLA(Synchronous OverLap Add) 방식을 사용하며(410) 최종적으로 사운드 카드를 통해 음성 신호가 출력된다(411). 상기의 과정은 음성입력이 끝날 때까지 반복된다(412).

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 발화속도 조절기능을 가지는 음성/영상 동기화 방법으로 잡음환경에 강한 음성특징인 휴지구간, 영교차율, 에너지 곡선 등을 이용함으로써, 방송음성과 같은 배경잡음이 많이 포함된 음성에도 적용할 수 있으며, 기존 방식이 초분절적 단계(억양구 단계)에서만 조절을 한 반면에, 본 발명에서는 분절적 단계까지 음소 유형별 발화속도율을 조절하여 좀 더 자연스러운 발화 결과를 얻을 수 있도록 하였고, 원음성을 늘렸을 경우에 늘어난 길이보다 짧은 길이만 가지고도 늘어난 길이만큼의 효과를 보이면서 음성과 영상과의 동기화를 가능하게 하는 효과가 있다.

Claims

음성/영상 동기화 시스템에 적용되는 음성/영상 동기화 방법에 있어서,

입력받은 방송음성으로부터 영교차율과 에너지 곡선을 추출하여 휴지구간여부를 판단하는 제 1 단계;

상기 판단결과, 휴지구간에서 휴지구간의 길이를 조절하여 선형 방정식을 생성하고, 음성구간에서 음소유형으로부터의 분절적 단계의 조절율을 구하고, 상기 선형방정식으로부터의 초분절적 단계의 조절율을 구하는 제 2 단계; 및

상기 음소유형에 의한 분절적 단계의 조절율과 상기 선형방정식에 의한 초분절적 단계의 조절율을 이용하여, 최종 발화속도 조절율을 결정하는 제 3 단계

를 포함하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
제 1 항에 있어서,

상기 제 2 단계에서 조절된 휴지구간의 길이과 상기 최종 발화 속도 조절율을 모니터를 통해 출력하는 제 4 단계

를 더 포함하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
제 1 항 또는 제 2 항에 있어서,

상기 선형방정식은 아래의 수학식인 것을 특징으로 하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.

[수학식]

(단, X는 초분절적 단계의 조절율이고, K는 프레임수임.)
제 1 항 또는 제 2 항에 있어서,

상기 제 1 단계는,

방송음성을 실시간으로 입력받는 제 5 단계;

상기 입력받은 음성을 버퍼링하고, 상기 버퍼링된 음성을 소정의 프레임 사이즈와 분석주기를 이용해서 분석하여, 입력받은 음성의 에너지와 영교차율(ZCR)을 추출하는 제 6 단계; 및

상기 추출된 에너지 및 영교차율과, 주어진 임계치를 비교하여 휴지구간과 음성구간을 나누는 제 7 단계

를 포함하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 단계의 선형 방정식 생성 과정은,

휴지구간으로부터 SOLA(Synchronous OverLap and Add) 방식을 이용해서 휴지길이를 줄이는 제 5 단계; 및

휴지구간에 이어지는 음성구간으로부터 상기 선형방정식을 생성하는 제 6 단계;

를 포함하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 단계의 음소유형에 의한 분절적 단계의 조절율 결정 과정은,

상기 제 1 단계에서 추출된 에너지 곡선을 이용하여 음소의 유형을 결정하는 제 5 단계; 및

상기 결정된 음소유형에 따라 음소별로 분절적 단계의 조절율을 결정하는 제 6 단계

를 포함하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
제 6 항에 있어서,

상기 제 5 단계는,

음소의 에너지(E)가 72데시벨보다 크면(E > 72dB) 해당 음소를 모음으로 판단하고, 음소의 에너지(E)가 65데시벨보다 크고 72데시벨이하이면(72dBE65dB) 해당 음소를 유성자음으로 판단하며, 음소의 에너지(E)가 55데시벨보다 크고 65데시벨이하이면(65dBE55dB) 해당 음소를 무성자음으로 판단하고, 음소의 에너지(E)가 50데시벨보다 크고 55데시벨이하이면(55dBE50dB) 잡음구간으로 판단하는 것을 특징으로 하는 발화속도 조절기능을 가지는 음성/영상 동기화 방법.
대용량 프로세서를 구비한 음성/영상 동기화 시스템에,

입력받은 방송음성으로부터 영교차율과 에너지 곡선을 추출하여 휴지구간여부를 판단하는 제 1 기능;

상기 판단결과, 휴지구간에서 휴지구간의 길이를 조절하여 선형 방정식을 생성하고, 음성구간에서 음소유형으로부터의 분절적 단계의 조절율을 구하고, 상기 선형방정식으로부터의 초분절적 단계의 조절율을 구하는 제 2 기능; 및

상기 음소유형에 의한 분절적 단계의 조절율과 상기 선형방정식에 의한 초분절적 단계의 조절율을 이용하여, 최종 발화속도 조절율을 결정하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.