KR20000022351A

KR20000022351A - 음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템

Info

Publication number: KR20000022351A
Application number: KR1019980710777A
Authority: KR
Inventors: 아츠시 이마이; 노부마사 세이야마; 도루 다카기
Original assignee: 닛폰 호소 교카이
Priority date: 1997-04-30
Filing date: 1998-04-30
Publication date: 2000-04-25
Also published as: WO1998049673A1; CA2258908A1; EP0944036A4; EP0944036A1; CN1225737A; US6236970B1; US6374213B2; CN1117343C; NO317600B1; NO986172L; EP1944753A3; KR100302370B1; CA2258908C; CN1198263C; EP1517299A2; CN1441403A; NO986172D0; EP1517299A3; EP1944753A2; US20010010037A1

Abstract

듣는 음성의 전달 속도(음성 속도)가 늦어지면, 접속 순서 생성부(8)는 입력 음성의 데이터 길이, 프리셋 크기 인수에 관계된 변환 함수에 의해 이전에 계산된 출력 데이터 길이, 그리고 소정의 처리 단위의 실제 출력 음성의 데이터 길이를 항상 모니터하고, 그들간의 불일치가 일어나지 않도록 접속 순서를 결정한다. 음성 데이터 접속부(9)를 제어하여 음성 정보를 빠뜨리지 않도록 음성 데이터와 접속 데이터가 접속된다. 음성 구간과 비 음성 구간을 구별하기 위해 입력 신호 데이터의 전력이 계산되면, 전력의 최대값과 그 최대값과 최소값간의 차이에 따라 전력의 임계값이 결정된다.

Description

음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템

음성 속도 변환 방법을 실제 방송에 적용할 경우에는, 비상 뉴스 같은 경우에 원래 음성으로부터의 지연이 문제가 되는 경우가 있다. 특히, 이 지연이 음성 속도 변환에서 기대되는 효과에 반하여 시각 매체에 나쁜 영향을 끼칠 가능성이 있다.

그러므로, 원래 음성으로부터의 지연 없이 음성 속도 변환 효과(늦어지는 느낌)를 얻으려는 시도로, 균등하게 느리게 변환하는 것 대신 한 무성음의 시작점으로부터 끝나는 점까지의 경과 시간의 함수로서 음성 속도를 저속에서 고속으로 바꿈으로 해서 시간대에서의 확장을 억제하고, 그렇게 해서 문장 사이의 비 음성 구간을 적절하게 줄이는 방법(R, Ikezawa 등, "An Approach for Absorbing Extension in Time Caused in Speech Speed Conversion", Spring Conference, Japanese Acoustic Society, 2-6-2, pp.331-332, 1992), 이런 접근을 실시간으로 얻는 방법(A. Imai 등, "Real Time Absorption Method for Extension in Time Caused in Speech Speed Conversion", in International Conference, IEICE, D-694, pp 300, 1995)등이 보고되었다.

전자는 모든 음성의 양식이 알려져 있다는 가정 하에서 적절한 함수를 수동으로 설정한다. 후자 역시 인수를 수동으로 정의한 함수를 설정하고, 일단 그 함수가 설정되면 이 함수를 고정한다.

덧붙여, 오직 변함없는 잔여 시간이 비 음성 구간을 줄이기 위해 수동으로 설정된다. 만약 많은 양의 "불일치"가 누적되면, 버퍼에 모여진 그 확장된 음성은 수동으로 제거된다.

그러므로, 종래의 음성 속도 변환 장치에서는, 말하는 사람에 따라 방송의 언어에 다양한 말하는 양식(음성 속도, 음성의 "타이밍" 등)이 존재하고 또한 적절한 인수가 각기 수동으로 설정되어야하기 때문에, 그 장치는 많은 동작점을 가지게 되고, 설정하는 것 자체가 힘들며, 일반 사용자가 그 장치를 다루는 것이 어렵다는 문제가 있다.

게다가, 위의 음성 속도 변환 장치에서는, 음성 구간과 비 음성 구간이 별도로 인식되어야만 한다. 종래에는 음성 구간 검출 시스템으로서 다양한 시스템들이 있다.

종래 음성 구간 인식 장치의 하나인 그러한 시스템은 음성 신호의 전력을 기초로 하여 소음 수준과 음성 수준이 계산되고, 그 계산 결과에 기초하여 수준 임계값이 설정되며, 이 수준 임계값과 입력 신호가 서로 비교되어, 입력 신호의 수준이 수준 임계값보다 크면 그 구간은 음성 구간으로 결정되고 입력 음성의 수준이 수준 임계값보다 작으면 그 구간은 비 음성 구간으로 결정된다고 알려져 있다.

이 시스템에서 채택된 수준 임계값을 설정하는 방법으로서, 첫 번째에서 세 번째까지의 대표적인 시스템들이 있다. 첫 번째 시스템에 의하면, 입력 음성의 소음 수준값에 미리 선택된 상수를 더해서 얻어진 값이 수준 임계값으로 채택된다. 첫 번째 시스템을 개량한 두 번째 시스템에 따르면, 입력 음성 신호의 최대 수준값에서 소음 수준값을 빼서 얻어진 값이 작을 때에 수준 임계값은 상대적으로 작은 수로 설정되는 반면, 입력 음성 신호의 최대 수준값에서 소음 수준값을 빼서 얻어진 값이 클 때에 수준 임계값은 상대적으로 큰 수로 설정된다 (예를 들면, 일본 특허 출원 공개(KOKAI) 소58-130395, 일본 특허 출원 공개(KOKAI) 소61-272796 등).

세 번째 시스템에 의하면, 이런 수준 임계값 설정 방법에 덧붙여, 입력 신호가 지속적으로 모니터링되고, 일정한 시간 주기에 걸쳐 입력 신호의 수준이 안정되어 있으면 그 입력 신호는 소음 수준으로 간주되며, 음성 구간 검출을 위해서 채택된 임계값이 소음 수준을 연속해서 갱신하면서 설정된다 (Proceeding in International Conference, IEICE, D-695, pp 301, 1995).

그러나, 위의 종래의 음성 구간 검출 시스템에서, 다음에 설명되는 문제점들이 있다.

우선, 첫 번째 시스템은 단순하다는 이점이 있으며, 음성의 평균 수준이 중간 수준이면 잘 동작할 수 있다. 그러나, 첫 번째 시스템은 음성의 평균 수준이 너무 클 경우 소음을 음성이라고 잘못 검출하기 쉬우며, 음성의 평균 수준이 너무 작을 경우에는 음성의 일부분을 빠뜨리면서 음성을 검출하기 쉽다.

그리고, 두 번째 시스템은 첫 번째 시스템에서 야기된 문제점을 극복할 수 있다. 그러나, 입력 신호의 소음들과 배경 소리들의 수준이 실질적으로 일정하게 유지되는 경우가 전제로 채택되었기 때문에, 두 번째 시스템은 음성 수준의 변화를 따를 수 있으나, 소음들과 배경 소리들의 수준이 매 순간마다 변화될 때에는 정확한 음성 구간 검출을 하는 것은 보장될 수 없다.

그리고, 세 번째 시스템에서는 그런 소음 수준의 변화가 고려되었기 때문에 소음 수준이 연속적으로 변하는 때라도 잘 못 검출하는 경우는 일어나지 않는다.

그러나, 소음만이 아니라 음향 효과로서의 음악이나 모조음 등 같은 배경 소리도 방송 프로그램 등에는 포함되며, 보통 이러한 수준들은 매 순간 변화되며 그리고 동시에 음성은 항상 전달되므로 입력 신호 수준은 소정의 시간 주기에 걸쳐 지속되는 경우는 거의 없다. 그런 경우, 세 번째 시스템에 의해 소음 수준이 고르게 고쳐질 수는 없기 때문에, 음성 구간을 정확하게 검출하는 것은 어렵다.

본 발명은 위의 환경들을 고려하여 만들어졌고, 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간을 적응적으로 제어할 수 있으며, 또한 실제로 전달되는 시간 범위이내에 안정적으로 음성 속도 변환을 위해 기대되는 효과를 얻을 수 있는 음성 속도 변환 방법 및 그 장치를 제공하는 것이 본 발명의 목적이다.

또한, 특성 매개 변수로서 상대적으로 간단히 유도될 수 있는 전력만을 채택함으로 해서, 계산 시간을 짧게 하고 또한 비용을 줄일 수 있으며, 입력 음성과 배경 소리의 각각의 수준들의 변화에 연속적으로 응답할 수 있도록 실시간으로 음성 처리를 실행하여 음성 구간과 비 음성 구간을 구별할 수 있는 음성 구간 검출 방법 및 그 장치를 제공하는 데 본 발명의 다른 목적이 있다.

본 발명은 텔레비전 세트, 라디오, 테이프 녹음기, 비디오 테이프 녹화기, 비디오 디스크 플레이어, 보청기 등과 같은 다양한 비디오 장치, 오디오 장치, 의료 장치에서 시간대를 확장하지 않고 음성 속도 변환에 있어서 기대되는 용이하게 듣게 해 줄 수 있는 음성 속도 변환 방법 및 그 장치에 관련된 것이다.

본 발명은 또한 방송 프로그램이나 녹음 테이프 혹은 일상 생활에서 소음이나 배경 소리와 함께 전달되는 음성이, 소리의 높이나 음성 속도를 바꾸도록 처리되거나, 음성의 의미가 기계적으로 인식되거나, 음성이 전송되거나 녹음되기 위해 부호화되거나 혹은 그와 비슷한 경우에 입력 신호의 음성 구간과 비 음성 구간을 구별할 수 있는 음성 구간 검출 방법 및 그 장치에 관련되어 있다.

본 발명은, 입력 음성의 데이터 길이와 이전에 주어진 크기 인수와 관련된 변환 함수에 따라 이전에 계산되었던 출력 음성 길이와 그리고 들리는 음성의 전달된 속도(음성 속도)가 느려질 때에 일정한 처리 단위로 실제로 출력되는 음성의 데이터 길이를 항상 모니터링하면서, 인간에 의해 만들어진 음성을 처리하여 음성 속도를 실시간으로 변환하고, 정보의 손실이 없이 일련의 처리과정을 실행하는 음성 속도 변환 방법 및 그 장치에 관련된다.

또한, 음성 속도 변환 방법 및 그 장치에서, 예를 들면, 텔레비전 수신기를 주시하는데 있어 음성을 확장함으로 해서 초래된 영상과 음성간의 시간 차이를 최소화하는 것을 목표로 하면서, 음성 속도 변환에서 기대되는 지연 정도(변환 인수)에 따라 지정된 변수 임계값을 초과하는 길이를 가진 비 음성 구간이 적절하게 줄어들 수 있고, 변환된 음성을 말하는 시간을 원래의 음성을 말하는 시간 이내에 실질적으로 유지하면서, 입력 데이터 길이와 출력 데이터 길이간의 시간 차이의 정도에 따른 변환 인수를 적응적으로 바꿈으로써 결정된 시간 범위 내에 달성될 수 있는 최대로 늦어지는 느낌이 자동적으로 창조될 수 있다.

더 나아가, 본 발명은 소정의 시간 폭을 가진 프레임 단위로 소정의 시간 구간에서 입력 신호 데이터의 전력을 계산하고, 그리고, 이전의 소정의 시간 주기 이내의 최대 전력값과 최소 전력값을 보관하면서, 최대값과 그 최대값과 최소값의 차이에 따라 변화하는 전력을 위한 임계값을 이용해서, 입력 음성과 배경 소리의 각 전력의 변화에 연속해서 반응하도록, 음성 구간과 비 음성 구간 각 프레임간을 구별한다. 결과적으로, 목소리의 높이 혹은 음성 속도의 변화, 음성의 의미에 대한 기계적인 인식에서의 변화, 그리고 목소리를 전송이나 녹음으로 코딩하는 데의 변화 그리고 비슷한 것들의 변화들이 방송 프로그램이나 테이프 녹음이나 혹은 일상의 생활에서의 소음이나 배경 소리와 같이 전달되는 음성을 처리함에 의해 영향을 받는 경우에 있어서, 입력 신호의 음성 구간을 정확하게 검출함으로써 처리된 음성의 질의 향상, 음성 인식율의 향상 그리고 디코드된 음성의 질의 향상이 얻어질 수 있다.

덧붙여, 특성 매개 변수로서 상대적으로 간단히 유도될 수 있는 전력만을 채택함으로 해서, 계산 시간을 짧게 하고 또한 비용을 줄이면서 음성 처리는 실시간으로 실행될 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 속도 변환 장치를 도시한 블록 다이아그램이다.

도 2는 본 발명의 일 실시예에 따른 음성 구간 검출 장치를 도시한 블록 다이아그램이다.

도 3은 도 2에 도시된 음성 구간 검출 장치의 작동의 한 예를 보여주는 도면이다.

도 4는 도 1에 도시된 접속 데이터 생성부에서 반복적으로 같은 블록에 접속하는데 채택된 접속 데이터를 생성하는 방법을 보여주는 도면이다.

도 5는 도 1에 도시된 접속 순서 생성부의 I/O 데이터 길이 모니터/비교부의 상세한 구성의 예를 보여주는 블록 다이아그램이다.

도 6은 도 1에 도시된 접속 순서 생성부에 의해 생성된 접속 순서의 예를 보여주는 도면이다.

상기의 목적을 달성하기 위해, 소정의 시간 구간에서 소정의 프레임 폭의 단위로 입력 신호 데이터의 프레임 전력을 계산하며, 이전의 소정의 시간 주기이내에서의 프레임 전력의 최대값과 최소값을 보관하는 단계; 보관된 최대값과 그 최대값과 최소값의 차이에 따라 변화되는 전력의 임계값을 결정하는 단계; 및 현재의 프레임이 음성 구간 혹은 비 음성 구간에 속하는가 결정하기 위해 임계값과 현재 프레임의 전력을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법이 청구항 1에 제시된다.

청구항 1에 제시된 음성 구간 검출 방법에 있어서, 상기 구성에 따르면, 입력 신호 데이터의 프레임 전력이 소정의 시간 구간에서 소정의 프레임 폭의 단위로 계산되고, 그러면 이전의 소정의 시간 주기이내에서의 프레임 전력의 최대값과 최소값이 보관되고, 그러면 보관된 최대값과 그 최대값과 최소값의 차이에 따라 전력의 임계값이 결정되고, 그러면 현재의 프레임이 음성 구간 혹은 비 음성 구간에 속하는가 결정하기 위해 임계값과 현재 프레임의 전력이 서로 비교된다. 그러므로 입력 음성과 배경 소리의 각 수준들의 변화에 연속적으로 반응하며, 실시간으로 음성 처리를 실행함으로 해서 음성 구간과 비 음성 구간이 구별될 수 있다.

청구항 1에 제시된 음성 구간 검출 방법의 청구항 2에 제시된 음성 구간 검출 방법에서, 최대값과 최소값간의 차이가 소정의 값보다 작으면, 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정된다.

상기의 목적을 달성하기 위해, 소정의 시간 구간에서 소정의 프레임 폭의 단위로 입력 신호 데이터의 프레임 전력을 계산하는 전력 계산부; 이전의 소정의 시간 주기 이내에서의 프레임 전력의 최대값을 보관하는 순간 전력 최대값 래치; 이전의 소정의 시간 주기 이내에서의 프레임 전력의 최소값을 보관하는 순간 전력 최소값 래치; 상기 순간 전력 최대값 래치에 보관된 최대값과 그 최대값과 상기 순간 전력 최소값 래치에 보관된 최소값과의 차이에 따라 변하는 전력의 임계값을 결정하는 전력 임계값 결정부; 및 현재 프레임이 음성 구간인가 혹은 비 음성 구간인가를 결정하기 위해 상기 전력 임계값 결정부에 의해 얻어진 임계값과 현재 프레임의 전력을 비교하는 구별부(36)를 포함하는 것을 특징으로 하는 음성 구간 검출 장치가 청구항 3에 제시된다.

청구항 3에 제시된 음성 구간 검출 장치에 있어서, 상기 구성에 따르면, 전력 계산부는 소정의 시간 구간에서 소정의 프레임 폭의 단위로 입력 신호 데이터의 프레임 전력을 계산하고, 순간 전력 최대값 래치는 이전의 소정의 시간 주기 이내에서의 프레임 전력의 최대값을 보관하며, 순간 전력 최소값 래치는 이전의 소정의 시간 주기 이내에서의 프레임 전력의 최소값을 보관하고, 전력 임계값 결정부는 상기 순간 전력 최대값 래치에 보관된 최대값과 그 최대값과 상기 순간 전력 최소값 래치에 보관된 최소값과의 차이에 따라 변하는 전력의 임계값을 결정하며, 그리고 구별부는 현재 프레임이 음성 구간인가 혹은 비 음성 구간인가를 결정하기 위해 전력 임계값 결정부에 의해 얻어진 임계값과 현재 프레임의 전력을 비교한다. 그러므로, 특성 매개 변수로서 상대적으로 간단히 유도될 수 있는 전력만을 채택함으로 해서, 계산 시간을 짧게 하고 또한 비용을 줄이면서, 입력 음성과 배경 소리의 각각의 수준들의 변화에 연속적으로 응답할 수 있도록 실시간에 음성 처리를 실행하여 음성 구간과 비 음성 구간이 구별될 수 있다.

청구항 3에 제시된 음성 구간 검출 장치의 청구항 4에 제시된 음성 구간 검출 장치에서, 최대값과 최소값간의 차이가 소정의 값보다 작으면, 상기 전력 임계값 결정부는 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝다고 결정한다.

상기의 목적을 달성하기 위해, 어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 입력 데이터에 대해 확장 시간 내에 출력 데이터의 확장 시간을 어떤 시간 주기에 의해서 줄이는 단계를 포함하는 것을 특징으로 하는 음성 속도 변환 방법이 청구항 5에 제시된다.

청구항 5에 제시된 음성 속도 변환 방법에 있어서, 상기 구성에 따르면, 어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 확장 시간 내에 어떤 시간 주기에 의해서 입력 데이터에 대한 출력 데이터의 확장 시간이 줄어진다. 그러므로, 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 5에 제시된 음성 속도 변환 방법의 청구항 6에 제시된 음성 속도 변환 방법에서, 입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링하면서 합성 과정을 실행하는 단계; 및 음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보를 보관하는 단계를 더 포함한다.

청구항 6에 제시된 음성 속도 변환 방법에 있어서, 상기 구성에 따르면, 합성 과정은 입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링하면서 실행되고, 그리고 음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보가 보관된다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 5에 제시된 음성 속도 변환 방법의 청구항 7에 제시된 음성 속도 변환 방법에서, 음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 비 음성 구간의 잔류 비율을 적응적으로 바꾸는 단계를 더 포함한다.

청구항 7에 제시된 음성 속도 변환 방법에 있어서, 상기 구성에 따르면, 음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 비 음성 구간의 잔류 비율이 적응적으로 바꿔진다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 5에 제시된 음성 속도 변환 방법의 청구항 8에 제시된 음성 속도 변환 방법에서, 제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 프리셋 시간 구간에서 확장의 양을 측정하는 단계; 및 시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수를 바꾸는 단계를 더 포함한다.

청구항 8에 제시된 음성 속도 변환 방법에 있어서, 상기 구성에 따르면, 제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 프리셋 시간 구간에서 확장의 양이 측정되고, 시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수가 바뀐다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 그리고 음성 속도 변환 인수를 적응적으로 바꿈으로서 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 5에 제시된 음성 속도 변환 방법의 청구항 9에 제시된 음성 속도 변환 방법에서, 음성 구간과 비 음성 구간이 구별되었을 때, 소정의 시간 구간에서 소정의 프레임 폭의 단위로 입력 신호 데이터의 프레임 전력을 계산하고, 지나간 소정의 시간 구간 내에서 프레임 전력의 최대값과 최소값을 보관하는 단계; 보관된 최대값과 그 최대값과 최소값의 차이에 따라 변하는 전력의 임계값을 결정하는 단계; 및 현재의 프레임이 음성 구간에 속하는가 혹은 비 음성 구간에 속하는 가를 결정하기 위해 임계값을 현재 프레임의 전력과 비교하는 단계를 더 포함한다.

청구항 9에 제시된 음성 속도 변환 방법의 청구항 10에 제시된 음성 속도 변환 방법에서, 최대값과 최소값간의 차이가 소정의 값보다 작으면, 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정한다.

상기의 목적을 달성하기 위해, 입력 데이터를 블록 데이터로 분리하여 블록 데이터를 생성하고, 각 블록 데이터에 기초한 접속 데이터를 생성하는 분리된 처리/접속 데이터 생성 수단; 및 상기 분리된 처리/접속 데이터 생성 수단에 의해 생성된 각 블록 데이터와 입력인 요망되는 음성 속도에 기초한 접속 데이터의 접속 순서를 결정하고 각 블록 데이터와 접속 데이터를 접속하여 출력 데이터를 생성하는 접속 처리 수단을 포함하는 것을 특징으로 하며, 상기 접속 처리 수단은 어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 입력 데이터에 관하여 확장 시간 내에 출력 데이터의 확장 시간을 어떤 시간 주기에 의해서 줄임을 특징으로 하는 음성 속도 변환 장치가 청구항 11에 제시된다.

청구항 11에 제시된 음성 속도 변환 장치에 있어서, 상기 구성에 따르면, 분리된 처리/접속 데이터 생성 수단은 입력 데이터를 블록 데이터로 분리하여 블록 데이터를 생성하고, 각 블록 데이터에 기초한 접속 데이터를 생성하며, 접속 처리 수단은 상기 분리된 처리/접속 데이터 생성 수단에 의해 생성된 각 블록 데이터와 입력인 요망되는 음성 속도에 기초한 접속 데이터의 접속 순서를 결정하고 각 블록 데이터와 접속 데이터를 접속하여 출력 데이터를 생성하며; 상기 접속 처리 수단은 어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 입력 데이터에 관하여 확장 시간 내에 출력 데이터의 확장 시간을 어떤 시간 주기에 의해서 줄인다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 11에 제시된 음성 속도 변환 장치의 청구항 12에 제시된 음성 속도 변환 장치에서, 상기 접속 처리 수단은, 입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 합성 과정을 실행하며, 그리고 음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보를 보관한다.

청구항 12에 제시된 음성 속도 변환 장치에 있어서, 상기 구성에 따르면, 상기 접속 처리 수단은, 입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 합성 과정을 실행하며, 그리고 음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보를 보관한다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 11에 제시된 음성 속도 변환 장치의 청구항 13에 제시된 음성 속도 변환 장치에서, 상기 접속 처리 수단은, 음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 비 음성 구간의 잔류 비율을 적응적으로 바꾼다.

청구항 13에 제시된 음성 속도 변환 장치에 있어서, 상기 구성에 따르면, 상기 접속 처리 수단은, 음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 비 음성 구간의 잔류 비율을 적응적으로 바꾼다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 11에 제시된 음성 속도 변환 장치의 청구항 14에 제시된 음성 속도 변환 장치에서, 상기 접속 처리 수단은, 제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 프리셋 시간 구간에서 확장의 양을 측정하며, 그리고 시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수를 바꾼다.

청구항 13에 제시된 음성 속도 변환 장치에 있어서, 상기 구성에 따르면, 상기 접속 처리 수단은, 제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터링 하면서 프리셋 시간 구간에서 확장의 양을 측정하며, 그리고 시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수를 바꾼다. 그러므로 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라서 음성 속도 변환 인수와 비 음성 구간이 적응적으로 제어될 수 있으며, 그리고 또한 음성 속도 변환을 위해 기대되는 효과가 실제로 전달되는 시간 범위이내에 안정적으로 달성될 수 있다.

청구항 11에 제시된 음성 속도 변환 장치의 청구항 15에 제시된 음성 속도 변환 장치에서, 소정의 시간 구간에서 소정의 프레임 폭의 단위로 입력 신호 데이터의 프레임 전력을 계산하고, 지나간 소정의 시간 구간 내에서 프레임 전력의 최대값과 최소값을 보관하며, 보관된 최대값과 그 최대값과 최소값의 차이에 따라 변하는 전력의 임계값을 결정하고 그리고 현재의 프레임이 음성 구간에 속하는가 혹은 비 음성 구간에 속하는 가를 결정하기 위해 임계값을 현재 프레임의 전력과 비교하는 분석 처리 수단을 더 포함한다.

청구항 15에 제시된 음성 속도 변환 장치의 청구항 16에 제시된 음성 속도 변환 장치에서, 최대값과 최소값간의 차이가 소정의 값보다 작으면, 상기 분석 처리 수단은 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정한다.

본 발명은 첨부된 도면을 참조하여 이하에서 상세히 설명될 것이다.

도 1에 도시된 음성 속도 변환 장치는 입력단(1), A/D 변환부(2), 분석 프로세서(3), 블록 데이터 분리부(4), 블록 데이터 저장부(5), 접속 데이터 생성부(6), 접속 데이터 저장부(7), 접속 순서 생성부(8), 음성 데이터 접속부(9), D/A 변환부(10) 및 출력단(11)을 포함한다.

음성 데이터의 속성에 기초하여 말하는 사람의 입력 음성 데이터에 분석 과정을 가하고 분석된 정보에 따른 요망되는 함수를 사용하여 음성 속도가 변환된 음성 데이터가 합성될 때, 입력 음성 데이터 길이(입력 데이터 길이), 그런 데이터의 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 음성 데이터의 데이터 길이(출력 데이터 길이)를 비교하며, 불일치가 없도록 이러한 과정을 실행함으로 해서, 음성 속도 변환 장치는 크기 인수에서의 변화에 반해서 음성 정보를 빠뜨리는 것을 없앨 수 있으며, 그리고 매 순간 변하는 본래의 음성과 변환된 음성간의 시간 차이를 모니터할 수 있다. 그리고, 음성 속도 변환 장치는 음성 속도 변환으로 인한 본래의 음성으로부터의 시간 차이를 크기 인수를 적응적으로 바꿈으로 해서, 예를 들면, 시간 차이가 작으면 음성 속도 변환 인수를 일시적으로 증가시키고 반대로 시간 차이가 크면 음성 속도 변환 인수를 일시적으로 감소시킴으로서, 그리고 더 나아가 음성 속도 변환 인수, 확장의 양 등에 기초하여 비 음성 구간의 잔류 비율을 적응적으로 바꿈으로써, 적응적으로 없앨 수 있다.

A/D 변환부(2)는 입력단(1)으로의 입력인 음성 신호를, 예를 들면 마이크로폰, 텔레비전, 라디오 등의 비디오 장치, 오디오 장치 등의 아날로그 음성 출력 단말의 출력인 음성 신호를 소정의 샘플링 비율(예를 들면, 32 kHz)로 A/D 변환을 실행하고, 그 결과인 음성 데이터를 FIFO 메모리에서 버퍼링하면서 그러한 음성 데이터를 너무 많지도 않게 너무 적지도 않게 분석 프로세서(3)와 블록 데이터 분리부(4)에 공급한다.

분석 프로세서(3)는 A/D 변환부(2)의 출력인 음성 데이터를 분석하여 음성 구간들과 비 음성 구간들을 추출하고, 이러한 구간들에 기초하여 블록 데이터 분리부(4)에서 실행되는 음성 데이터를 분리하는 과정을 위해 필요한 각각의 시간 길이들을 결정하는 분리 정보를 생성하여, 그런 분리 정보를 블록 데이터 분리부(4)에 공급한다.

이제, 본 발명에 따른 음성 구간 검출 방법 및 그 장치의 실시예들이 이하에서 설명될 것이다.

본 발명에 따른 음성 구간 검출 방법 및 그 장치에서, 입력 신호의 음성의 수준 변화량은 직전의 입력인 전력의 최대값에 영향을 받고 배경 소리의 수준 변화량은 입력 신호의 전력이 지표로서 채택되면 직전의 입력인 전력의 최소값에 영향을 받는다는 사실 때문에, 직전의 입력인 전력의 최대값에서 소정의 값을 빼서 얻어진 값이 기준 임계값으로 설정되고, 직전의 입력인 전력의 최대값에서 최소값을 빼서 얻어진 값이 감소할 때에(S/N이 감소될 때), 이 기준 임계값을 증가시키기 위해 수정이 가해지며, 음성/비 음성 구별을 위한 임계값을 결정하는 곳에는 소음들은 거의 존재하지 않는다.

그러면, 음성 구간 검출 방법 및 그 장치는 소정의 시간 폭을 가진 프레임 단위로 소정의 시간 구간에서 입력 음성 데이터의 전력을 계산하고, 이전의 소정의 시간 구간에서의 전력의 최대값과 최소값을 보관하기 위해 입력 음성과 배경 소리의 각 전력들의 변화에 계속적으로 응답하면서, 최대값과 그 최대값과 최소값의 차이에 따라 변화되는 전력을 위한 임계값을 이용하여 음성 구간과 비 음성 구간인지를 각 프레임마다 구별한다.

이하에서 도면들을 참조하여 구체적으로 설명 될 것이다.

도 2는 음성 구간 검출 장치를 도시한 블록 다이아그램이다.

도 2에 도시된 음성 구간 검출기(31)는 소정의 시간 구간에서 소정의 프레임 폭으로 디지털화된 입력 신호 데이터의 전력을 계산하는 전력 계산부(32), 이전의 소정의 시간 주기이내에서의 프레임 전력의 최대값을 보관하는 순간 전력 최대값 래치(33), 이전의 소정의 시간 주기이내에서의 프레임 전력의 최소값을 보관하는 순간 전력 최소값 래치(34), 최대값과 순간 전력 최대값 래치(33)에 보관된 최대값과 순간 전력 최소값 래치(34)에 보관된 최소값의 차이 양쪽에 따라 변화되는 전력의 임계값을 결정하는 전력 임계값 결정부(35) 및 전력 임계값 결정부(35)에 의해 결정된 임계값을 현재 프레임의 전력과 비교하여, 음성이 음성 구간에 혹은 비 음성 구간에 속하는 가를 구별하는 구별부(36)를 포함한다.

음성 구간 검출기(31)는 소정의 시간 폭을 가진 프레임 단위로 소정의 시간 구간에서 입력 신호 데이터에 대한 전력을 계산하고, 이전의 소정의 시간 구간이내에서의 전력의 최대값과 최소값을 보관하기 위해 입력 음성과 배경 소리의 각 전력들의 변화에 계속적으로 응답하면서, 최대값과 그 최대값과 최소값의 차이에 따라 변화되는 전력을 위한 임계값을 이용하여 음성 구간과 비 음성 구간인지를 각 프레임마다 구별한다.

전력 계산부(32)는, 예를 들면, 20 ms의 프레임 폭에 걸쳐 5ms의 시간 주기로 신호의 제곱이나 제곱 평균값의 합을 계산하고, 그 시간의 프레임 전력을 값을 로그로, 다시 말하면 데시벨로 표현하면서, "P"라고 설정하며, 이 프레임 전력 "P"를 순간 전력 최대값 래치(33), 순간 전력 최소값 래치(34) 및 구별부(36)에 공급한다.

순간 전력 최대값 래치(33)는 이전의 소정의 시간 주기내에서의(예를 들어 6초) 프레임 전력 "P"의 최대값을 보관하도록 설계되고, 전력 임계값 결정부(35)에 보관된 값 "P_upper"를 항상 공급한다. 그러나, "P > P_upper"를 만족하는 프레임 전력 "P"가 전력 계산부(32)로부터 공급될 때에는, 최대값 "P_upper"가 즉각 갱신된다.

순간 전력 최소값 래치(34)는 이전의 소정의 시간 주기 내에서의(예를 들어 4초) 프레임 전력 "P"의 최소값을 보관하도록 설계되고, 전력 임계값 결정부(35)에 보관된 값 "P_lower"를 항상 공급한다. 그러나, "P < P_lower"를 만족하는 프레임 전력 "P"가 전력 계산부(32)로부터 공급될 때에는, 최소값 "P_lower"가 즉각 갱신된다.

전력 임계값 결정부(35)는 순간 전력 최대값 래치(33)에 보관된 최대값 "P_upper"와 순간 전력 최대값 래치(33)에 보관된 최소값 "P_lower"를 사용하여 다음의 수학식들에 따른 계산을 실행하여 전력의 임계값 "P_thr"을 결정하며, 구별부(36)에 그 임계값 "P_thr"를 공급한다.

P_upper- P_lower≥ 60 [dB]이면,

P_thr= P_upper- 35

P_upper- P_lower< 60 [dB]이면,

P_thr= P_upper- 35 + 35×{(P_upper- P_lower)/60}

이 경우, 배경 소리의 수준이 음성의 수준에 근접할 때에 본 발명의 장치의 오작동을 방지하기 위해 P_thr의 위쪽 한계값은 P_thr= P_upper- 13 으로 설정되어야 한다. 또한, 위에 언급한 소음들이 거의 존재하지 않는 때에는 위의 수학식들에서의 상수 35는 기준 임계값에 일치된다.

구별부(36)는 전력 계산부(32)로부터 공급된 매 프레임의 전력 "P"를 전력 임계값 결정부(35)에서 공급된 임계값 "P_thr"와 비교하며, "P > P_thr"이 만족되면 그 프레임은 음성 구간에 속한 것이고 "P ≤ P_thr"이 만족되면 그 프레임은 그 프레임은 비 음성 구간에 속하는 것으로 매 프레임을 판단하며, 이러한 결정 결과에 기초한 음성/비 음성 구별 신호를 출력한다.

따라서, 도 3에서 도시된 것과 같이, 입력 신호 데이터의 값이 바뀌는 상황에서, 전력 계산부(32)의 출력인 전력 "P"로부터 순간 전력 최대값 래치(33)와 순간 전력 최소값 래치(34)에 의해 최대값 "P_upper"와 최소값 "P_lower"가 각각 래치될 수 있으며, 최대값 "P_upper"와 최소값 "P_lower"에 기초하여 임계값 "P_thr"이 결정되고, 이 임계값 "P_thr"에 기초하여 그 프레임들이 각각 음성 구간인가 혹은 비 음성 구간에 속하는 가 하는 것이 결정된다.

이러한 방법에 의해, 본 실시예에서는, 입력 신호 데이터의 전력이 소정의 시간 폭을 가진 프레임 단위로 소정의 시간 구간에서 계산되고, 이전의 소정의 시간 구간이내에서의 전력의 최대값과 최소값을 보관하기 위해 입력 음성과 배경 소리의 각 전력들의 변화에 계속적으로 응답하면서, 최대값과 그 최대값과 최소값의 차이에 따라 변화되는 전력을 위한 임계값을 이용하여 음성 구간과 비 음성 구간이 구별된다. 그러므로, 방송 프로그램, 녹음 테이프, 혹은 일상의 소음들이나 배경 소리와 더불어 전달된 음성에 관해서, 음성 구간과 비 음성 구간이 프레임마다 정확하게 구별될 수 있다.

이러한 실시예에서는, 배경 소리의 수준이 이전의 소정의 시간 주기 내에서의 순간 전력의 최소값에 기초하여 판단되므로, 배경 소리의 수준이 방송 프로그램 등에서 매 순간 변화되고 동시에 음성이 계속하여 전달되더라도 입력 신호의 음성 구간과 비 음성 구간이 구별될 수 있다.

결과적으로,

(a) 음성을 처리함으로 해서 입력 신호에서의 목소리의 높이와 음성의 속도가 바뀌는 경우,

(b) 입력 신호의 음성의 의미가 기계적으로 인식되는 경우,

(c) 입력 신호의 음성이 전송 혹은 녹음 등으로 부호화 되는 경우에, 처리된 소리 질의 향상, 음성 인식률의 향상, 부호화 효율의 향상 및 디코드된 음성의 질적인 향상이 이루어진다.

특성 매개 변수로서 상대적으로 간단히 유도될 수 있는 전력만을 채택했기 때문에, 계산 시간이 짧아지고 또한 전반적인 장치의 구성이 비용을 줄이기 위해 단순해질 수 있다. 덧붙여, 음성 처리는 실시간으로 처리될 수 있다.

다음으로, 본 발명의 음성 속도 변환 방법에서의, 처리과정들이 다음에 더 계속된다.

음성이 성대의 떨림을 가진 음성 있는 소리인가 혹은 성대의 떨림을 가지지 않은 음성없는 소리인가 하는 판단은 전력이 소정의 임계값 P_thr을 초과하는 구간, 즉 음성 구간에 적용된다. 전력의 크기뿐만이 아니라 제로 교차 분석과 자동 상관 분석 등도 이 판단에 적용될 수 있다.

블록의 시간 길이가 음성 데이터를 분석하기 위해 결정될 때에, 음성 구간(음성있는 소리 구간, 음성없는 소리 구간)과 비 음성 구간에 소정의 자동 상관 분석을 적용하여 주기성이 검출되고, 그러면 블록 길이들은 이 주기성에 기초하여 결정된다. 그러면, 성대의 떨림 주기인 피치(pitch) 주기는 음성있는 소리 구간으로부터 탐지되고, 그러면 각 피치 주기들이 각 블록 길이들에 일치하도록 음성있는 소리 구간은 분리된다. 그때에, 음성있는 소리 구간의 피치 주기가 약 1.25 ms에서 28.0 ms의 넓은 범위에 걸쳐 분포되어 있으므로, 상이한 윈도우 폭들, 혹은 비슷한 것을 사용하여 자동 상관 분석을 실행함으로 해서 가능한 정확한 피치 주기들이 검출된다. 음성있는 소리 구간의 블록 길이로서 피치 주기가 사용되는 이유는 블록 단위의 반복 때문에 생기는 음성의 높이의 변화를 막기 위해서이다. 음성없는 소리 구간과 비 음성 구간에 있어서, 5 ms 이내의 주기성을 검출함으로해서 블록 길이가 검출된다.

그러면, 블록 데이터 분리부(4)는 분석 프로세서(3)에 의해 결정된 블록 길이에 따라 A/D 변환부(2)로부터의 음성 데이터 출력을 분리하며, 이 분리 과정에 의해 얻어진 음성 데이터를 블록 단위로 그리고 블록 길이를 블록 데이터 저장부(5)에 공급한다. 블록 데이터 분리부(4)는 분리 과정에 의해 얻어진 음성 데이터의 양 끝부분들을, 즉 시작부 다음의 소정의 시간 길이(예를 들어 2 ms) 그리고 끝 부분 전의 소정의 시간 길이(예를 들어 2 ms)를 블록 단위로 접속 데이터 생성부(6)에 공급한다.

블록 데이터 저장부(5)는 블록 데이터 분리부(4)로부터 블록 단위로 공급받은 음성 데이터와 블록 길이를 원형 버퍼를 이용하여 임시로 저장한다. 블록 데이터 저장부(5)는, 경우에 따라, 블록 단위로 임시로 저장된 음성 데이터를 음성 데이터 생성부(9)에 공급하고 임시로 저장된 블록 길이들은 접속 순서 생성부(8)에 공급한다.

접속 데이터 생성부(6)는 이전 블록의 끝 부분, 해당 블록의 시작 부분 그리고 다음 블록의 시작 부분의 음성 데이터에, 도 4에 보이는 것과 같이, 매 블록마다 윈도우들을 인가하며, 이전 블록의 끝 부분과 해당 블록의 끝 부분을 중첩하여 더하고 해당 블록의 시작 부분과 다음 블록의 시작 부분을 중첩하여 더하는 것을 실행하고, 그들을 접속함으로 해서 각 블록마다 접속 데이터를 생성하며, 접속 데이터를 접속 데이터 저장부(7)에 공급한다.

접속 데이터 저장부(7)는 접속 데이터 생성부(6)로부터 공급된 각 블록들의 접속 데이터를 원형 버퍼를 이용하여 임시로 저장하며, 만약 필요하다면, 임시로 저장된 그 접속 데이터를 음성 데이터 접속부(9)에 공급한다.

접속 순서 생성부(8)는 듣는 사람에 의해 설정된 요망되는 음성 속도를 얻기 위해 음성 데이터의 접속 순서를 블록 및 접속 데이터 단위로 생성한다. 이런 경우에, 듣는 사람은 인터페이스로서 디지털 볼륨을 사용하여 각 속성들(음성있는 구간, 음성 없는 구간 및 비 음성 구간)을 위한 시간대에서의 확장 인수를 설정할 수 있다. 또한, 이 값은 쓰기 가능한 메모리에 저장된다. 그런 값이 고정된 확장 인수로 처리되는 방법(단일 확장 모드)과 그러한 설정 인수를 목표로 하면서 각 음성 속성들을 전체적으로 그리고 적응적으로 제어함으로써 제한된 시간 범위 이내에서 음성 속도 변환 효과가 얻어질 수 있는 방법(시간 확장 흡수 모드) 중의 하나를, 소정의 시간에 불일치를 구성하지 않으면서, 선택함으로써 이 값이 정해지기도 한다.

접속 순서 생성부(8)에 따라서, 메모리에 설정된 확장 인수를 사용해서 실제로 음성 합성이 수행될 때, 입력 음성 데이터 길이와 동시의 출력 음성 데이터 길이 및 합성되는 음성 데이터 길이 사이의 시간 관계를, 실시간에, 파악함으로 해서 본래 음성이 전달된 시간과 변환된 음성의 출력시간 사이의 시간 차이는 항상 모니터링 될 수 있으며, 그래서 이런 정보를 피드백함으로 해서 그 시간 차이는 일정한 길이 이내에서 자동적으로 억제될 수 있다. 동시에, 어떤 타이밍에 어떤 값으로 바뀌는 크기 인수를 이용함으로써 시간대에서의 불일치(예를 들면, 출력 음성 데이터 길이가 입력 음성 데이터 길이보다 짧게 설정되어야 한다는 요청)가 일어날지 혹은 일어나지 않을지가 조사될 수 있으며, 그리하여 합성에 있어서 음성 정보를 빠뜨리는 것이 방지될 수 있다.

다음으로, 접속 순서 생성부(8)에서의 처리가 이하에서 상세히 설명될 것이다. 음성의 크기 인수가 어떤 함수에 의해 설정되었을 때, 블록 데이터 분리부(4)에 의해 특정된 처리 단위의 음성 정보 길이(입력 데이터 길이)가 블록 데이터 저장부(5)로부터 공급된 각 블록 길이들에 기초하여 연속적으로 계산되고, 입력 데이터 길이에 듣는 사람에 의해 설정된 크기 인수를 곱해서 유도된 길이가 목표 데이터 길이로 설정된다. 음성 데이터 접속부(9)는 이 목표 데이터 길이에 일치하도록 음성 데이터에 접속하고, 실제 출력인 출력 음성 데이터의 길이인 음성 데이터 길이(=출력 데이터 길이)를 접속 순서 생성부(8)에 연속해서 피드백시킨다.

그러면, 도 5에서 도시된 것처럼, 접속 순서 생성부(8)내에 제공된 I/O 데이터 길이 모니터/비교부(20)에 의해 생성된 목표 길이가 음성 데이터 접속부(9)에 접속 순서 정보로서 보내진다. I/O 데이터 길이 모니터/비교부(20)는 입력 데이터 길이를 모니터링하기 위한 입력 데이터 길이 모니터(21); 입력 데이터 길이 모니터(21)에 의해 얻어진 입력 데이터 길이와, 예를 들면, 듣는 사람(혹은 장치에 내장된 기능 메모리)에 의해 주어진 값에 의해 영향을 받는 음성 속도 인수 변환에 의해 생성된 목표 길이(목표 데이터 길이)를 계산하고 또한 이 목표 데이터 길이를 자동적으로 수정하기 위한 출력 목표 길이 계산부(22); 출력 목표 길이 계산부(22)에 의해 얻어진 목표 데이터 길이를 입력 데이터 길이 모니터(21)에 의해 얻어진 입력 데이터 길이와 비교하고, 만약 목표 데이터 길이가 입력 데이터 길이보다 짧으면 입력 데이터 길이에 일치하도록 목표 데이터 길이를 설정하고 만약 목표 데이터 길이가 입력 데이터 길이보다 길면 목표 데이터 길이를 그대로 출력하는 비교부(23); 출력 데이터 길이를 모니터하기 위해 음성 데이터 접속부(9)로부터 공급된 출력 데이터에 관련된 이미 접속된 정보를 수신하는 출력 데이터 길이 모니터(24); 및 출력 데이터 길이 모니터(24)에 얻어진 출력 데이터 길이를 비교부(23)에 의해 얻어진 목표 데이터 길이와 비교하며, 만약 목표 데이터 길이가 출력 데이터 길이보다 짧으면 출력 데이터 길이에 일치하도록 목표 데이터 길이를 설정하고 만약 목표 데이터 길이가 출력 데이터 길이보다 길면 목표 데이터 길이를 그대로 출력하는 비교부(25)를 포함한다. 그러면, 후에 설명될 것처럼, I/O 데이터 길이 모니터/비교부(20)는 소정의 시간 구간에서 음성의 각 속성을 위해 저장부에 설정된 값들을 읽어내고, 모든 읽혀진 속성을 위한 확장 인수들을 얻기 위해 목표 데이터 길이를 계산하며, 출력 데이터 길이 모니터(24)에 의해 얻어진 목표 데이터 길이와 출력 데이터 길이에 기초하여 음성의 크기 정보가 덧붙여져 있는 접속 정보를 각 순간마다 생성하고, 도 6에서 도시한 것처럼, 각 블록마다 음성 데이터와 접속 데이터를 접속한다.

첫째로, 입력 데이터 길이와 목표 데이터의 길이가 연속하여 서로 비교되며, 입력 데이터 길이가 목표 데이터 길이보다 길다고 결정되면 목표 데이터 길이는 입력 데이터 길이와 일치하도록 수정되며, 입력 데이터 길이가 목표 데이터 길이보다 작다고 결정되면 목표 데이터 길이를 바꾸는 것이 중지된다.

그러면, 목표 데이터의 길이와 실제 출력 데이터 길이가 연속하여 서로 비교되며, 출력 데이터 길이가 목표 데이터 길이보다 길다고 결정되면 목표 데이터 길이는 출력 데이터 길이와 일치하도록 수정되며, 출력 데이터 길이가 목표 데이터 길이보다 작다고 결정되면 목표 데이터 길이를 바꾸는 것이 중지된다.

확장 정보를 가리키는 접속 명령들, 접속 정보 등은 이런 비교 과정들에 의해 얻어진 목표 데이터 길이들과 일치하도록 생성되고, 음성 데이터 접속부(9)에 공급된다.

그러면, 접속 순서 생성부(8)의 음성 속도 변환 인수를 위한 제어 환경들이 이하에서 상세히 설명될 것이다. 예를 들어, 방송에서 시간 프레임 같은 제한된 시간에 음성 속도 변환이 요구되는 경우에, 입력 데이터 길이와 출력 데이터 길이들은 이전에 임의로 설정된 시간 구간에서 양 데이터간의 시간 차이를 측정하기 위해 연속적으로 모니터 되며, 그러면 지연의 양이 적으면 음성 속도 변환 인수가 일시적으로 증가되나 지연의 양이 많으면 음성 속도 변환 인수가 일시적으로 감소되도록 크기 인수를 적응적으로 바꾸는 그러한 함수가 설정될 것이다.

예를 들어, 본 실시예에서, 200 ms 가 넘는 비 음성 구간이 나타난 시간 후에 첫 번째 음성있는 소리가 나타나는 시작 시간을 "t=0"이라고 설정하면, 다음의 수학식 3에 주어지는 한 코사인 함수가 "0≤t≤T"의 범위에서 나타나는 음성있는 소리의 시작 시간에 대응하는 인수를 제공할 수 있는 함수로서 채택될 것이다.

f(t) = rs + 0.5(rs - re)(cosπt/T + 1.0)

이때에 t: 0 ≤ t ≤ T

rs: 듣는 사람에 의한 외부 입력값 (1.0≤rs≤1.6)

re: 초기값으로 주어진 값 (예를 들면 re = 1.0) 이다.

그러면, 입력 데이터 길이와 출력 데이터 길이간의 시간 차이는 어떤 일정한 시간 구간에서, 예를 들면 매 일초마다, 계산되고, 그러면 그 시간에서의 시간 차이에 따라 초기값 re가 "1.0"에서 "0.05" 단위로 증가되고 거꾸로 약 "0.95"로 감소되는 그런 과정이 실행된다. 그러나, 200 ms 가 넘는 비 음성 구간이 주기 T의 시간을 초과하는 시점에 아직 나타나지 않는 경우에, 예를 들어, 1.0의 인수가 다음의 음성있는 소리 구간에 적용된다. 이 경우, 피치, 전력 등의 변수를 지표로 사용하여 새로운 인수가 주어질 수 있다.

또, 음성 속도 변환 인수, 확장의 양 등을 고려하여 비 음성 구간의 잔류 비율이 적응적으로 바뀔 수 있다. 이것은 함수로서 임의적으로 설정될 수 있다.

그러면, 비 음성 구간의 압축 허용 한도(축소되지 않고 저장되어야 하는 최소의 구간이 얼마나 긴가를 가리키는 값)가 외부 입력값 rs에 대응하여 설정된다. 이 한도는 위의 함수에 의해 표현될 수 있으나, 예를 들면, 다음에 설명되는 것처럼 불연속적으로 설정될 수 있다.

rs = 1.0 일 때, 이 한도는 300 ms까지 감소될 수 있다.

rs = 1.1 일 때, 이 한도는 250 ms까지 감소될 수 있다.

rs = 1.2 일 때, 이 한도는 230 ms까지 감소될 수 있다.

rs = 1.3 일 때, 이 한도는 200 ms까지 감소될 수 있다.

rs = 1.4 일 때, 이 한도는 200 ms까지 감소될 수 있다.

rs = 1.5 일 때, 이 한도는 150 ms까지 감소될 수 있다.

rs = 1.6 일 때, 이 한도는 100 ms까지 감소될 수 있다.

덧붙여, 비 음성 구간의 감소 시스템은 원형 버퍼의 어떤 주소에 포인터를 옮김으로 해서 구현될 수 있다. 본 실시예에서는, 해당 비 음성 구간 직후에 음성있는 소리의 시작 부분에 포인터를 옮김으로 해서, 음성 정보를 빠뜨리는 것이 예방될 수 있다.

게다가, 음성 데이터 접속부(9)는 접속 순서 생성부(8)에 의해 결정된 접속 순서에 따라 블록 데이터 저장부(5)로부터 음성 데이터를 블록 단위로 읽으며, 지정된 블록의 음성 데이터를 확장하고, 접속 데이터 저장부(7)로부터 접속 데이터를 읽어내고 D/A 변환부(10)에 제공된 FIFO 메모리의 용량에 넘치지도 부족하지도 않도록 접속 과정을 억제하면서 음성 데이터와 접속 데이터를 접속하고, D/A 변환부(10)에 공급하기 위한 출력 음성 데이터를 생성한다.

D/A 변환부(10)는 FIFO 메모리를 이용해서 음성 데이터 접속부(9)에서 공급된 출력 음성 데이터를 버퍼링하면서 소정의 샘플링 비율(예를 들면, 32 kHz)로 그 출력 음성 데이터를 D/A 변환하며, 출력 음성 신호를 생성하고, 출력단(11)으로부터 그 신호를 출력한다.

이러한 방법으로, 본 실시예에서는, 음성 데이터의 속성들에 기초하여 말하는 사람으로부터의 입력 음성 데이터에 분석 과정을 적용하고 분석된 정보에 따라 요망되는 함수를 사용하여 음성 속도 변환된 음성 데이터가 합성되면, 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱해서 계산된 목표 데이터 길이 및 실제 출력 음성 데이터 길이를 비교하는데 불일치가 없도록 이러한 과정들이 실행될 수 있기 때문에 음성 속도 변환 장치는 확장/크기 인수들의 변화에 반하여 음성 정보를 빠뜨리는 것을 제거할 수 있다. 그리고, 음성 속도 변환 장치는 매 순간 변하는 시간 차이를 모니터링하고 시간 차이가 작으면 음성 속도 변환 인수를 일시적으로 증가시키고 시간 차이가 크면 음성 속도 변환 인수를 일시적으로 감소시키고, 또 음성 속도 변환 인수, 확장의 양 등에 기초하여 비 음성 구간의 잔류 비율을 적응적으로 바꿈으로 해서 본래 음성과 변환된 음성간의 시간 차이를 적응적으로 제거할 수 있다. 그러므로, 음성 속도 변환 인수와 비 음성 구간은 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라 적응적으로 제어될 수 있으며, 그러므로 음성 속도 변환을 위한 기대되는 효과는 실제로 전달되는 시간 범위 이내에서 안정적으로 얻어질 수 있다.

결과적으로, 각 말하는 사람을 위한 가장 적합한 음성 속도 변화 효과는 말하는 사람이 자주 바뀌는 방송 프로그램 등에 자동적으로 제공된다. 덧붙여, 본 발명은 빠르게 말하는 것을 듣기 힘든 나이든 사람과 시각적으로 혹은 청각적인 장애가 있는 사람들이 실시간의 특성을 필요로 하는 비상 뉴스와 텔레비전 같은 시각적인 매체에서의 말을 극히 간단한 처리에 의해 시간의 지연 없이 안정적으로 그리고 천천히 들을 수 있게 한다.

위에서 설명한 것처럼, 본 발명의 음성 속도 변환 방법 및 그 장치에 따르면, 음성 속도 변환 인수와 비 음성 구간은 사용자에 의해 일단 여러 단계의 목표로 채택된 변환 인수를 단지 설정함으로써 설정 환경들에 따라 적응적으로 제어될 수 있으며, 그러므로 음성 속도 변환을 위한 기대되는 효과는 실제로 전달되는 시간 범위 이내에서 안정적으로 얻어질 수 있다.

또한, 본 발명의 음성 구간 검출 방법 및 그 장치에 따르면, 특성 매개 변수로서 상대적으로 간단히 유도될 수 있는 전력만을 채택함으로 해서, 계산 시간을 짧게 하고 또한 비용을 줄이면서, 입력 음성과 배경 소리의 각각의 수준들의 변화에 연속적으로 응답할 수 있도록 실시간에 음성 처리를 실행함으로 해서 음성 구간과 비 음성 구간이 구별될 수 있다.

Claims

소정의 프레임 폭의 단위로 소정의 시간 구간에서 입력 신호 데이터의 프레임 전력을 계산하며, 이전의 소정의 시간 주기이내에서의 프레임 전력의 최대값과 최소값을 보관하는 단계;

보관된 최대값과 그 최대값과 최소값의 차이에 따라 변화되는 전력의 임계값을 결정하는 단계; 및

현재의 프레임이 음성 구간 혹은 비 음성 구간에 속하는가 결정하기 위해 임계값과 현재 프레임의 전력을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
제 1항에 있어서,

최대값과 최소값간의 차이가 소정의 값보다 작으면, 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정됨을 특징으로 하는 음성 구간 검출 방법.
소정의 프레임 폭의 단위로 소정의 시간 구간에서 입력 신호 데이터의 프레임 전력을 계산하는 전력 계산부(32);

이전의 소정의 시간 주기 이내에서의 프레임 전력의 최대값을 보관하는 순간 전력 최대값 래치(33);

이전의 소정의 시간 주기 이내에서의 프레임 전력의 최소값을 보관하는 순간 전력 최소값 래치(34);

상기 순간 전력 최대값 래치에 보관된 최대값과 그 최대값과 상기 순간 전력 최소값 래치에 보관된 최소값과의 차이에 따라 변하는 전력의 임계값을 결정하는 전력 임계값 결정부(35); 및

현재 프레임이 음성 구간인가 혹은 비 음성 구간인가를 결정하기 위해 상기 전력 임계값 결정부에 의해 얻어진 임계값과 현재 프레임의 전력을 비교하는 구별부(36)를 포함하는 것을 특징으로 하는 음성 구간 검출 장치.
제 3항에 있어서,

최대값과 최소값간의 차이가 소정의 값보다 작으면, 상기 전력 임계값 결정부(35)는 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝다고 결정함을 특징으로 하는 음성 구간 검출 장치.
어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 입력 데이터에 대해 확장 시간 내에 출력 데이터의 확장 시간을 어떤 시간 주기에 의해서 줄이는 단계를 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 5항에 있어서,

입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터하면서 합성 과정을 실행하는 단계; 및

음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보를 보관하는 단계를 더 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 5항에 있어서,

음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 비 음성 구간의 잔류 비율을 적응적으로 바꾸는 단계를 더 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 5항에 있어서,

제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터 하면서 프리셋 시간 구간에서 확장의 양을 측정하는 단계; 및

시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수를 바꾸는 단계를 더 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 5항에 있어서, 음성 구간과 비 음성 구간이 구별되었을 때,

소정의 프레임 폭의 단위로 소정의 시간 구간에서 입력 신호 데이터의 프레임 전력을 계산하고, 지나간 소정의 시간 구간 내에서 프레임 전력의 최대값과 최소값을 보관하는 단계;

보관된 최대값과 그 최대값과 최소값의 차이에 따라 변하는 전력의 임계값을 결정하는 단계; 및

현재의 프레임이 음성 구간에 속하는가 혹은 비 음성 구간에 속하는 가를 결정하기 위해 임계값을 현재 프레임의 전력과 비교하는 단계를 더 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 9항에 있어서,

최대값과 최소값간의 차이가 소정의 값보다 작으면, 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정됨을 특징으로 하는 음성 속도 변환 방법.
입력 데이터를 블록 데이터로 분리하여 블록 데이터를 생성하고, 각 블록 데이터에 기초한 접속 데이터를 생성하는 분리된 처리/접속 데이터 생성 수단; 및

상기 분리된 처리/접속 데이터 생성 수단에 의해 생성된 각 블록 데이터와 입력인 요망되는 음성 속도에 기초한 접속 데이터의 접속 순서를 결정하고 각 블록 데이터와 접속 데이터를 접속하여 출력 데이터를 생성하는 접속 처리 수단을 포함하는 것을 특징으로 하며,

상기 접속 처리 수단은 어떤 시간이 변하는 비율로 입력 데이터를 확장/합성함에 의해 얻어진 출력 데이터에 비 음성 구간들이 나타나고 또한 비 음성 구간들의 연속되는 시간이 소정의 임계값을 초과할 때에 입력 데이터에 관하여 확장 시간 내에 출력 데이터의 확장 시간을 어떤 시간 주기에 의해서 줄임을 특징으로 하는 음성 속도 변환 장치.
제 11항에 있어서, 상기 접속 처리 수단은,

입력 데이터가 확장/수축되고 합성될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터 하면서 합성 과정을 실행하며, 그리고 음성 구간에서 음성 정보를 빠뜨리지 않기 위해 어떤 시간이 변하는 확장/크기 인수들에 반하여 음성 속도 변환에서 야기되는 확장의 정확한 시간 정보를 보관하는 것을 특징으로 하는 음성 속도 변환 장치.
제 11항에 있어서, 상기 접속 처리 수단은,

음성 속도 변환 인수, 확장의 크기 및 그와 비슷한 것에 따라서 음성 속도 변환에서 입력 데이터 길이로부터 확장의 양이 제거될 때에, 일정하게 지속되는 시간을 초과하는 비 음성 구간의 일부분을 감소시킴으로 해서 비 음성 구간의 잔류 비율을 적응적으로 바꾸는 것을 특징으로 하는 음성 속도 변환 장치.
제 11항에 있어서, 상기 접속 처리 수단은,

제한된 시간 범위 내에서 음성 속도 변환이 실행될 때에 불일치가 일어나지 않도록 입력 데이터 길이, 입력 데이터 길이에 어떤 크기 인수를 곱하여 계산된 목표 데이터 길이, 그리고 실제의 출력 데이터 길이를 연속해서 모니터 하면서 프리셋 시간 구간에서 확장의 양을 측정하며, 그리고 시간 차이의 양이 적으면 음성 속도 변환의 속도를 일시적으로 증가하고 시간 차이의 양이 크면 음성 속도 변환의 속도를 일시적으로 감소해서 측정된 결과에 따라 적응적으로 음성 속도 변환 인수를 바꾸는 것을 특징으로 하는 음성 속도 변환 장치.
제 11항에 있어서,

소정의 프레임 폭의 단위로 소정의 시간 구간에서 입력 신호 데이터의 프레임 전력을 계산하고, 지나간 소정의 시간 구간 내에서 프레임 전력의 최대값과 최소값을 보관하며, 보관된 최대값과 그 최대값과 최소값의 차이에 따라 변하는 전력의 임계값을 결정하고 그리고 현재의 프레임이 음성 구간에 속하는가 혹은 비 음성 구간에 속하는 가를 결정하기 위해 임계값을 현재 프레임의 전력과 비교하는 분석 처리 수단을 더 포함하는 것을 특징으로 하는 음성 속도 변환 장치.
제 15항에 있어서,

최대값과 최소값간의 차이가 소정의 값보다 작으면, 상기 분석 처리 수단은 최대값과 최소값간의 차이가 소정의 값보다 큰 경우보다는 임계값이 최대값에 가깝게 결정하는 것을 특징으로 하는 음성 속도 변환 장치.