KR20030011045A - 목소리 음성신호의 발성처리에 의한 친절기능의 전화기 - Google Patents

목소리 음성신호의 발성처리에 의한 친절기능의 전화기 Download PDF

Info

Publication number
KR20030011045A
KR20030011045A KR1020020082234A KR20020082234A KR20030011045A KR 20030011045 A KR20030011045 A KR 20030011045A KR 1020020082234 A KR1020020082234 A KR 1020020082234A KR 20020082234 A KR20020082234 A KR 20020082234A KR 20030011045 A KR20030011045 A KR 20030011045A
Authority
KR
South Korea
Prior art keywords
voice
telephone
party
function
button
Prior art date
Application number
KR1020020082234A
Other languages
English (en)
Inventor
배명진
Original Assignee
배명진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 배명진 filed Critical 배명진
Priority to KR1020020082234A priority Critical patent/KR20030011045A/ko
Publication of KR20030011045A publication Critical patent/KR20030011045A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/21Combinations with auxiliary equipment, e.g. with clocks or memoranda pads
    • H04M1/215Combinations with auxiliary equipment, e.g. with clocks or memoranda pads by non-intrusive coupling means, e.g. acoustic couplers
    • H04M1/2155Acoustic coupling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis

Abstract

본 발명은 실생활에서 통신용으로 아주 널리 사용되고 있는 전화기의 기능을 개선하는 방법에 관한 것이다. 상대방으로부터 걸려오는 전화의 목소리는 각양각색이다. 상대방이 보이지 않기 때문에 급한 목소리, 욕하는 소리, 사투리가 섞인 소리, 불명료한 목소리 등등으로 수신자의 감정을 불쾌하게 만든다. 이럴 때에 필요한 전화기가 바로 친절전화기인데, 수신자가 전화기에 부착된 친절-보턴(또는 특정 키-보턴)을 누르면 상대방의 목소리가 친절하면서 자세한 목소리로 천천히 들리도록 발명한 것이다.
친절전화기는 전화기를 통해 수신되는 상대방의 목소리 정보를 분석하여 상대방의 개성정보는 그대로 두고, 의미를 나타내는 정보는 늘려 줌으로서 마치 동영상에서 슬로우-모션을 구현하는 것처럼, 목소리의 슬로우-오디오 기능을 구현한 것이다.
친절전화기는 상대방이 빨리 말하거나 억양이 강한 사투리로 말을 할 때 수신자의 취향에 따라 친절전화기능을 선택할 수 있기 때문에 명료하고 깨끗한 소리로 상대방의 말을 청취할 수 있다. 또한 친절기능이 부가된 전화기는 보이지 않는 상대방에게 수신자가 듣는 속도를 측음을 통해 알려주기 때문에 천천히 발성하도록 유도하는 특성이 있다. 따라서 다급하고 불친절한 사회의 분위기를 차분하고 밝게 개선시키는 효과가 있다.
특히, 청각 장애인이나 노인층의 경우에는 청각 기능이 저하되어 평균 발성속도로 이야기를 진행하여도 잘 알아듣지 못하는 경우에도 친절전화기의 기능은 발성을 천천히 또렷하게 들려줌으로서 복지통신 분야에 필수적인 기능으로 활용될 수 있다. 또한 불특정 다수의 고객을 전화 통신으로 영접하는 관련 서비스업 종사자들은 고객의 다양한 목소리의 형태로 인해 스트레스를 많이 받게 된다. 이러한 경우에도 친절전화기능은 고객의 목소리를 친절하고 차분하게 만들어 주기 때문에 목소리 관련직업인들의 스트레스를 어느 정도 해소할 수 있다.
친절전화기는 기존의 전화기능에 친절기능을 첨가한 것이다. 전화기의 벨이 울려서 송수화기를 들면 상대방의 소리가 들리게 되고, 상대방의 소리가 급하거나 불명료하게 들린다면, 친절-보턴을 누르게 된다. 친절-보턴은 별도의 키-보턴으로 장착되었거나 또는 임의 숫자-보턴을 누르는 방법이다. 친절-보턴을 누르면 상대방의 목소리가 일례로 2배정도로 천천히 들리게 되어 말소리를 분명하고 또렷이 들을 수 있게 된다. 반면, 이때 친절-보턴을 한번더 누르게 되면 상대방 목소리의 발성속도로 다시 복귀된다. 대표도는 다음과 같다.

Description

목소리 음성신호의 발성처리에 의한 친절기능의 전화기{A Telephone with Gentle Function using Prosody Control of Voice Speech Signals}
본 발명은 전화망을 이용한 인터넷통화, 일반전화, 휴대폰 등에서 전화 통화하는 방법을 새로이 개선하는 것으로서 음성통신 기술분야 또는 오디오 신호처리 분야로 분류할 수 있다.
현재 사용되고 있는 기존의 전화망에 연결되는 전화기들은 1도와 같이 상대방에서 말하는 목소리를 그대로 수화기를 통해 전달해주고 있다. 이러한 방식은 상대방의 목소리에서 전달되어 오는 보이지 않는 성격이나 불친절함이 그대로 수신 측에 전달되어 수신자가 때로는 불쾌감이나 스트레스를 많이 느끼게 되는 단점이 있다. 본 발명은 이러한 단점을 개선하고자 한다.
본 발명은 전화기의 수화기에서 들리는 상대방의 목소리를 디지털 발성처리기술을 적용하여 천천히 친절하게 들리도록 하는 통화하는 방식을 새로이 제안하는 것이다. 사람의 목소리는 허파에서 나오는 공기가 성대에서 떨림으로서 진동 소리가 발생하게 되고, 이 떨림이 성도를 통해서 나올 때, 공명이 발생하면서 생성된다. 목소리 중에서 성대의 떨림 소리의 주기나 발성습관은 발성자의 개성을 나타내게 되고, 성도의 공명특성은 메시지의 의미를 전달하는 음운정보를 주로 나타내게 된다. 이처럼 메지지의 의미를 나타내는 성도의 공명특성을 시간축 상에서 반복하면서 강조시키게 되면, 목소리가 천천히 또렷하게 들리는 원리를 전화통화에 적용하도록 발명한 것이다.
도 1은 친절전화기의 원리
도 2는 친절한 목소리의 합성원리
도 3은 발성처리시스템의 구성
도 4는 친절전화기의 플로우 차트
[기본구성]
휴대폰이나 유선전화기와 같은 전화 단말기를 통해 우리가 말을 하게 되면, 음파신호가 디지털 처리기술로 압축되어, 전화중계기를 통해 상대방 전화기에 전달된다. 상대방 전화기에서는 디지털 신호의 압축을 풀고 음파로 변환하여 우리의 귀에 말을 전달해 주고 있다. 이처럼 대부분의 전화기에는 음성신호를 압축 또는 복원하는 고성능 컴퓨터 칩이 내장되어있었어, 문자서비스와 같은 다양한 서비스도 함께 제공하고 있다.
친절전화기는 도 1과 같이 기존의 전화기 기능(102)에 친절기능(104)을 첨가한 것이다. 전화기의 벨이 울려서 송수화기를 들면 상대방의 소리(107)가 들리게되고, 상대방의 소리가 급하거나 불명료하게 들린다면, 친절-보턴(101)을 누르게 된다. 친절-보턴은 별도의 키-보턴으로 장착되었거나 또는 임의 숫자-보턴을 누르는 방법이다. 친절-보턴을 누르면 상대방의 목소리가 일례로 2배정도로 천천히 들리도록 하여(108) 말소리를 분명하고 뚜렷이 들을 수 있게 된다. 반면, 이때 친절-보턴(101)을 한번 더 누르게 되면 상대방 목소리의 발성속도로 다시 복귀된다.
친절전화기는 도 2와 같이 기존 전화기에 내장된 컴퓨터 칩에서 목소리를 분석하여 발성자의 목소리특성을 그대로 유지하면서 발성시간이 길게 합성되도록 하는 첨단 처리기능을 추가한 것이다. 즉, 목소리는 성대의 떨림과 목구멍에서의 공명에 의해 소리가 발생하는데, 이러한 목소리의 생성원리를 이용하여 목소리의 특징은 그대로 두고(206) 말하는 의미 정보만을 뽑아서 반복하여(205) 합성하면(207), 천천히 들리면서 명료하고 친절한 목소리(208)로 바뀌게 된다. 친절전화기의 핵심기술은 사람의 목소리에서 말뜻을 나타내는 음운정보와 개성을 나타내는 운율정보를 자동으로 분류(202)하여 개성을 보존(206)하면서 동시에 음운정보를 지속(205)함으로써 목소리의 친절성(208)을 증대시켰다는 점이다.
[하드웨어 장치의 구성]
마이크로폰이나 전화라인 등으로부터 들어오는 아날로그 형태의 목소리 신호(300)를 입력 받아서 친절한 목소리로 발성 처리하는 장치는 도 3과 같다. 아날로그 형태로 입력된 목소리 신호파형(300)은 증폭기(301)에서 증폭된 다음에 엘리어징(aliasing)효과를 제거하기 위해 저역통과여파기(302)를 통과하고, 양자화(quantization) 및 부호화(coding)를 수행하는 아날로그-디지털 변환기(304)를 통과함으로서 선형펄스부호변조(PCM) 형태의 디지털 신호로 바뀌어서 범용 CPU나 디지털 신호처리기(DSP)에서 소프트웨어나 펌웨어에 의해 처리(304)된다.
신호처리 될 때는 이 컴퓨터 처리기(304)가 대내외에 설치된 주변장치(309)를 참고할 수도 있고, 또한 입력 디지털 신호나 처리 결과를 저장하기 위해 주변 메모리(305)를 참고할 수도 있다.
CPU에서 소프트웨어에 의해 발성변환 처리된 디지털 신호는 디지털-아날로그 변환기(308)를 통해 표본화된 아날로그 신호형태로 변환된다. 이 신호를 저역통과 여파기(307)에 통과시키면 양자화 잡음이 제거된 아날로그 신호가 되고, 적당히 증폭하면(306) 전화 수화기나 스피커 등을 통해서 들을 수 있는 아날로그 신호(310)가 된다.
[소프트웨어 처리과정]
친절전화기는 기존 전화기의 기능을 수행하는 CPU칩에 친절기능의 소프트웨어나 펌웨어를 추가한 것이다. 전화통화가 이루어 졌을 때에 친절버턴(또는 임의의 버턴)이 눌러졌는지를 파악하고, 눌러지지 않았다면 기존 전화기와 같이 목소리 통신(402)을 수행하게 된다. 친절버턴은 소프트웨어 토글스위치 형태로 구성되며 한번 누루면 켜지고, 다시 누루면 꺼지게 된다.
친절전화기능이 시작되면 아날로그-디지털 변환기(ADC)에서 입력된 데이터 표본(401)값이 한 프레임단위로 동시에 처리된다. 먼저 현재 프레임에 있는 데이터 값이 유성음 구간인지 아닌지를 파악하고, 유성음 구간이 아니면(404) 링버퍼의 점유율(Buffer Rate, BR)을 계산하게 된다 상대방의 목소리가 친절하게 들리도록 하기 위해서는 상대방의 실제 목소리 발성속도보다 천천히 들리게 해야 하는데, 처리된 데이터를 대기시키는데 필요한 메모리 버퍼를 링버퍼(410)라고 한다.
링버퍼의 점유율(BR)은 친절기능에서 처리된 데이터가 링버퍼에서 대기되는 시간비율을 나타내는데, 현 프레임이 비유성음구간이고 링버퍼에 대기하고 있는 시간이 정해진 시간(예 BT=1.5이상)을 넘어섰다면, 발성속도를 앞당기도록 발성의 지속시간 감축(408)을 수행하게 된다. 이렇게 함으로써 친절기능이 수행될 때 야기되는 발성시간 지연을 해소할 수 있게 된다. 즉, 유성음 구간에서는 친절하고 또렷하게 발성되도록 데이터를 천천히 출력하지만 비유성음 구간에서는 발성속도를 빠르게 하여 전체적인 시간지연을 해소하게 한 것이다.
현재의 프레임이 유성음 구간인지 비유성음 구간인지를 측정하는 방법(403)은 음성처리 교재(참고문헌)에 많이 제안되어져 있으며, 일례로 에너지 레벨을 측정하여 쉽게 파악할 수 있다. 즉, 현재 프레임의 평균 에너지가 정해진 문턱 값 이하라면 이 구간은 비유성음 구간이 된다.
현재의 프레임의 데이터가 유성음 구간이라면 이 데이터에 대해 친절기능 처리를 수행하게 된다. 친절기능은 이 데이터의 발성속도를 천천히 지속하기 위해 지속시간(예, 1.5~3.0배 정도)을 연장시킨다(406). 유성음 데이터의 지속시간 변경은 피치주기 단위로 수행하였고, 이때 피치주기를 정확히 검출해야 한다. 음성신호의 피치주기 검출법은 최근 40년간 수많은 방법들이 제안되어 있다(참고문헌). 일예로 피치검출은 자기상관함수법이 주로 사용되고 있으며, 인근 음성파형들 간의 상관관계를 계산하여 반복적인 파형의 주기를 검출하는 방법이 있다(참고문헌). 유성음 구간에서 피치주기가 검출되면, 피치주기 단위로 반복과정을 통해 발성지속시간을 조절한다.
또한 유성음 구간내에서 억양의 변화를 어느 정도로 제한(예, 1.5배 이내)하기 위해, 연속된 유성음 구간의 피치주기를 검출한 다음에 프레임당 변화도를 구하고, 변화가 크다면 피치 주기변경을 수행하여 목소리를 안정시키게 된다(407). 피치주기의 변경은 피치주기 검출이 잘 이루어진 다음에 이를 근거로 피치주기를 변경시키게 된다. 또한 피치주기를 변경하는 방법은 지금까지 많이 제안되어져 있다(참고문헌). 일예로 시간 영역에서 피치주기 단위로 음성파형을 넓게 분절한 다음에 변경된 피치주기 단위로 중첩시켜서 파형을 재구성하는 PSOLA(Pitch Synchronous Overwrap and Add) 피치변경법이 있다(참고문헌).
이렇게 처리된 데이터들은 파형의 진폭이 자연스럽지 못하고 부자연스럽게 되므로 이를 진폭의 변화가 자연스럽게 이어지도록 하는 에너지 진폭변화 조절(409)을 수행해야 한다. 일예로 에너지 진폭의 변경은 피치주기 단위로 처리하며, 한 피치주기의 평균 에너지 진폭을 곱함으로서 수행한다.
이렇게 처리 완료된 음성 데이터들은 링버퍼에 저장시키고(410), 저장된 순서에 따라서 디지털-아날로그 변환기(DAC)를 통해 음성 데이터 표본 단위로 수화기나 스피커폰을 통해 출력한다(411). 여기서 친절전화기의 기능은 실시간으로 처리된다. 즉, 아날로그-디지털 변환기(ADC)에서 한 프레임의 데이터를 받고(401)나서부터 그다음 프레임의 데이터를 받아올 때까지 친절전화기능의 처리(410)가 끝날 수 있도록 해야만 한다.
[참고문헌]
[1] 배명진, 이상효, 디지털 음성분석 , 동영출판사, 1998.
[2] 배명진, 디지털 음성합성 , 동영출판사, 1999.
[3] 배명진, 디지털 음성부호화 , 동영출판사, 2000.
[4] Rabiner and Schefer, Digital Signal Processing of Speech Signals , Prentice Hall, 1978.
본 발명은 기술적으로 볼 때 인간의 오감을 보조하는 기술의 하나이다. 누구나 나이가 들면 감각기능이 노화되어 점차 그 기능이 둔화되는데, 친절전화기는 이러한 감각기능을 보완해주는 복지기술의 실용화라는 점이 특이하다. 따라서 청각기능이 떨어지는 노인이나 장애인에게 제공할 수 있는 복지국가용 통신기술로서 그 응용성이 독특하다.
그리고 이 친절전화기는 친절한 사회를 이루는데 필요한 핵심기술이다. 사회는 고도로 첨단화되고, 인간은 점차 고립화되기 때문에 일상의 전화 통화에서 조차 상대를 무시하는 대화가 아주 보편화되고 있다. 이러한 사회의 분위기를 친절 전화기를 통해 바꿀 수 있다. 상대방의 급하고 일방적인 목소리를 천천히 친절하게 말하도록 변경시킴으로서 자칫하면 감정이 유발될 수 있는 분위기를 차분하게 안정시켜 줄 수 있기 때문이다.
또한 친절전화기에 적용한 발성변환 기술은 대화의 내용을 기록하는 전문 속기사의 보조시스템으로 활용할 수 있고, 영어듣기 능력을 키워나가는 어학 학습기에 적용할 수 있는 등의 실용성 있는 발명기술이다. 따라서 이 친절전화기는 실생활에 다양하게 활용할 수 있는 기술로서 그 파급 효가가 아주 크다.

Claims (1)

  1. 전화기를 사용하여 상대방과 통화함에 있었어 상대방의 목소리가 불친절하게 들릴 경우에 임의의 버턴을 누루면 목소리를 친절하게 변환시켜주는 친절기능을 기존 전화기에 있는 내장형 또는 외장형의 신호처리 칩의 일부분에 구현하는 것으로서, 목소리 신호의 특징 추출을 수행하여 발정자의 특성정보는 그대로 유지하면서 발성자의 의미정보를 친절하게 변경하는 것으로서, 발성자의 발성특성에서 지속시간을 조절하여 슬로우-목소리를 구현하거나, 발성하는 억양의 변화를 관찰하여 일정범위를 벗어나지 않게 하거나, 발성 지속시간의 지연을 유성 및 비유성 구간으로 구분하여 처리를 다르게 하는 등의 발성변환법을 전화기에 구현하여 상대방 목소리가 친절하게 들리도록 하는 친절기능을 부가한 전화기 방식.
KR1020020082234A 2002-12-21 2002-12-21 목소리 음성신호의 발성처리에 의한 친절기능의 전화기 KR20030011045A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020082234A KR20030011045A (ko) 2002-12-21 2002-12-21 목소리 음성신호의 발성처리에 의한 친절기능의 전화기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020082234A KR20030011045A (ko) 2002-12-21 2002-12-21 목소리 음성신호의 발성처리에 의한 친절기능의 전화기

Publications (1)

Publication Number Publication Date
KR20030011045A true KR20030011045A (ko) 2003-02-06

Family

ID=27729897

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020082234A KR20030011045A (ko) 2002-12-21 2002-12-21 목소리 음성신호의 발성처리에 의한 친절기능의 전화기

Country Status (1)

Country Link
KR (1) KR20030011045A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798956B1 (ko) * 2007-03-07 2008-01-30 (주)케이티에프테크놀로지스 통화모드에서의 사용자 감정 조절을 위한 음파 제어 방법및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798956B1 (ko) * 2007-03-07 2008-01-30 (주)케이티에프테크놀로지스 통화모드에서의 사용자 감정 조절을 위한 음파 제어 방법및 장치

Similar Documents

Publication Publication Date Title
US8401856B2 (en) Automatic normalization of spoken syllable duration
KR20170071585A (ko) 지능형 음성 인식 및 처리를 위한 시스템, 방법 및 디바이스
KR20230165395A (ko) 종단간 음성 변환
CA2539649C (en) System and method for personalized text-to-voice synthesis
US6999922B2 (en) Synchronization and overlap method and system for single buffer speech compression and expansion
JPS60107700A (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
KR20060122854A (ko) 오디오 신호 처리를 위한 시스템 및 방법
WO2008007616A1 (fr) Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
CN100490454C (zh) 音频装置和电信终端
Nakagiri et al. Improving body transmitted unvoiced speech with statistical voice conversion
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
KR20030031936A (ko) 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US8340972B2 (en) Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
US6975984B2 (en) Electrolaryngeal speech enhancement for telephony
KR20030011045A (ko) 목소리 음성신호의 발성처리에 의한 친절기능의 전화기
KR100460411B1 (ko) 목소리 신호의 억양조절에 의한 부드러운 소리의 전화기방식
KR100542976B1 (ko) 음성신호의 발성변환처리에 의한 소프트사운드 헤드폰장치
JP4127155B2 (ja) 聴覚補助装置
KR100533217B1 (ko) 음성신호의 발성변환용 신호처리에 의한 친절 헤드폰장치
JPH11331328A (ja) ハンズフリー電話装置
KR101151746B1 (ko) 오디오 신호용 잡음제거 방법 및 장치
JPH10240283A (ja) 音声処理装置及び電話装置
JP2008042740A (ja) 非可聴つぶやき音声採取用マイクロホン
JP4134844B2 (ja) 聴覚補助装置
KR20030024721A (ko) 보이스-펜에서 녹음소리를 정답게 들려주는소프트사운드기능

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E601 Decision to refuse application