KR20140047525A - 음성 변환 장치 및 이의 음성 변환 방법 - Google Patents

음성 변환 장치 및 이의 음성 변환 방법 Download PDF

Info

Publication number
KR20140047525A
KR20140047525A KR1020130111209A KR20130111209A KR20140047525A KR 20140047525 A KR20140047525 A KR 20140047525A KR 1020130111209 A KR1020130111209 A KR 1020130111209A KR 20130111209 A KR20130111209 A KR 20130111209A KR 20140047525 A KR20140047525 A KR 20140047525A
Authority
KR
South Korea
Prior art keywords
voice
abnormal
normal
party
call counterpart
Prior art date
Application number
KR1020130111209A
Other languages
English (en)
Other versions
KR102174270B1 (ko
Inventor
류종엽
이윤재
김승훈
김영태
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2013/009102 priority Critical patent/WO2014058270A1/en
Priority to US14/051,836 priority patent/US9564119B2/en
Priority to EP13188466.0A priority patent/EP2720224B1/en
Priority to CN201310478928.6A priority patent/CN103730122B/zh
Publication of KR20140047525A publication Critical patent/KR20140047525A/ko
Priority to US15/391,352 priority patent/US10121492B2/en
Application granted granted Critical
Publication of KR102174270B1 publication Critical patent/KR102174270B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

음성 변환 장치 및 이의 음성 변환 방법이 제공된다. 본 음성 변환 장치의 음성 변환 방법은 통화를 수행하는 동안 통화 상대방 음성을 수신하고, 통화 상대방 음성을 분석하여 통화 상대방 음성이 비정상 음성인지 여부를 판단하며, 통화 상대방 음성이 비정상 음성이라고 판단된 경우, 통화 상대방 음성의 하모닉 신호를 조절하여 통화 상대방 음성의 비정상 음성을 정상 음성으로 변환하고, 변환된 정상 음성을 출력한다.

Description

음성 변환 장치 및 이의 음성 변환 방법{Voice converting apparatus and Method for converting user voice thereof}
본 발명은 음성 변환 장치 및 이의 음성 변환 방법에 관한 것으로, 더욱 상세하게는 통화 상대방의 음성을 분석하여 통화 상대방의 비정상적인 음성을 정상 음성으로 변환하여 출력하는 음성 변환 장치 및 이의 음성 변환 방법에 관한 것이다.
최근 대기오염 및 제한된 공간에서의 활동, 이동 전화기의 사용 증가 등으로 인해 후두의 통증 및 목소리의 변화를 호소하는 사례가 증가하고 있다. 다양한 요인들로 인해 사용자 후두의 건강에 이상이 발생하는 경우, 사람의 목소리는 정상적인 상태의 음성이 아닌, 비정상적인 음성으로 변경된다. 또는, 선천적으로 비정상적인 음성을 가진 사람도 존재할 수 있다.
이러한 비정상적인 음성은 타인이 제대로 알아들을 수 없는 형태의 음성으로서, 타인과의 원활한 대화를 방해할 뿐만 아니라, 타인에게 불쾌감이나 오해를 일으킬 수 있다.
특히, 통신 단말(예를 들어, 유선 전화, 무선 전화 등)을 이용하여 전화 통화를 수행하는 동안 비정상적인 목소리가 들려오면, 사용자는 통화 상대방의 음성을 제대로 알아들을 수 없을 뿐만 아니라, 심지어 통화 상대방과의 대화가 불가능해 질 수도 있게 된다.
따라서, 전화 통화를 수행하는 동안 비정상적인 음성을 가진 통화 상대방과의 원활한 대화를 위한 방안의 모색이 요청된다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 통화 상대방의 음성이 비정상 음성인지 여부를 판단하여, 통화 상대방의 음성이 비정상 음성인 경우, 통화 상대방의 음성 중 하모닉 신호를 조절하여 비정상 음성을 정상 음성으로 변환하여 제공할 수 있는 음성 변환 장치 및 이의 음성 변환 방법을 제공함에 있다.
상기 목적을 달성하기 위해 안출된 본 발명의 일 실시예에 따른, 음성 변환 장치의 음성 변환 방법은, 통화를 수행하는 동안 통화 상대방 음성을 수신하는 단계; 상기 통화 상대방 음성을 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 단계; 상기 통화 상대방 음성이 비정상 음성이라고 판단된 경우, 상기 통화 상대방 음성의 하모닉 신호를 조절하여 상기 통화 상대방 음성의 비정상 음성을 정상 음성으로 변환하는 단계; 및 상기 변환된 정상 음성을 출력하는 단계;를 포함할 수 있다.
그리고, 상기 판단하는 단계는, 상기 통화 상대방 음성으로부터 음성 파라미터를 추출하는 단계; 및 상기 추출된 음성 파라미터를 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 단계;를 포함할 수 있다.
또한, 상기 음성 파라미터는, 상기 통화 상대방 음성의 피치(Pitch) 성분, 상기 통화 상대방 음성의 하모닉 신호 대 잡음 비율(Harmonic-to-Noise ratio(HNR)), 상기 통화 상대방 음성의 성문개방지수(open quotient), 상기 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함할 수 있다.
그리고, 상기 변환하는 단계는, 상기 통화 상대방 음성의 하모닉 성분을 강조하고, 상기 통화 상대방 음성의 서브-하모닉 성분을 제거하여 비정상 음성을 정상 음성으로 변환할 수 있다.
또한, 상기 변환하는 단계는, 상기 통화 상대방 음성 중 고주파 대역에 하모닉 신호를 생성하여 비정상 음성을 정상 음성으로 변환할 수 있다.
그리고, 사용자 설정에 의해 상기 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능을 온하거나 오프할 수 있다.
또한, 비정상 음성을 정상 음성으로 변환하는 변환 강도를 조절하는 UI를 디스플레이하는 단계; 및 상기 UI를 통해 입력된 사용자 명령에 따라 상기 변환 강도를 설정하는 단계;를 더 포함하며, 상기 변환하는 단계는, 상기 설정된 변환 강도에 따라 비정상 음성을 정상 음성으로 변환할 수 있다.
그리고, 상기 통화 상대방의 음성이 비정상이라고 판단된 경우, 상기 통화 상대방의 음성이 비정상임을 나타내는 정보를 저장하는 단계;를 포함할 수 있다.
또한, 상기 변환하는 단계는, 비정상 음성이라는 정보가 저장된 통화 상대방과 통화를 수행하는 경우, 상기 통화 상대방 음성이 비정상인지 여부를 판단하지 않고, 바로 상기 통화 상대방 음성을 정상 음성으로 변환할 수 있다.
그리고, 상기 통화 상대방 음성이 정상 음성이라고 판단된 경우, 상기 통화 상대방 음성을 바로 출력하는 단계;를 포함할 수 있다.
한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 음성 변환 장치는, 통화를 수행하는 동안 통화 상대방 음성을 수신하는 음성 수신부; 상기 통화 상대방 음성을 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 비정상 음성 판단부; 상기 통화 상대방 음성이 비정상 음성이라고 판단된 경우, 상기 통화 상대방 음성의 하모닉 신호를 조절하여 상기 통화 상대방 음성의 비정상 음성을 정상 음성으로 변환하는 정상 음성 변환부; 및 상기 변환된 정상 음성을 출력하는 음성 출력부;를 포함한다.
그리고, 상기 비정상 음성 판단부는, 상기 통화 상대방 음성으로부터 음성 파라미터를 추출하는 파라미터 추출부; 및 상기 추출된 음성 파라미터를 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 파라미터 분석부;를 포함할 수 있다.
또한, 상기 음성 파라미터는, 상기 통화 상대방 음성의 피치(Pitch) 성분, 상기 통화 상대방 음성의 하모닉 신호 대 잡음 비율(Harmonic-to-Noise ratio(HNR)), 상기 통화 상대방 음성의 성문개방지수(open quotient), 상기 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함할 수 있다.
그리고, 상기 정상 음성 변환부는, 상기 통화 상대방 음성의 하모닉 성분을 강조하고, 상기 통화 상대방 음성의 서브-하모닉 성분을 제거하여 비정상 음성을 정상 음성으로 변환할 수 있다.
또한, 상기 정상 음성 변환부는, 상기 통화 상대방 음성 중 고주파 대역에 하모닉 신호를 생성하여 비정상 음성을 정상 음성으로 변환할 수 있다.
그리고, 사용자 명령을 입력받는 입력부;를 더 포함하며, 상기 입력부에 입력된 사용자 명령에 따라 상기 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능을 온하거나 오프할 수 있다.
또한, 비정상 음성을 정상 음성으로 변환하는 변환 강도를 조절하는 UI를 디스플레이하는 디스플레이;를 더 포함하며, 상기 정상 음성 변환부는, 상기 UI를 통해 입력된 사용자 명령에 따라 설정된 변환 강도에 따라 비정상 음성을 정상 음성으로 변환할 수 있다.
그리고, 상기 통화 상대방의 음성이 비정상이라고 판단된 경우, 상기 통화 상대방의 음성이 비정상임을 나타내는 정보를 저장하는 저장부;를 포함할 수 있다.
또한, 상기 정상 음성 변환부는, 상기 저장부에 비정상 음성이라는 정보가 저장된 통화 상대방과 통화를 수행하는 경우, 상기 통화 상대방 음성이 비정상인지 여부를 판단하지 않고, 바로 상기 통화 상대방 음성을 정상 음성으로 변환할 수 있다.
그리고, 상기 음성 출력부는 상기 통화 상대방 음성이 정상 음성이라고 판단된 경우, 상기 통화 상대방 음성을 바로 출력할 수 있다.
상술한 바와 같은 본 발명의 다양한 실시예에 의해, 사용자는 제대로 알아듣기 힘든 비정상적인 음성을 가진 통화 상대방과 통화를 수행하는 경우, 원활한 전화 통화가 가능해 질 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른, 음성 변환 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시예에 따른, 비정상 음성 판단부의 구성을 나타내는 블럭도,
도 3a 내지 도 3c는 본 발명의 다양한 실시예에 따른, 비정상 음성을 가진 음성 파라미터를 설명하기 위한 도면,
도 4a 내지 도 4b는 본 발명의 다양한 실시예에 따른, 비정상 음성을 정상 음성으로 변환하는 방법을 설명하기 위한 도면,
도 5는 본 발명의 일 실시예에 따른, 변환 강도를 조절할 수 있는 UI를 도시한 도면, 그리고
도 6은 본 발명의 일 실시예에 따른, 음성 변환 방법을 설명하기 위한 흐름도이다.
이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른, 음성 변환 장치(100)의 구성을 나타내는 블럭도이다. 도 1에 도시된 바와 같이, 음성 변환 장치(100)는 음성 수신부(110), 비정상 음성 판단부(120), 정상 음성 변환부(130), 음성 출력부(140), 저장부(150), 입력부(160) 및 디스플레이부(170)를 포함한다. 본 발명의 일 실시예에 따른 음성 변환 장치(100)는 스마트 폰일 수 있으나, 이에 한정되지 않으며, 유선 전화기, PDA(Personal Digital Assistant), 태블릿 PC, 스마트 TV 등과 같이 전화 통화 기능이 포함된 다양한 장치로 구현될 수 있다.
음성 수신부(110)는 통화 상대방의 음성 신호를 수신한다. 구체적으로, 통화(예를 들어, 음성 통화, 화상 통화 등)를 수행하는 동안, 음성 수신부(110)는 통화 상대방의 음성 신호를 수신할 수 있다.
비정상 음성 판단부(120)는 통화 상대방의 음성 신호를 분석하여 통화 상대방의 음성이 비정상 음성인지 정상 음성인지 여부를 판단한다. 비정상 음성 판단부(120)에 대한 설명은 도 2를 참조하여 상세히 설명하도록 한다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 비정상 음성 판단부(120)는 파라미터 추출부(121) 및 파라미터 분석부(123)를 포함할 수 있다.
파라미터 추출부(121)는 수신된 통화 상대방 음성의 음성 파라미터를 추출할 수 있다. 이때, 음성 파라미터는 통화 상대방 음성의 피치(Pitch) 성분, 통화 상대방 음성의 하모닉 신호 대 잡음 비율(Harmonic-to-Noise ratio(HNR)), 통화 상대방 음성의 성문개방지수(open quotient), 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함할 수 있다.
구체적으로, 통화 상대방 음성의 피치 성분은 통화 상대방의 성대 떨림의 주기성을 나타내는 것으로 비정상적인 떨림을 검출하는데 이용된다. 통화 상대방 음성의 하모닉 신호 대 잡음 비율은 통화 상대방 음성의 하모닉 신호에 잡음 비율을 나타내는 정도로서, 잡음 비율에 따라 비정상적인 음성인지 여부를 판단할 수 있다. 통화 상대방 음성의 성문개방지수는 성대 떨림 주기 중 성대가 열려 있는 시간 비율에 대한 파라미터로, 제1 하모닉 신호와 제2 하모닉 신호의 에너지 비율로 추정 가능하다. 통화 상대방의 GRBAS 스코어는 비정상적인 음성과 관련된 특성을 판단할 수 있는 알고리즘으로, G(grade·총괄적인 인상), R(rough·거친 소리와 불규칙한 성대 진동 등), B(breathy·공기 새는 소리 등), A(asthenic·힘이 없는 연약한 목소리 등), S(strained·성대의 과다긴장과 비정상적 단단함 등) 각각에 0∼3의 스코어가 매겨질 수 있다.
파라미터 분석부(123)는 파라미터 추출부(123)에 의해 추출된 음성 파라미터를 분석하여 통화 상대방 음성이 비정상 음성인지 여부를 판단할 수 있다.
구체적으로, 음성 파라미터가 통화 상대방 음성의 피치 성분인 경우, 파라미터 분석부(123)는 통화 상대방 음성의 피치 성분을 분석하여 서브 하모닉 성분이 발생되었는지 여부를 모니터링할 수 있다. 더욱 구체적으로, 도 3a의 310 영역에 도시된 바와 같이, 두 개의 하모닉 성분 사이에 서브-하모닉 신호가 발생하는 경우, 파라미터 분석부(1230)는 잡음 성분이라 추정되는 서브- 하모닉 성분이 강하게 나타날수록 비정상 음성이라고 판단할 수 있다. 이때, 서브-하모닉 신호로 인하여 통화 상대방 음성의 피치 성분이 변경되므로, 파라미터 분석부(1230)는 정상적인 음성보다 피치가 두 배 이상인 경우, 통화 상대방 음성이 비정상 음성임을 판단할 수 있다.
또한, 음성 파라미터가 하모닉 신호 대 잡음 비율인 경우, 파라미터 분석부(123)는 하모닉 신호 대 잡음 비율의 값이 기설정된 값 이상인지 여부를 판단한다. 구체적으로, 도 3b의 좌측에 도시된 바와 같이, 하모닉 신호 대 잡음 비율이 기설정된 값 이상인 경우, 파라미터 분석부(123)는 통화 상대방 음성을 정상 신호로 판단할 수 있으며, 도 3b의 우측에 도시된 바와 같이, 하모닉 신호 대 잡음 비율이 기설정된 값 미만이 경우, 파라미터 분석부(123)는 통화 상대방 음성을 비정상 음성이라 판단할 수 있다. 한편, 하모닉 신호 대 잡음 비율은 도 3b에 도시된 바와 같이, 고주파 대역에서 정상 음성과 비정상 음성 사이에 차이가 많이 날 수 있으므로, 파라미터 분석부(1230)는 특정 주파수 대역 이상의 하모닉 신호 대 잡음 비율을 판단하여 정상 음성인지 비정상 음성인지 여부를 판단할 수 있다.
또한, 음성 파라미터가 성문개방지수인 경우, 파라미터 분석부(123)는 제1 하모닉 신호 성분과 제2 하모닉 신호 성분의 에너지 비율을 계산하여 통화 상대방의 음성이 비정상 음성인지 정상 음성인지 여부를 판단할 수 있다. 구체적으로, 파라미터 분석부(123)는 성문개방지수가 기설정된 범위(예를 들어, 0.4~0.6) 이내인 경우, 통화 상대방 음성을 정상 음성이라고 판단할 수 있다. 예를 들어, 도 3c의 가운데에 도시된 그래프와 같이, 성문개방지수가 0.5라고 산출된 경우, 파라미터 분석부(123)는 통화 상대방 음성이 정상 음성이라고 판단할 수 있다. 그러나, 파라미터 분석부(123)는 성문개방지수가 기설정된 범위 밖인 경우, 통화 상대방 음성을 비정상 음성이라 판단할 수 있다. 즉, 성문개방지수가 너무 크거나 작은 경우, 통화 상대방 목소리가 먹먹하거나 건조한 목소리일 가능성이 크므로, 파라미터 분석부(123)는 통화 상대방 음성을 비정상 음성이라 판단할 수 있다. 예를 들어, 도 3c의 좌측 그래프에 도시된 바와 같이, 성문 개방 지수(0.7)가 기설정된 범위보다 크거나, 또는 도 3c의 우측 그래프에 도시된 바와 같이, 성문 개방 지수(0.3)가 기설정된 범위보다 작은 경우, 파라미터 분석부(123)는 통화 상대방 음성을 비정상 음성이라 판단할 수 있다.
또한, 음성 파라미터가 GRBAS 스코어인 경우, 파라미터 분석부(123)는 R 성분(rough·거친 소리와 불규칙한 성대 진동 등), B 성분(breathy·공기 새는 소리 등), A 성분(asthenic·힘이 없는 연약한 목소리 등), S 성분(strained·성대의 과다긴장과 비정상적 단단함) 중 적어도 하나 이상이 기설정된 값 이상인 경우, 통화 상대방 음성을 비정상 음성이라 판단할 수 있다.
한편, 상술한 바와 같은 음성 파라미터들은 일 실시예에 불과할 뿐, 다른 음성 파라미터로 통화 상대방 음성이 비정상인지 여부를 판단할 수 있다.
통화 상대방 음성이 비정상 음성이라고 판단된 경우, 비정상 음성 판단부(120)는 통화 상대방 음성을 정상 음성 변환부(130)로 출력하고, 통화 상대방 음성이 정상 음성이라고 판단된 경우, 비정상 음성 판단부(120)는 통화 상대방 음성을 음성 출력부(140)로 출력할 수 있다.
비정상 음성이라고 판단된 통화 상대방 음성 신호가 수신된 경우, 정상 음성 변환부(130)는 통화 상대방 음성을 정상 음성으로 변환한다. 구체적으로, 정상 음성 변환부(130)는 통화 상대방 음성의 하모닉 성분을 조절하여 비정상 음성을 정상 음성으로 변환할 수 있다.
구체적으로, 비정상 음성이라고 판단되는 통화 상대방 음성은, 도 4a의 410 영역과 같이, 하모닉 신호가 약하거나, 도 4a의 420 영역과 같이, 하모닉 신호 사이에 잡음 성분이라고 판단되는 서브 하모닉 신호가 포함될 수 있다. 따라서, 정상 음성 변환부(130)는 도 4a의 430 영역과 같이, 약한 하모닉 신호 성분을 강조하며, 도 4a의 440 영역과 같이, 하모닉 신호 사이에 존재하는 서브 하모닉 신호를 제거할 수 있다.
또한, 비정상 음성이라고 판단되는 통화 상대방 음성은 도 4b의 450 영역과 같이, 하모닉 신호가 없을 수 있다. 따라서, 정상 음성 변환부(130)는 하모닉 신호 생성 필터(harmonic generation filter)를 이용하여 도 4b의 460 영역과 같이, 하모닉 신호를 생성할 수 있다.
즉, 정상 음성 변환부(130)는 상술한 바와 같이, 하모닉 성분을 생성하거나, 강조하며, 서브 하모닉 성분을 제거함으로써, 비정상 음성을 정상 음성으로 변환할 수 있다.
이때, 정상 음성 변환부(130)는 비정상 음성을 정상 음성으로 변환하는 변환 강도를 조절하는 UI를 통해 입력된 사용자 명령에 따라 설정된 변환 강도를 설정할 수 있다. 구체적으로, 도 5에 도시된 바와 같이, 음성 변환 강도를 조절할 수 있는 UI(500)를 통해 음성 변환 강도를 조절한 경우, 정상 음성 변환부(130)는 조절된 음성 변환 강도에 따라 비정상 음성을 정상 음성으로 변환할 수 있다. 예를 들어, 음성 변환 강도가 클수록, 정상 음성 변환부(130)는 하모닉 신호를 더욱 크게 강조하며, 서브 하모닉 신호를 완전히 제거할 수 있다. 그러나, 음성 변환 강도가 작을수록, 정상 음성 변환부(130)는 하모닉 신호를 작게 강조하며, 서브 하모닉 신호를 완전히 제거하지 않고, 기설정된 비율로 축소시킬 수 있다.
또한, 정상 음성 변환부(130)는 비정상 음성의 특성 중 일부만을 정상 음성으로 변환할 수 있다. 예를 들어, 정상 음성 변환부(130)는 하모닉 성분을 그대로 유지하면서 서브 하모닉 성분만을 제거할 수 있으며, 서브 하모닉 성분을 유지하면서 하모닉 성분만을 강조할 수 있다.
즉, 사용자 입력에 따라 변환 강도 및 방법을 설정함으로써, 사용자는 자신에게 적합하도록 통화 상대방 음성을 정상 음성으로 변환시킬 수 있다.
한편, 정상 음성 변환부(130)가 통화 상대방의 하모닉 성분을 조절하여 비정상 음성을 정상 음성으로 변환하는 것은 일 실시예에 불과할 뿐, 다른 방법을 이용하여 비정상 음성을 정상 음성으로 변환할 수 있다.
그리고, 정상 음성 변환부(130)는 정상 음성으로 변환된 통화 상대방 음성을 음성 출력부(140)로 출력할 수 있다.
음성 출력부(140)는 비정상 음성 판단부(120)를 통해 출력된 통화 상대방 음성 또는 정상 음성 변환부(130)를 통해 출력된 통화 상대방 음성을 출력할 수 있다. 이때, 음성 출력부(140)는 스피커가 될 수 있으나, 이는 일 실시예에 불과할 뿐, 외부 장치와 연결할 수 있는 출력 단자로 구현될 수 있다.
저장부(150)는 음성 변환 장치(100)를 제어하기 위한 다양한 프로그램 및 데이터를 저장한다. 특히, 저장부(150)는 통화 상대방 음성이 비정상 음성인지 정상 음성인지 여부를 판단할 수 있는 모듈을 저장할 수 있다.
또한, 통화 상대방의 음성이 비정상이라고 판단된 경우, 저장부(150)는 통화 상대방의 음성이 비정상임을 나타내는 정보를 저장할 수 있다. 이때, 저장부(150)는 통화 상대방의 전화 번호 등과 같은 정보가 저장된 주소록에 음성이 정상 음성인지 여부를 나타내는 정보를 함께 저장할 수 있다.
추후 비정상 음성이라는 정보가 저장된 통화 상대방과 통화를 수행하는 경우, 음성 변환 장치(100)는 통화 상대방 음성이 비정상인지 여부를 판단하지 않고, 바로 통화 상대방 음성을 정상 음성으로 변환할 수 있다.
입력부(160)는 음성 변환 장치(100)를 제어하기 위한 사용자 명령을 입력받을 수 있다. 구체적으로, 입력부(160)는 음성 변환 강도를 조절하는 사용자 명령, 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능을 온/오프하는 사용자 명령 등을 입력받을 수 있다.
디스플레이부(170)는 영상 데이터를 출력한다. 특히, 디스플레이부(170)는 도 5에 도시된 바와 같은, 음성 변환 강도를 조절하기 위한 UI(500)를 디스플레이할 수 있다.
상술한 바와 같은 음성 변환 장치(100)에 의해, 사용자는 제대로 알아듣기 어려운 비정상적인 음성을 가진 통화 상대방과 통화를 수행하더라도 원활한 전화 통화가 가능해 질 수 있게 된다.
한편, 음성 변환 장치(100)는 사용자 설정에 따라 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능(이하에서는 "음성 변환 기능")을 온하거나 오프할 수 있다. 즉, 음성 변환 기능이 온된 경우, 음성 변환 장치(100)는 자동으로 통화 상대방의 음성을 분석하여 정상 음성으로 변환할 수 있다. 그러나, 음성 변환 기능이 오프된 경우, 음성 변환 장치(100)는 사용자의 명령이 입력되기 전까지 통화 상대방의 음성을 분석하여 정상 음성으로 변환하지 않을 수 있다.
이하에서는 도 6을 참조하여 본 발명의 일 실시예에 따른, 음성 변환 방법에 대해 설명하기로 한다.
우선, 음성 변환 장치(100)는 통화 상대방 음성을 수신한다(S610). 이때, 음성 변환 장치(100)는 통화 상대방의 통신 단말과 음성 통화 또는 영상 통화를 수행할 수 있다. 또한, 음성 변환 장치(100)는 음성 변환 기능이 온된 상태일 수 있다.
그리고, 음성 변환 장치(100)는 수신되는 통화 상대방 음성이 비정상 음성인지 여부를 판단한다(S620). 이때, 음성 변환 장치(100)는 수신되는 통화 상대방 음성의 음성 파라미터를 추출하고, 추출된 음성 파라미터를 분석하여 통화 상대방 음성이 비정상 음성인지 여부를 판단할 수 있다. 이때, 음성 파라미터로는 통화 상대방 음성의 피치 성분, 통화 상대방 음성의 하모닉 신호 대 잡음 비율(HNR), 통화 상대방 음성의 성문개방지수(OQ), 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함할 수 있다.
통화 상대방 음성이 비정상 음성이라고 판단된 경우(S620-Y), 음성 변환 장치(100)는 통화 상대방 음성의 하모닉 신호를 조절하여 비정상 음성을 정상 음성으로 변환한다(S630). 구체적으로, 음성 변환 장치(100)는 통화 상대방 음성의 하모닉 신호를 강조하거나 생성하며, 통화 상대방 음성의 하모닉 신호들 사이에 존재하는 서브 하모닉 신호를 제거함으로써, 비정상 음성을 정상 음성을 변환할 수 있다. 이때, 음성 변환 장치(100)는 사용자 입력에 의해 변환 강도 및 방법을 설정할 수 있다.
그리고, 음성 변환 장치(100)는 정상 음성으로 변환된 통화 상대방 음성을 출력한다(S640).
한편, 통화 상대방 음성이 비정상 음성이 아니라고 판단된 경우(S650-N), 음성 변환 장치(100)는 통화 상대방 음성을 바로 출력한다(S640).
상술한 바와 같은 본 발명의 다양한 실시예에 의해, 사용자는 제대로 알아듣기 힘든 비정상적인 음성을 가진 통화 상대방과 원활할 전화 통화가 가능해 질 수 있다.
이상과 같은 다양한 실시 예에 따른 음성 변환 방법을 수행하기 위한 프로그램 코드는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110: 음성 수신부 120: 비정상 음성 판단부
130: 정상 음성 변환부 140: 음성 출력부
150: 저장부 160: 입력부
170: 디스플레이부

Claims (20)

  1. 음성 변환 장치의 음성 변환 방법에 있어서,
    통화를 수행하는 동안 통화 상대방 음성을 수신하는 단계;
    상기 통화 상대방 음성을 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 단계;
    상기 통화 상대방 음성이 비정상 음성이라고 판단된 경우, 상기 통화 상대방 음성의 하모닉 신호를 조절하여 상기 통화 상대방 음성의 비정상 음성을 정상 음성으로 변환하는 단계; 및
    상기 변환된 정상 음성을 출력하는 단계;를 포함하는 음성 변환 방법.
  2. 제1항에 있어서,
    상기 판단하는 단계는,
    상기 통화 상대방 음성으로부터 음성 파라미터를 추출하는 단계; 및
    상기 추출된 음성 파라미터를 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 단계;를 포함하는 음성 변환 방법.
  3. 제2항에 있어서,
    상기 음성 파라미터는,
    상기 통화 상대방 음성의 피치(Pitch) 성분, 상기 통화 상대방 음성의 하모닉 신호 대 잡음 비율(Harmonic-to-Noise ratio(HNR)), 상기 통화 상대방 음성의 성문개방지수(open quotient), 상기 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 변환 방법.
  4. 제1항에 있어서,
    상기 변환하는 단계는,
    상기 통화 상대방 음성의 하모닉 성분을 강조하고, 상기 통화 상대방 음성의 서브-하모닉 성분을 제거하여 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 방법.
  5. 제1항에 있어서,
    상기 변환하는 단계는,
    상기 통화 상대방 음성 중 고주파 대역에 하모닉 신호를 생성하여 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 방법.
  6. 제1항에 있어서,
    사용자 설정에 의해 상기 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능을 온하거나 오프할 수 있는 것을 특징으로 하는 음성 변환 방법.
  7. 제1항에 있어서,
    비정상 음성을 정상 음성으로 변환하는 변환 강도를 조절하는 UI를 디스플레이하는 단계; 및
    상기 UI를 통해 입력된 사용자 명령에 따라 상기 변환 강도를 설정하는 단계;를 더 포함하며,
    상기 변환하는 단계는,
    상기 설정된 변환 강도에 따라 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 방법.
  8. 제1항에 있어서,
    상기 통화 상대방의 음성이 비정상이라고 판단된 경우, 상기 통화 상대방의 음성이 비정상임을 나타내는 정보를 저장하는 단계;를 포함하는 음성 변환 방법.
  9. 제8항에 있어서,
    상기 변환하는 단계는,
    비정상 음성이라는 정보가 저장된 통화 상대방과 통화를 수행하는 경우, 상기 통화 상대방 음성이 비정상인지 여부를 판단하지 않고, 바로 상기 통화 상대방 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 방법.
  10. 제1항에 있어서,
    상기 통화 상대방 음성이 정상 음성이라고 판단된 경우, 상기 통화 상대방 음성을 바로 출력하는 단계;를 포함하는 음성 변환 방법.
  11. 음성 변환 장치에 있어서,
    통화를 수행하는 동안 통화 상대방 음성을 수신하는 음성 수신부;
    상기 통화 상대방 음성을 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 비정상 음성 판단부;
    상기 통화 상대방 음성이 비정상 음성이라고 판단된 경우, 상기 통화 상대방 음성의 하모닉 신호를 조절하여 상기 통화 상대방 음성의 비정상 음성을 정상 음성으로 변환하는 정상 음성 변환부; 및
    상기 변환된 정상 음성을 출력하는 음성 출력부;를 포함하는 음성 변환 장치.
  12. 제11항에 있어서,
    상기 비정상 음성 판단부는,
    상기 통화 상대방 음성으로부터 음성 파라미터를 추출하는 파라미터 추출부; 및
    상기 추출된 음성 파라미터를 분석하여 상기 통화 상대방 음성이 비정상 음성인지 여부를 판단하는 파라미터 분석부;를 포함하는 음성 변환 장치.
  13. 제12항에 있어서,
    상기 음성 파라미터는,
    상기 통화 상대방 음성의 피치(Pitch) 성분, 상기 통화 상대방 음성의 하모닉 신호 대 잡음 비율(Harmonic-to-Noise ratio(HNR)), 상기 통화 상대방 음성의 성문개방지수(open quotient), 상기 통화 상대방 음성의 GRBAS 스코어 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 변환 장치.
  14. 제11항에 있어서,
    상기 정상 음성 변환부는,
    상기 통화 상대방 음성의 하모닉 성분을 강조하고, 상기 통화 상대방 음성의 서브-하모닉 성분을 제거하여 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 장치.
  15. 제11항에 있어서,
    상기 정상 음성 변환부는,
    상기 통화 상대방 음성 중 고주파 대역에 하모닉 신호를 생성하여 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 장치.
  16. 제11항에 있어서,
    사용자 명령을 입력받는 입력부;를 더 포함하며,
    상기 입력부에 입력된 사용자 명령에 따라 상기 통화 상대방의 비정상 음성을 정상 음성으로 변환하는 기능을 온하거나 오프할 수 있는 것을 특징으로 하는 음성 변환 장치.
  17. 제11항에 있어서,
    비정상 음성을 정상 음성으로 변환하는 변환 강도를 조절하는 UI를 디스플레이하는 디스플레이;를 더 포함하며,
    상기 정상 음성 변환부는,
    상기 UI를 통해 입력된 사용자 명령에 따라 설정된 변환 강도에 따라 비정상 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 장치.
  18. 제11항에 있어서,
    상기 통화 상대방의 음성이 비정상이라고 판단된 경우, 상기 통화 상대방의 음성이 비정상임을 나타내는 정보를 저장하는 저장부;를 포함하는 음성 변환 장치.
  19. 제18항에 있어서,
    상기 정상 음성 변환부는,
    상기 저장부에 비정상 음성이라는 정보가 저장된 통화 상대방과 통화를 수행하는 경우, 상기 통화 상대방 음성이 비정상인지 여부를 판단하지 않고, 바로 상기 통화 상대방 음성을 정상 음성으로 변환하는 것을 특징으로 하는 음성 변환 장치.
  20. 제11항에 있어서,
    상기 음성 출력부는
    상기 통화 상대방 음성이 정상 음성이라고 판단된 경우, 상기 통화 상대방 음성을 바로 출력하는 것을 특징으로 하는 음성 변환 장치.
KR1020130111209A 2012-10-12 2013-09-16 음성 변환 장치 및 이의 음성 변환 방법 KR102174270B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/KR2013/009102 WO2014058270A1 (en) 2012-10-12 2013-10-11 Voice converting apparatus and method for converting user voice thereof
US14/051,836 US9564119B2 (en) 2012-10-12 2013-10-11 Voice converting apparatus and method for converting user voice thereof
EP13188466.0A EP2720224B1 (en) 2012-10-12 2013-10-14 Voice Converting Apparatus and Method for Converting User Voice Thereof
CN201310478928.6A CN103730122B (zh) 2012-10-12 2013-10-14 语音转换设备及其用于转换用户语音的方法
US15/391,352 US10121492B2 (en) 2012-10-12 2016-12-27 Voice converting apparatus and method for converting user voice thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20120113629 2012-10-12
KR1020120113629 2012-10-12
US201361774733P 2013-03-08 2013-03-08
US61/774,733 2013-03-08

Publications (2)

Publication Number Publication Date
KR20140047525A true KR20140047525A (ko) 2014-04-22
KR102174270B1 KR102174270B1 (ko) 2020-11-04

Family

ID=50654082

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130111209A KR102174270B1 (ko) 2012-10-12 2013-09-16 음성 변환 장치 및 이의 음성 변환 방법

Country Status (1)

Country Link
KR (1) KR102174270B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160128871A (ko) * 2015-04-29 2016-11-08 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR20210086217A (ko) * 2019-12-31 2021-07-08 동명대학교산학협력단 쉰목소리 잡음 제거시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044722A1 (en) * 2000-01-28 2001-11-22 Harald Gustafsson System and method for modifying speech signals
US20040230421A1 (en) * 2003-05-15 2004-11-18 Juergen Cezanne Intonation transformation for speech therapy and the like
KR20070015811A (ko) * 2005-08-01 2007-02-06 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR20100088461A (ko) * 2009-01-30 2010-08-09 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044722A1 (en) * 2000-01-28 2001-11-22 Harald Gustafsson System and method for modifying speech signals
US20040230421A1 (en) * 2003-05-15 2004-11-18 Juergen Cezanne Intonation transformation for speech therapy and the like
KR20070015811A (ko) * 2005-08-01 2007-02-06 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR20100088461A (ko) * 2009-01-30 2010-08-09 삼성전자주식회사 음성 신호를 이용한 감정 인식 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zeng 등, ‘Robust speaker recognition based on harmonic spectrum reconstruction of voiced speech’, J. of Southeast Univ. (Natural Science Edition), vol. 38, No. 6, 2008. 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160128871A (ko) * 2015-04-29 2016-11-08 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
KR20210086217A (ko) * 2019-12-31 2021-07-08 동명대학교산학협력단 쉰목소리 잡음 제거시스템

Also Published As

Publication number Publication date
KR102174270B1 (ko) 2020-11-04

Similar Documents

Publication Publication Date Title
CN103730122B (zh) 语音转换设备及其用于转换用户语音的方法
US9905215B2 (en) Noise control method and device
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US20190228755A1 (en) Noise control method and device
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
CN107871494B (zh) 一种语音合成的方法、装置及电子设备
WO2019142424A1 (ja) 表示制御装置、通信装置、表示制御方法およびプログラム
CN104851423B (zh) 一种声音信息处理方法及装置
US9251803B2 (en) Voice filtering method, apparatus and electronic equipment
KR102174270B1 (ko) 음성 변환 장치 및 이의 음성 변환 방법
CN116665692B (zh) 语音降噪方法和终端设备
CN105718174B (zh) 一种界面的切换方法及切换系统
US11087778B2 (en) Speech-to-text conversion based on quality metric
US10679645B2 (en) Confused state determination device, confused state determination method, and storage medium
CN106293607B (zh) 自动切换音频输出模式的方法及系统
JP2014230135A (ja) 通話装置及びマスキング音生成プログラム
KR20120016709A (ko) 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
KR20060062889A (ko) 오디오/비디오 동조화 장치
CN114093380B (zh) 一种语音增强方法、电子设备、芯片系统及可读存储介质
KR20130075624A (ko) 휴대 단말기를 이용한 음성인식 보청 시스템 및 그것의 운영방법
JP5812932B2 (ja) 音声聴取装置とその方法とプログラム
US10748548B2 (en) Voice processing method, voice communication device and computer program product thereof
CN111933183B (zh) 一种商户用蓝牙设备的音频识别方法
JP5331901B2 (ja) 音声制御装置
JP5201259B2 (ja) 音声の基本周期を検出する装置およびその基本周期を用いて話速変換を行う装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right