KR102114102B1

KR102114102B1 - 뉴럴 네트워크를 통한 음성 증폭 시스템

Info

Publication number: KR102114102B1
Application number: KR1020180112159A
Authority: KR
Inventors: 홍충식; 오민재
Original assignee: 주식회사 이엠텍
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2020-05-22
Also published as: KR20200036083A

Abstract

본 발명은 다수의 대화자들을 분류하며, 분류된 대화자들 중에서 선택된 대화자의 음성을 증폭하는 뉴럴 네트워크를 통한 음성 증폭 시스템에 관한 것이다.
본 발명인 뉴럴 네트워크를 통한 음성 증폭 시스템은 뉴럴 네트워크 구조를 이용하여 다수의 대화자들의 음성을 분석하여 다수의 대화자들을 분류하기 위해 다수의 대화자들의 음성 타입을 분류하는 분류 파라미터와, 분류 파라미터의 의해 분류된 음성 타입들 각각에 대응하는 음성을 강조하거나 증폭하기 위한 필터 파라미터를 생성하는 데이터 처리 장치와, 데이터 처리 장치로부터 분류 파라미터를 수신하여 저장하고, 저장된 분류 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 분석하여 하나 이상의 음성 타입으로 분류하고, 사용자로 하여금 분류된 음성 타입들 중에서 어느 하나의 음성 타입을 선택하도록 하는 이동 통신 단말기와, 데이터 처리 장치로부터 필터 파라미터와, 이동 통신 단말기로부터 선택된 음성 타입을 포함하는 음성 타입 정보를 수신하여 저장하고, 필터 파라미터에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 처리하는 선택된 음성 타입에 대응하는 음성을 강조 처리하는 음성 증폭기를 포함한다.

Description

뉴럴 네트워크를 통한 음성 증폭 시스템{VOICE AMPLFYING SYSTEM THROUGH NEURAL NETWORK}

본 발명은 뉴럴 네트워크를 통한 음성 증폭 시스템에 관한 것으로서, 특히 다수의 대화자들을 분류하며, 분류된 대화자들 중에서 선택된 대화자의 음성을 증폭하는 뉴럴 네트워크를 통한 음성 증폭 시스템에 관한 것이다.

보청기는 청력이 약한 자, 즉 난청자를 돕기 위한 기구로서, 간단하게는 마이크로 수집되는 소리를 증폭하는 원리를 이용한다. 즉 청각이 퇴행된 노인들이나 선천적으로 청력을 손실한 대상, 혹은 질병이나 사고 등의 외적인 요인으로 인해 난청을 겪는 대상이 듣는 소리의 크기를 증폭시켜주는 도구이다. 일반적인 보청기는 외부 소리를 단순히 증폭하거나 특정 주파수 대역만을 증폭하는 등의 방식을 사용하는데 이 경우 대화 청취에 불필요한 잡음까지 증폭될 수 있다. 즉, 보청기 사용자가 대화를 진행할 시, 청취를 원하는 것은 대화 소리이지만 보청기는 사실상 대화 소리와 함께 수집되는 주변 잡음까지 분간 없이 증폭할 수 밖에 없다. 특히 일반인은 작은 소리까지 인식이 가능하여 자연 그대로 선형적인 입출력 상태로 소리가 전달되어도 문제가 없으나, 난청자는 작은 소리를 들을 수가 없어 작은 부분은 크게 만들고 큰 소리는 그대로 전달하는 형태의 신호처리가 필요하다.

최근의 보청기는 이러한 압축 증폭 기능까지 수행하고 있다. 이러한 보청기는 난청자에게 들을 수 없는 소리를 듣게 해주는 장점이 있으나 상대적으로 신호 대 잡음비를 나쁘게 만들어 듣고자 하는 신호의 품질을 저하시키는 역작용도 하게 된다. 이러한 역작용은 장애 정도가 심한 경우에 더 심해지게 되는데 이로 인해 보청기를 착용하더라도 실제로는 신호 품질이 나빠서 대화를 인식하는데 매우 큰 어려움을 겪게 되고 또한 큰 잡음 속에 살게 되어 이러한 잡음으로 인한 스트레스로 고통을 호소하게 된다. 따라서 현재까지의 보청기는 소리를 잘 알아듣게 한다기보다는 소리를 크게 보정하여 들려주는 것에 그쳤다고 볼 수 있다. 대한민국 등록특허 제10-1551665호에서는 보청기가 주변 환경을 자동으로 인식하여 그 환경에 맞는 디지털 신호처리를 수행하는 것으로 증폭되는 소리의 품질을 높이고 있다. 또한 대한민국 등록특허 제10-1369272호에서는 빔 포밍을 이용하여 주변 잡음을 인식하고 그것만을 감쇄시키는 방향으로 소리의 품질을 높이고 있다. 그러나 여전히 신호(음성) 대 잡음비를 획기적으로 높이기에는 한계가 있다.

특히, 사용자(착용자)가 적어도 2명 이상의 대화자들과 동시에 대화를 할 경우, 특정 대화자를 선택하여, 선택된 특정 대화자의 음성만을 증폭하여 듣고 싶으나, 종래의 보청기 또는 음성 증폭 장치는 이러한 증폭 과정을 제공하고 있지 않다.

본 발명은 성(남성/여성) 또는 연령에 따른 음성을 뉴럴 네트워크 구조를 이용하여 학습하여 분류 파라미터를 결정하고, 적어도 2명 이상의 대화자들과 대화를 할 경우 이 결정된 분류 파라미터에 따라 특정 대화자를 선택하여, 선택된 특정 대화자의 음성만을 증폭하여 제공할 수 있는 뉴럴 네트워크를 통한 음성 증폭 시스템을 제공하는 것을 목적으로 한다.

본 발명인 뉴럴 네트워크를 통한 음성 증폭 시스템은 뉴럴 네트워크 구조를 이용하여 다수의 대화자들의 음성을 분석하여 다수의 대화자들을 분류하기 위해 다수의 대화자들의 음성 타입을 분류하는 분류 파라미터와, 분류 파라미터의 의해 분류된 음성 타입들 각각에 대응하는 음성을 강조하거나 증폭하기 위한 필터 파라미터를 생성하는 데이터 처리 장치와, 데이터 처리 장치로부터 분류 파라미터를 수신하여 저장하고, 저장된 분류 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 분석하여 하나 이상의 음성 타입으로 분류하고, 사용자로 하여금 분류된 음성 타입들 중에서 어느 하나의 음성 타입을 선택하도록 하는 이동 통신 단말기와, 데이터 처리 장치로부터 필터 파라미터와, 이동 통신 단말기로부터 선택된 음성 타입을 포함하는 음성 타입 정보를 수신하여 저장하고, 필터 파라미터에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 처리하여 선택된 음성 타입에 대응하는 음성을 강조하거나 증폭 처리하는 음성 증폭기를 포함한다.

또한, 이동 통신 단말기는 표시부와, 입력부와, 외부 소리를 획득하는 마이크와, 데이터 처리 장치 및 음성 증폭기와 통신을 수행하는 통신부와, 분류 파라미터와 음성 타입에 대응하는 이미지 정보를 저장하는 저장부와, 마이크로부터 획득된 외부 소리에 포함된 음성들을 뉴럴 네트워크 분류부에 의해 분류 파라미터를 기준으로 하여 음성 타입들로 분류하고, 분류된 음성 타입들 각각에 대응하는 이미지를 표시부에 표시하고, 입력부를 통하여 사용자로부터 표시된 이미지를 선택하도록 하며, 입력부로부터의 이미지의 선택 입력을 획득하고, 획득된 이미지의 선택 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부를 통하여 음성 증폭기에 전송하는 데이터 프로세서로 구성된 것이 바람직하다.

또한, 데이터 프로세서는 입력부를 통하여 이전에 선택한 이미지를 변경하는 이미지 변경 입력을 획득하고, 획득된 이미지 변경 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부를 통하여 음성 증폭기에 전송하는 것이 바람직하다.

또한, 음성 증폭기는 이동 통신 단말기 또는 데이터 처리 장치와 통신하는 통신부와, 외부 소리를 획득하는 마이크와, 스피커와, 마이크로부터 외부 소리를 포함하는 전기 신호를 수신하며, 저장된 필터 파라미터 중에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 수신된 전기 신호를 뉴럴 네트워크 필터부에 의해 필터링 처리하여 음성 타입에 대응하는 대화자의 음성을 강조하거나 증폭 처리하고, 강조되거나 증폭된 음성을 포함하는 전기 신호를 스피커에 인가하는 데이터 프로세서를 구비하는 것이 바람직하다.

본 발명은 음성을 뉴럴 네트워크 구조를 이용하여 학습을 통하여 분류 파라미터를 결정하고, 결정된 분류 파라미터에 따라 대화자들의 음성을 분류하며, 분류된 대화자들 중에서 특정 대화자를 선택할 수 있도록 하며, 선택된 특정 대화자의 음성만을 증폭하거나 강조하여 제공함으로써, 사용자가 원하는 음성을 보다 명확하게 들을 수 있도록 하는 효과가 있다.

도 1은 본 발명에 따른 뉴럴 네트워크를 통한 음성 증폭 시스템의 구성도이다.

이하에서, 본 발명은 실시예와 도면을 통하여 상세하게 설명된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.

도 1은 본 발명에 따른 뉴럴 네트워크를 통한 음성 증폭 시스템의 구성도이다. 음성 증폭 시스템은 뉴럴 네트워크 구조로 다수의 대화자들의 음성들을 분석하여 다수의 대화자들을 분류하기 위한 분류 파라미터와, 선택된 대화자의 음성의 증폭(또는 강조)을 위한 필터 파라미터를 생성하여 저장하며, 이동 통신 단말기(20)와 음성 증폭기(30)에 네트워크(40)를 통하여 전송(공급)하는 데이터 처리 장치(10)와, 네트워크(40)를 통하여 데이터 처리 장치(10)로부터 분류 파라미터를 수신하여 저장하며, 분류 파라미터를 기준으로 하여 다수의 대화자들을 분류하여 사용자가 분류된 대화자들 중에서 하나의 대화자를 사용자가 선택할 수 있도록 하며, 선택된 대화자에 대응하는 음성 타입 정보를 음성 증폭기(30)로 전송하는 이동 통신 단말기(20)와, 네트워크(40)를 통하여 데이터 처리 장치(10)로부터 필터 파라미터를 수신하여 저장하며, 이동 통신 단말기(20)로부터 수신된 음성 타입 정보에 대응하는 필터 파라미터에 따라 외부에서 획득되는 소리를 필터링하여, 음성 타입 정보에 대응하는 대화자의 음성을 증폭하여 사용자에게 제공하는 음성 증폭기(30)와, 데이터 처리 장치(10)와 이동 통신 단말기(20) 및 음성 증폭기(30) 간의 데이터 통신을 수행하는 네트워크(40)로 구성된다.

먼저, 네트워크(40)는 원거리 및 근거리 통신 네트워크와, 유선 및 무선 통신 네트워크를 수행할 수 있는 장치들을 포함하는 것이며, 본 발명이 속하는 기술 분야에 대하여 통상의 지식을 가진 기술자들에게는 당연히 인식되는 기술에 해당되어, 상세한 기재가 생략된다.

데이터 처리 장치(10)는 관리자로부터의 명령 입력이나 다수의 대화자들의 음성들에 대한 데이터(예를 들면, 음성 파일 등) 입력 등을 수행하는 입력부(11)와, 다양한 정보를 표시하는 표시부(12)와, 다수의 대화자들의 음성들을 분류하기 위한 분류 파라미터와, 선택된 대화자의 음성의 증폭을 위한 필터 파라미터를 저장하는 저장부(13)와, 네트워크(40)를 통하여 이동 통신 단말기(20) 및 음성 증폭기(30)와 통신을 수행하는 통신부(14) 및 다수의 대화자들의 음성들에 대하여, 뉴럴 네트워크 구조로 다수의 대화자들의 음성을 학습하고 분석하여 다수의 대화자들의 음성들을 분류하기 위한 분류(classification) 파라미터와, 선택된 대화자의 음성의 증폭을 위한 필터(filter) 파라미터를 생성하여 저장부(13)에 저장하며, 분류 파라미터를 이동 통신 단말기(20)로, 필터 파라미터를 음성 증폭기(30)에 네트워크(40)를 통하여 각각 전송하는 데이터 프로세서(19)를 포함하여 구성된다.

입력부(11)는 예를 들면, 키보드나 마우스 등의 입력 장치뿐만 아니라, 저장 매체와 접속 가능한 입력 포트(예를 들면, USB 포트 등) 등을 포함하는 데이터 입력 수단을 포함한다.

표시부(12)는 예를 들면, LCD, LED 등의 디스플레이 장치에 해당된다.

저장부(13)는 다수의 대화자들의 음성들을 트레이닝 데이터 세트(training data set)로 저장하며, 데이터 프로세서(19)에 의해 뉴럴 네트워크 구조로 생성된 분류 파라미터와 필터 파라미터를 저장한다. 분류 파라미터는 뉴럴 네트워크 구조로 생성된 데이터로 W(weight)와 b(bias)로 구성되며, 대화자들의 음성에 대한 뉴럴 네트워크 구조를 통한 학습의 결과물로, 연령 및 성별을 포함하는 음성 타입을 판단하기 위한 기준 데이터이다. 예를 들면, 분류 파라미터는 다수의 대화자들의 음성들 중에서 중저음의 남성, 고음의 여성 혹은 10대 남성, 20대 여성 등의 음성 타입들로 분류할 수 있도록 하는 데이터이다. 필터 파라미터는 분류 파라미터의 의해 분류된 음성 타입들에 대응하는 음성을 강조하거나 증폭하기 위한 데이터로, 분류된 음성 타입들 각각에 대응하는 W(weight)와 b(bias)로 구성되는 파라미터들로 구성된다.

통신부(14)는 네트워크(40)를 통하여 이동 통신 단말기(20) 및 음성 증폭기(30) 각각과 유선 또는 무선 통신을 수행하는 수단이다.

데이터 프로세서(19)는 입력부(11)나 통신부(14)를 통하여 다수의 대화자들의 음성들을 입력 받거나 수신하여 트레이닝 데이터 세트로 저장부(13)에 저장하고, 뉴럴 네트워크 구조로 트레이닝 데이터 세트를 처리하여 분류 파라미터와 필터 파라미터 각각을 생성하여 저장부(13)에 저장한다. 데이터 프로세서(19)는 뉴럴 네트워크 구조에 따른 딥 러닝에 의해 트레이닝 데이터 세트를 입력 데이터로 입력 받아 학습 과정을 수행하여 최적의 분류 파라미터와 필터 파라미터를 각각 생성한다. 데이터 프로세서(19)는 생성된 분류 파라미터와 필터 파라미터 각각을 저장부(13)에 저장하며, 네트워크(40)를 통하여 이동 통신 단말기(20)와 음성 증폭기(30)로 전송한다.

다음으로, 이동 통신 단말기(20)는 예를 들면, 스마트폰이나 테블릿 pc 등과 같은 정보 통신 기기에 해당되며, 사용자로부터의 명령 입력, 대화자 선택 입력 등을 획득하는 입력부(21)와, 다수의 대화자 각각에 대응하는 아이콘들이나 캐릭터들 등 다양한 정보를 표시하는 표시부(22)와, 다수의 대화자들을 분류하기 위한 분류 파라미터를 저장하는 저장부(23)와, 네트워크(40)를 통하여 데이터 처리 장치(10) 및 음성 증폭기(30)와 통신을 수행하는 통신부(24)와, 대화자들의 음성을 포함하는 소리를 획득하는 마이크(25)와, 전기 신호를 음 방출하는 스피커(26)와, 다수의 대화자들의 음성들에 대하여, 뉴럴 네트워크 구조로 다수의 대화자들의 음성을 분석하여 분류 파라미터를 기준으로 하여 적어도 하나 이상의 음성 타입으로 분류하고, 분류된 음성 타입들을 표시부(22)에 표시하고, 표시된 음성 타입 중에서 사용자가 입력부(21)를 통하여 하나의 음성 타입을 선택하도록 하며, 선택된 음성 타입을 포함하는 음성 타입 정보를 통신부(24)를 통하여 음성 증폭기(30)에 전송하는 데이터 프로세서(29)를 포함하여 구성된다.

입력부(21)는 예를 들면, 키보드나 마우스 등의 입력 장치뿐만 아니라, 저장 매체와 접속 가능한 입력 포트(예를 들면, USB 포트 등) 등을 포함하는 데이터 입력 수단을 포함한다.

표시부(22)는 예를 들면, LCD, LED 등의 디스플레이 장치에 해당된다.

저장부(23)는 상술된 분류 파라미터와, 다수의 대화자들 각각에 대응하는 이미지(예를 들면, 아이콘) 정보를 저장한다. 이미지 정보는 다수의 대화자들 각각을 분류한 음성 타입들 각각에 대응하는 이미지나 아이콘을 포함한다.

통신부(24)는 네트워크(40)를 통하여 데이터 처리 장치(10) 및 음성 증폭기(30) 각각과 유선 또는 무선 통신을 수행하는 수단이다.

마이크(25)는 외부의 소리(예를 들면, 대화자들의 음성을 포함함)를 획득하여 전기 신호를 생성하여 데이터 프로세서(29)로 인가한다.

스피커(26)는 데이터 프로세서(29)로부터 전기 신호를 인가 받아 음 방출한다.

데이터 프로세서(29)는 통신부(24)를 제어하여 네트워크(40)를 통하여 데이터 처리 장치(10)에 통신 연결되며, 데이터 처리 장치(10)의 데이터 프로세서(19)는 저장부(13)에 저장된 분류 파라미터를 판독하여 통신부(14)를 제어하여 이동 통신 단말기(20)로 전송한다. 데이터 프로세서(29)는 통신부(24)를 통하여 분류 파라미터를 수신하여 저장부(23)에 저장한다.

데이터 프로세서(29)는 마이크(25)로부터 전기 신호를 수신하고, 전기 신호에 포함되어 있는 다수의 대화자들의 음성에 대하여, 뉴럴 네트워크 구조로 다수의 대화자들의 음성을 분석하여 저장부(23)로부터 판독된 분류 파라미터를 기준으로 하여 적어도 하나 이상의 음성 타입으로 분류하는 뉴럴 네트워크 구조의 뉴럴 네트워크 분류부를 구비한다.

데이터 프로세서(29)는 저장부(23)로부터 이미지 정보를 판독하며, 판독된 이미지 정보들 중에서 분류된 음성 타입들에 대응하는 이미지를 결정하여 표시부(22)에 표시한다. 데이터 프로세서(29)는 입력부(21)를 통하여 사용자가 원하는 이미지(아이콘)(즉, 분류된 음성 타입)를 선택할 수 있도록 하며, 입력부(21)로부터 대화자 선택 입력(이미지의 선택 입력)을 획득하고, 획득된 대화자 선택 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 생성한다.

데이터 프로세서(29)는 통신부(24)를 제어하여 음성 증폭기(30)와 통신 연결되며, 음성 타입 정보를 통신부(24)를 통하여 음성 증폭기(30)로 전송한다.

데이터 프로세서(29)는 입력부(21)를 통하여 사용자가 이전에 선택한 이미지를 변경하는 대화자 변경 입력(또는 이미지 변경 입력)을 입력할 수 있도록 하며, 입력된 대화자 변경 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부(24)를 통하여 음성 증폭기(30)에 전송한다.

데이터 프로세서(29)는 마이크(25)로부터의 음성들에 대한 음성 타입을 분류하고, 분류된 음성 타입이 단수(1개)인 경우에는 사용자가 음성 타임을 선택할 필요가 없으므로, 분류된 음성 타입을 나타내는 이미지만을 표시하고 입력부(21)를 통한 대화자 선택 입력이 수행되지 않도록 할 수도 있다. 즉, 데이터 프로세서(29)는 분류된 음성 타입이 복수인 경우에, 분류된 음성 타입들을 나타내는 이미지들을 표시부(22)에 표시하고 입력부(21)를 통한 대화자 선택 입력이 수행되도록 할 수도 있다.

음성 증폭기(30)는 예를 들면, 통신 가능한 음향 변환 장치(예를 들면, 보청기, 넥밴드형 음향 변환 장치, 블루투스 스피커 등)에 해당되며, 사용자로부터의 명령 입력(예를 들면, 전원 온/오프, 대화자 선택 모드 입력) 등을 획득하는 입력부(31)와, 다양한 정보(예를 들면, 대화자 선택 모드의 동작 표시 등)를 표시하는 표시부(32)와, 필터 파라미터를 저장하는 저장부(33)와, 네트워크(40)를 통하여 데이터 처리 장치(10) 및 이동 통신 단말기(20)와 통신을 수행하는 통신부(34)와, 대화자들의 음성을 포함하는 소리를 획득하는 마이크(35)와, 전기 신호를 음 방출하는 스피커(36)와, 마이크(35)로부터 인가되는 전기 신호에 포함된 음성들에 대한 증폭 처리를 수행하여 스피커(36)로 음 방출하는 기능을 수행하며, 대화자 선택 모드의 선택 시에 필터 파라미터에서 음성 타입 정보에 대응하는 파라미터를 이용하여 전기 신호를 필터링 처리하여, 음성 타입 정보에 대응하는 대화자의 음성만을 증폭 처리하여 스피커(36)로 음 방출하는 데이터 프로세서(39)를 포함하여 구성된다.

입력부(31)는 예를 들면, 택트 스위치나, 버튼 스위치, 터치 입력 등의 입력 장치를 포함한다.

표시부(32)는 예를 들면, LCD, LED 등의 디스플레이 장치에 해당된다.

저장부(33)는 상술된 필터 파라미터를 저장한다.

통신부(34)는 네트워크(40)를 통하여 데이터 처리 장치(10) 및 이동 통신 단말기(20) 각각과 유선 또는 무선 통신을 수행하는 수단이다.

마이크(35)는 외부의 소리(예를 들면, 대화자들의 음성을 포함함)를 획득하여 전기 신호를 생성하여 데이터 프로세서(39)로 인가한다.

스피커(36)는 데이터 프로세서(39)로부터 전기 신호를 인가 받아 음 방출한다.

데이터 프로세서(39)는 통신부(34)를 제어하여 네트워크(40)를 통하여 데이터 처리 장치(10)에 통신 연결되며, 데이터 처리 장치(10)의 데이터 프로세서(19)는 저장부(13)에 저장된 필터 파라미터를 판독하여 통신부(14)를 제어하여 음성 증폭기(30)로 전송한다. 데이터 프로세서(39)는 통신부(34)를 통하여 필터 파라미터를 수신하여 저장부(33)에 저장한다.

데이터 프로세서(39)는 입력부(31)로부터의 대화자 선택 모드와 기본 증폭 모드를 선택적으로 수신하여 수행한다. 먼저, 기본 증폭 모드에서, 데이터 프로세서(39)는 마이크(35)로부터 인가되는 전기 신호에 포함된 모든 소리나 음성을 증폭 처리하여 스피커(36)로 인가하여, 음 방출을 수행한다.

대화자 선택 모드에서, 데이터 프로세서(39)는 통신부(34)를 제어하여 데이터 처리 장치(10)에 통신 연결되며, 데이터 처리 장치(10)의 데이터 프로세서(19)는 저장부(13)에서 필터 파라미터를 판독하여 통신부(14)를 통하여 음성 증폭기(30)로 전송한다. 데이터 프로세서(39)는 통신부(34)를 통하여 필터 파라미터를 수신하여 저장부(33)에 저장한다. 데이터 프로세서(39)는 통신부(34)를 제어하여 이동 통신 단말기(20)에 통신 연결되며, 이동 통신 단말기(20)의 데이터 프로세서(29)는 입력부(21)에서 선택된 이미지에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부(24)를 통하여 음성 증폭기(30)에 전송한다. 데이터 프로세서(39)는 통신부(34)를 통하여 음성 타입 정보를 수신하여 저장부(33)에 저장한다. 데이터 프로세서(39)는 마이크(35)로부터 다수의 대화자 음성을 포함하는 전기 신호를 수신하며, 저장부(33)에 저장된 필터 파라미터 중에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 수신된 전기 신호를 필터링 처리하여 음성 타입에 대응하는 대화자의 음성만을 증폭(강조) 처리하는 뉴럴 네트워크 구조의 뉴럴 네트워크 필터부를 구비하고, 증폭 처리된 음성을 포함하는 전기 신호를 스피커(36)에 인가하여 음 방출한다.

이러한 대화자 선택 모드에서, 데이터 프로세서(39)는 선택된 음성 분류에 대응하는 대화자의 음성이 다른 대화자의 음성과 비교하여 보다 더 큰 증폭률로 증폭됨으로써, 선택된 음성 타입에 대응하는 대화자의 음성이 강조되는 것으로 인식되어야 한다. 또한, 데이터 프로세서(39)는 필터 파라미터에 의한 증폭률을 입력부(31)를 통하여 사용자가 가변할 수 있도록 한다.

다른 실시예로, 데이터 처리 장치(10)의 데이터 프로세서(19)가 통신부(14)를 제어하여, 저장된 분류 파라미터와 필터 파라미터를 이동 통신 단말기(20)로 전송하고, 이동 통신 단말기(20)의 데이터 프로세서(29)가 통신부(24)를 통하여 분류 파라미터와 필터 파라미터를 수신하여 저장부(23)에 저장한다. 또한, 이동 통신 단말기(20)의 데이터 프로세서(29)는 통신부(24)를 제어하여 저장된 필터 파라미터를 음성 증폭기(30)로 전송하고, 음성 증폭기(30)의 데이터 프로세서(39)는 필터 파라미터를 수신하여 저장부(33)에 저장한다.

또한, 데이터 처리 장치(10)의 데이터 프로세서(19)는 현재의 분류 파라미터과 필터 파라미터에 대하여, 신규의 트레이닝 데이터 세트를 이용하여 딥 러닝을 수행하여, 갱신 과정을 각각 진행하며, 갱신된 분류 파라미터와 필터 파라미터를 통신부(14)를 통하여 이동 통신 단말기(20)와 음성 증폭기(30)에 전송한다.

다양한 실시 예에 따른 장치(예: 프로세서 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리가 될 수 있다.

컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예:자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD(Digital Versatile Disc), 자기-광 매체(magnetoopticalmedia)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등)등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

다양한 실시 예에 따른 프로세서 또는 프로세서에 의한 기능들은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상 설명한 바와 같이, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형의 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

10: 데이터 처리 장치 20: 이동 통신 단말기
30: 음성 증폭기

Claims

뉴럴 네트워크 구조를 이용하여 다수의 대화자들의 음성을 분석하여 다수의 대화자들을 분류하기 위해 다수의 대화자들의 음성 타입을 분류하는 분류 파라미터와, 분류 파라미터의 의해 분류된 음성 타입들 각각에 대응하는 음성을 강조하거나 증폭하기 위한 필터 파라미터를 생성하는 데이터 처리 장치와;
데이터 처리 장치로부터 분류 파라미터를 수신하여 저장하고, 저장된 분류 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 분석하여 하나 이상의 음성 타입으로 분류하고, 사용자로 하여금 분류된 음성 타입들 중에서 어느 하나의 음성 타입을 선택하도록 하는 이동 통신 단말기와;
데이터 처리 장치로부터 필터 파라미터와, 이동 통신 단말기로부터 선택된 음성 타입을 포함하는 음성 타입 정보를 수신하여 저장하고, 필터 파라미터에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 외부 소리에 포함된 대화자들의 음성들을 처리하여 선택된 음성 타입에 대응하는 음성을 강조하거나 증폭 처리하는 음성 증폭기를 포함하는 것을 특징으로 하는 뉴럴 네트워크를 통한 음성 증폭 시스템.
제 1 항에 있어서,
이동 통신 단말기는 표시부와, 입력부와, 외부 소리를 획득하는 마이크와, 데이터 처리 장치 및 음성 증폭기와 통신을 수행하는 통신부와, 분류 파라미터와 음성 타입에 대응하는 이미지 정보를 저장하는 저장부와, 마이크로부터 획득된 외부 소리에 포함된 음성들을 뉴럴 네트워크 분류부에 의해 분류 파라미터를 기준으로 하여 음성 타입들로 분류하고, 분류된 음성 타입들 각각에 대응하는 이미지를 표시부에 표시하고, 입력부를 통하여 사용자로부터 표시된 이미지를 선택하도록 하며, 입력부로부터의 이미지의 선택 입력을 획득하고, 획득된 이미지의 선택 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부를 통하여 음성 증폭기에 전송하는 데이터 프로세서로 구성된 것을 특징으로 하는 뉴럴 네트워크를 통한 음성 증폭 시스템.
제 2 항에 있어서,
데이터 프로세서는 입력부를 통하여 이전에 선택한 이미지를 변경하는 이미지 변경 입력을 획득하고, 획득된 이미지 변경 입력에 대응하는 음성 타입을 포함하는 음성 타입 정보를 통신부를 통하여 음성 증폭기에 전송하는 것을 특징으로 하는 뉴럴 네트워크를 통한 음성 증폭 시스템.
제 1 항에 있어서,
음성 증폭기는 이동 통신 단말기 또는 데이터 처리 장치와 통신하는 통신부와, 외부 소리를 획득하는 마이크와, 스피커와, 마이크로부터 외부 소리를 포함하는 전기 신호를 수신하며, 저장된 필터 파라미터 중에서 음성 타입 정보에 포함된 음성 타입에 대응하는 파라미터를 판독하고, 판독된 파라미터를 기준으로 수신된 전기 신호를 뉴럴 네트워크 필터부에 의해 필터링 처리하여 음성 타입에 대응하는 대화자의 음성을 강조하거나 증폭 처리하고, 강조되거나 증폭된 음성을 포함하는 전기 신호를 스피커에 인가하는 데이터 프로세서를 구비하는 것을 특징으로 하는 뉴럴 네트워크를 통한 음성 증폭 시스템.