KR101964359B1

KR101964359B1 - 딥러닝용 오디오 데이터 생성방법 및 장치

Info

Publication number: KR101964359B1
Application number: KR1020170151557A
Authority: KR
Inventors: 류내원; 양용석
Original assignee: 네오컨버전스 주식회사
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2019-04-01

Abstract

본 발명은 딥러닝용 오디오 데이터 생성방법 및 장치에 관한 것이다.
본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성방법은 딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서, 외부로부터 오디오 데이터를 수신하는 단계, 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리에 저장하는 단계를 포함한다.

Description

딥러닝용 오디오 데이터 생성방법 및 장치{METHOD AND APPARATUS OF GENERATING AUDIO DATA FOR DEEP LEARNING}

본 발명은 효율적으로 딥러닝을 위한 오디오 데이터를 생성할 수 있는 딥러닝용 오디오 데이터 생성방법 및 장치에 관한 것이다.

최근에 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하기 위해 인공 신경망(ANN: artificial neural network)을 기반으로 구축한 기계 학습 기술인 딥 러닝이 추구되고 있다.

딥 러닝은 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보처리 방식을 모방해 컴퓨터가 사물을 분별하도록 기계를 학습시킨다.

딥 러닝 기술을 적용하면 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지·추론·판단할 수 있게 된다. 음성·이미지 인식과 사진 분석 등에 광범위하게 활용된다.

이러한 시기에 오디오 데이터를 캡쳐 및 편집하여 딥러닝용 학습데이터인 기준 오디오 데이터가 필요하고, 오디오 데이터에서 오디오 종류에 따른 특성 분석에서 사용 가능한 형태로 오디오 데이터를 가공하는 기술이 요구되고 있다.

그러나, 오디오 데이터인 PCM 원본 오디오 내에 포함된 오디오의 종류를 분류 하는 것은 현재까지 프로그램으로 인한 자동 분류가 불가능하기 때문에 결국 작업자가 재생 중에 헤드셋 등을 통하여 소리의 종류를 식별하여 입력하는 정보를 기본으로 할 수 밖에 없는 문제점이 있었다.

대한민국 공개특허 제10-2014-0047005호

본 발명이 이루고자 하는 기술적인 과제는 딥러닝용 오디오 데이터 생성방법 및 장치를 제공하는데 있다.

본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성방법은 딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서, 외부로부터 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하는 단계를 포함한다.

상기 태깅정보 결정기준은 상기 오디오타입 비율정보에서 보이스 비율이 기준이며, 상기 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 상기 태깅정보를 결정하는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 딥러닝용 오디오 데이터 생성방법은 딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서, 외부로부터 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하는 단계, 오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계를 포함한다.

상기 태깅정보 결정기준은 상기 오디오타입 비율정보에서 보이스 비율이 기준인을 것을 특징으로 한다.

상기 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 상기 태깅정보를 결정하는 것을 특징으로 한다.

상기 기 설정된 삭제량은 제1삭제량, 제2삭제량, 제3삭제량이 가능하며, 사일런스의 삭제량은 상기 제1삭제량, 보이스와 백그라운드의 삭제량은 상기 제2삭제량, 보이스/백그라운드의 삭제량은 상기 제3삭제량인 것을 특징으로 한다.

본 발명의 또 다른 실시예에 따른 딥러닝용 오디오 데이터 생성방법은 딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서, 외부로부터 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하는 단계, 오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계, 상기 보정 오디오 데이터의 변환명령신호를 수신하면, 상기 변환명령신호에 따른 제2데이터량으로 상기 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계를 포함한다.

본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성장치는 외부로부터 오디오 데이터를 수신하는 오디오 데이터 수신부, 상기 오디오 데이터를 저장하는 메모리, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 상기메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하도록 제어하는 제어부를 포함하되, 상기 태깅정보 결정기준은 상기 오디오타입 비율정보에서 보이스 비율이 기준이며, 상기 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 상기 태깅정보를 결정하는 것을 특징으로한다.

본 발명의 다른 실시예에 따른 딥러닝용 오디오 데이터 생성장치는 외부로부터 오디오 데이터를 수신하는 오디오 데이터 수신부, 상기 오디오 데이터를 저장하는 메모리, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하고, 오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하도록 제어하는 제어부를 포함한다.

본 발명의 또 다른 실시예에 따른 딥러닝용 오디오 데이터 생성장치는 외부로부터 오디오 데이터를 수신하는 오디오 데이터 수신부, 상기 오디오 데이터를 저장하는 메모리, 상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하고, 오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하고, 상기 보정 오디오 데이터의 변환명령신호를 수신하면, 상기 변환명령신호에 따른 제2데이터량으로 상기 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 상기 메모리에 저장하도록 제어하는 제어부를 포함한다.

본 발명의 실시예에 따른 딥러닝용 오디오 데이터 생성방법 및 장치에 의하면 다음과 같은 효과가 있다.

첫째, 본 발명은 오디오 데이터에서 태깅정보에 따라 효율적으로 필요한 오디오(예를 들어, 보이스, 백그라운드, 사일런스, 보이스/백그라운드)를 추출할 수 있다.

둘째, 본 발명은 실제 오디오 데이터와 사용자가 태깅을 수행하는 시간의 오차에 따른 데이터 오류를 줄일 수 있다.

셋째, 본 발명은 오디오타입 변경지점을 확인하고, 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성함으로써 오류가 적은 기준 오디오 데이터인 딥러닝용 오디오 데이터를 생성할 수 있다.

넷째, 본 발명은 보정 오디오 데이터를 사용자가 원하는 데이터량으로 쉽고 오류가 적은 변환 오디오 데이터를 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성장치를 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성방법을 설명하기 위한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 이외의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.

이하, 본 발명을 보다 구체적으로 설명하기 위하여 본 발명에 따른 실시예들을 첨부 도면을 참조하면서 보다 상세하게 설명하고자 한다.

본 발명에서 “오디오타입”은 오디오 데이터를 적어도 하나 이상으로 세분하여 분류하였을 때 각 타입을 의미한다. 예를 들어, 오디오타입은 오디오데이터에서 아무런 소리가 나지않고 묵음을 사일런스(Silence), 오디오 데이터에서 음성인 보이스를 나타내는 보이스(Voice), 오디오데이터에서 배경음을 나타내는 백그라운드(Background), 오디오 데이터에서 보이스와 백그라운드가 혼용된 보이스(Voice)/백그라운드(Background)가 가능하다. 여기서, 오디오타입인 사일런스(Silence), 보이스(Voice), 백그라운드(Background), 보이스(Voice)/백그라운드(Background) 등에 대한 판별은 딥러닝을 위해 사용자인 사람이 오디오 데이터를 듣고 확인하여 판별하고, 학습용으로 딥러닝용 오디오 데이터 생성장치에 입력해 주는 것이다.

도 1은 본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성장치를 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성장치(이하, “장치”라 한다.)는 오디오 데이터 수신부(100), 입력부(110), 제어부(120), 메모리(130)를 포함한다.

오디오 데이터 수신부(100)는 외부로부터 오디오 데이터를 수신하는 부분이다. 이때, 오디오 데이터를 오리지널 오디오 데이터라고 명명할 수 있다.

입력부(110)는 사용자가 외부에서 명령신호를 입력하는 부분이다. 사용자는 입력부(110)는 통해서 다양한 실시예의 기 설정된 정보를 입력할 수 있다. 예를 들어, 사용자는 입력부(110)를 통해서 기 설정된 제1데이터량, 기 설정된 태깅정보 결정기준, 기 설정된 삭제량 등을 입력하거나 변경할 수 있다. 또한, 사용자는 입력부(110)를 통해서 변환명령신호를 입력하거나 변경할 수 있다.

제어부(120)는 본 발명에 따른 장치를 제어하는 부분이다.

제어부(120)는 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리(130)에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장하도록 제어할 수 있다.

이때, 태깅정보 결정기준은 오디오타입 비율정보에서 보이스 비율이 기준이며, 제어부(120)는 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 태깅정보를 결정하고, 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 태깅정보를 결정하고, 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 기 태깅정보를 결정할 수 있다.

또한, 제어부(120)는 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리(130)에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장하고, 오디오타입 변경지점을 확인하고, 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 메모리(130)에 저장하도록 제어할 수 있다.

또한, 제어부(120)는 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리(130)에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장하고, 오디오타입 변경지점을 확인하고, 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 메모리(130)에 저장하고, 보정 오디오 데이터의 변환명령신호를 수신하면, 변환명령신호에 따른 제2데이터량으로 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 메모리(130)에 저장하도록 제어할 수 있다.

메모리(130)는 다양한 데이터 및/또는 정보를 저장하는 부분으로, 메모리(130)는 오디오 데이터를 저장한다.

또한, 제어부(120)는 오디오타입 비율정보를 메모리(130)에 저장하고, 제어부(120)가 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장할 수 있다.

또한, 제어부(120)는 오디오타입 변경지점을 확인하고, 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 메모리(130)에 저장할 수 있다.

또한, 제어부(120)는 보정 오디오 데이터의 변환명령신호를 수신하면, 변환명령신호에 따른 제2데이터량으로 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 메모리(130)에 저장할 수 있다.

도 2는 본 발명의 일 실시예에 따른 딥러닝용 오디오 데이터 생성방법을 설명하기 위한 흐름도이다.

도 2를 참조하면, 장치는 외부로부터 오디오 데이터를 수신한다(S210). 이때, 오디오 데이터를 오리지널 오디오 데이터라고 명명할 수 있다.

이하, 표 1은 장치가 외부로부터 수신하여 메모리(130)에 저장하는 오디오 데이터 구조의 일 예를 도시한 것이다.

Silence	Voice	Back ground	Sample Rate	Channels	Bits Per Sample	NB Samples	Pcm BufSize	PcmBuf data
0	55	45	48000	2	16	1536	6144	90fb91fb3cf946f9.....
0	55	45	48000	2	16	1536	6144	90fb91fb3cf946f9.....
:	:	:	:	:	:	:	:	:

여기서, 사일런스(Silence)는 묵음을 의미하고, 보이스(Voice)는 오디오 데이터에서 보이스인 음성이 차지하는 비율(%)을 의미하고, 백드라운드(Background)는 오디오 데이터에서 배경음이 차지하는 비율(%)을 의미하고, 샘플레이트(SampleRate)는 오디오 데이터에서 설정에 따라 48000Hz/44100Hz가 가능하고, 채널수(Channels)는 오디오 데이터가 포함하는 채널 수를 의미하고, 비츠퍼샘플(BitsPerSample)는 오디오 데이터에서 샘플 채널 당 비트 수를 의미하고, 엠비샘플(NBSample)는 프레임당 샘플 수를 의미하고, PCM버퍼사이즈(PcmBufSize)는 오디오 데이터에서 버퍼 크기를 의미하고, PCM버퍼 데이터(PcmBuf data)는 오디오 데이터에서 PCM 로우 데이터를 의미한다.

예를 들어, 오디오 데이터는 사일런스(Silence)가 “0”, 보이스(Voice)가 “55”, 백드라운드(Background)가 “45”, 샘플레이트(SampleRate)는 “48000”, 채널수(Channels)는 “2”, 비츠퍼샘플(BitsPerSample)는 “16”, 엠비샘플(NBSample)는 “1536”, PCM버퍼사이즈(PcmBufSize)는 “6144”, PCM버퍼 데이터(PcmBuf data)는 “90fb91fb3cf946f9.....”가 가능하다.

다만, 오디오 데이터 구조는 설정에 따라서 다양한 형태가 가능하다.

장치는 수신한 오디오 데이터를 기 설정된 제1데이터량으로 각 오디오타입 비율정보를 메모리(130)에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장한다(S220).

여기서, 기 설정된 제1데이터량은 30ms하고, 태깅정보는 사일런스는 “S”, 보이스는 “V”, 백그라운드는 “B”, 보이스/백그라운드는 “V/B”로 표시할 수 있다.

또한, 장치는 태깅정보를 결정할 때, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하는데, 예를 들어, 태깅정보 결정기준은 오디오타입 비율정보에서 보이스 비율을 기준으로 태깅정보를 결정할 수 있다. 예를 들어, 장치는 하나의 레코드 인덱스에서 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 태깅정보를 결정하고, 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 태깅정보를 결정하고, 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 태깅정보를 결정할 수 있다.

다만, 본 발명은 태깅정보 결정기준이 다양한 형태가 가능하다.

또한, 사일런스는 음량 측정 기준에 따라 자동으로 감지하여 태깅정보를 결정할 수 있다. 예를 들어, 사일런스는 음량 측정 기준인 Loudness LKFS 값이 -70 이하인 경우 자동으로 감지하여 사일런스(S)로 태깅정보를 결정할 수 있다.

이하, 표 2는 장치는 수신한 오디오 데이터를 기 설정된 제1데이터량(예를 들어, 30ms)으로 각 오디오타입 비율정보를 메모리(130)에 저장하고, 보이스 비율에 따라 태깅정보를 결정하여 태깅정보를 메모리(130)에 저장한 일 예를 도시한 것이다.

record index	Silence	Voice	Background	Tag	데이터량
1	0	85	15	V	30ms
2	0	85	15	V	30ms
3	0	85	15	V	30ms
4	0	85	15	V	30ms
5	0	85	15	V	30ms
6	0	85	15	V	30ms
7	0	85	15	V	30ms
8	0	85	15	V	30ms
9	0	85	15	V	30ms
10	0	85	15	V	30ms
11	0	85	15	V	30ms
12	100	0	0	S	30ms
13	100	0	0	S	30ms
14	100	0	0	S	30ms
15	100	0	0	S	30ms
16	100	0	0	S	30ms
17	100	0	0	S	30ms
18	100	0	0	S	30ms
19	100	0	0	S	30ms
20	100	0	0	S	30ms
21	0	10	90	B	30ms
22	0	10	90	B	30ms
23	0	10	90	B	30ms
24	0	10	90	B	30ms
25	0	10	90	B	30ms
26	0	10	90	B	30ms
27	0	10	90	B	30ms
28	0	10	90	B	30ms
29	0	35	65	V/B	30ms
30	0	35	65	V/B	30ms
31	0	45	55	V/B	30ms
32	0	45	55	V/B	30ms
33	0	45	55	V/B	30ms
34	0	45	55	V/B	30ms
35	0	45	55	V/B	30ms
36	0	45	55	V/B	30ms
37	0	55	45	V/B	30ms
38	0	55	45	V/B	30ms
39	0	55	45	V/B	30ms
40	0	55	45	V/B	30ms
41	0	55	45	V/B	30ms
42	0	55	45	V/B	30ms

여기서, 레코드 인덱스(record index) 1~11에서는 사일런스 오디오타입 비율정보는 “0”, 보이스 오디오타입 비율정보는 “85”, 백그라운드 오디오타입 비율정보는 “15”라, 태깅정보가 보이스인 “V”로 결정되었고, 데이터량 “30ms”를 표시하고 있다.

레코드 인덱스(record index) 12~20에서는 사일런스 오디오타입 비율정보는 “100”, 보이스 오디오타입 비율정보는 “0”, 백그라운드 오디오타입 비율정보는 “0”라, 태깅정보가 사일런스인 “S”로 결정되었고, 데이터량 “30ms”를 표시하고 있다.

레코드 인덱스(record index) 21~28에서는 사일런스 오디오타입 비율정보는 “0”, 보이스 오디오타입 비율정보는 “10”, 백그라운드 오디오타입 비율정보는 “90”라, 태깅정보가 백그라운드인 “B”로 결정되었고, 데이터량 “30ms”를 표시하고 있다.

레코드 인덱스(record index) 29~30에서는 사일런스 오디오타입 비율정보는 “0”, 보이스 오디오타입 비율정보는 “35”, 백그라운드 오디오타입 비율정보는 “65”라, 태깅정보가 보이스/백그라운드인 “V/B”로 결정되었고, 레코드 인덱스(record index) 31~36에서는 사일런스 오디오타입 비율정보는 “0”, 보이스 오디오타입 비율정보는 “45”, 백그라운드 오디오타입 비율정보는 “55”라, 태깅정보가 보이스/백그라운드인 “V/B”로 결정되었고, 레코드 인덱스(record index) 37~42에서는 사일런스 오디오타입 비율정보는 “0”, 보이스 오디오타입 비율정보는 “55”, 백그라운드 오디오타입 비율정보는 “45”라, 태깅정보가 보이스/백그라운드인 “V/B”로 결정되었고, 데이터량 “30ms”를 표시하고 있다.

장치는 오디오타입 변경지점을 확인하고, 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 메모리(130)에 저장한다(S230).

오디오타입 변경지점은 오디오타입이 변경하는 지점으로 상기 표 1에서 레코드 인덱스 11과 12사이(V에서 S로 변경), 레코드 인덱스 20과 21사이(S에서 B로 변경), 레코드 인덱스 28과 29사이(B에서 V/B로 변경)이다.

기 설정된 삭제량(삭제범위()는 실제 데이터와 태깅의 시간의 오차에 따른 데이터 오류를 줄이기 위하여 설정이 가능한데, 오류는 오디오타입 변경지점에서 발생하며 전 후 오디오 데이터의 종류이 오디오 타입에 따라 삭제범위가 다르다.

이하, 표 3은 오디오 데이터의 오디오타입의 변경에 따라 삭제범위의 예를 도시한 것이다.

오디오타입 변경 전	오디오타입 변경 후	오디오타입 변경 전 오디오 데이터 삭제량 (end위치)	오디오타입 변경 후 오디오 데이터 삭제량 (start위치)
Silence	Voice	제1삭제량(60ms)	제2삭제량(90ms)
Silence	Background	제1삭제량(60ms)	제2삭제량(90ms)
Silence	V/B	제1삭제량(60ms)	제3삭제량(120ms)
Voice	Silence	제2삭제량(90ms)	제1삭제량(60ms)
Voice	Background	제2삭제량(90ms)	제2삭제량(90ms)
Voice	V/B	제2삭제량(90ms)	제3삭제량(120ms)
Background	Silence	제2삭제량(90ms)	제1삭제량(60ms)
Background	Voice	제2삭제량(90ms)	제2삭제량(90ms)
Background	V/B	제2삭제량(90ms)	제3삭제량(120ms)
V/B	Silence	제3삭제량(120ms)	제1삭제량(60ms)
V/B	Voice	제3삭제량(120ms)	제2삭제량(90ms)
V/B	Background	제3삭제량(120ms)	제2삭제량(90ms)

여기서, 삭제량의 기준은 다양한 실시예가 가능한데, 사일런스는 오류가 낮으므로 삭제량이 작고, 보이스/백그라운드는 두 개의 소리가 혼합되어 오류가 높으므로 삭제량을 많게 설정함으로써, 생성된 보정 오디오 데이터의 오류가 적게 할 수 있다.

예를 들어, 제1삭제량은 60ms, 제2삭제량은 90ms, 제3삭제량은 120ms가 가능한데, 사일런스의 삭제량은 제1삭제량(60ms), 보이스와 백그라운드의 삭제량은 제2삭제량(90ms), 보이스/백그라운드(또는 보이스/백그라운드 혼합)의 삭제량은 제3삭제량(120ms)이 가능하다.

이하, 표 4는 상기 표 1의 오디오 데이터에서 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제범위에 따라 오디오 데이터가 삭제되어 생성된 보정 오디오 데이터의 일 예를 도시한 것이다.

record index	Silence	Voice	Background	Tag	데이터량
1	0	85	15	V	30ms
2	0	85	15	V	30ms
3	0	85	15	V	30ms
4	0	85	15	V	30ms
5	0	85	15	V	30ms
6	0	85	15	V	30ms
7	0	85	15	V	30ms
8	0	85	15	V	30ms
14	100	0	0	S	30ms
15	100	0	0	S	30ms
16	100	0	0	S	30ms
17	100	0	0	S	30ms
18	100	0	0	S	30ms
24	0	10	90	B	30ms
25	0	10	90	B	30ms
33	0	45	55	V/B	30ms
34	0	45	55	V/B	30ms
35	0	45	55	V/B	30ms
36	0	45	55	V/B	30ms
37	0	55	45	V/B	30ms
38	0	55	45	V/B	30ms
39	0	55	45	V/B	30ms
40	0	55	45	V/B	30ms
41	0	55	45	V/B	30ms
42	0	55	45	V/B	30ms

여기서, 표 4는 오디오 데이터(또는 오리지널 오디오 데이터)에서 레코드 인덱스(record index) 9~13, 19~23, 26~32가 삭제되어 생성된 보정된 오디오 데이터를 보여준다.

장치는 보정 오디오 데이터의 변환명령신호를 수신하였는지 판단한다(S240). 여기서, 변환명령신호는 보정 오디오 데이터를 특정 크기의 오디오 데이터로 생성하기 명령신호로, 장치에 기 설정되어 있거나, 사용자가 외부에서 명령신호를 입력할 수 있다.

장치는 보정 오디오 데이터의 변환명령신호를 수신하면, 변환명령신호에 따른 제2데이터량으로 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 메모리(130)에 저장한다(S250). 이러한 변환명령신호는 사용자가 입력부(110)를 통해서 입력하거나, 기 설정되어 있을 수 있다.

예를 들어, 변환명령신호가 보정 오디오 데이터를 120ms 단위로 변환하는 명령신호이면, 장치는 보정 오디오 데이터를 120ms 단위로 변환하여 변환 오디오 데이터를 생성한다.

이하, 표 5는 변환 오디오 데이터를 일 예를 도시한 것이다.

record index	Tag	데이터량
1	V	120ms
2	V	120ms
3	S	120ms
4	V/B	120ms
5	V/B	120ms
6	V/B	120ms

여기서, 표 5의 레코드 인덱스(record index) 1은 표 4의 레코드 인덱스 1~4가 변환(병합)된 것으로 태깅정보가 보이스인 “V”로 결정되어 표시되었고, 표 5의 레코드 인덱스(record index) 2는 표 4의 레코드 인덱스 5~8가 변환(병합)된 것으로 태깅정보가 보이스인 “V”로 결정되어 표시되었고, 표 5의 레코드 인덱스(record index) 3은 표 4의 레코드 인덱스 14~17가 변환(병합)된 것으로 태깅정보가 사일런스인 “S”로 결정되어 표시되었고, 표 5의 레코드 인덱스(record index) 4는 표 4의 레코드 인덱스 24, 25, 33, 34가 변환(병합)된 것으로 태깅정보가 보이스/백그라운드인 “V/B”로 결정되어 표시되었고, 표 5의 레코드 인덱스(record index) 5는 표 4의 레코드 인덱스 35~38가 변환(병합)된 것으로 태깅정보가 보이스/백그라운드인 “V/B”로 결정되어 표시되었고, 표 5의 레코드 인덱스(record index) 6은 표 4의 레코드 인덱스 39~42가 변환(병합)된 것으로 태깅정보가 보이스/백그라운드인 “V/B”로 결정되어 표시되었다.

이때, 표 5의 레코드 인덱스 18은 사일런스(Silence) 영역으로, 사일런스는 오디오 특성상 다른 영역과 합산할 수 없기 때문에 제2데이터량인 120ms만큼의 데이터를 만들 수 없는 경우이므로 삭제되었다.

또한, 표 5의 레코드 인덱스(record index) 4는 표 4의 레코드 인덱스 24, 25, 33, 34가 변환(병합)된 것인데, 여러 종류의 오디오 데이터가 섞여 있기 때문에 평균값을 이용하여 태깅정보를 결정한 것이다. 예를 들어, 장치는 보이스 비율정보의 평균값을 이용하여 태깅정보를 결정할 수 있다.

이하, 표 6은 오디오 데이터 내에서 보이스의 비율에 따라 결정되는 태깅정보의 일 예를 도시한 것이다.

오디오 데이터에서 Voice 비율	TAG
V >= 80	Voice
V <= 20	Background
20 < V <80	V/B

위의 표 6을 적용하여 표 4의 레코드 인덱스 24, 25, 33, 34에서 보이스 비율로 계산하면 (10 + 10+ 45 + 45)/4 =27.5 값이 되어, 표 5의 레코드 인덱스(record index) 4는 태깅정보가 보이스/백그라운드인 “V/B”로 결정되어 표시되었다.

상기 표5는 변환명령신호가 변환하면서 가장 높은 비율의 태킹정보를 표시하도록 하는 명령을 포함한 예이다.

다른 실시예로, 변환명령신호가 변환하면서 변환 전의 원본처럼 비율정보를 포함한 형태로 표시하도록 할 수 있다.

장치는 보정 오디오 데이터의 변환명령신호를 수신하지 못하면, 보정 오디오 데이터를 메모리(130)에 저장한다(S260).

본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다. 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램(프로그램 명령)은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic media), CDROM, DVD와 같은 광기록 매체(Optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(Magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명을 도면에 도시한 실시예를 참고하여 설명하였으나, 이는 발명을 설명하기 위한 것일 뿐이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 발명의 상세한 설명으로부터 다양한 변형 또는 균등한 실시예가 가능하다는 것을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 권리범위는 특허청구범위의 기술적 사상에 의해 결정되어야 한다.

100: 오디오 데이터 수신부
110: 입력부
120: 제어부
130: 메모리

Claims

삭제
삭제
딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서,
외부로부터 오디오 데이터를 수신하는 단계,
상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하는 단계,
오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계를 포함하는 딥러닝용 오디오 데이터 생성방법.
제3항에 있어서
상기 태깅정보 결정기준은 상기 오디오타입 비율정보에서 보이스 비율이 기준인을 것을 특징으로 하는 딥러닝용 오디오 데이터 생성방법.
제4항에 있어서,
상기 보이스 비율이 80% 이상인 경우 그 구간을 보이스(V)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 20% 이하인 경우 그 구간을 백그라운드(B)로 상기 태깅정보를 결정하고, 상기 보이스 비율이 21~79% 사이인 경우 그 구간을 보이스/백그라운드(V/B)로 상기 태깅정보를 결정하는 것을 특징으로 하는 딥러닝용 오디오 데이터 생성방법.
제3항에 있어서,
상기 기 설정된 삭제량은 제1삭제량, 제2삭제량, 제3삭제량이 가능하며,
사일런스의 삭제량은 상기 제1삭제량, 보이스와 백그라운드의 삭제량은 상기 제2삭제량, 보이스/백그라운드의 삭제량은 상기 제3삭제량인 것을 특징으로 하는 딥러닝용 오디오 데이터 생성방법.
딥러닝용 오디오 데이터 생성장치가 딥러닝용 오디오 데이터 생성방법에 있어서,
외부로부터 오디오 데이터를 수신하는 단계,
상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하는 단계,
오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계,
상기 보정 오디오 데이터의 변환명령신호를 수신하면, 상기 변환명령신호에 따른 제2데이터량으로 상기 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 상기 메모리에 저장하는 단계를 포함하는 딥러닝용 오디오 데이터 생성방법.
삭제
외부로부터 오디오 데이터를 수신하는 오디오 데이터 수신부,
상기 오디오 데이터를 저장하는 메모리,
상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하고,
오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하도록 제어하는 제어부를 포함하는 딥러닝용 오디오 데이터 생성장치.
외부로부터 오디오 데이터를 수신하는 오디오 데이터 수신부,
상기 오디오 데이터를 저장하는 메모리,
상기 오디오 데이터를 기 설정된 제1데이터량으로 오디오타입 비율정보를 메모리에 저장하고, 기 설정된 태깅정보 결정기준에 따라 태깅정보를 결정하여 상기 태깅정보를 상기 메모리에 저장하고, 오디오타입 변경지점을 확인하고, 상기 오디오타입 변경지점을 기준으로 앞뒤로 기 설정된 삭제량에 따라 상기 오디오 데이터를 삭제하여 보정 오디오 데이터를 생성하여 상기 메모리에 저장하고, 상기 보정 오디오 데이터의 변환명령신호를 수신하면, 상기 변환명령신호에 따른 제2데이터량으로 상기 보정 오디오 데이터를 변환하여, 변환 오디오 데이터를 생성하여 상기 메모리에 저장하도록 제어하는 제어부를 포함하는 딥러닝용 오디오 데이터 생성장치.