KR102274219B1

KR102274219B1 - 소리 정보 판단 장치 및 그 방법

Info

Publication number: KR102274219B1
Application number: KR1020190096834A
Authority: KR
Inventors: 전성호; 김도형; 조성곤
Original assignee: 주식회사 인에이블파인드
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-07-08
Also published as: KR20210017494A

Abstract

본 발명은 소리 정보 판단 장치 및 그 방법에 대한 것으로서, 보다 상세하게는 소리 정보가 노래, 연주 등과 같은 저작물인 음원인지를 판단하는 장치 및 그 방법에 대한 것이다. 본 발명의 일 측면에 따른 소리 정보 판단 장치는, 프로세서 및 프로세서에 전기적으로 연결되고, 딥러닝 프로그램이 저장된 메모리를 포함하고, 메모리는 프로세서의 실행 시에, 소리정보가 수신되면, 미리 설정된 방법에 따라 소리정보에서 제1 특징정보 및 제1 박자정보를 추출하고, 제1 특징정보 및 제1 박자정보를 이용하여 딥러닝 프로그램을 통해 소리정보가 음원에 대한 것인지 여부를 판단하는 인스트럭션들을 저장할 수 있다. 본 발명에 따르면, 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있으므로 저작권료의 청구가 누락될 가능성이 매우 낮아질 수 있다.

Description

소리 정보 판단 장치 및 그 방법{Sound Information Judging Device and Method Thereof}

본 발명은 소리 정보 판단 장치 및 그 방법에 대한 것으로서, 보다 상세하게는 입력된 소리 정보가 노래, 연주 등과 같은 저작물인 음원정보인지를 판단하는 장치 및 그 방법에 대한 것이다.

저작물은 인간의 사상 또는 감정을 표현한 창작물이다. 저작권은 저작물에 대한 배타적·독점적 권리이다. 노래, 연주 등과 같은 음원은 대표적인 저작물이다. 음원에 대한 저작권은 작곡가, 작사가, 편곡자, 실연자(음악을 연주하거나 노래를 부른 자) 및 음원 제작자가 서로 일정한 비율에 따라 그 지분을 나눠가지며, 저작권료 또한 그 지분에 알맞게 분배된다. 예를 들어, TV 등의 매체를 통해 저작권자들의 음원이 방송되는 경우에 해당 매체로 그 저작권료에 상응하는 비용이 청구된다. 같은 맥락으로, 영화나 드라마 등 저작권자들의 영상 또한 TV 등의 방송 매체를 통해 방송되는 경우 해당 매체로 그 저작권료에 상응하는 비용이 청구된다.

한편, 방송은 스마트폰의 개발과 더불어 TV나 라디오 등 종래의 대중매체뿐만 아니라 인터넷이나 스마트폰의 애플리케이션을 통해 제공되기도 한다. 최근에는 BJ(Broadcaster Jockey), 스트리머(Streamer), 유튜버(Youtuber) 및 크리에이터 등으로 명명된 개인들이 운영하는 개인 방송도 그 영향력이 증대되고 있다.

한국공개특허공보 제 10-2016-0077764호(2016.07.04)

상술한 문제점을 해결하기 위하여, 본 발명은 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있는 소리 정보 판단 장치 및 그 방법을 제공하고자 한다.

본 발명의 일 측면에 따르면, 프로세서; 및 상기 프로세서에 전기적으로 연결되고, 딥러닝 프로그램이 저장된 메모리;를 포함하고, 상기 메모리는 상기 프로세서의 실행 시에, 소리정보가 수신되면, 미리 설정된 방법에 따라 상기 소리정보에서 제1 특징정보 및 제1 박자정보를 추출하고, 상기 제1 특징정보 및 상기 제1 박자정보를 이용하여 상기 딥러닝 프로그램을 통해 상기 소리정보가 음원에 대한 것인지 여부를 판단하는 인스트럭션들을 저장하는, 소리 정보 판단 장치가 개시된다.

실시예에 따라, 상기 메모리는, 미리 설정된 방법에 따라 상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 제1 축소정보를 생성하고, 상기 제1 축소정보를 이용하여 상기 딥러닝 프로그램을 통해 상기 소리정보가 상기 음원에 대한 것인지 여부를 판단하는 인스트럭션들을 더 저장할 수 있다.

실시예에 따라, 상기 메모리는, 상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 인스트럭션들을 더 저장하되, 상기 음원정보는 출처정보, 저작권정보를 포함할 수 있다.

실시예에 따라, 상기 딥러닝 프로그램은, 라벨링된 학습용 소리정보에서 추출된 제2 특징정보 및 제2박자정보의 차원을 미리 설정된 방법으로 축소한 제2 축소정보를 이용하여 학습된 것일 수 있다.

본 발명의 다른 실시예에 따르면, 소리 정보 판단 장치에서 수행되는 수리 정보 판단 방법에 있어서, 소리정보가 수신되면, 미리 설정된 방법에 따라 상기 소리정보에서 제1 특징정보 및 제1 박자정보를 추출하는 단계; 및 상기 제1 특징정보 및 상기 제1 박자정보를 이용하여 미리 학습된 딥러닝 프로그램을 통해 상기 소리정보가 음원에 대한 것인지 여부를 판단하는 단계;를 포함하는, 소리 정보 판단 방법이 개시된다.

실시예에 따라, 상기 소리정보가 음원에 대한 것인지 여부를 판단하는 방법은, 상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 제1 축소정보를 생성하는 단계; 및 상기 제1 축소정보를 이용하여 상기 딥러닝 프로그램을 통해 상기 소리정보가 상기 음원에 대한 것인지 여부를 판단하는 단계;를 포함할 수 있다.

실시예에 따라, 상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 단계;를 더 포함하되, 상기 음원정보는 출처정보, 저작권정보를 포함할 수 있다.

본 발명에 따르면, 방송 콘텐츠를 모니터링하여 음원 저작물의 방송 여부를 자동으로 판단할 수 있으므로 저작권료의 청구가 누락될 가능성이 매우 낮아질 수 있다.

도 1은 본 발명의 일 실시예에 따른 소리 정보 판단 장치에 대한 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 전처리모듈에 대한 세부 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 메모리에 저장될 수 있는 특징정보 추출을 위한 인스트럭션의 예시이다.
도 4는 본 발명의 일 실시예에 따른 메모리에 저장될 수 있는 축소정보 생성을 위한 인스트럭션의 예시이다.
도 5는 본 발명의 일 실시예에 따라 생성된 축소정보를 예시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 소리정보 판단 방법에 대한 순서도이다.
도 7은 본 발명의 일 실시예에 따라 소리 정보를 판단하기 위한 딥러닝 프로그램을 학습시키는 방법에 대한 순서도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 소리 정보 판단 장치에 대한 블록 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 소리 정보 판단 장치(100)는 수신부(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다. 메모리(130)는 전처리모듈(140), 딥러닝모듈(150) 및 판단모듈(160)을 포함할 수 있다. 또한 소리 정보 판단 장치(100)의 수신부(110)는 마이크(170) 및/또는 콘텐츠DB(180) 등과 연결될 수 있다. 도 1의 예시에서는 마이크(170) 및/또는 콘텐츠DB (180)가 소리 정보 판단 장치(100)와 별개의 장치인 것으로 도시되었으나, 마이크(170) 및/또는 콘텐츠DB (180)는 소리 정보 판단 장치(100)에 내장된 구성일 수도 있다.

수신부(110)는 소리정보를 수신하는 구성일 수 있다. 수신부(110)는 통신 모뎀, USB 포트 등을 포함할 수 있다. 예를 들어, 수신부(110)는 마이크(170)와 유선 또는 무선으로 연결되어 마이크(170)를 통해 소리정보를 수신할 수 있다. 다른 예를 들어, 수신부(110)는 콘텐츠DB(180)와 인터넷, USB 케이블, 근거리 무선통신 등을 통해 연결되어 소리정보를 수신할 수 있다.

여기서 소리정보는 소리에 대한 정보가 포함된 콘텐츠를 의미할 수 있다. 예를 들어, 소리정보는 이미지와 소리가 모두 포함된 동영상콘텐츠일 수 있다(ex 확장자가 avi, mpg인 파일 등). 다른 예를 들어, 소리정보는 소리에 대한 정보만 포함된 사운드콘텐츠일 수 있다(ex 확장자가 wav, mp3인 파일 등).

수신부(110)는 수신된 소리정보를 프로세서(120)로 출력할 수 있다.

프로세서(120)는 메모리(130)에 저장된 인스트럭션을 이용하여 소리정보를 분석할 수 있다. 즉 프로세서(120)는 메모리(130)에 저장된 인스트럭션을 이용하여 입력된 소리정보가 저작물인 음원에 대한 정보인지, 아니면 저작물이 아닌 단순 소리에 대한 정보인지 판단할 수 있다. 이하, 프로세서(120)가 소리정보를 분석하는 동작에 대해 구체적으로 설명한다.

프로세서(120)는 전처리모듈(140)에 저장된 인스트럭션을 이용하여 소리정보를 전처리할 수 있다. 예를 들어, 전처리모듈(140)에는 소리정보의 특징, 박자 등을 추출하여 처리할 수 있도록 하는 인스트럭션들이 저장되어 있을 수 있고, 프로세서(120)는 전처리모듈(140)의 인스트럭션을 이용하여 소리정보를 전처리할 수 있다. 이하 도 2를 참조하여 전처리모듈(140)을 이용한 프로세서(120)의 동작에 대해 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 전처리모듈에 대한 세부 블록 구성도이다.

도 2를 참조하면 전처리모듈(140)에는 특징정보추출(210), 박자정보추출(220) 및 차원축소(230)를 위한 인스트럭션들이 저장되어 있을 수 있다.

프로세서(120)는 소리정보를 분석하기 위하여 소리정보의 유효한 특징을 추출하여야 한다. 따라서 전처리모듈(140)에는 소리정보에서 특징정보를 추출하기 위한 인스트럭션(도 2 예시에서의 특징정보추출(210))이 저장되어 있을 수 있다.

예를 들어 특징정보추출(210)은 MFCC(Mel Frequency Cepstral Coefficient)에 상응하는 인스트럭션일 수 있다. MFCC는 소리의 특징을 추출하는 방법이다. MFCC에 따르면, 소리정보를 일정한 시간　구간(Short time)으로 나누고, 나누어진 시간 구간에 대한　스펙트럼을 분석하여　특징정보를 추출할 수 있다. MFCC에 따라 추출된 특징정보는 소리정보의 각 시간 구간에 대한 "진폭, 시간(러닝타임) 및 진동수"에 대한 정보를 포함할 수 있다. 또한 경우에 따라 특징정보추출(210)은 dMFCC(delta Mel Frequency Cepstral Coefficient) 및/또는 ddMFCC(delta delta Mel Frequency Cepstral Coefficient)에 상응하는 인스트럭션을 더 포함할 수 있고, 이에 따라 프로세서(120)가 MFCC 외에 dMFCC 및/또는 ddMFCC도 이용하여 특징정보를 생성할 수도 있을 것이다. 프로세서(120)가 특징정보추출(210)을 이용하여 특징정보를 추출하는 구성은 통상의 기술자에 있어서 자명한 사항이므로 이에 대한 구체적인 설명은 생략한다.

또한 프로세서(120)는 소리정보를 분석하기 위해서 소리정보의 박자정보를 추출할 수 있다. 따라서 전처리모듈(140)에는 소리정보에서 박자정보를 추출하기 위한 인스트럭션(도 2 예시에서의 박자정보추출(220))이 저장되어 있을 수 있다. 여기서 박자정보는 소리정보를 분석하여 추출한 분당 박자에 대한 정보(Beat Per Minute, BPM)일 수 있다. 예를 들어 프로세서(120)는 소리정보를 상기 MFCC 방법과 동일한 시간 구간으로 구분할 수 있고, 구분된 각 시간 구간에 대한 진폭 피크값(Peak value)의 주기를 분석하여 박자정보를 추출할 수 있다. 즉, 프로세서(120)는 진폭 피크값이 일정하게 반복되면 그 반복 시간을 분석하여 박자정보를 생성할 수 있다. 또한, 프로세서(120)는 진폭 피크값이 일정하게 반복되지 않는다면, 일정한 박자가 없음에 상응하는 박자정보를 생성할 수 있을 것이다. 프로세서(120)가 박자정보추출(220)을 이용하여 박자정보를 추출하는 구성은 통상의 기술자에 있어서 자명한 사항이므로 이에 대한 구체적인 설명은 생략한다.

도 3은 본 발명의 일 실시예에 따른 메모리에 저장될 수 있는 특징정보 추출을 위한 프로그램 인스트럭션의 예시이다.

도 3의 상부에 예시된 인스트럭션들을 통해, 프로세서(120)는 MFCC를 이용하여 소리정보에서 특징정보를 추출할 수 있다. 또한, 하부에 예시된 인스트럭션을 통해, 프로세서(120)는 소리정보에서 박자정보를 추출할 수 있을 것이다.

다시 도 2를 참조하면, 프로세서(120)는 특징정보 및/또는 박자정보를 미리 설정된 방법에 따라 보다 간단히 정리할 수 있다. 이를 통해 프로세서(120)는 적은 용량의 데이터 분석으로 소리정보의 음원정보 여부를 판단할 수 있다. 따라서 전처리모듈(140)에는 특징정보 및/또는 박자정보를 보다 간단히 정리하기 위한 인스트럭션(도 2 예시에서의 차원축소(230))이 저장되어 있을 수 있다.

예를 들어 차원축소(230)는 주성분 분석법(PCA, Principal Component Analysis)에 상응하는 인스트럭션일 수 있다. 주성분 분석법(PCA)는 데이터의 분산(Variance)을 최대한 보존하면서 서로 직교하는 새 기저축을 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 방법이다. 프로세서(120)는 PCA 방법을 이용하여 고차원의 정보인 특징정보 및/또는 박자정보를 저차원의 정보로 변환시킬 수 있다.

예를 들어, 특징정보가 소리정보의 각 시간구간에 대한 "진폭, 시간, 진동수"에 대한 정보인 경우를 가정한다. 특징정보가 3차원의 정보이고, 박자정보가 1차원의 정보이므로, 특징정보와 박자정보를 합치면 총 4차원의 정보일 수 있다. 따라서 프로세서(120)는 PCA 방법을 통해 4차원의 정보를 1차원의 정보로 축소시킬 수 있다. 프로세서(120)가 특징정보 및/또는 박자정보의 차원을 축소시켜서 생성된 정보를 축소정보라 칭한다. 프로세서(120)가 축소정보를 생성하는 구성은 통상의 기술자에 있어서 자명한 사항이므로 이에 대한 구체적인 설명은 생략한다.

도 4는 본 발명의 일 실시예에 따른 메모리에 저장될 수 있는 축소정보 생성을 위한 인스트럭션의 예시이다.

도 4에 예시된 인스트럭션들을 통해, 프로세서(120)는 PCA를 이용하여 특징정보 및/또는 박자정보의 차원을 축소시킨 축소정보를 생성할 수 있을 것이다.

또한, 도 5는 본 발명의 일 실시예에 따라 생성된 축소정보를 예시한 도면이다.

도 5를 참조하면, 프로세서(120)는 소리정보(510)가 입력되면 (MFCC 방법을 통한) 특징정보 및/또는 박자정보를 추출할 수 있고, PCA를 통해 특징정보 및/또는 박자정보의 차원을 축소시킨 축소정보(520)를 생성할 수 있다. 도 5의 예시에서 축소정보(520)의 데이터스트림의 각 셀(cell)은 단일 시간 구간에 상응하는 축소정보를 의미할 수 있다.

상술한 바와 같이, 프로세서(120)는 전처리모듈(140)의 인스트럭션을 이용하여 소리정보에 상응하는 축소정보를 생성할 수 있다.

다시 도 1을 참조하면, 프로세서(120)는 축소정보를 이용하여 딥러닝 모듈(150)을 통해 소리정보가 저작물인 음원에 대한 것인지 여부를 판단할 수 있다. 딥러닝 모듈(150)에는 딥러닝 프로그램이 저장되어 있을 수 있다. 예를 들어, 딥러닝 모듈(150)에는 CNN(Convolutional Neural Network)에 상응하는 인스트럭션이 저장되어 있을 수 있다. 딥러닝 모듈(150)에 저장된 딥러닝 프로그램은 미리 설정된 라벨링된 정보를 기반으로 미리 학습되어 있을 수 있다. 따라서 프로세서(120)는 축소정보를 딥러닝 프로그램의 입력으로 이용하여 소리정보가 음원정보인지 여부를 판단할 수 있다. 딥러닝 프로그램의 학습 방법에 대해서는 도 7을 참조하여 후술한다.

딥러닝 프로그램을 통해 소리정보가 저작물인 음원에 대한 정보인 것으로 판단되면, 프로세서(120)는 당해 소리정보에 대한 음원정보를 생성할 수 있다. 음원정보는 소리정보의 사용 출처에 대한 정보(이하, '출처정보'라 칭함) 및 저작권에 대한 정보(이하, '저작권정보'라 칭함)를 포함할 수 있다. 출처정보는 당해 음원이 방송된 채널번호, 방송국, 방송 시간 등에 대한 정보를 포함할 수 있다. 저작권정보는 당해 음원에 대한 명칭, 작곡가정보, 작사가정보, 연주자정보 등을 포함할 수 있다.

프로세서(120)가 소리정보에 대한 음원정보를 생성하는 동작은 다양한 방법에 의할 수 있다. 예를 들어, 출처정보는 사용자가 소리정보판단장치(100)의 입력장치를 조작하여 직접 설정한 정보일 수 있다. 또한 출처정보는 동영상인 소리정보의 이미지를 분석하여 추출한 정보일 수 있다(이미지 분석을 통해 이미지에서 채널정보를 추출하는 종래의 기술 등 사용 가능).

다른 예를 들어, 프로세서(120)는 소리정보에서 미리 설정된 방법을 통해 핑거프린트정보(Fingerprint)를 추출할 수 있고, 기저장된 정보와 핑거프린트정보를 비교하고, 비교 결과 상호 일치하는 정보를 독출하고, 독출된 정보와 매핑된 정보를 이용하여 음원정보를 생성할 수 있을 것이다. 이 경우, 복수의 음원에 대한 핑거프린트정보 및 각 핑거프린트정보에 매핑된 저작권 관련 정보가 미리 판단모듈(160)에 DB(Database)로 구축되어 있어야 할 것이다.

도 1에서는 판단모듈(160)이 소리정보판단장치(100)의 메모리(130)에 포함되어 있는 경우가 예시되었으나, 판단모듈(160)은 소리정보판단장치(100)의 외부에 형성된 DB일 수도 있다. 이 경우 프로세서(120)는 딥러닝모듈(150)을 통해 소리정보가 음원정보라고 판단되면 아래와 같은 동작 중 하나 이상을 수행할 수 있을 것이다.

(1) 프로세서(120)는 소리정보 자체를 외부에 형성된 판단모듈(160)로 전송하고, 판단모듈(160)은 소리정보를 분석하여 소리정보에 상응하는 음원정보를 생성한 후 프로세서(120)로 전송할 수 있으며, 프로세서(120)는 음원정보를 메모리(130)에 저장한 후 각종 통계자료를 생성할 수 있다.

(2) 프로세서(120)는 미리 설정된 방법에 따라 소리정보의 핑거프린트정보를 추출하여 외부에 형성된 판단모듈(160)로 전송하고, 판단모듈(160)은 당해 핑거프린트정보에 매핑된 음원정보를 독출한 후 프로세서(120)로 전송할 수 있으며, 프로세서(120)는 음원정보를 메모리(130)에 저장한 후 각종 통계자료를 생성할 수 있다.

이하, 도 6 및 도 7을 참조하여 본 발명의 일 실시예에 따른 소리 정보 판단 동작에 대해 다시 한번 정리하여 설명한다.

도 6은 본 발명의 일 실시예에 따른 소리정보 판단 방법에 대한 순서도이고, 도 7은 본 발명의 일 실시예에 따라 소리 정보를 판단하기 위한 딥러닝 프로그램을 학습시키는 방법에 대한 순서도이다.

도 6 및 도 7에 예시된 각 단계들은 도 1 및 도 2를 참조하여 설명한 소리정보판단장치(100)의 각 구성요소들이 개별적으로 수행하는 동작들일 수도 있으나, 이해와 설명의 편의를 위하여 소리정보판단장치(100)가 수행하는 것으로 통칭하여 설명한다.

단계 S610에서, 소리정보판단장치(100)는 소리정보가 수신되면, 수신된 소리정보에서 제1 특징정보를 추출할 수 있다. 제1 특징정보는 소리정보에 대한 MFCC(Mel Frequency Cepstral Coefficient) 결과값일 수 있다. 제1 특징정보는 소리정보의 각 시간구간에 대한 "진폭, 시간(러닝타임), 진동수"를 포함할 수 있다.

단계 S620에서, 소리정보판단장치(100)는 수신된 소리정보에서 제1 박자정보를 추출할 수 있다. 제1 박자정보는 소리정보의 각 시간구간의 진폭 피크값을 이용하여 생성한 BPM(Beat Per Minute )일 수 있다.

단계 S630에서, 소리정보판단장치(100)는 제1 특징정보 및/또는 제1 박자정보를 미리 설정된 방법에 따라 차원축소하여 제1 축소정보를 생성할 수 있다. 제1 축소정보는 소리정보의 각 시간구간에 대하여 PCA(Principal Component Analysis)를 적용한 결과값일 수 있다.

단계 S640에서, 소리정보판단장치(100)는 제1 축소정보를 딥러닝 프로그램의 입력값으로 하여 당해 소리정보가 저작물인 음원에 상응하는지 여부를 판단할 수 있다. 여기서 당해 딥러닝 프로그램은 미리 라벨링된 정보를 이용하여 학습된 CNN일 수 있다. 딥러닝 프로그램은 아래와 같은 방법에 따라 미리 학습된 프로그램일 수 있다.

먼저, 단계 S710에서, 소리정보판단장치(100)는 라벨링된 학습용 소리정보에서 제2 특징정보를 추출할 수 있다. 제2 특징정보는 제1 특징정보와 동일한 방법에 따라 학습용 소리정보에서 추출된 정보일 수 있다.

단계 S720에서, 소리정보판단장치(100)는 당해 학습용 소리정보에서 제2 박자정보를 추출할 수 있다. 제2 박자정보는 제1 박자정보와 동일한 방법에 따라 학습용 소리정보에서 추출된 정보일 수 있다.

단계 S730에서, 소리정보판단장치(100)는 제2 특징정보와 제2 박자정보를 미리 설정된 방법에 따라 차원축소하여 제2 축소정보를 생성할 수 있다. 제2 축소정보는 제1 축소정보와 동일한 방법에 따라 학습용 소리정보에서 추출된 정보일 수 있다.

단계 S740에서, 소리정보판단장치(100)는 제2 축소정보를 이용하여 딥러닝 프로그램을 학습시킬 수 있다. 즉, 음원에 상응하는 제2 축소정보 또는 비음원에 상응하는 제2 축소정보를 통해 딥러닝 프로그램은 학습될 수 있다.

여기에서는 소리정보판단장치(100)가 딥러닝 프로그램을 학습시키는 경우를 가정하고 설명하였으나, 딥러닝 프로그램은 다른 장치에서 학습된 후 소리정보판단장치(100)에 저장된 프로그램일 수도 있다.

상술한 본 발명에 따른 소리 정보 판단 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

또한, 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 소리정보판단장치
110: 수신부
120: 프로세서
130: 메모리
140: 전처리모듈
150: 딥러닝모듈
160: 소리판단모듈
170: 마이크
180: 음원DB

Claims

프로세서; 및
상기 프로세서에 전기적으로 연결되고, 딥러닝 프로그램이 저장된 메모리;
를 포함하고,
상기 메모리는,
상기 프로세서의 실행 시에 소리정보가 수신되면, 미리 설정된 방법에 따라 상기 소리정보에서 제1 특징정보 및 제1 박자정보를 추출하고,
미리 설정된 방법에 따라 상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 1차원의 정보인 제1 축소정보를 생성하고, 상기 제1 축소정보를 이용하여 상기 딥러닝 프로그램을 통해 상기 소리정보가 음원에 대한 것인지 여부를 판단하고,
상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 인스트럭션들을 저장하되,
상기 제1 축소정보는 단일 시간 구간에 상응하는 상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 데이터 스트림으로 형성된 것인, 소리정보 판단 장치.
삭제
삭제
제1항에 있어서,
상기 딥러닝 프로그램은,
라벨링된 학습용 소리정보에서 추출된 제2 특징정보 및 제2박자정보의 차원을 미리 설정된 방법으로 축소한 제2 축소정보를 이용하여 학습된 것인, 소리 정보 판단 장치.
소리 정보 판단 장치에서 수행되는 수리 정보 판단 방법에 있어서,
소리정보가 수신되면, 미리 설정된 방법에 따라 상기 소리정보에서 제1 특징정보 및 제1 박자정보를 추출하는 단계; 및
상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 1차원의 정보인 제1 축소정보를 생성하고, 상기 제1 축소정보를 이용하여 딥러닝 프로그램을 통해 상기 소리정보가 음원에 대한 것인지 여부를 판단하는 단계; 및
상기 소리정보가 상기 음원에 대한 것으로 판단되면, 상기 소리정보에 상응하는 음원정보를 생성하는 단계;
를 더 포함하되,
상기 제1 축소정보는 단일 시간 구간에 상응하는 상기 제1 특징정보 및 상기 제1 박자정보의 차원을 축소하여 데이터 스트림으로 형성된 것인, 소리 정보 판단 방법.
삭제
삭제
제5항에 있어서,
상기 딥러닝 프로그램은,
라벨링된 학습용 소리정보에서 추출된 제2 특징정보 및 제2박자정보의 차원을 미리 설정된 방법으로 축소한 제2 축소정보를 이용하여 학습된 것인, 소리 정보 판단 방법.