KR102504081B1 - System for mastering sound files - Google Patents

System for mastering sound files Download PDF

Info

Publication number
KR102504081B1
KR102504081B1 KR1020220103455A KR20220103455A KR102504081B1 KR 102504081 B1 KR102504081 B1 KR 102504081B1 KR 1020220103455 A KR1020220103455 A KR 1020220103455A KR 20220103455 A KR20220103455 A KR 20220103455A KR 102504081 B1 KR102504081 B1 KR 102504081B1
Authority
KR
South Korea
Prior art keywords
sound
file
surround
mastering
sound source
Prior art date
Application number
KR1020220103455A
Other languages
Korean (ko)
Inventor
하수호
Original Assignee
주식회사 킨트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 킨트 filed Critical 주식회사 킨트
Priority to KR1020220103455A priority Critical patent/KR102504081B1/en
Application granted granted Critical
Publication of KR102504081B1 publication Critical patent/KR102504081B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Abstract

The present invention relates to a sound file mastering system comprising: a sound collection part that extracts sound data included in an original image; a mastering part that generates a plurality of surround sound source files for the sound data, and applies a mastering result to each of the generated surround sound source files; and an encoding part that encodes the surround sound source file and the sound mastering result in the original image. Therefore, the present invention is capable of reducing a working time.

Description

사운드 파일 마스터링 시스템{System for mastering sound files}Sound file mastering system {System for mastering sound files}

본 발명은 사운드 파일 마스터링 시스템에 관한 것으로, 더욱 상세하게는 인공 지능을 이용하여 영상 속 사운드 파일들에 다양한 입체음향 및 사운드 효과들을 간편하고 신속하게 적용시킬 수 있는 사운드 파일 마스터링 시스템에 관한 것이다.The present invention relates to a sound file mastering system, and more particularly, to a sound file mastering system capable of conveniently and quickly applying various stereoscopic sounds and sound effects to sound files in a video using artificial intelligence. .

소셜 미디어 시장은 전세계 수십억명의 사용자가 매일 사용중이며, 업로드 되는 동영상 콘텐츠의 양 또한 수천만개에 달하고 있어 일상생활에 대한 공유를 넘어 생계와 학습 교육 문화 예술까지 모든 삶을 관장하는 단계에 이르렀다.The social media market is used by billions of users around the world every day, and the amount of uploaded video content reaches tens of millions, so it has reached a stage where it governs all aspects of life, from sharing about daily life to livelihood, learning, education, culture and art.

동영상을 제작하고 업로드 되는 과정에서 지원되는 그래픽 효과와 VR/MR 기기에서 사용될 수 있도록 하는 기술적 지원, 라이브 방송에서 제공되는 무료 배경과 이미지 효과와 같은 발전과 지원과는 달리, 사운드와 관련하여 일반인들이 사용할 수 있는 기능이나 프로그램이 없으며 사운드 콘텐츠 제작을 위해서는 대체적으로 전문가들에게 비싼 비용을 들여 의뢰하고 있는 실정이다.Unlike developments and support such as graphic effects supported in the process of producing and uploading a video, technical support for use in VR/MR devices, and free background and image effects provided in live broadcasting, the general public in relation to sound There are no functions or programs that can be used, and in order to produce sound content, experts are generally commissioned at high cost.

Adobe Audition이나 로직과 같은 프로그램은 사용법이 전문적이고 어려우며 사운드 작업 후에 다시 영상과 합치는 인코딩 작업을 거쳐야 하기 때문에 일반인이 전문적인 사운드 작업을 한다는 것은 매우 어려운 것이 현실이다.Programs such as Adobe Audition and Logic are professional and difficult to use, and it is very difficult for ordinary people to do professional sound work because they have to go through encoding work to combine them with video again after sound work.

또한, 메타버스의 4대 요소 중 하나인 실감음향이 중요한 시점에 일반인이 우수한 그래픽 기술을 영상에 도입 후 일반 휴대폰으로 녹음된 음향을 그대로 적용시키는 경우가 대부분이며, 전문가들 또한 서라운드 입체음향 작업에 대한 의뢰가 들어올 경우 상당히 고가의 작업비를 요구 또는 특별한 지식이 없는 경우도 존재하여 콘텐츠 시장의 발전 속도를 고려할 때 그 해결책이 시급한 상황이다.In addition, at a time when realistic sound, one of the four elements of the metaverse, is important, in most cases, ordinary people apply excellent graphic technology to video and then apply the sound recorded with a general mobile phone as it is, and experts also work on surround stereo sound. Considering the speed of development of the content market, a solution is urgently needed as there are cases in which there is a case where there is a request for a very expensive work fee or there is no special knowledge.

한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.On the other hand, the above-mentioned background art is technical information that the inventor possessed for derivation of the present invention or acquired in the process of derivation of the present invention, and cannot necessarily be said to be known art disclosed to the general public prior to filing the present invention. .

한국등록특허 제10-2412134호Korean Patent Registration No. 10-2412134

본 발명의 일측면은 인공 지능을 이용하여 영상 속 사운드 파일들에 다양한 입체음향 생성 기능과 복잡한 사운드의 음질 개선과 보정 작업들을 한 번에 수행하는 사운드 파일 마스터링 시스템을 제공한다.One aspect of the present invention provides a sound file mastering system that performs various 3D sound generation functions and complex sound quality improvement and correction tasks for sound files in a video using artificial intelligence at once.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problem of the present invention is not limited to the technical problem mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명의 일 실시예에 따른 사운드 파일 마스터링 시스템은, 원본 영상 내 포함된 사운드 데이터를 추출하는 사운드 수집부; 상기 사운드 데이터에 대한 복수의 서라운드 음원 파일을 생성하고, 생성된 각각의 서라운드 음원 파일에 마스터링 결과를 적용하는 마스터링부; 및 원본 영상에 서라운드 음원 파일 및 사운드 마스터링 결과를 인코딩하는 인코딩부;를 포함한다.A sound file mastering system according to an embodiment of the present invention includes a sound collection unit for extracting sound data included in an original video; a mastering unit generating a plurality of surround sound source files for the sound data and applying a mastering result to each of the generated surround sound source files; and an encoding unit that encodes the surround sound source file and the sound mastering result into the original video.

상기 마스터링부는,The mastering unit,

인공 신경망을 이용하여 상기 사운드 데이터에 가장 적합한 업믹스(upmix) 방식을 선별하여 추천하고, 추천된 업믹스 방식에 따라 상기 사운드 데이터에 대한 복수의 서라운드 음원 파일을 생성하고, 생성된 각각의 서라운드 음원 파일에 따른 음향 신호를 3차원 가상 공간 내에서 서로 다른 위치에 배치된 가상 스피커로 할당하여, 가상 스피커에서 출력된 음향 신호가 3차원 가상 공간에 위치한 청취자 객체에 도달하는 이동 경로를 고려하여 서라운드 음향 효과를 적용하는 서라운드 효과 설정부; 및Using an artificial neural network, an upmix method most suitable for the sound data is selected and recommended, a plurality of surround sound source files for the sound data are generated according to the recommended upmix method, and each of the generated surround sound sources is selected. By allocating sound signals according to files to virtual speakers placed at different locations within the 3D virtual space, the sound signal output from the virtual speakers considers the moving path to reach the listener object located in the 3D virtual space. a surround effect setting unit for applying an effect; and

인공 신경망을 이용하여 각각의 서라운드 음원 파일에 마스터링을 진행할 모드를 추천하고, 추천된 복수의 모드 중 어느 하나의 음향 이펙트 효과를 발생시키는 모드에 따라 서라운드 음원 파일을 마스터링하는 사운드 이펙트 효과 설정부;를 포함한다.A sound effect setting unit that recommends a mode for mastering each surround sound source file using an artificial neural network and masters the surround sound source file according to a mode generating one sound effect effect among a plurality of recommended modes. includes;

상기 서라운드 효과 설정부는,The surround effect setting unit,

상기 3차원 가상 공간 상에 배치된 가상 스피커에서 출력된 원본 음향 신호가 가상 공간에 위치한 청취자 객체의 왼쪽 귀와 오른쪽 귀에 도달하는 이동 경로를 추정하고, 상기 이동 경로에 기초하여 상기 청취자 객체의 왼쪽 귀와 오른쪽 귀에 대한 원본 음향 신호를 믹싱하여 서라운드 음향 효과가 적용된 최종 음향 신호를 출력한다.A movement path in which an original sound signal output from a virtual speaker disposed in the 3D virtual space reaches the left and right ears of a listener object located in the virtual space is estimated, and based on the movement path, the left ear and the right ear of the listener object are estimated. The final sound signal to which the surround sound effect is applied is output by mixing the original sound signal for the ears.

상기 서라운드 효과 설정부는,The surround effect setting unit,

상기 3차원 가상 공간 내에 존재하는 리스너 객체를 기준으로 하는 기준 영역을 복수의 서브 영역으로 분할하고, 분할된 각각의 서브 영역별로 서로 다른 가중치가 적용된 원본 음향 신호의 이동 경로를 매핑하며,Dividing a reference region based on a listener object existing in the 3D virtual space into a plurality of sub-regions, and mapping a movement path of an original sound signal to which different weights are applied for each of the divided sub-regions;

상기 가중치는, 동일한 셀에 대해 청취자의 왼쪽 귀와 오른쪽 귀마다 서로 다르게 설정되며, 상기 가중치는 상기 청취자의 왼쪽 귀와 오른쪽 귀를 중심으로 가상 음원으로부터 출력된 원본 음향 신호가 청취자까지 도달하는 이동 경로의 거리, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 각도, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 횟수 및 가상 음원으로부터 출력된 원본 음향 신호가 청취자로 입사하는 각도 중 적어도 하나에 기초하여 결정된다.The weights are set differently for the listener's left and right ears for the same cell, and the weights are the distances of the movement paths that the original sound signals output from the virtual sound source reach to the listeners centered on the listener's left and right ears. At least one of the angle at which the original sound signal output from the virtual sound source is reflected in the virtual space, the number of times the original sound signal output from the virtual sound source is reflected in the virtual space, and the angle at which the original sound signal output from the virtual sound source is incident on the listener. is determined based on

사운드 이펙트 효과 설정부는,The sound effect effect setting unit,

인공 신경망을 이용하여 데이터베이스에 미리 저장된 복수의 레퍼런스 사운드 파일과 마스터링 결과가 적용된 서라운드 음원 파일 간의 유사도를 산출하여, 유사도가 가장 높은 어느 하나의 레퍼런스 사운드 파일을 추출하고, 추출된 레퍼런스 사운드 파일로부터 수집된 사운드 데이터의 특징에 기초하여 서라운드 음원 파일별로 사운드 이펙트 효과를 보정한다.By using an artificial neural network, the similarity between a plurality of reference sound files pre-stored in the database and the surround sound source file to which the mastering result is applied is calculated, and any one reference sound file having the highest similarity is extracted and collected from the extracted reference sound file. The sound effect effect is corrected for each surround sound source file based on the characteristics of the received sound data.

상기 사운드 이펙트 효과 설정부는,The sound effect effect setting unit,

마스터링 결과가 적용된 서라운드 음원 파일에 대한 스펙트로그램을 생성하고, 인공 신경망을 이용하여 미리 저장된 복수의 레퍼런스 사운드 파일별 스펙트로그램 중 상기 생성된 스펙트로그램의 주파수 대역별로 유사도가 높은 기준 스펙트로그램을 추출하고, 주파수 대역별로 추출된 기준 스펙트로그램에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용한다.Generates a spectrogram for a surround sound source file to which the mastering result is applied, and extracts a reference spectrogram having a high degree of similarity for each frequency band of the generated spectrogram among the spectrograms for each of a plurality of pre-stored reference sound files using an artificial neural network, , Sound effect effects corresponding to the reference spectrogram extracted for each frequency band are applied for each frequency band of the surround sound source file.

상기 사운드 이펙트 효과 설정부는,The sound effect effect setting unit,

서라운드 음원 파일에 대한 스펙트로그램으로부터 복수의 기준 특징점을 추출하고, 추출된 복수의 기준 특징점을 연결하는 기준선분을 생성하고, 기준선분의 방향 및 크기를 나타내는 기준 특징벡터를 추출하고, Extracting a plurality of reference feature points from the spectrogram of the surround sound source file, generating a reference line segment connecting the plurality of extracted reference feature points, extracting a reference feature vector indicating the direction and size of the reference line segment,

미리 저장된 복수의 레퍼런스 사운드 파일별 스펙트로그램 각각에 대하여 복수의 비교 특징점을 추출하고, 추출된 복수의 비교 특징점을 연결하는 비교선분을 생성하고, 비교선분의 방향 및 크기를 나타내는 비교 특징벡터를 추출하고,A plurality of comparison feature points are extracted for each of the spectrograms for each of a plurality of pre-stored reference sound files, a comparison line segment connecting the extracted plurality of comparison feature points is generated, and a comparison feature vector representing the direction and size of the comparison line is extracted. ,

인공 신경망을 이용하여 레퍼런스 사운드 파일별로 생성된 복수의 비교 특징벡터 중 기준 특징벡터과 가장 유사한 어느 하나의 비교 특징벡터를 선택하고, 선택된 어느 하나의 비교 특징벡터에 대응되는 레퍼런스 사운드 파일에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용한다.Using an artificial neural network, a comparison feature vector most similar to a reference feature vector is selected from among a plurality of comparison feature vectors generated for each reference sound file, and a sound effect corresponding to the reference sound file corresponding to the selected comparison feature vector is performed. The effect is applied for each frequency band of the surround sound source file.

상기 마스터링부는,The mastering unit,

사운드 데이터의 동적 범위(dynamic range)를 제어하는 음향 개선부를 더 포함하고,Further comprising a sound enhancement unit for controlling a dynamic range of sound data;

상기 음향 개선부는,The sound improvement unit,

인공 신경망을 이용하여 데이터베이스에 저장된 복수의 레퍼런스 사운드 파일과 상기 서라운드 음원 파일 간의 유사도를 산출하여, 상기 서라운드 음원 파일과 유사도가 가장 높은 어느 하나의 레퍼런스 사운드 파일을 추출하고, 추출된 레퍼런스 사운드 파일으로부터 수집된 사운드 데이터의 압축 범위 및 강도에 기초하여 원본 영상에 인코딩되는 서라운드 음원 파일의 압축 범위 및 강도를 자동으로 설정한다.A similarity between a plurality of reference sound files stored in a database and the surround sound source file is calculated using an artificial neural network, a reference sound file having the highest similarity to the surround sound source file is extracted, and collected from the extracted reference sound file. Based on the compression range and strength of the compressed sound data, the compression range and strength of the surround sound source file encoded in the original video are automatically set.

상술한 본 발명의 일측면에 따르면, 영상과 음성을 분리, 사운드 편집기에 업로드 후 Upmixer로 서라운딩 후 서라운드 패널에서 믹스, 사운드효과 작업 및 마스터링, 비디오 편집기에 업로드 후 영상과 음원 싱크 확인하는 종래의 사운드 마스터링 작업의 각 과정들을 통합하여 작업시간을 절감시킬 수 있다.According to one aspect of the present invention described above, after separating video and audio, uploading them to a sound editor, surround them with Upmixer, mixing, sound effect work and mastering in a surround panel, uploading them to a video editor, and then checking the synchronization of video and sound sources. It is possible to reduce working time by integrating each process of sound mastering work.

또한, 인공지능을 통해 단순히 단순히 스스로 작업한 히스토리의 결과값을 재추천받고 출력하는 것에 그치지 않고 DB에 저장된 수백만개의 코드 스크립트들 중 비슷한 성격으로 분류된 코드들이 인공지능에 의하여 재조합되어 비슷한 프로페셔널 레퍼런스가 존재하는지 또는 의도적으로 저품질로 제작된 사운드를 호출하여 이상 유무를 확인하여 결과물을 새로운 코드로 생산함으로써 사용자의 음원 파일에 가장 적합한 사운드 효과를 추천할 수 있다.In addition, through artificial intelligence, codes classified with similar characteristics among millions of code scripts stored in the DB are recombined by artificial intelligence to create similar professional references, rather than simply re-recommending and outputting the results of the history of their own work. It is possible to recommend the most suitable sound effect for the user's sound source file by calling the sound that exists or intentionally produced with low quality to check for abnormalities and produce the result as a new code.

이에 따라, 확장된 공간감과 입체감으로 구현하는 Surround Converting Encoder 및 EQ, Reverb, Noise Reduction 등 다양한 사운드 효과를 몇 번의 클릭 또는 터치만으로도 설정할 수 있어 음향 작업의 비용과 시간을 획기적으로 단축시킬 수 있다.As a result, various sound effects such as Surround Converting Encoder, EQ, Reverb, and Noise Reduction can be set with just a few clicks or touches, which can dramatically reduce the cost and time of sound work.

도 1 및 도 2는 본 발명의 일 실시예에 따른 사운드 파일 마스터링 시스템의 개략적인 구성이 도시된 도면이다.
도 3은 서라운드 사운드 효과를 적용하는 일 예가 도시된 도면이다.
도 4는 서라운드 음원 파일에 마스터링 효과를 적용하는 일 예가 도시된 도면이다.
도 5는 스펙트로그램으로부터 특징점 및 특징선분을 생성하는 일 예가 도시된 도면이다.
1 and 2 are diagrams showing a schematic configuration of a sound file mastering system according to an embodiment of the present invention.
3 is a diagram illustrating an example of applying a surround sound effect.
4 is a diagram illustrating an example of applying a mastering effect to a surround sound source file.
5 is a diagram illustrating an example of generating feature points and feature lines from a spectrogram.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The detailed description of the present invention which follows refers to the accompanying drawings which illustrate, by way of illustration, specific embodiments in which the present invention may be practiced. These embodiments are described in sufficient detail to enable one skilled in the art to practice the present invention. It should be understood that the various embodiments of the present invention are different from each other but are not necessarily mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be implemented in another embodiment without departing from the spirit and scope of the invention in connection with one embodiment. Additionally, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. Accordingly, the detailed description set forth below is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is limited only by the appended claims, along with all equivalents as claimed by those claims. Like reference numbers in the drawings indicate the same or similar function throughout the various aspects.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the drawings.

도 1 및 도 2는 본 발명의 일 실시예에 따른 사운드 파일 마스터링 시스템의 개략적인 구성이 도시된 도면이다.1 and 2 are diagrams showing a schematic configuration of a sound file mastering system according to an embodiment of the present invention.

본 발명에 따른 서라운드 사운드 정보 처리 시스템은 영상 내 원본 음향 신호를 서라운드 음향 효과가 반영된 음향 신호로 변환하고, 변환된 음향 신호가 적용된 영상을 재생성하는 서비스를 제공하는 것을 목적으로 한다.A surround sound information processing system according to the present invention aims to provide a service of converting an original sound signal in an image into a sound signal to which a surround sound effect is reflected and regenerating an image to which the converted sound signal is applied.

즉, 본 발명에 따른 서라운드 사운드 정보 처리 시스템은 서라운드 사운드 모드 선택 시 영상 업로드 와 동시에 서라운딩 진행을 셋업하여 다채널 음성신호로 사운드를 분할하고 사용자가 서라운드 모드 선택 시 즉각 출력하는 기능 및 사운드 컨버팅 기능을 제공할 수 잇다.That is, the surround sound information processing system according to the present invention sets up surround progress simultaneously with video upload when selecting the surround sound mode, divides the sound into multi-channel audio signals, and outputs the sound immediately when the user selects the surround mode, and the sound converting function can provide

이를 위해, 본 발명에 따른 사운드 정보 처리 시스템은 사운드 수집부(100), 마스터링부(200) 및 인코딩부(300)를 포함한다.To this end, the sound information processing system according to the present invention includes a sound collecting unit 100, a mastering unit 200, and an encoding unit 300.

사운드 수집부(100)는 원본 영상 내 포함된 원본 음향 신호를 추출한다.The sound collecting unit 100 extracts an original sound signal included in an original image.

사운드 수집부는 스테레오 사운드 수집부와 스테레오 사운드 수집 후 즉시 업믹스를 진행하는 서라운드 다채널 사운드 생성과, 음질 개선을 수행하는 마스터링부로 구성되어 사운드 정보를 입력받을 수 있는 기능이 구현된다.The sound collecting unit is composed of a stereo sound collecting unit, surround multi-channel sound generation that upmixes immediately after stereo sound collection, and a mastering unit that performs sound quality improvement, and implements a function of receiving sound information.

이를 위해, 본 발명에 따른 사운드 정보 처리 시스템은 스테레오 모드와 서라운드 모드 중 어느 하나의 동작 모드로 동작된다.To this end, the sound information processing system according to the present invention is operated in any one of the stereo mode and the surround mode.

사용자가 스테레오 모드를 선택하는 경우 원본 영상에 음원을 추출하는 단순 기능을 제공한다.When the user selects the stereo mode, a simple function of extracting the sound source from the original video is provided.

반면, 사용자가 서라운드 모드를 선택하는 경우 스테레오 파일을 영상 업로드와 동시에 분리하고, 분리된 음성파일을 사용자가 선택한 서라운드 사운드 모드로 (4,5.1.7.1.9.1) 컨버팅 하는 다채널 사운드 변환 기능을 제공할 수 있다.On the other hand, if the user selects the surround mode, it separates the stereo file at the same time as the video is uploaded, and provides a multi-channel sound conversion function that converts the separated audio file into the surround sound mode (4,5.1.7.1.9.1) selected by the user. can do.

이하에서는 설명의 편의를 위해, 본 발명에 따른 사운드 정보 처리 시스템은 기본적으로 서라운드 모드로 동작되는 것으로 가정하여 설명하기로 한다.Hereinafter, for convenience of explanation, it is assumed that the sound information processing system according to the present invention is basically operated in a surround mode.

마스터링부(200)는 상기 사운드 데이터에 서라운드 효과 및 음향 이펙트 효과를 적용한다.The mastering unit 200 applies surround effects and sound effects to the sound data.

이를 위해, 마스터링부(200)는 서라운드 효과 설정부(210) 및 사운드 이펙트 효과 설정부(220)를 포함한다.To this end, the mastering unit 200 includes a surround effect setting unit 210 and a sound effect setting unit 220.

서라운드 효과 설정부(210)는 상기 사운드 데이터를 업믹스(upmix)하여 다채널의 음향 신호로 분할하고, 분할된 각각의 다채널 음향 신호를 3차원 가상 공간 내에서 서로 다른 위치에 배치된 가상 스피커로 할당하여, 가상 스피커에서 출력된 음향 신호가 3차원 가상 공간에 위치한 청취자 객체에 도달하는 이동 경로를 고려하여 서라운드 음향 효과를 적용한다.The surround effect setting unit 210 upmixes the sound data and divides the multi-channel sound signals into multi-channel sound signals, and virtual speakers disposed at different positions in the 3D virtual space. By assigning to , a surround sound effect is applied in consideration of a moving path in which a sound signal output from a virtual speaker reaches a listener object located in a 3D virtual space.

이를 위해, 서라운드 효과 설정부(210)는 스테레오로 수집된 사운드 정보를 가상공간으로 재입력하여 HRTF 프로세싱을 통해 3차원 공간 내 확장된 공간감과 입체감 구현한다. 여기서, HRTF는 헤드관련전송기능의 약어로, 동일한 소리를 전방위에서 발생시켜 방향에 따른 주파수 반응을 측정하여 3차원 함수로 정리하는 기능이다.To this end, the surround effect setting unit 210 re-inputs sound information collected in stereo into a virtual space and implements an expanded sense of space and a three-dimensional effect in a 3D space through HRTF processing. Here, HRTF is an abbreviation for head-related transmission function, which is a function of generating the same sound in all directions, measuring a frequency response according to a direction, and organizing it into a three-dimensional function.

서라운드 효과 설정부(210)는 상기 3차원 가상 공간 상에 배치된 가상 스피커에서 출력된 원본 음향 신호가 가상 공간에 위치한 청취자 객체의 왼쪽 귀와 오른쪽 귀에 도달하는 이동 경로를 추정하고, 상기 이동 경로에 기초하여 상기 청취자 객체의 왼쪽 귀와 오른쪽 귀에 대한 원본 음향 신호를 위치별로 각각 연산하여 복수의 입체음향 신호를 생성한 후 다운믹싱하여 서라운드 음향 효과가 적용된 최종 음향 신호를 출력하거나 복수의 음원 파일을 그대로 압축, 영상과 인코딩 후 믹싱하여 서라운드 음향 효과가 적용된 최종 음향 신호를 출력한다.The surround effect setting unit 210 estimates a movement path in which an original sound signal output from a virtual speaker disposed in the 3D virtual space reaches the left and right ears of a listener object located in the virtual space, and based on the movement path The original sound signals for the left and right ears of the listener object are respectively calculated for each position to generate a plurality of stereo sound signals, and then downmixed to output a final sound signal to which a surround sound effect is applied or compress a plurality of sound source files as they are, After encoding and mixing with the video, the final sound signal to which the surround sound effect is applied is output.

즉, 서라운드 효과 설정부(210)는 사운드 파일의 주파수 성분을 분석 주파수 대역별 동일한 구성요소를 파악하여 동일과 비동일 파일을 각각 전 후방 지정된 위치로 할당한다.That is, the surround effect setting unit 210 recognizes the frequency components of the sound file as the same component for each analyzed frequency band, and allocates the same and non-identical files to the front and rear designated positions, respectively.

서라운드 효과 설정부(210)는 주파수 공통점을 연산하는 것이 아닌 주파수 대역별로 분리 후 위치를 지정하여 할당하는 방식으로 업믹스(Upmix)된 사운드 파일들에 대한 연산 후 할당된 위치에서 동시에 다운믹스(Down Mix)하고, 다운믹스된 사운드 파일을 좌, 우로 분리한다.The surround effect setting unit 210 does not calculate the common frequency, but separates each frequency band and assigns a location, and calculates upmixed sound files and simultaneously downmixes them at the assigned location. Mix), and separates the downmixed sound file into left and right.

또한, 서라운드 효과 설정부(210)는 상기 3차원 가상 공간 상에 배치된 복수의 가상 음향 신호를 식별하고, 상기 가상 음원에서 출력된 원본 음향 신호가 가상 공간에 위치한 청취자의 왼쪽 귀와 오른쪽 귀에 도달하는 이동 경로를 추정하고, 상기 이동 경로에 기초하여, 상기 청취자의 왼쪽 귀와 오른쪽 귀에 대한 원본 음향 신호를 믹싱하여 서라운드 음향 효과가 적용된 최종 음향 신호를 출력한다.In addition, the surround effect setting unit 210 identifies a plurality of virtual sound signals disposed on the 3D virtual space, and the original sound signal output from the virtual sound source reaches the left and right ears of the listener located in the virtual space. A movement path is estimated, and based on the movement path, original sound signals for the listener's left and right ears are mixed to output a final sound signal to which a surround sound effect is applied.

즉, 서라운드 효과 설정부(210)는 3차원 사운드로 변환된 사운드의 위치와 방향 거리를 감지하기 위한 리스너 객체의 360도 방향별 사운드 가중치를 연산하는 기능을 통해 사운드의 이동 정보를 인코딩할 수 있다.That is, the surround effect setting unit 210 may encode sound movement information through a function of calculating sound weights for each 360-degree direction of the listener object to detect the position and direction distance of the sound converted into 3D sound. .

이를 위해, 서라운드 효과 설정부(210)는 도 3에 도시된 바와 같이 상기 3차원 가상 공간 내에 존재하는 리스너 객체를 기준으로 하는 기준 영역을 복수의 서브 영역으로 분할하고, 분할된 각각의 서브 영역별로 서로 다른 가중치가 적용된 원본 음향 신호의 이동 경로를 매핑한다.To this end, as shown in FIG. 3 , the surround effect setting unit 210 divides a reference area based on a listener object existing in the 3D virtual space into a plurality of sub areas, and for each sub area, The movement path of the original acoustic signal to which different weights are applied is mapped.

3차원 가상 공간 내의 소정 위치에 분산되어 배치되는 가상 음원에서 출력되는 원본 음향 신호는 전파 속성으로 인해 전방향(omni-direction)으로 방사될 수 있다. 그러면, 하나의 가상 음원에서 출력되는 원본 음향 신호는 복수의 이동 경로를 통해 가상 객체에게 도달할 수 있다.An original sound signal output from a virtual sound source distributed and disposed at a predetermined location in a 3D virtual space may be radiated in omni-direction due to propagation properties. Then, the original sound signal output from one virtual sound source may reach the virtual object through a plurality of moving paths.

서라운드 효과 설정부(210)는 보다 현실감있는 입체 음향 효과를 제공하기 위해, 가상 음원에서 가상 객체의 왼쪽 귀와 오른쪽 귀 각각에 도달하는 원본 음향 신호의 이동 경로가 고려될 필요가 있다. 하나의 가상 음원에서 출력된 원본 음향 신호는 레벨차 또는 시간차를 가지는 서로 다른 이동 경로를 통해 리스너 객체를 기준으로 설정된 특정 서브 영역에 도달한다.In order to provide a more realistic 3D sound effect, the surround effect setting unit 210 needs to consider the moving path of the original sound signal reaching the left and right ears of the virtual object from the virtual sound source. An original sound signal output from one virtual sound source reaches a specific sub-region set based on a listener object through different moving paths having a level difference or a time difference.

상기 가중치는, 동일한 셀에 대해 청취자의 왼쪽 귀와 오른쪽 귀마다 서로 다르게 설정되며, 상기 가중치는 상기 청취자의 왼쪽 귀와 오른쪽 귀를 중심으로 가상 음원으로부터 출력된 원본 음향 신호가 청취자까지 도달하는 이동 경로의 거리, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 각도, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 횟수 및 가상 음원으로부터 출력된 원본 음향 신호가 청취자로 입사하는 각도 중 적어도 하나에 기초하여 결정된다.The weights are set differently for the listener's left and right ears for the same cell, and the weights are the distances of the movement paths that the original sound signals output from the virtual sound source reach to the listeners centered on the listener's left and right ears. At least one of the angle at which the original sound signal output from the virtual sound source is reflected in the virtual space, the number of times the original sound signal output from the virtual sound source is reflected in the virtual space, and the angle at which the original sound signal output from the virtual sound source is incident on the listener. is determined based on

가상 영역의 각각의 셀에 할당된 가중치는 가상 공간(503)에 배치된 리스너 객체와 가상 음원, 가상 음원의 위치 또는 방향이 변경됨에 따라 업데이트될 수 있다. 또한, 가상 영역을 구성하는 서브 영역의 개수가 증가할수록 리스너 객체와 가상 음원 또는 리스너 객체와 가상 음원 간의 공간 관계가 보다 정밀하게 결정됨으로써, 사용자가 느낄 수 있는 입체 음향 효과가 좀더 실감있게 표현될 수 있다.A weight assigned to each cell of the virtual area may be updated according to a change in the position or direction of a listener object, a virtual sound source, and a virtual sound source disposed in the virtual space 503 . In addition, as the number of sub-regions constituting the virtual region increases, the spatial relationship between the listener object and the virtual sound source or between the listener object and the virtual sound source is determined more precisely, so that the stereoscopic sound effect that the user can feel can be expressed more realistically. there is.

사운드 이펙트 효과 설정부(220)는 각각의 서라운드 사운드 파일별로 사운드 이펙트를 적용한다.The sound effect setting unit 220 applies a sound effect for each surround sound file.

특히, 본원 발명에 따른 사운드 이펙트 효과 설정부(220)는 사용자들의 마스터링 결과물을 AI에 단순 학습시키는 방식이 아니라, 수백만개 이상의 사운드 정보들과 각 정보들과 이러한 정보들과 같은 효과를 출력하는 소프트웨어의 결과물이 수집된 상태에서 사용자는 자신이 업로드한 영상 내 사운드 파일이 서라운딩, 믹싱 및 마스터링 작업이 완료될 경우 예측되는 가장 비슷한 사운드 값으로 작업된 기존 프로페셔널한 작업자들이 작업한 결과물을 AI 를 통하여 추천받을 수 있는 믹스/마스터링 프로그램을 제공한다.In particular, the sound effect effect setting unit 220 according to the present invention is not a method of simply learning the mastering results of users to AI, but outputs millions of sound information, each information, and the same effect as these information. In the state where the results of the software are collected, the user can use the result of the work of existing professional workers who worked with the most similar sound value predicted when the sound file in the video they uploaded is completed with AI. It provides a mix/mastering program that can be recommended through .

이는 단순히 비슷한 결과값을 추천받고 출력하는 선에서 그치는 것이 아니라 DB 에 저장된 수백만개의 코드 스크립트들 중 비슷한 성격으로 분류된 코드들은 다시 AI 에 의하여 재조합되고 이는 다시 비슷한 프로페셔널 레퍼런스가 존재하는지 또는 의도적으로 저품질로 제작된 사운드를 호출하여 이상 유무를 확인하여 결과물을 새로운 코드로 생산하는 기능을 가진 대형 믹싱/마스터링 코드스크립 아카이브인 것을 특징으로 한다.This does not stop at simply recommending and outputting similar results, but among millions of code scripts stored in the DB, codes classified with similar characteristics are recombined by AI again, which again determines whether similar professional references exist or intentionally low quality. It is characterized by being a large mixing/mastering code script archive with the function of calling the produced sound to check for abnormalities and producing the result as a new code.

사운드 이펙트 효과 설정부(220)는 컴프레서와 관련된 이벤트, 이퀄라이저와 관련된 이벤트가 제작 도구 내 UI를 통해 표시되도록 하여, 사용자가 제작 도구 내 UI를 클릭하여 Event를 발생 시 해당 UI 와 연동 된 Object 내 사운드디자인 코드들을 순차적으로 실행시켜 변환 값을 출력한다.The sound effect setting unit 220 displays events related to the compressor and equalizer through the UI in the production tool, so that when the user clicks the UI in the production tool to generate an event, the sound in the object linked to the corresponding UI Design codes are executed sequentially to output conversion values.

예를 들어, 컴프레서와 관련된 기능들의 경우, 사운드가 감지되면 최고 데시벨이 설정된 dB값을 넘어가는지 감지하여 설정된 dB값을 넘어가게 되면 다음과 같은 코드를 적용하여 사운드 파일을 압축하여 사운드 값을 변화시킬 수 있다.For example, in the case of functions related to a compressor, when a sound is detected, it is detected whether the highest decibel exceeds the set dB value, and when it exceeds the set dB value, the following code is applied to compress the sound file and change the sound value. can

일 실시예에서, 1~100까지 적용이 가능한 경우 게인값이 설정된 dB값을 넘어가는 사운드가 감지될 때 컴프레스의 압축 적용 범위를 넓히며 적용한다. 예를들어 1~10 1~20 1~30 과 같이 확장하여 적용하며 설정된 dB값을 넘지 않을 때까지 적합한 컴프레스 범위의 코드를 추천하고 이를 에디터에 버튼 UI 로 생성시켜 해당 버튼을 클릭이나 터치 할 시 사운드 값을 변경하여 변경된 사운드 값으로 반환한다.In one embodiment, if a gain value of 1 to 100 is applicable, when a sound with a gain value exceeding a set dB value is detected, the compression application range of compression is widened and applied. For example, 1~10 1~20 1~30 is extended and applied, and a suitable compression range code is recommended until it does not exceed the set dB value, and it is created as a button UI in the editor to click or touch the button. When changing the sound value, the changed sound value is returned.

일 실시예에서, 컴프레스 범위가 일정범위를 넘어가도 지속적으로 설정된 dB값을 넘어가는 경우 자동으로 압축 강도를 상술한 실시예에 비례하여 높이는 기능을 가진다. 이는 컴프레스 적용 범위를 넓히더라도 지속적으로 설정된 dB값을 넘기는 경우와 컴프레서 적용범위의 확장으로 인한 사운드의 크기만 줄어드는 경우 고정 데시벨을 출력하는 기능을 구현하기 위하여 압축의 강도를 높여나가며 설정된 dB값을 넘지 않을 때 압축 강도 상승 작업을 완료하는 기능이다.In one embodiment, even if the compression range exceeds a certain range, it has a function of automatically increasing the compression strength in proportion to the above-described embodiment when it continuously exceeds a set dB value. This increases the strength of compression to implement a function that outputs a fixed decibel when the set dB value is continuously exceeded even when the compression range is widened, and when only the sound volume is reduced due to the expansion of the compressor range. It is a function that completes the work of increasing the compressive strength when it does not exceed.

이를 위해, 사운드 이펙트 효과 설정부는, 사운드 데이터의 동적 범위(dynamic range)를 제어하는 음향 개선부를 포함하며, 음향 개선부는 상술한 기능들을 모두 내포하는 Auto enhancement 기능을 제공한다. 음향 개선부는 압축의 범위와 강도를 기존의 레퍼런스 영상 음성 파일들을 기반으로 평균값을 산출하여 입력되는 영상과 가장 유사한 코드와 매칭하여 압축 범위와 강도를 자동으로 적용하고 압축으로 인하여 줄어드는 사운드의 데시벨 값을 올리는 기능을 추천하고 이를 에디터에 버튼 UI 로 생성시켜 클릭이나 터치 할 시 사운드 값을 변경하여 변경된 사운드 값으로 반환한다.To this end, the sound effect setting unit includes a sound enhancement unit that controls a dynamic range of sound data, and the sound enhancement unit provides an auto enhancement function including all of the above functions. The sound improvement unit automatically applies the compression range and strength by matching the compression range and strength with the code most similar to the input video by calculating an average value based on the existing reference video and audio files, and adjusts the decibel value of the sound that is reduced due to compression. A function to upload is recommended, and it is created as a button UI in the editor. When clicked or touched, the sound value is changed and the changed sound value is returned.

즉, 음향 개선부는, 인공 신경망을 이용하여 데이터베이스에 저장된 복수의 레퍼런스 속에 포함된 사운드 파일(레퍼런스 사운드 파일)과 상기 원본 영상으로부터 추출된 사운드 데이터에 서라운딩 및 마스터링 효과가 적용될 경우 예측되는 사운드 파일간의 유사도를 산출하여, 상기 원본 영상으로부터 추출된 사운드 파일과 유사도가 가장 높은 어느 하나의 레퍼런스 사운드 파일을 추출하고, 추출된 레퍼런스 사운드 파일의 압축 범위,강도,주파수 보정,강조, 울림등 에 기초하여 원본 영상에 인코딩되는 사운드 데이터의 마스터링 모드를 자동으로 설정한다.That is, the sound enhancer uses an artificial neural network to predict sound files (reference sound files) included in a plurality of references stored in a database and sound files predicted when surround and mastering effects are applied to sound data extracted from the original video. By calculating the similarity between the images, extracting a reference sound file having the highest similarity with the sound file extracted from the original video, and based on the compression range, strength, frequency correction, emphasis, echo, etc. of the extracted reference sound file. Automatically sets the mastering mode of the sound data encoded in the original video.

이 기능의 가장 중요한 기능은 사운드의 최대값은 고정되지만 다른 주파수 대역은 상대적으로 올라가게 되어 총 데시벨의 크기가 증폭된 효과를 부여할 수 있다.The most important function of this function is that the maximum value of the sound is fixed, but other frequency bands are relatively raised, so that the total decibel size can be amplified.

드럼과 같은 엑센트가 있는 저음 사운드의 경우 소리의 첫 시작지점에 강도를 높이고 유지하는 기능을 가지며, 압축 지정범위를 넘어서는 주파수를 즉각적으로 압축하는 기능과 점진적인 gain reduction 을 증가시킬 수 있다.In the case of bass sounds with accents such as drums, it has the function of increasing and maintaining the intensity at the beginning of the sound, the function of immediate compression of frequencies beyond the specified compression range, and the ability to increase gradual gain reduction.

한편, 이퀄라이저(EQ)는 기본적으로 다음과 같은 5가지 기능 이상을 내포한다 On the other hand, an equalizer (EQ) basically implies more than five functions:

- EQ 값의 증폭을 결정하는 min/Max 값 조절기능 (소숫점 12자리까지 컨트롤 가능)- Min/Max value adjustment function that determines the amplification of the EQ value (can be controlled up to 12 decimal places)

-EQ 값의 범위를 지정하는 기능 즉 31.5hz~250hz 1k~4k 과 같이 지정 범위내 +- 값을 적용-Function to specify the range of EQ values, that is, apply +- values within the specified range, such as 31.5hz~250hz 1k~4k

-특정 주파수 대역에 Max 값을 적용해도 충분한 값이 적용되지 않을 시 동일 코드를 중복 적용하는 기능 -A function to apply the same code repeatedly when a sufficient value is not applied even if the Max value is applied to a specific frequency band

예를들어 250hz 대역에서 최대값 100까지 증폭해도 사용자의 영상 내 250hz 와 사운드 코드가 출력해야하는 250hz 대역의 값이 다를 경우 자동으로 250hz 대역을 포함하는 주변 대역의 EQ 코드를 중복 적용시킨 후 적용 % 를 결정하는 기능이다.For example, even if the maximum value of 100 is amplified in the 250hz band, if the value of 250hz in the user's video and the 250hz band that the sound code should output are different, the EQ code of the surrounding band including the 250hz band is automatically overlapped and applied % function that determines

-EQ 값을 적용하는 것도 상기 컴프레서와 동일하게 업로드 되는 영상과 가장 비슷한 영상으로 작업된 기존 EQ 프리셋을 AI 를 통하여 DB 로 부터 추천받을 수 있으며 사용자의 취향에 따라 밝게 강하게 부드럽게 등 모드를 선택하면 해당 모드에서 다시 AI 알고리즘을 통하여 더욱 디테일한 코드들을 추천받을 수 있다.-Applying the EQ value is the same as the above compressor, so the existing EQ preset, which has been worked with the most similar image to the uploaded image, can be recommended from the DB through AI. In the mode, more detailed codes can be recommended through the AI algorithm again.

일 실시예에서, 마스터링부는 원본 음향 신호에 대한 스펙트로그램을 생성하고, 미리 저장된 복수의 기준 스펙트로그램 중 상기 생성된 스펙트로그램의 주파수 대역별로 유사도가 높은 기준 스펙트로그램을 추출하여 서버 내 저장된 영상들 중 레퍼런스 영상과 가장 유사한 사운드 값을 가진 음향 효과를 자동으로 추천할 수도 있다.In one embodiment, the mastering unit generates a spectrogram for an original sound signal, extracts a reference spectrogram having a high degree of similarity for each frequency band of the generated spectrogram from among a plurality of pre-stored reference spectrograms, and converts images stored in the server into images. Among them, a sound effect having the most similar sound value to the reference video may be automatically recommended.

구체적으로, 도 5에 도시된 바와 같이 사운드 이펙트 효과 설정부는 서라운드 음원 파일에 대한 스펙트로그램으로부터 복수의 기준 특징점을 추출하고, 추출된 복수의 기준 특징점을 연결하는 기준선분을 생성하고, 기준선분의 방향 및 크기를 나타내는 기준 특징벡터를 추출한다.Specifically, as shown in FIG. 5, the sound effect setting unit extracts a plurality of reference feature points from the spectrogram of the surround sound source file, creates a reference line segment connecting the plurality of extracted reference feature points, and creates a direction of the reference line segment. and a reference feature vector representing the size is extracted.

여기서, 기준 특징점은 3차원 이미지 형태로 표현되는 스펙트로그램의 Here, the reference feature point is a spectrogram expressed in the form of a 3D image.

이와 유사한 방법으로, 사운드 이펙트 효과 설정부는 미리 저장된 복수의 레퍼런스 사운드 파일별 스펙트로그램 각각에 대하여 복수의 비교 특징점을 추출하고, 추출된 복수의 비교 특징점을 연결하는 비교선분을 생성하여 비교선분의 방향 및 크기를 나타내는 비교 특징벡터를 추출한다.In a similar way, the sound effect setting unit extracts a plurality of comparison feature points for each of the spectrograms for each of a plurality of pre-stored reference sound files, and generates a comparison line segment connecting the extracted plurality of comparison feature points to determine the direction and direction of the comparison line segment. Extract the comparison feature vector representing the size.

이후, 사운드 이펙트 효과 설정부는 인공 신경망을 이용하여 레퍼런스 사운드 파일별로 생성된 복수의 비교 특징벡터 중 기준 특징벡터과 가장 유사한 어느 하나의 비교 특징벡터를 선택한다. Thereafter, the sound effect setting unit selects one comparison feature vector most similar to the reference feature vector from among a plurality of comparison feature vectors generated for each reference sound file using an artificial neural network.

마지막으로, 사운드 이펙트 효과 설정부는 선택된 어느 하나의 비교 특징벡터에 대응되는 레퍼런스 사운드 파일에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용한다.Finally, the sound effect setting unit applies the sound effect effect corresponding to the reference sound file corresponding to the selected comparison feature vector for each frequency band of the surround sound source file.

사운드 이펙트 효과 설정부는 주파수 대역별로 이와 같은 작업을 반복 수행하여 주파수 대역별로 유사한 선분 패턴을 가진 레퍼런스 사운드 파일을 이용하여 최적화된 마스터링 효과를 적용할 수 있다.The sound effect setting unit may repeatedly perform this operation for each frequency band to apply an optimized mastering effect using a reference sound file having a similar line segment pattern for each frequency band.

일 실시예에서, 사운드 이펙트 효과 설정부는 원본 음향 신호에 대한 스펙트로그램을 협역 스펙트로그램(narrow-band spectrogram)과 광역 스펙트로그램(broad- band spectrogram)으로 분할하여 서로 다른 주파수 구간에 적용할 수 있다.In one embodiment, the sound effect setting unit may divide the spectrogram of the original sound signal into a narrow-band spectrogram and a broad-band spectrogram, and apply them to different frequency intervals.

예를 들어, 사운드 이펙트 효과 설정부는 원본 음향 신호에 대한 스펙트로그램을 1khz 단위로 분할하고자 하는 경우, 협역 스펙트로그램을 이용하여 특징점을 추출하고, 10khz 단위로 분할하고자 하는 경우, 광역 스펙트로그램을 이용하여 특징점을 추출한다.For example, if the sound effect setting unit wants to divide the spectrogram of the original sound signal in 1khz units, extracts feature points using a narrowband spectrogram, and if it wants to divide it in 10khz units, uses a wideband spectrogram Extract feature points.

사운드 이펙트 효과 설정부는 협역 스펙트로그램을 통해 추출된 제1 레퍼런스 사운드 파일과, 광역 스펙트로그램을 통해 추출된 제2 레퍼런스 사운드 파일에 기초하여 사운드 이펙트 효과를 적용할 수 있다.The sound effect setting unit may apply sound effect effects based on the first reference sound file extracted through the narrow-band spectrogram and the second reference sound file extracted through the wide-band spectrogram.

이를 위해, 사운드 이펙트 효과 설정부는 제1 레퍼런스 사운드 파일과 제2 레퍼런스 사운드 파일의 사운드 이펙트 효과의 평균값을 산출하고, 산출된 평균값을 이용하여 레퍼런스 사운드 파일에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용할 수 있다.To this end, the sound effect setting unit calculates an average value of the sound effect effects of the first reference sound file and the second reference sound file, and uses the calculated average value to set the sound effect effect corresponding to the reference sound file to the frequency of the surround sound source file. Applicable on a band-by-band basis.

또한, 마스터링부는 서라운드 음향 신호의 생성 중 원본 음향 신호를 구간별로 분할하고, 분할된 각 구간마다 싱크를 체크하여 레이턴시 발생 후 원본 음향 신호와 서라운드 음향 신호를 동기화하여 출력함으로써 이질감 없는 컨버팅 영상이 생성될 수 있도록 한다.In addition, the mastering unit divides the original sound signal into sections while generating the surround sound signal, checks sync for each divided section, and synchronizes and outputs the original sound signal and the surround sound signal after latency occurs to create a converted video without heterogeneity. make it possible

인코딩부(300)는 상기 서라운드 음향 신호가 반영된 컨버팅 영상을 생성하여 저장한다.The encoding unit 300 generates and stores a converted image in which the surround sound signal is reflected.

인코딩부는 로드되는 동영상파일의 크기를 파악하여 클라우드로 전송하며, 존의 동영상을 업로드 후 전체 작업을 진행하던 방식과 달리 영상 콘텐츠의 파일 크기를 분석하여 메가바이트(MB) 단위와 기가바이트(GB) 단위로 분할하여 클라우드로 전송함으로써 다수의 사용자가 프로젝트를 공유할 수 있는 네트워킹 작업에 최적화된 서비스를 제공할 수 있다.The encoding unit identifies the size of the video file to be loaded and transmits it to the cloud. Unlike the method of uploading John's video and proceeding with the entire operation, the file size of the video content is analyzed and converted into megabytes (MB) and gigabytes (GB). By dividing into units and sending them to the cloud, it is possible to provide a service optimized for networking work where multiple users can share a project.

인코딩부는 각 서버별 작업 예상 속도를 요청하고 가장 빠른 서버로 파일을 전송한다.The encoding unit requests the estimated operation speed for each server and transmits the file to the fastest server.

구체적으로, 인코딩부는 미리 정해진 시간(예컨대 0.2초) 마다 원본 영상에서 분리된 원본 음향(사운드 파일)을 분할하고, 분할된 분할된 파일 컨버팅 진행 중의 파일 간 자동 fade in, fade out 기능을 적용하거나 사운드 효과 또는 서라운드 효과 적용 과정에서 오류가 발생되면 Time Scaling을 중지하는 기능 또한 제공할 수 있다.Specifically, the encoding unit divides the original sound (sound file) separated from the original video at a predetermined time (for example, 0.2 seconds), and applies an automatic fade-in, fade-out function between files in the process of converting the divided divided files, or If an error occurs in the process of applying an effect or surround effect, a function to stop Time Scaling can also be provided.

또한, 인코딩부는 사운드 원본 과 작업 후 사운드 파일의 시간 및 웨이브 파형을 비교하여 인코딩 파일을 복수의 구간으로 분할하여 각 구간별 오류 발생 여부를 확인할 수 있으며, 인코딩 완료 후 자동으로 사용자의 클라우드로 재업로드 할 수 있다.In addition, the encoding unit compares the time and wave waveform of the sound file after working with the original sound file, divides the encoding file into multiple sections, and checks whether errors occur in each section, and automatically re-uploads to the user's cloud after encoding is complete. can do.

이와 같은 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.Such technology may be implemented as an application or implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or those known and usable to those skilled in the art of computer software.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those produced by a compiler. The hardware device may be configured to act as one or more software modules to perform processing according to the present invention and vice versa.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to embodiments, it will be understood that those skilled in the art can variously modify and change the present invention without departing from the spirit and scope of the present invention described in the claims below. You will be able to.

100: 사운드 수집부
200: 마스터링부
300: 인코딩부
100: sound collection unit
200: mastering unit
300: encoding unit

Claims (8)

원본 영상 내 포함된 사운드 데이터를 추출하는 사운드 수집부;
상기 사운드 데이터에 대한 복수의 서라운드 음원 파일을 생성하고, 생성된 각각의 서라운드 음원 파일에 마스터링 결과를 적용하는 마스터링부; 및
원본 영상에 서라운드 음원 파일 및 사운드 마스터링 결과를 인코딩하는 인코딩부;를 포함하되,
상기 마스터링부는,
인공 신경망을 이용하여 상기 사운드 데이터의 업믹스(upmix) 방식을 선별하여 추천하고, 추천된 업믹스 방식에 따라 상기 사운드 데이터에 대한 복수의 서라운드 음원 파일을 생성하고, 생성된 각각의 서라운드 음원 파일에 따른 음향 신호를 3차원 가상 공간 내에서 서로 다른 위치에 배치된 가상 스피커로 할당하여, 가상 스피커에서 출력된 음향 신호가 3차원 가상 공간에 위치한 청취자 객체에 도달하는 이동 경로를 고려하여 서라운드 음향 효과를 적용하는 서라운드 효과 설정부; 및
인공 신경망을 이용하여 각각의 서라운드 음원 파일에 마스터링을 진행할 모드를 추천하고, 추천된 복수의 모드 중 어느 하나의 음향 이펙트 효과를 발생시키는 모드에 따라 서라운드 음원 파일을 마스터링하는 사운드 이펙트 효과 설정부;를 포함하는, 사운드 파일 마스터링 시스템.
a sound collecting unit extracting sound data included in the original image;
a mastering unit generating a plurality of surround sound source files for the sound data and applying a mastering result to each of the generated surround sound source files; and
An encoding unit for encoding a surround sound source file and a sound mastering result in an original video;
The mastering unit,
Using an artificial neural network, an upmix method of the sound data is selected and recommended, a plurality of surround sound source files for the sound data are generated according to the recommended upmix method, and each surround sound source file is generated. By allocating sound signals according to the 3D virtual space to virtual speakers arranged at different locations in the 3D virtual space, surround sound effects can be achieved by considering the moving path of the sound signal output from the virtual speaker to the listener object located in the 3D virtual space. a surround effect setting unit to apply; and
A sound effect effect setting unit that recommends a mode for mastering each surround sound source file using an artificial neural network and masters the surround sound source file according to a mode that generates one sound effect effect among a plurality of recommended modes. Sound file mastering system, including;
삭제delete 제1항에 있어서,
상기 서라운드 효과 설정부는,
상기 3차원 가상 공간 상에 배치된 가상 스피커에서 출력된 원본 음향 신호가 가상 공간에 위치한 청취자 객체의 왼쪽 귀와 오른쪽 귀에 도달하는 이동 경로를 추정하고, 상기 이동 경로에 기초하여 상기 청취자 객체의 왼쪽 귀와 오른쪽 귀에 대한 원본 음향 신호를 믹싱하여 서라운드 음향 효과가 적용된 최종 음향 신호를 출력하는, 사운드 파일 마스터링 시스템.
According to claim 1,
The surround effect setting unit,
A movement path in which an original sound signal output from a virtual speaker disposed in the 3D virtual space reaches the left and right ears of a listener object located in the virtual space is estimated, and based on the movement path, the left ear and the right ear of the listener object are estimated. A sound file mastering system that mixes original sound signals for the ears and outputs a final sound signal with surround sound effects applied.
제3항에 있어서,
상기 서라운드 효과 설정부는,
상기 3차원 가상 공간 내에 존재하는 리스너 객체를 기준으로 하는 기준 영역을 복수의 서브 영역으로 분할하고, 분할된 각각의 서브 영역별로 서로 다른 가중치가 적용된 원본 음향 신호의 이동 경로를 매핑하며,
상기 가중치는, 동일한 셀에 대해 청취자의 왼쪽 귀와 오른쪽 귀마다 서로 다르게 설정되며, 상기 가중치는 상기 청취자의 왼쪽 귀와 오른쪽 귀를 중심으로 가상 음원으로부터 출력된 원본 음향 신호가 청취자까지 도달하는 이동 경로의 거리, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 각도, 가상 음원으로부터 출력된 원본 음향 신호가 가상 공간에서 반사되는 횟수 및 가상 음원으로부터 출력된 원본 음향 신호가 청취자로 입사하는 각도 중 적어도 하나에 기초하여 결정되는, 사운드 파일 마스터링 시스템.
According to claim 3,
The surround effect setting unit,
Dividing a reference region based on a listener object existing in the 3D virtual space into a plurality of sub-regions, and mapping a movement path of an original sound signal to which different weights are applied for each of the divided sub-regions;
The weights are set differently for the listener's left and right ears for the same cell, and the weights are the distances of the movement paths that the original sound signals output from the virtual sound source reach to the listeners centered on the listener's left and right ears. At least one of the angle at which the original sound signal output from the virtual sound source is reflected in the virtual space, the number of times the original sound signal output from the virtual sound source is reflected in the virtual space, and the angle at which the original sound signal output from the virtual sound source is incident on the listener. Sound file mastering system, which is determined based on.
제1항에 있어서,
사운드 이펙트 효과 설정부는,
인공 신경망을 이용하여 데이터베이스에 미리 저장된 복수의 레퍼런스 사운드 파일과 마스터링 결과가 적용된 서라운드 음원 파일 간의 유사도를 산출하여, 유사도가 가장 높은 어느 하나의 레퍼런스 사운드 파일을 추출하고, 추출된 레퍼런스 사운드 파일로부터 수집된 사운드 데이터의 특징에 기초하여 서라운드 음원 파일별로 사운드 이펙트 효과를 보정하는, 사운드 파일 마스터링 시스템.
According to claim 1,
The sound effect effect setting unit,
By using an artificial neural network, the similarity between a plurality of reference sound files pre-stored in the database and the surround sound source file to which the mastering result is applied is calculated, and any one reference sound file having the highest similarity is extracted and collected from the extracted reference sound file. A sound file mastering system that corrects sound effect effects for each surround sound source file based on characteristics of the recorded sound data.
제5항에 있어서,
상기 사운드 이펙트 효과 설정부는,
마스터링 결과가 적용된 서라운드 음원 파일에 대한 스펙트로그램을 생성하고, 인공 신경망을 이용하여 미리 저장된 복수의 레퍼런스 사운드 파일별 스펙트로그램 중 상기 생성된 스펙트로그램의 주파수 대역별로 유사도가 높은 기준 스펙트로그램을 추출하고, 주파수 대역별로 추출된 기준 스펙트로그램에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용하는, 사운드 파일 마스터링 시스템.
According to claim 5,
The sound effect effect setting unit,
Generates a spectrogram for a surround sound source file to which the mastering result is applied, and extracts a reference spectrogram having a high degree of similarity for each frequency band of the generated spectrogram among the spectrograms for each of a plurality of pre-stored reference sound files using an artificial neural network, , A sound file mastering system that applies a sound effect effect corresponding to a reference spectrogram extracted for each frequency band for each frequency band of a surround sound source file.
제6항에 있어서,
상기 사운드 이펙트 효과 설정부는,
서라운드 음원 파일에 대한 스펙트로그램으로부터 복수의 기준 특징점을 추출하고, 추출된 복수의 기준 특징점을 연결하는 기준선분을 생성하고, 기준선분의 방향 및 크기를 나타내는 기준 특징벡터를 추출하고,
미리 저장된 복수의 레퍼런스 사운드 파일별 스펙트로그램 각각에 대하여 복수의 비교 특징점을 추출하고, 추출된 복수의 비교 특징점을 연결하는 비교선분을 생성하고, 비교선분의 방향 및 크기를 나타내는 비교 특징벡터를 추출하고,
인공 신경망을 이용하여 레퍼런스 사운드 파일별로 생성된 복수의 비교 특징벡터 중 기준 특징벡터과 가장 유사한 어느 하나의 비교 특징벡터를 선택하고, 선택된 어느 하나의 비교 특징벡터에 대응되는 레퍼런스 사운드 파일에 대응되는 사운드 이펙트 효과를 서라운드 음원 파일의 주파수 대역별로 적용하는, 사운드 파일 마스터링 시스템.
According to claim 6,
The sound effect effect setting unit,
Extracting a plurality of reference feature points from the spectrogram of the surround sound source file, generating a reference line segment connecting the plurality of extracted reference feature points, extracting a reference feature vector indicating the direction and size of the reference line segment,
A plurality of comparison feature points are extracted for each of the spectrograms for each of a plurality of pre-stored reference sound files, a comparison line segment connecting the extracted plurality of comparison feature points is generated, and a comparison feature vector representing the direction and size of the comparison line is extracted. ,
Using an artificial neural network, a comparison feature vector most similar to a reference feature vector is selected from among a plurality of comparison feature vectors generated for each reference sound file, and a sound effect corresponding to the reference sound file corresponding to the selected comparison feature vector is performed. A sound file mastering system that applies effects for each frequency band of a surround sound source file.
제1항에 있어서,
상기 마스터링부는,
사운드 데이터의 동적 범위(dynamic range)를 제어하는 음향 개선부를 더 포함하고,
상기 음향 개선부는,
인공 신경망을 이용하여 데이터베이스에 저장된 복수의 레퍼런스 사운드 파일과 상기 서라운드 음원 파일 간의 유사도를 산출하여, 상기 서라운드 음원 파일과 유사도가 가장 높은 어느 하나의 레퍼런스 사운드 파일을 추출하고, 추출된 레퍼런스 사운드 파일으로부터 수집된 사운드 데이터의 압축 범위 및 강도에 기초하여 원본 영상에 인코딩되는 서라운드 음원 파일의 압축 범위 및 강도를 자동으로 설정하는, 사운드 파일 마스터링 시스템.
According to claim 1,
The mastering unit,
Further comprising a sound enhancement unit for controlling a dynamic range of sound data;
The sound improvement unit,
A similarity between a plurality of reference sound files stored in a database and the surround sound source file is calculated using an artificial neural network, a reference sound file having the highest similarity to the surround sound source file is extracted, and collected from the extracted reference sound file. A sound file mastering system that automatically sets the compression range and strength of a surround sound source file encoded in an original video based on the compression range and strength of compressed sound data.
KR1020220103455A 2022-08-18 2022-08-18 System for mastering sound files KR102504081B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220103455A KR102504081B1 (en) 2022-08-18 2022-08-18 System for mastering sound files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220103455A KR102504081B1 (en) 2022-08-18 2022-08-18 System for mastering sound files

Publications (1)

Publication Number Publication Date
KR102504081B1 true KR102504081B1 (en) 2023-02-28

Family

ID=85326720

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220103455A KR102504081B1 (en) 2022-08-18 2022-08-18 System for mastering sound files

Country Status (1)

Country Link
KR (1) KR102504081B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102661374B1 (en) * 2023-06-01 2024-04-25 김형준 Audio output system of 3D sound by selectively controlling sound source

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090067550A (en) * 2007-12-21 2009-06-25 삼성전자주식회사 Method and apparatus for audio matrix encoding/decoding
KR20110058801A (en) * 2008-08-08 2011-06-01 군나르 크론 Method for multi-channel processing in a multi-channel sound system
WO2017051079A1 (en) * 2015-09-25 2017-03-30 Nokia Technologies Oy Differential headtracking apparatus
KR20170091361A (en) * 2016-02-01 2017-08-09 삼성전자주식회사 Method for Providing Content and Electronic Device supporting the same
KR20200137034A (en) * 2011-07-01 2020-12-08 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and method for adaptive audio signal generation, coding and rendering
KR102412134B1 (en) 2019-11-25 2022-06-21 주식회사 사운드플랫폼 Operating method for electronic apparatus for mastering sound source and electronic apparatus supporting thereof
KR20220107913A (en) * 2021-01-25 2022-08-02 삼성전자주식회사 Apparatus and method of processing multi-channel audio signal

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090067550A (en) * 2007-12-21 2009-06-25 삼성전자주식회사 Method and apparatus for audio matrix encoding/decoding
KR20110058801A (en) * 2008-08-08 2011-06-01 군나르 크론 Method for multi-channel processing in a multi-channel sound system
KR20200137034A (en) * 2011-07-01 2020-12-08 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and method for adaptive audio signal generation, coding and rendering
WO2017051079A1 (en) * 2015-09-25 2017-03-30 Nokia Technologies Oy Differential headtracking apparatus
KR20170091361A (en) * 2016-02-01 2017-08-09 삼성전자주식회사 Method for Providing Content and Electronic Device supporting the same
KR102412134B1 (en) 2019-11-25 2022-06-21 주식회사 사운드플랫폼 Operating method for electronic apparatus for mastering sound source and electronic apparatus supporting thereof
KR20220107913A (en) * 2021-01-25 2022-08-02 삼성전자주식회사 Apparatus and method of processing multi-channel audio signal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102661374B1 (en) * 2023-06-01 2024-04-25 김형준 Audio output system of 3D sound by selectively controlling sound source

Similar Documents

Publication Publication Date Title
US10555109B2 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US11582574B2 (en) Generating binaural audio in response to multi-channel audio using at least one feedback delay network
EP2848009B1 (en) Method and apparatus for layout and format independent 3d audio reproduction
JP5511136B2 (en) Apparatus and method for generating a multi-channel synthesizer control signal and apparatus and method for multi-channel synthesis
CN103561378B (en) The signal of binaural signal generates
CN106105269B (en) Acoustic signal processing method and equipment
KR101195980B1 (en) Method and apparatus for conversion between multi-channel audio formats
EP1649723A1 (en) Multi-channel synthesizer and method for generating a multi-channel output signal
JP2023517720A (en) Reverb rendering
US11395087B2 (en) Level-based audio-object interactions
WO2022014326A1 (en) Signal processing device, method, and program
KR102504081B1 (en) System for mastering sound files
KR102504088B1 (en) 3D sound content creation system through virtual reality device
WO2024024468A1 (en) Information processing device and method, encoding device, audio playback device, and program
EP3547305B1 (en) Reverberation technique for audio 3d
EP4346235A1 (en) Apparatus and method employing a perception-based distance metric for spatial audio
KR20240008241A (en) The method of rendering audio based on recording distance parameter and apparatus for performing the same
KR20240004869A (en) 3D audio signal encoding method and device, and encoder