KR102620762B1 - electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof - Google Patents

electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof Download PDF

Info

Publication number
KR102620762B1
KR102620762B1 KR1020230040952A KR20230040952A KR102620762B1 KR 102620762 B1 KR102620762 B1 KR 102620762B1 KR 1020230040952 A KR1020230040952 A KR 1020230040952A KR 20230040952 A KR20230040952 A KR 20230040952A KR 102620762 B1 KR102620762 B1 KR 102620762B1
Authority
KR
South Korea
Prior art keywords
source
sound
frequency
binaural
transfer function
Prior art date
Application number
KR1020230040952A
Other languages
Korean (ko)
Inventor
김지헌
Original Assignee
주식회사 디지소닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디지소닉 filed Critical 주식회사 디지소닉
Priority to KR1020230040952A priority Critical patent/KR102620762B1/en
Application granted granted Critical
Publication of KR102620762B1 publication Critical patent/KR102620762B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

전자 장치에 있어서, 메모리 및 정보를 처리하는 적어도 하나의 프로세서를 포함하되, 상기 프로세서는, 서버로부터 음원 정보를 수신하고, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고, 상기 식별된 적어도 하나의 주파수 소스 중 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스에 기초하여 생성된 사운드 정보를 출력할 수 있다.An electronic device comprising at least one processor that processes memory and information, wherein the processor receives sound source information from a server, inputs the sound source information into a sound source separation artificial intelligence model, and generates at least one processor corresponding to the sound source information. Output frequency source information including one frequency source, apply a binaural beat to at least one frequency source among the identified at least one frequency source, and apply a binaural beat to at least one frequency source to which the binaural beat is applied. Sound information generated based on this can be output.

Description

생성형 AI 음원분리기술을 활용한 사운드 테라피 효과를 제공하는 전자장치 및 그 방법{electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof}Electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof}

본 개시는 생성형 AI 음원분리기술을 활용한 사운드 테라피 효과를 제공하는 전자장치 및 그 방법에 관한 것으로서, 보다 구체적으로, 인공지능 모델을 활용하여, 음원을 소스의 종류에 따라 분리하고, 분리된 소스에 대하여 바이노럴 비트 및 입체 음향을 적용할 수 있는 전자 장치 및 그 방법에 관한 것이다.The present disclosure relates to an electronic device and method for providing a sound therapy effect using generative AI sound source separation technology. More specifically, using an artificial intelligence model, sound sources are separated according to the type of source, and the separated sound source is separated. It relates to an electronic device and method that can apply binaural beats and three-dimensional sound to a source.

음원 분리란 하나의 음원 신호에서 여러 소스(악기, 보컬, 효과음 등)로 이루어진 다중 소스 음악을 분리하는 기술이다. 즉, 하나의 음원 파일에서 여러 소리를 개별적으로 추출하는 기술에 관한 것이다.Sound source separation is a technology that separates multi-source music consisting of multiple sources (instruments, vocals, sound effects, etc.) from a single sound source signal. In other words, it is about technology to individually extract multiple sounds from one sound source file.

기존의 음원분리 방법은 보통 푸리에 변환(Fourier Transform)을 사용하여 주파수 영역에서 필터링을 하는 방식의 수작업으로 이루어졌다. 그러나 이 방법은 하나의 음원 신호가 여러 소스로 이루어져 있거나, 잡음이 섞인 경우에는 원하는 소리를 완벽하게 분리할 수 없는 경우가 생기는 등 완벽한 결과를 보장할 수 없고, 시간과 비용이 많이 소요된다.Existing sound source separation methods were usually performed manually by filtering in the frequency domain using Fourier Transform. However, this method cannot guarantee perfect results, as it may not be possible to completely separate the desired sound if one sound source signal consists of multiple sources or is mixed with noise, and it takes a lot of time and money.

또한, 기존의 음원처리 기술은, 소스의 질이나 정확도 등의 문제 뿐만 아니라, 음원을 단순히 좌우로 나누어 재생하는 스테레오 방식을 사용하는 경우가 많아 입체감이 떨어지는 문제점이 있다.In addition, existing sound source processing technologies not only have problems with source quality and accuracy, but also often use a stereo method that simply divides the sound source into left and right sides and thus reduces the three-dimensional effect.

AI 음원분리 기술은 기존의 음원처리 기술의 한계를 극복하고자 개발되고 있다. 이러한 AI 음원분리 기술은 딥러닝 모델을 학습시켜 음악 데이터를 분석하고, 이를 바탕으로 각 소스를 분리하게 된다. 이를 위해 큰 양의 데이터와 학습 알고리즘이 필요하며, 기존 방법에 비해 정확도가 높아질 수 있다.AI sound source separation technology is being developed to overcome the limitations of existing sound source processing technology. This AI sound source separation technology analyzes music data by learning a deep learning model and separates each source based on this. This requires a large amount of data and a learning algorithm, and can increase accuracy compared to existing methods.

종래의 AI 음원분리 기술은, 일반적으로 딥러닝 알고리즘을 사용하고, 이를 실행하는 데에는 상당한 계산량이 필요하며, PC 및/또는 서버에서 동작하는 Tensorflow와 Python을 사용하며, GPU를 필요로 하고, 딥러닝 프레임워크인 Tensorflow Lite나 PyTorch Mobile에서 동작하지 않아 서버 및/또는 PC 상태에 따라 속도가 좌우될 수 있다. 또한 이는, 대용량의 메모리를 필요로 하기 때문에 모바일에서 동작하지 못하는 문제점이 있다.Conventional AI sound source separation technology generally uses deep learning algorithms, requires a significant amount of computation to run, uses Tensorflow and Python running on a PC and/or server, requires a GPU, and requires deep learning. It does not work with the frameworks Tensorflow Lite or PyTorch Mobile, so speed may depend on the server and/or PC status. Additionally, because it requires a large amount of memory, there is a problem in that it cannot operate on mobile devices.

개시된 발명의 일 측면은 AI 음원분리 기술과 NRTF(Neural Related Transfer Function) 기술을 결합하여, 입체감을 높이는 AI 음원분리 입체공간 생성형 오디오를 생성할 수 있는 전자 장치 및 그 제어 방법을 제공하고자 한다.One aspect of the disclosed invention seeks to provide an electronic device and a control method for generating AI sound source separation stereoscopic space generation audio that enhances three-dimensional effect by combining AI sound source separation technology and NRTF (Neural Related Transfer Function) technology.

또한, 개시된 발명의 일 측면은, 분리된 소스의 주파수 편차를 적용하여, neural beat를 생성함으로써 인지 향상(Arousal) 효과와 릴렉스(Relax) 효과를 제공할 수 있다.In addition, one aspect of the disclosed invention can provide an arousal effect and a relaxation effect by generating a neural beat by applying the frequency deviation of the separated source.

개시된 발명의 일 측면에 따른 전자 장치는, 메모리 및 정보를 처리하는 적어도 하나의 프로세서;를 포함하되, 상기 프로세서는, 서버로부터 음원 정보를 수신하고, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고, 상기 식별된 적어도 하나의 주파수 소스 중 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스에 기초하여 생성된 사운드 정보를 출력할 수 있다.An electronic device according to an aspect of the disclosed invention includes at least one processor that processes memory and information, wherein the processor receives sound source information from a server, inputs the sound source information into a sound source separation artificial intelligence model, and Output frequency source information including at least one frequency source corresponding to the sound source information, apply a binaural beat to at least one frequency source among the identified at least one frequency source, and the binaural bit is Sound information generated based on at least one applied frequency source may be output.

또한, 상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 판단하고, 상기 바이노럴 비트를 적용하는 것은, 상기 판단된 소스 방향에 기초하여, 상기 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 소스 방향에 기초하여 입체 음향 처리하여 사운드 정보를 생성할 수 있다.In addition, determining the source direction corresponding to the source type according to the source type of the output at least one frequency source and applying the binaural bit may be performed based on the determined source direction. Sound information may be generated by applying binaural beats to a frequency source and processing stereophonic sound based on the source direction of at least one frequency source to which the binaural beats are applied.

또한, 상기 음원 분리 인공지능 모델은, 상기 음원 정보 및 상기 음원 정보를 STFT(Short-Time Fourier Transform)를 통해 소스의 종류 별로 추출한 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하도록 학습된, 상기 음원 분리 인공지능 모델은, GEMM(General Matrix Multiplication)을 통해 학습된 인공지능 모델일 수 있다.In addition, the sound source separation artificial intelligence model is trained to output frequency source information including the sound source information and at least one frequency source extracted for each type of source through STFT (Short-Time Fourier Transform). The sound source separation artificial intelligence model may be an artificial intelligence model learned through GEMM (General Matrix Multiplication).

또한, 상기 사운드 정보를 생성하는 것은, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 시간 영역의 적어도 하나의 시간 소스를 추출하고, 상기 소스 방향 및 상기 추출된 상기 적어도 하나의 시간 소스에 기초하여, 입체 음향 처리하여 생성할 수 있다.In addition, generating the sound information includes extracting at least one time source in the time domain through STFT (Short-Time Fourier Transform) inverse transformation of at least one frequency source to which the binaural bit is applied, and determining the source direction and Based on the extracted at least one time source, stereophonic sound processing may be performed to generate the sound.

또한, 상기 소스 방향은, 상기 입체 음향 (Surround sound)에 기초한 가상 공간 내에서 특정 기준으로부터의 방위각 및 고도각에 관한 방향일 수 있다.Additionally, the source direction may be a direction with respect to azimuth and elevation angles from a specific reference within a virtual space based on the surround sound.

또한, 상기 소스 방향은, 0도 내지 180도의 방위각을 갖는 제1 소스 방향 및 180도 내지 360도의 방위각을 갖는 제2 소스 방향을 포함하고, 상기 바이노럴 비트를 적용하는 것은, 상기 적어도 하나의 주파수 소스를 상기 제1 소스 방향 및 제2 소스 방향에 대하여 주파수 편차를 생성할 수 있다.In addition, the source direction includes a first source direction with an azimuth of 0 degrees to 180 degrees and a second source direction with an azimuth of 180 degrees to 360 degrees, and applying the binaural bit includes the at least one A frequency source may generate a frequency deviation with respect to the first source direction and the second source direction.

또한, 입/출력부를 더 포함하고, 상기 프로세서는, 상기 입/출력부로부터 바이노럴 모드에 관한 사용자 입력을 수신한 것에 응답하여, 상기 적어도 하나의 주파스 소스를 상기 수신된 바이노럴 모드에 대응되는 바이노럴 비트를 적용할 수 있다.In addition, it further includes an input/output unit, wherein the processor, in response to receiving a user input regarding the binaural mode from the input/output unit, converts the at least one frequency source to the received binaural mode. The binaural beat corresponding to can be applied.

또한, 상기 적어도 하나의 주파수 소스는, 드럼의 주파수 대역에 대응되는 드럼 주파수 소스 또는 베이스의 주파수 대역에 대응되는 베이스 주파수 소스 중 적어도 하나를 포함할 수 있다.Additionally, the at least one frequency source may include at least one of a drum frequency source corresponding to the frequency band of the drum or a bass frequency source corresponding to the frequency band of the bass.

또한, 상기 입체 음향 처리하는 것은, 상기 소스 방향에 대응되는 바이노럴 전달 함수 및 상기 적어도 하나의 시간 소스를 곱 연산할 수 있다.Additionally, the stereophonic sound processing may be performed by multiplying the binaural transfer function corresponding to the source direction and the at least one time source.

또한, 상기 프로세서는, 상기 입/출력부로부터 소스의 종류에 대한 방위각 및 고도각에 대한 소스 방향 정보를 수신한 것에 응답하여, 상기 소스 방향을 업데이트 할 수 있다.Additionally, the processor may update the source direction in response to receiving source direction information about the azimuth angle and elevation angle for the type of source from the input/output unit.

개시된 발명의 일 측면에 따른 전자 장치 제어 방법에 있어서, 음원 정보를 서버로부터 수신하고, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여, 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고, 상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 식별하고, 상기 출력된 주파수 소스 정보를 처리한 것에 기초하여, 상기 식별된 소스 방향에 따라 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 상기 소스 방향에 기초하여 입체 음향 처리하여 사운드 정보를 생성할 수 있다.In the method of controlling an electronic device according to an aspect of the disclosed invention, sound source information is received from a server, the sound source information is input into a sound source separation artificial intelligence model, and a frequency including at least one frequency source corresponding to the sound source information is generated. Output source information, identify a source direction corresponding to the source type according to the source type of the output at least one frequency source, and based on processing the output frequency source information, determine the source direction corresponding to the source type. Accordingly, binaural beats may be applied and sound information may be generated by stereophonic sound processing based on the source direction of at least one frequency source to which the binaural beats are applied.

또한, 상기 음원 분리 인공지능 모델은, 상기 음원 정보 및 상기 음원 정보를 STFT(Short-Time Fourier Transform)를 통해 소스의 종류 별로 추출한 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하도록 학습될 수 있다.In addition, the sound source separation artificial intelligence model may be trained to output frequency source information including the sound source information and at least one frequency source extracted for each type of source through STFT (Short-Time Fourier Transform). there is.

또한, 상기 음원 분리 인공지능 모델은, GEMM(General Matrix Multiplication)을 통해 학습된 인공지능 모델일 수 있다.Additionally, the sound source separation artificial intelligence model may be an artificial intelligence model learned through GEMM (General Matrix Multiplication).

또한, 상기 사운드 정보를 생성하는 것은, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 시간 영역의 적어도 하나의 시간 소스를 추출하고, 상기 소스 방향 및 상기 추출된 상기 적어도 하나의 시간 소스에 기초하여, 입체 음향 처리하여 생성할 수 있다In addition, generating the sound information includes extracting at least one time source in the time domain through STFT (Short-Time Fourier Transform) inverse transformation of at least one frequency source to which the binaural bit is applied, and determining the source direction and Based on the extracted at least one time source, stereophonic sound may be processed and generated.

또한, 상기 소스 방향은, 상기 입체 음향 (Surround sound)에 기초한 가상 공간 내에서 특정 기준으로부터의 방위각 및 고도각에 관한 방향일 수 있다.Additionally, the source direction may be a direction with respect to azimuth and elevation angles from a specific reference within a virtual space based on the surround sound.

또한, 상기 소스 방향은, 0도 내지 180도의 방위각을 갖는 제1 소스 방향 및 180도 내지 360도의 방위각을 갖는 제2 소스 방향을 포함하고, 상기 바이노럴 비트를 적용하는 것은, 상기 적어도 하나의 주파수 소스를 상기 제1 소스 방향 및 제2 소스 방향에 대하여 주파수 편차를 생성하는 것일 수 있다.In addition, the source direction includes a first source direction with an azimuth of 0 degrees to 180 degrees and a second source direction with an azimuth of 180 degrees to 360 degrees, and applying the binaural bit includes the at least one The frequency source may generate a frequency deviation with respect to the first source direction and the second source direction.

또한, 상기 바이노럴 비트를 적용하는 것은, 상기 입/출력부로부터 바이노럴 모드에 관한 사용자 입력을 수신한 것에 응답하여, 상기 적어도 하나의 주파수 소스를 상기 수신된 바이노럴 모드에 대응되는 바이노럴 비트를 적용할 수 있다.In addition, applying the binaural beat may include, in response to receiving a user input regarding the binaural mode from the input/output unit, switching the at least one frequency source to the binaural mode corresponding to the received binaural mode. Binaural beats can be applied.

또한, 상기 적어도 하나의 주파수 소스는, 드럼의 주파수 대역에 대응되는 드럼 주파수 소스 또는 베이스의 주파수 대역에 대응되는 베이스 주파수 소스 중 적어도 하나를 포함할 수 있다.Additionally, the at least one frequency source may include at least one of a drum frequency source corresponding to the frequency band of the drum or a bass frequency source corresponding to the frequency band of the bass.

또한, 상기 입체 음향 처리하는 것은, 상기 소스 방향에 대응되는 바이노럴 전달 함수 및 상기 적어도 하나의 시간 소스를 곱 연산하는 것일 수 있다.Additionally, the stereophonic sound processing may be performed by multiplying the binaural transfer function corresponding to the source direction and the at least one time source.

개시된 발명의 일 측면은 AI 음원분리 기술과 NRTF(Neural Related Transfer Function) 기술을 결합하여, 입체감을 높이는 AI 음원분리 입체공간 생성형 오디오를 생성할 수 있는 전자 장치 및 그 제어 방법을 제공할 수 있다.One aspect of the disclosed invention is to combine AI sound source separation technology and NRTF (Neural Related Transfer Function) technology to provide an electronic device capable of generating AI sound source separation three-dimensional space generation audio that enhances three-dimensional effect, and a control method thereof. .

도 1은 본 개시의 일 실시예에 따른 장치의 동작 방법이 구현될 수 있는 시스템을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 도시한 도면이다.
도 3은 일 실시예에 소스 방향을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시예에 따른 바이노럴 비트을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 모노럴 큐를 설명하기 위한 예시도이다.
도 6은 본 개시의 일 실시예에 따른 바이노럴 전달함수 획득 방법을 설명하기 위한 도면이다.
도 7은 귀의 구조를 예시적으로 도시한 도면이다.
도 8은 본 개시의 일 실시예에 따른 콘차 위치에서의 바이노럴 전달함수 획득에 관한 도면이다.
도 9는 본 개시의 일 실시예에 따른 고막 위치에서의 바이노럴 전달함수 획득에 관한 도면이다.
도 10은 일 실시예에 따른 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 비교하여 도시한 도면이다.
도 11은 본 개시의 일 실시예에 따른 동일한 고도각에서 서로 다른 위치의 음원을 예시적으로 도시한 도면이다.
도 12는 본 개시의 일 실시예에 따른 동일한 방위각에서 서로 다른 위치의 음원을 예시적으로 도시한 도면이다.
도 13 및 14는 본 개시의 일 실시예에 따른 전자 장치의 실시예를 설명하기 위한 도면이다.
도 15는 본 개시의 일 실시예에 따른 전자 장치 제어 방법을 설명하기 위한 순서도이다.
1 is a diagram for explaining a system in which a method of operating a device according to an embodiment of the present disclosure can be implemented.
FIG. 2 is a diagram illustrating the configuration of an electronic device according to an embodiment of the present disclosure.
Figure 3 is a diagram for explaining the source direction in one embodiment.
Figure 4 is a diagram for explaining binaural beats according to an embodiment of the present disclosure.
Figure 5 is an example diagram for explaining a monaural queue according to an embodiment of the present disclosure.
Figure 6 is a diagram for explaining a method of obtaining a binaural transfer function according to an embodiment of the present disclosure.
Figure 7 is a diagram illustrating the structure of the ear.
Figure 8 is a diagram relating to acquisition of a binaural transfer function at the concha location according to an embodiment of the present disclosure.
Figure 9 is a diagram relating to acquisition of a binaural transfer function at the eardrum location according to an embodiment of the present disclosure.
Figure 10 is a diagram comparing the concha binaural transfer function and the eardrum binaural transfer function according to one embodiment.
Figure 11 is a diagram illustrating sound sources at different positions at the same elevation angle according to an embodiment of the present disclosure.
FIG. 12 is a diagram illustrating sound sources at different positions at the same azimuth according to an embodiment of the present disclosure.
13 and 14 are diagrams for explaining an embodiment of an electronic device according to an embodiment of the present disclosure.
Figure 15 is a flowchart for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 개시된 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록도'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.Like reference numerals refer to like elements throughout the specification. This specification does not describe all elements of the embodiments, and general content or overlapping content between the embodiments in the technical field to which the disclosed invention pertains is omitted. The term 'unit, module, member, block diagram' used in the specification may be implemented as software or hardware, and depending on the embodiment, a plurality of 'unit, module, member, block' may be implemented as a single component. , it is also possible for one 'part, module, member, or block' to include multiple components.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.Throughout the specification, when a part is said to be “connected” to another part, this includes not only direct connection but also indirect connection, and indirect connection includes connection through a wireless communication network. do.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Additionally, when a part "includes" a certain component, this means that it may further include other components rather than excluding other components, unless specifically stated to the contrary.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout the specification, when a member is said to be located “on” another member, this includes not only cases where a member is in contact with another member, but also cases where another member exists between the two members.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다. Terms such as first and second are used to distinguish one component from another component, and the components are not limited by the above-mentioned terms.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.Singular expressions include plural expressions unless the context clearly makes an exception.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.The identification code for each step is used for convenience of explanation. The identification code does not explain the order of each step, and each step may be performed differently from the specified order unless a specific order is clearly stated in the context. there is.

이하 첨부된 도면들을 참고하여 개시된 발명의 작용 원리 및 실시예들에 대해 설명한다.Hereinafter, the operating principle and embodiments of the disclosed invention will be described with reference to the attached drawings.

음원 분리란 하나의 음원 신호에서 여러 소스(악기, 보컬, 효과음 등)로 이루어진 다중 소스 음악을 분리하는 기술이다. 즉, 하나의 음원 파일에서 여러 소리를 개별적으로 추출하는 기술에 관한 것이다.Sound source separation is a technology that separates multi-source music consisting of multiple sources (instruments, vocals, sound effects, etc.) from a single sound source signal. In other words, it is about technology to individually extract multiple sounds from one sound source file.

기존의 음원분리 방법은 보통 푸리에 변환(Fourier Transform)을 사용하여 주파수 영역에서 필터링을 하는 방식의 수작업으로 이루어졌다. 그러나 이 방법은 하나의 음원 신호가 여러 소스로 이루어져 있거나, 잡음이 섞인 경우에는 원하는 소리를 완벽하게 분리할 수 없는 경우도 생기 완벽한 결과를 보장할 수 없고, 시간과 비용이 많이 소요된다.Existing sound source separation methods were usually performed manually by filtering in the frequency domain using Fourier Transform. However, this method cannot guarantee perfect results as it may not be possible to completely separate the desired sound if one sound source signal consists of multiple sources or is mixed with noise, and it takes a lot of time and money.

또한, 기존의 음원처리 기술은, 소스의 질이나 정확도 등의 문제 뿐만 아니라, 음원을 단순히 좌우로 나누어 재생하는 스테레오 방식을 사용하는 경우가 많아 입체감이 떨어지는 문제점이 있다.In addition, existing sound source processing technologies not only have problems with source quality and accuracy, but also often use a stereo method that simply divides the sound source into left and right sides and thus reduces the three-dimensional effect.

AI 음원분리 기술은 기존의 음원처리 기술의 한계를 극복하고자 개발되고 있다. 이러한 AI 음원분리 기술은 딥러닝 모델을 학습시켜 음악 데이터를 분석하고, 이를 바탕으로 각 소스를 분리하게 된다. 이를 위해 큰 양의 데이터와 학습 알고리즘이 필요하며, 기존 방법에 비해 정확도가 높아질 수 있다.AI sound source separation technology is being developed to overcome the limitations of existing sound source processing technology. This AI sound source separation technology analyzes music data by learning a deep learning model and separates each source based on this. This requires a large amount of data and a learning algorithm, and can increase accuracy compared to existing methods.

종래의 AI 음원분리 기술은, 일반적으로 딥러닝 알고리즘을 사용하고, 이를 실행하는 데에는 상당한 계산량이 필요하며, PC 및/또는 서버에서 동작하는 Tensorflow와 Python을 사용하며, GPU를 필요로 하고, 딥러닝 프레임워크인 Tensorflow Lite나 PyTorch Mobile에서 동작하지 않아 서버 및/또는 PC 상태에 따라 속도가 좌우될 수 있다. 또한 이는, 대용량의 메모리를 필요로 하기 때문에 모바일에서 동작하지 못하는 문제점이 있다.Conventional AI sound source separation technology generally uses deep learning algorithms, requires a significant amount of computation to run, uses Tensorflow and Python running on a PC and/or server, requires a GPU, and requires deep learning. It does not work with the frameworks Tensorflow Lite or PyTorch Mobile, so speed may depend on the server and/or PC status. Additionally, because it requires a large amount of memory, there is a problem in that it cannot operate on mobile devices.

본 개시의 일 실시예에 따른 인공지능 기반 바이노럴 비트를 적용하는 3차원 오디오 생성 시스템(1000)은, 상술한 문제점을 해결하기 위한 발명일 수 있다. 이하에서는 설명의 편의상 인공지능 기반 바이노럴 비트를 적용하는 3차원 오디오 생성 시스템(1000)을 본 시스템(1000)으로 명명하도록 한다.The 3D audio generation system 1000 applying artificial intelligence-based binaural beats according to an embodiment of the present disclosure may be an invention to solve the above-mentioned problems. Hereinafter, for convenience of explanation, the 3D audio generation system 1000 that applies artificial intelligence-based binaural beats will be referred to as the main system 1000.

도 1은 일 실시예에 따른 인공지능 기반 바이노럴 비트를 적용하는 3차원 오디오 생성 전자 장치의 동작 방법이 구현될 본 시스템(1000)을 설명하기 위한 도면이다. 본 시스템(1000)은, 서비스 제공을 위한 시스템일 수 있다. 특별히 달리 언급되지 않는 한, 본 개시에서 서비스는 사운드 테라피와 관련된 서비스를 포함할 수 있다. FIG. 1 is a diagram illustrating a system 1000 in which a method of operating a 3D audio generating electronic device applying artificial intelligence-based binaural beats according to an embodiment will be implemented. This system 1000 may be a system for providing services. Unless specifically stated otherwise, services in this disclosure may include services related to sound therapy.

도 1을 참조하면, 일 실시예에 따른 본 시스템(1000)은 다양한 종류의 장치들에 구현될 수 있다. 일 실시예에 대한 설명에서, 일 실시예에 따른 본 시스템(1000)은 전자 장치(100)에 의하여 구현될 수 있다. 예를 들어, 본 시스템(1000)은 전자 장치(100) 및/또는 서버(200)를 통해 구현될 수 있다. 달리 말해, 전자 장치(100) 및/또는 서버(200)는 각각의 장치에 구현된 본 시스템(1000)을 기반으로, 일 실시예에 따른 동작을 수행할 수 있다. 한편, 일 실시예에 따른 본 시스템(1000)은, 상기 도 1에 도시된 바에 국한되지 않고, 더 다양한 장치들 및/또는 서버들에 구현될 수도 있을 것이다. 또한, 본 시스템(1000)은 하나의 전자 장치(100)에 의해 구현될 수 있다. 즉, 본 개시에서 기술하는 음원을 처리하는 방법은, 후술하는 통신을 통해 서버로부터 음원을 수신하여 음원을 처리하는 기술 외에, 전자 장치에 저장된 음원을 처리하여 새로운 음원을 생성하는 것을 포함한다.Referring to FIG. 1, the system 1000 according to one embodiment may be implemented in various types of devices. In the description of one embodiment, the system 1000 according to one embodiment may be implemented by the electronic device 100. For example, the system 1000 may be implemented through an electronic device 100 and/or a server 200. In other words, the electronic device 100 and/or the server 200 may perform an operation according to an embodiment based on the system 1000 implemented in each device. Meanwhile, the system 1000 according to one embodiment is not limited to what is shown in FIG. 1, and may be implemented in a wider variety of devices and/or servers. Additionally, the system 1000 may be implemented by one electronic device 100. That is, the method of processing a sound source described in the present disclosure includes processing a sound source stored in an electronic device to generate a new sound source, in addition to a technique of receiving a sound source from a server through communication to be described later and processing the sound source.

일 실시예에 따른 전자 장치(100)는, 사운드 테라피를 제공 받는 사용자 및/또는 고객이 보유한 및/또는 사용하는 사용자 디바이스/스마트 디바이스 등일 수 있다. 이 경우, 후술되는 일 실시예에 따른 동작은 스마트 디바이스에 동작 가능한 어플리케이션 형태로 구현될 수 있다.The electronic device 100 according to one embodiment may be a user device/smart device owned and/or used by a user and/or customer receiving sound therapy. In this case, an operation according to an embodiment described later may be implemented in the form of an application that can operate on a smart device.

일 실시예에 따른 서버(200)는, 전자 장치(100)들과 무선 및/또는 유선 통신을 수행하며, 대단위의 저장 용량을 갖는 데이터베이스를 포함하는 장치일 수 있다. 예를 들어, 서버(200)는 복수 개의 전자 장치(100)들과 연동될 수도 있다.The server 200 according to one embodiment may be a device that performs wireless and/or wired communication with the electronic devices 100 and includes a database with a large storage capacity. For example, the server 200 may be linked with a plurality of electronic devices 100.

또한, 서버(200)는, 예를 들어, 음원 정보를 제공하는 서버일 수 있으며, 전자 장치(100)로 사용자가 요청한 음원 정보를 스트리밍(전송)할 수 있다. 다만, 이에 한정되는 것은 아니고, 음원 정보를 제공할 수 있는 외부 기기 및/또는 서버가 적용될 수 있다.Additionally, the server 200 may be, for example, a server that provides sound source information, and may stream (transmit) sound source information requested by the user to the electronic device 100. However, it is not limited to this, and external devices and/or servers that can provide sound source information may be applied.

일 실시예에 따른 본 시스템(1000)은 동작을 위한 다양한 모듈들을 포함할 수 있다. 본 시스템(1000)에 포함된 모듈들은 본 시스템(1000)이 구현되는(또는, 물리적 장치에 포함되는) 물리적 장치(예: 전자 장치(100) 및/또는 서버(200))가 지정된 동작을 수행할 수 있도록 구현된 컴퓨터 코드 내지는 하나 이상의 인스트럭션 (instruction) 일 수 있다. 다시 말해, 본 시스템(1000)이 구현되는 물리적 장치는 복수 개의 모듈들을 컴퓨터 코드 형태로 메모리에 저장하고, 메모리에 저장된 복수 개의 모듈들이 실행되는 경우 복수 개의 모듈들은 물리적 장치가 복수 개의 모듈들에 대응하는 지정된 동작들을 수행하도록 할 수 있다.The system 1000 according to one embodiment may include various modules for operation. The modules included in the system 1000 perform operations specified by the physical device (e.g., the electronic device 100 and/or the server 200) on which the system 1000 is implemented (or included in the physical device). It may be computer code implemented to do this or one or more instructions. In other words, the physical device on which the system 1000 is implemented stores a plurality of modules in the memory in the form of computer code, and when the plurality of modules stored in the memory are executed, the physical device corresponds to the plurality of modules. You can perform specified actions.

도 2는 일 실시예에 따른 전자 장치(100)의 구성을 도시한 도면이다.FIG. 2 is a diagram illustrating the configuration of an electronic device 100 according to an embodiment.

도 2를 참조하면, 전자 장치(100)는 입/출력부(110), 통신부(120), 데이터베이스(130) 및 프로세서(140)를 포함할 수 있다.Referring to FIG. 2 , the electronic device 100 may include an input/output unit 110, a communication unit 120, a database 130, and a processor 140.

입/출력부(110)는 사용자 입력을 받거나 또는 사용자에게 정보를 출력하는 각종 인터페이스나 연결 포트 등일 수 있다. 입/출력부(110)는 입력 모듈과 출력 모듈로 구분될 수 있는데, 입력 모듈은 사용자로부터 사용자 입력을 수신한다. 사용자 입력은 키 입력, 터치 입력, 음성 입력을 비롯한 다양한 형태로 이루어질 수 있다. 이러한 사용자 입력을 받을 수 있는 입력 모듈의 예로는 전통적인 형태의 키패드나 키보드, 마우스는 물론, 사용자의 터치를 감지하는 터치 센서, 음성 신호를 입력 받는 마이크, 영상 인식을 통해 제스처 등을 인식하는 카메라, 사용자 접근을 감지하는 조도 센서나 적외선 센서 등으로 구성되는 근접 센서, 가속도 센서나 자이로 센서 등을 통해 사용자 동작을 인식하는 모션 센서 및 그 외의 다양한 형태의 사용자 입력을 감지하거나 입력 받는 다양한 형태의 입력 수단을 모두 포함하는 포괄적인 개념이다. 여기서, 터치 센서는 디스플레이 패널에 부착되는 터치 패널이나 터치 필름을 통해 터치를 감지하는 압전식 또는 정전식 터치 센서, 광학적인 방식에 의해 터치를 감지하는 광학식 터치 센서 등으로 구현될 수 있다. 이외에도 입력 모듈은 자체적으로 사용자 입력을 감지하는 장치 대신 사용자 입력을 입력 받는 외부의 입력 장치를 연결시키는 입력 인터페이스(USB 포트, PS/2 포트 등)의 형태로 구현될 수도 있다. 또 출력 모듈은 각종 정보를 출력해 사용자에게 이를 제공할 수 있다. 출력 모듈은 영상을 출력하는 디스플레이, 소리를 출력하는 스피커, 진동을 발생시키는 햅틱 장치 및 그 외의 다양한 형태의 출력 수단을 모두 포함하는 포괄적인 개념이다. 이외에도 출력 모듈은 상술한 개별 출력 수단을 연결시키는 포트 타입의 출력 인터페이스의 형태로 구현될 수도 있다.The input/output unit 110 may be various interfaces or connection ports that receive user input or output information to the user. The input/output unit 110 can be divided into an input module and an output module, and the input module receives user input from the user. User input can take various forms, including key input, touch input, and voice input. Examples of input modules that can receive such user input include traditional keypads, keyboards, and mice, as well as touch sensors that detect the user's touch, microphones that receive voice signals, cameras that recognize gestures through image recognition, etc. A proximity sensor consisting of an illumination sensor or an infrared sensor that detects the user's approach, a motion sensor that recognizes the user's movements through an acceleration sensor or a gyro sensor, and various other types of input means that detect or receive various types of user input. It is a comprehensive concept that includes all of the following. Here, the touch sensor may be implemented as a piezoelectric or capacitive touch sensor that detects touch through a touch panel or touch film attached to the display panel, or an optical touch sensor that detects touch by an optical method. In addition, the input module may be implemented in the form of an input interface (USB port, PS/2 port, etc.) that connects an external input device that receives user input instead of a device that detects user input by itself. Additionally, the output module can output various information and provide it to the user. An output module is a comprehensive concept that includes a display that outputs images, a speaker that outputs sound, a haptic device that generates vibration, and various other types of output means. In addition, the output module may be implemented in the form of a port-type output interface that connects the individual output means described above.

보다 상세하게, 입/출력부(110)는, 사용자로부터 바이노럴 모드에 관한 사용자 입력을 입력 받을 수 있다. 이에 따라, 입/출력부(110)는 수신된 바이노럴 모드에 관한 사용자 입력을 프로세서(140)로 전달할 수 있다.In more detail, the input/output unit 110 may receive user input regarding the binaural mode from the user. Accordingly, the input/output unit 110 may transmit the received user input regarding the binaural mode to the processor 140.

한편, 여기에서 바이노럴 모드는, 이하에서 자세히 서술하겠으나, 예를 들어, 한 귀에 들려주는 소스의 주파수와 다른 한 귀에 들려주는 소스의 주파수 간의 차이에 따라, 결정되는 것으로서, 상기 양 측에 들려주는 소스의 주파수 차이에 따라서 구분된(카테고리화된) 모드일 수 있다.Meanwhile, here, the binaural mode, as will be described in detail below, is determined, for example, by the difference between the frequency of the source heard in one ear and the frequency of the source heard in the other ear, and is heard by both sides. The mode may be divided (categorized) according to the frequency difference of the main source.

일 예로, 디스플레이 형태의 출력 모듈은 텍스트, 정지 영상, 동영상을 디스플레이 할 수 있다. 디스플레이는 액정 디스플레이(LCD: Liquid Crystal Display), 발광 다이오드(LED: light emitting diode) 디스플레이, 유기 발광 다이오드(OLED: Organic Light Emitting Diode) 디스플레이, 평판 디스플레이(FPD: Flat Panel Display), 투명 디스플레이(transparent display), 곡면 디스플레이(Curved Display), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 홀로그래픽 디스플레이(holographic display), 프로젝터 및 그 외의 영상 출력 기능을 수행할 수 있는 다양한 형태의 장치를 모두 포함하는 광의의 영상 표시 장치를 의미하는 개념이다. 이러한 디스플레이는 입력 모듈의 터치 센서와 일체로 구성된 터치 디스플레이의 형태일 수도 있다.As an example, a display-type output module can display text, still images, and moving images. Displays include liquid crystal display (LCD), light emitting diode (LED) display, organic light emitting diode (OLED) display, flat panel display (FPD), and transparent display. display, curved display, flexible display, 3D display, holographic display, projector, and various other types of devices that can perform image output functions. It is a concept that refers to a video display device in a broad sense that includes everything. This display may be in the form of a touch display integrated with the touch sensor of the input module.

통신부(120)는 외부 기기와 통신할 수 있다. 따라서, 전자 장치(100)는 통신부를 통해 외부 기기 및/또는 서버(200)와 정보를 송수신할 수 있다. 예를 들어, 전자 장치(100)는 통신부를 이용해 본 시스템(1000)에 저장 및 생성된 정보들이 공유되도록 외부 기기와 통신을 수행할 수 있다.The communication unit 120 can communicate with external devices. Accordingly, the electronic device 100 can transmit and receive information with the external device and/or the server 200 through the communication unit. For example, the electronic device 100 may use the communication unit to communicate with an external device so that information stored and created in the system 1000 is shared.

여기서, 통신, 즉 데이터의 송수신은 유선 또는 무선으로 이루어질 수 있다. 이를 위해 통신부는 LAN(Local Area Network)를 통해 인터넷 등에 접속하는 유선 통신 모듈, 이동 통신 기지국을 거쳐 이동 통신 네트워크에 접속하여 데이터를 송수신하는 이동 통신 모듈, 와이파이(Wi-Fi) 같은 WLAN(Wireless Local Area Network) 계열의 통신 방식이나 블루투스(Bluetooth), 직비(Zigbee)와 같은 WPAN(Wireless Personal Area Network) 계열의 통신 방식을 이용하는 근거리 통신 모듈, GPS(Global Positioning System)과 같은 GNSS(Global Navigation Satellite System)을 이용하는 위성 통신 모듈 또는 이들의 조합으로 구성될 수 있다. 통신에 사용되는 무선 통신 기술은 저전력 통신을 위한 NB-IoT (Narrowband Internet of Things) 를 포함할 수 있다. 이때, 예를 들어 NB-IoT 기술은 LPWAN (Low Power Wide Area Network) 기술의 일례일 수 있고, LTE Cat (category) NB1 및/또는 LTE Cat NB2 등의 규격으로 구현될 수 있으며, 상술한 명칭에 한정되는 것은 아니다. 추가적으로 또는 대체적으로, 일 실시예에 따른 무선 기기에서 구현되는 무선 통신 기술은 LTE-M 기술을 기반으로 통신을 수행할 수 있다. 이때, 일 예로, LTE-M 기술은 LPWAN 기술의 일례일 수 있고, eMTC (enhanced Machine Type Communication) 등의 다양한 명칭으로 불릴 수 있다. 예를 들어, LTE-M 기술은 1) LTE CAT 0, 2) LTE Cat M1, 3) LTE Cat M2, 4) LTE non-BL(non-Bandwidth Limited), 5) LTE-MTC, 6) LTE Machine Type Communication, 및/또는 7) LTE M 등의 다양한 규격 중 적어도 어느 하나로 구현될 수 있으며 상술한 명칭에 한정되는 것은 아니다. 추가적으로 또는 대체적으로, 일 실시예에 따른 무선 기기에서 구현되는 무선 통신 기술은 저전력 통신을 고려한 지그비(ZigBee), 블루투스(Bluetooth) 및 저전력 광역 통신망(Low Power Wide Area Network, LPWAN) 중 적어도 어느 하나를 포함할 수 있으며, 상술한 명칭에 한정되는 것은 아니다. 일 예로 ZigBee 기술은 IEEE 802.15.4 등의 다양한 규격을 기반으로 소형/저-파워 디지털 통신에 관련된 PAN(personal area networks)을 생성할 수 있으며, 다양한 명칭으로 불릴 수 있다.Here, communication, that is, transmission and reception of data, can be accomplished wired or wirelessly. To this end, the communication department includes a wired communication module that connects to the Internet, etc. through a LAN (Local Area Network), a mobile communication module that transmits and receives data by connecting to a mobile communication network through a mobile communication base station, and a WLAN (Wireless Local Area Network) such as Wi-Fi. A short-distance communication module using an Area Network-type communication method or a WPAN (Wireless Personal Area Network)-type communication method such as Bluetooth or Zigbee, and a GNSS (Global Navigation Satellite System) such as a GPS (Global Positioning System) ) may be composed of a satellite communication module using a satellite communication module or a combination thereof. Wireless communication technology used for communication may include NB-IoT (Narrowband Internet of Things) for low-power communication. At this time, for example, NB-IoT technology may be an example of LPWAN (Low Power Wide Area Network) technology, and may be implemented in standards such as LTE Cat (category) NB1 and/or LTE Cat NB2, and may be referred to in the above names. It is not limited. Additionally or alternatively, a wireless communication technology implemented in a wireless device according to an embodiment may perform communication based on LTE-M technology. At this time, as an example, LTE-M technology may be an example of LPWAN technology, and may be called various names such as eMTC (enhanced Machine Type Communication). For example, LTE-M technologies include 1) LTE CAT 0, 2) LTE Cat M1, 3) LTE Cat M2, 4) LTE non-BL (non-Bandwidth Limited), 5) LTE-MTC, 6) LTE Machine. It can be implemented in at least one of various standards such as Type Communication, and/or 7) LTE M, and is not limited to the above-mentioned names. Additionally or alternatively, the wireless communication technology implemented in the wireless device according to an embodiment includes at least one of ZigBee, Bluetooth, and Low Power Wide Area Network (LPWAN) considering low-power communication. It may be included, and is not limited to the above-mentioned names. As an example, ZigBee technology can create personal area networks (PAN) related to small/low-power digital communications based on various standards such as IEEE 802.15.4, and can be called by various names.

데이터베이스(130)는 각종 정보를 저장할 수 있다. 데이터베이스는 데이터를 임시적으로 또는 반영구적으로 저장할 수 있다. 예를 들어, 데이터베이스에는 전자 장치(100)를 구동하기 위한 운용 프로그램(OS: Operating System), 웹 사이트를 호스팅하기 위한 데이터나 점자 생성을 위한 프로그램 내지는 어플리케이션(예를 들어, 웹 어플리케이션)에 관한 데이터 등이 저장될 수 있다. 또, 데이터베이스는 상술한 바와 같이 모듈들을 컴퓨터 코드 형태로 저장할 수 있다. The database 130 can store various types of information. A database can store data temporarily or semi-permanently. For example, the database includes an operating program (OS: Operating System) for driving the electronic device 100, data for hosting a website, a program for generating Braille, or data about an application (e.g., a web application). etc. can be stored. Additionally, the database may store modules in computer code form as described above.

데이터베이스(130)의 예로는 하드 디스크(HDD: Hard Disk Drive), SSD(Solid State Drive), 플래쉬 메모리(flash memory), 롬(ROM: Read-Only Memory), 램(RAM: Random Access Memory) 등이 있을 수 있다. 이러한 데이터베이스는 내장 타입 또는 탈부착 가능한 타입으로 제공될 수 있다.Examples of the database 130 include hard disk drive (HDD), solid state drive (SSD), flash memory, read-only memory (ROM), random access memory (RAM), etc. This can be. These databases can be provided as built-in or detachable types.

프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다. 이를 위해 프로세서(140)는 각종 정보의 연산 및 처리를 수행하고 전자 장치 및/또는 서버의 구성요소들의 동작을 제어할 수 있다. 예를 들어, 프로세서(140)는 서비스 제공을 위한 프로그램 내지 어플리케이션을 실행시킬 수 있을 것이다. 프로세서(140)는 하드웨어 소프트웨어 또는 이들의 조합에 따라 컴퓨터나 이와 유사한 장치로 구현될 수 있다. 하드웨어적으로 프로세서(140)는 전기적인 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적인 프로세서(140)를 구동시키는 프로그램 형태로 제공될 수 있다. 한편, 이하의 설명에서 특별한 언급이 없는 경우에는 전자 장치 및/또는 서버의 동작은 프로세서(140)의 제어에 의해 수행되는 것으로 해석될 수 있다. 즉, 본 시스템(1000)에 구현되는 모듈들이 실행되는 경우, 모듈들은 프로세서(140)가 전자 장치 및/또는 서버를 이하의 동작들을 수행하도록 제어하는 것으로 해석될 수 있다.The processor 140 controls the overall operation of the electronic device 100. To this end, the processor 140 may perform calculations and processing of various information and control the operation of components of the electronic device and/or server. For example, the processor 140 may execute a program or application to provide a service. The processor 140 may be implemented as a computer or similar device based on hardware, software, or a combination thereof. In hardware, the processor 140 may be provided in the form of an electronic circuit that processes electrical signals to perform a control function, and in software, it may be provided in the form of a program that drives the hardware processor 140. Meanwhile, unless otherwise specified in the following description, the operation of the electronic device and/or server may be interpreted as being performed under the control of the processor 140. That is, when modules implemented in the system 1000 are executed, the modules may be interpreted as the processor 140 controlling the electronic device and/or server to perform the following operations.

요약하면, 일 실시예는 다양한 수단을 통해 구현될 수 있다. 예를 들어, 일 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.In summary, an embodiment may be implemented through a variety of means. For example, an embodiment may be implemented by hardware, firmware, software, or a combination thereof.

하드웨어에 의한 구현의 측면에서, 일 실시예에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.In terms of implementation by hardware, the method according to one embodiment includes one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and FPGAs. It can be implemented by (field programmable gate arrays), processor, controller, microcontroller, microprocessor, etc.

펌웨어나 소프트웨어에 의한 구현의 측면에서, 일 실시예에 따른 방법은 이하에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치할 수 있으며, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.In terms of implementation by firmware or software, the method according to one embodiment may be implemented in the form of a module, procedure, or function that performs the functions or operations described below. For example, software code can be stored in memory and run by a processor. The memory may be located inside or outside the processor, and may exchange data with the processor through various known means.

일 실시예에 따르면, 프로세서 판독가능한(readable) 저장(storage) 매체(medium) (예를 들어, 비-휘발성 (non-transitory) 프로세서-판독 가능 매체 (processor-readable medium) 는 하나 이상의 지시 또는 컴퓨터 프로그램을 저장할 수 있으며, 하나 이상의 지시 또는 컴퓨터 프로그램은 하나 이상의 프로세서에 의해 실행될 경우 상기 하나 이상의 프로세서로 하여금 일 실시예 또는 구현들에 따른 동작들을 수행하도록 할 수 있다.According to one embodiment, a processor-readable storage medium (e.g., a non-volatile processor-readable medium) contains one or more instructions or A program may be stored, and one or more instructions or computer programs, when executed by one or more processors, may cause the one or more processors to perform operations according to an embodiment or implementations.

이하에서는, 상기와 같은 기술적 사상에 기초하여 일 실시예에 대해 보다 상세히 설명한다. 이하에서 설명되는 일 실시예는 상호 배척되지 않는 한 전부 또는 일부가 결합되어 또 다른 일 실시예를 구성할 수도 있으며, 이는 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있다. Below, an embodiment will be described in more detail based on the above technical idea. An embodiment described below may be combined in whole or in part to form another embodiment unless they are mutually exclusive, and this can be clearly understood by those skilled in the art.

이하에서 설명되는 일 실시예에 대해서는 앞서 설명한 제 1 절의 내용들이 적용될 수 있다. 예를 들어, 이하에서 설명되는 일 실시예에서 정의되지 않은 동작, 기능, 용어 등은 제 1 절의 내용들에 기초하여 수행되고 설명될 수 있다.The contents of Section 1 described above may be applied to an embodiment described below. For example, operations, functions, terms, etc. that are not defined in an embodiment described below may be performed and explained based on the contents of Section 1.

특별히 달리 언급되지 않은 한, 일 실시예에 대한 설명에서, A/B/C 는 A 및/또는 B 및/또는 C 를 의미할 수 있다.Unless specifically stated otherwise, in the description of an embodiment, A/B/C may mean A and/or B and/or C.

특별히 달리 언급되지 않은 한, 일 실시예에 대한 설명에서, A 초과/이상인 것은 A 이상/초과인 것으로 대체될 수 있다. Unless specifically stated otherwise, in the description of an embodiment, greater than/above A may be replaced with greater than/above A.

특별히 달리 언급되지 않은 한, 일 실시예에 대한 설명에서, B 미만/이하인 것은 B 이하/미만인 것으로 대체될 수 있다.Unless specifically stated otherwise, in the description of an embodiment, less than/less than B may be replaced with less than/less than B.

특별히 달리 언급되지 않는 한, 전자 장치(100)는 독립적으로 동작하거나 및/또는 서버(200)와의 통신에 기초하여 송수신되는 정보에 기초하여 동작할 수 있다. 예를 들어, 이하의 일 실시예에 대한 설명에서, 전자 장치(100)는 내부에 미리 저장된 정보에 기초하여 사용자에게 바이노럴 비트 및/또는 바이노럴 비트에 기초한 사운드 테라피 서비스를 제공할 수 있다. 다른 예시로, 이하의 일 실시예에 대한 설명에서, 전자 장치(100)는 서버(200)부터 수신된 음원 정보에 기초하여 사용자에게 바이노럴 비트 및/또는 바이노럴 비트에 기초한 사운드 테라피 서비스를 제공할 수 있다. 다른 예시로, 이하의 일 실시예에 대한 설명에서, 전자 장치는 내부에 미리 저장된 정보와 서버로부터 수신된 정보 모두에 기초하여 사용자에게 바이노럴 비트 및/또는 바이노럴 비트에 기초한 사운드 테라피 서비스를 제공할 수 있다.Unless specifically stated otherwise, the electronic device 100 may operate independently and/or based on information transmitted and received based on communication with the server 200. For example, in the description of an embodiment below, the electronic device 100 may provide binaural beats and/or sound therapy services based on binaural beats to a user based on information pre-stored therein. there is. As another example, in the description of an embodiment below, the electronic device 100 provides binaural beats and/or a sound therapy service based on binaural beats to the user based on sound source information received from the server 200. can be provided. As another example, in the description of an embodiment below, the electronic device provides binaural beats and/or a sound therapy service based on binaural beats to the user based on both information pre-stored therein and information received from the server. can be provided.

본 개시에서 바이노럴 비트는 뉴럴 비트를 생성하기 위해 양 귀에 가해지는 음향 효과를 의미할 수 있다. 뉴럴 비트는 뇌파를 동기화하기 위한 수단으로서, 뇌파 동기화는 뇌의 전기적 활동이 청각 또는 시각 신호와 같은 외부 자극과 동기화되는 현상을 의미한다. 본 개시에서, 바이노럴 비트를 적용하여 생성된 뉴럴 비트는 이완, 집중 등을 포함한 의식 상태의 변경을 유발하여 뇌와 신체에 영향을 미칠 수 있다.In the present disclosure, binaural beats may refer to sound effects applied to both ears to generate neural beats. Neural beats are a means for synchronizing brain waves, and brain wave synchronization refers to the phenomenon in which the electrical activity of the brain is synchronized with external stimuli such as auditory or visual signals. In the present disclosure, neural beats generated by applying binaural beats can affect the brain and body by causing changes in states of consciousness, including relaxation, concentration, etc.

인간의 뇌는 뇌파의 형태로 전기적 활동을 생성하며 이는 뇌파(EEG) 기술을 사용하여 측정할 수 있다. EEG를 통해 측정한 바에 따르면, 특정 의식 상태에서 특정 뇌파가 검출되는데, 깊은 수면을 위한 델타파, 휴식과 명상을 위한 세타파, 각성 휴식을 위한 알파파, 및 각성 및 집중을 위한 베타파와 같이 서로 다른 뇌파 주파수가 특정 의식 상태에서 검출된다. The human brain produces electrical activity in the form of brain waves, which can be measured using electroencephalography (EEG) technology. As measured by EEG, specific brain waves are detected in certain states of consciousness, such as delta waves for deep sleep, theta waves for relaxation and meditation, alpha waves for wakeful rest, and beta waves for alertness and concentration. Brain wave frequencies are detected in certain states of consciousness.

반복적인 소리와 같은 외부 자극이 특정 주파수로 뇌에 입력되면 뇌의 전기적 활동이 외부 자극과 동기화될 수 있다. 따라서, 본 개시의 바이노럴 비트를 이용하여 뉴럴 비트를 생성함으로써 뇌에서 특정 주파수의 뇌파가 생성될 수 있다. 즉, 각 귀에 약간 다른 주파수로 두 가지 다른 톤의 음원을 입력함으로써 뇌로 하여금 두 톤의 차이와 동일한 비트 주파수를 인식하게 하여 뇌의 전기적 활동을 바이노럴 비트 주파수와 동기화할 수 있다. When an external stimulus, such as a repetitive sound, is input to the brain at a specific frequency, the brain's electrical activity can become synchronized with the external stimulus. Therefore, brain waves of a specific frequency can be generated in the brain by generating a neural beat using the binaural beat of the present disclosure. In other words, by inputting two different tone sound sources at slightly different frequencies to each ear, the brain can recognize the difference between the two tones and the same beat frequency, thereby synchronizing the brain's electrical activity with the binaural beat frequency.

이하에서는 바이노럴 비트를 이용한 사운드 테라피 서비스를 제공하기 위한 구체적인 방안을 개시한다.특별히 달리 언급되지 않은 한, 이하의 일 실시예에 대한 설명에서 이용/획득/출력/표시되는 정보 등은 전자 장치(100) 및/또는 서버(200)가 직접 식별/획득한 정보이거나, 전자 장치(100) 및/또는 서버(200)에 포함된 데이터베이스에 저장된 정보이거나, 서버 및/또는 기타 외부 기기로부터 전자 장치(100) 및/또는 서버(200)가 수신 받은 정보 중 하나 이상일 수 있다.Below, a specific method for providing a sound therapy service using binaural beats is disclosed. Unless specifically stated otherwise, in the description of an embodiment below, information used/obtained/output/displayed, etc. is used in electronic devices. It is information directly identified/obtained by the electronic device 100 and/or the server 200, information stored in a database included in the electronic device 100 and/or the server 200, or information received from the electronic device 100 and/or other external devices. It may be one or more of the information received by 100 and/or server 200.

이하에서는, 일 실시예에 따른 전자 장치(100)의 일 구현 예에 따른 전자 장치가 설명되나, 이외에도 유사한 기능을 수행하는 다른 장치들도 전자 장치(100)가 될 수 있다. 예를 들어, 전자 장치는 단말, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), PC (personal computer) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. Below, an electronic device according to an implementation example of the electronic device 100 according to an embodiment will be described, but other devices that perform similar functions may also be the electronic device 100. For example, electronic devices include terminals, smart phones, laptop computers, tablet PCs, e-book terminals, digital broadcasting terminals, PDAs (Personal Digital Assistants), PMPs (Portable Multimedia Players), and PCs ( personal computer), etc., but is not limited thereto.

일 실시예에 대한 설명에서, 입체 음향, 3차원 소리 (사운드) 등의 용어는 상호 간에 혼용될 수 있으며, 특별히 달리 언급되지 않는 한, 동일한 의미로 이해될 수 있다. 입체 음향은 음원이 발생하는 공간이 아닌 공간에 위치한 청취자 및/또는 사용자가 음원이 발생한 공간과 같은 방향감, 거리감, 공간감 등을 지각할 수 있도록 하는 기술과 관련될 수 있다. 예를 들어, 입체 음향은 바이노럴 전달함수에 기반한 바이노럴 렌더링에 기초하여 생성/제공될 수 있다. In the description of an embodiment, terms such as three-dimensional sound and three-dimensional sound (sound) may be used interchangeably and, unless specifically stated otherwise, may be understood to have the same meaning. Stereoscopic sound may be related to technology that allows listeners and/or users located in a space other than the space where the sound source occurs to perceive the same sense of direction, distance, and space as the space where the sound source occurs. For example, stereoscopic sound may be generated/provided based on binaural rendering based on a binaural transfer function.

보다 상세하게, 본 개시의 일 실시예에 의한 전자 장치(100)는, 서버(200)로부터 음원 정보를 수신할 수 있다. 여기에서 음원 정보는 예를 들어, 디지털 음악 데이터 및/또는 MP3 파일, 스트리밍 서비스로 수신되는 음악 파일을 포함할 수 있다.In more detail, the electronic device 100 according to an embodiment of the present disclosure may receive sound source information from the server 200. Here, the sound source information may include, for example, digital music data and/or MP3 files, and music files received through a streaming service.

한편, 전자 장치(100)는 각종 데이터를 처리하는 적어도 하나의 프로세서(140)를 포함할 수 있다. 예시적으로, 전자 장치(100)의 프로세서(140)는, 예를 들어, 머신러닝을 위한 러닝 프로세서를 포함하여, 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.Meanwhile, the electronic device 100 may include at least one processor 140 that processes various data. By way of example, the processor 140 of the electronic device 100 may include, for example, a learning processor for machine learning, and may train a model composed of an artificial neural network using learning data. The artificial neural network learned here can be referred to as a learning model. A learning model can be used to infer a result value for new input data other than learning data, and the inferred value can be used as the basis for a decision to perform an operation.

전자 장치(100)는 서버(200)로부터 수신된 음원 정보를 음원 분리 인공지능 모델에 입력하여, 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력할 수 있다.The electronic device 100 may input sound source information received from the server 200 into a sound source separation artificial intelligence model and output frequency source information including at least one frequency source corresponding to the sound source information.

보다 상세하게, 전자 장치(100)의 프로세서(140)는 음원 정보 및 소스의 종류에 대응되는 적어도 하나의 주파수 소스를 포함하는 소스 정보를 포함하는 로우 데이터(여기에서 로우 데이터는 학습 데이터로 이해할 수 있음)을 기반으로 데이터를 분석 및 처리하여 머신 러닝 모델을 구축할 수 있다. 이에 대한 신뢰성을 확보하기 위해 로우 데이터의 미리 정해진 비율을 신뢰도 점검을 위한 점검 데이터로 활용하여, 상기 구축된 머신 러닝 모델의 신뢰도를 검증할 수 있다. 여기에서, 음원 정보는 상술한 바와 같이, 디지털 음원 데이터 등을 포함할 수 있으며, 소스의 종류는 예를 들어, 보컬(vocals), 드럼(drums), 베이스(bass), 키보드(piano) 등 음원을 구성하는 각각의 악기에 관한 종류를 의미할 수 있다. 보다 바람직하게, 전자 장치(100)의 프로세서는, 음원 정보 및 상기 음원 정보에 포함된 보컬, 드럼, 베이스 및 그 외 악기로 구분하여, 추출된 각각의 악기에 대응하는 주파수 소스를 포함하는 소스 정보를 출력하도록 상기 머신 러닝 모델을 구축할 수 있다. 즉, 적어도 하나의 주파수 소스는, 드럼의 주파수 대역에 대응되는 드럼 주파수 소스 또는 베이스의 주파수 대역에 대응되는 베이스 주파수 소스, 보컬 주파수 대역에 대응되는 보컬 주파수 소스 등 각각의 악기에 대응되는 주파수 소스 중 적어도 하나를 포함할 수 있다. More specifically, the processor 140 of the electronic device 100 generates raw data including source information including sound source information and at least one frequency source corresponding to the type of the source (here, the raw data can be understood as learning data). Based on this, you can build a machine learning model by analyzing and processing data. To ensure reliability, the reliability of the constructed machine learning model can be verified by using a predetermined ratio of raw data as inspection data for reliability check. Here, the sound source information may include digital sound source data, etc., as described above, and the type of source is, for example, sound sources such as vocals, drums, bass, and piano. It can refer to the type of each instrument that makes up the. More preferably, the processor of the electronic device 100 divides the sound source information into vocals, drums, bass, and other instruments included in the sound source information, and provides source information including a frequency source corresponding to each extracted instrument. The machine learning model can be built to output. That is, the at least one frequency source is one of the frequency sources corresponding to each instrument, such as a drum frequency source corresponding to the frequency band of the drum, a bass frequency source corresponding to the frequency band of the bass, and a vocal frequency source corresponding to the vocal frequency band. It can contain at least one.

본 개시의 일 실시예에 따르면, 프로세서(140)는, 음원 정보를 처리한 것에 기초하여, STFT(Short-Time Fourier Transform)를 통해 주파수 대역의 음원 정보로 출력(분해)할 수 있다. 이에 따라, 프로세서(140)는 소스의 종류(보컬, 드럼, 베이스 등)에 대응되는 주파수 대역의 주파수 소스를 추출할 수 있다. 즉, 프로세서(140)는 음원 정보를 처리한 것에 기초하여, 소스의 종류에 따라서, 소스의 종류에 대응되는 주파수 대역의 데이터인 주파수 소스를 상기 음원에 포함된 소스의 개수만큼 추출할 수 있다.According to an embodiment of the present disclosure, the processor 140 may output (decompose) the sound source information into frequency band sound source information through STFT (Short-Time Fourier Transform) based on the processed sound source information. Accordingly, the processor 140 can extract a frequency source in a frequency band corresponding to the type of source (vocal, drum, bass, etc.). That is, based on processing the sound source information, the processor 140 can extract frequency sources, which are data in a frequency band corresponding to the type of source, as many as the number of sources included in the sound source, depending on the type of source.

여기에서, 주파수 대역에 대응되는 주파수 소스를 추출하는 것은, 소스의 주파수 대역에 따라 일괄적으로 처리되어 추출되는 것이 아닐 수 있다. 즉, 일반적으로 드럼은 20 Hz에서 160 Hz 사이의 베이스 영역에 속하며, 킥 드럼과 톰은 50 Hz에서 100 Hz 사이의 영역에 속하게 된다. 또한, 베이스 기타는 4현일 경우 E 표준 조율로 41.2 Hz에서 329.63 Hz까지의 주파수 범위를 가지며, 보컬은 여성의 경우 250 Hz에서 1 KHz, 남성의 경우 80 Hz에서 350 Hz 사이의 주파수 범위를, 기타는 일반적으로 80 Hz에서 630 Hz 사이의 주파수 범위 가진다. 이에 따라, 중첩되는 주파수 범위가 존재하므로, 일괄적으로 추출할 수 없음을 이해할 수 있다.Here, extracting the frequency source corresponding to the frequency band may not be processed and extracted in a uniform manner according to the frequency band of the source. That is, drums generally fall into the bass range between 20 Hz and 160 Hz, and kick drums and toms fall into the range between 50 Hz and 100 Hz. Additionally, the bass guitar has a frequency range from 41.2 Hz to 329.63 Hz in E standard tuning for the 4-string, the vocal has a frequency range from 250 Hz to 1 KHz for women, and the frequency range from 80 Hz to 350 Hz for men. Typically has a frequency range between 80 Hz and 630 Hz. Accordingly, it can be understood that since overlapping frequency ranges exist, they cannot be extracted uniformly.

예시적으로, 프로세서(140)는, 서버(200)로부터 수신된 음원 정보를 처리한 것에 기초하여, STFT(Short-Time Fourier Transform)를 통해 소리 신호를 주파수-시간 도메인의 복소수 행렬로 만들 수 있다. 보다 상세하게, 프로세서(140)는 비음수 행렬 분해(NMF)를 기초로 복소수 행렬을 음원 특징 벡터와 기저 벡터의 곱으로 근사하여 생성할 수 있다. 이후, 프로세서(140)는 근사하여 생성된 음원 특징 벡터에 정규화된 공간 공분산 행렬을 적용하여, 각 소스 별 방향 정보를 획득할 수 있다. 이후, 프로세서(140)는 같은 방향에 해당하는 소스끼리 계층적 응집 클러스터링을 통해 각 소스에 대응되는 데이터를 통합하여, 각 소스 종류에 대응되는 주파수 소스를 추출할 수 있다. 다만, 이에 한정되는 것은 아니다.As an example, the processor 140 may convert the sound signal into a complex matrix in the frequency-time domain through STFT (Short-Time Fourier Transform) based on processing the sound source information received from the server 200. . More specifically, the processor 140 can generate a complex matrix by approximating it to the product of a sound source feature vector and a basis vector based on non-negative matrix factorization (NMF). Thereafter, the processor 140 can obtain direction information for each source by applying a normalized spatial covariance matrix to the sound source feature vector generated by approximation. Thereafter, the processor 140 may integrate data corresponding to each source through hierarchical aggregation clustering among sources corresponding to the same direction, and extract a frequency source corresponding to each source type. However, it is not limited to this.

예시적으로, 프로세서(140)는 공지된 소스 추출 방법 및/또는 향후 개발된 소스 추출 방법이 활용될 수 있다.As an example, the processor 140 may utilize a known source extraction method and/or a source extraction method developed in the future.

한편, 프로세서(140)는 음원 정보를 기초로 추출된 각 소스의 종류에 대응되는 주파수 소스 및 상기 음원 정보를 입력으로, 머신 러닝 모델을 구출할 수 있다. 이에 따라 구축된 머신 러닝 모델은 예를 들어, 음원 분리 인공지능 모델이라고 명명될 수 있다. 다만, 이는 예시로서, 이에 한정되는 것은 아니다.Meanwhile, the processor 140 may rescue a machine learning model using the frequency source corresponding to each type of source extracted based on the sound source information and the sound source information as input. The machine learning model built accordingly may be named, for example, a sound source separation artificial intelligence model. However, this is an example and is not limited thereto.

한편, 소스 정보는 예를 들어, 주파수 소스 정보 및/또는 시간 소스 정보를 포함할 수 있다. 보다 상세하게, 주파수 소스 정보는 시간 도메인의 음원 정보를 주파수 영역으로 분해한 이후, 적어도 하나의 소스의 종류에 대응되는 적어도 하나의 주파수 소스를 포함하는 정보일 수 있다. 또한, 시간 소스 정보는, 예시적으로, 상기 적어도 하나의 소스의 종류에 대응되는 적어도 하나의 주파수 소스의 STFT(Short-Time Fourier Transform) 역변환을 통한 시간 도메인의 적어도 하나의 시간 소스를 포함하는 정보일 수 있다.Meanwhile, the source information may include, for example, frequency source information and/or time source information. More specifically, the frequency source information may be information that includes at least one frequency source corresponding to the type of at least one source after decomposing sound source information in the time domain into the frequency domain. Additionally, the time source information illustratively includes at least one time source in the time domain through STFT (Short-Time Fourier Transform) inverse transformation of at least one frequency source corresponding to the type of the at least one source. It can be.

전자 장치(100)는 획득한 데이터를 기초로 보다 효율적인 학습을 수행하기 위하여 로우 데이터에 대한 전처리를 수행할 수 있다. 여기서 전처리는 상술한 STFT 변환 및 소스 별 주파수 대역에 따른 소스의 종류 별 추출한 주파수 소스의 역변환을 통해 생성된 분리된 시간 도메인의 소리 신호를 사용자가 직접 또는 외부기기를 통해 분류 학습을 위한 데이터를 선별하는 과정을 의미할 수 있다. 다만, 이는 예시로서 이에 한정되는 것은 아니다.The electronic device 100 may perform preprocessing on raw data to perform more efficient learning based on the acquired data. Here, the preprocessing is performed by selecting data for classification learning by the user directly or through an external device on the sound signal in the separated time domain generated through the above-described STFT transformation and inverse transformation of the frequency source extracted for each type of source according to the frequency band of each source. It can mean the process of doing something. However, this is an example and is not limited to this.

한편 전자 장치(100)는 신경망 모델의 인코더 및 디코더를 이용할 수 있다. 전자 장치(100)는 학습 데이터를 적어도 하나의 인코더로 입력하여 인코딩된 결과값으로서 적어도 하나의 벡터값을 획득할 수 있다. 인코더와 디코더는 신경망 모델의 일 종류로서, 각각은 DNN(Deep Neural Network), RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory models), BRDNN(Bidirectional Recurrent Deep Neural Network), CNN(Convolutional Neural Networks) 등으로 구성될 수 있으나, 이에 한정되지 않는다.Meanwhile, the electronic device 100 may use an encoder and decoder of a neural network model. The electronic device 100 may input training data into at least one encoder and obtain at least one vector value as an encoded result. The encoder and decoder are types of neural network models, each of which is Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Network (CNN). Networks), etc., but is not limited to this.

다른 실시예로, 전자 장치(100)의 프로세서는 딥 러닝 (deep learning) 알고리즘을 통해 학습 모델을 학습시킬 수 있다. In another embodiment, the processor of the electronic device 100 may train a learning model through a deep learning algorithm.

딥 러닝 (deep learning) 알고리즘은 머신 러닝(Machine learning) 알고리즘의 하나로 인간의 신경망을 본딴 인공 신경망에서 발전된 모델링 기법을 의미한다. 인공 신경망은 다층 계층 구조로 구성될 수 있다.Deep learning algorithm is one of the machine learning algorithms and refers to a modeling technique developed from artificial neural networks modeled after human neural networks. Artificial neural networks can be composed of multi-layered hierarchical structures.

인공 신경망(Artifical Neural Network; ANN)은 입력 층, 출력 층, 그리고 상기 입력 층과 출력 층 사이에 적어도 하나 이상의 중간 층 (또는 은닉 층, Hidden layer)(예를 들어 커널(Kernel))을 포함하는 계층 구조로 구성될 수 있다. 딥러닝 알고리즘은, 이와 같은 다중 계층 구조에 기반하여, 층간 활성화 함수(Activation function)의 가중치를 최적화(Optimization)하는 학습을 통해 결과적으로 신뢰성 높은 결과를 도출할 수 있다.An artificial neural network (ANN) includes an input layer, an output layer, and at least one intermediate layer (or hidden layer) (e.g., a kernel) between the input layer and the output layer. It may be structured in a hierarchical structure. Deep learning algorithms can ultimately produce highly reliable results through learning to optimize the weights of the activation function between layers based on this multi-layer structure.

본원의 일 실시예에 의한 전자 장치(100)의 프로세서에 적용 가능한 딥러닝 알고리즘은 예를 들어, 합성곱 신경망(Convolutional Neural Network; CNN) 및/또는 U-net을 포함할 수 있다. 보다 바람직하게, U-net 알고리즘을 적용할 수 있다. 다만, 이에 한정되는 것은 아니다. 실시예에 따라 다른 딥러닝 알고리즘이 적용될 수 있음을 이해할 수 있다.The deep learning algorithm applicable to the processor of the electronic device 100 according to an embodiment of the present application may include, for example, a convolutional neural network (CNN) and/or U-net. More preferably, the U-net algorithm can be applied. However, it is not limited to this. It can be understood that different deep learning algorithms may be applied depending on the embodiment.

합성곱 신경망(Convolutional Neural Network; CNN)은 기존의 데이터에서 지식을 추출하여 학습 과정이 수행되는 기법과 달리, 데이터의 특징을 추출하여 특징들의 패턴을 파악하는 구조를 갖는 것을 특징으로 한다. 상기 합성곱 신경망(Convolutional Neural Network; CNN)은 콘볼루션(Convolution) 과정과 풀링(Pooling) 과정을 통해 수행될 수 있다. 다시 말해, 상기 합성곱 신경망(Convolutional Neural Network; CNN)은 콘볼루션 층과 풀링 층이 복합적으로 구성된 알고리즘을 포함할 수 있다. 여기서, 콘볼루션 층에서는 데이터의 특징을 추출하는 과정(에를 들어, 합성곱 과정(콘볼루션 과정))이 수행된다. 상기 콘볼루션 과정은 데이터에 각 성분의 인접 성분들을 조사해 특징을 파악하고 파악한 특징을 한장으로 도출하는 과정으로써, 하나의 압축 과정으로써 파라미터의 개수를 효과적으로 줄일 수 있다. 풀링 층에서는 콘볼루션 과정을 거친 레이어의 사이즈를 줄여주는 과정(예를 들어, 풀링 과정)이 수행된다. 상기 풀링 과정은 데이터의 사이즈를 줄이고 노이즈를 상쇄시키고 미세한 부분에서 일관적인 특징을 제공할 수 있다. 일 예로, 상기 합성곱 신경망(Convolutional Neural Network; CNN)은 정보 추출, 문장 분류, 얼굴 인식 등 여러 분야에 활용될 수 있다. 한편, 합성곱 신경망(Convolutional Neural Network; CNN)은 기 공지된 기술이므로, 자세한 설명은 이하 생략한다.Unlike techniques in which a learning process is performed by extracting knowledge from existing data, Convolutional Neural Network (CNN) is characterized by having a structure that extracts features of data and identifies patterns of features. The convolutional neural network (CNN) can be performed through a convolution process and a pooling process. In other words, the convolutional neural network (CNN) may include an algorithm composed of a complex convolutional layer and a pooling layer. Here, a process of extracting features of data (eg, a convolution process (convolution process)) is performed in the convolution layer. The convolution process is a process of identifying features by examining adjacent components of each component in the data and deriving the identified features into one piece. As a compression process, the number of parameters can be effectively reduced. In the pooling layer, a process (for example, a pooling process) is performed to reduce the size of the layer that has undergone the convolution process. The pooling process can reduce the size of data, cancel out noise, and provide consistent features in fine details. For example, the convolutional neural network (CNN) can be used in various fields such as information extraction, sentence classification, and face recognition. Meanwhile, since the convolutional neural network (CNN) is a known technology, detailed description will be omitted below.

한편, 프로세서(140)에 의하여 학습되는 음원 분리 인공지능 모델은 예를 들어, GEMM 기반으로 학습된 모델일 수 있다. GEMM(General Matrix Multiplication)은 행렬 연산의 하나로서 두 개의 행렬을 곱하는 연산을 의미할 수 있다. 특히, 딥러닝에서 GEMM은 fully connected layer와 convolutional layer에서 사용될 수 있다. 이러한 레이어에서는 각 노드를 이전 레이어의 모든 노드와 연결하여 값을 계산해야 한다. 이를 위해 입력 행렬과 가중치 행렬을 곱한 다음, 편향(bias) 벡터를 더하여 결과를 생성할 수 있다.Meanwhile, the sound source separation artificial intelligence model learned by the processor 140 may be, for example, a model learned based on GEMM. GEMM (General Matrix Multiplication) is one of the matrix operations and may refer to an operation that multiplies two matrices. In particular, in deep learning, GEMM can be used in fully connected layers and convolutional layers. In these layers, the value must be calculated by connecting each node to all nodes in the previous layer. To do this, you can generate the result by multiplying the input matrix and the weight matrix and then adding the bias vector.

보다 상세하게, Fully connected layer는 딥러닝 모델의 마지막 단계에서 주로 사용되는 레이어이며, 이전 레이어의 모든 노드와 현재 레이어의 모든 노드를 연결하여 값을 계산할 수 있다. 이를 위해 입력 행렬과 가중치 행렬을 곱한 다음, 편향 벡터를 더하여 결과를 생성할 수 있다. 이 결과는 각 클래스에 대한 확률을 나타내며, 소프트맥스 함수를 적용하여 최종 분류를 수행할 수 있다.More specifically, a fully connected layer is a layer mainly used in the last step of a deep learning model, and can calculate values by connecting all nodes of the previous layer and all nodes of the current layer. To do this, the input matrix can be multiplied by the weight matrix, and then the bias vector can be added to generate the result. This result represents the probability for each class, and the final classification can be performed by applying the softmax function.

또한, Convolutional layer는 딥러닝 모델의 중간 단계에서 주로 사용되는 레이어이며, 이는 입력 이미지에 여러 개의 필터(filter)를 적용하여 특징 맵(feature map)을 생성할 수 있다. 필터는 작은 크기의 행렬로, 이미지의 일부 영역과 곱셈 연산을 수행하고 합산하는 것으로 정의될 수 있으며, 이 과정은 GEMM일 수 있다. 한편, 여기에서, 필터가 가중치 행렬이고 이미지가 입력 행렬이라고 가정될 수 있다. 이에 따라, 필터를 적용한 후에도 편향 벡터를 더할 수 있으며, 활성화 함수(activation function)를 적용하여 비선형성(non-linearity)을 부여할 수 있다.Additionally, the convolutional layer is a layer mainly used in the middle stage of a deep learning model, and can generate a feature map by applying multiple filters to the input image. A filter is a small-sized matrix that can be defined as performing a multiplication operation with some area of the image and summing it, and this process can be GEMM. Meanwhile, here, it can be assumed that the filter is the weight matrix and the image is the input matrix. Accordingly, a bias vector can be added even after applying a filter, and non-linearity can be given by applying an activation function.

한편, 전자 장치(100)는 예시적으로, 사용자 단말을 포함할 수 있다. 즉, 전자 장치(100)는 예를 들어, PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(WCode Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC, 노트북, 웨어러블 디바이스, 디지털 사이니지(Digital Signage) 등과 같은 모든 종류의 입출력 가능한 유무선 통신 장치를 포함할 수 있으며, 이에 한정되는 것은 아니다.Meanwhile, the electronic device 100 may exemplarily include a user terminal. That is, the electronic device 100 includes, for example, Personal Communication System (PCS), Global System for Mobile communication (GSM), Personal Digital Cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), and IMT. (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (WCode Division Multiple Access), Wibro (Wireless Broadband Internet) terminal, smartphone, SmartPad, tablet PC , laptops, wearable devices, digital signage, etc., may include all types of wired and wireless communication devices capable of input and output, but are not limited thereto.

이에 따라, 일반적으로, 사용자 단말에 인공지능 모델을 실행하기 위해서는 TensorFlow LITE 및/또는 PYyTorch MOBILE 등과 같은 라이브러리 프레임 워크를 활용하게 된다. TENSORFLOW LITE는 텐서플로우(TensorFlow)의 경량화된 버전으로서, 안드로이드(Android)와 iOS 앱에서 사용할 수 있으며, PYTORCH MOBILE은 파이토치(PyTorch)의 모바일 버전으로서, 안드로이드와 iOS 앱뿐만 아니라 리눅스(Linux) 기반의 임베디드(embedded) 시스템에서도 사용할 수 있다.Accordingly, in general, library frameworks such as TensorFlow LITE and/or PYyTorch MOBILE are utilized to execute artificial intelligence models on user terminals. TENSORFLOW LITE is a lightweight version of TensorFlow and can be used on Android and iOS apps, and PYTORCH MOBILE is a mobile version of PyTorch that runs not only on Android and iOS apps but also on Linux. It can also be used in embedded systems.

본 개시의 일 실시예에 따른 전자 장치(100)는, GEMM을 사용하여 인공지능 모델을 실행할 수 있다.The electronic device 100 according to an embodiment of the present disclosure can execute an artificial intelligence model using GEMM.

예시적으로, 전자 장치(100)는 안드로이드 OS 환경의 경우 GEMM을 사용하기 위해서는 BLAS 라이브러리를 적용(설치)하여 사용할 수 있다. 예시적으로, 안드로이드 OS에서 NDK (Native Development Kit)를 사용하여 C/C++로 작성된 라이브러리를 안드로이드에 포팅하여, BLAS 라이브러리를 사용할 수 있다. 특히, 복수의 BLAS 라이브러리 중, OpenBLAS, BLIS, intel MKL 등을 사용할 수 있다.As an example, in the case of an Android OS environment, the electronic device 100 can use GEMM by applying (installing) the BLAS library. As an example, the BLAS library can be used by porting a library written in C/C++ to Android using the NDK (Native Development Kit) on the Android OS. In particular, among multiple BLAS libraries, OpenBLAS, BLIS, Intel MKL, etc. can be used.

한편, 전자 장치(100)는 아이폰 OS 운영체제에서는 Accelerate 프레임워크를 사용할 수 있다. Accelerate 프레임워크는 선형 대수 계산을 가속화하는 라이브러리를 제공할 수 있다.Meanwhile, the electronic device 100 can use the Accelerate framework in the iPhone OS operating system. The Accelerate framework can provide libraries that accelerate linear algebraic computations.

한편, 전자 장치(100)는 GEMM을 사용함에 따라서, 연산 처리 속도와 메모리 효율을 증가시킬 수 있으며, Tensorflow Lite 및/또는 PyTorch Mobile과 비교하여, GEMM은 프레임워크에 종속되지 않고 어떤 딥러닝 모델에도 적용할 수 있는 효과를 제공할 수 있다. 또한, GEMM은 CPU나 GPU뿐만 아니라 TPU나 FPGA와 같은 가속기에서도 사용할 수 있어서 성능과 범용성능을 제공할 수 있다.Meanwhile, the electronic device 100 can increase computational processing speed and memory efficiency by using GEMM, and compared to Tensorflow Lite and/or PyTorch Mobile, GEMM is not dependent on the framework and can support any deep learning model. It can provide applicable effects. Additionally, GEMM can be used not only in CPUs and GPUs but also in accelerators such as TPUs and FPGAs, providing high performance and general-purpose performance.

전자 장치(100)의 프로세서(140)는 음원 분리 인공지능 모델에 입력하여 출력된 적어도 하나의 소스의 종류에 따라 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 획득한 것에 응답하여, 상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 판단할 수 있다.The processor 140 of the electronic device 100 responds to obtaining frequency source information including at least one frequency source according to the type of at least one source input and output to the sound source separation artificial intelligence model, and the output Depending on the source type of at least one frequency source, the source direction corresponding to the source type may be determined.

보다 상세하게, 소스 방향은, 상기 입체 음향 (Surround sound)에 기초한 가상 공간 내에서 특정 기준으로부터의 상기 시간 소스의 방위각 및 고도각에 관한 방향을 의미할 수 있다. 즉, 소스 방향은, 음원 정보를 분리하여, 입체 음향에 기초한 가상 공간 내에서 음원에 포함된 소스의 종류에 따라 다른 공간 위치에서 소리 신호가 들리는 것과 같은 효과를 제공하기 위한 방향일 수 있다. 다만, 이에 한정되는 것은 아니고, 다른 실시예로, 소스 방향은, 동일한 소스의 종류를 갖는 하나의 소스를 좌측 및/또는 우측과 구분하기 위한 것일 수 있다.More specifically, source direction may mean a direction with respect to the azimuth and elevation angles of the time source from a specific reference within a virtual space based on the surround sound. That is, the source direction may be a direction for separating sound source information and providing an effect such as sound signals being heard from different spatial locations depending on the type of source included in the sound source within a virtual space based on stereoscopic sound. However, it is not limited to this, and in another embodiment, the source direction may be used to distinguish one source of the same source type from the left and/or right.

도 3은 일 실시예에 소스 방향을 설명하기 위한 도면이다.Figure 3 is a diagram for explaining the source direction in one embodiment.

도 3을 참조하면, 본 개시의 일 실시예에 따른 프로세서(140)는 적어도 하나의 소스의 종류에 따라 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 획득한 것에 응답하여, 상기 소스의 종류에 따라 미리 정해진 소스 방향을 식별할 수 있다. 다만, 이에 한정되는 것은 아니고, 소스 방향은 사용자로부터 입/출력부(110)를 통해 수신할 수 있다.Referring to FIG. 3, in response to obtaining frequency source information including at least one frequency source according to the type of the at least one source, the processor 140 according to an embodiment of the present disclosure determines the type of the source. Accordingly, a predetermined source direction can be identified. However, the source direction is not limited to this, and the source direction can be received from the user through the input/output unit 110.

본 개시의 일 실시예에 따른 소스의 종류에 대응되는 미리 정해진 소스 방향은, 소스의 종류에 대응되는 방위각 및 고도각에 관한 것일 수 있다. 보다 상세하게, 소스의 종류에 대응되는 미리 정해진 소스 방향은, 소스의 종류가 보컬인 경우에 있어서, FL 및 FR 방향을 포함할 수 있으며, 베이스인 경우, FC, LFE 방향으로, 드럼인 경우, LS, LR 방향으로 그 외의 악기(기타 악기)인 경우, BLS 및 BRS 방향일 수 있다. 다만, 이는 예시로서, 이에 한정되는 것은 아니다.The predetermined source direction corresponding to the type of source according to an embodiment of the present disclosure may be related to the azimuth angle and elevation angle corresponding to the type of source. More specifically, the predetermined source direction corresponding to the type of source may include FL and FR directions when the source type is vocal, FC and LFE directions when the source type is vocal, and FC and LFE directions when the source type is vocal. In the case of other instruments (other instruments) in the LS and LR directions, it may be in the BLS and BRS directions. However, this is an example and is not limited thereto.

다른 실시예로, 미리 정해진 소스 방향은, 바이노럴 모드에 따라 미리 결정된 소스 방향일 수 있다. 이는 후술할 매핑 테이블에 관한 것일 수 있다. 정리하면, 미리 정해진 소스 방향은, 사용자가 선택한 바이노럴 모드(복수의 바이노럴 모드 중 특정 효과를 나타내는 모드)에 따라서, 상기 음원 정보에 포함된 복수의 주파수 소스 중 미리 정해진 소스의 종류에 대한 매핑 테이블 상의 소스 방향일 수 있다.In another embodiment, the predetermined source direction may be a predetermined source direction according to the binaural mode. This may be related to a mapping table that will be described later. In summary, the predetermined source direction is determined by the type of a predetermined source among a plurality of frequency sources included in the sound source information, depending on the binaural mode selected by the user (a mode showing a specific effect among a plurality of binaural modes). It may be the source direction on the mapping table.

다른 실시예로, 프로세서(140)는 적어도 하나의 소스의 종류에 따라 출력된 적어도 하나의 주파수 소스가 출력된 경우, 상기 소스의 종류에 대응되는 미리 정해진 방향을 식별할 수 있다. 다만, 도시된 바와 같이 한정된 것은 아니다. 즉, 도면에 도시된 위치는 설명에 편의를 위해 임의적으로 설정된 방향으로서, 적절한 위치로 변경될 수 있음을 이해할 수 있다.In another embodiment, when at least one frequency source is output according to the type of at least one source, the processor 140 may identify a predetermined direction corresponding to the type of the source. However, it is not limited as shown. In other words, it can be understood that the position shown in the drawing is an arbitrarily set direction for convenience of explanation and can be changed to an appropriate position.

다른 실시예로, 하나의 소스의 종류에 대응되는 소스 방향은, 방위각이 0도 내지 180도인 좌측(기준에 따라 변경됨, 예를 들어, 우측) 방향 및 방위각이 180도 내지 360도인 우측(기준에 따라 변경됨 예를 들어, 좌측) 방향을 포함할 수 있다. 이하에서는 설명의 편의상 방위각이 0도 내지 180도인 경우, 좌측 방향, 방위각이 180도 내지 360도인 경우 우측 방향이라고 명명하도록 한다.In another embodiment, the source directions corresponding to one type of source include the left direction (varying depending on the reference, e.g., right) with an azimuth of 0 degrees to 180 degrees and the right (depending on the reference) direction with an azimuth of 180 degrees to 360 degrees. may include direction (e.g., left). Hereinafter, for convenience of explanation, if the azimuth angle is 0 degrees to 180 degrees, it will be called the left direction, and if the azimuth angle is 180 degrees to 360 degrees, it will be called the right direction.

다른 실시예로, 프로세서(140)는 입/출력부(110)를 통해 소스의 종류에 따른 방위각 및 고도각에 대한 소스 방향 정보를 수신하고, 상기 소스 방향 정보에 기초하여, 상기 소스의 종류의 방위각 및 고도각을 업데이트할 수 있다.In another embodiment, the processor 140 receives source direction information about azimuth and elevation angles according to the type of source through the input/output unit 110, and based on the source direction information, determines the type of source. Azimuth and elevation angles can be updated.

보다 상세하게, 상술한 소스 방향 정보는 예를 들어, 변경할 소스의 종류에 대한 방위각 및 고도각에 관한 정보를 포함할 수 있다. 상기 소스 방향 정보는 소스의 종류 및 상기 종류에 대응되는 하나의 고도각 및 방위각일 수 있다. 이 경우, 프로세서(140)는, 방위각 180도 및 360도를 기준으로 좌우 대칭을 통해, 수신된 소스의 종류에 따른 두 가지의 고도각 및 방위각을 식별할 수 있다. 구체적으로, 도 3을 참조하면, 프로세서(140)는 입/출력부(110)를 통해 보컬에 대한 LS 방향에 대한 방위각 및 고도각을 수신한 것에 응답하여, 상기 보컬의 반대 방향에 해당하는 RS 방향을 식별할 수 있다. 이에 따라, 프로세서(140)는 소스의 종류에 대응되는 한가지 방향에 관한 정보를 포함하는 소스 방향 정보를 기초로, 두 개의 소스 방향을 식별할 수 있다. 다만, 이에 한정되는 것은 아니다.More specifically, the above-described source direction information may include, for example, information about azimuth and elevation angles for the type of source to be changed. The source direction information may be a type of source and an elevation angle and azimuth angle corresponding to the type. In this case, the processor 140 can identify two elevation angles and azimuth angles according to the type of received source through left-right symmetry based on azimuth angles of 180 degrees and 360 degrees. Specifically, referring to FIG. 3, in response to receiving the azimuth and elevation angles for the LS direction with respect to the vocal through the input/output unit 110, the processor 140 generates an RS corresponding to the opposite direction of the vocal. Direction can be identified. Accordingly, the processor 140 can identify two source directions based on source direction information including information about one direction corresponding to the type of source. However, it is not limited to this.

다른 실시예로, 사용자로부터 수신하는 상기 소스 방향 정보는, 상기 소스 종류에 대응되는 방위각 0도 내지 180도에 대응되는 제1 소스 방향 및 방위각 180도 내지 360에 대응되는 제2 소스 방향에 관한 정보를 포함할 수 있다.In another embodiment, the source direction information received from the user includes information about a first source direction corresponding to an azimuth angle of 0 degrees to 180 degrees and a second source direction corresponding to an azimuth angle of 180 degrees to 360 degrees corresponding to the source type. may include.

이에 따라, 프로세서(140)는, 소스의 종류에 따라 두 가지의 소스 방향(제1소스 방향 및 제2 소스 방향)을 식별하고, 상기 두 가지의 소스 방향으로 출력되는 사운드 신호가 상호 간 주파수의 편차가 제공될 수 있도록 바이노럴 비트를 적용할 수 있다.보다 상세하게, 전자 장치(100)의 프로세서(140)는 음원 분리 인공지능 모델에 입력하여 출력된 적어도 하나의 소스의 종류에 따라 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 처리한 것에 기초하여, 상기 소스의 종류에 대응되는 미리 정해진 소스 방향에 따라 바이노럴 비트를 적용할 수 있다.Accordingly, the processor 140 identifies two source directions (a first source direction and a second source direction) according to the type of source, and the sound signals output in the two source directions have frequencies of each other. Binaural bits may be applied so that a deviation can be provided. In more detail, the processor 140 of the electronic device 100 may determine at least one signal according to the type of at least one source input and output to the sound source separation artificial intelligence model. Based on processing frequency source information including one frequency source, binaural beats can be applied according to a predetermined source direction corresponding to the type of source.

즉, 상술한 바와 같이, 프로세서(140)는 적어도 하나의 주파수 소스의 종류에 따라, 소스 방향은 좌측 방향 및 우측 방향으로 식별할 수 있다. 이에 따라, 프로세서(140)는 좌측 방향에서의 소리 신호 와 우측 방향에서의 소리 신호의 주파수 편차를 적용하여, 바이노럴 비트를 적용하는 것일 수 있다. 또한, 상술한 바와 같이, 입/출력부(110)를 통해 바이노럴 모드에 관한 사용자 입력이 수신된 것에 따라서, 적어도 하나의 주파수 소스를 상기 바이노럴 모드에 대응되어 주파수 편차를 생성하는 바이노럴 비트를 적용하는 것일 수 있다.That is, as described above, the processor 140 can identify the source direction as left or right depending on the type of at least one frequency source. Accordingly, the processor 140 may apply binaural beats by applying the frequency difference between the sound signal in the left direction and the sound signal in the right direction. In addition, as described above, in response to a user input regarding the binaural mode being received through the input/output unit 110, at least one frequency source is used to generate a frequency deviation corresponding to the binaural mode. It may be applying binaural beats.

본 개시의 일 실시예에 따른 프로세서(140)는 복수의 바이노럴 모드 중 하나의 바이노럴에 모드에 관한 입력을 입/출력부(110)를 통해 수신한 것에 응답하여, 상기 바이노럴 모드에 대응되는 바이노럴 비트를 포함하는 사운드 및/또는 사운드 정보가 출력되는 것과 관련될 수 있다. The processor 140 according to an embodiment of the present disclosure responds to receiving an input regarding one binaural mode among a plurality of binaural modes through the input/output unit 110, It may be related to output of sound and/or sound information including binaural bits corresponding to the mode.

일 실시예에 따르면, 바이노럴 모드 각각은 기본 주파수 (default frequency) 와 BBF (binaural beat frequency) 에 기초하여 정의될 수 있다. 일 실시예에 따르면, 바이노럴 비트의 생성을 위하여 기본 주파수와 BBF 가 정의될 수 있다. 일 실시예에 따르면, 기본 주파수는 사용자의 양쪽 귀 중 특정 귀를 위한 주파수일 수 있다. 일 실시예에 따르면, BBF 는 바이노럴 비트의 주파수로, 바이노럴 비트에 대응되는 사운드 테라피에 의하여 유도될 목표 뇌파 주파수 (brain wave frequency range) 및/또는 목표 뇌파 주파수 범위와 관련될 수 있다. According to one embodiment, each binaural mode may be defined based on a default frequency and a binaural beat frequency (BBF). According to one embodiment, the fundamental frequency and BBF may be defined for generation of binaural beats. According to one embodiment, the basic frequency may be a frequency for a specific ear among the user's two ears. According to one embodiment, BBF is the frequency of the binaural beat, and may be related to the target brain wave frequency range and/or the target brain wave frequency range to be induced by sound therapy corresponding to the binaural beat. .

일 실시예에 따르면, 바이노럴 비트는 기본 주파수와 BBF 에 기초하여 결정되는 서로 다른 주파수 1, 2 에 기초하며, 각각 사용자의 서로 다른 귀(좌측 및 우측)에 입력되기 위한 것일 수 있다. According to one embodiment, binaural beats are based on different frequencies 1 and 2 determined based on the fundamental frequency and BBF, and may be input to different ears (left and right) of the user, respectively.

서로 다른 주파수 1 및 주파수 2를 결정하는 방법으로, 아래와 같은 예시가 있을 수 있다. 다만, 하기의 주파수 조합은 예시적인 것으로서, 서로 다른 귀에 입력되는 주파수 1과 주파수 2의 차이가 BBF를 만족하기 위한 어떠한 방법의 구현도 가능하며, 본 개시의 구현이 하기의 예시에 제한되는 것은 아니다. As a method of determining different frequencies 1 and 2, there may be an example as follows. However, the following frequency combination is an example, and any method can be implemented to satisfy the BBF for the difference between frequency 1 and frequency 2 input to different ears, and the implementation of the present disclosure is not limited to the examples below. .

<예시 조합 1><Example Combination 1>

주파수 1 (Hz) = 기본 주파수 Frequency 1 (Hz) = fundamental frequency

주파수 2 (Hz) = 기본 주파수 + BBF, or Frequency 2 (Hz) = Fundamental Frequency + BBF, or

주파수 2 (Hz) = 기본 주파수 - BBFFrequency 2 (Hz) = Fundamental Frequency - BBF

<예시 조합 2><Example Combination 2>

주파수 1 (Hz) = 기본 주파수 - a*BBFFrequency 1 (Hz) = Fundamental Frequency - a*BBF

주파수 2 (Hz) = 기본 주파수 + (1-a)*BBFFrequency 2 (Hz) = Fundamental Frequency + (1-a)*BBF

이때, a는 0과 1 사이의 실수At this time, a is a real number between 0 and 1.

상술된 예시를 다시 참조하면, 사용자에게 한쪽 귀에 300Hz 의 소리, 다른 쪽 귀에 310Hz 의 소리를 들려주면, 사용자의 뇌는 10Hz 의 파동으로 받아들여 및/또는 인식하여, 사용자의 뇌파가 10Hz 로 조절될 수 있다. 본 예시에서, 300Hz 또는 310Hz 는 기본 주파수이고, 10Hz 는 BBF 일 수 있다. 정리하면, 프로세서(140)는, 음원 정보에 포함된 소스의 종류에 따른 주파수 정보를 기본 주파수로 설정하되, 사용자로부터 선택된 바이노럴 모드에 따란 결정되는 BBF를 기초로 좌측 및 우측의 소리 신호 간 주파수 편차를 생성할 수 있다. Referring back to the example above, if the user is presented with a 300Hz sound in one ear and a 310Hz sound in the other ear, the user's brain will receive and/or recognize it as a 10Hz wave, and the user's brain waves will be adjusted to 10Hz. You can. In this example, 300Hz or 310Hz may be the fundamental frequency and 10Hz may be the BBF. In summary, the processor 140 sets the frequency information according to the type of source included in the sound source information as the basic frequency, and sets the frequency information between the left and right sound signals based on the BBF determined according to the binaural mode selected by the user. Frequency deviation can be created.

본 개시에서 바이노럴 모드란, 사용자가 특정 뇌파 효과를 얻기 위한 모드를 지칭하는 것으로서, 각각의 바이노럴 모드는 사용자에게 특정 효과를 출력하기 위한 모드를 의미할 수 있다. 이하에서는 각각의 바이노럴 모드 및 그 효과에 대해 설명한다.In the present disclosure, binaural mode refers to a mode for a user to obtain a specific brain wave effect, and each binaural mode may refer to a mode for outputting a specific effect to the user. Below, each binaural mode and its effects are explained.

일 실시예에 따르면, 바이노럴 모드에 따른 기본 주파수, BBF 및 소스 방향 간의 대응 관계가 미리 정의될 수 있다. 일 실시예에 따르면, 특정 소스의 종류와 대응 관계에 기초하여 식별되는 특정 기본 주파수와 특정 BBF 에 기초하여, 특정 바이노럴 모드를 위한 바이노럴 비트 및 바이노럴 비트를 포함하는 사운드 정보가 생성/출력될 수 있다. 일 실시예에 따르면, 이러한 바이노럴 비트를 포함하는 사운드 정보가 출력되는 것을 포함할 수 있다.According to one embodiment, the correspondence between fundamental frequency, BBF, and source direction according to binaural mode may be predefined. According to one embodiment, based on a specific fundamental frequency and a specific BBF identified based on the type and correspondence of a specific source, binaural beats for a specific binaural mode and sound information including binaural bits are provided. Can be generated/output. According to one embodiment, sound information including these binaural beats may be output.

한편, 본 개시의 일 실시예에 따른 바이노럴 모드는 하기와 같은 뇌파 동조화를 이룰 수 있도록 주파수 편차의 정도에 따라 복수의 바이노럴 모드로 구성될 수 있다. 각각의 바이노럴 모드는 예시적인 것으로서, 공지된 주파수 편차 및/또는 향후 공지될 주파수 편차가 적용될 수 있다.Meanwhile, the binaural mode according to an embodiment of the present disclosure may be composed of a plurality of binaural modes depending on the degree of frequency deviation to achieve brain wave synchronization as described below. Each binaural mode is an example, and a known frequency deviation and/or a frequency deviation to be known in the future may be applied.

일 실시예에 따른 바이노럴 모드는, 세타파 바이노럴 모드, 알파파 바이노럴 모드, 베타파 바이노럴 모드, 델타파 바이노럴 모드 및 감마파 바이노럴 모드를 포함할 수 있다. 각각의 바이노럴 모드에 따른 효과는 아래와 같이 정의될 수 있으나, 이에 한정되는 것은 아니다.The binaural mode according to one embodiment may include theta wave binaural mode, alpha wave binaural mode, beta wave binaural mode, delta wave binaural mode, and gamma wave binaural mode. The effects of each binaural mode can be defined as follows, but are not limited to this.

Theta (4-8 Hz): 명상, 깊은 휴식, 창의성Theta (4-8 Hz): Meditation, deep relaxation, creativity

Alpha (8-14 Hz): 집중력, 생산성Alpha (8-14 Hz): Focus, productivity

Beta (14-30 Hz): 뇌 활동 증가, 집중력 증가Beta (14-30 Hz): Increased brain activity, increased concentration

Delta (0.5-4 Hz): 깊은 수면Delta (0.5-4 Hz): deep sleep

Gamma (30-50 Hz): 인지 능력 향상Gamma (30-50 Hz): Improves cognitive abilities

이에 따라, 각각의 바이노럴 모드에 대응되는 주파수 편차를 좌측 및 우측 사운드 신호에 적용하여 바이노럴 비트를 제공할 수 있다. 즉, 상술한 BBF는 바이노럴 모드에 따른 주파수에 대응될 수 있음을 이해할 수 있다.Accordingly, binaural beats can be provided by applying the frequency deviation corresponding to each binaural mode to the left and right sound signals. In other words, it can be understood that the above-described BBF can correspond to the frequency according to the binaural mode.

바이노럴 비트가 뇌파 및/또는 그에 따른 테라피 효과에 미치는 영향은, BBF 뿐만 아니라 기본 주파수, 소스 방향 등에도 영향을 받을 수 있다. 이를 고려하여, 일 실시예에 따르면, 데이터베이스(130)는 바이노럴 모드에 따른 기본 주파수, BBF 및 소스 방향 간의 대응 관계를 매핑 테이블로 미리 저장할 수 있으며, 상기 매핑 테이블에는 BBF 뿐만 아니라, 기본 주파수, 소스 방향에 대한 것도 포함될 수 있다. The impact of binaural beats on brain waves and/or the resulting therapy effect may be affected not only by BBF but also by fundamental frequency, source direction, etc. Considering this, according to one embodiment, the database 130 may store the correspondence between the basic frequency, BBF, and source direction according to the binaural mode in advance as a mapping table, and the mapping table includes not only the BBF but also the basic frequency , source direction may also be included.

일 실시예에 따르면, 매핑 테이블의 획득을 위하여, 실험 및/또는 실험 결과를 포함하는 빅데이터가 획득될 수 있으며, 매핑 테이블은 이러한 실험 및/또는 빅데이터로부터 최적의 결과를 나타낸 적어도 하나의 바이노럴 모드(바이노럴 비트가 뇌파에 미친 영향과 관련), 기본 주파수, BBF, 소스 방향과 다른 파라미터들 간의 대응 관계를 나타낸 것일 수 있다. According to one embodiment, in order to obtain a mapping table, big data including experiments and/or experiment results may be acquired, and the mapping table is at least one bar showing the optimal result from these experiments and/or big data. It may represent the correspondence between binaural mode (related to the effect of binaural beats on brain waves), fundamental frequency, BBF, source direction and other parameters.

일 실시예에 따르면, 바이노럴 비트 및/또는 바이노럴 비트를 포함하는 사운드 정보는 입체 음향 및/또는 비 입체 음향으로 출력될 수 있다. 일 실시예에 따르면, 매핑 테이블에 포함된 사운도 정보 방향 후보들은 방위각 (azimuth angle) 또는 고도각 (elevation angle) 중 하나 이상으로 정의될 수 있으며, 소스 방향 및/또는 소스 방향 후보들은 입체 음향으로 출력되는 바이노럴 비트 및/또는 바이노럴 비트를 포함하는 사운드 정보를 위한 것일 수 있다. According to one embodiment, binaural beats and/or sound information including binaural beats may be output as stereoscopic sound and/or non-stereoscopic sound. According to one embodiment, the sound information direction candidates included in the mapping table may be defined as one or more of an azimuth angle or an elevation angle, and the source direction and/or source direction candidates may be expressed as stereoscopic sound. It may be for output binaural beats and/or sound information including binaural beats.

한편, 본 개시의 일 실시예에 따르면, 바이노럴 비트는, 소스의 종류에 따라 적용 여부가 결정될 수 있다. 예시적으로, 음원 정보가 드럼, 베이스 및 보컬의 소스를 포함하는 경우에 있어서, 전자 장치(100)의 프로세서(140)는 드럼 및/또는 베이스에 대한 주파수 소스에 바이노럴 비트를 적용할 수 있다. 이는, 드럼 및/또는 베이스에 대한 주파수 편차 조절이 사용자가 인식하는 것에 어려움이 존재할 수 있으나, 뇌파 동조화 효과를 유지하기 위함일 수 있다.Meanwhile, according to an embodiment of the present disclosure, application of binaural beats may be determined depending on the type of source. Illustratively, in a case where the sound source information includes sources of drums, bass, and vocals, the processor 140 of the electronic device 100 may apply binaural beats to the frequency sources for the drums and/or bass. there is. This may be to maintain the brain wave synchronization effect, although there may be difficulty in the user's recognition of the frequency deviation adjustment for drums and/or bass.

한편, 상기 바이노럴 비트는, 세타파 바이노럴 모드, 알파파 바이노럴 모드, 베타파 바이노럴 모드, 델타파 바이노럴 모드 및 감마파 바이노럴 모드 등에 따라 적용되는 바이노럴 비트일 수 있다.Meanwhile, the binaural beat is a binaural beat applied according to theta wave binaural mode, alpha wave binaural mode, beta wave binaural mode, delta wave binaural mode, and gamma wave binaural mode. It can be.

도 4는 본 개시의 일 실시예에 따른 바이노럴 비트을 설명하기 위한 도면이다.Figure 4 is a diagram for explaining binaural beats according to an embodiment of the present disclosure.

도 4 를 참조하면, 소리의 방향은 사운드 소스 (source) 의 방향과 관련될 수 있다. Referring to FIG. 4, the direction of sound may be related to the direction of the sound source.

인간은 소리의 방향을 양이 시간 차이 (interaural timing difference) 와 양이 강도 차이 (interaural intensity difference) 에 기초하여 식별할 수 있다. 즉, 탑-뷰 (top-view) 로 도시된 도 4 에서, 사운드 소스와 왼쪽 귀 간의 거리가, 사운드 소스와 오른쪽 귀 간의 거리 보다 크므로, 왼쪽 귀에 도달하는 음파와 오른 쪽 귀에 도달하는 음파에는 차이가 발생될 수 있다. 즉, 왼쪽 귀에 도달하는 음파의 진폭은 오른쪽 귀에 도달하는 음파의 진폭보다 작을 수 있다. 또한, 왼쪽 귀에 도달하는 음파는 오른쪽 귀에 도달하는 음파에 대비하여 더 늦게 도달한다. 이로부터, 인간은 소리의 방향을 식별할 수 있다.Humans can identify the direction of sound based on interaural timing difference and interaural intensity difference. That is, in FIG. 4 shown in top-view, the distance between the sound source and the left ear is greater than the distance between the sound source and the right ear, so the sound waves reaching the left ear and the sound waves reaching the right ear are Differences may occur. In other words, the amplitude of the sound wave reaching the left ear may be smaller than the amplitude of the sound wave reaching the right ear. Additionally, sound waves reaching the left ear arrive slower than sound waves reaching the right ear. From this, humans can identify the direction of sound.

사운드 소스의 방향은 특정 기준으로부터 측정된 방위각 및/또는 특정 기준으로부터 측정된 고도각에 의하여 정의될 수 있다. 도 4 에는 설명의 편의상 방위각만 도시되었다. 상술된 바와 같이 소리 및/또는 바이노럴 비트의 방향에 따라 효과가 달라지므로, 최적의 사운드 테라피 제공을 위해서는 각 사운드 테라피의 효과가 가장 좋은 소스 방향 또한 정의되어, 그에 기반하여 입체 음향이 생성될 수 있어야 한다. The direction of the sound source may be defined by an azimuth angle measured from a specific reference and/or an elevation angle measured from a specific reference. In Figure 4, only the azimuth angle is shown for convenience of explanation. As described above, since the effect varies depending on the direction of the sound and/or binaural beat, in order to provide optimal sound therapy, the source direction with the best effect of each sound therapy is also defined, and stereoscopic sound is generated based on that. Must be able to.

본 개시의 일 실시예에 따른 전자 장치(100)의 프로세서(140)는, 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 소스 방향에 기초하여 입체 음향 처리하여 사운드 정보를 생성할 수 있다.The processor 140 of the electronic device 100 according to an embodiment of the present disclosure may generate sound information by processing stereoscopic sound based on the source direction of at least one frequency source to which binaural beats are applied.

보다 상세하게, 전자 장치(100)의 프로세서(140)는, 바이노럴 비트가 적용된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 시간 영역의 적어도 하나의 시간 소스를 추출하고, 상기 추출된 적어도 하나의 시간 소스 및 소스 방향에 기초하야 입체 음향 처리함으로써, 사운드 정보를 생성할 수 있다. 다만, 이에 한정되는 것은 아니다.More specifically, the processor 140 of the electronic device 100 extracts at least one time source in the time domain through inverse STFT (Short-Time Fourier Transform) transformation of at least one frequency source to which binaural beats are applied, , sound information can be generated by processing stereoscopic sound based on the extracted at least one time source and source direction. However, it is not limited to this.

다른 실시예로, 전자 장치(100)의 프로세서(140)는 바이노럴 비트가 적용된 적어도 하나의 주파수 소스 및 소스 방향에 기초하여, 입체 음향 처리하고, 상기 입체 음향 처리된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 입체 음향이 적용된 적어도 하나의 시간 소스를 추출함으로써, 사운드 정보를 생성할 수 있다.In another embodiment, the processor 140 of the electronic device 100 processes stereoscopic sound based on at least one frequency source to which binaural beats are applied and the source direction, and processes the stereoscopic sound-processed at least one frequency source. Sound information can be generated by extracting at least one time source to which stereoscopic sound is applied through STFT (Short-Time Fourier Transform) inverse transformation.

입체 음향 처리는, 예를 들어, 시간 도메인 상태의 소스 및/또는 주파수 도메인 상태의 소스와 소스 방향을 기초로 수행될 수 있다. 보다 바람직하게, 입체 음향 처리는, 시간 도메인 상태의 소스 및 소스 방향을 기초로 수행되는 것이 타당할 수 있다. 이는, 시간 도메인에서의 바이노럴 전달함수를 적용하는 것이 주파수 도메인에서 보다 연산의 속도가 빠르기 때문일 수 있다. 이에 따라서, 전자 장치(100)는 스트리밍되어 수신되는 음원 정보를 보다 빠르게 입체 음향 처리할 수 있는 것일 수 있다. 다만, 이에 한정되는 것은 아니다.Stereoscopic audio processing may be performed, for example, based on the source in a time domain state and/or the source in a frequency domain state and source direction. More preferably, it may be appropriate for stereoscopic sound processing to be performed based on the source and source direction in the time domain. This may be because the calculation speed of applying the binaural transfer function in the time domain is faster than in the frequency domain. Accordingly, the electronic device 100 may be able to process stereophonic sound information that is received through streaming more quickly. However, it is not limited to this.

본 개시의 일 실시예에 따른 전자 장치(100)의 프로세서(140)는 사운드 소스에 대하여 입체 음향 처리를 수행할 수 있다. 보다 구체적으로, 프로세서(140)는 출력된 시간 도메인의 시간 소스 및/또는 주파수 도메인의 주파수 소스와 상기 소스의 종류에 대응되는 소스 방향을 기초로 입체 음향 처리를 수행할 수 있다. 여기에서 입체 음향 처리는 예를 들어, 상기 소스 방향에 대응되는 바이노럴 전달함수를 상기 시간 소스 및/또는 주파수 소스에 곱 연산을 통해 처리하는 것일 수 있다.다만, 이에 한정되는 것은 아니다.The processor 140 of the electronic device 100 according to an embodiment of the present disclosure may perform three-dimensional sound processing on a sound source. More specifically, the processor 140 may perform three-dimensional sound processing based on the output time source in the time domain and/or the frequency source in the frequency domain and the source direction corresponding to the type of the source. Here, stereoscopic sound processing may be, for example, processing a binaural transfer function corresponding to the source direction by multiplying the time source and/or the frequency source. However, it is not limited to this.

한편, 이하에서는 바이노럴 전달함수에 대하여 상세히 설명하도록 한다. 이하에서 설명하는 바이노럴 전달함수는, 프로세서(140)에 의하여 사용될 수 있으며, 서버(200)로부터 수신되거나, 데이터베이스(130)에 기저장된 것일 수 있다.Meanwhile, the binaural transfer function will be described in detail below. The binaural transfer function described below may be used by the processor 140, may be received from the server 200, or may be previously stored in the database 130.

사람은 소리에 담겨있는 다양한 단서를 통해 소리에 대한 거리감, 방향감, 공간감 등을 인식한다. 상기 단서는 크게 바이노럴 큐(binaural cue)와 모노럴 큐(monaural cue)로 나뉠 수 있다.People perceive distance, direction, and space from sound through various clues contained in sound. The clues can be broadly divided into binaural cues and monaural cues.

바이노럴 큐는 양쪽 귀에 들어오는 신호의 차이를 인지하는 것으로, 양이 신호의 레벨 차이에 대한 양이 레벨차(Interaural Level Difference, ILD), 시간 차이에 대한 양이 시간차(Interaural Time Difference, ITD), 상관관계(correlation)에 대한 양이 코히어런스(Interaural Coherence) 등이 있고, 모노럴 큐는 한 쪽 귀로 신호 자체의 특성을 인지하는 것이다. 동일한 소리라 하더라도 발생하는 고도에 따라 사람의 머리와 귓바퀴, 어깨 등 신체 특성에 의한 필터링 효과에 의해 특정 주파수 영역에서 보강되거나(피크 발생), 감쇄되는(노치 발생) 경향을 보인다. 이러한 주파수 특성의 변화로부터 사람은 소리의 발생 고도를 인지할 수 있다.Binaural cueing refers to recognizing differences in signals coming into both ears, including binaural level difference (Interaural Level Difference, ILD) for level differences in binaural signals, and binaural time difference (ITD) for time differences. , interaural coherence for correlation, etc., and monaural cueing refers to recognizing the characteristics of the signal itself with one ear. Even if the sound is the same, it tends to be reinforced (peak generation) or attenuated (notch generation) in a specific frequency range due to the filtering effect of body characteristics such as the person's head, ear pinna, and shoulders, depending on the altitude at which it is produced. From these changes in frequency characteristics, people can recognize the altitude at which sound occurs.

바이노럴 전달함수란 사람의 머리와 귓바퀴, 어깨 등 신체 특성에 따른 음향 신호의 상관 관계를 표현한 함수로, 바이노럴 큐 및 모노럴 큐에 대한 정보를 포함한다. 전술한 바와 같이 소리의 고도를 인지하는데 이용되는 모노럴 큐는 바이노럴 전달함수에서 노치와 같은 형태로 나타나게 된다. 예를 들어, 도 5을 참고하면, 정면(0°)에서 발생한 소리와 그보다 높은 위치(+45°) 또는 낮은 위치(-45°)에서 발생한 소리는 바이노럴 전달함수 상에서 노치가 달라지고, 사람은 이러한 노치가 달라지는 특징을 이용하여 소리의 고도를 인지한다.The binaural transfer function is a function that expresses the correlation between acoustic signals according to physical characteristics such as a person's head, ear pinna, and shoulders, and includes information about binaural and monaural cues. As mentioned above, the monaural cue used to recognize the altitude of a sound appears in a notch-like form in the binaural transfer function. For example, referring to Figure 5, the notch on the binaural transfer function is different for a sound generated from the front (0°) and a sound generated from a higher position (+45°) or lower position (-45°), People use the characteristics of these notches to recognize the altitude of the sound.

정확한 바이노럴 전달함수를 이용하여 바이노럴 렌더링을 수행하면 청취자에게 보다 현실감 있는 입체 음향을 제공할 수 있다. By performing binaural rendering using an accurate binaural transfer function, more realistic three-dimensional sound can be provided to the listener.

따라서 다양한 청취자에게 현실감 있는 입체 음향을 제공하기 위한 하나의, 또는 몇몇 개의 표준 바이노럴 전달함수를 생성하고 이를 이용한 바이노럴 렌더링을 수행하여 입체 음향을 제공하는 것이 일반적이고, 이때 취득의 편리함 및 용이성으로 인해 더미 헤드 또는 사람의 콘차에 마이크를 위치시켜 바이노럴 전달함수를 취득하고 이를 바탕으로 입체 음향을 생성하는 것이 일반적이다. Therefore, it is common to provide stereoscopic sound by creating one or several standard binaural transfer functions to provide realistic stereoscopic sound to various listeners and performing binaural rendering using it. At this time, convenience of acquisition and Due to ease of use, it is common to place a microphone on a dummy head or a human concha to obtain a binaural transfer function and generate three-dimensional sound based on this.

그러나, 사람은 고막에 전달되는 소리를 통해 소리를 인식하므로, 콘차 위치에서 취득한 바이노럴 전달함수의 경우 사람이 인식하는 소리의 특성을 온전히 담지 못하는 문제가 발생한다. 반면, 고막 위치에서 바이노럴 전달함수를 취득하는 것은 사람의 고막 근처까지 기구를 삽입하여야 하므로 고막이 찢어지거나 사람이 불편감을 느껴 바이노럴 전달함수를 취득하기 어려운 문제가 있다. 특히, 다양한 청취자에게 맞는 표준 바이노럴 전달함수를 생성하기 위해서는 여러 사람으로부터 바이노럴 전달함수를 취득해야 하므로 고막 위치에서 바이노럴 전달함수를 취득하는 것은 콘차 위치에서 바이노럴 전달함수를 취득하는 것에 비해 더더욱 어려워진다.However, since humans perceive sound through the sound transmitted to the eardrum, a problem arises in that the binaural transfer function obtained at the concha location does not fully capture the characteristics of the sound perceived by humans. On the other hand, acquiring a binaural transfer function at the location of the eardrum requires inserting an instrument close to the person's eardrum, which makes it difficult to acquire the binaural transfer function because the eardrum is torn or the person feels uncomfortable. In particular, in order to generate a standard binaural transfer function suitable for various listeners, binaural transfer functions must be acquired from several people, so obtaining a binaural transfer function at the eardrum location is equivalent to obtaining a binaural transfer function at the concha location. It becomes even more difficult than doing it.

본 개시는 고막 위치에서 취득한 바이노럴 전달함수를 이용하여 표준 바이노럴 전달함수를 생성하고, 생성된 표준 바이노럴 전달함수를 이용하여 입체 음향을 생성하는 것을 포함한다. The present disclosure includes generating a standard binaural transfer function using a binaural transfer function obtained from the eardrum location, and generating three-dimensional sound using the generated standard binaural transfer function.

한편, 바이노럴 전달함수는 머리전달함수(Head Related Transfer Function, HRTF 또는 Head Related Impulse Response, HRIR)와 같이 무향실에서 측정되거나 무향실 상황으로 시뮬레이션되어 머리, 두 귀의 형상과 같이 신체 특성만을 반영하는 전달함수일 수 있다. 또는, 바이노럴 전달함수는 소리의 방향뿐 아니라 재생 공간의 특성이 반영된, 다시 말해 머리전달함수에 재생 공간의 특성까지 반영된 함수인 BRIR(Binaural Room Impulse Response) 또는 BRTF(Binaural Room Transfer Function)일 수 있다. 본 개시에서, 바이노럴 전달함수는 머리전달함수, BRIR, BRTF 등을 포괄하는 용어로서 사용될 수 있으며, HRTF, BRIR 등과 혼용되어 사용될 수 있다. 또한, 바이노럴 전달함수는 머리전달함수, BRIR, BRTF 뿐만 아니라, 신체와 공간 특성을 반영하여 최적의 소리를 시뮬레이션 하기 위해 유사한 기능을 수행하는 다른 전달함수를 의미할 수 있다. 바이노럴 전달함수를 통해, 이어폰을 통해 전달되는 음원을 보정하면 사용자는 음향을 보다 자연스럽고 현실감 있게 인식할 수 있다.Meanwhile, the binaural transfer function, like the Head Related Transfer Function (HRTF or Head Related Impulse Response, HRIR), is measured in an anechoic room or simulated in an anechoic room situation, and is a transfer function that reflects only body characteristics such as the shape of the head and two ears. It can be a function. Alternatively, the binaural transfer function may be BRIR (Binaural Room Impulse Response) or BRTF (Binaural Room Transfer Function), which is a function that reflects not only the direction of the sound but also the characteristics of the playback space, that is, the head transfer function reflects the characteristics of the playback space. You can. In the present disclosure, binaural transfer function may be used as a term encompassing head transfer function, BRIR, BRTF, etc., and may be used interchangeably with HRTF, BRIR, etc. Additionally, the binaural transfer function may refer to not only the head transfer function, BRIR, and BRTF, but also other transfer functions that perform similar functions to simulate optimal sound by reflecting body and spatial characteristics. By correcting the sound source transmitted through earphones through the binaural transfer function, users can perceive the sound more naturally and realistically.

도 6은 일 실시예에 따른 바이노럴 전달함수 획득 방법을 설명하기 위한 도면이다. Figure 6 is a diagram for explaining a method of obtaining a binaural transfer function according to an embodiment.

도 6을 참고하면, 피실험자는 복수의 스피커가 설치된 소정의 공간(룸) 내에 위치하고, 이때 피실험자의 양 귀 각각의 근처에는 마이크가 위치한다. 상기 스피커를 통해 임펄스, 핑크 노이즈, 화이트 노이즈 등의 소리가 재생되고, 재생된 소리는 반사되지 않고 마이크로 바로 도달하거나(직접음) 벽이나 어떤 물체에 반사된 후 마이크로 도달하여(반사음) 녹음될 수 있다.Referring to FIG. 6, the test subject is located in a predetermined space (room) where a plurality of speakers are installed, and a microphone is located near each of the test subject's ears. Sounds such as impulse, pink noise, and white noise are played through the speaker, and the reproduced sound can be recorded by reaching the microphone directly without being reflected (direct sound) or by being reflected by a wall or some object and reaching the microphone (reflected sound). there is.

스피커별로 소리를 재생하여 녹음하게 되면 각 스피커에 대응하는 바이노럴 전달함수를 취득할 수 있다. 스피커의 위치는 피실험자의 위치에 대한 상대적인 위치(예를 들어, 방위각(azimuth angle), 고도각(elevation angle) 등)로 표현될 수 있고, 따라서 피실험자를 기준으로 특정 위치에 대한 바이노럴 전달함수를 취득할 수 있다. 본 명세서에서는 복수의 위치에 대해 이에 대응하도록 취득한 복수의 바이노럴 전달함수를 바이노럴 전달함수 세트(set)로 지칭한다. 또한, 피실험자의 양 귀 각각에 마이크가 위치하므로, 각 위치별로 왼쪽 귀에 대응하는 바이노럴 전달함수와 오른쪽 귀에 대응하는 바이노럴 전달함수를 취득하게 된다. 본 명세서에서는 왼쪽 귀에 대응하는 바이노럴 전달함수와 오른쪽 귀에 대응하는 바이노럴 전달함수를 총칭하여 바이노럴 전달함수 페어(pair)라고 한다. 즉, 하나의 바이노럴 전달함수 세트는 n개의 위치 각각에 대응하는 n개의 바이노럴 전달함수 페어를 포함하고, 각 바이노럴 전달함수 페어는 왼쪽 귀에 대응하는 바이노럴 전달함수와 오른쪽 귀에 대응하는 바이노럴 전달함수를 포함한다. 예를 들어, 도 6의 경우 하나의 바이노럴 전달함수 세트는 18개의 위치 각각에 대응하는 18개의 바이노럴 전달함수 페어를 포함하고, 각 바이노럴 전달함수 페어는 왼쪽 귀에 대응하는 바이노럴 전달함수와 오른쪽 귀에 대응하는 바이노럴 전달함수를 포함한다When sound is played and recorded for each speaker, the binaural transfer function corresponding to each speaker can be obtained. The position of the speaker can be expressed as a position relative to the subject's position (e.g., azimuth angle, elevation angle, etc.), and thus the binaural transfer function for a specific position relative to the subject. can be acquired. In this specification, a plurality of binaural transfer functions obtained to correspond to a plurality of positions are referred to as a binaural transfer function set. Additionally, since microphones are located in each of the subject's ears, a binaural transfer function corresponding to the left ear and a binaural transfer function corresponding to the right ear are acquired for each location. In this specification, the binaural transfer function corresponding to the left ear and the binaural transfer function corresponding to the right ear are collectively referred to as a binaural transfer function pair. That is, one binaural transfer function set includes n binaural transfer function pairs corresponding to each of n positions, and each binaural transfer function pair includes a binaural transfer function corresponding to the left ear and a binaural transfer function corresponding to the right ear. Contains the corresponding binaural transfer function. For example, in the case of Figure 6, one binaural transfer function set includes 18 binaural transfer function pairs corresponding to each of 18 positions, and each binaural transfer function pair is a binaural transfer function pair corresponding to the left ear. Includes a binaural transfer function and a binaural transfer function corresponding to the right ear.

도 7은 귀의 구조를 예시적으로 도시한 도면이다. Figure 7 is a diagram illustrating the structure of the ear.

도 7을 참고하면, 바이노럴 전달함수는 피실험자의 귀의 콘차(concha) 또는 콘차 근처(이하 "콘차 위치"라 함)에 도달하는 소리를 녹음하여 획득할 수 있다. 본 명세서에서는 콘차 위치에 도달하는 소리를 녹음하여 취득한 바이노럴 전달함수를 콘차 바이노럴 전달함수라 지칭한다. 이에 따라 왼쪽 귀에 대응하는 콘차 바이노럴 전달함수와 오른쪽 귀에 대응하는 콘차 바이노럴 전달함수는 콘차 바이노럴 전달함수 페어로 총칭할 수 있을 것이다.Referring to FIG. 7, the binaural transfer function can be obtained by recording the sound arriving at or near the concha of the subject's ear (hereinafter referred to as the "concha location"). In this specification, the binaural transfer function obtained by recording the sound reaching the concha location is referred to as the concha binaural transfer function. Accordingly, the Concha binaural transfer function corresponding to the left ear and the Concha binaural transfer function corresponding to the right ear can be collectively referred to as a Concha binaural transfer function pair.

도 8은 일 실시예에 따른 콘차 위치에서의 바이노럴 전달함수 획득에 관한 도면이다.Figure 8 is a diagram relating to acquisition of a binaural transfer function at the concha location according to an embodiment.

콘차 위치에 도달하는 소리를 녹음하기 위한 마이크는 피실험자가 착용할 수 있는 다양한 형태로 제공될 수 있다. 예를 들어, 도 8을 참고하면, 상기 마이크(2)는 피실험자의 귓구멍에 삽입되는 인-이어 타입으로 제공될 수 있다. 이 경우, 피실험자가 상기 마이크(2)를 포함하는 인-이어 타입의 녹음 장치(1)를 귓구멍에 삽입하여 착용하면 상기 마이크(2)는 피실험자의 콘차 또는 콘차 근처에 위치할 수 있다. 이에 따라, 스피커로부터 재생된 소리는 피실험자의 콘차 또는 콘차 근처에서 상기 마이크(2)를 통해 녹음될 수 있다.Microphones for recording sounds reaching the concha location can be provided in various forms that can be worn by the subject. For example, referring to FIG. 8, the microphone 2 may be provided as an in-ear type that is inserted into the subject's ear hole. In this case, when the subject wears the in-ear type recording device 1 including the microphone 2 by inserting it into the ear hole, the microphone 2 may be located at or near the subject's concha. Accordingly, the sound reproduced from the speaker can be recorded through the microphone 2 at the subject's concha or near the concha.

또한, 도 8을 참고하면, 피실험자의 귀의 고막 또는 고막 근처(이하 "고막 위치"라 함)에 도달하는 소리를 녹음하여 바이노럴 전달함수를 취득할 수 있다. 본 명세서에서는 고막 위치에 도달하는 소리를 녹음하여 취득한 바이노럴 전달함수를 고막 바이노럴 전달함수라 지칭한다. 이에 따라 왼쪽 귀에 대응하는 고막 바이노럴 전달함수와 오른쪽 귀에 대응하는 고막 바이노럴 전달함수는 고막 바이노럴 전달함수 페어로 총칭할 수 있을 것이다.Additionally, referring to FIG. 8, a binaural transfer function can be obtained by recording a sound reaching the eardrum or near the eardrum of the subject's ear (hereinafter referred to as the "eardrum location"). In this specification, the binaural transfer function obtained by recording the sound reaching the eardrum is referred to as the eardrum binaural transfer function. Accordingly, the eardrum binaural transfer function corresponding to the left ear and the eardrum binaural transfer function corresponding to the right ear can be collectively referred to as an eardrum binaural transfer function pair.

도 9는 일 실시예에 따른 고막 위치에서의 바이노럴 전달함수 획득에 관한 도면이다.Figure 9 is a diagram relating to acquisition of a binaural transfer function at the eardrum location according to an embodiment.

고막 위치에 도달하는 소리를 녹음하기 위한 마이크는 피실험자가 착용할 수 있는 다양한 형태로 제공될 수 있다. 예를 들어, 도 9을 참고하면, 상기 마이크는 프로브 마이크(probe microphone) 타입으로 제공될 수 있다. 이 경우, 피실험자의 귀 속으로 들어온 소리는 고막 위치에서 튜브(4)를 통해 집음되어 마이크(3)를 통해 녹음될 수 있다. 상기 튜브(4)는 상기 튜브(4)의 고막 방향 끝 단이 고막으로부터 소정의 거리(예를 들어, 1mm, 2mm, 3mm, 4mm, 5mm 등)만큼 이격되도록 귀 속에 배치될 수 있다. 상기 튜브(4)는 의료용 실리콘과 같은 실리콘 재질, 의료용 플라스틱과 같은 플라스틱 재질 등으로 제공될 수 있으나 상기 튜브(4)의 재질이 이에 한정되는 것은 아니다.Microphones for recording sounds reaching the eardrum may be provided in various forms that can be worn by the subject. For example, referring to FIG. 9, the microphone may be provided as a probe microphone type. In this case, the sound that enters the subject's ear can be collected through the tube (4) at the eardrum and recorded through the microphone (3). The tube 4 may be placed in the ear so that the end of the tube 4 in the eardrum direction is spaced apart from the eardrum by a predetermined distance (eg, 1 mm, 2 mm, 3 mm, 4 mm, 5 mm, etc.). The tube 4 may be made of a silicone material such as medical silicone or a plastic material such as medical plastic, but the material of the tube 4 is not limited thereto.

콘차 위치에 도달하는 소리를 녹음하기 위한 마이크는 고막 위치에 도달하는 소리를 녹음하기 위한 마이크에 비해 피실험자가 착용하기 간편하다. 고막 위치에 도달하는 소리를 녹음하기 위한 마이크는 튜브 끝 단이 고막 근처에 위치하여야 하므로 피실험자의 고막에 손상을 입힐 수 있고, 고막 바이노럴 전달함수를 취득하기 위해 장시간동안 마이크를 착용해야 하므로 피실험자의 움직임으로 인해 튜브가 이동하여 고막이 손상되거나 소리의 특성이 달라질 수 있다. 또한, 귓구멍의 형태에 따라 튜브가 적절히 변형되어야 하므로 피실험자별로 별도의 세팅이 필요하다. 따라서 전술한 바와 같이 고막 위치에서 바이노럴 전달함수를 취득하는 것이 콘차 위치에서 바이노럴 전달함수를 취득하는 것에 비해 어려워지는 것이다.A microphone for recording sound reaching the concha location is easier for the subject to wear than a microphone for recording sound reaching the eardrum. The microphone used to record sound reaching the eardrum must have the end of the tube positioned near the eardrum, which can cause damage to the subject's eardrum. In addition, the microphone must be worn for a long time to acquire the binaural transfer function of the eardrum, making it difficult for the subject to use the microphone. Movement of the tube may cause the tube to move, damaging the eardrum or changing the sound characteristics. Additionally, since the tube must be appropriately deformed according to the shape of the ear hole, separate settings are required for each subject. Therefore, as described above, obtaining a binaural transfer function at the eardrum location becomes more difficult than obtaining a binaural transfer function at the concha location.

한편, 고막 바이노럴 전달함수는 콘차 바이노럴 전달함수에 비해 소리의 방향성, 외재화(특히 전방 외재화)를 잘 표현할 수 있는 반면, 튜브를 통해 집음하므로 소리의 왜곡이 발생하여 상대적으로 음질이 떨어질 수 있다.On the other hand, while the tympanic binaural transfer function can better express the directionality and externalization (especially anterior externalization) of sound compared to the concha binaural transfer function, sound distortion occurs because it collects sound through a tube, resulting in relatively lower sound quality. This may fall.

이하에서는 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 이용하여 표준 바이노럴 전달함수를 생성하는 방법에 대해 설명한다. 이하에서는 표준 바이노럴 전달함수를 하이퍼 바이노럴 전달함수라 표현하는데, 이는 기존 바이노럴 전달함수에 비해 정밀한 초정밀 바이노럴 전달함수라는 점을 강조하기 위해 명명한 것으로, 그 명칭으로 인해 제한 해석되거나 확장 해석되어서는 안 된다. 또한, 하이퍼 바이노럴 전달함수를 생성하기 위한 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수는 전술한 바와 같이 직접 측정한 것일 수도 있고, 알려진 데이터베이스로부터 획득한 것일 수도 있다. 한편, 표준 바이노럴 전달함수 내지 하이퍼 바이노럴 전달함수는 임의의 사용자에게 최적의 전달함수를 제공하기 위해 미리 준비되는 바이노럴 전달함수로 사용될 수 있다. Below, we will explain how to generate a standard binaural transfer function using the concha binaural transfer function and the tympanic binaural transfer function. Hereinafter, the standard binaural transfer function is expressed as the hyper binaural transfer function, which is named to emphasize that it is an ultra-precise binaural transfer function that is more precise than the existing binaural transfer function, and is limited by its name. It should not be interpreted or expanded upon. Additionally, the concha binaural transfer function and tympanic binaural transfer function for generating the hyper binaural transfer function may be directly measured as described above, or may be obtained from a known database. Meanwhile, a standard binaural transfer function or a hyper binaural transfer function can be used as a binaural transfer function prepared in advance to provide an optimal transfer function to any user.

본 개시의 일 실시예에 따르면, 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 합성하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 이때, 합성하는 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수는 동일한 피실험자로부터 취득한 것일 수 있다. 또는, 합성하는 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수는 서로 다른 피실험자로부터 취득한 것일 수 있다. 예를 들어, 콘차 바이노럴 전달함수는 제1 피실험자로부터 취득하고, 고막 바이노럴 전달함수는 상기 제1 피실험자와 다른 제2 피실험자로부터 취득한 것일 수 있다. 또는, 합성하는 콘차 바이노럴 전달함수는 복수의 피실험자로부터 취득한 복수의 콘차 바이노럴 전달함수에 기초하여 생성된 것이고, 고막 바이노럴 전달함수는 특정 피실험자로부터 취득한 하나의 고막 바이노럴 전달함수에 기초하여 생성된 것일 수 있다.According to an embodiment of the present disclosure, a hyper binaural transfer function can be generated by combining the concha binaural transfer function and the tympanic binaural transfer function. At this time, the synthesized concha binaural transfer function and tympanic binaural transfer function may have been acquired from the same subject. Alternatively, the synthesized concha binaural transfer function and tympanic binaural transfer function may be obtained from different test subjects. For example, the concha binaural transfer function may be obtained from a first subject, and the tympanic binaural transfer function may be obtained from a second subject different from the first subject. Alternatively, the synthesized concha binaural transfer function is generated based on a plurality of concha binaural transfer functions obtained from a plurality of subjects, and the eardrum binaural transfer function is a single eardrum binaural transfer function obtained from a specific subject. It may have been created based on .

제1 실시예에 따르면, 콘차 바이노럴 전달함수의 특정 주파수 영역을 고막 바이노럴 전달함수의 특정 주파수 영역으로 치환하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 여기서, 바이노럴 전달함수를 치환한다는 것은 콘차 바이노럴 전달함수의 데이터를 고막 바이노럴 전달함수의 데이터로 교체하는 것을 의미할 수 있다.According to the first embodiment, a hyper binaural transfer function can be generated by replacing a specific frequency region of the concha binaural transfer function with a specific frequency region of the eardrum binaural transfer function. Here, replacing the binaural transfer function may mean replacing the data of the concha binaural transfer function with the data of the eardrum binaural transfer function.

바이노럴 전달함수를 치환하는 주파수 영역은 복수일 수 있다. 예를 들어, 콘차 바이노럴 전달함수의 제1 주파수 영역을 고막 바이노럴 전달함수의 제1 주파수 영역으로 치환하고 콘차 바이노럴 전달함수의 제2 주파수 영역을 고막 바이노럴 전달함수의 제2 주파수 영역으로 치환하여 하이퍼 바이노럴 전달함수를 생성할 수 있다.There may be multiple frequency domains that replace the binaural transfer function. For example, the first frequency region of the concha binaural transfer function is replaced by the first frequency region of the eardrum binaural transfer function, and the second frequency region of the concha binaural transfer function is replaced by the first frequency region of the eardrum binaural transfer function. 2 A hyper binaural transfer function can be created by replacing it with the frequency domain.

콘차 바이노럴 전달함수가 고막 바이노럴 전달함수로 치환되는 주파수 영역은 노치와 관련된 주파수 영역일 수 있다. The frequency region in which the concha binaural transfer function is replaced by the tympanic binaural transfer function may be a frequency region related to the notch.

예를 들어, 상기 주파수 영역에서 고막 바이노럴 전달함수는 노치를 포함하고 콘차 바이노럴 전달함수는 노치를 포함하지 않을 수 있다. For example, in the frequency domain, the tympanic binaural transfer function may include a notch and the concha binaural transfer function may not include a notch.

도 10은 일 실시예에 따른 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 비교하여 도시한 도면이다.Figure 10 is a diagram comparing the concha binaural transfer function and the eardrum binaural transfer function according to one embodiment.

도 10를 참고하면, 약 7kHz ~ 12kHz의 주파수 영역에서 고막 바이노럴 전달함수는 3개의 노치(5-1, 5-2, 5-3)를 포함하고 콘차 바이노럴 전달함수는 노치를 포함하지 않는다. 바이노럴 전달함수에서 노치들은 소리의 방향감과 관련되므로, 도 9와 같은 바이노럴 전달함수에서는 7kHz ~ 12kHz의 주파수 영역에서의 콘차 바이노럴 전달함수를 고막 바이노럴 전달함수로 치환하여 7kHz ~ 12kHz의 주파수 영역에서 노치들(5)을 포함하는 하이퍼 바이노럴 전달함수를 생성할 수 있고, 이를 음원에 필터링하여 보다 현실감 있는 입체 음향을 제공할 수 있다. Referring to Figure 10, in the frequency range of about 7 kHz to 12 kHz, the tympanic binaural transfer function includes three notches (5-1, 5-2, 5-3) and the concha binaural transfer function includes notches. I never do that. Since the notches in the binaural transfer function are related to the sense of direction of sound, in the binaural transfer function as shown in Figure 9, the concha binaural transfer function in the frequency range of 7kHz to 12kHz is replaced with the eardrum binaural transfer function to obtain a frequency of 7kHz. A hyper binaural transfer function including notches 5 can be generated in the frequency range of ~12 kHz, and this can be filtered to the sound source to provide more realistic three-dimensional sound.

다른 예를 들어, 상기 주파수 영역에서 고막 바이노럴 전달함수는 콘차 바이노럴 전달함수보다 많은 수의 노치를 포함할 수 있다. 이 경우, 콘차 바이노럴 전달함수만을 이용하는 경우와 비교할 때 고막 바이노럴 전달함수를 함께 이용함으로써 상기 주파수 영역에서 더 많은 수의 노치를 포함하는 하이퍼 바이노럴 전달함수를 생성할 수 있다.For another example, in the frequency domain, the eardrum binaural transfer function may include a greater number of notches than the Concha binaural transfer function. In this case, compared to using only the concha binaural transfer function, a hyper binaural transfer function including a greater number of notches in the frequency domain can be generated by using the eardrum binaural transfer function together.

제2 실시예에 따르면, 콘차 바이노럴 전달함수의 특정 주파수 영역과 고막 바이노럴 전달함수의 특정 주파수 영역을 혼합하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 여기서, 바이노럴 전달함수를 혼합한다는 것은 콘차 바이노럴 전달함수의 데이터와 고막 바이노럴 전달함수의 데이터를 소정의 비율로 혼합하는 것을 의미할 수 있다. 본 명세서에서는 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하는 비율이 콘차 바이노럴 전달함수에 대한 고막 바이노럴 전달함수의 비율을 의미하는 것으로 설명하나 이는 설명의 편의를 위한 것일 뿐이다. 상기 비율은 0.5, 1, 1.5, 2, 2.5, 3, 5 또는 10 일 수 있으나, 이에 한정되는 것은 아니다.According to the second embodiment, a hyper binaural transfer function can be generated by mixing a specific frequency area of the concha binaural transfer function and a specific frequency area of the tympanic binaural transfer function. Here, mixing binaural transfer functions may mean mixing data of the concha binaural transfer function and data of the eardrum binaural transfer function at a predetermined ratio. In this specification, the mixing ratio of the concha binaural transfer function and the tympanic binaural transfer function is explained as meaning the ratio of the tympanic binaural transfer function to the concha binaural transfer function, but this is for convenience of explanation. It's just that. The ratio may be 0.5, 1, 1.5, 2, 2.5, 3, 5 or 10, but is not limited thereto.

바이노럴 전달함수를 혼합하는 주파수 영역은 복수일 수 있다. 예를 들어, 제1 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 소정의 비율로 혼합하고 제2 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 소정의 비율로 혼합하여 하이퍼 바이노럴 전달함수를 생성할 수 있다.There may be multiple frequency regions for mixing binaural transfer functions. For example, the concha binaural transfer function and the eardrum binaural transfer function in the first frequency region are mixed at a predetermined ratio, and the concha binaural transfer function and the eardrum binaural transfer function in the second frequency region are mixed at a predetermined ratio. A hyper binaural transfer function can be created by mixing in proportions.

복수의 주파수 영역에 대해 바이노럴 전달함수를 혼합하는 경우, 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하는 비율은 주파수 영역별로 상이할 수 있다. 예를 들어, 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 제1 주파수 영역에서는 제1 비율로 혼합하고, 제2 주파수 영역에서는 상기 제1 비율과 다른 제2 비율로 혼합하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 물론, 주파수 영역에 무관하게 동일한 비율로 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하여 하이퍼 바이노럴 전달함수를 생성할 수도 있다.When mixing binaural transfer functions for a plurality of frequency domains, the mixing ratio of the concha binaural transfer function and the tympanic binaural transfer function may be different for each frequency domain. For example, the concha binaural transfer function and the tympanic binaural transfer function are mixed at a first ratio in the first frequency domain, and mixed at a second ratio different from the first ratio in the second frequency domain to create hyper binaural A transfer function can be created. Of course, a hyper binaural transfer function can be created by mixing the concha binaural transfer function and the tympanic binaural transfer function at the same ratio regardless of the frequency domain.

상기 제1 실시예에서 설명한 것과 마찬가지로 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하는 주파수 영역은 노치와 관련된 주파수 영역일 수 있고, 이에 대한 중복되는 설명은 생략한다.As described in the first embodiment, the frequency region mixing the concha binaural transfer function and the tympanic binaural transfer function may be a frequency region related to the notch, and redundant description thereof will be omitted.

제3 실시예에 따르면, 콘차 바이노럴 전달함수에 고막 바이노럴 전달함수의 노치와 동일하거나 유사한 노치를 추가하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 예를 들어, 고막 바이노럴 전달함수의 특정 노치의 주파수값, dB값, 폭 등 상기 특정 노치의 특성을 고려하여 콘차 바이노럴 전달함수에 이와 동일하거나 유사한 노치를 추가하여 하이퍼 바이노럴 전달함수를 생성할 수 있다. 여기서, 노치의 dB값이란 상기 노치의 dB값이 최저가 되는 dB값을 의미할 수 있다. 또한, 노치의 주파수값이란 상기 노치의 dB값이 최저가 되는 주파수값을 의미할 수 있다.According to the third embodiment, a hyper binaural transfer function can be generated by adding a notch that is the same as or similar to the notch of the tympanic binaural transfer function to the concha binaural transfer function. For example, hyper binaural transmission is achieved by adding the same or similar notch to the concha binaural transfer function by considering the characteristics of the specific notch, such as the frequency value, dB value, and width of the eardrum binaural transfer function. You can create functions. Here, the dB value of the notch may mean the dB value at which the dB value of the notch is lowest. Additionally, the frequency value of the notch may mean the frequency value at which the dB value of the notch is lowest.

콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 합성하여 하이퍼 바이노럴 전달함수를 생성하는 전술한 실시예들은 서로 배타적인 것은 아니고, 상기 실시예들 중 적어도 일부는 서로 결합되어 이용될 수 있다. 예를 들어, 제1 주파수 영역은 상기 제1 실시예에 따라 합성되고, 제2 주파수 영역은 상기 제2 실시예에 따라 합성되고, 제3 주파수 영역은 상기 제3 실시예에 따라 합성되는 등 전술한 실시예들이 복합적으로 적용되어 하이퍼 바이노럴 전달함수를 생성할 수도 있다.The above-described embodiments of generating a hyper binaural transfer function by combining the concha binaural transfer function and the tympanic binaural transfer function are not mutually exclusive, and at least some of the above embodiments can be used in combination with each other. there is. For example, the first frequency domain is synthesized according to the first embodiment, the second frequency domain is synthesized according to the second embodiment, the third frequency domain is synthesized according to the third embodiment, etc. One embodiment may be applied in combination to generate a hyper binaural transfer function.

한편, 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 다르게 합성하여 하이퍼 바이노럴 전달함수를 생성할 수 있다.Meanwhile, a hyper binaural transfer function can be generated by differently combining the concha binaural transfer function and the tympanic binaural transfer function depending on the position of the binaural transfer function.

도 11 및 도 12은 일 실시예에 따른 위치별로 다르게 바이노럴 전달함수를 합성하는 것에 관한 도면이다. Figures 11 and 12 are diagrams for synthesizing binaural transfer functions differently for each location according to an embodiment.

도 11은 본 개시의 일 실시예에 따른 동일한 고도각에서 서로 다른 위치의 음원을 예시적으로 도시한 도면이다.Figure 11 is a diagram illustrating sound sources at different positions at the same elevation angle according to an embodiment of the present disclosure.

도 12은 본 개시의 일 실시예에 따른 동일한 방위각에서 서로 다른 위치의 음원을 예시적으로 도시한 도면이다.FIG. 12 is a diagram illustrating sound sources at different positions at the same azimuth according to an embodiment of the present disclosure.

도 11은 동일한 고도각에서 방위각만 다른 경우로, 전방 위치 및 측방 위치를 나타내고, 도 12은 동일한 방위각에서 고도각만 다른 경우로, 전방 위치 및 상방 위치를 나타낸 것이다. 도 11 및 도 12에는 각 위치가 (방위각, 고도각)의 좌표로 표현되고, 전방 위치의 일 예로 사용자의 정확한 전방 위치인 좌표 (0°, 0°) 위치, 측방 위치의 일 예로 사용자의 정확한 우측 측방 위치인 좌표 (+90°, 0°) 위치, 상방 위치의 일 예로 사용자의 정확한 상방 위치인 좌표 (0°, +90°) 위치를 도시하고 있으나, 전방 위치, 측방 위치 및 상방 위치가 이에 한정되는 것은 아니고, 방위각이 -30° 내지 +30° 범위, 고도각이 -30° 내지 +30° 범위인 위치는 전방 위치, 방위각이 +60° 내지 +120° 범위, 고도각이 -30° 내지 +30° 범위인 위치는 우측 측방 위치, 방위각이 -60° 내지 -120° 범위, 고도각이 -30° 내지 +30° 범위인 위치는 좌측 측방 위치, 방위각이 -30° 내지 +30° 범위, 고도각이 +60° 내지 +120° 범위인 위치는 상방 위치로 볼 수 있을 것이다.FIG. 11 shows the front position and lateral position in a case where only the azimuth angle is different at the same elevation angle, and FIG. 12 shows the front position and upward position in the case where only the elevation angle is different in the same azimuth angle. 11 and 12, each position is expressed in coordinates of (azimuth angle, elevation angle), and as an example of the front position, the coordinates (0°, 0°) are the user's exact front position, and as an example of the lateral position, the user's exact As an example of the coordinate (+90°, 0°) position, which is the right lateral position, and the upward position, the coordinate (0°, +90°) position, which is the exact upward position of the user, is shown. However, the front position, lateral position, and upward position are shown. It is not limited to this, and a position where the azimuth angle is in the range of -30° to +30° and the elevation angle is in the -30° to +30° range is the front position, the azimuth angle is in the range of +60° to +120°, and the elevation angle is in the -30° range. Positions ranging from ° to +30° are right lateral positions, azimuths ranging from -60° to -120°, positions ranging from -30° to +30° elevations are left lateral positions, azimuths ranging from -30° to +30°. ° range, positions with elevation angles ranging from +60° to +120° would be considered upward positions.

이하에서는 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 다르게 합성하여 하이퍼 바이노럴 전달함수를 생성하는 몇몇 예시들에 대해 설명한다. 후술할 예시들은 서로 배타적인 것은 아니고, 후술할 예시들 중 적어도 일부는 서로 결합되어 이용될 수 있다. Below, we will describe some examples of generating a hyper binaural transfer function by differently combining the concha binaural transfer function and the tympanic binaural transfer function depending on the position of the binaural transfer function. The examples to be described later are not mutually exclusive, and at least some of the examples to be described later may be used in combination with each other.

제1 예시로, 상기 제2 실시예에서, 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하는 비율이 달라질 수 있다. 예를 들어, 제1 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 제1 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 제1 비율로 혼합하고, 상기 제1 위치와 상이한 제2 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 상기 제1 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 상기 제1 비율과 상이한 제2 비율로 혼합할 수 있다. As a first example, in the second embodiment, the mixing ratio of the concha binaural transfer function and the tympanic binaural transfer function may vary depending on the position of the binaural transfer function. For example, when generating a hyper binaural transfer function corresponding to a first position, the concha binaural transfer function and the tympanic binaural transfer function in the first frequency region are mixed at a first ratio, and the first In the case of generating a hyper binaural transfer function corresponding to a second location different from the location, the concha binaural transfer function and the tympanic binaural transfer function in the first frequency region are adjusted to a second ratio different from the first ratio. Can be mixed.

이때, 도 11에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 측방 위치일 수 있다. 이 경우 상기 전방 위치에서의 제1 비율은 상기 측방 위치에서의 제2 비율보다 높을 수 있다. 다시 말해, 상기 전방 위치에 대응하는 하이퍼 바이노럴 전달함수는 상기 측방 위치에 대응하는 하이퍼 바이노럴 전달함수에 비해 고막 바이노럴 전달함수의 비율이 더 높을 수 있다. 고막 바이노럴 전달함수는 콘차 바이노럴 전달함수보다 음상 외재화를 더욱 잘 표현할 수 있으므로, 이를 통해 전방 외재화를 더욱 잘 표현할 수 있는 하이퍼 바이노럴 전달함수를 생성할 수 있고, 이러한 하이퍼 바이노럴 전달함수를 이용하여 전방 외재화 효과가 향상된 입체 음향을 제공할 수 있다.At this time, as shown in FIG. 11, the first position may be the user's front position and the second position may be the user's side position. In this case, the first ratio at the front position may be higher than the second ratio at the lateral position. In other words, the hyper binaural transfer function corresponding to the anterior location may have a higher ratio of the tympanic binaural transfer function than the hyper binaural transfer function corresponding to the lateral location. Since the tympanic binaural transfer function can express sound image externalization better than the concha binaural transfer function, it is possible to generate a hyper binaural transfer function that can better express anterior externalization, and this hyper bar By using the binaural transfer function, stereoscopic sound with improved anterior externalization effect can be provided.

또는, 도 12에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 상방 위치일 수 있다. 이 경우 상기 전방 위치에서의 제1 비율은 상기 상방 위치에서의 제2 비율보다 높을 수 있다. 다시 말해, 상기 전방 위치에 대응하는 하이퍼 바이노럴 전달함수는 상기 상방 위치에 대응하는 하이퍼 바이노럴 전달함수에 비해 고막 바이노럴 전달함수의 비율이 더 높을 수 있다. 고막 바이노럴 전달함수는 콘차 바이노럴 전달함수보다 음상 외재화를 더욱 잘 표현할 수 있으므로, 이를 통해 전방 외재화를 더욱 잘 표현할 수 있는 하이퍼 바이노럴 전달함수를 생성할 수 있고, 이러한 하이퍼 바이노럴 전달함수를 이용하여 전방 외재화 효과가 향상된 입체 음향을 제공할 수 있다.Alternatively, as shown in FIG. 12, the first location may be a location in front of the user and the second location may be a location above the user. In this case, the first ratio at the front position may be higher than the second ratio at the upper position. In other words, the hyper binaural transfer function corresponding to the anterior position may have a higher ratio of the tympanic binaural transfer function than the hyper binaural transfer function corresponding to the upper position. Since the tympanic binaural transfer function can express sound image externalization better than the concha binaural transfer function, it is possible to generate a hyper binaural transfer function that can better express anterior externalization, and this hyper bar By using the binaural transfer function, stereoscopic sound with improved anterior externalization effect can be provided.

또는, 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 후방 위치일 수 있다. 이 경우 상기 전방 위치에서의 제1 비율은 상기 후방 위치에서의 제2 비율보다 높을 수 있다. 다시 말해, 상기 전방 위치에 대응하는 하이퍼 바이노럴 전달함수는 상기 후방 위치에 대응하는 하이퍼 바이노럴 전달함수에 비해 고막 바이노럴 전달함수의 비율이 더 높을 수 있다. 고막 바이노럴 전달함수는 콘차 바이노럴 전달함수보다 음상 외재화를 더욱 잘 표현할 수 있으므로, 이를 통해 전방 외재화를 더욱 잘 표현할 수 있는 하이퍼 바이노럴 전달함수를 생성할 수 있고, 이러한 하이퍼 바이노럴 전달함수를 이용하여 전방 외재화 효과가 향상된 입체 음향을 제공할 수 있다.Alternatively, the first location may be a front location of the user and the second location may be a rear location of the user. In this case, the first ratio at the front position may be higher than the second ratio at the rear position. In other words, the hyper binaural transfer function corresponding to the front location may have a higher ratio of the tympanic binaural transfer function than the hyper binaural transfer function corresponding to the rear location. Since the tympanic binaural transfer function can express sound image externalization better than the concha binaural transfer function, it is possible to generate a hyper binaural transfer function that can better express anterior externalization, and this hyper bar By using the binaural transfer function, stereoscopic sound with improved anterior externalization effect can be provided.

제2 예시로, 상기 제1 실시예에서, 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수를 고막 바이노럴 전달함수로 치환하는 주파수 영역이 달라질 수 있다. 예를 들어, 제1 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 제1 주파수 영역의 콘차 바이노럴 전달함수를 상기 제1 주파수 영역의 고막 바이노럴 전달함수로 치환하고, 상기 제1 위치와 상이한 제2 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 상기 제1 주파수 영역과 상이한 제2 주파수 영역의 콘차 바이노럴 전달함수를 상기 제2 주파수 영역의 고막 바이노럴 전달함수로 치환할 수 있다. 이때, 도 11에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 측방 위치일 수 있다. 또는, 도 12에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 상방 위치일 수 있다. 또는, 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 후방 위치일 수 있다.As a second example, in the first embodiment, the frequency region in which the concha binaural transfer function is replaced by the tympanic binaural transfer function may vary depending on the position of the binaural transfer function. For example, when generating a hyper binaural transfer function corresponding to a first position, the concha binaural transfer function in the first frequency domain is replaced with the tympanic binaural transfer function in the first frequency domain, and In the case of generating a hyper binaural transfer function corresponding to a second position different from the first position, the concha binaural transfer function of the second frequency range different from the first frequency range is converted into a tympanic binaural transfer function of the second frequency range. It can be replaced with a transfer function. At this time, as shown in FIG. 11, the first position may be the user's front position and the second position may be the user's side position. Alternatively, as shown in FIG. 12, the first location may be a location in front of the user and the second location may be a location above the user. Alternatively, the first location may be a front location of the user and the second location may be a rear location of the user.

제3 예시로, 상기 제2 실시예에서, 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하는 주파수 영역이 달라질 수 있다. 예를 들어, 제1 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 제1 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합하고, 상기 제1 위치와 상이한 제2 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 상기 제1 주파수 영역과 상이한 제2 주파수 영역의 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 혼합할 수 있다. 이때, 도 11에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 측방 위치일 수 있다. 또는, 도 12에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 상방 위치일 수 있다. 또는, 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 후방 위치일 수 있다.As a third example, in the second embodiment, the frequency region that mixes the concha binaural transfer function and the tympanic binaural transfer function may vary depending on the position of the binaural transfer function. For example, when generating a hyper binaural transfer function corresponding to a first position, the concha binaural transfer function and the eardrum binaural transfer function in the first frequency domain are mixed, and a hyper binaural transfer function different from the first position is used. When generating a hyper binaural transfer function corresponding to position 2, the concha binaural transfer function and the tympanic binaural transfer function of a second frequency range that is different from the first frequency range can be mixed. At this time, as shown in FIG. 11, the first position may be the user's front position and the second position may be the user's side position. Alternatively, as shown in FIG. 12, the first location may be a location in front of the user and the second location may be a location above the user. Alternatively, the first location may be a front location of the user and the second location may be a rear location of the user.

제4 예시로, 상기 제3 실시예에서, 바이노럴 전달함수가 대응하는 위치에 따라 콘차 바이노럴 전달함수에 추가하는 노치가 달라질 수 있다. 예를 들어, 제1 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 고막 바이노럴 전달함수의 제1 주파수값을 갖는 노치를 콘차 바이노럴 전달함수에 추가하고, 상기 제1 위치와 상이한 제2 위치에 대응하는 하이퍼 바이노럴 전달함수를 생성하는 경우에는 고막 바이노럴 전달함수의 상기 제1 주파수값과 상이한 제2 주파수값을 갖는 노치를 콘차 바이노럴 전달함수에 추가할 수 있다. 이때, 도 11에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 측방 위치일 수 있다. 또는, 도 12에 도시된 것과 같이 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 상방 위치일 수 있다. 또는, 상기 제1 위치는 사용자의 전방 위치이고 상기 제2 위치는 사용자의 후방 위치일 수 있다.As a fourth example, in the third embodiment, the notch added to the Concha binaural transfer function may vary depending on the position at which the binaural transfer function corresponds. For example, when generating a hyper binaural transfer function corresponding to the first position, a notch having the first frequency value of the tympanic binaural transfer function is added to the concha binaural transfer function, and the first position is added. In the case of generating a hyper binaural transfer function corresponding to a second position different from You can. At this time, as shown in FIG. 11, the first position may be the user's front position and the second position may be the user's side position. Alternatively, as shown in FIG. 12, the first location may be a location in front of the user and the second location may be a location above the user. Alternatively, the first location may be a front location of the user and the second location may be a rear location of the user.

콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 함께 이용하여 하이퍼 바이노럴 전달함수를 생성함에 따라, 하이퍼 바이노럴 전달함수는 콘차 바이노럴 전달함수 및 고막 바이노럴 전달함수와 유사도를 가질 수 있다. 이하에서는 콘차 바이노럴 전달함수와 하이퍼 바이노럴 전달함수 사이의 유사도를 콘차-하이퍼 유사도, 고막 바이노럴 전달함수와 하이퍼 바이노럴 전달함수 사이의 유사도를 고막-하이퍼 유사도라 지칭한다. 바이노럴 전달함수 사이의 유사도는 평균제곱차이 유사도(mean squared difference similarity), 코사인 유사도(cosine similarity), 피어슨 유사도(Pearson similarity) 등 널리 알려진 다양한 방식으로 계산될 수 있다.As the hyper binaural transfer function is created using the concha binaural transfer function and the tympanic binaural transfer function, the hyper binaural transfer function is similar to the concha binaural transfer function and the tympanic binaural transfer function. You can have Hereinafter, the similarity between the concha binaural transfer function and the hyper binaural transfer function is referred to as the concha-hyper similarity, and the similarity between the tympanic binaural transfer function and the hyper binaural transfer function is referred to as the tympanic-hyper similarity. Similarity between binaural transfer functions can be calculated using various widely known methods such as mean squared difference similarity, cosine similarity, and Pearson similarity.

콘차-하이퍼 유사도는 고막-하이퍼 유사도와 상이할 수 있다.Concha-hyper similarity may be different from tympanic-hyper similarity.

바이노럴 전달함수 사이의 유사도는 주파수 영역에 따라 달라질 수 있다. 예를 들어, 제1 주파수 영역에서는 콘차-하이퍼 유사도가 고막-하이퍼 유사도보다 크고, 제2 주파수 영역에서는 고막-하이퍼 유사도가 콘차-하이퍼 유사도보다 클 수 있다. The similarity between binaural transfer functions may vary depending on the frequency domain. For example, in the first frequency domain, the concha-hyper similarity may be greater than the tympanic-hyper similarity, and in the second frequency domain, the tympanic-hyper similarity may be greater than the concha-hyper similarity.

상기 제1 실시예에 따라 특정 주파수 영역에서 콘차 바이노럴 전달함수를 고막 바이노럴 전달함수로 치환하는 경우, 상기 특정 주파수 영역에서의 고막-하이퍼 유사도는 콘차-하이퍼 유사도보다 클 수 있다. According to the first embodiment, when the concha binaural transfer function is replaced with an eardrum binaural transfer function in a specific frequency region, the eardrum-hyper similarity in the specific frequency region may be greater than the concha-hyper similarity.

상기 제2 실시예에 따라 특정 주파수 영역에서 콘차 바이노럴 전달함수와 고막 바이노럴 전달함수를 소정의 비율로 혼합하는 경우, 상기 혼합하는 비율에 따라 콘차-하이퍼 유사도와 고막-하이퍼 유사도 사이의 대소 관계가 달라질 수 있다. 예를 들어, 고막 바이노럴 전달함수를 콘차 바이노럴 전달함수보다 많이 혼합하는 경우(예: 비율이 1, 1.5, 2, 2.5, 3, 5 또는 10을 초과하는 경우) 고막-하이퍼 유사도는 콘차-하이퍼 유사도보다 클 수 있다.According to the second embodiment, when the concha binaural transfer function and the tympanic binaural transfer function are mixed at a predetermined ratio in a specific frequency region, the difference between the concha-hyper similarity and the tympanic-hyper similarity is determined according to the mixing ratio. The relationship between large and small may vary. For example, if you mix more tympanic binaural transfer functions than concha binaural transfer functions (e.g., if the ratio exceeds 1, 1.5, 2, 2.5, 3, 5, or 10), the tympanic-hyper similarity is It can be larger than Concha-hyper similarity.

상기 제3 실시예에 따라 콘차 바이노럴 전달함수에 고막 바이노럴 전달함수의 노치와 동일하거나 유사한 노치를 추가하는 경우, 상기 노치의 주파수값 부근에서는 고막-하이퍼 유사도가 콘차-하이퍼 유사도보다 클 수 있다.According to the third embodiment, when adding a notch that is the same as or similar to the notch of the tympanic binaural transfer function to the concha binaural transfer function, the tympanic-hyper similarity is greater than the concha-hyper similarity near the frequency value of the notch. You can.

바이노럴 전달함수 사이의 유사도는 위치에 따라 달라질 수 있다. 예를 들어, 제1 위치에서의 고막-하이퍼 유사도는 제2 위치에서의 고막-하이퍼 유사도보다 클 수 있다. 다른 예를 들어, 제1 위치에서는 콘차-하이퍼 유사도가 고막-하이퍼 유사도보다 크고, 제2 위치에서는 고막-하이퍼 유사도가 콘차-하이퍼 유사도보다 클 수 있다.The similarity between binaural transfer functions may vary depending on location. For example, the eardrum-hyper similarity at the first location may be greater than the eardrum-hyper similarity at the second location. For another example, the concha-hyper similarity may be greater than the tympanic-hyper similarity at the first location, and the tympanic-hyper similarity may be greater than the concha-hyper similarity at the second location.

상기 제1 예시에서 전방 위치에서의 제1 비율이 측방 위치에서의 제2 비율보다 높은 경우, 전방 위치에서의 고막-하이퍼 유사도는 측방 위치에서의 고막-하이퍼 유사도보다 클 수 있다.In the first example, if the first ratio at the anterior position is higher than the second ratio at the lateral position, the eardrum-hyper similarity at the anterior position may be greater than the eardrum-hyper similarity at the lateral position.

전술한 하이퍼 바이노럴 전달함수 생성 방법은 전자 장치(100)에 의해 수행되거나, 외부 기기로부터 수행되어 전자 장치(100)로 바이노럴 전달 함수를 송신할 수 있다.The hyper binaural transfer function generation method described above may be performed by the electronic device 100 or may be performed from an external device to transmit the binaural transfer function to the electronic device 100.

도 13 및 14는 본 개시의 일 실시예에 따른 전자 장치의 실시예를 설명하기 위한 도면이다.13 and 14 are diagrams for explaining an embodiment of an electronic device according to an embodiment of the present disclosure.

본 개시의 일 실시예에 따른 전자 장치(100)는, 상술한 바와 같이, 서버로부터 음원 정보를 수신하고, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고, 상기 식별된 적어도 하나의 주파수 소스 중 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스에 기초하여 생성된 사운드 정보를 출력할 수 있다.As described above, the electronic device 100 according to an embodiment of the present disclosure receives sound source information from a server, inputs the sound source information into a sound source separation artificial intelligence model, and selects at least one frequency corresponding to the sound source information. Outputting frequency source information including a source, applying a binaural beat to at least one frequency source among the identified at least one frequency source, and generating the binaural beat based on the at least one frequency source to which the binaural beat was applied. sound information can be output.

보다 상세하게, 전자 장치(100)는, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고, 상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 식별하고, 상기 출력된 주파수 소스 정보를 처리한 것에 기초하여, 상기 식별된 소스 방향에 따라 바이노럴 비트를 적용하고, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 소스 방향에 기초하여 입체 음향 처리하여 사운드 정보를 생성할 수 있다. More specifically, the electronic device 100 inputs the sound source information into a sound source separation artificial intelligence model, outputs frequency source information including at least one frequency source corresponding to the sound source information, and outputs the at least one output frequency source information. According to the source type of the frequency source, a source direction corresponding to the source type is identified, and based on processing the output frequency source information, a binaural beat is applied according to the identified source direction, and the binaural bit is applied. Sound information may be generated by performing three-dimensional sound processing based on the source direction of at least one frequency source to which a rul beat is applied.

한편, 전자 장치(100)의 프로세서(140)가 사운드 정보를 생성하는 것은, 소스의 종류 별 바이노럴 비트를 적용하여 출력된 소스 종류 별 시간 소스를 최종 믹스(합성)하여 생성하는 것일 수 있다.Meanwhile, the processor 140 of the electronic device 100 generates sound information by applying binaural bits for each type of source and finally mixing (synthesizing) the time source for each type of source. .

도 13 및 14를 참조하면, 본 개시의 일 실시예에 따른 프로세서(140)는 각각의 소스의 종류에 따라, 시간 소스의 볼륨의 크기를 제어할 수 있다. 보다 상세하게, 프로세서(140)는 입/출력부(110)로부터 수신된 사용자 입력에 기초하여, 시간 소스의 볼륨의 크기를 제어할 수 있다. 도시된 바에 따르면, 입/출력부(110)는 터치 디스플레이로 구현되었으나, 이에 한정되는 것은 아니다.Referring to Figures 13 and 14, the processor 140 according to an embodiment of the present disclosure can control the size of the volume of the time source according to the type of each source. In more detail, the processor 140 may control the size of the volume of the time source based on the user input received from the input/output unit 110. As shown, the input/output unit 110 is implemented as a touch display, but is not limited thereto.

일 실시예에 따르면, 전자 장치(100)는 마스터 볼륨에 관한 사용자 입력이 입/출력부(110)를 통해 수신된 것에 응답하여, 상기 마스터 볼륨에 따라, 모든 소스의 종류의 볼륨을 제어할 수 있다. 이에 따라, 전자 장치(100)는, 소스 종류 별 시간 소스를 최종 믹스(합성)한 사운드 정보의 볼륨을 마스터 볼륨에 따라 출력할 수 있다.According to one embodiment, the electronic device 100 may control the volume of all types of sources according to the master volume in response to a user input regarding the master volume being received through the input/output unit 110. there is. Accordingly, the electronic device 100 can output the volume of sound information that is the final mix (synthesis) of time sources for each source type according to the master volume.

일 실시예에 따르면, 전자 장치(100)는 소스의 종류에 따른 볼륨에 관한 사용자 입력이 입/출력부(110)를 통해 수신된 것에 응답하여, 상기 소스의 종류에 대응되는 볼륨을 제어할 수 있다. 보다 상세하게, 도 14의 (a)를 참조하면, 전자 장치(100)는 보컬 및 드럼에 관한 볼륨에 관한 사용자 입력이 입/출력부(110)를 통해 수신된 것에 응답하여, 보컬에 관한 시간 소스 및 드럼에 관한 시간 소스를 각각의 볼륨에 대응되게 최종 믹스(합성)하여 사운드 정보를 출력할 수 있다. 도시된 바에 따르면, 보컬 및/또는 드럼에 대한 볼륨의 제어 실시예를 개시하나, 사용자는 전자 장치(100)의 입/출력부(110)를 통해 각각의 소스에 대한 볼륨을 임의적으로 제어하는 신호를 수신할 수 있다.According to one embodiment, the electronic device 100 may control the volume corresponding to the type of source in response to a user input regarding the volume according to the type of source being received through the input/output unit 110. there is. In more detail, referring to (a) of FIG. 14, the electronic device 100 responds to a user input regarding the volume of vocals and drums being received through the input/output unit 110, and outputs the time of vocals. Sound information can be output by final mixing (synthesizing) the time source and drum-related time source to correspond to each volume. As shown, an embodiment of controlling the volume for vocals and/or drums is disclosed, but the user receives a signal to arbitrarily control the volume for each source through the input/output unit 110 of the electronic device 100. can receive.

도 15은 본 개시의 일 실시예에 따른 전자 장치 제어 방법을 설명하기 위한 순서도이다.Figure 15 is a flowchart for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.

도 15에 도시된 전자 장치 제어 방법은 앞서 설명된 전자 장치(100) 및/또는 시스템(1000)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도, 전자 장치(100) 및/또는 시스템(1000)에 대하여 설명된 내용은 전자 장치 제어 방법에 대한 설명에도 동일하게 적용될 수 있다.The electronic device control method shown in FIG. 15 may be performed by the electronic device 100 and/or system 1000 described above. Therefore, even if the content is omitted below, the content described with respect to the electronic device 100 and/or system 1000 may be equally applied to the description of the electronic device control method.

도 15을 참조하면, 전자 장치(100)는 음원 정보를 서버(200)로부터 수신할 수 있다(S101).Referring to FIG. 15, the electronic device 100 may receive sound source information from the server 200 (S101).

또한, 전자 장치(100)는 단계 S101에서 수신된 음원 정보를 음원 분리 인공지능 모델에 입력하여, 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력할 수 있다(S102).Additionally, the electronic device 100 may input the sound source information received in step S101 into the sound source separation artificial intelligence model and output frequency source information including at least one frequency source corresponding to the sound source information (S102). .

또한, 전자 장치(100)는 단계 S102에서 출력된 주파수 소스 정보를 처리한 것에 기초하여, 주파수 소스 정보에 포함된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 식별할 수 있다(S103).Additionally, based on processing the frequency source information output in step S102, the electronic device 100 may identify a source direction corresponding to the source type according to the source type of at least one frequency source included in the frequency source information. (S103).

또한, 전자 장치(100)는 단계 S102에서 출력된 주파수 소스 정보를 처리한 것 및 단계 S103에서 식별된 소스 방향에 기초하여, 상기 식별된 소스 방향에 따라 상기 적어도 하나의 주파수 소스에 바이노럴 비트를 적용할 수 있다(S104).In addition, based on processing the frequency source information output in step S102 and the source direction identified in step S103, the electronic device 100 transmits binaural bits to the at least one frequency source according to the identified source direction. can be applied (S104).

또한, 전자 장치(100)는 바이노럴 비트가 적용된 적어도 하나의 주파수 소스 및 상기 주파수 소스에 대응되는 소스 방향에 기초하여, 상기 바이노럴 비트가 적용된 적어도 하나의 소스를 입체 음향 처리하여 사운드 정보를 생성할 수 있다(S105).In addition, the electronic device 100 processes stereophonic sound on at least one source to which binaural beats are applied based on at least one frequency source to which binaural beats are applied and a source direction corresponding to the frequency source to generate sound information. can be created (S105).

사용자가 희망하는 모드를 선택할 수 있다. 예를 들어, 사용자가 제1 모드를 선택하는 경우, 제1 모드에 대응하는 BBF가 결정되어 음원이 처리될 수 있다. 이에 따라 사용자는 제1 모드에 대응하는 효과를 획득할 수 있다..The user can select the desired mode. For example, when the user selects the first mode, the BBF corresponding to the first mode may be determined and the sound source may be processed. Accordingly, the user can obtain the effect corresponding to the first mode.

사용자는 제2 모드를 선택할 수 있다. 예를 들어, 사용자가 제2 모드를 선택하는 경우, 제2 모드에 대응하는 BBF가 결정되어 음원이 처리될 수 있다. 이에 따라 사용자는 제2 모드에 대응하는 효과를 획득할 수 있다..The user can select the second mode. For example, when the user selects the second mode, the BBF corresponding to the second mode may be determined and the sound source may be processed. Accordingly, the user can obtain the effect corresponding to the second mode.

사용자는 제3 모드를 선택할 수 있다. 예를 들어, 사용자가 제3 모드를 선택하는 경우, 제3 모드에 대응하는 BBF가 결정되어 음원이 처리될 수 있다. 이에 따라 사용자는 제3 모드에 대응하는 효과를 획득할 수 있다..The user can select a third mode. For example, when the user selects the third mode, the BBF corresponding to the third mode may be determined and the sound source may be processed. Accordingly, the user can obtain effects corresponding to the third mode.

제1 모드 내지 제3 모드는 각각 각성 모드, relax 모드, 인지 향상 모드, 수면 모드 등을 포함할 수 있다.The first to third modes may include an awakening mode, a relaxation mode, a cognitive enhancement mode, a sleep mode, etc., respectively.

또한 사용자는 각각의 모드에서 음원을 구성하는 각각의 소스의 크기를 제어 할 수 있다. 즉, BBF가 적용되는 소스의 음량을 줄임으로써 뉴럴 비트 효과를 유지하되, 최소한의 청각적 방해를 실현할 수 있다.Additionally, users can control the size of each source that makes up the sound source in each mode. In other words, by reducing the volume of the source to which BBF is applied, it is possible to maintain the neural beat effect and achieve minimal auditory interference.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.Meanwhile, the disclosed embodiments may be implemented in the form of a recording medium that stores instructions executable by a computer. Instructions may be stored in the form of program code, and when executed by a processor, may create program modules to perform operations of the disclosed embodiments. The recording medium may be implemented as a computer-readable recording medium.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. Computer-readable recording media include all types of recording media storing instructions that can be decoded by a computer. For example, there may be read only memory (ROM), random access memory (RAM), magnetic tape, magnetic disk, flash memory, and optical data storage devices.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.As described above, the disclosed embodiments have been described with reference to the attached drawings. A person skilled in the art to which the present invention pertains will understand that the present invention can be practiced in forms different from the disclosed embodiments without changing the technical idea or essential features of the present disclosure. The disclosed embodiments are illustrative and should not be construed as limiting.

1000: 시스템
100: 전자 장치
110: 입/출력부 120: 통신부
130: 데이터베이스 140: 프로세서
1000: System
100: electronic device
110: input/output unit 120: communication unit
130: database 140: processor

Claims (20)

전자 장치에 있어서,
메모리;
입/출력부; 및
정보를 처리하는 적어도 하나의 프로세서;를 포함하되,
상기 프로세서는,
서버로부터 음원 정보를 수신하고,
상기 음원 정보를 음원 분리 인공지능 모델에 입력하여 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고,
상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 판단하고,
상기 출력된 적어도 하나의 주파수 소스 중 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고,
상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 소스 방향에 기초하여 입체 음향 처리하여 생성된 사운드 정보를 출력하되,
상기 프로세서는,
상기 입/출력부로부터 소스의 종류에 대한 방위각 및 고도각에 대한 소스 방향 정보를 수신한 것에 응답하여, 상기 소스 방향을 업데이트하고,
상기 적어도 하나의 주파수 소스는, 드럼의 주파수 대역에 대응되는 드럼 주파수 소스 또는 베이스의 주파수 대역에 대응되는 베이스 주파수 소스 중 적어도 하나를 포함하는,
전자 장치.
In electronic devices,
Memory;
input/output unit; and
Including at least one processor that processes information,
The processor,
Receive sound source information from the server,
Input the sound source information into a sound source separation artificial intelligence model to output frequency source information including at least one frequency source corresponding to the sound source information,
Determine a source direction corresponding to the source type according to the source type of the at least one output frequency source,
Applying a binaural beat to at least one frequency source among the at least one output frequency source,
Output sound information generated by stereophonic sound processing based on the source direction of at least one frequency source to which the binaural beat is applied,
The processor,
In response to receiving source direction information about azimuth and elevation angle for a type of source from the input/output unit, update the source direction,
The at least one frequency source includes at least one of a drum frequency source corresponding to the frequency band of the drum or a bass frequency source corresponding to the frequency band of the bass.
Electronic devices.
삭제delete 제1항에 있어서,
상기 음원 분리 인공지능 모델은,
상기 음원 정보 및 상기 음원 정보를 STFT(Short-Time Fourier Transform)를 통해 소스의 종류 별로 추출한 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하도록 학습된,
전자 장치.
According to paragraph 1,
The sound source separation artificial intelligence model is,
Learned to output frequency source information including the sound source information and at least one frequency source extracted from the sound source information for each type of source through STFT (Short-Time Fourier Transform),
Electronic devices.
제3항에 있어서,
상기 음원 분리 인공지능 모델은, GEMM(General Matrix Multiplication)을 통해 학습된 인공지능 모델인,
전자 장치
According to paragraph 3,
The sound source separation artificial intelligence model is an artificial intelligence model learned through GEMM (General Matrix Multiplication).
electronic device
제1항에 있어서,
상기 사운드 정보를 생성하는 것은,
상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 시간 영역의 적어도 하나의 시간 소스를 추출하고,
상기 소스 방향 및 상기 추출된 상기 적어도 하나의 시간 소스에 기초하여, 입체 음향 처리하여 생성하는,
전자 장치.
According to paragraph 1,
Generating the sound information includes:
Extracting at least one time source in the time domain through inverse STFT (Short-Time Fourier Transform) transformation of at least one frequency source to which the binaural beat is applied,
Based on the source direction and the extracted at least one time source, producing stereoscopic sound by processing,
Electronic devices.
제5항에 있어서,
상기 소스 방향은,
상기 입체 음향 (Surround sound)에 기초한 가상 공간 내에서 특정 기준으로부터의 방위각 및 고도각에 관한 방향인,
전자 장치.
According to clause 5,
The source direction is,
A direction with respect to azimuth and elevation angle from a specific reference within a virtual space based on the surround sound,
Electronic devices.
제6항에 있어서,
상기 소스 방향은,
0도 내지 180도의 방위각을 갖는 제1 소스 방향 및 180도 내지 360도의 방위각을 갖는 제2 소스 방향을 포함하고,
상기 바이노럴 비트를 적용하는 것은,
상기 적어도 하나의 주파수 소스를 상기 제1 소스 방향 및 제2 소스 방향에 대하여 주파수 편차를 생성하는 것인,
전자 장치.
According to clause 6,
The source direction is,
a first source direction having an azimuth of 0 degrees to 180 degrees and a second source direction having an azimuth of 180 degrees to 360 degrees,
Applying the binaural beat is,
Generating a frequency deviation with respect to the at least one frequency source with respect to the first source direction and the second source direction,
Electronic devices.
제7항에 있어서,
상기 프로세서는,
상기 입/출력부로부터 바이노럴 모드에 관한 사용자 입력을 수신한 것에 응답하여, 상기 적어도 하나의 주파스 소스를 상기 수신된 바이노럴 모드에 대응되는 바이노럴 비트를 적용하는,
전자 장치.
In clause 7,
The processor,
In response to receiving a user input regarding a binaural mode from the input/output unit, applying a binaural beat corresponding to the received binaural mode to the at least one frequency source,
Electronic devices.
삭제delete 제5항에 있어서,
상기 입체 음향 처리하는 것은,
상기 소스 방향에 대응되는 바이노럴 전달 함수 및 상기 적어도 하나의 시간 소스를 곱 연산하는 것인,
전자 장치
According to clause 5,
The three-dimensional sound processing is,
A binaural transfer function corresponding to the source direction is multiplied by the at least one time source,
electronic device
삭제delete 전자 장치에서, 음원 정보를 서버로부터 수신하고,
상기 전자 장치에서, 상기 음원 정보를 음원 분리 인공지능 모델에 입력하여, 상기 음원 정보에 대응되는 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하고,
상기 전자 장치에서, 상기 출력된 적어도 하나의 주파수 소스의 소스 종류에 따라 상기 소스 종류에 대응되는 소스 방향을 판단하고,
상기 전자 장치에서, 상기 출력된 적어도 하나의 주파수 소스 중 적어도 하나의 주파수 소스에 바이노럴 비트를 적용하고,
상기 전자 장치에서, 상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스의 소스 방향에 기초하여 입체 음향 처리하여 생성된 사운드 정보를 출력하되,
상기 전자 장치에서, 사용자로부터 소스의 종류에 대한 방위각 및 고도각에 대한 소스 방향 정보를 수신한 것에 응답하여 상기 소스 방향을 업데이트하고,
상기 적어도 하나의 주파수 소스는, 드럼의 주파수 대역에 대응되는 드럼 주파수 소스 또는 베이스의 주파수 대역에 대응되는 베이스 주파수 소스 중 적어도 하나를 포함하는,
방법.
In an electronic device, receive sound source information from a server,
In the electronic device, the sound source information is input into a sound source separation artificial intelligence model to output frequency source information including at least one frequency source corresponding to the sound source information,
In the electronic device, determine a source direction corresponding to the source type according to the source type of the output at least one frequency source,
In the electronic device, applying a binaural beat to at least one frequency source among the at least one output frequency source,
In the electronic device, sound information generated by stereophonic sound processing is output based on the source direction of at least one frequency source to which the binaural beat is applied,
In the electronic device, update the source orientation in response to receiving source orientation information about an azimuth and elevation angle for a type of source from a user,
The at least one frequency source includes at least one of a drum frequency source corresponding to the frequency band of the drum or a bass frequency source corresponding to the frequency band of the bass.
method.
삭제delete 제12항에 있어서,
상기 음원 분리 인공지능 모델은,
상기 음원 정보 및 상기 음원 정보를 STFT(Short-Time Fourier Transform)를 통해 소스의 종류 별로 추출한 적어도 하나의 주파수 소스를 포함하는 주파수 소스 정보를 출력하도록 학습된,
방법.
According to clause 12,
The sound source separation artificial intelligence model is,
Learned to output frequency source information including the sound source information and at least one frequency source extracted from the sound source information for each type of source through STFT (Short-Time Fourier Transform),
method.
제14항에 있어서,
상기 음원 분리 인공지능 모델은, GEMM(General Matrix Multiplication)을 통해 학습된 인공지능 모델인,
방법.
According to clause 14,
The sound source separation artificial intelligence model is an artificial intelligence model learned through GEMM (General Matrix Multiplication).
method.
제12항에 있어서,
상기 사운드 정보를 생성하는 것은,
상기 바이노럴 비트가 적용된 적어도 하나의 주파수 소스를 STFT(Short-Time Fourier Transform) 역변환을 통해 시간 영역의 적어도 하나의 시간 소스를 추출하고,
상기 소스 방향 및 상기 추출된 상기 적어도 하나의 시간 소스에 기초하여, 입체 음향 처리하여 생성하는,
방법.
According to clause 12,
Generating the sound information includes:
Extracting at least one time source in the time domain through inverse STFT (Short-Time Fourier Transform) transformation of at least one frequency source to which the binaural beat is applied,
Based on the source direction and the extracted at least one time source, producing stereoscopic sound by processing,
method.
제16항에 있어서,
상기 소스 방향은,
상기 입체 음향 (Surround sound)에 기초한 가상 공간 내에서 특정 기준으로부터의 방위각 및 고도각에 관한 방향인,
방법.
According to clause 16,
The source direction is,
A direction with respect to azimuth and elevation angle from a specific reference within a virtual space based on the surround sound,
method.
제17항에 있어서,
상기 소스 방향은,
0도 내지 180도의 방위각을 갖는 제1 소스 방향 및 180도 내지 360도의 방위각을 갖는 제2 소스 방향을 포함하고,
상기 바이노럴 비트를 적용하는 것은,
상기 적어도 하나의 주파수 소스를 상기 제1 소스 방향 및 제2 소스 방향에 대하여 주파수 편차를 생성하는 것인,
방법.
According to clause 17,
The source direction is,
a first source direction having an azimuth of 0 degrees to 180 degrees and a second source direction having an azimuth of 180 degrees to 360 degrees,
Applying the binaural beat is,
Generating a frequency deviation with respect to the at least one frequency source with respect to the first source direction and the second source direction,
method.
제18항에 있어서,
상기 바이노럴 비트를 적용하는 것은,
입/출력부로부터 바이노럴 모드에 관한 사용자 입력을 수신한 것에 응답하여, 상기 적어도 하나의 주파수 소스를 상기 수신된 바이노럴 모드에 대응되는 바이노럴 비트를 적용하는,
방법.
According to clause 18,
Applying the binaural beat is,
In response to receiving a user input regarding a binaural mode from an input/output unit, applying a binaural beat corresponding to the received binaural mode to the at least one frequency source,
method.
제12항의 방법을 실행시킬 수 있는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium on which a program capable of executing the method of claim 12 is recorded.
KR1020230040952A 2023-03-29 2023-03-29 electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof KR102620762B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230040952A KR102620762B1 (en) 2023-03-29 2023-03-29 electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230040952A KR102620762B1 (en) 2023-03-29 2023-03-29 electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof

Publications (1)

Publication Number Publication Date
KR102620762B1 true KR102620762B1 (en) 2024-01-05

Family

ID=89541033

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230040952A KR102620762B1 (en) 2023-03-29 2023-03-29 electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof

Country Status (1)

Country Link
KR (1) KR102620762B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101194769B1 (en) * 2009-06-11 2012-10-25 주식회사 오디녹스 Method and Apparatus for generating audio signal for learning using binaural beat frequency
KR20220072493A (en) * 2020-11-25 2022-06-02 삼성전자주식회사 Electronic device and method for controlling electronic device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101194769B1 (en) * 2009-06-11 2012-10-25 주식회사 오디녹스 Method and Apparatus for generating audio signal for learning using binaural beat frequency
KR20220072493A (en) * 2020-11-25 2022-06-02 삼성전자주식회사 Electronic device and method for controlling electronic device

Similar Documents

Publication Publication Date Title
KR102642275B1 (en) Augmented reality headphone environment rendering
US10126823B2 (en) In-vehicle gesture interactive spatial audio system
US11809775B2 (en) Conversation assistance audio device personalization
US9131305B2 (en) Configurable three-dimensional sound system
JP2022544138A (en) Systems and methods for assisting selective listening
US11432097B2 (en) User interface for controlling audio rendering for extended reality experiences
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US11140503B2 (en) Timer-based access for audio streaming and rendering
US11580213B2 (en) Password-based authorization for audio rendering
US20210006976A1 (en) Privacy restrictions for audio rendering
WO2021169689A1 (en) Sound effect optimization method and apparatus, electronic device, and storage medium
Bujacz et al. Sound of Vision-Spatial audio output and sonification approaches
JP2023504990A (en) Spatial audio capture by depth
KR102620762B1 (en) electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof
US10390167B2 (en) Ear shape analysis device and ear shape analysis method
Geronazzo Mixed structural models for 3D audio in virtual environments
KR20190130860A (en) Method, computer program and system for tuning hearing aid
WO2023173285A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium
May et al. Preserving auditory situation awareness in headphone-distracted persons
Pirard Spatial Audio and Individualized HRTFs using a Convolutional Neural Network (CNN)
CA3214842A1 (en) Methods and devices for hearing training
KR20240110788A (en) Method of producing a sound and apparatus for performing the same
JP2024088576A (en) Program, method, and information processing device
KR20200054084A (en) Method of producing a sound and apparatus for performing the same
Nilsson et al. Superhuman Hearing-Virtual Prototyping of Artificial Hearing: a Case Study on Interactions and Acoustic Beamforming

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant