WO2024085551A1 - 패킷 손실 은닉을 위한 전자 장치 및 방법 - Google Patents

패킷 손실 은닉을 위한 전자 장치 및 방법 Download PDF

Info

Publication number
WO2024085551A1
WO2024085551A1 PCT/KR2023/015892 KR2023015892W WO2024085551A1 WO 2024085551 A1 WO2024085551 A1 WO 2024085551A1 KR 2023015892 W KR2023015892 W KR 2023015892W WO 2024085551 A1 WO2024085551 A1 WO 2024085551A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
frequency
loss
prediction
electronic device
Prior art date
Application number
PCT/KR2023/015892
Other languages
English (en)
French (fr)
Inventor
허승
김현욱
이상훈
문한길
박재하
방경호
양현철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220173661A external-priority patent/KR20240053031A/ko
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024085551A1 publication Critical patent/WO2024085551A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L27/00Modulated-carrier systems
    • H04L27/26Systems using multi-frequency codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L7/00Arrangements for synchronising receiver with transmitter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Definitions

  • audio devices used to listen to music or make phone calls are changing from the traditional wired connection method to one that utilizes wireless communication technology (e.g. Bluetooth).
  • wireless communication technology e.g. Bluetooth
  • the electronic device may include a memory configured to store instructions, and at least one processor operatively coupled to the memory.
  • the at least one processor may perform operations according to embodiments when the instructions are executed. It can be done.
  • the at least one processor may be configured to obtain a prediction signal based on an input signal and a neural network.
  • the at least one processor may be configured to obtain magnitude loss for the prediction signal and the target signal in the frequency domain when the instructions are executed.
  • the at least one processor may be configured to obtain phase loss for the prediction signal and the target signal in the frequency domain.
  • the at least one processor may be configured to obtain a correlation loss for the prediction signal and the target signal in the time domain.
  • the at least one processor may be configured to obtain loss information based on the magnitude loss, the phase loss, and the correlation loss.
  • the at least one processor may be configured to perform learning on the neural network based on the loss information.
  • the method performed by the electronic device may include obtaining a prediction signal based on an input signal and a neural network.
  • the method may include obtaining magnitude loss for the prediction signal and the target signal in the frequency domain.
  • the method may include obtaining phase loss for the prediction signal and the target signal in the frequency domain.
  • the method may include obtaining a correlation loss for the prediction signal and the target signal in the time domain.
  • the method may include obtaining loss information based on the magnitude loss, the phase loss, and the correlation loss.
  • the method may include performing learning on the neural network based on the loss information.
  • the electronic device may include a memory configured to store instructions, and at least one processor operatively coupled to the memory.
  • the at least one processor may perform operations according to embodiments when the instructions are executed.
  • the at least one processor may be configured to obtain a prediction signal based on an input signal and a neural network.
  • the at least one processor may calculate magnitude loss for the prediction signal and the target signal in the frequency domain, phase loss for the prediction signal and the target signal in the frequency domain, and the prediction in the time domain. It may be configured to identify at least two loss components among a correlation loss for a signal and the target signal, or a magnitude loss for the prediction signal and the target signal in the time domain.
  • the at least one processor may be configured to obtain loss information based on the identified at least two loss components.
  • the at least one processor may be configured to perform learning on the neural network based on the loss information.
  • the electronic device may include a memory configured to store instructions, and at least one processor operatively coupled to the memory.
  • the at least one processor may perform operations according to embodiments when the instructions are executed.
  • the at least one processor may be configured to perform time-frequency conversion on an audio signal including the frame and one or more frames preceding the frame in the time domain, based on detecting loss of a frame.
  • the at least one processor may configure a plurality of frequency bands for the audio signal based on a frequency energy distribution representing the frequency energy of each subband of the frequency domain.
  • the at least one processor may be configured to obtain prediction signals for the plurality of frequency bands in the frequency domain through frame prediction for each of the plurality of frequency bands.
  • the at least one processor may be configured to obtain an inference signal for the audio signal based on frequency-time conversion of the prediction signal.
  • the plurality of frequency bands may be configured based on whether the frequency energy difference between adjacent subbands among the subbands is greater than or equal to a threshold.
  • a non-transitory recording medium may include a memory that stores instructions.
  • the electronic device acquires a prediction signal based on an input signal and a neural network, and obtains a magnitude loss for the prediction signal and the target signal in the frequency domain, Obtaining a phase loss for the prediction signal and the target signal in the frequency domain, obtaining a correlation loss for the prediction signal and the target signal in the time domain, the magnitude loss, the Loss information may be acquired based on the phase loss and the correlation loss, and learning of the neural network may be performed based on the loss information.
  • a non-transitory recording medium may include a memory that stores instructions.
  • the electronic device acquires a prediction signal based on an input signal and a neural network, and a magnitude loss for the prediction signal and the target signal in the frequency domain, the frequency domain.
  • a non-transitory recording medium may include a memory that stores instructions.
  • the instructions when executed by a processor, perform time-frequency conversion on an audio signal including the frame and one or more frames preceding the frame in the time domain based on the electronic device detecting loss of a frame; Configure a plurality of frequency bands for the audio signal based on a frequency energy distribution representing the frequency energy of each of the subbands of the frequency domain, and frame prediction for each of the plurality of frequency bands in the frequency domain.
  • the plurality of frequency bands may be configured based on whether the frequency energy difference between adjacent subbands among the subbands is greater than or equal to a threshold.
  • FIG. 1 is a block diagram of an electronic device in a network environment according to various embodiments.
  • FIG. 2A is a block diagram of an audio module according to various embodiments.
  • Figure 2B shows an example of packet loss according to various embodiments.
  • Figure 3 shows an example of a neutral network for packet loss concealment (PLC) according to one embodiment.
  • PLC packet loss concealment
  • Figure 4 shows the operation flow of a device for learning PLC according to an embodiment.
  • Figure 5 is a diagram for explaining the principle of conversion between the time domain and the frequency domain according to an embodiment.
  • Figure 6 shows an example of audio frame reconstruction.
  • FIG 7A shows an example of an energy-based PLC according to one embodiment.
  • Figure 7b shows an example of frequency band division according to one embodiment.
  • Figure 7c shows an example of frequency band division in an energy-based PLC according to one embodiment.
  • Figure 8 shows an example of pitch search according to one embodiment.
  • Figure 9 shows the operation flow of an electronic device for a band energy-based PLC according to an embodiment.
  • FIG. 10 illustrates an operation flow of an electronic device for frame prediction according to an embodiment.
  • the expressions greater than or less than may be used to determine whether a specific condition is satisfied or fulfilled, but this is only a description for expressing an example, and the description of more or less may be used. It's not exclusion. Conditions written as ‘more than’ can be replaced with ‘more than’, conditions written as ‘less than’ can be replaced with ‘less than’, and conditions written as ‘more than and less than’ can be replaced with ‘greater than and less than’.
  • 'A' to 'B' means at least one of the elements from A to (including A) and B (including B).
  • 'C' and/or 'D' means including at least one of 'C' or 'D', i.e. ⁇ 'C', 'D', 'C' and 'D' ⁇ .
  • the expressions greater than or less than may be used to determine whether a specific condition is satisfied or fulfilled, but this is only a description for expressing an example, and the description of more or less may be used. It's not exclusion. Conditions written as ‘more than’ can be replaced with ‘more than’, conditions written as ‘less than’ can be replaced with ‘less than’, and conditions written as ‘more than and less than’ can be replaced with ‘greater than and less than’.
  • 'A' to 'B' means at least one of the elements from A to (including A) and B (including B).
  • 'C' and/or 'D' means including at least one of 'C' or 'D', i.e. ⁇ 'C', 'D', 'C' and 'D' ⁇ .
  • 1 is a block diagram of an electronic device in a network environment according to various embodiments.
  • 2A is a block diagram of an audio module according to various embodiments.
  • FIG. 1 is a block diagram of an electronic device 101 in a network environment 100, according to various embodiments.
  • the electronic device 101 communicates with the electronic device 102 through a first network 198 (e.g., a short-range wireless communication network) or a second network 199. It is possible to communicate with at least one of the electronic device 104 or the server 108 through (e.g., a long-distance wireless communication network). According to one embodiment, the electronic device 101 may communicate with the electronic device 104 through the server 108.
  • a first network 198 e.g., a short-range wireless communication network
  • a second network 199 e.g., a second network 199.
  • the electronic device 101 may communicate with the electronic device 104 through the server 108.
  • the electronic device 101 includes a processor 120, a memory 130, an input module 150, an audio output module 155, a display module 160, an audio module 170, and a sensor module ( 176), interface 177, connection terminal 178, haptic module 179, camera module 180, power management module 188, battery 189, communication module 190, subscriber identification module 196 , or may include an antenna module 197.
  • at least one of these components eg, the connection terminal 178) may be omitted or one or more other components may be added to the electronic device 101.
  • some of these components e.g., sensor module 176, camera module 180, or antenna module 197) are integrated into one component (e.g., display module 160). It can be.
  • the processor 120 for example, executes software (e.g., program 140) to operate at least one other component (e.g., hardware or software component) of the electronic device 101 connected to the processor 120. It can be controlled and various data processing or calculations can be performed. According to one embodiment, as at least part of data processing or computation, the processor 120 stores commands or data received from another component (e.g., sensor module 176 or communication module 190) in volatile memory 132. The commands or data stored in the volatile memory 132 can be processed, and the resulting data can be stored in the non-volatile memory 134.
  • software e.g., program 140
  • the processor 120 stores commands or data received from another component (e.g., sensor module 176 or communication module 190) in volatile memory 132.
  • the commands or data stored in the volatile memory 132 can be processed, and the resulting data can be stored in the non-volatile memory 134.
  • the processor 120 includes a main processor 121 (e.g., a central processing unit or an application processor) or an auxiliary processor 123 that can operate independently or together (e.g., a graphics processing unit, a neural network processing unit ( It may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor).
  • a main processor 121 e.g., a central processing unit or an application processor
  • auxiliary processor 123 e.g., a graphics processing unit, a neural network processing unit ( It may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor.
  • the electronic device 101 includes a main processor 121 and a secondary processor 123
  • the secondary processor 123 may be set to use lower power than the main processor 121 or be specialized for a designated function. You can.
  • the auxiliary processor 123 may be implemented separately from the main processor 121 or as part of it.
  • the auxiliary processor 123 may, for example, act on behalf of the main processor 121 while the main processor 121 is in an inactive (e.g., sleep) state, or while the main processor 121 is in an active (e.g., application execution) state. ), together with the main processor 121, at least one of the components of the electronic device 101 (e.g., the display module 160, the sensor module 176, or the communication module 190) At least some of the functions or states related to can be controlled.
  • co-processor 123 e.g., image signal processor or communication processor
  • may be implemented as part of another functionally related component e.g., camera module 180 or communication module 190. there is.
  • the auxiliary processor 123 may include a hardware structure specialized for processing artificial intelligence models.
  • Artificial intelligence models can be created through machine learning. For example, such learning may be performed in the electronic device 101 itself on which the artificial intelligence model is performed, or may be performed through a separate server (e.g., server 108).
  • Learning algorithms may include, for example, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but It is not limited.
  • An artificial intelligence model may include multiple artificial neural network layers.
  • Artificial neural networks include deep neural network (DNN), convolutional neural network (CNN), recurrent neural network (RNN), restricted boltzmann machine (RBM), belief deep network (DBN), bidirectional recurrent deep neural network (BRDNN), It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the examples described above.
  • artificial intelligence models may additionally or alternatively include software structures.
  • the memory 130 may store various data used by at least one component (eg, the processor 120 or the sensor module 176) of the electronic device 101. Data may include, for example, input data or output data for software (e.g., program 140) and instructions related thereto.
  • Memory 130 may include volatile memory 132 or non-volatile memory 134.
  • the program 140 may be stored as software in the memory 130 and may include, for example, an operating system 142, middleware 144, or application 146.
  • the input module 150 may receive commands or data to be used in a component of the electronic device 101 (e.g., the processor 120) from outside the electronic device 101 (e.g., a user).
  • the input module 150 may include, for example, a microphone, mouse, keyboard, keys (eg, buttons), or digital pen (eg, stylus pen).
  • the sound output module 155 may output sound signals to the outside of the electronic device 101.
  • the sound output module 155 may include, for example, a speaker or a receiver. Speakers can be used for general purposes such as multimedia playback or recording playback.
  • the receiver can be used to receive incoming calls. According to one embodiment, the receiver may be implemented separately from the speaker or as part of it.
  • the display module 160 can visually provide information to the outside of the electronic device 101 (eg, a user).
  • the display module 160 may include, for example, a display, a hologram device, or a projector, and a control circuit for controlling the device.
  • the display module 160 may include a touch sensor configured to detect a touch, or a pressure sensor configured to measure the intensity of force generated by the touch.
  • the audio module 170 can convert sound into an electrical signal or, conversely, convert an electrical signal into sound. According to one embodiment, the audio module 170 acquires sound through the input module 150, the sound output module 155, or an external electronic device (e.g., directly or wirelessly connected to the electronic device 101). Sound may be output through the electronic device 102 (e.g., speaker or headphone).
  • the electronic device 102 e.g., speaker or headphone
  • the sensor module 176 detects the operating state (e.g., power or temperature) of the electronic device 101 or the external environmental state (e.g., user state) and generates an electrical signal or data value corresponding to the detected state. can do.
  • the sensor module 176 includes, for example, a gesture sensor, a gyro sensor, an air pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an IR (infrared) sensor, a biometric sensor, It may include a temperature sensor, humidity sensor, or light sensor.
  • the interface 177 may support one or more designated protocols that can be used to connect the electronic device 101 directly or wirelessly with an external electronic device (eg, the electronic device 102).
  • the interface 177 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, an SD card interface, or an audio interface.
  • HDMI high definition multimedia interface
  • USB universal serial bus
  • SD card interface Secure Digital Card interface
  • audio interface audio interface
  • connection terminal 178 may include a connector through which the electronic device 101 can be physically connected to an external electronic device (eg, the electronic device 102).
  • the connection terminal 178 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).
  • the haptic module 179 can convert electrical signals into mechanical stimulation (e.g., vibration or movement) or electrical stimulation that the user can perceive through tactile or kinesthetic senses.
  • the haptic module 179 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.
  • the camera module 180 can capture still images and moving images.
  • the camera module 180 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the power management module 188 can manage power supplied to the electronic device 101.
  • the power management module 188 may be implemented as at least a part of, for example, a power management integrated circuit (PMIC).
  • PMIC power management integrated circuit
  • the battery 189 may supply power to at least one component of the electronic device 101.
  • the battery 189 may include, for example, a non-rechargeable primary battery, a rechargeable secondary battery, or a fuel cell.
  • Communication module 190 is configured to provide a direct (e.g., wired) communication channel or wireless communication channel between electronic device 101 and an external electronic device (e.g., electronic device 102, electronic device 104, or server 108). It can support establishment and communication through established communication channels. Communication module 190 operates independently of processor 120 (e.g., an application processor) and may include one or more communication processors that support direct (e.g., wired) communication or wireless communication.
  • processor 120 e.g., an application processor
  • the communication module 190 may be a wireless communication module 192 (e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 194 (e.g., : LAN (local area network) communication module, or power line communication module) may be included.
  • a wireless communication module 192 e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module
  • GNSS global navigation satellite system
  • wired communication module 194 e.g., : LAN (local area network) communication module, or power line communication module
  • the corresponding communication module is a first network 198 (e.g., a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)) or a second network 199 (e.g., legacy It may communicate with an external electronic device 104 through a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network
  • the wireless communication module 192 uses subscriber information (e.g., International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 196 to communicate within a communication network such as the first network 198 or the second network 199.
  • subscriber information e.g., International Mobile Subscriber Identifier (IMSI)
  • IMSI International Mobile Subscriber Identifier
  • the wireless communication module 192 may support 5G networks after 4G networks and next-generation communication technologies, for example, NR access technology (new radio access technology).
  • NR access technology provides high-speed transmission of high-capacity data (eMBB (enhanced mobile broadband)), minimization of terminal power and access to multiple terminals (mMTC (massive machine type communications)), or high reliability and low latency (URLLC (ultra-reliable and low latency). -latency communications)) can be supported.
  • the wireless communication module 192 may support high frequency bands (eg, mmWave bands), for example, to achieve high data rates.
  • the wireless communication module 192 uses various technologies to secure performance in high frequency bands, for example, beamforming, massive array multiple-input and multiple-output (MIMO), and full-dimensional multiplexing. It can support technologies such as input/output (FD-MIMO: full dimensional MIMO), array antenna, analog beam-forming, or large scale antenna.
  • the wireless communication module 192 may support various requirements specified in the electronic device 101, an external electronic device (e.g., electronic device 104), or a network system (e.g., second network 199).
  • the wireless communication module 192 supports Peak data rate (e.g., 20 Gbps or more) for realizing eMBB, loss coverage (e.g., 164 dB or less) for realizing mmTC, or U-plane latency (e.g., 164 dB or less) for realizing URLLC.
  • Peak data rate e.g., 20 Gbps or more
  • loss coverage e.g., 164 dB or less
  • U-plane latency e.g., 164 dB or less
  • the antenna module 197 may transmit or receive signals or power to or from the outside (eg, an external electronic device).
  • the antenna module 197 may include an antenna including a radiator made of a conductor or a conductive pattern formed on a substrate (eg, PCB).
  • the antenna module 197 may include a plurality of antennas (eg, an array antenna). In this case, at least one antenna suitable for a communication method used in a communication network such as the first network 198 or the second network 199 is, for example, connected to the plurality of antennas by the communication module 190. can be selected. Signals or power may be transmitted or received between the communication module 190 and an external electronic device through the at least one selected antenna.
  • other components eg, radio frequency integrated circuit (RFIC) may be additionally formed as part of the antenna module 197.
  • RFIC radio frequency integrated circuit
  • the antenna module 197 may form a mmWave antenna module.
  • a mmWave antenna module includes a printed circuit board, an RFIC disposed on or adjacent to a first side (e.g., bottom side) of the printed circuit board and capable of supporting a designated high-frequency band (e.g., mmWave band); And a plurality of antennas (e.g., array antennas) disposed on or adjacent to the second side (e.g., top or side) of the printed circuit board and capable of transmitting or receiving signals in the designated high frequency band. can do.
  • a mmWave antenna module includes a printed circuit board, an RFIC disposed on or adjacent to a first side (e.g., bottom side) of the printed circuit board and capable of supporting a designated high-frequency band (e.g., mmWave band); And a plurality of antennas (e.g., array antennas) disposed on or adjacent to the second side (e.g., top or side)
  • peripheral devices e.g., bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)
  • signal e.g. commands or data
  • commands or data may be transmitted or received between the electronic device 101 and the external electronic device 104 through the server 108 connected to the second network 199.
  • Each of the external electronic devices 102 or 104 may be of the same or different type as the electronic device 101.
  • all or part of the operations performed in the electronic device 101 may be executed in one or more of the external electronic devices 102, 104, or 108.
  • the electronic device 101 may perform the function or service instead of executing the function or service on its own.
  • one or more external electronic devices may be requested to perform at least part of the function or service.
  • One or more external electronic devices that have received the request may execute at least part of the requested function or service, or an additional function or service related to the request, and transmit the result of the execution to the electronic device 101.
  • the electronic device 101 may process the result as is or additionally and provide it as at least part of a response to the request.
  • cloud computing distributed computing, mobile edge computing (MEC), or client-server computing technology can be used.
  • the electronic device 101 may provide an ultra-low latency service using, for example, distributed computing or mobile edge computing.
  • the external electronic device 104 may include an Internet of Things (IoT) device.
  • Server 108 may be an intelligent server using machine learning and/or neural networks.
  • the external electronic device 104 or server 108 may be included in the second network 199.
  • the electronic device 101 may be applied to intelligent services (e.g., smart home, smart city, smart car, or healthcare) based on 5G communication technology and IoT-related technology.
  • FIG. 2A is a block diagram 200 of the audio module 170, according to various embodiments.
  • the audio module 170 includes, for example, an audio input interface 210, an audio input mixer 220, an analog to digital converter (ADC) 230, an audio signal processor 240, and a DAC. (digital to analog converter) 250, an audio output mixer 260, or an audio output interface 270.
  • ADC analog to digital converter
  • the audio input interface 210 is configured as part of the input device 150 or separately from the electronic device 101 to obtain audio from the outside of the electronic device 101 through a microphone (e.g., a dynamic microphone, a condenser microphone, or a piezo microphone).
  • a microphone e.g., a dynamic microphone, a condenser microphone, or a piezo microphone.
  • An audio signal corresponding to sound can be received.
  • the audio input interface 210 is directly connected to the external electronic device 102 through the connection terminal 178.
  • the audio signal can be received by connecting wirelessly (e.g., Bluetooth communication) through the wireless communication module 192.
  • the audio input interface 210 may receive a control signal (eg, a volume adjustment signal received through an input button) related to the audio signal obtained from the external electronic device 102.
  • the audio input interface 210 includes a plurality of audio input channels and can receive different audio signals for each corresponding audio input channel among the plurality of audio input channels.
  • the audio input interface 210 may receive an audio signal from another component of the electronic device 101 (eg, the processor 120 or the memory 130).
  • the audio input mixer 220 may synthesize a plurality of input audio signals into at least one audio signal.
  • the audio input mixer 220 may synthesize a plurality of analog audio signals input through the audio input interface 210 into at least one analog audio signal.
  • the ADC 230 can convert analog audio signals into digital audio signals.
  • the ADC 230 converts the analog audio signal received through the audio input interface 210, or additionally or alternatively, the analog audio signal synthesized through the audio input mixer 220 into a digital audio signal. It can be converted into a signal.
  • the audio signal processor 240 may perform various processing on a digital audio signal input through the ADC 230 or a digital audio signal received from another component of the electronic device 101. For example, according to one embodiment, the audio signal processor 240 may change the sampling rate, apply one or more filters, process interpolation, amplify or attenuate all or part of the frequency band, and You can perform noise processing (e.g., noise or echo attenuation), change channels (e.g., switch between mono and stereo), mix, or extract specified signals. According to one embodiment, one or more functions of the audio signal processor 240 may be implemented in the form of an equalizer.
  • the DAC 250 can convert digital audio signals into analog audio signals.
  • DAC 250 may process digital audio signals processed by audio signal processor 240, or other components of electronic device 101 (e.g., processor 120 or memory 130).
  • the digital audio signal obtained from )) can be converted to an analog audio signal.
  • the audio output mixer 260 may synthesize a plurality of audio signals to be output into at least one audio signal.
  • the audio output mixer 260 may output an audio signal converted to analog through the DAC 250 and another analog audio signal (e.g., an analog audio signal received through the audio input interface 210). ) can be synthesized into at least one analog audio signal.
  • the audio output interface 270 transmits the analog audio signal converted through the DAC 250, or additionally or alternatively, the analog audio signal synthesized by the audio output mixer 260 through the electronic device 101 through the audio output device 155. ) can be output outside of.
  • the sound output device 155 may include, for example, a speaker such as a dynamic driver or balanced armature driver, or a receiver.
  • the sound output device 155 may include a plurality of speakers.
  • the audio output interface 270 may output audio signals having a plurality of different channels (eg, stereo or 5.1 channels) through at least some of the speakers.
  • the audio output interface 270 is connected to the external electronic device 102 (e.g., external speaker or headset) directly through the connection terminal 178 or wirelessly through the wireless communication module 192. and can output audio signals.
  • the audio module 170 does not have a separate audio input mixer 220 or an audio output mixer 260, but uses at least one function of the audio signal processor 240 to generate a plurality of digital audio signals. At least one digital audio signal can be generated by synthesizing them.
  • the audio module 170 is an audio amplifier (not shown) capable of amplifying an analog audio signal input through the audio input interface 210 or an audio signal to be output through the audio output interface 270. (e.g., speaker amplification circuit) may be included.
  • the audio amplifier may be composed of a module separate from the audio module 170.
  • Electronic devices may be of various types. Electronic devices may include, for example, portable communication devices (e.g., smartphones), computer devices, portable multimedia devices, portable medical devices, cameras, wearable devices, or home appliances. Electronic devices according to embodiments of this document are not limited to the above-described devices.
  • first, second, or first or second may be used simply to distinguish one element from another, and may be used to distinguish such elements in other respects, such as importance or order) is not limited.
  • One (e.g. first) component is said to be “coupled” or “connected” to another (e.g. second) component, with or without the terms “functionally” or “communicatively”.
  • any of the components can be connected to the other components directly (e.g. wired), wirelessly, or through a third component.
  • module used in various embodiments of this document may include a unit implemented in hardware, software, or firmware, and is interchangeable with terms such as logic, logic block, component, or circuit, for example. It can be used as A module may be an integrated part or a minimum unit of the parts or a part thereof that performs one or more functions. For example, according to one embodiment, the module may be implemented in the form of an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present document are one or more instructions stored in a storage medium (e.g., built-in memory 136 or external memory 138) that can be read by a machine (e.g., electronic device 101). It may be implemented as software (e.g., program 140) including these.
  • a processor e.g., processor 120
  • the one or more instructions may include code generated by a compiler or code that can be executed by an interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is stored semi-permanently in the storage medium. There is no distinction between temporary storage cases.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
  • a machine-readable storage medium e.g. compact disc read only memory (CD-ROM)
  • an application store e.g. Play StoreTM
  • two user devices e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
  • at least a portion of the computer program product may be at least temporarily stored or temporarily created in a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server.
  • each component (e.g., module or program) of the above-described components may include a single or plural entity, and some of the plurality of entities may be separately placed in other components. there is.
  • one or more of the components or operations described above may be omitted, or one or more other components or operations may be added.
  • multiple components eg, modules or programs
  • the integrated component may perform one or more functions of each component of the plurality of components identically or similarly to those performed by the corresponding component of the plurality of components prior to the integration. .
  • operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or one or more of the operations may be executed in a different order, or omitted. Alternatively, one or more other operations may be added.
  • Figure 2B shows an example of packet loss according to various embodiments.
  • an electronic device may communicate with the audio device 280.
  • the electronic device 101 may transmit the audio packet 271 to the audio device 280 through wireless communication technology (e.g., Bluetooth, Bluetooth low energy (BLE)).
  • the audio device 280 may transmit the audio packet 272 to the electronic device 101 through wireless communication technology.
  • the electronic device 101 may transmit packets to the audio device 280 through wireless audio streaming technology.
  • wireless audio streaming technology may cause packet delay, jitter, or packet loss due to changes in distance between devices or congestion of adjacent channels. For example, because delay, jitter, or packet loss does not guarantee quality of service (QoS), users may not receive quality service. In particular, packet loss is the biggest cause of sound interruption and has a significant impact on the user's perceived sound quality.
  • Embodiments of the present disclosure describe a technique for improving sound quality degradation by restoring lost packets using a packet loss concealment (PLC) algorithm. Additionally, embodiments of the present disclosure propose a PLC method that provides higher performance using machine learning (ML) techniques.
  • PLC packet loss concealment
  • Figure 3 shows an example of a neutral network for packet loss concealment (PLC) according to one embodiment.
  • a neural network for PLC can be used to learn the restoration of generated packets through ML techniques.
  • a neural network for PLC can be used to increase the similarity between the lost signal and the original signal through the above learning.
  • a device using the neural network 313 for PLC can perform learning on audio packets (or frames).
  • the device may be an electronic device 101, an audio device 280, or an external learning device connected to the electronic device 101 or the audio device 280. Learning may be performed based on the loss corresponding to the difference between the audio signal in which packet loss occurred and the original audio signal. If packet loss is detected, the device can infer the lost packet based on received packets of the audio signal. The device can perform learning about audio packets through comparison between the inferred packets and the actual original packets.
  • the audio signal in which the packet loss occurred is the input signal 310, which is a time domain signal.
  • the time domain input signal 310 may be converted into a frequency domain input signal through a fast fourier transform (FFT) 311.
  • the input signal in the frequency domain may be input to the neural network 313.
  • the original audio signal is the target signal 320 and is a time domain signal.
  • the target signal 320 in the time domain can be converted into an input signal in the frequency domain through the FFT 321.
  • the device may obtain magnitude loss 323 and phase loss 325 by comparing the target signal in the frequency domain with the input signal in the frequency domain.
  • the device may obtain an inference signal (or may be referred to as a prediction signal) from an input signal in the frequency domain, based on the neural network 313.
  • the device may obtain an inference signal corresponding to a lost frame through frame prediction.
  • the inference signal is a frequency domain signal.
  • the frequency domain inference signal can be converted to a time domain inference signal.
  • the device may obtain a correlation loss 327 based on comparison between the inference signal and the target signal 320 in the time domain.
  • the inference signal is the output of the neural network 313 and may be related to the packet being lost.
  • the device that received the audio signal can perform PLC using the inference signal.
  • the device may perform lossy combining (330) based on magnitude loss (323), phase loss (325), and correlation loss (327). For example, the device applies a first weight (w1) to the magnitude loss (323), a second weight (w2) to the phase loss (325), and a third weight (w3) to the correlation loss (327). ), lossy combining 330 can be performed. According to one embodiment, the first weight (w1), the second weight (w2), and the third weight (w3) may be updated in a direction that reduces the difference between the input and output of the neural network 313.
  • the first weight (w1), the second weight (w2), and the third weight (w3) may be updated so that the difference between the inference signal and the target signal 320 in the next learning procedure is reduced.
  • the device may obtain loss information through lossy combining 330.
  • the loss information may correspond to a weighted-sum between the magnitude loss (323), phase loss (325), and correlation loss (327).
  • the device can perform learning for PLC by providing loss information to the neural network 313.
  • Embodiments of the present disclosure are loss functions, such as size-based functions such as mean absolute error (MAE), mean square error (MSE), and sum of absolute deviations (SAD), as well as phase or pitch (pitch) can be used together. Therefore, according to embodiments, audio packets inferred from learning of the neural network 313 may provide less heterogeneity than audio packets inferred using only a size-based function.
  • size-based functions such as mean absolute error (MAE), mean square error (MSE), and sum of absolute deviations (SAD), as well as phase or pitch (pitch) can be used together. Therefore, according to embodiments, audio packets inferred from learning of the neural network 313 may provide less heterogeneity than audio packets inferred using only a size-based function.
  • FFT e.g., FFT (311), FFT (321)
  • iFFT iFFT
  • DFT discrete fourier transform
  • iDFT inverse DFT
  • STFT short time fourier transform
  • iSTFT inverse STFT
  • Figure 4 shows the operation flow of a device for learning PLC according to an embodiment.
  • the device may be an electronic device 101, an audio device 280, or an external learning device connected to the electronic device 101 or the audio device 280.
  • the device may perform time-frequency conversion.
  • the device can convert a time domain signal into a frequency domain signal.
  • the input signal may include multiple frames. At least one of the frames of the input signal may be lost.
  • the input signal may be input to a neural network.
  • the device may convert a time domain input signal into a frequency domain input signal.
  • the device can perform an FFT on an input signal.
  • the device may perform DFT on an input signal.
  • the device may perform STFT on an input signal.
  • the device may obtain a prediction signal based on the neural network.
  • the device can restore lost frames based on frames of input signals input to a neural network.
  • the device may obtain a prediction signal corresponding to the reconstructed frame.
  • the device may obtain a magnitude loss for the target signal and a phase loss for the target signal in the frequency domain.
  • the target signal refers to the original of the lost frame, that is, the original frame.
  • the device can perform time-frequency conversion on the target signal.
  • the device may obtain a magnitude loss by comparing the target signal and the prediction signal in the frequency domain.
  • Size loss in a neural network for PLC, refers to a loss function corresponding to the difference between the size of the predicted value and the size of the correct value.
  • the device may obtain phase loss by comparing the phase of the prediction signal and the phase of the target signal in the time domain.
  • Phase loss refers to a loss function corresponding to the phase difference between the phase of the predicted value and the correct value in a neural network for PLC.
  • the device may perform a frequency-to-time conversion.
  • the device may convert a prediction signal in the time domain into a prediction signal in the frequency domain in order to compare the prediction signal and the target signal.
  • the device can perform an FFT on the prediction signal.
  • the device may perform DFT on the prediction signal.
  • the device may obtain a correlation loss for the target signal in the time domain.
  • the device may obtain correlation loss by comparing pitch information (eg, auto-correlation) of the prediction signal with information of the target signal in the time domain.
  • Correlation loss in a neural network for PLC, refers to a loss function corresponding to the pitch information of the predicted value and the pitch information of the correct answer value.
  • the device may obtain loss information.
  • the device may obtain loss information based on magnitude loss, phase loss, and correlation loss.
  • the device may obtain the loss information by applying a first weight to the magnitude loss, a second weight to the phase loss, and a third weight to the correlation loss.
  • the device may determine a weighted-sum for the magnitude loss, the phase loss, and the correlation loss as the loss information.
  • the loss information may correspond to a loss function in a neural network for PLC learning.
  • at least one of the first weight, the second weight, and the third weight is such that the difference between the loss frame and the original frame (i.e., the target frame) is smaller, that is, the loss function is It can be updated to make it smaller.
  • the device may perform training of a neural network model based on the loss information.
  • the neural network model can output a restored frame through restoration of the lost frame.
  • the neural network model may use ML (machine learning).
  • the restored frame is the predicted value of the neural network model, and the original frame is the correct answer value of the neural network model.
  • the device may update the first weight, the second weight, and the third weight so that the value of the loss function is minimized.
  • the device may repeatedly perform the learning operations for a neural network model. For example, the device may repeatedly perform the learning procedures of operations 401 to 413 up to a predetermined epoch value. When the epoch value is reached, the device can end learning.
  • the device may output a restored frame after learning the neural network model.
  • the restored frame may be determined based on one or more previous frames located before the lost frame among the frames of the audio signal.
  • the device may determine one of the one or more previous frames as the restored frame, or may obtain the restored frame based on learning results of the one or more previous frames.
  • the device can output an audio signal that is close to the original frame and has improved sound quality compared to the lost frame.
  • correlation loss in the time domain, magnitude loss in the frequency domain, and phase loss in the frequency domain are depicted as example components for determining the loss function, but embodiments of the present disclosure are described above. The interpretation is not limited to only three components.
  • the magnitude loss in the time domain can be used to determine a loss function for learning (e.g., loss information in FIGS. 3 and 4).
  • the magnitude loss in the time domain, combined with other components may be used to determine the loss function. You can.
  • Identify at least two of the three or four components described above e.g., magnitude loss in the frequency domain, phase loss in the frequency domain, correlation loss in the time domain, magnitude loss in the time domain
  • determining a final loss function e.g., loss information
  • a final loss function e.g., loss information
  • Figure 5 is a diagram for explaining the principle of conversion between the time domain and the frequency domain according to an embodiment.
  • the coordinate system 500 represents the relationship between the time domain signal 531 and the frequency domain signal 541.
  • the first axis of the coordinate system 500 represents the time domain 501
  • the second axis represents the frequency domain 503
  • the third axis represents the magnitude domain 505.
  • the graph 530 represents the signal size of the time domain signal 531 over time.
  • the time domain signal 531 may be changed into a frequency domain signal 541 through time-frequency conversion (eg, FFT, DFT, STFT).
  • the time domain signal 531 may be divided in the frequency domain into a first signal 507a, a second signal 507b, and a third signal 507c.
  • the first signal 507a refers to a component signal according to the first frequency among the time domain signals 531.
  • the second signal 507b refers to a component signal according to the second frequency among the time domain signal 531.
  • the second frequency may be different from the first frequency.
  • the third signal 507c refers to a component signal according to the third frequency among the time domain signals 531.
  • the third frequency may be different from the first frequency and the second frequency.
  • the graph 540 represents the signal size according to the change in frequency of the frequency domain signal 541.
  • Line 541a represents the magnitude of the first signal 507a corresponding to the first frequency.
  • Line 541b indicates the magnitude of the second signal 507b corresponding to the second frequency.
  • Line 541c indicates the magnitude of the third signal 507c corresponding to the third frequency.
  • conversion between the time domain 501 and the frequency domain 503 can be used to learn the audio signal more accurately.
  • the transformation can be used to identify whether the ML inference method or the pitch copy method is advantageous when recovering lost packets of an audio signal. Due to the characteristics of the Fourier transform, a large amount of signal energy can be generated in the low frequency region. Therefore, there is a high possibility that signal components in the low frequency region contain more important data to the PLC than signal components in the high frequency region. This is because the more energy is concentrated in the area, the more influence it has on the PLC.
  • Figure 6 shows an example of audio frame reconstruction.
  • graph 601 shows the frequency spectrum when there is no error.
  • Graph 603 shows the frequency spectrum according to a signal processing-based PLC.
  • Graph 605 represents a frequency spectrum according to a convolutional recurrent network (CRN) PLC.
  • CNN convolutional recurrent network
  • an audio device eg, audio device 280
  • the audio device 280 may copy the previous frame as the first restored frame 610 for the PLC.
  • the audio device 280 may copy the previous frame as the second restored frame 620 for the PLC.
  • packet loss occurs in a transient signal with a sudden peak, frames that are significantly different from the original may be copied. Due to incorrect frame prediction, sound quality may deteriorate. In other words, simply dividing into two bands has limitations in properly reflecting the characteristics of the audio signal.
  • Embodiments of the present disclosure apply a ML (machine learning)-based PLC technique in a frequency domain differentiated according to the energy distribution of the audio when packet loss occurs during wireless audio transmission to minimize sound quality degradation that occurs due to sound interruption. , proposes a technology to improve the user's perceived sound quality.
  • ML machine learning
  • FIG. 7A shows an example of an energy-based PLC according to one embodiment.
  • an electronic device e.g., the electronic device 101 or the audio device 280
  • the electronic device can perform energy-based band division.
  • the electronic device may perform time-frequency conversion (eg, FFT, DFT, STFT).
  • the electronic device can acquire an audio signal.
  • the audio signal may include a frame at a location where loss occurs (hereinafter referred to as a lost frame). Additionally, the audio signal may include not only the lost frame but also one or more frames (hereinafter referred to as previous frames) that precede the lost frame in time.
  • the audio signal may contain lost frames, e.g. ) and previous frames (e.g. ) may include.
  • An electronic device can convert a time domain audio signal into a frequency domain audio signal.
  • An electronic device can perform FFT to calculate frequency energy for an audio signal.
  • the electronic device may perform a band energy calculation.
  • the entire frequency band may include multiple subbands.
  • the size of the subband may be fixed. That is, each of the plurality of subbands may have the same frequency domain size.
  • subbands in the entire frequency band may be distinguished based on a critical band indicating the audibility of sound.
  • the electronic device can calculate frequency energy in each of the plurality of subbands.
  • the electronic device can acquire frequency energy for each subband for band division.
  • the electronic device may perform band splitting.
  • the electronic device can divide the entire frequency domain into a plurality of frequency bands.
  • a frequency band may include one or more subbands.
  • the electronic device may divide the entire frequency domain into a plurality of frequency bands based on frequency energy for each subband, that is, energy distribution.
  • the number of divided bands can be variably determined depending on the characteristics of the frequency domain of the input audio signal.
  • the size of each frequency band can be variably determined depending on the characteristics of the frequency domain of the input audio signal.
  • the electronic device may perform band division based on whether the difference in frequency energy between adjacent subbands is greater than or equal to a threshold.
  • the electronic device can identify whether the difference in frequency energy between adjacent subbands is greater than or equal to a threshold.
  • the electronic device may perform band division when the difference in frequency energy between two adjacent subbands is greater than or equal to a threshold.
  • the electronic device may distinguish between a first subband, one of two adjacent subbands, and a second subband, the other of the two adjacent subbands, as different frequency bands. That is, the boundaries of subbands having a difference greater than a threshold may be the boundaries of divided frequency bands.
  • the electronic device may determine the two subbands to be the same frequency band. Accordingly, the difference between all adjacent subbands within the frequency band divided according to band division may be less than the threshold.
  • an electronic device may perform frame prediction on frequency bands according to band division.
  • the electronic device may perform frame prediction based on the energy level.
  • Electronic devices can calculate energy for each frequency band.
  • the electronic device may calculate the energy level for the frequency band based on the frequency energy of each subband within the frequency band (eg, frequency energy for each subband in operation 705).
  • the electronic device may calculate the energy level for the frequency band through the sum of frequency energies of subbands of the frequency band.
  • the electronic device may calculate the energy level for the frequency band by averaging the frequency energies of subbands of the frequency band.
  • Signal components in bands with relatively large energy levels may include many important parts of the original audio signal. Accordingly, the electronic device may configure a frame prediction method differently based on the energy level of the frequency band.
  • the electronic device may perform ML-based frame prediction for the frequency band.
  • the electronic device can perform ML-based frame prediction.
  • ML-based frame prediction is a technology that predicts the original frame of a lost frame according to an ML inference method.
  • electronic devices use neural network models using ML (e.g., deep neutral network (DNN), CRN, recurrent neural network (RNN), and text filter conditioning generative adversarial network (TFGAN).
  • DNN deep neutral network
  • CRN recurrent neural network
  • TGFAN text filter conditioning generative adversarial network
  • the electronic device may perform frame prediction based on a result learned from ML network #1 (711). Through frame prediction using (711), an inference signal can be output in the corresponding frequency band.
  • the electronic device may perform pitch-based frame prediction for the frequency band.
  • the electronic device may perform pitch-based frame prediction.
  • Pitch-based frame prediction is a technique for predicting the original frame of a lost frame according to a pitch copy method. If the energy size of the frequency band is not large enough, the amount of information is small and learning may not be sufficient. Because the prediction performance using the neural network model is insufficient due to a small amount of learning, the electronic device can perform pitch-based frame prediction.
  • the electronic device may perform pitch search 721.
  • the electronic device may perform frame identification (723) based on the results of pitch search (721). Through pitch search 721, the electronic device can identify the frame with the highest correlation with the lost frame among previous frames and predict the restored frame with the identified frame.
  • the electronic device may output the restored frame as an inference signal in the corresponding frequency band.
  • the electronic device may configure the neural network used for ML-based frame prediction differently for each frequency band. Since the energy size is different for each frequency band, the learning performance of the neural network may also vary between frequency bands. Therefore, the electronic device can independently configure a neural network for each frequency band. For example, the electronic device may perform frame prediction for the first frequency band based on ML network #1 (711). The electronic device may perform frame prediction for the second frequency band based on ML network #2 741 in the second frequency band.
  • the model size of ML network #2 (741) may be configured to be smaller than the model size of ML network #1 (711).
  • the electronic device may perform frequency-time transformation (eg, iFFT, iDFT, iSTFT).
  • the electronic device receives the results of frame prediction for each frequency band, i.e. an inference signal for each frequency band, e.g. ) can be output.
  • the electronic device may obtain one inference signal based on the inference signals in the frequency bands.
  • the electronic device can obtain one inference signal by combining inference signals of frequency bands.
  • the inference signal is combined in the frequency domain and thus corresponds to a frequency domain signal.
  • the electronic device may perform iFFT to change the frequency domain signal into a time domain signal.
  • the electronic device can obtain an inference signal in the time domain through iFFT.
  • the electronic device may output the time domain inference signal as a result of the PLC for the input audio signal in operation 703.
  • Figure 7b shows an example of frequency band division according to one embodiment.
  • frequency band division the frequency domain of the audio signal can be divided into a plurality of frequency bands.
  • the entire frequency range 750 of the audio signal may be continuous.
  • the total frequency region 750 refers to the frequency band in which audio signals are distributed.
  • the distribution of the audio signal in a specific frequency region may mean that the frequency spectrum of the audio signal has a significant frequency component above the minimum detection value.
  • the entire frequency region 750 may be divided into subbands 760 of fixed sizes.
  • the electronic device can acquire frequency energy for each subband.
  • the electronic device may perform band division based on the frequency energy of each subband.
  • the electronic device may divide the entire frequency region 750 into a plurality of frequency bands based on the frequency energy for each subband, that is, energy distribution. For example, subbands whose energy difference at the boundary is less than a threshold may be grouped into one frequency band. Subbands where the energy difference at the boundary is greater than a threshold may be divided into different frequency bands.
  • the entire frequency region 750 may be divided into a plurality of frequency bands.
  • the entire frequency region 750 may be divided into a first frequency band 771, a second frequency band 773, a third frequency band 775, and a fourth frequency band 777.
  • the energy size of the subband corresponding to the highest frequency in the first frequency band 771 and the energy size of the subband corresponding to the lowest frequency in the second frequency band 773 may be greater than the threshold value.
  • the energy size of the subband corresponding to the highest frequency in the second frequency band 773 and the energy size of the subband corresponding to the lowest frequency in the third frequency band 775 may be greater than the threshold value.
  • the energy size of the subband corresponding to the highest frequency in the third frequency band 775 and the energy size of the subband corresponding to the lowest frequency in the fourth frequency band 777 may be greater than the threshold value.
  • Figure 7c shows an example of frequency band division in an energy-based PLC according to one embodiment.
  • the audio signal in the time domain 781 can be converted to an audio signal in the frequency domain 783.
  • the frequency spectrum of an audio signal it can be confirmed that each time section has different frequency characteristics.
  • the range of the entire frequency region may vary. Additionally, depending on the frequency spectrum of the audio signal, the size of each divided frequency band may vary. For example, it can be confirmed that the first audio signal 791 in the frequency domain is divided into two frequency bands (band0, band1). It can be confirmed that the second audio signal 793 in the frequency domain is divided into two frequency bands (band0, band 1). Although it is divided into the same number of frequency bands, the frequency ranges of the frequency bands may be configured differently. In other words, band division may not be performed based on a fixed frequency position (e.g., a frequency band below 8 kHz and a frequency band above 8 kHz), but may be performed based on the frequency spectrum characteristics of the input audio signal.
  • a fixed frequency position e.g., a frequency band below 8 kHz and a frequency band above 8 kHz
  • the first frequency band and the second frequency band divided by frequency band division may have different band sizes.
  • the number of divided frequency bands may vary depending on the frequency spectrum of the audio signal. For example, it can be confirmed that the third audio signal 795 in the frequency domain is divided into three frequency bands (band0, band 1, band 2). By performing band division according to the distribution of frequency energy, robust PLC performance can be achieved even if unexpected transient signals occur.
  • Figure 8 shows an example of pitch search according to one embodiment.
  • the audio signal may include a lost frame 801 and previous frames.
  • Previous frames refer to frames received before the lost frame 801 and may be stored in the buffer 803.
  • the electronic device can select a copy frame within the buffer 803 through pitch search.
  • the electronic device may determine the optimal frame 805 among previous frames through pitch search. Instead of simply retrieving data from the previous frame, the electronic device may determine the optimal frame 805 that has the highest correlation with the lost frame based on the plurality of previous frames received in the buffer 803.
  • the electronic device can copy the optimal frame 805 and generate a restored frame 809.
  • the electronic device can output an audio signal including the restored frame 809 as a prediction signal.
  • Figure 9 shows the operation flow of an electronic device for a band energy-based PLC according to an embodiment.
  • the electronic device may be the electronic device 101 or the audio device 280.
  • the electronic device may detect frame loss.
  • An electronic device can detect loss of a specific frame among frames of an audio signal. For example, an electronic device can detect frame loss through missing or mismatched frame numbers.
  • the electronic device may perform an energy-based PLC operation, which will be described later, based on detecting frame loss.
  • the electronic device may perform time-frequency conversion on the audio signal.
  • the electronic device can perform time-frequency conversion to obtain energy distribution through the frequency spectrum of the audio signal.
  • An electronic device can convert a time domain audio signal into a frequency domain audio signal.
  • an electronic device can perform FFT on an audio signal.
  • an electronic device may perform DFT on an audio signal.
  • an electronic device may perform STFT on an audio signal.
  • the electronic device may perform frequency band division based on energy distribution.
  • Electronic devices can obtain energy distribution.
  • the electronic device can specify the entire frequency region of the audio signal.
  • the electronic device can divide the entire frequency range of the audio signal into a plurality of subbands. Each subband can be divided into a fixed size or a size based on a critical band determined by human audibility. You can.
  • the electronic device can calculate the frequency energy for each subband.
  • the energy distribution may indicate frequency energy for each subband.
  • the electronic device may divide the entire frequency region into a plurality of frequency bands based on energy distribution.
  • the electronic device can identify a plurality of frequency bands based on the analysis result of the energy distribution.
  • the electronic device may group subbands with similar frequency energy among subbands.
  • the electronic device may determine the grouped subbands into one frequency band.
  • the electronic device may determine the range of the frequency band based on energy distribution. For example, when the energy difference between two adjacent subbands is less than a distinction threshold, the electronic device may determine the two subbands to be the same frequency band. Additionally, for example, when the energy difference between two adjacent subbands is less than the discrimination threshold, the electronic device may divide the two subbands into different frequency bands.
  • the entire frequency region can be divided into frequency bands.
  • the electronic device may variably adjust the size of the frequency band and/or the number of divided frequency bands based on the frequency spectrum of the audio signal. For example, the band size of the first frequency band divided by the frequency band division may be different from the size of the second frequency band divided by the frequency band division.
  • the electronic device may perform frame prediction in each of the frequency bands.
  • Electronic devices can perform frame prediction based on the energy size for each frequency band.
  • an electronic device may perform ML-based frame prediction for a frequency band whose energy level is greater than a threshold.
  • ML-based frame prediction the descriptions of FIGS. 7B and 7C may be referred to.
  • pitch-based frame prediction can be performed.
  • FIG. 8 the description of FIG. 8 may be referred to.
  • the electronic device can obtain a prediction signal for each frequency band through frame prediction.
  • the electronic device can synthesize prediction signals in frequency bands.
  • the electronic device can obtain a prediction signal in the frequency domain through the synthesis.
  • FIG. 10 the description of FIG. 10 may be referred to.
  • the electronic device may obtain an inference signal based on frequency-time conversion.
  • the electronic device may perform frequency-time conversion to obtain the original audio signal.
  • the electronic device may convert the obtained prediction signal in the frequency domain in operation 907 into an inference signal in the time domain.
  • the electronic device may perform iFFT on the inference signal in the frequency domain.
  • the electronic device may perform iDFT on the inference signal in the frequency domain.
  • the electronic device may perform iSTFT on the inference signal in the frequency domain.
  • the electronic device may additionally perform learning.
  • the electronic device may obtain a loss function by comparing the original signal and the inferred signal based on obtaining information about the original signal.
  • the electronic device can train a neural network model used in frame prediction based on the loss function.
  • FIG. 10 illustrates an operation flow of an electronic device for frame prediction according to an embodiment.
  • the electronic device may be the electronic device 101 or the audio device 280.
  • the operations of FIG. 10 illustrate operation 907 of FIG. 9 .
  • the electronic device may determine whether the frequency energy of the corresponding frequency band is greater than the energy threshold.
  • the electronic device can determine the frequency energy of the corresponding frequency band.
  • the electronic device may determine the frequency energy of the frequency band based on the frequency energies of subbands of the frequency band. This is because the larger the energy level, the more components the input audio signal contains among the components of the original signal. Losses occur at specific times. Loss at any given time can affect the entire frequency of the audio signal. Therefore, the larger the frequency energy, the easier it may be to identify the lost component through machine learning of previous frames. Accordingly, the electronic device may compare the frequency energy of the frequency band with the energy threshold to determine whether to perform ML-based frame prediction.
  • the electronic device may perform operation 1003 if the energy level of the frequency band is greater than the energy threshold.
  • the electronic device may perform operation 1005 if the energy level of the frequency band is less than or equal to the energy threshold.
  • the electronic device may perform ML-based frame prediction.
  • the electronic device can restore lost frames in the corresponding frequency band based on a neural network model learned for the PLC.
  • the electronic device can obtain an inference signal corresponding to the frequency band.
  • the neural network eg, neural network 313) of FIGS. 3 and 4 may be referenced.
  • the electronic device may independently configure a neural network model for learning for each frequency band. For example, the electronic device may configure a first neural network for a first frequency band and output an inference signal corresponding to the first frequency band through learning of the first neural network.
  • the electronic device may configure a second neural network for a second frequency band and output an inference signal corresponding to the second frequency band through learning of the second neural network.
  • the relatively higher the frequency energy the larger the neural network model can be.
  • the relatively higher the frequency band the smaller the size of the neural network model may be.
  • the electronic device may perform pitch-based frame prediction.
  • the electronic device may perform pitch search for previous frames in the buffer for the PLC.
  • the electronic device may identify an optimal frame corresponding to the lost frame based on the pattern of the previous frames through pitch search. By copying the optimal frame, the electronic device can obtain a restored frame corresponding to the inference signal.
  • the electronic device may output the restored frame as an inference signal in the corresponding frequency band.
  • pitch-based frame prediction the description of FIG. 8 may be referred to.
  • the electronic device may determine whether frame prediction for all frequency bands has been completed.
  • the electronic device may perform operation 1009 when frame prediction for all frequency bands is not completed.
  • the electronic device may perform operation 1011 when frame prediction for all frequency bands is completed.
  • the electronic device may identify different frequency bands.
  • the electronic device may identify a frequency band different from the frequency band in which frame prediction has been completed.
  • the difference between the frequency energy of the other frequency band and the frequency energy of the frequency band in which the frame prediction is completed may be greater than the discrimination threshold.
  • the electronic device may obtain a prediction signal through synthesis of signals in each frequency band.
  • the electronic device can obtain prediction signals that are output according to the frame prediction results for each frequency band.
  • An electronic device can obtain one prediction signal by combining prediction signals for frequency bands.
  • the prediction signal is a frequency domain signal.
  • the electronic device may output an output signal in the time domain through frequency-time conversion (e.g., iFFT, iDFT, iSTFT).
  • the output signal may include the result of restoring a lost frame from an audio signal input to the PLC.
  • packet loss can be effectively restored in an environment where QoS (quality of service) is not guaranteed due to the influence of changes in distance between devices or congestion of adjacent channels in a wireless audio environment.
  • QoS quality of service
  • the electronic device can achieve robust PLC performance.
  • the electronic device 101 or 280 may include a memory 130 configured to store instructions, and at least one processor 120 operatively coupled to the memory.
  • the processor 120 of may perform operations according to embodiments when the instructions are executed.
  • the at least one processor 120 may be configured to obtain a prediction signal based on an input signal and a neural network (313, 403).
  • the at least one processor 120 may be configured to obtain magnitude loss for the prediction signal and the target signal in the frequency domain when the instructions are executed (323, 405).
  • the at least one processor 120 may be configured to obtain phase loss for the prediction signal and the target signal in the frequency domain (325, 405).
  • the at least one processor 120 may be configured to obtain a correlation loss for the prediction signal and the target signal in the time domain (327, 409).
  • the at least one processor 120 may be configured to obtain loss information based on the magnitude loss, the phase loss, and the correlation loss (330, 411).
  • the at least one processor 120 may be configured to perform learning on the neural network based on the loss information (313, 41
  • the at least one processor 120 may be configured to obtain the input signal by performing fast fourier transform (FFT).
  • FFT fast fourier transform
  • the at least one processor 120 may be configured to obtain the prediction signal from the input signal based on the neural network in the frequency domain.
  • the at least one processor 120 may be configured to perform an FFT on the target signal in the time domain.
  • the at least one processor 120 may be configured to perform an FFT on the target signal in the time domain.
  • the loss information may be obtained by applying a first weight to the magnitude loss, a second weight to the phase loss, and a third weight to the correlation loss.
  • the at least one processor 120 may be configured to detect frame loss.
  • the at least one processor 120 may be configured to perform time-frequency conversion on the audio signal preceding the frame.
  • the at least one processor 120 may configure a plurality of frequency bands for the audio signal in the frequency domain based on frequency energy distribution.
  • the at least one processor 120 may be configured to obtain an inference signal corresponding to the frame through frame prediction in each of the plurality of frequency bands.
  • the at least one processor 120 may be configured to perform frequency-time conversion on the inference signal.
  • the at least one processor 120 in order to obtain the inference signal, the at least one processor 120, for each frequency band among the plurality of frequency bands, when the energy size of the corresponding frequency band is greater than the energy threshold , It may be configured to obtain a prediction signal through frame prediction using ML (machine learning) of the neural network. In order to obtain the inference signal, the at least one processor 120 performs a pitch search for each frequency band among the plurality of frequency bands when the energy level of the corresponding frequency band is less than or equal to the energy threshold. It may be configured to obtain a prediction signal through frame prediction using (pitch search). The inference signal may be obtained through synthesis of prediction signals in the frequency bands obtained through frame prediction using the ML or frame prediction using the pitch search.
  • ML machine learning
  • a method performed by the electronic device 101 or 280 may include operations 313 or 403 of acquiring a prediction signal based on an input signal and a neural network.
  • the method may include operations 323 and 405 of obtaining magnitude loss for the prediction signal and the target signal in the frequency domain.
  • the method may include operations 325 and 405 of obtaining phase loss for the prediction signal and the target signal in the frequency domain.
  • the method may include operations 327 and 409 of obtaining a correlation loss for the prediction signal and the target signal in the time domain.
  • the method may include operations 330 and 411 of acquiring loss information based on the magnitude loss, the phase loss, and the correlation loss.
  • the method may include operations 313 and 413 of performing learning on the neural network based on the loss information.
  • the operation of acquiring the prediction signal may include obtaining the input signal by performing fast fourier transform (FFT).
  • FFT fast fourier transform
  • Obtaining the prediction signal may include obtaining the prediction signal from the input signal in the frequency domain, based on the neural network.
  • the operation of obtaining the phase loss may include performing an FFT on the target signal in the time domain.
  • the operation of obtaining the magnitude loss may include performing an FFT on the target signal in the time domain.
  • the loss information may be obtained by applying a first weight to the magnitude loss, a second weight to the phase loss, and a third weight to the correlation loss.
  • the method may include detecting frame loss.
  • the method may include performing time-frequency conversion on an audio signal preceding the frame.
  • the method may include configuring a plurality of frequency bands for the audio signal in the frequency domain based on frequency energy distribution.
  • the method may include obtaining an inference signal corresponding to the frame through frame prediction in each of the plurality of frequency bands.
  • the method may include performing frequency-time transformation on the inference signal.
  • the operation of acquiring the inference signal includes, for each frequency band among the plurality of frequency bands, when the energy size of the corresponding frequency band is greater than the energy threshold, ML (machine learning) of the neural network It may include an operation of obtaining a prediction signal through frame prediction using .
  • the operation of acquiring the inference signal includes, for each frequency band among the plurality of frequency bands, frame prediction using pitch search when the energy size of the corresponding frequency band is less than or equal to the energy threshold. It may include an operation of acquiring a prediction signal through.
  • the inference signal may be obtained through synthesis of prediction signals in the frequency bands, which are obtained through frame prediction using the ML or frame prediction using the pitch search.
  • the electronic device 101 or 280 may include a memory 130 configured to store instructions, and at least one processor 120 operatively coupled to the memory.
  • the at least one processor 120 may perform operations according to embodiments when the instructions are executed.
  • the at least one processor 120 may be configured to obtain a prediction signal based on an input signal and a neural network.
  • the at least one processor 120 may calculate magnitude loss for the prediction signal and the target signal in the frequency domain, phase loss for the prediction signal and the target signal in the frequency domain, and time domain. It may be configured to identify at least two loss components among a correlation loss for the prediction signal and the target signal, or a magnitude loss for the prediction signal and the target signal in the time domain.
  • the at least one processor 120 may be configured to obtain loss information based on the identified at least two loss components.
  • the at least one processor 120 may be configured to perform learning on the neural network based on the loss information.
  • the electronic device 101 or 280 may include a memory 130 configured to store instructions, and at least one processor 120 operatively coupled to the memory.
  • the at least one processor 120 may perform operations according to embodiments when the instructions are executed.
  • the at least one processor 120 performs a time-frequency transformation on an audio signal comprising the frame and one or more frames preceding the frame in the time domain, based on detecting 901 loss of a frame. It may be configured to do so (903).
  • the at least one processor 120 may configure a plurality of frequency bands for the audio signal based on a frequency energy distribution representing the frequency energy of each subband of the frequency domain (905).
  • the at least one processor 120 may be configured to obtain prediction signals for the plurality of frequency bands in the frequency domain through frame prediction for each of the plurality of frequency bands (907).
  • the at least one processor 120 may be configured to obtain an inference signal for the audio signal based on frequency-time conversion of the prediction signal (909).
  • the plurality of frequency bands may be configured based on whether the frequency energy difference between adjacent subbands among the subbands is greater than or equal to a threshold.
  • subbands adjacent to each other among the subbands may be configured as the same frequency band when the frequency energy difference between the adjacent subbands is less than a set threshold.
  • adjacent subbands may be configured as different frequency bands when the frequency energy difference between the adjacent subbands is greater than a set threshold.
  • the size of each of the subbands in the frequency domain may be the same.
  • the frame prediction may include frame prediction using machine learning (ML) or frame prediction using pitch search.
  • Frame prediction using the ML can be used when the frequency energy of the corresponding frequency band is greater than the energy threshold.
  • Frame prediction using the pitch search can be used when the frequency energy of the corresponding frequency band is less than the energy threshold.
  • frame prediction for the first frequency band among the plurality of frequency bands may use a first ML neural network.
  • Frame prediction for a second frequency band higher than the first frequency band among the plurality of frequency bands may use a second ML neural network.
  • the network size of the first ML neural network may be larger than the network size of the second ML neural network.
  • the time-frequency transformation may include fast Fourier transform (FFT) or short time Fourier transform (STFT).
  • the frequency-time transform may include inverse fast fourier transform (iFFT) or inverse short time fourier transform (iSTFT).
  • a non-transitory recording medium may include a memory that stores instructions.
  • the electronic device acquires a prediction signal based on an input signal and a neural network, and obtains a magnitude loss for the prediction signal and the target signal in the frequency domain, Obtaining a phase loss for the prediction signal and the target signal in the frequency domain, obtaining a correlation loss for the prediction signal and the target signal in the time domain, the magnitude loss, the Loss information may be acquired based on the phase loss and the correlation loss, and learning of the neural network may be performed based on the loss information.
  • a non-transitory recording medium may include a memory that stores instructions.
  • the electronic device acquires a prediction signal based on an input signal and a neural network, and a magnitude loss for the prediction signal and the target signal in the frequency domain, the frequency domain.
  • a non-transitory recording medium may include a memory that stores instructions.
  • the instructions when executed by a processor, perform time-frequency conversion on an audio signal including the frame and one or more frames preceding the frame in the time domain based on the electronic device detecting loss of a frame; Configure a plurality of frequency bands for the audio signal based on a frequency energy distribution representing the frequency energy of each of the subbands of the frequency domain, and frame prediction for each of the plurality of frequency bands in the frequency domain.
  • the plurality of frequency bands may be configured based on whether the frequency energy difference between adjacent subbands among the subbands is greater than or equal to a threshold.
  • a computer-readable storage medium that stores one or more programs (software modules) may be provided.
  • One or more programs stored in a computer-readable storage medium are configured to be executable by one or more processors in an electronic device (configured for execution).
  • One or more programs include instructions that cause the electronic device to execute methods according to embodiments described in the claims or specification of the present disclosure.
  • These programs may include random access memory, non-volatile memory, including flash memory, read only memory (ROM), and electrically erasable programmable ROM. (electrically erasable programmable read only memory, EEPROM), magnetic disc storage device, compact disc-ROM (CD-ROM), digital versatile discs (DVDs), or other types of disk storage. It can be stored in an optical storage device or magnetic cassette. Alternatively, it may be stored in a memory consisting of a combination of some or all of these. Additionally, multiple configuration memories may be included.
  • non-volatile memory including flash memory, read only memory (ROM), and electrically erasable programmable ROM. (electrically erasable programmable read only memory, EEPROM), magnetic disc storage device, compact disc-ROM (CD-ROM), digital versatile discs (DVDs), or other types of disk storage. It can be stored in an optical storage device or magnetic cassette. Alternatively, it may be stored in a memory consisting of a combination of some or all of these. Additionally, multiple configuration memories may
  • the program may be distributed through a communication network such as the Internet, an intranet, a local area network (LAN), a wide area network (WAN), or a storage area network (SAN), or a combination thereof. It may be stored on an attachable storage device that is accessible. This storage device can be connected to a device performing an embodiment of the present disclosure through an external port. Additionally, a separate storage device on a communications network may be connected to the device performing embodiments of the present disclosure.
  • a communication network such as the Internet, an intranet, a local area network (LAN), a wide area network (WAN), or a storage area network (SAN), or a combination thereof. It may be stored on an attachable storage device that is accessible. This storage device can be connected to a device performing an embodiment of the present disclosure through an external port. Additionally, a separate storage device on a communications network may be connected to the device performing embodiments of the present disclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Power Engineering (AREA)
  • Telephone Function (AREA)

Abstract

전자 장치는 인스트럭션들을 저장하도록 구성된 메모리, 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있고, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하도록 구성될 수 있고, 상기 인스트럭션들이 실행될 시, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하도록 구성될 수 있고, 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하도록 구성될 수 있고, 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하도록 구성될 수 있고, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하도록 구성될 수 있고, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성될 수 있다.

Description

패킷 손실 은닉을 위한 전자 장치 및 방법
아래의 설명들은, 패킷 손실 은닉(packet loss concealment)을 위한 전자 장치(electronic device) 및 방법(method)에 관한 것이다.
무선 통신 기술의 발전으로 다양한 종류의 웨어러블 기기들이 이용된다. 특히 음악을 듣거나 통화 시 사용하는 오디오 장치는 기존의 유선으로 연결하는 방식에서 무선 통신 기술(예: 블루투스)을 활용한 방식으로 변화되고 있다.
상술한 정보는 본 개시에 대한 이해를 돕기 위한 목적으로 하는 배경 기술(related art)로 제공될 수 있다. 상술한 내용 중 어느 것도 본 개시와 관련된 종래 기술(prior art)로서 적용될 수 있는지에 대하여 어떠한 주장이나 결정이 제기되지 않는다.
실시예들에 따른 전자 장치가 제공된다. 상기 전자 장치는 인스트럭션들을 저장하도록 구성된 메모리, 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서를 포함할 수 있다, 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서는, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 시, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성될 수 있다.
실시예들에 따른 전자 장치가 제공된다. 상기 전자 장치에 의해 수행되는 방법은, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하는 동작을 포함할 수 있다. 상기 방법은 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하는 동작을 포함할 수 있다. 상기 방법은 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하는 동작을 포함할 수 있다. 상기 방법은 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하는 동작을 포함할 수 있다. 상기 방법은 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하는 동작을 포함할 수 있다. 상기 방법은 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하는 동작을 포함할 수 있다.
실시예들에 따른 전자 장치가 제공된다. 상기 전자 장치는, 인스트럭션들을 저장하도록 구성된 메모리, 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서는, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss), 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss), 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss), 또는 상기 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 크기 손실 중에서 적어도 2개의 손실 구성요소들을 식별하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는 상기 식별된 적어도 2개의 손실 구성요소들에 기반하여 손실 정보를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성될 수 있다.
실시예들에 따른 전자 장치가 제공된다. 상기 전자 장치는, 인스트럭션들을 저장하도록 구성된 메모리, 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서는, 프레임의 손실을 검출하는 것에 기반하여, 시간 도메인에서 상기 프레임 및 상기 프레임보다 앞서는 하나 이상의 프레임들을 포함하는 오디오 신호에 대한 시간-주파수 변환을 수행하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 주파수 도메인의 서브대역들 각각의 주파수 에너지를 나타내는, 주파수 에너지 분포에 기반하여, 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성할 수 있다. 상기 적어도 하나의 프로세서는, 상기 복수의 주파수 대역들 각각에 대한 프레임 예측을 통해, 주파수 도메인에서의 상기 복수의 주파수 대역들에 대한 예측 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서는, 상기 예측 신호에 대한 주파수-시간 변환에 기반하여, 상기 오디오 신호를 위한 추론 신호를 획득하도록 구성될 수 있다. 상기 복수의 주파수 대역들은, 상기 서브대역들 중에서 인접한 서브대역들에 대한 주파수 에너지 차이가 임계값 이상인지 여부에 기반하여, 구성될 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하고, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하고, 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하고, 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하고, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하고, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 야기할 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하고, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss), 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss), 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss), 또는 상기 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 크기 손실 중에서 적어도 2개의 손실 구성요소들을 식별하고, 상기 식별된 적어도 2개의 손실 구성요소들에 기반하여 손실 정보를 획득하고, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 야기할 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 프레임의 손실을 검출하는 것에 기반하여, 시간 도메인에서 상기 프레임 및 상기 프레임보다 앞서는 하나 이상의 프레임들을 포함하는 오디오 신호에 대한 시간-주파수 변환을 수행하고, 주파수 도메인의 서브대역들 각각의 주파수 에너지를 나타내는, 주파수 에너지 분포에 기반하여, 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성하고, 상기 복수의 주파수 대역들 각각에 대한 프레임 예측을 통해, 주파수 도메인에서의 상기 복수의 주파수 대역들에 대한 예측 신호를 획득하고, 상기 예측 신호에 대한 주파수-시간 변환에 기반하여, 상기 오디오 신호를 위한 추론 신호를 획득하도록 야기할 수 있다. 상기 복수의 주파수 대역들은, 상기 서브대역들 중에서 인접한 서브대역들에 대한 주파수 에너지 차이가 임계값 이상인지 여부에 기반하여, 구성될 수 있다.
도 1은 다양한 실시예들에 따른 네트워크 환경 내의 전자 장치의 블록도이다.
도 2a는 다양한 실시예들에 따른 오디오 모듈의 블록도이다.
도 2b는 다양한 실시예들에 따른 패킷 손실(packet loss)의 예를 도시한다.
도 3은 일 실시예에 따른 패킷 손실 은닉(packet loss concealment, PLC)을 위한 신경망(neutral network)의 예를 도시한다.
도 4는 일 실시예에 따른 PLC의 학습을 위한 장치의 동작 흐름을 도시한다.
도 5는 일 실시예에 따른 시간 도메인 및 주파수 도메인 간 변환의 원리를 설명하기 위한 도면이다.
도 6은 오디오 프레임 복원의 예를 도시한다.
도 7a는 일 실시예에 따른 에너지 기반 PLC의 예를 도시한다.
도 7b은 일 실시예에 따른 주파수 대역 분할의 예를 도시한다.
도 7c는 일 실시예에 따른 에너지 기반 PLC에서 주파수 대역 분할의 예를 도시한다.
도 8은 일 실시예에 따른 피치 탐색(pitch search)의 예를 도시한다.
도 9는 일 실시예에 따른 대역 에너지 기반 PLC를 위한 전자 장치의 동작 흐름을 도시한다.
도 10은 일 실시예에 따른 프레임 예측을 위한 전자 장치의 동작 흐름을 도시한다.
본 개시에서 사용되는 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 실시예들을 배제하도록 해석될 수 없다.
이하에서 설명되는 본 개시의 다양한 실시예들에서는 하드웨어적인 접근 방법을 예시로서 설명한다. 하지만, 본 개시의 다양한 실시예들에서는 하드웨어와 소프트웨어를 모두 사용하는 기술을 포함하고 있으므로, 본 개시의 다양한 실시예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.
이하 설명에서 사용되는 주파수 영역을 지칭하는 용어(예: 주파수 영역, 대역(band), 서브대역(subband), 범위(range)), 연산 상태를 위한 용어(예: 단계(step), 동작(operation), 절차(procedure)), 자원을 지칭하는 용어, 네트워크 객체(network entity)들을 지칭하는 용어, 장치의 구성 요소를 지칭하는 용어 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 다른 용어가 사용될 수 있다.
또한, 본 개시에서, 특정 조건의 만족(satisfied), 충족(fulfilled) 여부를 판단하기 위해, 초과 또는 미만의 표현이 사용될 수 있으나, 이는 일 예를 표현하기 위한 기재일 뿐 이상 또는 이하의 기재를 배제하는 것이 아니다. '이상'으로 기재된 조건은 '초과', '이하'로 기재된 조건은 '미만', '이상 및 미만'으로 기재된 조건은 '초과 및 이하'로 대체될 수 있다. 또한, 이하, 'A' 내지 'B'는 A부터(A 포함) B까지의(B 포함) 요소들 중 적어도 하나를 의미한다. 이하, 'C' 및/또는 'D'는 'C' 또는 'D' 중 적어도 하나, 즉, {'C', 'D', 'C'와 'D'}를 포함하는 것을 의미한다.
본 개시에서 사용되는 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 실시예들을 배제하도록 해석될 수 없다.
이하에서 설명되는 본 개시의 다양한 실시예들에서는 하드웨어적인 접근 방법을 예시로서 설명한다. 하지만, 본 개시의 다양한 실시예들에서는 하드웨어와 소프트웨어를 모두 사용하는 기술을 포함하고 있으므로, 본 개시의 다양한 실시예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.
이하 설명에서 사용되는 장치의 구성 지칭하는 용어(예: 프로세서(processor), 모듈(module), 디코더(decoder), 인코더(encoder), 코덱(compressor and decompressor, Codec), 증폭기(amplifier), 전처리(preprocessing) 솔루션(solution), 후처리(post processing) 솔루션(solution) 등), 연산 상태를 위한 용어(예: 단계(step), 동작(operation), 절차(procedure)), 신호를 지칭하는 용어(예: 신호(signal), 정보(information), 데이터(data), 스트림(stream), 입력(input) 등), 데이터를 지칭하기 위한 용어(예: 파라미터(parameter), 값(value) 등)는 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 다른 용어가 사용될 수 있다.
또한, 본 개시에서, 특정 조건의 만족(satisfied), 충족(fulfilled) 여부를 판단하기 위해, 초과 또는 미만의 표현이 사용될 수 있으나, 이는 일 예를 표현하기 위한 기재일 뿐 이상 또는 이하의 기재를 배제하는 것이 아니다. '이상'으로 기재된 조건은 '초과', '이하'로 기재된 조건은 '미만', '이상 및 미만'으로 기재된 조건은 '초과 및 이하'로 대체될 수 있다. 또한, 이하, 'A' 내지 'B'는 A부터(A 포함) B까지의(B 포함) 요소들 중 적어도 하나를 의미한다. 이하, 'C' 및/또는 'D'는 'C' 또는 'D' 중 적어도 하나, 즉, {'C', 'D', 'C'와 'D'}를 포함하는 것을 의미한다.
도 1은 다양한 실시예들에 따른 네트워크 환경 내의 전자 장치의 블록도이다. 도 2a는 다양한 실시예들에 따른 오디오 모듈의 블록도이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다. 도 1을 참고하면, 네트워크 환경(100)에서 전자 장치(101)는 제1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.
무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일 실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.
다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일 실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일 실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
도 2a는, 다양한 실시예들에 따른, 오디오 모듈(170)의 블록도(200)이다. 도 2a를 참고하면, 오디오 모듈(170)은, 예를 들면, 오디오 입력 인터페이스(210), 오디오 입력 믹서(220), ADC(analog to digital converter)(230), 오디오 신호 처리기(240), DAC(digital to analog converter)(250), 오디오 출력 믹서(260), 또는 오디오 출력 인터페이스(270)를 포함할 수 있다.
오디오 입력 인터페이스(210)는 입력 장치(150)의 일부로서 또는 전자 장치(101)와 별도로 구성된 마이크(예: 다이나믹 마이크, 콘덴서 마이크, 또는 피에조 마이크)를 통하여 전자 장치(101)의 외부로부터 획득한 소리에 대응하는 오디오 신호를 수신할 수 있다. 예를 들어, 오디오 신호가 외부의 전자 장치(102)(예: 헤드셋 또는 마이크)로부터 획득되는 경우, 오디오 입력 인터페이스(210)는 상기 외부의 전자 장치(102)와 연결 단자(178)를 통해 직접, 또는 무선 통신 모듈(192)을 통하여 무선으로(예: Bluetooth 통신) 연결되어 오디오 신호를 수신할 수 있다. 일 실시예에 따르면, 오디오 입력 인터페이스(210)는 상기 외부의 전자 장치(102)로부터 획득되는 오디오 신호와 관련된 제어 신호(예: 입력 버튼을 통해 수신된 볼륨 조정 신호)를 수신할 수 있다. 오디오 입력 인터페이스(210)는 복수의 오디오 입력 채널들을 포함하고, 상기 복수의 오디오 입력 채널들 중 대응하는 오디오 입력 채널 별로 다른 오디오 신호를 수신할 수 있다. 일 실시예에 따르면, 추가적으로 또는 대체적으로, 오디오 입력 인터페이스(210)는 전자 장치(101)의 다른 구성 요소(예: 프로세서(120) 또는 메모리(130))로부터 오디오 신호를 입력 받을 수 있다.
오디오 입력 믹서(220)는 입력된 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다. 예를 들어, 일 실시예에 따르면, 오디오 입력 믹서(220)는, 오디오 입력 인터페이스(210)를 통해 입력된 복수의 아날로그 오디오 신호들을 적어도 하나의 아날로그 오디오 신호로 합성할 수 있다.
ADC(230)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환할 수 있다. 예를 들어, 일 실시예에 따르면, ADC(230)는 오디오 입력 인터페이스(210)를 통해 수신된 아날로그 오디오 신호, 또는 추가적으로 또는 대체적으로 오디오 입력 믹서(220)를 통해 합성된 아날로그 오디오 신호를 디지털 오디오 신호로 변환할 수 있다.
오디오 신호 처리기(240)는 ADC(230)를 통해 입력받은 디지털 오디오 신호, 또는 전자 장치(101)의 다른 구성 요소로부터 수신된 디지털 오디오 신호에 대하여 다양한 처리를 수행할 수 있다. 예를 들어, 일 실시예에 따르면, 오디오 신호 처리기(240)는 하나 이상의 디지털 오디오 신호들에 대해 샘플링 비율 변경, 하나 이상의 필터 적용, 보간(interpolation) 처리, 전체 또는 일부 주파수 대역의 증폭 또는 감쇄, 노이즈 처리(예: 노이즈 또는 에코 감쇄), 채널 변경(예: 모노 및 스테레오간 전환), 합성(mixing), 또는 지정된 신호 추출을 수행할 수 있다. 일 실시예에 따르면, 오디오 신호 처리기(240)의 하나 이상의 기능들은 이퀄라이저(equalizer)의 형태로 구현될 수 있다.
DAC(250)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환할 수 있다. 예를 들어, 일 실시예에 따르면, DAC(250)는 오디오 신호 처리기(240)에 의해 처리된 디지털 오디오 신호, 또는 전자 장치(101)의 다른 구성 요소(예: 프로세서(120) 또는 메모리(130))로부터 획득한 디지털 오디오 신호를 아날로그 오디오 신호로 변환할 수 있다.
오디오 출력 믹서(260)는 출력할 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다. 예를 들어, 일 실시예에 따르면, 오디오 출력 믹서(260)는 DAC(250)를 통해 아날로그로 전환된 오디오 신호 및 다른 아날로그 오디오 신호(예: 오디오 입력 인터페이스(210)를 통해 수신한 아날로그 오디오 신호)를 적어도 하나의 아날로그 오디오 신호로 합성할 수 있다.
오디오 출력 인터페이스(270)는 DAC(250)를 통해 변환된 아날로그 오디오 신호, 또는 추가적으로 또는 대체적으로 오디오 출력 믹서(260)에 의해 합성된 아날로그 오디오 신호를 음향 출력 장치(155)를 통해 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 장치(155)는, 예를 들어, dynamic driver 또는 balanced armature driver 같은 스피커, 또는 리시버를 포함할 수 있다. 일 실시예에 따르면, 음향 출력 장치(155)는 복수의 스피커들을 포함할 수 있다. 이런 경우, 오디오 출력 인터페이스(270)는 상기 복수의 스피커들 중 적어도 일부 스피커들을 통하여 서로 다른 복수의 채널들(예: 스테레오, 또는 5.1채널)을 갖는 오디오 신호를 출력할 수 있다. 일 실시예에 따르면, 오디오 출력 인터페이스(270)는 외부의 전자 장치(102)(예: 외부 스피커 또는 헤드셋)와 연결 단자(178)를 통해 직접, 또는 무선 통신 모듈(192)을 통하여 무선으로 연결되어 오디오 신호를 출력할 수 있다.
일 실시예에 따르면, 오디오 모듈(170)은 오디오 입력 믹서(220) 또는 오디오 출력 믹서(260)를 별도로 구비하지 않고, 오디오 신호 처리기(240)의 적어도 하나의 기능을 이용하여 복수의 디지털 오디오 신호들을 합성하여 적어도 하나의 디지털 오디오 신호를 생성할 수 있다.
일 실시예에 따르면, 오디오 모듈(170)은 오디오 입력 인터페이스(210)를 통해 입력된 아날로그 오디오 신호, 또는 오디오 출력 인터페이스(270)를 통해 출력될 오디오 신호를 증폭할 수 있는 오디오 증폭기(미도시)(예: 스피커 증폭 회로)를 포함할 수 있다. 일 실시예에 따르면, 상기 오디오 증폭기는 오디오 모듈(170)과 별도의 모듈로 구성될 수 있다.
본 문서에 개시된 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어™)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 2b는 다양한 실시예들에 따른 패킷 손실(packet loss)의 예를 도시한다.
도 2b를 참고하면, 전자 장치(예: 전자 장치(101))는 오디오 장치(280)와 통신을 수행할 수 있다. 전자 장치(101)는 무선 통신 기술(예: 블루투스, BLE(Bluetooth low energy))을 통해, 오디오 패킷(271)을 오디오 장치(280)에게 전송할 수 있다. 오디오 장치(280)는 무선 통신 기술을 통해, 오디오 패킷(272)을 전자 장치(101)에게 전송할 수 있다. 전자 장치(101)는 무선 오디오 스트리밍 기술을 통해, 오디오 장치(280)에게 패킷들을 전송할 수 있다. 그러나, 무선 오디오 스트리밍 기술은, 기기간 거리 변화나 인접 채널 혼잡 등의 영향으로 인하여 패킷 지연, 지터, 또는 패킷 손실이 발생할 수 있다. 예를 들어, 지연, 지터, 또는 패킷 손실은 QoS(quality of service)를 보장하지 못하기 때문에, 사용자는 양질의 서비스를 제공받지 못할 수 있다. 특히 패킷 손실은 음 끊김의 가장 큰 원인으로 사용자의 체감 음질에 큰 영향을 미친다.
본 개시의 실시예들은, 패킷 손실 은닉(packet loss concealment, PLC) 알고리즘을 이용하여 손실된 패킷을 복원함으로써, 음질 열화를 개선하기 위한 기술을 설명한다. 또한, 본 개시의 실시예들은 ML(machine learning) 기법을 이용하여, 보다 높은 성능을 제공하는 PLC 방법을 제안한다.
본 문서에서 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 문서에 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 3은 일 실시예에 따른 패킷 손실 은닉(packet loss concealment, PLC)을 위한 신경망(neutral network)의 예를 도시한다. PLC을 위한 신경망은, 생성된 패킷의 복원을 ML 기법을 통해 학습을 위해 이용될 수 있다. PLC을 위한 신경망은, 상기 학습을 통해, 손실된 신호와 원본 신호 간의 유사도를 높이기 위해 이용될 수 있다.
도 3을 참고하면, PLC를 위한 신경망(313)을 이용하는 장치는 오디오 패킷(또는 프레임)에 대한 학습을 수행할 수 있다. 예를 들어, 상기 장치는 전자 장치(101), 오디오 장치(280), 또는 전자 장치(101)나 오디오 장치(280)와 연결되는 외부 학습 장치일 수 있다. 학습은 패킷 손실이 발생한 오디오 신호와 원본 오디오 신호 간 차이에 대응하는 손실에 기반하여 수행될 수 있다. 패킷 손실이 검출되면, 장치는 오디오 신호의 수신된 패킷들에 기반하여 손실된 패킷을 추론할 수 있다. 장치는 추론된 패킷과 실제 원본 패킷 간의 비교를 통해, 오디오 패킷에 대한 학습을 수행할 수 있다.
일 실시예에 따라, 상기 패킷 손실이 발생한 오디오 신호는 입력 신호(310)로서, 시간 도메인 신호이다. FFT(fast fourier transform)(311)를 통해 시간 도메인의 입력 신호(310)는 주파수 도메인의 입력 신호로 변환될 수 있다. 주파수 도메인의 입력 신호는 신경망(313)으로 입력될 수 있다. 원본 오디오 신호는 타겟 신호(320)로서, 시간 도메인 신호이다. FFT(321)를 통해 시간 도메인의 타겟 신호(320)는 주파수 도메인의 입력 신호로 변환될 수 있다. 일 실시예에 따라, 상기 장치는, 주파수 도메인의 타겟 신호는 주파수 도메인의 입력 신호와의 비교를 통해, 크기 손실(323) 및 위상 손실(325)을 획득할 수 있다.
일 실시예에 따라, 상기 장치는, 신경망(313)에 기반하여, 주파수 도메인의 입력 신호로부터 추론 신호(또는 예측 신호로 지칭될 수 있음)를 획득할 수 있다. 상기 장치는, 프레임 예측을 통해, 손실된 프레임에 대응하는 추론 신호를 획득할 수 있다. 상기 추론 신호는 주파수 도메인 신호이다. iFFT(315)를 통해, 주파수 도메인의 추론 신호는 시간 도메인의 추론 신호로 변환될 수 있다. 일 실시예에 따라, 상기 장치는, 시간 도메인의 추론 신호와 타겟 신호(320) 간 비교에 기반하여, 상관 손실(327)을 획득할 수 있다. 한편, 추론 신호는 신경망(313)의 출력으로서, 손실되는 패킷과 관련될 수 있다. 도 3에는 도시되지 않았으나, 패킷 손실이 검출되면, 오디오 신호를 수신한 장치는, 상기 추론 신호를 통해 PLC를 수행할 수 있다.
일 실시예에 따라, 상기 장치는 크기 손실(323), 위상 손실(325), 및 상관 손실(327)에 기반하여, 손실 결합(330)을 수행할 수 있다. 예를 들어, 상기 장치는 크기 손실(323)에게 제1 가중치(w1)를 적용하고, 위상 손실(325)에게 제2 가중치(w2)를 적용하고, 상관 손실(327)에게 제3 가중치(w3)를 적용함으로써, 손실 결합(330)을 수행할 수 있다. 일 실시예에 따라, 제1 가중치(w1), 제2 가중치(w2), 및 제3 가중치(w3)는, 신경망(313)의 입력과 출력 간의 차이가 감소하는 방향으로, 업데이트될 수 있다. 즉, 1 가중치(w1), 제2 가중치(w2), 및 제3 가중치(w3)는, 다음 학습 절차에서의 추론 신호와 타겟 신호(320) 간 차이가 적어지도록, 업데이트될 수 있다. 상기 장치는, 손실 결합(330)을 통해, 손실 정보를 획득할 수 있다. 손실 정보는, 크기 손실(323), 위상 손실(325), 및 상관 손실(327) 간 가중치-합(weighted-sum)에 대응할 수 있다. 상기 장치는, 손실 정보를 신경망(313)에게 제공함으로써, PLC를 위한 학습을 수행할 수 있다.
본 개시의 실시예들은, 손실 함수(loss function)로서, MAE(mean absolute error), MSE(mean square error), SAD(sum of absolute deviations)와 같은 크기 기반 함수뿐만 아니라, 위상(phase)이나 피치(pitch)를 함께 이용될 수 있다. 따라서, 실시예들에 따른, 신경망(313)의 학습으로부터 추론된 오디오 패킷은, 크기 기반 함수만 이용하여 추론된 오디오 패킷보다 적은 이질감을 제공할 수 있다.
도 3에서는 시간 도메인과 주파수 도메인 간의 변환을 위하여, FFT(예: FFT(311), FFT(321)) 및 iFFT(315)가 예시되었으나, FFT 외에 다른 방식의 변환(예: DFT(discrete fourier transform), iDFT(inverse DFT), STFT(short time fourier transform), iSTFT(inverse STFT))이 이용될 수도 있다.
도 4는 일 실시예에 따른 PLC의 학습을 위한 장치의 동작 흐름을 도시한다. 상기 장치는 전자 장치(101), 오디오 장치(280), 또는 전자 장치(101)나 오디오 장치(280)와 연결되는 외부 학습 장치일 수 있다.
도 4를 참고하면, 동작(401)에서, 장치는 시간-주파수 변환을 수행할 수 있다. 상기 장치는 시간 도메인 신호를 주파수 도메인 신호로 변환할 수 있다. 입력 신호는 복수의 프레임들을 포함할 수 있다. 입력 신호의 프레임들 중에서 적어도 하나가 손실될 수 있다. 손실된 프레임(이하, 손실 프레임)을 복원하기 위하여, 상기 입력 신호가 신경망에 입력될 수 있다. 상기 입력 신호를 상기 신경망에 입력하기 위하여, 상기 장치는 시간 도메인의 입력 신호를 주파수 도메인의 입력 신호로 변환할 수 있다. 예를 들어, 상기 장치는 입력 신호에 대한 FFT를 수행할 수 있다. 다른 예를 들어, 상기 장치는 입력 신호에 대한 DFT를 수행할 수 있다. 또한, 다른 예를 들어, 상기 장치는 입력 신호에 대한 STFT를 수행할 수 있다.
동작(403)에서, 장치는 신경망에 기반하여 예측 신호를 획득할 수 있다. 상기 장치는, 신경망에 입력된 입력 신호의 프레임들에 기반하여, 손실 프레임을 복원할 수 있다. 상기 장치는, 상기 복원된 프레임에 대응하는 예측 신호를 획득할 수 있다.
동작(405)에서, 장치는 주파수 도메인에서 타겟 신호에 대한 크기 손실 및 타겟 신호에 대한 위상 손실을 획득할 수 있다. 타겟 신호는, 상기 손실 프레임의 원본, 즉, 원본 프레임을 의미한다. 상기 장치는 타겟 신호에 대한 시간-주파수 변환을 수행할 수 있다. 상기 장치는, 주파수 도메인에서의 타겟 신호와 상기 예측 신호를 비교함으로써, 크기 손실을 획득할 수 있다. 크기 손실은, PLC를 위한 신경망에서, 예측 값의 크기와 정답 값의 크기 차이에 대응하는 손실 함수(loss function)를 의미한다. 장치는 시간 도메인에서, 예측 신호의 위상과 타겟 신호의 위상을 비교함으로써, 위상 손실을 획득할 수 있다. 위상 손실은, PLC를 위한 신경망에서, 예측 값의 위상과 정답 값의 위상 차이에 대응하는 손실 함수를 의미한다.
동작(407)에서, 장치는 주파수-시간 변환을 수행할 수 있다. 상기 장치는, 예측 신호와 타겟 신호를 비교하기 위하여, 시간 도메인의 예측 신호를 주파수 도메인의 예측 신호로 변환할 수 있다. 예를 들어, 상기 장치는 예측 신호에 대한 FFT를 수행할 수 있다. 다른 예를 들어, 상기 장치는 예측 신호에 대한 DFT를 수행할 수 있다.
동작(409)에서, 장치는 시간 도메인에서 타겟 신호에 대한 상관 손실을 획득할 수 있다. 장치는 시간 도메인에서, 예측 신호의 피치 정보(예: 자기 상관(auto-correlation))와 타겟 신호의 정보를 비교함으로써, 상관 손실을 획득할 수 있다. 상관 손실은, PLC를 위한 신경망에서, 예측 값의 피치 정보와 정답 값의 피치 정보에 대응하는 손실 함수를 의미한다.
동작(411)에서, 장치는 손실 정보를 획득할 수 있다. 상기 장치는, 크기 손실, 위상 손실, 및 상관 손실에 기반하여, 손실 정보를 획득할 수 있다. 예를 들어, 상기 장치는, 상기 크기 손실에 제1 가중치를 적용하고, 상기 위상 손실에 제2 가중치를 적용하고, 및 상기 상관 손실에 제3 가중치를 적용함으로써, 상기 손실 정보를 획득할 수 있다. 일 예로, 상기 장치는, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 대한 가중치-합(weighted-sum)을, 상기 손실 정보로서, 결정할 수 있다. 상기 손실 정보는, PLC 학습을 위한 신경망에서 손실 함수에 대응할 수 있다. 일 실시예에 따라, 상기 제1 가중치, 상기 제2 가중치, 및 상기 제3 가중치 중 적어도 하나는, 손실 프레임과 원본 프레임(즉, 타겟 프레임)의 차이가 보다 작아지도록, 다시 말해, 손실 함수가 작아지도록, 업데이트될 수 있다.
동작(413)에서, 장치는 손실 정보에 기반하여 신경망 모델의 학습을 수행할 수 있다. 신경망 모델은, 상기 손실 프레임에 대한 복원을 통해, 복원 프레임을 출력할 수 있다. 상기 신경망 모델은, ML(machine learning)을 이용할 수 있다. 상기 복원 프레임은 상기 신경망 모델의 예측 값이며, 상기 원본 프레임을 상기 신경망 모델의 정답 값이다. 상기 장치는, 손실 함수의 값이 최소화되도록, 상기 제1 가중치, 상기 제2 가중치, 및 상기 제3 가중치를 업데이트할 수 있다.
도 4에서는 한 회의 학습 동작들이 서술되었다. 일 실시예에 따라, 장치는 신경망 모델을 위한 상기 학습 동작들을 반복적으로 수행할 수 있다. 예를 들어, 상기 장치는 정해진 에포크(epoch) 값까지 반복적으로 동작(401) 내지 동작(413)의 학습 절차를 수행할 수 있다. 에포크 값에 다다를 경우, 상기 장치는 학습을 종료할 수 있다.
도 4에는 도시되지 않았으나, 상기 장치는, 상기 신경망 모델의 학습 이후, 복원 프레임을 출력할 수 있다. 일 실시예에 따라, 상기 복원 프레임은, 오디오 신호의 프레임들 중에서 손실 프레임의 이전에 위치하는 하나 이상의 이전 프레임들(previous frames)에 기반하여 결정될 수 있다. 상기 장치는 상기 하나 이상의 이전 프레임들 중에서 하나를 상기 복원 프레임으로 결정하거나, 상기 하나 이상의 이전 프레임들의 학습 결과에 기반하여, 상기 복원 프레임을 획득할 수 있다. 크기 손실에 더하여, 위상 손실과 상관 손실 모두가 학습됨으로써, 신경망의 학습 성능이 개선될 수 있다. 상기 장치는, 원본 프레임과 가깝고, 손실 프레임 대비 개선된 음질을 갖는 오디오 신호를 출력할 수 있다.
도 4에서는, 시간 도메인에서의 상관 손실, 주파수 도메인에서의 크기 손실, 및 주파수 도메인에서의 위상 손실이, 손실 함수를 결정하기 위한 예시적인 구성요소들로 서술되었으나, 본 개시의 실시예들은 상술된 3개의 구성요소들로만 제한해석 되지 않는다. 예를 들어, 시간 도메인에서의 크기 손실은 학습을 위한 손실 함수(예: 도 3 및 도 4의 손실 정보)의 결정을 위해 이용될 수 있다. 상기 시간 도메인에서의 크기 손실은, 다른 구성요소(예: 시간 도메인에서의 상관 손실, 주파수 도메인에서의 크기 손실, 및 주파수 도메인에서의 위상 손실)와 결합되어, 상기 손실 함수를 결정하기 위해 이용될 수 있다.
상술된 3개의 또는 4 개의 구성요소들(예: 주파수 도메인에서의 크기 손실, 주파수 도메인에서의 위상 손실, 시간 도메인에서의 상관 손실, 시간 도메인에서의 크기 손실) 중에서 적어도 2개의 구성요소들을 식별하고, 상기 식별된 적어도 2개의 구성요소들(예: 시간 도메인에서의 상관 손실과 주파수 도메인에서의 위상 손실의 조합)에 기반하여 최종 손실 함수(예: 손실 정보)를 결정하는 것 또한 본 개시의 일 실시예로 이해될 수 있다.
도 5는 일 실시예에 따른 시간 도메인-주파수 도메인 간 변환의 원리를 설명하기 위한 도면이다.
도 5를 참고하면, 좌표계(500)는 시간 도메인 신호(531)와 주파수 도메인 신호(541) 간의 관계를 나타낸다. 좌표계(500)의 제1 축은 시간 도메인(501), 제2 축은 주파수 도메인(503), 및 제3 축은 크기 도메인(505)을 나타낸다.
일 실시예에 따라, 그래프(530)는 시간 도메인 신호(531)의 시간 흐름에 따른 신호 크기를 나타낸다. 시간 도메인 신호(531)는 시간-주파수 변환(예: FFT, DFT, STFT)을 통해, 주파수 도메인 신호(541)로 변경될 수 있다. 예를 들어, 시간 도메인 신호(531)는 제1 신호(507a), 제2 신호(507b), 및 제3 신호(507c)로 주파수 도메인에서 분할될 수 있다. 제1 신호(507a)는, 시간 도메인 신호(531) 중에서 제1 주파수에 따른 구성요소 신호(component signal)를 의미한다. 제2 신호(507b)는, 시간 도메인 신호(531) 중에서 제2 주파수에 따른 구성요소 신호를 의미한다. 상기 제2 주파수는 상기 제1 주파수와 다를 수 있다. 제3 신호(507c)는, 시간 도메인 신호(531) 중에서 제3 주파수에 따른 구성요소 신호를 의미한다. 상기 제3 주파수는 상기 제1 주파수 및 상기 제2 주파수와 다를 수 있다.
일 실시예에 따라, 그래프(540)는 주파수 도메인 신호(541)의 주파수 변화에 따른 신호 크기를 나타낸다. 라인(541a)은, 제1 주파수에 대응하는 제1 신호(507a)의 크기를 나타낸다. 라인(541b)은, 제2 주파수에 대응하는 제2 신호(507b)의 크기를 나타낸다. 라인(541c)은, 제3 주파수에 대응하는 제3 신호(507c)의 크기를 나타낸다.
실시예들에 따른 PLC에 있어서, 시간 도메인(501)과 주파수 도메인(503) 간 변환(예: FFT, DFT, STFT, iFFT, iDFT, iSTFT)은, 오디오 신호를 보다 정확하게 학습하기 위해 이용될 수 있다. 뿐만 아니라, 상기 변환은 오디오 신호의 손실 패킷을 복구할 때, ML 추론 방식이 유리한지, 피치 복사 방식이 유리한지를 식별하기 위해 이용될 수 있다. 푸리에 변환의 특성 상, 낮은 주파수 영역에서 신호의 에너지가 크게 형성될 수 있다. 따라서, 낮은 주파수 영역의 신호 성분이 높은 주파수 영역의 신호 성분보다, PLC에 보다 중요한 데이터를 포함할 가능성이 높다. 에너지가 집중된 영역일수록, PLC에 더 많은 영향을 끼치기 때문이다.
도 6은 오디오 프레임 복원의 예를 도시한다.
도 6을 참고하면, 그래프(601)는 에러가 없는 경우, 주파수 스펙트럼을 나타낸다. 그래프(603)는 신호처리 기반의 PLC에 따른 주파수 스펙트럼을 나타낸다. 그래프(605)는 CRN(convolutional recurrent network) PLC에 따른 주파수 스펙트럼을 나타낸다.
전술한 바와 같이, 낮은 주파수 대역일수록, 에너지가 높게 분포되어 있다. 그러나, 단순히 주파수 대역을 고정된 크기의 두 개의 대역들로 분할한 뒤, 낮은 주파수 대역에 ML 추론 방식을 적용하고, 높은 주파수 대역에 피치 복사 방식을 적용하면, 오류가 발생할 수 있다. 예를 들어, 높은 주파수 대역이서, 오디오 장치(예: 오디오 장치(280))는, 손실 프레임의 복원을 위하여, 오디오 신호의 프레임들 중에서 하나를 식별할 수 있다. 오디오 장치(280)는, PLC를 위하여, 제1 복원 프레임(610)으로써, 이전 프레임을 복사할 수 있다. 오디오 장치(280)는, PLC를 위하여, 제2 복원 프레임(620)으로써, 이전 프레임을 복사할 수 있다. 그러나, 갑자기 피크가 발생하는 과도(transient) 신호에서 패킷 손실이 발생하게 되면, 원본과는 상당히 차이가 있는 프레임을 복사될 수 있다. 잘못된 프레임 예측으로, 음질이 저하될 수 있다. 즉, 단순히 두 개의 대역들로 분할하는 것은 오디오 신호의 특성을 적절하게 반영하는데 한계를 가진다.
본 개시의 실시예들은, 무선 오디오 전송 과정에서 패킷 손실 발생시, 오디오의 에너지 분포에 따라 구별되는 주파수 영역에서 ML(machine learning) 기반의 PLC 기법을 적용하여 음 끊김에 따라 발생하는 음질 열화를 최소화하고, 사용자의 체감 음질을 향상시키기 위한 기술을 제안한다.
도 7a는 일 실시예에 따른 에너지 기반 PLC의 예를 도시한다. 에너지 기반 PLC를 통해, 전자 장치(예: 전자 장치(101), 오디오 장치(280))는, 손실 패킷이 복원된 예측 프레임을 획득할 수 있다.
도 7a를 참고하면, 전자 장치는 에너지 기반 대역 분할을 수행할 수 있다. 동작(703)에서, 전자 장치는 시간-주파수 변환(예: FFT, DFT, STFT)를 수행할 수 있다. 전자 장치는, 오디오 신호를 획득할 수 있다. 상기 오디오 신호는 손실이 발생한 위치의 프레임(이하, 손실 프레임)을 포함할 수 있다. 또한, 상기 오디오 신호는, 상기 손실 프레임 뿐만 아니라, 상기 손실 프레임보다 시간적으로 앞서는 하나 이상의 프레임들(이하, 이전 프레임들)을 포함할 수 있다. 상기 오디오 신호는 손실 프레임(예:
Figure PCTKR2023015892-appb-img-000001
) 및 이전 프레임들(예:
Figure PCTKR2023015892-appb-img-000002
)을 포함할 수 있다. 전자 장치는, 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 전자 장치는 오디오 신호에 대한 주파수 에너지 계산을 위하여, FFT를 수행할 수 있다.
동작(705)에서, 전자 장치는 대역 에너지 계산을 수행할 수 있다. 주파수 도메인에서, 전체 주파수 대역은 복수의 서브대역들을 포함할 수 있다. 일 실시예에 따라, 서브대역의 크기는 고정일 수 있다. 즉, 복수의 서브대역들 각각은 동일한 주파수 영역의 크기를 가질 수 있다. 또한, 일 실시예에 따라, 전체 주파수 대역에서 서브대역들은, 소리의 가청도를 나타내는 크리티컬 밴드(critical band)에 기반하여 구별될 수 있다. 전자 장치는 복수의 서브대역들 각각에서 주파수 에너지를 계산할 수 있다. 전자 장치는, 대역 분할을 위하여, 서브대역 별 주파수 에너지를 획득할 수 있다.
동작(707)에서, 전자 장치는 대역 분할(대역 스플릿)을 수행할 수 있다. 전자 장치는 전체 주파수 도메인을 복수의 주파수 대역들로 분할할 수 있다. 본 개시에서, 주파수 대역은 하나 이상의 서브대역들을 포함할 수 있다. 전자 장치는, 서브대역 별 주파수 에너지, 다시 말해, 에너지 분포에 기반하여, 전체 주파수 도메인을 복수의 주파수 대역들로 분할할 수 있다. 분할된 대역들의 개수는, 입력된 오디오 신호의 주파수 도메인에서의 특성에 따라 가변적으로 결정될 수 있다. 각 주파수 대역의 크기는, 입력된 오디오 신호의 주파수 도메인에서의 특성에 따라 가변적으로 결정될 수 있다.
일 실시예에 따라, 전자 장치는, 인접한 서브대역들 간의 주파수 에너지의 차이가 임계값 이상인지 여부에 기반하여, 대역 분할을 수행할 수 있다. 전자 장치는, 인접한 서브대역들 간의 주파수 에너지의 차이가 임계값 이상인지 여부를 식별할 수 있다. 전자 장치는, 서로 인접한 두 서브대역들의 주파수 에너지의 차이가 임계값 이상인 경우, 대역 분할을 수행할 수 있다. 전자 장치는 서로 인접한 두 서브대역들 중 하나인 제1 서브대역과 다른 하나인 제2 서브대역을 서로 다른 주파수 대역으로 구별할 수 있다. 즉, 임계값 이상의 차이를 갖는 서브대역들의 경계는, 분할된 주파수 대역들의 경계일 수 있다. 전자 장치는, 서로 인접한 두 서브대역들의 주파수 에너지의 차이가 임계값 미만인 경우, 상기 두 서브대역들을 동일한 주파수 대역으로 결정할 수 있다. 따라서, 대역 분할에 따라 구분된 주파수 대역 내의 모든 인접한 서브대역들 간의 차이는 임계값 미만일 수 있다.
일 실시예에 따라, 전자 장치는 대역 분할에 따른 주파수 대역들에 대하여, 프레임 예측을 수행할 수 있다. 전자 장치는, 에너지 크기에 기반하여, 프레임 예측을 수행할 수 있다. 전자 장치는, 주파수 대역 별 에너지를 계산할 수 있다. 전자 장치는, 주파수 대역 내의 서브대역들 각각의 주파수 에너지(예: 동작(705)에서의 서브대역 별 주파수 에너지)에 기반하여, 상기 주파수 대역에 대한 에너지 크기를 계산할 수 있다. 일 예로, 전자 장치는, 주파수 대역의 서브대역들의 주파수 에너지들의 합을 통해, 상기 주파수 대역에 대한 에너지 크기를 계산할 수 있다. 다른 일 예로, 전자 장치는, 주파수 대역의 서브대역들의 주파수 에너지들의 평균을 통해, 상기 주파수 대역에 대한 에너지 크기를 계산할 수 있다. 에너지 크기가 상대적으로 큰 대역의 신호 성분은, 원본 오디오 신호에서 중요한 부분을 많이 포함할 수 있다. 따라서, 전자 장치는 주파수 대역의 에너지 크기에 기반하여, 프레임 예측 방식을 다르게 구성할 수 있다.
일 실시예에 따라, 전자 장치는, 주파수 대역의 에너지 크기가 임계값보다 크다면, 상기 주파수 대역을 위해, ML 기반 프레임 예측을 수행할 수 있다. 전자 장치는 ML 기반 프레임 예측을 수행할 수 있다. ML 기반 프레임 예측은, ML 추론 방식에 따라, 손실 프레임의 원본 프레임을 예측하는 기술이다. 에너지 크기가 클수록, 보다 많은 정보를 포함하기 때문에, 전자 장치는 ML를 이용한 신경망 모델(예: DNN(deep neutral network), CRN, RNN(recurrent neural network), TFGAN(text filter conditioning generative adversarial network)에 기반하여, 프레임 예측을 수행할 수 있다. 예를 들어, 전자 장치는, ML 네트워크 #1(711)에서 학습된 결과에 기반하여, 프레임 예측을 수행할 수 있다. 전자 장치는, ML 네트워크 #1(711)를 이용한 프레임 예측을 통해, 해당 주파수 대역에서 추론 신호를 출력할 수 있다.
일 실시예에 따라, 전자 장치는, 주파수 대역의 에너지 크기가 임계값보다 작다면, 상기 주파수 대역을 위해, 피치 기반 프레임 예측을 수행할 수 있다. 전자 장치는 피치 기반 프레임 예측을 수행할 수 있다. 피치 기반 프레임 예측은, 피치 복사 방식에 따라, 손실 프레임의 원본 프레임을 예측하는 기술이다. 주파수 대역의 에너지 크기가 충분히 크지 않다면, 정보량이 적어, 학습이 충분하지 않을 수 있다. 적은 학습량으로 인해, 신경망 모델을 이용한 예측 성능이 미비하기 때문에, 전자 장치는 피치 기반 프레임 예측을 수행할 수 있다. 전자 장치는 피치 탐색(721)을 수행할 수 있다. 전자 장치는, 피치 탐색(721)의 결과에 기반하여, 프레임 식별(723)을 수행할 수 있다. 전자 장치는, 피치 탐색(721)을 통해, 이전 프레임들 중에서, 손실 프레임과 가장 높은 상관 관계를 갖는 프레임을 식별하고 식별된 프레임으로 복원 프레임을 예측할 수 있다. 전자 장치는, 해당 주파수 대역에서 추론 신호로서, 상기 복원 프레임을 출력할 수 있다.
프레임 예측을 위한 방식으로서, ML 기반 프레임 예측과 피치 기반 프레임 예측이 서술되었다. 추가적인 일 실시예에 따라, 전자 장치는 ML 기반 프레임 예측 시 이용되는 신경망을 주파수 대역마다 다르게 구성할 수 있다. 주파수 대역마다 에너지 크기가 다르기 때문에, 주파수 대역들 간 신경망의 학습 성능 또한 달라질 수 있다. 따라서, 전자 장치는 주파수 대역마다 신경망을 독립적으로 구성할 수 있다. 예를 들어, 전자 장치는 ML 네트워크 #1(711)에 기반하여, 제1 주파수 대역에 대한 프레임 예측을 수행할 수 있다. 전자 장치는 제2 주파수 대역에서는 ML 네트워크 #2(741)에 기반하여, 제2 주파수 대역에 대한 프레임 예측을 수행할 수 있다. 여기서, ML 네트워크 #2(741)의 모델 크기는, ML 네트워크 #1(711)의 모델 크기보다 작게 구성될 수 있다. 도 7a에서는 두 개의 ML 네트워크들만이 도시되었으나, 본 개시의 실시예들은 이에 한정되지 않는다. 구분되는 주파수 대역들의 개수에 따라, 두 개 이상의 ML 네트워크들이 각 주파수 대역을 위해 구성될 수 있다.
동작(731)에서, 전자 장치는 주파수-시간 변환(예: iFFT, iDFT, iSTFT)를 수행할 수 있다. 전자 장치는 주파수 대역 별 프레임 예측의 결과, 즉, 주파수 대역 별 추론 신호(예:
Figure PCTKR2023015892-appb-img-000003
)를 출력할 수 있다. 전자 장치는, 주파수 대역들의 추론 신호들에 기반하여, 하나의 추론 신호를 획득할 수 있다. 전자 장치는, 주파수 대역들의 추론 신호들을 결합함으로써, 하나의 추론 신호를 획득할 수 있다. 상기 추론 신호는 주파수 도메인에서 결합되는 바, 주파수 도메인 신호에 대응한다. 전자 장치는, 상기 주파수 도메인 신호를 시간 도메인 신호로 변경하기 위하여, iFFT를 수행할 수 있다. 전자 장치는 iFFT를 통해, 시간 도메인의 추론 신호를 획득할 수 있다. 전자 장치는, 동작(703)에서 입력된 오디오 신호에 대한 PLC의 결과로서, 상기 시간 도메인의 추론 신호를 출력할 수 있다.
도 7b은 일 실시예에 따른 주파수 대역 분할의 예를 도시한다. 주파수 대역 분할을 통해, 오디오 신호의 주파수 영역이 복수의 주파수 대역들로 분할될 수 있다.
도 7b를 참고하면, 오디오 신호의 전체 주파수 영역(750)은 연속적일 수 있다. 전체 주파수 영역(750)은, 오디오 신호가 분포되는 주파수 대역을 의미한다. 여기서, 특정 주파수 영역에서 오디오 신호의 분포됨은, 상기 오디오 신호의 주파수 스펙트럼이 검출 최소 값 이상으로, 유의미한 주파수 성분을 갖는 것을 의미할 수 있다. 일 실시예에 따라, 전체 주파수 영역(750)은 고정된 크기의 서브밴드들(760)로 구분될 수 있다. 전자 장치는, 서브밴드 별 주파수 에너지를 획득할 수 있다. 전자 장치는, 서브밴드 별 주파수 에너지에 기반하여 대역 분할을 수행할 수 있다. 전자 장치는, 서브밴드 별 주파수 에너지, 즉, 에너지 분포에 기반하여, 전체 주파수 영역(750)을 복수의 주파수 대역들로 구분할 수 있다. 예를 들어, 경계에서 에너지 차이가 임계값 미만인 서브밴드들은 하나의 주파수 대역으로 그룹핑될 수 있다. 경계에서 에너지 차이가 임계값 이상인 서브밴드들은 서로 다른 주파수 대역들로 분할될 수 있다.
일 실시예에 따라, 전체 주파수 영역(750)을 복수의 주파수 대역들로 분할될 수 있다. 예를 들어, 전체 주파수 영역(750)은, 제1 주파수 대역(771), 제2 주파수 대역(773), 제3 주파수 대역(775), 및 제4 주파수 대역(777)으로 분할될 수 있다. 제1 주파수 대역(771)에서 가장 높은 주파수에 대응하는 서브밴드의 에너지 크기와 제2 주파수 대역(773)에서 가장 낮은 주파수에 대응하는 서브밴드의 에너지 크기는 상기 임계값보다 클 수 있다. 제2 주파수 대역(773)에서 가장 높은 주파수에 대응하는 서브밴드의 에너지 크기와 제3 주파수 대역(775)에서 가장 낮은 주파수에 대응하는 서브밴드의 에너지 크기는 상기 임계값보다 클 수 있다. 제3 주파수 대역(775)에서 가장 높은 주파수에 대응하는 서브밴드의 에너지 크기와 제4 주파수 대역(777)에서 가장 낮은 주파수에 대응하는 서브밴드의 에너지 크기는 상기 임계값보다 클 수 있다.
도 7c는 일 실시예에 따른 에너지 기반 PLC에서 주파수 대역 분할의 예를 도시한다.
도 7c를 참고하면, 시간 도메인(781)의 오디오 신호는, 주파수 도메인(783)의 오디오 신호로 변환될 수 있다. 오디오 신호의 주파수 스펙트럼을 참고하면, 시간 구간마다 서로 다른 주파수 특성을 가짐이 확인될 수 있다.
일 실시예에 따라, 오디오 신호의 주파수 스펙트럼에 따라, 전체 주파수 영역의 범위가 달리질 수 있다. 또한, 오디오 신호의 주파수 스펙트럼에 따라, 구분되는 주파수 대역들 각각의 크기가 달라질 수 있다. 예를 들어, 주파수 도메인의 제1 오디오 신호(791)는, 두 개의 주파수 대역들(band0, band1)로 구분됨이 확인될 수 있다. 주파수 도메인의 제2 오디오 신호(793)는, 두 개의 주파수 대역들(band0, band 1)로 구분됨이 확인될 수 있다. 동일한 개수의 주파수 대역들로 구분되나, 주파수 대역의 주파수 범위가 서로 다르게 구성될 수 있다. 다시 말해, 대역 분할은 고정적인 주파수 위치(예: 8kHz 미만의 주파수 대역과 8kHz 이상의 주파수 대역)에 기반하여 수행되는 것이 아니라, 입력되는 오디오 신호의 주파수 스펙트럼 특성에 기반하여 수행될 수 있다. 예를 들어, 주파수 대역 분할에 의해 구분되는 제1 주파수 대역과 제2 주파수 대역은 서로 다른 대역 크기를 가질 수 있다. 또한, 일 실시예에 따라, 오디오 신호의 주파수 스펙트럼에 따라, 구분되는 주파수 대역들의 개수가 달라질 수 있다. 예를 들어, 주파수 도메인의 제3 오디오 신호(795)는, 세 개의 주파수 대역들(band0, band 1, band 2)로 구분됨이 확인될 수 있다. 주파수 에너지의 분포에 따라, 대역 분할을 수행함으로써, 예기치 못한 과도 신호가 발생하더라도, 강건한(robust) PLC 성능이 달성될 수 있다.
도 8은 일 실시예에 따른 피치 탐색(pitch search)의 예를 도시한다.
도 8을 참고하면, 오디오 신호는 손실 프레임(801) 및 이전 프레임들을 포함할 수 있다. 이전 프레임들은, 손실 프레임(801)보다 이전에 수신된 프레임들을 의미하며, 버퍼(803)에 저장될 수 있다. 전자 장치는, 피치 탐색을 통해, 버퍼(803) 내에서 복사 프레임을 선택할 수 있다. 전자 장치는, 이전 프레임들 중에서, 피치 탐색을 통해, 최적의 프레임(805)을 결정할 수 있다. 전자 장치는, 단순히 이전 프레임으로부터 데이터를 가져오는 대신, 버퍼(803)의 수신된 복수의 이전 프레임들에 기반하여, 손실 프레임과 가장 높은 상관을 갖는 최적의 프레임(805)을 결정할 수 있다. 전자 장치는, 최적의 프레임(805)을 복사하여, 복원 프레임(809)을 생성할 수 있다. 전자 장치는, 복원 프레임(809)을 포함하는 오디오 신호를, 예측 신호로서 출력할 수 있다.
도 9는 일 실시예에 따른 대역 에너지 기반 PLC를 위한 전자 장치의 동작 흐름을 도시한다. 예를 들어, 상기 전자 장치는 전자 장치(101)나 오디오 장치(280)일 수 있다.
도 9를 참고하면, 동작(901)에서, 전자 장치는 프레임 손실을 검출할 수 있다. 전자 장치는, 오디오 신호의 프레임들 중에서 특정 프레임의 손실을 검출할 수 있다. 예를 들어, 전자 장치는, 프레임 번호의 미싱(missing)이나 불일치를 통해, 프레임 손실을 검출할 수 있다. 전자 장치는, 프레임의 손실을 검출하는 것에 기반하여, 후술되는 에너지 기반 PLC 동작을 수행할 수 있다.
동작(903)에서, 전자 장치는 오디오 신호에 대한 시간-주파수 변환을 수행할 수 있다. 전자 장치는 오디오 신호의 주파수 스펙트럼을 통해, 에너지 분포를 얻기 위하여, 시간-주파수 변환을 수행할 수 있다. 전자 장치는 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 예를 들어, 전자 장치는 오디오 신호에 FFT를 수행할 수 있다. 또한, 예를 들어, 전자 장치는 오디오 신호에 DFT를 수행할 수 있다. 또한, 예를 들어, 전자 장치는 오디오 신호에 STFT를 수행할 수 있다.
동작(905)에서, 전자 장치는 에너지 분포에 기반하여 주파수 대역 분할을 수행할 수 있다. 전자 장치는 에너지 분포를 획득할 수 있다. 전자 장치는, 오디오 신호의 전체 주파수 영역(region)을 특정할 수 있다. 전자 장치는, 오디오 신호의 전체 주파수 영역을 복수의 서브밴드들로 나눌 수 있다, 각 서브밴드는 고정된 크기로 나누어지거나, 사람의 가청도에 따라 정해지는 크리티컬 밴드에 기초한 크기로 나누어질 수 결정될 수 있다. 전자 장치는 서브밴드 별 주파수 에너지를 계산할 수 있다. 상기 에너지 분포는, 서브밴드 별 주파수 에너지를 가리킬 수 있다.
일 실시예에 따라, 전자 장치는 에너지 분포에 기반하여, 상기 전체 주파수 영역을 복수의 주파수 대역들로 구분할 수 있다. 전자 장치는 에너지 분포의 분석 결과에 기반하여, 복수의 주파수 대역들을 식별할 수 있다. 전자 장치는, 서브 대역들 중에서 유사한 주파수 에너지를 갖는 서브 대역들을 그룹핑할 수 있다. 전자 장치는, 그룹핑된 서브대역들을 하나의 주파수 대역으로 결정할 수 있다. 일 실시예에 따라, 전자 장치는, 에너지 분포에 기반하여, 주파수 대역의 범위를 결정할 수 있다. 예를 들어, 전자 장치는, 인접한 두 서브대역들의 에너지 크기 차이가 구별 임계값 미만인 경우, 상기 두 서브대역들을 동일한 주파수 대역으로 결정할 수 있다. 또한, 예를 들어, 전자 장치는, 인접한 두 서브대역들의 에너지 크기 차이가 상기 구별 임계값 미만인 경우, 상기 두 서브대역들을 서로 다른 주파수 대역들로 분할할 수 있다. 상술된 방식으로, 주파수 대역들을 식별하게 되면, 전체 주파수 영역은 주파수 대역들로 구분될 수 있다. 전체 주파수 도메인을 고정된 크기 및 고정된 개수로 분할하는 것이 아니라, 전자 장치는 오디오 신호의 주파수 스펙트럼에 기반하여, 주파수 대역의 크기 및/또는 분할되는 주파수 대역들의 개수를 가변적으로 조정할 수 있다. 예를 들어, 상기 주파수 대역 분할에 의해 구분되는 제1 주파수 대역의 대역 크기와 상기 주파수 대역 분할에 의해 구분되는 제2 주파수 대역의 크기는 서로 다를 수 있다.
동작(907)에서, 전자 장치는 주파수 대역들 각각에서 프레임 예측을 수행할 수 있다. 전자 장치는 주파수 대역 별 에너지 크기에 기반하여 프레임 예측을 수행할 수 있다. 일 실시예에 따라, 전자 장치는 에너지 크기가 임계값보다 큰 주파수 대역을 위해, ML 기반 프레임 예측을 수행할 수 있다. ML 기반 프레임 예측을 위하여, 도 7b 및 도 7c의 설명이 참조될 수 있다. 에너지 크기가 임계값보다 작은 주파수 대역을 위해, 피치 기반 프레임 예측을 수행할 수 있다. 피치 기반 프레임 예측을 위하여, 도 8의 설명이 참조될 수 있다. 전자 장치는 프레임 예측을 통해, 주파수 대역 별 예측 신호를 획득할 수 있다. 전자 장치는, 주파수 대역들의 예측 신호들을 합성할 수 있다. 전자 장치는, 상기 합성을 통해, 주파수 도메인에서의 예측 신호를 획득할 수 있다. 프레임 예측을 위해, 도 10의 설명이 참조될 수 있다.
동작(909)에서, 전자 장치는 주파수-시간 변환에 기반하여 추론 신호를 획득할 수 있다. 전자 장치는, 원본 오디오 신호를 얻기 위하여, 주파수-시간 변환을 수행할 수 있다. 전자 장치는, 동작(907)에서의 획득된 주파수 도메인에서의 예측 신호를 시간 도메인에서의 추론 신호로 변환할 수 있다. 예를 들어, 전자 장치는 상기 주파수 도메인에서의 추론 신호에 iFFT를 수행할 수 있다. 또한, 예를 들어, 전자 장치는 상기 주파수 도메인에서의 추론 신호에 iDFT를 수행할 수 있다. 또한, 예를 들어, 전자 장치는 상기 주파수 도메인에서의 추론 신호에 iSTFT를 수행할 수 있다.
도 9에는 도시되지 않았으나, 전자 장치는 추가적으로, 학습을 수행할 수 있다. 전자 장치는, 원본 신호에 대한 정보를 획득하는 것에 기반하여, 상기 원본 신호와 상기 추론 신호를 비교함으로써, 손실 함수를 획득할 수 있다. 전자 장치는, 상기 손실 함수에 기반하여, 프레임 예측 시 이용되었던, 신경망 모델을 학습시킬 수 있다.
도 10은 일 실시예에 따른 프레임 예측을 위한 전자 장치의 동작 흐름을 도시한다. 예를 들어, 상기 전자 장치는 전자 장치(101)나 오디오 장치(280)일 수 있다. 도 10의 동작들은, 도 9의 동작(907)을 예시한다.
도 10을 참고하면, 동작(1001)에서, 전자 장치는 해당 주파수 대역의 주파수 에너지가 에너지 임계값보다 큰 지 여부를 결정할 수 있다. 전자 장치는 해당 주파수 대역의 주파수 에너지를 결정할 수 있다. 전자 장치는 주파수 대역의 서브밴드들의 주파수 에너지들에 기반하여, 상기 주파수 대역의 주파수 에너지를 결정할 수 있다. 에너지 크기가 클수록, 입력된 오디오 신호가 원본 신호의 성분들 중에서 많은 성분을 포함하기 때문이다. 손실은 특정 시간에서 발생한다. 특정 시간에서의 손실은 오디오 신호의 주파수 전체에 영향을 미칠 수 있다. 따라서, 주파수 에너지가 클수록, 이전 프레임들의 기계 학습을 통해 손실된 성분을 식별하기가 용이할 수 있다. 따라서, 전자 장치는 ML 기반 프레임 예측을 수행할지 여부를 결정하기 위하여, 주파수 대역의 주파수 에너지를 상기 에너지 임계값과 비교할 수 있다.
전자 장치는 상기 주파수 대역의 에너지 크기가 상기 에너지 임계값보다 크다면, 동작(1003)을 수행할 수 있다. 전자 장치는 상기 주파수 대역의 에너지 크기가 상기 에너지 임계값보다 작거나 같다면, 동작(1005)을 수행할 수 있다.
동작(1003)에서, 전자 장치는 ML 기반 프레임 예측을 수행할 수 있다. 전자 장치는 PLC를 위해 학습된 신경망 모델에 기반하여, 해당 주파수 대역에서 손실 프레임을 복원할 수 있다. 전자 장치는 상기 주파수 대역에 대응하는 추론 신호를 획득할 수 있다. ML 기반 프레임 예측을 위해, 도 3 내지 도 4의 신경망(예: 신경망(313))이 참조될 수 있다. 도 10에는 도시되지 않았으나, 일 실시예에 따라, 전자 장치는 주파수 대역마다 학습을 위한 신경망 모델을 독립적으로 구성할 수 있다. 예를 들어, 전자 장치는 제1 주파수 대역을 위한 제1 신경망을 구성하고, 상기 제1 신경망의 학습을 통해 상기 제1 주파수 대역에 대응하는 추론 신호를 출력할 수 있다. 예를 들어, 전자 장치는 제2 주파수 대역을 위한 제2 신경망을 구성하고, 상기 제2 신경망의 학습을 통해 상기 제2 주파수 대역에 대응하는 추론 신호를 출력할 수 있다. 일 실시예에 따라, 상대적으로 높은 주파수 에너지 크기를 가질수록, 신경망 모델의 크기가 클 수 있다. 또한, 일 실시예에 따라, 상대적으로 높은 주파수 대역일수록, 신경망 모델의 크기가 작을 수 있다.
동작(1005)에서, 전자 장치는 피치 기반 프레임 예측을 수행할 수 있다. 전자 장치는 PLC를 위해, 버퍼에 이전 프레임들에 대한 피치 탐색을 수행할 수 있다. 전자 장치는, 피치 탐색을 통해, 상기 이전 프레임들의 패턴에 기반하여, 상기 손실 프레임에 대응하는 최적 프레임을 식별할 수 있다. 상기 최적 프레임을 복사함으로써, 전자 장치는, 추론 신호에 대응하는 복원 프레임을 획득할 수 있다. 전자 장치는 해당 주파수 대역의 추론 신호로서, 상기 복원 프레임을 출력할 수 있다. 피치 기반 프레임 예측을 위하여, 도 8의 설명이 참조될 수 있다.
동작(1007)에서, 전자 장치는 모든 주파수 대역들에 대한 프레임 예측이 완료되었는지 여부를 결정할 수 있다. 전자 장치는, 모든 주파수 대역들에 대한 프레임 예측이 완료되지 않은 경우, 동작(1009)을 수행할 수 있다. 전자 장치는, 모든 주파수 대역들에 대한 프레임 예측이 완료된 경우, 동작(1011)을 수행할 수 있다.
동작(1009)에서, 전자 장치는 다른 주파수 대역을 식별할 수 있다. 전자 장치는, 프레임 예측이 완료된 주파수 대역과 다른 주파수 대역을 식별할 수 있다. 상기 다른 주파수 대역의 주파수 에너지와, 상기 프레임 예측이 완료된 주파수 대역의 주파수 에너지의 차이는 구별 임계값보다 클 수 있다.
동작(1011)에서, 전자 장치는 주파수 대역들 각각의 신호의 합성을 통해 예측 신호를 획득할 수 있다. 전자 장치는, 주파수 대역 별 프레임 예측 결과에 따른 출력인, 예측 신호들을 획득할 수 있다. 전자 장치는 주파수 대역들에 대한 예측 신호들을 합성함으로써, 하나의 예측 신호를 획득할 수 있다. 상기 예측 신호는 주파수 도메인 신호이다. 도 10에는 도시되지 않았으나, 전자 장치는, 주파수-시간 변환(예: iFFT, iDFT, iSTFT)을 통해, 시간 도메인에서의 출력 신호를 출력할 수 있다. 상기 출력 신호는, PLC를 위해 입력된 오디오 신호에서 손실 프레임이 복원된 결과를 포함할 수 있다.
상술된 실시예들을 통해, 무선 오디오 환경에서 기기간 거리 변화나 인접 채널 혼잡 등의 영향으로 인하여 QoS(quality of service)를 보장받지 못하는 환경에서 효과적으로 패킷 손실이 복원될 수 있다. 보다 정확한 복원을 통해, 사용자의 체감 음질이 향상될 수 있다. 특히, 과도 신호의 발생과 같은, 예기치 못한 상황에서, 전자 장치는 강건한 PLC 성능을 달성할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
다양한 실시예들에 있어서, 전자 장치(101, 280)는 인스트럭션들을 저장하도록 구성된 메모리(130), 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서(120)를 포함할 수 있다, 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서(120)는, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하도록 구성될 수 있다(313, 403). 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하도록 구성될 수 있다(323, 405). 상기 적어도 하나의 프로세서(120)는, 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하도록 구성될 수 있다(325, 405). 상기 적어도 하나의 프로세서(120)는, 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하도록 구성될 수 있다(327, 409). 상기 적어도 하나의 프로세서(120)는, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하도록 구성될 수 있다(330, 411). 상기 적어도 하나의 프로세서(120)는, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성될 수 있다(313, 413).
일 실시예에 따라, 상기 예측 신호를 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는, FFT(fast fourier transform)를 수행함으로써 상기 입력 신호를 획득하도록 구성될 수 있다. 상기 예측 신호를 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는, 상기 주파수 도메인에서, 상기 신경망에 기반하여, 상기 입력 신호로부터 상기 예측 신호를 획득하도록 구성될 수 있다.
일 실시예에 따라, 상기 위상 손실을 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는, 상기 시간 도메인에서의 타겟 신호에 대한FFT를 수행하도록 구성될 수 있다.
일 실시예에 따라, 상기 크기 손실을 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는, 상기 시간 도메인에서의 타겟 신호에 대한FFT를 수행하도록 구성될 수 있다.
일 실시예에 따라, 상기 손실 정보는, 상기 크기 손실에 제1 가중치를 적용하고, 상기 위상 손실에 제2 가중치를 적용하고, 상기 상관 손실에 제3 가중치를 적용함으로써, 획득될 수 있다.
일 실시예에 따라, 상기 적어도 하나의 프로세서(120)는, 프레임의 손실을 검출하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 프레임의 이전의 오디오 신호에 대한 시간-주파수 변환을 수행하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는, 주파수 에너지 분포에 기반하여, 상기 주파수 도메인에서 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성할 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 복수의 주파수 대역들 각각에서의 프레임 예측을 통해, 상기 프레임에 대응하는 추론 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 추론 신호에 대한 주파수-시간 변환을 수행하도록 하도록 구성될 수 있다.
일 실시예에 따라, 상기 적어도 하나의 프로세서(120)는, 상기 추론 신호를 획득하기 위해, 상기 복수의 주파수 대역들 중에서 각 주파수 대역에 대하여, 해당 주파수 대역의 에너지 크기가 에너지 임계값보다 큰 경우, 상기 신경망의 ML(machine learning)을 이용한 프레임 예측을 통해 예측 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 추론 신호를 획득하기 위해, 상기 복수의 주파수 대역들 중에서 각 주파수 대역에 대하여, 해당 주파수 대역의 에너지 크기가 상기 에너지 임계값보다 작거나 같은 경우, 피치 탐색(pitch search)을 이용한 프레임 예측을 통해 예측 신호를 획득하도록 구성될 수 있다. 상기 추론 신호는, 상기 ML을 이용한 프레임 예측 또는 상기 피치 탐색을 이용한 프레임 예측을 통해 획득되는 상기 주파수 대역들의 예측 신호들의 합성을 통해 획득될 수 있다.
다양한 실시예들에 있어서, 전자 장치(101, 280)에 의해 수행되는 방법은, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하는 동작(313, 403)을 포함할 수 있다. 상기 방법은 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하는 동작(323, 405)을 포함할 수 있다. 상기 방법은 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하는 동작(325, 405)을 포함할 수 있다. 상기 방법은 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하는 동작(327, 409)을 포함할 수 있다. 상기 방법은 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하는 동작(330, 411)을 포함할 수 있다. 상기 방법은 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하는 동작(313, 413)을 포함할 수 있다.
일 실시예에 따라, 상기 예측 신호를 획득하는 동작은, FFT(fast fourier transform)를 수행함으로써 상기 입력 신호를 획득하는 동작을 포함할 수 있다. 상기 예측 신호를 획득하는 동작은, 상기 주파수 도메인에서, 상기 신경망에 기반하여, 상기 입력 신호로부터 상기 예측 신호를 획득하는 동작을 포함할 수 있다.
일 실시예에 따라, 상기 위상 손실을 획득하는 동작은, 상기 시간 도메인에서의 타겟 신호에 대한FFT를 수행하는 동작을 포함할 수 있다.
일 실시예에 따라, 상기 크기 손실을 획득하는 동작은, 상기 시간 도메인에서의 타겟 신호에 대한FFT를 수행하는 동작을 포함할 수 있다.
일 실시예에 따라, 상기 손실 정보는, 상기 크기 손실에 제1 가중치를 적용하고, 상기 위상 손실에 제2 가중치를 적용하고, 상기 상관 손실에 제3 가중치를 적용함으로써, 획득될 수 있다.
일 실시예에 따라, 상기 방법은 프레임의 손실을 검출하는 동작을 포함할 수 있다. 상기 방법은 상기 프레임의 이전의 오디오 신호에 대한 시간-주파수 변환을 수행하는 동작을 포함할 수 있다. 상기 방법은 주파수 에너지 분포에 기반하여, 상기 주파수 도메인에서 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성하는 동작을 포함할 수 있다. 상기 방법은 상기 복수의 주파수 대역들 각각에서의 프레임 예측을 통해, 상기 프레임에 대응하는 추론 신호를 획득하는 동작을 포함할 수 있다. 상기 방법은 상기 추론 신호에 대한 주파수-시간 변환을 수행하는 동작을 포함할 수 있다.
일 실시예에 따라, 상기 추론 신호를 획득하는 동작은, 상기 복수의 주파수 대역들 중에서 각 주파수 대역에 대하여, 해당 주파수 대역의 에너지 크기가 에너지 임계값보다 큰 경우, 상기 신경망의 ML(machine learning)을 이용한 프레임 예측을 통해 예측 신호를 획득하는 동작을 포함할 수 있다. 상기 추론 신호를 획득하는 동작은, 상기 복수의 주파수 대역들 중에서 각 주파수 대역에 대하여, 해당 주파수 대역의 에너지 크기가 상기 에너지 임계값보다 작거나 같은 경우, 피치 탐색(pitch search)을 이용한 프레임 예측을 통해 예측 신호를 획득하는 동작을 포함할 수 있다. 상기 추론 신호는, 상기 ML을 이용한 프레임 예측 또는 상기 피치 탐색을 이용한 프레임 예측을 통해 획득되는, 상기 주파수 대역들의 예측 신호들의 합성을 통해 획득될 수 있다.
다양한 실시예들에 있어서, 전자 장치(101, 280)는, 인스트럭션들을 저장하도록 구성된 메모리(130), 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서(120)를 포함할 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서(120)는, 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss), 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss), 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss), 또는 상기 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 크기 손실 중에서 적어도 2개의 손실 구성요소들을 식별하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는 상기 식별된 적어도 2개의 손실 구성요소들에 기반하여 손실 정보를 획득하도록 구성될 수 있다. 상기 적어도 하나의 프로세서(120)는 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성될 수 있다.
다양한 실시예들에 있어서, 전자 장치(101, 280)는, 인스트럭션들을 저장하도록 구성된 메모리(130), 및 상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서(120)를 포함할 수 있다. 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시, 실시예들에 따른 동작들을 수행할 수 있다. 상기 적어도 하나의 프로세서(120)는, 프레임의 손실을 검출하는 것(901)에 기반하여, 시간 도메인에서 상기 프레임 및 상기 프레임보다 앞서는 하나 이상의 프레임들을 포함하는 오디오 신호에 대한 시간-주파수 변환을 수행하도록 구성될 수 있다(903). 상기 적어도 하나의 프로세서(120)는, 주파수 도메인의 서브대역들 각각의 주파수 에너지를 나타내는, 주파수 에너지 분포에 기반하여, 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성할 수 있다(905). 상기 적어도 하나의 프로세서(120)는, 상기 복수의 주파수 대역들 각각에 대한 프레임 예측을 통해, 주파수 도메인에서의 상기 복수의 주파수 대역들에 대한 예측 신호를 획득하도록 구성될 수 있다(907). 상기 적어도 하나의 프로세서(120)는, 상기 예측 신호에 대한 주파수-시간 변환에 기반하여, 상기 오디오 신호를 위한 추론 신호를 획득하도록 구성될 수 있다(909). 상기 복수의 주파수 대역들은, 상기 서브대역들 중에서 인접한 서브대역들에 대한 주파수 에너지 차이가 임계값 이상인지 여부에 기반하여, 구성될 수 있다.
일 실시예에 따라, 상기 서브대역들 중에서 서로 인접한 서브대역들은, 상기 서로 인접한 서브대역들에 대한 주파수 에너지 차이가 설정된 임계값 미만인 경우, 동일한 주파수 대역으로 구성될 수 있다. 상기 서브대역들 중에서 서로 인접한 서브대역들은, 상기 서로 인접한 서브대역들에 대한 주파수 에너지 차이가 설정된 임계값 이상인 경우, 서로 다른 주파수 대역들로 구성될 수 있다.
일 실시예에 따라, 상기 주파수 도메인에서 상기 서브대역들 각각의 크기는 동일할 수 있다.
일 실시예에 따라, 상기 프레임 예측은, ML(machine learning)을 이용한 프레임 예측 또는 피치 탐색(pitch search)을 이용한 프레임 예측을 포함할 수 있다. 상기 ML을 이용한 프레임 예측은, 해당 주파수 대역의 주파수 에너지가 에너지 임계값보다 큰 경우, 이용될 수 있다. 상기 피치 탐색을 이용한 프레임 예측은, 해당 주파수 대역의 주파수 에너지가 상기 에너지 임계값보다 작은 경우, 이용될 수 있다.
일 실시예에 따라, 상기 복수의 주파수 대역들 중에서 제1 주파수 대역을 위한 프레임 예측은, 제1 ML 신경망을 이용할 수 있다. 상기 복수의 주파수 대역들 중에서 상기 제1 주파수 대역보다 높은 제2 주파수 대역을 위한 프레임 예측은, 제2 ML 신경망을 이용할 수 있다. 상기 제1 ML 신경망의 망 크기는, 상기 제2 ML 신경망의 망 크기보다 클 수 있다.
일 실시예에 따라, 상기 시간-주파수 변환은 FFT(fast fourier transform) 또는 STFT(short time fourier transform)를 포함할 수 있다. 상기 주파수-시간 변환은 iFFT(inverse fast fourier transform) 또는 iSTFT(inverse short time fourier transform)를 포함할 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하고, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하고, 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하고, 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하고, 상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하고, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 야기할 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하고, 주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss), 상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss), 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss), 또는 상기 시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 크기 손실 중에서 적어도 2개의 손실 구성요소들을 식별하고, 상기 식별된 적어도 2개의 손실 구성요소들에 기반하여 손실 정보를 획득하고, 상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 야기할 수 있다.
실시예들에 따른, 비-일시적 기록 매체가 제공된다. 상기 비-일시적 기록 매체는, 인스트럭션들을 저장하는 메모리를 포함할 수 있다. 상기 인스트럭션들은 프로세서에 의해 실행될 때, 전자 장치가 프레임의 손실을 검출하는 것에 기반하여, 시간 도메인에서 상기 프레임 및 상기 프레임보다 앞서는 하나 이상의 프레임들을 포함하는 오디오 신호에 대한 시간-주파수 변환을 수행하고, 주파수 도메인의 서브대역들 각각의 주파수 에너지를 나타내는, 주파수 에너지 분포에 기반하여, 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성하고, 상기 복수의 주파수 대역들 각각에 대한 프레임 예측을 통해, 주파수 도메인에서의 상기 복수의 주파수 대역들에 대한 예측 신호를 획득하고, 상기 예측 신호에 대한 주파수-시간 변환에 기반하여, 상기 오디오 신호를 위한 추론 신호를 획득하도록 야기할 수 있다. 상기 복수의 주파수 대역들은, 상기 서브대역들 중에서 인접한 서브대역들에 대한 주파수 에너지 차이가 임계값 이상인지 여부에 기반하여, 구성될 수 있다.
본 개시의 청구항 또는 명세서에 기재된 실시예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.
소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금 본 개시의 청구항 또는 명세서에 기재된 실시예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.
이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(read only memory, ROM), 전기적 삭제가능 프로그램가능 롬(electrically erasable programmable read only memory, EEPROM), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(compact disc-ROM, CD-ROM), 디지털 다목적 디스크(digital versatile discs, DVDs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.
또한, 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(local area network), WAN(wide area network), 또는 SAN(storage area network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크상의 별도의 저장장치가 본 개시의 실시예를 수행하는 장치에 접속할 수도 있다.
상술한 본 개시의 구체적인 실시예들에서, 개시에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시가 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 본 개시의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.

Claims (15)

  1. 전자 장치(101, 280)에 있어서,
    인스트럭션들을 저장하도록 구성된 메모리(130); 및
    상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서(120)를 포함하고, 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시,
    입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하고(313, 403),
    주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하고(323, 405),
    상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하고(325, 405),
    시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하고(327, 409),
    상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하고(330, 411),
    상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하도록 구성되는(313, 413),
    전자 장치(101, 280).
  2. 청구항 1에 있어서, 상기 예측 신호를 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는,
    FFT(fast fourier transform)를 수행함으로써 상기 입력 신호를 획득하고,
    상기 주파수 도메인에서, 상기 신경망에 기반하여, 상기 입력 신호로부터 상기 예측 신호를 획득하도록 구성되는,
    전자 장치(101, 280).
  3. 청구항 1 내지 2에 있어서, 상기 위상 손실을 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는,
    상기 시간 도메인에서의 타겟 신호에 대한FFT(fast fourier transform)를 수행하도록 구성되는,
    전자 장치(101, 280).
  4. 청구항 1 내지 3에 있어서, 상기 크기 손실 및 상기 위상 손실을 획득하기 위하여, 상기 적어도 하나의 프로세서(120)는,
    상기 시간 도메인에서의 타겟 신호에 대한FFT(fast fourier transform)를 수행하도록 구성되는,
    전자 장치(101, 280).
  5. 청구항 1 내지 4에 있어서,
    상기 손실 정보는, 상기 크기 손실에 제1 가중치를 적용하고, 상기 위상 손실에 제2 가중치를 적용하고, 상기 상관 손실에 제3 가중치를 적용함으로써, 획득되는,
    전자 장치(101, 280).
  6. 청구항 1 내지 5에 있어서, 상기 적어도 하나의 프로세서(120)는,
    프레임의 손실을 검출하고,
    상기 프레임의 이전의 오디오 신호에 대한 시간-주파수 변환을 수행하고,
    주파수 에너지 분포에 기반하여, 상기 주파수 도메인에서 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성하고,
    상기 복수의 주파수 대역들 각각에서의 프레임 예측을 통해, 상기 프레임에 대응하는 추론 신호를 획득하고,
    상기 추론 신호에 대한 주파수-시간 변환을 수행하도록 추가적으로 구성되는,
    전자 장치(101, 280).
  7. 청구항 1 내지 6에 있어서, 상기 적어도 하나의 프로세서(120)는, 상기 추론 신호를 획득하기 위해,
    상기 복수의 주파수 대역들 중에서 각 주파수 대역에 대하여,
    해당 주파수 대역의 에너지 크기가 에너지 임계값보다 큰 경우, 상기 신경망의 ML(machine learning)을 이용한 프레임 예측을 통해 예측 신호를 획득하고,
    해당 주파수 대역의 에너지 크기가 상기 에너지 임계값보다 작거나 같은 경우, 피치 탐색(pitch search)을 이용한 프레임 예측을 통해 예측 신호를 획득하도록 구성되고,
    상기 추론 신호는, 상기 ML을 이용한 프레임 예측 또는 상기 피치 탐색을 이용한 프레임 예측을 통해 획득되는 상기 주파수 대역들의 예측 신호들의 합성을 통해 획득되는,
    전자 장치(101, 280).
  8. 전자 장치(101, 280)에 의해 수행되는 방법에 있어서,
    입력 신호 및 신경망(neutral network)에 기반하여 예측 신호를 획득하는 동작(313, 403)과,
    주파수 도메인에서 상기 예측 신호와 타겟 신호에 대한 크기 손실(magnitude loss)을 획득하는 동작(323, 405)과,
    상기 주파수 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 위상 손실(phase loss)을 획득하는 동작(325, 405)과,
    시간 도메인에서 상기 예측 신호와 상기 타겟 신호에 대한 상관 손실(correlation loss)을 획득하는 동작(327, 409)과,
    상기 크기 손실, 상기 위상 손실, 및 상기 상관 손실에 기반하여 손실 정보를 획득하는 동작(330, 411)과,
    상기 손실 정보에 기반하여 상기 신경망에 대한 학습을 수행하는 동작(313, 413)을 포함하는,
    방법.
  9. 청구항 8에 있어서, 상기 예측 신호를 획득하는 동작은,
    FFT(fast fourier transform)를 수행함으로써 상기 입력 신호를 획득하는 동작과,
    상기 주파수 도메인에서, 상기 신경망에 기반하여, 상기 입력 신호로부터 상기 예측 신호를 획득하는 동작을 포함하는,
    방법.
  10. 전자 장치(101, 280)에 있어서,
    인스트럭션들을 저장하도록 구성된 메모리(130); 및
    상기 메모리와 작동적으로 결합된 적어도 하나의 프로세서(120)를 포함하고, 상기 적어도 하나의 프로세서(120)는, 상기 인스트럭션들이 실행될 시,
    프레임의 손실을 검출하는 것(901)에 기반하여, 시간 도메인에서 상기 프레임 및 상기 프레임보다 앞서는 하나 이상의 프레임들을 포함하는 오디오 신호에 대한 시간-주파수 변환을 수행하고(903),
    주파수 도메인의 서브대역들 각각의 주파수 에너지를 나타내는, 주파수 에너지 분포에 기반하여, 상기 오디오 신호에 대한 복수의 주파수 대역들을 구성하고(905),
    상기 복수의 주파수 대역들 각각에 대한 프레임 예측을 통해, 주파수 도메인에서의 상기 복수의 주파수 대역들에 대한 예측 신호를 획득하고(907),
    상기 예측 신호에 대한 주파수-시간 변환에 기반하여, 상기 오디오 신호를 위한 추론 신호를 획득하도록 구성되고(909),
    상기 복수의 주파수 대역들은, 상기 서브대역들 중에서 인접한 서브대역들에 대한 주파수 에너지 차이가 임계값 이상인지 여부에 기반하여, 구성되는,
    전자 장치(101, 280).
  11. 청구항 10에 있어서,
    상기 서브대역들 중에서 서로 인접한 서브대역들은, 상기 서로 인접한 서브대역들에 대한 주파수 에너지 차이가 설정된 임계값 미만인 경우, 동일한 주파수 대역으로 구성되고,
    상기 서브대역들 중에서 서로 인접한 서브대역들은, 상기 서로 인접한 서브대역들에 대한 주파수 에너지 차이가 설정된 임계값 이상인 경우, 서로 다른 주파수 대역들로 구성되는,
    전자 장치(101, 280).
  12. 청구항 10 내지 11에 있어서,
    상기 주파수 도메인에서 상기 서브대역들 각각의 크기는 동일한,
    전자 장치(101, 280).
  13. 청구항 10 내지 12에 있어서,
    상기 프레임 예측은, ML(machine learning)을 이용한 프레임 예측 또는 피치 탐색(pitch search)을 이용한 프레임 예측을 포함하고,
    상기 ML을 이용한 프레임 예측은, 해당 주파수 대역의 주파수 에너지가 에너지 임계값보다 큰 경우, 이용되고,
    상기 피치 탐색을 이용한 프레임 예측은, 해당 주파수 대역의 주파수 에너지가 상기 에너지 임계값보다 작은 경우, 이용되는,
    전자 장치(101, 280).
  14. 청구항 10 내지 13에 있어서,
    상기 복수의 주파수 대역들 중에서 제1 주파수 대역을 위한 프레임 예측은, 제1 ML 신경망을 이용하고,
    상기 복수의 주파수 대역들 중에서 상기 제1 주파수 대역보다 높은 제2 주파수 대역을 위한 프레임 예측은, 제2 ML 신경망을 이용하고,
    상기 제1 ML 신경망의 망 크기는, 상기 제2 ML 신경망의 망 크기보다 큰,
    전자 장치(101, 280).
  15. 청구항 10 내지 14에 있어서,
    상기 시간-주파수 변환은 FFT(fast fourier transform) 또는 STFT(short time fourier transform)를 포함하고,
    상기 주파수-시간 변환은 iFFT(inverse fast fourier transform) 또는 iSTFT(inverse short time fourier transform)를 포함하는,
    전자 장치(101, 280).
PCT/KR2023/015892 2022-10-16 2023-10-14 패킷 손실 은닉을 위한 전자 장치 및 방법 WO2024085551A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0132819 2022-10-16
KR20220132819 2022-10-16
KR10-2022-0173661 2022-12-13
KR1020220173661A KR20240053031A (ko) 2022-10-16 2022-12-13 패킷 손실 은닉을 위한 전자 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2024085551A1 true WO2024085551A1 (ko) 2024-04-25

Family

ID=90738078

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/015892 WO2024085551A1 (ko) 2022-10-16 2023-10-14 패킷 손실 은닉을 위한 전자 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2024085551A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101774795B1 (ko) * 2013-07-22 2017-09-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복원 대역에 대해 에너지 정보 값을 이용하여 오디오 신호를 디코딩 또는 인코딩하기 위한 장치 및 방법
KR102033603B1 (ko) * 2014-11-07 2019-10-17 삼성전자주식회사 오디오 신호를 복원하는 방법 및 장치
KR20220095085A (ko) * 2020-12-29 2022-07-06 서울대학교산학협력단 딥러닝 기반 채널 손실 예측을 통한 전송 제어 장치 및 전송 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101774795B1 (ko) * 2013-07-22 2017-09-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복원 대역에 대해 에너지 정보 값을 이용하여 오디오 신호를 디코딩 또는 인코딩하기 위한 장치 및 방법
KR102033603B1 (ko) * 2014-11-07 2019-10-17 삼성전자주식회사 오디오 신호를 복원하는 방법 및 장치
KR20220095085A (ko) * 2020-12-29 2022-07-06 서울대학교산학협력단 딥러닝 기반 채널 손실 예측을 통한 전송 제어 장치 및 전송 제어 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI, NAN ET AL.: "End-to-End Multi-Loss Training for Low Delay Packet Loss Concealment", INTERSPEECH 2022; INCHEON, KOREA; SEPTEMBER 18-22, 2022, 22 September 2022 (2022-09-22) - 22 September 2022 (2022-09-22), pages 585 - 589, XP009554532, DOI: 10.21437/Interspeech.2022-11439 *
NILS L. WESTHAUSEN; BERND T. MEYER: "tPLCnet: Real-time Deep Packet Loss Concealment in the Time Domain Using a Short Temporal Context", ARXIV.ORG, 4 April 2022 (2022-04-04), XP091211764 *

Similar Documents

Publication Publication Date Title
WO2022055068A1 (ko) 음성에 포함된 커맨드를 확인하는 전자 장치와 이의 동작 방법
WO2019156339A1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
WO2022154546A1 (ko) 자동 음량 제어를 수행하는 웨어러블 장치
WO2022154363A1 (ko) 오디오 데이터를 처리하기 위한 오디오 장치 및 그의 동작 방법
WO2024085551A1 (ko) 패킷 손실 은닉을 위한 전자 장치 및 방법
WO2022030750A1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
WO2022154440A1 (ko) 오디오 데이터를 처리하는 전자 장치 및 그 동작 방법
WO2021221440A1 (ko) 음질 향상 방법 및 그 장치
WO2022149812A1 (ko) 카메라 모듈을 포함하는 전자 장치 및 그 전자 장치의 동작 방법
WO2022119194A1 (ko) 전자 장치 및 이를 이용한 멀티 채널 오디오 출력 방법
WO2024080590A1 (ko) 신호의 오류를 검출하기 위한 전자 장치 및 방법
WO2022030880A1 (ko) 음성 신호를 처리하는 방법 및 이를 이용한 장치
WO2024076061A1 (ko) 에코 발생을 감소시키기 위한 폴더블 형태의 전자 장치 및 방법
WO2022164023A1 (ko) 오디오 데이터를 처리하는 방법 및 이를 지원하는 전자 장치
WO2022203456A1 (ko) 음성 신호 처리를 위한 전자 장치 및 방법
WO2022203179A1 (ko) 오디오 데이터 처리 방법 및 이를 지원하는 전자 장치
WO2023277572A1 (ko) 오디오 데이터에 오디오 효과의 중복 적용을 방지하는 방법 및 이를 지원하는 전자 장치
WO2024076043A1 (ko) 진동 소리 신호를 생성하기 위한 전자 장치 및 방법
WO2022146033A1 (ko) 전자 장치 및 전자 장치의 음성 입출력 제어 방법
WO2022025376A1 (ko) Ar 오디오 데이터 제공 방법 및 장치
WO2023287023A1 (ko) 음향 신호를 생성하는 전자 장치 및 방법
WO2024014869A1 (ko) 번역 처리 방법 및 전자 장치
WO2024106830A1 (ko) 폰북 기반의 성문 운용 방법 및 이를 지원하는 전자 장치
WO2022154416A1 (ko) 외부 장치에 의해 유입되는 에코를 제거하는 방법 및 전자 장치
WO2022119056A1 (ko) 오디오 신호를 출력하는 전자 장치 및 오디오 신호의 출력 방법