WO2024096314A1 - 전자 장치 및 그 음향 출력 방법 - Google Patents

전자 장치 및 그 음향 출력 방법 Download PDF

Info

Publication number
WO2024096314A1
WO2024096314A1 PCT/KR2023/014254 KR2023014254W WO2024096314A1 WO 2024096314 A1 WO2024096314 A1 WO 2024096314A1 KR 2023014254 W KR2023014254 W KR 2023014254W WO 2024096314 A1 WO2024096314 A1 WO 2024096314A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel signal
units
user
output
tweeter
Prior art date
Application number
PCT/KR2023/014254
Other languages
English (en)
French (fr)
Inventor
이윤재
임동현
김선민
박해광
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024096314A1 publication Critical patent/WO2024096314A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/026Single (sub)woofer with two or more satellite loudspeakers for mid- and high-frequency band reproduction driven via the (sub)woofer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • This disclosure relates to an electronic device and a method of outputting sound thereof, and more specifically, to an electronic device including a plurality of speaker units and a method of outputting sound thereof.
  • An electronic device includes a speaker array including a plurality of speaker units, a memory storing at least one command, and one or more processors connected to the speaker array and the memory to control the electronic device.
  • the plurality of speaker units include a plurality of tweeter units that output high-range sound signals above a critical frequency and a plurality of midrange units that output mid- to low-range sound signals below the critical frequency.
  • the one or more processors by executing the at least one instruction, output an R (Right) channel signal toward the user's right ear using a beam forming method for the high-band sound signal and output an L (Left) channel signal toward the user's right ear.
  • Control the plurality of tweeter units so that the channel signal is oriented toward the user's left ear, and output the R channel signal and the L channel signal using a psychoacoustic model for the mid-low range sound signal. Controls the range unit.
  • the one or more processors identify the user's direction based on the electronic device, apply a beam forming filter corresponding to the identified user's direction to the high-band sound signal, and the beam forming filter Controlling the plurality of tweeter units to output the applied R channel signal and L channel signal, applying a Head Related Transfer Function (HRTF) filter corresponding to the identified user's direction to the mid-low range sound signal, and applying the HRTF filter
  • the plurality of midrange units can be controlled to output R channel signals and L channel signals to which is applied.
  • it further includes a microphone array including a plurality of microphones, wherein the one or more processors identify the direction of the user based on a time difference when the user's voice is received through the plurality of microphones, and the identification Based on the direction of the user, the plurality of tweeter units are configured so that the R channel signal is oriented toward the user's right ear and the L channel signal is output toward the user's left ear using a beam forming method for the high-band sound signal. You can control it.
  • the memory includes a first beam forming filter corresponding to an R channel signal and an L channel signal in a first direction, respectively, with respect to the electronic device, and an R channel signal in a second direction different from the first direction. and a second beam forming filter corresponding to each of the L channel signals.
  • the one or more processors when the user direction corresponds to the first direction, apply the first beam forming filter to the R channel signal and the L channel signal of the high-band sound signal so that the R channel signal is on the right side of the user.
  • the plurality of tweeter units are controlled so that the L channel signal is output directionally toward the user's left ear, and when the user direction corresponds to the second direction, the R channel signal of the high frequency sound signal is controlled to output the L channel signal toward the user's left ear. and applying the second beam forming filter to the L channel signal to control the plurality of tweeter units so that the R channel signal is output directed toward the user's right ear and the L channel signal is output directed toward the user's left ear. can do.
  • the memory includes a first HRTF filter corresponding to an R channel signal and an L channel signal in a first direction, respectively, with respect to the electronic device, an R channel signal in a second direction different from the first direction, and The second HRTF filter corresponding to each L channel signal can be stored.
  • the one or more processors when the user direction corresponds to the first direction, apply the first HRTF filter to the R channel signal and the L channel signal of the low-to-mid range sound signal to the R to which the first HRTF filter is applied.
  • the plurality of midrange units can be controlled to output the R channel signal and the L channel signal to which the second HRTF filter is applied.
  • the plurality of speaker units may include a plurality of first tweeter units disposed in a central portion of the speaker array, a plurality of second tweeter units spaced apart to the right and left of the plurality of first tweeter units, and a plurality of midrange units disposed on one side of the plurality of second tweeter units.
  • the plurality of first tweeter units include three tweeter units arranged in a row
  • the plurality of second tweeter units include a right tweeter unit arranged to the right of the three tweeter units, and the plurality of tweeter units. It may include a left tweeter unit disposed on the left side of the three tweeter units.
  • the plurality of midrange units may include a first midrange unit disposed to the right of the right tweeter unit and a second midrange unit disposed to the left of the left tweeter unit.
  • the one or more processors obtain the high-pass sound signal by applying a high pass filter to the sound signal, and apply a low pass filter to the sound signal.
  • the mid-to-low range sound signal can be obtained.
  • a sound output method of an electronic device including a speaker array including a plurality of speaker units uses a beam forming method for a high-band sound signal above a critical frequency to generate an R (Right) channel signal.
  • controlling a plurality of tweeter units so that the output is directed toward the user's right ear and the L (Left) channel signal is output toward the user's left ear, and creating a psychoacoustic model for the low-to-mid range sound signal below the threshold frequency. It may include controlling a plurality of midrange units to output the R channel signal and the L channel signal.
  • a non-transitory computer-readable medium storing computer instructions that cause the electronic device to perform an operation when executed by one or more processors of an electronic device including a speaker array including a plurality of speaker units.
  • the R (Right) channel signal is output toward the user's right ear using a beam forming method for the high-band sound signal above the critical frequency
  • the L (Left) channel signal is output toward the user's left ear.
  • FIGS. 1A to 1C are diagrams illustrating an implementation example of an electronic device according to an embodiment.
  • FIG. 2A is a block diagram showing the configuration of an electronic device according to an embodiment.
  • FIG. 2B is a block diagram illustrating an example of an implementation of an electronic device according to an embodiment.
  • FIG. 2C is a block diagram illustrating an example of an implementation of an electronic device according to an embodiment.
  • FIG. 3 is a diagram for explaining a method of outputting sound from an electronic device according to an embodiment.
  • FIG. 4 is a diagram for explaining a method of outputting sound from an electronic device according to an embodiment.
  • Figure 5 is a diagram for explaining a control method of an electronic device according to an embodiment.
  • FIGS. 6A and 6B are diagrams for explaining an example of beam forming implementation according to an embodiment.
  • FIGS. 7A to 7C are diagrams for explaining an example of beam forming implementation according to an embodiment.
  • FIGS. 8A and 8B are diagrams for explaining a method of applying HRTF according to an example.
  • FIGS. 9A and 9B are diagrams for explaining a method of applying HRIR according to an example.
  • expressions such as “have,” “may have,” “includes,” or “may include” refer to the presence of the corresponding feature (e.g., a numerical value, function, operation, or component such as a part). , and does not rule out the existence of additional features.
  • expressions such as “A or B,” “at least one of A or/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • “A or B,” “at least one of A and B,” or “at least one of A or B” (1) includes at least one A, (2) includes at least one B, or (3) it may refer to all cases including both at least one A and at least one B.
  • expressions such as “first,” “second,” “first,” or “second,” can modify various components regardless of order and/or importance, and can refer to one component. It is only used to distinguish from other components and does not limit the components.
  • a component e.g., a first component
  • another component e.g., a second component
  • connection to it should be understood that a certain component can be connected directly to another component or connected through another component (e.g., a third component).
  • the expression “configured to” used in the present disclosure may mean, for example, “suitable for,” “having the capacity to,” depending on the situation. ,” can be used interchangeably with “designed to,” “adapted to,” “made to,” or “capable of.”
  • the term “configured (or set to)” may not necessarily mean “specifically designed to” in hardware.
  • the expression “a device configured to” may mean that the device is “capable of” working with other devices or components.
  • the phrase "processor configured (or set) to perform A, B, and C" refers to a processor dedicated to performing the operations (e.g., an embedded processor), or by executing one or more software programs stored on a memory device.
  • a “module” or “unit” performs at least one function or operation, and may be implemented as hardware or software, or as a combination of hardware and software. Additionally, a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented by at least one processor (not shown), except for “modules” or “units” that need to be implemented with specific hardware. It can be.
  • FIGS. 1A to 1C are diagrams illustrating an implementation example of an electronic device according to an embodiment.
  • the electronic device 100 may include a speaker array including a plurality of speaker units.
  • the electronic device 100 may be implemented as a sound bar, home theater system, one box speaker, room speaker, front surround speaker, etc.
  • any device including a plurality of speaker units can be the electronic device 100 according to the present disclosure.
  • the electronic device 100 can be implemented as a TV equipped with a plurality of speaker units, an audio device, a user terminal, etc.
  • a plurality of speaker units included in the electronic device 100 function to convert electric pulses into sound waves, and are classified into coin type, that is, dynamic type, depending on the principle and method of converting electric signals into sound waves. It can be implemented. However, it is not limited to this, and the plurality of speaker units may be implemented as electrostatic type, dielectric type, magnetostriction type, etc. within the scope of application of the present invention.
  • the electronic device 100 may be implemented in a multi-way manner in which the playback band is divided into low, mid, and high sounds, and the divided sound ranges are distributed to appropriate speaker units.
  • a plurality of speaker units may be implemented in a form including a tweeter unit and a midrange unit.
  • the plurality of speaker units include a tweeter unit for reproducing high-frequency sound signals and a midrange unit for reproducing mid-frequency sound signals. (Midrange unit) and at least one woofer unit for reproducing low-frequency sound signals.
  • FIG. 1A is a diagram illustrating an implementation example of the electronic device 100.
  • a plurality of speaker units included in the electronic device 100 include a plurality of tweeter units 10 that reproduce high-frequency sound signals, that is, high-frequency sound signals, an intermediate frequency band, and It may include a plurality of midrange units 20 that reproduce low-frequency sound signals, that is, low-to-mid range sound signals.
  • the plurality of tweeter units 10 include a plurality of first tweeter units 11, 12, and 13 disposed in the central portion of the speaker array, and a plurality of tweeter units 11, 12, and 13 on the right and left sides of the plurality of first tweeter units 11, 12, and 13, respectively. It may include a plurality of second tweeter units 14 and 15 spaced apart to the left.
  • the plurality of first tweeter units 11, 12, and 13 may include three tweeter units 11, 12, and 13 arranged in a row.
  • the plurality of second tweeter units (14, 15) are a right tweeter unit (14) disposed on the right side of the three tweeter units (11, 12, 13) and a left side tweeter unit (11, 12, 13). It may include a left tweeter unit 15 disposed in . That is, the right tweeter unit 14 is disposed to the right of the rightmost tweeter unit 11 among the three tweeter units 11, 12, and 13 disposed in the center of the speaker array, and the left tweeter unit 15 is located at the speaker array. Among the three tweeter units 11, 12, and 13 arranged in the central part of the array, it may be placed on the left side of the leftmost tweeter unit 13. However, the number and/or arrangement positions of the plurality of tweeter units are not necessarily limited thereto.
  • a plurality of midrange units 21 and 22 may be disposed on one side of a plurality of second tweeter units 14 and 15.
  • the plurality of midrange units 21 and 22 include a first midrange unit 21 disposed on the right side of the right tweeter unit 14 and a second midrange unit disposed on the left side of the left tweeter unit 15. (22) may be included.
  • the number and arrangement positions of the plurality of mid-range units are not necessarily limited to this.
  • FIG. 1B is a diagram illustrating a detailed implementation example of the electronic device 100.
  • the electronic device 100 may further include a microphone array 30 including a plurality of microphones in addition to the speaker array shown in FIG. 1A.
  • the microphone array 30 may be implemented so that a plurality of microphones are arranged at regular intervals.
  • the microphone array 30 is shown as including four microphones, but it is not limited thereto. According to one example, the microphone array 30 may be used to identify the user's direction.
  • FIG. 1C is a diagram illustrating implementation values of a speaker array according to an example.
  • the electronic device 100 may include a small volume speaker array.
  • the numerical value between the distances for each speaker unit may be as shown in FIG. 1C, but is not necessarily limited thereto.
  • the L (Left) channel signal enters only the user's left ear, and conversely, the R (Right) channel signal enters only the user's right ear.
  • the L (Left) channel signal enters only the user's left ear
  • the R (Right) channel signal enters only the user's right ear.
  • the L channel (or R channel) signal enters not only the user's left ear but also the right ear. Due to this crosstalk phenomenon, the three-dimensional sound effect is inevitably reduced by half.
  • FIG. 2A is a block diagram showing the configuration of an electronic device according to an embodiment.
  • the electronic device 100 includes a speaker array 110, a memory 120, and one or more processors 130.
  • the speaker array 110 includes a plurality of speaker units.
  • the plurality of speaker units may include a plurality of tweeter units 10 and a plurality of midrange units 20. Since this was explained in detail in FIG. 1A, further explanation will be omitted.
  • the memory 120 may store data necessary for various embodiments.
  • the memory 120 may be implemented as a memory embedded in the electronic device 100 or as a memory detachable from the electronic device 100 depending on the data storage purpose. For example, in the case of data for driving the electronic device 100, it is stored in the memory embedded in the electronic device 100, and in the case of data for the expansion function of the electronic device 100, it is detachable from the electronic device 100. It can be stored in available memory.
  • volatile memory e.g., dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM (SDRAM), etc.
  • non-volatile memory Examples: one time programmable ROM (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EEPROM), mask ROM, flash ROM, flash memory (e.g. NAND flash or NOR flash, etc.) ), a hard drive, or a solid state drive (SSD).
  • a memory card eg, compact flash (CF)
  • CF compact flash
  • USB port (secure digital), Micro-SD (micro secure digital), Mini-SD (mini secure digital), xD (extreme digital), MMC (multi-media card), etc.), external memory that can be connected to the USB port (for example, it may be implemented in a form such as USB memory).
  • One or more processors 130 generally control the operation of the electronic device 100. Specifically, one or more processors 130 may be connected to each component of the electronic device 100 and generally control the operation of the electronic device 100. For example, one or more processors 130 may be electrically connected to the speaker array 110 and the memory 120 to control the overall operation of the electronic device 100. One or more processors 130 may be comprised of one or multiple processors.
  • One or more processors 130 may perform operations of the electronic device 100 according to various embodiments by executing at least one instruction stored in the memory 120.
  • One or more processors 130 include a CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), and hardware. It may include one or more of an accelerator or machine learning accelerator. One or more processors 130 may control one or any combination of other components of the electronic device and may perform operations related to communication or data processing. One or more processors 130 may execute one or more programs or instructions stored in memory. For example, one or more processors may perform a method according to an embodiment of the present disclosure by executing one or more instructions stored in memory.
  • the plurality of operations may be performed by one processor or by a plurality of processors.
  • the first operation, the second operation, and the third operation may all be performed by the first processor.
  • the first operation and the second operation may be performed by a first processor (e.g., a general-purpose processor) and the third operation may be performed by a second processor (e.g., an artificial intelligence-specific processor).
  • the one or more processors 130 may be implemented as a single core processor including one core, or one or more multi-cores including a plurality of cores (e.g., homogeneous multi-core or heterogeneous multi-core). It may also be implemented as a processor (multicore processor). When one or more processors 130 are implemented as multi-core processors, each of the plurality of cores included in the multi-core processor may include processor internal memory such as cache memory and on-chip memory, and may include a plurality of cores. A common cache shared by cores may be included in multi-core processors.
  • each of the plurality of cores (or some of the plurality of cores) included in the multi-core processor may independently read and perform program instructions for implementing the method according to an embodiment of the present disclosure, and all of the plurality of cores may (or part of) may be linked to read and perform program instructions for implementing the method according to an embodiment of the present disclosure.
  • the plurality of operations may be performed by one core among a plurality of cores included in a multi-core processor, or may be performed by a plurality of cores.
  • the first operation, the second operation, and the third operation are all performed by the first operation included in the multi-core processor. It may be performed by a core, and the first operation and the second operation may be performed by the first core included in the multi-core processor, and the third operation may be performed by the second core included in the multi-core processor.
  • a processor may mean a system-on-chip (SoC) in which one or more processors and other electronic components are integrated, a single-core processor, a multi-core processor, or a core included in a single-core processor or a multi-core processor.
  • SoC system-on-chip
  • the core may be implemented as a CPU, GPU, APU, MIC, DSP, NPU, hardware accelerator, or machine learning accelerator, but embodiments of the present disclosure are not limited thereto.
  • processor 130 for convenience of explanation, one or more processors 130 will be referred to as processor 130.
  • FIG. 2B is a block diagram illustrating an example of an implementation of an electronic device according to an embodiment.
  • the electronic device 100' may include a speaker array 110, a memory 120, one or more processors 130, and a microphone array 140.
  • speaker array 110 Since the speaker array 110, memory 120, and one or more processors 130 have the same configuration as shown in FIG. 2B, detailed description will be omitted.
  • the microphone array 140 can receive a user's voice or other sounds and convert them into audio data.
  • the microphone array 140 may include a plurality of microphones.
  • the speaker array 140 is implemented as the microphone array 30 shown in FIG. 1B and may be placed at a predetermined location of the electronic device 100, for example, in the central area.
  • FIG. 2C is a block diagram illustrating an example of an implementation of an electronic device according to an embodiment.
  • the electronic device 100'' includes a speaker array 110, a memory 120, one or more processors 130, a microphone array 140, a communication interface 150, a user interface 160, and a display ( 170) may be included.
  • this configuration is an example, and of course, in carrying out the present disclosure, new configurations may be added or some configurations may be omitted in addition to these configurations. Meanwhile, a detailed description of the configurations shown in FIG. 2C that overlap with the configurations shown in FIGS. 2A and 2B will be omitted.
  • the communication interface 150 includes circuitry. Additionally, the communication interface 150 may support various communication methods depending on the implementation example of the electronic device 100.
  • the communication interface 150 includes Bluetooth, AP-based Wi-Fi (Wireless LAN network), Zigbee, wired/wireless LAN (Local Area Network), and WAN (Wide Area Network). , Ethernet, IEEE 1394, HDMI (High-Definition Multimedia Interface), USB (Universal Serial Bus), MHL (Mobile High-Definition Link), AES/EBU (Audio Engineering Society/ European Broadcasting Union), Optical ), Coaxial, etc. can be used to communicate with external devices, external storage media (e.g., USB memory), external servers (e.g., cloud servers), etc.
  • external storage media e.g., USB memory
  • external servers e.g., cloud servers
  • the communication interface 150 may receive data from an external device, server, etc., and transmit data to the external device, server, etc.
  • the communication interface 150 may receive sound signals including R channels and L channels.
  • the sound signal may be a stereo signal or a multi-channel signal.
  • User interface 160 includes circuitry. And, the user interface 160 can receive user commands. To this end, the user interface 160 may be implemented as a device such as buttons, a touch pad, a mouse, and a keyboard, or as a touch screen that can also perform a display function and a manipulation input function.
  • the display 170 may be implemented as a display including a self-emitting device or a display including a non-emitting device and a backlight.
  • the display 170 may include a Liquid Crystal Display (LCD), Organic Light Emitting Diodes (OLED) display, Light Emitting Diodes (LED), micro LED, Mini LED, Plasma Display Panel (PDP), and QD. It can be implemented as various types of displays, such as (Quantum dot) displays and QLED (Quantum dot light-emitting diodes).
  • the display 170 may also include a driving circuit and a backlight unit that can be implemented in the form of a-si TFT, LTPS (low temperature poly silicon) TFT, OTFT (organic TFT), etc.
  • a touch sensor for detecting various types of touch input may be placed on the front of the display 170.
  • the display 170 can detect various types of touch input, such as a touch input by the user's hand, a touch input by an input device such as a stylus pen, and a touch input by a specific electrostatic material.
  • the input device may be implemented as a pen-type input device that can be referred to by various terms such as an electronic pen, stylus pen, and S-pen.
  • the display 170 may be implemented as a flat display, a curved display, a flexible display capable of folding and/or rolling, etc.
  • the electronic device 100'' may further include a camera (not shown), a sensor (not shown), a tuner (not shown), and a demodulator (not shown), depending on the implementation example.
  • the processor 130 may control output using a beam forming method for high-range sound signals and a psychoacoustic model for mid- to low-range sound signals.
  • the high-range sound signal may be an sound signal above a critical frequency
  • the mid- and low-range sound signal may be an sound signal below the critical frequency.
  • the processor 130 obtains a high-pass sound signal by applying a high pass filter based on a threshold frequency to the input sound signal, and obtains a high-pass sound signal based on the threshold frequency to the input sound signal. By applying a low pass filter, you can obtain mid- to low-range sound signals.
  • the processor 130 may perform decoding when an externally encoded signal is input.
  • the processor 130 decodes the encoded SDI signal and converts it into parallel digital data, divides the audible frequency band into each playback range using the above-described filter, and The playback sound range can be controlled to be played by a separate speaker unit.
  • FIG. 3 is a diagram for explaining a method of outputting sound from an electronic device according to an embodiment.
  • the processor 130 outputs the R channel signal toward the user's right ear using a beam forming method for the high-band sound signal (S310:Y) and outputs the L channel signal toward the user's right ear.
  • a plurality of tweeter units can be controlled so that the channel signal is output directionally toward the user's left ear.
  • the high-band sound signal may be a sound signal above a critical frequency.
  • the threshold frequency may be determined based on the performance of beam forming of the high-band acoustic signal. For example, the threshold frequency may be 2kHz, but is not limited thereto.
  • the crosstalk removal method using HRTF may not be used for high-band acoustic signals. This is because, in the case of high-range acoustic signals, it is not easy to control the high-band phase at the desired listening position, and the higher the range, the more sensitive it is to the user's listening position (for example, a narrow sweet spot). Accordingly, a speaker array can be configured with the optimal number of tweeter units that reproduce high-range sound signals, and an effective beam forming method can be used even in a small length speaker array.
  • HRTF Head Related Transfer Function
  • the processor 130 may control a plurality of midrange units to output R channel signals and L channel signals for low and mid range sound signals (S330:Y) using a psychoacoustic model.
  • the mid- to low-range sound signal may be a sound signal below the critical frequency.
  • the psychoacoustic model may include a Head Related Transfer Function (HRTF). HRTF means playing the same sound in all directions, measuring the frequency response according to direction, and organizing it into a three-dimensional function.
  • HRTF Head Related Transfer Function
  • HRTF is an acoustic transfer function between the sound source and the eardrum, and contains a lot of information representing the characteristics of the space through which the sound has been transmitted, including the time difference between the two ears, the level difference between the two ears, and the shape of the auricle (pinna). There may be.
  • HRTF contains information about the auricle, which has a critical influence on the localization of sound images above and below, and since modeling the posterior wheel is not easy, it can mainly be obtained through measurement.
  • the heavy processor 130 may use HRTF for the inverse acoustic signal without using beam forming. This is because the crosstalk removal method using HRTF is effective for low-to-mid range sound signals.
  • FIG. 4 is a diagram for explaining a method of outputting sound from an electronic device according to an embodiment.
  • the processor 130 may identify the user's direction (or user's angle) with respect to the electronic device 100 (S410).
  • the processor 130 may identify the user's direction using the user's voice through a plurality of microphones included in the microphone array 140.
  • the user's direction may be the angle at which the user is positioned relative to the electronic device 100.
  • the user's angle may be a horizontal angle with the electronic device 100 of 0 degrees, and the angle may increase counterclockwise to 360 degrees (same as 0 degrees), but is not limited thereto.
  • the user's angle may increase up to 180 degrees with the front direction of the electronic device 100 being 0 degrees, the clockwise direction being the + direction, and the counterclockwise direction being the - direction.
  • the processor 130 may apply a beam forming filter corresponding to the identified user's direction to the high-band acoustic signal (S420).
  • a beam forming filter may be a filter for processing an acoustic signal and focusing it on a specific location.
  • the processor 130 may identify a filter coefficient (or parameter) corresponding to the user's direction and apply a beam forming filter including the identified filter coefficient to the high-band acoustic signal.
  • the processor 130 may identify a pre-designed beam forming filter corresponding to the user's direction and apply the identified beam forming filter to the high-band acoustic signal.
  • the processor 130 identifies a beam forming filter corresponding to each of a plurality of tweeter units based on the user direction and applies the beam forming filter corresponding to the high-band sound signal output through each of the plurality of tweeter units. You can.
  • the processor 130 may control a plurality of tweeter units to output R channel signals and L channel signals to which beam forming filters are applied (S430).
  • the processor 130 applies a beam forming filter to the high-band acoustic signal based on the identified user direction so that the R channel signal is output toward the user's right ear and the L channel signal is output toward the user's left ear.
  • Multiple tweeter units can be controlled to produce directional output.
  • the processor 130 may apply an HRTF filter corresponding to the identified user's direction to the low-to-mid range sound signal (S440).
  • the HRTF filter may be a filter that supports the HRTF function.
  • the processor 130 may identify HRTF filter coefficients (or parameters) corresponding to the user's direction, and apply the HRTF filter including the identified filter coefficients to the low-to-mid range acoustic signal.
  • the processor 130 may identify a pre-designed HRTF filter corresponding to the user's direction and apply the identified HRTF filter to the mid- to low-range acoustic signal.
  • the processor 130 identifies an HRTF filter corresponding to each of a plurality of midrange units based on the user direction, and applies the HRTF filter corresponding to the low-to-mid range sound signal output through each of the plurality of midrange units. You can.
  • the processor 130 may control a plurality of midrange units to output R channel signals and L channel signals to which HRTF filters are applied.
  • processor 130 may apply an HRTF filter to remove crosstalk of the R-channel signal and the L-channel signal based on the identified user direction.
  • the memory 120 may store a beam forming filter corresponding to each of a plurality of user directions and an HRTF filter corresponding to each of a plurality of user directions.
  • the memory 120 includes a first beam forming filter corresponding to the R channel signal and the L channel signal in the first direction with respect to the electronic device 100, and an R channel in a second direction different from the first direction.
  • Second beam forming filters corresponding to each signal and the L channel signal may be stored.
  • the first beam forming filter and the second beam forming filter may include filters corresponding to each of the plurality of tweeter units.
  • the memory 120 includes a first HRTF filter corresponding to the R channel signal and the L channel signal in the first direction, respectively, with respect to the electronic device 100, and the R channel signal and the L channel signal in the second direction different from the first direction.
  • a second HRTF filter corresponding to each channel signal may be stored.
  • the first HRTF filter and the second HRTF filter may include filters corresponding to each of a plurality of midrange units.
  • Figure 5 is a diagram for explaining a control method of an electronic device according to an embodiment.
  • the processor 130 when the user direction corresponds to the first direction (S510:Y), the processor 130 responds to the R channel signal and the L channel signal of the high-band sound signal output through a plurality of tweeter units.
  • the first beam forming filter can be applied (S520). Accordingly, the R channel signal may be directional output toward the user's right ear located in the first direction, and the L channel signal may be directional output toward the user's left ear.
  • the processor 130 may apply the first HRTF filter to the R channel signal and L channel signal of the low-to-mid range sound signal output through a plurality of midrange units.
  • the processor 130 applies the second beam forming filter to the R channel signal and the L channel signal of the high-band sound signal output through a plurality of tweeter units. (S550). Accordingly, the R channel signal may be directional output toward the user's right ear located in the second direction, and the L channel signal may be directional output toward the user's left ear. Additionally, the processor 130 may apply a second HRTF filter to the R channel signal and L channel signal of the mid-to-low range sound signal output through a plurality of midrange units.
  • the memory 120 may store a beam forming filter corresponding to each of a plurality of user directions, a beam forming filter corresponding to each of a plurality of tweeter units, and an HRTF filter corresponding to each of a plurality of midrange units.
  • the memory 120 may store a first beam forming filter corresponding to the R channel signal and the L channel signal in the first direction for each of the plurality of tweeter units.
  • the memory 120 may store second beam forming filters corresponding to the R channel signal and the L channel signal in the second direction for each of the plurality of tweeter units.
  • the memory 120 may store a first HRTF filter corresponding to the R channel signal and the L channel signal in the first direction for each of the plurality of midrange units. Additionally, the memory 120 may store second HRTF filters corresponding to the R channel signal and the L channel signal in the second direction for each of the plurality of midrange units.
  • the processor 130 identifies a first beam forming filter to be applied to the R channel signal corresponding to each of the plurality of tweeter units, and applies the identified first beam forming filter to each of the plurality of tweeter units. It can be applied to the R channel signal to be output through.
  • the processor 130 identifies a first beam forming filter to be applied to the L channel signal corresponding to each of the plurality of tweeter units, and applies the identified first beam forming filter to the L channel signal to be output through each of the plurality of tweeter units. It can be applied.
  • the processor 130 identifies a first HRTF filter to be applied to the R channel signal corresponding to each of the plurality of midrange units, and applies the identified first HRTF filter to the plurality of midrange units. It can be applied to the R channel signal to be output through each unit. Additionally, the processor 130 identifies a first HRTF filter to be applied to the L channel signal corresponding to each of the plurality of midrange units, and applies the identified first HRTF filter to the L channel signal to be output through each of the plurality of midrange units. It can be applied.
  • the processor 130 identifies a second beam forming filter to be applied to the R channel signal corresponding to each of the plurality of tweeter units, and applies the identified second beam forming filter to each of the plurality of tweeter units. It can be applied to the R channel signal to be output through.
  • the processor 130 identifies a second beam forming filter to be applied to the L channel signal corresponding to each of the plurality of tweeter units, and applies the identified second beam forming filter to the L channel signal to be output through each of the plurality of tweeter units. It can be applied.
  • the processor 130 identifies a second HRTF filter to be applied to the R channel signal corresponding to each of the plurality of midrange units, and applies the identified second HRTF filter to the plurality of midrange units. It can be applied to the R channel signal to be output through each unit. Additionally, the processor 130 identifies a second HRTF filter to be applied to the L channel signal corresponding to each of the plurality of tweeter units, and applies the identified second HRTF filter to the L channel signal to be output through each of the plurality of midrange units. can do.
  • the memory 120 may store a plurality of beam forming filter sets corresponding to a plurality of user directions.
  • the number of beam forming filters included in the beam forming filter set may be equal to the number of tweeter units.
  • each of the plurality of beam forming filters included in the beam forming filter set may correspond to each of the plurality of tweeter units. That is, the acoustic signal that has passed through the beam forming filter may be output through the tweeter unit corresponding to the beam forming filter.
  • the sound signal passes through a plurality of beam forming filters included in the beam forming filter set and is output through a plurality of tweeter units, the sound signal is transmitted to the beam forming filter set due to overlap and cancellation between the output sound signals.
  • a sound field may be formed to focus at a corresponding distance.
  • coefficients of a plurality of beam forming filters included in the beam forming filter set may be determined in advance so that the acoustic signal is focused at a specific distance.
  • the memory 120 may store a beam forming filter set for the R channel signal and a beam forming filter set for the L channel signal for each of a plurality of user directions.
  • the coefficients of a plurality of beam forming filters included in the beam forming filter set for the R channel signal may be determined in advance so that the sound signal is focused on the position of the user's right ear located in a specific direction with respect to the electronic device 100.
  • the coefficients of the plurality of beam forming filters included in the beam forming filter set for the L channel signal may be determined in advance so that the sound signal is focused on the user's left ear located in a specific direction with respect to the electronic device 100.
  • the R channel signal output after passing through the beam forming filter set for the R channel signal enters the user's right ear located in a specific direction with respect to the electronic device 100, and enters the beam forming filter set for the L channel signal. After passing through, the output L channel signal can enter the user's left ear a certain distance away from the electronic device 100.
  • the processor 130 outputs a plurality of R channel signals and L channel signals using a beam forming filter set corresponding to the user's direction with respect to the electronic device 100 among the plurality of beam forming filter sets stored in the memory 120. You can control the tweeter unit.
  • the processor 130 can identify a beam forming filter set for the R channel signal and a beam forming filter set for the L channel signal that correspond to the user's direction among the plurality of beam forming filter sets stored in the memory 120. there is.
  • the processor 130 may input the R channel signal to each of a plurality of beam forming filters included in the beam forming filter set for the R channel signal. For example, the processor 130 may generate a plurality of R channel signals using a buffer, etc., and input the plurality of R channel signals to a plurality of beam forming filters. Subsequently, the processor 130 may output a plurality of R channel signals that have passed through a plurality of beam forming filters through a plurality of tweeter units.
  • the processor 130 may input the L channel signal to each of a plurality of beam forming filters included in the beam forming filter set for the L channel signal. For example, the processor 130 may generate a plurality of L-channel signals using a buffer or the like, and input the plurality of L-channel signals to a plurality of beam forming filters. Subsequently, the processor 130 may output a plurality of L channel signals that have passed through a plurality of beam forming filters through a plurality of tweeter units.
  • the R and L sound signals output from the electronic device 100 may be focused on the right and left sides of the user, respectively, providing a three-dimensional sound effect to the user.
  • the processor 130 may identify the user's direction using a Direction of Arrival (DOA) technique.
  • DOA Direction of Arrival
  • the processor 130 may analyze the user's voice signal received through a plurality of microphones included in the microphone array 140 to estimate the user's speech angle and identify the user's location based on this.
  • the user's voice may include at least one of a random utterance or a preset trigger word.
  • the DOA technique is a technique for obtaining direction information about a voice signal by using the correlation between voice signals received through each microphone among the plurality of microphones included in the microphone array 140. Specifically, according to the DOA technique, when a voice signal is received at a specific angle of incidence by a plurality of microphones, the processor 130 determines the voice signal based on the delay distance and delay time according to the difference in the distance at which the voice signal arrives at each microphone. The angle of incidence of the signal can be obtained, and direction information about the received voice signal can be obtained based on the acquired angle of incidence.
  • the processor 130 may delay voice signals received through a plurality of microphones and calculate a cross-correlation value between the delayed voice signals. In this case, the processor 130 may determine a delay time at which the cross-correlation value is maximum. Additionally, the processor 130 may estimate the angle of incidence of the voice signal using the determined delay time, the speed of the voice signal (eg, the speed of sound), and the distance between microphones.
  • the processor 130 may determine the direction in which the voice signal is received based on the time difference between the first reception time when the voice signal in a specific direction is received by the first microphone and the second reception time when the voice signal in a specific direction is received by the second microphone.
  • the memory 120 may store a pre-measured reception time difference value and correlation data in the reception direction.
  • processor 140 may select one of all directions (directions between “0 degrees” and “360”) based on the reception time difference (e.g., 0 seconds) between the first and second reception times.
  • a specific direction (eg, “90 degrees”) corresponding to the corresponding reception time difference can be obtained from correlation data.
  • the processor 140 can obtain direction information about the voice signal using various incidence angle estimation algorithms such as Multiple signal Classification (MUSIC) and Generalized Cross Correlation with Phase Transform (GCCPHAT).
  • MUSIC Multiple signal Classification
  • GCCPHAT Generalized Cross Correlation with Phase Transform
  • FIGS. 6A and 6B are diagrams for explaining an example of beam forming implementation according to an embodiment.
  • the beam forming characteristics of the acoustic signal are shown in the shape of light to aid understanding.
  • beam forming is applied to a plurality of tweeter units included in the speaker array to radiate high-range sound signals in the direction of the user's left and right ears, that is, in a narrow range, resulting in high directivity characteristics Torque can be eliminated.
  • Figure 6b shows the results of beam forming simulation for a 3 kHz signal using 5 tweeter units as shown in Figure 1b.
  • FIGS. 7A to 7C are diagrams for explaining an example of beam forming implementation according to an embodiment.
  • beam forming can be variably applied depending on the user's location.
  • beam forming is applied to a plurality of tweeter units to correspond to the case where the user is located in front of the electronic device 100 and when the user is located about 30 degrees to the right. can do. Accordingly, even if the user's position changes, crosstalk can be eliminated by radiating high-range sound signals in the direction of the user's left and right ears.
  • FIG. 7C shows the results of beam forming simulation at the user location in FIG. 7B for a 3 kHz signal using five tweeter units as shown in FIG. 1B.
  • FIGS. 8A and 8B are diagrams for explaining a method of applying HRTF according to an example.
  • an HRTF filter corresponding to the user's direction based on the sound source location may be designed and applied in advance.
  • HRTF filters corresponding to each of a plurality of user directions based on the sound source location for example, filter values for each tweeter unit, may be designed in advance.
  • the inverse matrix of HRTF in the actual listening space can be applied as a filter value.
  • HRTF eg, HRIR
  • FIGS. 9A and 9B are diagrams for explaining a method of applying HRIR according to an example.
  • crosstalk removal suitable for the user's location can be performed by selecting a Head Related Impulse Response (HRIR) corresponding to the user's direction and adjusting the delay.
  • HRIR Head Related Impulse Response
  • HRTF H(f) may be the Fourier transform of HRIR h(t).
  • a pre-calculated value corresponding to the user's direction (for example, a pre-corrected value for gain and/or delay) is stored, and the pre-calculated value corresponding to the direction can be applied as is. .
  • a crosstalk removal method optimized for small-volume sound reproduction devices can be provided.
  • the methods according to various embodiments of the present disclosure described above may be implemented in the form of applications that can be installed on existing electronic devices.
  • the methods according to various embodiments of the present disclosure described above may be performed using a deep learning-based artificial neural network (or deep artificial neural network), that is, a learning network model.
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media (e.g., a computer).
  • the device is a device capable of calling instructions stored from a storage medium and operating according to the called instructions, and may include an electronic device (eg, electronic device A) according to the disclosed embodiments.
  • the processor may perform the function corresponding to the instruction directly or using other components under the control of the processor.
  • Instructions may contain code generated or executed by a compiler or interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium does not contain signals and is tangible, and does not distinguish whether the data is stored semi-permanently or temporarily in the storage medium.
  • the method according to the various embodiments described above may be included and provided in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed on a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or online through an application store (e.g. Play StoreTM).
  • an application store e.g. Play StoreTM
  • at least a portion of the computer program product may be at least temporarily stored or created temporarily in a storage medium such as the memory of a manufacturer's server, an application store server, or a relay server.
  • each component e.g., module or program
  • each component may be composed of a single or multiple entities, and some of the sub-components described above may be omitted, or other sub-components may be omitted. Additional components may be included in various embodiments. Alternatively or additionally, some components (e.g., modules or programs) may be integrated into a single entity and perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or at least some operations may be executed in a different order, omitted, or other operations may be added. You can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는, 복수의 스피커 유닛을 포함하는 스피커 어레이, 적어도 하나의 명령어를 저장하는 메모리 및, 스피커 어레이 및 메모리와 연결되어 전자 장치를 제어하는 하나 이상의 프로세서를 포함한다. 복수의 스피커 유닛은, 임계 주파수 이상의 고역 음향 신호를 출력하는 복수의 트위터(tweeter) 유닛 및 임계 주파수 미만의 중저역 음향 신호를 출력하는 복수의 미드레인지(midrange) 유닛을 포함한다. 하나 이상의 프로세서는, 적어도 하나의 명령어를 실행함으로써, 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하고, 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어할 수 있다.

Description

전자 장치 및 그 음향 출력 방법
본 개시는 전자 장치 및 그 음향 출력 방법에 관한 것으로, 더욱 상세하게는 복수의 스피커 유닛을 포함하는 전자 장치 및 그 음향 출력 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 장치가 개발되고 있다. 특히, 더 새롭고 다양한 기능을 원하는 사용자의 니즈(needs)에 부합하기 위하여 음향 출력 장치는 다양한 컨텐츠의 특성에 대응되는 음향을 제공하도록 개발되고 있다.
일 실시 예에 따른 전자 장치는, 복수의 스피커 유닛을 포함하는 스피커 어레이, 적어도 하나의 명령어를 저장하는 메모리 및, 상기 스피커 어레이 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 하나 이상의 프로세서를 포함한다. 상기 복수의 스피커 유닛은, 임계 주파수 이상의 고역 음향 신호를 출력하는 복수의 트위터(tweeter) 유닛 및 상기 임계 주파수 미만의 중저역 음향 신호를 출력하는 복수의 미드레인지(midrange) 유닛을 포함한다. 상기 하나 이상의 프로세서는,상기 적어도 하나의 명령어를 실행함으로써, 상기 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하고, 상기 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어한다.
일 예에 따르면, 상기 하나 이상의 프로세서는, 상기 전자 장치를 기준으로 사용자의 방향을 식별하고, 상기 고역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 빔 포밍 필터를 적용하고 상기 빔 포밍 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 트위터 유닛을 제어하고, 상기 중저역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 HRTF(Head Related Transfer Function) 필터를 적용하고, 상기 HRTF 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어할 수 있다.
일 예에 따르면, 복수의 마이크를 포함하는 마이크 어레이를 더 포함하며, 상기 하나 이상의 프로세서는, 상기 복수의 마이크를 통해 사용자 음성이 수신된 시간 차에 기초하여 상기 사용자의 방향을 식별하고, 상기 식별된 사용자 방향에 기초하여 상기 고역 음향 신호에 대해 빔 포밍 방식을 이용하여 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어할 수 있다.
일 예에 따르면, 상기 메모리는, 상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 빔 포밍 필터 및 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 빔 포밍 필터를 저장할 수 있다. 상기 하나 이상의 프로세서는, 상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하고, 상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어할 수 있다.
일 예에 따르면, 상기 메모리는, 상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 HRTF 필터 및 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 HRTF 필터를 저장할 수 있다. 상기 하나 이상의 프로세서는, 상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 HRTF 필터를 적용하여 상기 제1 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하고, 상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 HRTF 필터를 적용하여 상기 제2 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어할 수 있다.
일 예에 따르면, 상기 복수의 스피커 유닛은, 상기 스피커 어레이의 중앙 부분에 배치된 복수의 제1 트위터 유닛, 상기 복수의 제1 트위터 유닛의 우측 및 좌측으로 이격 배치된 복수의 제2 트위터 유닛, 및 상기 복수의 제2 트위터 유닛 일측에 배치된 복수의 미드레인지 유닛을 포함할 수 있다.
일 예에 따르면, 상기 복수의 제1 트위터 유닛은, 일렬로 배치된 3개의 트위터 유닛을 포함하고, 상기 복수의 제2 트위터 유닛은, 상기 3개의 트위터 유닛의 우측에 배치된 우측 트위터 유닛 및 상기 3개의 트위터 유닛의 좌측에 배치된 좌측 트위터 유닛을 포함할 수 있다. 상기 복수의 미드레인지 유닛은, 상기 우측 트위터 유닛의 우측에 배치된 제1 미드레인지 유닛 및 상기 좌측 트위터 유닛의 좌측에 배치된 제2 미드레인지 유닛을 포함할 수 있다.
일 예에 따르면, 상기 하나 이상의 프로세서는, 음향 신호에 대해 하이 패스 필터(High Pass Filter)를 적용하여 상기 고역 음향 신호를 획득하고, 상기 음향 신호에 대해 로우 패스 필터(Low Pass Filter)를 적용하여 상기 중저역 음향 신호를 획득할 수 있다.
일 실시 예에 따르면, 복수의 스피커 유닛을 포함하는 스피커 어레이를 포함하는 전자 장치의 음향 출력 방법은, 임계 주파수 이상의 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어하는 단계 및, 상기 임계 주파수 미만의 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 복수의 스피커 유닛을 포함하는 스피커 어레이를 포함하는 전자 장치의 하나 이상의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은, 임계 주파수 이상의 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어하는 단계 및, 상기 임계 주파수 미만의 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어하는 단계를 포함할 수 있다.
도 1a 내지 도 1c은 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 도면이다.
도 2a는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 2b는 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 블럭도이다.
도 2c는 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 블럭도이다.
도 3은 일 실시 예에 따른 전자 장치의 음향 출력 방법을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 전자 장치의 음향 출력 방법을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
도 6a 및 도 6b는 일 실시 예에 따른 빔 포밍 구현 예를 설명하기 위한 도면들이다.
도 7a 내지 도 7c는 일 실시 예에 따른 빔 포밍 구현 예를 설명하기 위한 도면들이다.
도 8a 및 도 8b는 일 예에 따른 HRTF 적용 방법을 설명하기 위한 도면들이다.
도 9a 및 도 9b는 일 예에 따른 HRIR 적용 방법을 설명하기 위한 도면들이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어(operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
실시 예에 있어서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1a 내지 도 1c은 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 도면이다.
전자 장치(100)는 복수의 스피커 유닛을 포함하는 스피커 어레이를 포함할 수 있다. 이 경우, 전자 장치(100)는 사운드바, 홈씨어터 시스템, One box 스피커, 룸 스피커, 프론트 서라운드 스피커 등으로 구현될 수 있다. 다만, 이 예에 한정되는 것은 아니고, 복수의 스피커 유닛을 포함하는 장치라면 본 개시에 따른 전자 장치(100)가 될 수 있다. 예를 들어, 전자 장치(100)는 복수의 스피커 유닛을 구비한 TV, 오디오 장치, 사용자 단말 등으로 구현 가능하다.
전자 장치(100)에 포함된 복수의 스피커 유닛은 전기 펄스를 음파로 변환시키는 기능을 하며, 전기 신호를 음파로 변환시키는 원리와 방법에 따라 구분되는 동전형(動電型) 즉, 다이내믹 형으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 복수의 스피커 유닛은 본 발명이 적용되는 범위 내에서 정전형(靜電型), 유전체형(誘電體型), 자기왜형(磁氣歪型) 등으로 구현될 수도 있다.
또한, 전자 장치(100)는 재생 대역을 저음/중음/고음으로 음역을 구분하고, 각각에 알맞은 스피커 유닛에 구분된 음역을 분담시키는 멀티웨이 방식으로 구현될 수 있다.
일 예로, 두 가지 타입의 스피커에 재생 대역을 분담시킨 2 웨이 방식의 경우, 복수의 스피커 유닛은 트위터 유닛(Tweeter uint) 및 미드레인지 유닛(Midrange unit)를 포함하는 형태로 구현될 도 있다.
일 예로, 세 가지 타입의 스피커에 재생 대역을 분담시킨 3 웨이 방식의 경우, 복수의 스피커 유닛은 고주파 음향 신호를 재생하기 위한 트위터 유닛(Tweeter uint), 중간 주파수 음향 신호를 재생하기 위한 미드레인지 유닛(Midrange unit), 저주파 음향 신호를 재생하기 위한 적어도 하나의 우퍼 유닛(woofer unit) 등을 포함하는 형태로 구현될 수 있다.
도 1a는 전자 장치(100)의 일 구현 예를 나타내는 도면이다.
도 1a에 도시된 바와 같이, 전자 장치(100)에 포함된 복수의 스피커 유닛은 고주파수 대역의 음향 신호 즉, 고역 음향 신호를 재생하는 복수의 트위터 유닛(Tweeter uint)(10), 중간 주파수 대역 및 저주파수 대역의 음향 신호 즉, 중저역 음향 신호를 재생하는 복수의 미드레인지 유닛(20)을 포함할 수 있다.
예를 들어, 복수의 트위터 유닛(10)은 스피커 어레이의 중앙 부분에 배치된 복수의 제1 트위터 유닛(11, 12, 13) 및 복수의 제1 트위터 유닛(11, 12, 13)의 우측 및 좌측으로 이격 배치된 복수의 제2 트위터 유닛(14, 15)를 포함할 수 있다.
이 경우, 복수의 제1 트위터 유닛(11, 12, 13)은 일렬로 배치된 3개의 트위터 유닛(11, 12, 13)을 포함할 수 있다. 그리고, 복수의 제2 트위터 유닛(14, 15)은 3 개의 트위터 유닛(11, 12, 13)의 우측에 배치된 우측 트위터 유닛(14) 및 3 개의 트위터 유닛(11, 12, 13)의 좌측에 배치된 좌측 트위터 유닛(15)을 포함할 수 있다. 즉, 우측 트위터 유닛(14)은 스피커 어레이의 중앙 부분에 배치된 3 개의 트위터 유닛(11, 12, 13) 중 최우측 트위터 유닛(11)의 우측에 배치되고, 좌측 트위터 유닛(15)은 스피커 어레이의 중앙 부분에 배치된 3개의 트위터 유닛(11, 12, 13) 중 최좌측 트위터 유닛(13)의 좌측에 배치될 수 있다. 다만, 복수의 트위터 유닛의 개수 및/또는 배치 위치는 반드시 이에 한정되는 것은 아니다.
복수의 미드레인지 유닛(21, 22)은 복수의 제2 트위터 유닛(14, 15) 일측에 배치될 수 있다. 이 경우, 복수의 미드레인지 유닛(21, 22)은 우측 트위터 유닛(14)의 우측에 배치된 제1 미드레인지 유닛(21) 및 좌측 트위터 유닛(15)의 좌측에 배치된 제2 미드레인지 유닛(22)을 포함할 수 있다. 다만, 복수의 미드레인지 유닛의 개수 및 배치 위치는 반드시 이에 한정되는 것은 아니다.
도 1b는 전자 장치(100)의 세부 구현 예를 나타내는 도면이다.
일 예에 따라 도 1b에 도시된 바와 같이 전자 장치(100)는 도 1a에 도시된 바와 같은 스피커 어레이 뿐 아니라, 복수의 마이크를 포함하는 마이크 어레이(30)를 더 포함할 수 있다. 마이크 어레이(30)는 복수 개의 마이크 일정한 간격으로 배치되도록 구현될 수 있다. 도 1b에서는 마이크 어레이(30)가 4 개의 마이크를 포함하는 것으로 도시하였으나 이에 한정되는 것은 아니다. 일 예에 따라 마이크 어레이(30)는 사용자의 방향을 식별하는데 이용될 수 있다.
도 1c는 일 예에 따른 스피커 어레이의 구현 수치를 설명하기 위한 도면이다.
일 예에 따라 전자 장치(100)는 작은 체적의 스피커 어레이를 포함할 수 있다. 예를 들어, 각 스피커 유닛 별 거리 간 수치는 도 1c에 도시된 바와 같을 수 있으나, 반드시 이에 한정되는 것은 아니다.
한편, 최근 헤드폰/헤드셋/이어폰과 같은 프라이빗 음향 출력 기기를 통해 사용자에게 입체 음향을 제공할 수 있는 메타버스, VR, 게임, 개인 영상 업로드 컨텐츠 등과 같은 컨텐츠의 사용량이 증가하고 있다.
사용자가 프라이빗 음향 출력 기기를 사용할 경우, L(Left) 채널 신호는 사용자의 왼쪽 귀로만 들어가며 반대로, R(Right) 채널 신호는 사용자의 오른쪽 귀로만 들어가게 된다. 예를 들어, Binaural Audio Contents의 경우, 프라이빗 음향 출력 기기로 청취 시 완벽한 입체 음향 체험이 가능하게 된다.
반면, 일반 스피커의 경우, L 채널(또는 R 채널)의 신호는 사용자의 왼쪽 귀 뿐 아니라 오른쪽 귀에도 들어가게 된다. 이와 같은 크로스토크(Crosstalk) 현상으로 인해 입체 음향 효과 반감될 수 밖에 없다.
이하에서는 작은 체적의 스피커 어레이에서 입체 음향 효과를 최대화하기 위하여 효과적으로 크로스토크를 제거할 수 있는 다양한 실시 예에 대해 설명하도록 한다.
도 2a는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 2a에 따르면 전자 장치(100)은 스피커 어레이(110), 메모리(120) 및 하나 이상의 프로세서(130)를 포함한다.
스피커 어레이(110)는 복수의 스피커 유닛을 포함한다. 일 예에 따라, 도 1a에 도시된 바와 같이, 복수의 스피커 유닛은 복수의 트위터 유닛(10) 및 복수의 미드레인지 유닛(20)을 포함할 수 있다. 이에 대해 도 1a에서 자세히 설명하였으므로, 추가 설명은 생략하도록 한다.
메모리(120)는 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(120)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다.
한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
하나 이상의 프로세서(130)는 전자 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 하나 이상의 프로세서(130)는 전자 장치(100)의 각 구성과 연결되어 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 하나 이상의 프로세서(130)는 스피커 어레이(110) 및 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 하나 이상의 프로세서(130)는 하나 또는 복수의 프로세서로 구성될 수 있다.
하나 이상의 프로세서(130)는 메모리(120)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.
하나 이상의 프로세서(130)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), NPU (Neural Processing Unit), 하드웨어 가속기 또는 머신 러닝 가속기 중 하나 이상을 포함할 수 있다. 하나 이상의 프로세서(130)는 전자 장치의 다른 구성요소 중 하나 또는 임의의 조합을 제어할 수 있으며, 통신에 관한 동작 또는 데이터 처리를 수행할 수 있다. 하나 이상의 프로세서(130)는 메모리에 저장된 하나 이상의 프로그램 또는 명령어(instruction)을 실행할 수 있다. 예를 들어, 하나 이상의 프로세서는 메모리에 저장된 하나 이상의 명령어를 실행함으로써, 본 개시의 일 실시 예에 따른 방법을 수행할 수 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 제 3 동작이 수행될 때, 제 1 동작, 제 2 동작, 및 제 3 동작 모두 제 1 프로세서에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 제 1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제 3 동작은 제 2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다.
하나 이상의 프로세서(130)는 하나의 코어를 포함하는 단일 코어 프로세서(single core processor)로 구현될 수도 있고, 복수의 코어(예를 들어, 동종 멀티 코어 또는 이종 멀티 코어)를 포함하는 하나 이상의 멀티 코어 프로세서(multicore processor)로 구현될 수도 있다. 하나 이상의 프로세서(130)가 멀티 코어 프로세서로 구현되는 경우, 멀티 코어 프로세서에 포함된 복수의 코어 각각은 캐시 메모리, 온 칩(On-chip) 메모리와 같은 프로세서 내부 메모리를 포함할 수 있으며, 복수의 코어에 의해 공유되는 공통 캐시가 멀티 코어 프로세서에 포함될 수 있다. 또한, 멀티 코어 프로세서에 포함된 복수의 코어 각각(또는 복수의 코어 중 일부)은 독립적으로 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있고, 복수의 코어 전체(또는 일부)가 연계되어 본 개시의 일 실시 예에 따른 방법을 구현하기 위한 프로그램 명령을 판독하여 수행할 수도 있다.
본 개시의 일 실시 예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 멀티 코어 프로세서에 포함된 복수의 코어 중 하나의 코어에 의해 수행될 수도 있고, 복수의 코어에 의해 수행될 수도 있다. 예를 들어, 일 실시 예에 따른 방법에 의해 제 1 동작, 제 2 동작, 및 제 3 동작이 수행될 때, 제 1 동작, 제2 동작, 및 제3 동작 모두 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행될 수도 있고, 제 1 동작 및 제 2 동작은 멀티 코어 프로세서에 포함된 제 1 코어에 의해 수행되고 제 3 동작은 멀티 코어 프로세서에 포함된 제 2 코어에 의해 수행될 수도 있다.
본 개시의 실시 예들에서, 프로세서는 하나 이상의 프로세서 및 기타 전자 부품들이 집적된 시스템 온 칩(SoC), 단일 코어 프로세서, 멀티 코어 프로세서, 또는 단일 코어 프로세서 또는 멀티 코어 프로세서에 포함된 코어를 의미할 수 있으며, 여기서 코어는 CPU, GPU, APU, MIC, DSP, NPU, 하드웨어 가속기 또는 기계 학습 가속기 등으로 구현될 수 있으나, 본 개시의 실시 예들이 이에 한정되는 것은 아니다. 이하에서는 설명의 편의를 위하여 하나 이상의 프로세서(130)를 프로세서(130)로 명명하도록 한다.
도 2b는 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 블럭도이다.
도 2b에 따르면 전자 장치(100')은 스피커 어레이(110), 메모리(120), 하나 이상의 프로세서(130) 및 마이크 어레이(140)를 포함할 수 있다.
스피커 어레이(110), 메모리(120) 및 하나 이상의 프로세서(130)는 도 2b에 도시된 구성과 동일하므로 자세한 설명은 생략하도록 한다.
마이크 어레이(140)는 사용자 음성이나 기타 소리를 입력받아 오디오 데이터로 변환할 수 있다.
이 경우, 마이크 어레이(140)는 복수의 마이크를 포함할 수 있다. 일 예에 따라 스피커 어레이(140)는 도 1b에 도시된 마이크 어레이(30)로 구현되며, 전자 장치(100)의 기 정해진 위치, 예를 들어, 중앙 영역에 배치될 수 있다.
도 2c는 일 실시 예에 따른 전자 장치의 일 구현 예를 나타내는 블럭도이다.
도 2c에 따르면 전자 장치(100'')은 스피커 어레이(110), 메모리(120), 하나 이상의 프로세서(130), 마이크 어레이(140), 통신 인터페이스(150), 사용자 인터페이스(160) 및 디스플레이(170)를 포함할 수 있다. 그러나, 이와 같은 구성은 예시적인 것으로서, 본 개시를 실시함에 있어 이와 같은 구성에 더하여 새로운 구성이 추가되거나 일부 구성이 생략될 수 있음을 물론이다. 한편, 한편, 도 2c에 도시된 구성 중 도 2a 및 도 2b에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명은 생략하도록 한다.
통신 인터페이스(150)는 회로(circuitry)를 포함한다. 그리고, 통신 인터페이스(150)는 전자 장치(100)의 구현 예에 따라 다양한 통신 방식을 지원할 수 있다.
예를 들어, 통신 인터페이스(150)는 블루투스(Bluetooth), AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial) 등과 같은 통신 방식을 통해 외부 장치, 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 클라우드 서버) 등과 통신을 수행할 수 있다.
이 경우, 통신 인터페이스(150)는 외부 장치, 서버 등으로부터 데이터를 수신하고, 외부 장치, 서버 등으로 데이터를 송신할 수 있다. 예를 들어, 통신 인터페이스(150)는 R 채널 및 L 채널을 포함하는 음향 신호를 수신할 수 있다. 여기에서, 음향 신호는 스테레오 신호 또는 다채널 신호일 수 있다.
사용자 인터페이스(160)는 회로를 포함한다. 그리고, 사용자 인터페이스(160)는 사용자 명령을 입력받을 수 있다. 이를 위해, 사용자 인터페이스(160)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린 등으로 구현될 수 있다.
디스플레이(170)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다.
예를 들어, 디스플레이(170)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(170) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로 및 백라이트 유닛 등도 함께 포함될 수 있다.
일 예에 따라, 디스플레이(170)의 전면에는 다양한 유형의 터치 입력을 감지하기 위한 터치 센서가 배치될 수 있다.
예를 들어, 디스플레이(170)는 사용자 손에 의한 터치 입력, 스타일러스 펜과 같은 입력 장치에 의한 터치 입력, 특정 정전 물질에 의한 터치 입력 등 다양한 유형의 터치 입력을 감지할 수 있다. 여기서, 입력 장치는 전자 펜, 스타일러스 펜, S-펜 등 다양한 용어로 지칭될 수 있는 펜 형의 입력 장치로 구현될 수 있다. 일 예에 따라 디스플레이(170)는 평면(flat) 디스플레이, 커브드(curved) 디스플레이, 폴딩(folding) 또는/및 롤링(rolling) 가능한 플렉서블 디스플레이 등으로 구현될 수도 있다.
그 밖에 전자 장치(100'')는 구현 예에 따라 카메라(미도시), 센서(미도시), 튜너(미도시) 및 복조부(미도시) 등을 더 포함할 수도 있다.
일 실시 예에 따르면, 프로세서(130)는 고역 음향 신호에 대해서는 빔 포밍(Beam forming) 방식을 이용하고, 중저역 음향 신호에 대해서는 심리 음향 모델을 이용하여 출력을 제어할 수 있다. 여기서, 고역 음향 신호는 임계 주파수 이상의 음향 신호이고, 중저역 음향 신호는 임계 주파수 미만의 음향 신호일 수 있다. 예를 들어, 프로세서(130)는 입력된 음향 신호에 대해 임계 주파수를 기준으로 하는 하이 패스 필터(High Pass Filter)를 적용하여 고역 음향 신호를 획득하고, 음향 신호에 대해 임계 주파수를 기준으로 하는 로우 패스 필터(Low Pass Filter)를 적용하여 중저역 음향 신호를 획득할 수 있다. 경우에 따라 프로세서(130)는 외부로부터 인코딩된 신호가 입력되면, 디코딩을 수행할 수 있다. 예를 들어, 프로세서(130)는 인코딩된 신호가 SDI 신호라면, 인코딩된 SDI 신호를 디코딩하여 패러럴(parallel) 디지털 데이터로 변환하고, 상술한 필터를 이용하여 가청 주파수 대역을 재생 음역 별로 구분하고 각 재생 음역을 별개의 스피커 유닛이 재생하도록 제어할 수 있다.
도 3은 일 실시 예에 따른 전자 장치의 음향 출력 방법을 설명하기 위한 도면이다.
도 3에 도시된 실시 예에 따르면, 프로세서(130)는 고역 음향 신호에 대해서는(S310:Y), 빔 포밍(Beam forming) 방식을 이용하여 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어할 수 있다. 여기서, 고역 음향 신호는 임계 주파수 이상의 음향 신호일 수 있다. 임계 주파수는 고역 음향 신호의 빔 포밍의 성능에 기초하여 결정될 수 있다. 예를 들어, 임계 주파수는 2kHz일 수 있으나, 이에 한정되는 것은 아니다.
상술한 바와 같이 고역 음향 신호에 대해서는 HRTF(Head Related Transfer Function)를 이용한 Crosstalk 제거 방식이 이용되지 않을 수 있다. 고역 음향 신호의 경우 원하는 청취 위치에서의 고역 위상 제어가 쉽지 않고, 고역으로 갈수록 사용자 청취 위치에 민감하기 때문이다(예를 들어, 좁은 Sweet Spot). 이에 따라 고역 음향 신호를 재생하는 트위터 유닛의 최적 개수로 스피커 어레이를 구성하고 작은 길이의 스피커 어레이에서도 효과적인 빔 포밍 방식을 이용할 수 있다.
또한, 프로세서(130)는 중저역 음향 신호에 대해서는(S330:Y), 심리 음향 모델(Psychoacoustic Model)을 이용하여 R 채널 신호 및 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어할 수 있다. 여기서, 중저역 음향 신호는 임계 주파수 미만의 음향 신호일 수 있다. 심리 음향 모델은 HRTF(Head Related Transfer Function)을 포함할 수 있다. HRTF는 동일한 소리를 전방위에서 재생시켜 방향에 따른 주파수 응답을 측정하여 3차원 함수로 정리한 것을 의미한다. 구체적으로, HRTF는 음원과 고막 사이의 음향학적 전달 함수로서, 두 귀 간의 시간차와 두 귀 간의 레벨차, 귓바퀴의 형상(pinna)을 포함하여 소리가 전달되어 온 공간의 특성을 나타내는 많은 정보가 담겨 있을 수 있다. 특히 HRTF는 위와 아래의 음상 정위에 결정적인 영향을 미치는 귓바퀴에 대한 정보를 포함하며, 그 뒷바퀴에 대한 모델링이 쉽지 않아 주로 측정을 통해 획득될 수 있다.
상술한 바와 같이 중프로세서(130)는 역 음향 신호에 대해서는 빔 포밍을 이용하지 않고 HRTF를 이용할 수 있다. HRTF를 이용한 Crosstalk 제거 방식은 중저역 음향 신호에 대해서는 효과적이기 때문이다.
도 4는 일 실시 예에 따른 전자 장치의 음향 출력 방법을 설명하기 위한 도면이다.
도 4에 도시된 실시 예에 따르면, 프로세서(130)는 전자 장치(100)를 기준으로 사용자의 방향(또는 사용자의 각도)을 식별할 수 있다(S410).
예를 들어, 프로세서(130)는 마이크 어레이(140)에 포함된 복수의 마이크를 통해 사용자 음성을 이용하여 사용자의 방향을 식별할 수 있다. 예를 들어, 사용자의 방향은 전자 장치(100)를 기준으로 사용자가 위치하는 각도일 수 있다. 여기에서, 사용자의 각도는 전자 장치(100)와 수평인 각도를 0도로 하고, 반시계 방향으로 각도가 360도(0도와 동일)까지 증가하는 형태일 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 사용자의 각도는 전자 장치(100)의 정면 방향을 0도로 하고 시계 방향을 + 방향, 반시계 방향을 - 방향으로 하여 180도까지 증가하는 형태일 수도 있다.
프로세서(130)는 고역 음향 신호에 대해 식별된 사용자의 방향에 대응되는 빔 포밍 필터를 적용할 수 있다(S420). 빔 포밍 필터는 음향 신호를 처리하여 특정한 위치에 포커싱시키기 위한 필터일 수 있다. 일 예에 따라 프로세서(130)는 사용자의 방향에 대응되는 필터 계수(또는 파라미터)를 식별하고, 식별된 필터 계수를 포함하는 빔 포밍 필터를 고역 음향 신호에 대해 적용할 수 있다. 다른 예에 따라 프로세서(130)는 사용자의 방향에 대응되는 기 설계된 빔 포밍 필터를 식별하고, 식별된 빔 포밍 필터를 고역 음향 신호에 대해 적용할 수 있다.
일 예에 따라 프로세서(130)는 사용자 방향에 기초하여 복수의 트위터 유닛 각각에 대응되는 빔 포밍 필터를 식별하고, 복수의 트위터 유닛 각각을 통해 출력되는 고역 음향 신호에 대응되는 빔 포밍 필터를 적용할 수 있다.
이어서, 프로세서(130)는 빔 포밍 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 복수의 트위터 유닛을 제어할 수 있다(S430).
예를 들어, 프로세서(130)는 식별된 사용자 방향에 기초하여 고역 음향 신호에 대해 빔 포밍 필터를 적용하여 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어할 수 있다.
또한, 프로세서(130)는 중저역 음향 신호에 대해 식별된 사용자의 방향에 대응되는 HRTF 필터를 적용할 수 있다(S440). 여기서, HRTF 필터란 HRTF 기능을 지원하는 필터일 수 있다. 일 예에 따라 프로세서(130)는 사용자의 방향에 대응되는 HRTF 필터 계수(또는 파라미터)를 식별하고, 식별된 필터 계수를 포함하는 HRTF 필터를 중저역 음향 신호에 대해 적용할 수 있다. 다른 예에 따라 프로세서(130)는 사용자의 방향에 대응되는 기 설계된 HRTF 필터를 식별하고, 식별된 HRTF 필터를 중저역 음향 신호에 대해 적용할 수 있다.
일 예에 따라 프로세서(130)는 사용자 방향에 기초하여 복수의 미드레인지 유닛 각각에 대응되는 HRTF 필터를 식별하고, 복수의 미드레인지 유닛 각각을 통해 출력되는 중저역 음향 신호에 대응되는 HRTF 필터를 적용할 수 있다.
이어서, 프로세서(130)는 HRTF 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어할 수 있다.
예를 들어, 프로세서(130)는 식별된 사용자 방향에 기초하여 R 채널 신호 및 L 채널 신호의 크로스토크가 제거되도록 HRTF 필터를 적용할 수 있다.
일 예에 따라 메모리(120)에는 복수의 사용자 방향 각각에 대응되는 빔 포밍 필터 및 복수의 사용자 방향 각각에 대응되는 HRTF 필터가 저장되어 있을 수 있다. 예를 들어, 메모리(120)에는 전자 장치(100)를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 빔 포밍 필터 및 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 빔 포밍 필터가 저장되어 있을 수 있다. 이 경우, 제1 빔 포밍 필터 및 제2 빔 포밍 필터는 복수의 트위터 유닛 각각에 대응되는 필터를 포함할 수 있다.
또한, 메모리(120)에는 전자 장치(100)를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 HRTF 필터 및 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 HRTF 필터가 저장되어 있을 수 있다. 이 경우, 제1 HRTF 필터 및 제2 HRTF 필터는 복수의 미드레인지 유닛 각각에 대응되는 필터를 포함할 수 있다.
도 5는 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
도 5에 도시된 실시 예에 따르면, 프로세서(130)는 사용자 방향이 제1 방향에 대응되면(S510:Y), 복수의 트위터 유닛을 통해 출력되는 고역 음향 신호의 R 채널 신호 및 L 채널 신호에 제1 빔 포밍 필터를 적용할 수 있다(S520). 이에 따라 R 채널 신호가 제1 방향에 위치하는 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력될 수 있다. 또한, 프로세서(130)는 복수의 미드레인지 유닛을 통해 출력되는 중저역 음향 신호의 R 채널 신호 및 L 채널 신호에 제1 HRTF 필터를 적용할 수 있다.
반면, 프로세서(130)는 사용자 방향이 제2 방향에 대응되면(S540:Y), 복수의 트위터 유닛을 통해 출력되는 고역 음향 신호의 R 채널 신호 및 L 채널 신호에 제2 빔 포밍 필터를 적용할 수 있다(S550). 이에 따라 R 채널 신호가 제2 방향에 위치하는 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력될 수 있다. 또한, 프로세서(130)는 복수의 미드레인지 유닛을 통해 출력되는 중저역 음향 신호의 R 채널 신호 및 L 채널 신호에 제2 HRTF 필터를 적용할 수 있다.
일 예에 따라 메모리(120)에는 복수의 사용자 방향 각각에 대응되며, 복수의 트위터 유닛 각각에 대응되는 빔 포밍 필터 및 복수의 미드레인지 유닛 각각에 대응되는 HRTF 필터가 저장되어 있을 수 있다. 예를 들어, 메모리(120)에는 복수의 트위터 유닛 각각에 대해, 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 빔 포밍 필터가 저장되어 있을 수 있다. 또한 메모리(120)에는 복수의 트위터 유닛 각각에 대해, 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 빔 포밍 필터가 저장되어 있을 수 있다.
또한, 메모리(120)에는 복수의 미드레인지 유닛 각각에 대해, 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 HRTF 필터가 저장되어 있을 수 있다. 또한 메모리(120)에는 복수의 미드레인지 유닛 각각에 대해, 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 HRTF 필터가 저장되어 있을 수 있다.
프로세서(130)는 사용자 방향이 제1 방향으로 식별되면, 복수의 트위터 유닛 각각에 대응되는 R 채널 신호에 적용될 제1 빔 포밍 필터를 식별하고, 식별된 제1 빔 포밍 필터를 복수의 트위터 유닛 각각을 통해 출력될 R 채널 신호에 적용할 수 있다. 또한, 프로세서(130)는 복수의 트위터 유닛 각각에 대응되는 L 채널 신호에 적용될 제1 빔 포밍 필터를 식별하고, 식별된 제1 빔 포밍 필터를 복수의 트위터 유닛 각각을 통해 출력될 L 채널 신호에 적용할 수 있다.
또한, 프로세서(130)는 사용자 방향이 제1 방향으로 식별되면, 복수의 미드레인지 유닛 각각에 대응되는 R 채널 신호에 적용될 제1 HRTF 필터를 식별하고, 식별된 제1 HRTF 필터를 복수의 미드레인지 유닛 각각을 통해 출력될 R 채널 신호에 적용할 수 있다. 또한, 프로세서(130)는 복수의 미드레인지 유닛 각각에 대응되는 L 채널 신호에 적용될 제1 HRTF 필터를 식별하고, 식별된 제1 HRTF 필터를 복수의 미드레인지 유닛 각각을 통해 출력될 L 채널 신호에 적용할 수 있다.
프로세서(130)는 사용자 방향이 제2 방향으로 식별되면, 복수의 트위터 유닛 각각에 대응되는 R 채널 신호에 적용될 제2 빔 포밍 필터를 식별하고, 식별된 제2 빔 포밍 필터를 복수의 트위터 유닛 각각을 통해 출력될 R 채널 신호에 적용할 수 있다. 또한, 프로세서(130)는 복수의 트위터 유닛 각각에 대응되는 L 채널 신호에 적용될 제2 빔 포밍 필터를 식별하고, 식별된 제2 빔 포밍 필터를 복수의 트위터 유닛 각각을 통해 출력될 L 채널 신호에 적용할 수 있다.
또한, 프로세서(130)는 사용자 방향이 제2 방향으로 식별되면, 복수의 미드레인지 유닛 각각에 대응되는 R 채널 신호에 적용될 제2 HRTF 필터를 식별하고, 식별된 제2 HRTF 필터를 복수의 미드레인지 유닛 각각을 통해 출력될 R 채널 신호에 적용할 수 있다. 또한, 프로세서(130)는 복수의 트위터 유닛 각각에 대응되는 L 채널 신호에 적용될 제2 HRTF 필터를 식별하고, 식별된 제2 HRTF 필터를 복수의 미드레인지 유닛 각각을 통해 출력될 L 채널 신호에 적용할 수 있다.
일 예에 따라 메모리(120)는 복수의 사용자 방향에 대응되는 복수의 빔 포밍 필터 셋이 저장되어 있을 수 있다. 예를 들어, 빔 포밍 필터 셋에 포함된 빔 포밍 필터의 개수는 복수의 트위터 유닛의 개수와 동일할 수 있다. 또한, 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터 각각은 복수의 트위터 유닛 각각에 대응될 수 있다. 즉, 빔 포밍 필터를 통과한 음향 신호는 빔 포밍 필터에 대응되는 트위터 유닛을 통해 출력될 수 있다.
즉, 음향 신호가 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터를 통과한 후 복수의 트위터 유닛을 통해 출력되면, 출력된 음향 신호들 간의 중첩과 상쇄로 의해, 음향 신호가 빔 포밍 필터 셋에 대응되는 거리에 포커싱되도록 음장이 형성될 수 있다. 이를 위해, 음향 신호가 특정한 거리에 포커싱되도록, 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터의 계수가 미리 결정될 수 있다.
이 경우, 메모리(120)는 복수의 사용자 방향 별로 R 채널 신호를 위한 빔 포밍 필터 셋 및 L 채널 신호를 위한 빔 포밍 필터 셋이 저장되어 있을 수 있다.
여기에서, R 채널 신호를 위한 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터의 계수는 음향 신호가 전자 장치(100)를 기준으로 특정 방향에 위치한 사용자의 오른쪽 귀의 위치에 포커싱되도록 미리 결정될 수 있다. 또한, L 채널 신호를 위한 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터의 계수는 음향 신호가 전자 장치(100)를 기준으로 특정 방향에 위치한 사용자의 왼쪽 귀 위치에 포커싱되도록 미리 결정될 수 있다.
이에 따라, R 채널 신호를 위한 빔 포밍 필터 셋을 통과한 후 출력된 R 채널 신호는 전자 장치(100)를 기준으로 특정 방향에 위치한 사용자의 오른쪽 귀로 들어가고, L 채널 신호를 위한 빔 포밍 필터 셋을 통과한 후 출력된 L 채널 신호는 전자 장치(100)로부터 특정한 거리만큼 떨어진 사용자의 왼쪽 귀로 들어갈 수 있게 된다.
프로세서(130)는 메모리(120)에 저장된 복수의 빔 포밍 필터 셋 중 전자 장치(100)를 기준으로 사용자의 방향에 대응되는 빔 포밍 필터 셋을 이용하여 R 채널 신호 및 L 채널 신호를 출력하도록 복수의 트위터 유닛을 제어할 수 있다.
이를 위해, 프로세서(130)는 메모리(120)에 저장된 복수의 빔 포밍 필터 셋 중 사용자의 방향에 대응되는 R 채널 신호를 위한 빔 포밍 필터 셋 및 L 채널 신호를 위한 빔 포밍 필터 셋을 식별할 수 있다.
그리고, 프로세서(130)는 R 채널 신호를 R 채널 신호를 위한 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터에 각각 입력할 수 있다. 예를 들어, 프로세서(130)는 버퍼 등을 이용하여 R 채널 신호를 복수 개 생성하고, 복수의 R 채널 신호를 복수의 빔 포밍 필터에 입력할 수 있다. 이어서, 프로세서(130)는 복수의 빔 포밍 필터를 통과한 복수의 R 채널 신호를 복수의 트위터 유닛을 통해 출력할 수 있다.
또한, 프로세서(130)는 L 채널 신호를 L 채널 신호를 위한 빔 포밍 필터 셋에 포함된 복수의 빔 포밍 필터에 각각 입력할 수 있다. 예를 들어, 프로세서(130)는 버퍼 등을 이용하여 L 채널 신호를 복수 개 생성하고, 복수의 L 채널 신호를 복수의 빔 포밍 필터에 입력할 수 있다. 이어서, 프로세서(130)는 복수의 빔 포밍 필터를 통과한 복수의 L 채널 신호를 복수의 트위터 유닛을 통해 출력할 수 있다.
이에 따라, 전자 장치(100)에서 출력된 R, L 음향 신호는 각각 사용자의 우측 및 좌측에 포커싱되어, 사용자에게 입체 음향 효과를 제공할 수 있다.
프로세서(130)는 DOA(Direction of Arrival) 기법 등을 이용하여 사용자의 방향을 식별할 수 있다.
예를 들어, 프로세서(130)는 마이크 어레이(140)에 포함된 복수의 마이크를 통해 수신된 사용자 음성 신호를 분석하여 사용자의 발화 각도를 추정하고, 이에 기초하여 사용자 위치를 식별할 수 있다. 이 경우, 사용자 음성은 임의의 발화 또는 기 설정된 트리거 워드 중 적어도 하나를 포함할 수 있다.
DOA 기법은 마이크 어레이(140)에 포함된 복수의 마이크 중 각각의 마이크를 통해 수신되는 음성 신호 간의 상관 관계를 이용하여 음성 신호에 대한 방향 정보를 획득하는 기법이다. 구체적으로, DOA 기법에 따르면, 음성 신호가 복수의 마이크에 특정 입사각으로 수신되는 경우, 프로세서(130)는 각 마이크에 음성 신호가 도착하는 거리의 차이에 따른 지연 거리 및 지연 시간 등을 바탕으로 음성 신호의 입사각을 획득하고, 획득된 입사각을 바탕으로 수신된 음성 신호에 대한 방향 정보를 획득할 수 있다.
예를 들어, 프로세서(130)는 복수의 마이크를 통해 수신된 음성 신호를 지연시키고, 지연된 음성 신호들 간의 상호 상관 값을 산출할 수 있다. 이 경우, 프로세서(130)는 상호 상관 값이 최대가 되는 지연 시간을 결정할 수 있다. 그리고, 프로세서(130)는 결정된 지연 시간, 음성 신호의 속도(가령, 음속) 및 마이크 간의 거리를 이용하여 음성 신호의 입사각을 추정할 수 있다.
예를 들어, 프로세서(130)는 특정 방향의 음성 신호가 제1 마이크로 수신되는 제1 수신 시간 및 제2 마이크로 수신되는 제2 수신 시간과의 시간 차이에 기초하여 음성 신호가 수신되는 방향을 결정할 수 있다. 이를 위해, 메모리(120)에는 미리 측정된 수신 시간 차이 값과 수신 방향 상의 상관 관계 데이터가 저장되어 있을수 있다. 예를 들어, 프로세서(140)는 제1 수신 시간과 제2 수신 시간 사이의 수신 시간 차이(예를 들면, 0초)에 기초하여 모든 방향("0도"에서 "360" 사이의 방향) 중 해당 수신 시간 차이에 대응되는 특정 방향(예를 들면, "90도")을 상관 관계 데이터로부터 획득할 수 있다.
이 외에도, 프로세서(140)는 MUSIC(Multiple signal Classification), GCCPHAT(Generalized Cross Correlation with Phase Transform) 등과 같은 다양한 입사각 추정 알고리즘을 이용하여 음성 신호에 대한 방향 정보를 획득할 수 있다.
도 6a 및 도 6b는 일 실시 예에 따른 빔 포밍 구현 예를 설명하기 위한 도면들이다. 도 6a 및 도 6b에서는 이해를 돕기 위하여 음향 신호의 빔 포밍 특성을 빛의 형상으로 도시하였다.
도 6a에 도시된 바와 같이 스피커 어레이에 포함된 복수의 트위터 유닛에 빔 포밍을 적용하여 고역 음향 신호를 사용자의 왼쪽 귀 방향 및 오른 쪽 귀 방향 즉, 좁은 범위로 방사함으로써 높은 지향 특성을 가지게 됨으로써 크로스토크가 제거될 수 있게 된다.
도 6b는 도 1b에 도시된 바와 같이 5 개의 트위터 유닛을 이용하여 3kHz 신호에 대해 빔 포밍 시뮬레이션 한 결과를 나타낸다.
도 7a 내지 도 7c는 일 실시 예에 따른 빔 포밍 구현 예를 설명하기 위한 도면들이다.
일 실시 예에 따르면 사용자의 위치에 따라 가변적으로 빔 포밍을 적용할 수 있다.
예를 들어, 도 7a 및 도 7b에 도시된 바와 같이 사용자가 전자 장치(100)를 기준으로 정면에 위치한 경우 및 우측 약 30도 방향으로 위치한 경우 각각에 대응되도록 복수의 트위터 유닛에 빔 포밍을 적용할 수 있다. 이에 따라 사용자 위치가 가변되더라도 사용자의 왼쪽 귀 방향 및 오른 쪽 귀 방향으로 고역 음향 신호가 방사되도록 하여 크로스토크가 제거될 수 있게 된다.
도 7c는 도 1b에 도시된 바와 같은 5개의 트위터 유닛을 이용하여 3kHz 신호에 대해 도 7b의 사용자 위치에서 빔 포밍 시뮬레이션한 결과를 나타낸다.
도 8a 및 도 8b는 일 예에 따른 HRTF 적용 방법을 설명하기 위한 도면들이다.
일 예에 따르면, 도 8a에 도시된 바와 같이 음원 위치를 기준으로 사용자 방향에 대응되는 HRTF 필터를 미리 설계하여 적용할 수 있다. 특히, 음원 위치를 기준으로 복수의 사용자 방향 각각 대응되는 HRTF 필터, 예를 들어, 각 트위터 유닛 별 필터 값이 미리 설계되어 있을 수 있다. 예를 들어, 실제 청취 공간에서의 HRTF의 Inverse Matrix가 필터 값으로 적용될 수 있다.
도 8b는 일 예시에 따른 HRTF(예를 들어, HRIR)를 나타내는 도면으로 Azimuth = 70 도, Elvation = 0에서의 L 채널 및 R 채널에 대응되는 HRIR을 나타낸다.
도 9a 및 도 9b는 일 예에 따른 HRIR 적용 방법을 설명하기 위한 도면들이다.
일 예에 따르면, 도 9a 및 도 9b에 도시된 바와 같이 사용자 방향에 대응되는 HRIR(Head Related Impulse Response)를 선택하고 딜레이를 조정하여 사용자 위치에 적합한 크로스토크 제거를 수행할 수 있다.
예를 들어, 주파수 f에서 선형 시간 불변 시스템의 전달 함수 H(f)는 H(f) = output(f) / input(f)으로 정의될 수 있다. 이에 따라 주어진 소스 위치로부터 HRTF를 얻기 위해 사용되는 일 방안은 소스에 배치된 임펄스 Δ(t)에 대해 고막에서 헤드 관련 임펄스 반응(HRIR), h(t)을 측정하는 것이다. HRTF H(f)는 HRIR h(t)의 푸리에 변환일 수 있다.
예를 들어 전자 장치(100)를 기준으로 중앙에서 멀어지는 방향일수록 사용자 기준 복수의 스피커 간 각도가 작아지게 되며, 한쪽 스피커의 거리가 점점 멀어지게 되면 게인 및/또는 딜레이 보정이 필요하게 된다. 다만, 사용자의 방향에 대응되도록 미리 산출된 값(예를 들어, 게인 및/또는 딜레이가 기 보정된 값)이 저장되어 있고 해당 방향에 대응되는 기 산출된 값을 그대로 적용할 수 있음은 물론이다.
상술한 다양한 실시 예들에 따르면, 체적이 작은 음향 재생 기기에 최적화된 크로스토크 제거 방법을 제공할 수 있다. 또한, 이어폰/헤드셋 착용시와 유사한 입체 음향 효과를 제공할 수 있게 된다. 또한, 이어폰/헤드셋 착용시 발생하는 답답함 없이 동일한 수준의 입체 음향 효과를 제공할 수 있게 된다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    복수의 스피커 유닛을 포함하는 스피커 어레이;
    적어도 하나의 명령어를 저장하는 메모리; 및
    상기 스피커 어레이 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 하나 이상의 프로세서;를 포함하며,
    상기 복수의 스피커 유닛은,
    임계 주파수 이상의 고역 음향 신호를 출력하는 복수의 트위터(tweeter) 유닛 및 상기 임계 주파수 미만의 중저역 음향 신호를 출력하는 복수의 미드레인지(midrange) 유닛을 포함하며,
    상기 하나 이상의 프로세서는,
    상기 적어도 하나의 명령어를 실행함으로써,
    상기 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하고,
    상기 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는, 전자 장치.
  2. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 전자 장치를 기준으로 사용자의 방향을 식별하고,
    상기 고역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 빔 포밍 필터를 적용하고 상기 빔 포밍 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 트위터 유닛을 제어하고,
    상기 중저역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 HRTF(Head Related Transfer Function) 필터를 적용하고, 상기 HRTF 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는, 전자 장치.
  3. 제2항에 있어서,
    복수의 마이크를 포함하는 마이크 어레이;를 더 포함하며,
    상기 하나 이상의 프로세서는,
    상기 복수의 마이크를 통해 사용자 음성이 수신된 시간 차에 기초하여 상기 사용자의 방향을 식별하고,
    상기 식별된 사용자 방향에 기초하여 상기 고역 음향 신호에 대해 빔 포밍 방식을 이용하여 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하는, 전자 장치.
  4. 제3항에 있어서,
    상기 메모리는,
    상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 빔 포밍 필터 및 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 빔 포밍 필터를 저장하며,
    상기 하나 이상의 프로세서는,
    상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하고,
    상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하는, 전자 장치.
  5. 제2항에 있어서,
    상기 메모리는,
    상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 HRTF 필터 및 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 HRTF 필터를 저장하며,
    상기 하나 이상의 프로세서는,
    상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 HRTF 필터를 적용하여 상기 제1 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하고,
    상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 HRTF 필터를 적용하여 상기 제2 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는, 전자 장치.
  6. 제1항에 있어서,
    상기 복수의 스피커 유닛은,
    상기 스피커 어레이의 중앙 부분에 배치된 복수의 제1 트위터 유닛, 상기 복수의 제1 트위터 유닛의 우측 및 좌측으로 이격 배치된 복수의 제2 트위터 유닛, 및 상기 복수의 제2 트위터 유닛 일측에 배치된 복수의 미드레인지 유닛을 포함하는, 전자 장치.
  7. 제6항에 있어서,
    상기 복수의 제1 트위터 유닛은, 일렬로 배치된 3개의 트위터 유닛을 포함하고,
    상기 복수의 제2 트위터 유닛은, 상기 3개의 트위터 유닛의 우측에 배치된 우측 트위터 유닛 및 상기 3개의 트위터 유닛의 좌측에 배치된 좌측 트위터 유닛을 포함하고,
    상기 복수의 미드레인지 유닛은, 상기 우측 트위터 유닛의 우측에 배치된 제1 미드레인지 유닛 및 상기 좌측 트위터 유닛의 좌측에 배치된 제2 미드레인지 유닛을 포함하는, 전자 장치.
  8. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    음향 신호에 대해 하이 패스 필터(High Pass Filter)를 적용하여 상기 고역 음향 신호를 획득하고, 상기 음향 신호에 대해 로우 패스 필터(Low Pass Filter)를 적용하여 상기 중저역 음향 신호를 획득하는, 전자 장치.
  9. 복수의 스피커 유닛을 포함하는 스피커 어레이를 포함하는 전자 장치의 음향 출력 방법에 있어서,
    임계 주파수 이상의 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어하는 단계; 및
    상기 임계 주파수 미만의 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어하는 단계;를 포함하는 음향 출력 방법.
  10. 제9항에 있어서,
    상기 전자 장치를 기준으로 사용자의 방향을 식별하는 단계;를 더 포함하며,
    상기 복수의 트위터 유닛을 제어하는 단계는,
    상기 고역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 빔 포밍 필터를 적용하고 상기 빔 포밍 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 트위터 유닛을 제어하고,
    상기 복수의 미드레인지 유닛을 제어하는 단계는,
    상기 중저역 음향 신호에 대해 상기 식별된 사용자의 방향에 대응되는 HRTF(Head Related Transfer Function) 필터를 적용하고, 상기 HRTF 필터가 적용된 R 채널 신호 및 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는, 음향 출력 방법.
  11. 제10항에 있어서,
    상기 전자 장치는, 복수의 마이크를 포함하는 마이크 어레이;를 더 포함하며,
    상기 사용자 방향을 식별하는 단계는,
    상기 복수의 마이크를 통해 사용자 음성이 수신된 시간 차에 기초하여 상기 사용자의 방향을 식별하고,
    상기 복수의 트위터 유닛을 제어하는 단계는,
    상기 식별된 사용자 방향에 기초하여 상기 고역 음향 신호에 대해 빔 포밍 방식을 이용하여 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하는, 음향 출력 방법.
  12. 제11항에 있어서,
    상기 전자 장치는,
    상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 빔 포밍 필터 및 상기 복수의 트위터 유닛을 제어하는 단계는, 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 빔 포밍 필터를 저장하며,
    상기 복수의 트위터 유닛을 제어하는 단계는,
    상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하는 단계; 및
    상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 고역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 빔 포밍 필터를 적용하여 상기 R 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 상기 L 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 상기 복수의 트위터 유닛을 제어하는 단계;를 포함하는, 음향 출력 방법.
  13. 제10항에 있어서,
    상기 전자 장치는,
    상기 전자 장치를 기준으로 제1 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제1 HRTF 필터 및 상기 제1 방향과 상이한 제2 방향의 R 채널 신호 및 L 채널 신호에 각각에 대응되는 제2 HRTF 필터를 저장하며,
    상기 복수의 미드레인지 유닛을 제어하는 단계는,
    상기 사용자 방향이 상기 제1 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제1 HRTF 필터를 적용하여 상기 제1 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는 단계; 및
    상기 사용자 방향이 상기 제2 방향에 대응되면, 상기 중저역 음향 신호의 상기 R 채널 신호 및 상기 L 채널 신호에 상기 제2 HRTF 필터를 적용하여 상기 제2 HRTF 필터가 적용된 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 상기 복수의 미드레인지 유닛을 제어하는 단계;를 포함하는, 음향 출력 방법.
  14. 제9항에 있어서,
    상기 복수의 스피커 유닛은,
    상기 스피커 어레이의 중앙 부분에 배치된 복수의 제1 트위터 유닛, 상기 복수의 제1 트위터 유닛의 우측 및 좌측으로 이격 배치된 복수의 제2 트위터 유닛, 및 상기 복수의 제2 트위터 유닛 일측에 배치된 복수의 미드레인지 유닛을 포함하는, 음향 출력 방법.
  15. 복수의 스피커 유닛을 포함하는 스피커 어레이를 포함하는 전자 장치의 하나 이상의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서,
    상기 동작은,
    임계 주파수 이상의 고역 음향 신호에 대해 빔 포밍(Beam forming) 방식을 이용하여 R(Right) 채널 신호가 사용자의 오른쪽 귀 방향으로 지향 출력되고 L(Left) 채널 신호가 사용자의 왼쪽 귀 방향으로 지향 출력되도록 복수의 트위터 유닛을 제어하는 단계; 및
    상기 임계 주파수 미만의 중저역 음향 신호에 대해 심리 음향 모델을 이용하여 상기 R 채널 신호 및 상기 L 채널 신호를 출력하도록 복수의 미드레인지 유닛을 제어하는 단계;를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
PCT/KR2023/014254 2022-11-01 2023-09-20 전자 장치 및 그 음향 출력 방법 WO2024096314A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0143912 2022-11-01
KR1020220143912A KR20240062489A (ko) 2022-11-01 2022-11-01 전자 장치 및 그 음향 출력 방법

Publications (1)

Publication Number Publication Date
WO2024096314A1 true WO2024096314A1 (ko) 2024-05-10

Family

ID=90930739

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/014254 WO2024096314A1 (ko) 2022-11-01 2023-09-20 전자 장치 및 그 음향 출력 방법

Country Status (2)

Country Link
KR (1) KR20240062489A (ko)
WO (1) WO2024096314A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717066B1 (ko) * 2006-06-08 2007-05-10 삼성전자주식회사 심리 음향 모델을 이용한 프론트 서라운드 사운드 재생시스템 및 그 방법
KR101721621B1 (ko) * 2016-03-02 2017-03-30 (주) 로임시스템 마이크 스피커 일체형 오디오 증폭 장치
KR20180003264A (ko) * 2016-06-30 2018-01-09 삼성전자주식회사 음향 출력 장치 및 그 제어 방법
US10063984B2 (en) * 2014-09-30 2018-08-28 Apple Inc. Method for creating a virtual acoustic stereo system with an undistorted acoustic center
US20220030373A1 (en) * 2012-08-31 2022-01-27 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717066B1 (ko) * 2006-06-08 2007-05-10 삼성전자주식회사 심리 음향 모델을 이용한 프론트 서라운드 사운드 재생시스템 및 그 방법
US20220030373A1 (en) * 2012-08-31 2022-01-27 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US10063984B2 (en) * 2014-09-30 2018-08-28 Apple Inc. Method for creating a virtual acoustic stereo system with an undistorted acoustic center
KR101721621B1 (ko) * 2016-03-02 2017-03-30 (주) 로임시스템 마이크 스피커 일체형 오디오 증폭 장치
KR20180003264A (ko) * 2016-06-30 2018-01-09 삼성전자주식회사 음향 출력 장치 및 그 제어 방법

Also Published As

Publication number Publication date
KR20240062489A (ko) 2024-05-09

Similar Documents

Publication Publication Date Title
US11838707B2 (en) Capturing sound
WO2018004163A1 (en) Acoustic output device and control method thereof
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
US10262650B2 (en) Earphone active noise control
US9767618B2 (en) Adaptive ambisonic binaural rendering
US7391877B1 (en) Spatial processor for enhanced performance in multi-talker speech displays
WO2018147701A1 (ko) 오디오 신호 처리 방법 및 장치
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
KR102081336B1 (ko) 오디오 시스템, 오디오 장치 및 오디오 장치의 채널 맵핑 방법
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2021118107A1 (en) Audio output apparatus and method of controlling thereof
EP3494712A1 (en) Electronic apparatus and control method thereof
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치
WO2019031767A1 (en) DISPLAY APPARATUS AND CONTROL METHOD THEREOF
US6990210B2 (en) System for headphone-like rear channel speaker and the method of the same
WO2016182184A1 (ko) 입체 음향 재생 방법 및 장치
WO2024096314A1 (ko) 전자 장치 및 그 음향 출력 방법
US20190246230A1 (en) Virtual localization of sound
WO2024106883A1 (ko) 전자 장치 및 그 음향 출력 방법
WO2023085858A1 (ko) 히어 모드 및 뮤직 모드를 제공하는 보청 이어폰의 모드 제공 방법 및 그 시스템
WO2020040541A1 (ko) 전자장치, 그 제어방법 및 기록매체
WO2018194320A1 (ko) 시선추적에 따른 공간 오디오 제어 장치 및 그 방법
WO2016167464A1 (ko) 스피커 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
JP2945634B2 (ja) 音場再生装置
JP2006324991A (ja) サラウンド・サウンドシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23886011

Country of ref document: EP

Kind code of ref document: A1