WO2024043514A1 - 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법 - Google Patents

이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2024043514A1
WO2024043514A1 PCT/KR2023/009695 KR2023009695W WO2024043514A1 WO 2024043514 A1 WO2024043514 A1 WO 2024043514A1 KR 2023009695 W KR2023009695 W KR 2023009695W WO 2024043514 A1 WO2024043514 A1 WO 2024043514A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
electronic device
audio
image
processor
Prior art date
Application number
PCT/KR2023/009695
Other languages
English (en)
French (fr)
Inventor
오멜첸코안드리
프도비첸코이고르
모로초프코스탄틴
안드로소프바딤
사빈볼로디미르
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2024043514A1 publication Critical patent/WO2024043514A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Definitions

  • the present disclosure relates to an electronic device that controls an audio device based on context information obtained from an image captured using a camera and a method of operating the same.
  • 'object of interest' the main object of interest
  • adjust camera settings such as zoom in, zoom out, or panning.
  • the audio settings of the sound device are not changed or adjusted according to the object of interest. For example, even if a user selects a singer singing in a plaza as an object of interest and zooms in on the singer, not only the singer's song but also vehicle noise around the plaza, cheers from the audience, or voices of passers-by are heard by the microphone. recorded together.
  • an audio device for example, a microphone
  • the audio settings of an audio device must be manually changed or adjusted through user input. For example, while shooting a video using a camera, a user can change or adjust equalizer settings in the sound device settings.
  • An electronic device includes an audio device including at least one of a camera, a microphone, and a speaker, a memory storing at least one instruction, and at least one processor executing the at least one instruction. may include.
  • the at least one processor may recognize at least one object from an image captured using a camera.
  • the at least one processor may identify a main object of interest in which the user is interested among the at least one recognized object.
  • the at least one processor may obtain context information of the identified object of interest.
  • the at least one processor may control audio settings of an audio device to acquire or output an audio signal using the audio device based on the acquired context information.
  • a method for an electronic device to control an audio device based on an image may include recognizing at least one object from an image captured using a camera.
  • a method according to an embodiment of the present disclosure may include identifying a main object of interest in which a user is interested among at least one recognized object.
  • a method according to an embodiment of the present disclosure may include obtaining context information of an identified object of interest.
  • a method according to an embodiment of the present disclosure includes controlling audio settings for acquiring or outputting an audio signal of an audio device including at least one of a microphone and a speaker, based on the acquired context information. can do.
  • Another aspect of the present disclosure provides a computer program product that includes a computer-readable storage medium on which a program for execution on a computer is recorded.
  • FIG. 1 is a conceptual diagram illustrating an operation in which an electronic device controls audio settings of an audio device based on context information of an object of interest, according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating components of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart illustrating a method of operating an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart illustrating an operation in which an electronic device identifies an object of interest from an image according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an operation of an electronic device acquiring an image of an object of interest and an audio signal related to the object of interest according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an operation of an electronic device applying audio settings corresponding to context information of an object of interest according to a preset mapping relationship, according to an embodiment of the present disclosure.
  • FIG. 7A is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure to output an equalizer preset corresponding to context information according to an image-audio signal mapping relationship.
  • FIG. 7B is a diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure to output an equalizer preset corresponding to context information according to an image-audio signal mapping relationship.
  • FIG. 8A is a diagram illustrating an operation of an electronic device determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • FIG. 8B is a diagram illustrating an operation of an electronic device determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • FIG. 8C is a diagram illustrating an operation of an electronic device determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating an operation in which an electronic device performs filtering of an audio signal based on context information of an image according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an operation of an electronic device determining a preset of an audio device based on context information of an object of interest, according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an operation of an electronic device controlling audio settings to acquire an audio signal related to an object of interest according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram illustrating an operation of an electronic device controlling audio settings to obtain an audio signal related to an object of interest according to an embodiment of the present disclosure.
  • FIG. 13 is a flowchart illustrating an operation in which an electronic device identifies an object of interest from a cropped image and acquires an audio signal related to the object of interest, according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram illustrating an operation of an electronic device identifying an object of interest from a cropped image and acquiring an audio signal related to the object of interest according to an embodiment of the present disclosure.
  • the expression “configured to” used in the present disclosure may mean, for example, “suitable for,” “having the capacity to,” depending on the situation. It can be used interchangeably with “, “designed to,” “adapted to,” “made to,” or “capable of.”
  • the term “configured (or set to)” may not necessarily mean “specifically designed to” in hardware.
  • the expression “system configured to” may mean that the system is “capable of” in conjunction with other devices or components.
  • the phrase “processor configured (or set) to perform A, B, and C” refers to a processor dedicated to performing the operations (e.g., an embedded processor), or by executing one or more software programs stored in memory. It may refer to a general-purpose processor (e.g., CPU or application processor) that can perform the corresponding operations.
  • a component when referred to as “connected” or “connected” to another component, the component may be directly connected or directly connected to the other component, but in particular, the contrary It should be understood that unless a base material exists, it may be connected or connected through another component in the middle.
  • FIG. 1 is a conceptual diagram illustrating an operation in which the electronic device 100 controls audio settings 60 of an audio device based on context information of an object of interest according to an embodiment of the present disclosure.
  • the electronic device 100 may acquire an image 10 about a subject using a camera.
  • the electronic device 100 may obtain a plurality of time-series image frames by photographing at least one object using a camera.
  • the electronic device 100 can recognize an object (object detection) from the image 10 acquired through a camera (operation 1).
  • the electronic device 100 may recognize a plurality of objects 11 to 17 from the image 10 using an object recognition model.
  • the object recognition model may be composed of, for example, a known artificial intelligence model including a convolution neural network model, but is not limited thereto.
  • the electronic device 100 performs known image processing (e.g., pattern matching, feature extraction, or boundary decision, etc.) to obtain the image 10.
  • a plurality of objects 11 to 17 can be recognized from.
  • the electronic device 100 may identify objects of interest 21 to 27 from the image 10 (operation 2).
  • the electronic device 100 may receive a user input that sets the region of interest 20 among all areas included in the image 10.
  • the electronic device 100 receives a zoom in, panning, focus, or crop input regarding a specific area of interest from the user, and receives Based on the input, the identified area may be determined as the area of interest 20.
  • the electronic device 100 may identify objects 21 to 27 included in the region of interest 20 as objects of interest 21 to 27.
  • the electronic device 100 may obtain context information from images of the objects of interest 21 to 27 (operation 3).
  • the electronic device 100 acquires a plurality of image frames 30 for a subject in time series and obtains context from the plurality of image frames 30 using the context information acquisition module 146.
  • Information can be obtained.
  • the context information acquisition module 146 provides information about at least one of classification of the object of interest, action of the object of interest, environment, place, and time around the object of interest from the images of the objects of interest 21 to 27. It may consist of instructions or program code configured to obtain.
  • the electronic device 100 classifies objects of interest 21 to 27 (e.g., people 21) from the plurality of image frames 30 through the context information acquisition module 146.
  • the electronic device 100 may receive context information about the behavior (e.g., singing while playing guitar) and time (e.g., night time) of a 'singer' among the objects of interest from the plurality of image frames 30 (e.g., night time). 40) You can also obtain more.
  • the electronic device 100 may control the audio settings 60 of the sound device based on context information (operation 4).
  • the sound device may include, but is not limited to, a microphone 122 (see FIG. 2) and a speaker 124 (see FIG. 2).
  • the electronic device 100 may use the microphone 122 to acquire an audio signal 50 output (or emitted) from the subject.
  • the electronic device 100 controls the audio settings 60 of the audio device to obtain only the audio signal 50 related to the context information of the objects of interest 21 to 27 among the audio signals 50. can do.
  • the electronic device 100 may control at least one of the equalizer 62, amplifier 64, and filter among the audio settings 60 of the sound device based on context information. .
  • the electronic device 100 may determine an equalizer preset mapped to correspond to context information, based on a preset mapping relationship between the image context and the equalizer.
  • the electronic device 100 may boost or attenuate the signal level of a specific frequency band in the frequency spectrum of the audio signal 50 according to the determined equalizer preset.
  • the electronic device 100 amplifies the signal level corresponding to the frequency band of the singer's song among the frequency spectrum of the audio signal 50 and amplifies the signal level generated by the surrounding people 12 and 13. You can select an equalizer preset that attenuates the signal level corresponding to the frequency band of sound or vehicle noise.
  • the electronic device 100 may control the amplifier 64 to amplify the frequency band related to the objects of interest 21 to 27 among the frequency bands of the audio signal 50.
  • the electronic device 100 controls the amplifier 64 to amplify the signal level corresponding to the frequency band of the singer's song among the frequency bands of the audio signal 50.
  • the electronic device 100 uses a band stop filter among the filters 66 to filter out the remaining objects 12, 13, 14, except for the objects of interest 21 to 27. 15, 16, 17), the frequency band of the relevant audio signal can be attenuated or removed.
  • the audio settings of the sound device are not changed or adjusted according to the objects of interest 21 to 27. For example, even if a user zooms in on a singer singing in a plaza, the microphone 122 records not only the singer's song, but also the noise of vehicles around the plaza, the cheers of the audience, and the voices of passers-by.
  • the audio settings 60 of the audio device must be manually changed or adjusted through user input.
  • the present disclosure is an electronic device for controlling audio settings of an audio device to obtain audio signals related to objects of interest (21 to 27) set by a user when capturing image content (e.g., video) acquired using a camera.
  • the purpose is to provide a device 100 and a method of operating the same.
  • the electronic device 100 acquires context information about the objects of interest 21 to 27 and controls the audio settings 60 of the sound device based on the context information, thereby determining whether the user is interested. It is possible to emphasize only the audio signal related to the object, thereby providing a technical effect of improving the quality of the audio signal recorded through the microphone 122 or the audio signal output through the speaker 124.
  • the electronic device 100 may record a song by a street singer or stage artist without ambient noise, or with emphasis only on music.
  • the electronic device 100 may improve the worker's concentration by filtering or amplifying only the sound of a specific machine part that the worker is interested in, so that the worker focuses on the sound of a specific machine part. .
  • the electronic device 100 has a technical effect that allows a hearing-impaired user to focus on hearing only the speech sounds of a specific speaker or to more easily hear sounds related to a specific object. You can also provide it.
  • FIG. 2 is a block diagram illustrating components of an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 shown in FIG. 2 is a device that acquires an image of a subject and controls audio settings of a sound device based on context information of the image, for example, a smart phone or a smart TV. , or it may be configured as a tablet PC. However, it is not limited thereto, and the electronic device 100 includes a laptop computer, a desktop PC, an e-book reader, a digital broadcasting terminal, a Personal Digital Assistant (PDA), a Portable Multimedia Player (PMP), a navigation device, and an MP3 player. It can be implemented in various devices such as players, camcorders, or wearable devices (eg, smart watches).
  • PDA Personal Digital Assistant
  • PMP Portable Multimedia Player
  • the electronic device 100 may be implemented as an augmented reality device.
  • 'augmented reality device' refers to a device that can express augmented reality, and includes not only glasses-shaped augmented reality glasses that are generally worn on the face of the user, It includes a Head Mounted Display Apparatus (HMD) or Augmented Reality Helmet worn on the head.
  • HMD Head Mounted Display Apparatus
  • Augmented Reality Helmet worn on the head.
  • the electronic device 100 may include a camera 110, an audio device 120, a processor 130, and a memory 140.
  • the camera 110, the audio device 120, the processor 130, and the memory 140 may each be electrically and/or physically connected to each other.
  • the components shown in FIG. 2 are only according to an embodiment of the present disclosure, and the components included in the electronic device 100 are not limited to those shown in FIG. 2 .
  • the electronic device 100 may not include some of the components shown in FIG. 2 and may further include components not shown in FIG. 2 .
  • the electronic device 100 may further include a display unit that displays a preview image of a subject captured through the camera 110.
  • the display unit may be, for example, a liquid crystal display, a thin film transistor-liquid crystal display (TFT-LCE), an organic light-emitting diode (OLED), or a flexible display. ), a 3D display, and an electrophoretic display.
  • the display unit may be configured as a touch screen including a touch interface.
  • the display unit may include a lens, a waveguide, and an optical module (e.g., a projector). there is.
  • the electronic device 100 may further include an input interface that receives user input.
  • the input interface may include, for example, a keyboard, mouse, touch screen, or voice input device (e.g., microphone), and may include other input devices that will be apparent to those skilled in the art.
  • the display unit When the display unit is comprised of a touch screen, the display unit may be a component integrated with a user input interface comprised of a touch panel.
  • the electronic device 100 is configured as a portable device and may further include a battery that supplies driving power to the camera 110, the audio device 120, and the processor 130.
  • the camera 110 is configured to acquire an image by photographing a subject in space.
  • the camera 110 can acquire a video consisting of a plurality of image frames in time series by continuously photographing a subject over time.
  • Camera 110 may include a lens module, an image sensor, and an image processing module.
  • the camera 110 may acquire a still image or video obtained by an image sensor (eg, CMOS or CCD).
  • the image processing module may process a still image or video acquired through an image sensor, extract necessary information, and transmit the extracted information to the processor 130.
  • the sound device 120 is a hardware device configured to obtain an audio signal from the outside or output an audio signal.
  • the sound device 120 may include a microphone 122 and a speaker 124.
  • the microphone 122 is configured to acquire a voice or other sound from an external object and convert the acquired voice or other sound into an audio signal.
  • the microphone 122 may be configured as a microphone array composed of a plurality of microphone elements, a directional microphone, or a multi-pattern microphone.
  • the microphone 122 may provide an audio signal obtained from an external object to the processor 130.
  • Speaker 124 is configured to output an audio signal.
  • the speaker 124 may output an audio signal according to audio settings such as an equalizer preset under the control of the processor 130.
  • the processor 130 may execute one or more instructions of a program stored in the memory 140.
  • the processor 130 may be comprised of hardware components that perform arithmetic, logic, input/output operations, and signal processing.
  • the processor 130 may include a Central Processing Unit, a microprocessor, a Graphics Processing Unit, Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), and Digital Signal Processors (DSPDs). It may consist of at least one of Signal Processing Devices (PLDs), Programmable Logic Devices (PLDs), and Field Programmable Gate Arrays (FPGAs), but is not limited thereto.
  • PLDs Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • processor 130 is shown as one element in FIG. 2, it is not limited thereto. In one embodiment, the processor 130 may be comprised of one or more processors.
  • the processor 130 may include an AI processor that performs artificial intelligence (AI) learning.
  • AI processor can recognize an object from an image using an artificial intelligence (AI) model and obtain context information about the recognized object.
  • AI processors may be manufactured as dedicated hardware chips for artificial intelligence (AI), or as part of an existing general-purpose processor (e.g., CPU or application processor) or graphics-specific processor (e.g., GPU) and may be manufactured as part of an electronic device (e.g., GPU). It can be mounted on the processor 130 in 100).
  • the memory 140 may be, for example, a flash memory type, a hard disk type, a multimedia card micro type, or a card type memory (e.g., SD or XD memory). etc.), RAM (Random Access Memory), SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), or It may be composed of at least one type of storage medium, such as an optical disk.
  • the memory 140 is accessible through a network and may be implemented as a web storage or cloud server that performs a storage function.
  • the electronic device 100 further includes a communication interface and can communicate with a web storage or cloud server through the communication interface and perform data transmission and reception.
  • the memory 140 stores commands or program codes that enable the electronic device 100 to obtain context information from an image and control audio settings of an audio device based on the acquired context information. It can be.
  • memory 140 includes instructions, algorithms, data structures, program code, and application programs that can be read by processor 130. ) can be stored. Instructions, algorithms, data structures, and program codes stored in memory 140 may be implemented in, for example, programming or scripting languages such as C, C++, Java, assembler, etc.
  • Memory 140 contains instructions, algorithms, data structures, or program code related to object recognition model 142, object of interest identification module 144, context information acquisition module 146, and audio settings control module 148. It may be stored.
  • the 'module' included in the memory 140 refers to a unit that processes functions or operations performed by the processor 130, and may be implemented as software such as instructions, algorithms, data structures, or program code. .
  • the following embodiments may be implemented by the processor 130 executing instructions or program codes stored in the memory 140.
  • the object detection model 142 consists of instructions or program code related to the operation and/or function of recognizing an object from an image.
  • the object recognition model 142 may be comprised of an artificial neural network model.
  • the object recognition model 142 applies a bounding box image that can be recognized as an object from tens of thousands or hundreds of millions of input images as input data, and outputs a label value related to the object recognition result as the correct value. It may be a deep neural network model trained to recognize objects through a supervised learning method by applying it as ground truth.
  • the object recognition model 142 may be implemented as a convolution neural network model, but is not limited thereto.
  • the object recognition model 142 is, for example, a region-based convolution neural network (R-CNN), a single shot multibox detector (SSD), YOLO v4, and center net. It can be implemented as (CenterNet), or Mobile Net (MobileNet).
  • R-CNN region-based convolution neural network
  • SSD single shot multibox detector
  • YOLO v4 YOLO v4
  • center net It can be implemented as (CenterNet), or Mobile Net (MobileNet).
  • the object recognition model 142 of the present disclosure is not limited to the deep neural network model described above.
  • the object recognition model 142 may be composed of a known image processing model (eg, pattern matching, feature extraction, or boundary decision, etc.).
  • the processor 130 may acquire an image by photographing a subject using the camera 110.
  • the processor 130 may recognize at least one object from the image by executing instructions or program code related to the object recognition model 142.
  • the processor 130 may acquire a plurality of time-series image frames from the camera 110 and recognize at least one object from the plurality of image frames using the object recognition model 142. there is.
  • the object of interest identification module 144 consists of instructions or program code related to an operation and/or function of identifying a main object of interest in which a user is interested among at least one recognized object.
  • the processor 130 may identify an object of interest among at least one object recognized from a plurality of image frames by executing instructions or program code related to the object of interest identification module 144.
  • the electronic device 100 further includes an input interface that receives any one of the user's input of zoom in, panning, focus, or crop. It can be included.
  • the input interface consists of a touch screen and can receive touch input for zooming in, focusing, or cropping.
  • the processor 130 may identify an area zoomed in, panned, focused, or cropped by a user input received through an input interface, and recognize an object included in the identified area as an object of interest.
  • the context information acquisition module 146 consists of instructions or program code related to an operation and/or function for acquiring context information of an object of interest.
  • 'context information means information about a situation or context identified from an image, for example, at least one of classification, action, time, place, location, and surrounding environment of the object of interest. It can contain information about one thing.
  • the processor 130 may acquire context information about an object of interest by executing instructions or program code related to the context information acquisition module 146.
  • the context information acquisition module 146 may be configured with an artificial neural network model.
  • the context information acquisition module 146 may be implemented with a known artificial neural network model, including a convolution neural network model.
  • the processor 130 analyzes the object of interest through the context information acquisition module 146 to obtain at least one of classification information, behavior information, time information, location information, place information, and environmental information around the object of interest. can do.
  • 'classification information' refers to information regarding the results of identifying an object of interest, and indicates whether the object of interest is a person, an animal, or an object, or even if it is a person, it is a singer, musical instrument, or This may be information indicating whether the person is a performer, athlete, or instructor.
  • the audio setting control module 148 is composed of commands or program codes related to operations and/or functions that control audio settings of the audio device 120 based on context information.
  • the processor 130 executes instructions or program code associated with the audio settings control module 148, thereby recording an audio signal through the microphone 122 or recording an audio signal through the speaker 124. You can control audio settings for output.
  • 'audio settings' may include setting information for controlling at least one of the equalizer, amplifier, and filter of the sound device 120.
  • the sound device 120 may store a plurality of equalizer presets.
  • the processor 130 may select an equalizer preset mapped to correspond to context information according to a preset mapping relationship among a plurality of equalizer presets.
  • the preset mapping relationship may be included in the audio setting control module 148, but is not limited thereto.
  • the processor 130 recognizes the behavior of the object of interest through the context information acquisition module 146, and performs the behavior of the object of interest according to a preset mapping relationship included in the audio setting control module 148. You can determine the mapped equalizer preset to correspond to .
  • the processor 130 determines an equalizer preset based on context information of an object of interest will be described in detail with reference to FIGS. 6, 7A, 7B, and 8A to 8C.
  • the processor 130 may use an amplifier of the audio device 120 to amplify a frequency band related to the object of interest among the frequency bands of the audio signal. For example, the processor 130 uses information about the frequency band of the audio signal for each object to identify a frequency band related to the object of interest, and uses the identified frequency band among the frequency spectrum of the audio signal acquired through the microphone 122. Only the corresponding frequency band can be amplified.
  • the processor 130 uses an audio-image segmentation algorithm (Audio-Visual Speech Separation) implemented as an artificial intelligence model, or an acoustic signal separation algorithm for each pixel (e.g., PixelPlayer of The Sound of Pixel) ) can be used to amplify only the audio signal related to the object of interest.
  • an audio-image segmentation algorithm Audio-Visual Speech Separation
  • an acoustic signal separation algorithm for each pixel e.g., PixelPlayer of The Sound of Pixel
  • the processor 130 may attenuate audio signals in frequency bands other than those related to the object of interest.
  • the processor 130 uses a band stop filter to perform filtering to attenuate or block the frequency band of the audio signal related to the objects other than the object of interest. You can.
  • a specific embodiment in which the processor 130 amplifies or attenuates an audio signal by controlling an amplifier and/or a filter will be described in detail with reference to FIGS. 9 to 12.
  • the electronic device 100 may receive a user's cropping input for cropping a specific area of an image through an input interface.
  • the processor 130 may obtain a cropped image based on the cropped input and amplify an audio signal related to the object of interest included in the cropped image.
  • the processor 130 may attenuate or mute audio signals related to at least one object not included in the cropped image. A specific embodiment in which the processor 130 amplifies an audio signal related to an object of interest included in a cropped image will be described in detail with reference to FIGS. 13 and 14.
  • FIG. 3 is a flowchart illustrating a method of operating the electronic device 100 according to an embodiment of the present disclosure.
  • step S310 the electronic device 100 recognizes at least one object from an image acquired using a camera.
  • the electronic device 100 may acquire a plurality of image frames in time series by continuously photographing a subject over time using a camera.
  • the electronic device 100 may recognize at least one object from a plurality of image frames using an object recognition model.
  • the object recognition model 142 may be comprised of an artificial neural network model.
  • an object recognition model can be implemented as a convolution neural network model.
  • object recognition models include, for example, Region-based Convolution Neural Network (R-CNN), Single Shot multibox Detector (SSD), It can be implemented as YOLO v4, CenterNet, or MobileNet.
  • the electronic device 100 selects a plurality of image frames using a known image processing model (e.g., pattern matching, feature extraction, or boundary decision, etc.). At least one object can be recognized.
  • a known image processing model e.g., pattern matching, feature extraction, or boundary decision, etc.
  • the electronic device 100 identifies a main object of interest among at least one recognized object.
  • the electronic device 100 may perform any one of zoom in, panning, focus, or crop based on user input.
  • the electronic device 100 may identify an area zoomed in, panned, focused, or cropped by a user input, and recognize an object included in the identified area among at least one object recognized in S310 as an object of interest.
  • step S330 the electronic device 100 acquires context information of the identified object of interest.
  • 'context information means information about a situation or context identified from an image, for example, at least one of classification, action, time, place, location, and surrounding environment of the object of interest. It can contain information about one thing.
  • the electronic device 100 analyzes the object of interest using an artificial intelligence model to obtain classification information, behavior information, time information, location information, place information, and the environment around the object of interest. At least one piece of information can be obtained.
  • the electronic device 100 controls audio settings for recording or outputting an audio signal of an audio device based on the acquired context information.
  • the electronic device 100 may control audio settings for recording an audio signal through a microphone 122 (see FIG. 2) or outputting an audio signal through a speaker 124 (see FIG. 2).
  • 'audio settings' refers to setting information for controlling at least one of an equalizer, an amplifier, and a filter of an audio device including at least one of the microphone 122 and the speaker 124. may include.
  • the electronic device 100 may store a plurality of equalizer presets for an audio device.
  • the electronic device 100 may determine an equalizer preset corresponding to context information among a plurality of pre-stored equalizer presets using, for example, a decision tree, fuzzy logic, or other known algorithms. .
  • the electronic device 100 may select an equalizer preset mapped to correspond to context information according to a preset mapping relationship among a plurality of equalizer presets.
  • the electronic device 100 may recognize the behavior of the object of interest and determine an equalizer preset mapped to correspond to the behavior of the object of interest according to a preset mapping relationship.
  • the electronic device 100 may use an amplifier of an audio device to amplify a frequency band related to an object of interest among the frequency bands of an audio signal. For example, the electronic device 100 uses information about the frequency band of the audio signal for each object to identify the frequency band related to the object of interest, and uses the identified frequency band among the frequency spectrum of the audio signal acquired through the microphone 122. Only the frequency band corresponding to the band can be amplified.
  • the electronic device 100 may attenuate audio signals in frequency bands other than those related to the object of interest.
  • the electronic device 100 may perform filtering to attenuate or block the frequency bands of audio signals related to objects other than the object of interest using a band stop filter.
  • FIG. 4 is a flowchart illustrating an operation of the electronic device 100 identifying an object of interest from an image according to an embodiment of the present disclosure.
  • Steps S410 and S420 shown in FIG. 4 are steps that embody step S320 shown in FIG. 3. Step S410 shown in FIG. 4 may be performed after step S310 of FIG. 3 is performed. After step S420 shown in FIG. 4 is performed, step S330 of FIG. 3 may be performed.
  • the electronic device 100 identifies an area zoomed in, panned, or cropped by a user input from the image.
  • the electronic device 100 may further include an input interface that receives a user input for zooming in, panning, focusing, or cropping.
  • the input interface may include, for example, a keyboard, mouse, touch screen, or voice input device (e.g., microphone), and may include other input devices that will be apparent to those skilled in the art.
  • the input interface consists of a touch screen, and the electronic device 100 can receive touch input for zooming in, focusing, or cropping through the touch screen.
  • the electronic device 100 may identify a zoomed-in, panned, focused, or cropped area based on a user input received through an input interface.
  • the electronic device 100 recognizes an object included in the identified area as an object of interest.
  • the electronic device 100 may recognize an object included in an area enlarged due to a zoom-in input as an object of interest.
  • the electronic device 100 may recognize an object located in the center of an area specified through a panning input as an object of interest.
  • the electronic device 100 may recognize an object on which the camera focuses as an object of interest due to a user's focus input.
  • the electronic device 100 may recognize an object included in an area cropped by a crop input as an object of interest.
  • FIG. 5 is a diagram illustrating an operation of the electronic device 100 acquiring an image of an object of interest 520 and an audio signal related to the object of interest 520 according to an embodiment of the present disclosure.
  • the electronic device 100 may acquire an image 500 by photographing at least one object located in real space using a camera 1110 (see FIG. 2 ).
  • the electronic device 100 captures a video about at least one object, and uses the microphone 122 during video recording to record voice, music, or noise output from the at least one object. ) can be recorded.
  • the microphone 122 may convert voice, music, noise, or other sounds recorded from at least one object into an audio signal.
  • the electronic device 100 receives audio signals of the singer's voice 511 and music 512 through the microphone 122, as well as noise 513 caused by cars or passers-by around the singer. ) audio signals can be obtained.
  • the electronic device 100 may identify the area of interest 510 among the entire area of the image 500 based on the user input and recognize the object of interest 520 included in the area of interest 510. For example, the electronic device 100 may receive a zoom in input from the user and enlarge a specific area according to the zoom in input. The electronic device 100 may identify the enlarged area as the area of interest 510 . The electronic device 100 may recognize objects included in the region of interest 510 using an object recognition model.
  • the object recognition model may be a deep neural network model, such as a convolutional neural network model, but is not limited thereto.
  • the electronic device 100 uses a known image processing model (e.g., pattern matching, feature extraction, or boundary decision, etc.) to determine the region of interest 510. ) can recognize objects contained within.
  • the electronic device 100 may determine an object recognized within the area of interest 510 as the object of interest 520 .
  • the electronic device 100 may acquire a plurality of image frames 530 by continuously photographing the object of interest 520 over time through video capture.
  • the electronic device 100 acquires a plurality of image frames 530 and simultaneously outputs an audio signal 540 including voice 511 and music 512 output from the object of interest 520 using the microphone 122. ) can be obtained.
  • the user uses the camera of the electronic device 100 to zoom in on the area of interest 510 containing the object of interest 520, which is a street singer, and , you may wish to record only the street singer's voice 511 or music 512 using the microphone 122.
  • the microphone 122 transmits not only the audio signals of the voice 511 and music 512 output by the object of interest 520, but also objects around the object of interest 520 (for example, a car or a nearby passerby). Since the audio signal of the noise 513 is also acquired, it is necessary to attenuate or remove the audio signal of the noise 513.
  • the present disclosure emphasizes or amplifies the audio signal caused by the object of interest 520 by controlling the audio setting of the sound device including the microphone 122, and noise caused by objects other than the object of interest 520.
  • 513 may provide an electronic device 100 that attenuates or eliminates. 6, 7, and FIG. This will be described in detail in 8a to 8c.
  • FIG. 6 is a diagram illustrating an operation of the electronic device 100 according to an embodiment of the present disclosure to apply audio settings corresponding to context information of an object of interest according to a preset mapping relationship.
  • the electronic device 100 may include a camera 110, an audio device 120, and a processor 130.
  • FIG. 6 shows only key components for explaining the operation of the electronic device 100, and the electronic device 100 is not limited to including only the components shown in FIG. 6.
  • the electronic device 100 may acquire a raw image 600 by photographing an object in real space using the camera 110.
  • the camera 110 may provide an image frame of the acquired raw image 600 to the processor 130.
  • the camera 110 may provide camera setting information based on user input to the processor 130.
  • ‘Camera setting information’ may be setting information based on user input regarding shooting using the camera 110.
  • Camera setting information may include, for example, information about at least one of zoom in/zoom out, panning, or focus.
  • the electronic device 100 receives a zoom-in input for the camera 110, enlarges a specific area according to the zoom-in input, and identifies the magnified area as the area of interest 610. can do.
  • the processor 130 may provide camera setting information (e.g., zoom scale information or region of interest 610 information) based on a zoom-in input to the image-audio setting mapper 134.
  • the processor 130 may obtain context information from the image frame by inputting the image frame of the raw image 600 acquired from the camera 110 to the image processing unit 132.
  • the image processing unit 132 may be implemented as an artificial intelligence model.
  • the image processing unit 132 may be implemented as a convolution neural network model, but is not limited to this.
  • the image processing unit 132 may use a region-based convolution neural network (R-CNN), a single shot multibox detector (SSD), YOLO v4, and a center net ( CenterNet), or MobileNet.
  • the image processing unit 132 may identify an object of interest based on camera setting information and obtain context information from the object of interest.
  • the image processing unit 132 includes at least one of classification information, action information, time information, location information, place information, and environment information around the object of interest.
  • Context information can be obtained.
  • the processor 130 may identify an object of interest within the region of interest 610 through the image processor 132 and obtain context information about the object of interest. For example, the processor 130 identifies an object of interest within the bounding box 620 from the image frame of the raw image 600, and uses 'singer (classification information)' and 'distance (place information)' as context information of the object of interest. ', or 'evening time (time information)' information can be obtained.
  • the processor 130 may obtain a video stream 630 about the object of interest through the image processor 132.
  • the processor 130 may provide camera setting information obtained from the camera 110 and context information obtained from the image processing unit 132 to the image-to-audio setting mapper 134.
  • the image-audio setting mapper 134 may include information about a mapping relationship between context information obtained from an image frame of the raw image 600 and an equalizer preset of the sound device 120.
  • the mapping relationship between the context information obtained from the image frame and the equalizer preset of the sound device 120 may be set in advance before acquiring the raw image 600.
  • information regarding the mapping relationship between context information and equalizer presets may be stored in the memory 140 (see FIG. 2).
  • the mapping relationship between context information and equalizer presets will be described in detail in FIGS. 7A and 7B.
  • the sound device 120 includes a microphone 122 and can acquire an audio signal output by an object using the microphone 122.
  • the microphone 122 may acquire a raw audio stream including voice, music, or noise output by an object.
  • the processor 130 may transmit an audio setting control signal to the audio device 120 and control the audio device 120 based on the audio setting control signal.
  • the processor 130 determines an equalizer preset mapped to correspond to context information by the image-audio setting mapper 134, and the microphone 122 acquires an audio signal according to the determined equalizer preset. The microphone 122 can be controlled to do so.
  • the processor 130 is an equalizer mapped to correspond to the context information ('singer', 'street', or 'evening time') of the object of interest by the image-audio setting mapper 134.
  • a preset for example, an equalizer preset mapped to 'music'
  • the microphone 122 can be controlled to acquire an audio signal using the identified equalizer preset.
  • the processor 130 amplifies the frequency band related to the singer's voice or music among the frequency spectrum of the audio signal included in the raw audio stream, and attenuates or attenuates the frequency band related to ambient noise or cheers.
  • the microphone 122 can be controlled to remove it.
  • Microphone 122 may acquire audio signal 640 by applying audio settings (eg, equalizer preset) provided by processor 130 to the raw audio stream.
  • FIG. 7A is a diagram illustrating an operation of the electronic device 100 according to an embodiment of the present disclosure to output an equalizer preset corresponding to context information according to an image-audio signal mapping relationship.
  • the image context-audio setting mapping relationship storage unit 700 relates to the corresponding relationship between a plurality of contexts 710-1 to 710-n and a plurality of equalizer presets 720-1 to 720-n. Information can be saved.
  • the image context-audio settings mapping relationship storage unit 700 may be configured as a non-volatile memory.
  • Non-volatile memory refers to a storage medium that stores and maintains information even when power is not supplied, and can use the stored information again when power is supplied.
  • Non-volatile memory is, for example, flash memory, hard disk, solid state drive (SSD), multimedia card micro type, card type memory (e.g.
  • the image context-audio settings mapping relationship storage 700 is included in the memory 140 (see FIG. 2), or is a component included in the audio settings control module 148 (see FIG. 2). It can be. However, it is not limited to this, and the image context-audio settings mapping relationship storage unit 700 is implemented in the form of an external memory that is not included in the electronic device 100, or is a web-based storage medium or cloud connected through wired or wireless data communication. It can also be implemented as a server.
  • the image context-audio setting mapping relationship storage unit 700 stores information about a plurality of equalizer presets (720-1 to 720-n) mapped to correspond to each of the plurality of contexts (710-1 to 710-n). There may be. In one embodiment of the present disclosure, the mapping relationship between the plurality of contexts 710-1 to 710-n and the plurality of equalizer presets 720-1 to 720-n may be set in advance. In the embodiment shown in FIG.
  • the first context 710-1 representing 'music' is mapped to the first equalizer preset 720-1
  • the second context 710-2 representing 'concert' is mapped to It is mapped to the second equalizer preset 720-2
  • the nth context 710-n, which is 'voice chat' may be mapped to the nth equalizer preset 720-n.
  • the processor 130 may obtain context information from the image 710a using the context information acquisition module 146.
  • the processor 130 may determine a scene context corresponding to an equalizer preset from context information.
  • the processor 130 may determine the scene context from context information using, for example, a decision tree, fuzzy logic, or other known algorithms.
  • the processor 130 selects 'performer' (classification information), 'playing the piano' (behavior information), and 'concert hall' ( It is possible to obtain context information including location information) or 'audiences' (environmental information), and determine that the scene context is 'concert' from the context information.
  • the processor 130 identifies an equalizer preset mapped with context information that is the same or similar to the acquired scene context among a plurality of equalizer presets (720-1 to 720-n) stored in the image context-audio setting mapping relationship storage unit 700. can do.
  • the processor 130 stores a second equalizer preset ( 720-2) can be identified.
  • the second equalizer preset 720-2 may be an equalizer preset optimized for a 'concert hall' by emphasizing (or amplifying) the frequency band corresponding to music in the concert.
  • the processor 130 may control an audio device (eg, microphone 122 (see FIG. 6)) to obtain an audio signal using the identified second equalizer preset 720-2.
  • FIG. 7B is a diagram illustrating an operation of the electronic device 100 according to an embodiment of the present disclosure to output an equalizer preset corresponding to context information according to an image-audio signal mapping relationship.
  • FIG. 7B The embodiment shown in FIG. 7B is the same as the embodiment shown in FIG. 7A except for the context 710-3 obtained from the image 710b and the identified equalizer preset 720-3, and thus overlaps with FIG. 7A. Any necessary explanations are omitted.
  • the electronic device 100 obtains context information from the image 710b and stores a plurality of equalizer presets 720-1 to 720-n stored in the image context-audio setting mapping relationship storage unit 700.
  • the equalizer preset mapped to the same or similar context information as the acquired context can be identified.
  • the processor 130 (see FIG. 2) of the electronic device 100 obtains 'performer' (classification information) and 'mountain' ( Context information including 'classification information', 'tree' (classification information), 'playing the piano' (behavior information), or 'nature' (environmental information) can be obtained, and it can be determined from the context information that the scene context is 'nature'. there is.
  • the processor 130 may identify the third equalizer preset 720-3 mapped to correspond to the third context 710-3 representing 'nature' from the image context-audio setting mapping relationship storage unit 700.
  • the third equalizer preset 720-3 may be an equalizer preset optimized for the 'natural environment' by emphasizing (or amplifying) the frequency band corresponding to the natural environment.
  • the processor 130 may control an audio device (eg, microphone 122 (see FIG. 6)) to obtain an audio signal using the identified third equalizer preset 720-3.
  • FIG. 8A is a diagram illustrating an operation of the electronic device 100 determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • the electronic device 100 may obtain context information from the object of interest image 800a.
  • the processor 130 (see FIG. 2) of the electronic device 100 analyzes the object of interest image 800a using the context information acquisition module 146 (see FIG. 2) to determine the object of interest. At least one of classification information, action information, time information, location information, place information, and environmental information around the object of interest can be obtained.
  • the electronic device 100 selects 'singer' (classification information), 'behavior of playing guitar and singing' (behavior information), and 'evening time' (time information) from the object of interest image 800a. , and 'distance' (location information) can be obtained.
  • the electronic device 100 may display a User Interface (UI) 810 for executing operations and/or functions for controlling audio settings based on context information.
  • UI User Interface
  • the electronic device 100 may display a smart audio setting UI (smart audio setting UI) 810 on the display unit.
  • the electronic device 100 may receive a user's touch input for selecting the smart audio settings UI 810. When a touch input is received, the electronic device 100 determines an equalizer preset for the sound device based on context information.
  • the electronic device 100 may determine an equalizer preset corresponding to context information obtained from the object of interest image 800a, based on a preset mapping relationship between context information and equalizer presets.
  • the mapping relationship between context information and equalizer presets is preset, and the preset mapping relationship is stored in the memory 140 (see FIG. 2) or the audio settings control module 148 (see FIG. 2). There may be. Since the detailed description of the mapping relationship between context information and equalizer presets is the same as that described in FIG. 7A, overlapping descriptions will be omitted.
  • the electronic device 100 selects 'music' based on context information of 'singer' (classification information), 'playing guitar and singing' (behavior information), 'evening time' (time information), or 'street' (place information).
  • the scene context may be determined, and a music equalizer preset 820 mapped to correspond to 'music' may be determined.
  • the electronic device 100 may control the microphone 122 (see FIG. 6) to obtain an audio signal using the determined music equalizer preset 820.
  • FIG. 8B is a diagram illustrating an operation of the electronic device 100 determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • FIG. 8B The embodiment shown in FIG. 8B is the same as FIG. 8A except for the object of interest image 800b, context information obtained from the object of interest image 800b, and equalizer preset 822, thereby overlapping with the description of FIG. 8A. The explanation is omitted.
  • the electronic device 100 may obtain at least one information of 'lecturer' (classification information) and 'lecture behavior' (behavior information) from the object of interest image 800b.
  • the electronic device 100 displays a smart audio settings UI (User Interface) 810 for executing operations and/or functions for controlling audio settings based on context information, and a smart audio settings UI (810).
  • UI User Interface
  • the electronic device 100 determines an equalizer preset for the sound device based on context information.
  • the electronic device 100 may determine the scene context based on behavioral information among the context information of the object of interest and determine the equalizer preset 822 mapped to the scene context.
  • the electronic device 100 determines the scene context based on action information (e.g., 'lecture') among context information, and selects a scene among a plurality of equalizer presets according to a preset mapping relationship.
  • action information e.g., 'lecture'
  • a 'speech' equalizer preset 822 mapped to correspond to the context can be determined.
  • the electronic device 100 may control the microphone 122 (see FIG. 6) to obtain an audio signal using the determined 'lecture' equalizer preset 822.
  • FIG. 8C is a diagram illustrating an operation of the electronic device 100 determining an equalizer preset based on context information according to an embodiment of the present disclosure.
  • FIG. 8C The embodiment shown in FIG. 8C is the same as FIG. 8A except for the object of interest image 800c, context information obtained from the object of interest image 800c, and equalizer preset 824, thereby overlapping with the description of FIG. 8A. The explanation is omitted.
  • the electronic device 100 may obtain at least one information of 'human face' (classification information) and 'video call' (behavior information) from the object of interest image 800c.
  • the electronic device 100 displays a smart audio settings UI (User Interface) 810 for executing operations and/or functions for controlling audio settings based on context information, and a smart audio settings UI (810). ) can receive a touch input from a user who selects. When a touch input is received, the electronic device 100 determines an equalizer preset for the sound device based on context information.
  • UI User Interface
  • the electronic device 100 may determine the scene context based on behavioral information among the context information of the object of interest and determine the equalizer preset 824 mapped to the scene context.
  • the electronic device 100 determines the scene context based on the action context (e.g., 'video call') and places the scene context among a plurality of equalizer presets according to a preset mapping relationship.
  • a video call equalizer preset 824 mapped to correspond can be determined.
  • the electronic device 100 may control the microphone 122 (see FIG. 6) to obtain an audio signal using the determined video call equalizer preset 824.
  • the electronic device 100 obtains context information from the image of the object of interest and stores the context information in a preset mapping relationship between the context information and the equalizer preset. Based on this, an equalizer preset corresponding to the context information of the object of interest can be determined.
  • the electronic device 100 according to an embodiment of the present disclosure can acquire an audio signal through a determined equalizer preset, thereby emphasizing only the frequency band of the audio signal related to the context of the object of interest to the user, and using the microphone 122 Provides technical effects that improve the quality of audio signals recorded through . For example, in the embodiment shown in FIG.
  • the electronic device 100 may record a song of a street singer or stage artist without ambient noise, or with emphasis only on music. Although not shown in the drawing, the electronic device 100 uses the determined equalizer preset to emphasize (or emphasize) a specific frequency band related to the object of interest among the frequency bands of the audio signal output through the speaker 124 (see FIG. 2) of the sound device. amplification), and frequency bands not related to the object of interest can be attenuated or removed. Through this, the electronic device 100 can improve the quality of the audio signal output through the speaker 124.
  • FIG. 9 is a diagram illustrating an operation in which the electronic device 100 performs filtering of an audio signal based on context information of an image according to an embodiment of the present disclosure.
  • the electronic device 100 may include a camera 110, an audio device 120, and a processor 130.
  • FIG. 9 shows only key components for explaining the operation of the electronic device 100, and the electronic device 100 is not limited to including only the components shown in FIG. 9.
  • the electronic device 100 may acquire a raw image 900 by photographing an object in real space using the camera 110.
  • the camera 110 may provide an image frame of the acquired raw image 900 to the processor 130.
  • the processor 130 recognizes at least one object 910, 920, and 922 from an image frame using an object recognition model, and identifies the object of interest 910 among the recognized at least one object 910, 920, and 922. can do.
  • the electronic device 100 performs at least one of zoom in, panning, or focus based on a user input, and performs zoom in, panning, and focus.
  • the object of interest 910 included in the area of interest specified by focus may be identified.
  • the processor 130 may identify 'person' as the object of interest 910 from the image frame.
  • the processor 130 may obtain context information from the image frame by inputting the image frame of the raw image 600 acquired from the camera 110 to the image processing unit 132.
  • the image processing unit 132 may be implemented as an artificial intelligence model.
  • the image processing unit 132 may be implemented as a convolution neural network model, but is not limited to this.
  • the image processing unit 132 may use a region-based convolution neural network (R-CNN), a single shot multibox detector (SSD), YOLO v4, and a center net ( CenterNet), or MobileNet.
  • R-CNN region-based convolution neural network
  • SSD single shot multibox detector
  • YOLO v4 a center net
  • CenterNet CenterNet
  • the image processing unit 132 includes at least one of classification information, action information, time information, location information, place information, and environment information around the object of interest. Context information can be obtained.
  • the processor 130 uses the image processing unit 132 to select 'singer (classification information)', 'distance (place information)', or 'evening time' as context information of the object of interest 910. (Time information)' information can be obtained.
  • the processor 130 may obtain a video stream 930 related to the region of interest including the object of interest 910 through the image processor 132.
  • the processor 130 may control the audio settings of the audio device 120 based on context information obtained from the image processor 132.
  • the sound device 120 may include, for example, a microphone and record voice, music, or noise output by at least one object 910, 920, or 922 through the microphone.
  • the sound device 120 acquires the voice signal 912 and the music signal 914 output from the object of interest 910 and the sound signal 914 output by the car 920 and the passerby 922.
  • a noise signal 924 may be obtained.
  • the sound device 120 may include a band stop filter 126 and an amplifier 128.
  • the processor 130 may control the band cutoff filter 126 and the amplifier 128 of the audio device 120 based on context information.
  • the processor 130 controls the band-blocking filter 126 to select the object of interest 910 among the at least one object 910, 920, and 922 recognized from the image frame of the raw image 900. ), the frequency band of the noise signal 924 output by the remaining objects 920 and 922 may be filtered to attenuate or block.
  • the processor 130 may use the amplifier 128 to amplify the frequency bands of the voice signal 912 and the music signal 914 output by the object of interest 910.
  • the sound device 120 amplifies only the voice signal 912 and the music signal 914 related to the object of interest 910 under the control of the processor 130, and amplifies the remaining objects 920 and 922 other than the object of interest 910.
  • the noise signal 924 related to can be attenuated or removed to obtain the audio signal 940.
  • the audio signal 940 may include a voice signal 912 and a music signal 914 output by the object of interest 910.
  • the electronic device 100 obtains context information about the object of interest 910, and operates the band cutoff filter 126 and amplifier 128 of the sound device 120 based on the context information.
  • the electronic device 100 can acquire only the audio signal 940 desired by the user through a microphone and efficiently attenuate the noise signal 924 that the user does not want. , provides a technical effect that improves the quality of the recorded audio signal 940.
  • FIG. 10 is a diagram illustrating an operation of the electronic device 100 determining a preset of an audio device based on context information of an object of interest 1010 according to an embodiment of the present disclosure.
  • the electronic device 100 includes a display unit, and the display unit can display an image 1000.
  • the electronic device 100 may be a smart TV.
  • the electronic device 100 may acquire user gaze information and recognize a point of interest where the user's gaze remains for more than a preset time.
  • the processor 130 (see FIG. 2) of the electronic device 100 recognizes at least one object 1010, 1020, and 1030 from the displayed image 1000, and selects one of the at least one object 1010, 1020, and 1030 of interest.
  • An object located in the area may be identified as an object of interest 1010.
  • the processor 130 may obtain context information on the object of interest 1010.
  • the processor 130 uses the context information acquisition module 146 (see FIG. 2) of the memory 140 (see FIG. 2) to classify the object of interest 1010 and perform actions ( Information about at least one of action), time, place, location, and surrounding environment can be obtained.
  • the context information acquisition module 146 may be implemented as an artificial intelligence model.
  • the context information acquisition module 146 may be implemented as a convolution neural network model, but is not limited to this.
  • the context information acquisition module 146 may, for example, use a region-based convolution neural network (R-CNN), a single shot multibox detector (SSD), YOLO v4, and a center It may be implemented as CenterNet or MobileNet.
  • R-CNN region-based convolution neural network
  • SSD single shot multibox detector
  • YOLO v4 YOLO v4
  • CenterNet MobileNet
  • the processor 130 collects 'tennis player (classification information)', 'interview' (behavior information), and 'as context information of the object of interest 1010 through the context information acquisition module 146.
  • Context information including information about 'tennis court' (location information) or 'audience' (environment information) can be obtained.
  • the processor 130 determines a preset for the speaker 124 based on the context information of the object of interest 1010.
  • the context information of the object of interest 1010 is that the 'tennis player' is being 'interviewed' at the 'tennis court', so the processor 130 sets the preset of the speaker 124 to "voice". (voice)".
  • the processor 130 uses the amplifier of the speaker 124 to select the object of interest 1010 among the frequency bands of the audio signals 1012, 1022, and 1032. ) can be amplified. For example, the processor 130 uses information about the frequency band of the audio signal for each object to identify the frequency band corresponding to the voice output by the object of interest 1010, and uses the information about the frequency band of the audio signal for each object to identify the frequency band corresponding to the voice output by the object of interest 1010, and the audio signal corresponding to the identified frequency band. Only (1012) can be amplified.
  • the processor 130 uses an audio-image segmentation algorithm (Audio-Visual Speech Separation) implemented as an artificial intelligence model, or an acoustic signal separation algorithm for each pixel (e.g., PixelPlayer of The Sound of Pixel) ) can be used to amplify only the audio signal 1012 related to the voice of the object of interest 1010.
  • an audio-image segmentation algorithm Audio-Visual Speech Separation
  • an acoustic signal separation algorithm for each pixel e.g., PixelPlayer of The Sound of Pixel
  • the processor 130 may attenuate or mute the audio signals 1022 and 1032 in the remaining frequency bands other than the frequency band related to the object of interest 1010.
  • the processor 130 uses a band stop filter to determine the frequencies of the audio signals 1022 and 1032 associated with the objects 1020 and 1030 except the object of interest 1010.
  • the band can be filtered to attenuate or block.
  • the electronic device 100 obtains context information about the object of interest 1010 from the image 1000 and controls the audio settings of the speaker 124 based on the context information, thereby allowing the user It provides a technical effect of emphasizing only the audio signal 1012 (e.g., interview voice of a tennis player) related to the object of interest, thereby improving the quality of the audio signal output through the speaker 124.
  • the electronic device 100 according to an embodiment of the present disclosure generates noise signals 1022 and 1032 that interfere with hearing the audio signal 1012 of the object of interest 1010, for example, the sound of cheers from the audience. can be attenuated or muted, so convenience of use and satisfaction can be improved.
  • FIG. 11 is a diagram illustrating an operation of the electronic device 100 controlling audio settings to acquire an audio signal 1112 related to an object of interest 1110 according to an embodiment of the present disclosure.
  • the electronic device 100 may be a glass-type augmented reality device worn on the user's face.
  • the electronic device 100 may be an augmented reality device such as smart glasses.
  • the electronic device 100 may include an eye tracking sensor that acquires information about the gaze direction by tracking the gaze of the user's left and right eyes.
  • the electronic device 100 may obtain information about the gaze direction of the left eye and information about the gaze direction of the right eye using a gaze tracking sensor.
  • the processor 130 (see FIG. 2) of the electronic device 100 may obtain location information of a gaze point (G) where the gaze directions of the left eye and the gaze directions of the right eye converge through a gaze tracking sensor.
  • the processor 130 may identify the object of interest 1110 based on the location of the gaze point G.
  • the processor 130 may control audio settings of the audio device 120 to obtain an audio signal 1112 related to the object of interest 1110.
  • the processor 130 uses an amplifier of the microphone 122 to generate an audio signal having a frequency band related to the object of interest 1110 among the frequency bands of the audio signals 1112 and 1122. (1112) can be amplified.
  • the processor 130 may attenuate or mute the audio signal 1122 in the remaining frequency band other than the frequency band related to the object of interest 1110. In one embodiment of the present disclosure, the processor 130 uses a band stop filter of the microphone 122 to filter out the audio signal 1122 associated with the objects 1120 other than the object of interest 1110. The frequency band can be filtered to attenuate or block.
  • the microphone 122 may be configured as a directional microphone or a multi-pattern microphone.
  • the processor 130 may control the microphone 122 to acquire the audio signal 1112 only within a predetermined angle range corresponding to the location of the object of interest 1110.
  • the processor 130 may output the audio signal 1112 acquired through the microphone 122 through the speaker 124.
  • the electronic device 100 amplifies and records only the speech sound (audio signal 1112) of the person (object of interest 1110) talking to the user among the people around the user, and records the sound.
  • the speech sound By outputting the speech sound through the speaker 124, it provides a technical effect that allows the user to listen more intently to the speech sound of the person talking.
  • the electronic device 100 amplifies the speech sound of the person conversing with the user (object of interest 1110), and attenuates or attenuates the sound of an object 1120 unrelated to the person conversing. By blocking it, it can provide a hearing aid-like function to the hearing impaired.
  • FIG. 12 is a diagram illustrating an operation of the electronic device 100 controlling audio settings to acquire an audio signal 1212 related to an object of interest 1210 according to an embodiment of the present disclosure.
  • the electronic device 100 may be a glass-type augmented reality device worn on the user's face.
  • the electronic device 100 may be an augmented reality device such as smart glasses.
  • location information of the gaze point G where the gaze direction of the user's left eye and the gaze direction of the right eye converge is obtained using the gaze tracking sensor of the processor 130 (see FIG. 2) of the electronic device 100. can be obtained.
  • the specific embodiment in which the processor 130 acquires the location information of the gaze point G is the same as that described in FIG. 11, so redundant description will be omitted.
  • the processor 130 may identify the object of interest 1210 based on the location of the gaze point G.
  • the processor 130 may control audio settings of the audio device 120 to obtain an audio signal 1212 related to the object of interest 1210.
  • the processor 130 uses an amplifier of the microphone 122 to generate an audio signal having a frequency band related to the object of interest 1210 among the frequency bands of the audio signals 1212 and 1222. (1212) can be amplified.
  • the processor 130 may attenuate or mute the audio signal 1222 in the remaining frequency band other than the frequency band related to the object of interest 1210. In one embodiment of the present disclosure, the processor 130 uses a band stop filter of the microphone 122 to filter out the audio signal 1222 associated with the objects 1220 other than the object of interest 1210. The frequency band can be filtered to attenuate or block.
  • the microphone 122 may be configured as a directional microphone or a multi-pattern microphone.
  • the processor 130 may control the microphone 122 to acquire the audio signal 1212 only within a predetermined angular range corresponding to the location of the object of interest 1210.
  • the processor 130 may output the audio signal 1212 obtained through the microphone 122 through the speaker 124.
  • the electronic device 100 amplifies and records only the mechanical sound (audio signal 1212) output from the machine (object of interest 1210) used by the worker, and records the recorded mechanical sound. It is output through the speaker 124, providing a technical effect that improves the worker's concentration and work efficiency.
  • FIG. 13 is a flowchart illustrating an operation in which the electronic device 100 identifies an object of interest from a cropped image and acquires an audio signal related to the object of interest according to an embodiment of the present disclosure.
  • S1310 and S1320 are steps that embody step S320 shown in FIG. 3.
  • Step S1310 of FIG. 13 may be performed after step S310 shown in FIG. 3 is performed.
  • S1330 shown in FIG. 13 is a step that embodies step S340 shown in FIG. 3.
  • FIG. 14 illustrates an operation in which the electronic device 100 identifies an object of interest 1440 from a cropped image 1430 and acquires an audio signal 1412 related to the object of interest 1440 according to an embodiment of the present disclosure. This is a drawing.
  • the electronic device 100 acquires a cropped image based on the user's cropping input.
  • the electronic device 100 may include a display unit and an input interface.
  • the electronic device 100 may display an image 1400 on the display unit.
  • the processor 130 (see FIG. 2) of the electronic device 100 may recognize at least one object 1410 or 1420 from the displayed image 1400.
  • the electronic device 100 may receive a user's cropping input for cropping a specific area of the image 1400 through an input interface.
  • the processor 130 may obtain a cropped image 1430 based on the crop input. In the embodiment shown in FIG.
  • the processor 130 recognizes a first object 1410, which is a person making a phone call, and a second object 1420, which is a cat, from the image 1400, and selects the first object 1420 by crop input received from the user.
  • a cropped image 1430 containing only one object 1410 can be obtained.
  • the electronic device 100 identifies an object of interest included in the cropped image.
  • the processor 130 of the electronic device 100 may identify the first object 1410 included in the cropped image 1430 as an object of interest.
  • the electronic device 100 amplifies the audio signal associated with the object of interest and attenuates or mutes the audio signal associated with at least one object that is not included in the crop image.
  • the processor 130 of the electronic device 100 controls the amplifier of the sound device 120 to generate an audio signal ( 1412) can be amplified.
  • the processor 130 uses information about the frequency band of the audio signal for each object to identify the frequency band corresponding to the voice output by the object of interest 1410, and uses the information about the frequency band of the audio signal for each object to identify the frequency band corresponding to the voice output by the object of interest 1410, and the audio signal corresponding to the identified frequency band. Only (1412) can be amplified.
  • the processor 130 uses an audio-image segmentation algorithm (Audio-Visual Speech Separation) implemented as an artificial intelligence model, or an acoustic signal separation algorithm for each pixel (e.g., PixelPlayer of The Sound of Pixel) ) can be used to amplify only the audio signal 1412 related to the voice of the object of interest 1410.
  • the processor 130 may acquire the amplified audio signal 1412 through the microphone 122.
  • the processor 130 may attenuate or mute the audio signal 1422 in the remaining frequency band other than the frequency band related to the object of interest 1410.
  • the processor 130 uses a band stop filter to attenuate or block the frequency band of the audio signal 1422 related to the objects 1420 other than the object of interest 1410 (filtering ( filtering) can be performed.
  • the electronic device 100 may amplify and obtain only the audio signal 1412 related to the object of interest 1410 included in the cropped image 1430 cropped by the user. . Therefore, the electronic device 100 according to an embodiment of the present disclosure can obtain an audio signal that suits the user's preference by attenuating or blocking the cat sound (audio signal 1422), which is a noise that the user does not want, and improves user convenience. This can be improved.
  • the present disclosure provides an electronic device 100 that controls an audio device based on an image.
  • the electronic device 100 includes an audio device 120 including at least one of a camera 110 (see FIG. 2), a microphone 122 (see FIG. 2), and a speaker 124 (see FIG. 2). , see FIG. 2), a memory 140 (see FIG. 2) storing at least one instruction, and at least one processor 130 (see FIG. 2) executing the at least one instruction. there is.
  • the at least one processor 130 may recognize at least one object from an image captured using the camera 110.
  • the at least one processor 130 may identify a main object of interest in which the user is interested among the at least one recognized object.
  • the at least one processor 130 may obtain context information about the identified object of interest.
  • the at least one processor 130 may control audio settings of the audio device 120 to obtain or output an audio signal using the audio device 120 based on the acquired context information.
  • the electronic device 100 includes an input interface that receives user input for any one of zoom in, panning, focus, or crop for an image. may further include.
  • the at least one processor 130 may identify a zoomed-in, panned, focused, or cropped area based on a user input received through an input interface. The at least one processor 130 may recognize an object included in the identified area as an object of interest.
  • the at least one processor 130 collects classification information, action information, time information, location information, place information, and surroundings of the object of interest from an image of the object of interest. At least one of the environmental information can be obtained.
  • the at least one processor 130 may control at least one of a filter, an amplifier, and an equalizer of the audio device 120 based on context information. there is.
  • the at least one processor 130 is an equalizer that is mapped to context information among a plurality of pre-stored equalizer presets based on a decision tree or fuzzy logic. You can decide on a preset.
  • the at least one processor 130 may determine an equalizer preset mapped to correspond to the context information according to a preset mapping relationship.
  • the at least one processor 130 may recognize a behavior of an object of interest from an image of the object of interest.
  • the at least one processor 130 may determine an equalizer preset mapped to the behavior of the recognized object of interest according to a preset mapping relationship.
  • the at least one processor 130 may use an amplifier to amplify a frequency band related to the object of interest among the frequency bands of the audio signal.
  • the at least one processor 130 uses a band stop filter to attenuate the frequency band of the audio signal related to the objects other than the object of interest among the at least one object. ) or blocking filtering can be performed.
  • the electronic device 100 may further include an input interface that receives a user's cropping input for an image.
  • the at least one processor 130 may obtain a cropped image based on a crop input received through an input interface.
  • the at least one processor 130 may amplify an audio signal related to an object of interest included in the cropped image, and attenuate or mute an audio signal related to an object not included in the cropped image among the at least one object.
  • the present disclosure provides a method for the electronic device 100 to control the audio device 120 based on an image.
  • a method according to an embodiment of the present disclosure may include a step (S310) of recognizing at least one object from an image captured using the camera 110.
  • the method according to an embodiment of the present disclosure may include identifying a main object of interest in which the user is interested among at least one recognized object (S320).
  • the method according to an embodiment of the present disclosure may include a step (S330) of acquiring context information of the identified object of interest.
  • a method according to an embodiment of the present disclosure controls audio settings for acquiring or outputting an audio signal of the audio device 120 including at least one of a microphone and a speaker, based on the acquired context information. It may include step S340.
  • the electronic device 100 in the step of acquiring the context information (S330), receives classification information, action information, time information, and location of the object of interest from the image of the object of interest. At least one of information, location information, and environmental information around the object of interest may be obtained.
  • the electronic device 100 in the step of controlling the audio settings of the audio device 120 (S340), operates the filter and amplifier ( At least one of an amplifier) and an equalizer can be controlled.
  • the step of controlling the audio settings of the audio device 120 includes a plurality of pre-stored equalizer presets based on a decision tree or fuzzy logic. ) may include the step of determining an equalizer preset that is mapped to context information.
  • controlling the audio settings of the audio device 120 may include determining an equalizer preset mapped to correspond to context information according to a preset mapping relationship.
  • the electronic device 100 may recognize the behavior of the object of interest from the image of the object of interest. In the step of selecting the equalizer preset, the electronic device 100 may determine an equalizer preset mapped to the behavior of the recognized object of interest according to a preset mapping relationship.
  • controlling the audio settings of the audio device 120 includes amplifying a frequency band related to the object of interest among the frequency bands of the audio signal using an amplifier. can do.
  • the step of controlling the audio settings of the sound device 120 includes audio related to the remaining objects except the object of interest among at least one object using a band stop filter. It may include performing filtering to attenuate or block the frequency band of the signal.
  • the step of identifying the object of interest may include the step of obtaining a cropped image based on a user's cropping input for the image (S1310).
  • Controlling the audio settings of the sound device 120 amplifies the audio signal related to the object of interest included in the cropped image, and attenuates the audio signal related to the object not included in the cropped image among at least one object.
  • it may include a muting process (S1330).
  • the present disclosure provides a computer program product including a computer-readable storage medium.
  • the storage match includes an operation of recognizing at least one object from an image captured using the camera 110 (S310), an object of interest to the user among the recognized at least one object (main An operation of identifying an object of interest (S320), an operation of acquiring context information of the identified object of interest (S330), and based on the obtained context information, sound including at least one of a microphone and a speaker.
  • an operation (S340) of controlling audio settings for acquiring or outputting an audio signal of the device 120 instructions readable by the electronic device 100 are provided. ) may include.
  • a program executed by the electronic device 100 described in this disclosure may be implemented with hardware components, software components, and/or a combination of hardware components and software components.
  • a program can be executed by any system that can execute computer-readable instructions.
  • Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device.
  • Computer-readable recording media include, for example, magnetic storage media (e.g., read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and optical read media (e.g., CD-ROM). (CD-ROM), DVD (Digital Versatile Disc), etc.
  • the computer-readable recording medium is distributed among computer systems connected to a network, so that computer-readable code can be stored and executed in a distributed manner.
  • the media may be readable by a computer, stored in memory, and executed by a processor.
  • Computer-readable storage media may be provided in the form of non-transitory storage media.
  • 'non-transitory' only means that the storage medium does not contain signals and is tangible, and does not distinguish between cases where data is stored semi-permanently or temporarily in the storage medium.
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • programs according to embodiments disclosed in this specification may be included and provided in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may include a software program and a computer-readable storage medium on which the software program is stored.
  • a computer program product may be a product in the form of a software program (e.g., a downloadable application) distributed electronically by the manufacturer of the electronic device 100 or through an electronic market (e.g., Samsung Galaxy Store). ) may include.
  • a software program e.g., a downloadable application
  • an electronic market e.g., Samsung Galaxy Store
  • the storage medium may be a storage medium of a server of the manufacturer of the electronic device 100, a server of an electronic market, or a relay server that temporarily stores a software program.
  • the computer program product in a system comprised of the electronic device 100 and/or a server, may include a storage medium of the server or a storage medium of the electronic device 100.
  • the computer program product may include a storage medium of the third device.
  • the computer program product may include a software program itself that is transmitted from the electronic device 100 to a third device or from a third device to the electronic device 100.
  • either the electronic device 100 or the third device may execute the computer program product and perform the method according to the disclosed embodiments.
  • two or more of the electronic device 100 and the third device may execute the computer program product and perform the methods according to the disclosed embodiments in a distributed manner.
  • the electronic device 100 executes a computer program product stored in the memory 140 (see FIG. 2), and another electronic device (e.g., a mobile device) is connected to communicate with the electronic device 100. It can be controlled to perform the method according to the methods.
  • a computer program product stored in the memory 140 (see FIG. 2)
  • another electronic device e.g., a mobile device
  • a third device may execute a computer program product to control an electronic device communicatively connected to the third device to perform the method according to the disclosed embodiment.
  • the third device may download the computer program product from the electronic device 100 and execute the downloaded computer program product.
  • the third device may perform the methods according to the disclosed embodiments by executing a computer program product provided in a pre-loaded state.

Abstract

이미지의 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(audio setting)을 제어하는 전자 장치 및 그 동작 방법을 제공한다. 본 개시의 일 실시예에 따른 전자 장치는 카메라를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하고, 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하고, 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하고, 획득된 컨텍스트 정보에 기초하여 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치의 오디오 신호 획득 또는 출력을 위한 오디오 설정을 제어할 수 있다.

Description

이미지 컨텍스트(IMAGE CONTEXT)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법
본 개시는 카메라를 이용하여 촬영된 이미지로부터 획득된 컨텍스트 정보(context information)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법에 관한 것이다.
일반적으로 사용자가 카메라를 이용하여 사진을 촬영하거나 또는 동영상을 촬영하는 경우, 촬영 대상이 되는 객체 중 관심 있는 주요 객체(이하, '관심 객체')를 선택하고, 좋은 퀄리티의 결과물을 위하여 선택된 관심 객체에 관하여 줌 인(zoom in), 줌 아웃(zoom out), 또는 패닝(panning) 등 카메라 설정을 조정한다. 사용자가 카메라 설정을 조정하는 경우라도, 관심 객체에 따라 음향 장치의 오디오 설정이 변경 또는 조정되지는 않는다. 예를 들어, 사용자가 광장에서 노래를 하고 있는 가수를 관심 객체로 선택하고, 가수를 줌 인 하더라도 마이크에 의해서는 가수의 노래 뿐만 아니라, 광장 주변의 차량 소음, 관객들의 환호성, 또는 행인들의 목소리가 함께 녹음된다. 사용자가 관심 객체에 관한 오디오 신호(예를 들어, 가수의 노래 소리)를 획득하기 위해서는 사용자 입력을 통해 수동으로 음향 장치(예를 들어, 마이크)의 오디오 설정을 변경 또는 조정하여야 한다. 예를 들어, 사용자는 카메라를 이용하여 동영상을 촬영하는 도중 음향 장치 설정에서 이퀄라이저(equalizer) 설정을 변경하거나 조정할 수 있다.
본 개시의 일 측면(aspect)은 이미지에 기초하여 음향 장치를 제어하는 전자 장치를 제공한다. 본 개시의 일 실시예에 따른 전자 장치는 카메라, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치, 적어도 하나의 명령어들(instructions)를 저장하는 메모리, 및 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 카메라를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식할 수 있다. 상기 적어도 하나의 프로세서는 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별할 수 있다. 상기 적어도 하나의 프로세서는 식별된 관심 객체의 컨텍스트 정보(context information)를 획득할 수 있다. 상기 적어도 하나의 프로세서는 획득된 컨텍스트 정보에 기초하여 음향 장치를 이용하여 오디오 신호를 획득 또는 출력하기 위한 음향 장치의 오디오 설정(audio setting)을 제어할 수 있다.
본 개시의 다른 측면(another aspect)은 전자 장치가 이미지에 기초하여 음향 장치를 제어하는 방법을 제공한다. 본 개시의 일 실시예에 따른 방법은 카메라를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하는 단계를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 단계를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하는 단계를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 획득된 컨텍스트 정보에 기초하여, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치의 오디오 신호의 획득 또는 출력을 위한 오디오 설정(audio setting)을 제어하는 단계를 포함할 수 있다.
본 개시의 다른 측면은 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체를 포함하는 컴퓨터 프로그램 제품(Computer Program Product)을 제공한다.
본 개시는, 다음의 자세한 설명과 그에 수반되는 도면들의 결합으로 쉽게 이해될 수 있으며, 참조 번호(reference numerals)들은 구조적 구성요소(structural elements)를 의미한다.
도 1은 본 개시의 일 실시예에 따른 전자 장치가 관심 객체의 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(audio setting)을 제어하는 동작을 도시한 개념도이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성 요소를 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 동작 방법을 도시한 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 이미지로부터 관심 객체를 식별하는 동작을 도시한 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 관심 객체의 이미지 및 관심 객체와 관련된 오디오 신호를 획득하는 동작을 도시한 도면이다.
도 6은 본 개시의 일 실시예에 따른 전자 장치가 기 설정된 매핑 관계에 따라 관심 객체의 컨텍스트 정보에 대응되는 오디오 설정을 적용하는 동작을 도시한 도면이다.
도 7a는 본 개시의 일 실시예에 따른 전자 장치가 이미지-오디오 신호 매핑 관계에 따라 컨텍스트 정보에 대응되는 이퀄라이저 프리셋(equalizer preset)을 출력하는 동작을 도시한 도면이다.
도 7b는 본 개시의 일 실시예에 따른 전자 장치가 이미지-오디오 신호 매핑 관계에 따라 컨텍스트 정보에 대응되는 이퀄라이저 프리셋을 출력하는 동작을 도시한 도면이다.
도 8a는 본 개시의 일 실시예에 따른 전자 장치가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 8b는 본 개시의 일 실시예에 따른 전자 장치가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 8c는 본 개시의 일 실시예에 따른 전자 장치가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 9는 본 개시의 일 실시예에 따른 전자 장치가 이미지의 컨텍스트 정보에 기초하여 오디오 신호의 필터링(filtering)을 수행하는 동작을 도시한 도면이다.
도 10은 본 개시의 일 실시예에 따른 전자 장치가 관심 객체의 컨텍스트 정보에 기초하여 음향 장치의 프리셋을 결정하는 동작을 도시한 도면이다.
도 11은 본 개시의 일 실시예에 따른 전자 장치가 관심 객체와 관련된 오디오 신호를 획득하기 위하여 오디오 설정을 제어하는 동작을 도시한 도면이다.
도 12는 본 개시의 일 실시예에 따른 전자 장치가 관심 객체와 관련된 오디오 신호를 획득하기 위하여 오디오 설정을 제어하는 동작을 도시한 도면이다.
도 13은 본 개시의 일 실시예에 따른 전자 장치가 크롭된 이미지(cropped image)로부터 관심 객체를 식별하고, 관심 객체와 관련된 오디오 신호를 획득하는 동작을 도시한 흐름도이다.
도 14는 본 개시의 일 실시예에 따른 전자 장치가 크롭된 이미지로부터 관심 객체를 식별하고, 관심 객체와 관련된 오디오 신호를 획득하는 동작을 도시한 도면이다.
본 명세서의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
본 개시 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 "...부", "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
또한, 본 개시에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 개시의 실시예들을 상세하게 설명한다.
도 1은 본 개시의 일 실시예에 따른 전자 장치(100)가 관심 객체의 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(audio setting)(60)을 제어하는 동작을 도시한 개념도이다.
도 1을 참조하면, 전자 장치(100)는 카메라를 이용하여 피사체에 관한 이미지(10)를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 카메라를 이용하여 적어도 하나의 객체를 촬영함으로써, 시계열적인 복수의 이미지 프레임을 획득할 수 있다.
전자 장치(100)는 카메라를 통해 획득된 이미지(10)로부터 객체를 인식(object detection)할 수 있다 (동작 ①). 본 개시의 일 실시예에서, 전자 장치(100)는 객체 인식 모델을 이용하여 이미지(10)로부터 복수의 객체(11 내지 17)를 인식할 수 있다. 객체 인식 모델은 예를 들어, 컨볼루션 신경망 모델(Convolution Neural Network model)을 포함하는 공지의 인공지능 모델(Artificial Intelligence model)로 구성될 수 있으나, 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 전자 장치(100)는 공지의 이미지 처리(예를 들어, 패턴 매칭, 특징 추출(feature extraction), 또는 경계 결정(boundary decision) 등)를 수행함으로써, 이미지(10)로부터 복수의 객체(11 내지 17)를 인식할 수 있다.
전자 장치(100)는 이미지(10)로부터 관심 객체(21 내지 27)를 식별할 수 있다 (동작 ②). 전자 장치(100)는 이미지(10)에 포함되는 전체 영역 중 관심 영역(20)을 설정하는 사용자 입력을 수신할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자로부터 관심있는 특정 영역에 관한 줌 인(zoom in), 패닝(panning), 포커스(focus), 또는 크롭(crop) 입력을 수신하고, 수신된 입력에 기초하여 식별된 영역을 관심 영역(20)으로 결정할 수 있다. 전자 장치(100)는 관심 영역(20)에 포함된 객체(21 내지 27)를 관심 객체(21 내지 27)로서 식별할 수 있다.
전자 장치(100)는 관심 객체(21 내지 27)의 이미지로부터 컨텍스트 정보를 획득할 수 있다 (동작 ③). 본 개시의 일 실시예에서, 전자 장치(100)는 피사체에 대하여 시계열적으로 복수의 이미지 프레임(30)을 획득하고, 컨텍스트 정보 획득 모듈(146)을 이용하여 복수의 이미지 프레임(30)으로부터 컨텍스트 정보를 획득할 수 있다. 컨텍스트 정보 획득 모듈(146)은 관심 객체(21 내지 27)의 이미지로부터 관심 객체의 분류(classification), 관심 객체의 행동(action), 관심 객체 주변의 환경, 장소, 및 시간 중 적어도 하나에 관한 정보를 획득하도록 구성되는 명령어들(instructions) 또는 프로그램 코드(program code)로 구성될 수 있다. 도 1에 도시된 실시예에서, 전자 장치(100)는 컨텍스트 정보 획득 모듈(146)을 통해 복수의 이미지 프레임(30)으로부터 관심 객체(21 내지 27)를 분류(예를 들어, 사람(21), 기타(22), 스피커(23), 나무(42), 자동차(25), 신호등(26), 도로(27))하고, 분류 결과에 기초하여 '가수' 및 '거리'를 관심 객체(21 내지 27)의 컨텍스트 정보(40)로서 획득할 수 있다. 예를 들어, 전자 장치(100)는 복수의 이미지 프레임(30)으로부터 관심 객체 중 '가수'의 행동(예를 들어, 기타 치면서 노래) 및 시간(예를 들어, 밤 시간)에 관한 컨텍스트 정보(40)를 더 획득할 수도 있다.
전자 장치(100)는 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(60)을 제어할 수 있다 (동작 ④). 음향 장치는 마이크(122, 도 2 참조) 및 스피커(124, 도 2 참조)를 포함할 수 있으나, 이에 한정되는 것은 아니다. 전자 장치(100)는 마이크(122)를 이용하여 피사체로부터 출력(또는 방출)되는 오디오 신호(50)를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 오디오 신호(50) 중 관심 객체(21 내지 27)의 컨텍스트 정보와 관련된 오디오 신호(50)만을 획득하도록 음향 장치의 오디오 설정(60)을 제어할 수 있다. 전자 장치(100)는 컨텍스트 정보에 기초하여, 음향 장치의 오디오 설정(60) 중 이퀄라이저(equalizer)(62), 증폭기(amplifier)(64), 및 필터(filter) 중 적어도 하나를 제어할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 이미지 컨텍스트와 이퀄라이저 간의 기 설정된 매핑 관계에 기초하여, 컨텍스트 정보에 대응되도록 매핑된 이퀄라이저 프리셋(equalizer preset)을 결정할 수 있다. 전자 장치(100)는 결정된 이퀄라이저 프리셋에 따라 오디오 신호(50)의 주파수 스펙트럼 중 특정 주파수 대역의 신호 레벨을 강조(boost)하거나, 또는 감쇠(attenuate)시킬 수 있다. 도 1에 도시된 실시예에서, 전자 장치(100)는 오디오 신호(50)의 주파수 스펙트럼 중 가수의 노래의 주파수 대역에 해당되는 신호 레벨을 증폭시키고, 주변 사람(12, 13)에 의해 발생되는 소리 또는 차량에 의한 잡음(noise)의 주파수 대역에 해당되는 신호 레벨은 감쇠시키는 이퀄라이저 프리셋을 선택할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 오디오 신호(50)의 주파수 대역 중 관심 객체(21 내지 27)과 관련된 주파수 대역을 증폭하도록 증폭기(64)를 제어할 수 있다. 도 1에 도시된 실시예에서, 전자 장치(100)는 증폭기(64)를 제어함으로써, 오디오 신호(50)의 주파수 대역 중 가수의 노래의 주파수 대역에 해당되는 신호 레벨을 증폭할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 필터(66) 중 대역 차단 필터(band stop filter)를 이용하여, 관심 객체(21 내지 27)를 제외한 나머지 객체들(12, 13, 14, 15, 16, 17)과 관련된 오디오 신호의 주파수 대역을 감쇠(attenuate) 또는 제거할 수 있다.
일반적으로 사용자가 카메라를 이용하여 사진을 촬영하거나 또는 동영상을 촬영하는 경우, 촬영 대상이 되는 객체 중 관심 객체(21 내지 27)를 선택하고, 선택된 관심 객체(21 내지 27)에 관하여 줌 인(zoom in), 줌 아웃(zoom out), 또는 패닝(panning) 등 카메라 설정을 조정한다. 종래 기술에서는 사용자가 카메라 설정을 조정하는 경우라도, 관심 객체(21 내지 27)에 따라 음향 장치의 오디오 설정이 변경 또는 조정되지는 않는다. 예를 들어, 사용자가 광장에서 노래를 하고 있는 가수를 줌 인 하더라도 마이크(122)에 의해서는 가수의 노래 뿐만 아니라, 광장 주변의 차량 소음, 관객들의 환호성, 또는 행인들의 목소리가 함께 녹음된다. 사용자가 관심 객체에 관한 오디오 신호(예를 들어, 가수의 노래 소리)를 획득하기 위해서는 사용자 입력을 통해 수동으로 음향 장치의 오디오 설정(60)을 변경 또는 조정하여야 한다.
본 개시는 카메라를 이용하여 획득된 이미지 컨텐트(예를 들어, 동영상)를 촬영하는 경우, 사용자에 의해 설정된 관심 객체(21 내지 27)와 관련된 오디오 신호를 획득하도록 음향 장치의 오디오 설정을 제어하는 전자 장치(100) 및 그 동작 방법을 제공하는 것을 목적으로 한다.
본 개시의 일 실시예에 따른 전자 장치(100)는 관심 객체(21 내지 27)에 관한 컨텍스트 정보를 획득하고, 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(60)을 제어함으로써, 사용자가 관심있어 하는 객체와 관련된 오디오 신호만을 강조할 수 있고, 따라서 마이크(122)를 통해 녹음되는 오디오 신호 또는 스피커(124)를 통해 출력되는 오디오 신호의 품질을 향상시키는 기술적 효과를 제공한다. 예를 들어, 도 1에 도시된 실시예에서 전자 장치(100)는 주변 소음이 없는 거리 가수(street singer) 또는 무대 예술가의 노래, 또는 음악만을 강조하여 녹음할 수 있다. 다른 예를 들어, 작업자가 시끄러운 작업 환경에서 일하는 경우, 전자 장치(100)는 작업자가 관심 있는 특정 기계 부품 소리만을 필터링하거나 증폭함으로써, 작업자가 특정 기계 부품의 소리에 집중하도록 집중력을 향상시킬 수도 있다.
또한, 본 개시의 일 실시예에 따른 전자 장치(100)는 청각 장애를 갖고 있는 사용자가 특정 화자의 말 소리만을 집중해서 듣거나, 또는 특정 물건에 관한 소리를 더 쉽게 들을 수 있게 하는 기술적 효과를 제공할 수도 있다.
도 2는 본 개시의 일 실시예에 따른 전자 장치(100)의 구성 요소를 도시한 블록도이다.
도 2에 도시된 전자 장치(100)는 피사체에 관한 이미지를 획득하고, 이미지의 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(audio setting)을 제어하는 디바이스로서, 예를 들어, 스마트 폰, 스마트 TV, 또는 태블릿 PC로 구성될 수 있다. 그러나, 이에 한정되는 것은 아니고, 전자 장치(100)는 노트북 컴퓨터(laptop computer), 데스크 탑 PC, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 캠코더, 또는 착용형 기기(wearable device)(예를 들어, 스마트 워치) 등과 같은 다양한 디바이스로 구현될 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 증강 현실 디바이스로 구현될 수도 있다. 본 개시에서 '증강 현실 디바이스(augmented reality device)'는 증강 현실을 표현할 수 있는 장치로서, 일반적으로 사용자가 안면부(顔面部)에 착용하는 안경 형상의 증강 현실 안경 장치(Augmented Reality Glasses) 뿐만 아니라, 두부(頭部)에 착용하는 헤드 마운트 디스플레이 장치 (HMD : Head Mounted Display Apparatus) 또는 증강 현실 헬멧(Augmented Reality Helmet) 등을 포괄한다.
도 2를 참조하면, 전자 장치(100)는 카메라(110), 음향 장치(120), 프로세서(130), 및 메모리(140)를 포함할 수 있다. 카메라(110), 음향 장치(120), 프로세서(130), 및 메모리(140)는 각각 전기적 및/또는 물리적으로 서로 연결될 수 있다.
도 2에 도시된 구성 요소는 본 개시의 일 실시예에 따른 것일 뿐, 전자 장치(100)가 포함하고 있는 구성 요소가 도 2에 도시된 바와 같이 한정되는 것은 아니다. 전자 장치(100)는 도 2에 도시된 구성 요소 중 일부를 포함하지 않을 수 있고, 도 2에 도시되지 않은 구성 요소를 더 포함할 수도 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 카메라(110)를 통해 촬영된 피사체의 프리뷰 이미지(preview image)를 디스플레이하는 디스플레이부를 더 포함할 수 있다. 디스플레이부는 예를 들어, 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT-LCE), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중 적어도 하나를 포함하는 물리적 장치로 구성될 수 있다. 본 개시의 일 실시예에서, 디스플레이부는 터치 인터페이스를 포함하는 터치스크린으로 구성될 수도 있다. 그러나, 이에 한정되는 것은 아니고, 전자 장치(100)가 안경 형태의 증강 현실 디바이스(Augmented Reality Glasses)인 경우, 디스플레이부는 렌즈, 웨이브가이드(waveguide), 및 광학 모듈(예컨대, 프로젝터)을 포함할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 사용자 입력을 수신하는 입력 인터페이스를 더 포함할 수 있다. 입력 인터페이스는 예를 들어, 키보드, 마우스, 터치스크린, 또는 음성 입력 장치(예를 들어, 마이크로폰) 등을 포함할 수 있으며, 기타 당업자에게 자명한 입력 장치를 포함할 수 있다. 디스플레이부가 터치스크린으로 구성되는 경우, 디스플레이부는 터치 패널로 구성되는 사용자 입력 인터페이스와 통합되는 구성 요소일 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 휴대용 디바이스로 구성되고, 카메라(110), 음향 장치(120), 및 프로세서(130)에 구동 전력을 공급하는 배터리를 더 포함할 수도 있다.
카메라(110)는 공간 내의 피사체를 촬영함으로써, 이미지를 획득하도록 구성된다. 카메라(110)는 시간의 흐름에 따라 연속적으로 피사체를 촬영함으로써, 시계열적인 복수의 이미지 프레임으로 구성되는 동영상(video)을 획득할 수 있다. 카메라(110)는 렌즈 모듈, 이미지 센서, 및 영상 처리 모듈을 포함할 수 있다. 카메라(110)는 이미지 센서(예를 들어, CMOS 또는 CCD)에 의해 얻어지는 정지 이미지 또는 동영상을 획득할 수 있다. 영상 처리 모듈은 이미지 센서를 통해 획득된 정지 이미지 또는 동영상을 가공하여, 필요한 정보를 추출하고, 추출된 정보를 프로세서(130)에 전달할 수 있다.
음향 장치(120)는 외부로부터 오디오 신호를 획득하거나, 또는 오디오 신호를 출력하도록 구성되는 하드웨어 장치이다. 음향 장치(120)는 마이크(122) 및 스피커(124)를 포함할 수 있다.
마이크(microphone)(122)는 외부의 객체로부터 음성 또는 기타 소리를 획득하고, 획득된 음성 또는 기타 소리를 오디오 신호로 변환하도록 구성된다. 본 개시의 일 실시예에서, 마이크(122)는 복수의 마이크 엘리먼트로 구성된 마이크 어레이, 지향성 마이크, 또는 다중 패턴 마이크(multi-pattern microphone)로 구성될 수도 있다. 마이크(122)는 외부 객체로부터 획득된 오디오 신호를 프로세서(130)에 제공할 수 있다.
스피커(124)는 오디오 신호를 출력하도록 구성된다. 스피커(124)는 프로세서(130)의 제어에 의해 이퀄라이저 프리셋(equalizer preset) 등 오디오 설정(audio setting)에 따라 오디오 신호를 출력할 수 있다.
프로세서(130)는 메모리(140)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행할 수 있다. 프로세서(130)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 예를 들어, 프로세서(130)는 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 한정되는 것은 아니다.
도 2에는 프로세서(130)가 하나의 엘리먼트로 도시되었으나, 이에 한정되는 것은 아니다. 일 실시예에서, 프로세서(130)는 하나 또는 하나 이상의 복수 개로 구성될 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 인공 지능(Artificial Intelligence; AI) 학습을 수행하는 AI 프로세서를 포함할 수 있다. 이 경우, AI 프로세서는 인공지능(AI) 모델을 이용하여 이미지로부터 객체를 인식하고, 인식된 객체의 컨텍스트 정보를 획득할 수 있다. AI 프로세서는, 인공 지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전자 장치(100) 내의 프로세서(130)에 탑재될 수 있다.
메모리(140)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 또는 광 디스크 중 적어도 하나의 타입의 저장매체로 구성될 수 있다. 본 개시의 일 실시예에서, 메모리(140)는 네트워크를 통해 접속 가능하고, 저장 기능을 수행하는 웹 스토리지(web storage) 또는 클라우드 서버로 구현될 수도 있다. 이 경우, 전자 장치(100)는 통신 인터페이스를 더 포함하고, 통신 인터페이스를 통해 웹 스토리지 또는 클라우드 서버와 통신 연결하고, 데이터 송수신을 수행할 수 있다.
메모리(140)에는 전자 장치(100)가 이미지로부터 컨텍스트 정보를 획득하고, 획득된 컨텍스트 정보에 기초하여 음향 장치의 오디오 설정(audio setting)을 제어하는 동작을 수행하기 위한 명령어들 또는 프로그램 코드가 저장될 수 있다. 본 개시의 일 실시예에서, 메모리(140)에는 프로세서(130)에 의해 판독될 수 있는 명령어들(instructions), 알고리즘(algorithm), 데이터 구조, 프로그램 코드(program code), 및 애플리케이션 프로그램(application program) 중 적어도 하나가 저장될 수 있다. 메모리(140)에 저장되는 명령어들, 알고리즘, 데이터 구조, 및 프로그램 코드는 예를 들어, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다.
메모리(140)에는 객체 인식 모델(142), 관심 객체 식별 모듈(144), 컨텍스트 정보 획득 모듈(146), 및 오디오 설정 제어 모듈(148)에 관한 명령어들, 알고리즘, 데이터 구조, 또는 프로그램 코드가 저장되어 있을 수 있다. 메모리(140)에 포함되는 '모듈'은 프로세서(130)에 의해 수행되는 기능이나 동작을 처리하는 단위를 의미하고, 이는 명령어들, 알고리즘, 데이터 구조, 또는 프로그램 코드와 같은 소프트웨어로 구현될 수 있다.
이하의 실시예들은, 프로세서(130)는 메모리(140)에 저장된 명령어들 또는 ㅍ프로그램 코드들을 실행함으로써 구현될 수 있다.
객체 인식 모델(object detection model)(142)은 이미지로부터 객체를 인식하는 동작 및/또는 기능에 관한 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 객체 인식 모델(142)은 인공 신경망 모델로 구성될 수 있다. 객체 인식 모델(142)은 수만 장 또는 수억 장의 입력 이미지로부터 객체로 인식될 수 있는 바운딩 박스(bounding box) 이미지를 입력 데이터로 적용하고, 객체 인식 결과에 관한 라벨 값(label value)을 출력 정답값(ground truth)으로 적용하여 지도 학습(supervised learning) 방식을 통해 객체를 인식하도록 트레이닝된(trained) 심층 신경망 모델(deep neural network model)일 수 있다. 객체 인식 모델(142)은 컨볼루션 신경망 모델(Convolution Neural Network)로 구현될 수 있으나, 이에 한정되는 것은 아니다. 객체 인식 모델(142)은 예를 들어, 영역 기반 컨볼루션 신경망 모델(Region-based Convolution Neural Network, R-CNN), 싱글 샷 멀티박스 디텍터 모델(Single Shot multibox Detector, SSD), YOLO v4, 센터 넷(CenterNet), 또는 모바일 넷(MobileNet)으로 구현될 수 있다.
그러나, 본 개시의 객체 인식 모델(142)이 전술한 심층 신경망 모델로 한정되는 것은 아니다. 객체 인식 모델(142)은 공지의 이미지 프로세싱 모델(예를 들어, 패턴 매칭, 특징 추출(feature extraction), 또는 경계 결정(boundary decision) 등)로 구성될 수도 있다.
프로세서(130)는 카메라(110)를 이용하여 피사체를 촬영함으로써 이미지를 획득할 수 있다. 프로세서(130)는 객체 인식 모델(142)과 관련된 명령어들 또는 프로그램 코드를 실행함으로써, 이미지로부터 적어도 하나의 객체를 인식할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 카메라(110)로부터 시계열적인 복수의 이미지 프레임을 획득하고, 객체 인식 모델(142)을 이용하여 복수의 이미지 프레임으로부터 적어도 하나의 객체를 인식할 수 있다.
관심 객체 식별 모듈(144)은 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 동작 및/또는 기능에 관한 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 프로세서(130)는 관심 객체 식별 모듈(144)과 관련된 명령어들 또는 프로그램 코드를 실행함으로써, 복수의 이미지 프레임으로부터 인식된 적어도 하나의 객체 중 관심 객체를 식별할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자의 줌 인(zoom in), 패닝(panning), 포커스(focus), 또는 크롭(crop) 중 어느 하나의 입력을 수신하는 입력 인터페이스를 더 포함할 수 있다. 예를 들어, 입력 인터페이스는 터치스크린으로 구성되고, 줌 인, 포커스 또는 크롭을 위한 터치 입력을 수신할 수 있다. 프로세서(130)는 입력 인터페이스를 통해 수신된 사용자 입력에 의해 줌 인, 패닝, 포커스, 또는 크롭된 영역을 식별하고, 식별된 영역에 포함되는 객체를 관심 객체로 인식할 수 있다.
컨텍스트 정보 획득 모듈(146)은 관심 객체의 컨텍스트 정보(context information)를 획득하는 동작 및/또는 기능에 관한 명령어들 또는 프로그램 코드로 구성된다. 본 개시에서 '컨텍스트 정보'는 이미지로부터 식별되는 상황 또는 맥락에 관한 정보를 의미하고, 예를 들어, 관심 객체의 분류(classification), 행동(action), 시간, 장소, 위치, 및 주변 환경 중 적어도 하나에 관한 정보를 포함할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 컨텍스트 정보 획득 모듈(146)과 관련된 명령어들 또는 프로그램 코드를 실행함으로써, 관심 객체에 관한 컨텍스트 정보를 획득할 수 있다.
본 개시의 일 실시예에서, 컨텍스트 정보 획득 모듈(146)은 인공 신경망 모델로 구성될 수 있다. 컨텍스트 정보 획득 모듈(146)은 예를 들어, 컨볼루션 신경망 모델(Convolution Neural Network)을 포함하는 공지의 인공 신경망 모델로 구현될 수 있다. 프로세서(130)는 컨텍스트 정보 획득 모듈(146)을 통해 관심 객체를 분석함으로써, 관심 객체의 분류 정보, 행동 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 획득할 수 있다. 본 개시에서, '분류 정보(classification information)'는 관심 객체를 식별한 결과에 관한 정보를 의미하는 것으로서, 관심 객체가 사람인지, 동물인지, 또는 물건인지 여부를 나타내거나, 또는 사람이더라도 가수, 악기 연주자, 운동 선수, 강사인지 여부를 나타내는 정보일 수 있다.
오디오 설정 제어 모듈(148)은 컨텍스트 정보에 기초하여 음향 장치(120)의 오디오 설정(audio setting)을 제어하는 동작 및/또는 기능에 관한 명령어들 또는 프로그램 코드로 구성된다. 본 개시의 일 실시예에서, 프로세서(130)는 오디오 설정 제어 모듈(148)과 관련된 명령어들 또는 프로그램 코드를 실행함으로써, 마이크(122)를 통한 오디오 신호의 녹음 또는 스피커(124)를 통한 오디오 신호의 출력을 위한 오디오 설정을 제어할 수 있다. 본 개시에서 '오디오 설정'은 음향 장치(120)의 이퀄라이저(equalizer), 증폭기(amplifier), 및 필터(filter) 중 적어도 하나를 제어하기 위한 설정 정보를 포함할 수 있다.
본 개시의 일 실시예에서, 음향 장치(120)는 복수의 이퀄라이저 프리셋(equalizer preset)을 저장하고 있을 수 있다. 프로세서(130)는 복수의 이퀄라이저 프리셋 중 기 설정된 매핑 관계에 따라 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋(equalizer preset)을 선택할 수 있다. 기 설정된 매핑 관계는 오디오 설정 제어 모듈(148)에 포함될 수 있으나, 이에 한정되는 것은 아니다.
본 개시의 일 실시예에서, 프로세서(130)는 컨텍스트 정보 획득 모듈(146)을 통해 관심 객체의 행동을 인식하고, 오디오 설정 제어 모듈(148)에 포함된 기 설정된 매핑 관계에 따라 관심 객체의 행동과 대응되도록 매핑된 이퀄라이저 프리셋을 결정할 수 있다. 프로세서(130)가 관심 객체의 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 구체적인 실시예에 대해서는 도 6, 도 7a, 7b, 및 도 8a 내지 도 8c에서 상세하게 설명하기로 한다.
본 개시의 일 실시예에서, 프로세서(130)는 음향 장치(120)의 증폭기(amplifier)를 이용하여, 오디오 신호의 주파수 대역 중 관심 객체와 관련된 주파수 대역을 증폭할 수 있다. 프로세서(130)는 예를 들어, 객체 별 오디오 신호의 주파수 대역에 관한 정보를 이용하여 관심 객체와 관련된 주파수 대역을 식별하고, 마이크(122)를 통해 획득된 오디오 신호의 주파수 스펙트럼 중 식별된 주파수 대역에 해당되는 주파수 대역만을 증폭할 수 있다. 다른 예를 들어, 프로세서(130)는 인공지능 모델로 구현된 오디오-이미지 분할 알고리즘(Audio-Visual Speech Separation)을 이용하거나, 또는 픽셀 별 음향 신호 분리 알고리즘(예를 들어, The Sound of Pixel의 PixelPlayer)을 이용하여 관심 객체와 관련된 오디오 신호만을 증폭할 수 있다.
프로세서(130)는 관심 객체와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호에 대해서는 감쇠(attenuate)할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 대역 차단 필터(band stop filter)를 이용하여, 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다. 프로세서(130)가 증폭기 및/또는 필터를 제어함으로써, 오디오 신호를 증폭 또는 감쇠하는 구체적인 실시예에 대해서는 도 9 내지 도 12에서 상세하게 설명하기로 한다.
본 개시의 일 실시예에서, 전자 장치(100)는 입력 인터페이스를 통해 이미지의 특정 영역을 크롭하는 사용자의 크롭 입력을 수신할 수 있다. 프로세서(130)는 크롭 입력에 기초하여 크롭 이미지(cropped image)를 획득하고, 크롭 이미지에 포함되는 관심 객체와 관련된 오디오 신호를 증폭시킬 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 크롭 이미지에 포함되지 않은 적어도 하나의 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리할 수 있다. 프로세서(130)가 크롭 이미지에 포함되는 관심 객체에 관한 오디오 신호를 증폭시키는 구체적인 실시예에 대해서는 도 13 및 도 14에서 상세하게 설명하기로 한다.
도 3은 본 개시의 일 실시예에 따른 전자 장치(100)의 동작 방법을 도시한 흐름도이다.
단계 S310에서, 전자 장치(100)는 카메라를 이용하여 획득된 이미지로부터 적어도 하나의 객체를 인식한다. 본 개시의 일 실시예에서, 전자 장치(100)는 카메라를 이용하여 시간의 흐름에 따라 연속적으로 피사체를 촬영함으로써, 시계열적인 복수의 이미지 프레임을 획득할 수 있다. 전자 장치(100)는 객체 인식 모델을 이용하여, 복수의 이미지 프레임으로부터 적어도 하나의 객체를 인식할 수 있다.
본 개시의 일 실시예에서, 객체 인식 모델(142)은 인공 신경망 모델로 구성될 수 있다. 예를 들어, 객체 인식 모델은 컨볼루션 신경망 모델(Convolution Neural Network)로 구현될 수 있다. 그러나, 이에 한정되는 것은 아니고, 객체 인식 모델은 예를 들어, 영역 기반 컨볼루션 신경망 모델(Region-based Convolution Neural Network, R-CNN), 싱글 샷 멀티박스 디텍터 모델(Single Shot multibox Detector, SSD), YOLO v4, 센터 넷(CenterNet), 또는 모바일 넷(MobileNet)으로 구현될 수 있다.
그러나 이에 한정되는 것은 아니고, 전자 장치(100)는 공지의 이미지 프로세싱 모델(예를 들어, 패턴 매칭, 특징 추출(feature extraction), 또는 경계 결정(boundary decision) 등)을 이용하여 복수의 이미지 프레임으로부터 적어도 하나의 객체를 인식할 수 있다.
단계 S320에서, 전자 장치(100)는 인식된 적어도 하나의 객체 중 관심 객체(main object of interest)를 식별한다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자 입력에 기초하여 줌 인(zoom in), 패닝(panning), 포커스(focus), 또는 크롭(crop) 중 어느 하나를 수행할 수 있다. 전자 장치(100)는 사용자 입력에 의해 줌 인, 패닝, 포커싱, 또는 크롭된 영역을 식별하고, S310에서 인식된 적어도 하나의 객체 중 식별된 영역에 포함되는 객체를 관심 객체로 인식할 수 있다.
단계 S330에서, 전자 장치(100)는 식별된 관심 객체의 컨텍스트 정보(context information)를 획득한다. 본 개시에서 '컨텍스트 정보'는 이미지로부터 식별되는 상황 또는 맥락에 관한 정보를 의미하고, 예를 들어, 관심 객체의 분류(classification), 행동(action), 시간, 장소, 위치, 및 주변 환경 중 적어도 하나에 관한 정보를 포함할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 인공지능 모델을 이용하여 관심 객체를 분석함으로써, 관심 객체의 분류 정보, 행동 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주변의 환경 정보 중 적어도 하나를 획득할 수 있다.
단계 S340에서, 전자 장치(100)는 획득된 컨텍스트 정보에 기초하여, 음향 장치의 오디오 신호의 녹음 또는 출력을 위한 오디오 설정(audio setting)을 제어한다. 전자 장치(100)는 마이크(122, 도 2 참조)를 통한 오디오 신호의 녹음 또는 스피커(124, 도 2 참조)를 통한 오디오 신호의 출력을 위한 오디오 설정을 제어할 수 있다. 본 개시에서 '오디오 설정'은 마이크(122) 및 스피커(124) 중 적어도 하나를 포함하는 음향 장치의 이퀄라이저(equalizer), 증폭기(amplifier), 및 필터(filter) 중 적어도 하나를 제어하기 위한 설정 정보를 포함할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 음향 장치의 복수의 이퀄라이저 프리셋(equalizer preset)을 저장하고 있을 수 있다. 전자 장치(100)는 예를 들어, 결정 트리(decision tree), 퍼지 논리(Fuzzy logic), 또는 기타 공지된 알고리즘을 이용하여 기 저장된 복수의 이퀄라이저 프리셋 중 컨텍스트 정보에 대응되는 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 복수의 이퀄라이저 프리셋 중 기 설정된 매핑 관계에 따라 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋을 선택할 수 있다. 전자 장치(100)는 관심 객체의 행동을 인식하고, 기 설정된 매핑 관계에 따라 관심 객체의 행동과 대응되도록 매핑된 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 음향 장치의 증폭기(amplifier)를 이용하여, 오디오 신호의 주파수 대역 중 관심 객체와 관련된 주파수 대역을 증폭할 수 있다. 전자 장치(100)는 예를 들어, 객체 별 오디오 신호의 주파수 대역에 관한 정보를 이용하여 관심 객체와 관련된 주파수 대역을 식별하고, 마이크(122)를 통해 획득된 오디오 신호의 주파수 스펙트럼 중 식별된 주파수 대역에 해당되는 주파수 대역만을 증폭할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 관심 객체와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호에 대해서는 감쇠(attenuate)할 수 있다. 전자 장치(100)는 예를 들어, 대역 차단 필터(band stop filter)를 이용하여 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다.
도 4는 본 개시의 일 실시예에 따른 전자 장치(100)가 이미지로부터 관심 객체를 식별하는 동작을 도시한 흐름도이다.
도 4에 도시된 단계 S410 및 S420은 도 3에 도시된 단계 S320을 구체화한 단계들이다. 도 4에 도시된 단계 S410은 도 3의 단계 S310이 수행된 이후에 수행될 수 있다. 도 4에 도시된 단계 S420이 수행된 이후에는 도 3의 단계 S330이 수행될 수 있다.
단계 S410에서, 전자 장치(100)는 이미지로부터 사용자 입력에 의하여 줌 인(zoom in), 패닝(panning), 또는 크롭(crop)된 영역을 식별한다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자의 줌 인, 패닝, 포커스, 또는 크롭 중 어느 하나의 사용자 입력을 수신하는 입력 인터페이스를 더 포함할 수 있다. 입력 인터페이스는 예를 들어, 키보드, 마우스, 터치스크린, 또는 음성 입력 장치(예를 들어, 마이크로폰) 등을 포함할 수 있으며, 기타 당업자에게 자명한 입력 장치를 포함할 수 있다. 예를 들어, 입력 인터페이스는 터치스크린으로 구성되고, 전자 장치(100)는 터치스크린을 통해 줌 인, 포커스 또는 크롭을 위한 터치 입력을 수신할 수 있다. 전자 장치(100)는 입력 인터페이스를 통해 수신된 사용자 입력에 의해 줌 인, 패닝, 포커스, 또는 크롭된 영역을 식별할 수 있다.
단계 S420에서, 전자 장치(100)는 식별된 영역에 포함되는 객체를 관심 객체로 인식한다. 본 개시의 일 실시예에서, 전자 장치(100)는 줌 인 입력으로 인하여 확대된 영역에 포함된 객체를 관심 객체로 인식할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 패닝 입력을 통해 특정된 영역의 중앙부에 위치한 객체를 관심 객체로 인식할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자의 포커스 입력으로 인하여 카메라의 초점이 맞는 객체를 관심 객체로 인식할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 크롭 입력에 의해 크롭된 영역에 포함되는 객체를 관심 객체로 인식할 수 있다.
도 5는 본 개시의 일 실시예에 따른 전자 장치(100)가 관심 객체(520)의 이미지 및 관심 객체(520)와 관련된 오디오 신호를 획득하는 동작을 도시한 도면이다.
도 5를 참조하면, 전자 장치(100)는 카메라(1110, 도 2 참조)를 이용하여 현실 공간에 위치하는 적어도 하나의 객체를 촬영함으로써, 이미지(500)를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 적어도 하나의 객체에 관한 동영상을 촬영하고, 동영상 촬영 중 마이크(122)를 이용하여 적어도 하나의 객체로부터 출력되는 음성, 음악, 또는 소음(noise)을 녹음할 수 있다. 마이크(122)는 적어도 하나의 객체로부터 녹음된 음성, 음악, 소음, 또는 기타 소리를 오디오 신호로 변환할 수 있다. 도 5에 도시된 실시예에서, 전자 장치(100)는 마이크(122)를 통해 가수의 음성(511) 및 음악(512)의 오디오 신호 뿐만 아니라, 가수 주변의 자동차 또는 행인들에 의한 잡음(513)의 오디오 신호를 획득할 수 있다.
전자 장치(100)는 사용자 입력에 기초하여 이미지(500)의 전체 영역 중 관심 영역(510)을 식별하고, 관심 영역(510) 내에 포함되는 관심 객체(520)를 인식할 수 있다. 예를 들어, 전자 장치(100)는 사용자로부터 줌 인(zoom in) 입력을 수신하고, 줌 인 입력에 따라 특정 영역을 확대시킬 수 있다. 전자 장치(100)는 확대된 영역을 관심 영역(510)으로서 식별할 수 있다. 전자 장치(100)는 객체 인식 모델을 이용하여 관심 영역(510) 내에 포함되는 객체를 인식할 수 있다. 본 개시의 일 실시예에서, 객체 인식 모델은 컨볼루션 신경망 모델(Convolution Neural Network) 등 심층 신경망 모델일 수 있으나, 이에 한정되는 것은 아니다. 본 개시의 일 실시예에서, 전자 장치(100)는 공지의 이미지 프로세싱 모델(예를 들어, 패턴 매칭, 특징 추출(feature extraction), 또는 경계 결정(boundary decision) 등)을 이용하여 관심 영역(510) 내에 포함되는 객체를 인식할 수 있다. 전자 장치(100)는 관심 영역(510) 내에서 인식된 객체를 관심 객체(520)로 결정할 수 있다.
전자 장치(100)는 동영상 촬영을 통해, 시간의 흐름에 따라 관심 객체(520)를 연속적으로 촬영함으로써 복수의 이미지 프레임(530)을 획득할 수 있다. 전자 장치(100)는 복수의 이미지 프레임(530)을 획득함과 동시에, 마이크(122)를 이용하여 관심 객체(520)로부터 출력된 음성(511) 및 음악(512)을 포함하는 오디오 신호(540)를 획득할 수 있다.
도 5에 도시된 실시예와 같이, 사용자는 전자 장치(100)의 카메라를 이용하여 거리 가수(street singer)인 관심 객체(520)가 포함되는 관심 영역(510)을 줌 인(zoom in)하고, 마이크(122)를 이용하여 거리 가수의 음성(511) 또는 음악(512)만을 녹음하기를 원할 수 있다. 그러나, 마이크(122)는 관심 객체(520)에 의하여 출력된 음성(511) 및 음악(512)의 오디오 신호 뿐만 아니라, 관심 객체(520)의 주변의 객체(예를 들어, 자동차 또는 주변 행인)에 의한 잡음(513)의 오디오 신호도 획득하는 바, 잡음(513)의 오디오 신호를 감쇠시키거나, 제거할 필요가 있다. 본 개시는 마이크(122)를 포함하는 음향 장치의 오디오 설정(audio setting)을 제어함으로써, 관심 객체(520)에 의한 오디오 신호를 강조 또는 증폭시키고, 관심 객체(520)를 제외한 다른 객체에 의한 잡음(513)은 감쇠하거나, 제거하는 전자 장치(100)를 제공할 수 있다. 본 개시의 전자 장치(100)가 관심 객체(520)의 컨텍스트 정보(context information)에 기초하여 음향 장치의 오디오 설정 중 이퀄라이저(equalizer)를 제어하는 구체적인 실시예에 대해서는 도 6, 도 7, 및 도 8a 내지 8c에서 상세하게 설명하기로 한다.
도 6은 본 개시의 일 실시예에 따른 전자 장치(100)가 기 설정된 매핑 관계에 따라 관심 객체의 컨텍스트 정보에 대응되는 오디오 설정을 적용하는 동작을 도시한 도면이다.
도 6을 참조하면, 전자 장치(100)는 카메라(110), 음향 장치(120), 및 프로세서(130)를 포함할 수 있다. 그러나, 도 6에는 전자 장치(100)의 동작을 설명하기 위한 핵심적인 구성 요소만이 도시되었고, 전자 장치(100)가 도 6에 도시된 구성만을 포함하는 것으로 한정되는 것은 아니다.
전자 장치(100)는 카메라(110)를 이용하여 현실 공간의 객체를 촬영함으로써, 로 이미지(raw image)(600)를 획득할 수 있다. 카메라(110)는 획득된 로 이미지(600)의 이미지 프레임을 프로세서(130)에 제공할 수 있다. 본 개시의 일 실시예에서, 카메라(110)는 사용자 입력에 의한 카메라 설정 정보를 프로세서(130)에 제공할 수 있다. '카메라 설정 정보'는 카메라(110)를 이용하는 촬영에 관하여 사용자 입력에 의한 설정 정보일 수 있다. 카메라 설정 정보는 예를 들어, 줌 인/아웃(zoom in/zoom out), 패닝(panning), 또는 포커스(focus) 중 적어도 하나에 관한 정보를 포함할 수 있다.
도 6에 도시된 실시예에서, 전자 장치(100)는 카메라(110)에 대한 줌 인 입력을 수신하고, 줌 인 입력에 따라 특정 영역을 확대하며, 확대된 영역을 관심 영역(610)으로 식별할 수 있다. 프로세서(130)는 줌 인 입력에 의한 카메라 설정 정보(예를 들어, 줌 배율 정보 또는 관심 영역(610) 정보)를 이미지-오디오 설정 매퍼(134)에 제공할 수 있다.
프로세서(130)는 카메라(110)로부터 획득한 로 이미지(600)의 이미지 프레임을 이미지 처리부(132)에 입력함으로써, 이미지 프레임으로부터 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 이미지 처리부(132)는 인공지능 모델로 구현될 수 있다. 예를 들어, 이미지 처리부(132)는 컨볼루션 신경망 모델(Convolution Neural Network)로 구현될 수 있으나, 이에 한정되는 것은 아니다. 이미지 처리부(132)는 예를 들어, 영역 기반 컨볼루션 신경망 모델(Region-based Convolution Neural Network, R-CNN), 싱글 샷 멀티박스 디텍터 모델(Single Shot multibox Detector, SSD), YOLO v4, 센터 넷(CenterNet), 또는 모바일 넷(MobileNet)으로 구현될 수도 있다. 이미지 처리부(132)는 카메라 설정 정보에 기초하여 관심 객체를 식별하고, 관심 객체로부터 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 이미지 처리부(132)는 관심 객체의 분류(classification) 정보, 행동(action) 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 포함하는 컨텍스트 정보를 획득할 수 있다. 도 6에 도시된 실시예에서, 프로세서(130)는 이미지 처리부(132)를 통해 관심 영역(610) 내의 관심 객체를 식별하고, 관심 객체의 컨텍스트 정보를 획득할 수 있다. 예를 들어, 프로세서(130)는 로 이미지(600)의 이미지 프레임으로부터 바운딩 박스(620) 내의 관심 객체를 식별하고, 관심 객체의 컨텍스트 정보로서 '가수(분류 정보)', '거리(장소 정보)', 또는 '저녁 시간(시간 정보)'의 정보를 획득할 수 있다.
프로세서(130)는 이미지 처리부(132)를 통해 관심 객체에 관한 비디오 스트림(630)을 획득할 수 있다.
프로세서(130)는 카메라(110)로부터 획득한 카메라 설정 정보 및 이미지 처리부(132)로부터 획득한 컨텍스트 정보를 이미지-오디오 설정 매퍼(image-to-audio setting mapper)(134)에 제공할 수 있다. 이미지-오디오 설정 매퍼(134)는 로 이미지(600)의 이미지 프레임으로부터 획득된 컨텍스트 정보와 음향 장치(120)의 이퀄라이저 프리셋(equalizer preset) 사이의 매핑 관계에 관한 정보를 포함할 수 있다. 이미지 프레임으로부터 획득된 컨텍스트 정보와 음향 장치(120)의 이퀄라이저 프리셋 간의 매핑 관계는 로 이미지(600)를 획득하기 이전에 미리 설정되어 있을 수 있다. 본 개시의 일 실시예에서, 컨텍스트 정보와 이퀄라이저 프리셋 간의 매핑 관계에 관한 정보는 메모리(140, 도 2 참조) 내에 저장되어 있을 수 있다. 컨텍스트 정보와 이퀄라이저 프리셋 간의 매핑 관계에 대해서는 도 7a 및 도 7b에서 상세하게 설명하기로 한다.
음향 장치(120)는 마이크(122)를 포함하고, 마이크(122)를 이용하여 객체에 의해 출력되는 오디오 신호를 획득할 수 있다. 본 개시의 일 실시예에서, 마이크(122)는 객체에 의해 출력되는 음성, 음악, 또는 잡음을 포함하는 로 오디오 스트림(raw audio stream)을 획득할 수 있다.
프로세서(130)는 음향 장치(120)에 오디오 설정 제어 신호를 전송하고, 오디오 설정 제어 신호에 기초하여 음향 장치(120)를 제어할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 이미지-오디오 설정 매퍼(134)에 의해 컨텍스트 정보에 대응되도록 매핑된 이퀄라이저 프리셋을 결정하고, 마이크(122)가 결정된 이퀄라이저 프리셋에 따라 오디오 신호를 획득하도록 마이크(122)를 제어할 수 있다. 도 6에 도시된 실시예에서, 프로세서(130)는 이미지-오디오 설정 매퍼(134)에 의해 관심 객체의 컨텍스트 정보('가수', '거리', 또는 '저녁 시간')와 대응되도록 매핑된 이퀄라이저 프리셋(예를 들어, '음악'과 매핑된 이퀄라이저 프리셋)을 식별하고, 식별된 이퀄라이저 프리셋을 이용하여 오디오 신호를 획득하도록 마이크(122)를 제어할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 로 오디오 스트림에 포함된 오디오 신호의 주파수 스펙트럼 중에서 가수의 음성 또는 음악과 관련된 주파수 대역을 증폭하고, 주변의 소음 또는 환호성 등과 관련된 주파수 대역은 감쇠 또는 제거하도록 마이크(122)를 제어할 수 있다. 마이크(122)는 프로세서(130)에 의해 제공된 오디오 설정(예를 들어, 이퀄라이저 프리셋)을 로 오디오 스트림에 적용함으로써 오디오 신호(640)를 획득할 수 있다.
도 7a는 본 개시의 일 실시예에 따른 전자 장치(100)가 이미지-오디오 신호 매핑 관계에 따라 컨텍스트 정보에 대응되는 이퀄라이저 프리셋(equalizer preset)을 출력하는 동작을 도시한 도면이다.
도 7a를 참조하면, 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)는 복수의 컨텍스트(710-1 내지 710-n)와 복수의 이퀄라이저 프리셋(720-1 내지 720-n) 간의 대응 관계에 관한 정보를 저장할 수 있다. 본 개시의 일 실시예에서, 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)는 비휘발성 메모리로 구성될 수 있다. 비휘발성 메모리(Non-volatile memory)는 전원이 공급되지 않은 상태에서도 정보를 저장 및 유지하고, 전원이 공급되면 다시 저장된 정보를 사용할 수 있는 기억 매체를 의미한다. 비휘발성 메모리는 예를 들어, 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Drive), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 롬(Read Only Memory; ROM), 자기 디스크, 또는 광디스크 중 적어도 하나를 포함할 수 있다. 본 개시의 일 실시예에서, 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)는 메모리(140, 도 2 참조)에 포함되거나, 또는 오디오 설정 제어 모듈(148, 도 2 참조) 내에 포함되는 구성 요소일 수 있다. 그러나, 이에 한정되는 것은 아니고, 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)는 전자 장치(100)에 포함되지 않은 외장 메모리 형태로 구현되거나 또는 유무선 데이터 통신을 통해 연결되는 웹 기반 저장 매체 또는 클라우드 서버로 구현될 수도 있다.
이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)에는 복수의 컨텍스트 (710-1 내지 710-n) 각각과 대응되도록 매핑된 복수의 이퀄라이저 프리셋(720-1 내지 720-n)에 관한 정보가 저장되어 있을 수 있다. 본 개시의 일 실시예에서, 복수의 컨텍스트(710-1 내지 710-n)와 복수의 이퀄라이저 프리셋(720-1 내지 720-n) 간의 매핑 관계는 미리 설정되어 있을 수 있다. 도 7a에 도시된 실시예에서, '음악'을 나타내는 제1 컨텍스트(710-1)는 제1 이퀄라이저 프리셋(720-1)과 매핑되고, '콘서트'를 나타내는 제2 컨텍스트(710-2)는 제2 이퀄라이저 프리셋(720-2)과 매핑되며, '음성 채팅'인 제n 컨텍스트(710-n)는 제n 이퀄라이저 프리셋(720-n)과 매핑되어 있을 수 있다.
전자 장치(100)의 프로세서(130, 도 2 참조)는 컨텍스트 정보 획득 모듈(146)을 이용하여 이미지(710a)로부터 컨텍스트 정보를 획득할 수 있다. 프로세서(130)는 컨텍스트 정보로부터 이퀄라이저 프리셋에 대응되는 장면 컨텍스트(scene context)를 판단할 수 있다. 프로세서(130)는 예를 들어, 결정 트리(decision tree), 퍼지 논리(Fuzzy logic), 또는 기타 공지된 알고리즘을 이용하여 컨텍스트 정보로부터 장면 컨텍스트를 판단할 수 있다. 도 7a에 도시된 실시예에서, 프로세서(130)는 컨텍스트 정보 획득 모듈(146)을 통해 이미지(710a)로부터 '연주자'(분류 정보), '피아노 연주'(행동 정보), '콘서트 홀'(장소 정보), 또는 '관객들'(환경 정보)을 포함하는 컨텍스트 정보를 획득하고, 컨텍스트 정보로부터 장면 컨텍스트가 '콘서트'임을 판단할 수 있다.
프로세서(130)는 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)에 저장된 복수의 이퀄라이저 프리셋(720-1 내지 720-n) 중 획득된 장면 컨텍스트와 동일 또는 유사한 컨텍스트 정보와 매핑된 이퀄라이저 프리셋을 식별할 수 있다. 도 7a에 도시된 실시예에서, 프로세서(130)는 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)로부터 '콘서트'를 나타내는 제2 컨텍스트(710-2)와 대응되도록 매핑된 제2 이퀄라이저 프리셋(720-2)을 식별할 수 있다. 예를 들어, 제2 이퀄라이저 프리셋(720-2)은 콘서트의 음악에 대응되는 주파수 대역을 강조(또는 증폭)하여 '콘서트 홀'에 최적화된 이퀄라이저 프리셋일 수 있다. 프로세서(130)는 식별된 제2 이퀄라이저 프리셋(720-2)를 이용하여 오디오 신호를 획득하도록 음향 장치(예를 들어, 마이크(122, 도 6 참조))를 제어할 수 있다.
도 7b는 본 개시의 일 실시예에 따른 전자 장치(100)가 이미지-오디오 신호 매핑 관계에 따라 컨텍스트 정보에 대응되는 이퀄라이저 프리셋을 출력하는 동작을 도시한 도면이다.
도 7b에 도시된 실시예는 이미지(710b)로부터 획득한 컨텍스트(710-3) 및 식별된 이퀄라이저 프리셋(720-3)을 제외하고는 도 7a에 도시된 실시예와 동일하므로, 도 7a와 중복되는 설명은 생략한다.
도 7b를 참조하면, 전자 장치(100)는 이미지(710b)로부터 컨텍스트 정보를 획득하고, 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)에 저장된 복수의 이퀄라이저 프리셋(720-1 내지 720-n) 중 획득된 컨텍스트와 동일 또는 유사한 컨텍스트 정보와 매핑된 이퀄라이저 프리셋을 식별할 수 있다. 도 7b에 도시된 실시예에서, 전자 장치(100)의 프로세서(130, 도 2 참조)는 컨텍스트 정보 획득 모듈(146)을 통해 이미지(710b)로부터 '연주자'(분류 정보), '산'(분류 정보), '나무(분류 정보), '피아노 연주'(행동 정보), 또는 '자연'(환경 정보)을 포함하는 컨텍스트 정보를 획득하고, 컨텍스트 정보로부터 장면 컨텍스트가 '자연'임을 판단할 수 있다.
프로세서(130)는 이미지 컨텍스트-오디오 설정 매핑 관계 저장부(700)로부터 '자연'을 나타내는 제3 컨텍스트(710-3)와 대응되도록 매핑된 제3 이퀄라이저 프리셋(720-3)을 식별할 수 있다. 예를 들어, 제3 이퀄라이저 프리셋(720-3)은 자연 환경에 대응되는 주파수 대역을 강조(또는 증폭)하여 '자연 환경'에 최적화된 이퀄라이저 프리셋일 수 있다. 프로세서(130)는 식별된 제3 이퀄라이저 프리셋(720-3)를 이용하여 오디오 신호를 획득하도록 음향 장치(예를 들어, 마이크(122, 도 6 참조))를 제어할 수 있다.
도 8a는 본 개시의 일 실시예에 따른 전자 장치(100)가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 8a를 참조하면, 전자 장치(100)는 관심 객체 이미지(800a)로부터 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)의 프로세서(130, 도 2 참조)는 컨텍스트 정보 획득 모듈(146, 도 2 참조)을 이용하여 관심 객체 이미지(800a)를 분석함으로써, 관심 객체의 분류(classification) 정보, 행동(action) 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 획득할 수 있다. 도 8a에 도시된 실시예에서, 전자 장치(100)는 관심 객체 이미지(800a)로부터 '가수'(분류 정보), '기타 치고 노래하는 행동'(행동 정보), '저녁 시간'(시간 정보), 및 '거리'(위치 정보) 중 적어도 하나의 정보를 획득할 수 있다.
전자 장치(100)는 컨텍스트 정보에 기초하여 오디오 설정(audio setting)을 제어하는 동작 및/또는 기능을 실행하기 위한 UI(User Interface)(810)를 디스플레이할 수 있다. 예를 들어, 전자 장치(100)는 디스플레이부 상에 스마트 오디오 설정 UI(smart audio setting UI)(810)를 디스플레이할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 스마트 오디오 설정 UI(810)를 선택하는 사용자의 터치 입력을 수신할 수 있다. 터치 입력이 수신되면, 전자 장치(100)는 컨텍스트 정보에 기초하여 음향 장치의 이퀄라이저 프리셋(equalizer preset)을 결정한다.
전자 장치(100)는 컨텍스트 정보와 이퀄라이저 프리셋 간의 기 설정된 매핑 관계에 기초하여, 관심 객체 이미지(800a)로부터 획득된 컨텍스트 정보에 대응되는 이퀄라이저 프리셋을 결정할 수 있다. 본 개시의 일 실시예에서, 컨텍스트 정보와 이퀄라이저 프리셋 간의 매핑 관계는 미리 설정되어 있고, 미리 설정된 매핑 관계는 메모리(140, 도 2 참조) 또는 오디오 설정 제어 모듈(148, 도 2 참조) 내에 저장되어 있을 수 있다. 컨텍스트 정보와 이퀄라이저 프리셋 간의 매핑 관계에 관한 구체적인 설명은 도 7a에 설명된 것과 동일하므로, 중복되는 설명은 생략한다. 전자 장치(100)는 '가수'(분류 정보), '기타 치고 노래'(행동 정보), '저녁 시간'(시간 정보), 또는 '거리'(장소 정보)의 컨텍스트 정보에 기초하여 '음악'이라는 장면 컨텍스트를 판단하고, '음악'과 대응되도록 매핑된 음악 이퀄라이저 프리셋(820)을 결정할 수 있다.
전자 장치(100)는 결정된 음악 이퀄라이저 프리셋(820)을 이용하여 오디오 신호를 획득하도록 마이크(122, 도 6 참조)를 제어할 수 있다.
도 8b는 본 개시의 일 실시예에 따른 전자 장치(100)가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 8b에 도시된 실시예는 관심 객체 이미지(800b), 관심 객체 이미지(800b)로부터 획득된 컨텍스트 정보, 및 이퀄라이저 프리셋(822)을 제외하고는 도 8a와 동일하므로, 도 8a의 설명과 중복되는 설명은 생략한다.
도 8b를 참조하면, 전자 장치(100)는 관심 객체 이미지(800b)로부터 '강연자'(분류 정보) 및 '강의 하는 행동'(행동 정보) 중 적어도 하나의 정보를 획득할 수 있다. 전자 장치(100)는 컨텍스트 정보에 기초하여 오디오 설정(audio setting)을 제어하는 동작 및/또는 기능을 실행하기 위한 스마트 오디오 설정 UI(User Interface)(810)를 디스플레이하고, 스마트 오디오 설정 UI(810)를 선택하는 사용자의 터치 입력을 수신할 수 있다. 터치 입력이 수신되면, 전자 장치(100)는 컨텍스트 정보에 기초하여 음향 장치의 이퀄라이저 프리셋(equalizer preset)을 결정한다.
전자 장치(100)는 관심 객체의 컨텍스트 정보 중 행동 정보에 기초하여 장면 컨텍스트를 판단하고, 장면 컨텍스트에 매핑된 이퀄라이저 프리셋(822)을 결정할 수 있다. 도 8b에 도시된 실시예에서, 전자 장치(100)는 컨텍스트 정보 중 행동 정보(예를 들어, '강의')에 기초하여 장면 컨텍스트를 판단하고, 미리 설정된 매핑 관계에 따라 복수의 이퀄라이저 프리셋 중 장면 컨텍스트에 대응되도록 매핑된 '강연(speech)' 이퀄라이저 프리셋(822)을 결정할 수 있다.
전자 장치(100)는 결정된 '강연' 이퀄라이저 프리셋(822)을 이용하여 오디오 신호를 획득하도록 마이크(122, 도 6 참조)를 제어할 수 있다.
도 8c는 본 개시의 일 실시예에 따른 전자 장치(100)가 컨텍스트 정보에 기초하여 이퀄라이저 프리셋을 결정하는 동작을 도시한 도면이다.
도 8c에 도시된 실시예는 관심 객체 이미지(800c), 관심 객체 이미지(800c)로부터 획득된 컨텍스트 정보, 및 이퀄라이저 프리셋(824)을 제외하고는 도 8a와 동일하므로, 도 8a의 설명과 중복되는 설명은 생략한다.
도 8c를 참조하면, 전자 장치(100)는 관심 객체 이미지(800c)로부터 '사람의 얼굴'(분류 정보) 및 '영상 통화'(행동 정보) 중 적어도 하나의 정보를 획득할 수 있다. 전자 장치(100)는 컨텍스트 정보에 기초하여 오디오 설정(audio setting)을 제어하는 동작 및/또는 기능을 실행하기 위한 스마트 오디오 설정 UI(User Interface)(810)를 디스플레이하고, 스마트 오디오 설정 UI(810)를 선택하는 사용자의 터치 입력을 수신할 수 있다. 터치 입력이 수신되면, 전자 장치(100)는 컨텍스트 정보에 기초하여 음향 장치의 이퀄라이저 프리셋(equalizer preset)을 결정한다.
전자 장치(100)는 관심 객체의 컨텍스트 정보 중 행동 정보에 기초하여 장면 컨텍스트를 판단하고, 장면 컨텍스트에 매핑된 이퀄라이저 프리셋(824)을 결정할 수 있다. 도 8c에 도시된 실시예에서, 전자 장치(100)는 행동 컨텍스트(예를 들어, '영상 통화')에 기초하여 장면 컨텍스트를 판단하고, 미리 설정된 매핑 관계에 따라 복수의 이퀄라이저 프리셋 중 장면 컨텍스트에 대응되도록 매핑된 영상 통화(video call) 이퀄라이저 프리셋(824)을 결정할 수 있다.
전자 장치(100)는 결정된 영상 통화 이퀄라이저 프리셋(824)을 이용하여 오디오 신호를 획득하도록 마이크(122, 도 6 참조)를 제어할 수 있다.
도 6, 도 7a, 도 7b, 및 도 8a 내지 도 8c에 도시된 실시예에서, 전자 장치(100)는 관심 객체의 이미지로부터 컨텍스트 정보를 획득하고, 컨텍스트 정보와 이퀄라이저 프리셋 간의 미리 설정된 매핑 관계에 기초하여 관심 객체의 컨텍스트 정보에 대응되는 이퀄라이저 프리셋을 결정할 수 있다. 본 개시의 일 실시예에 따른 전자 장치(100)는 결정된 이퀄라이저 프리셋을 통해 오디오 신호를 획득함으로써, 사용자가 관심있어 하는 객체의 컨텍스트와 관련된 오디오 신호의 주파수 대역만을 강조할 수 있고, 마이크(122)를 통해 녹음되는 오디오 신호의 품질을 향상시키는 기술적 효과를 제공한다. 예를 들어, 도 8a에 도시된 실시예에서 전자 장치(100)는 주변 소음이 없는 거리 가수(street singer) 또는 무대 예술가의 노래, 또는 음악만을 강조하여 녹음할 수 있다. 도면에서는 도시되지 않았지만, 전자 장치(100)는 결정된 이퀄라이저 프리셋을 이용하여 음향 장치 중 스피커(124, 도 2 참조)를 통해 출력되는 오디오 신호의 주파수 대역 중 관심 객체와 관련된 특정 주파수 대역을 강조(또는 증폭)하고, 관심 객체와 관련되지 않은 주파수 대역은 감쇠 또는 제거할 수 있다. 이를 통해, 전자 장치(100)는 스피커(124)를 통해 출력되는 오디오 신호의 품질을 향상시킬 수 있다.
도 9는 본 개시의 일 실시예에 따른 전자 장치(100)가 이미지의 컨텍스트 정보에 기초하여 오디오 신호의 필터링(filtering)을 수행하는 동작을 도시한 도면이다.
도 9를 참조하면, 전자 장치(100)는 카메라(110), 음향 장치(120), 및 프로세서(130)를 포함할 수 있다. 그러나, 도 9에는 전자 장치(100)의 동작을 설명하기 위한 핵심적인 구성 요소만이 도시되었고, 전자 장치(100)가 도 9에 도시된 구성만을 포함하는 것으로 한정되는 것은 아니다.
전자 장치(100)는 카메라(110)를 이용하여 현실 공간의 객체를 촬영함으로써, 로 이미지(raw image)(900)를 획득할 수 있다. 카메라(110)는 획득된 로 이미지(900)의 이미지 프레임을 프로세서(130)에 제공할 수 있다. 프로세서(130)는 객체 인식 모델을 이용하여 이미지 프레임으로부터 적어도 하나의 객체(910, 920, 922)를 인식하고, 인식된 적어도 하나의 객체(910, 920, 922) 중 관심 객체(910)를 식별할 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자 입력에 기초하여 줌 인(zoom in), 패닝(panning), 또는 포커스(focus) 중 적어도 하나를 수행하고, 수행된 줌 인, 패닝, 또는 포커스에 의해 특정된 관심 영역 내에 포함되는 관심 객체(910)를 식별할 수 있다. 도 9에 도시된 실시예에서, 프로세서(130)는 이미지 프레임으로부터 '사람'을 관심 객체(910)로 식별할 수 있다.
프로세서(130)는 카메라(110)로부터 획득한 로 이미지(600)의 이미지 프레임을 이미지 처리부(132)에 입력함으로써, 이미지 프레임으로부터 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 이미지 처리부(132)는 인공지능 모델로 구현될 수 있다. 예를 들어, 이미지 처리부(132)는 컨볼루션 신경망 모델(Convolution Neural Network)로 구현될 수 있으나, 이에 한정되는 것은 아니다. 이미지 처리부(132)는 예를 들어, 영역 기반 컨볼루션 신경망 모델(Region-based Convolution Neural Network, R-CNN), 싱글 샷 멀티박스 디텍터 모델(Single Shot multibox Detector, SSD), YOLO v4, 센터 넷(CenterNet), 또는 모바일 넷(MobileNet)으로 구현될 수도 있다. 이미지 처리부(132)는 관심 객체로부터 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 이미지 처리부(132)는 관심 객체의 분류(classification) 정보, 행동(action) 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 포함하는 컨텍스트 정보를 획득할 수 있다. 도 9에 도시된 실시예에서, 프로세서(130)는 이미지 처리부(132)를 통해 관심 객체(910)의 컨텍스트 정보로서 '가수(분류 정보)', '거리(장소 정보)', 또는 '저녁 시간(시간 정보)'의 정보를 획득할 수 있다.
프로세서(130)는 이미지 처리부(132)를 통해 관심 객체(910)를 포함하는 관심 영역에 관한 비디오 스트림(930)을 획득할 수 있다.
프로세서(130)는 이미지 처리부(132)로부터 획득한 컨텍스트 정보에 기초하여 음향 장치(120)의 오디오 설정을 제어할 수 있다. 음향 장치(120)는 예를 들어, 마이크를 포함하고, 마이크를 통해 적어도 하나의 객체(910, 920, 922)에 의해 출력되는 음성, 음악, 또는 잡음을 녹음할 수 있다. 본 개시의 일 실시예에서, 음향 장치(120)는 관심 객체(910)로부터 출력되는 음성 신호(912) 및 음악 신호(914)를 획득하고, 자동차(920) 및 행인(922)에 의해 출력되는 잡음(noise) 신호(924)를 획득할 수 있다.
본 개시의 일 실시예에서, 음향 장치(120)는 대역 차단 필터(band stop filter)(126) 및 증폭기(amplifier)(128)를 포함할 수 있다. 프로세서(130)는 컨텍스트 정보에 기초하여 음향 장치(120)의 대역 차단 필터(126) 및 증폭기(128)를 제어할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 대역 차단 필터(126)를 제어함으로써, 로 이미지(900)의 이미지 프레임으로부터 인식된 적어도 하나의 객체(910, 920, 922) 중 관심 객체(910)를 제외한 나머지 객체(920, 922)에 의해 출력되는 잡음 신호(924)의 주파수 대역은 감쇠(attenuating) 또는 차단하는 필터링(filtering)을 수행할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 증폭기(128)를 이용하여, 관심 객체(910)에 의해 출력되는 음성 신호(912) 및 음악 신호(914)의 주파수 대역을 증폭할 수 있다.
음향 장치(120)는 프로세서(130)의 제어에 의해 관심 객체(910)와 관련된 음성 신호(912) 및 음악 신호(914)만을 증폭시키고, 관심 객체(910)가 아닌 나머지 객체(920, 922)와 관련된 잡음 신호(924)는 감쇠 또는 제거하여, 오디오 신호(940)를 획득할 수 있다. 도 9에 도시된 실시예에서, 오디오 신호(940)는 관심 객체(910)에 의해 출력된 음성 신호(912) 및 음악 신호(914)를 포함할 수 있다.
도 9에 도시된 실시예에서, 전자 장치(100)는 관심 객체(910)에 관한 컨텍스트 정보를 획득하고, 컨텍스트 정보에 기초하여 음향 장치(120)의 대역 차단 필터(126) 및 증폭기(128)를 제어함으로써 사용자가 관심있어 하는 객체와 관련된 오디오 신호(940)만을 강조(또는 증폭)하여 획득할 수 있다. 따라서 본 개시의 일 실시예에 따른 전자 장치(100)는 마이크를 통해 사용자가 원하는 오디오 신호(940)만을 획득하고, 사용자가 원치 않는 잡음(noise) 신호(924)는 효율적으로 감쇠시킬 수 있는 바, 녹음되는 오디오 신호(940)의 품질을 향상키는 기술적 효과를 제공한다.
도 10은 본 개시의 일 실시예에 따른 전자 장치(100)가 관심 객체(1010)의 컨텍스트 정보에 기초하여 음향 장치의 프리셋을 결정하는 동작을 도시한 도면이다.
도 10을 참조하면, 전자 장치(100)는 디스플레이부를 포함하고, 디스플레이부는 이미지(1000)를 디스플레이할 수 있다. 예를 들어, 전자 장치(100)는 스마트 TV일 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자의 시선 정보를 획득하고, 사용자의 시선이 기 설정된 시간 이상 머무는 관심 지역(point of interest)을 인식할 수 있다. 전자 장치(100)의 프로세서(130, 도 2 참조)는 디스플레이되는 이미지(1000)로부터 적어도 하나의 객체(1010, 1020, 1030)를 인식하고, 적어도 하나의 객체(1010, 1020, 1030) 중 관심 지역에 위치하는 객체를 관심 객체(1010)로 식별할 수 있다.
프로세서(130)는 관심 객체(1010)의 컨텍스트 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 메모리(140, 도 2 참조)의 컨텍스트 정보 획득 모듈(146, 도 2 참조)을 이용하여, 관심 객체(1010)의 분류(classification), 행동(action), 시간, 장소, 위치, 및 주변 환경 중 적어도 하나에 관한 정보를 획득할 수 있다. 본 개시의 일 실시예에서, 컨텍스트 정보 획득 모듈(146)은 인공지능 모델로 구현될 수 있다. 예를 들어, 컨텍스트 정보 획득 모듈(146)은 컨볼루션 신경망 모델(Convolution Neural Network)로 구현될 수 있으나, 이에 한정되는 것은 아니다. 컨텍스트 정보 획득 모듈(146)은 예를 들어, 영역 기반 컨볼루션 신경망 모델(Region-based Convolution Neural Network, R-CNN), 싱글 샷 멀티박스 디텍터 모델(Single Shot multibox Detector, SSD), YOLO v4, 센터 넷(CenterNet), 또는 모바일 넷(MobileNet)으로 구현될 수도 있다. 도 10에 도시된 실시예에서, 프로세서(130)는 컨텍스트 정보 획득 모듈(146)을 통해 관심 객체(1010)의 컨텍스트 정보로서 '테니스 선수(분류 정보)', '인터뷰'(행동 정보), '테니스 코트'(장소 정보), 또는 '관객들'(환경 정보)의 정보를 포함하는 컨텍스트 정보를 획득할 수 있다.
프로세서(130)는 관심 객체(1010)의 컨텍스트 정보에 기초하여 스피커(124)의 프리셋을 결정한다. 도 10에 도시된 실시예에서, 관심 객체(1010)의 컨텍스트 정보는 '테니스 선수'가 '테니스 코트'에서 '인터뷰'를 하고 있는 것이므로, 프로세서(130)는 스피커(124)의 프리셋을 "음성(voice)"으로 결정할 수 있다.
스피커(124)의 프리셋이 "음성"으로 결정되는 경우, 프로세서(130)는 스피커(124)의 증폭기(amplifier)를 이용하여, 오디오 신호(1012, 1022, 1032)의 주파수 대역 중 관심 객체(1010)와 관련된 주파수 대역을 갖는 오디오 신호(1012)를 증폭할 수 있다. 프로세서(130)는 예를 들어, 객체 별 오디오 신호의 주파수 대역에 관한 정보를 이용하여 관심 객체(1010)에 의해 출력되는 음성에 해당되는 주파수 대역을 식별하고, 식별된 주파수 대역에 해당되는 오디오 신호(1012)만을 증폭시킬 수 있다. 다른 예를 들어, 프로세서(130)는 인공지능 모델로 구현된 오디오-이미지 분할 알고리즘(Audio-Visual Speech Separation)을 이용하거나, 또는 픽셀 별 음향 신호 분리 알고리즘(예를 들어, The Sound of Pixel의 PixelPlayer)을 이용하여 관심 객체(1010)의 음성과 관련된 오디오 신호(1012)만을 증폭할 수 있다.
프로세서(130)는 관심 객체(1010)와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호(1022, 1032)에 대해서는 감쇠(attenuate) 또는 음소거 처리할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 대역 차단 필터(band stop filter)를 이용하여, 관심 객체(1010)를 제외한 나머지 객체(1020, 1030)와 관련된 오디오 신호(1022, 1032)의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다.
도 10에 도시된 실시예에서, 전자 장치(100)는 이미지(1000)로부터 관심 객체(1010)에 관한 컨텍스트 정보를 획득하고, 컨텍스트 정보에 기초하여 스피커(124)의 오디오 설정을 제어함으로써, 사용자가 관심있어 하는 객체와 관련된 오디오 신호(1012)(예를 들어, 테니스 선수의 인터뷰 음성)만을 강조하고, 이를 통해 스피커(124)를 통해 출력되는 오디오 신호의 품질을 향상시키는 기술적 효과를 제공한다. 또한, 본 개시의 일 실시예에 따른 전자 장치(100)는 관심 객체(1010)의 오디오 신호(1012)를 듣기에 방해되는 잡음(noise) 신호(1022, 1032), 예를 들어 관객들의 환호성 소리를 감쇠 또는 음소거 처리할 수 있는 바, 사용 편의성 및 만족도가 향상될 수 있다.
도 11은 본 개시의 일 실시예에 따른 전자 장치(100)가 관심 객체(1110)와 관련된 오디오 신호(1112)를 획득하기 위하여 오디오 설정을 제어하는 동작을 도시한 도면이다.
도 11을 참조하면, 전자 장치(100)는 사용자의 안면부(顔面部)에 착용하는 글래스 타입(glass-type)의 증강 현실 장치(Augmented Reality device)일 수 있다. 예를 들어, 전자 장치(100)는 스마트 글래스와 같은 증강 현실 장치일 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)는 사용자의 좌안 및 우안의 시선을 추적하여 시선 방향에 관한 정보를 획득하는 시선 추적 센서(eye tracking sensor)를 포함할 수 있다. 전자 장치(100)는 시선 추적 센서를 이용하여 좌안의 시선 방향에 관한 정보 및 우안의 시선 방향에 관한 정보를 획득할 수 있다. 전자 장치(100)의 프로세서(130, 도 2 참조)는 시선 추적 센서를 통해 좌안의 시선 방향과 우안의 시선 방향이 수렴하는 응시점(gaze point)(G)의 위치 정보를 획득할 수 있다. 프로세서(130)는 응시점(G)의 위치에 기초하여 관심 객체(1110)를 식별할 수 있다.
프로세서(130)는 관심 객체(1110)와 관련된 오디오 신호(1112)를 획득하기 위하여 음향 장치(120)의 오디오 설정(audio setting)을 제어할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)의 증폭기(amplifier)를 이용하여, 오디오 신호(1112, 1122)의 주파수 대역 중 관심 객체(1110)와 관련된 주파수 대역을 갖는 오디오 신호(1112)를 증폭할 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 관심 객체(1110)와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호(1122)에 대해서는 감쇠(attenuate) 또는 음소거 처리할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)의 대역 차단 필터(band stop filter)를 이용하여, 관심 객체(1110)를 제외한 나머지 객체(1120)와 관련된 오디오 신호(1122)의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다.
본 개시의 일 실시예에서, 마이크(122)는 지향성 마이크 또는 다중 패턴 마이크로 구성될 수 있다. 프로세서(130)는 관심 객체(1110)의 위치에 대응되는 소정 각도 범위 내에서만 오디오 신호(1112)를 획득하도록 마이크(122)를 제어할 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)를 통해 획득된 오디오 신호(1112)를 스피커(124)를 통해 출력할 수 있다.
도 11에 도시된 실시예에서, 전자 장치(100)는 사용자 주변에 있는 사람들 중 사용자와 대화하고 있는 사람(관심 객체(1110))의 말소리(오디오 신호(1112))만을 증폭하여 녹음하고, 녹음된 말소리를 스피커(124)를 통해 출력하는 바, 사용자가 대화하고 있는 사람의 말소리를 더 집중해서 들을 수 있게 하는 기술적 효과를 제공한다. 또한, 사용자가 청각 장애를 갖고 있는 경우, 전자 장치(100)는 사용자와 대화 중인 사람(관심 객체(1110))의 말소리를 증폭하고, 대화 중인 사람과 관련 없는 객체(1120)의 소리는 감쇠 또는 차단함으로써 청각 장애인에게 보청기(hearing aid)와 같은 기능을 제공할 수도 있다.
도 12는 본 개시의 일 실시예에 따른 전자 장치(100)가 관심 객체(1210)와 관련된 오디오 신호(1212)를 획득하기 위하여 오디오 설정을 제어하는 동작을 도시한 도면이다.
도 12를 참조하면, 전자 장치(100)는 사용자의 안면부(顔面部)에 착용하는 글래스 타입(glass-type)의 증강 현실 장치(Augmented Reality device)일 수 있다. 예를 들어, 전자 장치(100)는 스마트 글래스와 같은 증강 현실 장치일 수 있다. 본 개시의 일 실시예에서, 전자 장치(100)의 프로세서(130, 도 2 참조) 시선 추적 센서를 이용하여 사용자의 좌안의 시선 방향과 우안의 시선 방향이 수렴하는 응시점(G)의 위치 정보를 획득할 수 있다. 프로세서(130)가 응시점(G)의 위치 정보를 획득하는 구체적인 실시예는 도 11에서 설명한 것과 동일하므로 중복되는 설명은 생략한다. 프로세서(130)는 응시점(G)의 위치에 기초하여 관심 객체(1210)를 식별할 수 있다.
프로세서(130)는 관심 객체(1210)와 관련된 오디오 신호(1212)를 획득하기 위하여 음향 장치(120)의 오디오 설정(audio setting)을 제어할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)의 증폭기(amplifier)를 이용하여, 오디오 신호(1212, 1222)의 주파수 대역 중 관심 객체(1210)와 관련된 주파수 대역을 갖는 오디오 신호(1212)를 증폭할 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 관심 객체(1210)와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호(1222)에 대해서는 감쇠(attenuate) 또는 음소거 처리할 수 있다. 본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)의 대역 차단 필터(band stop filter)를 이용하여, 관심 객체(1210)를 제외한 나머지 객체(1220)와 관련된 오디오 신호(1222)의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다.
본 개시의 일 실시예에서, 마이크(122)는 지향성 마이크 또는 다중 패턴 마이크로 구성될 수 있다. 프로세서(130)는 관심 객체(1210)의 위치에 대응되는 소정 각도 범위 내에서만 오디오 신호(1212)를 획득하도록 마이크(122)를 제어할 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 마이크(122)를 통해 획득된 오디오 신호(1212)를 스피커(124)를 통해 출력할 수 있다.
도 12에 도시된 실시예에서, 전자 장치(100)는 작업자가 작업에 사용하는 기계(관심 객체(1210))로부터 출력되는 기계음(오디오 신호(1212))만을 증폭하여 녹음하고, 녹음된 기계음을 스피커(124)를 통해 출력하는 바, 작업자의 집중력 및 작업 효율을 향상시키는 기술적 효과를 제공한다.
도 13은 본 개시의 일 실시예에 따른 전자 장치(100)가 크롭된 이미지(cropped image)로부터 관심 객체를 식별하고, 관심 객체와 관련된 오디오 신호를 획득하는 동작을 도시한 흐름도이다.
도 13에 도시된 단계들 중 S1310 및 S1320은 도 3에 도시된 단계 S320을 구체화한 단계들이다. 도 13의 단계 S1310은 도 3에 도시된 단계 S310이 수행된 이후에 수행될 수 있다. 도 13에 도시된 S1330은 도 3에 도시된 단계 S340을 구체화한 단계이다.
도 14는 본 개시의 일 실시예에 따른 전자 장치(100)가 크롭된 이미지(1430)로부터 관심 객체(1440)를 식별하고, 관심 객체(1440)와 관련된 오디오 신호(1412)를 획득하는 동작을 도시한 도면이다.
이하에서는, 도 13과 도 14를 함께 참조하여 전자 장치(100)의 동작을 설명하기로 한다.
도 13을 참조하면, 단계 S1310에서 전자 장치(100)는 사용자의 크롭 입력에 기초하여, 크롭 이미지(cropped image)를 획득한다. 도 14를 함께 참조하면, 전자 장치(100)는 디스플레이부 및 입력 인터페이스를 포함할 수 있다. 전자 장치(100)는 디스플레이부 상에 이미지(1400)를 디스플레이할 수 있다. 전자 장치(100)의 프로세서(130, 도 2 참조)는 디스플레이되는 이미지(1400)로부터 적어도 하나의 객체(1410, 1420)를 인식할 수 있다. 전자 장치(100)는 입력 인터페이스를 통해 이미지(1400)의 특정 영역을 크롭하는 사용자의 크롭 입력을 수신할 수 있다. 프로세서(130)는 크롭 입력에 기초하여 크롭 이미지(cropped image)(1430)를 획득할 수 있다. 도 14에 도시된 실시예에서, 프로세서(130)는 이미지(1400)로부터 통화하는 사람인 제1 객체(1410)와 고양이인 제2 객체(1420)를 인식하고, 사용자로부터 수신된 크롭 입력에 의해 제1 객체(1410)만을 포함하는 크롭 이미지(1430)를 획득할 수 있다.
도 13의 단계 S1320을 참조하면, 전자 장치(100)는 크롭 이미지에 포함되는 관심 객체를 식별한다. 도 14를 함께 참조하면, 전자 장치(100)의 프로세서(130)는 크롭 이미지(1430)에 포함된 제1 객체(1410)를 관심 객체로서 식별할 수 있다.
도 13의 단계 S1330을 참조하면, 전자 장치(100)는 관심 객체와 관련된 오디오 신호를 증폭시키고, 적어도 하나의 객체 중 크롭 이미지에 포함되지 않은 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리한다. 도 14를 함께 참조하면, 전자 장치(100)의 프로세서(130)는 음향 장치(120)의 증폭기(amplifier)를 제어하여, 크롭 이미지(1430)에 포함된 관심 객체(1410)와 관련된 오디오 신호(1412)를 증폭할 수 있다. 프로세서(130)는 예를 들어, 객체 별 오디오 신호의 주파수 대역에 관한 정보를 이용하여 관심 객체(1410)에 의해 출력되는 음성에 해당되는 주파수 대역을 식별하고, 식별된 주파수 대역에 해당되는 오디오 신호(1412)만을 증폭시킬 수 있다. 다른 예를 들어, 프로세서(130)는 인공지능 모델로 구현된 오디오-이미지 분할 알고리즘(Audio-Visual Speech Separation)을 이용하거나, 또는 픽셀 별 음향 신호 분리 알고리즘(예를 들어, The Sound of Pixel의 PixelPlayer)을 이용하여 관심 객체(1410)의 음성과 관련된 오디오 신호(1412)만을 증폭할 수 있다. 프로세서(130)는 증폭된 오디오 신호(1412)를 마이크(122)를 통해 획득할 수 있다.
본 개시의 일 실시예에서, 프로세서(130)는 관심 객체(1410)와 관련된 주파수 대역이 아닌 나머지 주파수 대역의 오디오 신호(1422)에 대해서는 감쇠(attenuate) 또는 음소거 처리할 수 있다. 예를 들어, 프로세서(130)는 대역 차단 필터(band stop filter)를 이용하여, 관심 객체(1410)를 제외한 나머지 객체(1420)와 관련된 오디오 신호(1422)의 주파수 대역은 감쇠 또는 차단하는 필터링(filtering)을 수행할 수 있다.
도 13 및 도 14에 도시된 실시예에서, 전자 장치(100)는 사용자에 의해 크롭된 크롭 이미지(1430)에 포함되는 관심 객체(1410)와 관련된 오디오 신호(1412)만을 증폭하여 획득할 수 있다. 따라서, 본 개시의 일 실시예에 따른 전자 장치(100)는 사용자가 원치 않는 소음인 고양이 소리(오디오 신호(1422))는 감쇠하거나 차단함으로써 사용자의 선호도에 맞는 오디오 신호를 획득할 수 있고, 사용자 편의성이 향상될 수 있다.
본 개시는 이미지에 기초하여 음향 장치를 제어하는 전자 장치(100)를 제공한다. 본 개시의 일 실시예에 따른 전자 장치(100)는 카메라(110, 도 2 참조), 마이크(122, 도 2 참조) 및 스피커(124, 도 2 참조) 중 적어도 하나를 포함하는 음향 장치(120, 도 2 참조), 적어도 하나의 명령어들(instructions)를 저장하는 메모리(140, 도 2 참조), 및 상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서(130, 도 2 참조)를 포함할 수 있다. 상기 적어도 하나의 프로세서(130)는 카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식할 수 있다. 상기 적어도 하나의 프로세서(130)는 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별할 수 있다. 상기 적어도 하나의 프로세서(130)는 식별된 관심 객체의 컨텍스트 정보(context information)를 획득할 수 있다. 상기 적어도 하나의 프로세서(130)는 획득된 컨텍스트 정보에 기초하여 음향 장치(120)를 이용하여 오디오 신호를 획득 또는 출력하기 위한 음향 장치(120)의 오디오 설정(audio setting)을 제어할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 이미지에 대한 줌 인(zoom in), 패닝(panning), 포커스(focus), 또는 크롭(crop) 중 어느 하나의 사용자 입력을 수신하는 입력 인터페이스를 더 포함할 수 있다. 상기 적어도 하나의 프로세서(130)는 입력 인터페이스를 통해 수신된 사용자 입력에 기초하여 줌 인, 패닝, 포커스, 또는 크롭된 영역을 식별할 수 있다. 상기 적어도 하나의 프로세서(130)는 식별된 영역에 포함되는 객체를 관심 객체로 인식할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 관심 객체의 이미지로부터 관심 객체의 분류(classification) 정보, 행동(action) 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 획득할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 컨텍스트 정보에 기초하여 음향 장치(120)의 필터(filter), 증폭기(amplifier), 및 이퀄라이저(equalizer) 중 적어도 하나를 제어할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 결정 트리(decision tree) 또는 퍼지 논리(Fuzzy logic)에 기초하여 기 저장된 복수의 이퀄라이저 프리셋(equalizer presets) 중 컨텍스트 정보와 매핑되는 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 기 설정된 매핑 관계에 따라 상기 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 관심 객체의 이미지로부터 관심 객체의 행동을 인식할 수 있다. 상기 적어도 하나의 프로세서(130)는 기 설정된 매핑 관계에 따라 인식된 관심 객체의 행동과 매핑된 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 증폭기(amplifier)를 이용하여 오디오 신호의 주파수 대역 중 관심 객체와 관련된 주파수 대역을 증폭할 수 있다.
본 개시의 일 실시예에서, 상기 적어도 하나의 프로세서(130)는 대역 차단 필터(band stop filter)를 이용하여 적어도 하나의 객체 중 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠(attenuating) 또는 차단하는 필터링(filtering)을 수행할 수 있다.
본 개시의 일 실시예에서, 전자 장치(100)는 이미지에 대한 사용자의 크롭 입력을 수신하는 입력 인터페이스를 더 포함할 수 있다. 상기 적어도 하나의 프로세서(130)는 입력 인터페이스를 통해 수신된 크롭 입력에 기초하여, 크롭 이미지(cropped image)를 획득할 수 있다. 상기 적어도 하나의 프로세서(130)는 크롭 이미지에 포함되는 관심 객체와 관련된 오디오 신호를 증폭시키고, 적어도 하나의 객체 중 크롭 이미지에 포함되지 않은 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리할 수 있다.
본 개시는 전자 장치(100)가 이미지에 기초하여 음향 장치(120)를 제어하는 방법을 제공한다. 본 개시의 일 실시예에 따른 방법은 카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하는 단계(S310)를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 단계(S320)를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하는 단계(S330)를 포함할 수 있다. 본 개시의 일 실시예에 따른 방법은 획득된 컨텍스트 정보에 기초하여, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치(120)의 오디오 신호의 획득 또는 출력을 위한 오디오 설정(audio setting)을 제어하는 단계(S340)를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 컨텍스트 정보를 획득하는 단계(S330)에서, 전자 장치(100)는 관심 객체의 이미지로부터 관심 객체의 분류(classification) 정보, 행동(action) 정보, 시간 정보, 위치 정보, 장소 정보, 및 관심 객체 주위의 환경 정보 중 적어도 하나를 획득할 수 있다.
본 개시의 일 실시예에서, 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)에서, 전자 장치(100)는 컨텍스트 정보에 기초하여 음향 장치(120)의 필터(filter), 증폭기(amplifier), 및 이퀄라이저(equalizer) 중 적어도 하나를 제어할 수 있다.
본 개시의 일 실시예에서, 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는 결정 트리(decision tree) 또는 퍼지 논리(Fuzzy logic)에 기초하여 기 저장된 복수의 이퀄라이저 프리셋(equalizer presets) 중 컨텍스트 정보와 매핑되는 이퀄라이저 프리셋을 결정하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는 기 설정된 매핑 관계에 따라 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋을 결정하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 컨텍스트 정보를 획득하는 단계(S330)에서, 전자 장치(100)는 관심 객체의 이미지로부터 관심 객체의 행동을 인식할 수 있다. 하고, 상기 이퀄라이저 프리셋을 선택하는 단계에서, 전자 장치(100)는 기 설정된 매핑 관계에 따라 인식된 관심 객체의 행동과 매핑된 이퀄라이저 프리셋을 결정할 수 있다.
본 개시의 일 실시예에서, 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는 증폭기(amplifier)를 이용하여 오디오 신호의 주파수 대역 중 관심 객체와 관련된 주파수 대역을 증폭하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는 대역 차단 필터(band stop filter)를 이용하여 적어도 하나의 객체 중 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠(attenuating) 또는 차단하는 필터링(filtering)을 수행하는 단계를 포함할 수 있다.
본 개시의 일 실시예에서, 상기 관심 객체를 식별하는 단계(S320)는 이미지에 대한 사용자의 크롭 입력에 기초하여 크롭 이미지(cropped image)를 획득하는 단계(S1310)를 포함할 수 있다. 상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는 크롭 이미지에 포함되는 관심 객체와 관련된 오디오 신호를 증폭시키고, 적어도 하나의 객체 중 크롭 이미지에 포함되지 않은 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리하는 단계(S1330)를 포함할 수 있다.
본 개시는 컴퓨터로 읽을 수 있는 저장 매체를 포함하는 컴퓨터 프로그램 제품(Computer Program Product)을 제공한다. 본 개시의 일 실시예에서, 상기 저장 매치는 카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하는 동작(S310), 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 동작(S320), 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하는 동작(S330), 및 획득된 컨텍스트 정보에 기초하여, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치(120)의 오디오 신호의 획득 또는 출력을 위한 오디오 설정(audio setting)을 제어하는 동작(S340)을 전자 장치(100)가 수행하기 위하여, 전자 장치(100)에 의해 판독 가능한 명령어들(instructions)을 포함할 수 있다.
본 개시에서 설명된 전자 장치(100)에 의해 실행되는 프로그램은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 프로그램은 컴퓨터로 읽을 수 있는 명령어들을 수행할 수 있는 모든 시스템에 의해 수행될 수 있다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령어(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장되는 경우를 구분하지 않는다. 예를 들어, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
또한, 본 명세서에 개시된 실시예들에 따른 프로그램은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치(100)의 제조사 또는 전자 마켓(예를 들어, 삼성 갤럭시 스토어)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 전자 장치(100)의 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 전자 장치(100) 및/또는 서버로 구성되는 시스템에서, 서버의 저장매체 또는 전자 장치(100)의 저장매체를 포함할 수 있다. 또는, 전자 장치(100)와 통신 연결되는 제3 장치(예를 들어, 모바일 디바이스)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 전자 장치(100)으로부터 제3 장치로 전송되거나, 제3 장치로부터 전자 장치(100)로 전송되는 소프트웨어 프로그램 자체를 포함할 수 있다.
이 경우, 전자 장치(100) 및 제3 장치 중 어느 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 전자 장치(100) 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 전자 장치(100)가 메모리(140, 도 2 참조)에 저장된 컴퓨터 프로그램 제품을 실행하여, 전자 장치(100)와 통신 연결된 타 전자 장치(예를 들어, 모바일 디바이스)가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 전자 장치가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 전자 장치(100)로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드(pre-load)된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 컴퓨터 시스템 또는 모듈 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (15)

  1. 이미지에 기초하여 음향 장치를 제어하는 방법에 있어서,
    카메라(110);
    마이크(122) 및 스피커(124) 중 적어도 하나를 포함하는 음향 장치(120);
    적어도 하나의 명령어들(instructions)를 저장하는 메모리(140); 및
    상기 적어도 하나의 명령어들을 실행하는 적어도 하나의 프로세서(130);
    를 포함하고,
    상기 적어도 하나의 프로세서(130)는 상기 적어도 하나의 명령어들을 실행함으로써,
    상기 카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하고,
    상기 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하고,
    상기 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하고,
    상기 획득된 컨텍스트 정보에 기초하여 상기 음향 장치(120)를 이용하여 오디오 신호를 획득 또는 출력하기 위한 상기 음향 장치(120)의 오디오 설정(audio setting)을 제어하는, 전자 장치(100).
  2. 제1 항에 있어서,
    상기 적어도 하나의 프로세서(130)는,
    상기 컨텍스트 정보에 기초하여 상기 음향 장치(120)의 필터(filter), 증폭기(amplifier), 및 이퀄라이저(equalizer) 중 적어도 하나를 제어하는, 전자 장치(100).
  3. 제1 항 및 제2 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(130)는,
    결정 트리(decision tree) 또는 퍼지 논리(Fuzzy logic)에 기초하여 기 저장된 복수의 이퀄라이저 프리셋(equalizer presets) 중 상기 컨텍스트 정보와 매핑되는 이퀄라이저 프리셋을 결정하는, 전자 장치(100).
  4. 제1 항 내지 제3 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(130)는,
    기 설정된 매핑 관계에 따라 상기 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋을 결정하는, 전자 장치(100).
  5. 제1 항 내지 제4 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(130)는,
    증폭기(amplifier)를 이용하여 상기 오디오 신호의 주파수 대역 중 상기 관심 객체와 관련된 주파수 대역을 증폭하는, 전자 장치(100).
  6. 제1 항 내지 제5 항 중 어느 하나의 항에 있어서,
    상기 적어도 하나의 프로세서(130)는,
    대역 차단 필터(band stop filter)를 이용하여, 상기 적어도 하나의 객체 중 상기 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠(attenuating) 또는 차단하는 필터링(filtering)을 수행하는, 전자 장치(100).
  7. 제1 항 내지 제6 항 중 어느 하나의 항에 있어서,
    상기 이미지에 대한 사용자의 크롭 입력을 수신하는 입력 인터페이스;
    를 더 포함하고,
    상기 적어도 하나의 프로세서(130)는,
    상기 입력 인터페이스를 통해 수신된 크롭 입력에 기초하여, 크롭 이미지(cropped image)를 획득하고,
    상기 크롭 이미지에 포함되는 상기 관심 객체와 관련된 오디오 신호를 증폭시키고, 상기 적어도 하나의 객체 중 상기 크롭 이미지에 포함되지 않은 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리하는, 전자 장치(100).
  8. 전자 장치(100)가 이미지에 기초하여 음향 장치(120)를 제어하는 방법에 있어서,
    카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하는 단계(S310);
    상기 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 단계(S320);
    상기 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하는 단계(S330); 및
    상기 획득된 컨텍스트 정보에 기초하여, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치(120)의 오디오 신호의 획득 또는 출력을 위한 오디오 설정(audio setting)을 제어하는 단계(S340);
    를 포함하는, 방법.
  9. 제8 항에 있어서,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    상기 컨텍스트 정보에 기초하여 상기 음향 장치(120)의 필터(filter), 증폭기(amplifier), 및 이퀄라이저(equalizer) 중 적어도 하나를 제어하는, 방법.
  10. 제8항 및 제9 항 중 어느 하나의 항에 있어서,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    결정 트리(decision tree) 또는 퍼지 논리(Fuzzy logic)에 기초하여 기 저장된 복수의 이퀄라이저 프리셋(equalizer presets) 중 상기 컨텍스트 정보와 매핑되는 이퀄라이저 프리셋을 결정하는 단계를 포함하는, 방법.
  11. 제8 항 내지 제10 항 중 어느 하나의 항에 있어서,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    기 설정된 매핑 관계에 따라 상기 컨텍스트 정보와 대응되도록 매핑된 이퀄라이저 프리셋을 결정하는 단계를 포함하는, 방법.
  12. 제8 항 내지 제11 항 중 어느 하나의 항에 있어서,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    증폭기(amplifier)를 이용하여, 상기 오디오 신호의 주파수 대역 중 상기 관심 객체와 관련된 주파수 대역을 증폭하는 단계를 포함하는, 방법.
  13. 제8 항 내지 제12 항 중 어느 하나의 항에 있어서,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    대역 차단 필터(band stop filter)를 이용하여, 상기 적어도 하나의 객체 중 상기 관심 객체를 제외한 나머지 객체와 관련된 오디오 신호의 주파수 대역은 감쇠(attenuating) 또는 차단하는 필터링(filtering)을 수행하는 단계를 포함하는, 방법.
  14. 제8 항 내지 제13 항 중 어느 하나의 항에 있어서,
    상기 관심 객체를 식별하는 단계(S320)는,
    상기 이미지에 대한 사용자의 크롭 입력에 기초하여, 크롭 이미지(cropped image)를 획득하는 단계(S1310)를 포함하고,
    상기 음향 장치(120)의 오디오 설정을 제어하는 단계(S340)는,
    상기 크롭 이미지에 포함되는 상기 관심 객체와 관련된 오디오 신호를 증폭시키고, 상기 적어도 하나의 객체 중 상기 크롭 이미지에 포함되지 않은 객체와 관련된 오디오 신호는 감쇠 또는 음소거 처리하는 단계(S1330)를 포함하는, 방법.
  15. 컴퓨터로 판독 가능한 저장 매체를 포함하는 컴퓨터 프로그램 제품(Computer Program Product)에 있어서,
    상기 저장 매체는,
    카메라(110)를 이용하여 촬영된 이미지로부터 적어도 하나의 객체를 인식하는 동작;
    상기 인식된 적어도 하나의 객체 중 사용자가 관심있는 관심 객체(main object of interest)를 식별하는 동작;
    상기 식별된 관심 객체의 컨텍스트 정보(context information)를 획득하는 동작; 및
    상기 획득된 컨텍스트 정보에 기초하여, 마이크 및 스피커 중 적어도 하나를 포함하는 음향 장치(120)의 오디오 신호의 획득 또는 출력을 위한 오디오 설정(audio setting)을 제어하는 동작;
    을 포함하는, 전자 장치(100)가 이미지에 기초하여 상기 음향 장치(120)를 제어하는 방법에 관한 명령어들(instructions)을 포함하는 컴퓨터 프로그램 제품.
PCT/KR2023/009695 2022-08-22 2023-07-07 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법 WO2024043514A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0104917 2022-08-22
KR1020220104917A KR20240026714A (ko) 2022-08-22 2022-08-22 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
WO2024043514A1 true WO2024043514A1 (ko) 2024-02-29

Family

ID=90013646

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009695 WO2024043514A1 (ko) 2022-08-22 2023-07-07 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법

Country Status (2)

Country Link
KR (1) KR20240026714A (ko)
WO (1) WO2024043514A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100028326A (ko) * 2008-09-04 2010-03-12 엘지전자 주식회사 미디어 처리 방법 및 그를 위한 장치
KR20140000585A (ko) * 2012-06-25 2014-01-03 엘지전자 주식회사 이동 단말기 및 그의 오디오 줌잉방법
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20160002132A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 음장 효과를 제공하기 위한 전자 장치 및 방법
KR20190040822A (ko) * 2017-10-11 2019-04-19 엘지전자 주식회사 이동 단말기

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100028326A (ko) * 2008-09-04 2010-03-12 엘지전자 주식회사 미디어 처리 방법 및 그를 위한 장치
KR20140000585A (ko) * 2012-06-25 2014-01-03 엘지전자 주식회사 이동 단말기 및 그의 오디오 줌잉방법
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20160002132A (ko) * 2014-06-30 2016-01-07 삼성전자주식회사 음장 효과를 제공하기 위한 전자 장치 및 방법
KR20190040822A (ko) * 2017-10-11 2019-04-19 엘지전자 주식회사 이동 단말기

Also Published As

Publication number Publication date
KR20240026714A (ko) 2024-02-29

Similar Documents

Publication Publication Date Title
WO2016117836A1 (en) Apparatus and method for editing content
WO2019132518A1 (en) Image acquisition device and method of controlling the same
WO2019039771A1 (en) ELECTRONIC DEVICE FOR STORING DEPTH INFORMATION IN RELATION TO AN IMAGE BASED ON DEPTH INFORMATION PROPERTIES OBTAINED USING AN IMAGE, AND ITS CONTROL METHOD
WO2019124963A1 (ko) 음성 인식 장치 및 방법
WO2020162709A1 (en) Electronic device for providing graphic data based on voice and operating method thereof
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2019093819A1 (ko) 전자 장치 및 그 동작 방법
WO2020235852A1 (ko) 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
WO2019125029A1 (ko) 증강 현실을 위한 객체를 표시하기 위한 전자 장치 및 그의 동작 방법
WO2015126044A1 (ko) 이미지를 처리하기 위한 방법 및 그 전자 장치
WO2017090833A1 (en) Photographing device and method of controlling the same
WO2016175424A1 (ko) 이동 단말기 및 그 제어 방법
WO2015170832A1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
WO2019045521A1 (ko) 전자 장치 및 그 제어 방법
WO2019190142A1 (en) Method and device for processing image
EP3707678A1 (en) Method and device for processing image
WO2018012727A1 (ko) 디스플레이장치와, 기록매체
WO2024043514A1 (ko) 이미지 컨텍스트(image context)에 기초하여 음향 장치를 제어하는 전자 장치 및 그 동작 방법
WO2021029582A1 (en) Co-reference understanding electronic apparatus and controlling method thereof
WO2022169039A1 (ko) 전자 장치 및 그 제어 방법
WO2022010177A1 (en) Device and method for generating summary video
WO2021251614A1 (en) Image processing apparatus and method of operating the same
WO2021080154A1 (ko) 전자 장치 및 그 제어 방법
WO2022059869A1 (ko) 영상의 음질을 향상시키는 디바이스 및 방법
WO2020166791A1 (ko) Hdr 영상을 생성하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23857552

Country of ref document: EP

Kind code of ref document: A1