WO2018012727A1 - 디스플레이장치와, 기록매체 - Google Patents

디스플레이장치와, 기록매체 Download PDF

Info

Publication number
WO2018012727A1
WO2018012727A1 PCT/KR2017/005265 KR2017005265W WO2018012727A1 WO 2018012727 A1 WO2018012727 A1 WO 2018012727A1 KR 2017005265 W KR2017005265 W KR 2017005265W WO 2018012727 A1 WO2018012727 A1 WO 2018012727A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
image
signal
component
audio signal
Prior art date
Application number
PCT/KR2017/005265
Other languages
English (en)
French (fr)
Inventor
이상문
고상철
천병근
Original Assignee
삼성전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자(주) filed Critical 삼성전자(주)
Priority to US16/317,424 priority Critical patent/US10939039B2/en
Priority to EP17827801.6A priority patent/EP3468171B1/en
Publication of WO2018012727A1 publication Critical patent/WO2018012727A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/607Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems

Definitions

  • the present invention relates to a display device provided to output a video and audio of a content by processing a content signal, and a recording medium.
  • an electronic device basically including electronic components such as CPU, chipset, and memory for calculation may be classified into various types according to what information is processed.
  • an electronic device includes an information processing device such as a PC or a server for processing general-purpose information, and an image processing device for processing video information.
  • the image processing apparatus receives a content signal including image data from the outside, and processes the image data extracted from the content signal according to various image processing processes.
  • the image processing apparatus displays the processed image data as an image on a display panel having its own, or outputs the processed image data to the corresponding display apparatus so as to be displayed as an image on another display apparatus having the display panel. do.
  • a typical example of an image processing apparatus having no display panel is a set-top box.
  • An image processing apparatus having a display panel is particularly referred to as a display apparatus, and examples thereof include a TV, a monitor, a portable multimedia player, a tablet, a mobile phone, and the like.
  • the content provided by the display device is also developing in various forms and manners.
  • One way in which content develops is that the video of the content tends to change beyond FHD to 4K, 8K, etc., but in addition to simply increasing the resolution, a new method may be used to create the content itself.
  • One example is when omnidirectional image contents are generated by photographing a predetermined object by an omnidirectional camera, commonly referred to as a 360 degree camera.
  • the reproduction of the omnidirectional video content generated in this manner in a display device having a general structure such as a TV has various considerations in terms of both video and audio.
  • the display apparatus must determine how to display the image of the omnidirectional image content, and determine how to output the audio corresponding to the displayed image.
  • the display apparatus reproduces the video and audio in a conventional manner, in some cases, the display state of the video and the output state of the audio do not coincide with each other, thereby providing a user with an inferior environment.
  • the display device could provide a user interactive environment in which the display device can reproduce the content in real time by reflecting the user's intention when playing the omnidirectional image content on the display device.
  • a display apparatus the display unit; With a speaker; A user input unit; An image processing processor configured to process an image signal to display an image on the display unit, and to change a viewpoint of the image displayed on the display unit according to a user input through the user input unit; Processing an audio signal to output audio from the speaker, determining an audio characteristic of the audio signal, and adjusting an audio output from the speaker according to the acoustic characteristic in response to the user input. It features. As a result, the display apparatus may provide a user with an acoustic environment optimized according to the characteristics of the audio signal.
  • the audio processing processor may determine the sound characteristic by determining whether the audio signal is generated by a field recording method.
  • the audio processing processor may include a first component corresponding to an audio component of a center channel in the audio signal and a second component corresponding to an audio component obtained by subtracting the first component from any one of a left channel and a right channel.
  • a preset threshold it may be determined that the audio signal is generated by the field recording method.
  • the audio processing processor may determine that the audio signal is generated by the field recording method when the similarity between the audio component of the left channel and the audio component of the right channel is smaller than a preset value in the audio signal.
  • the audio processing processor determines whether the audio signal is a field recording or a post-processing recording in the studio. It can be determined.
  • the audio processing processor may not adjust the audio output from the speaker regardless of the user input.
  • the display apparatus may provide an improved sound field when the audio signal is recorded in the field, and prevent the audio from being abnormally output even when the audio signal is not recorded in the field.
  • the image signal may include a wide-angle image captured by a wide-angle camera, and the image processing processor may process a portion of the wide-angle image to be displayed as the image on the display unit.
  • the display device may display a wide-angle image captured by a wide-angle camera such as a 360-degree camera.
  • the image processing processor may display an image on which the wide-angle image is panned in response to the user input indicating movement of a user's viewpoint, on the display unit, and the audio processing processor positions a sound source according to the panning operation.
  • the audio output may be adjusted by determining a change and adjusting an output power of an audio component for each channel of the sound source in the audio signal in response to the changed position of the sound source.
  • the display apparatus may improve the acoustic environment in response to the panning of the wide-angle image.
  • the user input may include angle information between a user's default view and the moved user's view of the image.
  • the image processing processor may adjust the image to be enlarged or reduced in response to the user input indicating a change in the zoom depth of the image, and display the image on the display unit.
  • the audio output may be adjusted by determining a distance change of the sound source in the changed image and increasing or decreasing the output power of the audio component of the sound source in the audio signal in response to the distance change of the sound source.
  • the process of changing the frequency component of the sound source according to the distance change of the sound source such as low-pass filtering, or the process of filtering the head-related transfer function (HRTF) corresponding to the distance and direction Can be.
  • the display apparatus may improve the acoustic environment in association with the change in the viewing environment of the image in response to the zoom-in and the zoom-out of the image.
  • the audio processing processor may acquire viewing information provided with the audio signal from a content provider, and adjust the audio output from the speaker according to the acoustic characteristics corresponding to the viewing information.
  • the method in the recording medium for storing the program code of the method provided to be executable and processed by the processor of the display device including a display unit and a speaker according to an embodiment of the present invention, the method, the display unit to display an image Displaying; Outputting audio from the speaker; Changing a viewpoint of the image displayed on the display unit according to a user input; Determining an acoustic characteristic of an audio signal and adjusting an audio output from the speaker according to the acoustic characteristic in response to the user input.
  • the display apparatus may provide a user with an acoustic environment optimized according to the characteristics of the audio signal.
  • adjusting the audio output from the speaker may include determining the acoustic characteristics by determining whether the audio signal is generated by a field recording method.
  • the determining of the acoustic characteristics may include: a first component corresponding to an audio component of a center channel in the audio signal and an audio component obtained by subtracting the first component from one of a left channel and a right channel Deriving two components; If the power ratio of the first component and the second component is greater than a predetermined threshold value may include determining that the audio signal is generated by the field recording method.
  • the determining of the acoustic characteristics may include determining that the audio signal is generated by the field recording method when the similarity between the audio component of the left channel and the audio component of the right channel is smaller than a preset value in the audio signal. It may include a step.
  • adjusting the audio output from the speaker may include not adjusting the audio output from the speaker regardless of the user input if it is determined that the audio output from the speaker is generated by a post-processing recording method.
  • the image may include a wide-angle image captured by a wide-angle camera, and displaying the image on the display unit may include displaying a portion of the wide-angle image as the image on the display unit.
  • the changing of the viewpoint of the image may include displaying an image on which the wide-angle image is panned in response to the user input indicating movement of a user's viewpoint, on the display unit, and outputting audio from the speaker.
  • the adjusting may include determining a position change of a sound source according to the panning operation; Adjusting the audio output by adjusting the output power of the audio component for each channel of the sound source in the audio signal corresponding to the changed position of the sound source.
  • the user input may include angle information between a user's default view and the moved user's view of the image.
  • the changing of the viewpoint of the image may include adjusting the image to be enlarged or reduced in response to the user input indicating a change in the zoom depth of the image and displaying the image on the display unit.
  • Adjusting the audio output from the step includes: determining a change in distance of the sound source in the changed image to the user; And adjusting the audio output by increasing or decreasing the output power of the audio component of the sound source in the audio signal in response to the distance change of the sound source.
  • adjusting the audio output from the speaker may include obtaining viewing information provided with the audio signal from a content provider; And adjusting the audio output from the speaker according to the acoustic characteristic corresponding to the viewing information.
  • FIG. 1 is a block diagram illustrating a display device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a schematic processing structure of an image processor and an audio processor in a display apparatus according to an exemplary embodiment of the present invention
  • FIG. 3 is a flowchart illustrating a method of processing an audio signal by a display apparatus according to an exemplary embodiment of the present invention
  • FIG. 4 is an exemplary view showing the entire image of the wide-angle image content displayed on the display device according to an embodiment of the present invention
  • FIG. 5 is an exemplary view illustrating a state in which an image including a predetermined object is displayed on a display device according to an embodiment of the present invention.
  • FIG. 6 is an exemplary view illustrating an image that changes when the user's viewpoint moves 30 degrees counterclockwise from the state of FIG. 5;
  • FIG. 7 is an exemplary view showing a display device displaying an image including a plurality of objects according to the present embodiment
  • FIG. 8 is an exemplary view showing an image that changes when the zoom depth is increased from the state of FIG. 7;
  • FIG. 9 is a flowchart illustrating a process in which a display apparatus according to an embodiment of the present invention determines whether an audio signal is recorded on a site;
  • FIG. 10 is a flowchart illustrating another process of determining whether an audio signal is recorded by a display device according to an embodiment of the present invention
  • FIG. 11 is a block diagram illustrating a sound adjusting unit applied to a display device according to an exemplary embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a display apparatus 100 according to an exemplary embodiment of the present invention.
  • the display apparatus 100 receives a content signal from various content sources 10.
  • the present embodiment considers a case in which the display apparatus 100 is implemented as a TV, this embodiment is not the only example in which the idea of the present invention can be implemented, and a tablet capable of processing a content signal to display a content image
  • the idea of the present invention can be applied to various kinds of devices such as a tablet, a PC, a mobile phone, and a wearable device.
  • the display apparatus 100 includes a signal receiver 110 for receiving a content signal from the content source 10, a signal processor 120 for processing a content signal received through the signal receiver 110, and a signal processor 120.
  • the display unit 130 for displaying the content image by the content signal processed by the processing unit, the speaker 140 for outputting the content audio by the content signal processed by the signal processing unit 120, and the input operation by the user
  • a user input unit 150 to be performed a storage unit 160 to store data
  • a control unit 170 to perform operations for processing of the signal processor 120 and to control various operations of the display apparatus 100. do.
  • These components are interconnected via a system bus.
  • the signal receiver 110 includes a communication module for receiving a content signal from an external device such as the content source 10.
  • the signal receiver 110 is basically a component for receiving a signal or data from the outside, but is not limited thereto and may implement bidirectional communication.
  • the signal receiver 110 may include, for example, a tuning chip configured to tune an RF broadcast signal to a specified frequency, an Ethernet module that receives packet data from the Internet by wire, and wireless communication that receives packet data wirelessly. It includes at least one of the components, such as a connection port to which a module, an external memory such as a USB memory is connected. That is, the signal receiver 110 includes a data input interface in which communication modules or ports corresponding to various types of communication protocols are combined.
  • the signal processor 120 reproduces the content by performing various processes on the content signal received by the signal receiver 110.
  • the signal processor 120 may include a hardware processor implemented by a chipset, a buffer, a circuit, or the like mounted on a printed circuit board, and may be implemented as a system on chip (SOC) according to a design method. Basically, the signal processor 120 processes the content signal so that the content image is displayed on the display 130 and the content audio is output from the speaker 140.
  • SOC system on chip
  • the signal processor 120 demultiplexes the content signal into a video signal and an audio signal to demux 121, and processes the video signal output from the demux 121 according to an image processing process.
  • the demux 121 classifies each packet in the multiplexed content signal according to the PID to classify the content signal into lower signals such as an image signal, an audio signal, and an additional data signal.
  • the demux 121 outputs an image signal to the image processor 123 and an audio signal to the audio processor 125 among the classified lower signals.
  • not all content signals are to be separated by the demux 121, and if the content signals are divided into a video signal and an audio signal and provided to the display apparatus 100, demultiplexing by the demux 121 is performed. Processing may not be necessary.
  • the image processor 123 is implemented as a hardware processor chip, and performs an image processing process such as decoding, image enhancement, and scaling on the image signal, and outputs the same to the display unit 130.
  • the image processor 123 may include a combination of a plurality of processor chips according to a design scheme.
  • the audio processor 125 is implemented as a hardware DSP.
  • the audio processor 125 performs an audio processing process such as channel classification, amplification, volume adjustment, and the like on the audio signal and outputs the same to the speaker 140.
  • the audio processor 125 classifies and processes an audio signal for each channel, and outputs the processed channel-specific signals to the individual unit speakers, respectively.
  • the display 130 displays an image signal processed by the image processor 123 as an image.
  • An implementation method of the display unit 130 is not limited, and may include a display panel having a light receiving structure such as a liquid crystal method or a self-light emitting structure such as an OLED method.
  • the display unit 130 may further include additional components according to the implementation manner of the display panel.
  • the display unit 130 includes a liquid crystal display panel, a backlight unit for supplying light to the liquid crystal display panel, a panel driving substrate for driving the liquid crystal display panel, and the like.
  • the speaker 140 outputs audio data processed by the signal processor 120 as audio.
  • the speaker 140 may include unit speakers provided to correspond to audio data of one audio channel, and may include a plurality of unit speakers to respectively correspond to audio data of a plurality of audio channels.
  • the user input unit 150 transmits various preset control commands or information to the controller 170 according to a user's manipulation or input. That is, the user input unit 150 transmits various events generated by the user's manipulation to the signal processor 120 according to the user's intention, so that the controller 170 operates in response to the corresponding event.
  • the user input unit 150 may be implemented in various forms according to the information input method.
  • the user input unit 150 may include a key installed outside the display apparatus 100, a touch screen installed in the display unit 130, It includes a user interface environment installed in the display device 100, such as a microphone, the user's speech input, a camera, a sensor for capturing or detecting the user's gesture.
  • the remote controller is also a component of the user interface environment. However, since the remote controller is separated from the main body of the display apparatus 100, the remote controller transmits a control signal to the display apparatus 100 through a separate control signal receiver provided in the main body of the display apparatus 100.
  • the storage unit 160 stores various data according to the processing and control of the signal processor 120 and the controller 170.
  • the storage unit 160 is accessed by the signal processing unit 120 and the control unit 170 to read, record, modify, delete, and update data.
  • the storage unit 160 may flash-memory, hard-disc drive, and solid-state drive to store data regardless of whether the display device 100 is provided with system power.
  • Non-volatile memory such as a) and a volatile memory such as a buffer, a RAM, etc. for temporarily loading the data processed by the signal processing unit 120.
  • the controller 170 is implemented by a CPU, a microprocessor, or the like, and controls the operation of the components in the display apparatus 100 including the signal processor 120.
  • FIG. 2 is a block diagram illustrating a schematic processing structure of the image processor 200 and the audio processor 300 in the display apparatus according to an exemplary embodiment of the present invention.
  • an image signal is input to the image processor 200 and an audio signal is input to the audio processor 300 through the signal input interface 410.
  • Video signals and audio signals input through the signal input interface 410 may be provided from a content source in various forms.
  • a signal provided through the signal input interface 410 may be transmitted from a set top box according to the HDMI standard, provided from a server via a network, provided from a USB memory, or provided via Bluetooth communication from a wireless device. Can be.
  • the captured image may be provided through the signal input interface 410 in real time from the camera capturing the image.
  • the user input interface 420 receives various types of user inputs.
  • the user input signal through the user input interface 420 in a form in which the display device is fixedly installed, such as a TV, may correspond to an operation of pressing a button of the remote controller or may be linked to a pressure sensor or a touch pad installed in the remote controller.
  • the user input signal may correspond to a gyro sensor or an acceleration sensor installed in the display device in a form in which the display device is portable by a user such as a portable device.
  • the user input signal may correspond to the user's gesture photographed through the camera or the user's audio input through the microphone.
  • the image processor 200 includes an image decoder 210, an image analyzer 220, an image adjuster 230, and an image quality improver 240.
  • the audio processor 300 includes an audio decoder 310, an acoustic analyzer 320, an acoustic controller 330, and a sound quality improver 340.
  • the above components are related to the exemplary embodiment of the present invention, and thus, when the image processor 200 and the audio processor 300 are actually implemented, they may include components other than the above components.
  • Such components of the image processor 200 and the audio processor 300 may be implemented by a hardware chipset, software including programming code, or a combination of hardware and software.
  • the image processor 200 may be implemented as a processor chip, and the above components may be program codes processed by the image processor 200.
  • the image processing operation of the image processor 200 is as follows.
  • the video decoder 210 decodes the video signal input from the signal input interface 410.
  • the image analyzer 220 analyzes various characteristic information of the video signal required to display the decoded video signal as an image.
  • the image adjusting unit 230 processes the image signal to adjust the display state of the image based on the user input information received from the user input interface 420.
  • the image quality improving unit 240 performs processing to improve the quality when the image signal is displayed as an image.
  • the audio processing operation of the audio processing unit 300 is as follows.
  • the audio decoder 310 decodes an audio signal input from the signal input interface 410.
  • the acoustic analyzer 320 analyzes various characteristic information of the audio signal required to output the decoded audio signal as audio.
  • the sound adjusting unit 330 processes the audio signal so that the output state of the audio is adjusted in response to the change of the display state of the image by the image adjusting unit 230.
  • the sound quality improving unit 340 processes to improve the quality when the audio signal is output as audio.
  • the image adjusting unit 230 processes the display state of the image to be adjusted in response to the user input signal from the user input interface 420, that is, when the display timing of the image to the display unit is adjusted, the sound quality is improved.
  • the unit 340 processes the audio output state to be adjusted in response to the adjustment of the display state of the image.
  • the content signal is a 360-degree image captured by a 360-degree camera, that is, a wide-angle image content.
  • the parameter of the user input signal transmitted from the user input interface 420 to the image adjusting unit 230 may include a user's viewpoint coordinates of the image, an angle of view of the image, a zoom depth of the image, and the like.
  • the image adjusting unit 230 adjusts the display state of the image in response to such parameters, and transmits information on the adjustment result to the sound adjusting unit 330.
  • the information transmitted from the image adjusting unit 230 to the sound adjusting unit 330 may further include information about a current image output mode, viewing information intended by a content provider, and the like.
  • the image output mode indicates how the image is currently displayed on the display unit.
  • image output mode There are various methods of image output mode, for example, 360 degree image mode, panorama mode, multi-view mode and the like.
  • 360 degree image mode a portion of the entire image photographed by the camera is displayed on the display unit.
  • the panorama mode is a state in which an image taken in a 360 degree omni-directional is unfolded on a plane, and an image of the unfolded state is displayed on the display unit.
  • the multi-view mode the display area of the display unit is divided into several areas, and a plurality of images are displayed in each of the divided areas.
  • specific information may be displayed at a specific time point of the content.
  • the viewing information exists as a function of time and is included in the form of metadata in the content.
  • the sound adjusting unit 330 basically obtains speaker output layout information, and outputs an audio signal for each channel to the speaker for each channel based on this.
  • the speaker output layout information includes channel information of the unit speaker installed in the display device, characteristic information of the speaker, and the like.
  • the sound adjusting unit 330 adjusts the output state of the audio through the speaker based on the information.
  • the user input signal from the user input interface 420 is transmitted to the image adjusting unit 230, and the image processing information from the image adjusting unit 230 is transferred to the sound adjusting unit 330, thereby adjusting the sound adjusting unit 330.
  • the viewing information is information prepared in advance so as to be provided to the user in an optimal state in displaying the image of the content and outputting the audio of the content, for example, a viewpoint of the image or the zoom depth of the image, the volume of the audio Alternatively, specify information such as amplification level for each frequency.
  • the viewing information may be transferred back from the image adjusting unit 230 to the sound adjusting unit 330, or may be transferred to the image adjusting unit 230 and the sound adjusting unit 330, respectively.
  • the display apparatus may provide an image and audio according to the corresponding viewing information.
  • Such viewing information is present in the form of metadata or additional data together with the video signal and the audio signal in the content signal provided from the content source, and can be extracted from the content signal by demultiplexing.
  • the viewing information exists as a function of time in the content signal, whereby the display device can determine at what point each viewing information should be applied while the image is displayed.
  • the video signal output from the image processor 200 is transmitted to the display unit, and the audio signal output from the audio processor 300 is output to the speaker.
  • processing operations of the image processor 200 and the audio processor 300 are performed according to the system clock of the display apparatus.
  • the display apparatus synchronizes the image signal output from the image processor 200 and the audio signal output from the audio processor 300 according to the system clock. It may further include a component such as a synchronization unit.
  • the display apparatus may play back images and audios in response to user demands such as changes in viewpoint, angle of view, zoom depth, and the like, thereby providing a more realistic viewing environment.
  • the sound adjusting unit 330 adjusts the output state of the audio if it satisfies the condition of the specific acoustic characteristic, and otherwise outputs the audio. You can also perform a process that does not adjust the state. This process is performed by the acoustic analyzer 320, that is, when the acoustic analyzer 320 determines that the condition is satisfied, the acoustic controller 330 adjusts the output state of the audio in response to a change in the display state of the image. If the acoustic analyzer 320 determines that the condition is not satisfied, the acoustic controller 330 does not adjust the output state of the audio even though the display state of the image is changed.
  • the acoustic analyzer 320 may determine whether the audio signal is live recording. If it is determined by the acoustic analyzer 320 that the audio signal is recorded in the field, the acoustic controller 330 adjusts the output state of the audio in response to the change in the display state of the image. On the other hand, if it is determined by the acoustic analyzer 320 that the audio signal is not recorded in the field, that is, it is determined that the audio signal is mixed, the sound adjusting unit 330 adjusts the output state of the audio even if the display state of the image is changed. I never do that.
  • the content audio may be generated by collecting audio from the object or environment simultaneously with the photographing of the camera with one or more microphones.
  • the content audio generated as described above reflects the change in the shooting object or the shooting environment in the same way as the content video, and thus the content audio corresponds to the content video. In this way, the method of generating the content audio is called on-site recording.
  • the content provider adds a different separately recorded audio signal to the audio signal generated by the field recording method, or applies a separately recorded audio signal to the content instead of the audio signal generated by the field recording method.
  • a separately recorded audio signal may be inserted into documentary content.
  • the display apparatus can provide a user with a more improved sense of reality by adjusting the output state of the content audio in response to the user input.
  • the display apparatus does not adjust the output state of the content audio even if a user input is received.
  • the display apparatus may provide a user with a more advanced acoustic environment according to the characteristics of the content audio.
  • FIG. 3 is a flowchart illustrating a method of processing an audio signal by a display apparatus according to an exemplary embodiment of the present invention.
  • the display apparatus receives a content signal.
  • the display apparatus divides the video signal and the audio signal from the received content signal and processes each.
  • the display apparatus receives a user input for instructing image adjustment.
  • the display apparatus adjusts a display state of the image in response to a user input.
  • the display apparatus determines whether the audio signal is generated by the on-site recording.
  • step S150 the display apparatus adjusts the output state of the audio in response to the adjustment of the display state of the image.
  • the display device maintains the original state without adjusting the output state of the audio in step S160.
  • FIG 4 is an exemplary view showing the entire image 510 of the wide-angle image content displayed on the display device according to an embodiment of the present invention.
  • a wide-angle camera such as a 360-degree camera may generate a whole image 510 of an area larger than a size actually displayed on a display unit of a general display apparatus when photographing a predetermined object.
  • the size and resolution of the entire image 510 are values that vary depending on the characteristics of the camera and are not limited by specific values.
  • the first position 521 of the entire image 510 is determined as a default, and the display unit of the entire image 510 in which the first area 520 centered on the first position 521 is displayed on the display unit as a default. It is an area displayed in. If there is no special user input, the display apparatus basically displays the first area 520 of the entire image 510.
  • the display apparatus displays the second area 530 around the second position 531 instead of the first area 520. This operation is referred to as panning of the image since the currently displayed area moves from the first area 520 to the second area 530 when viewed from the side of the whole image 510.
  • a user input may indicate that the user's eyes move from the first position 521 to the right.
  • the user input indicates that the user's gaze moves from the first position 521 to the third position 541 in the entire image 510. Accordingly, the display device displays the third region 540 centered on the third position 541 instead of the first region 520.
  • User input may be performed through various interfaces. If the display device is fixedly installed, such as a TV, user input may be performed through a button operation or a touch pad operation of the remote controller. Alternatively, if the display device is a form that a user can carry, such as a mobile device, the user input may be performed through a gyro sensor or an acceleration sensor installed in the display device.
  • the display apparatus may adjust the display state of the image in response to a change in the user's gaze.
  • FIG 5 is an exemplary view illustrating an image 610 including a predetermined object 611 is displayed on a display device according to an exemplary embodiment of the present invention.
  • the display apparatus displays an image 610 including an object 611 at a predetermined time t (0).
  • This image 610 shows how a portion of the wide-angle image as described with reference to FIG. 4 is displayed on the display unit.
  • ⁇ (0) which is the viewpoint 620 of the user at the present time is 0 degrees, and the user is looking at the object 611 in front.
  • the display apparatus outputs audio by reflecting a state in which the object 611 is located in front of the user. For example, when outputting audio through a stereo channel, the display apparatus may output the output power of each of the L channel and the R channel of the audio component corresponding to the object 611 within the audio signal in a balanced manner.
  • FIG. 6 is an exemplary view illustrating an image 630 that changes when the user's viewpoint moves 30 degrees counterclockwise from the state of FIG. 5.
  • the display apparatus displays an image 630 corresponding to the user view 640 by panning the entire image. do. Comparing the image 630 with the case of FIG. 5, the object 611 appears to have moved from the center to the right.
  • the display apparatus adjusts the output state of the audio in response to the change in the display state of the image 630.
  • the display apparatus outputs audio from the object 611 to the user from the right side of the user viewpoint 640 in response to the state in which the object 611 is moved to the right side of the user viewpoint 640. do.
  • the display apparatus may adjust the output power of the R channel to be higher than the output power of the L channel in the audio component of the object 611 among the audio signals.
  • the display apparatus may adjust the display state of the image and the output state of the audio, respectively, in response to a change in the viewpoint of the user.
  • FIG. 7 is an exemplary view illustrating a display apparatus displaying an image 650 including a plurality of objects 651 and 652 according to the present embodiment.
  • the display apparatus displays an image 650 including a plurality of objects 651 and 652.
  • the first object 651 is located on the user viewpoint 660
  • the second object 652 is a user. It is located on the right side from the viewpoint 660.
  • audio is output from each of the first object 651 and the second object 652, and the audio of the second object 652 is larger than the audio of the first object 651 in position. If the second object 652 is located closer to the user view 660 than the first object 651 without relatively far away from the axis of the user view 660, the audio of the second object 652 is located in the first object 660. The audio may be greater than the audio of the object 651.
  • the user's viewpoint may be changed as in the previous embodiment, it is also possible that the user's viewpoint is maintained and only the zoom depth is adjusted.
  • the zoom depth D (0) at time t (0) is 0%
  • the user input may instruct to enlarge and display the current image by increasing the zoom depth.
  • FIG. 8 is an exemplary diagram illustrating an image 670 that changes when the zoom depth is increased from the state of FIG. 7.
  • the display apparatus corresponds to the first object in response to the indicated zoom depth.
  • An image 670 enlarged around 651 is displayed.
  • the first object 651 is positioned at the center of the image 670 and the second object 652 is positioned at the right side of the image 670. .
  • the display apparatus adjusts the audio output. Specifically, the first object 651 on the user's viewpoint 660 is closer, the display device increases the output power of the audio component of the first object 651 among the audio signal and the other second object 652 By lowering the output power of the audio component of, the intelligibility of the audio of the first object 651 is increased.
  • the display device determines that the audio signal is recorded in the field
  • the display device adjusts the output state of the audio in response to the change in the display state of the image. Does not adjust the output status of audio.
  • the display apparatus performs a sound quality improvement process by the sound quality improving unit 340 (see FIG. 2), and performs a preset spatial filtering when the output state of the audio is not adjusted. Can be.
  • Spatial filtering is to add various types of additional effects to the audio signal. For example, various processes such as decorrelation, stereo widening, distance filter, and reverberation / de-reverberation may be applied.
  • Information required for processing an audio signal includes nChannels, chPCM, chType, nMics, micPositions, and micType.
  • nChannels represents the number of audio channels such as stereo, 3.1, 5.1, and the like.
  • chPCM represents the raw data of an audio channel.
  • chType is an identification value of an audio component for determining a sound source of an object in an audio signal.
  • nMics indicates the type of microphone used to collect audio, such as omnidirectional microphones and directional microphones.
  • micPositions indicate absolute or relative positions between microphones, including the distance between microphones in the array, when the microphones are implemented as an array. In addition, information and parameters necessary for the output or adjustment of audio may be additionally used.
  • the display apparatus may refer to various information in order to adjust the audio output state.
  • Examples of such information include panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, and userOrientation.
  • These information are values transmitted from the image adjusting unit 230 (see FIG. 2) to the sound adjusting unit 330 (see FIG. 2) generally reflecting the change of the image display state, but are transmitted from the user input interface 420 (see FIG. 2). May be
  • multiviewFlag indicates whether the image output mode is a multiview mode.
  • screenwidth and screenHeight represent the physical size of the display unit.
  • horiFOV and vertFOV represent the Field of View in the horizontal and altitude directions of the displayed image. If screenwidth and screenHeight are much larger than horiFOV and vertFOV, it is determined that the zoom depth is increased.
  • the display apparatus increases the output power of the audio of the object corresponding to the user's viewpoint, and outputs the audio output power of the object or environment around the object It can be operated to lower.
  • the display device can perform the sound adjustment corresponding to the above-described panorama mode.
  • the display apparatus may determine whether an object corresponding to a user's viewpoint exists and perform a process of amplifying audio of the object.
  • the display apparatus may adjust the position of the image by inversely compensating it.
  • nChannels and chPCM are generally data obtained after audio decoding
  • chType, nMics, micPositions, and micType are parameters necessary for acoustic analysis.
  • panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, and userOrientation are parameters transmitted by an image processor or user input, not parameters transmitted when an audio signal is input.
  • panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV are input values from the image processor
  • userZoomDepth and userOrientation are values delivered by user input.
  • the above information may be input together with the audio signal or may be transmitted through the same path as the metadata of the video signal by being input through the UI.
  • the display apparatus determines whether the audio signal is recorded on-site.
  • various methods of determining the on-site recording are possible, which will be described below.
  • FIG. 9 is a flowchart illustrating a process in which the display apparatus according to an embodiment of the present invention determines whether audio recording is performed on the spot.
  • step S210 the display apparatus acquires a stereo channel audio signal.
  • the display apparatus separates the left (L) channel, the right (R) channel, and the center (C) channel from the audio signal.
  • the center channel is an audio component commonly included in the left channel and the right channel in the audio signal.
  • the display apparatus calculates an output power ratio of the correlated signal and the ambient signal.
  • the correlated signal is an audio component of the center channel.
  • An ambient signal refers to an audio component obtained by subtracting an audio component of a center channel from an audio component of a left channel, or an audio component obtained by subtracting an audio component of a center channel from an audio component of a right channel.
  • the output power ratio ⁇ of the correlated signal and the ambient signal can be expressed in various forms.
  • the output power ratio ⁇ can be represented by the following equation.
  • L means the left channel
  • C means the center channel
  • the display apparatus determines whether the output power ratio ⁇ of the correlated signal and the ambient signal is greater than the preset threshold ⁇ th .
  • step S260 the display device determines that the audio signal is not field recording.
  • the display apparatus may determine whether to record the scene by estimating the ratio of the power signal to the correlated signal.
  • FIG. 10 is a flowchart illustrating another process of determining whether an audio signal is recorded by a display apparatus according to an exemplary embodiment of the present invention.
  • step S310 the display apparatus acquires a stereo channel audio signal.
  • the display apparatus separates the L channel and the R channel from the audio signal.
  • the display apparatus calculates an inter-channel level difference (ICLD) ⁇ .
  • ICLD inter-channel level difference
  • a technique for amplifying the same signal to L / R signals is applied.
  • it can be inversely estimated that the audio signal is not recorded in the field.
  • a relatively large power deviation between the L and R channels of an object's audio in an image of a time period means that the audio signal is more likely to be recorded in the field, and the L and R channels of the object's audio are recorded. Insufficient power deviation between them means that the audio signal has a high probability of being mixed.
  • the ICLD can be calculated based on an independent axis of each of time-frequency domain or time and frequency.
  • the display apparatus determines whether the ICLD value ⁇ is greater than the preset threshold ⁇ th .
  • the display device determines that the audio signal is recorded on-site at step S350. On the other hand, if it is determined that ⁇ ⁇ ⁇ th , the display apparatus determines that the audio signal is not recorded in the field at step S360.
  • the display apparatus may determine whether to record the scene according to whether the audio signal is dual mono.
  • Dual mono represents, for example, the case where the audio component of the left channel and the audio component of the right channel are the same or have high similarity. Dual mono is a type that can appear in mixing, and less likely in field recording. Accordingly, the display device determines that the audio signal is not dual mono, and determines that the audio signal is not dual mono.
  • the display device can easily determine whether the audio signal is recorded on-site.
  • FIG. 11 is a block diagram illustrating a configuration of an acoustic controller 700 applied to a display device according to an exemplary embodiment of the present invention.
  • the image and audio should be adjusted according to a parameter according to a user input, for example, a user's viewpoint, an angle of view, a zoom depth, and the like.
  • the audio controller 700 processes an audio signal to output an audio state. Adjust it.
  • Each channel data of the audio signal is input to the virtual microphone signal generator 710 and the sound source direction detector 720.
  • the virtual microphone signal generator 710 may perform a channel separation, ambience extraction, or center channel separation function to separate directional and non-directional components from audio components of the audio signal.
  • the virtual microphone signal generator 710 may apply an M-Nch Format Converter (M ⁇ N) or up-mix to convert the audio signal into a larger number of channels than the actual channel through the decorrelation. .
  • M ⁇ N M-Nch Format Converter
  • the sound source direction detecting unit 720 acquires direction information of each object when there are objects that become sound sources in the image.
  • Direction information of the object may be obtained by measuring an inter-channel time difference (ICTD).
  • ICTD calculates the time sample corresponding to the peak position of a technique such as PHAT-GCC (PHAse-Transform) during Generalized Cross Correlation (GCC) through slope calculation of each frequency bin of the audio signal in the frequency domain. In addition, it can be estimated through a zero-crossing operation.
  • ICTD inter-channel time difference
  • ICTD calculates the time sample corresponding to the peak position of a technique such as PHAT-GCC (PHAse-Transform) during Generalized Cross Correlation (GCC) through slope calculation of each frequency bin of the audio signal in the frequency domain.
  • GCC Generalized Cross Correlation
  • the interactive signal generator 730 generates audio information that can reproduce the sound image to be transmitted to the viewer at the present time according to the output speaker layout by using the direction information of the sound source, the virtual microphone signal, and the changed user's viewpoint information. .
  • the direction ⁇ s of the sound source may be estimated through the sound source direction detecting unit 720.
  • the interactive signal generator 730 may be applied assuming ⁇ s as 0 degrees, that is, in the front.
  • the viewpoint information ⁇ v of the user may be measured through the user interface.
  • the interactive signal generator 730 pans the audio data received from the virtual microphone signal generator 710 in the ( ⁇ s - ⁇ v ) direction with respect to a component separated by a directional audio component or a center channel. It is possible to apply a coefficient and not apply a panning coefficient to other components such as an ambient component. In this case, the panning coefficient may be generated through a technique such as Vector-based Amplitude Panning / Phase Panning based on the output speaker layout information.
  • the sound adjusting unit 700 compares the direction of the object detected by the sound source direction detecting unit 720 with the point of time at which the user changes the zoom depth, thereby zooming in. It may be determined whether an object is located at. When the direction of the object and the zoom direction coincide, the sound control unit 700 may amplify the audio component of the object while performing an operation of panning or reducing the power of the other Ambient signals from side to side, thereby providing a zoom effect. .
  • the display apparatus delivers a high-reality viewing environment to the user by interlocking images and audio in real time according to a viewing condition desired by the user such as viewpoint, angle of view, zoom depth, and the like. Can provide.
  • Methods according to an exemplary embodiment of the present invention may be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • Such computer-readable media may include, alone or in combination with the program instructions, data files, data structures, and the like.
  • a computer readable medium may be volatile or nonvolatile, such as a storage device such as a ROM, whether or not removable or rewritable, or a memory such as, for example, a RAM, a memory chip, a device, or an integrated circuit.
  • a storage device such as a ROM, whether or not removable or rewritable
  • a memory such as, for example, a RAM, a memory chip, a device, or an integrated circuit.
  • CD or DVD, magnetic disk or magnetic tape and the like can be stored in a storage medium that is optically or magnetically recordable and simultaneously readable by a machine (eg computer).
  • a memory that can be included in a mobile terminal is an example of a machine-readable storage medium suitable for storing a program or programs containing instructions for implementing embodiments of the present invention.
  • the program instructions recorded on the storage medium may be those specially designed and constructed for the present invention, or may be known and available to those skilled in the art of computer software.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

본 발명의 실시예에 따른 디스플레이장치는, 디스플레이부와; 스피커와; 사용자입력부와; 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 사용자입력부를 통한 사용자 입력에 따라서 디스플레이부에 표시되는 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와; 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 오디오신호의 음향 특성을 판단하고, 사용자 입력에 대응하는 음향 특성에 따라서 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 한다.

Description

디스플레이장치와, 기록매체
본 발명은 콘텐츠신호를 처리함으로써 콘텐츠의 영상 및 오디오를 출력하게 마련된 디스플레이장치와, 기록매체에 관한 것으로서, 상세하게는 사용자가 영상에 대한 시청 정보를 변경하는 것에 응답하여 영상 및 오디오의 출력상태를 조정할 수 있는 구조의 디스플레이장치와, 기록매체에 관한 것이다.
소정의 정보를 특정 프로세스에 따라서 연산 및 처리하기 위해, 연산을 위한 CPU, 칩셋, 메모리 등의 전자부품들을 기본적으로 포함하는 전자장치는, 처리 대상이 되는 정보가 무엇인지에 따라서 다양한 종류로 구분될 수 있다. 예를 들면, 전자장치에는 범용의 정보를 처리하는 PC나 서버 등의 정보처리장치가 있고, 영상 정보를 처리하는 영상처리장치가 있다.
영상처리장치는 영상데이터를 포함하는 콘텐츠 신호를 외부로부터 수신하며, 콘텐츠 신호로부터 추출되는 영상데이터를 다양한 영상처리 프로세스에 따라서 처리한다. 영상처리장치는 처리된 영상데이터를 자체 구비한 디스플레이 패널(display panel) 상에 영상으로 표시하거나, 또는 디스플레이 패널을 구비한 타 디스플레이장치에서 영상으로 표시되도록 이 처리된 영상데이터를 해당 디스플레이장치에 출력한다. 디스플레이 패널을 가지지 않은 영상처리장치의 대표적인 예시로는 셋탑박스(set-top box)가 있다. 디스플레이 패널을 가진 영상처리장치를 특히 디스플레이장치라고 지칭하며 그 예시로는 TV, 모니터, 휴대용 멀티미디어 재생기, 태블릿(tablet), 모바일 폰(mobile phone) 등이 있다.
기술이 발전하고 사용자의 취향이 다양화되는 경향에 따라서, 디스플레이장치가 제공받는 콘텐츠 또한 다양한 형태 및 방식으로 발전하고 있다. 콘텐츠가 발전하는 한 가지 방식으로는 콘텐츠의 영상이 FHD를 넘어서 4K, 8K 등의 고해상도로 변화하는 추세가 있지만, 단순히 해상도가 높아지는 것 이외에도 콘텐츠 자체의 생성에 있어서 새로운 방식이 사용되기도 한다. 그 한 가지 예시가 통칭 360도 카메라로 지칭되는 전방향 카메라에 의해 소정 대상이 촬영됨으로써 전방향 영상 콘텐츠가 생성되는 경우이다.
다만, TV와 같은 일반적인 구조의 디스플레이장치에서 이와 같은 방식으로 생성된 전방향 영상 콘텐츠를 재생하는 것은, 영상 및 오디오 측면 모두에 있어서 여러 가지 고려해야 할 사항이 있다. 예를 들면, 디스플레이장치는 전방향 영상 콘텐츠의 영상을 어떠한 방식으로 표시할 것인가 판단해야 하며, 또한 표시하는 영상에 대응하여 어떠한 방식으로 오디오를 출력할 것인가 판단해야 한다. 디스플레이장치가 종래의 방식으로 영상 및 오디오를 재생할 때에, 경우에 따라서는 영상의 표시 상태와 오디오의 출력 상태가 상호 맞지 않게 됨으로써, 사용자에게 현장감이 떨어지는 환경을 제공하게 될 수도 있다. 이러한 점을 해소하도록, 전방향 영상 콘텐츠를 디스플레이장치에서 재생할 때에 디스플레이장치가 사용자의 의도를 실시간으로 반영하여 콘텐츠를 재생할 수 있는 유저 인터랙티브(user interactive) 환경을 제공할 수 있다면 바람직할 것이다.
본 발명의 실시예에 따른 디스플레이장치는, 디스플레이부와; 스피커와; 사용자입력부와; 상기 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 상기 사용자입력부를 통한 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와; 상기 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 상기 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 한다. 이로써, 디스플레이장치는 오디오신호의 특성에 대응하여 최적화된 음향 환경을 사용자에게 제공할 수 있다.
여기서, 상기 오디오처리 프로세서는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단할 수 있다.
여기서, 상기 오디오처리 프로세서는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하고, 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단할 수 있다. 또는, 상기 오디오처리 프로세서는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단할 수 있다. 또는, 오디오처리 프로세서는 좌우 패닝과 같이 스튜디오에서 통상적으로 적용되는 믹싱 또는 마스터링 기법을 고려하여, 오디오 데이터가 믹싱 또는 마스터링 신호로 판단되면, 오디오 신호가 현장 녹음 또는 스튜디오에서의 후처리 녹음인지 여부를 판단할 수 있다.
또한, 상기 오디오처리 프로세서는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않을 수 있다. 이로써, 디스플레이장치는 오디오신호가 현장녹음이면 향상된 음장감을 제공하며, 오디오신호가 현장녹음이 아니더라도 오디오가 비정상적으로 출력되는 것을 방지할 수 있다.
또한, 상기 영상신호는 광각 카메라에 의해 촬영된 광각영상을 포함하며, 상기 영상처리 프로세서는 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시되게 처리할 수 있다. 이로써, 디스플레이장치는 360도 카메라와 같은 광각 카메라에 의해 촬영된 광각영상을 표시할 수 있다.
여기서, 상기 영상처리 프로세서는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하며, 상기 오디오처리 프로세서는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하고, 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정할 수 있다. 이로써, 디스플레이장치는 광각영상의 패닝에 대응하여 음향 환경을 향상시킬 수 있다.
여기서, 상기 사용자 입력은, 상기 영상에 대한 사용자의 디폴트 시점 및 상기 이동한 사용자 시점 사이의 각도 정보를 포함할 수 있다.
또한, 상기 영상처리 프로세서는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하며, 상기 오디오처리 프로세서는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하고, 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정할 수 있다. 이 외에도, 로우패스 필터링과 같이 음원의 거리 변화에 따라 음원의 주파수 성분을 변화시키는 과정, 또는 거리 및 방향에 따라 해당되는 머리전달함수(Head-related Transfer Function, HRTF) 필터링 등의 과정이 수반될 수 있다. 이로써, 디스플레이장치는 영상의 줌인, 줌아웃에 대응하여 영상의 시청 환경 변화와 연동하여 음향환경을 향상시킬 수 있다.
또한, 상기 오디오처리 프로세서는 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하고, 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정할 수 있다.
또한, 본 발명의 실시예에 따른 디스플레이부 및 스피커를 포함하는 디스플레이장치의 프로세서에 의해 실행 및 처리 가능하게 마련된 방법의 프로그램 코드를 저장하는 기록매체에 있어서, 상기 방법은, 상기 디스플레이부에 영상을 표시하는 단계와; 상기 스피커로부터 오디오를 출력하는 단계와; 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점을 변화시키는 단계와; 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함하는 것을 특징으로 한다. 이로써, 디스플레이장치는 오디오신호의 특성에 대응하여 최적화된 음향 환경을 사용자에게 제공할 수 있다.
여기서, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 단계를 포함할 수 있다.
여기서, 상기 음향 특성을 판단하는 단계는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하는 단계와; 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함할 수 있다. 또는, 상기 음향 특성을 판단하는 단계는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함할 수 있다.
또한, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 단계를 포함할 수 있다.
또한, 상기 영상은 광각 카메라에 의해 촬영된 광각영상을 포함하며, 상기 디스플레이부에 영상을 표시하는 단계는, 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시하는 단계를 포함할 수 있다.
여기서, 상기 영상의 시점을 변화시키는 단계는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하는 단계를 포함하며, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하는 단계와; 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정하는 단계를 포함할 수 있다.
여기서, 상기 사용자 입력은, 상기 영상에 대한 사용자의 디폴트 시점 및 상기 이동한 사용자 시점 사이의 각도 정보를 포함할 수 있다.
또한, 상기 영상의 시점을 변화시키는 단계는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하는 단계를 포함하며, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하는 단계와; 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정하는 단계를 포함할 수 있다.
또한, 상기 스피커로부터의 오디오 출력을 조정하는 단계는, 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하는 단계와; 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함할 수 있다.
도 1은 본 발명의 실시예에 따른 디스플레이장치의 구성 블록도,
도 2는 본 발명의 실시예에 따른 디스플레이장치에서 영상처리부 및 오디오처리부의 개략적인 처리 구조를 나타내는 구성 블록도,
도 3은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호를 처리하는 방법을 나타내는 플로우차트,
도 4는 본 발명의 실시예에 따른 디스플레이장치에 표시되는 광각영상 콘텐츠의 전체영상을 나타내는 예시도,
도 5는 본 발명의 실시예에 따른 디스플레이장치에 소정 오브젝트를 포함한 영상이 표시되는 모습을 나타내는 예시도,
도 6은 도 5의 상태로부터 사용자의 시점이 반시계방향으로 30도 이동하였을 때에 변화하는 영상을 나타내는 예시도,
도 7은 본 실시예에 따른 디스플레이장치가 복수의 오브젝트를 포함한 영상을 표시하는 모습을 나타내는 예시도,
도 8은 도 7의 상태로부터 줌 깊이를 증가시켰을 때에 변화하는 영상을 나타내는 예시도,
도 9는 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 일 과정을 나타내는 플로우차트,
도 10은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 다른 과정을 나타내는 플로우차트,
도 11은 본 발명의 실시예에 따른 디스플레이장치에 적용되는 음향조정부의 구성 블록도이다.
이하에서는 첨부도면을 참조하여 본 발명에 따른 실시예들에 관해 상세히 설명한다. 이하 실시예들의 설명에서는 첨부된 도면들에 기재된 사항들을 참조하는 바, 각 도면에서 제시된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 나타낸다.
만일, 실시예에서 제1구성요소, 제2구성요소 등과 같이 서수를 포함하는 용어가 있다면, 이러한 용어는 다양한 구성요소들을 설명하기 위해 사용되는 것이며, 용어는 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용되는 바, 이들 구성요소는 용어에 의해 그 의미가 한정되지 않는다. 실시예에서 사용하는 용어는 해당 실시예를 설명하기 위해 적용되는 것으로서, 본 발명의 사상을 한정하지 않는다. 또한, 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다.
도 1은 본 발명의 실시예에 따른 디스플레이장치(100)의 구성 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 디스플레이장치(100)는 다양한 콘텐츠소스(10)로부터 콘텐츠 신호를 제공받는다. 본 실시예에서는 디스플레이장치(100)가 TV로 구현되는 경우를 고려하지만, 이러한 실시예는 본 발명의 사상이 구현될 수 있는 유일한 예시가 아니며, 콘텐츠 신호를 처리하여 콘텐츠 영상을 표시할 수 있는 태블릿(tablet), PC, 모바일 폰(mobile phone), 웨어러블 디바이스(wearable device) 등 다양한 종류의 장치에 본 발명의 사상이 적용될 수 있다.
디스플레이장치(100)는 콘텐츠소스(10)로부터 콘텐츠 신호를 수신하는 신호수신부(110)와, 신호수신부(110)를 통해 수신되는 콘텐츠 신호를 처리하는 신호처리부(120)와, 신호처리부(120)에 의해 처리되는 콘텐츠 신호에 의한 콘텐츠 영상을 표시하는 디스플레이부(130)와, 신호처리부(120)에 의해 처리되는 콘텐츠 신호에 의한 콘텐츠 오디오를 출력하는 스피커(140)와, 사용자에 의한 입력 동작이 수행되는 사용자입력부(150)와, 데이터가 저장되는 저장부(160)와, 신호처리부(120)의 처리를 위한 연산 및 디스플레이장치(100)의 제반 동작의 제어를 수행하는 제어부(170)을 포함한다. 이들 구성요소들은 시스템 버스를 통해 상호 접속된다.
신호수신부(110)는 콘텐츠소스(10)와 같은 외부장치로부터 콘텐츠 신호를 수신하기 위한 통신모듈을 포함한다. 신호수신부(110)는 기본적으로 외부로부터의 신호나 데이터를 수신하기 위한 구성이지만, 이에 한정되지 않고 양방향 통신을 구현할 수 있다. 신호수신부(110)는 예를 들면 RF 방송신호를 지정된 주파수로 튜닝하게 마련된 튜닝 칩(tuning chip), 인터넷으로부터 패킷 데이터를 유선으로 수신하는 이더넷(Ethernet) 모듈, 패킷 데이터를 무선으로 수신하는 무선통신모듈, USB 메모리와 같은 외부 메모리가 접속되는 접속포트 등의 구성요소 중에서 적어도 하나 이상을 포함한다. 즉, 신호수신부(110)는 다양한 종류의 통신 프로토콜에 각기 대응하는 통신모듈 또는 포트 등이 조합된 데이터 입력 인터페이스를 포함한다.
신호처리부(120)는 신호수신부(110)에 수신되는 콘텐츠 신호에 대해 다양한 프로세스를 수행함으로써 콘텐츠를 재생한다. 신호처리부(120)는 인쇄회로기판 상에 장착되는 칩셋, 버퍼, 회로 등으로 구현되는 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC(system on chip)으로 구현될 수도 있다. 기본적으로, 신호처리부(120)는 콘텐츠 영상이 디스플레이부(130)에 표시되고 콘텐츠 오디오가 스피커(140)로부터 출력되도록 콘텐츠 신호를 처리한다.
신호처리부(120)는 콘텐츠 신호를 디멀티플렉싱하여 영상신호 및 오디오신호로 분리하는 디먹스(deMUX)(121)와, 디먹스(121)로부터 출력되는 영상신호를 영상처리 프로세스에 따라서 처리함으로써 디스플레이부(130)에 콘텐츠 영상이 표시되게 하는 영상처리부(123)와, 디먹스(121)로부터 출력되는 오디오신호를 오디오신호 프로세스에 따라서 처리함으로써 스피커(140)로부터 콘텐츠 오디오가 출력되게 하는 오디오처리부(125)를 포함한다.
디먹스(121)는 멀티플렉싱된 상태의 콘텐츠 신호 내의 각 패킷들을 PID에 따라서 구분함으로써, 콘텐츠 신호를 영상신호, 오디오신호, 부가데이터신호 등의 하위 신호들로 분류시킨다. 디먹스(121)는 분류된 하위 신호들 중에서, 영상신호는 영상처리부(123)로 출력하고, 오디오신호는 오디오처리부(125)로 출력한다. 다만, 모든 콘텐츠 신호가 디먹스(121)에 의해 분리되어야 하는 것은 아니며, 콘텐츠 신호가 영상신호 및 오디오신호로 각기 구분되어 디스플레이장치(100)에 제공되는 경우라면 디먹스(121)에 의한 디멀티플렉싱 처리가 불필요할 수 있다.
영상처리부(123)는 하드웨어 프로세서 칩으로 구현되며, 영상신호에 대해 디코딩, 영상강화, 스케일링 등의 영상처리 프로세스를 수행하고, 디스플레이부(130)에 출력한다. 영상처리부(123)는 설계 방식에 따라서 복수의 프로세서 칩의 조합을 포함할 수 있다.
오디오처리부(125)는 하드웨어 DSP로 구현되며, 오디오신호에 대해 채널 별 구분, 증폭, 볼륨 조정 등의 오디오처리 프로세스를 수행하고, 스피커(140)에 출력한다. 스피커(140)가 복수 개의 단위 스피커를 포함하는 경우에, 오디오처리부(125)는 오디오신호를 채널 별로 구분 및 처리하고, 처리된 채널 별 신호들을 개별 단위 스피커에 각기 출력한다.
디스플레이부(130)는 영상처리부(123)에 의해 처리되는 영상신호를 영상으로 표시한다. 디스플레이부(130)의 구현 방식은 한정되지 않으며, 액정 방식과 같은 수광 구조 또는 OLED 방식과 같은 자발광 구조의 표시패널을 포함할 수 있다. 또한, 디스플레이부(130)는 표시패널 이외에, 표시패널의 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 액정 방식인 경우에, 디스플레이부(130)는 액정 디스플레이 패널과, 액정 디스플레이 패널에 광을 공급하는 백라이트유닛과, 액정 디스플레이 패널을 구동시키는 패널구동기판 등을 포함한다.
스피커(140)는 신호처리부(120)에 의해 처리되는 오디오데이터를 오디오로 출력한다. 스피커(140)는 어느 한 오디오채널의 오디오데이터에 대응하게 마련된 단위 스피커를 포함하며, 복수 오디오채널의 오디오데이터에 각기 대응하도록 복수의 단위 스피커를 포함할 수 있다.
사용자입력부(150)는 사용자의 조작 또는 입력에 따라서 기 설정된 다양한 제어 커맨드 또는 정보를 제어부(170)에 전달한다. 즉, 사용자입력부(150)는 사용자의 의도에 따라서 사용자의 조작에 의해 발생하는 다양한 이벤트를 신호처리부(120)에 전달함으로써, 제어부(170)가 해당 이벤트에 대응하여 동작하도록 한다.
사용자입력부(150)는 정보의 입력방식에 따라서 다양한 형태로 구현될 수 있는 바, 예를 들면 사용자입력부(150)는 디스플레이장치(100) 외측에 설치된 키, 디스플레이부(130)에 설치된 터치스크린, 사용자의 발화가 입력되는 마이크로폰, 사용자의 제스쳐 등을 촬영 또는 감지하기 위한 카메라, 센서 등과 같은 디스플레이장치(100)에 설치된 사용자 인터페이스 환경을 포함한다. 리모트 컨트롤러 또한 사용자 인터페이스 환경의 한 가지 구성이라고 볼 수 있다. 다만, 리모트 컨트롤러는 디스플레이장치(100)의 본체와 분리된 구성이므로, 디스플레이장치(100) 본체에 마련된 별도의 제어신호 수신부를 통해 디스플레이장치(100)에 제어신호를 전송한다.
저장부(160)는 신호처리부(120) 및 제어부(170)의 처리 및 제어에 따라서 다양한 데이터가 저장된다. 저장부(160)는 신호처리부(120) 및 제어부(170)에 의해 억세스됨으로써, 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 저장부(160)는 디스플레이장치(100)의 시스템 전원의 제공 유무와 무관하게 데이터를 보존할 수 있도록 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive), SSD(solid-state drive) 등과 같은 비휘발성 메모리와, 신호처리부(120)에 의해 처리되는 데이터가 임시로 로딩되기 위한 버퍼, 램 등과 같은 휘발성 메모리를 포함한다.
제어부(170)는 CPU, 마이크로 프로세서 등으로 구현됨으로써, 신호처리부(120)를 비롯한 디스플레이장치(100) 내의 구성요소들의 동작을 제어한다.
이하, 영상처리부(123) 및 오디오처리부(125)가 영상신호 및 오디오신호를 각기 처리하는 구체적인 실시예에 관해 설명한다.
도 2는 본 발명의 실시예에 따른 디스플레이장치에서 영상처리부(200) 및 오디오처리부(300)의 개략적인 처리 구조를 나타내는 구성 블록도이다.
도 2에 도시된 바와 같이, 신호입력 인터페이스(410)를 통해 영상신호가 영상처리부(200)에 입력되고 오디오신호가 오디오처리부(300)에 입력된다. 신호입력 인터페이스(410)를 통해 입력되는 영상신호 및 오디오신호는 다양한 형태로 콘텐츠소스로부터 제공될 수 있다. 예를 들면, 신호입력 인터페이스(410)를 통해 제공되는 신호는, 셋탑박스로부터 HDMI 규격에 따라서 전송되거나, 네트워크를 통해 서버로부터 제공되거나, USB 메모리로부터 제공되거나, 무선장치로부터 블루투스 통신을 통해 제공될 수 있다. 또는, 영상을 촬영하고 있는 카메라로부터 촬영영상이 실시간으로 신호입력 인터페이스(410)를 통해 제공될 수도 있다.
사용자 입력 인터페이스(420)는 다양한 형태의 사용자 입력이 수신된다. 디스플레이장치가 TV와 같이 고정 설치된 형태에서 사용자 입력 인터페이스(420)를 통한 사용자 입력신호는, 리모트 컨트롤러의 버튼을 사용자가 누르는 동작에 대응하거나, 리모트 컨트롤러에 설치된 압력센서 또는 터치패드 등에 연동될 수 있다. 또는, 디스플레이장치가 휴대용 기기와 같이 사용자에 의해 휴대 가능한 형태에서 사용자 입력신호는, 디스플레이장치에 설치된 자이로센서 또는 가속도센서에 대응할 수 있다. 그 외에도, 사용자 입력신호는 카메라를 통해 촬영되는 사용자의 제스쳐에 대응하거나, 마이크로폰을 통해 입력되는 사용자의 오디오에 대응할 수 있다.
영상처리부(200)는 영상디코더(210)와, 영상분석부(220)와, 영상조정부(230)와, 화질개선부(240)를 포함한다. 또한, 오디오처리부(300)는 오디오디코더(310)와, 음향분석부(320)와, 음향조정부(330)와, 음질개선부(340)를 포함한다. 물론 상기한 구성요소들은 본 발명의 실시예와 관련있는 것들이므로, 영상처리부(200) 및 오디오처리부(300)가 실제로 구현될 때에는 상기한 구성요소들 이외의 구성요소들도 포함할 수 있다.
영상처리부(200) 및 오디오처리부(300)의 이와 같은 구성요소들은 하드웨어 칩셋으로 구현되거나, 프로그래밍 코드를 포함하는 소프트웨어로 구현되거나, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 예를 들면, 영상처리부(200)가 프로세서 칩으로 구현되고, 상기한 구성요소들은 영상처리부(200)에 의해 처리되는 프로그램 코드일 수 있다.
영상처리부(200)의 영상처리 동작은 다음과 같다. 영상디코더(210)는 신호입력 인터페이스(410)로부터 입력되는 영상신호를 디코딩한다. 영상분석부(220)는 디코딩된 영상신호를 영상으로 표시하기 위해 필요한 영상신호의 여러 특성정보를 분석한다. 영상조정부(230)는 사용자 입력 인터페이스(420)로부터 수신되는 사용자 입력정보에 기초하여, 영상의 표시 상태가 조정되게 영상신호를 처리한다. 화질개선부(240)는 영상신호가 영상으로 표시될 때의 품질을 개선하기 위한 처리를 한다.
한편, 오디오처리부(300)의 오디오처리 동작은 다음과 같다. 오디오디코더(310)는 신호입력 인터페이스(410)로부터 입력되는 오디오신호를 디코딩한다. 음향분석부(320)는 디코딩된 오디오신호를 오디오로 출력하기 위해 필요한 오디오신호의 여러 특성정보를 분석한다. 음향조정부(330)는 영상조정부(230)에 의한 영상의 표시 상태 변화에 대응하여 오디오의 출력 상태가 조정되게 오디오신호를 처리한다. 음질개선부(340)는 오디오신호가 오디오로 출력될 때의 품질을 개선하기 위한 처리를 한다.
이와 같이, 영상조정부(230)가 사용자 입력 인터페이스(420)로부터의 사용자 입력신호에 응답하여 영상의 표시상태가 조정되게 처리하면, 즉 디스플레이부에 대한 영상의 표시 시점이 조정되게 처리하면, 음질개선부(340)는 이러한 영상의 표시상태 조정에 대응하여 오디오의 출력상태가 조정되게 처리한다. 이하, 콘텐츠 신호가 360도 카메라에 의해 촬영된 360도 영상, 즉 광각영상 콘텐츠인 경우에 본 발명의 실시예가 적용되는 형태에 관해 설명한다.
사용자 입력 인터페이스(420)로부터 영상조정부(230)에 전달되는 사용자 입력신호의 패러미터는, 영상에 대한 사용자의 시점(viewpoint) 좌표, 영상의 화각, 영상에 대한 줌 깊이 등을 포함할 수 있다. 영상조정부(230)는 이와 같은 패러미터에 대응하여 영상의 표시상태를 조정하고, 조정 결과에 관한 정보를 음향조정부(330)에 전달한다. 여기서, 영상조정부(230)로부터 음향조정부(330)에 전달되는 정보는, 현재 영상출력모드에 관한 정보, 콘텐츠제공자가 의도하는 시청 정보 등을 더 포함할 수 있다.
영상출력모드는 영상이 현재 디스플레이부에 어떠한 방식으로 표시되고 있는지를 나타낸다. 영상출력모드는 여러 가지 방식이 있으며, 예를 들면 360도 영상모드, 파노라마 모드, 멀티뷰 모드 등이 있다. 360도 영상모드는 카메라에 의해 촬영된 전체영상 중에서 일부 영역이 디스플레이부에 표시되는 상태이다. 사용자가 전체영상에 대한 시점을 조정하면, 전체영상이 패닝(panning)됨으로써 전체영상 중 타 영역이 디스플레이부에 표시된다. 파노라마 모드는 예를 들면 360도 전방향으로 촬영한 영상을 평면으로 펼치고, 펼쳐진 상태의 영상이 디스플레이부에 표시되는 상태이다. 멀티뷰 모드는 디스플레이부의 표시영역이 몇 개의 영역으로 분할되고, 복수 개의 영상이 각 분할영역에 표시되는 상태이다.
콘텐츠제공자가 의도하는 시청 정보의 예시로는, 특정 정보가 콘텐츠의 특정 시점에 표시되는 경우가 있다. 이 경우에, 시청 정보는 시간 함수로 존재하며, 콘텐츠 내에 메타데이터의 형태로 포함된다.
음향조정부(330)는 기본적으로 스피커 출력 레이아웃 정보를 취득하며, 이에 기초하여 채널 별 오디오신호를 각 채널단위 스피커에 출력한다. 스피커 출력 레이아웃 정보는 디스플레이장치에 설치되어 있는 단위 스피커의 채널 정보, 스피커의 특성 정보 등을 포함한다. 여기서, 음향조정부(330)는 영상조정부(230)로부터의 정보가 수신되면, 해당 정보에 기초하여 스피커를 통한 오디오의 출력상태를 조정한다.
영상조정부(230)가 영상의 표시상태를 조정하고 음향조정부(330)가 오디오의 출력상태를 조정하는, 각각의 구체적인 예시에 관해서는 후술한다.
한편, 앞선 설명에서는 사용자 입력 인터페이스(420)로부터의 사용자 입력신호가 영상조정부(230)에 전달되고, 영상조정부(230)로부터의 영상처리 정보가 음향조정부(330)에 전달됨으로써 음향조정부(330)가 영상처리 정보의 대응 처리를 수행하는 것으로 표현하였다. 그러나, 이는 디스플레이장치의 구현 방식의 하나의 예시일 뿐이며, 사용자 입력 인터페이스(420)로부터의 사용자 입력신호가 영상조정부(230) 및 음향조정부(330) 각각에 전달되고, 음향조정부(330)가 사용자 입력신호의 대응 처리를 수행하는 구성도 가능하다.
또한, 사용자 입력 인터페이스(420)로부터의 사용자 입력신호 뿐만 아니라, 콘텐츠 제공자가 의도하는 시청 정보가 존재할 수도 있다. 이러한 시청 정보는 콘텐츠의 영상을 표시하고 콘텐츠의 오디오를 출력함에 있어서, 최적의 상태로 사용자에게 제공될 수 있도록 사전에 마련된 정보로서, 예를 들면 영상에 대한 시점 또는 영상의 줌 깊이, 오디오의 볼륨 또는 주파수 별 증폭 레벨 등의 정보를 지정한다. 시청 정보는 영상조정부(230)에 전달된 이후에 영상조정부(230)로부터 음향조정부(330)로 다시 전달되거나, 또는 영상조정부(230) 및 음향조정부(330)에 각기 전달될 수 있다. 이로써, 디스플레이장치는 해당 시청 정보에 따라서 영상 및 오디오를 제공할 수 있다.
이와 같은 시청 정보는 콘텐츠소스로부터 제공되는 콘텐츠신호 내에 영상신호 및 오디오신호와 함께 메타데이터 또는 부가데이터의 형태로 존재하는 바, 디멀티플렉싱에 의해 콘텐츠신호로부터 추출될 수 있다. 또한, 시청 정보는 콘텐츠신호 내에 시간의 함수로서 존재하는데, 이에 의하여 디스플레이장치는 영상이 표시되는 동안에 각 시청 정보가 어느 시점에 적용되어야 하는지 판단할 수 있다.
영상처리부(200)에서 출력되는 영상신호는 디스플레이부로 전달되며, 오디오처리부(300)에서 출력되는 오디오신호는 스피커로 출력된다. 여기서, 영상처리부(200) 및 오디오처리부(300) 각각의 처리 동작은 디스플레이장치의 시스템 클럭에 따라서 수행된다. 디스플레이부에서 표시되는 영상 및 스피커로부터 출력되는 오디오의 동기를 맞추기 위해, 디스플레이장치는 시스템 클럭에 따라서 영상처리부(200)에서 출력되는 영상신호 및 오디오처리부(300)에서 출력되는 오디오신호 사이의 동기를 맞추는 동기부 등의 구성요소를 더 포함할 수 있다.
이와 같이, 디스플레이장치는 시점, 화각, 줌 깊이 등의 변화와 같은 사용자 요구에 대응하여 영상 및 오디오를 연동시켜 재생시킬 수 있는 바, 보다 현장감이 높은 시청환경을 제공할 수 있다.
그런데, 이와 같이 음향조정부(330)가 영상조정부(230)로부터 전달되는 영상처리 정보에 대응하여 오디오를 처리함에 있어서, 특정 음향특성의 조건을 만족하면 오디오의 출력상태를 조정하고 그렇지 않으면 오디오의 출력상태를 조정하지 않는 프로세스를 추가적으로 수행할 수도 있다. 이와 같은 프로세스는 음향분석부(320)가 수행하는 바, 즉 음향분석부(320)가 해당 조건을 만족한다고 판단하면 음향조정부(330)는 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정하며, 음향분석부(320)가 해당 조건을 만족하지 않는다고 판단하면 음향조정부(330)는 영상의 표시상태가 변화하였다고 하더라도 오디오의 출력상태를 조정하지 않는다.
이와 같은 프로세스의 한 가지 예시로서, 음향분석부(320)는 오디오신호가 현장녹음(Live recording)인지 여부를 판단할 수 있다. 음향분석부(320)에 의해 오디오신호가 현장녹음이라고 판단되면, 음향조정부(330)는 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정한다. 반면, 음향분석부(320)에 의해 오디오신호가 현장녹음이 아니라고 판단되면, 즉 오디오신호가 믹싱된 것으로 판단되면, 음향조정부(330)는 영상의 표시상태가 변화하였다고 하더라도 오디오의 출력상태를 조정하지 않는다.
카메라에 의해 소정의 대상 또는 환경을 촬영함으로써 콘텐츠 영상을 생성할 때에, 하나 이상의 마이크로폰으로 카메라의 촬영과 동시에 해당 대상 또는 환경으로부터의 오디오를 수집하여 콘텐츠 오디오를 생성할 수 있다. 이와 같이 생성되는 콘텐츠 오디오는 콘텐츠 영상과 동일하게 촬영대상 또는 촬영환경의 변화를 반영하므로, 콘텐츠 오디오가 콘텐츠 영상에 대응한다. 이와 같이 콘텐츠 오디오를 생성하는 방식을 현장녹음이라고 지칭한다.
현장녹음에 대비되는 방식은 믹싱 또는 마스터링 방식과 같은 후처리 녹음이 있다. 믹싱 방식은 두 가지 형태가 가능한데, 한 가지는 콘텐츠 제공자가 현장녹음 방식으로 생성된 오디오신호를, 예를 들어 촬영대상 별로 볼륨 등의 오디오특성을 인위적으로 조정하는 형태가 있다. 이러한 예시로는 음악 콘서트 콘텐츠에서 관객의 목소리의 볼륨을 줄이고 가수의 목소리의 볼륨을 높이는 경우가 있다.
또 한 가지는, 콘텐츠 제공자가 현장녹음 방식으로 생성된 오디오신호에 이와 상이한 별도 녹음된 오디오신호를 추가시키거나, 또는 현장녹음 방식으로 생성된 오디오신호 대신에 별도 녹음된 오디오신호를 콘텐츠에 적용하는 형태가 있다. 이러한 예시로는 다큐멘터리 콘텐츠에 나레이션 및 배경음악을 삽입하는 경우가 있다.
오디오신호가 현장녹음인 경우에는, 콘텐츠 오디오가 콘텐츠 영상과 마찬가지로 촬영환경에 대응하게 마련된다. 따라서, 이러한 경우에 디스플레이장치는 사용자 입력에 대응하여 콘텐츠 오디오의 출력상태를 조정함으로써 사용자에게 보다 개선된 현장감을 제공할 수 있다.
그러나, 오디오신호가 현장녹음이 아닌 경우에는, 콘텐츠 영상은 촬영환경에 대응하게 마련되는 반면에, 콘텐츠 오디오는 촬영환경에 대응하게 마련되지 않을 수 있다. 이러한 경우에 사용자 입력에 대응하여 콘텐츠 오디오의 출력상태를 조정하게 되면, 콘텐츠를 제공하는 콘텐츠 제공자가 의도한 음향 효과를 손상시킬 가능성이 높다. 따라서, 이러한 경우에 디스플레이장치는 사용자 입력이 수신되더라도, 콘텐츠 오디오의 출력상태를 조정하지 않는다.
이로써, 디스플레이장치는 콘텐츠 오디오의 특성에 따라서 보다 발전된 음향 환경을 사용자에게 제공할 수 있다.
이하, 본 발명의 실시예에 따른 디스플레이장치의 제어방법에 관해 설명한다.
도 3은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호를 처리하는 방법을 나타내는 플로우차트이다.
도 3에 도시된 바와 같이, S110 단계에서 디스플레이장치는 콘텐츠 신호를 수신한다. 디스플레이장치는 수신되는 콘텐츠 신호로부터 영상신호 및 오디오신호를 구분하여 각각을 처리한다.
S120 단계에서 디스플레이장치는 영상 조정을 지시하는 사용자 입력을 수신한다.
S130 단계에서 디스플레이장치는 사용자 입력에 대응하여 영상의 표시상태를 조정한다.
S140 단계에서 디스플레이장치는 오디오신호가 현장녹음으로 생성된 것인지 여부를 판단한다.
오디오신호가 현장녹음인 것으로 판단되면, S150 단계에서 디스플레이장치는 영상의 표시상태 조정에 대응하여 오디오의 출력상태를 조정한다.
반면, 오디오신호가 현장녹음이 아닌 것으로 판단되면, S160 단계에서 디스플레이장치는 오디오의 출력상태를 조정하지 않고 원래 상태를 유지한다.
이하, 영상의 표시상태 및 오디오의 출력상태를 조정하는 구체적인 예시에 관해 설명한다.
도 4는 본 발명의 실시예에 따른 디스플레이장치에 표시되는 광각영상 콘텐츠의 전체영상(510)을 나타내는 예시도이다.
도 4에 도시된 바와 같이, 360도 카메라와 같은 광각 카메라는 소정 대상을 촬영함에 있어서, 일반적인 디스플레이장치의 디스플레이부에 실제로 표시되는 크기보다 큰 영역의 전체영상(510)을 생성할 수 있다. 전체영상(510)의 크기 및 해상도는 카메라의 특성에 따라서 달라지는 값이므로 구체적인 수치에 의해 한정되지 않는다.
전체영상(510) 중에서 제1위치(521)가 디폴트로 결정되고, 제1위치(521)를 중심으로 하는 제1영역(520)이 디스플레이부에 디폴트로 표시되는 전체영상(510) 중에서 디스플레이부에 표시되는 영역이 된다. 특별한 사용자 입력이 없다면, 디스플레이장치는 기본적으로 전체영상(510) 중에서 제1영역(520)을 표시한다.
여기서, 만일 사용자의 시선이 제1위치(521)로부터 좌측 및 상측으로 이동하는 것을 나타내는 사용자 입력이 발생하는 경우를 고려한다. 사용자 입력은 전체영상(510)에서 사용자의 시선이 제1위치(521)에서 제2위치(531)로 이동하는 것을 지시한다. 디스플레이장치는 사용자 입력에 응답하여, 제1영역(520) 대신에 제2위치(531)를 중심으로 하는 제2영역(530)을 표시한다. 전체영상(510)의 측면에서 볼 때에 현재 표시되는 영역이 제1영역(520)으로부터 제2영역(530)으로 이동하는 것이므로, 이러한 동작을 영상의 패닝이라고 지칭한다.
또한, 사용자의 시선이 제1위치(521)로부터 우측으로 이동하는 것을 나타내는 사용자 입력이 발생할 수도 있다. 이 경우의 사용자 입력은 전체영상(510)에서 사용자의 시선이 제1위치(521)에서 제3위치(541)로 이동하는 것을 지시한다. 이에, 디스플레이장치는 제1영역(520) 대신에 제3위치(541)를 중심으로 하는 제3영역(540)을 표시한다.
사용자 입력은 다양한 인터페이스를 통해 수행될 수 있다. 만일 디스플레이장치가 TV와 같이 고정 설치된 형태라면, 사용자 입력은 리모트 컨트롤러의 버튼 조작 또는 터치패드 조작을 통해 수행될 수 있다. 또는, 디스플레이장치가 모바일 기기와 같이 사용자가 휴대할 수 있는 형태라면, 사용자 입력은 디스플레이장치 내에 설치된 자이로센서 또는 가속도센서를 통해 수행될 수 있다.
이와 같이, 디스플레이장치는 사용자 시선 변화에 대응하여 영상의 표시상태를 조정할 수 있다.
도 5는 본 발명의 실시예에 따른 디스플레이장치에 소정 오브젝트(611)를 포함한 영상(610)이 표시되는 모습을 나타내는 예시도이다.
도 5에 도시된 바와 같이, 디스플레이장치는 소정 시각 t(0)에 일 오브젝트(611)를 포함하는 영상(610)을 표시한다. 본 영상(610)은 앞선 도 4에서 설명한 바와 같은 광각영상에서 일부 영역이 디스플레이부에 표시되는 모습을 나타낸다. 현 시각에서 사용자의 시점(620)인 φ(0)은 0도이고, 사용자는 오브젝트(611)를 정면으로 보고 있는 상태이다.
이러한 경우에, 디스플레이장치는 사용자의 정면에 오브젝트(611)가 위치하는 상태를 반영하여 오디오를 출력한다. 예를 들면, 디스플레이장치는 스테레오 채널로 오디오를 출력하는 경우에, 오디오신호 내에서 오브젝트(611)에 대응하는 오디오성분의 L 채널 및 R 채널 각각의 출력 파워를 상호 균형적으로 출력할 수 있다.
이와 같은 상태에서, 사용자의 시점(620)이 0도에서 반시계방향으로 30도 회전하는 경우, 즉 시각 t(0)에서의 φ(0)이 0도인 상태에서, 시각 t(1)에서의 φ(1)이 30도로 변화하는 경우를 고려한다. 이는 사용자의 시점이 오브젝트(611)의 좌측으로 이동한다는 것을 뜻하므로, 상대적으로 오브젝트(611)는 사용자를 기준으로 볼 때에 우측, 즉 A 방향으로 이동하는 것처럼 나타난다.
도 6은 도 5의 상태로부터 사용자의 시점이 반시계방향으로 30도 이동하였을 때에 변화하는 영상(630)을 나타내는 예시도이다.
도 6에 도시된 바와 같이, 시각 t(1)에서 사용자 시점(640) φ(1)이 30도가 되면, 디스플레이장치는 전체영상을 패닝함으로써 사용자 시점(640)에 대응하는 영상(630)을 표시한다. 본 영상(630)을 도 5의 경우와 비교하면, 오브젝트(611)가 중앙으로부터 우측으로 이동한 것처럼 나타난다.
만일 사용자 시점(640)의 변화에 대응하여 이와 같이 영상(630)이 변화한 상태에서 오디오출력을 그대로 두는 경우를 고려한다. 이 경우에, 오브젝트(611)가 사용자 시점(640)에서 우측에 있음에도 불구하고, 사용자는 오브젝트(611)로부터의 오디오가 사용자의 정면으로부터 들려오는 것처럼 느낄 것이다. 이는 사용자 입장에서는 영상 및 오디오의 불일치를 초래한다.
이에, 디스플레이장치는 영상(630)의 표시상태 변화에 대응하여 오디오의 출력상태를 조정한다. 본 실시예의 경우에, 디스플레이장치는 오브젝트(611)가 사용자 시점(640)의 우측으로 이동한 상태에 대응하여, 오브젝트(611)로부터의 오디오가 사용자 시점(640)의 우측으로부터 사용자에게 전달되도록 출력한다. 예를 들면, 디스플레이장치는 오디오신호 중 오브젝트(611)의 오디오성분에 있어서 L 채널의 출력 파워에 비해 R 채널의 출력 파워가 높아지도록 조정할 수 있다.
이와 같이, 디스플레이장치는 사용자의 시점 변화에 대응하여 영상의 표시상태 및 오디오의 출력상태를 각각 조정할 수 있다.
도 7은 본 실시예에 따른 디스플레이장치가 복수의 오브젝트(651, 652)를 포함한 영상(650)을 표시하는 모습을 나타내는 예시도이다.
도 7에 도시된 바와 같이, 디스플레이장치는 복수의 오브젝트(651, 652)를 포함한 영상(650)을 표시한다. 예를 들어, 영상(650) 내에 제1오브젝트(651) 및 제2오브젝트(652)가 있을 때, 제1오브젝트(651)는 사용자 시점(660) 상에 위치하고, 제2오브젝트(652)는 사용자 시점(660)으로부터 우측에 위치한다.
또한, 제1오브젝트(651) 및 제2오브젝트(652) 각각으로부터 오디오가 출력되며, 위치 상 제2오브젝트(652)의 오디오가 제1오브젝트(651)의 오디오에 비해 크게 출력된다. 제2오브젝트(652)가 사용자 시점(660)의 축선에 상대적으로 멀리 떨어지지 않으면서도 제1오브젝트(651)보다 사용자 시점(660)에 근접하게 위치하면, 제2오브젝트(652)의 오디오가 제1오브젝트(651)의 오디오보다 클 수 있다.
이와 같은 상태에서, 앞선 실시예처럼 사용자 시점이 변화할 수도 있지만, 사용자의 시점이 그대로 유지되고 줌 깊이만 조정되는 것도 가능하다. 시각 t(0)의 줌 깊이 D(0)가 0%일 때, 사용자 입력은 줌 깊이를 보다 증가시킴으로써 현재 영상을 보다 확대시켜 표시되도록 지시할 수 있다.
도 8은 도 7의 상태로부터 줌 깊이를 증가시켰을 때에 변화하는 영상(670)을 나타내는 예시도이다.
도 8에 도시된 바와 같이, 디스플레이장치는 시각 t(0)이 t(1)로 경과함에 따라서 줌 깊이가 D(1)=90%로 증가하면, 지시되는 줌 깊이에 대응하여 제1오브젝트(651)를 중심으로 확대된 영상(670)을 표시한다. 앞선 도 7의 경우와 비교할 때, 사용자 시점(660)은 변화하지 않았으므로 영상(670)의 중심에는 제1오브젝트(651)가 위치하고 영상(670)의 우측에는 제2오브젝트(652)가 위치한다.
디스플레이장치는 이와 같은 영상(670)의 표시상태 조정에 대응하여, 오디오 출력을 조정한다. 구체적으로, 사용자 시점(660) 상의 제1오브젝트(651)가 보다 근접하게 되는 바, 디스플레이장치는 오디오신호 중에서 제1오브젝트(651)의 오디오성분의 출력 파워를 높이고 그 외의 제2오브젝트(652)의 오디오성분의 출력 파워를 낮춤으로써, 제1오브젝트(651)의 오디오의 명료도를 증가시킨다.
한편, 앞선 실시예에서 설명한 바와 같이, 디스플레이장치는 오디오신호가 현장녹음이라고 판단하면 영상의 표시상태 변화에 대응하여 오디오의 출력상태를 조정하고, 오디오신호가 현장녹음이 아니라고 판단하면 영상의 표시상태가 변화하더라도 오디오의 출력상태를 조정하지 않는다. 여기서, 디스플레이장치는 오디오의 출력상태가 조정되는 경우에는 음질개선부(340, 도 2 참조)에 의한 음질개선 프로세스를 수행하고, 오디오의 출력상태를 조정하지 않는 경우에는 기 설정된 공간 필터링을 수행할 수 있다.
공간 필터링은 오디오신호에 대해 여러 가지 형태의 추가적인 이펙트를 부여하는 것으로서, 예를 들면 Decorrelation, Stereo Widening, Distance Filter, Reverberation/De-reverberation 등의 다양한 프로세스가 적용될 수 있다.
디스플레이장치가 오디오신호를 처리하고 오디오를 출력함에 있어서, 여러 가지정보 또는 패러미터가 참조될 수 있다. 오디오신호를 처리하기 위해 필요한 정보로는 nChannels, chPCM, chType, nMics, micPositions, micType 등이 있다.
여기서, nChannels은 스테레오, 3.1, 5.1 등과 같은 오디오채널의 수를 나타낸다. chPCM은 오디오채널의 Raw 데이터를 나타낸다. chType은 오디오신호 내에서 오브젝트의 음원을 판별하기 위한 오디오성분의 식별값이다. nMics는 오디오를 수집할 때에 사용된 마이크로폰의 타입을 나타내는 바, 예를 들면 무지향성 마이크로폰, 지향성 마이크로폰 등이 있다. micPositions은 마이크로폰이 어레이로 구현되는 경우에, 어레이 내에서 각 마이크로폰 사이의 간격 등을 포함한 마이크로폰 간 절대위치 또는 상대위치를 나타낸다. 그 외에도 오디오의 출력 또는 조정에 필요한 정보 및 파라미터들이 추가로 사용될 수 있다.
한편, 디스플레이장치는 오디오출력 상태를 조정하기 위해, 다양한 정보를 참조할 수 있다. 이러한 정보의 예로는 panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, userOrientation 등이 있다. 이들 정보는 대체적으로 영상표시 상태의 변화를 반영하여 영상조정부(230, 도 2 참조)로부터 음향조정부(330, 도 2 참조)로 전달되는 값이지만, 사용자 입력 인터페이스(420, 도 2 참조)로부터 전달될 수도 있다.
여기서, panoramaFlag는 영상출력모드가 파노라마 모드인지 여부를 나타낸다. 디스플레이장치는 panoramaFlag=0이라면 오디오신호에 대해 좌우 음상 제어가 아닌 상하 음상의 고도감 제어 기능만 적용하는 반면, panoramaFlag=1이라면 좌우 음상 제어 및 상하 음상 제어 기능을 모두 적용한다. 이는 파노라마 모드가 좌우가 확장된 영상 출력하는 모드이기 때문이다.
multiviewFlag는 영상출력모드가 멀티뷰 모드인지 여부를 나타낸다. 디스플레이장치는 multiviewFlag=0일 때에는 한 화면에 여러 시점의 영상을 동시에 표시하며, 이 때에는 음향조정부(330, 도 2 참조)를 동작시키지 않고 오디오신호를 그대로 오디오처리부로부터 출력한다. 예를 들어, 한 화면에 표시되는 멀티뷰의 수가 N개이고 사용자가 n번째 화면을 선택하였다면, multiviewFlag=n이 된다. 이 경우에, 디스플레이장치는 n번째 화면의 사용자 시점에 맞게 음향조정부(330, 도 2 참조)를를 동작시킨 후, 오디오신호를 조정한다.
screenwidth 및 screenHeight는 디스플레이부의 물리적인 크기를 나타낸다. horiFOV 및 vertFOV는 표시되는 영상의 수평방향 및 고도방향의 Field of View를 나타낸다. 만일 screenwidth 및 screenHeight가 horiFOV 및 vertFOV보다 매우 크다면 줌 깊이가 커지는 경우로 판단되는 바, 디스플레이장치는 사용자 시점에 대응하는 오브젝트의 오디오의 출력 파워를 높이고, 그 주위의 오브젝트 또는 환경의 오디오의 출력 파워를 낮추도록 동작할 수 있다. 반면, horiFOV 및 vertFOV가 상대적으로 매우 커진다면 현재 파노라마 모드인 것으로 판단되는 바, 디스플레이장치는 상기 설명한 파노라마 모드에 대응되는 음향 조정을 수행할 수 있다.
userZoomDepth는 앞서 설명한 바와 같이 줌 깊이가 커지는 경우에, 영상의 일부분을 확대하여 볼 때 느껴지는 음향효과를 적용하여야 한다. 예를 들면, 디스플레이장치는 사용자 시점에 대응하는 오브젝트의 존재 여부를 판단하고, 해당 오브젝트의 오디오를 증폭시켜주는 처리를 수행할 수 있다. 사용자가 시청하는 영상 시점, 즉 Orientation 정보가 변화할 때, 디스플레이장치는 이를 역보상하여 음상의 위치를 조정할 수 있다.
이상 설명한 파라미터 외 추가 요소들도 음향의 조정에 사용될 수 있다.
이상의 정보 중에서 nChannels 및 chPCM은 일반적으로 오디오의 디코딩 이후에 취득되는 데이터며, chType, nMics, micPositions, micType는 음향 분석을 위해 필요한 패러미터이다. 한편, panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV, userZoomDepth, userOrientation는 오디오신호 입력 시에 전달되는 패러미터가 아닌, 영상처리부 또는 사용자 입력에 의해 전달되는 패러미터이다. panoramaFlag, miltiviewFlag, screenwidth, screenHeight, horiFOV / vertFOV는 영상처리부로부터 입력되는 값이며, userZoomDepth, userOrientation는 사용자 입력에 의해 전달되는 값이다. 또는, 이상의 정보는 오디오신호와 함께 입력되거나, UI를 통해 입력됨으로써 영상신호의 메타데이터와 동일 경로를 통해 전달될 수도 있다.
한편, 앞선 실시예에서는 디스플레이장치가 오디오신호의 현장녹음 여부를 판단한다고 설명하였는데, 현장녹음 여부를 판단하는 구체적인 방법은 여러 가지가 가능한 바, 이하 이러한 실시예에 관해 설명한다.
도 9는 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 일 과정을 나타내는 플로우차트이다.
도 9에 도시된 바와 같이, S210 단계에서 디스플레이장치는 스테레오 채널 오디오신호를 취득한다.
S220 단계에서 디스플레이장치는 오디오신호로부터 좌측(L) 채널, 우측(R) 채널, 센터(C) 채널을 분리한다. 센터 채널은 오디오신호에서 좌측채널 및 우측채널에 공통적으로 포함되는 오디오성분이다.
S230 단계에서 디스플레이장치는 Correlated 신호 및 Ambient 신호의 출력파워 비율을 산출한다. 여기서, Correlated 신호는 센터채널의 오디오성분이다. Ambient 신호는 좌측채널의 오디오성분으로부터 센터채널의 오디오성분을 뺀 오디오성분이거나, 또는 우측채널의 오디오성분으로부터 센터채널의 오디오성분을 뺀 오디오성분을 지칭한다.
Correlated 신호 및 Ambient 신호의 출력파워 비율 Γ는 여러 가지 형태로 표현할 수 있는데, 한 가지 예시로는 다음과 같은 수학식으로 나타낼 수 있다.
[수학식]
Γ=20*log10[(Σn|L'[n])/(Σn|C'[n])]
L은 좌측채널, C는 센터채널을 의미한다. 위 수학식은 L 대신 R로 대체하여 사용될 수도 있다.
S240 단계에서 디스플레이장치는 Correlated 신호 및 Ambient 신호의 출력파워 비율 Γ이 기 설정된 문턱값 Γth보다 큰지 여부를 판단한다.
Γ>Γth라고 판단되면, S250단계에서 디스플레이장치는 오디오신호가 현장녹음인 것으로 판단한다. 반면, Γ≤Γth라고 판단되면, S260 단계에서 디스플레이장치는 오디오신호가 현장녹음이 아니라고 판단한다.
스튜디오에서 오디오가 믹싱된 경우가 아닌, 실제 공간에서 마이크로폰 어레이를 사용하여 현장녹음이 된 경우에는, 오디오가 수집된 환경에 대한 잔향 및 노이즈에 의한 영향이 각각 마이크로폰에 의해 수집된다. 만일 콘텐츠 제공자가 전처리 등을 통해 노이즈 제거가 수행되지 않은 경우라면, 이러한 잔향 및 노이즈 영향이 오디오채널에 포함된다. 따라서, 디스플레이장치는 Correlated 신호 대비 Ambient 신호 파워 비율을 추정함으로써 현장녹음 여부를 판별할 수 있다.
도 10은 본 발명의 실시예에 따른 디스플레이장치가 오디오신호의 현장녹음 여부를 판단하는 다른 과정을 나타내는 플로우차트이다.
도 10에 도시된 바와 같이, S310 단계에서 디스플레이장치는 스테레오 채널 오디오신호를 취득한다.
S320 단계에서 디스플레이장치는 오디오신호로부터 L채널 및 R채널을 분리한다.
S330 단계에서 디스플레이장치는 채널간 레벨차이(Inter-channel Level Difference, ICLD) σ를 산출한다. 스튜디오에서 오디오 믹싱에 자주 사용되는 기술로서, L/R 신호에 동일한 신호를 Amplitude Panning하는 기술이 적용된다. 이러한 믹싱 방식의 유무를 판별함으로써 오디오신호가 현장녹음이 아니라는 것이 역으로 추정될 수 있다. 예를 들면, 일 시구간의 영상 내에서 오브젝트의 오디오의 L채널 및 R채널 사이의 파워 편차가 상대적으로 크다는 것은 오디오신호가 현장녹음일 확률이 높다는 것을 뜻하고, 오브젝트의 오디오의 L채널 및 R채널 사이의 파워 편차가 미비하다는 것은 오디오신호가 믹싱된 것일 확률이 높다는 것을 뜻한다. 이러한 원리에 따라서, L/R 채널간 전달함수를 기초로 하여, 시간-주파수 영역 또는 시간, 주파수 각각의 독립적인 축을 기준으로 ICLD가 산출될 수 있다.
S340 단계에서 디스플레이장치는 ICLD 값 σ이 기 설정된 문턱값 σth보다 큰지 여부를 판단한다.
σ>σth라고 판단되면, S350 단계에서 디스플레이장치는 오디오신호가 현장녹음이라고 판단한다. 반면, σ≤σth라고 판단되면, S360 단계에서 디스플레이장치는 오디오신호가 현장녹음이 아니라고 판단한다.
또는, 디스플레이장치는 오디오신호가 듀얼 모노(Dual Mono)인지 여부에 따라서 현장녹음 여부를 판단할 수도 있다. 듀얼 모노는 예를 들면 오디오신호의 좌측채널의 오디오성분 및 우측채널의 오디오성분이 상호 동일하거나 유사도가 높은 경우를 나타낸다. 듀얼 모노는 믹싱 방식의 경우에 나타날 수 있는 형태이며, 현장녹음의 경우에는 잘 나타나지 않는다. 이에, 디스플레이장치는 오디오신호가 듀얼 모노이면 현장녹음이 아니라고 판단하고, 오디오신호가 듀얼 모노가 아니면 현장녹음이라고 판단한다.
이와 같은 방법에 따라서, 디스플레이장치는 오디오신호의 현장녹음 여부를 용이하게 판단할 수 있다.
이하, 디스플레이장치의 음향조정부가 음향을 조정하는 구체적인 과정에 관해 설명한다.
도 11은 본 발명의 실시예에 따른 디스플레이장치에 적용되는 음향조정부(700)의 구성 블록도이다.
도 11에 도시된 바와 같이, 사용자 입력에 따른 패러미터, 예를 들면 사용자 시점, 화각, 줌 깊이 등에 의해 영상 및 오디오가 조정되어야 하는 바, 음향조정부(700)는 오디오신호를 처리함으로써 오디오의 출력상태를 조정한다.
오디오신호의 각 채널 데이터는 가상 마이크로폰 신호 생성부(710) 및 음원 방향 감지부(720)에 입력된다.
가상 마이크로폰 신호 생성부(710)는 오디오신호의 오디오성분들 중에서 방향성이 있는 성분과 방향성이 없는 성분을 분리하도록 Channel Separation, Ambience Extraction, 또는 Center Channel Separation 기능이 수행될 수 있다. 또는 가상 마이크로폰 신호 생성부(710)는 M-Nch Format Converter (M<N)가 적용되거나 또는Decorrelation을 통하여, 오디오신호의 실제 채널보다 많은 수의 채널로 변환시키는 up-mix 등을 수행할 수 있다.
음원 방향 감지부(720)는 영상 내에서 각기 음원이 되는 오브젝트들이 있을 때, 각 오브젝트의 방향 정보를 취득한다. 오브젝트의 방향 정보는 ICTD(Inter-channel time difference)를 측정함으로써 취득될 수 있다. ICTD는 주파수 도메인 상에서 오디오신호의 각 주파수 bin별 phase의 slope 연산을 통하거나, 또는 GCC(Generalized Cross Correlation) 중 PHAT-GCC(PHAse-Transform)와 같은 기법의 Peak 위치에 해당되는 time sample의 계산을 통하거나, 그 외에도 Zero-crossing 연산 등을 통해 추정될 수 있다.
인터랙티브 신호 생성부(730)는 음원의 방향 정보, 가상 마이크로폰 신호, 변경된 사용자의 시점 정보를 이용하여, 출력 스피커 레이아웃에 맞게 현 시점에서 시청자에게 전달되어야 할 음상을 재현할 수 있는 오디오 정보를 생성한다.
이 때, 현장 녹음된 오디오 신호를 대상으로 하는 경우, 음원방향 감지부(720)를 통해 음원의 방향(φs)을 추정할 수 있다. 현장 녹음이 아닌 스튜디오에서 믹싱 또는 마스터링된 음원을 대상으로 하는 경우엔 φs를 0도, 즉 정면으로 가정하여 인터랙티브 신호 생성부(730)를 적용할 수도 있다. 사용자의 시점 정보(φv)는 사용자 인터페이스를 통해 측정이 가능하다. 인터랙티브 신호 생성부(730)에서는 최종적으로 가상 마이크로폰 신호 생성부(710)에서 수신받은 오디오 데이터 중 방향성이 있는 오디오 성분 혹은 센터 채널로 분리된 성분에 대해서는 (φsv) 방향에 위치시키는 패닝 계수를 적용하고, ambient 성분 등과 같은 그 외 성분에 대해서는 패닝 계수를 적용하지 않는 방안이 가능하다. 이 때, 패닝계수는 출력 스피커레이아웃 정보에 기반하여 Vector-based Amplitude Panning/Phase Panning 등의 기법을 통해 생성될 수 있다.
한편, 사용자 입력이 줌 깊이 변화를 지시하는 경우에, 음향조정부(700)는 음원 방향 감지부(720)에 의해 감지된 오브젝트의 방향과, 사용자가 줌 깊이를 변화시킨 시점을 비교함으로써, 줌 위치에 오브젝트가 위치하는지 여부를 판단할 수 있다. 오브젝트의 방향과 줌 방향이 일치하면, 음향조정부(700)는 해당 오브젝트의 오디오성분을 증폭시키는 한편 그 외의 Ambient 신호의 파워는 좌우로 패닝하거나 저감시키는 동작을 수행함으로써, 줌 효과를 제공할 수 있다.
이와 같이, 본 실시예에 따른 디스플레이장치는 시점, 화각, 줌 깊이 등과 같이 사용자가 원하는 시청 조건에 대응하게 영상 및 오디오를 연동시켜 사용자에게 실시간으로 전달하는 바, 보다 고실감의 시청환경을 사용자에게 제공할 수 있다.
본 발명의 예시적 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체는 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 이동 단말 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 본 저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어의 기술 분야에서 숙련된 기술자에게 공지되어 사용 가능한 것일 수도 있다.
상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.

Claims (15)

  1. 디스플레이장치에 있어서,
    디스플레이부와;
    스피커와;
    사용자입력부와;
    상기 디스플레이부에 영상이 표시되게 영상신호를 처리하며, 상기 사용자입력부를 통한 사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점이 변화되도록 처리하는 영상처리 프로세서와;
    상기 스피커로부터 오디오가 출력되게 오디오신호를 처리하며, 상기 오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 오디오처리 프로세서를 포함하는 것을 특징으로 하는 디스플레이장치.
  2. 제1항에 있어서,
    상기 오디오처리 프로세서는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 것을 특징으로 하는 디스플레이장치.
  3. 제2항에 있어서,
    상기 오디오처리 프로세서는, 상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하고, 상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 것을 특징으로 하는 디스플레이장치.
  4. 제2항에 있어서,
    상기 오디오처리 프로세서는, 상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 것을 특징으로 하는 디스플레이장치.
  5. 제1항에 있어서,
    상기 오디오처리 프로세서는, 후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 것을 특징으로 하는 디스플레이장치.
  6. 제1항에 있어서,
    상기 영상신호는 광각 카메라에 의해 촬영된 광각영상을 포함하며,
    상기 영상처리 프로세서는 상기 광각영상의 일부 영역이 상기 디스플레이부에 상기 영상으로 표시되게 처리하는 것을 특징으로 하는 디스플레이장치.
  7. 제6항에 있어서,
    상기 영상처리 프로세서는, 사용자 시점의 이동을 지시하는 상기 사용자 입력에 응답하여 상기 광각영상을 패닝시킨 영상을 상기 디스플레이부에 표시하며,
    상기 오디오처리 프로세서는, 상기 패닝 동작에 따른 음원의 위치 변화를 판단하고, 상기 음원의 변화된 위치에 대응하여 상기 오디오신호 내에서 상기 음원의 채널 별 오디오성분의 출력파워를 조정함으로써 상기 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
  8. 제7항에 있어서,
    상기 사용자 입력은, 상기 영상에 대한 사용자의 디폴트 시점 및 상기 이동한 사용자 시점 사이의 각도 정보를 포함하는 것을 특징으로 하는 디스플레이장치.
  9. 제6항에 있어서,
    상기 영상처리 프로세서는, 상기 영상의 줌 깊이의 변화를 지시하는 상기 사용자 입력에 응답하여 상기 영상이 확대 또는 축소되게 조정하여 상기 디스플레이부에 표시하며,
    상기 오디오처리 프로세서는, 사용자에 대한 상기 변화된 영상 내 음원의 거리 변화를 판단하고, 상기 음원의 거리 변화에 대응하여 상기 오디오신호 내에서 상기 음원의 오디오성분의 출력파워를 증감시킴으로서 상기 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
  10. 제1항에 있어서,
    상기 오디오처리 프로세서는 콘텐츠 제공자로부터 상기 오디오신호와 함께 제공되는 시청 정보를 취득하고, 상기 시청 정보에 대응하는 상기 음향 특성에 따라서 상기 스피커로부터의 오디오 출력을 조정하는 것을 특징으로 하는 디스플레이장치.
  11. 디스플레이부 및 스피커를 포함하는 디스플레이장치의 프로세서에 의해 실행 및 처리 가능하게 마련된 방법의 프로그램 코드를 저장하는 기록매체에 있어서,
    상기 방법은,
    상기 디스플레이부에 영상을 표시하는 단계와;
    상기 스피커로부터 오디오를 출력하는 단계와;
    사용자 입력에 따라서 상기 디스플레이부에 표시되는 상기 영상의 시점을 변화시키는 단계와;
    오디오신호의 음향 특성을 판단하고, 상기 사용자 입력에 대응하여 상기 음향 특성에 따라 상기 스피커로부터의 오디오 출력을 조정하는 단계를 포함하는 것을 특징으로 하는 기록매체.
  12. 제11항에 있어서,
    상기 스피커로부터의 오디오 출력을 조정하는 단계는, 상기 오디오신호가 현장녹음 방식으로 생성되었는지 여부를 판단함으로써 상기 음향 특성을 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
  13. 제12항에 있어서,
    상기 음향 특성을 판단하는 단계는,
    상기 오디오신호에서 센터채널의 오디오성분에 해당하는 제1성분과, 좌측채널 및 우측채널 중 어느 하나로부터 상기 제1성분을 차감한 오디오성분에 해당하는 제2성분을 도출하는 단계와;
    상기 제1성분 및 상기 제2성분의 파워 비율이 기 설정된 문턱값보다 크면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
  14. 제12항에 있어서,
    상기 음향 특성을 판단하는 단계는,
    상기 오디오신호에서 좌측채널의 오디오성분 및 우측채널의 오디오성분 사이의 유사도가 기 설정값보다 작으면 상기 오디오신호가 상기 현장녹음 방식으로 생성된 것으로 판단하는 단계를 포함하는 것을 특징으로 하는 기록매체.
  15. 제11항에 있어서,
    상기 스피커로부터의 오디오 출력을 조정하는 단계는,
    후처리 녹음 방식으로 생성된 것으로 판단되면 상기 사용자 입력에 무관하게 상기 스피커로부터의 오디오 출력을 조정하지 않는 단계를 포함하는 것을 특징으로 하는 기록매체.
PCT/KR2017/005265 2016-07-11 2017-05-22 디스플레이장치와, 기록매체 WO2018012727A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/317,424 US10939039B2 (en) 2016-07-11 2017-05-22 Display apparatus and recording medium
EP17827801.6A EP3468171B1 (en) 2016-07-11 2017-05-22 Display apparatus and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160087670A KR102561371B1 (ko) 2016-07-11 2016-07-11 디스플레이장치와, 기록매체
KR10-2016-0087670 2016-07-11

Publications (1)

Publication Number Publication Date
WO2018012727A1 true WO2018012727A1 (ko) 2018-01-18

Family

ID=60951805

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/005265 WO2018012727A1 (ko) 2016-07-11 2017-05-22 디스플레이장치와, 기록매체

Country Status (4)

Country Link
US (1) US10939039B2 (ko)
EP (1) EP3468171B1 (ko)
KR (1) KR102561371B1 (ko)
WO (1) WO2018012727A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104616A (zh) * 2018-09-05 2018-12-28 北京优酷科技有限公司 一种直播间的语音连麦方法及客户端

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102482960B1 (ko) 2018-02-07 2022-12-29 삼성전자주식회사 듀얼 스피커를 이용한 오디오 데이터 재생 방법 및 그의 전자 장치
US11055346B2 (en) 2018-08-03 2021-07-06 Gracenote, Inc. Tagging an image with audio-related metadata
WO2021018378A1 (en) * 2019-07-29 2021-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for processing a sound field representation in a spatial transform domain

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090154896A1 (en) * 2007-12-17 2009-06-18 Hitachi, Ltd. Video-Audio Recording Apparatus and Video-Audio Reproducing Apparatus
EP2352290A1 (en) * 2009-12-04 2011-08-03 Swisscom (Schweiz) AG Method and apparatus for matching audio and video signals during a videoconference
US20120290297A1 (en) * 2011-05-11 2012-11-15 International Business Machines Corporation Speaker Liveness Detection
US20150058877A1 (en) * 2013-08-21 2015-02-26 Harman International Industries, Incorporated Content-based audio/video adjustment
US20160182799A1 (en) * 2014-12-22 2016-06-23 Nokia Corporation Audio Processing Based Upon Camera Selection

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714997A (en) 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
US7338373B2 (en) * 2002-12-04 2008-03-04 Nintendo Co., Ltd. Method and apparatus for generating sounds in a video game
JP2007065352A (ja) * 2005-08-31 2007-03-15 Showa Denko Kk 立体表示装置及び方法
JP4637725B2 (ja) 2005-11-11 2011-02-23 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
EP1974344A4 (en) 2006-01-19 2011-06-08 Lg Electronics Inc METHOD AND APPARATUS FOR DECODING A SIGNAL
US8219400B2 (en) * 2008-11-21 2012-07-10 Polycom, Inc. Stereo to mono conversion for voice conferencing
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2680616A1 (en) * 2012-06-25 2014-01-01 LG Electronics Inc. Mobile terminal and audio zooming method thereof
US9369547B2 (en) * 2013-03-05 2016-06-14 Disney Enterprises, Inc. Transcoding on virtual machines using memory cards
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US9451162B2 (en) 2013-08-21 2016-09-20 Jaunt Inc. Camera array including camera modules
US9888333B2 (en) * 2013-11-11 2018-02-06 Google Technology Holdings LLC Three-dimensional audio rendering techniques
KR101808810B1 (ko) 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
CN106797499A (zh) 2014-10-10 2017-05-31 索尼公司 编码装置和方法、再现装置和方法以及程序
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US20170339507A1 (en) * 2016-05-18 2017-11-23 Cyberlink Corp. Systems and methods for adjusting directional audio in a 360 video
WO2017221216A1 (en) * 2016-06-23 2017-12-28 Killham Josh Positional audio assignment system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090154896A1 (en) * 2007-12-17 2009-06-18 Hitachi, Ltd. Video-Audio Recording Apparatus and Video-Audio Reproducing Apparatus
EP2352290A1 (en) * 2009-12-04 2011-08-03 Swisscom (Schweiz) AG Method and apparatus for matching audio and video signals during a videoconference
US20120290297A1 (en) * 2011-05-11 2012-11-15 International Business Machines Corporation Speaker Liveness Detection
US20150058877A1 (en) * 2013-08-21 2015-02-26 Harman International Industries, Incorporated Content-based audio/video adjustment
US20160182799A1 (en) * 2014-12-22 2016-06-23 Nokia Corporation Audio Processing Based Upon Camera Selection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104616A (zh) * 2018-09-05 2018-12-28 北京优酷科技有限公司 一种直播间的语音连麦方法及客户端

Also Published As

Publication number Publication date
KR20180006798A (ko) 2018-01-19
KR102561371B1 (ko) 2023-08-01
EP3468171A4 (en) 2019-10-09
US20190320114A1 (en) 2019-10-17
EP3468171A1 (en) 2019-04-10
EP3468171B1 (en) 2021-12-29
US10939039B2 (en) 2021-03-02

Similar Documents

Publication Publication Date Title
WO2018012727A1 (ko) 디스플레이장치와, 기록매체
WO2011115430A2 (ko) 입체 음향 재생 방법 및 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2012044128A2 (ko) 디스플레이 장치 및 신호 처리 장치와, 그 방법들
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2011005025A2 (en) Signal processing method and apparatus therefor using screen size of display device
WO2013100376A1 (en) Apparatus and method for displaying
WO2014107025A1 (en) Method and apparatus for controlling contents in electronic device
WO2013172636A1 (en) Display apparatus, server, and controlling method thereof
WO2018093160A2 (ko) 디스플레이장치, 시스템 및 기록매체
WO2017065444A1 (ko) 전자기기 및 전자기기의 제어방법
WO2016003165A1 (ko) 외부 장치를 이용한 방송 데이터 처리 방법 및 장치
WO2014175591A1 (ko) 오디오 신호처리 방법
WO2021066565A1 (en) Image processing method and electronic device supporting the same
WO2019031767A1 (en) DISPLAY APPARATUS AND CONTROL METHOD THEREOF
WO2019160237A1 (en) Electronic device and method for controlling display of images
JP4956843B2 (ja) 端末装置及びプログラム
WO2022059869A1 (ko) 영상의 음질을 향상시키는 디바이스 및 방법
WO2013187688A1 (en) Method for processing audio signal and audio signal processing apparatus adopting the same
WO2019177369A1 (ko) 동영상 콘텐트에 포함된 블랙 영역을 검출하기 위한 방법 및 그 전자 장치
WO2019098619A1 (ko) 디스플레이장치 및 그 제어방법과 기록매체
KR102138835B1 (ko) 정보 노출 방지 영상 제공 장치 및 방법
CN114667737B (zh) 基于用户输入的多路输出控制
WO2021075672A1 (ko) 디스플레이 장치 및 그 동작방법
TW201828712A (zh) 根據單聲道音訊資料提供立體聲效果的影音處理方法及影音處理裝置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17827801

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017827801

Country of ref document: EP

Effective date: 20190102